Report 5 - Phylogenetic analysis of SARS-CoV-2
Key info
Date:
15 February 2020
Authors:
Erik Volz1, Marc Baguelin, Sangeeta Bhatia, Adhiratha Boonyasiri, Anne Cori, Zulma Cucunubá, Gina Cuomo-Dannenburg, Christl A. Donnelly, Ilaria Dorigatti, Rich FitzJohn, Han Fu, Katy Gaythorpe, Azra Ghani, Arran Hamlet, Wes Hinsley, Natsuko Imai, Daniel Laydon, Gemma Nedjati-Gilani, Lucy Okell, Steven Riley, Sabine van Elsland, Haowei Wang, Yuanrong Wang, Xiaoyue Xi, Neil M. Ferguson
1Correspondence:
Erik Volz
e.volz@imperial.ac.uk
WHO Collaborating Centre for Infectious Disease Modelling; MRC Centre for Global Infectious Disease Analysis; Abdul Latif Jameel Institute for Disease and Emergency Analytics; Imperial College London, UK
Summary
Genetic diversity of SARS-CoV-2 (formerly 2019-nCoV), the virus which causes COVID-19, provides information about epidemic origins and the rate of epidemic growth. By analysing 53 SARS-CoV-2 whole genome sequences collected up to February 3, 2020, we find a strong association between the time of sample collection and accumulation of genetic diversity. Bayesian and maximum likelihood phylogenetic methods indicate that the virus was introduced into the human population in early December and has an epidemic doubling time of approximately seven days. Phylodynamic modelling provides an estimate of epidemic size through time. Precise estimates of epidemic size are not possible with current genetic data, but our analyses indicate evidence of substantial heterogeneity in the number of secondary infections caused by each case, as indicated by a high level of over-dispersion in the reproduction number. Larger numbers of more systematically sampled sequences – particularly from across China – will allow phylogenetic estimates of epidemic size and growth rate to be substantially refined
Appendix data sources
See supplementary file for GISAID IDs of sequences used for analyses: gisaid_id.csv
Translations
中文 - Mandarin
2020年2月15日 - Imperial College London
报告5:SARS-CoV-2的系统发育分析
报告摘要5
导致COVID-19的病毒SARS-CoV-2(先前命名为2019-nCoV)的遗传多样性提供了有关该流行起源和增长率的信息。通过分析截至2020年2月3日收集到的53组SARS-CoV-2全基因组序列,我们发现样本收集时间与遗传多样性积累之间存在密切关联。贝叶斯和最大似然系统发育方法表明,该病毒于12月初被引入人类群体,其流行倍增时间约为7天。动态系统发育分析提供了流行规模随时间变化的估计。目前的基因数据尚无法准确估计流行规模,但我们的分析表明,每起病例引起的继发感染数量均存在极大差异,这是根据过度分散的繁殖数量得出的。大量的更加系统采样的序列(尤其是来自中国各地的序列)将使流行规模和增长率的系统发育估计更加精准。
附录数据源
用于分析序列的GISAID ID请参阅补充文件: gisaid_id.csv
日本語 - Japanese
2020年2月15日 - インペリアル・カレッジ・ロンドン
レポート5:新型コロナウイルス(SARS-CoV-2)の系統解析
レポート5 概要
COVID‐19の原因となるウイルスSARS‐CoV‐2(旧称2019nCoV)の遺伝的多様性から、流行の起源や拡大速度について知ることができます。2020年2月3日までに収集した53のSARS‐CoV‐2の全ゲノム配列を解析した結果、試料の収集時間と遺伝的多様性の蓄積の間に強い関連性があることが分かりました。ベイズ法と最尤法を用いた系統解析によると、このウイルスは12月初旬にヒト集団に感染しており、患者の倍加時間は約7日だと考えられます。系統力学的モデリングにより、時間の経過に伴う流行規模を推定することができます。現在の遺伝的データでは流行規模の正確な推定は不可能ですが、増殖数の大きな過分散が示すように、私たちの分析は、各患者によって引き起こされる二次感染患者数が非常に不均一であるというエビデンスを示しています。より体系的にサンプリングされた(特に中国全土からの)多数の配列から、流行の規模や拡大速度の系統学的推定を大幅に精緻化することができます。
付録データソース
解析に使用された配列のGISAID IDについては、こちらの補足ファイルをご覧ください:gisaid_id.csv
Español - Spanish
15 de febrero de 2020 - Imperial College London
Reporte 5: Análisis filogenético del SARS-CoV-2
Resumen del Reporte 5
La diversidad genética del SARS-CoV-2 (anteriormente 2019-nCoV), el virus que causa COVID-19, proporciona información sobre los orígenes de la epidemia y la tasa de crecimiento de la epidemia. Al analizar 53 secuencias del genoma completo del SARS-CoV-2 recolectadas hasta el 3 de febrero de 2020, encontramos una asociación fuerte entre el momento de la recolección de la muestra y la acumulación de diversidad genética. Los métodos filogenéticos bayesianos y de máxima probabilidad indican que el virus se introdujo en la población humana a principios de diciembre y tiene un tiempo de duplicación epidémico de aproximadamente siete días. El modelado filo-dinámico proporciona una estimación del tamaño de la epidemia a lo largo del tiempo. Las estimaciones precisas del tamaño de la epidemia no son posibles con los datos genéticos actuales, pero nuestros análisis indican evidencia de heterogeneidad sustancial en el número de infecciones secundarias causadas por cada caso, como lo indica un alto nivel de sobre-dispersión en el número reproductivo, R. Un mayor número de secuencias sistemáticamente muestreadas, particularmente de más lugares en China, permitirá que las estimaciones filogenéticas del tamaño de la epidemia y la tasa de crecimiento se refinen sustancialmente.
Apéndice fuente de datos
Ver archivo suplementario con los identificadores de las secuencias utilizadas para los análisis: gisaid_id.csv
Français - French
15 février 2020 – Imperial College London
Rapport 5 : Analyse phylogénétique du SARS-CoV-2
Rapport de synthèse 5
La diversité génétique du SARS-CoV-2 (anciennement connu sous le nom de 2019-nCoV), le virus qui provoque le COVID-19, nous informe sur les origines de l’épidémie et sur son taux de croissance. En analysant 53 séquences de génome entier de SARS-CoV-2, collectées jusqu’au 3 février 2020, nous constatons une forte corrélation entre le moment de la collecte de l’échantillon et l’accumulation de diversité génétique. Les méthodes phylogénétiques bayésienne et de vraisemblance maximale indiquent que le virus est apparu chez l’homme début décembre, et que le temps de doublement de l’épidémie est d’environ sept jours. La modélisation phylodynamique fournit une estimation de l'ampleur de l’épidémie dans le temps. Il est impossible d’obtenir des estimations précises de l'ampleur de l’épidémie à partir des données génétiques actuellement disponibles, mais nos analyses démontrent une importante hétérogénéité dans le nombre d’infections secondaires causées par chaque cas, tel que l’indique le niveau élevé de surdispersion dans le nombre de reproductions. Le nombre plus important d’échantillons de séquences prélevés de façon plus systématique (en particulier en Chine) nous permettra d’affiner considérablement les estimations phylogénétiques de l'ampleur de l’épidémie et de son taux de croissance.
Annexe – Sources des données
Voir le fichier complémentaire des identifiants GISAID des séquences utilisées aux fins des analyses: gisaid_id.csv
Italiano - Italian
15 febbraio 2020 – Imperial College London
Report 5: Analisi filogenetica di SARS-CoV-2
Riassunto
La diversità genetica del virus che provoca COVID-19, SARS-CoV-2 (precedentemente 2019-nCoV), dà indicazioni sull’origine e sul tasso di crescita dell'epidemia. Il sequenziamento del genoma di 53 campioni di SARS-CoV-2 raccolti entro il 3 febbraio 2020, indica un forte legame tra la data di campionamento e l'accumulazione della diversità genetica. Metodi di tipo Bayesiano e basati su massima verosimiglianza applicati alla filogenetica indicano che il virus è stato introdotto nella popolazione umana ad inizio dicembre e che il tempo di raddoppiamento dell'epidemia si aggira intorno ai sette giorni. La modellizzazione filo-dinamica fornisce una stima della dimensione dell'epidemia nel tempo. I dati genetici attualmente disponibili non permettono di stimare la dimensione dell'epidemia con precisione, ma le nostre analisi suggeriscono un'alta variabilità nel numero di casi secondari infettati da ogni caso, come indicato dall'alta dispersione del numero riproduttivo. Un maggior numero di sequenze genetiche campionate in maniera più sistematica - specialmente da varie province cinesi - permetterà di migliorare considerevolmente le stime filogenetiche della dimensione e del tasso di crescita dell'epidemia.
Fonte di dati aggiuntivi
Documento supplementare per GISAID IDs delle sequenze usate per l’analisi: gisaid_id
Arabic - العربية
15فبراير 2020 – كلية لندن الإمبراطورية
التقرير 5: تحليل التطور النوعي لمتلازمة الالتهاب الرئوي الحاد الناجم عن النسخة الجديدة من فيروس كورونا
ملخص التقرير 5
يؤكد التنوع الجيني لمتلازمة الالتهاب الرئوي الحاد الناجم عن النسخة الجديدة من فيروس كورونا (والذي عرف سابقا باسم فيروس كورونا المستجد 2019) – وهو الفيروس المتسبب في الأمراض الناجمة عن فيروس كورونا الجديد 2019 – على وجود سلالات وبائية منه، كما يدلنا على معدل نمو الوباء وانتشاره. ومن خلال التحليلات التي أجريت على 53 عينة تتابع جيني كامل لمتلازمة الالتهاب الرئوي الحاد الناجم عن النسخة الجديدة من فيروس كورونا، والتي جمعت حتى 3 فبراير 2020، وجدنا أن هناك ترابط قوي بين وقت أخذ العينة وتراكم التنوع الجيني. وفي هذا الصدد، أكدت طريقة بايزي للاستدلال ومنهجية التطور النوعي الأكثر ترجيحا أن الفيروس قد أصاب البشر في مطلع شهر ديسمبر وأن الفترة الزمنية اللازمة لتضاعفه حتى تحول إلى وباء قد بلغت 7 أيام تقريبا. ويقدم صوغ مسببات الأمراض تقديرا بحجم الوباء بمرور الوقت، بيد أن التقديرات الدقيقة غير متاحة الآن في ظل وجود البيانات الجينية الحالية. ومع ذلك، تشير تحليلاتنا إلى وجود دليل على التباين الكبير في أعداد العدوى الثانوية التي تسببها كل حالة، وهو ما يؤكده المستوى المرتفع للانتشار المتزايد في عدد التكاثر. وستتيح الأعداد الضخمة من تتابعات العينات الممنهج – ولا سيما من أرجاء الصين – للعلماء أن يحددوا بدقة التقديرات المتعلقة بالتطور النوعي لحجم الوباء ومعدل نموه.
ملحق مصادر المعلومات
انظر الملف التكميلي للمبادرة العالمية لمشاركة كافة المعلومات حول الإنفلونزا GISAIDs المستخدمة في تحليلات:gisaid_id.csv