Con i big data, svelato albero genetico del virus Sars Cov 2. Il progenitore circolava a novembre

di Emanuele Perugini, IGOR, da Sudhir Kumar et alii, Molecular Biology and Evolution 4 maggio 2021 – Il commento di Giovanni Maga, direttore dell’istituto di genetica molecolare del Consiglio nazionale delle ricerche (Cnr-Igm) allo studio messo a punto da un gruppo di ricercatori della Temple University (USA) guidati da Sudhir Kumar e pubblicato su Molecular Biology and Evolution (MBE). “Gli autori hanno messo a punto una classificazione interessante per seguire l’evoluzione delle popolazioni virali. Le informazioni da sottolineare sono sostanzialmente tre: 1. Lo spillover da animale a uomo è avvenuto probabilmente a ottobre 2019 con un margine di incertezza di più omeno un mese (settembre-novembre) quindi nessuno dei casi di Wuhan è il caso zero. 2. Quando è stato identificato a dicembre il virus si era già differenziato in diversi ceppi e probabilmente era già uscito dalla Cina. 3. Attualmente il virus è presente con diverse varianti geograficamente distinte. La mutazione N501Y presente in Inghilterra e Sudafrica è comparsa indipendentemente nelle due varianti, confermando quindi traiettorie evolutive simili del virus in risposta all’ospite umano. In altre parole, il virus seleziona mutazioni simili anche in popolazioni distanti geograficamente tra loro“.

Il virus progenitore (proCoV2) e i suoi discendenti iniziali sono nati in Cina, sulla base delle prime mutazioni di proCoV2 e delle loro posizioni, che sono state ricondotte a verificarsi 6-8 settimane prima dell’epidemia di Wuhan in Cina. Inoltre, il team scientifico ha anche dimostrato che una popolazione di ceppi con almeno tre differenze mutazionali (alfa 1-3) da proCoV2 esisteva al momento del primo rilevamento di casi di COVID-19 in Cina. Le attuali principali varianti di interesse, tra cui Regno Unito (B.1.1.1.7), sudafricano (B.1.351), sudamericano (P.1) e ora indiano (B.1.617), sono mostrate nel pedigree. Queste varianti non solo sono venute a sostituire i precedenti ceppi dominanti nelle rispettive regioni, ma minacciano ancora la salute mondiale a causa del loro potenziale di sfuggire ai vaccini e alle terapie odierne. Credits: Sudhir Kumar, Temple University

Il progenitore del Sars-Cov2, il virus responsabile della pandemia di COvid-19 sarebbe circolato dalle quattro alle otto settimane prima del primo focolaio che invece si è manifestato a Wuhan, in Cina nel dicembre del 2019. A svelarlo un nuovo studio messo a punto da un gruppo di ricercatori della Temple University (USA) guidati da Sudhir Kumar. “Abbiamo ricostruito – ha detto l’autore della ricerca pubblicata su Molecular Biology and Evolution (MBE) – il genoma del progenitore e il suo pedigree iniziale utilizzando un grande set di dati di genomi del coronavirus ottenuti da individui infetti da dicembre 2019”. I ricercatori hanno scoperto che il progenitore (proCoV2) ha dato origine a una famiglia di ceppi di coronavirus, i cui membri includevano i ceppi trovati a Wuhan, in Cina,nel dicembre 2019. “In sostanza – spiega Kumar – gli eventi di dicembre a Wuhan, in Cina, hanno rappresentato il primo evento superspreader di un virus. che aveva tutti gli strumenti necessari per provocare una pandemia mondiale fin da subito “.


Il gruppo di Kumar stima che il progenitore SARS-CoV-2 stesse già circolando con una linea temporale precedente, almeno 6-8 settimane prima del primo genoma sequenziato in Cina, noto come Wuhan-1. “Questa sequenza temporale – ha detto Sayaka Miura, autore senior dello studio – indica la presenza di proCoV2 alla fine di ottobre 2019, il che è coerente con il rapporto di un frammento di proteina spike identico a Wuhan 1 scoperto all’inizio di dicembre in Italia”.

“Abbiamo trovato – ha confermato un altro autore della ricerca, Sergei Kosakovsky Pond – l’impronta genetica del progenitore nel gennaio 2020 e successivamente in più infezioni da coronavirus in Cina e negli Stati Uniti. Il progenitore si stava diffondendo in tutto il mondo mesi prima e dopo i primi casi segnalati di COVID-19 in Cina”.
Oltre alle loro scoperte sulla storia iniziale di SARS-CoV-2, il gruppo di Kumar ha anche sviluppato mappe delle diverse mutazioni definnedno, con l’aiuto delle lettere greche (ν, α, β, γ, δ e ε) i principali ceppi, sub ceppi e varianti che infettano un individuo o colonizzano una regione globale. Ciò può aiutare gli scienziati a tracciare meglio e fornire un contesto per l’ordine di comparsa di nuove varianti.
“Nel complesso – spiega Kumar – le nostre mappe digitali mutazionali e la nomenclatura forniscono un modo semplice per raccogliere l’ascendenza di nuove varianti rispetto alle designazioni filogenetiche, ad esempio, B.1.351 e B.1.1.7”.


Ad esempio, un’impronta digitale α si riferisce ai genomi che contengono una o più delle varianti α e nessuna variante principale successiva, mentre un’impronta digitale αβ si riferisce ai genomi che contengono tutte le varianti α, almeno una variante β e nessun’altra variante principale.
“Con i nostri strumenti – ha detto Pond – abbiamo osservato la diffusione e la sostituzione dei ceppi prevalenti in Europa (αβε con αβζ) e in Asia (α con αβε), la preponderanza dello stesso ceppo per la maggior parte della pandemia in Nord America (αβ? Δ), e la continua presenza di più ceppi ad alta frequenza in Asia e Nord America “, ha detto Pond. Per identificare il genoma progenitore, hanno utilizzato un approccio non applicato in precedenza a SARS-CoV-2, chiamato analisi dell’ordine di mutazione. La tecnica, ampiamente utilizzata nella ricerca sul cancro, si basa su un’analisi clonale dei ceppi mutanti e sulla frequenza con cui le coppie di mutazioni appaiono insieme per trovare la radice del virus. Molti precedenti tentativi di analizzare set di dati così grandi non hanno avuto successo a causa della “concentrazione sulla costruzione di un albero evolutivo di SARS-CoV-2”, afferma Kumar. “Questo coronavirus si evolve troppo lentamente, il numero di genomi da analizzare è troppo grande e la qualità dei dati dei genomi è molto variabile. Ho immediatamente visto parallelismi tra le proprietà di questi dati genetici del coronavirus con i dati genetici della diffusione clonale di un altro malattia nefasta, cancro”.
Kumar e Miura hanno sviluppato e studiato molte tecniche per analizzare i dati genetici dei tumori nei malati di cancro. Hanno adattato e innovato queste tecniche per costruire una scia di mutazioni che risalivano all’impronta genetica del progenitore. “L’approccio di rilevamento della mutazione – ha detto Kumar – ha prodotto il progenitore e la storia familiare della sua mutazione principale. È un ottimo esempio di come i big data accoppiati con il data mining biologicamente informato rivelano modelli importanti”.
Emerge una cronologia precedente “Questo genoma progenitore – spiega – aveva una sequenza molto diversa da quella che alcune persone chiamano sequenza di riferimento, che è quella che è stata osservata per prima in Cina e depositata nel database GISAID SARS-CoV-2”.

La corrispondenza più vicina era quella di otto genomi campionati da 26 a 80 giorni dopo il primo virus campionato dal 24 dicembre 2019. Sono state trovate più corrispondenze ravvicinate in tutti i continenti campionati e rilevate fino a giugno 2020 (giorno 181 della pandemia) in Sud America. Complessivamente, 140 genomi del gruppo di Kumar analizzati contenevano tutti solo differenze sinonime da proCoV2. Cioè, tutte le loro proteine erano identiche alle corrispondenti proteine proCoV2 nella sequenza amminoacidica. La maggioranza (93 genomi) di queste corrispondenze a livello di proteine proveniva da coronavirus campionati in Cina e in altri paesi asiatici. Questi modelli spazio temporali suggerivano che proCoV2 possedesse già l’intero repertorio di sequenze proteiche necessarie per infettare,diffondersi e persistere nella popolazione umana globale.
Hanno scoperto che il virus proCoV2 e i suoi discendenti iniziali sono nati in Cina, sulla base delle prime mutazioni di proCoV2 e delle loro posizioni. Inoltre, hanno anche dimostrato che una popolazione di ceppi con almeno tre differenze mutazionali da proCoV2 esisteva al momento del primo rilevamento di casi di COVID-19 in Cina. Con stime di SARS-CoV-2 che acquisiscono 25 mutazioni all’anno, ciò significa che il virus deve aver già infettato le persone diverse settimane prima dei casi di dicembre. Poiché c’erano forti prove di molte mutazioni prima di quelle trovate nel genoma di riferimento, il gruppo di Kumar ha dovuto elaborare una nuova nomenclatura delle firme mutazionali per classificare SARS-CoV-2 e tenerne conto introducendo una serie di simboli di lettere greche a rappresentano ciascuno.

Ad esempio, hanno scoperto che l’emergere di varianti del genoma α SARS-CoV-2 era anteriore alle prime segnalazioni di COVID-19. Ciò implica fortemente l’esistenza di una certa diversità di sequenza nelle popolazioni ancestrali SARS-CoV-2. Tutti i 17 genomi campionati dalla Cina nel dicembre 2019, incluso il genoma di riferimento SARS-CoV-2 designato, portano tutte e tre le varianti α. Tuttavia, 1.756 genomi senza varianti α sono stati campionati in tutto il mondo fino a luglio 2020. Pertanto, i primi genomi campionati (incluso il riferimento designato) non erano i ceppi progenitori.

Lo studio dei ricercatori della Temple University prevede anche che il genoma progenitore avesse una discendenza che si stava diffondendo in tutto il mondo durante le prime fasi di COVID-19 ed era pronto a infettare fin dall’inizio.
“Il progenitore aveva tutte le capacità di cui aveva bisogno per diffondersi”, ha detto Pond. “C’è una sovrabbondanza di cambiamenti non sinonimi nella popolazione. Quello che è successo tra pipistrelli e umani rimane poco chiaro, ma proCoV2 avrebbe potuto già infettare su scala pandemica”.

Complessivamente, i ricercatori hanno identificato sette principali lignaggi evolutivi e la natura episodica della loro diffusione globale. Il genoma proCoV2 ha dato origine a molti lignaggi principali, alcuni dei quali sono nati in Europa e Nord America dopo la probabile genesi dei lignaggi ancestrali in Cina. “I ceppi asiatici hanno fondato l’intera pandemia”, ha detto Kumar. “Ma nel tempo, molte varianti che si sono evolute altrove stanno ora infettando l’Asia molto di più”. Le loro analisi mutazionali hanno anche stabilito che i coronavirus nordamericani ospitano firme genomiche molto diverse da quelle prevalenti in Europa e in Asia. “Questo è un processo dinamico”, ha detto Kumar. “Chiaramente, ci sono immagini molto diverse di diffusione descritte dall’emergere di nuove mutazioni, i tre ε,γ e delta, che abbiamo scoperto che si verificano dopo il cambiamento della proteina spike (una mutazione β)”. Gli scienziati stanno ancora cercando di capire se le proprietà di queste mutazioni hanno accelerato la pandemia.
Sorprendentemente, la firma mutazionale di αβ? Δ è rimasta il lignaggio dominante in Nord America dall’aprile 2020, in contrasto con il turn over visto in Europa e in Asia. Più recentemente, nuove varianti a rapida diffusione, inclusa una variante della proteina S (N501Y) provenienti dal Sud Africa e dal Regno Unito (B.1.1.17), sono aumentate rapidamente. I coronavirus con variante N501Y in Sud Africa portano l’impronta genetica αβγδ, mentre quelli nel Regno Unito portano l’impronta genetica αβε, secondo lo schema di classificazione proposto da Kumar. “Pertanto – ha spiegato – l’antenato αβ continua a dare origine a molte delle principali varianti di questo coronavirus”. Lo studio pubblicato su MBE si basa su tre istantanee recuperate da GISAID rispettivamente il 7 luglio 2020 (un set di dati di 60.332 genomi),il 12 ottobre 2020 (conteneva 133.741 genomi) e, infine, un set di dati ampliato di 172.480 genomi campionati del 30 dicembre, 2020. Andando avanti, i ricercatori continueranno a perfezionare i risultati non appena saranno disponibili nuovi dati. “Più di un milione di genomi di SARS-CoV-2 sono sequenziati ora”, ha detto Pond. “Il potere di questo approccio è che più dati hai, più facilmente puoi vedere la frequenza precisa delle singole mutazioni e coppie di mutazioni. Queste varianti prodotte, le varianti a singolo nucleotide o SNV, la loro frequenza e la cronologia possono essere raccontate molto bene con più dati. Pertanto, le nostre analisi deducono una radice credibile per la filogenesi SARS-CoV-2”.

Andando avanti, i ricercatori continueranno a perfezionare i risultati non appena saranno disponibili nuovi dati. “Più di un milione di genomi di SARS-CoV-2 sono sequenziati ora”, ha detto Pond. “Il potere di questo approccio è che più dati hai, più facilmente puoi vedere la frequenza precisa delle singole mutazioni e coppie di mutazioni. Queste varianti prodotte, le varianti a singolo nucleotide o SNV, la loro frequenza e la cronologia possono essere raccontate molto bene con più dati. Pertanto, le nostre analisi deducono una radice credibile per la filogenesi SARS-CoV-2”.Andando avanti, i ricercatori continueranno a perfezionare i risultati non appena saranno disponibili nuovi dati. “Più di un milione di genomi di SARS-CoV-2 sono sequenziati ora”, ha detto Pond. “Il potere di questo approccio è che più dati hai, più facilmente puoi vedere la frequenza precisa delle singole mutazioni e coppie di mutazioni. Queste varianti prodotte, le varianti a singolo nucleotide o SNV, la loro frequenza e la cronologia possono essere raccontate molto bene con più dati. Pertanto, le nostre analisi deducono una radice credibile per la filogenesi SARS-CoV-2″.più facilmente puoi vedere la frequenza precisa delle singole mutazioni e coppie di mutazioni. Queste varianti prodotte, le varianti a singolo nucleotide o SNV, la loro frequenza e la cronologia possono essere raccontate molto bene con più dati. Pertanto, le nostre analisi deducono una radice credibile per la filogenesi SARS-CoV-2″.più facilmente puoi vedere la frequenza precisa delle singole mutazioni e coppie di mutazioni. Queste varianti prodotte, le varianti a singolo nucleotide o SNV, la loro frequenza e la cronologia possono essere raccontate molto bene con più dati. Pertanto, le nostre analisi deducono una radice credibile per la filogenesi SARS-CoV-2”.

Lo studio MBE fa parte dell’impegno dei ricercatori della Temple University per mantenere un monitoraggio continuo e in tempo reale in tempo reale dei genomi SARS-CoV-2, che ora sono cresciuti fino a includere più di 350.000 genomi. “Abbiamo creato – ha concluso Pond – una dashboard in tempo reale che mostra i risultati regolarmente aggiornati perché i processi di analisi dei dati, preparazione del manoscritto e revisione tra pari di articoli scientifici sono molto più lenti del ritmo di espansione della raccolta del genoma del SARSCoV2”.