– di Antonio Scala, presidente di Big Data in Health Society. Ci troviamo in una condizione in cui le decisioni vanno prese paventando eventi che potrebbero non verificarsi o – nel caso di un problema generato solo dall’incertezza sui dati – su eventi di cui non è sicura la durata, l’inizio e la portata. In tali situazioni, si corre il rischio che chi scommette pericolosamente su qualcosa di scientificamente improbabile veda realizzata la propria previsione e si convinca della mancanza di validità dell’approccio scientifico o della malafede dei suoi praticanti. Ma così non è
Legenda: L’andamento iniziale del numero di decessi in diversi paesi è estremamente simile, semplicemente spostato nel tempo. Anche in mancanza di parametri sufficientemente definiti per poter caratterizzare l’epidemia e prevederla attraverso modelli, l’osservazione di quello che avviene in altri paesi può dare buone indicazioni. In pratica, il ritardo nella propagazione del virus fra paesi permette di usare le osservazioni di quello che è già accaduto al posto delle simulazioni. Dati presenti sul sito della John Hopkins University https://github.com/CSSEGISandData
Passata la tregua estiva, come purtroppo previsto dalla maggioranza degli epidemiologi stiamo assistendo ad una ripresa dell’epidemia di Covid-19. Seguendo un copione già visto, nelle fasi iniziali della ripresa è ricominciata la danza di numeri e curve di crescita ed a breve ci aspettiamo (purtroppo) anche un revival delle discussioni sullo R0. Mesi trascorsi in lockdown, bombardati da continui bollettini con i conteggi giornalieri non sono evidentemente serviti a darci una familiarità con i numeri riportati né ad introdurre un uso corretto delle effettive quantità in ballo.
Spesso si usano i numeri assoluti, come il numero di contagiati in una data Regione, dimenticandosi che nelle valutazioni scientifiche raramente un numero assoluto ha senso. In genere, i “numeri” veramente indicativi sono le percentuali, altrimenti si rischia di dare, per esempio, un allarme per 1000 contagi in Lombardia trascurando 200 contagiati a Campobasso, dove i 200 contagiati molisani molto probabilmente hanno un “peso” ben diverso rispetto ai 1000 lombardi.
In altre parole, spesso ci si dimentica di “localizzare” i numeri dati: di nuovo, 1000 contagi in Campania possono essere pochi se diffusi su tutto il territorio o tanti se concentrati ad Arzano. Altre volte, ci si dimentica che non sempre i numeri sono confrontabili: cambiando i metodi di rilevamento, affinando le analisi mediche ma anche modificandosi l’atteggiamento di una popolazione si rischia di non poter capire se 100 ammalati oggi valgono più o meno di 100 ammalati prima dell’estate. Neanche le percentuali sono poi alla fine così sicure: se sto stimando l’incidenza dal numero dei tamponi, saprò che facendone pochi posso avere risultati estremamente lontani dal valore reale, ma anche che facendone molti rischio di falsare il risultato se il “campione scelto” (ovvero le persone che lo hanno effettuato) non è rappresentativo della popolazione. Per capirci, il rischio è come quando per fare una previsione elettorale si intervistano solo persone di un determinato orientamento: è chiaro che un sondaggio del genere, non dicendoci niente sull’elettorato in generale, falsa le nostre previsioni.
Usare numeri basati su dati per prendere poi delle decisioni (o commentare quelle prese da altri) pare sia diventato una moda che, al di là dell’impulso motivato dall’epidemia corrente, è in realtà in crescita da parte dei decisori politici. Oggi si parla tanto di “Data driven policy”, ovvero di politiche guidate dai dati; purtroppo però spesso tale approccio parte dal presupposto di disporre di una quantità infinita di dati privi di errori e che ogni fenomeno sia perfettamente prevedibile una volta raccolti i dati. Il problema è che l’analisi dei dati è un mestiere difficile, rognoso, che richiede anni di esperienza ed alla cui base sta il capire innanzitutto se le risposte, “i numeri”, che possiamo estrarre articolando e studiando i dati a disposizione siano affidabili o meno. Ebbene, più spesso di quanto ci si possa immaginare, tali analisi ci dicono che le risposte che avremo sono incerte quando non inaffidabili. Ma se anche avessimo dati perfetti, sappiamo che prevedere perfettamente l’evoluzione di un sistema appena più complesso come i movimenti della crosta terrestre (ovvero i terremoti) o i blackout delle reti elettriche è di fatto impossibile. Questo deve essere chiaro.
La qualità dei dati e la complessità dei sistemi ci porta quindi a dover rinunciare a delle previsioni perfette – come se ci fossero maghi che guardano dentro alla sfera di cristallo – e a dover invece considerare la probabilità che una cosa accada.
Questo è perfettamente vero ad esempio nelle fasi iniziali di un’epidemia: quando il numero degli infetti contagiosi è basso, esiste sempre la possibilità che l’epidemia si estingua non perché il suo tasso potenziale di riproduzione non sia sufficiente (il famoso R0 maggiore di uno), ma perché semplicemente può accadere che per ragioni fortuite tali infetti non si sono mai trovati nelle condizioni necessarie per diffondere il contagio. Non sapremo mai se una qualche epidemia di coronavirus, anche peggiore di quella attuale, si sia estinta perché semplicemente non è riuscita a “partire” all’inizio. Quello che però sappiamo è che quando un’epidemia cresce a sufficienza, la sua progressione (la ormai famosa “crescita esponenziale”) diventa una cavalcata inesorabile.
Ci troviamo quindi in una condizione in cui le decisioni vanno prese paventando eventi che potrebbero non verificarsi o – nel caso di un problema generato solo dall’incertezza sui dati – su eventi di cui non è sicura la durata, l’inizio e la portata. In tali situazioni, si corre il rischio che chi scommette pericolosamente su qualcosa di scientificamente improbabile veda realizzata la propria previsione e si convinca della mancanza di validità dell’approccio scientifico o della malafede dei suoi praticanti. Per venire ad un esempio pratico, il proliferare di modelli che pretendevano di prevedere con grande precisione lo sviluppo dell’epidemia non poteva che portare ad una diffidenza rispetto a tali modelli. Il fallimento sta nella grande sensibilità di tali modelli alle incertezze connesse ai dati che li alimentano. Essi non possono essere usati come sfere di cristallo per varare politiche “data driven” nè soprattutto possono sostituirsi all’esperienza pratica degli epidemiologi. Per essere veramente utili, tali modelli vanno usati per simulare scenari possibili, plausibili e compatibili con i dati a disposizione, in modo da capire quali siano le “leve” che guidano l’epidemia, quali siano i punti cruciali su cui intervenire per avere lockdown più brevi ed efficaci o campagne di raccolta tamponi più efficienti ed economiche.
In ultimo c’è da ricordare che nel caso del Covid-19 si è trattato non solo di epidemia ma di pandemia. Nella tragedia, l’aspetto pandemico avrebbe però potuto e dovuto aiutarci: dato il naturale ritardo di propagazione fra nazioni [1], le nazioni prima colpite diventano di fatto laboratori naturali nei quali osservare i possibili andamenti dell’epidemia (vedi fig.1). Quindi, anche in mancanza di dati sufficienti a simulare sofisticati modelli epidemiologici, si era in possesso di tutte le informazioni necessarie per prendere decisioni “data driven”. Nella fase iniziale del Covid-19, si è assistito invece ad una incresciosa ed incredibile negazione del fenomeno, in cui le nazioni fra di loro (ma anche le regioni all’interno dei Paesi), piuttosto che far tesoro dell’esperienza altrui ritenevano di essere immuni al pericolo. Come sia possibile che ciò si stia ripetendo ancora, è qualcosa che non può non procurare un senso di rabbia e stupore in chi, a vario titolo, ogni giorno si spende per contenere i danni del virus Sars-Cov-2. Forse, e sottolineiamo forse, se la prima ondata l’abbiamo subita, la seconda probabilmente l’abbiamo favorita.
[1] Scala, A., Flori, A., Spelta, A. et al. Time, space and social interactions: exit mechanisms for the Covid-19 epidemics. Nature Scientific Reports 10, 13764 (2020). https://doi.org/10.1038/s41598-020-70631-9