Tra statistica e retorica. La grande confusione dei politici nel leggere i dati

  • di Gilberto Corbellini e Alberto Mingardi da L’Inkiesta.it del 30 marzo 2021 – “L’ansia di dimostrarsi pragmatici dei leader di partito va di pari passo con alcune mode della comunicazione attuale, per cui è ormai prassi comune inquadrare la questione dei Big Data come se vi fosse una opposizione tra numeri e teorie“.

Il nostro futuro è nelle mani dei dati. Ma non si tratta dei dati tipo quelli che nei Paesi Bassi e in altri Stati si stanno raccogliendo con esperimenti controllati e con volontari per capire come si trasmette il virus in contesti affollati, allo scopo di riaprire gli stadi (finalmente perché le partite sono quasi inguardabili senza i tifosi!) o per tornare a riorganizzare concerti. Si tratta dei numeri del contagio che risultano dal qualsiasi contatto fra il nostro sistema di sanità pubblica e il virus.

Invece di discutere sul senso dei dati, oggetto di giornalistici rituali apotropaici per allontanare l’influenza del virus maligno, forse un anno fa si sarebbe potuto tentare qualche esperimento controllato sulla trasmissione del virus. Il miglior modo per capire come effettivamente si muove.

L’illuminante scambio tra il presidente del Consiglio Mario Draghi e il senatore della Lega Matteo Salvini dimostra come nel mondo della politica le idee sulla natura dei dati rimangano un po’ confuse. Entrambi hanno fatto appello agli stessi dati opachi, raccolti in un modo giudicato più volte controverso, per difendere due diverse scelte a posteriori.

Secondo Draghi i dati dimostrano che non si può ancora riaprire, corroborando le scelte fatte dal governo precedente e raccogliendo generale consenso perché finalmente il paese si affida a qualcuno che usa i “dati”. Salvini ha invece sostenuto che se i dati forniti dalla scienza sono favorevoli non ha senso tenere chiuse le attività economiche, aggravando ulteriormente lo scenario di depressione generale.

Possibile che gli stessi dati diano spazio a interpretazioni così diverse? O erano diversi i dati ai quali l’uno e l’altro guardavano: Draghi all’andamento del contagio, Salvini alla mortalità (lentamente in calo) e al tasso d’occupazione delle terapie intensive?

Nel mondo britannico degli anni Novanta si è affermato il concetto di evidence based policing (EBP). L’evidence non è il dato, bensì la prova che seleziona tra diverse ipotesi quella che promette di essere più efficace, di lunga durata e in grado di confrontarsi con le cause e non solo con i sintomi. L’EBP scaturiva dal successo dell’evidence based medicine (EBM), che negli anni Ottanta si è affermato come golden standard metodologico grazie agli avanzamenti della epidemiologia clinica e agli sviluppi delle politiche di regolazione del commercio dei farmaci.

Il movimento dell’EBP negli anni ha avuto un’ampia articolazione: nel Regno Unito si è incanalato verso azioni di nudging, partendo dalle inclinazioni comportamentali e dalle prove di danni o vantaggi dovuti a specifici comportamenti (es. consumo energetico, fumo, consumo di alcool, etc ). In Austrialia sono stati raccolti dati per testare modelli di interventi in ambito educativo, del mercato del lavoro e pensionistico allo scopo di cambiare strategie di allocazione delle risorse o incentivi.

L’EBM ha imposto per tre decenni l’uso dei trial clinici randomizzati e in doppio cieco per stabilire l’efficacia e quindi anche l’efficienza dei trattamenti medici, ovvero per prevenire l’arbitrarietà delle decisioni mediche, prendendo però una deriva politica che ha concorso all’aumento dei costi dei farmaci e a un’evoluzione dei sistemi sanitari in apparenza aziendalista ma in realtà, molto spesso, burocratico, sovraccaricandoli di passaggi e prove formali che hanno poco a che vedere con il controllo dell’efficacia. Non pochi ricercatori dell’area biomedica pensano che l’EBM abbia indebolito lo statuto epistemologico della medicina.

«Trovo così strano che nessuno si renda conto che qualunque osservazione deve essere a favore o contro qualche ipotesi, per essere di qualche utilità!», scriveva Charles Darwin nel 1861 a Henry Fawcett, un discepolo di John Stuart Mill. Anche senza essere popperiani è una ovvietà che i dati da soli sono muti, cioè non dicono o significano niente se non sono stati raccolti e assemblati al preciso scopo di offrire una interpretazione, ovvero per confutare una teoria internamente consistente, non contraddittoria e logicamente formulata.

Peggio ancora, essi possono essere fuorvianti se ci si dimentica che più verosimilmente sono stati raccolti dando per scontata e a conferma di qualche ipotesi non trasparente. Proprio Karl Popper ci ha spiegato che, nella ricerca, in assenza di una ipotesi non sappiamo né cosa cercare né dove cercare. Sui dati non s’inciampa per caso, essi rispondono a una domanda di ricerca, formulata con un’ipotesi in mente.

Il problema allora non è semplicemente che si usino i dati, che essi “parlino” e che qualcuno porga loro l’orecchio per ascoltarne i sussurri: ma la plausibilità delle ipotesi o dei modelli sulla base dei quali i dati vengono raccolti. I dati vanno utilizzati, popperianamente, per provare a falsificare, a mettere in crisi un’ipotesi. Per definizione, dal momento che non prescindono dai ricercatori che li vanno a reperire, non si può dunque credere che i dati possano mai essere neutrali.

Uno dei massimi esperti di algoritmi bayesiani in intelligenza artificiale ha scritto un libro (The Book of Why) per criticate l’idea ormai dominante che i dati siano la soluzione di tutti i problemi. A suo avviso i corsi di scienza dei dati che proliferano nelle università, gli impieghi redditizi come analisti dei dati o il prevalere di una economia basata su dati trascurano il fatto che gli strumenti statistici tradizionali, che guardano solo alle correlazioni, e gli algoritmi di Intelligenza Artificiale che usiamo per interrogare le banche di dati sono l’equivalente degli uomini «nella famosa caverna di Platone, […] che esplorano le ombre sulla parete della grotta e imparano a prevedere con precisione i loro movimenti. Ma non capiscono che le ombre osservate sono proiezioni di oggetti tridimensionali, che si muovono in uno spazio tridimensionale».

Abituarsi a usare dati nelle decisioni politiche sarebbe salutare, anche perché in Italia non lo si è quasi mai fatto, ma a condizione che lo si faccia per eliminare scenari alternativi e non come strategie retorica per difendere uno scenario che è stato scelto a priori, o per leggere uno scenario direttamente nei numeri, come fossero i fondi del caffè.

Il presidente del Consiglio è senz’altro il primo a comprendere che un conto è dire che i dati non giustificano aperture nel mese di aprile, e un altro è dire che i dati provano l’ipotesi che nelle scuole fino alla prima media la trasmissione del virus non è rilevante. Da una parte i dati sono stati analizzati per leggere uno scenario politicamente desiderato, dall’altro per controllare come diverse variabili entrano in gioco nella trasmissione dell’infezione nella scuola.

L’approccio basato sui dati costituisce un nuovo strumento per la ricerca scientifica. Tuttavia questo non implica che sostituirà le procedure cognitive e metodologiche affinate dal pensiero scientifico. Con buona pace degli adepti dell’EBM che nei media interpretano i numeri della pandemia come leggessero il volo degli uccelli. Purtroppo, qui torna a galla un elemento paradossale della nostra cultura: siamo ormai convinti che la scientificità di una tesi consista sostanzialmente nell’esprimerla con una qualche formalizzazione matematica (in ambienti intellettuali più raffinati), ovvero nel fatto che essa si traduca in numeri facilmente macinabili dalla stampa quotidiana.

Ma i dati e le evidenze non sono numeri: sono, in questo caso, eventi di natura medico-sanitaria, che noi contiamo per avere contezza del rilievo e della dimensione del fenomeno. Il fatto di essere espressi in forma numerica non costituisce però né l’essenza del dato né la prova del suo valore. È invece uno strumento, che dovrebbe consentirci di fare raffronti, di pesare meglio le informazioni raccolte, di contestualizzarle. Usiamo i numeri perché ci aiutano a capire, ma non perché essi bastino per capire.

Purtroppo, l’ansia di dimostrarsi pragmatici dei politici va di pari passo con alcune mode della comunicazione attuale, per cui è ormai prassi comune inquadrare la questione dei Big Data come se vi fosse una opposizione tra dati e teorie, credendo che si possa fare a meno di queste ultime, come se esse fossero sempre, per definizione, pregiudizievoli dimostrazioni della nostra umanità contro l’algida infallibilità del dato. L’intelligenza umana, anche in politica, consiste nell’uso creativo delle idee e delle aspettative per imparare dagli errori: non da indicatori che basterebbero di per sé a sostituire le teorie, ovvero a illuminare nessi causali.

I virus che causano Covid-19 contengono informazioni che consentono a ognuno di replicarsi usando l’ecosistema biologico umano, e che sono state raccolta attraverso processi di selezione su scala di popolazioni distribuite globalmente e che nel tempo hanno trasformato segnali ambientali raccolti da queste macchine replicative, in significati utili per la sopravvivenza e la riproduzione. Le popolazioni umane, a loro volta, non hanno usato sempre informazioni per affrontare la minaccia del virus, ma si sono fermate ai segnali, cioè ai dati raccolti sulla base della credenza del tutto magica che questi parlino da soli.

Ovvero a usare le informazioni sono state le imprese che hanno licenziato test diagnostici, impianti più efficienti per la terapia intensiva, vaccini, etc. perché hanno usato o prodotto informazioni controllate che hanno messo alla prova per validarne l’uso. Chi ha prodotto risultati apprezzabili e utili non si è basata su dati, ma ha raccolto i dati sulla base di ipotesi o modelli allo scopo di eliminare quello che non funzionava e adottare le soluzioni provvisorie e migliorabili andando incontro a una domanda critica.

Un noto matematico di Stanford, che è anche un mago professionista, alcuni decenni or sono scrisse un divertente saggio nel quale mostrava che l’analisi dei dati ha sempre una base teorica, che procede dal pensiero magico a quello scientifico passando per la statistica classica. L’approccio magico consiste nel cercare una struttura nei dati accettando però l’osservazione come vangelo, senza controllare se non ci fosse lo zampino del caso.

La statistica non è una garanzia di uscita dal pensiero magico perché gli statistici tendono a essere usati come o a credersi degli sciamani, che conoscono i trucchi per eliminare le incertezze ma non migliorano in nulla la comprensione degli aspetti qualitativi che sono dietro ai dati. I metodi della scienza che creano contesti controllati per eliminare le ipotesi sbagliate sono la solo risorsa che abbiamo per addomesticare e usare anche a nostro vantaggio il pensiero magico. Alla fine, Francis Bacon, che erroneamente viene scambiato per il primo sacerdote dei dati, aveva forse ragione a dire che «la verità emerge più facilmente dall’errore, che dalla confusione».