Marina Calloni (a cura di)
Pandemocrazia
DOI: 10.1401/9788815411297/c3

Capitolo terzo Infodemia: perché è necessaria una statistical literacy. La lezione della pandemia, di Fulvia Mecatti e Silvana A. Romio

Notizie Autori
Fulvia Mecatti – PhD in Statistica metodologica – è professoressa ordinaria di Statistica nell’Università di Milano-Bicocca. La sua ricerca verte principalmente sui metodi di campionamento statistico per popolazioni difficult-to-sample, Bootstrap per campioni complessi, statistica di genere e inferenza causale per dati biomedici osservazionali. Sostiene con convinzione la necessità di un’efficace comunicazione della statistica, rivolta a un pubblico anche non specialistico. È codirettrice del corso in Data-journalism all’Università Vita-Salute San Raffaele di Milano, facilitator per il Who Divisione TB monitoring & evaluation, consulente per UN Intersecretariat Working Group on Household Surveys e per UN-Women.
Notizie Autori
Silvana A. Romio – laureata in Matematica (Università di Buenos Aires e Università degli Studi di Pavia) e in Biostatistica (Università di Milano-Bicocca), PhD in Statistica (Università di Milano-Bicocca) – ha lavorato come assistant professor presso l’Erasmus University Medical Center (Rotterdam), partecipando a diversi progetti europei di farmaco-epidemiologia. Attualmente è docente di ruolo di Matematica e Fisica e collaboratrice di ricerca presso l’Università di Milano-Bicocca.
Abstract
È stata pandemia e, insieme, una tempesta planetaria di dati, statistiche, modelli, «picchi» e previsioni, amplificata dai mezzi di comunicazione e accelerata da Internet. Un fenomeno che si è palesato con un’intensità senza precedenti associato al Coronavirus, ma già da tempo in atto e pervasivo. Un «buon» grado di qualità dei dati è condizione necessaria, ma non sufficiente, affinché anche i risultati dell’analisi statistica siano di qualità, cioè riflettano la realtà in cui i dati sono stati osservati. Sin dalle prime fasi dell’infodemia associata al diffondersi dell’infezione da Sars-CoV-2, le istituzioni di controllo nazionali ed europee si sono attivate con svariate misure di prevenzione contro fake news e misinformazione. Ne sono esempi la webpage Covid19 – Per gli utenti sul sito di Agcom e le Linee guida Eaca in collaborazione con la Commissione europea. L’incertezza che ha permeato le nostre vite nel tempo della pandemia caratterizza anche gran parte delle nostre attività, decisioni e scelte. Il bisogno di rassicurazione può, almeno in parte, spiegare la tendenza a percepire i risultati scientifici, i dati e le evidenze empiriche come verità assolute, senza il necessario riferimento alla loro natura sperimentale, parziale e probabilistica. La pandemia e l’infodemia da Covid-19 ci hanno investito con formidabili esempi di «disturbi dell’informazione», sia dal lato di chi divulga sia dal lato di chi riceve. Al contempo, ci offrono una eccezionale occasione di allerta, di riflessione sociale, di preparedness. Una lezione che non possiamo permetterci di perdere.

1. Introduzione

È stata pandemia e, insieme, una tempesta planetaria di dati, statistiche, modelli, «picchi» e previsioni, amplificata dai mezzi di comunicazione e accelerata da Internet. Un fenomeno che si è palesato con un’intensità senza precedenti associato al Coronavirus, ma già da tempo in atto e pervasivo. Dati su tutto: salute, economia, sicurezza, scuola, e su ogni canale di comunicazione, tradizionali e digitali, in una sorta di «data-bullismo» [Giugni 2021]. Uno stato di cose che ha meritato un vocabolo ad hoc: «infodemia», tra informazione ed epidemia. Non proprio un neologismo, coniato quasi 20 anni fa in un articolo sul «Washington Post» [Rothkopf 2003], utilizzato nel 2003 in occasione dell’epidemia di Sars (Severe acute respiratory syndrome) causata da un altro Coronavirus, allora denominato Sars-CoV, e ripreso dall’Organizzazione mondiale della sanità (Who) in un documento del dicembre 2020, Call for Action: Managing the Infodemic. Nel documento si rimarca che a latere della pandemia di Covid-19 si è verificata una «massiccia infodemia […] uno tsunami di informazioni, alcune accurate altre no, che si è diffusa assieme e parallela all’epidemia» [Who 2020a]; e ancora si sottolinea che «l’infodemia non riguarda solo la comunicazione nel mondo digitale ma il comportamento umano» [Who 2021]. Il vocabolario Treccani definisce l’infodemia come una «circolazione di una quantità eccessiva di informazioni, talvolta non vagliate con accuratezza, che rendono difficile orientarsi su un determinato argomento per la difficoltà di individuare fonti affidabili» [Istituto della Enciclopedia Italiana-Treccani {p. 62}2020]. Se non sorprende che Internet e i social media fungano da facilitatori e amplificatori del fenomeno, la pandemia di Covid-19 ne è stata, in tutta evidenza, un acceleratore. In Italia dai primi giorni del marzo 2020 – così come più tardi in tutta Europa e al di là dell’Atlantico – siamo stati quotidianamente bombardati da dati, in particolare numerici: numero di infettati, di ospedalizzazioni, di morti. Il Who, così come in Italia l’Istituto Superiore di Sanità in collaborazione con l’Istat, hanno svolto il proprio ruolo sia pubblicando dati e statistiche sui siti Internet ufficiali e con conferenze stampa regolari, sia rivolgendosi al pubblico generale attraverso videomessaggi e articoli divulgativi di più facile comprensione anche per non esperti di dati e/o di salute pubblica [1]
, concentrandosi sul corso del fenomeno e sulla necessità delle misure di contenimento e precauzione.
Si potrebbe speculare che in un sistema democratico tale ipertrofica circolazione di dati, straordinariamente veloce e capillare, dovrebbe essere percepita positivamente e, di conseguenza, produrre effetti positivi sulla società tutta. Ma allora perché in molti ci siamo sentiti confusi e insicuri, quasi aggrediti sotto il costante martellamento di numeri e l’enorme dibattito associato ai corona-dati? Perché tanti fenomeni di sottovalutazione e di negazione, spesso ripresi e amplificati dai media? Pensiamo che la risposta non vada cercata nella quantità o nel flusso di dati, ma piuttosto nel modo in cui li recepiamo e «consumiamo». Questo ci porta alla nostra capacità di ricevere, decodificare e comprendere correttamente l’informazione contenuta nei e veicolata dai dati. Conoscere il dato non comporta necessariamente cogliere l’informazione in esso contenuta, allo stesso modo in cui disporre degli ingredienti e della ricetta non implica la buona riuscita della pietanza.
In questo capitolo adottiamo la prospettiva statistica, partendo dalla considerazione che un’adeguata trasformazione dei dati in informazioni, e la corretta ricezione di queste ultime sì da creare maggiore conoscenza, possa {p. 63}realizzarsi qualora sussistano tre prerequisiti: i) comprovata qualità e attendibilità dei dati, ii) sufficiente alfabetizzazione quantitativa, intesa come capacità di ragionamento statistico (statistical literacy) unito ad abilità basilari aritmetico-matematiche (numeracy), iii) corretta comunicazione di dati e statistiche. Nel seguito discuteremo tali prerequisiti con particolare attenzione, anche se non limitatamente, alla pandemia da Covid-19 in Italia, per arrivare a evidenziare come l’assenza in toto o in parte di questi sia all’origine di fenomeni di misinformazione e disinformazione, e potenzialmente configuri una minaccia per la democrazia.

2. Qualità dei dati. Che cos’è e perché è importante?

Un «buon» grado di qualità dei dati è condizione necessaria, ma non sufficiente, affinché anche i risultati dell’analisi statistica siano di qualità, cioè riflettano la realtà in cui i dati sono stati osservati. Così come non c’è ricetta ben riuscita utilizzando ingredienti scadenti, non esiste algoritmo che possa produrre risultati attendibili da dati che non lo sono, né abbiamo un metodo statistico in grado di migliorare la precisione dell’informazione estratta da dati imprecisi. The Data Manifesto, un’iniziativa della Royal Statistical Society del 2019, sottolinea: «Our democracy relies on the quality and trustworthiness of data in the public domain» [Royal Statistical Society 2019, 2]. Ma cosa si intende per «buoni» dati? Il concetto di qualità va riferito sia alla provenienza, la fonte dei dati, sia al come e al perché sono stati raccolti, cioè al metodo di rilevazione e/o di campionamento. Se dati e statistiche ufficiali sono prodotti dalle istituzioni preposte, ad esempio Istat ed Eurostat, nel rispetto di principi fondamentali quali rilevanza, imparzialità, accesso equo, etica, trasparenza, già condivisi dalle Nazioni Unite sin dal 1994 [United Nations 1994], molte sono anche le fonti non ufficiali, incluse quelle commerciali, che diffondono dati e statistiche con ridotta o nessuna possibilità di verifica di tali principi basici, e in maniera smodata sui social media [Maragakis e Kelen 2021]. I dati, cioè il risultato diretto {p. 64}della rilevazione del fenomeno nella realtà, per divenire informazione attendibile necessitano di rigorosi processi di controllo di qualità: la verifica della fonte, della riproducibilità dell’evidenza empirica prodotta dalle analisi statistiche, della metodologia di campionamento. In casi speciali, l’applicazione di protocolli condivisi o di legge semplifica queste operazioni, ad esempio nella sperimentazione medico-scientifica di nuovi farmaci e terapie, e nella diffusione dei sondaggi politico-elettorali. Esplicativo in tal senso è il caso dell’articolo Hydroxychloroquine or chloroquine with or without a macrolide for treatment of Covid-19: A multinational registry analysis apparso nel maggio 2020 su «The Lancet», una fra le più prestigiose riviste scientifiche in campo medico ed epidemiologico. A un mese dalla sua pubblicazione, l’articolo è stato ritrattato [Mehra et al. 2020a]. L’eclatante retraction è stata inevitabile a fronte delle preoccupazioni espresse da una larga parte della comunità scientifica riguardo alla qualità dei dati e alla validità scientifica delle analisi statistiche presentate, a cui si è poi aggiunto il rifiuto di chiarire da parte del fornitore di tali dati e analisi, l’azienda commerciale Surgisphere Corporation [Mehra, Ruschitzka e Patel 2020b, 1820]. In Italia, un regolamento dell’autorità per le garanzie nelle comunicazioni [Agcom 2020] impone che i sondaggi politico-elettorali vengano resi pubblici sul sito del Dipartimento per l’Informazione e l’Editoria della Presidenza del Consiglio dei ministri [2022] insieme a una serie di requisiti di qualità dei dati diffusi. In particolare, è fatto obbligo di dichiarare il «Metodo di campionamento, inclusa l’indicazione se trattasi di campionamento probabilistico o non probabilistico» [Agcom 2010]. Una breve visita al sito ed è immediato verificare come tale obbligo sia ampiamente disatteso. Se è vero che il termine tecnico «probabilistico o non probabilistico» può sembrare un oscuro dettaglio in assenza di specifica competenza statistica, è pur vero che è ciò che determina la qualità dei dati di tali sondaggi, ciò che consente di distinguere statistiche e informazioni scientificamente fondate (nel caso di campionamento probabilistico) da opinioni soggettive (qualora non probabilistico).{p. 65}

3. Alfabetizzazione statistico-matematica. Che cos’è e perché è importante?

La prova Invalsi di matematica, proposta al secondo anno della scuola secondaria di 2° grado, si articola in 4 macroaree: 1) numeri; 2) spazio e figure; 3) relazioni e funzioni; 4) dati e previsioni. Dal rapporto Invalsi [2022] si legge: «Si tratta di una prova articolata e che richiede buone competenze di base […] dopo 10 anni di scuola, e vuole fornire informazioni su una competenza fondamentale per l’esercizio dei diritti e dei doveri di cittadinanza». L’area «dati e previsioni» compare nelle prove proposte lungo l’intero percorso scolastico, con livello di complessità delle domande adeguato alla specifica coorte studentesca. Il fatto che quest’area sia coinvolta in tutte le prove nazionali di valutazione di numeracy e statistical literacy testimonia della considerazione riservata a tali competenze per il mondo odierno e ne riconosce l’importanza nella formazione dei futuri cittadini. La pandemia di Covid-19 e l’associata infodemia hanno fatto emergere con intensità e chiarezza senza precedenti come una non adeguata educazione al ragionamento statistico-matematico possa contribuire a comunicazioni improprie di dati e statistiche, alimentare confusione e paure nel pubblico, compromettere l’efficacia di impopolari decisioni politiche e di salute pubblica. In Italia l’intero sistema mediatico ha risposto con formidabile sforzo di adattamento all’eccezionale necessità di divulgazione di corona-dati e notizie quantitative. Molte buone pratiche vanno riconosciute: due esempi fra i tanti sono il blog InfoData sul sito Internet de «Il Sole 24 Ore» e l’ora quotidiana di approfondimento I numeri della pandemia di SkyTg24 [Sky – TG24 2020].
Ma accanto alle buone pratiche hanno convissuto sia occasionali fake news sia più diffusi, e in certa misura sottovalutati, casi di informazione impropria, fuorviante e ingannevole. Emblematica è stata una certa tendenza a privilegiare la comunicazione acritica di conteggi, cioè numeri assoluti, ponendo a pari livello dati di realtà con stime, che viceversa sono approssimazioni basate su dati parziali e
{p. 66}dunque incerti. Sovente, sulla base di numeri assoluti, sono stati suggeriti confronti svianti fra regioni di dimensioni e densità di popolazione non commensurabili (il «caso Lombardia») e in assenza di definizioni standardizzate (morti «per» e «con» Covid). Se ad esempio, in un dato giorno, il conteggio dei «ricoveri in terapia intensiva» è misura informativa della capacità del sistema sanitario nazionale di reggere l’impatto della pandemia, viceversa il numero dei cosiddetti «nuovi contagi» è una sottostima grossolana dell’incidenza dell’infezione, influenzata da scelte personali, comportamenti soggettivi e regole altamente variabili nel tempo e sul territorio italiano.
Note
[1] Cfr. l’indagine di Cerroni e Carradore nel contributo di Carradore, Cerroni e Nicolaci nel presente volume.