Pandemocrazia
DOI: 10.1401/9788815411297/c3
Capitolo terzo Infodemia: perché è necessaria una statistical literacy. La lezione della pandemia, di Fulvia Mecatti e Silvana A. Romio
Notizie Autori
Fulvia Mecatti – PhD in Statistica metodologica – è professoressa
ordinaria di Statistica nell’Università di Milano-Bicocca. La sua ricerca verte
principalmente sui metodi di campionamento statistico per popolazioni
difficult-to-sample, Bootstrap per campioni complessi,
statistica di genere e inferenza causale per dati biomedici osservazionali.
Sostiene con convinzione la necessità di un’efficace comunicazione della
statistica, rivolta a un pubblico anche non specialistico. È codirettrice del
corso in Data-journalism all’Università Vita-Salute San Raffaele di Milano,
facilitator per il Who Divisione TB monitoring &
evaluation, consulente per UN Intersecretariat Working Group on Household
Surveys e per UN-Women.
Notizie Autori
Silvana A. Romio – laureata in Matematica (Università di Buenos Aires e
Università degli Studi di Pavia) e in Biostatistica (Università di
Milano-Bicocca), PhD in Statistica (Università di Milano-Bicocca) – ha lavorato
come assistant professor presso l’Erasmus University Medical Center (Rotterdam),
partecipando a diversi progetti europei di farmaco-epidemiologia. Attualmente è
docente di ruolo di Matematica e Fisica e collaboratrice di ricerca presso
l’Università di Milano-Bicocca.
Abstract
È stata pandemia e, insieme, una tempesta planetaria di dati, statistiche,
modelli, «picchi» e previsioni, amplificata dai mezzi di comunicazione e accelerata
da Internet. Un fenomeno che si è palesato con un’intensità senza precedenti
associato al Coronavirus, ma già da tempo in atto e pervasivo. Un «buon» grado di
qualità dei dati è condizione necessaria, ma non sufficiente, affinché anche i
risultati dell’analisi statistica siano di qualità, cioè riflettano la realtà in cui
i dati sono stati osservati. Sin dalle prime fasi dell’infodemia associata al
diffondersi dell’infezione da Sars-CoV-2, le istituzioni di controllo nazionali ed
europee si sono attivate con svariate misure di prevenzione contro fake news e
misinformazione. Ne sono esempi la webpage Covid19 – Per gli utenti sul sito di
Agcom e le Linee guida Eaca in collaborazione con la Commissione europea.
L’incertezza che ha permeato le nostre vite nel tempo della pandemia caratterizza
anche gran parte delle nostre attività, decisioni e scelte. Il bisogno di
rassicurazione può, almeno in parte, spiegare la tendenza a percepire i risultati
scientifici, i dati e le evidenze empiriche come verità assolute, senza il
necessario riferimento alla loro natura sperimentale, parziale e probabilistica. La
pandemia e l’infodemia da Covid-19 ci hanno investito con formidabili esempi di
«disturbi dell’informazione», sia dal lato di chi divulga sia dal lato di chi
riceve. Al contempo, ci offrono una eccezionale occasione di allerta, di riflessione
sociale, di preparedness. Una lezione che non possiamo permetterci di
perdere.
1. Introduzione
È stata pandemia e, insieme, una tempesta
planetaria di dati, statistiche, modelli, «picchi» e previsioni, amplificata dai mezzi
di comunicazione e accelerata da Internet. Un fenomeno che si è palesato con
un’intensità senza precedenti associato al Coronavirus, ma già da tempo in atto e
pervasivo. Dati su tutto: salute, economia, sicurezza, scuola, e su ogni canale di
comunicazione, tradizionali e digitali, in una sorta di «data-bullismo» [Giugni 2021].
Uno stato di cose che ha meritato un vocabolo ad hoc: «infodemia»,
tra informazione ed epidemia. Non proprio un neologismo, coniato quasi 20 anni fa in un
articolo sul «Washington Post» [Rothkopf 2003], utilizzato nel 2003 in occasione
dell’epidemia di Sars (Severe acute respiratory syndrome) causata
da un altro Coronavirus, allora denominato Sars-CoV, e ripreso dall’Organizzazione
mondiale della sanità (Who) in un documento del dicembre 2020, Call for
Action: Managing the Infodemic. Nel documento si rimarca che a
latere della pandemia di Covid-19 si è verificata una «massiccia
infodemia […] uno tsunami di informazioni, alcune accurate altre
no, che si è diffusa assieme e parallela all’epidemia» [Who 2020a]; e ancora si
sottolinea che «l’infodemia non riguarda solo la comunicazione nel mondo digitale ma il
comportamento umano» [Who 2021]. Il vocabolario Treccani definisce l’infodemia come una
«circolazione di una quantità eccessiva di informazioni, talvolta non vagliate con
accuratezza, che rendono difficile orientarsi su un determinato argomento per la
difficoltà di individuare fonti affidabili» [Istituto della Enciclopedia
Italiana-Treccani ¶{p. 62}2020]. Se non sorprende che Internet e i
social media fungano da facilitatori e amplificatori del fenomeno, la pandemia di
Covid-19 ne è stata, in tutta evidenza, un acceleratore. In Italia dai primi giorni del
marzo 2020 – così come più tardi in tutta Europa e al di là dell’Atlantico – siamo stati
quotidianamente bombardati da dati, in particolare numerici: numero di infettati, di
ospedalizzazioni, di morti. Il Who, così come in Italia l’Istituto Superiore di Sanità
in collaborazione con l’Istat, hanno svolto il proprio ruolo sia pubblicando dati e
statistiche sui siti Internet ufficiali e con conferenze stampa regolari, sia
rivolgendosi al pubblico generale attraverso videomessaggi e articoli divulgativi di più
facile comprensione anche per non esperti di dati e/o di salute pubblica
[1]
, concentrandosi sul corso del fenomeno e sulla necessità delle misure di
contenimento e precauzione.
Si potrebbe speculare che in un
sistema democratico tale ipertrofica circolazione di dati, straordinariamente veloce e
capillare, dovrebbe essere percepita positivamente e, di conseguenza, produrre effetti
positivi sulla società tutta. Ma allora perché in molti ci siamo sentiti confusi e
insicuri, quasi aggrediti sotto il costante martellamento di numeri e l’enorme dibattito
associato ai corona-dati? Perché tanti fenomeni di sottovalutazione e di negazione,
spesso ripresi e amplificati dai media? Pensiamo che la risposta non vada cercata nella
quantità o nel flusso di dati, ma piuttosto nel modo in cui li recepiamo e «consumiamo».
Questo ci porta alla nostra capacità di ricevere, decodificare e comprendere
correttamente l’informazione contenuta nei e veicolata dai dati. Conoscere il dato non
comporta necessariamente cogliere l’informazione in esso contenuta, allo stesso modo in
cui disporre degli ingredienti e della ricetta non implica la buona riuscita della
pietanza.
In questo capitolo adottiamo la
prospettiva statistica, partendo dalla considerazione che un’adeguata trasformazione dei
dati in informazioni, e la corretta ricezione di queste ultime sì da creare maggiore
conoscenza, possa ¶{p. 63}realizzarsi qualora sussistano tre
prerequisiti: i) comprovata qualità e attendibilità dei dati,
ii) sufficiente alfabetizzazione quantitativa, intesa come
capacità di ragionamento statistico (statistical literacy) unito ad
abilità basilari aritmetico-matematiche (numeracy),
iii) corretta comunicazione di dati e statistiche. Nel seguito
discuteremo tali prerequisiti con particolare attenzione, anche se non limitatamente,
alla pandemia da Covid-19 in Italia, per arrivare a evidenziare come l’assenza in toto o
in parte di questi sia all’origine di fenomeni di misinformazione e disinformazione, e
potenzialmente configuri una minaccia per la democrazia.
2. Qualità dei dati. Che cos’è e perché è importante?
Un «buon» grado di qualità dei dati è
condizione necessaria, ma non sufficiente, affinché anche i risultati dell’analisi
statistica siano di qualità, cioè riflettano la realtà in cui i dati sono stati
osservati. Così come non c’è ricetta ben riuscita utilizzando ingredienti scadenti, non
esiste algoritmo che possa produrre risultati attendibili da dati che non lo sono, né
abbiamo un metodo statistico in grado di migliorare la precisione dell’informazione
estratta da dati imprecisi. The Data Manifesto, un’iniziativa della
Royal Statistical Society del 2019, sottolinea: «Our democracy relies on the quality and
trustworthiness of data in the public domain» [Royal Statistical Society 2019, 2]. Ma
cosa si intende per «buoni» dati? Il concetto di qualità va riferito sia alla
provenienza, la fonte dei dati, sia al come e al perché sono stati raccolti, cioè al
metodo di rilevazione e/o di campionamento. Se dati e statistiche ufficiali sono
prodotti dalle istituzioni preposte, ad esempio Istat ed Eurostat, nel rispetto di
principi fondamentali quali rilevanza, imparzialità, accesso equo, etica, trasparenza,
già condivisi dalle Nazioni Unite sin dal 1994 [United Nations 1994], molte sono anche
le fonti non ufficiali, incluse quelle commerciali, che diffondono dati e statistiche
con ridotta o nessuna possibilità di verifica di tali principi basici, e in maniera
smodata sui social media [Maragakis e Kelen 2021]. I dati, cioè il risultato diretto
¶{p. 64}della rilevazione del fenomeno nella realtà, per divenire
informazione attendibile necessitano di rigorosi processi di controllo di qualità: la
verifica della fonte, della riproducibilità dell’evidenza empirica prodotta dalle
analisi statistiche, della metodologia di campionamento. In casi speciali,
l’applicazione di protocolli condivisi o di legge semplifica queste operazioni, ad
esempio nella sperimentazione medico-scientifica di nuovi farmaci e terapie, e nella
diffusione dei sondaggi politico-elettorali. Esplicativo in tal senso è il caso
dell’articolo Hydroxychloroquine or chloroquine with or without a macrolide
for treatment of Covid-19: A multinational registry analysis apparso nel
maggio 2020 su «The Lancet», una fra le più
prestigiose riviste scientifiche in campo medico ed
epidemiologico. A un mese dalla sua pubblicazione,
l’articolo è stato ritrattato [Mehra et
al. 2020a]. L’eclatante retraction è stata
inevitabile a fronte delle preoccupazioni espresse da una larga parte della comunità
scientifica riguardo alla qualità dei dati e alla validità scientifica delle analisi
statistiche presentate, a cui si è poi aggiunto il rifiuto di chiarire da parte del
fornitore di tali dati e analisi, l’azienda commerciale Surgisphere
Corporation [Mehra, Ruschitzka e Patel 2020b, 1820]. In Italia,
un regolamento dell’autorità per le garanzie nelle comunicazioni [Agcom 2020] impone che
i sondaggi politico-elettorali vengano resi pubblici sul sito del Dipartimento per
l’Informazione e l’Editoria della Presidenza del Consiglio dei ministri [2022] insieme a
una serie di requisiti di qualità dei dati diffusi. In particolare, è fatto obbligo di
dichiarare il «Metodo di campionamento, inclusa l’indicazione se trattasi di
campionamento probabilistico o non probabilistico» [Agcom 2010]. Una breve visita al
sito ed è immediato verificare come tale obbligo sia ampiamente disatteso. Se è vero che
il termine tecnico «probabilistico o non probabilistico» può sembrare un oscuro
dettaglio in assenza di specifica competenza statistica, è pur vero che è ciò che
determina la qualità dei dati di tali sondaggi, ciò che
consente di distinguere statistiche e informazioni scientificamente fondate (nel caso di
campionamento probabilistico) da opinioni soggettive (qualora non
probabilistico).¶{p. 65}
3. Alfabetizzazione statistico-matematica. Che cos’è e perché è importante?
La prova Invalsi di matematica,
proposta al secondo anno della scuola secondaria di 2° grado, si articola in 4
macroaree: 1) numeri; 2) spazio e figure; 3) relazioni e funzioni; 4) dati e previsioni.
Dal rapporto Invalsi [2022] si legge: «Si tratta di una prova articolata e che richiede
buone competenze di base […] dopo 10 anni di scuola, e vuole fornire informazioni su una
competenza fondamentale per l’esercizio dei diritti e dei doveri di cittadinanza».
L’area «dati e previsioni» compare nelle prove proposte lungo l’intero percorso
scolastico, con livello di complessità delle domande adeguato alla specifica coorte
studentesca. Il fatto che quest’area sia coinvolta in tutte le prove nazionali di
valutazione di numeracy e statistical literacy
testimonia della considerazione riservata a tali competenze per il mondo
odierno e ne riconosce l’importanza nella formazione dei futuri cittadini. La pandemia
di Covid-19 e l’associata infodemia hanno fatto emergere con intensità e chiarezza senza
precedenti come una non adeguata educazione al ragionamento statistico-matematico possa
contribuire a comunicazioni improprie di dati e statistiche, alimentare confusione e
paure nel pubblico, compromettere l’efficacia di impopolari decisioni politiche e di
salute pubblica. In Italia l’intero sistema mediatico ha risposto con formidabile sforzo
di adattamento all’eccezionale necessità di divulgazione di corona-dati e notizie
quantitative. Molte buone pratiche vanno riconosciute: due esempi fra i tanti sono il
blog InfoData sul sito Internet de «Il Sole 24 Ore» e l’ora
quotidiana di approfondimento I numeri della pandemia di SkyTg24
[Sky – TG24 2020].
Ma accanto alle buone pratiche hanno
convissuto sia occasionali fake news sia più diffusi, e in certa
misura sottovalutati, casi di informazione impropria, fuorviante e ingannevole.
Emblematica è stata una certa tendenza a privilegiare la comunicazione acritica di
conteggi, cioè numeri assoluti, ponendo a pari livello dati di realtà con
stime, che viceversa sono approssimazioni basate su dati
parziali e
¶{p. 66}dunque incerti. Sovente, sulla base di numeri
assoluti, sono stati suggeriti confronti svianti fra regioni di dimensioni e densità di
popolazione non commensurabili (il «caso Lombardia») e in assenza di definizioni
standardizzate (morti «per» e «con» Covid). Se ad esempio, in un dato giorno, il
conteggio dei «ricoveri in terapia intensiva» è misura informativa della capacità del
sistema sanitario nazionale di reggere l’impatto della pandemia, viceversa il numero dei
cosiddetti «nuovi contagi» è una sottostima grossolana dell’incidenza dell’infezione,
influenzata da scelte personali, comportamenti soggettivi e regole altamente variabili
nel tempo e sul territorio italiano.
Note
[1] Cfr. l’indagine di Cerroni e Carradore nel contributo di Carradore, Cerroni e Nicolaci nel presente volume.