Epidemiologia digitale e utilizzo dei dati per combattere la pandemia
Intervista al Prof. Ciro Cattuto, docente del Dipartimento di Informatica Unito, Principal Scientist della Fondazione ISI
Nel mese di marzo 2020 Ciro Cattuto è stato chiamato a far parte della Task Force Dati per l’emergenza Covid-19 del Ministero dell’Innovazione. Docente del Dipartimento di Informatica Unito, Principal Scientist della fondazione ISI e fondatore della collaborazione SocioPatterns, Cattuto si occupa da anni di misurare e comprendere fenomeni complessi in sistemi che coinvolgono i comportamenti umani e le piattaforme digitali. I suoi interessi di ricerca sono, tra gli altri, l'epidemiologia digitale e l'impatto sociale delle scienze dei dati. Alla luce dell’attuale pandemia, abbiamo approfondito insieme a lui questi temi, provando a capire in che modo l’analisi dei big data può essere usata per contrastare il coronavirus.
Professor Cattuto, quando si parla di epidemiologia digitale a cosa ci si riferisce?
Per “epidemiologia digitale” oggi intendiamo l’uso di nuove sorgenti di dati, spesso raccolti per altri scopi, combinato con approccio computazionali dell’informatica e dell’intelligenza artificiale. Su questo nel 2012 abbiamo scritto un manifesto, intitolato “Digital Epidemiology” (M. Salathé et al., PLoS Comp. Bio. 2012) in cui, insieme ad altri scienziati oggi in prima linea nella lotta al coronavirus, immaginavamo una nuova disciplina. Una delle prime esperienze in tal senso è stato “Google Flu Trends”, un progetto pioneristico che utilizzava dati aggregati dalle ricerche dagli utenti sul motore di ricerca per monitorare l’andamento dell’influenza stagionale. All’epoca individuavamo come fattore cruciale la possibilità, come nel caso di Google Flu Trends, di far leva su dati che vengono raccolti per altri scopi, ma che consentono di definire nuovi indicatori della salute a livello di popolazione e di informare decisioni e politiche sanitarie. Ad esempio, oggi se si vuole predire l’andamento di un’epidemia, soprattutto nelle prime fasi, è importante avere un’idea di come le persone si muovono e interagiscono tra loro. Per creare queste mappe di mobilità vengono usati dati forniti da compagnie telefoniche o da altre piattaforme digitali, utili per mappare i flussi, informare i modelli matematici e provare ad anticipare il percorso del virus. Questi dati non vengono primariamente raccolti per motivi di salute pubblica ma, da circa un decennio, molti gruppi di ricerca li hanno usati in modo secondario per ragionare sulla propagazione di una malattia infettiva. I “nuovi flussi di dati” si sono moltiplicati nel corso del tempo, grazie allo sviluppo tecnologico di smartphone e di sensori, e hanno la caratteristica di essere spesso generati da soggetti privati, in contesti di business. Questo, unitamente alle considerazioni di protezione dei dati personali, genera importanti sfide di governance sulla valorizzazione pubblica di questi dati.
Quali sono gli altri limiti alla raccolta dei dati per tutelare la salute pubblica?
Paradossalmente abbiamo a disposizione molte più informazioni sulla superfice della luna che sulla salute delle persone. Ciascuno di noi può avere una mappa dettagliata della NASA sui crateri lunari, ma quanti di noi possono sapere, ad esempio, quante sono le persone malate di influenza in una data regione italiana, in tempo reale? Qual è il livello di aderenza dei cittadini all’obbligo di indossare la mascherina per prevenire i contagi da Covid-19? Si tratta di informazioni obiettivamente più complicate da ottenere, perché combinano prospettive individuali e di popolazione, richiedono partecipazione dei cittadini e un’attenta considerazione degli aspetti di privacy e protezione dei dati personali. Le tecnologie però offrono ai cittadini anche nuovi modi di partecipare: ad esempio, in Europa esiste InluenzaNet, una rete partecipativa per la sorveglianza dell’influenza stagionale composta da un gruppo di volontari che, ogni lunedì mattina, compilano un questionario sui propri sintomi; queste informazioni sono ormai riconosciute e riportare da molte agenzie europee di protezione della salute. L’app “Immuni” per il tracciamento dei contatti è un altro esempio di una tecnologia che rispetta la privacy per design e per default, e consente ai cittadini di contribuire alla protezione della salute. C’è poi tutto il mondo dei dati digitali aggregati che possono informare, a livello di popolazione, le politiche sulla salute pubblica, mettendo a disposizione una nuova generazione di indicatori complementari su nutrizione, aderenza vaccinale, abitudini che comportano rischi per la salute come il fumo e il consumo di alcool, e così via. Riuscire a calcolare e condividere questi segnali è una delle grandi sfide del nostro tempo.
È possibile invece utilizzare dati che, seppur utili alla tutela della salute pubblica, sono sensibili o riservati?
Questo è un aspetto di un problema ancora più complesso: come governare la trasformazione digitale? Non possiamo permetterci che la trasformazione digitale avvenga esclusivamente secondo logiche di mercato. Come possiamo generare valore pubblico per i cittadini, facendo sì che istituzioni pubbliche, compagnie private e centri di ricerca collaborino? Immaginiamo un triangolo che coinvolge tre soggetti: chi detiene il dato digitale che può essere valorizzato (spesso un’azienda privata), chi ha le competenze per estrarre segnali dal dato (ricerca) e chi ha esperienza di dominio sul problema e capacità decisionale (istituzioni pubbliche). Al momento, questi tre soggetti hanno culture ed incentivi non ben allineati, e risulta difficile avviare e sostenere questo tipo di collaborazioni. Questo è il vero problema per l’impatto della scienza dei dati e dell’intelligenza artificiale: generare valore pubblico dai dati richiede la creazione di un dialogo cross-settoriale tra questi tre tipi di soggetti. A Torino, presso OGR, Fondazione ISI e Fondazione CRT hanno creato un centro di ricerca su dati e impatto sociale precisamente per ragionare su questa classe di problemi. Un’altra grande sfida è la complessità intrinseca della salute pubblica, che vive da sempre un costante bilanciamento tra comportamenti individuali ed esiti collettivi. Non immaginiamo certo che le nuove tecnologie e capacità tecniche, da sole, offrano soluzioni semplici a sfide che sono sostanzialmente sfide di governance. Da questo punto di vista, per quanto riguarda i dati personali, in Europa ci muoviamo nella certezza della General Data Protection Regulation (GDPR), che norma cosa è possibile fare con i dati, incluse le eccezioni riguardo la salute pubblica, gettando le basi per la generazione di un ecosistema digitale che rispetta i diritti individuali e genera più valore pubblico. È importante, quando si parla di queste sfide, evitare le false dicotomie “privacy contro interesse pubblico”.
L’influenza spagnola, un secolo fa, impiegò circa un mese per diventare pandemia. Oggi si calcola che, grazie ai voli aerei, un’epidemia impiega in media quattro giorni a diffondersi nel mondo. Le risposte sembrano spesso troppo lente di fronte a emergenze che possono scatenarsi in tempi brevissimi e che richiedono decisioni altrettanto rapide. Come si riduce il gap tra la diffusione pandemica e gli interventi messi in campo per arginarla?
È impossibile anticipare dove e quando scoppierà la prossima epidemia. Tuttavia, abbiamo gli strumenti per intervenire non appena un virus inizia a diffondersi. La modellistica predittiva ha fatto progressi, grazie a nuove sorgenti di dati e a nuove tecniche computazionali, ed è enormemente migliorata nel corso dell’ultimo decennio. È importante sottolineare che quando pensiamo ai “modelli” ci riferiamo quasi sempre alla capacità di anticipare il futuro. Questa è un’interpretazione limitante e parziale dei modelli matematici: un modello serve principalmente a ragionare su degli scenari, che vuol dire porsi delle domande: cosa succede se chiudo le scuole? E se restringo la mobilità? Ragionando sulle simulazioni di questi scenari si capisce cosa potrebbe funzionare o meno, e queste informazioni possono contribuire in modo importante alle politiche di risposta e di preparazione. Lì è dove si realizza il vero impatto della scienza dei dati: riuscire a creare delle politiche per fronteggiare il problema, prima che il problema si aggravi. È quello che abbiamo fatto anche nella task force del Ministero dell’Innovazione, dove abbiamo messo a fattore una serie di dati digitali non personali che consentissero ai modellisti di ragionare sui potenziali scenari. Tutte queste cose sono state fatte in emergenza, ma in realtà dovrebbero esistere dei sistemi già pronti, e dei meccanismi ben definiti da attivare in caso di crisi. Il tutto senza scivolare verso la narrativa del “dateci tutti i dati, perché dobbiamo proteggere l’interesse pubblico”. È importante essere consci e rispettare ad ogni passo la complessità di una collaborazione fra settore pubblico, settore privato, e cittadini informati. È necessario costruire fiducia in nuovi processi di creazione di valore.
#unitohomecommunity