A metà degli anni ’90, la Massachusetts Group Insurance Commission, un assicuratore di dipendenti statali, ha rilasciato ai ricercatori dati sanitari che descrivevano milioni di interazioni tra i pazienti e il sistema sanitario. Tali registrazioni potrebbero facilmente rivelare informazioni altamente sensibili – consultazioni psichiatriche, infezioni sessualmente trasmissibili, dipendenza da antidolorifici, enuresi notturna – per non parlare della tempistica esatta di ogni trattamento. Quindi, naturalmente, il GIC ha rimosso dai registri nomi, indirizzi e dettagli della previdenza sociale. Resi anonimi in modo sicuro, questi potrebbero quindi essere utilizzati per rispondere a domande salvavita su quali trattamenti hanno funzionato meglio ea quale costo.

Non è così che la vedeva Latanya Sweeney. Allora studente laureato e ora professore all’Università di Harvard, Sweeney ha notato che la maggior parte delle combinazioni di genere e data di nascita (ce ne sono circa 60.000) erano uniche all’interno di ogni codice postale ampio di 25.000 persone. La stragrande maggioranza delle persone potrebbe essere identificata in modo univoco incrociando i record degli elettori con le cartelle cliniche anonime. Solo una cartella clinica, ad esempio, aveva la stessa data di nascita, sesso e codice postale dell’allora governatore del Massachusetts, William Weld. Sweeney ha reso inconfondibile il suo punto di vista inviando a Weld una copia delle sue cartelle cliniche presumibilmente anonime.

Nei circoli nerd, ci sono molte storie del genere. I grandi set di dati possono essere resi anonimi con facilità; questo fatto è tanto ovvio per i professionisti della scienza dei dati quanto sorprendente per i profani. Più dettagliati sono i dati, più facile e consequenziale diventa la de-anonimizzazione. Ma questo particolare problema ha un’opportunità uguale e contraria: migliori sono i dati, più sono utili per salvare vite umane. I buoni dati possono essere utilizzati per valutare nuovi trattamenti, per individuare i problemi emergenti nella fornitura, per migliorare la qualità e per valutare chi è più a rischio di effetti collaterali. Tuttavia, cogliere questa opportunità senza scatenare un’apocalisse sulla privacy – e un giustificato contraccolpo da parte dei pazienti – sembra impossibile.


Non è così, dice il professor Ben Goldacre, direttore del Bennett Institute for Applied Data Science dell’Università di Oxford. Goldacre ha recentemente condotto una revisione sull’uso dei dati sanitari del Regno Unito per la ricerca, che ha proposto una soluzione. “È quasi unico”, mi ha detto. “Un’occasione genuina per avere la tua torta e mangiarla.” Il governo britannico ama questo pasticcio e sembra aver accolto con entusiasmo le raccomandazioni di Goldacre.

Al momento, abbiamo il peggio dei due mondi: i ricercatori faticano ad accedere ai dati perché le persone che hanno le cartelle dei pazienti (giustamente) esitano a condividerli. Eppure le perdite sono quasi inevitabili perché c’è una supervisione irregolare su chi ha quali dati, quando.

Cosa propone la rassegna Goldacre? Invece di inviare via e-mail milioni di cartelle cliniche a chiunque prometta di essere in buone condizioni, le cartelle verranno archiviate in un data warehouse sicuro. Un gruppo di ricerca approvato che vuole capire, ad esempio, la gravità di una nuova variante di Covid in individui vaccinati, non vaccinati e precedentemente infetti, scriverebbe il codice analitico e lo testerà su dati fittizi fino a quando non sarà dimostrato che funziona con successo. Quando è pronto, il codice viene inviato al data warehouse e vengono restituiti i risultati. I ricercatori non vedrebbero mai i dati sottostanti. Nel frattempo l’intera comunità di ricerca ha potuto vedere che il codice era stato distribuito e poteva controllarlo, condividerlo, riutilizzarlo e adattarlo.

Questo approccio è chiamato “ambiente di ricerca affidabile” o TRE. Il concetto non è nuovo, afferma Ed Chalstrey, un data scientist di ricerca presso l’Alan Turing Institute. L’Office for National Statistics ha un TRE chiamato Secure Research Service per consentire ai ricercatori di analizzare i dati del censimento in modo sicuro. Goldacre ei suoi colleghi ne hanno sviluppato un altro, chiamato OpenSAFELY. La novità, afferma Chalstrey, sono gli enormi set di dati ora disponibili, compresi i dati genomici. La de-anonimizzazione è semplicemente senza speranza in questi casi, mentre l’opportunità che offrono è d’oro. Quindi i tempi sembrano maturi per un uso più ampio dei TRE.

La revisione di Goldacre raccomanda al Regno Unito di costruire ambienti di ricerca più affidabili con il quadruplice obiettivo di: guadagnare la giustificata fiducia dei pazienti, consentire ai ricercatori di analizzare i dati senza aspettare anni per il permesso, rendere il controllo e la condivisione degli strumenti analitici qualcosa che accade in base alla progettazione, poiché oltre a nutrire una comunità di data scientist.

Il NHS ha una raccolta invidiabilmente completa di cartelle cliniche. Ma potrebbe costruire piattaforme TRE? O il governo consegnerebbe il progetto all’ingrosso a qualche gigante della tecnologia? L’outsourcing dall’alto verso il basso farebbe poco per la fiducia dei pazienti o per la condivisione open source di strumenti accademici. La recensione di Goldacre afferma che “non esiste un singolo contratto che possa trasferire la responsabilità a qualche macchina esterna. La costruzione di grandi piattaforme deve essere considerata un’attività centrale a sé stante”.

Roba stimolante, anche se la storia dei progetti di dati del governo non è del tutto rassicurante. Ma l’opportunità è abbastanza chiara: un nuovo tipo di infrastruttura dati che proteggerebbe i pazienti, aumenterebbe la ricerca e aiuterebbe a costruire una comunità di data scientist nel settore sanitario che potrebbe essere l’invidia del mondo. Se funziona, le persone invieranno al segretario sanitario note di apprezzamento, piuttosto che le proprie cartelle cliniche.