FISABIO Research: dalla Spagna un algoritmo che rende anonime le informazioni sensibili in cartella clinica

  • 13 maggio 2021 da http://fisabio.san.gva.es/ – “Un progetto comune dell’Unità di imaging biomedico della Fondazione per la promozione della salute e della ricerca biomedica della Regione di Valencia (Fisabio) e del Centro di ricerca Príncipe Felipe (CIPF) ha sviluppato uno strumento che consente di anonimizzare le informazioni mediche sui pazienti in modo che possano essere utilizzati dai ricercatori senza violare le leggi sulla protezione dei dati. Lo strumento consente di garantire che le informazioni con cui lavora il personale di ricerca non violino i diritti dei pazienti“.
Il team di ricerca di Fisabio, Regione Valenciana

Le relazioni cliniche dei pazienti contengono una grande quantità di informazioni utili per i ricercatori: test effettuati, farmaci per il paziente, tempo di trattamento, diagnosi fatte, ecc. Irene Pérez-Díez, autrice dell’articolo, ha sottolineato che “l’elaborazione di questo tipo di informazioni aiuta i ricercatori nei loro progetti e contribuisce ad accelerare i progressi scientifici. Affinché i ricercatori possano utilizzare queste informazioni, queste devono essere rese anonime per proteggere la privacy dei dati personali “.

Questo metodo si basa su categorie (nome, luogo, numero) associate a ciascuna unità di informazione che l’algoritmo successivamente cancella o sostituisce con informazioni false. Altri metodi precedenti perdono efficacia quando nei testi o nelle espressioni che dipendono dal contesto compaiono errori di ortografia. “Il nostro metodo si basa sul Natural Language Processing (PNL). Pertanto, è sensibile al contesto che circonda una determinata parola. Ad esempio, AI distingue se la parola “testa” si riferisce a una parte del corpo o al cognome di una persona”, ha spiegato il ricercatore.

I precedenti lavori in questo campo in spagnolo non hanno mai raggiunto un perfetto livello di anonimizzazione, dato che alcune informazioni sensibili avrebbero potuto essere ancora esposte. Raúl Pérez-Moraga, coautore dell’articolo ha aggiunto che “il nostro metodo è molto più robusto e versatile se lo confrontiamo con i metodi basati su regole fisse ed espressioni regolari, dato che hanno una scarsa affidabilità se il rapporto presenta errori di ortografia o grammaticali”.

Inoltre, lo strumento può essere facilmente tradotto in altre lingue, soprattutto se sono basate sul latino. Secondo il ricercatore, “Richiede solo la registrazione di una quantità sufficiente di referti clinici nella lingua in cui si desidera applicare la metodologia. Infatti, l’algoritmo è già in grado di rilevare parole che contengono informazioni sensibili sia in spagnolo che in valenciano. Ciò non si verifica con altri metodi specifici per ciascuna lingua”.

L’articolo, intitolato “De-identificazione dei testi medici spagnoli – riconoscimento di entità denominato applicato ai rapporti di radiologia”, è stato pubblicato sul Journal of Biomedical Sciences ed è stato scritto da Irene Pérez-Díez, Raúl Pérez-Moraga, Adolfo López-Cerdán, Jose -Maria Salinas-Serrano e María de la Iglesia-Vayá, lo staff di ricerca dell’Unità di imaging biomedico misto di Fisabio-CIPF.

Come è stato sviluppato l’algoritmo

La metodologia per lo studio prevedeva tre fasi: registrazione, formazione e test. In primo luogo, un team di esperti ha esaminato i rapporti clinici con dati sensibili e assegnato a ciascuna parola un’etichetta specifica, in base al tipo. “Dividere le parole per renderle anonime in gruppi ci consente di ottenere prestazioni superiori rispetto agli algoritmi di intelligenza artificiale”, ha spiegato Irene Pérez-Díez.

In una seconda fase della formazione, il team di esperti in Intelligenza Artificiale trasferisce il report registrato agli algoritmi di AI in modo che “apprendano” i modelli che circondano le parole che contengono informazioni sensibili. Infine, vengono eseguiti diversi test per testare le prestazioni. Quando l’algoritmo contrassegna una determinata parola, può fare due cose: semplicemente cancellarla o creare false informazioni sensibili. Cioè, se rileva il nome di una persona, può sostituirlo con un altro.

Dopo aver valutato i diversi algoritmi, viene scelto quello che ha ottenuto le prestazioni più elevate per il compito per il quale è stato implementato. I referti clinici anonimizzati dall’algoritmo vengono valutati anche dal team di esperti per evitare il filtraggio di eventuali informazioni sensibili.

Infine, Maria de la Iglesia-Vayá ha sottolineato che “la procedura sviluppata nell’ambito del progetto DeepHealth si basa sul principio della protezione dei dati nella progettazione stessa e per impostazione predefinita. Non è stata sviluppata solo per funzionare come un mandato normativo, ma anche come metodologia che aiuterà a sviluppare la trasformazione digitale”.

Questa metodologia sarà presentata all’Hackathon di anonimizzazione che si terrà alla fine di quest’anno come parte del progetto europeo DeepHealth.

https://jbiomedsem.biomedcentral.com/articles/10.1186/s13326-021-00236-2