L’apprendimento federato consente di utilizzare big data per il rilevamento dei confini dei tumori rari
Nature Communications volume 13, numero articolo: 7346 (2022) Citare questo articolo
18k accessi
16 citazioni
341 Altmetrico
Dettagli sulle metriche
Una correzione dell'autore a questo articolo è stata pubblicata il 26 gennaio 2023
Questo articolo è stato aggiornato
Sebbene il machine learning (ML) si sia dimostrato promettente in tutte le discipline, la generalizzabilità fuori campione è preoccupante. Attualmente questo problema viene risolto condividendo dati multisito, ma tale centralizzazione è difficile/impossibile da scalare a causa di varie limitazioni. Il Federated ML (FL) fornisce un paradigma alternativo per un ML accurato e generalizzabile, condividendo solo gli aggiornamenti del modello numerico. Qui presentiamo il più grande studio FL fino ad oggi, che coinvolge dati provenienti da 71 siti in 6 continenti, per generare un rilevatore automatico dei confini del tumore per la malattia rara del glioblastoma, riportando il più grande set di dati di questo tipo in letteratura (n = 6, 314). Abbiamo dimostrato un miglioramento della delineazione del 33% per il tumore targetizzabile chirurgicamente e del 23% per l'estensione completa del tumore, rispetto a un modello addestrato pubblicamente. Prevediamo che il nostro studio: 1) consentirà più studi sanitari basati su dati ampi e diversificati, garantendo risultati significativi per le malattie rare e le popolazioni sottorappresentate, 2) faciliterà ulteriori analisi per il glioblastoma rilasciando il nostro modello di consenso e 3) dimostrerà l'efficacia del FL a tale livello scalabilità e complessità delle attività come cambiamento di paradigma per le collaborazioni multisito, alleviando la necessità di condivisione dei dati.
I recenti progressi tecnologici nel settore sanitario, insieme al passaggio della cultura dei pazienti da reattiva a proattiva, hanno portato a una crescita radicale delle osservazioni primarie generate dai sistemi sanitari. Ciò contribuisce al burnout degli esperti clinici, poiché tali osservazioni richiedono una valutazione approfondita. Per alleviare questa situazione, sono stati compiuti numerosi sforzi per lo sviluppo, la valutazione e l’eventuale traduzione clinica dei metodi di apprendimento automatico (ML) per identificare le relazioni rilevanti tra queste osservazioni, riducendo così l’onere per gli esperti clinici. I progressi nel machine learning, e in particolare nel deep learning (DL), si sono dimostrati promettenti nell’affrontare questi complessi problemi sanitari. Tuttavia, vi sono preoccupazioni circa la loro generalizzabilità su dati provenienti da fonti che non hanno partecipato all'addestramento del modello, vale a dire dati "fuori campione"1,2. La letteratura indica che la formazione di modelli robusti e accurati richiede grandi quantità di dati3,4,5, la cui diversità influisce sulla generalizzabilità del modello a casi "fuori campione"6. Per affrontare queste preoccupazioni, i modelli devono essere addestrati su dati provenienti da numerosi siti che rappresentano diversi campioni di popolazione. Il paradigma attuale per tali collaborazioni multi-sito è l'"apprendimento centralizzato" (CL), in cui i dati provenienti da diversi siti vengono condivisi in una posizione centralizzata in seguito ad accordi tra siti6,7,8,9. Tuttavia, tale centralizzazione dei dati è difficile da scalare (e potrebbe addirittura non essere fattibile), soprattutto su scala globale, a causa di preoccupazioni10,11 relative alla privacy, alla proprietà dei dati, alla proprietà intellettuale, alle sfide tecniche (ad esempio, limitazioni di rete e di archiviazione), nonché la conformità con diverse politiche normative (ad esempio, l'Health Insurance Portability and Accountability Act (HIPAA) degli Stati Uniti12 e il Regolamento generale sulla protezione dei dati (GDPR) dell'Unione Europea13). In contrasto con questo paradigma centralizzato, "apprendimento federato" (FL) descrive un paradigma in cui i modelli vengono addestrati condividendo solo gli aggiornamenti dei parametri del modello da dati decentralizzati (ovvero, ciascun sito conserva i propri dati localmente)10,11,14,15,16, senza sacrificare le prestazioni rispetto ai modelli addestrati al CL11,15,17,18,19,20,21. Pertanto, FL può offrire un’alternativa a CL, creando potenzialmente un cambiamento di paradigma che allevia la necessità di condivisione dei dati e quindi aumentare l’accesso a collaboratori geograficamente distinti, aumentando così la dimensione e la diversità dei dati utilizzati per addestrare i modelli ML.