L’apprendimento federato consente di utilizzare big data per il rilevamento dei confini dei tumori rari

Nature Communications volume 13, numero articolo: 7346 (2022) Citare questo articolo

18k accessi

16 citazioni

341 Altmetrico

Dettagli sulle metriche

Una correzione dell'autore a questo articolo è stata pubblicata il 26 gennaio 2023

Questo articolo è stato aggiornato

Sebbene il machine learning (ML) si sia dimostrato promettente in tutte le discipline, la generalizzabilità fuori campione è preoccupante. Attualmente questo problema viene risolto condividendo dati multisito, ma tale centralizzazione è difficile/impossibile da scalare a causa di varie limitazioni. Il Federated ML (FL) fornisce un paradigma alternativo per un ML accurato e generalizzabile, condividendo solo gli aggiornamenti del modello numerico. Qui presentiamo il più grande studio FL fino ad oggi, che coinvolge dati provenienti da 71 siti in 6 continenti, per generare un rilevatore automatico dei confini del tumore per la malattia rara del glioblastoma, riportando il più grande set di dati di questo tipo in letteratura (n = 6, 314). Abbiamo dimostrato un miglioramento della delineazione del 33% per il tumore targetizzabile chirurgicamente e del 23% per l'estensione completa del tumore, rispetto a un modello addestrato pubblicamente. Prevediamo che il nostro studio: 1) consentirà più studi sanitari basati su dati ampi e diversificati, garantendo risultati significativi per le malattie rare e le popolazioni sottorappresentate, 2) faciliterà ulteriori analisi per il glioblastoma rilasciando il nostro modello di consenso e 3) dimostrerà l'efficacia del FL a tale livello scalabilità e complessità delle attività come cambiamento di paradigma per le collaborazioni multisito, alleviando la necessità di condivisione dei dati.

I recenti progressi tecnologici nel settore sanitario, insieme al passaggio della cultura dei pazienti da reattiva a proattiva, hanno portato a una crescita radicale delle osservazioni primarie generate dai sistemi sanitari. Ciò contribuisce al burnout degli esperti clinici, poiché tali osservazioni richiedono una valutazione approfondita. Per alleviare questa situazione, sono stati compiuti numerosi sforzi per lo sviluppo, la valutazione e l’eventuale traduzione clinica dei metodi di apprendimento automatico (ML) per identificare le relazioni rilevanti tra queste osservazioni, riducendo così l’onere per gli esperti clinici. I progressi nel machine learning, e in particolare nel deep learning (DL), si sono dimostrati promettenti nell’affrontare questi complessi problemi sanitari. Tuttavia, vi sono preoccupazioni circa la loro generalizzabilità su dati provenienti da fonti che non hanno partecipato all'addestramento del modello, vale a dire dati "fuori campione"1,2. La letteratura indica che la formazione di modelli robusti e accurati richiede grandi quantità di dati3,4,5, la cui diversità influisce sulla generalizzabilità del modello a casi "fuori campione"6. Per affrontare queste preoccupazioni, i modelli devono essere addestrati su dati provenienti da numerosi siti che rappresentano diversi campioni di popolazione. Il paradigma attuale per tali collaborazioni multi-sito è l'"apprendimento centralizzato" (CL), in cui i dati provenienti da diversi siti vengono condivisi in una posizione centralizzata in seguito ad accordi tra siti6,7,8,9. Tuttavia, tale centralizzazione dei dati è difficile da scalare (e potrebbe addirittura non essere fattibile), soprattutto su scala globale, a causa di preoccupazioni10,11 relative alla privacy, alla proprietà dei dati, alla proprietà intellettuale, alle sfide tecniche (ad esempio, limitazioni di rete e di archiviazione), nonché la conformità con diverse politiche normative (ad esempio, l'Health Insurance Portability and Accountability Act (HIPAA) degli Stati Uniti12 e il Regolamento generale sulla protezione dei dati (GDPR) dell'Unione Europea13). In contrasto con questo paradigma centralizzato, "apprendimento federato" (FL) descrive un paradigma in cui i modelli vengono addestrati condividendo solo gli aggiornamenti dei parametri del modello da dati decentralizzati (ovvero, ciascun sito conserva i propri dati localmente)10,11,14,15,16, senza sacrificare le prestazioni rispetto ai modelli addestrati al CL11,15,17,18,19,20,21. Pertanto, FL può offrire un’alternativa a CL, creando potenzialmente un cambiamento di paradigma che allevia la necessità di condivisione dei dati e quindi aumentare l’accesso a collaboratori geograficamente distinti, aumentando così la dimensione e la diversità dei dati utilizzati per addestrare i modelli ML.

0.067, Wilcoxon signed-rank test) ones between the preliminary and the final consensus model, as quantified in the centralized out-of-sample data for all sub-compartments and their average (Fig. 2)./p> 200 cases. Note the box and whiskers inside each violin plot, represent the true min and max values. The top and bottom of each "box" depict the 3rd and 1st quartile of each measure. The white line and the red ‘×’, within each box, indicate the median and mean values, respectively. The fact that these are not necessarily at the center of each box indicates the skewness of the distribution over different cases. The "whiskers'' drawn above and below each box depict the extremal observations still within 1.5 times the interquartile range, above the 3rd or below the 1st quartile. Equivalent plots for Jaccard similarity coefficient (JSC) can be observed in supplementary figures./p> 200 cases, and familiar with computational analyses), and coordinated independent model training for each, starting from the public initial model and using only their local training data. The findings of this evaluation indicate that the final consensus model performance is always superior or insignificantly different (pAverage = 0.1, pET = 0.5, pTC = 0.2, pWT = 0.06, Wilcoxon signed-rank test) to the ensemble of the local models of these four largest contributing collaborators, for all tumor sub-compartments (Fig. 2). This finding highlights that even large sites can benefit from collaboration./p>200 cases) by starting from the same public initial model and using only their local training data. The ensemble of these four largest site local models did not show significant performance differences to the final consensus model for any tumor sub-compartment, yet the final consensus model showed superior performance indicating that even sites with large datasets can benefit from collaboration. The underlying assumption for these results is that since each of these collaborators initiated their training from the public initial model (which included diverse data from 16 sites), their independent models and their ensemble could have inherited some of the initial model's data diversity, which could justify the observed insignificant differences (Fig. 2 and Supplementary Fig. 3). Though these findings are an indication that the inclusion of more data alone may not lead to better performance, it is worth noting that these four largest sites used for the independent model training represent comprehensive cancer centers (compared to hospitals in community settings) with affiliated sophisticated labs focusing on brain tumor research, and hence were familiar with the intricacies of computational analyses. Further considering the aforementioned ML performance stagnation effect, we note the need for generalizable solutions to quantify the contribution of collaborating sites to the final consensus model performance, such that future FL studies are able to formally assess both the quantity and the quality of the contributed data needed by the collaborating sites and decide on their potential inclusion on use-inspired studies./p>200 training cases, and performed a comparative evaluation of the consensus model with an ensemble of these "single site models". The per voxel sigmoid outputs of the ensemble were computed as the average of such outputs over the individual single-site models. As with all other models in this study, binary predictions were computed by comparing these sigmoid outputs to a threshold value of 0.5. The single-site model ensemble utilized (via the data at the single site) approximately 33% of the total data across the federation./p>