Lo scorso 15 Marzo 2018, in una riunione organizzata dal Dipartimento dell’Energia degli Stati Uniti, è stato presentato un lavoro che illustra uno strumento emergente per esplorare l’enorme, in gran parte sconosciuta, diversità di virus sulla Terra.
Sebbene i virus influenzino tutto, dalla salute umana alla degradazione della spazzatura, sono difficili da studiare. Infatti, gli scienziati non possono coltivare la maggior parte dei virus in laboratorio; inoltre, i tentativi di identificare le loro sequenze genetiche sono spesso vanificati perché i loro genomi sono minuscoli ed evolvono rapidamente.
La potenza del machine learning
Negli ultimi anni, i ricercatori hanno ricercato virus sconosciuti sequenziando il DNA in campioni prelevati da vari ambienti. Per identificare i microbi presenti, essi cercano le firme genetiche di virus e batteri conosciuti: un po’ come la funzione “trova” di un word processor evidenzia parole contenenti particolari lettere in un documento. Ma quel metodo spesso fallisce, perché i virologi non possono cercare quello che non sanno.
Una forma molto popolare di intelligenza artificiale, chiamata machine learning (apprendimento automatico), aggira questo problema perché può trovare modelli emergenti in montagne di informazioni. Gli algoritmi di apprendimento automatico analizzano i dati, imparano da essi e quindi classificano le informazioni in modo autonomo.
Jie Ren, biologa computazionale della University of Southern California a Los Angeles, afferma: “In precedenza, le persone non avevano alcun metodo per studiare bene i virus. Ma ora abbiamo gli strumenti per trovarli.”
Apprendimento virale
Sono già diversi i risultati promettenti di questa nuova tecnica di ricerca automatica.
Uno di essi viene da Simon Roux, un biologo computazionale del DOE Joint Genome Institute (JGI) a Walnut Creek, in California. Roux ha addestrato i computer per identificare le sequenze genetiche dei virus di una famiglia inusuale, gli Inoviridae. Questi virus vivono nei batteri e alterano il comportamento del loro ospite: ad esempio, rendono i batteri che causano il colera, Vibrio cholerae, più tossici. Ma Roux stima che siano state identificate meno di 100 specie prima dell’inizio della sua ricerca.
Roux ha presentato un algoritmo di apprendimento automatico con due serie di dati – uno contenente 805 sequenze genomiche da Inoviridae noti e un altro con circa 2.000 sequenze da batteri e altri tipi di virus – in modo che l’algoritmo potesse trovare il modo di distinguerli.
Successivamente, Roux ha alimentato il modello con enormi set di dati. Il computer ha recuperato più di 10.000 genomi di Inoviridae e li ha raggruppati in gruppi indicativi di diverse specie. La variazione genetica tra alcuni di questi gruppi era così ampia che probabilmente gli Inoviridae sono molte famiglie, ha detto.
Una nuova speranza medica
Derya Unutmaz, immunologa presso il Jackson Laboratory for Genomic Medicine di Farmington, nel Connecticut, ipotizza che i virus possano scatenare una reazione infiammatoria distruttiva. O, in alternativa, potrebbero modificare il comportamento dei batteri di una persona, che a sua volta potrebbe destabilizzare il metabolismo e il sistema immunitario.
Con l’apprendimento automatico, afferma Unutmaz, i ricercatori potrebbero identificare i virus nei pazienti che sono rimasti nascosti. Inoltre, poiché l’intelligenza artificiale ha la capacità di trovare modelli in enormi serie di dati, dice, l’approccio potrebbe connettere i dati sui virus ai batteri e quindi ai cambiamenti delle proteine nelle persone con sintomi. Unutmaz afferma: “L’apprendimento automatico potrebbe rivelare conoscenze alle quali non abbiamo nemmeno pensato.”
Roberto Bovolenta