L’addestramento che causa fallimenti nelle AI come ChatGPT

l-addestramento-che-causa-fallimenti-nelle-ai-come-chatgpt

L'addestramento che causa fallimenti nelle AI come ChatGPT

Gli strumenti di intelligenza artificiale generativa come ChatGPT sono destinati a rivoluzionare alcune attività relative ai contenuti. Ma la guida e la direzione di esperti umani saranno ancora fondamentali per l’originalità e per mantenere alta la qualità. I sistemi di linguaggio naturale, infatti, hanno imparato a esprimersi dai testi disponibili in Internet.  Compresi quelli che diffondono odio e bufale.

L’addestramento di un modello di intelligenza artificiale come ChatGPT è estremamente costoso. La tecnologia alla base di questi sistemi si basa sull’elaborazione di enormi quantità di dati per rilevare modelli e produrre un risultato. Questo risultato può essere una decisione automatica basata sull’analisi di esperienze precedenti. Una previsione di ciò che può accadere in futuro o la generazione di nuovi contenuti.

L’intelligenza artificiale generativa si riferisce a programmi che utilizzano modelli di base per generare nuovi contenuti che imitano risposte simili a quelle umane. L’addestramento di ChatGPT avviene quasi interamente con dati pubblicamente disponibili su Internet. Questo ampio set di dati consente il trasferimento dell’apprendimento. Attraverso il quale il modello può acquisire modelli nascosti e utilizzare tale conoscenza per svolgere attività a valle non correlate.

Elaborare quest’enorme quantità di testo richiede una potenza di calcolo che solo una manciata di aziende può mettere in campo. Una di queste è la Microsoft. Per questo l’accordo raggiunto nel 2019 tra la multinazionale e OpenAI è considerato fondamentale per il salto tecnologico di quest’ultima.

Il patto prevedeva un investimento di 1.000 milioni di dollari da parte di Microsoft in OpenAI. Ma anche un accesso preferenziale e gratuito alla potenza di calcolo dei server dell’azienda fondata da Bill Gates.




Tutto ciò ha dato i suoi frutti. ChatGPT è diventata la prima AI utilizzata in maniera massiccia nella storia. Fonti non ufficiali affermano che sia già vicina ai 100 milioni di utenti. Ha permesso, inoltre, a Microsoft di sferrare un assalto frontale e inaspettato al business di Google.

Tuttavia,  resta ancora una tecnologia immatura,  come esso stesso ci dimostra. Ad esempio vi ela possibilita di far si che ChatGPT aggiri le politiche di sicurezza di OpenAI per insultare, diffondere odio e cospirazioni.

Quindi, il più grande svantaggio di ChatGPT è che spesso commette errori o arriva a conclusioni errate. Nei mesi successivi al suo rilascio, sono emersi problemi chiave relativi alla privacy, alla sicurezza e al suo impatto più ampio sulla vita delle persone, dal lavoro all’istruzione.

Motivo per cui i principali leader della tecnologia e dell’intelligenza artificiale hanno chiesto una pausa al ritmo rapido con cui i chatbot, basati sull’AI, vengono sviluppati e implementati. Sollecitando regolamenti sulle emergenti tecnologie di AI,  perché temono i rischi per la società e l’umanità.

L’accessibilità illimitata e l’uso illimitato di ChatGPT aumentano i rischi di sicurezza informatica che possono ostacolare l’intera organizzazione. Attraverso ChatGPT, i criminali informatici possono redigere un’e-mail fraudolenta contenente collegamenti non protetti.

Allegati che forniscono dati sensibili o istruzioni relative al trasferimento di denaro su conti specifici da una società o persona di fama. Per via dei dati disponibili in ChatGPT, gli incidenti di e-mail di phishing aumenteranno.

La sospensione, in Italia, di ChatGPT per motivi di privacy

Il Garante italiano per la protezione dei dati, alla fine di marzo, aveva ordinato a OpenAI di interrompere temporaneamente l’elaborazione dei dati degli utenti italiani. A causa di un’indagine su una sospetta violazione delle rigide normative europee sulla privacy. Non garantiva la protezione dei dati personali e l’uso che il sistema ne fa per migliorare gli algoritmi.

La mossa ha evidenziato l’assenza di normative concrete, con l’Unione Europea e la Cina tra le poche giurisdizioni che sviluppano regole su misura per l’AI. Vari governi stanno esplorando come regolamentare l’AI e alcuni stanno pensando a come gestire sistemi generici come ChatGPT.

Il regolatore, noto anche come Garante, ha citato una violazione dei dati presso OpenAI che ha consentito agli utenti di visualizzare i titoli delle conversazioni che altri utenti stavano avendo con il chatbot.

Vari regolatori sono preoccupati per le sfide che l’AI pone per la sicurezza del lavoro, la privacy dei dati e l’uguaglianza. Ci sono anche preoccupazioni per l’intelligenza artificiale avanzata che manipola il discorso politico attraverso la generazione di false informazioni.

Molti Governi stanno  iniziando a pensare a come gestire i sistemi generici come ChatGPT. Alcuni addirittura considerando di unirsi all’Italia nel vietare la tecnologia.

In Italia, il ripristino di ChatGPT, arriva dopo che OpenAI ha aggiunto diverse nuove funzionalità di privacy al suo chatbot AI. L’agenzia ha chiesto a OpenAI di implementare limiti di età, chiarire come vengono elaborati i dati, fornire opzioni di gestione dei dati e consentire agli utenti di rinunciare all’utilizzo dei propri dati.

Nel frattempo, tutti sembrano affascinati da ChatGPT e desiderosi di capire come applicarlo. Ma le prime esperienze rivelano che il chatbot e altre tecnologie di intelligenza artificiale generativa lottano in diverse aree.

Nel loro desiderio che la capacità di espressione dell’AI fosse il più simile possibile a quella umana, OpenAI (e Google, che sta mettendo a punto un sistema molto simile ) hanno incluso tutti i tipi di testi nel loro database. Di cui un gran numero di provenienti dai social network. Compresi z quelli che riproducono commenti indesiderati.

Per impedire ai sistemi di mostrare la parte più tossica di Internet nella loro interazione con i loro utenti, i loro sviluppatori hanno impostato filtri in modo che l’AI moderi il loro discorso. Ma tutto ciò che è dannoso nelle reti che la società ha cercato di controllare per un decennio è registrato nel suo database.

Perché OpenAI ha addestrato la sua intelligenza artificiale a insultare o difendere le teorie del complotto, quindi programmarla per mantenere nascoste quelle capacità?

Questa è una conseguenza del metodo di allenamento. Questi modelli sono stati addestrati su grandi quantità di dati Internet scritti dall’uomo, comprese le conversazioni. OpenAI spiega:

È importante notare che questo è un risultato diretto della progettazione del sistema (ovvero, massimizzare la somiglianza tra i risultati e il set di dati su cui i modelli sono stati addestrati) e che tali risultati possono talvolta essere imprecisi, falsi o fuorvianti.

Ana Valdivia, ricercatrice dell’Internet Institute dell’Università di Oxford specializzata in Intelligenza Artificiale riassume: ‘OpenAI utilizza un algoritmo super sofisticato. Ma risucchia dati grezzi da Internet. Per quanto cerchino di filtrare tutto e utilizzare algoritmi molto avanzati, è come cercare di coprire una perdita d’acqua con le mani. E quando lo fai, ne esce un’altra, e poi un’altra  ancora. Prima si agisce in modo che non sia razzista, poi che non sia sessista. Ma alla fine il sistema riprodurrà cose come quelle che stiamo vedendo’.

Ecco dove sta il paradosso. nei social network. Dove viene pubblicato più testo. Quindi se si vuole un algoritmo che riproduca ciò che viene detto  dalle persone, estrai il testo dai social network. È dove ci sono più interazioni e il linguaggio è più naturale. Ma d’altra parte è anche dove c’è più discriminazione e odio.

Era possibile un altro allenamento?

In caso di successo, le intelligenze artificiali che generano testo potrebbero cambiare completamente l’esperienza digitale. La decisione di Microsoft di inserirlo nel suo motore di ricerca ha spinto Google a fare altrettanto, tanto che a breve saranno un elemento fisso di uno degli strumenti più utilizzati su Internet. Ma il piano di Microsoft è quello di aggiungere una versione migliorata di ChatGPT a tutti i suoi servizi. A Windows per risolvere i dubbi. A Word per creare, migliorare o completare i testi dell’utente. A Excel in modo che offra tutti i tipi di formule per lavorare con i dati. Questa iniziativa potrebbe spingere i giganti digitali a sviluppare l’intelligenza artificiale conversazionale per tutti i loro strumenti. Come è successo a Google.

Di fronte al rischio che le lacune idriche di questa tecnologia diventino molto più palpabili, è stato chiesto  agli esperti se sarebbe stato possibile impedire che i testi di formazione includessero contenuti tossici. Sarebbe molto, molto più costoso. Forse al livello di non renderlo economicamente conveniente, soprattutto per servire nella ricerca.

OpenAI ha stabilito alcuni filtri ai testi che i suoi robot estraevano da Internet. Ma lo ha fatto anche con algoritmi e sistemi automatizzati. Il nostro sistema di moderazione è addestrato a rilevare un’ampia gamma di categorie di spam, inclusi contenuti sessuali, odiosi, violenti, autolesionisti e bullismo. Questo approccio si generalizza a una vasta gamma di diverse tassonomie di contenuti e può essere utilizzato per creare classificatori di contenuti di alta qualità che superano i modelli standard.

Il problema è che le macchine non sono brave a rilevare i dettagli e gli elementi soggettivi dell’espressione umana. Le sue scarse prestazioni in questa missione sono state notate da numerosi specialisti in un altro dibattito: quando l’UE ha istituito filtri automatici dei contenuti per impedire a qualsiasi cosa caricata su Internet di violare il copyright.

Qualcosa di simile è successo con gli insulti o la disinformazione. Oltre ai molteplici filtri che sono stati inseriti in ChatGPT per evitare sessismo e razzismo, in base a quanto osservato, si può dedurre che il criterio di ottimizzazione dei testi generati è la coerenza formale e la sua somiglianza con i testi generati dall’uomo. Si tratta di un criterio specifico che lascia da parte questioni come la valutazione della veridicità di quanto generato, al di là di quanto possa derivare dai dati di addestramento.

Nel caso dei modelli di linguaggio naturale si è scelto un approccio grezzo’, tanto meglio, senza pensare che queste fonti non siano ‘neutre’ nel senso di essere fatti naturali o riflesso della società. Questi testi sono il prodotto delle dinamiche sociali nel corso degli anni. Queste dinamiche privilegiano alcuni contenuti e ne offuscano o ne rendono impossibili altri.

Dispensazione di conoscenze specialistiche

ChatGPT generalmente fallisce nelle attività che richiedono conoscenze specialistiche o una comprensione sfumata del contesto. Il modello spesso fa fatica a rispondere a domande relative ad argomenti altamente tecnici o scientifici o a fornire un’accurata consulenza legale o medica. In questi casi, la mancanza di esperienza di ChatGPT e i dati di formazione limitati possono portare a risposte inaffidabili o addirittura dannose.

I modelli linguistici come ChatGPT vengono addestrati su grandi quantità di dati di testo, ma potrebbero non avere la necessaria profondità di conoscenza in domini specifici. Inoltre, tali modelli spesso si basano su schemi e associazioni statistici piuttosto che su una vera comprensione dei concetti sottostanti. Pertanto, di fronte a informazioni nuove e complesse, ChatGPT potrebbe avere difficoltà a fornire risposte coerenti e accurate.

Inoltre, ChatGPT non ha la capacità creativa di generare nuove intuizioni unendo le idee. Può produrre un linguaggio standard, fornire riassunti significativi e persino scrivere sceneggiature o poesie. Ma non può pensare allo stesso modo degli umani. Quella mancanza di sintesi creativa può imbattersi nel suo testo generato. Gran parte della sua produzione è molto blanda; manca la connessione sorprendente e l’elevazione di nuove idee che possono verificarsi nella scrittura umana.

 

 

Felicia Bruscino 

Exit mobile version