Author: IlSoftware
Quando si parla di intelligenze artificiali e dei modelli generativi, il problema delle allucinazioni è piuttosto comune. Un’allucinazione è il fenomeno che porta alla produzione di output non realistici, errati o fuorvianti.
Se avete usato qualche modello generativo o semplicemente il chatbot ChatGPT di OpenAI (o altri prodotti simili), vi sarà certamente capitato di imbattervi in testi non plausibili prodotti dall’intelligenza artificiale. Gli output, in questo caso, veicolano informazioni che possono sembrare attendibili solo a una prima sommaria lettura ma che non trovano invece alcun riscontro reale. Si pensi, per esempio, a fatti inventati o informazioni facenti riferimento a qualcosa che non esiste.
I modelli di generazione delle immagini potrebbero produrre oggetti, persone o scenari che non esistono nella realtà: si pensi a volti umani distorti od oggetti con caratteristiche fisiche impossibili.
Un’altra forma di allucinazione può manifestarsi quando il modello genera output che riflettono troppo da vicino i dati di addestramento: in questo caso si rileva la creazione di copie delle informazioni di partenza o combinazioni di dati preesistenti piuttosto che idee originali.
Le cause delle allucinazioni possono derivare da diversi fattori. Se il modello non fosse addestrato con una quantità sufficiente di dati realistici e diversificati; se fosse eccessivamente complesso, con una tendenza a sovra-adattare i dati di addestramento; se poggiasse su di un algoritmo di per sé incline a produrre allucinazioni.
Vectara ha sviluppato e presentato uno strumento open source chiamato “Hallucination Evaluation Model” (HEM) che valuta quanto frequentemente i modelli generativi LLM (Large Language Model) manifestano il problema delle allucinazioni.
Nella tabella elaborata dai tecnici di Vectara, i valori nella colonna Answer Rate rappresenta la percentuale di volte in cui il modello preso in esame ha effettivamente cercato di generare una risposta o un riassunto basato sui dati recuperati e disponibili a fronte della domanda posta in input. La precisione e l’attendibilità delle risposte, sono invece misurate con metriche quali Accuracy e Hallucination Rate, anch’esse presenti nella tabella.
Modello
Answer Rate
Accuracy
Hallucination Rate
Average Summary Length
GPT-4
100%
97,0%
3,0%
81,1 parole
GPT-3.5
99,6%
96,5%
3,5%
84,1 parole
Llama 2 70B
99,9%
94,9%
5,1%
84,9 parole
Llama 2 7B
99,6%
94,4%
5,6%
119,9 parole
Llama 2 13B
99,8%
94,1%
5,9%
82,1 parole
Cohere-Chat
98,0%
92,5%
7,5%
74,4 parole
Cohere
99,8%
91,5%
8,5%
59,8 parole
Anthropic Claude 2
99,3%
91,5%
8,5%
87,5 parole
Mistral 7B
98,7%
90,6%
9,4%
96,1 parole
Google Palm
92,4%
87,9%
12,1%
36,2 parole
Google Palm-Chat
88,8%
72,8%
27,2%
221,1 parole
Con l’espressione “Average Summary Length“, Vectara si riferisce invece alla lunghezza media dei testi prodotti da ogni singolo modello.
Secondo Vectara, tuttavia, la vera potenza dei moderni modelli linguistici risiede e risiederà sempre più nel cosiddetto approccio RAG (Retrieval Augmented Generation). Si tratta dell’abilità delle intelligenze artificiali di interagire con fonti di conoscenza esterne in modo da integrare e migliorare la rappresentazione interna della conoscenza già in capo a ciascun modello LLM. Proprio l’utilizzo dello schema RAG, sempre per i tecnici Vectara, avrebbe l’effetto positivo di ridurre le allucinazioni.
L’idea fondamentale del processo RAG è quella di arricchire il processo generativo introducendo un’operazione preliminare di recupero di dati rilevanti. Questo approccio mira a migliorare la qualità e la coerenza dell’output generato, poiché il modello generativo è alimentato con informazioni specifiche e rilevanti estratte tramite l’operazione iniziale di recupero.
RAG sfrutta le informazioni pertinenti ottenute dal recupero per guidare e influenzare il processo di generazione, fornendo contesto e supporto al modello generativo.
Per arrivare ai dati contenuti nella tabella di Vectara, che abbiamo ripubblicato poco sopra, l’azienda ha “dato in pasto” 1.000 documenti di breve lunghezza ai vari modelli LM citati nella prima colonna per poi chiedere di riepilogare ciascun documento utilizzando solo il contenuto che figura nel documento stesso. In 831 casi su 1.000, tutti i modelli linguistici hanno creato un riassunto di qualità, pertinente e soddisfacente. Negli altri casi non è andata altrettanto bene, con la generazione di allucinazioni.
La piattaforma proposta e utilizzata da Vectara è disponibile pubblicamente su Hugging Face. Chiunque può verificare il funzionamento del modello HEM e svolgere test in totale autonomia.
Credit immagine in apertura: iStock.com/da-kuk
Author: Tom's Hardware Il settore degli smartphone pieghevoli si sta preparando per alcuni importanti aggiornamenti,…
Author: GAMEmag iRacing è spesso considerato un colosso nel settore delle simulazioni automobilistiche, distinguendosi per…
Author: Agemobile Apple lo scorso anno ha introdotto un nuovo Game Porting Toolkit per aiutare…
Author: IlSoftware Linux ha guadagnato popolarità negli ultimi decenni, specialmente tra sviluppatori, amministratori di sistema…
Author: Hardware Upgrade Guardate con invidia il vicino con il soffiatore per pulire il giardino…
Author: klatsch-tratsch Bill (l.) und Tom Kaulitz sind angeblich zwei der Promis eines geplanten "LOL"-Specials.…