Allucinazione: cos’è e come Vectara misura il problema comune delle IA

Quando si parla di intelligenze artificiali e dei modelli generativi, il problema delle allucinazioni è piuttosto comune. Un’allucinazione è il fenomeno che porta alla produzione di output non realistici, errati o fuorvianti.

Cos’è un’allucinazione nel caso delle intelligenze artificiali

Se avete usato qualche modello generativo o semplicemente il chatbot ChatGPT di OpenAI (o altri prodotti simili), vi sarà certamente capitato di imbattervi in testi non plausibili prodotti dall’intelligenza artificiale. Gli output, in questo caso, veicolano informazioni che possono sembrare attendibili solo a una prima sommaria lettura ma che non trovano invece alcun riscontro reale. Si pensi, per esempio, a fatti inventati o informazioni facenti riferimento a qualcosa che non esiste.

I modelli di generazione delle immagini potrebbero produrre oggetti, persone o scenari che non esistono nella realtà: si pensi a volti umani distorti od oggetti con caratteristiche fisiche impossibili.

Un’altra forma di allucinazione può manifestarsi quando il modello genera output che riflettono troppo da vicino i dati di addestramento: in questo caso si rileva la creazione di copie delle informazioni di partenza o combinazioni di dati preesistenti piuttosto che idee originali.

Le cause delle allucinazioni possono derivare da diversi fattori. Se il modello non fosse addestrato con una quantità sufficiente di dati realistici e diversificati; se fosse eccessivamente complesso, con una tendenza a sovra-adattare i dati di addestramento; se poggiasse su di un algoritmo di per sé incline a produrre allucinazioni.

Vectara Hallucination Evaluation Model (HEM) valuta le prestazioni di qualunque modello generativo

Vectara ha sviluppato e presentato uno strumento open source chiamato “Hallucination Evaluation Model” (HEM) che valuta quanto frequentemente i modelli generativi LLM (Large Language Model) manifestano il problema delle allucinazioni.

Nella tabella elaborata dai tecnici di Vectara, i valori nella colonna Answer Rate rappresenta la percentuale di volte in cui il modello preso in esame ha effettivamente cercato di generare una risposta o un riassunto basato sui dati recuperati e disponibili a fronte della domanda posta in input. La precisione e l’attendibilità delle risposte, sono invece misurate con metriche quali Accuracy e Hallucination Rate, anch’esse presenti nella tabella.

Modello
Answer Rate
Accuracy
Hallucination Rate
Average Summary Length

GPT-4
100%
97,0%
3,0%
81,1 parole

GPT-3.5
99,6%
96,5%
3,5%
84,1 parole

Llama 2 70B
99,9%
94,9%
5,1%
84,9 parole

Llama 2 7B
99,6%
94,4%
5,6%
119,9 parole

Llama 2 13B
99,8%
94,1%
5,9%
82,1 parole

Cohere-Chat
98,0%
92,5%
7,5%
74,4 parole

Cohere
99,8%
91,5%
8,5%
59,8 parole

Anthropic Claude 2
99,3%
91,5%
8,5%
87,5 parole

Mistral 7B
98,7%
90,6%
9,4%
96,1 parole

Google Palm
92,4%
87,9%
12,1%
36,2 parole

Google Palm-Chat
88,8%
72,8%
27,2%
221,1 parole

Con l’espressione “Average Summary Length“, Vectara si riferisce invece alla lunghezza media dei testi prodotti da ogni singolo modello.

La vera abilità dei modelli generativi consiste nell’approccio RAG

Secondo Vectara, tuttavia, la vera potenza dei moderni modelli linguistici risiede e risiederà sempre più nel cosiddetto approccio RAG (Retrieval Augmented Generation). Si tratta dell’abilità delle intelligenze artificiali di interagire con fonti di conoscenza esterne in modo da integrare e migliorare la rappresentazione interna della conoscenza già in capo a ciascun modello LLM. Proprio l’utilizzo dello schema RAG, sempre per i tecnici Vectara, avrebbe l’effetto positivo di ridurre le allucinazioni.

L’idea fondamentale del processo RAG è quella di arricchire il processo generativo introducendo un’operazione preliminare di recupero di dati rilevanti. Questo approccio mira a migliorare la qualità e la coerenza dell’output generato, poiché il modello generativo è alimentato con informazioni specifiche e rilevanti estratte tramite l’operazione iniziale di recupero.

RAG sfrutta le informazioni pertinenti ottenute dal recupero per guidare e influenzare il processo di generazione, fornendo contesto e supporto al modello generativo.

Per arrivare ai dati contenuti nella tabella di Vectara, che abbiamo ripubblicato poco sopra, l’azienda ha “dato in pasto” 1.000 documenti di breve lunghezza ai vari modelli LM citati nella prima colonna per poi chiedere di riepilogare ciascun documento utilizzando solo il contenuto che figura nel documento stesso. In 831 casi su 1.000, tutti i modelli linguistici hanno creato un riassunto di qualità, pertinente e soddisfacente. Negli altri casi non è andata altrettanto bene, con la generazione di allucinazioni.

La piattaforma proposta e utilizzata da Vectara è disponibile pubblicamente su Hugging Face. Chiunque può verificare il funzionamento del modello HEM e svolgere test in totale autonomia.

Credit immagine in apertura: iStock.com/da-kuk

admin

Next PlayStation 5: un emozionante spot da Sony per la stagione natalizia 2023 »

Previous « La tecnologia off-site al servizio dell’involucro: prestazioni e flessibilità progettuale | QualEnergia.it

Il Samsung Galaxy Fold6 Slim è pronto per sfidare Xiaomi

Author: Tom's Hardware Il settore degli smartphone pieghevoli si sta preparando per alcuni importanti aggiornamenti,…

7 Luglio 2024

Pc Games

Perché iRacing è l’unico VERO simulatore di corse automobilistiche sul mercato

Author: GAMEmag iRacing è spesso considerato un colosso nel settore delle simulazioni automobilistiche, distinguendosi per…

7 Luglio 2024

HardwareSoftware

Il porting dei giochi macOS su iOS è molto più semplice grazie ad Apple Game Porting Toolkit 2 | AGEMOBILE

Author: Agemobile Apple lo scorso anno ha introdotto un nuovo Game Porting Toolkit per aiutare…

7 Luglio 2024

HardwareSoftware

5 falsi miti su Linux: non ci credete | IlSoftware.it

Author: IlSoftware Linux ha guadagnato popolarità negli ultimi decenni, specialmente tra sviluppatori, amministratori di sistema…

7 Luglio 2024

HardwareSoftware

Soffiatori per giardino (e non solo): ecco quelli in offerta e come scegliere il più adatto

Author: Hardware Upgrade Guardate con invidia il vicino con il soffiatore per pulire il giardino…

7 Luglio 2024

Gossip

Halloween-Special von „LOL“: Lachen die Kaulitz-Zwillinge mit?

Author: klatsch-tratsch Bill (l.) und Tom Kaulitz sind angeblich zwei der Promis eines geplanten "LOL"-Specials.…

7 Luglio 2024

Allucinazione: cos’è e come Vectara misura il problema comune delle IA

Cos’è un’allucinazione nel caso delle intelligenze artificiali

Vectara Hallucination Evaluation Model (HEM) valuta le prestazioni di qualunque modello generativo

La vera abilità dei modelli generativi consiste nell’approccio RAG

Related Post

Recent Posts

Il Samsung Galaxy Fold6 Slim è pronto per sfidare Xiaomi

Perché iRacing è l’unico VERO simulatore di corse automobilistiche sul mercato

Il porting dei giochi macOS su iOS è molto più semplice grazie ad Apple Game Porting Toolkit 2 | AGEMOBILE

5 falsi miti su Linux: non ci credete | IlSoftware.it

Soffiatori per giardino (e non solo): ecco quelli in offerta e come scegliere il più adatto

Halloween-Special von „LOL“: Lachen die Kaulitz-Zwillinge mit?

NUTesla GDPR