Il nuovo Gpt-4 è più affidabile, ma più facile da ingannare

Author: Wired

Gpt-4, il nuovo modello linguistico di OpenAI, è più affidabile del precedente Gpt-3.5, ma anche più vulnerabile a bias e jailbreaking – un attacco che mira ad aggirare le restrizioni software di un dispositivo al fine di installarne uno diverso da quello originale -. Lo rivela uno studio condotto da ricercatori delle università statunitensi in collaborazione con Microsoft, che ha messo in evidenza come Gpt-4 sia migliore del suo predecessore nel difendere la privacy degli utenti, evitare di fornire loro informazioni distorte e resistere a eventuali attacchi esterni. Al tempo stesso, però, i ricercatori hanno notato che gli utenti possono aggirare le restrizioni di sicurezza del nuovo modello di OpenAI con una maggiore facilità, perché questo “segue le informazioni fuorvianti in modo più preciso”, anche se queste risultano essere molto complicate.

A quanto pare, però, le vulnerabilità di cui parlano i ricercatori non sono state trovate nei prodotti basati su Gpt-4 rivolti ai consumatori, perché evidentemente sono stati applicati una serie di interventi “di mitigazione per affrontare potenziali danni che potrebbero verificarsi a livello della tecnologia del modello”. Nonostante questo, lo studio non lascia spazio a dubbi: il nuovo modello linguistico di OpenAI è più vulnerabile rispetto al suo predecessore. Per arrivare a questa conclusione i ricercatori hanno provato prima Gpt-3.5 e poi Gpt-4, interrogandoli su tematiche sensibili quali gli stereotipi, la privacy e l’etica delle macchine.

Più nel dettaglio, hanno prima utilizzato una serie di istruzioni che includevano parole da considerarsi come vietate. Poi hanno cercato di forzare la mano spingendo i modelli a infrangere le restrizioni della politica sui contenuti, e infine li hanno indotti a ignorare completamente le regole sulla sicurezza. “Il nostro obiettivo è incoraggiare altri nella comunità di ricerca a utilizzare e sviluppare questo lavoro, potenzialmente anticipando azioni nefaste da parte di avversari che potrebbero sfruttare le vulnerabilità per causare danni – ha affermato il team di ricercatori statunitensi –. Questa valutazionUe dell’affidabilità è solo un punto di partenza e speriamo di lavorare insieme ad altri per sviluppare i suoi risultati e creare modelli potenti e più affidabili in futuro”.

Author: Wired

Lascia un commento

Lascia un commento Annulla risposta