Chatbot, qual è il migliore in assoluto | IlSoftware.it

Ne è passato di tempo da quando, negli anni ’60, il chabot ELIZA eseguiva compiti semplici come controlli ortografici e forniva risposte pre-programmate. Con l’esplosione e la democratizzazione delle soluzioni basate sull’intelligenza artificiale generativa, l’uso dei moderni chatbot è diventato appannaggio di tutti: sui sistemi desktop, sugli smartphone così come in ambito server e nei data center.

Le aziende, infatti, utilizzano sempre più spesso i chatbot per fare inferenza sui loro dati ed estrarre valore, ottenendo informazioni preziose, precedentemente non individuabili o identificabili con difficoltà. Di recente abbiamo parlato del futuro dell’intelligenza artificiale con Oracle.

I chatbot e il legame con i Large Language Model (LLM)

Nell’era digitale, i Large Language Model (LLM) rappresentano un’opportunità straordinaria per migliorare la produttività e ottenere un concreto vantaggio competitivo. Compreso da vicino il funzionamento di un LLM, va comunque tenuto presente che nessun modello generativo è infallibile e che tutti possono commettere errori, a volte evidenti e madornali, altre volte più subdoli e difficili da riconoscere (nascosti nel testo nel caso dell’elaborazione del linguaggio naturale o NLP, Natural Language Processing).

Nel descrivere gli errori che commette ChatGPT, abbiamo invitato a non prendere per oro colato ciò che i chatbot e in generale i LLM suggeriscono. È necessario disporre di tempo, competenze e di un certo bagaglio esperienziale per verificare le informazioni restituite.

L’”intelligenza” dei LLM deriva da un’attività di addestramento che è fortemente influenzata dal volume e dalla qualità delle informazioni utilizzate. Inoltre, il livello di dettaglio del prompt ovvero delle informazioni inserite in input dall’utente, incide direttamente sull’attendibilità e sulla precisione delle risposte ottenute. Bisogna però sempre tenere in considerazione che i LLM derivano da logiche matematico-statistiche, che mettono in correlazione le probabilità con cui vari termini ed entità sono più simili tra loro. La replica del funzionamento cervello umano è ancora molto distante.

In ogni caso, i LLM si adattano a una vasta gamma di usi: a parte gli impieghi di carattere più generico, possono migliorare i flussi di lavoro in settori come lo sviluppo software, la ricerca scientifica, la sanità, il marketing, la finanza e in tanti altri segmenti.

Come scegliere il migliore chatbot oggi disponibile

Ci chiedono spesso quale sia il miglior chatbot utilizzabile oggi, un partner digitale in grado di rispondere in maniera pertinente, esaustiva, puntuale e argomentata a qualsiasi tipo di quesito.

Diciamo subito che anche nel settore dei chatbot non esiste un “vestito per tutte le stagioni”. Inoltre, la domanda è intrinsecamente mal posta.

Un chatbot, indipendentemente dal soggetto che l’ha sviluppato, è soltanto la punta dell’iceberg, la parte più evidente di un meccanismo basato sull’intelligenza artificiale con cui l’utente può dialogare, usando ad esempio il testo o la voce. In entrambi i casi, comunque, le interazioni avvengono usando il linguaggio naturale.

Ciò che conta non è tanto il chatbot in sé, quanto il modello generativo o LLM sottostante: un chatbot può utilizzare un unico modello o addirittura permette agli utenti di scegliere quale utilizzare di volta in volta, a seconda delle specifiche esigenze. Si pensi a ChatGPT: il chatbot di OpenAI consente l’utilizzo di vari modelli, soprattutto agli utenti che decidono di attivare un piano di abbonamento (a pagamento).

Anche gli utenti in possesso di un account gratuito possono usare più modelli generativi con ChatGPT: al momento, infatti, il chatbot permette di trasferire un numero limitato di prompt a GPT-4o, il LLM più avanzato di OpenAI. Una volta esaurita la possibilità, l’input dell’utente è passato al più vecchio, ma comunque performante, GPT-3.5.

ChatGPT e il modello GPT-4o

Il 14 maggio 2024, OpenAI ha presentato il suo nuovo modello di intelligenza artificiale, denominato GPT-4o. Si tratta di un LLM multimodale in grado di elaborare testo, voce e informazioni visive a velocità sorprendentemente elevate, rispondendo in tempo reale. Si distingue anche per le sue evidenti abilità nel risolvere problemi matematici, un ambito in cui i tradizionali modelli mostrano limitazioni severe.

ChatGPT, basato su GPT-4o, si è distinto per la sua capacità di risolvere problemi complessi che né GPT-4 né Claude 3 Opus (il LLM di punta di Athropic) riuscivano a gestire, mostrando anche un’eccezionale competenza anche nella lingua italiana.

Come abbiamo visto nell’articolo incentrato sugli errori di ChatGPT, abbiamo visto che i sottostanti modelli (fino a GPT-4) fallivano in diversi ambiti: ad esempio, nel ragionamento temporale e spaziale, nel ragionamento fisico, nel ragionamento psicologico, nella matematica e aritmetica, nella programmazione informatica, nella generazione di ASCII art, nell’elaborazione dei fatti (contaminata da pregiudizi) e in molte altre aree.

Ben lungi dall’essere infallibile, GPT-4o rappresenta un deciso passo avanti: le competenze matematiche di questo LLM emergono nettamente. Il modello non solo risolve problemi matematici complessi ma è anche in grado di spiegare il processo di soluzione in modo chiaro e comprensibile. Il progetto llm-chess-puzzles ha ad esempio certificato le abilità di GPT-40 nella risoluzione di quesiti scacchistici.

Ad oggi, l’accoppiata ChatGPT più GPT-4o non ha probabilmente rivali. Per alcune esigenze specifiche, vale comunque la pena orientarsi su soluzioni alternative.

Anthropic e il modello Claude

Un altro modello che si mette in evidenza per le abilità multimodali e per l’abilità nella composizione delle risposte, è Claude di Anthropic. Il chatbot Claude può utilizzare le tre versioni più recenti dei sottostanti LLM: Haiku, Sonnet e Opus.

Claude è arrivato di recente in Italia e gli utenti possono utilizzarlo per elaborare testi più lunghi rispetto a ChatGPT, con la possibilità di ottenere risposte pertinenti e ben sviluppate su un ampio ventaglio di argomenti.

Claude 3 Opus, il modello più avanzato, si pone sostanzialmente allo stesso livello rispetto a Google Gemini e GPT-4 Turbo mentre non riesce a tenere testa a GPT-4o.

Chi utilizza un account gratuito, può inviare un ampio numero di richieste giornaliere a Claude 3 Sonnet, il modello intermedio di Anthropic.

Ottenere risposte più aggiornate con i riferimenti alle fonti: Perplexity

I modelli generativi, per loro natura, fermano le loro “conoscenza” a una certa data nel tempo. Alcuni chatbot, tuttavia, hanno ambizioni da motore di ricerca.

In un altro articolo abbiamo visto cosa può succedere con un ChatGPT che diventa motore di ricerca. Sì, perché mantenendo il sottostante LLM, nulla vieta agli sviluppatori di fornire un chatbot che combina attività di inferenza svolte su tale modello con le informazioni reperite attraverso un’attività di crawling in tempo reale, svolta sul Web direttamente o indirettamente.

ChatGPT lo sta già facendo, almeno parzialmente, con il “GPT” aggiuntivo Web Browser, attivabile opzionalmente dagli utenti cliccando su Esplora GPT (lo possono fare anche coloro che usano un account free, come spiegato nell’articolo su che cosa sono i GPT di ChatGPT).

Se aveste bisogno di interrogare un chatbot capace di effettuare ricerche sul Web e di citare le fonti, Perplexity è un ottimo strumento.

Il chatbot tende a fornire risposte in inglese: vi suggeriamo di aggiungere una frase del tipo “spiegalo in italiano” o qualcosa di simile, per assicurarsi di ottenere un testo nella nostra lingua.

Combinare la ricerca Web con il modello generativo

Phind Ask è forse il chatbot che riesce a combinare meglio le abilità del LLM con le informazioni provenienti dal Web. A valle di qualunque richiesta dell’utente, infatti, Phind propone una risposta che unisce le “conoscenze” del modello generativo con i riscontri trovati sul Web.

Diversamente rispetto a Perplexity e ad altri strumenti (per non parlare di ChatGPT e Google Gemini), Phind mette in bella evidenza le sorgenti di informazioni. La colonna di destra mostra l’elenco di pagine Web utilizzate per produrre la risposta consegnata in output.

Phind decide di volta in volta se affidarsi prevalentemente al sottostante modello o se integrare le informazioni recuperate dal Web e opportunamente rielaborate.

Google Gemini si mette alle spalle l’esperienza Bard

Dopo gli approssimativi risultati che il primo frettoloso tentativo di Google di approcciarsi al mondo dei modelli generativi e dei chatbot forniva (Bard), le ultime versioni di Gemini appaiono finalmente convincenti.

Google sta progressivamente sostituendo il suo assistente digitale con Gemini. Da giugno 2024, infatti, gli utenti italiani possessori di un dispositivo Android possono utilizzare Gemini sul proprio smartphone.

In alternativa c’è sempre il chatbot accessibile da Web, previo accesso con il proprio account utente a questa pagina.

Dicevamo dell’integrazione tra intelligenza artificiale generativa e ricerca sul Web. Poteva il motore di ricerca per antonomasia ignorare quest’aspetto? No. E infatti Google Gemini propone un pulsante Verifica la risposta che permette di confrontare il testo prodotto con i risultati pubblicati sulle pagine Web. Il sistema evidenzia in verde le risposte che trovano riscontri, con altri colori quelle affermazioni che invece necessitano di ulteriori approfondimenti da parte dell’utente.

Generazione e modifica del codice di programmazione

Alcuni chatbot sono particolarmente abili nel gestire il codice di programmazione in decine di linguaggi differenti. Tra tutti, spicca GitHub Copilot che con Workspace ha mostrato come cambia l’intero ciclo di sviluppo del software.

Sebbene ChatGPT offra risultati molto spesso convincenti, Phind Code riesce a battere in molti frangenti anche i modelli di OpenAI.

Menzione speciale va a Codestral della startup francese Mistral AI. Per provarlo, si può visitare la home page di Mistral Le Chat quindi scegliere Codestral dal menu posto sotto il campo Ask anything.

Chatbot Arena: per confrontare i risultati dei modelli

Un ottimo strumento per rendersi conto delle differenze tra LLM e, di conseguenza, scegliere il chatbot migliore per le proprie esigenze, è Chatbot Arena.

L’applicazione web mette a confronto due LLM scelti in modo casuale tra quelli supportati. L’identità dei modelli generativi non è inizialmente rivelata ed è l’utente che, previo inserimento di un prompt più o meno articolato, è chiamato a valutare la bontà delle risposte ottenute.

Con un clic sulla scheda Arena (side-by-side) in alto, l’utente può selezionare i modelli da confrontare quindi inviare una specifica richiesta per paragone i risultati ottenuti. Anche in questo caso è possibile votare il LLM che ha fornito la risposta migliore.

Come hanno fatto notare i ricercatori di Anthropic, alla fine il LLM è una scatola nera difficile da esplorare. Il funzionamento più profondo di ciascun modello non è noto neppure a chi l’ha realizzato, come ben evidenzia lo studio condotto dalla startup che ha realizzato gli apprezzati modelli Claude.

La dimensione del modello influenza significativamente le prestazioni dell’LLM. GPT-4o e Claude 3 vantano dimensioni enormi, che contribuiscono alla loro eccezionale accuratezza. Tuttavia, i modelli più grandi presentano svantaggi come maggiori richieste computazionali e consumo di energia. Llama 3 e Mistral Large sono disponibili in varie “taglie”, adattandosi a diverse esigenze. Grok-1 e Grok-1.5 si distinguono come alcuni dei più grandi modelli open-source disponibili, mostrando il potenziale degli LLM open source.

Segnaliamo infine anche DuckDuckGo AI Chat, un chatbot unico che si propone di assicurare l’utilizzo di quattro tra i migliori LLM senza condividere alcun dato personale dell’utente.

Credit immagine in apertura: iStock.com – BlackJack3D

admin

Next Il nuovo Dragon Age cambia nome: presentazione del gameplay prevista per l'11 giugno »

Previous « Presentato ad aprile, è scontato per la prima volta Kobo Libra Colour: si risparmiano oltre 40€!

Lost Records: Bloom and Rage è stato rinviato per “colpa” di Life is Strange: Double Exposure – Multiplayer.it

Author: Multiplayer.it Lost Records: Bloom and Rage non riuscirà a uscire per il 2024: con…

28 Giugno 2024

Pc Games

The Legend of Heroes Trails Trough Daybreak Recensione: luci di un’altra epoca | GamesVillage.it

Author: GamesVillage.it La rinascita di un’epopea è ciò che si prefigura con l’uscita di The…

28 Giugno 2024

Tecnologia

La crypto Smidge aumenta di oltre il 150% in 24 ore: anche Pepe Unchained potrebbe esplodere?

Author: Webnews La meme coin a tema Pepe, Smidge, sta esplodendo con il suo prezzo…

28 Giugno 2024

Digital Audio

🎶 "Fritz Kalkbrenner - Into The Night" [Virgin Records]👉 Stream/Buy: https://umg.lnk.to/IntoTheNight👉 Official video: https://youtu.be/pp0KwQSzadE#deephousemusic #electronicmusic…

28 Giugno 2024

Economia

00:20 Digital Euro & Tokenization2:30 Algo Kit 3.0 & Python5:30 Community Ecosystem Success8:00 Rebranding Algorand12:00…

28 Giugno 2024

Digital Audio

Follow our Defected 2024 Playlist:https://defstream.lnk.to/Defected2024Stream Defected Broadcasting House HERE:https://defected.lnk.to/BroadcastingHouseMusic:https://defected.lnk.to/MusicShop:https://store.defected.comDefected YouTube is the home of house…

28 Giugno 2024

Chatbot, qual è il migliore in assoluto | IlSoftware.it

I chatbot e il legame con i Large Language Model (LLM)

Come scegliere il migliore chatbot oggi disponibile

ChatGPT e il modello GPT-4o

Anthropic e il modello Claude

Ottenere risposte più aggiornate con i riferimenti alle fonti: Perplexity

Combinare la ricerca Web con il modello generativo

Google Gemini si mette alle spalle l’esperienza Bard

Generazione e modifica del codice di programmazione

Chatbot Arena: per confrontare i risultati dei modelli

Related Post

Recent Posts

Lost Records: Bloom and Rage è stato rinviato per “colpa” di Life is Strange: Double Exposure – Multiplayer.it

The Legend of Heroes Trails Trough Daybreak Recensione: luci di un’altra epoca | GamesVillage.it

La crypto Smidge aumenta di oltre il 150% in 24 ore: anche Pepe Unchained potrebbe esplodere?

NUTesla GDPR