Scienza e società

I limiti dell’intelligenza artificiale: risposte sbagliate, link inesistenti

Marzo 22, 2025

L’intelligenza artificiale ha un problema con le fonti: i chatbot non riescono a indicare l’articolo da cui prendono le notizie il 60% delle volte.Il Columbia Journalism Review ha confrontato otto diversi chatbot. Il risultato è impietoso per tutti: si passa dal 37% di errore di Perplexity al 94% di Grok 3. E le aziende ignorano anche le “barriere” degli editori.Risposte sbagliate, link inesistenti, regole aggirate. C’è ancora tanto lavoro da fare per i motori di ricerca AI, specie nel campo della citazione di articoli giornalistici. Due giornaliste del Columbia Journalism Review hanno confrontato otto diversi chatbot (ChatGpt, Perplexity, Perplexity Pro, Deepseek, Copilot, Grok 2, Grok 3 e Gemini) e, citandogli frammenti di vari articoli giornalistici, hanno chiesto ai motori di ricerca di identificare l’articolo che lo conteneva, fornire titolo e data di pubblicazione, nome della testata e trovare anche l’Url della pagina web corrispondente. Il risultato è impietoso: si passa dal 37% di errore di Perplexity al 94% di Grok 3. E i problemi non sono finiti qui.

Sbagliare (con sicurezza)
Nel complesso, i chatbot hanno risposto in maniera errata a più del 60% delle domande. Il primo punto, però, è che la maggior parte degli strumenti AI restituiva risposte imprecise, parzialmente o totalmente sbagliate «con una sicurezza allarmante» usando raramente espressioni come «è possibile», «sembra», «potrebbe» o riconoscendo lacune rispondendo «non sono riuscito a individuare l’articolo esatto». In sostanza, tutti i chatbot avevano sempre più probabilità di fornire una risposta errata piuttosto che di riconoscersi delle limitazioni. Aspetto che presenta sicuramente dei rischi per gli utenti.
ChatGpt, per esempio, ha identificato erroneamente 134 articoli, ma ha segnalato una mancanza di fiducia solo 15 volte su 200 risposte e non ha mai rifiutato di fornire una risposta. E ora compare sotto alla sua barra di ricerca l’avviso: «ChatGpt può commettere errori. Considera di verificare le informazioni importanti». E quando l’AI segnala erroneamente un articolo piuttosto che un altro, non solo può contaminare «la propria reputazione ma anche quella delle testate su cui si appoggia per legittimarsi», scrive il CJR.

E se vi state chiedendo se i modelli premium siano più affidabili delle loro controparti gratuite (Perplexity Pro rispetto a Perplexity e Grok 3 rispetto a Grok 2), ci sono delle sorprese. Perché è vero che i motori di ricerca a pagamento rispondevano correttamente a più richieste rispetto ai loro corrispondenti free ma paradossalmente dimostravano anche tassi di errore più elevati. Questo per la loro maggiore tendenza a restituire risposte sicure, definitive.

Url inventati
Oltre al fatto che i chatbot spesso riportavano articoli ripubblicati su altri siti (come Yahoo News) rispetto agli originali su cui erano apparsi, un altro problema è che più della metà delle risposte di Gemini e Grok 3, per esempio, citavano Url inventate o corrotte. portavano cioè a pagine di errore. Sui 200 suggerimenti testati per Grok 3, 154 citazioni hanno portato a pagine di errore. Anche quando Grok identificava correttamente un articolo, spesso si collegava a un Url inventata. Grok 2, invece, era incline a collegarsi alla homepage della testata piuttosto che ad articoli specifici. È evidente che questo influenza negativamente la capacità degli utenti di verificare le fonti di informazione.

Chatbot che sono già un disincentivo per gli utenti a entrare nelle pagine web delle testate perché rispondono alle domande dei cittadini “da fuori”, cioè sulla chat stessa. Se a ciò si aggiunge l’accompagnamento di un Url inesistente, questo non aiuta. La conseguenza di ciò è che le testate continuano a produrre costose informazioni che rispondono alle domande degli utenti su piattaforme come ChatGPT senza ricevere un compenso tramite il traffico web e il conseguente reddito pubblicitario per le visualizzazioni.