Si chiama Ai Overview, per ora, il futuro della ricerca web: Google, il motore di ricerca più usato al mondo, si è aperto all’utilizzo dell’intelligenza artificiale generativa. Per ora solo negli Stati Uniti. Tra qualche mese in molti altri Paesi, tra i quali l’Italia. Per i miliardi di utenti che ha nel mondo.
Ai Overview, come funzionano le panoramiche: sintesi dei contenuti web
Come funziona il meccanismo di Ai Overview? L’utente inserisce una query, che viene valutata per verificare se su di essa è il caso di fornire non direttamente i link ai contenuti, ma un riassunto di tutto ciò che si trova sul web sul tema specifico.
Il riassunto, detto Panoramica (“overview”), appare nella parte superiore dei risultati, prima dei tradizionali link. Internet. Ciò porta inevitabilmente all’ingestione di molta spazzatura e alla fine al rigurgito.
Panoramiche di Google e interfaccia utente
Se la query attiva la realizzazione di una panoramica generata dall’IA (come abbiamo già scritto, ciò non sempre accade) chi sta effettuando la ricerca la vede sull’interfaccia, in alto. Essa dà la risposta che il navigatore cerca senza mai chiedere di fare clic su un collegamento web o anche di imparare i nomi delle pubblicazioni che l’IA ha utilizzato come fonti.
Fonte immagine
Google aveva già lanciato una versione nascente di AI Overviews all’interno di Search Generative Experience, disponibile solo per chi aveva dato la propria adesione all’esperimento.
Fonte immagine
Integrazione delle Ai Overview nei risultati di ricerca
Cosa succede, ora che la funzione è entrata a regime negli USA? L’utente può decidere di vedere solo i collegamenti web? No, perché le panoramiche sono integrate nella pagina dei risultati di ricerca predefinita.
Non è possibile disattivare la loro visualizzazione nei risultati. Tuttavia, sebbene non sia possibile disattivarle completamente, ci sono dei modi per ottenere una pagina dei risultati di ricerca ricca di collegamenti web:
- manualmente, selezionando una vista filtrata speciale dopo ogni singola query. Dopo essere arrivato alla pagina dei risultati di ricerca con la Panoramica, bisogna cliccare su Altro (opzione di filtro visualizzabile insieme a quelle Immagini, Video, Shopping) e cliccare ancora su Web. A questo punto, la pagina dei risultati mostrerà solo i collegamenti a siti Web reali;
- installando un’estensione del browser che porta automaticamente alla visualizzazione solo web della pagina dei risultati di ricerca.
Fonte immagini
Un altro metodo è quello indicato in questo video:
Dichiarazioni di non-responsabilità e affidabilità
Ogni volta che Overview genera risposte relative a domande sulla salute, aggiunge questa dichiarazione di non responsabilità in fondo al risultato: “Questo è solo a scopo informativo. Per consigli medici o diagnosi, consultare un professionista”.
Abbiamo già visto che non sempre una query conduce al riepilogo dei risultati generato dall’intelligenza artificiale. Quando è probabile che ciò avvenga? Secondo un portavoce di Google, le panoramiche vengono visualizzate solo per query complesse, o quando il sistema valuta che l’intelligenza artificiale generativa può essere particolarmente utile.
Ad esempio, quando si desidera raccogliere rapidamente informazioni da una serie di fonti. Uno sperimentatore di Wired ha rilevato che durante i test sembrava che le panoramiche comparissero quasi in modo casuale, e sia per domande semplici che per domande più complicate.
Ad avviso del portavoce di Google, la panoramica AI è alimentata da una versione personalizzata di Gemini integrata con aspetti del sistema di ricerca dell’azienda, come il Knowledge Graph che contiene miliardi di fatti generali. Per alcune risposte in forma di panoramica, poi, i collegamenti alle pagine Web sono immediatamente visibili. Per altre panoramiche, bisogna cliccare su Mostra altro per vedere da dove provengono le informazioni. Uno dei principali problemi, riguardo all’uso di Overview per rispondere alle ricerche, sono i casi, abbastanza frequenti, delle cosiddette “allucinazioni dell’intelligenza artificiale”.
Se si utilizza il chatbot Gemini, peraltro della stessa azienda, una dichiarazione di non responsabilità recita: “Gemini potrebbe visualizzare informazioni imprecise, anche sulle persone, quindi ricontrolla le sue risposte”.
Nessuna clausola del genere compare quando la risposta alla ricerca viene prodotta sotto forma di panoramica. Secondo il portavoce di Google, la clausola non è stata inserita in questo caso perché l’intento della Big Tech è offrire risultati di ricerca di alta qualità; sottolinea, inoltre, che la società ha effettuato “adversarial red-teaming tests” (vengono simulate azioni di aggressori sofisticati o minacce persistenti avanzate per determinare quanto efficace possa essere la risposta ad un attacco che mira a raggiungere un obiettivo specifico) per scoprire potenziali punti deboli della funzione. Sarebbero inoltre in funzione barriere integrate per impedire che emergano informazioni di bassa qualità o dannose, e la progettazione delle panoramiche consentirebbe, sempre secondo Google, di evidenziare informazioni che possono essere facilmente verificate da quelle di supporto che vengono messe in evidenza. Ne discende che chi vuole può cliccare sui collegamenti della pagina Web per ricontrollare che le informazioni siano corrette, anche se, vien da dire, sarebbe paradossale che utenti alla ricerca di risposte rapide dedichino più tempo al materiale originale che alla panoramica.
L’attendibilità delle panoramiche: il caso della colla sulla pizza
E questo ci porta a un aneddoto davvero illuminante (e inquietante al contempo). Un utente vuole avere da Google un rimedio affinché il formaggio non scivoli dalla pizza (proprio così, un problema davvero esistenziale!). In ogni modo, l’IA Overview del motore di ricerca esordisce con una frase tipica di chi la sa lunga: “il formaggio può scivolare via dalla pizza per una serie di motivi”. E continua: “Ecco alcune cose che puoi provare”.
Il primo suggerimento è quello di unire il formaggio alla salsa. Quindi, senza nemmeno un avvertimento, consiglia di aggiungere “circa 1/8 di tazza di colla non tossica alla salsa”. Già, la colla tossica sulla pizza! Ma da dove avrà preso questa informazione?
Origine e implicazioni dell’errore
Facciamo un salto indietro nel tempo. L’anno scorso, la società Reddit ha bloccato la sua API perché ricercatori e aziende di intelligenza artificiale stavano raschiando tutti i suoi contenuti, costando all’azienda denaro in commissioni sui server e, cosa più importante, traendo profitto (con nessun guadagno per Reddit) dai dati degli utenti e dai loro post. Il CEO decise quindi di cominciare a far pagare l’accesso API, danneggiando in tal modo le app Reddit di terze parti e molti degli strumenti che i suoi moderatori non retribuiti utilizzavano per consentire alla piattaforma di mantenersi pulita. Ci furono proteste, che poi Reddit soffocò minacciando di bannare i subreddit che si lamentavano.
Strinse poi un lucroso accordo con Google, cedendole la saggezza collettiva dell’intera piattaforma per 60 milioni di dollari all’anno. Da allora, Reddit è diventata una società quotata in borsa e il mercato sembra apprezzare quando annuncia nuovi accordi sull’intelligenza artificiale.
Gli utenti e i moderatori di Reddit, ovviamente, non ottengono nulla, e agli utenti di Google vengono serviti i suoi post per mezzo delle panoramiche. Facciamo un altro salto indietro, a 11 anni fa, quando Mr. Fucksmith (il signor Fottutorossi, possiamo tradurre) risponde di aggiungere “circa 1/8 di tazza di colla non tossica alla salsa per conferirle più appiccicosità” a un thread intitolato “Il mio formaggio scivola via dalla pizza troppo facilmente.” È difficile dare un senso al motivo per cui l’algoritmo AI abbia scelto questo commento. Ciò sottolinea un difetto fondamentale dell’approccio predominante di formazione di modelli di intelligenza artificiale generativa, che consiste, in poche parole, nel fornire quante più informazioni possibili raccolte dal web.
La risposta di Google sull’affidabilità e le opinioni degli esperti
Il CEO di Alphabet – società madre di Google – Sundar Pichai, parlando di Overview AI, ha riconosciuto con schiettezza che la “fattualità” è un problema per i modelli linguistici dell’intelligenza artificiale.
Per affrontare il tema all’ordine del giorno, il Washington Post ha organizzato un “Tech brief” al quale hanno partecipato cinque esperti di IA: Grady Booch , famoso informatico di lungo corso; Arvind Narayanan, professore di informatica a Princeton; Melanie Mitchell , professoressa del Santa Fe Institute; Niloofar Mireshghallah , studioso di apprendimento automatico presso l’Università di Washington;Usama Fayyad, direttore dell’Institute for Experiential AI presso la Northeastern University.
Ne è venuto fuori che, anche se non di rado accade che una nuova funzionalità tecnologica debutti con alcuni bug, è invece certo che alcuni problemi di Overview potrebbero non essere risolvibili in tempi brevi.
Abbiamo già scritto dei più eclatanti, quale, ad esempio, quello del suggerimento di usare colla tossica per far sì che il formaggio non scivoli dalla pizza. Inizialmente Google ha minimizzato i problemi, affermando che la stragrande maggioranza delle sue panoramiche AI sono di “alta qualità” – sottolineando che alcuni degli esempi diffusi sui social media erano probabilmente falsi – precisando che stava rimuovendo manualmente (!!) alcuni dei risultati più discutibili.
Secondo un portavoce, Google sta utilizzando il feedback per apportare miglioramenti ai sistemi, alcuni dei quali hanno già iniziato a essere implementati. Grady Booch, uno dei cinque esperti messi intorno a un tavolo dal WP, è particolarmente scettico: “Tutti i grandi modelli linguistici (Large language models, LLMs), per la natura stessa della loro architettura, sono narratori intrinsecamente e irrimediabilmente inaffidabili”. Sono progettati per generare risposte che sembrino coerenti, non risposte vere. “In quanto tali, semplicemente non possono essere ‘aggiustati’”.
Addirittura, secondo Booch, inventare è una proprietà inevitabile del modo in cui funzionano. Per contenere, e non per annullare, i problemi, le aziende possono “usare enormi quantità di lavoro umano a basso costo per ovviare alle bugie più vergognose”. Strada, vien da pensare, difficilmente percorribile.
Booch è categorico: è probabile che le risposte errate persistano finché Google e altre aziende tecnologiche utilizzeranno l’intelligenza artificiale generativa per rispondere alle query di ricerca. Tesi condivisa da Arvind Narayanan, secondo cui, tuttavia, Google ha anche commesso “errori evitabili, come estrarre risultati da pagine web di bassa qualità e persino da Onion” (e da post ridicoli di Reddit, come abbiamo visto).
Ad avviso di Melanie Mitchell il sistema non è sempre in grado di stabilire se una determinata fonte fornisce una risposta affidabile, forse perché non riesce a comprendere il contesto. Un altro problema è che, anche quando la fonte è buona, potrebbe interpretare erroneamente ciò in essa è riportato.
Questo, comunque, non è solo un problema di Google. ChatGPT o Perplexity potrebbero non ottenere le stesse risposte sbagliate di Google, ma può accadere l’inverso per altre risposte: “L’intelligenza artificiale per operare in modo più affidabile semplicemente non esiste ancora”. Tuttavia, alcune parti del problema potrebbero rivelarsi più risolvibili di altre. Il problema delle “allucinazioni” (il modello linguistico crea qualcosa che non è presente nei dati di addestramento) rimane “irrisolto”, è l’opinione di Niloofar Mireshghallah.
“Ma assicurarsi che il sistema attinga solo da fonti affidabili è più un problema di ricerca tradizionale che un problema di intelligenza artificiale generativa. Esso può forse essere suoerato in parte aggiungendo meccanismi di verifica dei fatti. Altro rimedio, sia pur parziale, suggerito da Usama Fayyad, potrebbe essere quello di diminuire l’importanza delle panoramiche nei risultati di ricerca. E così, tra l’altro, gli utenti avranno motivo di visitare siti affidabili invece di ricorrere a Google per qualunque cosa, il che danneggia molto il mondo editoriale.
Il ricorso a fact – checkers umani (con i relativi costi da considerare) per le ricerche più comuni, viene indicato ancora da Arvind Narayanan, secondo cui “Essenzialmente, Google diventerebbe una content farm (generatrice di contenuti) mascherata da motore di ricerca, riciclando il lavoro umano a basso costo con l’imprimatur dell’intelligenza artificiale”.
Il CEO di Google, Sundar Pichai, intervistato da Wired, non si è nascosto dietro il dito, affermando che la propensione dei grandi modelli linguistici alla falsità è in qualche modo “una caratteristica intrinseca”, motivo per cui “non sono necessariamente l’approccio migliore per arrivare sempre alla fattualità”.
Aggiungendo però che inserirli in un motore di ricerca può aiutare a “radicare” le loro risposte nella realtà indirizzando gli utenti alla fonte originale. A questo punto un dubbio è più che legittimo: il gioco vale la candela? O perlomeno: fino a quando l’IA applicata alla ricerca non darà tutte le garanzie necessarie, non è più prudente proseguire sulla strada già tracciata?
Il problema copyright in AI Overview e per l’editoria web
C’è poi l’aspetto copyright, che attende gli esiti di tante cause avviate per ora contro OpenAI-ChatGpt da molti editori americani (come il New York Times) e potrebbero (forse a maggior ragione, data la sua importanza per gli editori) colpire anche Google a breve.
Google, come OpenAI, sostiene che le sue sintesi del web sono fair use; ma gli editori ci vedono una violazione del copyright (e di interessi economici rilevanti).
Gli impatti di Ai Overview su web
Insomma, tra più o meno un anno più di un miliardo di persone probabilmente si interfaccerà con questa nuova metodologia per la ricerca sul web. Essa può danneggiare il giornalismo e gli editori, dato che scoraggia i lettori ad aprire i link per andare agli articoli (o ai contenuti in genere) dai quali le panoramiche vengono tratte.
Al di là di ciò, non è chiaro quali ulteriori impatti potrebbero investire gli utenti. Altri strumenti di intelligenza artificiale sono piuttosto popolari, come ChatGPT di OpenAI, ma questa funzionalità probabilmente esporrà miliardi di persone, che non hanno mai utilizzato un chatbot prima, al testo generato dall’intelligenza artificiale. Si tratta di un passo decisamente più lungo, sui cui risultati le perplessità del presente potranno essere (o non essere) fugate nel futuro.