Quanti utenti, dopo aver letto la risposta di un’azienda di intelligenza artificiale generativa ad una qualsiasi domanda, andranno a leggere anche la fonte? Soprattutto se il riassunto fornito è esaustivo, fatto bene, e ricalca, in sostanza, l’originale?
Indice degli argomenti
L’IA e il problema delle fonti
È un problema che gli organi d’informazione stanno affrontando, perché i pochi accordi già stipulati tra le diverse parti (aziende di IA, da un lato, e organi d’informazione, dall’altro) non appaiono adeguati per assicurare a questi ultimi introiti sufficienti per mandare avanti la baracca. E, come un cane che si morde la coda, il rischio è che le fonti giornalistiche si assottiglino togliendo la linfa vitale per l’IA generativa. La vicenda che vede contrapposte le une agli altri si è arricchita di un nuovo capitolo. Infatti, il New York Times ha inviato nei giorni scorsi una comunicazione alla start up Perplexity, nella quale confluiscono anche capitali di Jeff Bezos, diffidandola dall’accedere e dall’utilizzare i suoi contenuti.
La battaglia degli editori per la tutela dei contenuti
Il NYT va ad affiancare nella controversia altri editori, tra i quali Forbes e Condé Nast, che accusano a loro volta Perplexity di usare il loro materiale senza permesso per generare risultati di ricerca di intelligenza artificiale. Ma non è la prima vertenza che vede coinvolto il grande giornale newyorchese. Quasi un anno fa, il NYT ha citato in giudizio Microsoft (per Copilot) e OpenAI (per ChatGPT) per presunta violazione del copyright, affermando che hanno sfruttato i suoi contenuti senza autorizzazione per creare i loro prodotti di intelligenza artificiale. Gli strumenti sono stati addestrati su milioni di pezzi del Times, secondo la citazione giunta dopo mesi di trattative commerciali infruttuose.
Il Times ritiene di essere tra le maggiori fonti di informazioni proprietarie per OpenAI e i prodotti IA di Microsoft, e che i loro strumenti dirottano il traffico, che altrimenti andrebbe alle proprietà web del Times, privando l’azienda di entrate pubblicitarie, di licenze e di abbonamenti.
Il NYT ha chiesto al Tribunale di riconoscere il risarcimento dei danni e di impedire alle aziende tecnologiche di utilizzare i suoi contenuti e di distruggere i set di dati che includono il suo lavoro. “Il giornalismo del Times è il frutto del lavoro di migliaia di giornalisti, il cui impiego costa centinaia di milioni di dollari all’anno”, ha affermato nella sua denuncia. “I citati in giudizio hanno effettivamente evitato di spendere i miliardi di dollari che il Times ha investito nella creazione di quel lavoro, prendendolo senza permesso o compenso”. Anche in quel caso, la posizione della controparte è stata prudente e improntata al dialogo: “Rispettiamo i diritti dei creatori e dei proprietari di contenuti e ci impegniamo a lavorare con loro per garantire che traggano vantaggio dalla tecnologia IA e dai nuovi modelli di ricavi”, ha affermato una portavoce di OpenAI.
Le peculiarità di Perplexity rispetto ai concorrenti
Tornando a Perplexity, essa è attiva da due anni e si presenta come uno strumento di IA che si distingue dagli altri, in particolare dai chatbot conversazionali come ChatGPT, perché focalizzato sul recupero delle informazioni e sulle capacità di ricerca contestuale. Il fatto di essere nata con l’ambizione di fungere da contraltare di ChatGPT di OpenAI emerge dal confronto proposto dalla stessa startup che evidenzia le differenze principali.
Perplexity:
- funziona principalmente come motore di ricerca, progettato per raccogliere e riassumere informazioni da varie fonti in tempo reale e fornisce risposte accurate e consapevoli con fonti citate;
- integra più modelli IA, tra cui GPT-4o, Claude 3, e i suoi modelli proprietari. Ciò consente di sfruttare vari punti di forza a seconda del tipo di query. Gli utenti possono passare da un modello all’altro per risposte personalizzate;
- mediante l’uso di “Search Focus Filters” gli utenti possono personalizzare ulteriormente la ricerca specificando i tipi di fonti che desiderano includere o escludere da essa, aumentando così la pertinenza delle informazioni recuperate;
- mantiene il contesto tra le interazioni, consentendo domande di follow-up che si basano su query precedenti. Il flusso di conversazione è perciò più coerente rispetto ai motori di ricerca tradizionali;
- è particolarmente adatto a ricercatori, studenti e professionisti che cercano informazioni affidabili in tempi rapidi. Citando le fonti risulta ancora più credibile.
ChatGPT:
- conversa con gli utenti in dialoghi simili a quelli tra esseri umani. Può sì fornire informazioni, ma il suo punto di forza è la generazione di contenuti creativi, oltre che la conversazione interattiva;
- utilizza principalmente i modelli di OpenAI, mirati alla conversazione più che al reperimento mirato di informazioni;
- Perplexity, come visto, è particolarmente adatto per ricercatori, studenti e professionisti; Chat GPT si rivolge maggiormente ai creativi per professione e agli utenti occasionali, a caccia di interazioni coinvolgenti, per generare contenuti, piuttosto che di informazioni accurate.
Funzionalità principali e pubblico di riferimento di Perplexity e ChatGPT
In sintesi, mentre sia Perplexity che ChatGPT utilizzano tecnologie di IA avanzate, le loro funzionalità principali e il pubblico di riferimento differiscono in modo significativo. Perplexity è progettato per un recupero accurato delle informazioni con un’enfasi sulla citazione della fonte, rendendolo uno strumento potente per la ricerca e le indagini fattuali.
Caratteristica | Perplessità AI | ChatGPT |
---|---|---|
Uso primario | Recupero delle informazioni | Interazione conversazionale |
Varietà di modelli | Modelli avanzati multipli | Principalmente i modelli di OpenAI |
Personalizzazione | Filtri di messa a fuoco della ricerca | Personalizzazione limitata |
Pubblico di destinazione | Ricercatori, professionisti | Utenti generici, professionisti creativi |
Consapevolezza contestuale | Mantiene il contesto tra le query | Minore enfasi sulla conservazione del contesto |
Detto ciò, con quali mezzi la startup svolge il suo lavoro? Secondo la diffida inviatagli dal legale del Times, il modo in cui Perplexity utilizza i contenuti, anche per creare riassunti e altri output, viola i suoi diritti previsti dalla legge sul copyright: “Perplexity e i suoi partner commerciali si sono arricchiti ingiustamente utilizzando, senza autorizzazione e senza licenza, il giornalismo espressivo, attentamente scritto, ricercato e modificato dal Times”, ha scritto l’editore. Il CEO di Perplexity ha dichiarato che l’azienda da lui guidata non sta ignorando gli sforzi del Times per bloccare il crawling del suo sito e che risponderà all’avviso legale entro la scadenza fissata al 30 ottobre: “Siamo molto interessati a lavorare con ogni singolo editore, incluso il New York Times, e non abbiamo alcun interesse a essere gli antagonisti di alcun editore”.
In cosa consiste il crawling
Esso si realizza mediante la scansione di tutti i link, come quelli indicati nella “mappa del sito” (una lista delle URL), seguendo in alcuni casi le indicazioni riportate nel file robots.txt, un documento che definisce le direttive per la scansione di un sito web. Tramite il file robots.txt, ad esempio, si può suggerire al motore di ricerca di non analizzare/indicizzare determinate risorse del sito, mentre tramite la sitemap è possibile tracciare una mappa che faciliti il lavoro di scansione. Per stabilire con che frequenza sottoporre ad una nuova scansione una specifica pagina e quante pagine del sito devono essere indicizzate vengono usati algoritmi e regole specifiche. Ciò è utile, ad esempio, per distinguere una pagina che viene aggiornata ciclicamente da una che rimane immutata: la prima verrà certamente scansionata più frequentemente.
Nella sua lettera, il Times ha inoltre chiesto a Perplexity di fornire informazioni su come sta accedendo al suo sito nonostante le misure adottate per impedirlo (gli editori possono inserire un codice per rendere noto che non vogliono che i loro contenuti siano copiati).
Nella diffida si rileva che Perplexity aveva garantito al NYT che avrebbe smesso di usare il “crawling”, come aveva fatto in precedenza ignorando la volontà dell’editore. Al contrario, quando il Times ha inviato la lettera, ai primi di ottobre, i contenuti del Times continuavano a comparire nei risultati di ricerca di Perplexity. L’azienda ha concluso accordi con alcuni editori, ma a cifre di molto inferiori rispetto a OpenAI. D’altra parte, Perplexity ha dichiarato di aver elaborato 340 milioni di ricerche a settembre scorso – una quantità ridottissima se paragonata a quella di Google – ma prevede di inserire annunci sotto le sue risposte entro la fine di ottobre. La società avrebbe intenzione di concedere fino al 25% dei ricavi pubblicitari ai partner editoriali. L’utilizzo di Perplexity è gratuito, ma è previsto anche un abbonamento a 20 dollari mensili, principale fonte di entrata. Perplexity sta inviando una piccola quantità di traffico ai siti dei singoli editori – minima sempre rispetto a Google – ma la cifra è aumentata di otto volte nell’ultimo anno. I problemi che la startup ha di fronte non sono comunque solo quelli col NYT. Forbes l’ha infatti accusata di essere andata oltre il crawling e di aver utilizzato i suoi contenuti per creare una storia quasi identica al reportage originale.
Le enormi implicazioni dell’IA generativa per gli editori
In generale, gli editori stanno facendo i conti con le enormi implicazioni dell’IA generativa per le loro attività. Oltre all’utilizzo di strumenti che possono intaccare il loro lavoro, quali quelli per analizzare dati, scrivere titoli ed articoli interamente generati dall’IA, essi temono per l’uso improprio o per il furto dei loro contenuti, che possono comportare rischi evidenti per gli ambiti di azione dipendenti dalle entrate pubblicitarie e da quelle per gli abbonamenti. Si tratta dunque di una partita delicata, la cui conclusione non sembra all’orizzonte. A meno che non si riesca a costruire un accordo con regole di carattere generale nel cui ambito sia gli editori che le aziende di IA si possano muovere con certezza assicurandosi i profitti necessari per andare avanti, nell’interesse reciproco. Prima che ciò avvenga (se avverrà), i campi di gioco saranno le aule dei tribunali.