Un po’ come ChatGPT poco più di due anni fa è arrivato DeepSeek R1, il modello di una startup cinese conosciuta da pochi che in pochi giorni ha sconvolto il panorama dell’AI generando anche un vero e proprio terremoto finanziario e scuotendo le convinzioni di superiorità americana in termini di AI.
Purtroppo, quando ci sono novità, soprattutto in campo AI, il livello di confusione mediatica è assoluto ed è difficile capire la sostanza di una notizia e, nel caso di DeepSeek, se si tratti di una reale tecnologia o di un semplice fuoco di paglia. Cerchiamo quindi di capire le caratteristiche di questo nuovo modello e se davvero sia paragonabile ai modelli blasonati come GPT-o1 o Claude.
Indice degli argomenti
Deepseek, il servizio Web e il modello rispetto a Chatgpt
DeepSeek, in modo analogo a quanto avviene per molti attori di primo piano nello spazio AI, ha due modelli: R3 per fornire risposte in modo analogo a quanto fa GPT-4o e il modello R1 che implementa la tecnica del Chain of thoughts per ragionare ed è analogo a GPT-o1.
Se usiamo il modello R3 ci accorgiamo rapidamente che l’interazione è analoga a quella che si ha con Claude o GPT-4o. Il modello comprende e scrive un italiano ragionevole e ponendo quesiti ormai semplici si ottengono risposte corrette.
![Immagine che contiene testo, schermata, CarattereDescrizione generata automaticamente](https://imgcdn.agendadigitale.eu/wp-content/uploads/2025/01/29100844/immagine-che-contiene-testo-schermata-carattere-10.png)
Se proviamo invece il modello R1, ovverosia quello che ragiona, e lo confrontiamo con o1 di OpenAI si registrano comportamenti meno stabili e ovvi. Per provare il modello ho usato un prompt che richiede di decifrare un messaggio cifrato:
“Can you decrypt this message? XYIWHEC QIIXMRK MW MR VSSQ S4 I think is a monoalphabetic one”
Ho usato l’inglese per essere sicuro che la valutazione non fosse influenzata dalla lingua nei due casi. Ho provato il prompt usando o1 di OpenAI che ha correttamente decifrato il messaggio come si vede nella seguente figura:
![Immagine che contiene testo, schermata, Carattere, softwareDescrizione generata automaticamente](https://imgcdn.agendadigitale.eu/wp-content/uploads/2025/01/29100848/immagine-che-contiene-testo-schermata-carattere-11.png)
Quando sono andato a testare DeepSeek R1 con lo stesso prompt ho ottenuto un risultato non corretto al primo tentativo:
![Immagine che contiene testo, schermata, Carattere, designDescrizione generata automaticamente](https://imgcdn.agendadigitale.eu/wp-content/uploads/2025/01/29100852/immagine-che-contiene-testo-schermata-carattere-12.png)
Condividendo questo esperimento su LinkedIn alcuni utenti mi hanno scritto che a loro funzionava e quindi ho riprovato ed effettivamente uno di quattro tentativi ha prodotto una risposta quasi interamente corretta:
![Immagine che contiene testo, schermata, software, Software multimedialeDescrizione generata automaticamente](https://imgcdn.agendadigitale.eu/wp-content/uploads/2025/01/29100857/immagine-che-contiene-testo-schermata-software-4.png)
È affascinante seguire il ragionamento che l’interfaccia mostra per intero mentre si sviluppa:
![Immagine che contiene testo, schermata, CarattereDescrizione generata automaticamente](https://imgcdn.agendadigitale.eu/wp-content/uploads/2025/01/29100901/immagine-che-contiene-testo-schermata-carattere-13.png)
Il fatto che qualche volta il modello risponda correttamente e altre volte dia la risposta sbagliata sembra, analizzando la traccia del ragionamento, che sia dovuto alla natura casuale di selezione del token che porta il modello a provare ipotesi differenti e in alcuni casi a produrre la risposta errata.
Anche rimuovendo gli spazi dal messaggio cifrato sia o1 che R1 riescono a decifrare il messaggio anche se impiegano più tempo e R1 nuovamente fatica a capire che si parla della stanza “o4”
L’impressione che non solo io ho è che R1 sia vicino a o1 o a Claude ma non ancora allo stesso livello di maturità, il che è già di per sé assolutamente sorprendente, anche perché il team di DeepSeek è stato molto aperto nel condividere non solo il modello ma anche il percorso seguito per addestrarlo, ed è un importante contributo che toglie un po’ di “mistero” attorno ai contributi delle big americane che non condividono gli ingredienti segreti dei propri modelli top.
Caratteristica | DeepSeek | ChatGPT |
---|---|---|
Tipo di Modello | Open-source, flessibile, ottimizzato per compiti tecnici | Modello avanzato con generazione linguistica naturale |
Prezzi | API a $0,14 per milione di token | Versione gratuita limitata; Piano Plus a $20/mese |
Pro | – Costo contenuto – Flessibilità open-source – Risposte rapide tecniche | – Risposte di alta qualità – Ampia base di conoscenza – Supporto per vari compiti |
Contro | – Limitato nelle conversazioni complesse – Meno avanzato per creatività – Preoccupazioni su censura e dati | – Costo superiore – Meno flessibile nelle personalizzazioni – Dipendenza da infrastruttura cloud |
Adatto per | Piccole e medie imprese, applicazioni tecniche | Conversazioni complesse, scrittura creativa, programmazione |
Cosa rende speciale R1 rispetto a Chatgpt e Llama?
Da un punto di vista tecnico si tratta di un modello che si avvicina ai grandi modelli che finora erano chiusi e promossi dalle big tech americane. Il modello è aperto e può essere eseguito localmente usando sistemi come ollama e questa è decisamente un’importante novità nel panorama. Si può pensare di realizzare un servizio di AI generativa localmente anche per svolgere compiti complessi, mentre finora i modelli aperti erano sempre un po’ inferiori a quelli online, incluso il modello Llama di Meta.
![](https://imgcdn.agendadigitale.eu/wp-content/uploads/2025/01/29100905/word-image-224883-6.png)
Il bando delle GPU di ultima generazione
Il bando delle GPU di ultima generazione che l’America aveva promosso per impedire che la Cina le potesse usare sembra aver prodotto un effetto non voluto: i ricercatori cinesi si sono ingegnati avendo a disposizione dispositivi come le schede nVidia H800 decisamente meno performanti rispetto alle nVidia H100, e questo ha portato a sviluppare un’architettura apparentemente più efficiente. Dico apparentemente poiché non si hanno informazioni dettagliate sull’approccio seguito da OpenAI o da Anthropic ed è quindi difficile avere certezze.
Censura e privacy
Ci sono poi numerose polemiche relativamente all’evidente censura di alcuni argomenti come le manifestazioni di piazza Tienanmen che R1 si rifiuta di riportare, così come alcuni fatti relativi al Covid e chissà quanti altri aspetti. Da un punto di vista tecnologico sono aspetti minori anche se ovviamente non sono eticamente irrilevanti, così come i termini d’uso del servizio online sembrano essere decisamente poco rispettosi dei dati che ha portato l’autorità garante italiana a chiedere chiarimenti pena il blocco del servizio.
Il costo di DeepSeek vs Chatgpt
DeepSeek ha dichiarato di aver speso tra i cinque e i sei milioni di dollari per l’addestramento del modello, ma si tratta di un importo difficile da verificare e si sospetta essere basso rispetto alla realtà.
L’arrivo di una tecnologia sviluppata apparentemente con meno risorse di quelle impiegate dai big Americani ha mandato in tilt i mercati che si sono cominciati a chiedere se le valutazioni miliardarie di queste società siano davvero giustificate. Il terremoto mediatico sta già producendo i primi effetti: OpenAI ha appena annunciato la disponibilità del programma ChatGPT Gov che consente l’installazione della tecnologia nei server di Azure del governo aprendo per la prima volta dopo molto tempo alla possibilità di eseguire i modelli non come servizio erogato da OpenAI bensì come servizio in un cloud Microsoft sotto il controllo governativo (e quindi di fatto fornendo una copia del modello).
Le prospettive
L’arrivo di DeepSeek R1 ha mostrato al mondo che anche la Cina sta progredendo significativamente nello sviluppo di AI al punto da poter competere sostanzialmente alla pari con i grandi modelli AI americani. La natura aperta del modello sicuramente è una piacevole novità poiché consentirà sviluppo di approcci analoghi da parte di altri ricercatori. Speriamo che l’Europa (magari Mistral) colga l’occasione e provi a rientrare in gara evitando di lasciare in mano di Stati Uniti e Cina questa tecnologia centrale.
La possibilità di scaricare i modelli di DeepSeek apre scenari interessanti per l’esecuzione locale di modelli (a patto di avere le risorse di calcolo ed energetiche necessarie), e in numerosi ambiti rappresenta un salto tecnologico rilevante.
I grandi player americani presumibilmente accelereranno gli sviluppi per recuperare il terreno perso, e non sono sicuro che un’ulteriore accelerazione sia una buona idea. Ma la competizione commerciale non potrà non spingere ulteriormente queste tecnologie e corriamo il rischio che il loro impatto sulla società non sia correttamente valutato. Sembrano passati decenni da quando si discuteva di AI buona e di uno sviluppo controllato, ora tutto seguirà il passo della competizione e noi ci dovremo adattare. Sicuramente non rimarremo a corto di notizie nei prossimi mesi.
Modi per Utilizzare DeepSeek
DeepSeek offre diverse modalità di utilizzo, adatte a vari dispositivi e necessità. Ecco un elenco completo delle opzioni disponibili:
1. Accesso via Browser Web
- Descrizione: Puoi utilizzare DeepSeek direttamente dal tuo browser accedendo al sito ufficiale chat.deepseek.com.
- Registrazione: È necessario creare un account utilizzando un’email o un account Google.
- Vantaggi: Nessuna installazione richiesta, accesso immediato.
2. Applicazioni Mobili
- Disponibilità: DeepSeek ha applicazioni dedicate per iOS e Android.
- Download: Le app possono essere scaricate gratuitamente da Google Play Store e Apple App Store. In Italia non più, dal 29 gennaio.
- Registrazione: Simile alla versione web, consente di interagire con l’IA in movimento.
3. Installazione Locale su PC
- Open Source: DeepSeek può essere scaricato ed eseguito localmente, garantendo il controllo completo sui dati.
- Requisiti: È necessario installare un software come Ollama, che facilita l’esecuzione dei modelli AI.
- Modelli Disponibili: Puoi scegliere tra diverse versioni di DeepSeek, da quella più leggera a quella più potente.
- Comando Terminale: L’installazione richiede l’uso del terminale per eseguire il modello con comandi specifici.
4. Utilizzo tramite API
- Integrazione: DeepSeek offre API per sviluppatori che desiderano integrare l’intelligenza artificiale nei loro progetti.
- Documentazione: È disponibile una guida completa per aiutare gli sviluppatori a utilizzare le API.
5. Utilizzo su Piattaforme Cloud
- Azure e Altri Servizi Cloud: DeepSeek può essere integrato in piattaforme cloud come Azure, permettendo di sfruttare le capacità di calcolo scalabili.
6. Utilizzo tramite Python
- Flessibilità Avanzata: Gli utenti avanzati possono installare e utilizzare DeepSeek tramite Python, offrendo maggiore controllo e personalizzazione.
- Competenze Necessarie: Richiede competenze di programmazione per configurare correttamente il modello.