11

Un'IA simile a ChatGPT addestrata con 50 dollari e in meno di un'ora: è così che è nato DeepSeek?

Ricercatori di Stanford e dell'Università di Washington hanno sviluppato un modello di intelligenza artificiale che, a detta degli autori, rivaleggia con quello di OpenAI nonostante sia super low-cost.

NOTIZIA di Raffaele Staccini   —   07/02/2025
IA create con gli scarti (immagine generata dall'IA)

Un team di ricercatori di Stanford e dell'Università di Washington ha recentemente presentato un nuovo modello di intelligenza artificiale per il ragionamento, chiamato "s1". Questo modello, secondo quanto riportato in un articolo pubblicato la scorsa settimana, sarebbe in grado di competere con il modello di OpenAI, pur essendo stato sviluppato con un budget limitato e in un tempo sorprendentemente breve: solo 26 minuti.
Per raggiungere questo risultato, i ricercatori hanno utilizzato una tecnica nota come "distillazione", che consente di addestrare modelli di IA più piccoli sfruttando le conoscenze di modelli più grandi.

La distillazione da Gemini

In questo caso, s1 è stato perfezionato utilizzando le risposte fornite da Gemini 2.0 Flash Thinking Experimental, il modello di ragionamento di Google. È interessante notare che i termini di servizio di Google vietano l'utilizzo della sua API per sviluppare modelli concorrenti, ma Google non ha ancora commentato la questione.

Il logo di DeepSeek
Il logo di DeepSeek

Il modello s1 si basa invece su Qwen2.5, un modello open-source di Alibaba Cloud, ed è stato addestrato utilizzando un set di dati relativamente piccolo, composto da sole 1.000 domande. I ricercatori hanno scoperto che l'utilizzo di set di dati più ampi non portava a miglioramenti significativi nelle prestazioni del modello. Inoltre, l'addestramento di s1 ha richiesto l'utilizzo di sole 16 GPU Nvidia H100, un numero relativamente basso per questo tipo di attività. Niklas Muennighoff, un ricercatore di Stanford che ha lavorato al progetto, ha detto si può affittare tutto per circa 20 dollari.

Un'altra tecnica chiave utilizzata nello sviluppo di s1 è stato il "test-time scaling", che consente al modello di elaborare le informazioni per un periodo di tempo più lungo prima di fornire una risposta. Ne aveva parlato anche NVIDIA quando è uscito DeepSeek. In pratica, i ricercatori hanno indotto il modello a "pensare" più a lungo aggiungendo la parola "Aspetta" alla sua risposta, un metodo che, a loro dire, ha portato a una maggiore accuratezza nel ragionamento.

I risultati ottenuti da s1 sono promettenti. Secondo i ricercatori, il modello "supera o1-preview (il modello di OpenAI) su domande di matematica di competizione fino al 27%". Resta nel frattempo da capire se anche DeepSeek è stato creato davvero tramite distillazione e che ripercussioni legali una scoperta di questo tipo potrebbe avere.

Voi che cosa ne pensate? Diteci la vostra nei commenti qua sotto.