OpenAI svela o3: il nuovo modello di ragionamento AI promette risultati straordinari

La società annuncia il test di un modello AI avanzato chiamato o3, ma il rilascio pubblico rimane ancora molto lontano.

OpenAI ha presentato un'anteprima del suo prossimo modello di "ragionamento" denominato o3 e una versione più compatta, o3-mini, durante l'ultimo giorno del suo evento di lancio "ship-mas". Sebbene i modelli non siano ancora disponibili al pubblico, OpenAI ha aperto le candidature per la comunità di ricerca per testarli prima del rilascio definitivo, la cui data non è stata ancora annunciata. Questo nuovo approccio rappresenta un ulteriore passo avanti rispetto al modello o1, noto come Strawberry, introdotto a settembre.

Prestazioni eccezionali nei test di codifica e matematica

OpenAI ha dichiarato che o3 supera di gran lunga i record di prestazioni precedenti. Nei test di codifica SWE-Bench Verified, o3 ha ottenuto un miglioramento del 22,8% rispetto al suo predecessore e ha persino superato il Chief Scientist di OpenAI in gare di programmazione competitiva. Il modello ha quasi ottenuto un punteggio perfetto in AIME 2024, una delle competizioni matematiche più difficili, mancando solo una domanda. Inoltre, o3 ha raggiunto un impressionante 87,7% in GPQA Diamond, un benchmark per problemi scientifici di livello esperto, e ha risolto il 25,2% delle sfide matematiche e di ragionamento più complesse, un risultato che nessun altro modello ha mai raggiunto.

Il termine "ragionamento" si riferisce alla capacità del modello di scomporre le istruzioni in compiti più piccoli, producendo risultati migliori e spiegando i passaggi del processo. Questo approccio è particolarmente utile per attività complesse, come la risoluzione di problemi matematici avanzati o la scrittura di codice, dove è importante comprendere il percorso logico dietro una risposta, anziché limitarsi a un risultato finale.

Miglioramenti nella sicurezza

OpenAI ha anche annunciato progressi significativi nella "deliberative alignment", una metodologia che consente al modello di valutare passo dopo passo se una richiesta dell'utente rispetta le linee guida di sicurezza. Questo approccio richiede che il modello ragioni attivamente sulle implicazioni delle sue risposte, andando oltre le semplici regole sì/no. I test condotti con o1 hanno dimostrato che questa tecnica migliora notevolmente l'aderenza alle politiche di sicurezza rispetto ai modelli precedenti, incluso GPT-4.

Sebbene OpenAI non abbia fornito dettagli su quando il modello sarà reso disponibile al pubblico, l'annuncio di o3 rappresenta una svolta significativa nell'evoluzione dell'IA generativa. L'integrazione di capacità avanzate di ragionamento e allineamento deliberativo potrebbe non solo migliorare la precisione e l'affidabilità delle risposte, ma anche affrontare meglio le preoccupazioni legate alla sicurezza.

Hai notato errori?