Chat GPT-4.5 è disponibile per tutti gli utenti Plus e Team di OpenAI, ma i risultati dei test sono "strani"

OpenAI ha ampliato l'accesso al suo modello linguistico di grandi dimensioni (LLM) GPT-4.5 a tutti gli utenti iscritti ai piani Plus e Team, con tempistiche inferiori al previsto.

A pochi giorni dalla sua presentazione, OpenAI ha reso GPT-4.5 disponibile a un pubblico più ampio, superando le iniziali limitazioni dovute alla carenza di GPU. Inizialmente riservato agli utenti Pro, ora anche gli abbonati ai piani Plus e Team possono sperimentare le potenzialità di questo modello "general purpose", che promette un'elevata accuratezza nelle risposte, una riduzione delle "allucinazioni" e un'interazione più naturale ed empatica.

La decisione di estendere l'accesso a GPT-4.5 riflette la crescente fiducia di OpenAI nelle capacità del suo modello e nella sua capacità di gestire un volume di richieste più elevato. Tuttavia, l'espansione dell'accesso solleva anche interrogativi sulle prestazioni del modello in contesti reali e sulla sua capacità di mantenere elevati standard di qualità e affidabilità.

I risultati nei benchmark

Epoch AI, un laboratorio indipendente specializzato nella valutazione dei LLM, ha messo alla prova GPT-4.5, confrontandolo con altri modelli di punta. I risultati dei benchmark GPQA Diamond, MATH Level 5 e Mock AIME 2024-2025 mostrano che GPT-4.5 continua a migliorare rispetto ai modelli "non ragionanti", superando in accuratezza GPT-4o e ottenendo punteggi simili a Claude 3.7 Sonnet senza pensiero esteso.

Tuttavia, emergono anche alcune limitazioni. Nei benchmark che richiedono capacità di ragionamento complesse, GPT-4.5 mostra prestazioni inferiori rispetto a modelli come o3-mini, DeepSeek-R1 e Claude 3.7 con pensiero esteso. In particolare, nel benchmark OTIS Mock AIME, l'accuratezza di o3-mini supera di 39 punti percentuali quella di GPT-4.5, evidenziando le difficoltà di GPT-4.5 nell'affrontare problemi matematici avanzati.

Un'altra questione cruciale riguarda la "contaminazione" dei benchmark. Come sottolineato da un'analisi di The Atlantic, i modelli di IA potrebbero essere addestrati su dati che includono le stesse domande utilizzate nei test di valutazione, compromettendo l'attendibilità dei risultati. Questo solleva dubbi sulla capacità dei modelli di generalizzare le proprie conoscenze e di affrontare problemi nuovi e imprevisti.

Intanto Apple introduce i riassunti generati dall'AI delle recensioni su App Store.