OpenAI spiega il blackout di ChatGPT: colpa di un nuovo servizio di telemetria

Un errore nella configurazione di un servizio per raccogliere metriche Kubernetes ha causato uno dei più lunghi disservizi nella storia di OpenAI.

Mercoledì, OpenAI ha affrontato uno dei più grandi blackout della sua storia, con interruzioni che hanno coinvolto ChatGPT, il generatore video Sora, e le API per sviluppatori. Il problema, iniziato intorno alle 15:00 (Pacific Time), ha richiesto circa tre ore per essere risolto. In un report pubblicato giovedì, OpenAI ha attribuito la causa a un nuovo servizio di telemetria introdotto per raccogliere metriche da Kubernetes, un sistema open source utilizzato per gestire i container delle applicazioni.

Secondo OpenAI, la configurazione del servizio ha innescato operazioni API molto intensive che hanno sopraffatto i server Kubernetes, compromettendo il loro piano di controllo. Questo ha avuto un effetto a catena, interrompendo servizi critici come la risoluzione DNS, un componente fondamentale per la traduzione degli indirizzi IP in nomi di dominio.

Problemi di visibilità e lentezza nella risoluzione

Il problema è stato aggravato dal DNS caching, un sistema che memorizza informazioni sulle corrispondenze tra indirizzi IP e nomi di dominio. Questo ha ritardato la visibilità del problema, consentendo al rollout del servizio di telemetria di continuare prima che fosse compresa appieno la portata dell'impatto. Sebbene OpenAI abbia rilevato il problema pochi minuti prima che i clienti ne risentissero, la risoluzione è stata lenta a causa dell'inaccessibilità dei server Kubernetes, bloccati dalla configurazione errata.

L'azienda ha descritto l'incidente come il risultato di un "confluenza di sistemi e processi che sono falliti simultaneamente e hanno interagito in modi inaspettati." I test pre-lancio non hanno previsto l'impatto che la modifica avrebbe avuto sul controllo di Kubernetes, rendendo la situazione ancora più complessa da gestire.

Per evitare che incidenti simili si ripetano, OpenAI ha annunciato l'implementazione di nuove misure. Queste includono miglioramenti nei rollout progressivi, monitoraggio avanzato per i cambiamenti infrastrutturali e nuovi strumenti per garantire l'accesso ai server Kubernetes in qualsiasi circostanza. L'azienda ha riconosciuto i propri errori e si è scusata con i clienti, sottolineando di non aver rispettato gli standard che si era prefissata.

L'interruzione ha avuto un impatto significativo su una vasta gamma di utenti, da privati a sviluppatori e aziende che si affidano ai servizi di OpenAI. Questo incidente solleva interrogativi sull'affidabilità di piattaforme cruciali come ChatGPT, specialmente considerando il loro ruolo centrale in applicazioni aziendali e personali. Tuttavia, le misure annunciate da OpenAI dimostrano un impegno nel rafforzare l'infrastruttura e migliorare la gestione dei cambiamenti critici.

Hai notato errori?