Nouvelle panne massive de ChatGPT et Grok, symptômes et origine suspectée
Le 23 octobre 2025 en fin d’après-midi, de nombreux utilisateurs européens et américains ont vu leurs assistants IA favoris, ChatGPT et Grok, devenir inaccessibles. L’erreur « too many concurrent requests » a submergé les sessions ChatGPT en Italie et en Europe, tandis que Grok affichait de fréquentes interruptions de service sur le sol américain. Rapidement, la page d’état d’OpenAI a confirmé des perturbations majeures sur ses API, laissant présager un incident d’une ampleur inédite depuis le début de l’année.
L’effondrement de ChatGPT : entre surcharge et erreurs 429
En Italie, l’usage intensif des services de ChatGPT, notamment durant les heures de bureau, a entraîné un afflux de requêtes simultanées. Les utilisateurs ont constaté :
- des temps de réponse infiniment longs, sans chargement effectif ;
- des retours d’erreur HTTP 429 (« Too Many Requests ») signalant un dépassement brutal du nombre de connexions autorisées ;
- une incapacité à joindre même l’interface web, les pages restant désespérément vides.
Ces symptômes suggèrent une saturation des nœuds gérant l’équilibrage de charge ou une limitation trop stricte des quotas API. OpenAI a immédiatement reconnu que la montée en charge dépassait les prévisions, déclenchant une réponse d’urgence pour rétablir le service.
Grok coupé des serveurs US : des signalements en cascade
Du côté d’Anthropic, l’impact s’est fait d’abord ressentir outre-Atlantique. Sur les forums spécialisés et sur le site Downdetector, les signalements en provenance de la côte Est des États-Unis ont explosé :
- des erreurs 500 (« Internal Server Error ») et 503 (« Service Unavailable ») ;
- des délais de connexion dépassant parfois la minute avant un timeout ;
- une indisponibilité intermittente du chatbot, rendant la conversation impossible.
Les premiers témoignages mentionnaient également des difficultés à s’authentifier, signe que le dérèglement n’était pas limité à l’interface, mais touchait l’ensemble de la chaîne d’authentification et de routage des requêtes.
Le coupable probable : AWS us-east-1 en dysfonctionnement
À force de recouper les incidents, plusieurs administrateurs ont constaté une convergence : tous ces services reposent, au moins en partie, sur l’infrastructure AWS située dans la région us-east-1. Deux éléments techniques semblent incriminés :
- Route 53 (R53) : des brouillages DNS ont empêché la résolution correcte des noms d’hôtes, rendant certaines adresses d’API inaccessibles ;
- Security Token Service (STS) : des échecs d’émission de tokens d’accès ont entraîné des refus d’authentification et des coupures brutales.
Ce même cluster de serveurs a déjà été impliqué dans d’autres pannes d’envergure, rappelant l’importance de la redondance géographique. Avec la crise actuelle, AWS fait face à de nouvelles critiques sur la centralisation de ses services stratégiques.
Downdetector et l’analytique des pannes
Les plateformes de suivi de panne, comme Downdetector ou StatusGator, ont enregistré un pic d’incidents à partir de 16h30 UTC. Les graphiques montrent :
- une montée brutale des rapports d’erreurs pour ChatGPT dès 16h45 ;
- un effet de contagion sur Grok, YouTube et d’autres services AI, suggérant un lien commun ;
- une descente progressive des signalements à partir de 18h00, confirmant une résolution partielle des dysfonctionnements.
Cette fenêtre permet d’estimer la durée moyenne d’indisponibilité et de mesurer l’efficacité des équipes techniques mobilisées.
Les actions de rétablissement et la communication d’OpenAI
Dès les premiers retours d’erreur, OpenAI a adopté un protocole d’urgence :
- répartition provisoire des instances sur une autre région AWS moins sollicitée ;
- renforcement des limites de quotas API pour absorber le trafic sans planter tout l’écosystème ;
- mise à jour de la page de statut en temps réel, avec publication des correctifs en cours.
À 18h00 UTC, la page status.openai.com indiquait une baisse significative du nombre d’erreurs, et un redémarrage progressif des instances ChatGPT. Les ingénieurs poursuivent l’investigation pour publier un post-mortem approfondi dans les jours à venir.
Impact et conseils pour les utilisateurs et développeurs
Une telle panne rappelle la fragilité des architectures monorégion. Pour s’en prémunir, voici quelques préconisations :
- Multi-région : déployer des redondances sur plusieurs régions AWS ou fournisseurs cloud (GCP, Azure) ;
- Failover DNS : configurer des bascules automatiques entre serveurs Route 53 et alternatives DNS pour éviter le point de défaillance unique ;
- Backups d’authentification : prévoir un mode de secours pour STS ou un service d’auth propre pour limiter les coupures ;
- Monitoring intensif : surveiller les métriques DNS, token requests et taux d’erreur HTTP en temps réel pour anticiper la saturation.
Une leçon de résilience pour l’ère de l’IA
La panne conjointe de ChatGPT et Grok met en lumière la nécessité de repenser la tolérance aux pannes pour les services à haute disponibilité. À l’heure où l’IA devient critique dans de nombreux secteurs—éducation, santé, économie—la résilience des infrastructures doit être au cœur des stratégies d’architecture cloud.

