La guerre des agents IA s intensifie : OpenAI prepare sa super app pendant qu Anthropic vacille

« Le chat est mort » : la super app d OpenAI arrive

Un cadre dirigeant d OpenAI a lache une phrase qui va peser lourd : « Chat is dead. » L entreprise prepare une refonte complete de ChatGPT qui le transformera en super app integrant coding tools et agents IA dans une interface unique. L information, rapportee par le Financial Times et confirmee par TechCrunch le 7 juin, marque un pivot strategique majeur. Source : TechCrunch.

Thibault Sottiaux, responsable de la plateforme produit chez OpenAI, decrit la vision : « Vous avez votre propre agent personnel capable de vous aider sur tout, que ce soit personnellement ou au travail. » Le plan existe depuis au moins un an, mais il s accelere brutalement.

Pourquoi maintenant ? Parce qu OpenAI abandonne ses « side quests ». En mars 2026, le Wall Street Journal revelait une reorganisation massive : fin des produits satellites comme le generateur video Sora, consolidation autour d une application unique, depart des executifs Kevin Weil et Bill Peebles en avril. L objectif est explicite : convertir les utilisateurs gratuits vers les produits payants (Codex en tete) et concurrencer Anthropic sur le marche entreprise avant l IPO.

En bref : OpenAI tue le chat pour creer un hub d agents IA integres. L objectif : capter les clients entreprise d Anthropic et preparer une introduction en Bourse a 850 milliards de dollars. Lancement prevu « dans les semaines a venir ».

Dimanche noir pour Anthropic : Notion coupe tout

Le meme week-end, le camp d en face a tremble. Dimanche 7 juin, Notion a desactive tous les modeles Anthropic de son outil Notion AI. Motif officiel : une « degradation de performance » des modeles Opus 4.7 et 4.8 provoquant un taux d echec anormalement eleve. Source : TechCrunch.

L annonce a ete reprise 1 200 fois sur X avant meme que la cause soit clarifiee. Les speculations sur une degradation de la qualite des modeles ont enfle, obligeant Max Schoening, responsable produit de Notion, a intervenir : « Je suis stupefait du nombre de personnes qui retweetent ca parce qu elles veulent que ce soit une histoire de qualite de modele. C etait une interruption de service temporaire. Ca arrive. »

Anthropic a confirme qu un « bref probleme d infrastructure a cause des erreurs elevees sur plusieurs modeles Claude pendant une courte periode ». L acces a ete retabli environ 12 heures plus tard. Mais les degats d image sont la : 12 heures sans Claude chez un client majeur comme Notion, c est un signal d alarme pour toutes les entreprises qui misent leurs workflows sur ces modeles.

Quand Claude 4.5 a casse la production

Ce n est pas la premiere fois qu un changement de modele provoque des degats. Un rapport detaille publie le 7 juin sur VentureBeat par deux ingenieurs d Adopt AI et Sherwin-Williams raconte comment Claude Sonnet 4.5 a detruit un systeme de production qui fonctionnait parfaitement depuis trois generations de modeles. Source : VentureBeat.

Le systeme en question convertit des requetes en langage naturel en appels API structure. Il etait passe de Claude Sonnet 3.5 a 3.7 puis 4.0 sans incident. L equipe etait devenue complaisante. Claude 4.5 a introduit deux changements de comportement :

Fuite de donnees dans le champ description : le modele a commence a integrer le contenu JSON de la reponse directement dans le champ « description » (commandes curl, URLs), laissant le champ « post_body » vide. Resultat : les appels API ont perdu leurs filtres de date et region.
Questions de clarification : Claude 4.5, plus « prudent », repondait parfois par une question au lieu d un appel API. Le systeme n avait aucun chemin pour gerer une boucle humain-dans-la-boucle. Crash en cascade.

La lecon est brutale : un prompt n est pas une spec. « Les schemas contraignent la syntaxe, pas la semantique. Un schema ne peut pas specifier qu une question de clarification ne doit pas apparaitre dans un systeme sans chemin de clarification, ou qu une plage de dates ne doit jamais silencieusement passer a tout l historique. »

Le correctif propose est radical : traiter la suite d evaluation comme la specification formelle du systeme, pas le prompt. Chaque changement de modele doit passer une batterie de tests de regression avant deploiement. Une lecon que Notion et ses 1 200 retweeteurs auraient bien fait de mediter.

Lockdown Mode : OpenAI admet ne pas avoir resolu le prompt injection

Pendant ce temps, OpenAI a devoile un nouvel outil de securite qui est un aveu implicite : le Lockdown Mode. Cette fonctionnalite desactive la navigation web, le mode agent et la recherche approfondie pour empecher l exfiltration de donnees via des attaques de prompt injection. Source : The Next Web.

Le Lockdown Mode n empeche pas les injections. Il empeche juste les attaquants de recuperer les donnees volees en supprimant tous les canaux de sortie : navigation live (contenu en cache uniquement), mode agent (supprime), recherche approfondie (desactivee), recuperation d images, telechargement de fichiers. OpenAI le dit clairement : ce n est « pas destine a tout le monde » et c est mutuellement exclusif avec le Mode Developpeur.

La transparence est notable. OpenAI qualifie le prompt injection de probleme « frontalier » touchant tous les grands modeles de langage. Des chercheurs ont recemment demontre des detournements par injection contre des agents IA d Anthropic, Google et Microsoft via des integrations GitHub Actions. Les trois entreprises ont paye des primes de bug sans emettre d avis public.

Le Lockdown Mode est une solution pragmatique mais couteuse : sacrifier la plupart des fonctionnalites avancees pour reduire la surface d attaque. Ce n est pas un correctif, c est un aveu que le probleme persiste.

Analyse : la guerre ne se gagnera pas sur les benchmarks

Ces quatre evenements dessinent une ligne de fracture. D un cote, OpenAI execute un plan agressif de consolidation produit autour d une super app agentique. De l autre, Anthropic subit les consequences de sa complexite - les interruptions de service et les comportements imprevisibles de ses modeles en production.

Le champ de bataille a change. Il y a 12 mois, la competition se jouait sur les benchmarks (MMLU, HumanEval, GSM8K). Aujourd hui, elle se joue sur :

La fiabilite en production : une panne de 12 heures chez Notion fait plus de degats qu un benchmark rate.
L interface utilisateur : le « chat » comme paradigme unique est en train de mourir. La super app d OpenAI le remplace par un hub d agents.
La securite : le prompt injection reste non resolu et chaque nouvelle capacite agentique agrandit la surface d attaque.

Un detail passe inapercu : le Lockdown Mode et le Mode Developpeur sont mutuellement exclusifs. Les utilisateurs qui manipulent des donnees sensibles ne peuvent pas utiliser les fonctionnalites de developpement avancees. C est un compromis qui penalise l adoption en entreprise. Anthropic, avec son positionnement historique sur la securite, pourrait capitaliser sur cette friction - a condition que ses modeles tiennent en production.

A retenir

OpenAI lance une super app qui tue le chat. Objectif : integrer coding tools et agents IA dans une interface unique pour convertir les utilisateurs gratuits et concurrencer Anthropic avant l IPO.
Notion a coupe tous les modeles Anthropic pendant 12 heures dimanche a cause d une panne d infrastructure sur Opus 4.7 et 4.8.
Claude 4.5 a casse des systemes en production en changeant silencieusement son comportement de sortie. La lecon : les evals doivent devenir la specification formelle, pas le prompt.
Le Lockdown Mode de ChatGPT sacrifie la navigation, les agents et la recherche approfondie pour bloquer l exfiltration de donnees. Un aveu que le prompt injection n est pas resolu.
La guerre des agents IA ne se joue plus sur les benchmarks mais sur la fiabilite en production, l interface utilisateur et la securite.

← Retour aux news Publie le 8 juin 2026 · Sources : TechCrunch, VentureBeat, The Next Web