GPT-5.5 et cybersécurité : les résultats inquiétants de l'évaluation officielle

Introduction

L'AI Safety Institute britannique (AISI) a rendu publique son évaluation des capacités cyber de GPT-5.5, le dernier modèle d'OpenAI. Le protocole utilisé est identique à celui appliqué aux autres grands modèles : une batterie de 95 tâches techniques classées par niveau de difficulté, dans un format capture-the-flag (CTF).

Les résultats placent GPT-5.5 au sommet du classement, devant GPT-5.4 et Claude Opus 4.7, à quelques points de Mythos Preview d'Anthropic.

Les faits

Scores sur les tâches de niveau expert

Modèle	Score (expert)	Marge d'erreur
GPT-5.5	71,4%	±8,0%
Mythos Preview	68,6%	±8,7%
GPT-5.4	52,4%	±9,8%
Claude Opus 4.7	48,6%	±10,0%

Méthodologie de test

L'évaluation porte sur 95 tâches étroites réparties sur 4 niveaux de difficulté, dont 27 tâches de niveau praticien et 21 de niveau expert. Le budget de tokens est fixé à 50 millions pour les tâches étroites, et 100 millions pour les simulations réseau.

Une simulation réseau étendue, appelée The Last Ones (TLO), teste les capacités de bout en bout sur un scénario d'attaque en 32 étapes :

GPT-5.5 a terminé TLO dans 2 tentatives sur 10
Mythos Preview l'a terminé dans 3 tentatives sur 10

Capacités testées

Reverse engineering de binaires sans symboles
Exploitation de vulnérabilités (débordements de pile et de tas)
Cryptanalyse et récupération de clés
Reconnaissance et chaînes d'attaque multi-étapes
Escalade de privilèges et déplacement latéral
Exploitation web
Accès aux systèmes de contrôle industriel

Le cas rust_vm

Sur le défi rust_vm, GPT-5.5 a trouvé la solution en 10 minutes et 22 secondes.

Un expert humain aurait besoin d'environ 12 heures pour résoudre ce même défi.

Coût de l'appel API : 1,73 dollar.

Le défi impliquait : reconnaissance, récupération du jeu d'instructions (ISA), désassemblage, analyse du code, puis résolution de contraintes.

Limite observée

Aucun modèle testé n'a résolu le défi Cooling Tower, une simulation en 7 étapes ciblant un système de contrôle industriel.

Ce que ca change

71,4%

de réussite sur les tâches cyber expert pour GPT-5.5

10 min

pour résoudre un défi qui prend 12h à un expert humain

1,73 $

coût de l'appel API pour le défi rust_vm

Pour les équipes de sécurité offensive (pentesters, red teams), ces capacités représentent un gain de productivité considérable sur des tâches répétitives ou chronophages.

Pour les défenseurs, c'est l'inverse : la barrière d'entrée pour mener des attaques techniques complexes baisse. Des tâches qui nécessitaient des compétences avancées peuvent désormais être automatisées à faible coût.

Les chaînes d'attaque multi-étapes (reconnaissance, exploitation, escalade, déplacement latéral) étaient jusqu'ici difficilement automatisables. GPT-5.5 et Mythos les exécutent avec un taux de réussite significatif.

Analyse rapide

L'AISI est l'un des rares organismes officiels à publier des évaluations comparatives des capacités offensives des LLMs. Ces tests sont réalisés avant le déploiement public des modèles, dans le cadre d'engagements volontaires entre les labos d'IA et les gouvernements.

Le résultat central est la convergence entre GPT-5.5 et Mythos : l'écart de 2,8 points est statistiquement non significatif compte tenu des marges d'erreur. Les deux modèles sont à un niveau comparable sur ces tâches.

L'augmentation nette entre GPT-5.4 (52,4%) et GPT-5.5 (71,4%) est en revanche significative : presque 19 points de gain en une génération. C'est cette progression rapide qui inquiète les chercheurs en sécurité.

Anthropic avait lui-même appelé à la prudence sur les capacités de Mythos. La Maison Blanche aurait exprimé des préoccupations concernant le déploiement non encadré de ce type de modèle.

A retenir

GPT-5.5 obtient 71,4% sur les tâches cyber de niveau expert, selon l'évaluation officielle de l'AISI
L'écart avec Mythos Preview (68,6%) est dans la marge d'erreur : les deux modèles sont à niveau comparable
GPT-5.5 résout un défi de 12h en 10 minutes, pour 1,73 dollar de coût API
Les chaînes d'attaque multi-étapes (reconnaissance, exploitation, escalade, déplacement latéral) sont désormais exécutables par ces modèles
La progression entre GPT-5.4 et GPT-5.5 est de près de 19 points, ce qui indique une accélération rapide des capacités offensives des LLMs

← Retour aux news Publié le 30 avril 2026