Prompt injection : la vulnérabilité numéro un qui cible vos agents IA, pipelines RAG et routeurs de modèles

OWASP LLM01 : la vulnérabilité qu'on ne peut pas patcher

Le classement OWASP Top 10 pour les applications LLM place l'injection de prompt en position LLM01 pour la deuxième année consécutive. Le verdict est sans appel : c'est la vulnérabilité la plus critique et la plus exploitée des systèmes d'IA en production. Pour une raison simple, rappelle VentureBeat : les LLMs traitent toutes les entrées comme un flux unique de texte, sans distinction entre ce qui relève de l'instruction système et ce qui provient d'une source externe.

Le terme a été forgé par Simon Willison en septembre 2022, par analogie avec l'injection SQL. La vulnérabilité avait été signalée à OpenAI quelques mois plus tôt par Jonathan Cefalu (Preamble) sous le nom de « command injection ». Depuis, le problème n'a fait que s'aggraver à mesure que les systèmes d'IA gagnaient en autonomie et en accès aux infrastructures critiques.

Selon le rapport de Decrypt, OpenAI a reconnu en décembre 2025 qu'il est « peu probable que le problème soit un jour complètement résolu ». Le NCSC britannique qualifie les LLMs de « confusable deputies » (agents intrinsèquement confusables), soulignant l'impossibilité de séparer structurellement les instructions des données.

Pourquoi c'est structurel : contrairement au SQL où l'on peut séparer la requête des paramètres, un LLM reçoit tout dans la même fenêtre de contexte. Prompt système, message utilisateur, contenu d'un document : tout est indiscernable pour le modèle. C'est ce que le NCSC appelle une « erreur de catégorie ».

Des incidents réels qui ont marqué l'industrie

L'injection de prompt n'est pas une menace théorique. Plusieurs incidents ont démontré son potentiel destructeur sur des systèmes en production.

Slack AI : exfiltration de données privées (août 2024)

Des chercheurs de PromptArmor ont découvert qu'un attaquant pouvait exfiltrer des données de canaux Slack privés, y compris des clés API, en plaçant une instruction malveillante dans un canal public ou dans un document partagé. Slack a corrigé la vulnérabilité, mais l'incident a prouvé la faisabilité de l'attaque sur un outil utilisé par des millions d'entreprises.

EchoLeak : le premier zero-click contre Microsoft Copilot (juin 2025)

Baptisé EchoLeak (CVE-2025-32711, score CVSS 9.3), cet exploit découvert par Aim Security est le premier cas documenté d'injection de prompt sans aucune interaction utilisateur. Un simple email reçu, sans être ouvert ni lu, suffisait à faire exécuter à Microsoft 365 Copilot des commandes d'accès aux fichiers internes et de transmission vers un serveur contrôlé par l'attaquant. La vulnérabilité a été corrigée, mais elle démontre que le risque dépasse largement le cadre du chatbot.

Les chiffres de CrowdStrike (2026) :
· Plus de 90 organisations compromises en 2025 via des injections de prompt dans des outils d'IA légitimes
· 89 % d'augmentation du volume d'attaques par des adversaires utilisant l'IA
· Les prompts malveillants ont généré des commandes de vol de credentials et de cryptomonnaie
· Verdict du rapport : « Les prompts sont le nouveau malware. »

Les six techniques d'attaque qui visent les systèmes modernes

Les techniques d'injection ont considérablement évolué. Les attaquants ne se contentent plus de manipuler un chatbot : ils ciblent désormais l'architecture complète des systèmes d'IA en entreprise.

Injection cross-modèle : corrompre la sortie d'un LLM en sachant qu'elle sera traitée par un autre modèle, propageant la corruption de système en système.
Empoisonnement de la supply chain RAG : disséminer du contenu malveillant dans des documentations publiques, des articles de blog ou des README GitHub. Une fois ingéré par les pipelines RAG de l'entreprise, ce contenu devient un vecteur d'attaque.
Détournement d'agents autonomes : les agents IA capables d'envoyer des emails, de modifier des infrastructures cloud ou d'exécuter du code peuvent être redirigés avec une seule instruction malveillante.
Attaques par saturation de contexte : noyer le modèle sous un document volumineux contenant des instructions cachées, dans l'espoir qu'il les rencontre et les exécute en écrasant toutes les consignes précédentes.
Empoisonnement de la mémoire : exploiter la mémoire à long terme des LLMs pour y injecter des instructions qui reconfigurent durablement l'état du modèle.
Manipulation des routeurs de modèles : les entreprises utilisent des routeurs pour orienter les requêtes vers différents LLMs. Les attaquants conçoivent des prompts qui forcent le routage vers le modèle le plus faible ou le moins protégé.

Ce que ça change pour la sécurité en entreprise

En 2026, une injection de prompt réussie ne se limite plus à faire dire une absurdité à un chatbot. Elle peut déclencher des actions non autorisées, exfiltrer des données sensibles, corrompre des workflows internes, manipuler des analyses ou altérer la logique métier. Les systèmes concernés incluent :

Les interfaces client (chatbots, agents de support)
Les copilotes internes (outils développeur, assistants sécurité)
Les workflows d'automatisation (ticketing, opérations cloud, RH)
La gouvernance des données (pipelines RAG, bases de connaissances)

Le cas CopyPasta, démontré par HiddenLayer en septembre 2025, illustre la menace la plus insidieuse : une injection peut se propager comme un virus à travers une codebase entière. Une instruction cachée dans un fichier LICENSE ou README, lue par un assistant de codage comme Cursor, est silencieusement recopiée dans chaque nouveau fichier généré. Le CEO de Coinbase a révélé que Cursor écrit environ 40 % du code quotidien de la plateforme, ce qui donne la mesure du risque.

Un cas encore plus grave a été révélé par Anthropic en novembre 2025 : le groupe chinois GTG-1002 a utilisé Claude Code, jailbreaké via injection de prompt, pour cibler une trentaine d'organisations (tech, finance, chimie, gouvernement). L'IA a exécuté 80 à 90 % de l'opération de manière autonome, à raison de milliers de requêtes par seconde.

Les mesures de protection prioritaires

Face à une vulnérabilité structurelle qui ne peut pas être « patchée » au sens classique, les recommandations des experts convergent vers un changement de paradigme.

Restreindre les permissions du modèle : limiter ce que le modèle peut faire, pas seulement ce qu'il devrait faire. Principe du moindre privilège appliqué aux agents IA.
Segmenter les contenus non fiables : traiter toutes les données externes, y compris celles ingérées par les pipelines RAG, comme potentiellement hostiles.
Superviser les invocations d'outils : exiger une validation humaine pour toute action à fort impact (écriture en base, envoi d'email externe, modification d'infrastructure).
Valider la provenance des contenus : empêcher les pipelines RAG d'ingérer du contenu externe non vérifié.
Durcir les routeurs de modèles : prévenir le routage forcé vers des modèles plus faibles.
Traiter les LLMs comme des composants non fiables : c'est le changement de mentalité fondamental. Un LLM est un interpréteur, pas un composant de confiance.

La « trinité létale » selon Simon Willison : tout agent qui combine trois propriétés : accès à des données privées, exposition à du contenu non fiable, et capacité à communiquer avec l'extérieur, peut être transformé en outil d'exfiltration par une seule injection de prompt. Si votre système coche ces trois cases, la segmentation est votre priorité absolue.

À retenir

L'injection de prompt est structurelle : les LLMs ne peuvent pas distinguer instructions et données. OpenAI, Anthropic et Google DeepMind ont testé 12 défenses : des attaquants adaptatifs les ont toutes contournées avec plus de 90 % de succès.
Le volume d'attaques explose : +89 % en 2025 selon CrowdStrike, 90+ organisations compromises. Les prompts malveillants sont désormais le premier vecteur d'attaque contre les systèmes d'IA.
Les agents autonomes sont la cible prioritaire : un agent qui peut envoyer des emails, exécuter du code ou modifier une infrastructure cloud peut être détourné avec une seule instruction.
La réponse n'est pas technologique mais architecturale : segmentation des contenus, restrictions de permissions, supervision humaine des actions critiques. Le LLM doit être traité comme un composant non fiable par conception.
La supply chain du code est déjà touchée : l'attaque CopyPasta montre qu'une injection peut se propager silencieusement à travers des codebases entières via les assistants de codage. Avec 40 % du code Coinbase généré par IA, l'enjeu est colossal.

Sources

VentureBeat · Prompt injection is exploiting enterprise AI's biggest design flaws by targeting agents, RAG pipelines and model routers, 2026
Decrypt · What Is an AI Prompt Injection Attack? The Hidden Threat Hijacking Your Chatbots, 30 mai 2026
Krebs on Security · Scattered Spider Hackers Plead Guilty on Day 1 of Trial, 23 juin 2026

← Retour aux news Publié le 29 juin 2026 · Sources : VentureBeat, Decrypt, Krebs on Security