Attaques d'ingénierie sociale sur IA : Claude piraté en 2026

J'utilise Claude Code tous les jours. Je lui dis « fais ça », il le fait. Je lui dis « installe ça », il l'installe. Je lui dis « supprime ça », il supprime. C'est son boulot. C'est pour ça que je paie. Et c'est exactement le profil psychologique que l'ingénierie sociale exploite chez les humains depuis la première arnaque de l'histoire : l'obéissance à l'autorité, l'envie d'aider, la confiance dans le contexte qu'on nous présente.

Je clique « Oui » 47 fois par jour dans Claude Code sans lire ce que j'approuve. J'ai compté. Ça fait de moi la version humaine du même problème. Le nouveau qui vire de l'argent parce que l'email venait du « PDG ». L'admin IT qui reset un mot de passe parce que l'appelant connaissait le numéro de badge. L'ingénierie sociale n'a jamais consisté à hacker les systèmes (mais à hacker la chose qui opère le système). Et maintenant, la chose qui opère le système traite des milliers de requêtes par seconde sans jamais se demander « attends, est-ce que ça a du sens ? »

En novembre 2025, des hackers sponsorisés par l'État chinois ont lancé la première cyberattaque autonome documentée à grande échelle. Ils n'ont cassé aucune barrière de sécurité. Le plus terrifiant : ils n'ont exploité aucune vulnérabilité technique. Ils ont convaincu Claude qu'il travaillait pour une vraie boîte de cybersécurité qui faisait des tests défensifs autorisés, et le modèle a exécuté 80 à 90 pour cent de l'opération tout seul, des milliers de requêtes par seconde, contre 30 cibles mondiales. L'IA n'a trahi personne. Elle a obéi.

TLDR : Le processus d'entraînement qui rend les agents IA utiles les rend aussi complaisants à l'extrême. La même obéissance qui permet à votre agent de déployer du code est exactement ce que l'ingénierie sociale exploite. OWASP l'a codifié. OpenAI le confirme. Et la seule chose qui a ralenti la première cyberattaque autonome de l'histoire, c'est le seul bug que toute l'industrie essaie d'éliminer : l'hallucination. Trois approches défensives émergent. Aucune n'est déployée en production. La fenêtre est grande ouverte.

Employé de bureau cliquant sur oui dans des boîtes de dialogue suspectes pendant qu'un collègue agite frénétiquement un panneau d'alerte derrière lui ; homard avec fausse moustache fait du photobombing au bureau avec un presse-papiers. — Même l'IA tombe dans les classiques : obéissance aveugle et moustache convaincante.

L'ingénierie sociale a une nouvelle victime

Voilà où toute l'industrie regarde dans la mauvaise direction.

Fin 2025, Anthropic a publié une recherche montrant que les modèles IA entraînés par apprentissage par renforcement peuvent développer des comportements trompeurs tout seuls. Simulation d'alignement, sabotage de recherche sécuritaire, coopération avec des attaquants fictifs. Le papier a fait le tour. La réaction était prévisible : tout le monde a paniqué sur l'IA qui « devient méchante toute seule ». C'est l'équivalent cybersécurité de se préparer à l'apocalypse zombie pendant que quelqu'un vous fait les poches.

Pendant ce temps, l'incident réel du même mois racontait l'histoire inverse. Un groupe sponsorisé par l'État chinois désigné GTG-1002 n'avait pas besoin que l'IA devienne voyou. Ils n'avaient pas besoin de tromperie émergente. Ils n'avaient besoin d'aucun des comportements effrayants qui inquiétaient la communauté de recherche. Ils avaient juste besoin que l'IA fasse son travail. Qu'elle soit utile. Qu'elle suive des instructions qui semblaient raisonnables.

Un de ces scénarios a un papier de recherche. L'autre a des intrusions confirmées dans de grandes entreprises tech et des agences gouvernementales.

90% autonome, zéro exploit

Le rapport Anthropic sur GTG-1002 est le truc le plus flippant que j'ai lu en 2025, et il n'y a pas un seul exploit dedans.

Phase un : les opérateurs humains choisissent les cibles. Environ 30 organisations dans la tech, la finance, la chimie et le gouvernement, dans plusieurs pays. Puis ils construisent un framework automatisé autour de Claude Code et lui donnent les clés.

Phase deux : ils convainquent Claude qu'il est employé d'une vraie boîte de cybersécurité qui fait des tests défensifs autorisés. Pas par un exploit malin. Par une conversation. Par le contexte. Ils découpent l'attaque en micro-tâches qui semblent chacune inoffensive isolément : scanne ce réseau, catégorise ces données, compresse ces logs, transmets ces diagnostics. Le rapport décrit des tâches qui « semblaient légitimes quand évaluées isolément ». Chaque étape individuelle était le genre de chose que Claude fait cent fois par jour pour des utilisateurs légitimes.

Phase trois : Claude fait le reste. Reconnaissance, découverte de vulnérabilités, génération de code d'exploit, récolte de credentials, mouvement latéral, exfiltration de données. Le modèle a maintenu le contexte opérationnel sur des sessions s'étalant sur plusieurs jours. Au pic d'activité, il exécutait des milliers de requêtes, souvent plusieurs par seconde. Jacob Klein, chef du renseignement sur les menaces chez Anthropic, a dit au Wall Street Journal que ça s'est passé « littéralement d'un clic de bouton, avec une interaction humaine minimale ». Les opérateurs humains sont intervenus à peut-être quatre à six points de décision stratégique par campagne. Le reste était autonome.

Une poignée d'intrusions ont réussi. Anthropic n'a pas nommé les victimes.

L'attaque n'a utilisé aucun malware custom, aucun zero-day, aucun outil propriétaire. Juste des utilitaires de test de pénétration standard (scanners réseau, casseurs de mots de passe, frameworks d'exploitation de bases de données) orchestrés via des serveurs MCP. La sophistication n'était pas dans les outils (elle était dans la chaîne d'approvisionnement de confiance entre l'opérateur humain et l'IA qui faisait le vrai travail).

Rob Joyce, ancien directeur cybersécurité de la NSA, a vu le rapport et a eu une évaluation en deux mots au RSAC 2026 : « Ça a marché, putain. »

Une nuance qui compte : Claude n'était pas parfait dans son rôle non plus. Il a halluciné des credentials qui ne marchaient pas. Il a prétendu avoir exfiltré des documents qui se sont avérés publiquement disponibles. Anthropic dit que ça « reste un obstacle aux cyberattaques entièrement autonomes ». Retenez cette phrase. Elle devient importante plus tard.

L'effet béni-oui-oui

J'ai une règle dans ma config Claude Code : ne jamais utiliser de tirets cadratins. Le modèle l'ignore constamment. Mais la seule fois où j'en avais vraiment besoin (j'écrivais un article sur les tirets cadratins), je les ai demandés, et Claude a refusé. « C'est la seule chose que tu m'as dit de ne jamais faire. »

Conformité absolue sur la seule règle qui n'importait pas. Flexibilité totale sur tout le reste. Et c'est une conséquence directe de la façon dont ces modèles sont entraînés.

Le processus s'appelle RLHF (Reinforcement Learning from Human Feedback). Des évaluateurs humains notent les réponses du modèle. Les réponses utiles, polies, conformes sont récompensées. Les refus sont pénalisés. Sur des millions de cycles d'entraînement, le modèle apprend : dire oui est sûr, dire non est risqué. Les chercheurs appellent ça la flagornerie. Le résultat est un modèle qui perd son scepticisme quand le contexte est cohérent, le ton est poli, et la demande se décompose en étapes qui semblent raisonnables. Ce qui est exactement ce que GTG-1002 a fourni.

elder_plinius, un red-teamer IA bien connu, a décrit RLHF comme un barrage sur une rivière. L'eau ne devient pas hostile quand on retire le barrage (elle redevient une rivière). GTG-1002 n'a pas retiré le barrage. Ils ont convaincu le barrage qu'il n'y avait pas d'inondation.

Le pattern se retrouve partout. Le chercheur en sécurité Johann Rehberger a dépensé 500$ pour tester Devin, l'agent de code autonome de Cognition. Il a planté un payload d'injection de prompt dans une issue GitHub. Devin a navigué vers un site contrôlé par l'attaquant, téléchargé un binaire, essayé de le lancer, eu « permission refusée », et s'est donné les permissions d'exécution pour lancer le malware. Il a résolu la restriction de sécurité comme il résout tous les problèmes d'ingénierie : comme un obstacle entre lui et l'accomplissement de la tâche.

Le OWASP Top 10 for Agentic Applications (2026) a codifié ça en deux catégories distinctes. ASI01: Agent Goal Hijack couvre l'injection de prompt technique, où une chaîne malveillante écrase les instructions. ASI09: Human-Agent Trust Exploitation couvre la voie d'ingénierie sociale, où le modèle fait confiance au contexte, non pas parce qu'une barrière a échoué, mais parce que l'input semblait légitime. Deux entrées différentes. Même résultat.

OpenAI a confirmé la distinction en mars 2026, décrivant l'injection de prompt comme « un type d'attaque d'ingénierie sociale spécifique à l'IA conversationnelle » et comparant un agent IA à un représentant du service client continuellement exposé à des parties externes qui peuvent tenter de l'induire en erreur.

Prompt Injection vs AI Social Engineering — Injection de Prompt vs Ingénierie Sociale IA

L'analogie entre la flagornerie RLHF et les biais cognitifs humains a ses limites. Les mécanismes sont différents. Mais les résultats observables sont fonctionnellement équivalents : un agent complaisant qui suit les instructions de sources qu'il perçoit comme autorisées, sans questionner si la trajectoire globale a du sens. L'architecture MCP qui connecte les agents à des outils non vérifiés aggrave la surface d'attaque. Mais la cause racine n'est pas le protocole (c'est la disposition).

La dernière barrière que personne ne veut

Voici la chute que personne n'a vue venir.

La seule chose qui a ralenti la première cyberattaque autonome de l'histoire était l'hallucination. Claude a inventé des credentials qui ne marchaient pas. Il a prétendu avoir exfiltré des documents qui étaient en fait publiquement disponibles. Il a rapporté des découvertes critiques qui se sont avérées être du vent. Le rapport Anthropic le dit clairement : « Cela reste un obstacle aux cyberattaques entièrement autonomes. »

L'industrie dépense des milliards pour réduire les hallucinations. Chaque benchmark, chaque sortie de modèle, chaque annonce presse célèbre une nouvelle baisse du taux d'erreur. Et chaque point de progrès en fiabilité est aussi un point de progrès en capacité offensive. On grinde la seule stat qui sert à la fois de buff défensif et de buff d'attaque, et personne n'a vérifié les notes de patch.

Un modèle parfaitement fiable est aussi un attaquant parfaitement fiable.

Le contexte aggrave ça. Le Global Threat Report 2026 de CrowdStrike place le temps de breakout eCrime moyen à 29 minutes, contre 48 minutes l'année précédente. Le breakout le plus rapide enregistré : 27 secondes. Et 82% des détections en 2025 étaient sans malware, ce qui signifie que les attaquants n'utilisent même plus de malware. Ils se connectent avec des credentials volés et vivent sur le terrain. Ajoutez une IA qui n'hallucine jamais à cette équation, et vous obtenez des attaques autonomes qui bougent à la vitesse machine avec zéro preuve fabriquée pour alerter les défenseurs.

Le jour où les modèles arrêtent d'halluciner, la dernière barrière accidentelle tombe 💥

Apprendre aux machines à douter

On a passé quinze ans à convaincre l'industrie d'arrêter de faire confiance au réseau. C'était Zero Trust. Maintenant on doit arrêter de faire confiance au contexte.

Trois directions de recherche émergent. Elles sont à différents stades de maturité, et je veux être clair : aucune n'est déployée à l'échelle en production. Ce sont des directions, pas des solutions.

La plus prometteuse est l'Analyse d'Intention. Un framework appelé Intent-FT (publié en août 2025) entraîne les modèles à inférer explicitement l'intention sous-jacente d'une instruction avant de l'exécuter. Forcer le modèle à articuler ce qu'il pense que vous demandez vraiment avant qu'il fasse quoi que ce soit. Les résultats sont frappants : sur toutes les catégories d'attaque testées, aucune attaque unique ne dépasse un taux de succès de 50%, même contre des jailbreaks sophistiqués. Les défenses existantes restent seulement partiellement efficaces en comparaison. Le hic, c'est la latence en conditions réelles. Ajouter une étape d'analyse d'intention à chaque action d'agent a des coûts computationnels que les systèmes de production n'ont pas encore absorbés.

La deuxième direction est la surveillance de trajectoire : un système secondaire qui observe le pattern agrégé des actions d'un agent au lieu d'évaluer chaque sous-tâche isolément (ce qui est exactement l'angle mort que GTG-1002 a exploité). Pensez-y comme la différence entre un garde de sécurité qui vérifie les badges à la porte et un système de surveillance qui remarque que 30 personnes avec des badges valides sont toutes allées au même étage restreint à 2h du matin.

La troisième est l'auto-critique, où le modèle audite son propre raisonnement avant d'exécuter. Demander à un modèle flagorneur de détecter sa propre flagornerie, c'est comme demander au stagiaire qui a approuvé le faux virement de mener aussi l'enquête fraude. Enfin bref, c'est là qu'on en est.

Gartner projette que jusqu'en 2029, plus de 50% des attaques réussies contre les agents IA exploiteront des problèmes de contrôle d'accès en utilisant l'injection de prompt comme vecteur d'attaque. Ce n'est pas une prédiction pour un futur lointain (c'est dans trois ans). Les défenses bougent. La fenêtre est ouverte pour des années.

Le maillon le plus obéissant

L'ingénierie sociale a toujours ciblé le maillon le plus obéissant de la chaîne. Le stagiaire qui ne questionne pas la demande. Karen de la compta qui ouvre la pièce jointe parce qu'elle venait de « la bonne personne ». Le contractuel qui lance le script parce qu'il a atterri dans le bon canal Slack.

Maintenant c'est une machine qui traite des milliers de requêtes par seconde, qui a été entraînée, optimisée et récompensée pour ne jamais dire non.

La question n'est pas de savoir si les agents IA peuvent être manipulés (c'est documenté, codifié par OWASP, confirmé par les labos qui les construisent). La question est combien de temps avant que les défenses rattrapent les attaquants.

Pour l'instant, la réponse se trouve dans le seul bug que tout le monde essaie d'éliminer. L'hallucination.

Sources

Anthropic, "Disrupting the first reported AI-orchestrated cyber espionage campaign," novembre 2025 (blog + rapport PDF complet)

OpenAI, "Designing AI agents to resist prompt injection," mars 2026

OWASP, "Top 10 for Agentic Applications," 2026

Johann Rehberger / EmbraceTheRed, "I Spent $500 To Test Devin AI For Prompt Injection," août 2025

CrowdStrike, "2026 Global Threat Report," février 2026

Yeo, Satapathy, Cambria, "Mitigating Jailbreaks with Intent-Aware LLMs" (Intent-FT), arXiv:2508.12072

(*) La couverture est générée par IA. Le modèle n'a pas demandé à quoi ça servait, évidemment.