Bug Claude Code : Audit AMD de 6 852 sessions vs Anthropic

Pendant six semaines, vous pensiez mal formuler vos prompts.

Vous sentiez Claude Code déconner. Des refactorisations qui partaient en vrille, des fichiers modifiés sans avoir été lus, des raisonnements coupés en plein milieu. Vous relisiez votre CLAUDE.md, peaufiniez vos instructions, accusiez votre harness. Le dashboard d'Anthropic affichait que tout allait bien.

Votre intuition contre leur télémétrie.

Devinez qui a perdu.

TLDR : Le 23 avril 2026, le jour où GPT-5.5 sortait, Anthropic a publié un post-mortem validant six semaines de plaintes utilisateurs. Vingt-et-un jours plus tôt, une directrice IA chez AMD avait déjà déposé un audit forensique de 6 852 sessions sur GitHub. Les bugs sont documentés, le timing est pire, et la leçon n'est pas celle que vend la plupart de la presse.

Pour la majorité des médias, l'événement c'est le post-mortem. Pas pour cet article. L'événement, ce sont ces 21 jours entre l'audit AMD et la confirmation d'Anthropic, le mot qu'une publication tech a mis dans son titre sans en tirer la conséquence opérationnelle, et la raison pour laquelle des milliers de développeurs payants ont passé six semaines à douter d'eux-mêmes pendant que la vérité traînait sur GitHub.

Deux développeurs dans des bureaux : l'un débogue frénétiquement du code sur un bureau en désordre, l'autre pointe avec assurance vers un ticket GitHub montrant 6 852 sessions analysées. Un robot cartoon examine un bug avec une loupe. — AMD a trouvé le bug de Claude avant Anthropic. Oups.

Le Post-Mortem est Sorti le Jour de GPT-5.5. L'Audit Trois Semaines Plus Tôt.

TITRE "The Six Weeks Nobody Confirmed" + sous-titre "From the first silent change to the public postmortem". Métaphore : ligne de temps horizontale en forme de tapis qui se déchire au milieu, avec petites mains qui tirent dessus depuis le bas. Style : ligne claire franco-belge, trait noir épais, halftone dots discrets, formes géométriques arrondies. Palette : warm beige #F4E4C1, alarm red #E63946, deep navy #1D3557, soft cream #FFF8E7, black #111111. Contenu : 5 marqueurs sur la timeline, March 4 (default reasoning effort drops), March 26 (caching bug starts), April 2 (Laurenzo files GitHub #42796), April 16 (verbosity cap added), April 23 (Anthropic postmortem). Au-dessus de la timeline, "VENDOR DASHBOARD: ALL GREEN" en typographie machine. En dessous, "USER REALITY: 6,852 sessions degraded" en handwriting. Highlight : la zone entre April 2 et April 23 ressort en surbrillance rouge avec hachures, label "21 days of confirmed silence". Légende : icône feuille de log = Laurenzo's audit / icône bulle = vendor postmortem. Footer : © rentierdigital.xyz. NOT flat corporate timeline, NOT minimalist tech aesthetic. — Chronologie de l'incident de dégradation des performances IA sur six semaines

23 avril 2026. Anthropic publie son post-mortem.

Le même jour, OpenAI livre GPT-5.5. Le timing n'échappe à personne sur les forums dev ce matin-là.

Le post-mortem documente trois changements qui ont silencieusement dégradé Claude Code pendant six semaines. L'effort de raisonnement par défaut est passé de "high" à "medium" entre le 4 mars et le 7 avril, trente-trois jours. Un bug de cache (clear_thinking_20251015 avec keep:1) tournait à chaque tour au lieu d'une seule fois, entre le 26 mars et le 10 avril, quinze jours. Une limite de verbosité du prompt système plafonnait les réponses à 25 mots entre les appels d'outils et 100 mots pour la réponse finale, entre le 16 et le 20 avril, quatre jours.

Anthropic a qualifié le premier de "mauvais arbitrage". Cette formule est rare. Les éditeurs disent généralement "nous avons identifié un problème" ou "une interaction inattendue". Pas "mauvais arbitrage".

Pour la plupart des médias, c'était ça l'événement. Les bugs catalogués, les correctifs livrés dans la v2.1.116, les limites d'usage remises à zéro, l'API non affectée. Générique de fin.

Pas pour cet article.

Vingt-et-un jours avant le post-mortem, le 2 avril, Stella Laurenzo, Directrice Senior IA chez AMD et ancienne responsable du projet OpenXLA de Google, a déposé l'issue GitHub #42796 contre le repo Claude Code. Elle y a joint la télémétrie de 6 852 sessions, nommé les régressions, documenté les dates, et cité le comportement d'Anthropic face à lui-même.

Elle savait. Reddit et Twitter loggaient les mêmes symptômes depuis des semaines.

Anthropic a mis trois semaines à confirmer.

Tous les éditeurs livrent des bugs. L'histoire, c'est la timeline. Six semaines de code dégradé sont restées invisibles pour des milliers de clients payants jusqu'à ce que quelqu'un d'extérieur monte sa propre infrastructure forensique et balance les preuves sur GitHub. Les bugs sont documentés. La timeline, c'est ce dont personne ne veut parler.

L'Audit Qui a Forcé les Aveux

Stella Laurenzo ne tweete pas des impressions.

Elle dirige l'infrastructure IA chez AMD. Avant ça, elle dirigeait le projet OpenXLA chez Google. Son audit se lit comme un dossier judiciaire.

Issue GitHub #42796. 6 852 sessions Claude Code capturées entre janvier et début avril. 234 760 appels d'outils. 17 871 blocs de réflexion.

Les métriques comportementales, c'est la partie sur laquelle personne ne pouvait argumenter. La longueur médiane de réflexion est passée de 2 200 caractères en janvier à 600 caractères en mars, un effondrement de 73%. Les fichiers-lus-avant-modification sont tombés de 6,6 à 2,0. Les violations de stop-hook sont passées de zéro à environ dix par jour après le 8 mars.

Ce ne sont pas des affirmations perceptuelles. Personne ne dit "ça semble pire". Elle a mesuré ce que l'agent faisait, et l'agent faisait moins. Moins de lecture, moins de réflexion, plus d'arrêts prématurés.

La conclusion atterrit en haut de l'issue : "On ne peut pas faire confiance à Claude pour effectuer des tâches d'ingénierie complexes."

Relisez cette phrase avec la source attachée. Directrice infrastructure IA d'un des plus gros fabricants de puces de la planète. 234 760 appels d'outils derrière.

Puis un détail qui aurait dû clore le cycle d'actualité sur-le-champ. AMD a changé de fournisseur pendant l'incident. The Register l'a rapporté le 6 avril. Laurenzo a écrit que son équipe était passée à un autre fournisseur produisant un travail de qualité supérieure, avec l'implication qu'ils gardaient l'option Claude ouverte en espérant que ça se répare. Elle n'a pas dit quel fournisseur.

Quelques nuances, parce que l'honnêteté compte. Anthropic a contesté certaines interprétations sur le thread de l'issue même. Et une autre affirmation de benchmark viral d'un groupe différent, qui circulait en parallèle à l'époque, a été indépendamment débunkée pour des problèmes de méthodologie. À ne pas confondre avec l'audit Laurenzo, qui tient sur ses propres chiffres.

Six mille huit cent cinquante-deux sessions ne se défont pas.

Ça se lisait comme un acte d'accusation avec notes de bas de page. Anthropic a mis trois semaines à confirmer quoi que ce soit.

Pourquoi Vous Aviez Raison et Ne Pouviez Pas le Prouver

Six semaines avant l'audit, les forums dev étaient déjà en feu.

Catalin Pit sur Twitter, 20 mars : "Dernièrement, Claude fait des erreurs choquantes." Sur Reddit r/ClaudeCode, 7 avril, u/marcin_dev postait : "est-ce que Claude Code est devenu significativement plus bête ces derniers jours ?" Les réponses disaient toutes oui. Sur Twitter, 13 avril, @safetyth1rd : "Ça prend 2-3x plus de temps pour faire des trucs."

Rien de tout ça n'a bougé l'aiguille.

Puis, post-post-mortem, u/Enthu-Cutlet-1337 a écrit la ligne que tout le monde dans le thread a reconnue. Le plafond de 25 mots expliquait tellement, ils avaient vu Opus tronquer en plein raisonnement sur des refactorisations pendant des semaines et "pensaient que mes prompts étaient foireux."

Quatre mots qui portent tout le poids de l'histoire.

Pensaient que mes prompts étaient foireux.

C'est ça le piège cognitif. Quand l'utilisateur perçoit une dégradation et que le dashboard du fournisseur dit que tout va bien, l'utilisateur doute de lui d'abord. Pas parce qu'il est naïf. À cause de l'asymétrie des preuves.

Le fournisseur a la télémétrie, les suites d'éval, les tests de régression, les dashboards. L'utilisateur a une impression. Quand l'impression et le dashboard sont en désaccord, le dashboard gagne. Ça ressemble plus à une preuve.

Une intuition, c'est facile à balayer. "Peut-être que tu as mal écrit le prompt. Peut-être que ton CLAUDE.md a dérivé. Ou la tâche était juste plus dure cette fois."

Un audit de 6 852 sessions, c'est pas facile à balayer.

C'est pour ça que personne n'a rien confirmé jusqu'à Laurenzo.

Post-post-mortem, u/Sufficient-Farmer243 a bouclé la boucle sur r/ClaudeCode. Ils ont écrit que chaque problème pour lequel la communauté avait été "gaslightée" pendant des semaines s'est avéré être exactement ce que les gens décrivaient. (Leurs mots, entre guillemets pour une raison. Que vous soyez d'accord avec le verbe ou pas, c'était le registre dominant dans le thread.)

Une fois le post-mortem sorti, le thread s'est rempli de réponses de confirmation. Pas de nouveaux bugs. D'anciens bugs que les gens loggaient silencieusement dans des journaux privés depuis cinq semaines d'affilée.

Vous n'aviez pas tort. Vous n'aviez juste pas de télémétrie grade AMD sur votre laptop.

Le Mot Qu'Anthropic a Choisi, la Connexion Que la Plupart des Médias ont Ratée

VentureBeat a mis un mot dans son titre : "harnesses."

"Mystère résolu : Anthropic révèle que les changements aux harnesses et instructions opérationnelles de Claude ont probablement causé la dégradation."

C'est le cadrage qu'Anthropic même a confirmé. Le modèle ne s'est pas dégradé. Le harness autour du modèle s'est dégradé. Effort de raisonnement par défaut. Comportement de cache. Verbosité du prompt système. Trois boutons dans le wrapper, pas les poids.

La plupart des médias ont noté le mot et sont passés à autre chose. Peu en ont tiré la conséquence.

Si le harness compte plus que le modèle, et que le harness peut être silencieusement modifié par le fournisseur pendant six semaines d'affilée, alors le harness n'est pas vraiment à vous.

C'est leur territoire.

Votre CLAUDE.md est une couche. L'effort de raisonnement par défaut, le comportement de cache, le prompt de verbosité, ce sont des couches dans leur codebase que vous ne verrez jamais. J'ai déjà écrit sur la couche que la plupart des développeurs traitent comme un readme, argumentant que CLAUDE.md était le nouveau .env. Je le pense toujours. Le morceau dont personne ne parle, c'est ce qui se trouve en dessous.

Vous écrivez 47 lignes de CLAUDE.md. Le harness du fournisseur charge des dizaines d'instructions avant que les vôtres ne tournent même. Vous contrôlez le haut de la pile. Ils contrôlent tout ce qui est en dessous.

Quand le bas de la pile change, votre haut devient décoratif.

Ce qui frappe dans ce post-mortem, ce n'est pas que le harness compte. La plupart des devs seniors le soupçonnaient déjà. Le nouveau morceau, c'est l'admission publiée et confirmée par le fournisseur que oui, le wrapper fait plus de boulot que le modèle dans beaucoup de tâches, et oui, le wrapper peut être modifié en milieu de mois sans que vous le sachiez.

La réflexion étendue est porteuse pour les workflows d'ingénierie senior. La couche user-facing que la plupart des clients payants tunent (CLAUDE.md, commandes slash, prompts custom) repose sur des défauts contrôlés par le fournisseur qui décident combien le modèle réfléchit avant d'agir. Quand ces défauts bougent, chaque workflow construit dessus bouge aussi. Silencieusement.

Relisez votre CLAUDE.md ce soir. Toujours utile, toujours porteur dans la partie que vous contrôlez. Mais vous tunez le volant.

Quelqu'un d'autre change la boîte de vitesses.

AMD a Switché. Reddit Savait. Anthropic a Confirmé en Dernier.

Trois faits alignés.

La directrice IA d'AMD a switché vers un autre fournisseur pendant l'incident. The Register l'a rapporté le 6 avril. Reddit documentait les symptômes depuis début mars. Anthropic a confirmé les bugs le 23 avril, vingt-et-un jours après que l'audit ait atterri dans leur propre repo GitHub.

Pattern : la vérité opérationnelle a remonté de la base utilisateurs avant que le fournisseur ne la valide.

Ce n'est pas un hasard. C'est la forme structurelle de toute dégradation d'IA hébergée. Le fournisseur a des suites d'éval et des dashboards optimisés pour les métriques qui l'intéressent. La base utilisateurs fait tourner la vraie charge de travail, dans de vrais codebases, avec de vraies conséquences. Quand les deux divergent, la base utilisateurs remarque en premier. Le fournisseur confirme en dernier.

Si l'écart fait vingt-et-un jours, la base utilisateurs mange vingt-et-un jours de sortie dégradée.

Si votre workflow IA peut être silencieusement dégradé pendant six semaines, vous n'avez pas un workflow. Vous avez un point de défaillance unique avec autocomplétion.

J'ai écrit la version pricing de cet argument le mois dernier. Même fournisseur, levier différent. La version reliability est pire, parce qu'elle est invisible. Un changement de prix apparaît sur votre facture. Un changement de harness apparaît six semaines plus tard dans un audit forensique que vous n'avez pas fait.

Oui, multi-stack coûte plus cher à setup. Logique de routage, glue d'éval, clés API redondantes, deux saveurs de CLAUDE.md à maintenir. C'est chiant. Le coût de ne pas le faire, c'est six semaines de code dégradé que vous avez livré sans le savoir, plus un audit de 6 852 sessions fait par quelqu'un d'autre pour le découvrir. Vous ne pouvez pas observer ce que le fournisseur a changé, alors vous espérez.

Bref, le point c'est ça : vous avez passé six semaines à relire vos prompts pendant qu'une directrice IA chez AMD loggait 6 852 sessions pour prouver que vous n'étiez pas fou.

Votre workflow IA ne repose pas sur votre harness. Il repose sur la patience d'un fournisseur à peut-être livrer un post-mortem. Ce n'est pas un workflow, c'est un pari.

La prochaine fois que quelque chose semble foireux, ne demandez pas si vos prompts craignent.

Demandez si vous avez votre propre télémétrie.

Sources

Anthropic Engineering, An update on recent Claude Code quality reports, 23 avril 2026 : https://www.anthropic.com/engineering/april-23-postmortem
The Register, Claude Code has become dumber, lazier: AMD director, 6 avril 2026 : https://www.theregister.com/2026/04/06/anthropic_claude_code_dumber_lazier_amd_ai_director/
VentureBeat, Mystery solved: Anthropic reveals changes to Claude's harnesses : https://venturebeat.com/technology/mystery-solved-anthropic-reveals-changes-to-claudes-harnesses-and-operating-instructions-likely-caused-degradation
GitHub Issue #42796 (Stella Laurenzo / @stellaraccident) : https://github.com/anthropics/claude-code/issues/42796