Claude Code Bug-Report: AMDs 6.852-Session-Audit vs. Anthropic

Sechs Wochen lang dachtest du, deine Prompts wären schlecht.

Du spürtest, wie Claude Code Mist baute. Refactorings liefen schief, Dateien wurden bearbeitet ohne gelesen zu werden, das Denken brach mittendrin ab. Du hast deine CLAUDE.md nochmal durchgelesen, deine Anweisungen angepasst, dein Harness beschuldigt. Das Anthropic-Dashboard zeigte alles grün.

Dein Bauchgefühl gegen ihre Telemetrie.

Rate mal, wer verloren hat.

TLDR: Am 23. April 2026, dem Tag als GPT-5.5 erschien, veröffentlichte Anthropic eine Postmortem-Analyse, die sechs Wochen Nutzerbeschwerden bestätigte. Einundzwanzig Tage zuvor hatte bereits eine KI-Direktorin bei AMD ein forensisches Audit von 6.852 Sessions auf GitHub eingereicht. Die Bugs sind dokumentiert, das Timing ist verheerend, und die Lehre ist nicht die, die in den meisten Berichten verkauft wird.

Zwei Entwickler in Bürokabinen: einer debuggt hektisch Code an einem unordentlichen Schreibtisch, der andere zeigt selbstbewusst auf ein GitHub-Issue mit 6.852 analysierten Sessions. Ein Cartoon-Roboter untersucht einen Bug mit einer Lupe. — AMD fand Claudes Bug vor Anthropic. Hoppla.

Für die meisten Presseberichte ist das Ereignis die Postmortem-Analyse. Nicht für diesen Artikel. Das Ereignis sind die 21 Tage zwischen dem AMD-Audit und der Anthropic-Bestätigung, das Wort, das eine Tech-Publikation in ihre Schlagzeile setzte ohne die operative Konsequenz zu ziehen, und der Grund, warum Tausende zahlende Entwickler sechs Wochen lang an sich zweifelten, während die Wahrheit auf GitHub lag.

Die Postmortem-Analyse erschien am GPT-5.5-Tag. Das Audit drei Wochen früher.

TITRE "The Six Weeks Nobody Confirmed" + sous-titre "From the first silent change to the public postmortem". Métaphore : ligne de temps horizontale en forme de tapis qui se déchire au milieu, avec petites mains qui tirent dessus depuis le bas. Style : ligne claire franco-belge, trait noir épais, halftone dots discrets, formes géométriques arrondies. Palette : warm beige #F4E4C1, alarm red #E63946, deep navy #1D3557, soft cream #FFF8E7, black #111111. Contenu : 5 marqueurs sur la timeline, March 4 (default reasoning effort drops), March 26 (caching bug starts), April 2 (Laurenzo files GitHub #42796), April 16 (verbosity cap added), April 23 (Anthropic postmortem). Au-dessus de la timeline, "VENDOR DASHBOARD: ALL GREEN" en typographie machine. En dessous, "USER REALITY: 6,852 sessions degraded" en handwriting. Highlight : la zone entre April 2 et April 23 ressort en surbrillance rouge avec hachures, label "21 days of confirmed silence". Légende : icône feuille de log = Laurenzo's audit / icône bulle = vendor postmortem. Footer : © rentierdigital.xyz. NOT flat corporate timeline, NOT minimalist tech aesthetic. — Zeitstrahl des sechswöchigen KI-Performance-Degradations-Vorfalls

April 2026. Anthropic veröffentlichte ihre Postmortem-Analyse.

Am selben Tag lieferte OpenAI GPT-5.5 aus. Das Timing entging niemandem, der an diesem Morgen die Entwicklerforen las.

Die Postmortem-Analyse dokumentierte drei Änderungen, die Claude Code über sechs Wochen hinweg stillschweigend verschlechterten. Der Standard-Reasoning-Aufwand fiel zwischen dem 4. März und 7. April von "hoch" auf "mittel", dreiunddreißig Tage lang. Ein Caching-Bug (clear_thinking_20251015 mit keep:1) lief zwischen dem 26. März und 10. April bei jedem Turn statt nur einmal, fünfzehn Tage lang. Ein System-Prompt-Wortlimit begrenzte Antworten zwischen dem 16. und 20. April auf 25 Wörter zwischen Tool-Aufrufen und 100 Wörter für die finale Antwort, vier Tage lang.

Anthropic nannte das erste "den falschen Kompromiss". Diese Formulierung ist selten. Anbieter sagen normalerweise "wir haben ein Problem identifiziert" oder "eine unerwartete Wechselwirkung". Nicht "den falschen Kompromiss".

Für die meisten Berichte war das das Ereignis. Die Bugs katalogisiert, die Fixes in v2.1.116 ausgeliefert, die Nutzungslimits zurückgesetzt, die API unbeeinträchtigt. Abspann.

Nicht für diesen Artikel.

Einundzwanzig Tage vor der Postmortem-Analyse, am 2. April, reichte Stella Laurenzo, Senior Director of AI bei AMD und ehemalige Leiterin von Googles OpenXLA-Projekt, GitHub Issue #42796 gegen das Claude Code Repo ein. Sie hängte 6.852 Sessions Telemetrie an, benannte die Regressionen, dokumentierte die Daten und zitierte Anthropics eigenes Verhalten zurück an sich selbst.

Sie wusste es. Reddit und Twitter hatten wochenlang dieselben Symptome protokolliert.

Anthropic brauchte drei Wochen zur Bestätigung.

Jeder Anbieter liefert Bugs aus. Die Geschichte ist die Zeitlinie. Sechs Wochen verschlechterter Code blieben für Tausende zahlende Kunden unsichtbar, bis jemand außerhalb des Gebäudes ihre eigene forensische Infrastruktur baute und die Belege auf GitHub ablegte. Die Bugs sind dokumentiert. Die Zeitlinie ist das, worüber niemand reden will.

Das Audit, das das Geständnis erzwang

Stella Laurenzo twittert keine Bauchgefühle.

Sie leitet KI-Infrastruktur bei AMD. Davor leitete sie das OpenXLA-Projekt bei Google. Ihr Audit liest sich wie eine Gerichtsakte.

GitHub Issue #42796. 6.852 Claude Code Sessions, erfasst zwischen Januar und Anfang April. 234.760 Tool-Aufrufe. 17.871 Thinking-Blöcke.

Die Verhaltensmetriken waren der Teil, gegen den niemand argumentieren konnte. Die mittlere Thinking-Länge fiel von 2.200 Zeichen im Januar auf 600 Zeichen im März, ein Kollaps um 73%. Dateien-gelesen-vor-Bearbeitung fiel von 6,6 auf 2,0. Stop-Hook-Verletzungen stiegen nach dem 8. März von null auf etwa zehn pro Tag.

Das sind keine Wahrnehmungsbehauptungen. Niemand sagt "es fühlt sich schlechter an". Sie maß, was der Agent tat, und der Agent tat weniger. Weniger lesen, weniger denken, mehr vorzeitige Stopps.

Die Schlussfolgerung stand oben im Issue: "Claude kann nicht vertraut werden, komplexe Engineering-Aufgaben auszuführen."

Lies diesen Satz nochmal mit der Quelle dazu. KI-Infrastrukturdirektorin eines der größten Chiphersteller des Planeten. 234.760 Tool-Aufrufe dahinter.

Dann ein Detail, das den Nachrichtenzyklus sofort hätte beenden sollen. AMD wechselte während des Vorfalls den Anbieter. The Register berichtete es am 6. April. Laurenzo schrieb, dass ihr Team zu einem anderen Anbieter gewechselt war, der überlegene Arbeitsqualität produzierte, mit der Andeutung, dass sie die Claude-Option in der Hoffnung offen hielten, sie würde repariert werden. Sie sagte nicht, welcher Anbieter.

Ein paar Vorbehalte, weil Ehrlichkeit wichtig ist. Anthropic bestritt einige Interpretationen im Issue-Thread selbst. Und eine separate virale Benchmark-Behauptung einer anderen Gruppe, die parallel zu der Zeit kursierte, wurde unabhängig wegen Methodikproblemen widerlegt. Wichtig, das nicht mit dem Laurenzo-Audit zu verwechseln, der auf seinen eigenen Zahlen steht.

Sechstausendachthundertzweiundfünfzig Sessions passieren nicht einfach nicht.

Es las sich wie eine Anklage mit Fußnoten. Anthropic brauchte drei Wochen, um etwas davon zu bestätigen.

Warum du recht hattest und es nicht beweisen konntest

Sechs Wochen vor dem Audit standen die Entwicklerforen bereits in Flammen.

Catalin Pit auf Twitter, 20. März: "In letzter Zeit macht Claude schockierende Fehler." Auf Reddit r/ClaudeCode, 7. April, postete u/marcin_dev: "ist Claude Code in den letzten Tagen deutlich dümmer geworden?" Die Antworten sagten alle ja. Auf Twitter, 13. April, @safetyth1rd: "Es dauert 2-3x länger, Sachen zu machen."

Nichts davon bewegte eine Nadel.

Dann, nach der Postmortem-Analyse, schrieb u/Enthu-Cutlet-1337 die Zeile, die jeder im Thread erkannte. Das 25-Wort-Limit erklärte so viel, sie hatten wochenlang gesehen, wie Opus mitten im Reasoning bei Refactorings abbrach und "dachten, meine Prompts wären falsch".

Vier Worte, die die schwerste Arbeit in der ganzen Geschichte leisten.

Dachten, meine Prompts wären falsch.

Das ist die kognitive Falle. Wenn der Nutzer Verschlechterung wahrnimmt und das Anbieter-Dashboard sagt, alles ist in Ordnung, zweifelt der Nutzer zuerst an sich selbst. Nicht weil er naiv ist. Wegen der Asymmetrie der Beweise.

Der Anbieter hat die Telemetrie, die Eval-Suites, die Regressionstests, die Dashboards. Der Nutzer hat ein Gefühl. Wenn Gefühl und Dashboard sich widersprechen, gewinnt das Dashboard. Es sieht mehr wie ein Beweis aus.

Ein Bauchgefühl ist leicht abzutun. "Vielleicht hast du den Prompt falsch geschrieben. Vielleicht ist deine CLAUDE.md abgedriftet. Oder die Aufgabe war diesmal einfach schwerer."

Ein 6.852-Sessions-Audit ist nicht leicht abzutun.

Deshalb bestätigte niemand etwas bis Laurenzo.

Nach der Postmortem-Analyse schloss u/Sufficient-Farmer243 den Kreis auf r/ClaudeCode. Sie schrieben, dass jedes einzelne Problem, bei dem die Community wochenlang "gegaslightet" worden war, sich als genau das herausstellte, was die Leute beschrieben hatten. (Ihre Formulierung, in Anführungszeichen aus einem Grund. Ob du dem Verb zustimmst oder nicht, es war das dominante Register im Thread.)

Nachdem die Postmortem-Analyse erschien, füllte sich der Thread mit Bestätigungsantworten. Keine neuen Bugs. Alte Bugs, die Leute fünf Wochen lang stillschweigend in private Tagebücher protokolliert hatten.

Du lagst nicht falsch. Du hattest nur keine AMD-Grade-Telemetrie auf deinem Laptop.

Das Wort, das Anthropic wählte, die Verbindung, die die meisten Berichte verpassten

VentureBeat setzte ein Wort in seine Schlagzeile: "harnesses."

"Rätsel gelöst: Anthropic enthüllt, dass Änderungen an Claudes Harnesses und Betriebsanweisungen wahrscheinlich Verschlechterung verursachten."

Das ist die Rahmung, die Anthropic selbst bestätigte. Das Modell wurde nicht schlechter. Das Harness um das Modell wurde schlechter. Standard-Reasoning-Aufwand. Caching-Verhalten. System-Prompt-Wortschatz. Drei Regler im Wrapper, nicht in den Gewichten.

Die meisten Berichte notierten das Wort und gingen weiter. Wenige zogen die Konsequenz.

Wenn das Harness mehr zählt als das Modell, und das Harness kann vom Anbieter sechs Wochen lang stillschweigend modifiziert werden, dann gehört das Harness nicht wirklich dir.

Es ist ihr Territorium.

Deine CLAUDE.md ist eine Schicht. Der Standard-Reasoning-Aufwand, das Caching-Verhalten, der Wortschatz-Prompt, das sind Schichten in ihrer Codebasis, die du nie sehen wirst. Ich habe früher über die Schicht geschrieben, die die meisten Entwickler wie eine Readme behandeln, und argumentiert, CLAUDE.md wäre die neue .env. Das denke ich immer noch. Das Stück, über das niemand redet, ist was darunter sitzt.

Du schreibst 47 Zeilen CLAUDE.md. Das Harness des Anbieters lädt Dutzende Anweisungen, bevor deine überhaupt laufen. Du kontrollierst die Spitze des Stacks. Sie kontrollieren alles darunter.

Wenn sich der Boden des Stacks ändert, ist deine Spitze Dekoration.

Was an dieser Postmortem-Analyse auffällt, ist nicht, dass das Harness wichtig ist. Die meisten Senior-Entwickler vermuteten das bereits. Das neue Stück ist das veröffentlichte, anbieterbestätigte Eingeständnis, dass ja, der Wrapper mehr Arbeit leistet als das Modell bei vielen Aufgaben, und ja, der Wrapper kann mitten im Monat modifiziert werden, ohne dass du es weißt.

Erweitertes Denken ist tragend für Senior-Engineering-Workflows. Die nutzerseitige Schicht, die die meisten zahlenden Kunden abstimmen (CLAUDE.md, Slash-Befehle, benutzerdefinierte Prompts), sitzt auf anbietergesteuerten Defaults, die entscheiden, wie viel das Modell denkt, bevor es handelt. Wenn sich diese Defaults verschieben, verschieben sich alle darauf aufbauenden Workflows auch. Stillschweigend.

Lies heute Abend deine CLAUDE.md. Immer noch nützlich, immer noch tragend in dem Teil, den du kontrollierst. Aber du stimmst das Lenkrad ab.

Jemand anderes ändert das Getriebe.

AMD wechselte. Reddit wusste es. Anthropic bestätigte als letztes.

Drei Fakten in einer Reihe.

AMDs KI-Direktorin wechselte während des Vorfalls zu einem anderen Anbieter. The Register berichtete es am 6. April. Reddit hatte seit Anfang März Symptome dokumentiert. Anthropic bestätigte die Bugs am 23. April, einundzwanzig Tage nachdem das Audit in ihrem eigenen GitHub-Repo gelandet war.

Muster: operative Wahrheit blubberte von der Nutzerbasis nach oben, bevor der Anbieter sie validierte.

Das ist kein Zufall. Das ist die strukturelle Form jeder gehosteten KI-Verschlechterung. Der Anbieter hat Eval-Suites und Dashboards, optimiert für die Metriken, die ihm wichtig sind. Die Nutzerbasis führt die echte Arbeitslast aus, in echten Codebasen, mit echten Konsequenzen. Wenn die beiden auseinanderdriften, bemerkt es die Nutzerbasis zuerst. Der Anbieter bestätigt als letztes.

Wenn die Lücke einundzwanzig Tage beträgt, frisst die Nutzerbasis einundzwanzig Tage verschlechterter Ausgabe.

Wenn dein KI-Workflow sechs Wochen lang stillschweigend verschlechtert werden kann, hast du keinen Workflow. Du hast einen Single Point of Failure mit Autocomplete.

Ich schrieb die Preis-Version dieses Arguments letzten Monat. Derselbe Anbieter, anderer Hebel. Die Zuverlässigkeits-Version ist schlimmer, weil sie unsichtbar ist. Eine Preisänderung taucht auf deiner Rechnung auf. Eine Harness-Änderung taucht sechs Wochen später in einem forensischen Audit auf, das du nicht durchgeführt hast.

Ja, Multi-Stack kostet mehr beim Einrichten. Routing-Logik, Eval-Kleber, redundante API-Schlüssel, zwei Geschmacksrichtungen von CLAUDE.md zu pflegen. Es ist nervig. Die Kosten, es nicht zu tun, sind sechs Wochen verschlechterter Code, den du ausgeliefert hast, ohne es zu wissen, plus ein 6.852-Sessions-Audit von jemand anderem, um es herauszufinden. Du kannst nicht beobachten, was der Anbieter geändert hat, also hoffst du.

Jedenfalls, der Punkt ist: Du hast sechs Wochen damit verbracht, deine Prompts nochmal zu lesen, während eine KI-Direktorin bei AMD 6.852 Sessions protokollierte, um zu beweisen, dass du nicht verrückt warst.

Dein KI-Workflow ruht nicht auf deinem Harness. Er ruht auf der Geduld eines Anbieters, vielleicht eine Postmortem-Analyse zu liefern. Das ist kein Workflow, das ist eine Wette.

Nächstes Mal, wenn sich etwas falsch anfühlt, frag nicht, ob deine Prompts schlecht sind.

Frag, ob du deine eigene Telemetrie hast.

Quellen

Anthropic Engineering, An update on recent Claude Code quality reports, 23. April 2026: https://www.anthropic.com/engineering/april-23-postmortem
The Register, Claude Code has become dumber, lazier: AMD director, 6. April 2026: https://www.theregister.com/2026/04/06/anthropic_claude_code_dumber_lazier_amd_ai_director/
VentureBeat, Mystery solved: Anthropic reveals changes to Claude's harnesses: https://venturebeat.com/technology/mystery-solved-anthropic-reveals-changes-to-claudes-harnesses-and-operating-instructions-likely-caused-degradation
GitHub Issue #42796 (Stella Laurenzo / @stellaraccident): https://github.com/anthropics/claude-code/issues/42796