El Código de Claude Estuvo Roto 6 Semanas. AMD lo Descubrió en 6,852 Sesiones Antes que Anthropic.

10 min read

Durante seis semanas, creíste que estabas escribiendo mal tus prompts.

Podías sentir que Claude Code estaba fallando. Refactorizaciones que se iban por las ramas, archivos editados sin leer, razonamiento cortado a mitad de frase. Releías tu CLAUDE.md, ajustabas las instrucciones, culpabas a tu configuración. El dashboard de Anthropic decía que todo estaba bien.

Tu intuición contra su telemetría.

Adivina quién perdió.

RESUMEN: El 23 de abril de 2026, el día que salió GPT-5.5, Anthropic publicó un postmortem que validaba seis semanas de quejas de usuarios. Veintiún días antes, una directora de IA en AMD ya había presentado una auditoría forense de 6,852 sesiones en GitHub. Los bugs están documentados, el timing es pésimo, y la lección no es la que vende la mayoría de la cobertura mediática.

Para la mayoría de la prensa, el evento es el postmortem. Para este artículo, no. El evento son los 21 días entre la auditoría de AMD y la confirmación de Anthropic, la palabra que una publicación tech puso en su titular sin sacar la consecuencia operacional, y la razón por la que miles de desarrolladores pagando dudaron de sí mismos durante seis semanas mientras la verdad estaba ahí en GitHub.

Dos desarrolladores en cubículos de oficina: uno depurando código frenéticamente en un escritorio desordenado, el otro señalando con confianza un issue de GitHub que muestra 6,852 sesiones analizadas. Un robot de caricatura examina un bug con una lupa.
AMD encontró el bug de Claude antes que Anthropic. Ups.

El Postmortem Salió el Día de GPT-5.5. La Auditoría Salió Tres Semanas Antes.

TITRE "The Six Weeks Nobody Confirmed" + sous-titre "From the first silent change to the public postmortem". Métaphore : ligne de temps horizontale en forme de tapis qui se déchire au milieu, avec petites mains qui tirent dessus depuis le bas. Style : ligne claire franco-belge, trait noir épais, halftone dots discrets, formes géométriques arrondies. Palette : warm beige #F4E4C1, alarm red #E63946, deep navy #1D3557, soft cream #FFF8E7, black #111111. Contenu : 5 marqueurs sur la timeline, March 4 (default reasoning effort drops), March 26 (caching bug starts), April 2 (Laurenzo files GitHub #42796), April 16 (verbosity cap added), April 23 (Anthropic postmortem). Au-dessus de la timeline, "VENDOR DASHBOARD: ALL GREEN" en typographie machine. En dessous, "USER REALITY: 6,852 sessions degraded" en handwriting. Highlight : la zone entre April 2 et April 23 ressort en surbrillance rouge avec hachures, label "21 days of confirmed silence". Légende : icône feuille de log = Laurenzo's audit / icône bulle = vendor postmortem. Footer : © rentierdigital.xyz. NOT flat corporate timeline, NOT minimalist tech aesthetic.
Cronología del Incidente de Degradación de Rendimiento de IA de Seis Semanas

23 de abril de 2026. Anthropic publicó su postmortem.

El mismo día, OpenAI lanzó GPT-5.5. El timing no pasó desapercibido para nadie que leyera los foros de desarrolladores esa mañana.

El postmortem documentó tres cambios que degradaron silenciosamente Claude Code durante seis semanas. El esfuerzo de razonamiento por defecto bajó de "alto" a "medio" entre el 4 de marzo y el 7 de abril, treinta y tres días. Un bug de caché (clear_thinking_20251015 con keep:1) se ejecutaba en cada turno en lugar de una vez, entre el 26 de marzo y el 10 de abril, quince días. Un límite de verbosidad en el prompt del sistema limitó las respuestas a 25 palabras entre llamadas de herramientas y 100 palabras para la respuesta final, entre el 16 y 20 de abril, cuatro días.

Anthropic llamó al primero "el tradeoff equivocado". Esa frase es rara. Los vendors suelen decir "hemos identificado un problema" o "una interacción inesperada". No "el tradeoff equivocado".

Para la mayoría de la cobertura, ese fue el evento. Los bugs catalogados, las correcciones enviadas en v2.1.116, los límites de uso restablecidos, la API sin afectar. Fin de la historia.

Para este artículo, no.

Veintiún días antes del postmortem, el 2 de abril, Stella Laurenzo, Directora Senior de IA en AMD y ex líder del proyecto OpenXLA de Google, presentó el issue #42796 de GitHub contra el repo de Claude Code. Adjuntó telemetría de 6,852 sesiones, nombró las regresiones, documentó las fechas, y citó el propio comportamiento de Anthropic contra sí mismo.

Ella lo sabía. Reddit y Twitter habían estado registrando los mismos síntomas durante semanas.

Anthropic tardó tres semanas en confirmarlo.

Todos los vendors envían bugs. La historia es la cronología. Seis semanas de código degradado permanecieron invisibles para miles de clientes pagando hasta que alguien fuera del edificio construyó su propia infraestructura forense y soltó las pruebas en GitHub. Los bugs están documentados. La cronología es de lo que nadie quiere hablar.

La Auditoría Que Forzó la Confesión

Stella Laurenzo no tuitea sensaciones.

Dirige infraestructura de IA en AMD. Antes de eso, lideró el proyecto OpenXLA en Google. Su auditoría se lee como una demanda judicial.

GitHub issue #42796. 6,852 sesiones de Claude Code capturadas entre enero y principios de abril. 234,760 llamadas de herramientas. 17,871 bloques de pensamiento.

Las métricas de comportamiento fueron la parte con la que nadie podía discutir. La longitud mediana de pensamiento pasó de 2,200 caracteres en enero a 600 caracteres en marzo, un colapso del 73%. Los archivos-leídos-antes-de-editar cayeron de 6.6 a 2.0. Las violaciones de stop-hook subieron de cero a aproximadamente diez al día después del 8 de marzo.

Estas no son afirmaciones perceptuales. Nadie está diciendo "se siente peor". Ella midió lo que hizo el agente, y el agente hizo menos. Menos lectura, menos pensamiento, más paradas prematuras.

La conclusión llegó al principio del issue: "No se puede confiar en que Claude realice tareas de ingeniería complejas".

Lee esa frase otra vez con la fuente adjunta. Directora de infraestructura de IA de uno de los fabricantes de chips más grandes del planeta. 234,760 llamadas de herramientas detrás.

Luego un detalle que debería haber terminado el ciclo de noticias ahí mismo. AMD cambió de proveedor durante el incidente. The Register lo reportó el 6 de abril. Laurenzo escribió que su equipo se había mudado a otro vendor que producía trabajo de calidad superior, con la implicación de que mantuvieron la opción de Claude abierta esperando que se arreglara. No dijo cuál proveedor.

Algunas salvedades, porque la honestidad importa. Anthropic disputó algunas interpretaciones en el hilo del issue mismo. Y una afirmación viral de benchmark separada de un grupo diferente, circulando en paralelo en ese momento, fue independientemente desacreditada por problemas metodológicos. Vale la pena no confundirla con la auditoría de Laurenzo, que se sostiene por sus propios números.

Seis mil ochocientas cincuenta y dos sesiones no se des-suceden.

Se leía como una acusación con notas al pie. Anthropic tardó tres semanas en confirmar algo de eso.

Por Qué Tenías Razón y No Podías Probarlo

Seis semanas antes de la auditoría, los foros de desarrolladores ya estaban ardiendo.

Catalin Pit en Twitter, 20 de marzo: "Últimamente, Claude comete errores impactantes." En Reddit r/ClaudeCode, 7 de abril, u/marcin_dev posteó: "¿se ha vuelto Claude Code significativamente más tonto en los últimos días?" Las respuestas todas dijeron que sí. En Twitter, 13 de abril, @safetyth1rd: "Está tomando 2-3x más tiempo hacer cosas."

Nada de eso movió una aguja.

Luego, post-postmortem, u/Enthu-Cutlet-1337 escribió la línea que todos en el hilo reconocieron. El límite de 25 palabras explicaba tanto, habían estado viendo a Opus truncar a mitad de razonamiento en refactorizaciones durante semanas y "pensé que mis prompts estaban mal".

Cuatro palabras haciendo el trabajo más pesado en toda la historia.

Pensé que mis prompts estaban mal.

Esa es la trampa cognitiva. Cuando el usuario percibe degradación y el dashboard del vendor dice que todo está bien, el usuario duda de sí mismo primero. No porque sea ingenuo. Por la asimetría de evidencia.

El vendor tiene la telemetría, las suites de evaluación, las pruebas de regresión, los dashboards. El usuario tiene una sensación. Cuando la sensación y el dashboard no coinciden, el dashboard gana. Se ve más como evidencia.

Una corazonada es fácil de descartar. "Tal vez escribiste mal el prompt. Tal vez tu CLAUDE.md se desvió. O la tarea era simplemente más difícil esta vez."

Una auditoría de 6,852 sesiones no es fácil de descartar.

Por eso nadie confirmó nada hasta Laurenzo.

Post-postmortem, u/Sufficient-Farmer243 cerró el círculo en r/ClaudeCode. Escribieron que cada problema sobre el que la comunidad había sido "gaslighted" durante semanas resultó ser exactamente lo que la gente había estado describiendo. (Sus palabras, entre comillas por una razón. Estés de acuerdo con el verbo o no, era el registro dominante en el hilo.)

Una vez que salió el postmortem, el hilo se llenó de respuestas de confirmación. No bugs nuevos. Bugs viejos que la gente había estado registrando silenciosamente en diarios privados durante cinco semanas seguidas.

No estabas equivocado. Simplemente no tenías telemetría de grado AMD en tu laptop.

La Palabra Que Eligió Anthropic, la Conexión Que Perdió la Mayoría de la Cobertura

VentureBeat puso una palabra en su titular: "harnesses."

"Misterio resuelto: Anthropic revela que cambios en los harnesses de Claude e instrucciones operativas probablemente causaron la degradación."

Ese es el encuadre que Anthropic mismo confirmó. El modelo no empeoró. El harness alrededor del modelo empeoró. Esfuerzo de razonamiento por defecto. Comportamiento de caché. Verbosidad del prompt del sistema. Tres perillas en el wrapper, no en los pesos.

La mayoría de la cobertura notó la palabra y siguió adelante. Pocos sacaron la consecuencia.

Si el harness importa más que el modelo, y el harness puede ser modificado silenciosamente por el vendor durante seis semanas seguidas, entonces el harness no es realmente tuyo.

Es su territorio.

Tu CLAUDE.md es una capa. El esfuerzo de razonamiento por defecto, el comportamiento de caché, el prompt de verbosidad, esas son capas en su código que nunca verás. He escrito antes sobre la capa que la mayoría de desarrolladores trata como un readme, argumentando que CLAUDE.md era el nuevo .env. Sigo pensando eso. La pieza de la que nadie habla es lo que está debajo.

Escribes 47 líneas de CLAUDE.md. El harness del vendor carga docenas de instrucciones antes de que las tuyas siquiera corran. Controlas la parte superior del stack. Ellos controlan todo lo de abajo.

Cuando la parte inferior del stack cambia, tu parte superior es decoración.

Lo que es llamativo de este postmortem, no es que el harness importe. La mayoría de los devs senior ya sospechaban que sí. La pieza nueva es la admisión publicada y confirmada por el vendor de que sí, el wrapper está haciendo más trabajo que el modelo en muchas tareas, y sí, el wrapper puede ser modificado a mitad de mes sin que lo sepas.

El pensamiento extendido es estructural para flujos de trabajo de ingeniería senior. La capa orientada al usuario que la mayoría de clientes pagando ajustan (CLAUDE.md, comandos slash, prompts personalizados) se asienta sobre defaults controlados por el vendor que deciden cuánto piensa el modelo antes de actuar. Cuando esos defaults cambian, cada flujo de trabajo construido encima cambia también. Silenciosamente.

Lee tu CLAUDE.md esta noche. Sigue siendo útil, sigue siendo estructural en la parte que controlas. Pero estás ajustando el volante.

Alguien más está cambiando la caja de cambios.

AMD Cambió. Reddit Sabía. Anthropic Confirmó Al Final.

Tres hechos en línea.

La directora de IA de AMD cambió a otro proveedor durante el incidente. The Register lo reportó el 6 de abril. Reddit había estado documentando síntomas desde principios de marzo. Anthropic confirmó los bugs el 23 de abril, veintiún días después de que la auditoría aterrizara en su propio repo de GitHub.

Patrón: la verdad operacional burbujó desde la base de usuarios antes de que el vendor la validara.

Eso no es casualidad. Esa es la forma estructural de cualquier degradación de IA hospedada. El vendor tiene suites de evaluación y dashboards optimizados para las métricas que les importan. La base de usuarios ejecuta la carga de trabajo real, en codebases reales, con consecuencias reales. Cuando los dos divergen, la base de usuarios se da cuenta primero. El vendor confirma al final.

Si la brecha es de veintiún días, la base de usuarios se come veintiún días de output degradado.

Si tu flujo de trabajo de IA puede ser silenciosamente degradado durante seis semanas, no tienes un flujo de trabajo. Tienes un punto único de falla con autocompletado.

Escribí la versión del lado de precios de este argumento el mes pasado. Mismo vendor, diferente palanca. La versión del lado de confiabilidad es peor, porque es invisible. Un cambio de precios aparece en tu factura. Un cambio de harness aparece seis semanas después en una auditoría forense que no corriste.

Sí, multi-stack cuesta más configurar. Lógica de enrutamiento, pegamento de evaluación, claves API redundantes, dos sabores de CLAUDE.md que mantener. Es molesto. El costo de no hacerlo es seis semanas de código degradado que enviaste sin saberlo, más una auditoría de 6,852 sesiones ejecutada por alguien más para averiguarlo. No puedes observar lo que cambió el vendor, así que esperas.

En fin, el punto es este: pasaste seis semanas releyendo tus prompts mientras una directora de IA en AMD estaba registrando 6,852 sesiones para probar que no estabas loco.

Tu flujo de trabajo de IA no descansa en tu harness. Descansa en la paciencia de un vendor para tal vez enviar un postmortem. Eso no es un flujo de trabajo, es una apuesta.

La próxima vez que algo se sienta mal, no preguntes si tus prompts apestan.

Pregunta si tienes tu propia telemetría.

Fuentes