Descubrí el Mejor Uso de Claude Fable 5. Me Costó el 75% de Mi Cuota Mensual Lograrlo.

9 min read

Claude Fable 5 regresó con todo el 1 de julio, tras 3 semanas suspendido por controles de exportación de EE.UU. En 48 horas, las reacciones se dividieron en 2 bandos clarísimos.

El Bando 1 son adultos que nunca superaron del todo su fase de LAN parties, haciendo one-shots de clones de Rocket League y volando por un Hogwarts reconstruido. Un demo necesitó 4 prompts y $173 en tokens para producir un prototipo jugable.

El Bando 2 trata de descifrar cómo convertir el mismo modelo en ingresos reales, sin quemar un mes de créditos antes del almuerzo. Me gustaría decir que caí directo en el bando 2. No fue así. Activé Ultracode para ver de qué se trataba tanto alboroto, le di una tarea prácticamente sin alcance definido, y vi cómo se derretía mi cuota mensual en pocos minutos. Sin pantalla dramática de "Has Muerto", solo un silencioso 0% en el dashboard de uso.

Así que aquí tienes cómo sacarle el máximo provecho a Claude Fab(uloso?).

Trabajador de oficina mirando horrorizado un dashboard de cuota vacío mientras un héroe con capa sostiene una lista de tareas detrás de él, rodeado del caos de agentes de IA fallidos y cargadores girando
Una tarea de IA, 75% de cuota perdida. Resulta que 'limpiar el checkout' era caro.

Qué Hace Realmente Ultracode

Ultracode no es un nivel de esfuerzo del API. Es una configuración específica de Claude Code, y confundir ambas es exactamente como terminé aquí.

El prompt que me jodió: "limpia el flujo de checkout, es un desastre." Nada sobre qué archivos. Nada sobre qué significaba "limpiar". Ultracode lo interpretó como una invitación, bifurcó subagentes hacia la lógica de pagos, la calculadora de envíos, y una página de configuración que no había tocado desde hace un año, y empezó a "limpiar" los 3 a la vez.

Activa Ultracode y pasan 2 cosas. Cada request de la sesión se envía al modelo en xhigh, la máxima profundidad de razonamiento disponible. Y Claude Code obtiene permiso permanente para generar Dynamic Workflows en cualquier cosa que parezca sustancial (el nombre de Anthropic para orquestación automática de subagentes). La sesión principal bifurca tantos subagentes como decide que necesita una tarea, cada uno quemando su propia porción de tokens, sin preguntarte primero. Es menos un personaje lanzando un hechizo y más el juego decidiendo que tu misión en solitario necesitaba un raid completo.

En el API, Fable 5 cuesta $10 por millón de tokens de entrada y $50 por millón de salida, aproximadamente el doble que Opus 4.8. Ese premium está bien cuando 1 modelo hace el trabajo. Deja de estar bien cuando Ultracode silenciosamente convierte tu 1 request en 12 paralelos porque decidió que tu tarea ameritaba un pequeño ejército.

El mecanismo exacto que incineró mi cuota (razonamiento xhigh más generación no supervisada de subagentes) es el mismo mecanismo que hace que Ultracode valga el premium en un trabajo real, ya definido en alcance. Piensa en un refactor complicado a través de 40 archivos, o una auditoría completa de codebase. Ultracode no falló al delegar. Yo fallé al nunca decirle qué tenía permitido delegar.

Aprendí una versión de esa lección por las malas antes, con una sesión de Claude Code que dejé correr sin supervisión por 4 horas. Los 3 componentes breves que previenen el drift de alcance resultaron importar tanto con 1 loop como con 12 subagentes corriendo en paralelo.

No Fui el Único

TITLE "Same Week, Same Model, Different Bills" + subtitle "3 real quota burns reported after Fable 5 came back online". Metaphor: fuel gauge dashboard with 3 separate gauges dropping to empty at different speeds. Style: engineer blueprint aesthetic, white technical lines on dark navy background, precise annotations. Palette: navy #0A1628, blueprint-white #E8F0FF, yellow #FFD600, red #FF4444, black #111111. Content: 3 gauge panels labeled MAX PLAN (20% of weekly quota gone in 1 day), PRO PLAN (hit cap in about 10 minutes), ULTRACODE SWARM (62 subagents hit the 5-hour cap in 18 minutes). Highlight: ULTRACODE SWARM gauge center positioned and slightly enlarged, red needle pinned fully to empty, small warning icon glowing. Legend: sticky note bottom-left corner reading reported cases not a measured average. Footer: © rentierdigital.xyz small bottom-right handwritten. NOT flat corporate vector, NOT stock infographic, NOT minimalist tech startup aesthetic.
Quemas de Cuota API: Tres Planes Alcanzaron Límites Diferentes

Navegando Hacker News y r/ClaudeAI en esas mismas 48 horas encontré mucha compañía.

Un suscriptor Max (el tier de $200 al mes) reportó quemar algo así como 20% de la cuota semanal en un solo día. Un usuario Pro dijo que alcanzó su límite en unos 10 minutos. 1 desarrollador lanzó 62 subagentes de Opus 4.8 en una sola tarea y alcanzó el límite de uso de 5 horas en 18 minutos exactos, lo cual es menos Skynet despertando y más un enjambre de becarios cafeinados con la tarjeta de crédito de la empresa. Alguien más disparó aproximadamente 90 agentes solo para revisar un paquete pequeño. 1 comentario de Hacker News lo resumió mejor de lo que podría hacerlo yo: "tokenmaxxing disfrazado de producto."

Nada de esto es un promedio medido, solo anécdotas dispersas de hilos de foros, no un benchmark controlado. Pero el patrón se mantuvo en todas las cuentas. La queja nunca fue sobre la calidad del output. Fue sobre el medidor siguiendo girando mucho después de que la tarea ya estuviera terminada.

Aun así, quema de cuota a esta escala no es un error de redondeo. En el plan Max, 20% de la asignación semanal perdida en un día significa quedarse seco mucho antes del siguiente reset. En Pro, alcanzar el límite en 10 minutos significa que el resto del día pasa sin el modelo en absoluto.

El Otro Bando: One-Shotting Videojuegos

Mientras mi barra de cuota bajaba en tiempo real, el resto del internet estaba teniendo una tarde mucho mejor.

El clon de Rocket League recibió elogios incluso de gente que normalmente pone los ojos en blanco ante demos de AI. Lo mismo el pedazo reconstruido de Hogwarts, y el juego construido con 4 prompts y $173 en tokens que mencioné antes. 1 test ampliamente visto enfrentó Fable 5 contra Opus 4.8 cara a cara con el mismo prompt exacto. Otro quemó $100 en una sola sesión de Ultracode solo para ver dónde estaba el techo.

(Mi propia era de Rocket League alcanzó su pico en algún lugar del rango Diamond, antes de que los deploys empezaran a comerse las horas que solía pasar haciendo queue en ranked. No extraño los reflejos. Sí extraño tener 40 minutos ininterrumpidos para cualquier cosa.)

Algunos de estos demos son genuinamente impresionantes, el tipo de cosa que le habría tomado a un equipo pequeño un sprint prototipar hace 2 años. Mi problema nunca fue el gusto del bando 1. El tema es que un prototipo de juego funcional y un cliente que paga son 2 entregables muy diferentes, y solo 1 de ellos aparece en la factura del próximo mes como ingreso en lugar de costo.

La Paradoja de las Instrucciones

Lo primero que noté una vez que se pasó el pánico: Fable 5 quiere menos de ti, no más.

Cada modelo anterior de Claude recompensaba un prompt más largo y detallado. Más contexto, más restricciones, mejor output (esa fue la regla general durante 2 años seguidos). Fable 5 la rompe. Carga un prompt con instrucciones híper-específicas, restricciones paso a paso, casos edge deletreados por adelantado, y el output a menudo empeora, no mejora. El modelo empieza a optimizar para satisfacer cada cláusula que escribiste en lugar de resolver el problema real que tiene enfrente.

Esto es algo del día a día, cómo fraseas una sola instrucción a mitad de sesión, no la decisión más grande sobre si activar Ultracode para un proyecto completo. También se alinea con lo que dice la propia documentación de prompting de Anthropic sobre el modelo: instrucciones más cortas y claras tienden a superar a las exhaustivas. Tal vez estoy leyendo demasiado en 3 semanas de sesiones, pero se siente como si el modelo recompensara la confianza más que el detalle.

Lo Que Dice Anthropic (Y Lo Que Me Salté)

La propia documentación de Anthropic sobre niveles de esfuerzo es directa sobre esto: Fable 5 corriendo en low o medium effort frecuentemente supera a modelos más viejos corriendo en xhigh. El consejo oficial es empezar en "high" (que ya es el default) y solo escalar si una tarea específica lo necesita de manera medible, no solo porque se sienta importante.

Me salté directo ese consejo y fui por la configuración con el nombre más aterrador. Lo cual tiene sentido, porque he hecho exactamente esto antes. Un plan estructurado superando configuraciones de esfuerzo bruto, siempre fue básicamente todo el argumento de un artículo que escribí en marzo, sobre cómo max effort en un solo modelo no arregla un mal plan. Esa lección sigue vigente. Pero no cubre completamente lo que pasó esta vez, porque Ultracode no es solo una configuración de razonamiento más profunda en 1 modelo. Es un permiso para generar 12 modelos a la vez. La lección vieja era sobre profundidad. Esta es sobre personal.

La guía de Anthropic también aplica dentro de sesiones de Ultracode. Cada subagente que genera hereda cualquier nivel de esfuerzo que configures. Sube toda la sesión a xhigh por default y no estás pagando el premium de Fable 5 una vez. Lo estás pagando una vez por subagente, en paralelo, por tantos como Ultracode decida lanzar.

Donde Fable 5 Realmente Se Gana Su Precio

El 1 trabajo donde Ultracode se pagó solo completamente: auditar una integración de API de socio que había estado intocada por 2 años. Docenas de endpoints, sin manejo consistente de errores, la mitad de la lógica de retry duplicada a través de 3 módulos diferentes. Lo definí en alcance primero. Cada archivo en juego, cada restricción, no toques las firmas de webhook, no cambies los timeouts de retry, marca cualquier cosa que toque datos de pago en lugar de arreglarlo directamente. Luego solté Ultracode sobre ello.

15 minutos después tenía 3 subagentes corriendo en paralelo. 1 mapeando cada endpoint contra la spec real del socio, 1 reescribiendo la lógica de retry duplicada en 1 módulo compartido, 1 marcando cada lugar donde un request tocaba datos de pago sin tocar el código mismo. Quemó tokens rápido, igual que antes. Pero esta vez la quema compró algo real: un mapa completo de cada inconsistencia a través de la integración, una lista priorizada de fixes, y 3 de esos fixes ya enviados para cuando terminé mi café.

Ultracode no es una configuración para correr en todo, y tampoco es una para evitar. Se gana su precio en exactamente 1 categoría de trabajo: un proyecto que ya está definido en alcance y lo suficientemente grande como para que 12 subagentes paralelos superen a 1 modelo secuencial masticándolo archivo por archivo.

Para cualquier cosa más pequeña, el día a día, high effort y un prompt corto siguen siendo suficientes. Guarda Ultracode para el 1 trabajo que no puede hacer por ti: decidir qué está realmente en alcance.

Créditos de Sobra

La prueba real nunca fue el modelo. Es la disciplina de quien sea que esté sentado al teclado cuando Ultracode está a 1 click de distancia.

Define el alcance antes de tocarlo, y la diferencia entre una quema de cuota del 75% y un proyecto que se paga solo se reduce a esa 1 decisión. Hazlo bien y cierras el mes con créditos restantes, algo que el bando 1 rara vez logra.

Así que con lo que queda de los míos, estoy construyendo una pequeña app para practicar mi apertura de Juego Italiano.

Resulta que ninguna configuración de esfuerzo arregla una mala apertura de ajedrez. 🤓

Fuentes

Este post puede contener enlaces de afiliados. Si los clickeas, podría ganar una pequeña comisión (no te cuesta nada, y me ayuda a seguir enviando artículos de calidad todos los días para tu placer de lectura).