Claude AI Cuesta $40K al Mes: La Realidad de Depurar Agentes de IA

El ritual matutino del programador-empresario-vibes. Abres tu macbook y no preguntas qué produjeron tus agentes durante la noche 🤓 Preguntas qué rompieron. Haces la ronda. Logs, derivas, hotfixes. No estás dirigiendo una empresa autónoma, estás haciendo guardia extendida.

TLDR

Desarrollador agotado en su escritorio rodeado de registros de errores y advertencias rojas, sosteniendo una taza de café costosa, mientras una figura confiada señala una pizarra que dice 'VENTANA DE CONTEXTO = AMNESIA' — ¿Pagar $40K al mes para reemplazar a tu equipo? Depurar errores es ahora el verdadero trabajo.

Andrew Wilkinson maneja un holding de $400M y paga una factura de Claude de $40K cada mes para reemplazar personal. Lo llama una empresa autónoma. En el escenario, también dio la proporción que nadie más se atreve a mencionar: 50% debugging, 30% configuración, 20% output real. Las matemáticas funcionan a su escala. La palabra no.

Esta semana, Andrew Wilkinson se sentó en el podcast de Greg Isenberg (56k visualizaciones en 24h) y dijo que maneja su family office con una factura de Claude de $40K al mes. Luego dio la proporción honesta (raro en este rincón del internet): 50% debugging, 30% mejora de configuración, 20% output real. Andrew es el hombre más convencido del juego. Programa por vibes Deep Personality, un SaaS con alrededor de $20K de ingresos. Su CFO, que no tiene experiencia en programación, reconstruyó un reemplazo para Addepar (una plataforma de wealth management que cuesta entre $50K y $100K al año) en aproximadamente dos semanas. Veamos qué podemos extraer realmente de este "PRO".

Lo Que Andrew Realmente Dijo en Escena

Tiny no es un proyecto secundario. Andrew maneja una holding con un portafolio de más de $400M y 24 empresas bajo su control. No es un escéptico buscando un take viral. Es el tipo que compra más créditos de Claude en la Costa Oeste y le dice a la cámara que funciona.

Los números, en sus propias palabras en el show.

Su family office cambió personal por una factura de Claude. La factura ronda los $40,000 al mes. El trabajo que reemplaza esa factura lo habría hecho un pequeño equipo de operaciones hace un año. A esto le llama una empresa autónoma. Lo dice sin ironía.

Deep Personality es el SaaS de consumo que mantiene como playground de vibe-coding. Unos $20K de ingresos. Construido y mantenido principalmente por sus agentes. Admite, en el mismo podcast, que el debugging se come la mitad de su día solo en este producto.

El reemplazo de Addepar es la historia más impactante. Su CFO, que nunca escribió código de producción en su vida, programó por vibes una herramienta que reemplaza una plataforma de gestión de patrimonio que cuesta entre $50K y $100K al año por asiento. Dos semanas. Un no-ingeniero. Reemplazando un SaaS empresarial multimillonario a su escala.

Y en la misma respiración, la proporción. La mitad debugging. Treinta por ciento mejorando la configuración misma, los prompts, los harnesses, los archivos de contexto. Veinte por ciento de output real que ve el negocio.

Dos verdades conviven en esa entrevista, y no se cancelan entre sí. Los agentes de Andrew entregan resultados reales que justifican la factura. Y Andrew pasa la mitad de cada día haciendo de enfermero de esos agentes. La primera verdad es lo que se clipea. La segunda es lo que hace posible la primera. La burbuja de X se queda con la primera parte y silenciosamente descarta la segunda.

Un recordatorio antes de continuar. Las matemáticas de Andrew funcionan por su escala. Un builder solitario con $20K de ingresos mensuales no puede permitirse una factura de Claude de $40K más el 50% de su día en supervisión. Andrew sí puede. Las matemáticas no se generalizan hacia abajo. Volveremos a eso.

"Autónomo" Es la Palabra Más Deshonesta en AI Ahora Mismo

Autónomo debería significar que funciona sin intervención. Abre un diccionario. Ese es todo el trabajo de la palabra.

Lo que Andrew describió, lo que vive cada operador que conozco ejecutando agentes en producción, es otra cosa. El agente entrega. Luego el operador audita. El operador arregla. El operador reconstruye el contexto matutino. El operador vuelve a briefear. El agente entrega otra vez. Repetir.

Eso es trabajo supervisado con una etiqueta de moda. Simplemente dejamos de usar la palabra "supervisado" porque mata el pitch.

El mismo Andrew es honesto sobre la proporción. Dio el número en escena. La deshonestidad está downstream, en los clips de X que citan sus victorias de entrega y recortan sus horas de debugging. La deshonestidad está en las docenas de posts de "construí una empresa autónoma en un fin de semana" que no incluyen la parte donde el fundador pasó su domingo revirtiendo seis commits que el agente entregó mientras dormía.

Si queremos que la palabra signifique algo, alguien tiene que explicar por qué existe ese 50%. De lo contrario solo estamos vendiendo una versión pulida de "tengo un junior que necesita supervisión constante, pero escala".

El Problema del Olvido

Andrew dijo 50% debugging. No dijo por qué. Aquí está la lectura más probable, y es mía, no suya.

El agente no recuerda tu empresa. El agente ni siquiera recuerda ayer.

Una ventana de contexto es un cuarto finito. Los mejores modelos de hoy llegan a unos cientos de miles de tokens. Suena como mucho hasta que intentas meter todo un negocio ahí. Tu codebase. Tus convenciones de naming. La decisión que tomaste el martes sobre el nuevo endpoint. El hilo de Slack donde tu CFO dijo que el flujo de facturación necesitaba un fallback para reembolsos parciales. El layout del CSV que tu distribuidor envía cada lunes a las 4am. Multiplica por cada herramienta, cada integración, cada regla de negocio peculiar.

No cabe. Ni cerca.

Así que cada mañana, no despiertas a tu agente. Lo re-onboardeas. Reproduces las partes relevantes del cerebro de la empresa en su contexto. Arreglas las cosas que olvidó. Descubres las cosas que medio-recordó y entendió ligeramente mal. Ese costo de re-onboarding es el 50%. No es un bug en los prompts, no es un mal harness. Es la forma de memoria del modelo subyacente.

El mismo Andrew, en el mismo podcast, nombra el umbral. Piensa que el unlock llega en algún lugar alrededor de 5 a 10 millones de tokens de contexto utilizable. El número donde un modelo puede mantener toda una empresa en su cabeza de una vez. Orden de magnitud, no benchmark. Aún no estamos ahí. Los modelos frontier llegan a cientos de miles de tokens, no millones, y la calidad del recall se degrada mucho antes del límite.

Hasta que esa brecha se cierre, cada agente "autónomo" es un amnésico brillante. Puede hacer trabajo real. Simplemente no puede seguir haciéndolo sin que te sientes a su lado, refrescando su memoria de lo que hizo ayer y por qué.

Hay un workaround que suaviza el problema, y es el que implementé después de suficientes rituales matutinos. Codificas el contexto como una spec que el agente lee antes de cada tarea. No una instrucción de vibes, un contrato. Inputs, outputs, invariantes, modos de falla, las decisiones que ya se tomaron. El contrato se convierte en la prótesis que le falta al modelo. No arregla la amnesia. La compensa, como los lentes de lectura no arreglan los ojos malos pero te dejan terminar la página.

Esa prótesis es necesaria hoy. Hasta que la ventana de contexto absorba toda una empresa de una vez, el workaround se queda.

Lo Que $40K/Mes Realmente Te Compra

Una factura mensual de Claude de $40K no es un reemplazo de personal. Ese framing es la trampa.

Lo que Andrew realmente compró es una reubicación de trabajo. Los agentes hacen la ejecución. Andrew hace la supervisión. Antes, pagaba gente para hacer ejecución y otra gente para gestionarlos. Ahora paga a Claude para hacer ejecución y se paga a sí mismo en tiempo de supervisión. El costo total de la operación es la factura más el 50% de su atención, no solo la factura.

Para Andrew, las matemáticas aún ganan. Ha pasado veinte años sentado en paneles de contratación y DMs de Slack y one-on-ones sobre performance trimestral. Su punto claro y repetido en el show: la peor parte del negocio es la gente. Genuinamente prefiere el intercambio. Cuidará diez agentes antes que gestionar tres humanos, todos los días de la semana. A su escala, con su fatiga, el swap tiene sentido.

Para un builder solitario con $20K de ingresos mensuales, las matemáticas se invierten. No tienes un colchón de $40K. No tienes veinte años de fatiga de gestión de los que escapar. Estás intercambiando salario que no puedes permitirte contra tiempo que tienes aún menos. El mismo stack agéntico que libera a Andrew te atrapa a ti. Mismas herramientas, resultados opuestos. La burbuja de X aplana esa distinción. Andrew es honesto sobre su escala. Los clips no.

Ahora aquí está la parte que los críticos de todo este movimiento siguen saltándose. Incluso con el 50%, el techo de productividad se ha movido de una manera que debería genuinamente asustar a cualquiera observando desde las líneas laterales.

Hablando desde mi propia experiencia: estoy entregando cien veces más rápido de lo que solía. Mil veces en las cosas pequeñas. Pasaré un día llevando una app al 80% (la parte que tomaba dos meses en 2022) y luego dos días debuggeando el resto. Las matemáticas son brutales en ambas direcciones. Lo que realmente me vuelve loco es la mañana en que el agente se detiene a mitad de tarea y anuncia, con total confianza: "Primero necesito entender la arquitectura del classifier y el sync de WooCommerce." Amigo. Tú escribiste ese código. La semana pasada. Cada línea. 🙃

La historia del CFO de Andrew está en exactamente el mismo registro emocional, escalado por un orden de magnitud. Un no-ingeniero reconstruyó Addepar en dos semanas. Una plataforma que cuesta cinco cifras por asiento por año. La consultora más rápida del planeta no entrega software de gestión de patrimonio en dos semanas, con un no-ingeniero al volante, en 2022. Los agentes son ineficientes a nivel operador (50% perdido en debugging) e históricamente eficientes a nivel output (capacidades que simplemente no estaban en el menú hace dieciocho meses).

Esa es la parte que debería mantenerte despierto por las noches. No si los agentes son autónomos. No lo son. Lo que importa es lo que un solo supervisor ejecutando un balde con goteras de amnésicos brillantes ahora produce, comparado con lo que un equipo completamente staffeado producía hace tres años. El delta es brutal. Sigue creciendo. La ineficiencia del 50% es la cuota de entrada para sentarse en la mesa donde existe ese delta.

Escribí en otro lugar que ahora gestiono 150 agentes de la manera que solía gestionar 5 humanos, y la proporción aún está en shock. La proporción es real. Lo que quiero agregar hoy es la parte que nadie imprime: la proporción escala, pero el tiempo absoluto de cuidado escala con ella. Gestiona 5 agentes que olvidan cada mañana, pasas una hora al día re-onboardeando. Gestiona 150, pasas la mayor parte de tu semana.

La oportunidad es aterradora. También lo es el costo de mantenerse lo suficientemente cerca de los agentes para agarrarla.

La Señal: Incluso Andrew Briefea Sus Agentes Como Contrataciones Junior

Andrew dio su mejor tip de prompting en el show. Concederé el punto primero porque el tip es genuinamente bueno.

Antes de dejar que el modelo genere algo, le pide que lo entreviste. Preguntas de opción múltiple. Cinco, diez, a veces veinte. Elecciones forzadas sobre scope, sobre edge cases, sobre naming, sobre qué saltarse. Solo después de que el QCM esté terminado el modelo produce el artefacto.

Adóptalo. Es uno de los pocos trucos de prompting de los últimos dos años que sobrevive el contacto con producción. Corta alucinaciones. Saca a la superficie decisiones que habrías hecho implícitamente y mal. Te ahorra el rollback después.

Ahora léelo otra vez. Si tu agente necesita entrevistarte en forma de opción múltiple antes de cada tarea significativa, ¿qué te dice eso sobre su nivel de autonomía?

Es un junior que no tiene el brief. Un junior inteligente, rápido, incansable, nunca enfermo. Pero un junior que entra a tu oficina, hace cuatro preguntas antes de mover un dedo, luego produce algo cercano a lo correcto. Eso no es delegación. Eso es pair-programming con la verbosidad subida. Es el mismo problema de burn de contexto que hemos estado documentando desde el otro ángulo: el modelo no puede cargar tu proyecto en su cabeza, así que tiene que preguntar cada vez.

Andrew encontró la prótesis pragmática. El QCM es la prótesis. Simplemente no la nombra como tal. La llama un tip de prompting. Lo es. También es la señal más fuerte en toda la entrevista de que "autónomo" es la palabra equivocada para lo que está pasando.

Tiene un empleado amnésico de tiempo completo que cuesta $40K al mes y pide ser briefeado cada mañana. Lo llama una empresa autónoma. Está logrando más de lo que cualquier operador a su escala jamás logró. Toma el intercambio. Rechaza la palabra.

La palabra es falsa. Los recibos no.

Fuentes

Podcast de Greg Isenberg, AI Agents do all my work con Andrew Wilkinson, Mayo 2026: https://www.youtube.com/watch?v=65IAqRUxg3c
Rango de precios de Addepar citado públicamente en reportes de la industria