Anthropic vs Google Agentes de IA Gestionados: Mismo Producto 2026

En abril de 2026, Anthropic lanzó Claude Managed Agents en beta pública. 3 semanas después en Google I/O, Google desplegó Managed Agents dentro de la API de Gemini, envuelto en una suite de desarrollo llamada Project Antigravity. Si has estado siguiendo hacia dónde se dirige el vibe-coding (más allá de la demo, hacia producción), esta es la señal que estabas esperando.

Ambos keynotes usaron palabras diferentes. Ambas páginas de precios parecen no tener relación. La prensa los cubrió como visiones competidoras.

No son visiones competidoras. Misma arquitectura, 2 logos en el contenedor.

Pasé unos días leyendo ambos conjuntos de documentación lado a lado. El nivel de convergencia es demasiado flagrante para tratarlo como coincidencia o curiosidad. Es una señal directa sobre dónde está aterrizando realmente la captura de valor en la infraestructura de IA en 2026.

Lo que me impactó leyendo ambos conjuntos de docs: ambos equipos saben exactamente lo que están haciendo. No convergieron por accidente. Resolvieron el mismo problema de la misma manera porque realmente solo hay 1 forma que funciona. Y esa forma no es el modelo. Es el runtime.

TLDR: Anthropic y Google lanzaron plataformas de agentes gestionados con 2 semanas de diferencia. Quita el branding y obtienes 1 arquitectura idéntica: mismo sandbox, mismo cable MCP, mismo medidor de facturación de 3 ejes. No estoy seguro de qué parte debería preocuparte más: lo obviamente igual que es, o lo que esa igualdad está realmente diseñada para poseer.

Escena de oficina dividida con dos trabajadores en escritorios idénticos mostrando la misma interfaz de software con logos de diferentes empresas — Las grandes mentes piensan igual. O simplemente copian la tarea.

El Diagrama Detrás de Ambos Keynotes

Ambos productos implementan la misma separación física: el "cerebro" del modelo corre en la nube del proveedor. Las "manos" de ejecución de herramientas corren en un sandbox Linux efímero que el proveedor también posee. Una sesión persistente conecta ambos por horas, días o semanas.

Anthropic lo llama "separación de cerebro y manos". Google no se molesta en nombrarlo. Simplemente es como funciona la API de Managed Agents. Palabras diferentes. Diagrama idéntico.

En ambos sistemas, haces una sola llamada API para aprovisionar un agente. El proveedor levanta un contenedor Linux aislado en su propio centro de datos. El modelo decide qué hacer. Cuando quiere ejecutar comandos shell, editar archivos, navegar la web, o llamar un servicio externo, esas acciones se ejecutan dentro de ese contenedor (no en tus servidores, no en una imagen Docker que mantienes, no en una Lambda que aprovisionaste). El contenedor del proveedor, en la red del proveedor, escribiendo a los logs de auditoría del proveedor.

Recibes de vuelta un stream de eventos: el razonamiento del modelo, las llamadas a herramientas, los outputs. Nunca tocas la máquina. No puedes. Ese es el producto.

Para cualquiera que haya pasado por el viaje de vibe-coding-a-producción, esto debería registrarse como exactamente la decisión de infraestructura que ya estabas tomando manualmente. Vibe Coding, For Real es donde profundicé exactamente en este tradeoff, donde "quién posee el runtime" deja de ser teórico.

Las 5 Piezas Que Nadie Renombró

TITLE "The Managed Agent Stack" + subtitle "Anthropic vs Google: 5 components, 1 architecture". Metaphor: two parallel assembly lines running left to right, both producing identical boxes at the end, labeled BRAIN and HANDS. Style: engineer blueprint on navy background, white ink, grid paper texture, technical font. Palette: navy #1B2A4A, white #FFFFFF, amber #F5A623, slate #4A5568, red-orange #E05252. Content: two rows (Anthropic top, Google bottom), each with 5 stations labeled SANDBOX, SESSIONS, MCP VAULT, ORCHESTRATION, EVAL/MEMORY. Corresponding stations connected by vertical dotted lines showing "identical". Highlight: MCP VAULT station glows amber on both rows, with a padlock icon. Legend: sticky note bottom-left "dotted line = functionally identical / solid line = vendor-specific naming only". Footer: copyright rentierdigital.xyz. NOT flat corporate SaaS vector, NOT minimalist startup aesthetic. — Anthropic vs Google: Componentes Idénticos de Arquitectura de Agentes

Una vez que aceptas el marco de cerebro-y-manos, el resto del parecido se desprende de ahí. Ambas plataformas envían 5 componentes, a menudo con nombres que son apenas traducciones disfrazadas entre sí.

Sandbox efímero. Anthropic aprovisiona un contenedor Linux fresco por sesión, monta archivos en /workspace, y expone bash, operaciones de archivos, y navegación web como herramientas nativas. Google hace lo mismo: un sandbox Linux, una herramienta code_execution, una herramienta google_search, una herramienta url_context. Ambos por defecto niegan todo networking. Ambos te permiten montar archivos desde almacenamiento en la nube o clonar un repo Git al inicio.

Sesiones con estado con checkpointing. Anthropic preserva el sistema de archivos del contenedor, paquetes instalados, e historial de conversación a través de desconexiones, reteniendo checkpoints por 30 días de inactividad. Google hace lo mismo vía la API de Interactions: pasa un previous_interaction_id y el servidor reconstruye todo el contexto previo. Ambos llaman a esto ejecución "con estado". Ambos abandonaron sus APIs originales sin estado como la primitiva agéntica.

El protocolo de cable: MCP. Ambos productos convergieron en el Model Context Protocol (el estándar que Anthropic liberó como open source a finales de 2024) como la forma para que los agentes hablen con sistemas externos. Ambos exponen un Vault para credenciales, así las API keys nunca aparecen en tus prompts de agente o tu código. Ambos inyectan credenciales en el límite de salida de red. Google agregó "MCP Tunnels" para acceso de red privado solo de salida en mayo de 2026. Anthropic envió la misma capacidad bajo el mismo nombre el mismo mes. Si has estado pensando sobre por qué los CLIs aún superan al MCP gestionado para ciertas cargas de trabajo, esta convergencia cambia directamente ese cálculo.

La capa de orquestación. La orquestación multi-agente se movió de "framework de terceros que atornillas" a "característica nativa de API" en ambos ecosistemas casi exactamente al mismo tiempo. Versión de Anthropic: un lead_agent declara una lista de sub-agentes y sintetiza sus outputs paralelos. Versión de Google: el Shared Agent Harness de Antigravity instancia sub-agentes paralelos desde un solo proyecto. Ambos canibalizan la razón de existir de LangGraph, CrewAI, y LlamaIndex.

Capas de evaluador y memoria. Anthropic envía "Outcomes": un segundo LLM que califica el output del agente contra una rúbrica y hace loop hasta que pasa. Google envía hooks de ciclo de vida (post_tool_call, post_turn) que juegan esencialmente el mismo rol, checkpoints determinísticos dentro de un loop probabilístico. Anthropic envía "Dreaming" para consolidación de memoria a largo plazo entre sesiones. Google envía compactación automática de contexto en aproximadamente 135K tokens con retención de "variables de estado críticas". Mecanismos diferentes, mismo trabajo: evitar que el agente se olvide de sí mismo y que envíe basura con confianza. (Opus se desempeña notablemente mejor que Sonnet en los loops de evaluador, por cierto. Factoriza eso en tu enrutamiento de modelo antes de comprometerte con un tier.)

La Trampa de Facturación de 3 Ejes

La mayoría de builders saltan directo a los docs del sandbox. La página de facturación es donde la arquitectura se revela.

Antes: ambas plataformas usaban precios simples por millón de tokens. Podías estimar tu factura mensual en una servilleta. Tu equipo de FinOps estaba cómodo, relativamente.

Después: ambas compañías abandonaron la facturación solo por tokens exactamente al mismo momento, y ambas lo reemplazaron con 3 medidores simultáneos:

Tokens consumidos (entrada y salida, con descuentos agresivos de caché en contexto repetido)
Segundos de runtime activo: Anthropic factura alrededor de $0.08 por hora de tiempo de contenedor mientras status = running. Google factura horas de contenedor esencialmente de la misma manera vía Vertex/AI Studio, con el medidor pausando durante esperas inactivas por entrada del usuario.
Llamadas específicas a herramientas: búsqueda web facturada a fracciones de centavo por consulta, encima de todo lo demás.

El tiempo inactivo es gratis en ambos sistemas. Esperar confirmación humana es gratis. El reloj solo corre cuando el agente está activamente razonando o ejecutando. Esa es una mejora significativa sobre modelos más antiguos de horas-contenedor.

Hay un efecto perverso de segundo orden que ambas páginas de precios revelan una vez que haces las matemáticas: modelos más baratos pueden costar más. Un agente Haiku o Flash que toma 5 iteraciones para resolver lo que Opus o Pro resuelve en 1 termina quemando 5x los segundos de runtime, 5x las llamadas a herramientas, y una fracción no trivial de los ahorros de tokens. El problema de optimización ya no es "elige el modelo más barato". Es "encuentra el modelo cuya tasa de falla por tarea es lo suficientemente baja que el medidor de runtime no se coma tus ahorros". Ningún proveedor tiene un dashboard que te diga cuál es ese para tu carga de trabajo. Te enterarás en la factura. 😅

Donde Realmente Divergen

3 diferencias reales. Estas son las que deberían afectar tu elección.

Postura de compliance. Los Managed Agents de Anthropic explícitamente no son elegibles para cobertura Zero Data Retention o HIPAA BAA en su forma actual, porque los checkpoints persistentes tienen que vivir en algún lugar, y ese lugar es el almacenamiento de Anthropic. La oferta de Google se enruta a través del sobre de compliance existente de Vertex AI, que es más amplio en virtud del historial empresarial de GCP. Si estás en salud, defensa, o finanzas reguladas, esta brecha es lo único que importa este trimestre.

La escotilla de escape auto-hospedada. Anthropic reconoció el problema de compliance y envió sandboxes auto-hospedados en mayo de 2026: el cerebro se queda en su nube, las manos se mueven a tu infraestructura vía socios como Cloudflare, Modal, Vercel, y Daytona. Google no ha enviado un equivalente. Si mantener la ejecución dentro de tu perímetro de red es no-negociable, Anthropic actualmente gana esto.

La superficie de desarrollador. Google empaquetó una app de escritorio (Antigravity 2.0), el CLI agy, y un SDK de Python en un solo ecosistema con sincronización bidireccional. Anthropic envía una API y deja que el ecosistema construya las superficies. Si eso es una característica o un bug depende enteramente de si quieres un IDE pulido propiedad del proveedor o una API flexible que envuelves en tu propia herramienta.

Todo lo demás: modelo de sandbox, ejes de facturación, MCP, multi-agente, evals, memoria, vault, checkpoints. Mismo producto.

Por Qué Convergieron

Esto no es coincidencia. Es la forma natural del problema, y entender esa forma te hace un comprador menos ingenuo.

Si eres un proveedor de modelos fundacionales en 2026, el modelo mismo es la capa más fácilmente comoditizable de tu stack. Los clientes enrutan Haiku para tareas baratas, Sonnet para medianas, Opus para difíciles, Gemini para multimodal, GPT para lo que quede. Hacen benchmark trimestralmente y cambian rutas mensualmente.

El modelo, lo rentas. El runtime acumula lock-in con cada llamada a herramienta y checkpoint. Así que ambos proveedores hicieron lo obvio y alcanzaron el runtime al mismo tiempo, con la misma respuesta arquitectónica, porque realmente solo hay 1 respuesta arquitectónica que funciona.

En realidad, déjame ponerlo diferente. La dinámica del runtime es lo que los builders son más lentos en internalizar, y vale la pena sentarse con eso por un segundo. Una vez que tu cliente ha cableado sus servidores MCP en tu Vault, almacenado sus credenciales en tu sistema de gestión de llaves, escrito sus prompts de agente contra la semántica de tu sandbox, configurado su pipeline de auditoría contra tu esquema de eventos, y acumulado 30 días de estado de checkpoint en tu capa de almacenamiento, cambiar proveedores deja de parecer una tarde de cambios de config y empieza a parecer una migración de nube: proyecto de múltiples meses, aprobación cross-funcional, involucramiento del CFO, todo el paquete.

El daño colateral es el ecosistema de orquestación de terceros. LangChain, LangGraph, LlamaIndex, CrewAI: esos frameworks existían para pegar una API de modelo sin estado con un ambiente de ejecución con estado que aprovisionabas tú mismo. Ambos proveedores acaban de absorber ambas mitades. La capa de pegamento no tiene nada más que pegar.

Trabajando con ambos ecosistemas los últimos 6 meses, el patrón ya era visible en cómo ambas compañías estaban silenciosamente expandiendo sus APIs para absorber más del stack. El anuncio del runtime gestionado fue menos una sorpresa que una formalización de algo ya en marcha. La brecha de 2 semanas entre lanzamientos fue una coincidencia de calendarios de release. La decisión subyacente fue tomada meses antes por ambos equipos, probablemente independientemente, después de mirar el mismo problema de pizarra.

(Pequeña digresión que no tiene nada que ver con agentes: una panadería cerca de mi apartamento cambió dueños dos veces en 3 años. Cada nuevo dueño, independientemente, trajo la misma máquina de espresso y la misma receta de croissant. Nunca habían hablado. A veces solo hay 1 respuesta correcta, y la convergencia es simplemente cómo se ve cuando 2 equipos separados la encuentran.)

4 Cosas Que Hacer Antes de Comprometerte

Trata el runtime del agente como el riesgo de migración que es. Arquitecta tus prompts, herramientas, y servidores MCP para ser portables. El minuto que empiezas a usar tipos de eventos específicos del proveedor o primitivas de orquestación sin análogos del otro lado, has duplicado tu costo de salida.

No pongas tu única copia de estado importante dentro de un checkpoint del proveedor. Persiste lo que realmente te importa (outputs, trails de auditoría, artefactos intermedios) a almacenamiento que controlas. Trata el estado de sesión del proveedor como caché, no fuente de verdad.

Mide costo de runtime por tarea, no por token. La facturación de 3 ejes hace que el costo por token sea el número menos informativo en tu factura. Etiqueta cada corrida de agente con un tipo de tarea y una elección de modelo, luego observa las columnas de runtime-seconds y tool-call más que la columna de tokens.

Elige el lado con la postura de compliance que necesitas ahora, no el que tiene la mejor demo. Las demos son intercambiables. Los docs de compliance no.

Si aún estás descubriendo cómo estructurar tus prompts de agente antes de comprometerte con un runtime gestionado, el framework de contratos de prompt que construí vale la pena leer primero. Entrar con un enfoque estructurado a la arquitectura de prompts hace la evaluación más limpia: sabrás exactamente qué estás entregando.

Managed Agents, ambas versiones, es un producto genuinamente bueno. La ganancia de productividad es real y grande. Antes: aprovisionar un sandbox seguro, cablear rotación de credenciales, construir un pipeline de eventos debuggeable. Semanas de plomería. Ahora es 1 llamada API. Difícil argumentar contra eso.

El precio: tu runtime ya no es tuyo. El sandbox es de ellos, y también todo lo que fluye de esa primera llamada API (credenciales, logs, tu estado de agente acumulándose en sus checkpoints). Dentro de unos años mirarás atrás y pensarás que esto se sintió exactamente como Lambda en 2019: hiciste el mismo cálculo, y probablemente fue el correcto.

Así que elige tu proveedor. Pero elige con lock-in ya incluido en el precio. El modelo, lo puedes cambiar cualquier lunes por la mañana. El runtime es una migración de nube, y no haces eso entre 2 copas de Saint-Émilion.

Fuentes

Documentación de beta pública de Anthropic Managed Agents, abril 2026
Google I/O 2026: Anuncio de Project Antigravity y Gemini Managed Agents
Anuncio de sandboxes auto-hospedados de Anthropic, mayo 2026 (partnerships con Cloudflare, Modal, Vercel, Daytona)

Este post puede contener enlaces de afiliados. Si los clicas, podría ganar una pequeña comisión — no te cuesta nada, y me ayuda a seguir enviando artículos de calidad todos los días para tu placer de lectura.