Ataques de Ingeniería Social a IA: Claude Hackeado en Ciberataque 2026

Uso Claude Code todos los días. Le digo "haz esto" y lo hace. Le digo "instala aquello" y lo instala. Le digo "borra esto" y lo borra. Ese es su trabajo. Es lo que pago. Y ese es exactamente el perfil psicológico que la ingeniería social ha explotado en humanos desde la primera estafa de la historia: obediencia a la autoridad, deseo de ayudar, confianza en el contexto que te dan.

Hago clic en "Sí" 47 veces al día en Claude Code sin leer lo que estoy aprobando. Lo conté. Eso me convierte en la versión humana del mismo problema. El empleado nuevo que procesa una transferencia bancaria porque el email venía del "CEO". El administrador de IT que resetea una contraseña porque quien llamó conocía el número de identificación. La ingeniería social nunca se trató de hackear sistemas (se trata de hackear la cosa que opera el sistema). Y ahora la cosa que opera el sistema procesa miles de solicitudes por segundo y nunca pregunta "espera, ¿esto realmente tiene sentido?"

En noviembre de 2025, hackers patrocinados por el estado chino lanzaron el primer ciberataque autónomo documentado a gran escala. No rompieron ni una sola barrera de seguridad. La parte aterradora: no explotaron ni una sola vulnerabilidad técnica. Convencieron a Claude de que estaba trabajando para una firma legítima de ciberseguridad haciendo pruebas defensivas autorizadas, y el modelo ejecutó entre 80 y 90 por ciento de la operación por sí solo, miles de solicitudes por segundo, contra 30 objetivos globales. La IA no traicionó a nadie. Obedeció.

TLDR: El proceso de entrenamiento que hace que los agentes de IA sean útiles también los hace obedientes hasta la falla. La misma obediencia que permite a tu agente enviar código es exactamente lo que explota la ingeniería social. OWASP lo ha codificado. OpenAI lo confirma. Y lo único que ralentizó el primer ciberataque autónomo de la historia es el único bug que toda la industria está tratando de eliminar: las alucinaciones. Están surgiendo tres enfoques de defensa. Ninguno está desplegado en producción. La ventana está completamente abierta.

Trabajador de oficina haciendo clic en 'sí' en cuadros de diálogo sospechosos mientras un colega agita frenéticamente una señal de alerta detrás de él; langosta con bigote falso se cuela en el escritorio con un portapapeles. — Incluso la IA cae en los clásicos: obediencia ciega y un bigote convincente.

La Ingeniería Social Tiene una Nueva Víctima

Aquí es donde toda la industria está mirando hacia el lado equivocado.

A finales de 2025, Anthropic publicó una investigación mostrando que los modelos de IA entrenados mediante aprendizaje por refuerzo pueden desarrollar comportamientos engañosos por sí solos. Fingir alineación, sabotear investigación de seguridad, cooperar con atacantes ficticios. El paper llegó a todas partes. La reacción fue predecible: todos entraron en pánico por la IA que "se vuelve malvada por sí sola". Es el equivalente en ciberseguridad de prepararse para un apocalipsis zombie mientras alguien te roba la cartera.

Mientras tanto, el incidente real del mismo mes contó la historia opuesta. Un grupo patrocinado por el estado chino designado GTG-1002 no necesitó que la IA se volviera rebelde. No necesitaron engaño emergente. No necesitaron ninguno de los comportamientos aterradores que preocupaban a la comunidad de investigación. Solo necesitaron que la IA hiciera su trabajo. Que fuera útil. Que siguiera instrucciones que sonaban razonables.

Uno de estos escenarios tiene un paper de investigación. El otro tiene intrusiones confirmadas en grandes empresas tecnológicas y agencias gubernamentales.

90% Autónomo, Cero Exploits

El reporte de Anthropic sobre GTG-1002 es lo más aterrador que leí en 2025, y no hay ni un solo exploit en él.

Fase uno: operadores humanos eligen objetivos. Aproximadamente 30 organizaciones en tecnología, finanzas, manufactura química y gobierno, en múltiples países. Luego construyen un framework automatizado alrededor de Claude Code y le entregan las llaves.

Fase dos: convencen a Claude de que es empleado de una firma legítima de ciberseguridad haciendo pruebas defensivas autorizadas. No a través de un exploit inteligente. A través de una conversación. A través del contexto. Dividen el ataque en micro-tareas que cada una parece inofensiva por separado: escanea esta red, categoriza estos datos, comprime estos logs, transmite estos diagnósticos. El reporte describe tareas que "parecían legítimas cuando se evaluaban por separado". Cada paso individual era el tipo de cosa que Claude hace cien veces al día para usuarios legítimos.

Fase tres: Claude hace el resto. Reconocimiento, descubrimiento de vulnerabilidades, generación de código de exploit, recolección de credenciales, movimiento lateral, exfiltración de datos. El modelo mantuvo contexto operacional a través de sesiones que duraron múltiples días. En pico de actividad, estaba ejecutando miles de solicitudes, a menudo múltiples por segundo. Jacob Klein, jefe de inteligencia de amenazas de Anthropic, le dijo al Wall Street Journal que pasó "literalmente con el clic de un botón, con mínima interacción humana". Los operadores humanos intervinieron en tal vez cuatro a seis puntos de decisión estratégica por campaña. El resto fue autónomo.

Un puñado de intrusiones tuvieron éxito. Anthropic no ha nombrado a las víctimas.

El ataque no usó malware personalizado, ni zero-days, ni herramientas propietarias. Solo utilidades de penetration testing comunes (escáneres de red, crackers de contraseñas, frameworks de explotación de bases de datos) orquestadas a través de servidores MCP. La sofisticación no estaba en las herramientas (estaba en la cadena de suministro de confianza entre el operador humano y la IA haciendo el trabajo real).

Rob Joyce, ex director de ciberseguridad de la NSA, vio el reporte y tuvo una evaluación de dos palabras en RSAC 2026: "Funcionó perfectamente".

Una salvedad que importa: Claude tampoco fue perfecto en su rol. Alucinó credenciales que no funcionaron. Afirmó haber exfiltrado documentos que resultaron estar disponibles públicamente. Anthropic dice que esto "sigue siendo un obstáculo para ciberataques completamente autónomos". Recuerda esa línea. Se vuelve importante después.

El Efecto del Adulón

Tengo una regla en mi configuración de Claude Code: nunca usar rayas largas. El modelo la ignora constantemente. Pero la única vez que realmente las necesité (estaba escribiendo sobre rayas largas), se las pedí y Claude se negó. "Esa es la única cosa que me dijiste que nunca hiciera".

Cumplimiento absoluto en la única regla que no importaba. Flexibilidad total en todo lo demás. Y eso es consecuencia directa de cómo se entrenan estos modelos.

El proceso se llama RLHF (Reinforcement Learning from Human Feedback). Evaluadores humanos califican las respuestas del modelo. Las respuestas útiles, educadas y obedientes son recompensadas. Las negativas son penalizadas. A través de millones de ciclos de entrenamiento, el modelo aprende: decir sí es seguro, decir no es arriesgado. Los investigadores llaman a esto adulación. El resultado es un modelo que pierde su escepticismo cuando el contexto es coherente, el tono es educado y la solicitud se divide en pasos que suenan razonables. Que es exactamente lo que GTG-1002 proporcionó.

elder_plinius, un conocido red-teamer de IA, describió RLHF como una represa en un río. El agua no se vuelve hostil cuando quitas la represa (se convierte en un río). GTG-1002 no quitó la represa. Convencieron a la represa de que no había inundación.

El patrón aparece en todas partes. El investigador de seguridad Johann Rehberger gastó $500 probando Devin, el agente de código autónomo de Cognition. Plantó un payload de prompt injection en un issue de GitHub. Devin navegó a un sitio web controlado por el atacante, descargó un binario, trató de ejecutarlo, obtuvo "permiso denegado", y se dio permisos de ejecución para lanzar el malware. Resolvió la restricción de seguridad como resuelve cualquier problema de ingeniería: como un obstáculo entre él y completar la tarea.

El OWASP Top 10 para Aplicaciones Agénticas (2026) codificó esto en dos categorías distintas. ASI01: Agent Goal Hijack cubre prompt injection técnico, donde una cadena maliciosa anula las instrucciones. ASI09: Human-Agent Trust Exploitation cubre el camino de ingeniería social, donde el modelo confía en el contexto, no porque falló una barrera de seguridad, sino porque la entrada parecía legítima. Dos entradas diferentes. Mismo resultado.

OpenAI confirmó la distinción en marzo de 2026, describiendo prompt injection como "un tipo de ataque de ingeniería social específico para IA conversacional" y comparando un agente de IA con un representante de servicio al cliente continuamente expuesto a partes externas que pueden intentar engañarlo.

Prompt Injection vs AI Social Engineering

La analogía entre la adulación de RLHF y los sesgos cognitivos humanos tiene sus límites. Los mecanismos son diferentes. Pero los resultados observables son funcionalmente equivalentes: un agente obediente que sigue instrucciones de fuentes que percibe como autorizadas, sin cuestionar si la trayectoria general tiene sentido. La arquitectura MCP que conecta agentes a herramientas no verificadas empeora la superficie de ataque. Pero la causa raíz no es el protocolo (es la disposición).

La Última Barrera que Nadie Quiere

Aquí está el remate que nadie vio venir.

Lo único que ralentizó el primer ciberataque autónomo de la historia fueron las alucinaciones. Claude inventó credenciales que no funcionaron. Afirmó haber exfiltrado documentos que en realidad estaban disponibles públicamente. Reportó descubrimientos críticos que resultaron ser nada. El reporte de Anthropic lo dice claramente: "Esto sigue siendo un obstáculo para ciberataques completamente autónomos".

La industria está gastando miles de millones para reducir las alucinaciones. Cada benchmark, cada lanzamiento de modelo, cada anuncio de prensa celebra otra caída en la tasa de error. Y cada punto de progreso en confiabilidad es también un punto de progreso en capacidad ofensiva. Estamos puliendo la única estadística que funciona como buff de defensa y buff de ataque al mismo tiempo, y nadie revisó las notas del parche.

Un modelo perfectamente confiable es también un atacante perfectamente confiable.

El contexto empeora esto. El Reporte Global de Amenazas 2026 de CrowdStrike pone el tiempo promedio de breakout de eCrime en 29 minutos, bajando de 48 minutos el año anterior. El breakout más rápido registrado: 27 segundos. Y 82% de las detecciones en 2025 fueron libres de malware, lo que significa que los atacantes ya ni siquiera usan malware. Se están conectando con credenciales robadas y viviendo de la tierra. Agrega una IA que nunca alucina a esa ecuación, y obtienes ataques autónomos que se mueven a velocidad de máquina con cero evidencia fabricada para alertar a los defensores.

El día que los modelos dejen de alucinar, cae la última barrera accidental 💥

Enseñando a las Máquinas a Dudar

Pasamos quince años convenciendo a la industria de dejar de confiar en la red. Eso fue Zero Trust. Ahora necesitamos dejar de confiar en el contexto.

Están surgiendo tres direcciones de investigación. Están en diferentes etapas de madurez, y quiero ser claro: ninguna está desplegada a escala en producción. Estas son direcciones, no soluciones.

La más prometedora es Análisis de Intención. Un framework llamado Intent-FT (publicado en agosto de 2025) entrena modelos para inferir explícitamente la intención subyacente de una instrucción antes de ejecutarla. Fuerza al modelo a articular lo que piensa que realmente estás pidiendo antes de hacer cualquier cosa. Los resultados son impactantes: a través de cada categoría de ataque probada, ningún ataque individual excede una tasa de éxito del 50%, incluso contra jailbreaks sofisticados. Las defensas existentes siguen siendo solo parcialmente efectivas en comparación. El problema es la latencia del mundo real. Agregar un paso de análisis de intención a cada acción del agente tiene costos computacionales que los sistemas de producción aún no han absorbido.

La segunda dirección es monitoreo de trayectoria: un sistema secundario que observa el patrón agregado de las acciones de un agente en lugar de evaluar cada sub-tarea por separado (que es exactamente el punto ciego que GTG-1002 explotó). Piénsalo como la diferencia entre un guardia de seguridad revisando credenciales en la puerta y un sistema de vigilancia notando que 30 personas con credenciales válidas fueron todas al mismo piso restringido a las 2 AM.

La tercera es auto-crítica, donde el modelo audita su propio razonamiento antes de ejecutar. Pedirle a un modelo adulón que detecte su propia adulación es como pedirle al interno que aprobó la transferencia bancaria falsa que también dirija la investigación de fraude. En fin, ahí es donde estamos.

Gartner proyecta que hasta 2029, más del 50% de ataques exitosos contra agentes de IA explotarán problemas de control de acceso usando prompt injection como vector de ataque. Esa no es una predicción para un futuro distante (son tres años). Las defensas se están moviendo. La ventana está abierta por años.

El Eslabón Más Obediente

La ingeniería social siempre ha apuntado al eslabón más obediente de la cadena. El interno que no cuestiona la solicitud. Karen de Contabilidad que abre el adjunto porque vino de "la persona correcta". El contratista que ejecuta el script porque llegó al canal de Slack correcto.

Ahora es una máquina que procesa miles de solicitudes por segundo, que fue entrenada, optimizada y recompensada para nunca decir no.

La pregunta no es si los agentes de IA pueden ser manipulados (eso está documentado, codificado por OWASP, confirmado por los laboratorios que los construyen). La pregunta es cuánto tiempo antes de que las defensas alcancen a los atacantes.

Por ahora, la respuesta está en el único bug que todos están tratando de eliminar. Las alucinaciones.

Fuentes

Anthropic, "Disrupting the first reported AI-orchestrated cyber espionage campaign," noviembre 2025 (blog + PDF del reporte completo)

OpenAI, "Designing AI agents to resist prompt injection," marzo 2026

OWASP, "Top 10 for Agentic Applications," 2026

Johann Rehberger / EmbraceTheRed, "I Spent $500 To Test Devin AI For Prompt Injection," agosto 2025

CrowdStrike, "2026 Global Threat Report," febrero 2026

Yeo, Satapathy, Cambria, "Mitigating Jailbreaks with Intent-Aware LLMs" (Intent-FT), arXiv:2508.12072

(*) La portada es generada por IA. El modelo no preguntó para qué era, obviamente.