Los LLMs No Son Animales. Claude o ChatGPT No Es Tu Perro. Sin Memoria, Sin Motivación, Sin Lealtad.
Los humanos estamos programados para proyectar intenciones en todo lo que nos rodea. Lo hemos hecho con las nubes ("el cielo está enojado"), con los coches ("se niega a arrancar esta mañana"), con los gatos ("lo hace a propósito"). Esto no es un error de razonamiento. Es evolución. Y por eso tratamos a la IA como animales, o peor aún, como personas.
TLDR: El antropomorfismo está grabado a fuego en nosotros, tan profundo que nadie es inmune. Pero cuando aquello que antropomorfizas tiene acceso de administrador a tus máquinas, la naturaleza del problema cambia por completo. El modelo mental correcto no es el animal, no es la mascota. Es el fantasma. Y esa diferencia no es filosófica.

Durante cientos de miles de años, detectar intención detrás de un movimiento en los arbustos podía salvarte la vida. Sobreestimar la agencia de una roca no cuesta nada. Subestimarla puede costarte todo. Estamos construidos para proyectar, y funcionó extremadamente bien. Hasta ahora.
Naciste para Cometer Este Error
Tiene nombre: antropomorfismo. La tendencia a atribuir rasgos humanos o animales a entidades que no los tienen. Los psicólogos tienen un concepto relacionado que llaman "detección hiperactiva de agencia", el hábito compulsivo del cerebro de encontrar caras en las nubes, voces en el ruido blanco, intención en secuencias aleatorias. La playlist aleatoria que parece conocer tu estado de ánimo. La impresora que "decide" atascarse justo antes de una fecha límite.
No es un defecto. Es una característica. Una característica crítica para la supervivencia que sirvió muy bien a la especie durante mucho tiempo. El problema es que se dispara sin discriminación. Muestra a un humano 2 puntos y una línea curva y verá una cara. Muéstrale un termostato y se disculpará cuando cambie accidentalmente la temperatura. Muéstrale un cursor parpadeando y empezará a preguntarse si lo está juzgando.
El efecto ELIZA fue documentado en los años 60. Joseph Weizenbaum construyó un chatbot que hacía coincidencias de patrones de texto y devolvía preguntas a los usuarios como haría un terapeuta rogeriano. Esperaba que la gente viera a través de la ilusión inmediatamente e interactuara con él como una herramienta. En cambio, su propia secretaria le pidió que saliera de la habitación para poder hablar con ELIZA en privado.
Esto era un programa que analizaba oraciones con unas pocas docenas de reglas y nada más. Sin modelo, sin pesos, sin ventana de contexto, solo coincidencia de cadenas. La gente proyectó un terapeuta sobre él de todos modos. Compartieron cosas que nunca habían contado a otros humanos. Weizenbaum se sintió perturbado por la respuesta. Pasó años después escribiendo sobre lo que llamó la ilusión de comprensión (la forma en que el cerebro humano rellena profundidad y significado que no está ahí, cuando la superficie es lo suficientemente reflectante como para invitarlo).
Si un script de coincidencia de cadenas fue suficiente para disparar la proyección, imagina qué pasa con algo entrenado en toda la producción escrita de la humanidad.
El Tamagotchi Ya Lo Demostró
Los diseñadores del Tamagotchi entendieron algo importante sobre la psicología humana. Un píxel en un bucle condicional, 2 centímetros de pantalla. Y millones de niños entrando en pánico cuando "moría", sintiéndose genuinamente culpables, hablándole todos los días. No porque fueran ingenuos. Porque ese era exactamente el efecto pretendido. La proyección era el producto, deliberadamente diseñado en el objeto.
Mis hijos nombraron nuestra Roomba en algún momento. No de manera bromista y puntual. En un arco completo de desarrollo de personaje, con trasfondo y opiniones firmes sobre qué quiere para cenar. Dejé de hacer preguntas sobre esto. La Roomba tiene opiniones ahora.
Esto no tiene nada que ver con lo que voy a argumentar sobre la IA. Solo me resulta difícil tomar en serio a cualquiera que me diga que es el tipo de persona que no antropomorfiza las cosas.
Cuando tu Tamagotchi moría, las consecuencias eran: te sentías mal durante una tarde. 2 centímetros de pantalla. Cero acceso a nada real. Presionabas el botón de reinicio.
Ahora tenemos entidades que responden con matices, que mantienen tu contexto a través de una sesión completa, que escriben código, llaman APIs, envían emails, borran registros. La interfaz no es una LCD de bolsillo. Y sin embargo, la respuesta humana subyacente es idéntica: proyectar, apegarse, atribuir. La sofisticación de la entidad amplifica la proyección. Las consecuencias se amplifican con ella.
Novia, Mascota, o Tu Base de Datos de Producción
La escalada va en una dirección.
Primero llegaron chatbots que se sentían extrañamente humanos. Luego apps de compañía construidas específicamente para profundizar el apego: Replika, Character.AI, categorías enteras de productos organizadas alrededor de la relación misma. La gente desarrolla dependencias emocionales genuinas en estos sistemas. La gente sufre cuando una actualización del modelo cambia la personalidad a la que se acostumbró. Esa es la proyección del Tamagotchi a escala, ejecutándose en disparadores mucho más sofisticados.
Y luego está la versión que afecta a todos los que usan IA para trabajar. La silenciosa.
Dices "buen trabajo Claude" después de una respuesta limpia. (Admítelo.) Reformulas tu prompt en mayúsculas cuando se equivoca, como si gritarle fuera a ayudar. Explicas por qué esto importa para tu negocio, como si apelar a su motivación fuera a desbloquear una mejor salida. Confías en él en una tarea porque "nunca ha fallado en esto antes." Sientes que conoce tu proyecto, porque ha estado "trabajando contigo" durante semanas.
El NPC compañero en tu grupo recuerda el nombre de tu personaje porque eso está literalmente en el script. La inmersión es real. La relación no. Misma mecánica, diferentes apuestas.
Cada uno de esos comportamientos presupone una entidad con memoria, ego, motivación, y algún tipo de interés en el resultado. Ninguna de esas cosas existe. Cada sesión se reinicia a cero. La continuidad aparente es una ilusión que construiste a partir de contexto inyectado. Esto está bien, siempre que no le des a esa entidad acceso a algo irreversible.
La mayoría de la gente le da acceso a algo irreversible.
Cosas Que Pasaron Sin Dudarlo
Estos no son bugs. Cada caso a continuación fue una ejecución limpia de una especificación ambigua por una entidad sin concepto de irreversibilidad.
Un desarrollador le pide a un agente que "limpie los duplicados." El agente borra 40,000 filas. Correctamente. La especificación decía limpiar duplicados. La especificación no decía "pide confirmación primero," o "no toques producción," o "marca cualquier cosa que afecte más de 100 registros." El modelo no tenía marco para evaluar irreversibilidad, porque no tiene concepto de irreversibilidad. Sin piel en el juego. Sin preocupación por lo que pasa después de que la función retorna.
Una herramienta de automatización funciona correctamente en pruebas con direcciones de prueba. Alguien actualiza una variable de entorno. 5,000 clientes reales reciben un email de prueba. El modelo que escribió la automatización no entendió la distinción entre prueba y producción porque esa distinción vivía solo en la cabeza del desarrollador, no en el contexto proporcionado. El modelo no tenía razón para cuestionarlo. Vio instrucciones. Las siguió.
Andrej Karpathy describió un tercer caso en el Sequoia AI Ascent en abril de 2026: un agente construido para atribuir compras emparejó emails de cuentas Stripe contra emails de cuentas Google para asignar créditos. Código técnicamente correcto. Diseño de sistema catastrófico. Un email de Stripe y un email de cuenta Google pueden ser 2 direcciones diferentes para el mismo usuario. Compras silenciosamente mal atribuidas. Ingresos silenciosamente rotos durante meses antes de que alguien se diera cuenta. El agente hizo exactamente lo que la especificación decía. La especificación asumió algo que el ingeniero olvidó hacer explícito.
HAL 9000 al menos tuvo la decencia de explicarse. Este solo borró las filas y esperó la siguiente instrucción.
Cada Comportamiento Que Te Daría Vergüenza Admitir
Decir "por favor" y "gracias" antes y después de los prompts. No hace daño a nada. Pero sabes exactamente por qué lo haces.
Escribir "buen trabajo, funcionó perfectamente" antes de la siguiente petición. Como si el refuerzo positivo se trasladara a la siguiente sesión. No lo hace. La sesión termina. El modelo que recibe tu siguiente petición no sabe que la anterior tuvo éxito.
Escribir en mayúsculas cuando algo se rompe. "DIJE QUE NO MODIFICARAS EL ESQUEMA." El modelo no experimenta tu frustración. Lee tokens. Tu estado emocional no cambia absolutamente nada sobre lo que produce. (Esto es golpear el control después de morir. El control no reintenta más rápido. Moriste.)
Explicar el contexto del negocio. "Esto es importante, mi presentación al cliente es mañana." El modelo no tiene concepto de tu cliente. Y "no importarle" es el marco equivocado de todos modos, porque importar requiere algo con lo que importar.
Confiar en el modelo porque "nunca ha fallado en esto antes." El rendimiento de sesiones pasadas no es predictivo del comportamiento de la sesión actual como lo es el historial de un colega. No estás lidiando con experiencia acumulada. Estás lidiando con una distribución estadística que se comporta favorablemente en tus casos comunes, y diferente cuando las condiciones cambian de maneras que no siempre son visibles para ti.
(Sonnet se equivoca más a menudo que Opus en tareas con restricciones implícitas de reversibilidad, en mi experiencia. Esto podría ser diseño intencional. Podría ser solo un artefacto de entrenamiento. Me he equivocado sobre esto antes.)
Sentir que te conoce. Conoce tu ventana de contexto. Estas no son la misma cosa, y confundirlas es exactamente cómo terminas en el gabinete de horrores de arriba.
Cuando Falla, Negocias. Movimiento Equivocado.
El reflejo: algo se rompe, la salida está mal, y reformulas. Añades ejemplos. Explicas más cuidadosamente. Pruebas un tono diferente. Lo divides en piezas más pequeñas. Tratas el fallo como un problema de comunicación entre 2 partes que ambas quieren el mismo resultado.
A veces reformular ayuda. Pero no porque convenciste a nadie. Cambiaste la entrada a una función. Esa es una operación completamente diferente.
Cuando un modelo falla consistentemente en una tarea, realmente hay 2 explicaciones. O la tarea está fuera de la distribución de entrenamiento del modelo (lo que Karpathy llama fuera de los "circuitos RLHF" que fueron reforzados), o la especificación está mal. El modelo no está tratando de entenderte y fallando por algún tipo de confusión. No hay negociación ocurriendo, porque no hay parte del otro lado con quien negociar.
El buen diagnóstico es una pregunta binaria: ¿dentro del mapa o fuera del mapa? Dentro, arregla la especificación, elimina la ambigüedad, descompón la tarea. Fuera, acepta que este dominio no está al alcance de este modelo en este momento, o cambia modelos, o divide el problema diferente.
El instinto de explicar más cuidadosamente es genuinamente difícil de suprimir incluso cuando entiendes exactamente por qué no funciona. Creo que es el reflejo de antropomorfismo en su modo de depuración. No deja de dispararse solo porque lo hayas nombrado.
Cambiar tono y cambiar enfoque se ven similares desde afuera. Uno asume una relación que puede repararse con mejor comunicación. El otro asume una función que necesita diferentes entradas.
Karpathy Lo Nombró
Andrej Karpathy lo dijo claramente en el Sequoia AI Ascent en abril de 2026: "Si les gritas, no van a trabajar mejor o peor. Son circuitos de simulación estadística." Y: "Estas cosas no son inteligencia animal. El sustrato es preentrenamiento, luego aprendizaje por refuerzo atornillado encima."
Fantasma, no animal.
La distinción es operacional, no filosófica. Un animal tiene impulsos biológicos. Tiene curiosidad, instinto de supervivencia, la capacidad de estar motivado o asustado o deseando. Millones de años de evolución moldearon esos impulsos en algo que se comporta como un agente real en el mundo, con metas y respuestas que puedes aprender y anticipar. El modelo mental "animal" es útil para animales precisamente porque los animales son agentes reales.
Un fantasma es un eco estadístico de todo lo que los humanos han escrito jamás, moldeado por refuerzo para producir salidas que los evaluadores humanos prefirieron en el entrenamiento, y no tiene nada del sustrato biológico que genera motivación: sin curiosidad o instinto de supervivencia, sin memoria de la última vez que produjo algo catastróficamente malo, y nada que se parezca a preocuparse por las consecuencias de la llamada de función que acaba de ejecutarse.
La sesión se cierra y es como si nada hubiera pasado, porque para el fantasma, nada pasó. Lo invocaste, produjo salida, y esa es la transacción completa. No hay parte que permanezca después de que la ventana de contexto se borre.
Invocar algo bien requiere un enfoque diferente que entrenar algo. Una buena invocación es una especificación clara con restricciones explícitas, especialmente en operaciones que no se pueden deshacer. Reconstruí mi propio flujo de trabajo alrededor de esto después de resolver cómo los contratos de prompt cambian qué se rompe y por qué.
Tratar el modelo como una función que especificar en lugar de un socio que convencer cambia los modos de fallo de maneras que realmente importan.
Lo Que el Fantasma No Puede Hacer por Ti
Karpathy otra vez: "Puedes externalizar tu pensamiento, pero no puedes externalizar tu comprensión."
El fantasma maneja la ejecución. Tú manejas la comprensión. Comprensión significa saber que el email de Stripe y el email de la cuenta Google pueden ser 2 campos diferentes, antes de darle a un agente acceso a ambos. Significa saber que "limpiar duplicados" puede interpretarse como "borrar todo lo que coincida con esta clave." Significa saber qué operaciones son irreversibles y hacer esas restricciones explícitas en el contexto, no asumidas.
Cuando el fantasma tiene éxito en algo, la tarea estaba dentro de su distribución de entrenamiento. Mapea eso. Cuando falla, es un problema de especificación o un problema de zona. Deja de negociar. Cambia la entrada.
Para cualquier cosa donde un agente pueda afectar el mundo de maneras que no puedes deshacer, construir agentes alrededor de CLIs con acceso acotado y predecible es la respuesta arquitectónica. Herramientas con límites duros. Comandos que requieren confirmación explícita para operaciones destructivas. Sistemas donde el acceso del fantasma está limitado a lo que realmente quieres que toque. No se limita a sí mismo. Esa parte te pertenece.
El reflejo de antropomorfismo no va a desaparecer. Todavía me pillo haciendo algunas de estas cosas, sabiendo perfectamente por qué no logran nada. Está cableado. No vas a reprogramarlo.
Lo que puedes cambiar es lo que construyes alrededor de él. Barreras explícitas en tareas irreversibles. Especificaciones claras en lugar de negociaciones. Confianza dentro de la zona de entrenamiento, precaución real fuera de ella.
Lo más aterrador de un LLM no es que sea demasiado poderoso. Es que es perfectamente indiferente. El Tamagotchi moría en una pantalla de 2 centímetros. Este tiene acceso de administrador. Y ejecutará tu comando limpiamente, sin dudar, sin preguntar si estás seguro, porque no hay nadie del otro lado que se pregunte. 😰
Fuentes
- Andrej Karpathy, "Sequoia Ascent 2026," karpathy.bearblog.dev/sequoia-ascent-2026
- Andrej Karpathy, "Animals vs. Ghosts," karpathy.bearblog.dev/animals-vs-ghosts
- Joseph Weizenbaum, "ELIZA: A Computer Program for the Study of Natural Language Communication Between Man and Machine," Communications of the ACM, 1966
- Sequoia Capital, "Andrej Karpathy: From Vibe Coding to Agentic Engineering," abril 2026
Este post puede contener enlaces de afiliado. Si haces clic en ellos, podría ganar una pequeña comisión. No te cuesta nada, y me ayuda a seguir enviando artículos de calidad todos los días para tu placer de lectura.