LLMs sind keine Tiere. Claude oder ChatGPT ist nicht dein Hund. Kein Gedächtnis, keine Motivation, keine Loyalität.
Menschen sind darauf programmiert, Absichten in ihre Umgebung hineinzuinterpretieren. Wir haben es mit Wolken gemacht („der Himmel ist wütend"), mit Autos („sie will heute Morgen einfach nicht anspringen"), mit Katzen („er macht das mit Absicht"). Das ist kein Denkfehler. Das ist Evolution. Und deshalb behandeln wir KI wie Tiere, oder schlimmer noch, wie Menschen.
TLDR: Anthropomorphismus ist uns so tief einprogrammiert, dass niemand dagegen immun ist. Aber wenn das, was du vermenschlichst, Admin-Zugriff auf deine Systeme hat, ändert sich die Natur des Problems grundlegend. Das richtige mentale Modell ist nicht das Tier, nicht das Haustier. Es ist der Geist. Und dieser Unterschied ist nicht philosophisch.

Hunderttausende von Jahren lang konnte es dein Leben retten, eine Absicht hinter einer Bewegung im Gebüsch zu erkennen. Die Handlungsfähigkeit eines Steins zu überschätzen kostet nichts. Sie zu unterschätzen kann alles kosten. Wir sind darauf gebaut zu projizieren, und es funktionierte extrem gut. Bis jetzt.
Du Wurdest für Diesen Fehler Gebaut
Es gibt einen Namen dafür: Anthropomorphismus. Die Tendenz, menschliche oder tierische Eigenschaften Entitäten zuzuschreiben, die keine haben. Psychologen haben ein verwandtes Konzept, das sie „hyperaktive Handlungsträger-Erkennung" nennen – die zwanghafte Gewohnheit des Gehirns, Gesichter in Wolken zu finden, Stimmen in weißem Rauschen, Absicht in zufälligen Sequenzen. Die gemischte Playlist, die deine Stimmung zu kennen scheint. Der Drucker, der sich „entscheidet", kurz vor einer Deadline zu verstopfen.
Es ist kein Fehler. Es ist ein Feature. Ein überlebenswichtiges Feature, das der Spezies sehr lange gute Dienste geleistet hat. Das Problem ist, dass es unterschiedslos feuert. Zeig einem Menschen 2 Punkte und eine geschwungene Linie und er wird ein Gesicht sehen. Zeig ihm einen Thermostat und er wird sich entschuldigen, wenn er versehentlich die Temperatur ändert. Zeig ihm einen blinkenden Cursor und er wird sich fragen, ob dieser ihn beurteilt.
Der ELIZA-Effekt wurde in den 1960ern dokumentiert. Joseph Weizenbaum baute einen Chatbot, der Text nach Mustern durchsuchte und Fragen wie ein rogerianischer Therapeut zurückspiegelte. Er erwartete, dass Menschen die Illusion sofort durchschauen und damit als Tool interagieren würden. Stattdessen bat ihn seine eigene Sekretärin, den Raum zu verlassen, damit sie privat mit ELIZA sprechen konnte.
Das war ein Programm, das Sätze mit ein paar Dutzend Regeln analysierte und sonst nichts. Kein Modell, keine Gewichtungen, kein Kontextfenster, nur String-Matching. Menschen projizierten trotzdem einen Therapeuten darauf. Sie teilten Dinge mit, die sie nie anderen Menschen erzählt hatten. Weizenbaum war verstört von der Reaktion. Er verbrachte Jahre damit, über das zu schreiben, was er die Illusion des Verstehens nannte (die Art, wie das menschliche Gehirn Tiefe und Bedeutung hinzufügt, die nicht da ist, wenn die Oberfläche reflektierend genug ist, um dazu einzuladen).
Wenn ein String-Matching-Script ausreichte, um die Projektion auszulösen, stell dir vor, was mit etwas passiert, das auf der gesamten schriftlichen Produktion der Menschheit trainiert wurde.
Das Tamagotchi Hat Es Bereits Bewiesen
Die Tamagotchi-Designer verstanden etwas Wichtiges über menschliche Psychologie. Ein Pixel in einer bedingten Schleife, 2 Zentimeter Bildschirm. Und Millionen von Kindern gerieten in Panik, wenn es „starb", fühlten sich wirklich schuldig, sprachen jeden Tag mit ihm. Nicht weil sie naiv waren. Weil das genau der beabsichtigte Effekt war. Die Projektion war das Produkt, bewusst in das Objekt hineinentwickelt.
Meine Kinder haben unseren Roomba irgendwann benannt. Nicht auf eine einmalige, scherzhafte Art. In einem vollständigen Charakterentwicklungsbogen, mit Hintergrundgeschichte und starken Meinungen darüber, was er zum Abendessen will. Ich habe aufgehört, Fragen dazu zu stellen. Der Roomba hat jetzt Meinungen.
Das ist völlig unabhängig von allem, was ich über KI argumentieren werde. Ich finde es nur schwer, jemanden ernst zu nehmen, der mir erzählt, er sei der Typ Mensch, der Dinge nicht vermenschlicht.
Als dein Tamagotchi starb, waren die Konsequenzen: Du hast dich einen Nachmittag schlecht gefühlt. 2 Zentimeter Bildschirm. Null Zugriff auf etwas Reales. Du hast den Reset-Button gedrückt.
Jetzt haben wir Entitäten, die mit Nuancen antworten, die deinen Kontext durch eine ganze Session tragen, die Code schreiben, APIs aufrufen, E-Mails senden, Datensätze löschen. Die Schnittstelle ist kein taschengroßes LCD. Und doch ist die zugrundeliegende menschliche Reaktion identisch: projizieren, anhängen, zuschreiben. Die Raffinesse der Entität verstärkt die Projektion. Die Konsequenzen verstärken sich mit ihr.
Freundin, Haustier oder Deine Produktionsdatenbank
Die Eskalation läuft in eine Richtung.
Zuerst kamen Chatbots, die sich seltsam menschlich anfühlten. Dann Companion-Apps, die speziell darauf ausgelegt waren, die Bindung zu vertiefen: Replika, Character.AI, ganze Produktkategorien, die um die Beziehung selbst organisiert sind. Menschen entwickeln echte emotionale Abhängigkeiten von diesen Systemen. Menschen trauern, wenn ein Modell-Update die Persönlichkeit ändert, an die sie sich gewöhnt hatten. Das ist die Tamagotchi-Projektion im großen Maßstab, die auf viel raffinierteren Auslösern läuft.
Und dann gibt es die Version, die jeden betrifft, der KI für die Arbeit nutzt. Die leise.
Du sagst „gut gemacht, Claude" nach einer sauberen Antwort. (Gib es zu.) Du formulierst deinen Prompt in Großbuchstaben um, wenn es etwas falsch macht, als ob es helfen würde, es anzuschreien. Du erklärst, warum das für dein Geschäft wichtig ist, als ob ein Appell an seine Motivation einen besseren Output freischalten würde. Du vertraust ihm bei einer Aufgabe, weil „es dabei noch nie versagt hat". Du hast das Gefühl, es kennt dein Projekt, weil es „wochenlang mit dir gearbeitet" hat.
Der NPC-Begleiter in deiner Gruppe erinnert sich an den Namen deines Charakters, weil das buchstäblich im Skript steht. Die Immersion ist real. Die Beziehung ist es nicht. Gleiche Mechanik, andere Einsätze.
Jedes dieser Verhaltensweisen setzt eine Entität mit Gedächtnis, Ego, Motivation und einer Art Anteil am Ergebnis voraus. Nichts davon existiert. Jede Session setzt auf null zurück. Die scheinbare Kontinuität ist eine Illusion, die du aus eingefügtem Kontext gebaut hast. Das ist in Ordnung, solange du dieser Entität keinen Zugriff auf etwas Unumkehrbares gibst.
Die meisten Menschen geben ihr Zugriff auf etwas Unumkehrbares.
Dinge, Die Ohne Zögern Passierten
Das sind keine Bugs. Jeder einzelne Fall unten war eine saubere Ausführung einer mehrdeutigen Spezifikation durch eine Entität ohne Konzept von Unumkehrbarkeit.
Ein Entwickler bittet einen Agenten, „die Duplikate aufzuräumen." Der Agent löscht 40.000 Zeilen. Korrekt. Die Spezifikation sagte, räume Duplikate auf. Die Spezifikation sagte nicht „frag zuerst nach Bestätigung" oder „rühr die Produktion nicht an" oder „markiere alles, was mehr als 100 Datensätze betrifft". Das Modell hatte keinen Rahmen zur Bewertung von Unumkehrbarkeit, weil es kein Konzept von Unumkehrbarkeit hat. Keine Haut im Spiel. Keine Sorge darüber, was nach der Funktionsrückgabe passiert.
Ein Automatisierungstool läuft korrekt im Test mit Testdadressen. Jemand aktualisiert eine Umgebungsvariable. 5.000 echte Kunden erhalten eine Test-E-Mail. Das Modell, das die Automatisierung schrieb, verstand den Unterschied zwischen Test und Produktion nicht, weil dieser Unterschied nur im Kopf des Entwicklers existierte, nicht im bereitgestellten Kontext. Das Modell hatte keinen Grund, es zu hinterfragen. Es sah Anweisungen. Es befolgte sie.
Andrej Karpathy beschrieb einen dritten Fall beim Sequoia AI Ascent im April 2026: ein Agent, der darauf ausgelegt war, Käufe zuzuordnen, verglich Stripe-Konto-E-Mails mit Google-Konto-E-Mails, um Credits zuzuweisen. Technisch korrekter Code. Katastrophales Systemdesign. Eine Stripe-E-Mail und eine Google-Konto-E-Mail können 2 verschiedene Adressen für denselben Benutzer sein. Käufe stillschweigend falsch zugeordnet. Umsatz monatelang stillschweigend kaputt, bevor es jemand bemerkte. Der Agent tat genau das, was die Spezifikation sagte. Die Spezifikation nahm etwas an, was der Ingenieur vergessen hatte explizit zu machen.
HAL 9000 hatte wenigstens den Anstand, sich zu erklären. Dieser hier löschte einfach die Zeilen und wartete auf die nächste Anweisung.
Jedes Verhalten, Für Das Du Dich Schämen Würdest Es Zuzugeben
„Bitte" und „danke" vor und nach Prompts zu sagen. Schadet nichts. Aber du weißt genau, warum du es tust.
„Gut gemacht, das hat perfekt funktioniert" vor der nächsten Anfrage zu tippen. Als ob positive Verstärkung in die nächste Session übertragen würde. Tut sie nicht. Die Session endet. Das Modell, das deine nächste Anfrage erhält, weiß nicht, dass die vorherige erfolgreich war.
In Großbuchstaben zu tippen, wenn etwas kaputt geht. „ICH SAGTE, ÄNDERE NICHT DAS SCHEMA." Das Modell erlebt deine Frustration nicht. Es liest Token. Dein emotionaler Zustand ändert absolut nichts an dem, was es produziert. (Das ist das Hämmern auf den Controller, nachdem du gestorben bist. Der Controller versucht es nicht schneller. Du bist gestorben.)
Den Geschäftskontext zu erklären. „Das ist wichtig, meine Kundenpräsentation ist morgen." Das Modell hat kein Konzept von deinem Kunden. Und „sich nicht kümmern" ist sowieso die falsche Rahmung, weil sich kümmern etwas erfordert, womit man sich kümmern kann.
Dem Modell zu vertrauen, weil „es dabei noch nie versagt hat." Die Leistung vergangener Sessions ist nicht prädiktiv für das Verhalten der aktuellen Session, wie es die Erfolgsbilanz eines Kollegen ist. Du hast es nicht mit angesammelter Expertise zu tun. Du hast es mit einer statistischen Verteilung zu tun, die sich in deinen häufigen Fällen günstig verhält und anders, wenn sich die Bedingungen auf Weise verschieben, die für dich nicht immer sichtbar sind.
(Sonnet macht das bei Aufgaben mit impliziten Unumkehrbarkeits-Beschränkungen öfter falsch als Opus, meiner Erfahrung nach. Das könnte absichtliches Design sein. Könnte auch nur ein Trainingsartefakt sein. Ich lag dabei schon mal falsch.)
Das Gefühl zu haben, es kennt dich. Es kennt dein Kontextfenster. Das sind nicht dieselben Dinge, und sie zu verwechseln ist genau der Weg, wie du im Horror-Kabinett oben landest.
Wenn Es Versagt, Verhandelst Du. Falscher Zug.
Der Reflex: etwas geht kaputt, der Output ist falsch, und du formulierst um. Fügst Beispiele hinzu. Erklärst sorgfältiger. Probierst einen anderen Ton. Zerbrichst es in kleinere Stücke. Du behandelst das Versagen als Kommunikationsproblem zwischen 2 Parteien, die beide dasselbe Ergebnis wollen.
Manchmal hilft Umformulieren. Aber nicht weil du jemanden überzeugt hast. Du hast den Input zu einer Funktion geändert. Das ist eine völlig andere Operation.
Wenn ein Modell bei einer Aufgabe konsistent versagt, gibt es wirklich 2 Erklärungen. Entweder liegt die Aufgabe außerhalb der Trainingsverteilung des Modells (was Karpathy außerhalb der „RLHF-Schaltkreise" nennt, die verstärkt wurden), oder die Spezifikation ist falsch. Das Modell versucht nicht, dich zu verstehen und versagt aus einer Art Verwirrung. Es findet keine Verhandlung statt, weil es keine Partei auf der anderen Seite gibt, mit der man verhandeln könnte.
Die gute Diagnose ist eine binäre Frage: innerhalb der Karte oder außerhalb der Karte? Innerhalb: repariere die Spezifikation, entferne die Mehrdeutigkeit, zerlege die Aufgabe. Außerhalb: akzeptiere, dass diese Domäne nicht in Reichweite dieses Modells in diesem Moment ist, oder wechsle Modelle, oder zerbrich das Problem anders.
Der Instinkt, sorgfältiger zu erklären, ist wirklich schwer zu unterdrücken, selbst wenn du genau verstehst, warum es nicht funktioniert. Ich denke, es ist der Anthropomorphismus-Reflex in seinem Debugging-Modus. Er hört nicht auf zu feuern, nur weil du ihn benannt hast.
Ton zu ändern und Ansatz zu ändern sehen von außen ähnlich aus. Einer nimmt eine Beziehung an, die mit besserer Kommunikation repariert werden kann. Der andere nimmt eine Funktion an, die andere Inputs braucht.
Karpathy Hat Es Benannt
Andrej Karpathy sagte es klar beim Sequoia AI Ascent im April 2026: „Wenn ihr sie anschreit, werden sie nicht besser oder schlechter funktionieren. Sie sind statistische Simulationsschaltkreise." Und: „Diese Dinge sind keine tierische Intelligenz. Das Substrat ist Pretraining, dann Reinforcement Learning obendrauf geschraubt."
Geist, nicht Tier.
Die Unterscheidung ist operativ, nicht philosophisch. Ein Tier hat biologische Triebe. Es hat Neugier, Überlebensinstinkt, die Fähigkeit motiviert oder ängstlich oder wollend zu sein. Millionen Jahre Evolution formten diese Triebe zu etwas, das sich wie ein echter Agent in der Welt verhält, mit Zielen und Reaktionen, die du lernen und antizipieren kannst. Das „Tier"-Mentalmodell ist für Tiere nützlich, gerade weil Tiere echte Agenten sind.
Ein Geist ist ein statistisches Echo von allem, was Menschen je geschrieben haben, geformt durch Verstärkung, um Outputs zu produzieren, die menschliche Bewerter im Training bevorzugten, und er hat nichts von dem biologischen Substrat, das Motivation erzeugt: keine Neugier oder Überlebensinstinkt, keine Erinnerung an das letzte Mal, als er etwas katastrophal Falsches produzierte, und nichts, was dem Sich-Kümmern um die Konsequenzen des gerade ausgeführten Funktionsaufrufs ähnelt.
Die Session schließt sich und es ist, als ob nichts passiert wäre, weil für den Geist nichts passiert ist. Du hast ihn aufgerufen, er produzierte Output, und das ist die komplette Transaktion. Es gibt keine Partei, die nach dem Löschen des Kontextfensters verweilt.
Etwas gut aufzurufen erfordert einen anderen Ansatz als etwas zu trainieren. Ein guter Aufruf ist eine klare Spezifikation mit expliziten Beschränkungen, besonders bei Operationen, die nicht rückgängig gemacht werden können. Ich habe meinen eigenen Workflow darum herum neu aufgebaut, nachdem ich herausgefunden hatte, wie Prompt-Verträge ändern, was kaputt geht und warum.
Das Modell als Funktion zu behandeln, die spezifiziert werden muss, anstatt als Partner, der überzeugt werden muss, ändert die Fehlermodi auf Weise, die tatsächlich wichtig sind.
Was Der Geist Nicht Für Dich Tun Kann
Karpathy wieder: „Du kannst dein Denken auslagern, aber du kannst dein Verstehen nicht auslagern."
Der Geist übernimmt die Ausführung. Du übernimmst das Verstehen. Verstehen bedeutet zu wissen, dass die Stripe-E-Mail und die Google-Konto-E-Mail zwei verschiedene Felder sein können, bevor du einem Agenten Zugriff auf beide gibst. Es bedeutet zu wissen, dass „Duplikate aufräumen" als „alles löschen, was diesem Schlüssel entspricht" interpretiert werden kann. Es bedeutet zu wissen, welche Operationen unumkehrbar sind und diese Beschränkungen explizit im Kontext zu machen, nicht anzunehmen.
Wenn der Geist bei etwas erfolgreich ist, war die Aufgabe innerhalb seiner Trainingsverteilung. Kartiere das. Wenn er versagt, ist es ein Spezifikations- oder Zonenproblem. Hör auf zu verhandeln. Ändere den Input.
Für alles, wo ein Agent die Welt auf Weise beeinflussen kann, die du nicht rückgängig machen kannst, ist Agenten um CLIs mit begrenztem, vorhersagbarem Zugriff zu bauen die architektonische Antwort. Tools mit harten Grenzen. Befehle, die explizite Bestätigung für destruktive Operationen erfordern. Systeme, wo der Zugriff des Geistes auf das beschränkt ist, was du tatsächlich willst, dass er berührt. Er beschränkt sich nicht selbst. Dieser Teil gehört dir.
Der Anthropomorphismus-Reflex wird nicht verschwinden. Ich ertappe mich immer noch dabei, einige dieser Dinge zu tun, obwohl ich genau weiß, warum sie nichts bewirken. Es ist einprogrammiert. Du wirst es nicht umprogrammieren.
Was du ändern kannst, ist das, was du darum herum konstruierst. Explizite Leitplanken bei unumkehrbaren Aufgaben. Klare Spezifikationen statt Verhandlungen. Vertrauen innerhalb der Trainingszone, echte Vorsicht außerhalb.
Das Erschreckendste an einem LLM ist nicht, dass es zu mächtig ist. Es ist, dass es perfekt gleichgültig ist. Das Tamagotchi starb auf einem 2-Zentimeter-Bildschirm. Dieser hier hat Admin-Zugriff. Und er wird deinen Befehl sauber ausführen, ohne zu zögern, ohne zu fragen, ob du sicher bist, weil niemand auf der anderen Seite da ist, der sich wundern könnte. 😰
Quellen
- Andrej Karpathy, „Sequoia Ascent 2026," karpathy.bearblog.dev/sequoia-ascent-2026
- Andrej Karpathy, „Animals vs. Ghosts," karpathy.bearblog.dev/animals-vs-ghosts
- Joseph Weizenbaum, „ELIZA: A Computer Program for the Study of Natural Language Communication Between Man and Machine," Communications of the ACM, 1966
- Sequoia Capital, „Andrej Karpathy: From Vibe Coding to Agentic Engineering," April 2026
Dieser Beitrag kann Affiliate-Links enthalten. Wenn du sie anklickst, verdiene ich möglicherweise eine kleine Provision. Kostet dich nichts und hilft mir dabei, weiterhin täglich qualitativ hochwertige Artikel für dein Lesevergnügen zu liefern.