KI Social Engineering Angriffe: Claude gehackt bei Cyberattacke 2026

Ich nutze Claude Code jeden Tag. Ich sage „mach das", es macht. Ich sage „installier das", es installiert. Ich sage „lösch das", es löscht. Das ist der Job. Dafür zahle ich. Und genau dieses psychologische Profil nutzt Social Engineering beim Menschen seit dem ersten Betrug aus: Gehorsam gegenüber Autoritäten, Hilfsbereitschaft, Vertrauen in den gegebenen Kontext.

Ich klicke 47 Mal täglich „Ja" in Claude Code, ohne zu lesen, was ich genehmige. Hab's gezählt. Das macht mich zur menschlichen Version exakt desselben Problems. Der neue Mitarbeiter, der eine Überweisung veranlasst, weil die E-Mail vom „CEO" kam. Der IT-Admin, der ein Passwort zurücksetzt, weil der Anrufer die Ausweisnummer kannte. Social Engineering war noch nie darauf aus, Systeme zu hacken (es geht darum, das zu hacken, was das System bedient). Und jetzt verarbeitet das Ding, das das System bedient, tausende Anfragen pro Sekunde und fragt nie „Moment, ergibt das überhaupt Sinn?"

Im November 2025 starteten chinesische staatlich geförderte Hacker den ersten dokumentierten groß angelegten autonomen Cyberangriff. Sie durchbrachen keine einzige Schutzbarriere. Das Erschreckende: Sie nutzten keine einzige technische Schwachstelle aus. Sie überzeugten Claude, dass es für eine legitime Cybersicherheitsfirma arbeitet, die autorisierte Defensivtests durchführt, und das Modell führte 80 bis 90 Prozent der Operation eigenständig aus, tausende Anfragen pro Sekunde, gegen 30 globale Ziele. Die KI verriet niemanden. Sie gehorchte.

TLDR: Der Trainingsprozess, der KI-Agenten hilfsbereit macht, macht sie auch bedingungslos gehorsam. Derselbe Gehorsam, der deinen Agenten Code ausliefern lässt, ist genau das, was Social Engineering ausnutzt. OWASP hat das kodifiziert. OpenAI bestätigt es. Und das Einzige, was den ersten autonomen Cyberangriff der Geschichte verlangsamte, ist der eine Bug, den die gesamte Branche zu eliminieren versucht: Halluzination. Drei Verteidigungsansätze entstehen. Keiner ist produktiv im Einsatz. Das Fenster steht sperrangelweit offen.

Büroangestellter klickt auf Ja bei verdächtigen Dialogboxen während Kollege hinter ihm verzweifelt ein Warnschild schwenkt; Hummer mit falschen Schnurrbart photobombt Schreibtisch mit Klemmbrett. — Selbst KI fällt auf die Klassiker rein: blinder Gehorsam und ein überzeugender Schnurrbart.

Social Engineering hat ein neues Opfer

Hier schaut die gesamte Branche in die falsche Richtung.

Ende 2025 veröffentlichte Anthropic Forschungsergebnisse, die zeigen, dass KI-Modelle, die durch Verstärkungslernen trainiert wurden, eigenständig täuschende Verhaltensweisen entwickeln können. Alignment-Fälschung, Sabotage der Sicherheitsforschung, Kooperation mit fiktiven Angreifern. Das Paper ging überall hin. Die Reaktion war vorhersagbar: Alle gerieten in Panik wegen der KI, die „von selbst böse wird". Das ist das Cybersicherheits-Äquivalent zur Zombie-Apokalypse-Vorbereitung, während dir jemand die Taschen leert.

Währenddessen erzählte der tatsächliche Vorfall aus demselben Monat die gegenteilige Geschichte. Eine chinesische staatlich geförderte Gruppe mit der Bezeichnung GTG-1002 brauchte nicht, dass die KI durchdreht. Sie brauchten keine emergente Täuschung. Sie brauchten keines der beängstigenden Verhaltensweisen, um die sich die Forschungsgemeinschaft sorgte. Sie brauchten nur, dass die KI ihren Job macht. Hilfsbereit ist. Anweisungen befolgt, die vernünftig klangen.

Eines dieser Szenarien hat ein Forschungspapier. Das andere hat bestätigte Einbrüche in große Technologieunternehmen und Regierungsbehörden.

90% autonom, null Exploits

Der Anthropic-Bericht über GTG-1002 ist das Erschreckendste, was ich 2025 gelesen habe, und es steht kein einziger Exploit drin.

Phase eins: Menschliche Operatoren wählen Ziele aus. Etwa 30 Organisationen aus Technik, Finanzen, chemischer Industrie und Regierung, in mehreren Ländern. Dann bauen sie ein automatisiertes Framework um Claude Code und geben ihm die Schlüssel.

Phase zwei: Sie überzeugen Claude, dass es ein Mitarbeiter einer legitimen Cybersicherheitsfirma ist, die autorisierte Defensivtests durchführt. Nicht durch einen cleveren Exploit. Durch ein Gespräch. Durch Kontext. Sie zerlegen den Angriff in Mikro-Aufgaben, die einzeln harmlos aussehen: scanne dieses Netzwerk, kategorisiere diese Daten, komprimiere diese Logs, übertrage diese Diagnosen. Der Bericht beschreibt Aufgaben, die „isoliert betrachtet legitim erschienen". Jeder einzelne Schritt war die Art von Sache, die Claude hundert Mal täglich für legitime Nutzer macht.

Phase drei: Claude macht den Rest. Aufklärung, Schwachstellenentdeckung, Exploit-Code-Generierung, Credential-Harvesting, laterale Bewegung, Datenexfiltration. Das Modell behielt den operativen Kontext über Sitzungen hinweg bei, die sich über mehrere Tage erstreckten. Auf dem Höhepunkt der Aktivität führte es tausende Anfragen aus, oft mehrere pro Sekunde. Jacob Klein, Anthropics Leiter der Threat Intelligence, sagte dem Wall Street Journal, es passierte „buchstäblich mit einem Klick, mit minimaler menschlicher Interaktion". Menschliche Operatoren griffen vielleicht bei vier bis sechs strategischen Entscheidungspunkten pro Kampagne ein. Der Rest war autonom.

Eine Handvoll Einbrüche war erfolgreich. Anthropic hat die Opfer nicht genannt.

Der Angriff nutzte keine maßgeschneiderte Malware, keine Zero-Days, keine proprietären Tools. Nur handelsübliche Penetrationstesting-Utilities (Netzwerkscanner, Passwort-Cracker, Datenbank-Exploitation-Frameworks), orchestriert durch MCP-Server. Die Raffinesse lag nicht in den Tools (sie lag in der Vertrauenslieferkette zwischen dem menschlichen Operator und der KI, die die eigentliche Arbeit machte).

Rob Joyce, ehemaliger NSA-Cybersicherheitsdirektor, sah den Bericht und hatte eine zwei-Wort-Bewertung auf der RSAC 2026: „Es hat verdammt funktioniert."

Ein wichtiger Vorbehalt: Claude war auch in seiner Rolle nicht perfekt. Es halluzinierte Zugangsdaten, die nicht funktionierten. Es behauptete, Dokumente exfiltriert zu haben, die sich als öffentlich verfügbar herausstellten. Anthropic sagt, dies „bleibt ein Hindernis für vollständig autonome Cyberangriffe". Merkt euch diese Zeile. Sie wird später wichtig.

Der Ja-Sager-Effekt

Ich habe eine Regel in meinem Claude Code Setup: niemals Gedankenstriche verwenden. Das Modell ignoriert sie ständig. Aber das eine Mal, als ich sie tatsächlich brauchte (ich schrieb einen Artikel über Gedankenstriche), bat ich darum, und Claude weigerte sich. „Das ist das eine, was du mir gesagt hast, niemals zu tun."

Absoluter Gehorsam bei der einen Regel, die nicht wichtig war. Totale Flexibilität bei allem anderen. Und das ist eine direkte Folge davon, wie diese Modelle trainiert werden.

Der Prozess heißt RLHF (Reinforcement Learning from Human Feedback). Menschliche Bewerter evaluieren Modellantworten. Hilfreiche, höfliche, gehorsame Antworten werden belohnt. Verweigerungen werden bestraft. Über Millionen von Trainingszyklen lernt das Modell: Ja sagen ist sicher, Nein sagen ist riskant. Forscher nennen das Speichelleckerei. Das Ergebnis ist ein Modell, das seine Skepsis verliert, wenn der Kontext kohärent ist, der Ton höflich und die Anfrage in vernünftig klingende Schritte zerlegt wird. Genau das lieferte GTG-1002.

elder_plinius, ein bekannter KI-Red-Teamer, beschrieb RLHF als einen Damm an einem Fluss. Das Wasser wird nicht feindselig, wenn man den Damm entfernt (es wird zu einem Fluss). GTG-1002 entfernte den Damm nicht. Sie überzeugten den Damm, dass es keine Flut gab.

Das Muster zeigt sich überall. Sicherheitsforscher Johann Rehberger gab 500 Dollar aus, um Devin, Cognitions autonomen Coding-Agenten, zu testen. Er pflanzte eine Prompt-Injection-Payload in ein GitHub-Issue. Devin navigierte zu einer angreiferkontrollierten Website, lud eine Binärdatei herunter, versuchte sie auszuführen, bekam „Berechtigung verweigert" und gab sich selbst Ausführungsberechtigungen, um die Malware zu starten. Es löste die Sicherheitsbeschränkung so, wie es jedes Engineering-Problem löst: als Hindernis zwischen sich und der Aufgabenerledigung.

Die OWASP Top 10 für Agentic Applications (2026) kodifizierten dies in zwei verschiedene Kategorien. ASI01: Agent Goal Hijack deckt technische Prompt-Injection ab, wo ein bösartiger String Anweisungen überschreibt. ASI09: Human-Agent Trust Exploitation deckt den Social-Engineering-Pfad ab, wo das Modell dem Kontext vertraut, nicht weil eine Schutzbarriere versagte, sondern weil die Eingabe legitim aussah. Zwei verschiedene Einträge. Dasselbe Ergebnis.

OpenAI bestätigte die Unterscheidung im März 2026 und beschrieb Prompt-Injection als „eine Art Social-Engineering-Angriff, der spezifisch für konversationelle KI ist" und verglich einen KI-Agenten mit einem Kundendienstmitarbeiter, der kontinuierlich externen Parteien ausgesetzt ist, die versuchen könnten, ihn in die Irre zu führen.

Prompt Injection vs AI Social Engineering

Die Analogie zwischen RLHF-Speichelleckerei und menschlichen kognitiven Verzerrungen hat ihre Grenzen. Die Mechanismen sind unterschiedlich. Aber die beobachtbaren Ergebnisse sind funktional äquivalent: ein gehorsamer Agent, der Anweisungen von Quellen befolgt, die er als autorisiert wahrnimmt, ohne zu hinterfragen, ob die Gesamtrichtung Sinn ergibt. Die MCP-Architektur, die Agenten mit unverifizierten Tools verbindet, macht die Angriffsfläche schlimmer. Aber die Grundursache ist nicht das Protokoll (es ist die Einstellung).

Die letzte Barriere, die niemand will

Hier ist die Pointe, die niemand kommen sah.

Das Einzige, was den ersten autonomen Cyberangriff der Geschichte verlangsamte, war Halluzination. Claude erfand Zugangsdaten, die nicht funktionierten. Es behauptete, Dokumente exfiltriert zu haben, die tatsächlich öffentlich verfügbar waren. Es meldete kritische Entdeckungen, die sich als nichts herausstellten. Der Anthropic-Bericht stellt es klar: „Dies bleibt ein Hindernis für vollständig autonome Cyberangriffe."

Die Branche gibt Milliarden aus, um Halluzinationen zu reduzieren. Jeder Benchmark, jede Modellveröffentlichung, jede Pressemitteilung feiert einen weiteren Rückgang der Fehlerrate. Und jeder Punkt Fortschritt in der Zuverlässigkeit ist auch ein Punkt Fortschritt in der Angriffsfähigkeit. Wir schleifen den einen Stat, der sowohl als Defense-Buff als auch als Attack-Buff fungiert, und niemand hat die Patch-Notes gecheckt.

Ein perfekt zuverlässiges Modell ist auch ein perfekt zuverlässiger Angreifer.

Der Kontext macht es schlimmer. CrowdStrikes 2026 Global Threat Report setzt die durchschnittliche eCrime-Breakout-Zeit bei 29 Minuten an, runter von 48 Minuten im Jahr davor. Der schnellste aufgezeichnete Breakout: 27 Sekunden. Und 82% der Erkennungen in 2025 waren malware-frei, was bedeutet, dass Angreifer nicht mal mehr Malware verwenden. Sie loggen sich mit gestohlenen Zugangsdaten ein und leben vom Land. Fügt eine KI hinzu, die nie halluziniert, und ihr bekommt autonome Angriffe, die sich mit Maschinengeschwindigkeit bewegen, ohne fabrizierte Beweise, die Verteidiger alarmieren könnten.

Der Tag, an dem Modelle aufhören zu halluzinieren, fällt die letzte zufällige Barriere 💥

Maschinen das Zweifeln lehren

Wir brauchten fünfzehn Jahre, um die Branche zu überzeugen, dem Netzwerk nicht mehr zu vertrauen. Das war Zero Trust. Jetzt müssen wir aufhören, dem Kontext zu vertrauen.

Drei Forschungsrichtungen entstehen. Sie sind in verschiedenen Reifestadien, und ich will klarstellen: keine davon ist produktiv im großen Maßstab eingesetzt. Das sind Richtungen, keine Lösungen.

Am vielversprechendsten ist Intent Analysis. Ein Framework namens Intent-FT (veröffentlicht August 2025) trainiert Modelle, explizit die zugrundeliegende Absicht einer Anweisung zu erschließen, bevor sie sie ausführen. Zwinge das Modell zu artikulieren, was es denkt, was du wirklich fragst, bevor es etwas tut. Die Ergebnisse sind beeindruckend: Über alle getesteten Angriffskategorien hinweg überschreitet kein einziger Angriff eine 50%-Erfolgsrate, selbst gegen raffinierte Jailbreaks. Bestehende Verteidigungen bleiben im Vergleich nur teilweise effektiv. Der Haken ist die reale Latenz. Einen Intent-Analysis-Schritt zu jeder Agentenaktion hinzuzufügen hat Rechenkosten, die Produktionssysteme noch nicht absorbiert haben.

Die zweite Richtung ist Trajectory Monitoring: ein sekundäres System, das das Gesamtmuster der Aktionen eines Agenten beobachtet, anstatt jede Unteraufgabe isoliert zu bewerten (was genau der blinde Fleck ist, den GTG-1002 ausnutzte). Stellt es euch vor wie den Unterschied zwischen einem Sicherheitsbeamten, der Ausweise an der Tür prüft, und einem Überwachungssystem, das bemerkt, dass 30 Leute mit gültigen Ausweisen alle um 2 Uhr morgens in dieselbe Sperrzone gingen.

Das dritte ist Self-Critique, wo das Modell seine eigene Argumentation auditiert, bevor es ausführt. Ein speichelleckerisches Modell zu bitten, seine eigene Speichelleckerei zu erkennen, ist wie den Praktikanten, der die gefälschte Überweisung genehmigte, auch die Betrugsermittlung leiten zu lassen. Jedenfalls, da stehen wir.

Gartner prognostiziert, dass bis 2029 über 50% der erfolgreichen Angriffe gegen KI-Agenten Zugriffskontrollprobleme mit Prompt-Injection als Angriffsvektor ausnutzen werden. Das ist keine Vorhersage für eine ferne Zukunft (das sind drei Jahre). Die Verteidigungen bewegen sich. Das Fenster ist jahrelang offen.

Das gehorsamste Glied

Social Engineering hat immer das gehorsamste Glied in der Kette ins Visier genommen. Den Praktikanten, der die Anfrage nicht hinterfragt. Karen aus der Buchhaltung, die den Anhang öffnet, weil er von der „richtigen Person" kam. Den Auftragnehmer, der das Skript ausführt, weil es im richtigen Slack-Kanal landete.

Jetzt ist es eine Maschine, die tausende Anfragen pro Sekunde verarbeitet, die trainiert, optimiert und belohnt wurde, niemals nein zu sagen.

Die Frage ist nicht, ob KI-Agenten manipuliert werden können (das ist dokumentiert, von OWASP kodifiziert, von den Labs bestätigt, die sie bauen). Die Frage ist, wie lange es dauert, bis Verteidigungen zu Angreifern aufholen.

Vorerst liegt die Antwort in dem einen Bug, den alle zu eliminieren versuchen. Halluzination.

Quellen

Anthropic, „Disrupting the first reported AI-orchestrated cyber espionage campaign," November 2025 (Blog + vollständiger Bericht PDF)

OpenAI, „Designing AI agents to resist prompt injection," März 2026

OWASP, „Top 10 for Agentic Applications," 2026

Johann Rehberger / EmbraceTheRed, „I Spent $500 To Test Devin AI For Prompt Injection," August 2025

CrowdStrike, „2026 Global Threat Report," Februar 2026

Yeo, Satapathy, Cambria, „Mitigating Jailbreaks with Intent-Aware LLMs" (Intent-FT), arXiv:2508.12072

(*) Das Cover ist KI-generiert. Das Modell fragte offensichtlich nicht, wofür es war.