KI-Modelle werden schlechter 2026: Warum Claude, GPT, Gemini versagen

Diese Woche haben mir drei verschiedene Leute dasselbe erzählt. Über drei verschiedene KI-Tools. Ich nutze nicht mal die anderen drei, aber die Beschwerden haben mich trotzdem erreicht.

TLDR. Das ist nicht Anthropic, die Claude drosseln, um Kosten zu sparen. Das ist nicht OpenAI, die einen Release vermasseln. Das ist nicht Geminis Routing, das spinnt. Vier Labs servieren dir gerade eine verschlechterte Erfahrung, und die Erklärung ist für alle vier dieselbe. Kein Changelog wird es dokumentieren. Kein CEO wird es verkünden. Und es wird noch viel schlimmer werden.

Wenn vier Konkurrenten innerhalb von dreißig Tagen schlechter werden, sind das nicht vier unabhängige Bugs. Das ist ein Signal. Der Rest dieses Artikels erklärt, was das Signal bedeutet, warum die Labs es nicht beheben können, und was du tun solltest, bevor deine Rechnung die Wahrheit sagt.

Entwickler überprüft hektisch verschlechterte KI-Antworten, während Kollege auf sinkende Rechenkosten-Grafik in Bürokabine zeigt — Deine KI wurde nicht dumm. Dein Budget schon.

Ich nutze Claude täglich. Diese Woche sagten drei Freunde dasselbe über GPT, Gemini, Perplexity.

Ich bin nicht einer dieser Typen, die vier Abos bezahlen, nur um zu streiten, welches Modell das beste ist. Ich bin ein Claude-Typ. Claude Code den ganzen Tag, Claude für Recherche, Claude zum Schreiben (auch für diesen Artikel, ja). Langweilig. Entschieden.

Wenn also Beschwerden über andere Tools bei mir ankommen, dann durchs Fenster, nicht durch mein Portemonnaie.

Montag. Ein Freund, der beruflich Code shipped. Er erzählt mir, Claude Code ist faul geworden in den letzten zwei Wochen oder so. Überspringt Schritte, die es im Februar perfekt hinbekommen hat. Verliert den Faden bei Multi-File-Refactorings. Kein Wutanfall. Ein gemessenes "irgendwas hält nicht mehr."

Mittwochabend. "Ich habe das Gefühl, ich bezahle für einen Junior-Praktikanten statt für den Senior, den ich hatte." Das war eine andere Freundin, eine Nicht-Entwicklerin, die täglich mit ChatGPT schreibt. Sie hatte keinen Artikel gelesen, der ihr das eingeredet hätte. Sie hat es beim Arbeiten gemerkt.

Donnerstagabend, Discord. Ein Marketer in unserem Channel postet seinen Screen: Perplexity beantwortet eine Recherche-Anfrage mit einer Stichpunktliste. Noch eine Anfrage. Noch eine Stichpunktliste. Er grübelt schon drei Wochen darüber, bevor er was sagt, falls es an ihm lag.

Und im Hintergrund war mir bei meinem eigenen Gemini-Account was aufgefallen (ja, ich hab einen, für Such-Quervergleiche). Gemini 3 hat angefangen zu halluzinieren bei Themen, die Gemini 2.5 im März noch hinbekommen hat. Nicht katastrophal. Gerade genug, dass ich aufgehört habe, ihm bei allem zu vertrauen, was ich nicht sofort verifizieren konnte.

Vier Labs. Dreißig Tage. Vier verschiedene Leute, vier verschiedene Workflows, dieselbe Form der Beschwerde: das Tool ist nicht mehr das, was es war.

Du bist es nicht. Es ist nicht das Modell, nicht wirklich. Es ist nicht mal Anthropic oder OpenAI, die schludern. Da läuft was anderes, und ich sehe niemanden, der über das schreibt, was es tatsächlich verbindet.

Alle schauen an der falschen Stelle

Google jetzt eine dieser Beschwerden und du findest durchdachte Leute, die jede einzelne erklären. Eine nach der anderen.

OpenAI ist seit dem 1. Dezember 2025 im internen "Code Red". Altman sagte den Mitarbeitern in einem internen Memo (bestätigt von The Information und WSJ), sie sollen alles stehen lassen und ChatGPT reparieren, bevor Gemini 3 weiter ihren Marktanteil frisst. Wenn sich GPT also komisch anfühlt, nun ja, sie reorganisieren sich in Panik. Macht Sinn.

Anthropic hatte allein im April sechs Ausfälle. Der am 13. April dauerte fast eine Stunde. Der am 15. April zog sich fast drei Stunden. Der öffentliche Status-Monitor meldet 98,79% Uptime über 90 Tage. Für ein Unternehmen, das Enterprise-Verträge auf Zuverlässigkeit verkauft, ist das mies. Wenn sich Claude also wackelig anfühlt, nun ja, die Infrastruktur humpelt. Macht Sinn.

Gemini ist jetzt bei 650 Millionen monatlich aktiven Nutzern laut Googles eigenen Oktober-2025-Zahlen. Die Last ist stark gestiegen. Die Qualität ist, nach dem Konsens meines Feeds, gesunken. Zieh deine eigenen Verbindungen.

Perplexity drückt seit seinem letzten Geschäftsmodell-Pivot die Margen bei jeder Anfrage. Kürzere Antworten, billigeres Compute, weniger Recherche-Tiefe. Wenn sich Perplexity also dünner anfühlt, nun ja, das ist die Strategie. Macht Sinn.

Jede Erklärung ist ordentlich. Jede ist lokal. Jede handelt von einem spezifischen Lab, einem spezifischen schlechten Quartal, einem spezifischen Manager, der wegen Benchmarks schwitzt.

Niemand verbindet die vier.

Warum? Weil du, sobald du merkst, dass vier Konkurrenten in denselben dreißig Tagen schlechter werden, akzeptieren musst, dass die Ursache nicht in einem von ihnen liegt. Diese Antwort ist viel unbequemer als "Altman gerät in Panik" oder "Anthropic braucht bessere Ops." Sie impliziert etwas Größeres, als jedes einzelne Lab kontrolliert. Also schreiben Leute ein Dutzend Denkstücke über jedes einzelne Symptom, und niemand schreibt über die Gleichzeitigkeit.

Ich habe mich schon mal bei diesem Reflex erwischt. Derselbe Fehldiagnose-Reflex tauchte im Bloomberg-Produktivitäts-Panik-Artikel auf, wo die eigentliche Ursache nicht war, dass Entwickler bei KI nachlässig wurden, sondern etwas viel Langweiligeres. Derselbe Reflex hier. Alle zeigen auf ein Lab. Die Antwort liegt nicht in einem Lab.

Die Gleichzeitigkeit ist die Geschichte.

Qualität ist keine Eigenschaft des Modells. Sie ist eine Eigenschaft des Computes pro Anfrage.

Qualität, so wie du sie erlebst, ist nicht nur eine Eigenschaft des Modells. Sie ist eine Eigenschaft davon, wie viel Compute das Lab bereit ist, für deine spezifische Anfrage auszugeben.

Dieselben Gewichte. Dieselbe Architektur. Dieselben öffentlichen Benchmark-Scores. Die Erfahrung, die du um 15 Uhr an einem Dienstag im April 2026 bekommst, kann merklich schlechter sein als die, die du um 3 Uhr morgens im Februar hattest, und nichts in den Release Notes wird dir sagen warum.

Die Hebel sind langweilig und unsichtbar. Ein Lab kann die Prompt-Cache-TTL verkürzen, um Speicher zu sparen, und dein Modell "vergisst, wo du warst", weil der Kontext von vor fünf Minuten rausgeschmissen wurde. Es kann deine Anfrage mit fünfzig anderen bündeln, wenn die GPUs gesättigt sind, und jede Anfrage bekommt einen dünneren Slice des Reasonings, was du als übersprungenen Schritt spürst. Es kann deine Anfrage stillschweigend zu einem kleineren Modell routen, wenn die Frontier-Queue voll ist; du siehst immer noch "Claude Opus 4.7" in der UI, während du Haiku darunter bekommst. Bei Modellen mit variabler Reasoning-Tiefe kann es die Chain of Thought bei weniger Token kappen, und die Analyse, die du im Februar bekommen hättest, hört drei Absätze früher auf. Es kann die maximale Output-Länge schrumpfen, und der Absatz wird zur Stichpunktliste.

Nichts davon erreicht die Release Notes, weil es keine Modell-Änderung ist. Es ist eine Service-Änderung. Das Modell im Regal ist dasselbe. Der Anteil, den sie dir servieren, wurde kleiner.

Nichts davon bricht auch die öffentlichen Benchmarks. MMLU und HumanEval laufen unter kontrollierten Bedingungen mit großzügigem Compute. Die Zahlen bleiben, wo sie waren. Die Evals sagen dir, das Modell ist in Ordnung. Das Modell ist in Ordnung. Das Modell ist nicht mehr das, was du kaufst. Du kaufst einen Slice der Zeit des Modells, und der Slice wurde dünner.

Anthropic kann dir Claude Opus 4.7 servieren und dir eine Haiku-Erfahrung geben. Du wirst es nie im Changelog sehen.

Die physischen Zahlen. Sie sind schlimmer, als du denkst.

2026 vs 2027 US data center capacity, two bars per year. 2026: 16 GW announced vs 5 GW under construction. 2027: 21.5 GW announced vs 6.3 GW under construction. Visual emphasis on the widening gap between promises and reality. — US-Rechenzentrumskapazität: Wachsende Kluft zwischen Ankündigungen und Bau

Achtzehn Monate. So lange dauert es, ein Rechenzentrum von Grund auf zu bauen, vorausgesetzt, du hast bereits das Land, den Stromvertrag und die Transformatoren.

Jetzt die schlechten Nachrichten. In seinem 2026 Data Center Outlook berichtet Sightline Climate, dass 30 bis 50% der US-Rechenzentren, die 2026 online gehen sollten, verzögert oder gestrichen werden. Bloomberg griff den Bericht Ende März 2026 auf. Das Diagramm ist brutal. Von 16 Gigawatt, die für 2026 angekündigt wurden, sind nur etwa 5 Gigawatt tatsächlich im Bau. Der Rest sitzt im "angekündigt"-Stadium ohne klaren Weg zum Netz.

Warum? Nicht Geld. Hyperscaler haben über 700 Milliarden Dollar kombinierte Capex für 2026 budgetiert. Der Engpass ist physisch. Transformatoren. Schaltanlagen. Batterien. Die langweilige elektrische Hardware zwischen der Versorgungsleitung und dem GPU-Rack. Die US-Fertigungskapazität kann nicht mithalten, und die vorgelagerten Komponenten (einschließlich Rohstoffe für Batterien) kommen immer noch größtenteils aus China. Zölle haben es nicht behoben. Reshoring hat es nicht behoben. Netzbetreiber sind überflutet mit spekulativen Lastanfragen, die sie nicht mal bewerten können.

Auf Unternehmensebene wird es noch schlimmer. Im Dezember 2025 verschob Oracle mehrere seiner OpenAI-dedizierten Stargate-Rechenzentren von 2027 auf 2028 laut Bloomberg, unter Berufung auf Arbeits- und Materialengpässe. Vor zwei Wochen pausierte OpenAI die UK-Stargate-Site in West London nach sechs Monaten Ankündigungen. Die Narvik-Site in Norwegen, ursprünglich Stargate, wurde an Microsoft übertragen. Microsoft selbst stornierte im März eine Reihe europäischer Leases.

Und das Stromnetz. Der Teil, an den niemand denkt, bis die Rechnung kommt. US-Netzbetreiber warnen seit 2024 öffentlich, dass sie neue Rechenzentrumskapazität nicht in dem Tempo mit Strom versorgen können, in dem sie angekündigt wird. Diese Warnung liegt vor. Niemand hat darauf reagiert. Hier sind wir.

Warum April. Warum jetzt.

Also warum April. Warum alle vier auf einmal.

Weil die Nachfrage das Angebot in diesem Quartal überschritten hat. Und die Überschreitung war nicht graduell.

Gemini 3 wurde am 18. November 2025 ausgeliefert. Im Januar hatte es 650 Millionen monatlich aktive Nutzer. Ein Verbraucherprodukt wächst nicht von null auf 650 Millionen in sechs Wochen, ohne Compute zu fressen, das für andere Workloads zugeteilt war. Googles internes Routing musste Entscheidungen treffen.

ChatGPT erreichte am 1. Dezember 2025 "Code Red". Altman sagte seinem Team, sie sollen alles stehen lassen und sich auf ChatGPT-Qualität konzentrieren. Das bedeutet, Compute umzuleiten, das für andere Dinge geplant war (Agents, Pulse, Ads-Infrastruktur). OpenAI verteidigte Marktanteile gegen Gemini 3 und verschob Compute innerhalb desselben fixen Budgets.

Auf Anthropics Seite ging die Enterprise-Adoption von Claude Code und dem neueren Cowork-Agent im Q1 2026 exponentiell hoch. Anthropic sagte der Presse im März, das Unternehmen melde täglich mehr als eine Million neue Nutzer an. Eine Million pro Tag. Auf Infrastruktur, die nicht für eine Million pro Tag ausgelegt war.

Und das für alle vier Labs verfügbare Compute ist seit Ende 2025 nicht proportional gewachsen. Die Erweiterungs-Pipeline, die wir gerade durchgegangen sind, sollte die Kapazität hinzufügen. Diese Pipeline stottert.

Etwas musste nachgeben. Was nachgab, ist der Teil, den niemand misst, den niemand veröffentlicht: die Qualität der durchschnittlichen Anfrage. Nicht der Benchmark. Die Anfrage. Deine.

Labs kündigen Rationierung nicht an. Sie machen es.

Und 2027 ist bereits schlimmer als 2026

Das Schlimmste ist nicht 2026. Es ist 2027.

Sightlines derselbe Bericht verfolgt die 2027-Pipeline. Von 21,5 Gigawatt, die für 2027 angekündigt wurden, sind nur 6,3 derzeit im Bau. Das Verhältnis ist schlechter als 2026. Nicht dasselbe. Schlechter. Das Delta zwischen Ankündigung und Realität wird größer, nicht kleiner.

Und denk an die Bauzeit. Zwölf bis achtzehn Monate minimum. Wenn ein Projekt heute nicht im Bau ist, geht es nicht 2027 online. Es geht 2028 online. Vielleicht.

Zwischen heute und dem nächsten Überschreiten dieser Linie steht die Nachfrage nicht still. KI-Agents vermehren sich, jedes Fortune-500-Unternehmen betreibt irgendeinen internen Copilot, Videogenerierung frisst Token gigabyteweise, persistente Agent-Workflows halten Kontextfenster stundenlang statt sekundenlang offen. Die durchschnittliche Anfrage von 2027 wird mehr Compute verbrauchen als die durchschnittliche Anfrage von 2025. Viel mehr. Wie viel genau, weiß niemand. Die Richtung ist unbestritten.

Angebot stottert. Nachfrage steigt. Die Lücke ist strukturell.

Das ist kein Zyklus, der sich selbst korrigiert. Es ist eine Klippe, die 2026 zu erklimmen begann und die 2027 steiler macht.

Drei Dinge, die du tun solltest, bevor der Preis die Wahrheit sagt

Bevor die Rechnung anfängt, die Wahrheit zu sagen, drei Dinge. Nicht zehn. Keine Listicle. Drei.

Erstens, eine Zahl, auf die die Verbraucherpresse nicht genug eingehämmert hat. The Information berichtete bereits im März 2025, dass OpenAI Agent-Tarife von 2.000 Dollar pro Monat für einen "gut verdienenden Wissensarbeiter"-Agent, 10.000 für einen Software-Entwickler-Agent und 20.000 für einen "PhD-Level-Forscher"-Agent plante. Das war vor einem Jahr. ChatGPT Pro für 200 Dollar pro Monat, jetzt im Katalog, ist nicht das Endspiel. Es ist die Vorspeise. Claude wird folgen. Gemini wird folgen. Jeder mit einem ernsthaften Reasoning-Produkt wird folgen. Tausend, fünftausend, zehntausend Euro im Monat für den Tarif, der tatsächlich funktioniert. Keine Frage des Ob. Frage des Wann. Vielleicht 2027. Vielleicht früher.

Angesichts dessen, drei Dinge.

Eins. Konzentriere dein Budget auf ein primäres Tool. Die Netflix-Fragmentierung kommt zu LLMs, und du weißt, wie das für deinen Streaming-Stack endete. Wenn du gerade für vier Abos bezahlst, um zu vergleichen, wirst du bald mehr für weniger ausgeben. Wähle dein Lager, solange das Wählen noch billig ist. Nutze die anderen kostenlos oder API-gemessen, wenn du unbedingt eine zweite Meinung brauchst.

Zwei. Hör auf, dein Modell nach Marke zu wählen. Wähle nach Aufgabe. Der "beste Allrounder" ist bereits tot, du weißt es nur noch nicht. Claude ist derzeit das Beste, was ich für Long-Context-Code und Schreiben in der Stimme verwendet habe. GPT ist das Beste bei Multimodal und beim Reasoning, wenn du ihm genug Raum gibst. Gemini ist am stärksten bei Live-Suche und beim Handhaben enormer Inputs. Perplexity ist für recherchierte Forschung (derzeit umstritten, aber die Absicht ist immer noch gut). Bewege dich zwischen ihnen, wie ein Koch sich zwischen Messern bewegt. Nicht ein Messer für alles.

Drei. Lerne die Grundlagen ohne KI neu, solange es noch billig ist. Wenn du ein Entwickler bist, der zwei Jahre lang vibe-coded hat, ohne einen Stack-Trace unassistiert lesen zu können, wirst du feststecken, wenn der anständige Tarif vierstellig pro Monat kostet. Wenn du ein Schreiber bist, der keinen Absatz ohne den Assistenten entwerfen kann, dieselbe Geschichte. (Ich habe das auf die harte Tour gelernt, als ich ein 200-Dollar-Setup für 15 Dollar neu aufbaute, als sich der Preis das letzte Mal bewegte.) Die Leute, die den Preis-Reset überleben werden, sind die, die immer noch wissen, was das Tool für sie getan hat. Alle anderen werden sehr teure Kunden.

Das Fenster schließt sich. Nicht zugeknallt. Es schließt sich. Nutze es.

Das goldene Zeitalter endete nicht mit einer Ankündigung

Das goldene Zeitalter des billigen Stroms endete nicht mit einer Rede. Das goldene Zeitalter des kostenlosen Broadcast-TV endete nicht mit einer Rede. Das goldene Zeitalter der unbegrenzten mobilen Daten endete nicht mit einer Rede. Jedes Mal fing die Rechnung an, die Wahrheit zu sagen, bevor es ein Manager tat.

Wir sind an diesem Punkt.

Das goldene Zeitalter endet nicht mit einer Ankündigung. Es endet, wenn die Rechnung anfängt, die Wahrheit zu sagen. Die Rechnung flüstert im April. Sie wird im September sprechen 💸

Quellen

Sightline Climate, 2026 Data Center Outlook, berichtet von Bloomberg Ende März 2026
The Information und Wall Street Journal zu Sam Altmans "Code Red"-Memo (1. Dezember 2025)
SF Standard und TechRadar zu Anthropics April-2026-Ausfallserie

(*) Das Cover ist KI-generiert. Was, angesichts des Themas dieses Artikels, wahrscheinlich seine eigene kleine Ironie ist.