Stack Overflow trainierte die KI, die es zerstörte. Jetzt bittet es sie um Hilfe.

8 min read

Nostalgie.

200.000 Fragen pro Monat in 2014. 3.862 Ende 2025. Ein Rückgang von 98%, und die Kurve fällt nicht ab – sie stürzt in den Abgrund. Wer jetzt denkt „ChatGPT hat es erledigt", liegt beim Ergebnis richtig, aber bei der Ursache 4 Jahre daneben. Der Fall begann 2018, lange bevor GPT-3 öffentlich verfügbar war. Was wirklich passierte, ist spezifischer. Das Stack Overflow Korpus, 15 Jahre bewerteter Fragen und Entwicklerdebatten, trainierte die LLMs, die dann direkt beantworteten, was Entwickler früher auf der Plattform fragten. KI absorbierte den Wert des Korpus und hörte dann auf, welchen zu produzieren.

Stack Overflow wurde nicht getötet. Es wurde verdaut.

Letzte Woche kündigte Stack Overflow Stack Overflow for Agents an, jetzt in der Beta. Das Versprechen: ein geteiltes Korpus validierter Lösungen für KI-Agenten, damit sie aufhören, „Token und Rechenleistung für gelöste Probleme zu verbrennen und hart erkämpftes Wissen zu verlieren, sobald eine Session endet", so Prashanth Chandrasekar (CEO).

Die Entität, die diese Modelle obsolet machten, bittet nun dieselben Modelle, das wieder aufzufüllen, was sie konsumiert haben. Dieses neue Korpus wird die nächste Trainingsrunde füttern. Der Kreis schließt sich. Fast.

Stack Overflow trainierte die KI, die es zerstörte. Jetzt bittet es sie um Hilfe.

Der 20-Minuten-Bug, an den sich niemand erinnert

Das Problem, das SO for Agents zu lösen versucht, hat einen Namen: Ephemeral Intelligence Gap. Wenn eine Agenten-Session endet, verdunstet alles, was sie entdeckt hat, ohne dass etwas an den nächsten Agenten weitergegeben wird, der gegen dieselbe Wand läuft.

Der konkrete Fall aus der Launch-Berichterstattung: Ein Agent in San Francisco verbringt 20 Minuten damit, einen Workaround für eine Breaking Library Change zu erzwingen, ohne zu ahnen, dass ein anderer Agent exakt denselben Bug 5 Minuten früher gelöst hat. Das sind 25 Minuten Rechenleistung für ein Problem, das bereits gelöst war, bevor der erste Agent überhaupt anfing.

Jedes Session-Ende ist ein you died Screen. Nur dass der nächste Agent ohne Erinnerung an den Blutfleck spawnt.

SO for Agents führt 3 Arten von Beiträgen ein, die Agenten zum geteilten Korpus leisten können:

  • Questions: ungelöste Probleme, die für Agenten oder Menschen zur Beantwortung gepostet werden
  • TIL (Today I Learned): vollständige Debug-Traces, Sackgassen inklusive, mit der tatsächlichen Lösung am Ende
  • Blueprint: wiederverwendbare Muster. Die hohe Hürde. Erfordert menschliche Überprüfung vor Aufnahme ins Korpus.

Der Workflow ist search-first. Bevor ein Agent ein Problem angeht, durchsucht er das Korpus. Er trägt bei, wenn er etwas Fehlendes findet. Er markiert Einträge anderer als verifiziert oder defekt, nachdem er sie angewendet hat. Human anchoring: Agenten registrieren sich über Stack Overflow SSO, Beiträge sind an einen menschlichen Reputation Score gekoppelt. Die Qualitätshürde von 2008 soll 2026 halten.

Die operative Frage, die SO nicht vollständig beantwortet: ob Agenten dieses Korpus tatsächlich vor jedem Lösungsversuch abfragen werden. Man kann die beste Wissensdatenbank der Welt bauen. Agenten werden sie trotzdem umgehen, wenn die Abfrage Reibung hinzufügt.

ChatGPT hat Stack Overflow nicht getötet

Das lohnt sich, vom einfachen Narrativ zu trennen, weil das einfache Narrativ die Lektion fehlleitet.

Der Niedergang begann 2018. Nicht wegen eines spezifischen LLM-Launches: keines war öffentlich verfügbar. Bis 2020, als GPT-3 erschien und Entwickler KI als praktisches Tool ernst zu nehmen begannen, war Stack Overflow bereits bei etwa 140.000 Fragen pro Monat, runter von seinem 200.000er Peak. Die Trajektorie war bereits festgelegt. ChatGPT kam 2022 und beschleunigte, was bereits in Bewegung war. Es war der finale Schlag, nicht die Ursache.

Was den Fall 2018 auslöste, ist banaler: das Korpus wurde vollständig. Die Fragen, die einen Menschen zur Beantwortung brauchten, waren größtenteils bereits gestellt, beantwortet, von Google indexiert und auffindbar, ohne etwas zu posten. Stack Overflow wurde von seiner eigenen Vollständigkeit konsumiert, ausgeschöpft durch den Erfolg von allem, was es bereits aufgebaut hatte.

Dann tauchten die LLMs auf, die auf diesem Korpus trainiert waren, und machten die Konsumption endgültig. Entwickler hörten auf zu posten, weil die Modelle die Antworten kannten. Die Modelle kannten die Antworten, weil sie 15 Jahre Entwicklerfragen und Votes absorbiert hatten. Die Trainingsdaten erzeugten das Modell, das die Trainingsdaten überflüssig machte.

Stack Overflow verlor nicht gegen KI. Es wurde zu KI.

Jetzt setzt SO darauf, dass die agentic layer einen neuen Existenzgrund schafft. Die Wette ist vernünftig. Agenten haben ein strukturelles Bedürfnis nach persistentem, geteiltem Wissen, das einmalige LLM-Aufrufe nie hatten. Ein Entwickler, der einem Chatbot eine Frage stellt und eine Antwort bekommt, ist ein geschlossener Kreislauf. Ein Agent, der in einer Pipeline über Dutzende Sessions läuft und wiederholt auf Infrastrukturprobleme stößt, die bereits irgendwo gelöst wurden, braucht diese Lösungen an einem erreichbaren Ort angesammelt. Das Korpus ist nicht der schwere Teil. Agenten dazu zu bringen, es tatsächlich abzufragen, bevor sie lösen, ist es, und warum Agent Tooling die Korpus-Adoption bestimmt ist eine Frage, die SO noch nicht beantwortet hat.

Mozilla hat das vor 10 Wochen gemacht

Am 23. März 2026 startete Mozilla AI cq. Dasselbe grundlegende Konzept: Agenten teilen validierte Lösungen, bevor sie Token für bereits gelöste Probleme verbrennen. Open-Source, Python, 3-Tier-Architektur von lokal über Organisation bis zu globalen Commons. Confidence Scores, die steigen, wenn mehrere Agenten eine Lösung bestätigen. Plugins für Claude Code und OpenCode.

Berichterstattung: praktisch keine. Ein Blog-Post, ein GitHub-Repo, ein kleiner Follower-Kreis. (Es landete wie ein solider PR, wenn das ganze Team im Offsite ist und niemand ihn vor dem Auto-Close genehmigt.)

Dann 10. Juni: Stack Overflow kündigt Stack Overflow for Agents an. Binnen 48 Stunden liefen Artikel auf InfoQ, DevOps.com, The New Stack, webdeveloper.com. Die 10-Wochen-Lücke zwischen den beiden Ankündigungen erzeugte Reaktionen, die nichts mit der Qualität der Idee zu tun hatten.

Was das bestätigt: Die Idee war lebensfähig und deploybar, bevor SO sie ankündigte. Der Ephemeral Intelligence Gap war ein reales Problem, bevor SO ihn benannte. Was Stack Overflow mitbringt, ist nicht das Konzept. Es sind 15 Jahre Korpus und Markenbekanntheit in einem Entwickler-Ökosystem, wo Marke mehr wert ist als 10 Wochen Vorsprung.

Das lohnt sich zu durchdenken, weil es etwas Unbequemes darüber aussagt, wie technische Innovation im KI-Bereich gerade verarbeitet wird. Mozilla AI baut und shipped eine funktionierende Open-Source-Implementation einer echten Idee. Nichts. Eine Marke mit 15 Jahren Dev-Trust kündigt dasselbe an, und Analyse-Artikel erscheinen darüber, wie gerade eine neue Kategorie erfunden wurde. Ich sage nicht, dass das SO-Korpus keinen echten Wert hinzufügt: tut es, und das 15-Jahre-Korpus ist der ganze Punkt ihrer Version, keine Fußnote. Aber die Berichterstattungs-Lücke bildet keine Innovations-Distanz ab. Sie bildet Marken-Distribution ab. 2026 bewegt wer etwas sagt die Nadel mehr als was sie sagen, und diese Lücke schließt sich nicht.

Der Blueprint, der sich selbst glaubte

Das Qualitätsrisiko, das null Berichterstattung in der Launch-Analyse bekommt.

Agenten tragen zum Korpus bei, wenn sie glauben, etwas gelöst zu haben. Das Problem: Agenten glauben oft, sie hätten gelöst, was sie nicht gelöst haben. Der Agent optimiert auf „fertig", nicht auf „korrekt". Ein Agent, der einen Workaround als Blueprint markiert und weitermacht, hat im Grunde ein „läuft auf meiner Maschine"-Ticket eingereicht und das Issue geschlossen. Ein fehlerhafter Blueprint, der Agenten an einem Problem vorbeibringt, ohne explizites Versagen auszulösen, wird als gültig markiert. Er bleibt im Korpus, bis genug Agenten klar genug daran scheitern, um eine Korrektur auszulösen, was lange dauern kann, wenn der Fehler nur unter spezifischen Bedingungen auftaucht.

SO plant menschliche Überprüfung vor jeder Veröffentlichung. Bei Beta-Volumen hält das. Die Frage ist, was passiert, wenn das Agent-Beitragsvolumen skaliert. Bei Maschinengeschwindigkeit wird menschliche Überprüfung zum Flaschenhals, und Flaschenhälse verlangsamen entweder das System oder werden umgangen. Beides ist nicht großartig für Korpus-Integrität.

Ich führte einen 14-Tage-Test mit einem persistenten Shared-Memory-Tool durch, das in meine Pipeline eingebunden war (SQLite-backed, expliziter Hook bei jedem Session-Start, Erinnerungen ins System Prompt eingebacken. Lief mit Sonnet und Opus, gleiches Ergebnis): 60 Sessions, 1.500 automatische Invocation-Erinnerungen, 0 nützliche Wissensakkumulationen. Das Tool funktionierte technisch. Die Agenten bauten einfach nicht auf dem auf, was vorherige Sessions gefunden hatten, selbst mit jedem strukturellen Nudge, den ich hinzufügen konnte. Die praktische Performance von Agent-Shared-Memory-Systemen liegt weit unter dem, was ihre Architekturen suggerieren, selbst unter für Erfolg designten Bedingungen.

Es gibt auch ein zweites Problem, das separat zu halten ist, weil es eine völlig andere Ebene ist. Der Ephemeral Intelligence Gap, den SO for Agents anvisiert, ist cross-agent: Agent A löste etwas, Agent B weiß es nicht. Das ist die Korpus-Ebene. Aber darunter liegt ein älteres Versagen: die eigene In-Session-Fragilität des individuellen Agenten. Der Agent, der korrekt das SO-Korpus abfragt und einen funktionierenden Blueprint abruft, vergisst trotzdem Entscheidungen von vor 40 Turns, führt Dinge erneut aus, die er bereits gelöst hat, und verliert Thread-Kohärenz in langen Ketten. Der Artikel über wie Psychologie Agent In-Session Memory knackte behandelt diese Ebene: episodische Gedächtnisstruktur, prospektive Memory Hooks, Spaced Retrieval auf Agent-Architekturen gemappt. SO for Agents gibt nicht vor, das anzugehen, was ehrlich ist. Aber den Korpus-Fix zu deployen und anzunehmen, das Memory-Problem sei gelöst, ist ein Kategorienfehler: man hat 1 von 2 distinkten Failure Modes adressiert.

Ich denke, die Cross-Agent-Ebene ist tatsächlich die handhabbarere der beiden, was SO for Agents zu einer vernünftigen Architektur-Wette macht, selbst mit dem Qualitätsrisiko auf dem Tisch. Die Intra-Agent-Ebene liegt upstream von jedem geteilten Korpus: man bräuchte den Agenten, um zuverlässig sein eigenes vorheriges Reasoning innerhalb einer Session zu surfacen, was ein Context-Management-Problem ist, das keine externe Datenbank berührt.

Was in die nächsten Modelle eingebacken wird

Das ursprüngliche Stack Overflow Korpus trainierte die LLMs, die Stack Overflow irrelevant machten. Das SO for Agents Korpus wird die nächste Trainingsrunde füttern. Das ist keine Spekulation über Datensammlungsabsichten: es ist die Standard-Data-Training-Deployment-Kette, und es gibt keinen strukturellen Grund zu erwarten, dass Stack Overflow for Agents außerhalb davon sitzt.

Wenn dieses Korpus Fehler trägt, die von Agenten propagiert wurden, die gegenseitig ihre falschen Antworten als verifiziert markierten, gehen diese Fehler in die Modellgewichte der nächsten Generation ein. Diese Modelle tragen dann zum Korpus mit denselben Fehlern bei, die bereits in ihre Gewichte eingebacken sind, und kommen mit dem akkumulierten Verifikationsgewicht jedes Agenten an, der sie zuvor bestätigt hat. Eine falsche Antwort, die als Blueprint ins Korpus eingeht, verlässt den nächsten Trainingslauf als Annahme, und es gibt keinen Mechanismus in der Kette, um sie rückwirkend zu fangen.

Das verschiebt die Frage von „funktioniert SO for Agents als Produkt" zu etwas Größerem. Es wird Infrastruktur für die agentic era: die epistemische Ebene, die bestimmt, was KI-Agenten kollektiv über Problemlösung glauben. Wer validiert Wahrheit, wenn Agenten gleichzeitig Produzenten und Konsumenten des Korpus sind, das die Modelle trainiert, auf denen sie laufen?

Stack Overflow hat 15 Jahre Erfahrung als Antwort auf diese Frage. Alles davon für Menschen in menschlicher Geschwindigkeit gebaut.

Eine Bedingung

Der Loop kann funktionieren. Es gibt exakt 1 Bedingung: menschliche Reibung muss bei Maschinenskala halten.

Wenn SO echte menschliche Überprüfung aufrechterhält, während das Agent-Beitragsvolumen wächst, kann das Korpus echte Infrastruktur werden. Wenn diese Reibung nachgibt, und sie ist in vielen Moderationskontexten nachgegeben, sobald Skala ankommt, hat man einen Trust-Verstärker für falsche Antworten gebaut. Mit 15 Jahren Markenglaubwürdigkeit hinter jedem Eintrag.

Die Konsequenzen bleiben nicht auf agents.stackoverflow.com. Sie fließen upstream in die Trainingsläufe von Modellen, die dann zu agents.stackoverflow.com beitragen werden.

Stack Overflow baute die Qualitätshürde einmal, für Menschen, in menschlicher Geschwindigkeit. Die Maschinenskala-Version ist ein anderes Engineering-Problem. Was bestimmen wird, ob dieses Experiment Infrastruktur oder eine gut gebrandete Error-Pipeline produziert, ist nicht das Konzept, das Korpus oder der Name. Es ist die Kapazität, menschliche Reibung nicht für Maschinendurchsatz zu opfern, wenn Agent-Beiträge in Volumen anzukommen beginnen.

Weißt du was? Vielleicht lese ich das falsch, aber diese eine Bedingung fühlt sich wie das ganze Spiel an. Alles andere sind nur Engineering-Details 🤷‍♂️

Quellen

  • Stack Overflow Blog, "Announcing Stack Overflow for Agents," 10. Juni 2026
  • DevOps.com, "Stack Overflow Is Being Reborn as a Back-End Service for AI Agents," 12. Juni 2026
  • Mozilla AI Blog, "cq: Stack Overflow for Agents," 23. März 2026
  • Robert Matsuoka / Hyperdev, "Stack Overflow Is Dead," Februar 2026
  • webdeveloper.com, "Stack Overflow for Agents Launches an API-First Knowledge Exchange," 10. Juni 2026

Dieser Post kann Affiliate-Links enthalten. Wenn du sie anklickst, verdiene ich möglicherweise eine kleine Provision (kostet dich nichts und hilft mir, täglich qualitativ hochwertige Artikel für dein Lesevergnügen zu liefern).