Dégradation des modèles IA en 2026 : Pourquoi Claude, GPT, Gemini régressent

Cette semaine, trois personnes différentes m'ont dit la même chose. À propos de trois outils IA différents. Je n'utilise même pas les trois autres, mais les plaintes sont quand même arrivées jusqu'à moi.

RÉSUMÉ. Ce n'est pas Anthropic qui bride Claude pour réduire les coûts. Ce n'est pas OpenAI qui rate une sortie. Ce n'est pas le routage de Gemini qui déconne. Quatre labos vous servent une expérience dégradée en ce moment même, et l'explication est la même pour les quatre. Aucun changelog ne l'écrira. Aucun PDG ne l'annoncera. Et ça va empirer.

Quand quatre concurrents se dégradent dans les mêmes trente jours, ce ne sont pas quatre bugs indépendants. C'est un signal. Le reste de cet article explique ce que dit ce signal, pourquoi les labos ne peuvent pas le corriger, et quoi faire avant que votre facture rattrape la réalité.

Développeur vérifiant frénétiquement les réponses dégradées d'une IA pendant qu'un collègue pointe un graphique de baisse des coûts de calcul dans un bureau en open space — Votre IA n'est pas devenue stupide. C'est votre budget qui l'est devenu.

J'utilise Claude tous les jours. Cette semaine, trois amis ont dit la même chose sur GPT, Gemini, Perplexity.

Je ne suis pas de ces types qui payent quatre abonnements juste pour débattre de quel modèle est le meilleur. Je suis un mec Claude. Claude Code toute la journée, Claude pour la recherche, Claude pour l'écriture (cet article aussi, oui). Banal. Tranché.

Alors quand les plaintes sur d'autres outils m'arrivent, c'est par la fenêtre, pas par mon portefeuille.

Lundi. Un ami qui pond du code pour gagner sa vie. Il me dit que Claude Code est devenu paresseux depuis deux semaines environ. Zappe des étapes qu'il maîtrisait en février. Perd le fil sur les refactos multi-fichiers. Pas une crise. Un constat mesuré : "quelque chose ne tient plus."

Mercredi soir. "J'ai l'impression de payer pour un stagiaire junior au lieu du senior que j'avais." C'était une autre amie, non-dev qui écrit avec ChatGPT tous les jours. Elle n'a pas lu un article qui lui disait de ressentir ça. Elle l'a remarqué en bossant.

Jeudi soir, Discord. Un marketeur de notre channel balance son écran : Perplexity qui répond à une requête de recherche avec une liste à puces. Autre requête. Autre liste à puces. Il y réfléchit depuis trois semaines avant d'en parler, au cas où ça viendrait de lui.

Et en arrière-plan, j'avais remarqué un truc sur mon propre compte Gemini (oui, j'en garde un, pour recouper les recherches). Gemini 3 a commencé à halluciner sur des sujets que Gemini 2.5 gérait en mars. Pas catastrophiquement. Juste assez pour que j'arrête de lui faire confiance sur tout ce que je ne pouvais pas vérifier sur le coup.

Quatre labos. Trente jours. Quatre personnes différentes, quatre workflows différents, la même forme de plainte : l'outil n'est plus ce qu'il était.

Ce n'est pas vous. Ce n'est pas le modèle, pas vraiment. Ce n'est même pas Anthropic ou OpenAI qui font n'importe quoi. Il se passe autre chose, et je ne vois personne écrire sur ce qui relie vraiment tout ça.

Tout le monde regarde au mauvais endroit

Googlez n'importe laquelle de ces plaintes maintenant et vous trouverez des gens réfléchis qui expliquent chacune d'elles. Une par une.

OpenAI est en "Code Red" interne depuis le 1er décembre 2025. Altman a dit aux employés dans un mémo interne (confirmé par The Information et WSJ) de tout lâcher et réparer ChatGPT avant que Gemini 3 continue à leur bouffer leur déjeuner. Alors si GPT semble bizarre, eh bien, ils se réorganisent dans la panique. Logique.

Anthropic a eu six pannes rien qu'en avril. Celle du 13 avril a duré près d'une heure. Celle du 15 avril s'est étalée sur près de trois heures. Le moniteur de statut public rapporte 98,79% de disponibilité sur 90 jours. Pour une boîte qui vend des contrats entreprise sur la fiabilité, c'est rude. Alors si Claude semble bancal, eh bien, l'infrastructure boitille. Logique.

Gemini est maintenant à 650 millions d'utilisateurs actifs mensuels selon les propres chiffres de Google d'octobre 2025. La charge a explosé. La qualité, selon le consensus de mon feed, a chuté. Tirez vos propres conclusions.

Perplexity presse les marges sur chaque requête depuis son dernier pivot de business model. Réponses plus courtes, compute moins cher, recherche moins approfondie. Alors si Perplexity semble plus léger, eh bien, c'est la stratégie. Logique.

Chaque explication est propre. Chaque une est locale. Chacune concerne un labo spécifique, un trimestre pourri spécifique, un dirigeant spécifique qui sue sur les benchmarks.

Personne ne relie les quatre.

Pourquoi ? Parce qu'une fois que vous remarquez que quatre concurrents se dégradent dans les mêmes trente jours, vous devez accepter que la cause n'est à l'intérieur d'aucun d'eux. Cette réponse est bien plus inconfortable que "Altman panique" ou "Anthropic a besoin de meilleures ops." Elle implique quelque chose de plus gros qu'aucun labo ne contrôle. Alors les gens écrivent une douzaine de thinkpieces sur chaque symptôme individuel, et personne n'écrit sur la simultanéité.

Je me suis déjà pris sur ce réflexe. Le même réflexe de mauvais diagnostic est apparu dans l'article de panique productivité de Bloomberg, où la vraie cause n'était pas que les développeurs mollissaient sur l'IA mais quelque chose de bien plus banal. Même réflexe ici. Tout le monde pointe un labo. La réponse n'est pas dans un labo.

La simultanéité, c'est ça l'histoire.

La qualité n'est pas une propriété du modèle. C'est une propriété du compute par requête.

La qualité, telle que vous l'expérimentez, n'est pas seulement une propriété du modèle. C'est une propriété de combien de compute le labo est prêt à dépenser sur votre requête spécifique.

Mêmes poids. Même architecture. Mêmes scores de benchmark publics. L'expérience que vous obtenez à 15h un mardi d'avril 2026 peut être significativement pire que celle que vous aviez à 3h du mat en février, et rien dans les notes de version ne vous dira pourquoi.

Les leviers sont banals et invisibles. Un labo peut raccourcir le TTL du cache de prompt pour économiser la mémoire, et votre modèle "oublie où vous en étiez" parce que le contexte d'il y a cinq minutes a été éjecté. Il peut batcher votre requête avec cinquante autres quand les GPU sont saturés, et chaque requête obtient une tranche plus fine de raisonnement, que vous ressentez comme une étape sautée. Il peut silencieusement router votre requête vers un modèle plus petit quand la queue frontier est pleine ; vous voyez toujours "Claude Opus 4.7" dans l'UI en obtenant Haiku en dessous. Pour les modèles avec profondeur de raisonnement variable, il peut plafonner la chaîne de pensée à moins de tokens, et l'analyse que vous auriez eue en février s'arrête trois paragraphes plus tôt. Il peut réduire la longueur max de sortie, et le paragraphe devient une liste à puces.

Rien de tout ça n'atteint les notes de version, parce que ce n'est pas un changement de modèle. C'est un changement de service. Le modèle sur l'étagère est le même. La portion qu'ils vous servent a rétréci.

Ça ne casse pas non plus les benchmarks publics. MMLU et HumanEval tournent dans des conditions contrôlées avec du compute généreux. Les chiffres restent où ils étaient. Les évals vous disent que le modèle va bien. Le modèle va bien. Le modèle n'est plus ce que vous achetez. Vous achetez une tranche du temps du modèle, et la tranche a minci.

Anthropic peut vous servir Claude Opus 4.7 et vous donner une expérience Haiku. Vous ne le verrez jamais dans le changelog.

Les chiffres physiques. Ils sont pires que vous ne pensez.

2026 vs 2027 US data center capacity, two bars per year. 2026: 16 GW announced vs 5 GW under construction. 2027: 21.5 GW announced vs 6.3 GW under construction. Visual emphasis on the widening gap between promises and reality. — Capacité des centres de données US : écart grandissant entre annonces et construction

Dix-huit mois. C'est le temps qu'il faut pour construire un centre de données from scratch, en supposant que vous ayez déjà le terrain, le contrat électrique, et les transformateurs.

Maintenant la mauvaise nouvelle. Dans son 2026 Data Center Outlook, Sightline Climate rapporte que 30 à 50% des centres de données US prévus pour être mis en ligne en 2026 seront retardés ou annulés. Bloomberg a repris le rapport fin mars 2026. Le graphique fait mal. Sur 16 gigawatts annoncés pour 2026, seulement environ 5 gigawatts sont réellement en construction maintenant. Le reste traîne en phase "annoncé" sans chemin clair vers le réseau.

Pourquoi ? Pas l'argent. Les hyperscalers ont budgété plus de 700 milliards de dollars de capex combiné pour 2026. Le goulot d'étranglement est physique. Transformateurs. Appareillage de commutation. Batteries. Le matériel électrique chiant entre la ligne du fournisseur et le rack GPU. La capacité de fabrication US ne peut pas suivre, et les composants en amont (y compris les matières premières pour batteries) viennent encore majoritairement de Chine. Les tarifs douaniers n'ont pas arrangé ça. Le reshoring n'a pas arrangé ça. Les opérateurs de réseau sont inondés de demandes de charge spéculatives qu'ils ne peuvent même pas évaluer.

Ça empire au niveau corporate. En décembre 2025, Oracle a repoussé plusieurs de ses centres de données Stargate dédiés à OpenAI de 2027 à 2028 selon Bloomberg, citant des pénuries de main-d'œuvre et de matériaux. Il y a deux semaines, OpenAI a mis en pause le site Stargate UK à West London après six mois d'annonces. Le site de Narvik en Norvège, originellement Stargate, a été transféré à Microsoft. Microsoft lui-même a annulé un batch de baux européens en mars.

Et le réseau électrique. La partie à laquelle personne ne pense jusqu'à ce que la facture arrive. Les opérateurs de réseau US préviennent publiquement depuis 2024 qu'ils ne peuvent pas alimenter la nouvelle capacité de centres de données au rythme où elle est annoncée. Cet avertissement est au dossier. Personne n'a agi dessus. Nous y voilà.

Pourquoi avril. Pourquoi maintenant.

Alors pourquoi avril. Pourquoi les quatre à la fois.

Parce que la demande a croisé l'offre ce trimestre. Et le croisement n'a pas été graduel.

Gemini 3 a été livré le 18 novembre 2025. En janvier, il était à 650 millions d'utilisateurs actifs mensuels. Un produit grand public ne passe pas de rien à 650 millions en six semaines sans bouffer du compute qui était alloué à d'autres charges. Le routage interne de Google a dû faire des choix.

ChatGPT a atteint le "Code Red" le 1er décembre 2025. Altman a dit à son équipe de tout lâcher et se concentrer sur la qualité ChatGPT. Ça veut dire réallouer du compute prévu pour d'autres trucs (agents, Pulse, infrastructure pub). OpenAI défendait ses parts de marché contre Gemini 3 et déplaçait du compute dans le même budget fixe.

Côté Anthropic, l'adoption entreprise de Claude Code et du nouvel agent Cowork est devenue exponentielle au Q1 2026. Anthropic a dit à la presse en mars que la boîte signait plus d'un million de nouveaux utilisateurs par jour. Un million par jour. Sur une infrastructure qui n'était pas provisionnée pour un million par jour.

Et le compute disponible pour les quatre labos n'a pas grandi proportionnellement depuis fin 2025. Le pipeline d'expansion qu'on vient de parcourir, c'est ce qui était censé ajouter la capacité. Ce pipeline bégaie.

Il fallait que quelque chose lâche. Ce qui a lâché, c'est la partie que personne ne mesure, que personne ne publie : la qualité de la requête moyenne. Pas le benchmark. La requête. La vôtre.

Les labos n'annoncent pas le rationnement. Ils le font.

Et 2027 est déjà pire que 2026

Le pire n'est pas 2026. C'est 2027.

Le même rapport de Sightline suit le pipeline 2027. Sur 21,5 gigawatts annoncés pour 2027, seulement 6,3 sont actuellement en construction. Le ratio est pire qu'en 2026. Pas pareil. Pire. Le delta entre annonce et réalité se creuse, ne se resserre pas.

Et rappelez-vous le temps de construction. Douze à dix-huit mois minimum. Si un projet n'est pas en construction aujourd'hui, il ne sort pas en 2027. Il sort en 2028. Peut-être.

Entre aujourd'hui et ce nouveau croisement de ligne, la demande ne reste pas immobile. Les agents IA se multiplient, toutes les Fortune 500 font tourner un copilot interne, la génération vidéo bouffe des tokens par gigaoctets, les workflows d'agents persistants gardent les fenêtres de contexte ouvertes pendant des heures au lieu de secondes. La requête moyenne de 2027 consommera plus de compute que la requête moyenne de 2025. Beaucoup plus. Combien exactement, personne ne sait. La direction n'est pas contestée.

L'offre bégaie. La demande monte. L'écart est structurel.

Ce n'est pas un cycle qui se corrige. C'est une falaise que 2026 a commencé à escalader et que 2027 rend plus raide.

Trois choses à faire avant que le prix rattrape

Avant que la facture commence à dire la vérité, trois choses. Pas dix. Pas une listicle. Trois.

D'abord, un chiffre que la presse grand public n'a pas assez martelé. The Information rapportait en mars 2025 qu'OpenAI planifiait des tiers d'agents à 2 000 dollars par mois pour un agent "travailleur du savoir à haut revenu", 10 000 pour un agent développeur logiciel, et 20 000 pour un agent "chercheur niveau PhD". C'était il y a un an. ChatGPT Pro à 200 dollars par mois, maintenant au catalogue, n'est pas le jeu final. C'est l'apéritif. Claude suivra. Gemini suivra. Quiconque avec un produit de raisonnement sérieux suivra. Mille, cinq mille, dix mille euros par mois pour le tier qui marche vraiment. Pas une question de si. Question de quand. Peut-être 2027. Peut-être plus tôt.

Ceci étant dit, trois choses.

Un. Concentrez votre budget sur un outil principal. La fragmentation Netflix arrive sur les LLM, et vous savez comment ça s'est fini pour votre stack streaming. Si vous payez quatre abos maintenant pour comparer, vous allez bientôt dépenser plus pour moins. Choisissez votre camp tant que choisir reste pas cher. Utilisez les autres en gratuit ou API-metered quand vous avez absolument besoin d'un second avis.

Deux. Arrêtez de choisir votre modèle par marque. Choisissez par tâche. Le "meilleur polyvalent" est déjà mort, vous ne le savez juste pas encore. Claude est actuellement le meilleur que j'aie utilisé pour le code long-contexte et l'écriture en voix. GPT est le meilleur en multimodal et en raisonnement quand vous lui donnez assez de place. Gemini est le plus fort sur la recherche live et la gestion d'inputs énormes. Perplexity c'est pour la recherche sourcée (contesté maintenant, mais l'intention reste bonne). Naviguez entre eux comme un cuisinier navigue entre les couteaux. Pas un couteau pour tout.

Trois. Réapprenez les fondamentaux sans IA tant que c'est encore pas cher. Si vous êtes un dev qui fait du vibe-coding depuis deux ans sans pouvoir lire une stack trace sans assistance, vous serez coincé quand le tier décent coûtera quatre chiffres par mois. Si vous êtes un rédacteur qui ne peut pas pondre un paragraphe sans l'assistant, même histoire. (J'ai appris ça à mes dépens en reconstruisant un setup à 200$ pour 15$ quand le prix a bougé la dernière fois.) Les gens qui survivront au reset de prix sont ceux qui savent encore ce que l'outil faisait pour eux. Tous les autres deviennent des clients très chers.

La fenêtre se ferme. Pas claquée. Se ferme. Utilisez-la.

L'âge d'or ne s'est pas fini avec une annonce

L'âge d'or de l'électricité pas chère ne s'est pas fini avec un discours. L'âge d'or de la TV hertzienne gratuite ne s'est pas fini avec un discours. L'âge d'or de la data mobile illimitée ne s'est pas fini avec un discours. À chaque fois, la facture a commencé à dire la vérité avant qu'aucun dirigeant ne le fasse.

Nous sommes à ce moment.

L'âge d'or ne se finit pas avec une annonce. Il se finit quand la facture commence à dire la vérité. La facture chuchote en avril. Elle parlera en septembre 💸

Sources

Sightline Climate, 2026 Data Center Outlook, rapporté par Bloomberg fin mars 2026
The Information et Wall Street Journal sur le mémo "Code Red" de Sam Altman (1er décembre 2025)
SF Standard et TechRadar sur la série de pannes d'Anthropic d'avril 2026

(*) La couverture est générée par IA. Ce qui, vu le sujet de cet article, est probablement sa propre petite ironie.