Claude IA coûte 40 000 $/mois : la réalité du débogage d'agents IA

Le rituel matinal du vibe-business-coder. Tu ouvres ton MacBook et tu ne demandes pas ce que tes agents ont produit pendant la nuit 🤓 Tu demandes ce qu'ils ont cassé. Tu fais ta ronde. Logs, dérives, hotfixes. Tu ne diriges pas une entreprise autonome, tu assures une garde prolongée.

TLDR

Développeur épuisé à son bureau entouré de journaux d'erreurs et d'alertes rouges, tenant une tasse de café chère, tandis qu'une silhouette confiante pointe un tableau blanc indiquant 'FENÊTRE DE CONTEXTE = AMNÉSIE' — Payer 40 000 $/mois pour remplacer votre équipe ? Le débogage est maintenant le vrai travail.

Andrew Wilkinson dirige un holding de 400M$ et paie 40K$ de facture Claude chaque mois pour remplacer ses effectifs. Il appelle ça une entreprise autonome. Sur scène, il a aussi donné le ratio que personne d'autre n'ose avouer : 50% de debug, 30% de setup, 20% de vraie production. Les maths fonctionnent à son échelle. Le terme, non.

Cette semaine, Andrew Wilkinson s'est installé dans le podcast de Greg Isenberg (56k vues en 24h) et a déclaré qu'il fait tourner son family office avec une facture Claude de 40K$ par mois. Puis il a donné le vrai ratio (rare dans ce coin d'internet) : 50% de debug, 30% d'amélioration du setup, 20% de vraie production. Andrew est l'homme le plus convaincu du game. Il vibe-code Deep Personality, un SaaS qui tourne autour de 20K$ de revenus. Son CFO, qui n'a aucun background en code, a reconstruit un remplaçant d'Addepar (une plateforme wealth facturée entre 50K$ et 100K$ par an) en gros deux semaines. Voyons ce qu'on peut vraiment tirer de ce "PRO".

Ce qu'Andrew a vraiment dit sur scène

Tiny n'est pas un side project. Andrew dirige un holding avec un portefeuille de plus de 400M$ et 24 entreprises sous sa coupe. Ce n'est pas un sceptique qui cherche un take viral. C'est le mec qui achète le plus de crédits Claude sur la côte Ouest et qui dit à la caméra que ça marche.

Les chiffres, dans ses propres mots dans l'émission.

Son family office a échangé ses effectifs contre une facture Claude. La facture tourne autour de 40 000$ par mois. Le travail que cette facture remplace aurait été fait par une petite équipe ops il y a un an. Il appelle ça une entreprise autonome. Il le dit sans ironie.

Deep Personality est le SaaS grand public qu'il garde comme terrain de jeu pour vibe-coder. Environ 20K$ de revenus. Construit et maintenu principalement par ses agents. Il admet, dans le même podcast, que le debug lui bouffe la moitié de sa journée rien que sur ce produit.

Le remplaçant d'Addepar est l'histoire la plus frappante. Son CFO, qui n'a jamais écrit de code en production de sa vie, a vibe-codé un outil qui remplace une plateforme de gestion de patrimoine facturée entre 50K$ et 100K$ par an par siège. Deux semaines. Un non-ingénieur. Remplacer un SaaS enterprise multi-millions à son échelle.

Et dans la même phrase, le ratio. La moitié en debug. Trente pour cent à améliorer le setup lui-même, les prompts, les harnais, les fichiers de contexte. Vingt pour cent de vraie production que le business voit.

Deux vérités cohabitent dans cette interview, et elles ne s'annulent pas. Les agents d'Andrew livrent de vrais résultats qui justifient la facture. Et Andrew passe la moitié de chaque journée à jouer l'infirmier de ces agents. La première vérité, c'est ce qui fait les clips. La seconde, c'est ce qui rend la première possible. La bulle X garde la première partie et laisse discrètement tomber la seconde.

Un rappel avant d'aller plus loin. Les maths d'Andrew fonctionnent à cause de son échelle. Un solo builder à 20K$ de revenus mensuels ne peut pas se permettre une facture Claude de 40K$ plus 50% de sa journée en supervision. Andrew, si. Les maths ne se généralisent pas vers le bas. On y reviendra.

"Autonome" est le mot le plus malhonnête de l'IA en ce moment

Autonome devrait signifier fonctionne sans intervention. Ouvre un dictionnaire. C'est tout le boulot du mot.

Ce qu'Andrew a décrit, ce que chaque opérateur que je connais qui fait tourner des agents en production vit au quotidien, c'est autre chose. L'agent livre. Puis l'opérateur audite. L'opérateur corrige. L'opérateur reconstruit le contexte du matin. L'opérateur brief à nouveau. L'agent livre à nouveau. Répète.

C'est du travail supervisé avec une étiquette à la mode. On a juste arrêté d'utiliser le mot "supervisé" parce que ça tue le pitch.

Andrew lui-même est honnête sur le ratio. Il a donné le chiffre sur scène. La malhonnêteté, elle est en aval, dans les clips X qui citent ses victoires de livraison et coupent ses heures de debug. La malhonnêteté, elle est dans les dizaines de posts "J'ai construit une entreprise autonome en un week-end" qui n'incluent pas la partie où le fondateur a passé son dimanche à rollback six commits que l'agent a livrés pendant qu'il dormait.

Si on veut que le mot veuille dire quelque chose, quelqu'un doit expliquer pourquoi les 50% existent. Sinon on ne fait que vendre une version polie de "J'ai un junior qui a besoin d'être tenu par la main en permanence, mais il scale."

Le problème de l'oubli

Andrew a dit 50% de debug. Il n'a pas dit pourquoi. Voici la lecture la plus probable, et c'est la mienne, pas la sienne.

L'agent ne se souvient pas de ton entreprise. L'agent ne se souvient même pas d'hier.

Une fenêtre de contexte est une pièce finie. Les meilleurs modèles d'aujourd'hui plafonnent à quelques centaines de milliers de tokens. Ça sonne comme beaucoup jusqu'à ce que tu essaies de faire rentrer toute une entreprise là-dedans. Ta codebase. Tes conventions de nommage. La décision que tu as prise mardi sur le nouvel endpoint. Le thread Slack où ton CFO a dit que le flow de facturation avait besoin d'un fallback pour les remboursements partiels. Le layout CSV que ton distributeur envoie tous les lundis à 4h du mat. Multiplie par chaque outil, chaque intégration, chaque règle business bizarre.

Ça rentre pas. Même pas proche.

Alors chaque matin, tu ne réveilles pas ton agent. Tu le re-onboard. Tu rejoues les parties pertinentes du cerveau de l'entreprise dans son contexte. Tu corriges les trucs qu'il a oubliés. Tu découvres les trucs dont il se souvenait à moitié et qu'il a légèrement foirés. Ce coût de re-onboarding, c'est les 50%. Ce n'est pas un bug dans les prompts, pas un mauvais harnais. C'est la forme mémoire du modèle sous-jacent.

Andrew lui-même, dans le même podcast, nomme le seuil. Il pense que le déblocage arrive quelque part autour de 5 à 10 millions de tokens de contexte utilisable. Le chiffre où un modèle peut tenir toute une entreprise dans sa tête d'un coup. Ordre de grandeur, pas benchmark. On n'y est pas encore. Les modèles frontier atteignent des centaines de milliers de tokens, pas des millions, et la qualité du rappel se dégrade bien avant la limite.

Jusqu'à ce que cet écart se comble, chaque agent "autonome" est un amnésique brillant. Il peut faire du vrai travail. Il ne peut juste pas continuer à le faire sans que tu sois assis à côté de lui, rafraîchissant sa mémoire de ce qu'il a fait hier et pourquoi.

Il y a un workaround qui adoucit le truc, et c'est celui que j'ai livré après assez de ces rituels matinaux. Tu encodes le contexte comme une spec que l'agent lit avant chaque tâche. Pas une instruction vibe, un contrat. Inputs, outputs, invariants, modes d'échec, les décisions qui ont déjà été prises. Le contrat devient la prothèse qui manque au modèle. Ça ne corrige pas l'amnésie. Ça la compense, comme les lunettes de lecture ne corrigent pas les mauvais yeux mais te laissent finir la page.

Cette prothèse est nécessaire aujourd'hui. Jusqu'à ce que la fenêtre de contexte absorbe toute une entreprise d'un coup, le workaround reste.

Ce que 40K$/mois t'achète vraiment

Une facture Claude mensuelle de 40K$ n'est pas un remplacement d'effectifs. Ce cadrage, c'est le piège.

Ce qu'Andrew a vraiment acheté, c'est une relocalisation du travail. Les agents font l'exécution. Andrew fait la supervision. Avant, il payait des gens pour faire l'exécution et d'autres gens pour les manager. Maintenant il paie Claude pour faire l'exécution et se paie lui-même en temps de supervision. Le coût total de l'opération, c'est la facture plus 50% de son attention, pas juste la facture.

Pour Andrew, les maths gagnent quand même. Il a passé vingt ans assis dans des panels de recrutement et des DM Slack et des one-on-ones sur les performances trimestrielles. Son point clair et répété dans l'émission : le pire dans le business, c'est les gens. Il préfère genuinement l'échange. Il va babysitter dix agents plutôt que manager trois humains, tous les jours de la semaine. À son échelle, avec sa fatigue, le swap a du sens.

Pour un solo builder à 20K$ de revenus mensuels, les maths s'inversent. Tu n'as pas un coussin de 40K$. Tu n'as pas vingt ans de fatigue managériale à fuir. Tu échanges un salaire que tu ne peux pas te permettre contre du temps que tu as encore moins. La même stack agentique qui libère Andrew t'emprisonne. Mêmes outils, résultats opposés. La bulle X aplatit cette distinction. Andrew est honnête sur son échelle. Les clips, non.

Maintenant voici la partie que les critiques de tout ce mouvement n'arrêtent pas de zapper. Même avec les 50%, le plafond de productivité a bougé d'une façon qui devrait genuinement faire peur à quiconque regarde depuis la touche.

Parlant depuis mon propre banc : je livre cent fois plus vite qu'avant. Mille fois sur les petits trucs. Je vais passer une journée à amener une app à 80% (la partie qui prenait deux mois en 2022) puis deux jours à debugger le reste. Les maths sont brutales dans les deux sens. Ce qui me rend vraiment dingue, c'est le matin où l'agent s'arrête mid-task et annonce, avec une confiance totale : "Il faut d'abord que je comprenne l'architecture du classifier et la sync WooCommerce." Mec. Tu as écrit ce code. La semaine dernière. Chaque putain de ligne. 🙃

L'histoire du CFO d'Andrew se situe dans exactement le même registre émotionnel, scalé d'un ordre de grandeur. Un non-ingénieur a reconstruit Addepar en deux semaines. Une plateforme qui coûte cinq chiffres par siège par an. Le cabinet de conseil le plus rapide de la planète ne livre pas de logiciel de gestion de patrimoine en deux semaines, avec un non-ingénieur aux commandes, en 2022. Les agents sont inefficaces au niveau opérateur (50% perdus en debug) et historiquement efficaces au niveau output (des capacités qui n'étaient tout simplement pas au menu il y a dix-huit mois).

C'est la partie qui devrait t'empêcher de dormir. Pas si les agents sont autonomes. Ils ne le sont pas. Ce qui compte, c'est ce qu'un seul superviseur qui fait tourner un seau percé d'amnésiques brillants produit maintenant, comparé à ce qu'une équipe complètement staffée produisait il y a trois ans. Le delta est brutal. Il continue de grandir. L'inefficacité de 50% est le droit d'entrée pour s'asseoir à la table où ce delta existe.

J'ai écrit ailleurs que je manage maintenant 150 agents comme je manageais 5 humains avant, et le ratio est toujours en état de choc. Le ratio est réel. Ce que je veux ajouter aujourd'hui, c'est la partie que personne n'imprime : le ratio scale, mais le temps absolu de babysitting scale avec. Manager 5 agents qui oublient chaque matin, tu passes une heure par jour à re-onboard. Manager 150, tu passes la plupart de ta semaine.

L'opportunité est terrifiante. Le coût de rester assez proche des agents pour la saisir aussi.

Le tell : même Andrew brief ses agents comme des recrues junior

Andrew a donné son meilleur tip de prompting dans l'émission. Je vais concéder le point d'abord parce que le tip est genuinement bon.

Avant de laisser le modèle générer quoi que ce soit, il lui demande de l'interviewer. Questions à choix multiples. Cinq, dix, parfois vingt. Choix forcés sur le scope, sur les edge cases, sur le naming, sur ce qu'il faut skip. Ce n'est qu'après que le QCM soit fini que le modèle produit l'artefact.

Adopte-le. C'est un des rares trucs de prompting des deux dernières années qui survit au contact avec la production. Ça coupe les hallucinations. Ça fait remonter des décisions que tu aurais prises implicitement et foirées. Ça évite le rollback plus tard.

Maintenant relis. Si ton agent a besoin de t'interviewer sous forme de QCM avant chaque tâche significative, qu'est-ce que ça te dit sur son niveau d'autonomie ?

C'est un junior qui n'a pas le brief. Un junior intelligent, rapide, infatigable, jamais malade. Mais un junior qui entre dans ton bureau, pose quatre questions avant de lever le petit doigt, puis produit quelque chose proche du bon. Ce n'est pas de la délégation. C'est du pair-programming avec la verbosité montée au max. C'est le même problème de burn de contexte qu'on documente depuis l'autre angle : le modèle ne peut pas porter ton projet dans sa tête, alors il doit demander à chaque fois.

Andrew a trouvé la prothèse pragmatique. Le QCM est la prothèse. Il ne la nomme juste pas comme telle. Il appelle ça un tip de prompting. C'en est un. C'est aussi le tell le plus fort de toute l'interview que "autonome" est le mauvais mot pour ce qui se passe.

Il a un employé amnésique à temps plein qui coûte 40K$ par mois et demande à être briefé chaque matin. Il appelle ça une entreprise autonome. Il fait plus que n'importe quel opérateur à son échelle n'a jamais réussi. Prends l'échange. Refuse le mot.

Le mot est fake. Les reçus, non.

Sources

Podcast Greg Isenberg, AI Agents do all my work avec Andrew Wilkinson, mai 2026 : https://www.youtube.com/watch?v=65IAqRUxg3c
Fourchette de prix Addepar citée publiquement dans les rapports industrie