Optimisation Cache Claude Code : Réduisez 54% du Gaspillage de Tokens en 2026

Un développeur* a instrumenté 858 sessions Claude Code sur 33 jours. 1 619 $ de facture. 264 millions de tokens gaspillés à cause d'un seul paramètre mal configuré. 54% de ses interactions ont eu lieu après une pause de 5+ minutes, donc cache expiré, donc coût x10 pour rien. Un fichier lu 33 fois dans la même session. 19 compétences sur 42 presque jamais utilisées mais chargées au démarrage. 90% du gaspillage venait de paramètres QU'IL contrôlait. Pas de la facturation Anthropic. Pas du modèle. De sa config.

J'ai lancé /context juste après avoir lu ça. 24 800 tokens chargés avant même que je tape un seul caractère. 5 500 rien que pour mon CLAUDE.md global, ce fichier que je traîne depuis des mois sans jamais le relire sérieusement. Multipliez ça par mes sessions quotidiennes, par 20 jours ouvrés, par une année. Le chiffre devient gênant. Et vous, savez-vous combien vous chargez avant votre premier prompt ? Probablement pas. Personne ne le sait avant de regarder.

TLDR : Le coût d'une session Claude Code n'est pas le volume de tokens uniques. C'est ce volume multiplié par le nombre de fois qu'il est rechargé. Cache qui expire, sous-agents qui rechargent tout le contexte parent, plus une dizaine d'autres rechargements que vous ne voyez jamais. 15 astuces pour attaquer le multiplicateur, chacune avec ses avantages ET ses inconvénients (parce que la moitié des "conseils" qui traînent vous coûtent plus en temps qu'ils ne vous font économiser en tokens). Lancez /context avant de finir cet article. Vous verrez.

Deux développeurs à leurs postes de travail : l'un actualise frénétiquement avec plusieurs onglets ouverts et une expression inquiète, l'autre code calmement avec un seul terminal et un sourire satisfait. Arrière-plan de salle de serveurs avec des lumières clignotantes. — Votre cache expire plus vite que votre patience pour le débogage.

Votre Cache Expire en 5 Minutes. Votre Pause Café, Non.

two-column diagram. Left column "What you think you pay for" with one medium bar labeled "unique tokens". Right column "What you actually pay for" with the same bar stacked vertically multiple times (reload 1, reload 2, reload 3...). Title above: "Token cost = unique tokens × reload count". Monochrome with red accent on the right column. — Coût des tokens = tokens uniques × nombre de rechargements

Le cache de prompt d'Anthropic vit 5 minutes. Après ça, le tour suivant paie plein tarif pour recharger tout ce que vous avez déjà payé une fois. L'audit Reddit a trouvé que 54% des tours avaient lieu après un gap de 5+ minutes. Plus de la moitié de la conversation était effectivement en cache froid.

Pour : lancer /compact ou /clear AVANT de quitter votre machine est l'habitude la plus rentable de cette liste. Vous annoncez la pause, vous compactez le contexte, vous revenez sur une ardoise propre qui ne coûte presque rien à réchauffer. Déjeuner, une réunion, le genre de pause où vous allez vérifier la piscine et finissez par réparer un skimmer pendant 20 minutes.

Contre : sur une tâche serrée où vous itérez rapidement, casser le cache pour économiser 5% du coût de contexte vous coûte plus en rechargement cognitif qu'en tokens. Vous perdez le fil, Claude perd les nuances des trois derniers tours, et vous payez en temps réel.

Verdict : religieux avant les pauses annoncées. Pas pour aller aux toilettes.

Votre CLAUDE.md Global Se Recharge Éternellement

5 500 tokens. C'est ce que pèse mon CLAUDE.md global. Rechargé à chaque session. Chaque projet. Tant que je garde ce fichier tel quel. Faites le calcul sur une année de sessions et vous arrêtez de dormir.

Confession : mon propre CLAUDE.md viole la règle des 200 lignes que je vais prêcher. Je sais. Je fais partie du problème.

Pour : transformer le fichier en index qui pointe vers des docs d'archi spécialisées dans chaque projet, au lieu d'un déversoir global. Ne garder que ce qui s'applique à 100% de vos projets (votre nom, votre shell, vos 3-4 règles dures). Tout le reste vit dans un dossier docs/ qui se lit à la demande.

Contre : un CLAUDE.md trop maigre signifie ré-expliquer vos conventions à chaque session. Les itérations coûtent plus que les tokens de démarrage économisés. Particulièrement douloureux sur les projets que vous touchez une fois par mois.

Verdict : index, pas fourre-tout. Visez 80 lignes, pas 800.

Une Ligne dans Vos Paramètres Divise le Contexte par Deux

ENABLE_TOOL_SEARCH=true. Copier. Coller. Tester. Vérifier avec /context.

Ce seul paramètre est celui qui a économisé 264M tokens dans l'audit Reddit. Avec lui activé, Claude ne charge pas tous les schémas d'outils au démarrage. Il cherche le bon outil quand il en a besoin. Sur une config avec 15+ outils MCP, les économies sont brutales.

Pour : réduction massive du contexte au démarrage si vous avez une config MCP lourde. Instantané. Gratuit. Une ligne.

Contre : sur une config avec moins de 10 outils, Tool Search ajoute un aller-retour chaque fois que Claude a besoin d'un outil, ce qui peut en fait vous ralentir. Il y a aussi un bug connu sur macOS où le flag auto ne colle pas toujours. Forcez-le manuellement et vérifiez avec /context que la baisse a eu lieu. Testez dans une session jetable d'abord pour ne pas exploser un cache en pleine tâche.

Verdict : activez-le si vous avez 15+ outils. Sautez sous 10. Testez avant de vous engager.

Vous Chargez 42 Compétences. Vous en Utilisez Six.

L'audit Reddit a trouvé 19 compétences sur 42 qui n'étaient presque jamais appelées. Chargées au démarrage quand même. Chaque compétence est un schéma qui coûte du contexte que vous l'invoquiez ou non.

Pour : audit rapide, désactivez les dormantes, économies instantanées sur chaque session pour toujours. Le genre de nettoyage qui se rembourse dès le lendemain matin.

Contre : l'audit prend 30 minutes et vous finirez par désactiver quelque chose que vous utilisez deux fois par an, exactement le jour où vous en avez besoin. Murphy vit dans votre dossier de compétences.

Verdict : désactivez tout ce que vous n'avez pas touché depuis un mois. Pas plus strict que ça. Les compétences 2x-par-an ne valent pas la douleur du nettoyage.

Le Mode Plan Se Rembourse en Rerolls Évités

Tout le monde vend le Mode Plan comme une fonctionnalité qualité-d'abord. Ayez l'air réfléchi, planifiez soigneusement, obtenez du code plus propre. Certes.

Les économies vivent ailleurs entièrement. Elles vivent dans les itérations que vous n'avez pas à faire. Chaque fois que Claude code la mauvaise chose et que vous devez dire "non, fais-le différemment", vous rechargez tout le contexte pour ré-expliquer. Le Mode Plan effondre trois tours de "presque mais pas tout à fait" en un tour de "nous étions d'accord avant que tu commences". J'ai approfondi la même idée dans l'approche des contrats de prompt que j'ai construite après assez de ces désastres, si vous voulez le framework complet.

Pour : obligatoire sur tout ce qui touche 2+ fichiers. Les économies se composent à chaque reroll évité.

Contre : sur une tâche triviale (renommer une variable, corriger une typo, ajouter un console.log), le Mode Plan ajoute juste de la latence. Il n'y avait pas d'itération à éviter au départ.

Verdict : Mode Plan pour les tâches multi-fichiers. Sautez pour les corrections chirurgicales.

/clear Est l'Habitude la Moins Chère Que Vous Ne Faites Pas

Changement de tâche. /clear. C'est tout. C'est l'astuce.

La raison pour laquelle personne ne le fait systématiquement est la même que pour le fil dentaire. C'est trop petit pour ressembler à une victoire et trop facile à sauter "juste cette fois". Et puis mardi dernier j'ai demandé à Claude de rédiger un email et il a répondu avec du TypeScript. Parce que j'avais refactorisé l'auth pendant deux heures et n'avais jamais nettoyé. La tâche précédente vivait encore gratuitement dans le contexte, payant plein tarif à chaque tour, et maintenant confondait la nouvelle. Vingt minutes plus tard, encore en train de démêler.

/clear à chaque changement de tâche. Deux secondes. Gratuit. Fini.

Le seul vrai risque est de l'appuyer par réflexe au milieu d'une tâche et de perdre le contexte dont vous aviez vraiment besoin. Ça arrive une fois. Vous apprenez vite.

Les Sous-Agents Coûtent 7x. Personne Ne Vous Le Dit.

Chaque sous-agent recharge le contexte parent en entier. Les propres docs d'Anthropic le confirment, l'audit Reddit l'a mesuré, et le pattern multi-agent que tout le monde hype depuis six mois est, mécaniquement, un piège à tokens déguisé en fonctionnalité.

Vous générez 3 sous-agents pour "paralléliser" une tâche. Chacun hérite du contexte complet. Vous venez de payer pour ce contexte 4 fois au lieu d'1. Bienvenue au club.

Pour : tuer le réflexe de "je vais envoyer ça à un sous-agent" pour chaque petite tâche. Le réflexe semble productif.

Contre : pour du travail vraiment parallélisable (réviser 5 fichiers indépendants, lancer 5 vérifications isolées), les sous-agents sont encore plus rapides en temps réel même s'ils coûtent plus en tokens. Compromis temps vs argent. Parfois le temps gagne.

Verdict : les sous-agents sont un outil de parallélisme, pas d'économie. Utilisez-les quand l'horloge compte plus que la facture.

La productivité fait du bien. La facture arrive quand même. 💸

Déconnectez les Serveurs MCP Que Vous N'Ouvrez Jamais

Même avec Tool Search activé, chaque serveur MCP a un coût de démarrage. Les miens, maintenant : Gmail, Calendar, Chrome, Context7, transcript YouTube, mon propre MCP rentierdigital. Réponse honnête : probablement la moitié de ceux-là je ne les ai pas touchés cette semaine.

Pour : réduction immédiate du contexte de démarrage. Le genre de nettoyage que vous pouvez faire en 90 secondes.

Contre : déconnecter et reconnecter à chaque changement de tâche est une friction que vous abandonnerez en 3 jours. J'ai essayé. J'ai arrêté le jour 4.

Verdict : créez 2-3 profils de paramètres (dev / écriture / recherche) et changez par profil, pas par MCP individuel. La friction tombe à une seule commande. J'ai approfondi sur pourquoi les CLI finissent moins chers que les serveurs MCP pour la plupart du travail d'agent si vous voulez l'analyse plus longue.

/compact à 60%, Pas 95%. (Oui, Je Sais Ce Que Disent les Docs.)

Les docs suggèrent de compacter tard, quand vous manquez de place. Conseil poli, conservateur. Je ne suis pas d'accord.

À 95%, la qualité de réponse a déjà commencé à se dégrader. Claude pêche dans un contexte saturé. Vous le sentez avant que l'alerte se déclenche. À 60%, vous compactez pendant que tout est encore propre et les 40% suivants de la session tournent à pleine qualité sur un contexte beaucoup plus léger.

Pour : sur les ops de code quotidiennes, compacter à 60% vous donne une meilleure qualité ET un coût plus bas dans le même mouvement. Combo rare.

Contre : sur du travail d'architecture ou de debug profond où vous AVEZ BESOIN de tout l'historique, compacter tôt jette les nuances que Claude aurait utilisées. Vous compactez exactement ce qui allait vous aider.

Verdict : 60% pour le code quotidien. 85% pour l'architecture et le debug profond.

1 122 Lectures de Fichiers Redondantes. Une Session a Lu le Même Fichier 33 Fois.

Ce chiffre vient de l'audit Reddit et ça m'a fait physiquement mal de le taper. 33 fois. Même fichier. Même session. Chaque lecture payée en entier.

La cause est généralement /compact qui efface le fichier de la mémoire de travail, ou Claude qui joue la sécurité après un long tour et re-récupère pour être sûr. Dans tous les cas, vous payez.

Pour : ajoutez une règle dans votre CLAUDE.md : "ne relis pas les fichiers que tu as déjà en contexte sauf si je le demande, ou sauf si le fichier a pu changer depuis la dernière lecture". Économies massives sur les longues sessions.

Contre : si vous contraignez trop les re-lectures, Claude rate les éditions que VOUS avez faites entre deux tours et code contre une version périmée. C'est un bug pire que les tokens gaspillés.

Verdict : la règle avec l'exception explicite est la seule version qui survit au contact de la réalité.

Le même fichier. 33 fois. En une session. Je ne m'en remets toujours pas.

Collez la Fonction. Pas le Fichier de 1 200 Lignes.

Chirurgie vs grenade. La plupart des devs balancent tout le fichier à Claude parce que c'est plus rapide à copier. Plus rapide à coller, plus lent à payer.

Le défaut devrait être : coller la fonction, pas le fichier. Économies directes, pas de coût cognitif, marche sur chaque prompt. La seule fois où ça foire c'est quand le bug est en fait dans l'interaction entre fonctions, et coller le morceau isolé signifie que Claude rate la cause racine. Vous débuggez la mauvaise chose pendant 20 minutes, puis élargissez le contexte de toute façon. Agaçant. Encore moins cher que de coller tout le fichier à chaque fois par défaut.

Commencez chirurgical. Élargissez seulement si le premier passage échoue. La plupart du temps, le premier passage marche.

Référencez @auth.js, Pas "Le Bug dans Mon Repo"

Référence ciblée (@path/to/file.js) signifie une lecture précise. Référence vague signifie que Claude lance grep, glob, ls en cascade jusqu'à trouver ce que vous vouliez dire. Chaque étape pompe votre contexte.

Pour : contrôle fin de ce qui se charge. Vous savez pour quoi vous payez.

Contre : la référence précise assume que vous savez où vit le bug. Si vous cherchez encore, le vague est nécessaire.

Verdict : ciblez quand vous pouvez. Quand vous devez chercher, demandez explicitement : "trouve le fichier, puis arrête-toi et montre-moi avant de le lire". Recherche en deux étapes. Moins cher que la cascade.

Éditez Votre Dernier Message. N'en Envoyez Pas un Nouveau.

Claude vous donne une mauvaise réponse. Vous remontez, éditez votre prompt original, appuyez sur entrée. Claude régénère à partir du prompt corrigé. La mauvaise réponse n'entre jamais dans le contexte. Le fil reste propre.

Versus : taper un nouveau message disant "non, je voulais dire…", qui empile la mauvaise réponse, votre correction, et la nouvelle tentative tout en mémoire de travail.

Pour : fil propre, contexte plus petit, itération plus rapide sur les micro-ajustements. Particulièrement bon pour corriger les typos dans votre propre prompt.

Contre : vous perdez la trace que la première version a échoué, ce qui est parfois utile quand vous débuggez un pattern récurrent dans la façon dont Claude vous comprend mal.

Verdict : éditez pour les micro-ajustements. Empilez pour les vraies itérations de raisonnement où la tentative échouée vous apprend quelque chose.

Un git log Vient de Manger 8 000 Tokens. Vous N'avez Pas Remarqué.

Les sorties de terminal sont l'aspirateur silencieux des sessions Claude Code. git log sans --oneline -20. npm install avec tout le dump de résolution de dépendances. tail -f sur un log serveur. Tout ça atterrit dans le contexte. Vous ne l'avez pas vu défiler parce que Claude a replié la sortie. Les tokens sont toujours là.

Pour : ajoutez une liste de refus dans CLAUDE.md pour les commandes verbeuses connues. Forcez --oneline, forcez les limites de tail, forcez les niveaux de log. Listez vos récidivistes.

Contre : si vous contraignez trop les sorties, Claude rate l'info nécessaire pour diagnostiquer, vous lancez une seconde commande, et maintenant vous avez payé deux fois.

Verdict : liste de refus sur les verbeuses connues. Gardez le reste permissif. Affinez quand vous repérez de nouveaux récidivistes.

Vous n'avez pas vu ces 8 000 tokens. Votre facture, si.

Sonnet par Défaut. Haiku pour la Corvée. Opus pour l'Architecture.

La seule règle de modèle qui mérite d'être sur cette liste. Opus sur un renommage de variable est du gaspillage. Haiku sur une décision d'architecture c'est 3x plus de temps passé à revenir en arrière.

Pour : bon outil pour bonne tâche. Opus où le raisonnement compte, Sonnet pour les 80% quotidiens, Haiku pour la corvée ennuyeuse (renommages, formatage, génération de doc).

Contre : changer de modèle en milieu de session casse votre cache. 4 changements par jour et vous avez perdu plus que vous avez économisé.

Verdict : choisissez le modèle au DÉBUT de la session basé sur le type de tâche. Pas de changement en milieu de session. Si vous avez mal deviné, finissez la tâche sur le modèle actuel et réajustez pour la session suivante.

L'Astuce la Moins Chère N'est Pas sur Cette Liste

Toutes ces astuces sont du pifomètre jusqu'à ce que vous mesuriez. Deux commandes gratuites, déjà installées sur votre machine : /context et /cost. La formule tient sur une ligne : tokens chargés au démarrage × sessions par jour × 20 jours ouvrés. C'est ce que vous payez chaque mois juste pour commencer. Avant le premier vrai prompt.

Le marché commence à réagir. Hasan Toxr (@hasantoxr sur X) a sorti une approche graphe de connaissance qui prétend une réduction de 8x à 49x sur les revues de code. meta_alchemist maintient ccusage et claude-code-usage-monitor. Les tableaux de bord poussent partout. Bon signe. Mais aucun outil externe ne vous dira ce que /context vous dit en deux secondes.

L'astuce la moins chère de cette liste n'est pas sur cette liste. C'est lancer /context une fois par semaine et regarder honnêtement d'où viennent les rechargements. Votre config, pas la facture d'Anthropic, est le premier endroit où regarder.

En fait, attendez. Laissez-moi le dire différemment. La vraie astuce c'est d'admettre que la plupart d'entre nous ont volé à l'aveugle. Nous optimisons pour les fonctionnalités, pour la vitesse, pour l'expérience développeur. Mais nous ne regardons jamais la facture jusqu'à ce qu'elle fasse mal. Puis nous blâmons le modèle, l'entreprise, la structure tarifaire. Tout sauf les 20 paramètres que nous contrôlons.

Dites-moi quelle astuce a été la plus utile pour vous. Ou laquelle j'ai mal comprise.

Sources

* L'audit Reddit : u/Medium_Island_2795 (alias MunchKunSter), 858 sessions instrumentées sur 33 jours, révélé via @Simba_crpt et @DAIEvolutionHub sur X.

Graphe de connaissance de Hasan Toxr pour la revue de code : @hasantoxr sur X.
ccusage et claude-code-usage-monitor par meta_alchemist.

(*) La couverture est générée par IA. Claude a écrit les mots. Une autre machine a dessiné l'image.