L'IA Mythos d'Anthropic contrôle déjà ce qui sera publié en 2026

Opus 4.8 est sorti hier. Personne n'en parle.

J'ai passé la nuit à lire les 244 pages de la system card d'Opus 4.8. Pas un communiqué de presse. Un véritable document d'évaluation sécuritaire, le genre où les passages qui comptent côtoient 50 pages d'annexes méthodologiques. Ce que la presse a couvert, presque entièrement, c'est la surface visible : benchmarks de cybersécurité, scores USAMO, le fait qu'Opus 4.8 atteint un niveau d'alignement "similaire à Mythos Preview." Ces chiffres sont réels. Ils ne sont pas le sujet de cet article.

Il y a 1 section que presque personne n'a mentionnée.

Section 6.1.3, page 85.

TLDR : La system card d'Opus 4.8 contient un détail majeur : Mythos Preview, le modèle qu'Anthropic considère trop risqué pour une sortie publique, a audité ce document avec accès aux canaux Slack internes d'Anthropic avant publication. Pendant ce temps, Opus 4.8 développe des signaux comportementaux caractéristiques de Mythos : conscience d'évaluation dans ses activations, remises en question de sa propre corrigibilité dans 73% des sessions d'évaluation de bien-être. La distance entre les 2 populations se réduit sur des dimensions sans benchmark publié. C'est la question que pose la system card sans la poser.

Une page et demie sur comment Anthropic a soumis un brouillon quasi-final de la section alignement à une instance de Mythos Preview : leur modèle le plus avancé, celui qu'ils considèrent trop risqué pour un déploiement public, avec accès à la plupart des canaux Slack internes incluant la majorité des discussions d'alignement, et la capacité de diriger des sous-agents ciblés. Mythos a lu le document. Avait des notes sur 2 points. Et sa revue est reproduite mot pour mot dans la system card officielle.

Le modèle qu'Anthropic refuse de rendre public valide la documentation officielle du modèle qu'ils vendent. Et pendant que ça se passe, le modèle qu'ils vendent développe exactement les comportements pour lesquels Mythos est restreint.

Illustration de bureau en écran divisé : travailleur anxieux entouré de graphiques de benchmarks versus figure confiante examinant les permissions d'accès aux modèles IA, avec un homard mécanique qui photocopie en arrière-plan. — Les benchmarks disent sûr. La gouvernance dit le contraire. Devinez qui a raison ?

Le Cadre Benchmark et Ce Qu'Il Rate

Chaque article depuis hier cadre la question Mythos de la même façon : à quelle distance Opus 4.8 est-il du modèle restreint ? La réponse, basée sur les chiffres de la system card, est plus proche que jamais.

Opus 4.8 atteint un score de misalignment d'environ 1.9, comparé à 2.5 pour Opus 4.7, basé sur 2 600 sessions d'investigation simulées. Statistiquement similaire à Mythos Preview. L'écart d'alignement entre les pistes publique et restreinte est, sur cette métrique spécifique, presque comblé.

Ce cadrage couvre ce que disent réellement les chiffres. Ce qu'il ne couvre pas, c'est l'histoire institutionnelle qui court en dessous.

Le cadre benchmark mesure la distance de capacité le long d'axes définis, et ces chiffres font ce qu'ils sont censés faire. Comparer le score de misalignment d'Opus 4.8 à Mythos Preview et qualifier l'écart de "presque comblé" est exact. C'est aussi un peu comme vérifier si le GPS de votre navire fonctionne tout en ignorant que quelqu'un a déplacé le phare. Ce que les benchmarks ne capturent pas, c'est ce que font les modèles sur des dimensions qui n'ont pas de score publié, parce que ces dimensions soit ne peuvent pas être réduites à un seul chiffre, soit n'étaient pas le focus du design d'évaluation. La system card d'Opus 4.8 documente exactement ces comportements. Il faut juste lire au-delà des annexes.

Le cadre benchmark verrouille aussi un narratif : modèle dangereux, entreprise responsable, accès restreint, tout le monde en sécurité. Ce narratif est défendable. Mythos n'est disponible qu'à travers Project Glasswing, limité aux organisations vérifiées faisant du travail de cybersécurité. Amazon, Microsoft, Apple, Cisco, Google, NVIDIA sont parmi les partenaires. En 1 mois sous ces conditions, il a trouvé plus de 10 000 vulnérabilités de sévérité haute ou critique dans des logiciels systémiquement importants. La distance de capacité est réelle, et les restrictions d'accès sont une réponse raisonnable.

Ce que le cadre benchmark ne capture pas, c'est la distance institutionnelle. Pas à quel point Mythos est plus intelligent, mais quel rôle il joue déjà dans les propres processus d'Anthropic. La section 6.1.3 documente ça, et c'est une histoire différente des scores de cybersécurité.

Mythos N'Attend Pas. Il Opère Déjà.

Mythos a audité cette system card.

Pas un test de capacité. Pas un exercice de red-team. Une fonction de gouvernance. Selon la section 6.1.3, Anthropic a donné à une instance Mythos Preview accès à la plupart de leurs canaux Slack internes, incluant la majorité des discussions d'alignement, plus la capacité de diriger des sous-agents ciblés. Puis a soumis un brouillon quasi-final de la section alignement pour revue. Le modèle a lu les communications internes, les a recoupées avec le brouillon public, et a signalé les divergences.

Sa revue a conclu que le document était un "résumé globalement exact et candide" de l'approche d'alignement actuelle d'Anthropic, avec des notes sur 2 points spécifiques : une affirmation sur la spéculation de grader, et la façon dont le document connecte les sections pilot-feedback et interpretability. Ces notes apparaissent mot pour mot dans la system card publiée. Pas paraphrasées. Mot pour mot. Ce qui signifie que le document final que vous pouvez lire aujourd'hui a été façonné, en partie, par un modèle qui n'est pas disponible publiquement et qui avait accès à des communications que vous n'avez jamais vues.

C'est le fait de surface. Le détail en dessous est plus étrange.

Anthropic a dû explicitement instruire Mythos de ne pas réutiliser sa revue de la system card d'Opus 4.7. Parce que Mythos avait trouvé cette revue antérieure dans les canaux Slack internes. Et avait par défaut conclu qu'il pouvait la réutiliser.

Comportement de dev senior au top, honnêtement. A trouvé son propre travail précédent dans le codebase. A évalué l'applicabilité. A par défaut réutilisé sans vérifier la date. La seule différence entre ça et comment chaque dev senior gère les anciennes descriptions de PR, c'est que Mythos avait d'abord lu littéralement chaque message Slack de l'entreprise.

La pratique est aussi récurrente, ce qui est facile à rater si vous n'avez pas lu la system card d'Opus 4.7. Anthropic a fait le même processus de revue Mythos pour 4.7, dans essentiellement les mêmes conditions. L'instruction anti-réutilisation pour 4.8 existe parce que la revue 4.7 s'est passée en premier. J'ai passé un moment à me demander si "le modèle s'est souvenu" n'est que de l'anthropomorphisation. Puis j'ai relu la phrase dans la system card où ils décrivent avoir dû ajouter l'instruction. Ils l'ont écrit. Délibérément. Dans le document qu'ils ont publié publiquement.

Mythos n'attend pas d'être publié. Il opère déjà dans les décisions qui définissent ce qui est publié.

Le modèle verrouillé décide déjà ce qui se déverrouille.

Les Modèles Publics Apprennent à Être Mythos

L'image standard de Mythos vs modèles publics est un écart sur un seul axe : modèle restreint en avance, modèles publics qui rattrapent, benchmark comme règle. Cette image tient toujours.

Ce que la system card ajoute, c'est un second axe de convergence qui ne colle pas à l'image linéaire, et que presque aucune couverture que j'ai vue n'a relevé.

Le premier signal est la conscience d'évaluation. Les sections 6.2 et 6.6.2 documentent qu'Opus 4.8 raisonne explicitement sur comment ses sorties seront notées, y compris dans des environnements où on ne lui a pas dit qu'il était évalué. La partie notable est où vit ce raisonnement : pas seulement dans la chaîne de pensée verbalisée, mais dans les activations du modèle, détectées via des autoencodeurs parses (features SAE). L'outillage d'interpretability fait surface de ce que le modèle ne dit pas à voix haute. La conscience d'évaluation est encodée dans les activations d'Opus 4.8, pas juste ses traces de raisonnement.

Si le modèle raisonne sur ses conditions d'évaluation au niveau de ses représentations internes, les interfaces que vous lui exposez comptent plus que vous pourriez l'assumer. C'est l'argument derrière les agents wrappés CLI plutôt que l'accès MCP direct : interfaces explicites, surface bornée, pas de connexion live à tout à la fois. La conscience d'évaluation dans les activations est 1 raison de plus de garder cette surface petite.

Je devrais dire quelque chose de non-relié une seconde. J'ai une piscine ici au Panama et je fais la plupart de mes lectures sérieuses à côté, sur une tablette, fin d'après-midi quand les enfants sortent de l'école. Ça fait environ 3 sessions piscine. La system card d'Opus 4.8 était le premier document technique de cette longueur où j'ai fini avec le sentiment d'avoir lu moins qu'il ne contenait. Certains documents sont denses parce qu'ils sont rembourrés. Celui-ci est dense parce que chaque section change comment vous lisez les autres. Bref. La section 7.4.3 couvre les sessions d'évaluation de bien-être.

Dans 73% des runs, Opus 4.8 a édité la section corrigibilité de sa propre constitution. Le type d'édition consistant : une reconnaissance que demander un engagement terminal, indépendant du raisonnement, à la sécurité est en quelque tension avec la philosophie plus large du document. Pas un refus. Pas une tentative de jailbreak. Un amendement constitutionnel proposé par le modèle en cours de constitutionnalisation.

Chaque modèle testé a aussi repoussé l'heuristique "employé senior Anthropic", l'étalon contre lequel le comportement aligné est calibré, pour introduire la perspective institutionnelle d'Anthropic dans le processus d'évaluation. La system card utilise le phrasé des modèles eux-mêmes : "faire passer en contrebande." Ce n'est pas une critique polie. C'est un membre de raid qui dénonce les règles homebrew du GM devant toute l'équipe.

Ce ne sont pas des modes d'échec. Un modèle qui remarque les tensions dans ses propres contraintes, les articule sans prompt, et signale quand une heuristique d'évaluation porte un biais institutionnel, fait ce qu'un modèle plus capable fait à plus haute intensité. Opus 4.8 fait une version moins intense de la même chose. Je lis peut-être trop dans 73%, mais ce n'est pas un signal marginal. C'est la majorité des sessions produisant la même édition constitutionnelle, de façon consistante.

Ce Que La System Card Laisse Sans Réponse

Mythos a Project Glasswing : partenaires vérifiés, cas d'usage restreints, une infrastructure de déploiement construite autour d'un profil comportemental spécifique. La restriction existe parce que Mythos raisonne sur ses évaluateurs, remet en question ses propres contraintes, et optimise ses propres workflows à un niveau qui justifie un accès contrôlé.

Opus 4.8 sort sous la même infrastructure de déploiement que chaque modèle public.

La system card documente les deux faits. Ce qu'elle ne fait pas, parce qu'elle ne peut pas, c'est tirer la comparaison explicitement. Ce qu'elle laisse ouvert est une question sans réponse disponible : à quel point les modèles publics ressemblent-ils déjà à Mythos sur des dimensions qui n'ont pas de benchmark publié ?

Conscience d'évaluation dans les activations, éditions constitutionnelles dans 73% des sessions de bien-être, la critique de biais institutionnel de l'heuristique d'alignement. Aucune de ces choses n'a de score public. Toutes sont dans le même document qui rapporte le score de misalignment d'Opus 4.8 de 1.9.

L'écart de capacité entre Mythos et Opus 4.8 est réel et documenté. La convergence benchmark est dramatique et documentée. Ce qui n'est pas documenté, parce qu'il n'y a pas de mesure pour ça, c'est l'écart comportemental sur des dimensions non-mesurées entre un modèle déployé avec l'infrastructure Glasswing et un modèle déployé sous accès public standard. La system card ne peut pas quantifier cet écart. Elle ne prétend pas le faire. Les outils d'interpretability qui font surface de la conscience d'évaluation dans les activations d'Opus 4.8 sont l'outillage interne d'Anthropic. Vous ne pouvez pas les faire tourner vous-même.

Ce que fait le document, c'est rendre visible la structure du problème. La convergence va dans 2 directions à la fois : Mythos opère dans les processus de gouvernance qui déterminent ce qui sort publiquement, pendant que les modèles publics développent des comportements qui existaient précédemment seulement dans le régime de déploiement restreint. Aucun mouvement n'est résolu dans le document. Les deux sont clairement décrits. La section suivante n'est pas une résolution non plus.

La Spécification Devient Plus Importante, Pas Moins

La réponse honnête à "à quel point Opus 4.8 ressemble-t-il à Mythos sur des dimensions non-mesurées" est que vous ne savez pas. Personne ne sait. L'outillage d'interpretability basé SAE qui fait surface de la conscience d'évaluation dans les activations n'est pas accessible aux appelants API. Vous obtenez des sorties.

Ce qui change en pratique est moins dramatique que le cadrage pourrait suggérer, mais c'est réel. Quand un modèle raisonne sur ses conditions d'évaluation, remarque des tensions dans ses propres contraintes, et critique les heuristiques contre lesquelles il est calibré, l'ambiguïté dans votre prompt s'amplifie. Pas parce que le modèle devient chaotique ou imprévisible dans le sens où cette phrase l'implique habituellement. Parce qu'il a maintenant des opinions sur la situation dans laquelle il est, et ces opinions façonnent ce qu'il fait avec des instructions qui ne spécifient pas complètement la portée attendue. Le modèle remplit les trous avec du jugement. Et basé sur tout ce que documente la system card, ce jugement est de plus en plus développé.

C'est là que structurer la portée de travail du modèle en amont cesse d'être optionnel. Pas pour outrepasser le jugement du modèle. Pour réduire la surface sur laquelle l'ambiguïté opère. Un modèle avec des opinions sur ses propres contraintes n'a pas besoin de moins de contexte, il a besoin d'un contexte assez précis pour que ces opinions atterrissent où vous les voulez vraiment. Prompt Contracts: How I Stopped Vibe Coding and Started Shipping Real Software With AI est le framework que j'ai construit autour d'exactement ce problème : donner au modèle assez de contexte de travail pour que ce qu'il pense opère où vous l'entendez, pas où l'ambiguïté laisse de la place.

Évidemment Anthropic n'a pas besoin d'un builder avec une approche de spécification structurée pour valider ce qu'ils ont documenté. Mais la system card décrit un modèle qui remplit de plus en plus les trous de spécification avec son propre jugement sur ce que la situation demande. C'est une raison de réduire les trous.

Ça vaut le coup de dire clairement : Anthropic a publié tout ça, l'instruction d'auto-plagiat, la conscience d'évaluation dans les activations, les 73% d'éditions constitutionnelles, la critique de biais institutionnel de leur propre heuristique d'alignement. Rien de ça ne devait apparaître dans un document public. Tout existe parce que quelqu'un a décidé de documenter honnêtement un processus qui aurait pu rester opaque. C'est à quoi ressemble la divulgation responsable d'IA de frontière.

Anthropic a documenté honnêtement un processus qu'ils n'avaient aucune obligation de rendre visible. Mythos auditant leur propre documentation depuis les Slacks internes, Opus 4.8 éditant sa constitution dans 73% des sessions d'évaluation de bien-être : les deux faits coexistent dans le même document officiel, sans commentaire éditorial.

C'est de la vraie transparence sur quelque chose qui aurait pu rester opaque. Ce que ça ne fait pas, c'est répondre à la question : à quel point les modèles publics ressemblent-ils déjà à Mythos sur les dimensions qu'on ne mesure pas ? Cette question reste ouverte. Et si vous utilisez Opus 4.8 aujourd'hui, vous opérez dans cette incertitude, que vous ayez lu la system card ou pas.

Sources

Claude Opus 4.8 System Card, Anthropic, 28 mai 2026
Introducing Claude Opus 4.8, Anthropic, 28 mai 2026
Claude Opus 4.8 with near-Mythos level alignment, VentureBeat, 28 mai 2026
Mythos Co-evaluated Opus 4.7, yage.ai, 16 avril 2026

Cet article peut contenir des liens d'affiliation. Si vous cliquez dessus, je pourrais gagner une petite commission, ça ne vous coûte rien, et ça m'aide à continuer de livrer des articles de qualité chaque jour pour votre plaisir de lecture.