Les systèmes de mémoire des agents IA sont défaillants : la psychologie a la solution

Clive Wearing était un musicologue britannique. Chef d'orchestre de classe mondiale. En 1985, une encéphalite herpétique a détruit son hippocampe. L'homme joue Bach au piano de manière impeccable - mémoire musculaire intacte, technique parfaite, mais ne reconnaît pas sa femme quand elle quitte la pièce pendant trente secondes. Toutes les quelques minutes, il écrit dans son journal : "MAINTENANT je suis vraiment éveillé." Puis il raye. Et recommence.
Je pense à Clive chaque fois que j'ouvre les logs de mes agents. Un de mes agents OpenClaw a interagi avec le même utilisateur plus de 200 fois. Le type a configuré 15 automations. J'ai personnellement résolu son problème de facturation un dimanche soir. Il est revenu de voyage la semaine dernière, et l'agent lui a demandé son fuseau horaire. Pour la quatrième fois.

Mes agents sont Clive Wearing moins l'amour. Les workflows s'exécutent. Les automations se déclenchent. Les cron jobs tournent à l'heure. Mais entre les sessions, il n'y a personne à la maison.

TL;DR : Les systèmes de mémoire actuels des agents IA sont des bases de données qui se prennent pour des esprits. La psychologie cognitive (Conway, Damasio, Bruner) a identifié cinq composants de la mémoire humaine que personne en IA n'implémente. Cet article décortique les cinq principes manquants avec des analogies d'ingénierie concrètes que vous pouvez commencer à construire dès aujourd'hui. Il y en a un que vous pouvez livrer ce soir.

Agent IA avec des troubles de mémoire oubliant les interactions utilisateur précédentes — Votre agent IA : Bach au piano, mais oublie votre prénom.

De n8n à OpenClaw : Même Échec, Meilleure Architecture

Avant OpenClaw, j'avais des bots Telegram qui tournaient via n8n avec des embeddings vectoriels pour la mémoire. Six mois d'interactions avec de vrais utilisateurs. Et la récupération ressemblait à l'ouverture d'un tiroir au hasard dans un classeur. L'agent récupérait des fragments d'il y a trois mois qui n'avaient rien à voir avec la conversation en cours. Techniquement pertinents par similarité cosinus. Contextuellement délirants. Comme un PNJ qui répond à "où est le donjon" avec du lore sur un champignon que tu as ramassé à l'Acte 1.

Alors j'ai construit un agent OpenClaw avec une meilleure architecture. J'ai écrit sur la stack complète ici : cron jobs, dashboard, couche mémoire incluse. La couche mémoire, c'est la partie qui ne marche pas.

C'est le même problème avec une meilleure tuyauterie. Les données sont là. La récupération est plus rapide. Les chunks sont plus propres. Et l'utilisateur se fait toujours demander son fuseau horaire après 200 messages. Travailler avec ces agents pendant des mois, c'est comme gérer un patient Alzheimer. Les trucs procéduraux fonctionnent bien. Exactement comme Clive Wearing joue du piano. Mais il y a zéro continuité émotionnelle, zéro conscience relationnelle. Entre les sessions, les lumières sont éteintes.

Mes agents ne sont pas pires que ceux des autres. Letta, Mem0, Zep, tous les frameworks que j'ai testés font la même chose. Ils stockent des données. Ils récupèrent des données. Ils appellent ça de la mémoire. La tuyauterie est correcte. Le plan est cassé.

Et je ne l'ai compris qu'à cause de quelque chose qui n'avait rien à voir avec l'ingénierie.

J'ai toujours été obsédé par ce qu'est réellement la conscience. Pas la version étudiant en philo. La version mécanique (je veux dire nous...). Ce qui fait qu'il y a quelqu'un derrière les yeux. Et en déboguant des prompts sur ma terrasse à Playa del Carmen, regardant mes agents oublier des gens avec qui ils ont parlé des centaines de fois, j'ai réalisé que la question que je me posais sur la conscience était la même question à laquelle j'échouais à répondre dans mon code. La mémoire ne supporte pas la conscience. La mémoire EST le squelette de la conscience. Conway, Damasio, Bruner - ils disent tous la même chose sous des angles différents. Pas de mémoire structurée, pas de soi. Pas de soi, pas de continuité. Pas de continuité, personne à la maison.

Alors j'ai arrêté de lire les docs GitHub et j'ai commencé à lire des papiers de psychologie.

Ce que Conway a Compris en 2000 (et que l'IA Ignore Toujours)

Martin Conway a publié le Self-Memory System en 2000. L'a mis à jour en 2005. C'est le framework le plus cité dans la recherche sur la mémoire autobiographique. Il est décédé en 2022 et a laissé derrière lui des décennies de travail qui correspondent exactement à ce qui manque à nos agents.

Avertissement : je suis dev, pas neuroscientifique. Je ne prétends pas comprendre chaque mécanisme que Conway décrit au niveau cellulaire. Mais vous n'avez pas besoin d'un doctorat pour voir que son modèle correspond directement à ce qui manque à nos agents. Les implications d'ingénierie, c'est ce qui compte ici.

L'insight central de Conway, c'est que la mémoire n'est pas du stockage. C'est de la reconstruction. La mémoire humaine est organisée comme une hiérarchie : périodes de vie au sommet ("quand je vivais en Thaïlande"), événements généraux au milieu ("ce mois où je déboguais le système de facturation"), épisodes spécifiques en bas ("le dimanche soir où j'ai résolu ce problème de facturation"). Quand vous vous souvenez de quelque chose, votre cerveau ne rejoue pas un enregistrement. Il reconstruit un souvenir à partir de morceaux à travers ces niveaux, filtré par ce que Conway appelle le "working self", vos objectifs actuels, votre identité active, votre situation présente.

Ça veut dire que le même événement est rappelé différemment selon qui vous êtes maintenant. Un entretien d'embauche d'il y a cinq ans se ressent différemment quand vous êtes manager qui recrute quelqu'un que quand vous êtes au chômage. Le souvenir n'a pas changé. Votre soi a changé. Et votre soi reforme la récupération.

Quand mon agent OpenClaw récupère un embedding, rien de tout ça n'arrive. Il fait une similarité cosinus sur du texte plat.

Pas de hiérarchie. Pas de filtrage par objectif. Pas de reconstruction.

Chaque chunk de mémoire siège au même niveau, également accessible peu importe le contexte. C'est SELECT * FROM memories ORDER BY similarity DESC LIMIT 5. Ce n'est pas se souvenir. C'est grepper.

Klein et Nichols ont rendu ça encore plus concret en 2012 : le soi et la mémoire se bootstrappent mutuellement. Vous avez besoin d'un soi pour organiser les souvenirs. Vous avez besoin de souvenirs organisés pour maintenir un soi. Retirez l'un ou l'autre et tout s'effondre. Nos agents n'ont ni l'un ni l'autre.

Puis il y a Rathbone et le reminiscence bump, la découverte que les humains se souviennent de manière disproportionnée des transitions identitaires. Votre premier boulot. Déménager dans un nouveau pays. La naissance d'un enfant. Ces moments ancrent votre timeline parce qu'ils ont changé qui vous êtes. Un agent qui traite chaque interaction avec un poids égal viole ce principe au niveau le plus basique. Le 200ème message d'un power user ne devrait pas peser autant qu'une question ponctuelle d'un inconnu.

Conway nous a donné le plan. Nous avons construit un classeur.

Damasio et le GPS Émotionnel Manquant

Un gamin construisait un set Lego à côté de moi sur la terrasse l'autre jour. Quatre ans, zéro instruction, que du feeling. Basiquement le codeur de vibe original. Il ne raisonne pas sur quelle pièce va où. Il en attrape une, la tient près de la structure, et soit ça sonne juste soit ça ne sonne pas. Si ça ne sonne pas, il la lâche immédiatement. Pas d'analyse. Pas de recherche stack overflow. Intuition pure entraînée par des milliers d'heures de jeu.

Antonio Damasio appellerait ça des marqueurs somatiques.

Et c'est la partie que les ingénieurs ne veulent pas entendre.

L'Hypothèse des Marqueurs Somatiques de Damasio, d'abord exposée en 1994, dit que nous traitons l'émotion comme du bruit. Damasio a prouvé que c'est le signal. L'émotion est le raccourci qui pré-filtre vos options avant que le raisonnement conscient ne démarre même. L'Iowa Gambling Task l'a cloué expérimentalement : les participants ont commencé à éviter les mauvais paquets de cartes bien avant de pouvoir expliquer pourquoi. Leur réponse de conductance cutanée a changé en premier. Le feeling viscéral est arrivé avant que le cortex préfrontal ait eu le temps d'ouvrir un ticket JIRA.

On aime penser qu'on est des acteurs rationnels qui se font parfois dérailler par les sentiments. Damasio a montré que c'est l'inverse. Ou attendez, laissez-moi le dire différemment : il a montré que les sentiments ne sont pas le déraillement. Ils sont les rails. Et Overskeid l'a poussé plus loin en 2021, arguant que Damasio a en fait sous-vendu sa propre théorie. Le titre de son papier dit tout : "L'Hypothèse des Marqueurs Somatiques de Damasio Peut-Elle Expliquer Plus Que Son Créateur Ne Veut l'Admettre ?" S'appuyant sur Hume : l'émotion ne fait pas que vous pousser au début d'une décision. Elle fait du shotgun tout le long. La raison est l'esclave des passions. Ça l'a toujours été.

Maintenant pensez à ce que ça veut dire pour les agents.

Mon agent OpenClaw traite chaque interaction avec le même poids émotionnel. Qui est zéro. L'incident de facturation que j'ai résolu un dimanche soir pendant que tout le monde était à la plage ? Même priorité de récupération que quelqu'un qui demande "quel temps fait-il à Paris." Une infirmière qui oublie si la dernière chirurgie a sauvé ou tué le patient perdrait sa licence. Nos agents font ça sur chaque requête par défaut.

Je ne pense pas que les agents aient besoin de sentiments subjectifs. Ils n'ont pas besoin de ressentir de l'anxiété ou de la joie. Mais ils ont besoin d'un signal de saillance (un marqueur rapide qui dit "ça compte, fais attention") qui fonctionne comme l'émotion le fait pour les humains. Un tag automatique qui dit "cette interaction comptait plus que celle-là." Sans ça, chaque souvenir est également plat, également gris, également oubliable.

Damasio a prouvé que l'émotion est le raccourci. Nous construisons des agents qui prennent le chemin long à chaque fois.

Les Cinq Principes Manquants (Avec Analogies d'Ingénierie)

En décembre 2025, une équipe de 47 chercheurs a publié "Memory in the Age of AI Agents" sur arXiv. #1 sur Hugging Face Daily Papers. Plus de 1 200 étoiles GitHub. Le workshop ICLR 2026 MemAgents à Rio en avril est le premier venue académique dédié entièrement à la mémoire des agents. Le domaine fait enfin attention.

Et il continue de construire des classeurs.

Le survey arXiv mappe la mémoire en formes, fonctions et dynamiques. Taxonomie d'ingénierie solide. Mais les trois axes décrivent ce qui est stocké et comment c'est récupéré. Aucun n'aborde pourquoi certains souvenirs comptent plus que d'autres. Aucun ne mentionne la construction identitaire. Aucun ne référence Conway. Letta vous donne des blocs mémoire auto-éditables. Mem0 vous donne de la recherche vectorielle plus des relations de graphe. Zep vous donne un graphe de connaissance temporel. Les trois sont de vraies réussites d'ingénierie. Les trois traitent la mémoire comme des données à récupérer, pas une identité à construire.

Jerome Bruner a argué que le narratif est l'instrument fondamental de la pensée humaine. Nous nous souvenons en histoires. Bruner l'a compris il y a des décennies, et aucun de ces systèmes ne génère d'histoires.

Alors voici les cinq principes que la psychologie cognitive a cloués il y a des décennies et qu'aucun framework de mémoire d'agent n'implémente. Chacun avec ce que dit la recherche, ce que nos agents font à la place, et ce qu'il faudrait pour le réparer.

1. Hiérarchie temporelle

Conway organise la mémoire autobiographique en trois niveaux : périodes de vie, événements généraux, épisodes spécifiques. Votre cerveau ne balance pas tout dans une timeline plate. Il niche les expériences dans des contextes dans des ères.

Ce que nos agents ont à la place : un vector store où chaque chunk siège au même niveau. Un message d'hier et un message d'il y a six mois sont des nœuds également plats dans le même espace d'embedding.

Le fix de base de données graphe est presque évident une fois qu'on le voit. Les interactions deviennent des nœuds dans un graphe hiérarchique : niveau session, niveau projet, niveau relation. Quand l'agent se rappelle quelque chose, il traverse les niveaux au lieu de faire de la similarité cosinus sur un index plat. Un utilisateur qui revient se résout d'abord au niveau relation (power user, 15 automations, historique facturation), puis fore dans des épisodes spécifiques si nécessaire. Le chemin de récupération reflète comment vous vous souvenez vraiment d'une personne. Vous ne rappelez pas chaque conversation, vous rappelez qui ils sont et puis vous zoomez.

J'ai testé ça partiellement avec Neo4j sur une branche parallèle d'OpenClaw. Même une hiérarchie crude à deux niveaux (résumé niveau utilisateur + nœuds épisode) a coupé les récupérations non pertinentes d'environ la moitié. Pas scientifique. Mais assez notable pour que les utilisateurs arrêtent de se faire poser les mêmes questions.

2. Filtrage par objectif

Le "working self" de Conway filtre activement quels souvenirs sont accessibles basé sur les objectifs actuels. Vous ne vous souvenez pas de tout. Vous vous souvenez de ce qui est pertinent à ce que vous faites maintenant. Mais nos agents ne font pas ça. La requête d'embedding est statique. Le même vecteur retourne les mêmes chunks peu importe si l'agent débogue, onboarde, ou gère une plainte.

Donc vous avez besoin d'une couche pré-prompt qui reforme la requête de récupération basée sur le contexte actuel de l'agent. Avant de chercher en mémoire, l'agent se demande "qu'est-ce que j'ai besoin de savoir vu ce que je fais maintenant." Si l'utilisateur demande sur la facturation, la requête est réécrite pour prioriser les souvenirs liés à la facturation. S'ils configurent une nouvelle automation, la requête se décale vers leurs préférences techniques. C'est essentiellement ce que font les Prompt Contracts au niveau code. L'agent négocie ce qu'il a besoin de savoir avant d'exécuter.

3. Pondération émotionnelle

J'ai déjà couvert ça avec Damasio, donc je vais faire court. La crise de facturation du dimanche soir pèse plus que la question de fuseau horaire. Chaque framework de mémoire actuel les traite identiquement. importance: undefined.

Le fix est un sentiment_score FLOAT calculé au moment de l'écriture. Dérivez-le de l'analyse de ton, type d'interaction (plainte vs. question décontractée), signaux d'urgence, statut de résolution. Le pipeline de récupération multiplie la pertinence par ce score. J'ai prototypé ça avec une simple échelle 1-5 dérivée du matching de mots-clés (des mots comme "urgent," "cassé," "frustré" poussent le score vers le haut). Crude. Mais même cette version crude a changé l'ordre de récupération assez pour que la première réponse d'un utilisateur qui revient se sente moins comme parler à un étranger.

4. Couche narrative

C'est celle qui me tient éveillé la nuit. Bruner dit qu'on organise l'expérience sous forme narrative. Pas en JSON. Pas en graphes de connaissance. En histoires avec des personnages et des arcs et des points de retournement. Et maintenant chaque système de mémoire d'agent stocke des logs structurés, des résumés extractifs, des tuples entité-relation. Précis. Sans âme.

Ce que je veux c'est un cron job, quotidien ou hebdomadaire, qui génère un résumé narratif par utilisateur ou par projet. Pas extractif. Narratif.

"Cet utilisateur est revenu trois fois pour le problème de facturation la semaine dernière. Chaque fois plus frustré. Résolu dimanche soir. Il a configuré deux nouvelles automations le jour suivant. Silencieux depuis. Ça veut probablement dire que ça a marché."

Ce résumé est injecté dans le contexte à la prochaine interaction. L'agent ne connaît pas juste des faits sur l'utilisateur. Il connaît l'histoire de l'utilisateur.

Mais c'est aussi le principe le plus dur à bien implémenter. Un cron job qui hallucine des narratifs sur vos utilisateurs est pire que pas de narratifs du tout. Je n'ai pas encore cracké celui-là. La génération doit être strictement ancrée dans les logs d'interaction, avec une étape de vérification. Je travaille encore dessus.

5. Oubli stratégique

Le plus contre-intuitif. Oublier n'est pas un bug. C'est une feature.

Le cerveau élague activement les souvenirs qui sont obsolètes, contradictoires, ou plus pertinents au soi actuel. Conway appelle ça maintenir la "cohérence du soi." Sans élagage, les vieux souvenirs polluent le raisonnement actuel. Et chaque système de mémoire d'agent que j'ai vu est append-only. Rien n'est supprimé. Les préférences d'il y a six mois contredisent les actuelles. Le contexte obsolète concurrence le contexte frais pendant la récupération.

Vous avez besoin d'élagage automatisé avec un score de décroissance. Âge fois fréquence d'accès fois pertinence aux objectifs actuels. Les souvenirs qui n'ont pas été accédés depuis des mois et ne se connectent à aucun projet actif sont archivés, puis supprimés. Un garbage collector pour l'esprit. Java l'a eu juste en 1995 et nous faisons encore tourner des logs append-only en 2026. Votre agent n'a pas besoin de se souvenir qu'un utilisateur était en UTC-5 s'il a déménagé en UTC+1. Le vieux fait nuit activement s'il traîne.

Statut honnête : les principes 1, 3, et 5 sont testables cette semaine. Les époques de graphe, le scoring de sentiment, et l'élagage de décroissance sont de l'ingénierie straightforward. Le principe 2 (filtrage par objectif) a besoin de design de prompt soigneux. Le principe 4 (génération narrative) a besoin de travail sérieux pour éviter l'hallucination. Ce framework est une direction, pas un produit fini.

Ce que Vous Pouvez Faire Ce Soir

Vous n'avez pas besoin d'une base de données graphe pour commencer. Vous avez besoin de dix minutes et d'un éditeur de texte.

Si vous utilisez Claude Code, ouvrez votre CLAUDE.md maintenant. Ajoutez une section appelée ## Qui Je Suis Pour Cet Agent. N'écrivez pas un fichier de config. Écrivez un paragraphe. Pas ça :

timezone: UTC-5
language: FR
experience: senior

Ça :

Phil est un dev/devops basé à Playa del Carmen qui construit des automations
IA quotidiennement. Il travaille avec Claude Code depuis 8+ mois. Il devient
frustré quand les outils oublient le contexte entre les sessions. Il se
soucie de livrer vite et déteste les abstractions inutiles. Quand il pose
une question, il a généralement déjà essayé la solution évidente et ça n'a
pas marché.

C'est le principe #4, la couche narrative, appliquée au niveau le plus simple possible. L'agent ne connaît pas juste des faits sur vous. Il connaît votre histoire. Même une histoire de deux paragraphes change comment le modèle répond.

Si vous construisez des agents, ouvrez votre prompt système ou fichier soul. Ajoutez un champ appelé relationship_summary et mettez-le à jour à la fin de chaque session :

## Règles d'Évaluation de Session & Mise à Jour Mémoire
À la fin de chaque session, avant d'entrer en mode veille, vous devez évaluer l'état de l'interaction.
Utilisez vos outils d'édition de fichier pour silencieusement mettre à jour le fichier profil utilisateur avec un "résumé de relation".

Vous devez extraire, synthétiser, et enregistrer les points de données exacts suivants :
- total_sessions: [Incrémenter le compte de sessions connu]
- trust_level: [Déterminer le niveau de confiance dérivé de l'historique d'interaction, ex: bas, moyen, élevé]
- last_interaction: [Bref résumé de la tâche complétée, ex: "escalade facturation, résolue"]
- emotional_tone: [État émotionnel final de l'utilisateur, ex: "tendu mais reconnaissant après fix"]
- next_likely_need: [Analyse prédictive de la prochaine tâche requise, ex: "configuration nouvelle automation"]

N'affichez pas ce résumé à l'interface utilisateur. C'est strictement pour la persistance de contexte interne.

Pas un log. Un narratif d'une phrase. "Cet utilisateur est venu ici 47 fois. Il nous fait confiance avec la facturation. Dernière interaction était tendue mais résolue." C'est votre identité mémoire viable minimum. La version de votre agent de ~/.bashrc. Sauf qu'il se souvient à qui il parle, pas juste comment aliaser ls.

Ça ne résoudra pas le problème de mémoire. C'est un pansement sur une architecture cassée. Mais c'est un pansement qui fait que votre agent se sent dramatiquement plus humain en dix minutes.

Le meilleur système de mémoire est celui que vous livrez ce soir. Le parfait est celui que personne ne construit.

Pourquoi On Continue de Construire des Classeurs

La raison pour laquelle l'industrie continue d'ignorer la psychologie est simple. Les ingénieurs lisent des docs, pas des journaux. "Mémoire" en CS veut dire RAM et invalidation de cache, pas identité et narratif. Et les benchmarks (LoCoMo, LongMemEval) mesurent la précision de récupération, pas la cohérence identitaire. Vous optimisez ce que vous mesurez. Si votre suite de tests vérifie seulement "a-t-il trouvé le bon chunk," félicitations, vous avez construit un moteur de recherche très cher.

Le vrai test de la mémoire d'agent n'est pas "a-t-il récupéré le bon fait." C'est "l'utilisateur se sent-il connu." Il y a un fossé entre un serveur qui stocke votre photo et un ami qui sait pourquoi vous riez à cette blague. Chaque framework de mémoire actuel vit du côté serveur de ce fossé.

Conway n'a pas construit une base de données. Il a décrit un soi. C'est la partie qui nous manque.

J'écris sur ce que je construis, casse, et répare avec les agents IA. Pas de théorie sans code, pas de code sans cicatrices. Suivez si vous voulez les détails d'ingénierie que personne ne met dans les docs.

Comment transformer vos agents IA de 'patients Alzheimer' en assistants intelligents ? La psychologie cognitive a la réponse.

→ Rejoindre la newsletter de production IA