Blog
AI/Voice
25 janvier 20266 min

Donner de la mémoire à l'IA : historique de conversation et contexte

La première version de l'IA était amnésique. "Ajoute du pain" fonctionnait. "Mets-la pour demain" échouait — l'IA ne savait pas de quelle tâche on parlait. Il fallait lui donner de la mémoire.

Le problème du contexte

Les LLM n'ont pas de mémoire native. Il faut renvoyer l'historique complet à chaque requête. Deux problèmes : la fenêtre de contexte et le coût en tokens.

La fenêtre de contexte

Sliding window avec priorités : le system prompt toujours inclus, les 2 derniers échanges toujours inclus, les function calls prioritaires. Les échanges anciens sont résumés ou supprimés selon le budget tokens.

L'impact sur les coûts

Une conversation de 10 échanges peut coûter 5x plus qu'un échange isolé. Limite de 20 échanges par conversation, compteur de tokens estimé, choix du modèle selon la complexité.

Le fallback OpenRouter

Si le modèle principal renvoie 429 ou 503, le backend retente avec OPENROUTER_FALLBACK_MODEL. Transparent pour l'utilisateur. Un AlertService envoie un email à l'admin. En production, 2-3 fallbacks par semaine.

Ce que la mémoire change

"Modifie la priorité de la tâche qu'on vient de créer", "Finalement, mets ça à vendredi". L'IA comprend les pronoms, les références, les corrections. La différence entre un outil et un assistant.