Donner de la mémoire à l'IA : historique de conversation et contexte
La première version de l'IA était amnésique. "Ajoute du pain" fonctionnait. "Mets-la pour demain" échouait — l'IA ne savait pas de quelle tâche on parlait. Il fallait lui donner de la mémoire.
Le problème du contexte
Les LLM n'ont pas de mémoire native. Il faut renvoyer l'historique complet à chaque requête. Deux problèmes : la fenêtre de contexte et le coût en tokens.
La fenêtre de contexte
Sliding window avec priorités : le system prompt toujours inclus, les 2 derniers échanges toujours inclus, les function calls prioritaires. Les échanges anciens sont résumés ou supprimés selon le budget tokens.
L'impact sur les coûts
Une conversation de 10 échanges peut coûter 5x plus qu'un échange isolé. Limite de 20 échanges par conversation, compteur de tokens estimé, choix du modèle selon la complexité.
Le fallback OpenRouter
Si le modèle principal renvoie 429 ou 503, le backend retente avec OPENROUTER_FALLBACK_MODEL. Transparent pour l'utilisateur. Un AlertService envoie un email à l'admin. En production, 2-3 fallbacks par semaine.
Ce que la mémoire change
"Modifie la priorité de la tâche qu'on vient de créer", "Finalement, mets ça à vendredi". L'IA comprend les pronoms, les références, les corrections. La différence entre un outil et un assistant.