Blog
AI/Voice
25 gennaio 20266 min

Dare memoria all'IA: cronologia delle conversazioni e contesto

La prima versione dell'IA era amnesica. "Aggiungi del pane" funzionava. "Mettila per domani" falliva — l'IA non sapeva di quale attività si stesse parlando. Bisognava darle memoria.

Il problema del contesto

I LLM non hanno memoria nativa. È necessario inviare l'intera cronologia ad ogni richiesta. Due problemi: la finestra di contesto e il costo in token.

La finestra di contesto

Finestra scorrevole con priorità: il system prompt sempre incluso, gli ultimi 2 scambi sempre inclusi, le function call prioritarie. Gli scambi più vecchi vengono riassunti o eliminati a seconda del budget di token.

L'impatto sui costi

Una conversazione di 10 scambi può costare 5 volte di più di uno scambio isolato. Limite di 20 scambi per conversazione, contatore di token stimato, scelta del modello in base alla complessità.

Il fallback OpenRouter

Se il modello principale restituisce 429 o 503, il backend riprova con OPENROUTER_FALLBACK_MODEL. Trasparente per l'utente. Un AlertService invia un'email all'amministratore. In produzione, 2-3 fallback a settimana.

Cosa cambia la memoria

"Modifica la priorità dell'attività che abbiamo appena creato", "Alla fine, mettila per venerdì". L'IA comprende i pronomi, i riferimenti, le correzioni. La differenza tra uno strumento e un assistente.