Blog
AI/Voice
25 de janeiro de 20266 min

Dando memória à IA: histórico de conversas e contexto

A primeira versão da IA era amnésica. "Adicione pão" funcionava. "Coloque para amanhã" falhava — a IA não sabia de qual tarefa estávamos falando. Era preciso dar memória a ela.

O problema do contexto

Os LLMs não têm memória nativa. É preciso reenviar o histórico completo a cada requisição. Dois problemas: a janela de contexto e o custo em tokens.

A janela de contexto

Janela deslizante com prioridades: o prompt do sistema sempre incluído, as últimas 2 trocas sempre incluídas, as chamadas de função prioritárias. As trocas antigas são resumidas ou excluídas de acordo com o orçamento de tokens.

O impacto nos custos

Uma conversa de 10 trocas pode custar 5x mais do que uma troca isolada. Limite de 20 trocas por conversa, contador de tokens estimado, escolha do modelo de acordo com a complexidade.

O fallback OpenRouter

Se o modelo principal retornar 429 ou 503, o backend tenta novamente com OPENROUTER_FALLBACK_MODEL. Transparente para o usuário. Um AlertService envia um e-mail ao administrador. Em produção, 2-3 fallbacks por semana.

O que a memória muda

"Modifique a prioridade da tarefa que acabamos de criar", "Finalmente, coloque isso para sexta-feira". A IA entende pronomes, referências, correções. A diferença entre uma ferramenta e um assistente.