Dando memória à IA: histórico de conversas e contexto
A primeira versão da IA era amnésica. "Adicione pão" funcionava. "Coloque para amanhã" falhava — a IA não sabia de qual tarefa estávamos falando. Era preciso dar memória a ela.
O problema do contexto
Os LLMs não têm memória nativa. É preciso reenviar o histórico completo a cada requisição. Dois problemas: a janela de contexto e o custo em tokens.
A janela de contexto
Janela deslizante com prioridades: o prompt do sistema sempre incluído, as últimas 2 trocas sempre incluídas, as chamadas de função prioritárias. As trocas antigas são resumidas ou excluídas de acordo com o orçamento de tokens.
O impacto nos custos
Uma conversa de 10 trocas pode custar 5x mais do que uma troca isolada. Limite de 20 trocas por conversa, contador de tokens estimado, escolha do modelo de acordo com a complexidade.
O fallback OpenRouter
Se o modelo principal retornar 429 ou 503, o backend tenta novamente com OPENROUTER_FALLBACK_MODEL. Transparente para o usuário. Um AlertService envia um e-mail ao administrador. Em produção, 2-3 fallbacks por semana.
O que a memória muda
"Modifique a prioridade da tarefa que acabamos de criar", "Finalmente, coloque isso para sexta-feira". A IA entende pronomes, referências, correções. A diferença entre uma ferramenta e um assistente.