Der KI ein Gedächtnis geben: Gesprächsverlauf und Kontext
Die erste Version der KI war amnesisch. „Brot hinzufügen“ funktionierte. „Setze es für morgen“ schlug fehl – die KI wusste nicht, von welcher Aufgabe die Rede war. Man musste ihr ein Gedächtnis geben.
Das Kontextproblem
LLMs haben kein natives Gedächtnis. Der gesamte Verlauf muss bei jeder Anfrage erneut gesendet werden. Zwei Probleme: das Kontextfenster und die Token-Kosten.
Das Kontextfenster
Sliding Window mit Prioritäten: Der System-Prompt ist immer enthalten, die letzten 2 Austausche sind immer enthalten, Funktionsaufrufe haben Priorität. Ältere Austausche werden je nach Token-Budget zusammengefasst oder gelöscht.
Die Auswirkungen auf die Kosten
Ein Gespräch mit 10 Austauschen kann 5x mehr kosten als ein einzelner Austausch. Limit von 20 Austauschen pro Gespräch, geschätzter Token-Zähler, Modellauswahl je nach Komplexität.
Der OpenRouter-Fallback
Wenn das Hauptmodell 429 oder 503 zurückgibt, versucht das Backend es erneut mit OPENROUTER_FALLBACK_MODEL. Für den Benutzer transparent. Ein AlertService sendet eine E-Mail an den Administrator. Im Produktionsbetrieb 2-3 Fallbacks pro Woche.
Was das Gedächtnis verändert
„Ändere die Priorität der gerade erstellten Aufgabe“, „Schließlich, setze das auf Freitag“. Die KI versteht Pronomen, Referenzen, Korrekturen. Der Unterschied zwischen einem Werkzeug und einem Assistenten.