Das Diktiergerät: Wenn die Stimme zur Hauptschnittstelle wird
Das Versprechen von TAMSIV: Eine Aufgabe durch Sprechen schneller erstellen als durch Tippen. Die gesamte UX des Diktiergeräts leitet sich von diesem Versprechen ab.
Push-to-talk
Ich habe mich für Push-to-talk anstelle von kontinuierlichem Zuhören entschieden. Drei Gründe: Akkulaufzeit, Datenschutz und Umgebungsgeräusche. Push-to-talk ist explizit – keine Mehrdeutigkeit. Das VAD von Deepgram verwaltet das Satzende automatisch.
Das PendingCreation-Muster
Das wichtigste Muster von TAMSIV. Die KI analysiert das Diktat und erstellt eine Vorschau. Nichts wird in der Datenbank gespeichert. Der Benutzer sieht den Vorschlag, ändert ihn bei Bedarf und bestätigt oder bricht dann ab.
Warum? Spracherkennung ist nicht perfekt. Die KI kann falsch interpretieren. Der Benutzer muss die Kontrolle behalten. Die Stimme beschleunigt die Eingabe, aber der Mensch entscheidet.
Natives STT vs. Cloud
Zwei konfigurierbare Modi: nativ (kostenlos, lokal, variable Qualität) und Cloud Deepgram (konsistent, präzise, kostenpflichtig). Natives STT für den Free-Plan, Deepgram für Pro/Team.
Die UX des Buttons
Der Diktiergerät-Button ist der erste Tab der App. Nicht die Aufgaben, nicht die Memos. Das Mikrofon. Denn in TAMSIV ist die Stimme keine Funktion – sie ist DAS Produkt. Haptisches Feedback bei jeder Statusänderung. Der Benutzer spürt physisch, wenn die App zuhört.