Natives STT vs. Deepgram: Der Kompromiss zwischen Kosten und Qualität
Die Sprachpipeline von TAMSIV basiert auf Deepgram. Ausgezeichnete Qualität, einwandfreie Unterstützung für Französisch. Das Problem? Jede Audiosekunde hat ihren Preis.
Native STT als Alternative
Jedes Smartphone verfügt über eine Spracherkennungs-Engine. Kostenlos, lokal, schnell. Weniger präzise als Deepgram bei schnellem Französisch, keine zuverlässige Interpunktion. Aber um eine kurze Aufgabe zu diktieren, ist es ausreichend.
Die duale Architektur
Zwei austauschbare Modi, konfigurierbar über das Admin-Panel:
- Cloud (Deepgram): Audio über WebSocket, integriertes VAD, hohe Qualität. Pro/Team-Pläne.
- Nativ: Erkennung auf dem Gerät, keine Daten verlassen das Telefon. Kostenloser Plan.
Das Frontend bietet eine einheitliche Oberfläche. Die Komponenten wissen nicht, welche Engine läuft.
Der Vergleich unter realen Bedingungen
- Ruhige Umgebung: nativ 92%, Deepgram 98%
- Mit Hintergrundgeräuschen: nativ 75%, Deepgram 94%
- Französisch mit Akzenten: Deepgram deutlich besser
Das Urteil: Deepgram ist überlegen. Aber für einen kostenlosen Plan ist die native Version akzeptabel. Der Benutzer, der die beste Qualität wünscht, hat einen weiteren Grund, auf Pro umzusteigen. Win-Win.