BlogAI/Voice
5 mars 20267 min
STT natif vs Deepgram : le compromis coût-qualité
Le pipeline vocal de TAMSIV repose sur Deepgram. Qualité excellente, support du français impeccable. Le problème ? Chaque seconde d'audio a un prix.
Le STT natif comme alternative
Chaque smartphone embarque un moteur de reconnaissance vocale. Gratuit, local, rapide. Moins précis que Deepgram sur le français rapide, pas de ponctuation fiable. Mais pour dicter une tâche courte, c'est suffisant.
L'architecture duale
Deux modes interchangeables, configurable depuis l'admin :
- Cloud (Deepgram) : Audio via WebSocket, VAD intégré, haute qualité. Plans Pro/Team.
- Native : Reconnaissance sur le device, aucune donnée ne quitte le téléphone. Plan Free.
Le frontend expose une interface unifiée. Les composants ne savent pas quel moteur tourne.
La comparaison en conditions réelles
- Environnement calme : natif 92%, Deepgram 98%
- Avec bruit de fond : natif 75%, Deepgram 94%
- Français avec accents : Deepgram nettement meilleur
Le verdict : Deepgram est supérieur. Mais pour un plan gratuit, le natif est acceptable. L'utilisateur qui veut la meilleure qualité a une raison de plus de passer Pro. Win-win.