BlogAI/Voice
5 de marzo de 20267 min
STT nativo vs Deepgram: el compromiso costo-calidad
La tubería de voz de TAMSIV se basa en Deepgram. Calidad excelente, soporte impecable del español. ¿El problema? Cada segundo de audio tiene un precio.
El STT nativo como alternativa
Cada smartphone incorpora un motor de reconocimiento de voz. Gratuito, local, rápido. Menos preciso que Deepgram para el español rápido, sin puntuación fiable. Pero para dictar una tarea corta, es suficiente.
La arquitectura dual
Dos modos intercambiables, configurables desde el administrador:
- Nube (Deepgram): Audio vía WebSocket, VAD integrado, alta calidad. Planes Pro/Team.
- Nativo: Reconocimiento en el dispositivo, ningún dato sale del teléfono. Plan Gratuito.
El frontend expone una interfaz unificada. Los componentes no saben qué motor está funcionando.
La comparación en condiciones reales
- Entorno tranquilo: nativo 92%, Deepgram 98%
- Con ruido de fondo: nativo 75%, Deepgram 94%
- Español con acentos: Deepgram significativamente mejor
El veredicto: Deepgram es superior. Pero para un plan gratuito, el nativo es aceptable. El usuario que quiere la mejor calidad tiene una razón más para pasarse a Pro. Ganar-ganar.