Blog
AI/Voice
5 de marzo de 20267 min

STT nativo vs Deepgram: el compromiso costo-calidad

La tubería de voz de TAMSIV se basa en Deepgram. Calidad excelente, soporte impecable del español. ¿El problema? Cada segundo de audio tiene un precio.

El STT nativo como alternativa

Cada smartphone incorpora un motor de reconocimiento de voz. Gratuito, local, rápido. Menos preciso que Deepgram para el español rápido, sin puntuación fiable. Pero para dictar una tarea corta, es suficiente.

La arquitectura dual

Dos modos intercambiables, configurables desde el administrador:

  • Nube (Deepgram): Audio vía WebSocket, VAD integrado, alta calidad. Planes Pro/Team.
  • Nativo: Reconocimiento en el dispositivo, ningún dato sale del teléfono. Plan Gratuito.

El frontend expone una interfaz unificada. Los componentes no saben qué motor está funcionando.

La comparación en condiciones reales

  • Entorno tranquilo: nativo 92%, Deepgram 98%
  • Con ruido de fondo: nativo 75%, Deepgram 94%
  • Español con acentos: Deepgram significativamente mejor

El veredicto: Deepgram es superior. Pero para un plan gratuito, el nativo es aceptable. El usuario que quiere la mejor calidad tiene una razón más para pasarse a Pro. Ganar-ganar.