Blog
AI/Voice
5 de março de 20267 min

STT nativo vs Deepgram: o compromisso custo-qualidade

O pipeline de voz do TAMSIV é baseado no Deepgram. Qualidade excelente, suporte impecável ao português. O problema? Cada segundo de áudio tem um preço.

O STT nativo como alternativa

Todo smartphone possui um motor de reconhecimento de voz. Gratuito, local, rápido. Menos preciso que o Deepgram para português rápido, sem pontuação confiável. Mas para ditar uma tarefa curta, é suficiente.

A arquitetura dual

Dois modos intercambiáveis, configuráveis a partir do admin:

  • Nuvem (Deepgram): Áudio via WebSocket, VAD integrado, alta qualidade. Planos Pro/Team.
  • Nativo: Reconhecimento no dispositivo, nenhum dado sai do telefone. Plano Gratuito.

O frontend expõe uma interface unificada. Os componentes não sabem qual motor está rodando.

A comparação em condições reais

  • Ambiente calmo: nativo 92%, Deepgram 98%
  • Com ruído de fundo: nativo 75%, Deepgram 94%
  • Português com sotaques: Deepgram significativamente melhor

O veredito: Deepgram é superior. Mas para um plano gratuito, o nativo é aceitável. O usuário que deseja a melhor qualidade tem mais um motivo para se tornar Pro. Ganha-ganha.