Blog
AI/Voice
5 marzo 20267 min

STT nativo vs Deepgram: il compromesso costo-qualità

La pipeline vocale di TAMSIV si basa su Deepgram. Qualità eccellente, supporto impeccabile per il francese. Il problema? Ogni secondo di audio ha un prezzo.

Lo STT nativo come alternativa

Ogni smartphone integra un motore di riconoscimento vocale. Gratuito, locale, veloce. Meno preciso di Deepgram per il francese parlato velocemente, nessuna punteggiatura affidabile. Ma per dettare una breve attività, è sufficiente.

L'architettura duale

Due modalità intercambiabili, configurabili dall'admin:

  • Cloud (Deepgram): Audio via WebSocket, VAD integrato, alta qualità. Piani Pro/Team.
  • Nativo: Riconoscimento sul dispositivo, nessun dato lascia il telefono. Piano Free.

Il frontend espone un'interfaccia unificata. I componenti non sanno quale motore è in esecuzione.

Il confronto in condizioni reali

  • Ambiente tranquillo: nativo 92%, Deepgram 98%
  • Con rumore di fondo: nativo 75%, Deepgram 94%
  • Francese con accenti: Deepgram nettamente migliore

Il verdetto: Deepgram è superiore. Ma per un piano gratuito, il nativo è accettabile. L'utente che desidera la migliore qualità ha un motivo in più per passare a Pro. Win-win.