BlogAI/Voice
5 marzo 20267 min
STT nativo vs Deepgram: il compromesso costo-qualità
La pipeline vocale di TAMSIV si basa su Deepgram. Qualità eccellente, supporto impeccabile per il francese. Il problema? Ogni secondo di audio ha un prezzo.
Lo STT nativo come alternativa
Ogni smartphone integra un motore di riconoscimento vocale. Gratuito, locale, veloce. Meno preciso di Deepgram per il francese parlato velocemente, nessuna punteggiatura affidabile. Ma per dettare una breve attività, è sufficiente.
L'architettura duale
Due modalità intercambiabili, configurabili dall'admin:
- Cloud (Deepgram): Audio via WebSocket, VAD integrato, alta qualità. Piani Pro/Team.
- Nativo: Riconoscimento sul dispositivo, nessun dato lascia il telefono. Piano Free.
Il frontend espone un'interfaccia unificata. I componenti non sanno quale motore è in esecuzione.
Il confronto in condizioni reali
- Ambiente tranquillo: nativo 92%, Deepgram 98%
- Con rumore di fondo: nativo 75%, Deepgram 94%
- Francese con accenti: Deepgram nettamente migliore
Il verdetto: Deepgram è superiore. Ma per un piano gratuito, il nativo è accettabile. L'utente che desidera la migliore qualità ha un motivo in più per passare a Pro. Win-win.