Blog
AI/Voice
8 gennaio 20267 min

Il Dittafono: quando la voce diventa l'interfaccia principale

La promessa di TAMSIV: creare un'attività parlando, più velocemente che digitando. Tutta l'UX del Dittafono deriva da questa promessa.

Push-to-talk

Ho scelto il push-to-talk anziché l'ascolto continuo. Tre ragioni: la batteria, la privacy e il rumore ambientale. Il push-to-talk è esplicito — nessuna ambiguità. Il VAD di Deepgram gestisce automaticamente la fine della frase.

Il pattern PendingCreation

Il pattern più importante di TAMSIV. L'IA analizza la dettatura e crea un'anteprima. Nulla viene salvato nel database. L'utente vede la proposta, modifica se necessario, quindi convalida o annulla.

Perché? Il riconoscimento vocale non è perfetto. L'IA può interpretare male. L'utente deve mantenere il controllo. La voce accelera l'inserimento, ma l'umano decide.

STT nativo vs cloud

Due modalità configurabili: nativo (gratuito, locale, qualità variabile) e cloud Deepgram (coerente, preciso, a pagamento). Lo STT nativo per il piano Free, Deepgram per Pro/Team.

L'UX del pulsante

Il pulsante del Dittafono è la prima scheda dell'app. Non le attività, non i memo. Il microfono. Perché in TAMSIV, la voce non è una funzionalità — è IL prodotto. Feedback aptico ad ogni cambio di stato. L'utente sente fisicamente quando l'app ascolta.