Blog
AI/Voice
8 de enero de 20267 min

El Dictáfono: cuando la voz se convierte en la interfaz principal

La promesa de TAMSIV: crear una tarea hablando, más rápido que escribiendo. Toda la UX del Dictáfono se deriva de esta promesa.

Push-to-talk

Elegí el push-to-talk en lugar de la escucha continua. Tres razones: la batería, la privacidad y el ruido ambiental. El push-to-talk es explícito, sin ambigüedades. El VAD de Deepgram gestiona el final de la frase automáticamente.

El patrón PendingCreation

El patrón más importante de TAMSIV. La IA analiza el dictado y crea una vista previa. Nada se guarda en la base de datos. El usuario ve la propuesta, la modifica si es necesario y luego valida o cancela.

¿Por qué? El reconocimiento de voz no es perfecto. La IA puede malinterpretar. El usuario debe mantener el control. La voz acelera la entrada, pero el humano decide.

STT nativo vs. nube

Dos modos configurables: nativo (gratuito, local, calidad variable) y Deepgram en la nube (consistente, preciso, de pago). El STT nativo para el plan Free, Deepgram para Pro/Team.

La UX del botón

El botón del Dictáfono es la primera pestaña de la aplicación. No las tareas, no las notas. El micrófono. Porque en TAMSIV, la voz no es una característica, es EL producto. Retroalimentación háptica en cada cambio de estado. El usuario siente físicamente cuando la aplicación está escuchando.