Blog
AI/Voice
8 de janeiro de 20267 min

O Ditafone: quando a voz se torna a interface principal

A promessa do TAMSIV: criar uma tarefa falando, mais rápido do que digitando. Toda a UX do Ditafone deriva dessa promessa.

Push-to-talk

Escolhi o push-to-talk em vez da escuta contínua. Três razões: bateria, privacidade e ruído ambiente. O push-to-talk é explícito — sem ambiguidade. O VAD do Deepgram gerencia o fim da frase automaticamente.

O padrão PendingCreation

O padrão mais importante do TAMSIV. A IA analisa o ditado e cria uma prévia. Nada é salvo no banco de dados. O usuário vê a proposta, modifica se necessário e, em seguida, valida ou cancela.

Por quê? O reconhecimento de voz não é perfeito. A IA pode interpretar mal. O usuário deve manter o controle. A voz acelera a entrada, mas o humano decide.

STT nativo vs. nuvem

Dois modos configuráveis: nativo (gratuito, local, variável em qualidade) e nuvem Deepgram (consistente, preciso, pago). O STT nativo para o plano Free, Deepgram para Pro/Team.

A UX do botão

O botão do Ditafone é a primeira aba do aplicativo. Não as tarefas, não os memorandos. O microfone. Porque no TAMSIV, a voz não é um recurso — é O produto. Feedback háptico a cada mudança de estado. O usuário sente fisicamente quando o aplicativo está ouvindo.