Tecnologia de Reconhecimento de Voz

Por Silvia Helena Cardoso

Reconhecimento de voz é a tecnologia pela qual palavras ou frases faladas por pessoas são convertidas automaticamente em texto e capturadas por algum software.

Basicamente, o sinal da fala é capturado por um microfone e convertido da forma analógica para digital. O sinal é então identificado e enviado ao software apropriado para ser exibido como texto.

O primeiro passo no reconhecimento da voz é capturar a fala. Uma pessoa fala uma palavra ou frase que é capturada por um microfone. As ondas de som contínuas são transformadas em sinais elétricos (transdução analógica), os quais devem então serem  processados digitalmente através de uma placa de reconhecimento de voz, que converte as ondas elétricas analógicas em códigos binários digitais. Em seguida, após várias transformações e extrações de características do sinal, a representação digital dos segmentos da fala (fonemas) são comparados com um vocabulário armazenado no programa. O texto correspondente à palavra é então enviado para o software de exibição.
 
 


Fig. 1. Como funciona a tecnologia de reconhecimento de voz.
1) Usuário treina o programa a reconhecer sua voz e timbre.  2) Palavras são faladas no microfone 3) Palavras são convertidas na forma de fluxo de ondas (conversão digital-analógica). 4) Placa de reconhecimento de voz. 5) Ondas convertidas em códigos binários (conversão analógica-digital) 6) Código binário da palavra enviada é comparado ao vocabulário armazenado. 7) Palavra exibida na tela do computador.

Problemas Associados com o Reconhecimento de Voz

A complexidade da voz humana dificulta que os sistemas de reconhecimento da fala atuais sejam capazes de reconhecer a fala natural ou espontânea, independente do locutor (Sabbatini, 1997). Para tanto, o sistema teria que ser capaz de reconhecer um fluxo contínuo da fala em um amplo vocabulário de uma dada linguagem ou dialeto por uma pessoa com aproximadamente 100% de precisão. A dificuldade em usar voz como uma entrada para um computador está nas diferenças fundamentais entre a fala humana e as formas tradicionais de entrada de computador, como o teclado. No entanto, existem vários sistemas comerciais de sucesso, que reconhecem a fala previamente treinada por um locutor, e com palavras pronunciadas com pausas entre elas. Uma das aplicações comerciais de maior sucesso têm sido os telefones celulares do tipo "voicer", que discam um número automaticamente em resposta a um comando vocal.

Aplicações

Desnecessário mencionar as facilidades que as palavras faladas transformadas automaticamente em texto podem proporcionar a qualquer profissional que necessita constantemente digitar textos.

Na área da saúde, a tecnologia tem sido muito útil para pessoas com deficiências físicas (Manasse, 1999), desde que elimina a necessidade de um teclado. Médicos podem entrar instantaneamente os dados do paciente e já existem diversos sistemas comerciais para o ditado de laudos e relatórios de radiologia e cirurgia, por exemplo (Lernout & Hauspie, 2001). Hospitais e pronto socorros dos EUA também estão bastante interessados em reconhecimento de voz porque isto os ajuda a documentar rapidamente os serviços prestados para as seguradoras.

Na área educacional, o sistema seria útil para a produção automática de textos a partir de aulas expositivas gravadas em fita cassete. Outra área fértil de aplicações seria a do ensino de idiomas, como na avaliação do desempenho do aluno na pronúncia correta, e no diálogo interativo. No futuro, poderão surgir tradutores automáticos universais de voz (Bonsor, 2001).
 

Onde Encontrar Produtos Comerciais

Um software bem divulgado, já com capacidade para o reconhecimento do português brasileiro é o Via Voice, da IBM, com várias versões. A mais atualizada (2001), e mais cara é o Pro Edition Release 8. que é acompanhado de um conjunto de fones de ouvido e microfone. A edição Milennium não vem com esse conjunto e tem recursos mais simples.Podem ser encontrados nas seguintes lojas virtuais:


Análise Crítica do Via Voice

Reproduzimos abaixo algumas observações feitas por especialistas que analisaram o Via Voice (referências ao final), para que o leitor possa ter uma idéia do funcionamento e qualidade do programa:

Referências


Copyright (c) 2001 Silvia Helena Cardoso
Instituto Edumed
Publicado em 1/7/2001.