Reconhecimento de voz é a tecnologia pela qual palavras ou frases faladas por pessoas são convertidas automaticamente em texto e capturadas por algum software.
Basicamente, o sinal da fala é capturado por um microfone e convertido da forma analógica para digital. O sinal é então identificado e enviado ao software apropriado para ser exibido como texto.
O primeiro
passo no reconhecimento da voz é capturar a fala. Uma pessoa fala
uma palavra ou frase que é capturada por um microfone. As ondas
de som contínuas são transformadas em sinais elétricos
(transdução analógica), os quais devem então
serem processados digitalmente através de uma placa de reconhecimento
de voz, que converte as ondas elétricas analógicas em códigos
binários digitais. Em seguida, após várias transformações
e extrações de características do sinal, a representação
digital dos segmentos da fala (fonemas) são comparados com um vocabulário
armazenado no programa. O texto correspondente à palavra é
então enviado para o software de exibição.
Fig. 1.
Como
funciona a tecnologia de reconhecimento de voz.
1)
Usuário treina o programa a reconhecer sua voz e timbre. 2)
Palavras são faladas no microfone 3) Palavras
são convertidas na forma de fluxo de ondas (conversão digital-analógica).
4)
Placa de reconhecimento de voz.
5)
Ondas convertidas em códigos binários (conversão analógica-digital)
6)
Código binário da palavra enviada é comparado ao vocabulário
armazenado. 7) Palavra exibida na tela
do computador.
Problemas Associados com o Reconhecimento de Voz
A complexidade da voz humana dificulta que os sistemas de reconhecimento da fala atuais sejam capazes de reconhecer a fala natural ou espontânea, independente do locutor (Sabbatini, 1997). Para tanto, o sistema teria que ser capaz de reconhecer um fluxo contínuo da fala em um amplo vocabulário de uma dada linguagem ou dialeto por uma pessoa com aproximadamente 100% de precisão. A dificuldade em usar voz como uma entrada para um computador está nas diferenças fundamentais entre a fala humana e as formas tradicionais de entrada de computador, como o teclado. No entanto, existem vários sistemas comerciais de sucesso, que reconhecem a fala previamente treinada por um locutor, e com palavras pronunciadas com pausas entre elas. Uma das aplicações comerciais de maior sucesso têm sido os telefones celulares do tipo "voicer", que discam um número automaticamente em resposta a um comando vocal.
Aplicações
Desnecessário mencionar as facilidades que as palavras faladas transformadas automaticamente em texto podem proporcionar a qualquer profissional que necessita constantemente digitar textos.
Na área da saúde, a tecnologia tem sido muito útil para pessoas com deficiências físicas (Manasse, 1999), desde que elimina a necessidade de um teclado. Médicos podem entrar instantaneamente os dados do paciente e já existem diversos sistemas comerciais para o ditado de laudos e relatórios de radiologia e cirurgia, por exemplo (Lernout & Hauspie, 2001). Hospitais e pronto socorros dos EUA também estão bastante interessados em reconhecimento de voz porque isto os ajuda a documentar rapidamente os serviços prestados para as seguradoras.
Na área educacional,
o sistema seria útil para a produção automática
de textos a partir de aulas expositivas gravadas em fita cassete. Outra
área fértil de aplicações seria a do ensino
de idiomas, como na avaliação do desempenho do aluno na pronúncia
correta, e no diálogo interativo. No futuro, poderão surgir
tradutores automáticos universais de voz (Bonsor,
2001).
Um
software bem divulgado, já com capacidade para o reconhecimento
do português brasileiro é o Via Voice, da IBM,
com várias versões. A mais atualizada (2001), e mais cara
é o Pro Edition Release 8. que é
acompanhado de um conjunto de fones de ouvido e microfone. A edição
Milennium não vem com esse conjunto e tem recursos mais simples.Podem
ser encontrados nas seguintes lojas virtuais:
Análise
Crítica do Via Voice
Reproduzimos abaixo algumas observações feitas por especialistas que analisaram o Via Voice (referências ao final), para que o leitor possa ter uma idéia do funcionamento e qualidade do programa: