A Microsoft registrou um grande avanço no reconhecimento de voz ao criar uma tecnologia que reconhece as palavras em uma conversa, da forma como as pessoas as pronunciam.
Paridade humana no reconhecimento de voz
Em artigo publicado recentemente, uma equipe de pesquisadores e engenheiros da Microsoft Artificial Intelligence and Research relatou um sistema de reconhecimento de voz que comete erros iguais ou menos que os transcritores profissionais.
Os pesquisadores reportaram uma taxa de erro de palavras (word error rate – WER) de 5,9%, menor que a de 6,3% relatada no mês passado.
A taxa de erro de 5,9% é igual a de pessoas às quais solicitou-se que transcrevessem a mesma conversa e é a menor já registrada em relação ao padrão Switchboard para tarefa de reconhecimento de voz.
“Alcançamos a paridade humana”, afirma Xuedong Huang, cientista-chefe de reconhecimento de voz da empresa. “Isso é uma conquista histórica.”
Esse marco significa que, pela primeira vez, um computador pode reconhecer as palavras em uma conversa da mesma forma que uma pessoa. A equipe superou o objetivo definido há um ano e as expectativas de todos.
O marco chega após décadas de pesquisa em reconhecimento de voz, começando nos anos 70 com a DARPA, agência americana responsável por realizar avanços tecnológicos para atender a interesses de segurança nacional. Nas décadas seguintes, a maioria das empresas de tecnologia e muitas organizações de pesquisa se juntaram à busca.
Esse marco terá implicações maiores para produtos de uso pessoal e de negócios que podem ser melhorados significativamente com o reconhecimento de voz. Isso inclui dispositivos de entretenimento como o Xbox, ferramentas de acessibilidade como transcrições instantâneas de áudio para texto e assistentes pessoais digitais, como a Cortana.
Paridade, não perfeição
O feito não significa que o computador reconhece todas as palavras perfeitamente. E os humanos também não conseguem. Significa que a taxa de erro – ou a taxa na qual o computador confunde uma palavra, como “ser” por “ter” ou “a” por “ao” – é a mesma que você espera de uma pessoa ouvindo a mesma conversa.
Geoffrey Zweig, que gerencia o grupo de pesquisa de Fala & Diálogo, atribui a conquista ao uso sistemático da mais nova tecnologia de redes neurais em todos os aspectos do sistema.
O impulso que levou os pesquisadores a esse patamar foi o uso de modelos neurais de linguagem nos quais palavras são representadas como vetores contínuos no espaço e palavras como “rápido” e “ágil” ficam próximas.
Redes neurais profundas usam grandes quantidades de dados – chamadas conjuntos de treinamento – para ensinar sistemas computacionais a reconhecer padrões de insumos, como imagens ou sons.
Para atingir a marca de paridade humana, a equipe usou o Kit de Ferramentas de Rede Computacional (Computational Network Toolkit – CNTK) da Microsoft, um sistema feito em casa para a aprendizagem profunda, que a equipe de pesquisa colocou à disposição no GitHub por meio de uma licença de código aberto.
Fonte: Baboo