Um dos projetos paralelos que a Mozilla continua desenvolvendo é o DeepSpeech, um mecanismo de fala para texto derivado de pesquisas do Baidu e construído no TensorFlow com aceleração de CPU e NVIDIA CUDA. Esta semana marcou o lançamento do Mozilla DeepSpeech 0.6 com otimizações de desempenho, construção do Windows, iluminação dos modelos de idiomas e outras alterações. Portanto, a Mozilla lança DeepSpeech 0.6.
O DeepSpeech 0.6 atingiu atualmente uma taxa de erro de palavra de 7,5% para este mecanismo de fala para texto de código aberto. A nova versão apresenta várias alterações de API, melhor desempenho do treinamento com o suporte TDNORNow 1.14 cuDNN RNN para seu gráfico de treinamento, reduziu seu modelo de idioma para usar as 500 mil palavras mais importantes, adicionando várias técnicas de aumento de dados, uma ferramenta para transcrição em massa de arquivos de áudio grandes, e várias outras mudanças.
Mozilla lança DeepSpeech 0.6
A equipe de Machine Learning da Mozilla continua trabalhando no DeepSpeech, um mecanismo de reconhecimento automático de fala (ASR) que visa tornar a tecnologia de reconhecimento de fala e os modelos treinados disponíveis abertamente para os desenvolvedores. O DeepSpeech é um mecanismo ASR baseado em aprendizado profundo com uma API simples. Também fornecemos modelos de inglês pré-treinados.
O DeepSpeech v0.6 inclui uma série de otimizações de desempenho, projetadas para tornar mais fácil para os desenvolvedores de aplicativos usar o mecanismo sem precisar ajustar seus sistemas. Nosso novo decodificador de streaming oferece a maior melhoria, o que significa que o DeepSpeech agora oferece baixa latência e utilização de memória consistentes, independentemente da duração do áudio que está sendo transcrito.
Aqueles que desejam experimentar o DeepSpeech 0.6 para transcrever fala de arquivos de áudio podem pegar as versões binárias do GitHub. No blog Mozilla Hacks, também há mais detalhes sobre as melhorias do DeepSpeech 0.6. Na minha lista de tarefas, ver também se o DeepSpeech 0.6 pode funcionar bem como outro benchmark do Phoronix Test Suite.
Via Phoronix