Mozilla lança DeepSpeech 0.7

Um dos trabalhos menos conhecidos realizados pela Mozilla no campo do software é o DeepSpeech como um mecanismo de fala para texto criado no TensorFlow com aceleração de CPU e GPU (CUDA). Então, na última sexta-feira, houve um novo lançamento deste software DeepSpeech que está obtendo ótimos resultados para a conversão de áudio falado em texto.

Mozilla lança DeepSpeech 0.7

De acordo com o controle de versão, o DeepSpeech 0.7 não é compatível com a versão 0.6.1 ou anterior. Portanto, ao usar a nova versão, será necessário atualizar o código e os modelos. Como nas versões anteriores, esta inclui o código fonte:

v0.7.0.tar.gz

e os modelos:

deepspeech-0.7.0-models.pbmm
deepspeech-0.7.0-models.tflite.

O modelo com a extensão “.pbmm” é mapeado para a memória e, portanto, é eficiente e rápido para carregar. O modelo com a extensão “.tflite” é convertido para usar o TFLite, tem a quantização pós-treinamento ativada e é mais adequado para ambientes com recursos limitados.

Só tem um problema: os modelos acústicos foram treinados em inglês americano e o modelo pbmm atinge uma taxa de erro de palavra de 5,97% no corpus de teste limpo LibriSpeech.

O DeepSpeech 0.7 é a nova versão da Mozilla para este mecanismo de fala para texto de código aberto. Entre as muitas mudanças encontradas nesta atualização estão as alterações em seu código de treinamento TensorFlow, suporte para TypeScript, suporte .NET multi-stream, um novo formato está disponível para dados de treinamento que devem ser mais rápidos, suporte para transferência de aprendizado, suporte ao ElectronJS 8.0, e inúmeras outras mudanças.

Mais detalhes sobre o DeepSpeech 0.7, bem como downloads binários de referência para todas as principais plataformas, podem ser encontradosna página do GitHub da Mozilla.

Instalação

Esta versão também inclui uma ferramenta de linha de comando baseada em Python deepspeech, instalada através do

pip install deepspeech

Como alternativa, uma inferência mais rápida pode ser realizada usando uma GPU NVIDIA suportada no Linux. (Veja abaixo para descobrir quais GPUs são suportadas.) Isso é feito instalando o pacote específico da GPU:

pip install deepspeech-gpu

No Linux, macOS e Windows, o pacote DeepSpeech não usa o TFLite por padrão. Uma versão TFLite do pacote nessas plataformas está disponível como:

pip install deepspeech-tflite

Mozilla lança DeepSpeech 0.7