Mozilla anuncia Whisperfile para tradução local de áudio para texto

Mozilla desenvolve o recurso Whisperfile que serve para tradução local de áudio para texto. O grupo Mozilla Ocho lidera “inovação e experimentos” na Mozilla. Seguindo todo o seu trabalho no Llamafile para distribuir facilmente grandes modelos de linguagem como um único arquivo que pode ser facilmente executado em diferentes hardwares/softwares, seu mais novo esforço é o Whisperfile para facilitar as traduções de áudio para texto.

Whisperfile é uma nova iniciativa para transformar facilmente áudio em texto. Como está implícito no nome, o Whisperfile é construído em torno do modelo Whisper da OpenAI para tradução de áudio/idioma local. O Whisperfile é baseado nas Whisper.cpp fontes e também é capaz de traduzir áudio que não seja em inglês para o inglês como parte do processo de transcrição.

Os Whisperfiles são agrupados nos pesos e podem ser facilmente executados nos sistemas Linux, Windows, macOS, FreeBSD, OpenBSD e NetBSD. Whisperfiles atualmente funcionam em x86_64 e AArch64.

Mozilla anuncia Whisperfile para tradução local de áudio para texto

Aqueles que desejam aprender mais sobre o Whisperfile podem fazê-lo via Mozilla/whisperfile no HuggingFace.

Os seguidores de longa data também podem se lembrar que a Mozilla desenvolveu anteriormente o DeepSpeech como um mecanismo de fala para texto offline de código aberto. O DeepSpeech aproveitou o TensorFlow e o artigo de pesquisa Deep Speech do Baidu. Infelizmente, o desenvolvimento do DeepSpeech foi interrompido com demissões anteriores da Mozilla e seu repositório GitHub não viu nenhum commit agora em três anos.

Para os interessados, estarei executando alguns benchmarks do Whisperfile em breve em várias CPUs.

Mozilla anuncia Whisperfile para tradução local de áudio para texto

Por Claylson Martins