Mozilla desenvolve o recurso Whisperfile que serve para tradução local de áudio para texto. O grupo Mozilla Ocho lidera “inovação e experimentos” na Mozilla. Seguindo todo o seu trabalho no Llamafile para distribuir facilmente grandes modelos de linguagem como um único arquivo que pode ser facilmente executado em diferentes hardwares/softwares, seu mais novo esforço é o Whisperfile para facilitar as traduções de áudio para texto.
Whisperfile é uma nova iniciativa para transformar facilmente áudio em texto. Como está implícito no nome, o Whisperfile é construído em torno do modelo Whisper da OpenAI para tradução de áudio/idioma local. O Whisperfile é baseado nas Whisper.cpp fontes e também é capaz de traduzir áudio que não seja em inglês para o inglês como parte do processo de transcrição.
Os Whisperfiles são agrupados nos pesos e podem ser facilmente executados nos sistemas Linux, Windows, macOS, FreeBSD, OpenBSD e NetBSD. Whisperfiles atualmente funcionam em x86_64 e AArch64.
Mozilla anuncia Whisperfile para tradução local de áudio para texto
Aqueles que desejam aprender mais sobre o Whisperfile podem fazê-lo via Mozilla/whisperfile no HuggingFace.
Os seguidores de longa data também podem se lembrar que a Mozilla desenvolveu anteriormente o DeepSpeech como um mecanismo de fala para texto offline de código aberto. O DeepSpeech aproveitou o TensorFlow e o artigo de pesquisa Deep Speech do Baidu. Infelizmente, o desenvolvimento do DeepSpeech foi interrompido com demissões anteriores da Mozilla e seu repositório GitHub não viu nenhum commit agora em três anos.
Para os interessados, estarei executando alguns benchmarks do Whisperfile em breve em várias CPUs.