A equipe Mozilla Ocho, conhecida por sua constante inovação, integrou o sistema de reconhecimento automático de fala (ASR) Whisper, desenvolvido pela OpenAI, ao projeto llamafile. Este projeto busca simplificar o uso de modelos de linguagem de grande escala em hardware local, tudo em um único arquivo executável. Para usuários preocupados com a privacidade, a possibilidade de executar o software de transcrição localmente oferece uma camada adicional de segurança ao transcrever áudios sensíveis.
O projeto llamafile tem como objetivo eliminar a complexidade associada à instalação de modelos de linguagem, utilizando o código da biblioteca llama.cpp e a Cosmopolitan Libc, ambos escritos em C/C++. Ao combinar a inferência do modelo LLaMA da Meta, através do llama.cpp, com a portabilidade do C proporcionada pela Cosmopolitan Libc, a Mozilla Ocho criou uma solução robusta que pode ser executada em diferentes sistemas operacionais sem a necessidade de interpretadores ou máquinas virtuais.
A mais recente adição ao llamafile, conhecida como Whisperfile, foi anunciada no perfil da Mozilla no Hugging Face. Segundo a descrição, “Whisperfile é uma implementação de alto desempenho do Whisper da OpenAI, criada pela Mozilla Ocho como parte do projeto llamafile, baseada no software whisper.cpp desenvolvido por Georgi Gerganov, entre outros.” Para facilitar a implementação, a equipe embalou todos os pesos necessários do modelo em “whisperfiles”, que mantêm as características da Cosmopolitan Libc, permitindo que o modelo funcione na maioria dos sistemas.
A documentação “Começando com Whisperfile”, disponível no perfil da equipe no GitHub, descreve um processo de instalação simples em três etapas. Após o download do modelo, compilação do software e execução do programa, os usuários podem escolher entre três modelos diferentes para começar a transcrever áudios. Esses modelos variam de pequeno a grande, oferecendo uma troca entre velocidade e precisão no processo de transcrição. Além disso, o Whisperfile também suporta a tradução de diferentes idiomas para o inglês usando o modelo multilíngue e a flag “–translate”.
Para mais informações sobre o llamafile, Whisperfile, e detalhes adicionais sobre o processo de instalação, consulte este link da Mozilla ou da OpenAI.