Inteligência Artificial

Llamafile 0.8.14 lança interface chatbot via CLI com realce de código e suporte a GPUs

Escrito por

Emanuel Negromonte

PorEmanuel Negromonte

Emanuel Negromonte é Jornalista, Mestre em Tecnologia da Informação e atualmente cursa a segunda graduação em Engenharia de Software. Com 14 anos de experiência escrevendo sobre...

Follow:

15/10/2024 14:31

O Llamafile, uma ferramenta de inferência local de LLMs (modelos de linguagem grandes), foi lançado pela Mozilla Ocho em novembro de 2023, com foco em oferecer portabilidade binária superior e desempenho robusto em seis sistemas operacionais. O projeto possibilita a distribuição e execução de LLMs através de um único arquivo, eliminando a necessidade de instalações complicadas. Combinando o poder do llama.cpp e a Cosmopolitan libc, o Llamafile se mantém à frente, integrando as mais recentes melhorias de desempenho e precisão.

A versão Llamafile 0.8.14, lançada recentemente, introduz uma nova interface de chatbot via CLI (Command Line Interface), agora o modo padrão de operação. Esse chatbot permite entrada em múltiplas linhas com aspas triplas e oferece realce de sintaxe para Python, C, C++, Java e JavaScript. Ao executar o Llamafile sem argumentos especiais, o chatbot é lançado em primeiro plano, enquanto o servidor roda em segundo plano. Flags como --chat e --server foram incluídas para dar mais controle sobre o comportamento do programa.

Principais mudanças na versão 0.8.14:

Captura de tela da interface de linha de comando (CLI) do Llamafile 0.8.14, mostrando o modelo Llama-3.2-3B-Instruct.Q6_K.gguf em execução com um exemplo de código 'Hello World' em C, realce de sintaxe e suporte a entrada de múltiplas linhas. — Llamafile 0.8.14 lança interface chatbot via CLI com realce de código e suporte a GPUs 3

Interface de chatbot via CLI: Inspirada no Ollama, essa interface traz uma nova experiência para interagir com LLMs localmente.
Realce de sintaxe: Suporte para várias linguagens de programação no modo chatbot, facilitando a visualização de código.
Novo modo híbrido: Combina o chatbot e o servidor como padrão, proporcionando flexibilidade entre os modos de operação.
Melhoria no servidor Whisperfile: Agora permite o upload de arquivos em formatos MP3, OGG e FLAC, além de converter arquivos de áudio sem necessidade do FFmpeg.

Outras melhorias importantes:

Suporte a GPUs no llamafile-bench: A ferramenta agora pode aproveitar o poder das GPUs, acelerando ainda mais a execução de LLMs.
Uso de cache KV BF16: Para aumentar a velocidade de processamento onde for mais eficaz.
Aritmética FP16 no tinyBLAS: Prioriza operações de ponto flutuante para otimizar o desempenho.
Quantização de modelos TriLM usando Q2_K_S: Melhora a eficiência dos modelos, mantendo a precisão.

Com essas novidades, o Llamafile se solidifica como uma das ferramentas mais eficientes para o gerenciamento e execução de LLMs localmente. Para mais detalhes, os arquivos de download e o código estão disponíveis no repositório GitHub do Llamafile.

TAGS:inteligêcia artificial llamafile LLMS

Compartilhe este artigo