Llamafile 0.8.7 traz correções e melhor desempenho do ARM

Llamafile 0.8.2 da Mozilla tem novas otimizações de desempenho do AVX2

Nos últimos tempos, o Llamafile tem sido uma das melhores novas iniciativas da Mozilla. O Llamafile facilita a distribuição e a execução de modelos de linguagem grandes como um único arquivo. Além disso, ao mesmo tempo ele suporta a execução de CPU e GPU e torna os LLMs de IA muito mais acessíveis para os usuários finais. Saiu agora o Llamafile 0.8.7 com mais otimizações de desempenho e novos recursos.

Depois que os lançamentos recentes do Llamafile vêm ajustando o desempenho do Intel/AMD AVX, a versão 0.8.7 do Llamafile de hoje traz algumas melhorias de desempenho do ARM. Há melhor desempenho no Arm para legados e K-quants, ao mesmo tempo em que traz multiplicação de matriz otimizada para I-quants no AArch64.

Llamafile 0.8.7 traz correções e melhor desempenho do ARM

O Llamafile 0.8.7 também corrige alguns problemas de GPU AMD no Windows, agora sempre usando tinyBLAS lá, detecção de marca de CPU aprimorada e outras correções.

No futuro, um novo servidor Llamafile está se preparando para ser lançado.

Justine Tunney mencionada no anúncio de lançamento da v0.8.7 no GitHub:

“Deve-se notar que, em versões futuras, planejamos introduzir um novo servidor para llamafile. Este novo servidor está sendo projetado para desempenho e capacidade de produção. Ele não está incluído nesta versão, já que o novo servidor atualmente oferece suporte apenas a um ponto de extremidade de tokenização. No entanto, o endpoint é capaz de fazer 2 milhões de solicitações por segundo, enquanto com o servidor atual, o máximo que já vimos foram alguns milhares.”

Este patch adicionando o novo servidor Llamafile observa que ele não é apenas muito mais rápido do que antes, mas também projetado para ser à prova de falhas, confiável e preventivo.

O Llamafile continua com ótima aparência para modelos de linguagem grandes e fáceis de distribuir. Saiba mais sobre este projeto de código aberto via Llamafile.ai.

Acesse a versão completa
Sair da versão mobile