Llamafile 0.8.2 da Mozilla tem novas otimizações de desempenho do AVX2

Llamafile 0.8.2 da Mozilla tem novas otimizações de desempenho do AVX2

Chegou o Llamafile 0.8.2 da Mozilla, um recurso que recebe grandes novas otimizações de desempenho do AVX2. Esta é uma das inovações interessantes do Mozilla Ocho como grupo de inovação e experimentos da empresa de navegadores é o Llamafile, uma maneira fácil de distribuir e executar modelos de linguagem grande (LLMs) de IA a partir de um único arquivo. Assim, o Llamafile 0.8.2 que acaba de chegar é a versão mais recente com um Llama.cpp atualizado e mais emocionante são algumas otimizações de desempenho AVX2.

O Llamafile visa tornar os LLMs de IA mais acessíveis para usuários e desenvolvedores, oferecendo suporte a implantações simplificadas de modelos de linguagem grandes a partir de um único arquivo que pode funcionar com execução de CPU e GPU, bem como entre plataformas. O Llamafile já suporta a utilização do AVX/AVX2 para um desempenho mais rápido, bem como o suporte ao AVX-512 para velocidades ainda maiores. Com a versão 0.8.2 do Llamafile de hoje, há otimizações AVX2 adicionais.

As notas de versão do Llamafile 0.8.2 mencionam:

Esta versão introduz um processamento de prompt AVX2 mais rápido para K-quants e IQ4_XS. Isso foi contribuído para llamafile por @ikawrakow que originalmente inventaram quants K no ano passado:

ggerganov/llama.cpp@99009e7. Em versões anteriores, recomendamos o legado Q4_0 quant, pois era o mais simples e intuitivo para começar a trabalhar com otimizações matmul recentes. Graças aos esforços de Iwan Kawrakow, as melhores quants (por exemplo, Q5_K_M) agora serão as mais rápidas (em sistemas x86 modernos).

Advanced Vector Extensions 2 é amplamente suportado em processadores Intel e AMD nos últimos anos: a maioria das CPUs Intel na última década desde Haswell ou no lado AMD desde CPUs Excavator.

solicitação pull observa alguns ganhos interessantes para um processamento de prompt AVX2 mais rápido. Os aumentos de velocidade relatados estavam na faixa de 1,4 ~ 2,3x para vários quants.

Llamafile 0.8.2 da Mozilla tem novas otimizações de desempenho do AVX2

Justine Tunney, que está fortemente envolvida com o desenvolvimento do Llamafile, inicialmente respondeu a esse pedido pull:

Esta é uma mudança notável @ikawrakow. Estou muito feliz em ver que os melhores formatos quantizados agora serão os mais rápidos. Para processamento rápido, estou constantemente vendo acelerações entre 1,2x – 2,0x em máquinas x86-64. Você até conseguiu fazer a geração de tokens ir mais rápido (o que eu achei muito mais difícil), em alguns casos em até 1,33x!

Essas otimizações AVX2 para processamento imediato são empolgantes o suficiente para o Llamafile 0.8.2. Mas esta versão v0.8.2 também traz uma correção de bug de memória, pequenas otimizações de desempenho para geração de texto, atualizações contra o código Llama.cpp a partir desta semana e vários novos sinalizadores.

Downloads e mais detalhes sobre a versão 0.8.2 do Llamafile via GitHub. Novos benchmarks Llamafile contra a nova versão em breve.

Acesse a versão completa
Sair da versão mobile