Chegou o Llamafile 0.8.2 da Mozilla, um recurso que recebe grandes novas otimizações de desempenho do AVX2. Esta é uma das inovações interessantes do Mozilla Ocho como grupo de inovação e experimentos da empresa de navegadores é o Llamafile, uma maneira fácil de distribuir e executar modelos de linguagem grande (LLMs) de IA a partir de um único arquivo. Assim, o Llamafile 0.8.2 que acaba de chegar é a versão mais recente com um Llama.cpp atualizado e mais emocionante são algumas otimizações de desempenho AVX2.
O Llamafile visa tornar os LLMs de IA mais acessíveis para usuários e desenvolvedores, oferecendo suporte a implantações simplificadas de modelos de linguagem grandes a partir de um único arquivo que pode funcionar com execução de CPU e GPU, bem como entre plataformas. O Llamafile já suporta a utilização do AVX/AVX2 para um desempenho mais rápido, bem como o suporte ao AVX-512 para velocidades ainda maiores. Com a versão 0.8.2 do Llamafile de hoje, há otimizações AVX2 adicionais.
As notas de versão do Llamafile 0.8.2 mencionam:
Esta versão introduz um processamento de prompt AVX2 mais rápido para K-quants e IQ4_XS. Isso foi contribuído para llamafile por @ikawrakow que originalmente inventaram quants K no ano passado:
ggerganov/llama.cpp@99009e7. Em versões anteriores, recomendamos o legado Q4_0 quant, pois era o mais simples e intuitivo para começar a trabalhar com otimizações matmul recentes. Graças aos esforços de Iwan Kawrakow, as melhores quants (por exemplo, Q5_K_M) agora serão as mais rápidas (em sistemas x86 modernos).
Advanced Vector Extensions 2 é amplamente suportado em processadores Intel e AMD nos últimos anos: a maioria das CPUs Intel na última década desde Haswell ou no lado AMD desde CPUs Excavator.
A solicitação pull observa alguns ganhos interessantes para um processamento de prompt AVX2 mais rápido. Os aumentos de velocidade relatados estavam na faixa de 1,4 ~ 2,3x para vários quants.
Llamafile 0.8.2 da Mozilla tem novas otimizações de desempenho do AVX2
Justine Tunney, que está fortemente envolvida com o desenvolvimento do Llamafile, inicialmente respondeu a esse pedido pull:
Esta é uma mudança notável @ikawrakow. Estou muito feliz em ver que os melhores formatos quantizados agora serão os mais rápidos. Para processamento rápido, estou constantemente vendo acelerações entre 1,2x – 2,0x em máquinas x86-64. Você até conseguiu fazer a geração de tokens ir mais rápido (o que eu achei muito mais difícil), em alguns casos em até 1,33x!
Essas otimizações AVX2 para processamento imediato são empolgantes o suficiente para o Llamafile 0.8.2. Mas esta versão v0.8.2 também traz uma correção de bug de memória, pequenas otimizações de desempenho para geração de texto, atualizações contra o código Llama.cpp a partir desta semana e vários novos sinalizadores.
Downloads e mais detalhes sobre a versão 0.8.2 do Llamafile via GitHub. Novos benchmarks Llamafile contra a nova versão em breve.