Llamafile 0.8.2 da Mozilla tem novas otimizações de desempenho do AVX2

Chegou o Llamafile 0.8.2 da Mozilla, um recurso que recebe grandes novas otimizações de desempenho do AVX2. Esta é uma das inovações interessantes do Mozilla Ocho como grupo de inovação e experimentos da empresa de navegadores é o Llamafile, uma maneira fácil de distribuir e executar modelos de linguagem grande (LLMs) de IA a partir de um único arquivo. Assim, o Llamafile 0.8.2 que acaba de chegar é a versão mais recente com um Llama.cpp atualizado e mais emocionante são algumas otimizações de desempenho AVX2.

O Llamafile visa tornar os LLMs de IA mais acessíveis para usuários e desenvolvedores, oferecendo suporte a implantações simplificadas de modelos de linguagem grandes a partir de um único arquivo que pode funcionar com execução de CPU e GPU, bem como entre plataformas. O Llamafile já suporta a utilização do AVX/AVX2 para um desempenho mais rápido, bem como o suporte ao AVX-512 para velocidades ainda maiores. Com a versão 0.8.2 do Llamafile de hoje, há otimizações AVX2 adicionais.

As notas de versão do Llamafile 0.8.2 mencionam:

Esta versão introduz um processamento de prompt AVX2 mais rápido para K-quants e IQ4_XS. Isso foi contribuído para llamafile por @ikawrakow que originalmente inventaram quants K no ano passado:

ggerganov/llama.cpp@99009e7. Em versões anteriores, recomendamos o legado Q4_0 quant, pois era o mais simples e intuitivo para começar a trabalhar com otimizações matmul recentes. Graças aos esforços de Iwan Kawrakow, as melhores quants (por exemplo, Q5_K_M) agora serão as mais rápidas (em sistemas x86 modernos).

Advanced Vector Extensions 2 é amplamente suportado em processadores Intel e AMD nos últimos anos: a maioria das CPUs Intel na última década desde Haswell ou no lado AMD desde CPUs Excavator.

A solicitação pull observa alguns ganhos interessantes para um processamento de prompt AVX2 mais rápido. Os aumentos de velocidade relatados estavam na faixa de 1,4 ~ 2,3x para vários quants.