Ollama fica até 7% mais rápido com nova otimização de processamento na GPU

Otimização assíncrona mantém a GPU sempre ocupada e acelera a geração de tokens em 2% a 7%.

Escrito por
Emanuel Negromonte
Emanuel Negromonte é Jornalista, Mestre em Tecnologia da Informação e atualmente cursa a segunda graduação em Engenharia de Software. Com 14 anos de experiência escrevendo sobre...

Imagine uma linha de montagem onde, em vez de esperar uma peça ser finalizada para só então preparar a próxima, as duas coisas acontecem ao mesmo tempo. É exatamente isso que chegou ao Ollama: preparar os lotes (batches) de processamento de forma assíncrona enquanto a GPU está trabalhando — mantendo o “motor” da IA sempre ocupado. Na prática, isso se traduz em mais performance na geração de tokens e respostas mais rápidas no seu dia a dia. A mudança foi proposta e implementada por Daniel Hiltgen (dhiltgen) e já foi incorporada ao código principal por meio do pull request #11863.

Mantendo a GPU ocupada: a nova lógica assíncrona

Antes, o fluxo de execução tinha pausas: a GPU terminava um lote e só então o próximo era preparado. Agora, enquanto a GPU executa o lote atual (o trabalho pesado de compute + floats), o sistema já constrói o “grafo” do próximo batch em paralelo. Quando o lote corrente acaba, o seguinte já está pronto para entrar. Pense em uma fábrica que reorganizou a linha para eliminar ociosidade — o resultado é um uso mais constante e eficiente da GPU. Para quem acompanha métricas de Ollama performance, isso significa menos “buracos” entre inferências.

O impacto na prática: ganhos de até 7% na geração de tokens

Não é só teoria. Segundo o próprio autor do patch, os testes indicaram um ganho de 2% a 3% no token rate em ambientes “bare metal” (como Apple Silicon) e até ~7% em uma RTX 4090. Esses pontos percentuais fazem diferença quando você está iterando prompts, rodando agentes ou servindo aplicações: a geração de tokens fica perceptivelmente mais rápida, especialmente em hardwares potentes. Os números e a justificativa técnica estão descritos na conversa do PR #11863, que detalha a refatoração do runner para manter a GPU sempre ocupada.

Onde isso já está disponível

A otimização foi mesclada no branch principal do projeto e já está a caminho das builds recentes do Ollama. Se você compila a partir do código-fonte ou utiliza versões atualizadas com frequência, a melhoria já deve aparecer nos seus testes — sem precisar mudar nada no seu fluxo. Quer ver o histórico técnico? O repositório oficial (ollama/ollama) registra a discussão e os commits relacionados.

Por que isso importa para você

Cada milissegundo conta quando você roda modelos localmente — de protótipos a serviços em produção. Ao manter a GPU ocupada por meio desse pipeline assíncrono, o Ollama reduz latências entre lotes e entrega mais performance “de graça”: atualizou, ganhou velocidade. É aquele tipo de ajuste de engenharia que você não precisa pensar a respeito (nem reescrever configs), mas sente no tempo de resposta.

Compartilhe este artigo