Inteligência Artificial

Ollama fica até 7% mais rápido com nova otimização de processamento na GPU

Otimização assíncrona mantém a GPU sempre ocupada e acelera a geração de tokens em 2% a 7%.

Escrito por

Emanuel Negromonte

PorEmanuel Negromonte

Emanuel Negromonte é Jornalista, Mestre em Tecnologia da Informação e atualmente cursa a segunda graduação em Engenharia de Software. Com 14 anos de experiência escrevendo sobre...

Follow:

04/09/2025 14:15

Imagine uma linha de montagem onde, em vez de esperar uma peça ser finalizada para só então preparar a próxima, as duas coisas acontecem ao mesmo tempo. É exatamente isso que chegou ao Ollama: preparar os lotes (batches) de processamento de forma assíncrona enquanto a GPU está trabalhando — mantendo o “motor” da IA sempre ocupado. Na prática, isso se traduz em mais performance na geração de tokens e respostas mais rápidas no seu dia a dia. A mudança foi proposta e implementada por Daniel Hiltgen (dhiltgen) e já foi incorporada ao código principal por meio do pull request #11863.

Mantendo a GPU ocupada: a nova lógica assíncrona

Antes, o fluxo de execução tinha pausas: a GPU terminava um lote e só então o próximo era preparado. Agora, enquanto a GPU executa o lote atual (o trabalho pesado de compute + floats), o sistema já constrói o “grafo” do próximo batch em paralelo. Quando o lote corrente acaba, o seguinte já está pronto para entrar. Pense em uma fábrica que reorganizou a linha para eliminar ociosidade — o resultado é um uso mais constante e eficiente da GPU. Para quem acompanha métricas de Ollama performance, isso significa menos “buracos” entre inferências.

O impacto na prática: ganhos de até 7% na geração de tokens

Não é só teoria. Segundo o próprio autor do patch, os testes indicaram um ganho de 2% a 3% no token rate em ambientes “bare metal” (como Apple Silicon) e até ~7% em uma RTX 4090. Esses pontos percentuais fazem diferença quando você está iterando prompts, rodando agentes ou servindo aplicações: a geração de tokens fica perceptivelmente mais rápida, especialmente em hardwares potentes. Os números e a justificativa técnica estão descritos na conversa do PR #11863, que detalha a refatoração do runner para manter a GPU sempre ocupada.

Onde isso já está disponível

A otimização foi mesclada no branch principal do projeto e já está a caminho das builds recentes do Ollama. Se você compila a partir do código-fonte ou utiliza versões atualizadas com frequência, a melhoria já deve aparecer nos seus testes — sem precisar mudar nada no seu fluxo. Quer ver o histórico técnico? O repositório oficial (ollama/ollama) registra a discussão e os commits relacionados.

Por que isso importa para você

Cada milissegundo conta quando você roda modelos localmente — de protótipos a serviços em produção. Ao manter a GPU ocupada por meio desse pipeline assíncrono, o Ollama reduz latências entre lotes e entrega mais performance “de graça”: atualizou, ganhou velocidade. É aquele tipo de ajuste de engenharia que você não precisa pensar a respeito (nem reescrever configs), mas sente no tempo de resposta.

TAGS:inteligêcia artificial Ollama AI

Compartilhe este artigo