Linux no ARM64 ganho de performance: até 800% evitando TLB shootdown

Se você acompanha Linux ARM64 performance, vale prestar atenção: uma nova série de patches (em fase RFC) propõe evitar TLB shootdown desnecessário — e os números dos testes sintéticos sugerem um salto enorme quando muitas threads entram em cena. A ideia nasceu de uma proposta de James Morse e foi implementada por Ryan Roberts (Arm). Em vez de “gritar” para todos os núcleos o tempo todo, o kernel passa a decidir quando um TLB flush precisa mesmo virar um broadcast. Resultado: menos interrupções, mais trabalho útil feito.

O “grito” desnecessário: entendendo o “TLB shootdown”

Imagine que cada núcleo da CPU mantém uma “agenda de contatos” super-rápida para traduzir endereços de memória — é o TLB. Quando uma entrada fica velha, o kernel costuma avisar todo mundo: manda um broadcast para os demais núcleos jogarem fora suas cópias. Esse aviso global é o TLB shootdown. Funciona, mas custa caro: todos param o que estão fazendo para atender ao recado. A proposta nova é pragmática: se o kernel sabe que o processo (o mm) só rodou em um único núcleo, limpa-se apenas a “agenda” local e pronto, sem broadcast. Para isso, o ARM64 passa a rastrear se um mm esteve ativo em 0, 1 ou vários CPUs, usando um campo (mm->context.active_cpu). Se o leitor vê “sou eu o CPU ativo” sob as garantias de ordenamento, pode invalidar localmente com segurança — nada de acordar o resto do soquete.

Resultados massivos: ganhos de até 800% em benchmarks

Ok, mas isso aparece no cronômetro? Nos testes com stress-ng (stressor --tlb-shootdown), a melhoria escala conforme aumentam as threads. Olhe os destaques: com 32 threads, o throughput de “shootdowns por segundo” sobe 862%; com 64 threads, 445%; com 128 threads, 528% (métrica de tempo real). Em termos de “tempo de CPU”, os ganhos também disparam — por exemplo, 1147% com 32 threads. É a prova de que cortar broadcasts evita um gargalo que explode justamente em cargas multi-core.

+862% (real time) com 32 threads;
+528% (real time) com 128 threads.

E no mundo real?

Nem toda carga sente o mesmo impacto. Na própria avaliação do autor, a compilação do kernel viu uma queda de ~2,2% no “kernel time”, mas tempo total de parede não mudou — um ganho modesto. Ainda assim, a comunidade já começou a cavar cenários onde a troca é relevante: em um teste com Redis (32 processos redis-server + 32 clientes memtier-benchmark, forçando COW durante snapshots), a pontuação do benchmark subiu cerca de 4,5% com o patch. Em sistemas de produção, 4–5% “de graça” em momentos de pressão de memória e alta concorrência é o tipo de melhoria que soma.

Por que isso importa para quem roda Linux em ARM64

Em máquinas modernas — servidores com dezenas de núcleos, workstations ARM e até nuvens baseadas em ARM64 — o custo de coordenação entre CPUs pode dominar. Cada TLB shootdown broadcast não é “só uma mensagem”: envolve barreiras, sincronização e, muitas vezes, IPIs que pausam trabalho real. Ao reduzir a frequência desses broadcasts a situações necessárias, o kernel libera ciclos para o que interessa. Mesmo que nem todo workload veja ganhos de performance dramáticos, a mudança atua onde mais dói: cenários com muitas threads competindo por memória e mapeamentos que mudam com frequência (fork/exec, COW, mprotect, migração e afins). E por ser uma lógica condicionada — apenas quando o mm ficou confinado a um CPU — o risco de regressão é menor que outras “otimizações sempre-ligadas”. É um passo tático, simples e eficaz, rumo a um Linux mais eficiente em ARM64.

Status do patch e próximos passos

Importante: é RFC — a fase de discussão aberta. A série traz a refatoração do caminho de invalidação para facilitar a escolha entre operações de TLBI e, sobretudo, a decisão “local vs. broadcast” baseada no active_cpu. Manutenedores do arm64 já discutem detalhes e pedem validação ampla. Para quem acompanha de perto a pilha de memória do kernel, é um daqueles momentos em que uma ideia cirúrgica melhora o comportamento sistêmico sob carga pesada. Vale acompanhar o debate e testar em hardware real — especialmente onde latência de TLB flush broadcast é mais sentida.

Otimização inteligente no Kernel Linux promete ganhos de performance de até 800% em processadores ARM64

Evitar broadcasts de TLB acelera o Linux em ARM64 — até 800% nos testes e ganhos reais sob concorrência.

O “grito” desnecessário: entendendo o “TLB shootdown”

Resultados massivos: ganhos de até 800% em benchmarks

E no mundo real?

Por que isso importa para quem roda Linux em ARM64

Status do patch e próximos passos

WordPress 6.9 RC2: a nova Abilities API e as Notes vão mudar a forma de administrar seu site

Leia também

Realme GT 8 Pro: 7.000 mAh, Snapdragon 8 Elite e Câmera Ricoh

Fechamento Photocall: O golpe da ACE contra a pirataria de TV

Atualização Galaxy S23: patch de novembro de 2025 corrige 25 falhas

WordPress 6.9 RC2: a nova Abilities API e as Notes vão mudar a forma de administrar seu site

Extra

Nossas redes