Kernel Linux 6.19-rc4 permite que GPUs NVIDIA Blackwell usem RAM do sistema em máquinas virtuais

NVIDIA Blackwell agora pode usar RAM do sistema via virtualização no Kernel Linux 6.19-rc4!

Escrito por
Emanuel Negromonte
Emanuel Negromonte é Jornalista, Mestre em Tecnologia da Informação e atualmente cursa a segunda graduação em Engenharia de Software. Com 14 anos de experiência escrevendo sobre...
  • Patch no Kernel Linux 6.19-rc4 traz driver nvgrace-egm para gerenciar memória estendida em GPUs NVIDIA Grace Blackwell.
  • Tecnologia EGM permite que máquinas virtuais acessem a RAM do sistema como VRAM, eliminando gargalos em modelos de IA gigantes.
  • Solução enviada pela NVIDIA utiliza driver auxiliar VFIO para mapear memória física diretamente em instâncias QEMU/KVM.
  • Implementação inclui limpeza de memória em blocos de 1GB para evitar travamentos e isolamento de setores com erro de hardware.
  • Recurso está em fase de testes (RFC v2) e deve chegar às distribuições Linux de servidor no segundo semestre de 2026.

Ankit Agrawal, engenheiro da NVIDIA, submeteu uma nova série de patches para o Kernel Linux 6.19-rc4 visando implementar o suporte a Extended GPU Memory (EGM) em ambientes virtualizados. O patch introduz o driver auxiliar nvgrace-egm, permitindo que máquinas virtuais (VMs) acessem diretamente grandes blocos de memória do sistema como se fossem memória de vídeo local em sistemas baseados nas arquiteturas Grace Hopper e Blackwell.

A mudança impacta diretamente o desempenho de cargas de trabalho de Inteligência Artificial e HPC (Computação de Alto Desempenho). Com essa implementação, o Kernel Linux 6.19-rc4 remove gargalos de comunicação entre a CPU e a GPU em servidores, garantindo que a largura de banda de alta velocidade do NVLink seja aproveitada mesmo dentro de instâncias do QEMU/KVM.

O que isso significa na prática

Em servidores modernos, a memória da GPU costuma ser limitada em comparação com a RAM do sistema. A tecnologia EGM permite que a GPU “pegue emprestado” centenas de gigabytes da memória RAM global através de um barramento ultrarrápido. Antes desses patches, essa funcionalidade era difícil de isolar para uso exclusivo de uma máquina virtual.

Agora, o driver cria dispositivos de caractere específicos em /dev/egmX. O administrador do sistema pode atribuir esses dispositivos ao QEMU, que mapeia essa memória diretamente para a VM. Para o usuário, isso se traduz em máquinas virtuais capazes de processar modelos de linguagem gigantescos que antes não caberiam na memória física da placa de vídeo.

Essa evolução é complementar aos avanços que vimos recentemente, como o suporte inicial à arquitetura Blackwell no Kernel Linux 7.0, que já preparava o terreno para expandir o endereçamento de memória em sistemas com grandes volumes de RAM.

Detalhes da implementação

O driver nvgrace-egm atua como um módulo auxiliar para o subsistema VFIO (vfio/nvgrace-gpu). Ele gerencia a região chamada de Hypervisor-Invisible (HI), um pedaço da memória RAM do sistema que é escondido do sistema operacional hospedeiro (Host) durante o boot para ser entregue exclusivamente à VM.

A implementação utiliza a função remap_pfn_range() para mapear o espaço de endereço físico do sistema diretamente no espaço de endereço da máquina virtual. O patch também introduz uma lógica de segurança importante: a memória é zerada em blocos de 1 GB antes de ser entregue à VM para evitar vazamento de dados entre execuções e prevenir “softlocks” no processador durante a limpeza de grandes volumes de RAM. Além disso, o driver agora consegue identificar e isolar “páginas aposentadas” (retired pages) — setores da memória que apresentaram erros de hardware (ECC) — evitando que a VM tente usar partes defeituosas do silício.

Curiosidades e bastidores da discussão

A discussão na LKML revela que este é o segundo convite para comentários (RFC v2) da proposta. Um ponto técnico discutido foi a transição do uso de vmalloc para kmalloc em estruturas pequenas, seguindo sugestões de revisores experientes como Shameer Kolothum.

Outro detalhe interessante é a dependência de melhorias no suporte a IOMMU que estão sendo trabalhadas simultaneamente por Jason Gunthorpe. Os desenvolvedores optaram por uma estrutura de barramento auxiliar para que o driver EGM possa coexistir tanto com o driver de atribuição de dispositivo padrão quanto com soluções de vGPU SR-IOV, demonstrando uma preocupação com a versatilidade do código a longo prazo.

Quando isso chega no meu PC?

Como os patches foram aplicados sobre o Kernel Linux 6.19-rc4, a funcionalidade ainda está em fase de testes e refinamento. Se o ciclo de desenvolvimento seguir o ritmo normal, é provável que o código seja fundido na árvore principal (mainline) nas próximas versões estáveis.

Para usuários finais, o suporte deve aparecer em distribuições de ciclo rápido e focadas em servidores, como o Ubuntu Server ou Fedora, no segundo semestre de 2026. Administradores de data centers que utilizam sistemas NVIDIA Grace precisarão atualizar não apenas o kernel, mas também o firmware SBIOS para habilitar o particionamento da memória EGM.

Compartilhe este artigo
Emanuel Negromonte é Jornalista, Mestre em Tecnologia da Informação e atualmente cursa a segunda graduação em Engenharia de Software. Com 14 anos de experiência escrevendo sobre GNU/Linux, Software Livre e Código Aberto, dedica-se a descomplicar o universo tecnológico para entusiastas e profissionais. Seu foco é em notícias, tutoriais e análises aprofundadas, promovendo o conhecimento e a liberdade digital no Brasil.