Proteja sua GPU GDDR6 da NVIDIA contra ataques Rowhammer

Imagem do autor do SempreUpdate Jardeson Márcio
Escrito por
Jardeson Márcio
Jardeson Márcio é Jornalista e Mestre em Tecnologia Agroalimentar pela Universidade Federal da Paraíba. Com 8 anos de experiência escrevendo no SempreUpdate, Jardeson é um especialista...

NVIDIA alerta para falha Rowhammer em GPUs e recomenda ativação do ECC

A segurança de hardware voltou ao centro das atenções após um novo alerta da NVIDIA sobre a possibilidade de exploração de vulnerabilidades em GPUs com memória GDDR6 por meio do temido ataque Rowhammer. Embora conhecido no contexto de memórias DDR, agora esse tipo de ataque ganha espaço nas placas gráficas, especialmente em ambientes que exigem alta confiabilidade, como estações de trabalho, data centers e sistemas embarcados.

Neste artigo, explicaremos o que é o ataque Rowhammer, como ele pode afetar as GPUs da NVIDIA, quais modelos estão mais vulneráveis, e o papel essencial do ECC (Error Correcting Code) na mitigação do risco. Você também aprenderá como verificar se sua GPU está protegida e como habilitar o ECC de forma prática e segura.

Com o crescimento do uso de GPUs em processamentos críticos de IA, modelagem científica e visualizações complexas, garantir a integridade da memória não é apenas uma boa prática – é uma medida de segurança essencial.

Driver NVIDIA 560 Linux Beta lançado

O que é Rowhammer e como ele afeta as GPUs?

O ataque Rowhammer é uma técnica de exploração baseada em falhas físicas de hardware, especificamente em células de memória DRAM. Ele se aproveita do fato de que, ao acessar repetidamente uma linha de memória (row), é possível induzir distúrbios elétricos nas linhas vizinhas, causando a inversão de bits.

Nas GPUs modernas, que usam memória GDDR6 de alta largura de banda, essa vulnerabilidade também pode ser explorada. Embora o ataque seja mais difícil do que em DDR4 (por conta da arquitetura e da taxa de refrescamento da GDDR6), pesquisadores conseguiram provocar alterações indesejadas de bits, o que pode levar a:

  • Corrupção silenciosa de dados em aplicações sensíveis.
  • Comportamento imprevisível do sistema.
  • Negação de serviço (DoS).
  • Em cenários mais graves, até mesmo escalonamento de privilégios.

O ataque GPUHammer:

Em 2024, pesquisadores da Universidade de Toronto demonstraram uma variação prática do ataque Rowhammer voltada para GPUs, nomeada GPUHammer. Utilizando uma NVIDIA RTX A6000, eles foram capazes de gerar falhas de bits induzidas intencionalmente na VRAM da placa.

Embora o ataque requeira acesso de baixo nível e não seja trivial, sua existência comprova que a arquitetura GDDR6 também pode ser vulnerável, o que é particularmente preocupante para sistemas que exigem precisão, como em IA, simulações científicas, renderização 3D e análise financeira.

A importância do ECC (Error Correcting Code) na proteção da VRAM

O ECC (Error Correcting Code) é uma tecnologia projetada para detectar e corrigir automaticamente erros de bits únicos que ocorrem na memória. Em vez de confiar apenas na integridade da célula de memória, o ECC adiciona bits de redundância que permitem ao sistema identificar e corrigir erros sem intervenção do usuário.

Nas GPUs, o ECC é especialmente valioso em contextos de:

  • Treinamento de modelos de IA, onde um único bit invertido pode comprometer semanas de processamento.
  • Renderização científica ou médica, onde a precisão absoluta é essencial.
  • Infraestruturas de data center, onde a confiabilidade é mandatória.

Ao habilitar o ECC, os usuários se protegem contra ataques Rowhammer em GPUs e também contra falhas naturais causadas por desgaste de hardware, flutuações elétricas ou radiação cósmica.

Quais GPUs NVIDIA são suscetíveis e quais têm proteção integrada?

A NVIDIA publicou orientações claras para os usuários de suas GPUs profissionais, alertando que modelos com memória GDDR6 sem ECC ativado podem estar vulneráveis ao ataque Rowhammer.

Entre os modelos recomendados para habilitação de ECC estão:

  • Série NVIDIA RTX A6000 (usada em estações de trabalho e IA).
  • GPUs de data center como NVIDIA A100 e H100, se a proteção de ECC não estiver ativada no sistema.
  • Modelos embarcados Jetson AGX, usados em robótica, veículos autônomos e IoT.

Já os modelos mais recentes, como as arquiteturas NVIDIA Hopper (H100) e Blackwell (B100, GB200), possuem ECC integrado por hardware, sendo ativado por padrão. Nessas GPUs, não é necessário realizar nenhuma configuração adicional para obter proteção contra ataques como o Rowhammer.

Como verificar e habilitar o ECC em sua GPU NVIDIA

Método fora de banda (out-of-band):

Usuários com acesso a servidores e plataformas corporativas podem ativar o ECC através de sistemas de gerenciamento remoto via BMC (Baseboard Management Controller). A NVIDIA recomenda o uso de interfaces como Redfish API, especialmente com ferramentas compatíveis como:

  • NSM Type 3
  • NVIDIA SMBPBI

Essas interfaces estão disponíveis para parceiros e clientes da NVIDIA com acesso ao portal oficial, oferecendo controle granular sobre o hardware mesmo fora do sistema operacional.

Método in-band (dentro do sistema):

Para a maioria dos usuários de estações de trabalho ou servidores locais, o método mais direto é através do utilitário de linha de comando nvidia-smi, incluído no driver da NVIDIA.

Verificar suporte e status do ECC:

nvidia-smi -q | grep -i ecc

Este comando exibe se o ECC está suportado e se está ativado na GPU.

Habilitar ECC (requer reinicialização):

nvidia-smi -e 1

Após executar esse comando, será necessário reiniciar o sistema para que o ECC entre em vigor. Em ambientes Linux, isso pode ser feito diretamente no terminal com privilégios de administrador.

Conclusão: Mitigando riscos em ambientes críticos

O ataque Rowhammer em GPUs não é mais apenas uma ameaça teórica. A demonstração prática do GPUHammer e o alerta da NVIDIA destacam a importância de proteger a memória GDDR6 em aplicações sensíveis. A ativação do ECC oferece uma barreira eficaz contra erros de bit e manipulações maliciosas, fortalecendo a confiabilidade do sistema.

Se você utiliza GPUs NVIDIA em ambientes de IA, HPC, visualização científica ou data centers, verifique agora mesmo o status do ECC em seu sistema. A proteção preventiva é sempre mais barata — e mais eficaz — do que a resposta a um incidente de segurança.

Segurança de hardware começa na base. E a base, neste caso, é a memória.

Compartilhe este artigo