ROCm 7.0 é lançado com suporte para os novos aceleradores AMD Instinct MI350X e uma grande modernização do stack de software

Escrito por
Emanuel Negromonte
Emanuel Negromonte é Jornalista, Mestre em Tecnologia da Informação e atualmente cursa a segunda graduação em Engenharia de Software. Com 14 anos de experiência escrevendo sobre...

Mais moderno, rápido e coeso: instalador renovado e desktop no futuro.

A AMD liberou o ROCm 7.0.0, uma atualização massiva para sua plataforma aberta de computação de alto desempenho e IA — e o destaque é claro: suporte oficial aos novos e poderosos aceleradores AMD Instinct MI350X e MI355X. Além do hardware, a versão chega com mudanças estruturais que mexem no “esqueleto” do ecossistema: o driver amdgpu passa a ser distribuído separadamente do stack ROCm, facilitando ciclos de desenvolvimento distintos e dando mais previsibilidade para administradores e desenvolvedores.

Suporte para hardware de ponta e virtualização

Do lado do hardware, o ROCm 7.0 adiciona suporte oficial às GPUs MI350X/MI355X (arquitetura CDNA4), além de atualizar a compatibilidade de sistemas operacionais: Ubuntu 24.04.3 (kernel 6.8 GA e 6.14 HWE) e Rocky Linux 9 estão na lista testada pela AMD. Em ambientes virtualizados, há KVM Passthrough para as novas placas e suporte ao VMware ESXi 8 no MI300X — um passo importante para datacenters que querem consolidar cargas de trabalho e isolar tenants sem abrir mão de aceleração por GPU. Para SR-IOV, a AMD aponta o uso do driver de virtualização GIM 8.4.0.K.

Por que isso importa? Porque acelera a adoção do ROCm em ambientes reais — do bare-metal ao virtual —, reduzindo atritos de compatibilidade e permitindo estratégias de cluster e multi-tenant mais flexíveis (especialmente para inferência e treinamento distribuído).

Ecossistema de ia e deep learning em expansão

A AMD vem ampliando a lista de frameworks “first-class citizens” no ROCm. O 7.0 atualiza o suporte ao PyTorch 2.7 (incluindo otimizações como NHWC via MIOpen e compilações de extensões em amdclang++), JAX 0.6.0, TensorFlow 2.19.1, ONNX Runtime 1.22 e Triton 3.3. Para inferência de LLMs, o time também destaca melhorias com vLLM — inclusive em FP8 — e amplia a lista de projetos oficialmente suportados com Ray (para escalar aplicações Python/IA de um laptop a um cluster) e llama.cpp (inferência leve de LLMs em CPU e GPU). O recado é simples: o ROCm está menos “driver + bibliotecas soltas” e mais plataforma completa para IA moderna.

Na prática, isso se traduz em pipelines mais diretos — menos patches de compatibilidade, mais recipientes Docker prontos e menos “gambiarras” para colocar modelos e dataloaders para rodar em Instinct.

Precisões baixas (fp4/fp6/fp8): “palavras” mais curtas, modelos maiores

Para o mundo da IA, uma das novidades mais impactantes é a chegada (e padronização) dos tipos de dado de baixíssima precisão — FP4, FP6 e FP8. Pense nisso como usar “palavras” mais curtas para descrever números: você economiza memória e largura de banda, o que permite treinar e servir modelos gigantes com menos custo e mais throughput. No ROCm 7.0, essa onda aparece tanto no HIP (API de programação) quanto nas bibliotecas matemáticas (por exemplo, hipBLASLt, MIGraphX e o Composable Kernel) e em stacks de inferência como vLLM. Caso real: Llama 3.1 405B e outros LLMs já se beneficiam de FP8/FP6 em kernels otimizados.

Há trade-offs — precisão numérica menor exige engenharia cuidadosa (calibração, escalas por bloco, epílogos fundidos, etc.) —, mas o ganho prático em capacidade de servir mais tokens/segundo e redução de custos é difícil de ignorar, especialmente em clusters multi-GPU.

Modernização da estrutura e bibliotecas

Dois movimentos estratégicos dão o tom da “faxina” arquitetural:

  1. Separação de pacotes: o driver amdgpu agora é versionado e distribuído separadamente do ROCm, inclusive hospedado em um caminho próprio no repositório oficial. Isso melhora a governança do ciclo de vida e alinha a pilha com o que grandes provedores esperam de uma plataforma de datacenter. (rocm.blogs.amd.com)
  2. Consolidação de repositórios: quinze bibliotecas-chave (como hipBLAS, rocBLAS, rocPRIM, hipSPARSE, MIOpen, Tensile) estão migrando para um monorepo chamado rocm-libraries. Menos repositórios significa CI mais simples, integração mais previsível e melhor cadência de releases — para a comunidade e para os times internos. (GitHub)

Para quem mantém builds e reempacota a stack em distribuições corporativas, a mensagem é animadora: menos “quebra-cabeças” de versões, mais cadência e documentação unificada.

Ferramentas mais poderosas para administrar, depurar e otimizar

Vários utilitários receberam upgrades que fazem diferença no dia a dia:

  • AMD SMI: agora você pode reiniciar o driver da GPU via CLI/API (útil após mudar partições de memória ou aplicar políticas), ganhou uma visão padrão com métricas essenciais e novas telemetrias (incluindo violação térmica/energia por XCP/XCC em GPUs mais novas).
  • ROCm Compute Profiler: além de novas contagens/counters para CDNA4, traz um modo TUI interativo no terminal para análises mais rápidas sem GUI pesada — ótimo para shells sobre SSH.
  • Depuração: a pilha de debug (ROCgdb/ROCdbgapi) segue acompanhando as novas arquiteturas e tipos de dados, com notas agregadas no changelog consolidado do ROCm.

Somando tudo, operar um cluster Instinct com ROCm ficou menos “arqueologia de logs” e mais “engenharia com ferramentas de verdade”.

O que isso muda na prática (para times de ia/hpc)

Se você treina modelos grandes: os ganhos com FP8/FP6/FP4 e os kernels fundidos (fMHA, epílogos com GELU/SiLU, etc.) liberam capacidade efetiva no mesmo hardware — e a adoção mais madura em frameworks (PyTorch/JAX/TensorFlow) reduz o tempo de prova-de-conceito. Se você serve LLMs: vLLM com FP8 e bibliotecas otimizadas (hipBLASLt/Tensile) ajudam a elevar tokens/segundo e baixar latência. Se você administra clusters: a separação do driver, a matriz de compatibilidade mais clara e as melhorias de AMD SMI e Profiler diminuem downtime e simplificam o troubleshooting.

Em resumo, o ROCm 7.0 marca um avanço não só em números de benchmark, mas principalmente na qualidade do ecossistema: menos atrito para instalar, portar e manter, e mais foco no que interessa — treinar, afinar e servir modelos em produção.

Mais informações adicionais sobre o ROCm 7.0

  • Notas oficiais e matriz de compatibilidade (SO, kernels, MI350X/MI355X e virtualização). (rocm.docs.amd.com)
  • Separação do driver amdgpu do stack ROCm. (rocm.blogs.amd.com)
  • Consolidação de bibliotecas no monorepo rocm-libraries. (GitHub)
  • Frameworks de IA compatíveis (visão geral). (rocm.docs.amd.com)
  • Compatibilidade oficial com Ray e llama.cpp. (rocm.docs.amd.com)
  • Precisões baixas no HIP (FP8 e documentação de low precision), com exemplos em bibliotecas e inferência. (rocm.docs.amd.com)
  • AMD SMI (reinicialização de driver, novas métricas) e TUI do ROCm Compute Profiler. (rocm.docs.amd.com)
  • Driver de virtualização GIM para SR-IOV (KVM). (GitHub)
Compartilhe este artigo