- Visão de raio-x: novos drivers permitem monitorar o Unified Coherence Fabric (UCF), revelando como o cache de último nível se comporta sob carga.
- Foco em latência: suporte específico para medir o tempo de resposta entre o chip e a memória DRAM, essencial para otimizar aplicações de IA.
- Conectividade de ponta: inclusão de monitores para NVLink-C2C e barramentos CXL, garantindo telemetria em interconexões chip-to-chip.
- Correção e padronização: a série v2 resolve conflitos de nomes de gerações anteriores (Tegra241 vs Tegra410) e corrige dependências de ACPI.
- Integração nativa: os patches já preparam o defconfig do ARM64, facilitando a adoção imediata por distribuições linux.
O desenvolvedor Besar Wicaksono, da NVIDIA, enviou hoje (18 de fevereiro de 2026) a segunda versão de uma série de patches que expande significativamente a capacidade de monitoramento de performance para o SoC Tegra410. O foco aqui são as chamadas Uncore PMUs (Performance Monitoring Units), que são sensores de hardware localizados fora dos núcleos de processamento, responsáveis por medir o “trânsito” de dados entre a memória, o cache e os barramentos de alta velocidade.
O que são Uncore PMUs e por que elas importam?
Se os núcleos da CPU são os motores de um carro, as unidades “Uncore” são as rodovias e postos de gasolina. Não adianta ter um motor potente se o combustível (dados) demora a chegar ou se as estradas estão engarrafadas.
As novas PMUs incluídas para o Tegra410 permitem que engenheiros e administradores de sistemas utilizem a ferramenta perf do Linux para enxergar exatamente onde estão os gargalos em servidores de alto desempenho e sistemas de IA.
Os novos componentes monitorados
A série de patches adiciona suporte para uma vasta gama de interfaces, incluindo:
| Componente | Função de monitoramento |
| Unified Coherence Fabric (UCF) | Mede o tráfego no cache de último nível (LLC) e a interconexão coerente. |
| PCIe e PCIE-TGT | Monitora largura de banda e latência de dispositivos PCIe e memórias CXL. |
| CMEM Latency | Mede o tempo que um pedido leva para ir do cache até a memória DRAM local. |
| NVLink-C2C | Focado na interconexão entre chips (SoC para GPU ou SoC para SoC). |
| NV-DLink | Especializado em monitorar leituras de memória CXL via interface DLink. |
Fórmulas de performance no kernel
O patch também documenta como os usuários devem calcular as métricas. Por exemplo, para medir a latência média no subsistema de memória, a fórmula sugerida utiliza os novos contadores:

Curiosidades e bastidores da discussão
Durante a troca de e-mails na LKML, Besar Wicaksono revelou alguns detalhes interessantes sobre o processo de desenvolvimento:
- Limpeza de casa: O desenvolvedor renomeou documentos antigos que eram genéricos como “nvidia-pmu” para “nvidia-tegra241-pmu”. O motivo? Evitar confusão, já que o Tegra410 é uma fera diferente e precisava de sua própria documentação dedicada para não misturar as métricas de hardware de gerações distintas.
- A ajuda dos robôs: Besar agradeceu ao “kernel test robot” por detectar um erro de compilação na versão anterior (v1). O erro acontecia porque o monitor de latência de memória (CMEM) tentava ser compilado em sistemas sem suporte a ACPI, uma dependência vital para esse hardware específico da Nvidia em arquitetura ARM64.
- Refinamento de pares: Houve um foco especial na formatação do código após sugestões de outro dev, Ilkka Koskinen. Isso mostra que, mesmo em drivers de hardware proprietário, a comunidade preza pela legibilidade e padronização que o Linux exige.
Status de lançamento
Os patches estão na v2 e já incluem o selo de “revisado” por membros da comunidade. Como Besar também incluiu a ativação desses drivers no defconfig da arquitetura ARM64, a expectativa é que, assim que aprovados, eles se tornem o padrão para qualquer distribuição rodando em hardware Nvidia de última geração em 2026.
