Em breve, o Kernel Linux terá atualização do Rust 1.77. Com o Linux 6.8, o código Rust do kernel foi atualizado para Rust 1.75, enquanto novos patches postados neste fim de semana transferem o código para Rust 1.76 e depois para o próximo Rust 1.77.
Postada no sábado foi esta série de patches que leva a infraestrutura Rust do kernel até a compatibilidade com Rust 1.76. Isso foi imediatamente seguido pelo patch Rust 1.77 para aquele que ainda não foi lançado como conjunto de ferramentas estável. Com o Rust 1.77, eles agora estabilizaram o recurso “offset_of” de campo único usado pelo código Rust do kernel. Rust 1.77 também adiciona uma opção “–check-cfg” para a qual o código do kernel Rust provavelmente fará a transição no futuro.
Kernel Linux terá atualização do Rust 1.77
Isso segue a política do Rust para Linux de rastrear as atualizações da versão upstream do Rust até que haja uma versão mínima que possa ser declarada onde todos os recursos usados ????são considerados estáveis. Nesse ponto desconhecido no futuro, a versão mínima será declarada conforme indicado em sua política de versão.
Esta atualização para Rust 1.77 provavelmente ocorrerá na próxima janela de mesclagem do kernel Linux 6.9.
Linux 6.9 adiciona suporte de aposentadoria de linha AMD MI300 para memória HBM problemática
Para o próximo ciclo do kernel Linux 6.9, há uma série de adições AMD Instinct MI300 aos drivers EDAC (Detecção e Correção de Erros) e RAS (Confiabilidade, Disponibilidade e Capacidade de Manutenção).
Este trabalho inclui a adaptação do driver AMD EDAC para usar a Biblioteca de Tradução de Endereços AMD, suporte MI300 para essa biblioteca ATL, outras adições RAS do MI300 e, em seguida, um novo recurso para o hardware MI300 é o suporte para retirada de linha.
O suporte para retirada de linha do MI300 no driver amd64_edac é resumido nesse patch para lidar com memória de alta largura de banda (HBM) com defeito/erro no MI300:
“Os sistemas AMD MI300 possuem memória de alta largura de banda on-die. Essa memória tem uma taxa de erro relativamente mais alta e não pode ser substituída individualmente como os DIMMs.
Erros ECC incorrigíveis são relatados individualmente como erros adiados usando a interrupção de erro adiada da AMD. Cada erro relatado corresponde a um único erro de hardware.
Os erros de ECC corrigíveis são relatados em lotes por meio do MCA Thresholding. Os usuários podem configurar o limite com base em sua política. Cada erro corrigível relatado representa uma única ocorrência do limite sendo atingido.
A orientação atual dos projetistas da AMD é que a memória afetada por erros de ECC em uma linha de DRAM deve ser desativada. Ações devem ser tomadas em cada erro de ECC relatado.
Adicione uma função auxiliar para aplicar esta política aos sistemas MI300.
Essa e outras funcionalidades semelhantes também podem ser melhor tratadas em uma função genérica e separada. módulo. Enquanto isso, faça isso no AMD64 EDAC para simplificar.”
Um comentário de código nesse patch de suporte para retirada de linha reafirma as intenções de retirar toda a memória dentro dessa linha DRAM em caso de erros:
“Quando ocorre um erro DRAM ECC em sistemas MI300, é recomendado retirar toda a memória dessa linha DRAM. Isso se aplica à memória com um banco DRAM.”
O trabalho mais recente do AMD MI300 pode ser encontrado no Linux 6.9, agora que esses patches fazem parte do ramo Git “edac-for-next” do RAS.git.