A NVIDIA anunciou o HGX H200, baseado na arquitetura Hopper e equipado com a GPU Tensor Core H200 com memória avançada para lidar com grandes volumes de dados para IA generativa e cargas de trabalho de computação de alto desempenho.
O H200 é a primeira GPU a oferecer HBM3e – uma memória mais rápida e maior para acelerar a IA generativa e os grandes modelos de linguagem, ao mesmo tempo que avança na computação científica para cargas de trabalho de HPC. Com HBM3e, o NVIDIA H200 oferece 141GB de memória a 4.8 terabytes por segundo, quase o dobro da capacidade e 2.4x mais largura de banda em comparação com seu antecessor, o NVIDIA A100.
Os sistemas alimentados por H200 dos principais fabricantes de servidores e provedores de serviços em nuvem devem começar a ser enviados no segundo trimestre de 2024. “Para criar inteligência com IA generativa e aplicações de HPC, grandes volumes de dados devem ser processados eficientemente em alta velocidade usando uma grande e rápida memória de GPU”, disse Ian Buck, vice-presidente de hyperscale e HPC na NVIDIA.
A arquitetura NVIDIA Hopper oferece um salto de desempenho sem precedentes sobre seu antecessor e continua a elevar o padrão através de melhorias contínuas de software com H100, incluindo o recente lançamento de poderosas bibliotecas de código aberto como NVIDIA TensorRT-LLM. A introdução do H200 levará a novos saltos de desempenho, incluindo quase dobrando a velocidade de inferência no Llama 2, um LLM de 70 bilhões de parâmetros, em comparação com o H100.
O NVIDIA H200 estará disponível nas placas de servidor NVIDIA HGX H200 com configurações de quatro e oito vias, que são compatíveis com o hardware e software dos sistemas HGX H100. Ele também está disponível no NVIDIA GH200 Grace Hopper Superchip com HBM3e, anunciado em agosto.
Com essas opções, o H200 pode ser implantado em vários tipos de data center, incluindo no local, na nuvem, híbrido e na borda. O ecossistema global de fabricantes de servidores parceiros da NVIDIA – incluindo ASRock Rack, ASUS, Dell Technologies, Eviden, GIGABYTE, Hewlett Packard Enterprise, Lenovo, QCT, Supermicro, Wistron e Wiwynn – pode atualizar seus sistemas existentes com um H200. Amazon Web Services, Google Cloud e Oracle Cloud Infrastructure estarão entre os primeiros provedores de serviços em nuvem a implantar instâncias baseadas em H200 a partir do próximo ano, além de CoreWeave, Lambda e Vultr.
Alimentado pelos interconectores de alta velocidade NVIDIA NVLink e NVSwitch, o HGX H200 é construído para várias cargas de trabalho de aplicativos, incluindo treinamento LLM e inferência para os maiores modelos além de 175 bilhões de parâmetros. Um HGX H200 de oito vias fornece mais de 32 petaflops de computação de aprendizado profundo FP8 e 1.1TB de memória de alta largura de banda agregada para o mais alto desempenho em IA generativa e aplicações de HPC.