
A AMD, em sua contínua busca por aprimorar o ecossistema ROCm, acaba de anunciar o AITER (AI Tensor Engine for ROCm), uma adição promissora ao seu conjunto de ferramentas de software. O AITER surge como um repositório centralizado de operadores de IA de alto desempenho, projetado para acelerar diversas workloads de inteligência artificial em GPUs AMD.
“O AITER serve como uma plataforma unificada onde os clientes podem facilmente encontrar e integrar operadores otimizados em seus frameworks existentes, sejam eles privados, públicos ou personalizados,” explica a AMD em seu blog oficial. “Com o AITER, a AMD simplifica a complexidade da otimização, permitindo que os usuários maximizem o desempenho, ao mesmo tempo em que oferece flexibilidade para atender a diversas necessidades de IA.”
O AITER se destaca por sua versatilidade e facilidade de uso, oferecendo interfaces em C++ e Python, o que o torna acessível a desenvolvedores com diferentes preferências e níveis de habilidade. Sua arquitetura robusta, construída sobre tecnologias como Triton, CK (Compute Kernel), ASM (Assembly) e HIP (Heterogeneous Interface for Portability), garante um desempenho otimizado em diversas tarefas computacionais, incluindo inferência, treinamento, operações GEMM (General Matrix Multiplication) e kernels de comunicação.
Ganhos de Desempenho Notáveis:
A AMD demonstra os ganhos significativos de desempenho obtidos com o AITER em diversas operações de IA:
- AITER block-scale GEMM: Aumento de até 2x no desempenho, acelerando tarefas de multiplicação de matrizes.
- AITER block-scale fused MoE: Aumento de até 3x no desempenho, otimizando operações de Mixture of Experts (MoE).
- AITER MLA para decodificação: Aumento de até 17x no desempenho, impulsionando a eficiência da decodificação.
- AITER MHA para preenchimento: Aumento de até 14x no desempenho, melhorando o desempenho do Multi-Head Attention (MHA) durante os estágios de preenchimento.
- Integração com DeepSeek-V3: A integração do AITER com vLLM/SGLang para o modelo DeepSeek-V3 resultou em um aumento de mais de 2x no throughput total de tokens (tokens por segundo), passando de 6484.76 tok/s para 13704.36 tok/s.
Começando com AITER:
O AITER está disponível sob a licença MIT no GitHub, permitindo que desenvolvedores o utilizem e contribuam para seu desenvolvimento. A AMD incentiva a comunidade a explorar o AITER e a aproveitar seus benefícios para acelerar suas workloads de IA.
Links relevantes: