AMD lança AMD-135M: O Primeiro Modelo de Linguagem Pequena de Código Aberto

A AMD anunciou o lançamento de seu primeiro modelo de linguagem pequena, o AMD-135M, como parte de seu compromisso com o desenvolvimento de inteligência artificial (IA) de código aberto. Isso significa que tanto o código de treinamento quanto os dados utilizados e as instruções necessárias para rodar o modelo estão disponíveis para qualquer pessoa acessar e utilizar gratuitamente.

O que é o AMD-135M?

Representação visual do modelo de linguagem AMD-135M com cérebro digital e código binário ao fundo — A AMD lança AMD-135M: modelo de linguagem de código aberto 3

O AMD-135M é um modelo de linguagem, que basicamente é um programa de computador treinado para entender e gerar textos, como fazemos em nossa linguagem cotidiana. Esses modelos são amplamente usados em aplicativos como assistentes virtuais, chatbots e sistemas de busca. O diferencial do AMD-135M é que ele foi treinado utilizando supercomputadores da AMD, chamados de Instinct MI250, que possuem enorme poder de processamento. Em apenas seis dias, foram usados 670 bilhões de “tokens” – que são como pequenos pedaços de informação – para ensinar o modelo a entender e criar linguagem de maneira eficiente.

Além disso, a AMD lançou uma versão especial chamada AMD-Llama-135M-code, que é projetada para trabalhar especificamente com códigos de programação, tornando-o útil para desenvolvedores que desejam melhorar seus programas ou escrever códigos com a ajuda da IA.

O que significa “decodificação especulativa”?

Para tornar o modelo mais eficiente, a AMD introduziu uma técnica chamada decodificação especulativa. Em termos simples, essa técnica permite que o modelo seja mais rápido ao gerar respostas ou completar textos, porque ele faz previsões sobre as palavras que podem aparecer a seguir e verifica se essas previsões estão corretas. Isso ajuda a economizar tempo e a melhorar a velocidade de resposta do modelo, algo essencial para aplicações como chatbots ou assistentes de voz.

Como foi o treinamento?

Para treinar o AMD-135M, a AMD usou uma grande quantidade de dados retirados de várias fontes, como textos disponíveis na internet, incluindo livros e artigos científicos, além de dados de programação. Isso permite que o modelo tenha um bom conhecimento sobre diferentes tipos de linguagem e tópicos. No total, foram utilizados 670 bilhões de tokens para ensinar o modelo. A versão voltada para código de programação, AMD-Llama-135M-code, foi ajustada com dados específicos de código, tornando-o uma ferramenta útil para desenvolvedores que desejam automatizar partes de seu trabalho.

Quem pode usar o AMD-135M?

A AMD disponibilizou o modelo gratuitamente em plataformas populares de compartilhamento de IA, como HuggingFace e GitHub, permitindo que desenvolvedores e pesquisadores usem, modifiquem e até aprimorem o modelo conforme suas necessidades. O objetivo da AMD é promover a inovação aberta, ou seja, incentivar que mais pessoas e empresas possam desenvolver suas próprias soluções de IA usando os recursos da AMD.

Modelos de IA estão se tornando cada vez mais presentes em nosso cotidiano. Eles ajudam a melhorar interações com assistentes de voz, recomendam produtos em lojas virtuais, auxiliam em pesquisas científicas e até automatizam tarefas complexas em empresas. Com o AMD-135M, a AMD está contribuindo para que esse tipo de tecnologia seja mais acessível e aberta a todos, promovendo avanços que podem beneficiar diferentes áreas, como educação, saúde e negócios.