A Amazon transferiu cerca de 80% do processamento da Alexa para as instâncias do Elastic Compute Cloud Inf1, que usam seu próprio silício: os novos chips AWS Inferentia. Em comparação com as GPUs tradicionais, as instâncias Inf1 aumentam o rendimento em 30% e os custos caem em 45%.
A Amazon considera que elas são as melhores instâncias do mercado para inferir linguagem natural e cargas de trabalho de processamento de voz. Isso significa que serviços como o assistente virtual Alexa da Amazon, serão processados em silício especializado mais rápido em vez de GPUs multifuncionais.
Amazon está trocando GPUs Nvidia em favor de seu próprio silício
A Alexa funciona assim: a caixa do alto-falante basicamente não faz nada, enquanto os processadores AWS na nuvem fazem tudo. O sistema entra em ação assim que a palavra de despertar é detectada pelo chip no dispositivo. Ele começa a transmitir o áudio para a nuvem em tempo real. Em um data center em algum lugar, o áudio é transformado em texto. Então, o significado é retirado do texto.
Assim que a Alexa tiver concluído sua solicitação, ela precisará comunicar a você a resposta. O que ela deve dizer é escolhido a partir de um script; o script é transformado em um arquivo de áudio e enviado ao seu dispositivo.
Evidentemente, inferir é uma grande parte do trabalho. Não é surpreendente que a Amazon tenha investido milhões de dólares para fazer os chips de inferência perfeitos.
Além disso, os chips Inferentia são compostos por quatro NeuronCores. Cada um implementa um “motor de multiplicação de alto desempenho”. Mais ou menos, cada NeuronCore é composto por um grande número de pequenas unidades de processamento de dados que processam dados de maneira linear e independente. Cada chip também possui um cache enorme, o que melhora as latências.
Tech Spot
Amazon lança o aplicativo GameOn para permitir que jogadores compartilhem clipes