Segundos é o tempo que a nova IA Microsoft precisa para imitar vozes!

inteligencia-artificial-vall-e-microsoft-copia-vozes-ia

A Microsoft confirma a criação de uma inteligência artificial (IA) que consegue imitar qualquer voz. Segundo informações divulgadas, a nova Inteligência Artificial que copia vozes precisa de no mínimo 3 segundos. O nome da IA Microsoft é VALL-E, em resumo ela é uma IA text-to-speech.

Sobre a Inteligência Artificial Microsoft VALL-E que cópia vozes em 3 segundos!

VALL-E foi amplamente testada pela Microsoft com mais de 60 mil horas com áudios inicialmente em inglês. Mas, não é só a voz, VALL-E também pode gerar áudios a partir de qualquer texto, simular emoções enquanto fala e em diversos tons. Além disso, a IA também consegue criar expressões e falas que originalmente não estão presentes no áudio base original.

A novidade segue em estudo na Universidade de Cornell, em Nova York, Estados Unidos. O modelo base, em resumo, é uma linguagem codec natural com capacidade de formar falas com alta qualidade e uma naturalidade que impressiona, e só precisa de no mínimo 3 segundos. A IA também consegue respeitar pontuações, especialmente aquelas que dão ênfase na fala.

Microsoft apresentou a Inteligência Artificial VALL-E

Ainda há muitos trilhos para percorrer em torno da IA Microsoft que imita vozes. No GitHub Microsoft, a empresa mostrou vários resultados das simulações de vozes. Foi observado que inicialmente a reprodução parecia extremamente robotizada e criada em um computador. Porém, após ajustes pela equipe responsável, é possível perceber uma grande melhoria. Algumas vozes são tão naturais que convencem qualquer pessoa.

Imagem reprodução do GitHub Microsoft VALL-E

Uso da IA VALL-E

O uso da IA VALL-E Microsoft já é considerado, mesmo antes de ser liberado ao grande público, algo muito sensível. A Microsoft acredita que assim como ocorre na atualidade as imagens geradas a partir de referência, a IA pode ser extremamente perigosa se usada de modo errado e para fins ilícitos. Pois assim como ocorrem com as imagens, pode ocorrer e com muita frequência, a criação de áudios sem a devida e esperada autorização.

A perfeição da VALL-E é tão grande, que ela poderia ser usada para criar e reproduzir um discurso político. Porém, vai mais além, o uso em países com alto índices de golpes, como no Brasil, poderia simular até quelas ligações falsas de sequestro, o que seria muito perigoso. Em comentários, a preocupação com a novidade é tão grande, que até possíveis contatos bancários poderiam ser feitos com a voz falsa para conseguir aplicar e disseminar ainda mais golpes.

Quem vai poder utilizar a IA VALL-E da Microsoft?

Por enquanto a VALL-E não está liberada para o grande público. Porém, a Microsoft estuda como vai fazer isso diante dos riscos que a IA pode apresentar para a sociedade. Não sabemos se será necessário um longo cadastro assumindo responsabilidades, ou se a Microsoft vai reajustar o áudio para não ser tão natural e deixe algum indício de que foi criado por uma IA.

Os experimentos deste trabalho foram realizados sob a suposição de que o usuário do modelo é o locutor alvo e foi aprovado pelo locutor

disseram os autores do estudo.

No momento da escrita deste artigo, os áudios divulgados foram criados pela própria empresa e ninguém tem acesso à tecnologia que copia e cria vozes. Por enquanto tudo segue como fonte de estudo e pesquisa e não há data de lançamento oficial, nem para empresas e muito menos para o grande público.

Emanuel Negromonte Autor
Autor
Jornalista especialista em Linux a mais de 20 anos. Fundador do SempreUpdate e entusiasta do software livre.