A Microsoft confirma a criação de uma inteligência artificial (IA) que consegue imitar qualquer voz. Segundo informações divulgadas, a nova Inteligência Artificial que copia vozes precisa de no mínimo 3 segundos. O nome da IA Microsoft é VALL-E, em resumo ela é uma IA text-to-speech.
Sobre a Inteligência Artificial Microsoft VALL-E que cópia vozes em 3 segundos!
VALL-E foi amplamente testada pela Microsoft com mais de 60 mil horas com áudios inicialmente em inglês. Mas, não é só a voz, VALL-E também pode gerar áudios a partir de qualquer texto, simular emoções enquanto fala e em diversos tons. Além disso, a IA também consegue criar expressões e falas que originalmente não estão presentes no áudio base original.
A novidade segue em estudo na Universidade de Cornell, em Nova York, Estados Unidos. O modelo base, em resumo, é uma linguagem codec natural com capacidade de formar falas com alta qualidade e uma naturalidade que impressiona, e só precisa de no mínimo 3 segundos. A IA também consegue respeitar pontuações, especialmente aquelas que dão ênfase na fala.
Microsoft apresentou a Inteligência Artificial VALL-E
Ainda há muitos trilhos para percorrer em torno da IA Microsoft que imita vozes. No GitHub Microsoft, a empresa mostrou vários resultados das simulações de vozes. Foi observado que inicialmente a reprodução parecia extremamente robotizada e criada em um computador. Porém, após ajustes pela equipe responsável, é possível perceber uma grande melhoria. Algumas vozes são tão naturais que convencem qualquer pessoa.
Uso da IA VALL-E
O uso da IA VALL-E Microsoft já é considerado, mesmo antes de ser liberado ao grande público, algo muito sensível. A Microsoft acredita que assim como ocorre na atualidade as imagens geradas a partir de referência, a IA pode ser extremamente perigosa se usada de modo errado e para fins ilícitos. Pois assim como ocorrem com as imagens, pode ocorrer e com muita frequência, a criação de áudios sem a devida e esperada autorização.
A perfeição da VALL-E é tão grande, que ela poderia ser usada para criar e reproduzir um discurso político. Porém, vai mais além, o uso em países com alto índices de golpes, como no Brasil, poderia simular até quelas ligações falsas de sequestro, o que seria muito perigoso. Em comentários, a preocupação com a novidade é tão grande, que até possíveis contatos bancários poderiam ser feitos com a voz falsa para conseguir aplicar e disseminar ainda mais golpes.
Quem vai poder utilizar a IA VALL-E da Microsoft?
Por enquanto a VALL-E não está liberada para o grande público. Porém, a Microsoft estuda como vai fazer isso diante dos riscos que a IA pode apresentar para a sociedade. Não sabemos se será necessário um longo cadastro assumindo responsabilidades, ou se a Microsoft vai reajustar o áudio para não ser tão natural e deixe algum indício de que foi criado por uma IA.
Os experimentos deste trabalho foram realizados sob a suposição de que o usuário do modelo é o locutor alvo e foi aprovado pelo locutor
disseram os autores do estudo.
No momento da escrita deste artigo, os áudios divulgados foram criados pela própria empresa e ninguém tem acesso à tecnologia que copia e cria vozes. Por enquanto tudo segue como fonte de estudo e pesquisa e não há data de lançamento oficial, nem para empresas e muito menos para o grande público.