OpenAI impede liberação de tecnologia de clonagem de voz

Devido a preocupações de uso indevido, a OpenAI impede liberação de tecnologia de clonagem de voz. O Voice Engine pode clonar vozes com 15 segundos de áudio, mas a OpenAI está alertando sobre possíveis danos. Por enquanto, o Voice Engine é uma versão limitada para parceiros selecionados, daí a organização estar impedindo a liberação total deste recurso que poderia trazer inúmeros problemas.

A síntese de voz percorreu um longo caminho desde o brinquedo Speak & Spell de 1978, que uma vez impressionou as pessoas com sua capacidade de última geração de ler palavras em voz alta usando uma voz eletrônica. Agora, usando modelos de IA de aprendizado profundo, o software pode criar não apenas vozes realistas, mas também imitar de forma convincente vozes existentes usando pequenas amostras de áudio.

Nessa linha, a OpenAI acaba de anunciar o Voice Engine, um modelo de IA de conversão de texto em fala para criar vozes sintéticas com base em um segmento de 15 segundos de áudio gravado. Ele forneceu amostras de áudio do Voice Engine em ação em seu site.

Depois que uma voz é clonada, um usuário pode inserir texto no Mecanismo de Voz e obter um resultado de voz gerado por IA. Mas a OpenAI ainda não está pronta para lançar amplamente sua tecnologia. A empresa inicialmente planejava lançar um programa piloto para desenvolvedores se inscreverem na API do Voice Engine no início deste mês. Mas depois de mais considerações sobre implicações éticas, a empresa decidiu reduzir suas ambições por enquanto.

“Em linha com nossa abordagem à segurança de IA e nossos compromissos voluntários, estamos optando por antecipar, mas não lançar amplamente essa tecnologia neste momento”, escreve a empresa. “Esperamos que esta prévia do Voice Engine ressalte seu potencial e também motive a necessidade de reforçar a resiliência da sociedade contra os desafios trazidos por modelos generativos cada vez mais convincentes.”

A tecnologia de clonagem de voz em geral não é particularmente nova – cobrimos vários modelos de síntese de voz de IA desde 2022, e a tecnologia está ativa na comunidade de código aberto com pacotes como OpenVoice e XTTSv2. Mas a ideia de que a OpenAI está se esforçando para permitir que qualquer pessoa use sua marca específica de tecnologia de voz é notável. E, de certa forma, a reticência da empresa em lançá-lo totalmente pode ser a história maior.

A OpenAI diz que os benefícios de sua tecnologia de voz incluem fornecer assistência de leitura por meio de vozes de som natural, permitindo o alcance global para criadores traduzindo conteúdo enquanto preserva sotaques nativos, apoiando indivíduos não verbais com opções de fala personalizadas e ajudando os pacientes a recuperar sua própria voz após condições de comprometimento da fala.

Mas isso também significa que qualquer pessoa com 15 segundos da voz gravada de alguém poderia efetivamente cloná-la, e isso tem implicações óbvias para o potencial uso indevido. Mesmo que a OpenAI nunca lance amplamente seu Voice Engine, a capacidade de clonar vozes já causou problemas na sociedade por meio de golpes telefônicos em que alguém imita a voz de um ente querido e robocalls de campanha eleitoral com vozes clonadas de políticos como Joe Biden.

Além disso, pesquisadores e repórteres mostraram que a tecnologia de clonagem de voz pode ser usada para invadir contas bancárias que usam autenticação de voz (como o Chase’s Voice ID), o que levou o senador Sherrod Brown (D-Ohio), presidente do Comitê de Assuntos Bancários, Habitacionais e Urbanos do Senado dos EUA, a enviar uma carta aos CEOs de vários grandes bancos em maio de 2023 para perguntar sobre as medidas de segurança que os bancos estão tomando para neutralizar os riscos alimentados por IA.

OpenAI impede liberação de tecnologia de clonagem de voz

A OpenAI reconhece que a tecnologia pode causar problemas se amplamente lançada, então está inicialmente tentando contornar esses problemas com um conjunto de regras. Desde o ano passado, vem testando a tecnologia com um conjunto de empresas parceiras selecionadas. Por exemplo, a empresa de síntese de vídeo HeyGen tem usado o modelo para traduzir a voz de um falante para outros idiomas, mantendo o mesmo som vocal.

Para usar o Voice Engine, cada parceiro deve concordar com os termos de uso que proíbem “a representação de outro indivíduo ou organização sem consentimento ou direito legal”. Os termos também exigem que os parceiros adquiram consentimento informado das pessoas cujas vozes estão sendo clonadas, e eles também devem divulgar claramente que as vozes que produzem são geradas por IA. A OpenAI também está colocando uma marca d’água em cada amostra de voz que ajudará a rastrear a origem de qualquer voz gerada por seu modelo Voice Engine.

Assim, como está agora, a OpenAI está mostrando sua tecnologia, mas a empresa ainda não está pronta para se colocar na linha (ainda) para o potencial caos social que um lançamento amplo pode causar. Em vez disso, a empresa recalibrou sua abordagem de marketing para parecer que está alertando todos nós sobre essa tecnologia já existente de forma responsável.

“Estamos adotando uma abordagem cautelosa e informada para um lançamento mais amplo devido ao potencial de uso indevido de voz sintética”, disse a empresa em comunicado. “Esperamos iniciar um diálogo sobre a implantação responsável de vozes sintéticas e como a sociedade pode se adaptar a essas novas capacidades. Com base nessas conversas e nos resultados desses testes em pequena escala, tomaremos uma decisão mais informada sobre se e como implantar essa tecnologia em escala.”Anúncio

Em linha com sua missão de lançar cautelosamente a tecnologia, a OpenAI forneceu três recomendações sobre como a sociedade deve mudar para acomodar sua tecnologia em seu blog. Essas etapas incluem eliminar gradualmente a autenticação baseada em voz para contas bancárias, educar o público a entender “a possibilidade de conteúdo de IA enganoso” e acelerar o desenvolvimento de técnicas que possam rastrear a origem do conteúdo de áudio, “para que fique sempre claro quando você está interagindo com uma pessoa real ou com uma IA”.

A OpenAI também diz que a futura tecnologia de clonagem de voz deve exigir a verificação de que o alto-falante original está “conscientemente adicionando sua voz ao serviço” e a criação de uma lista de vozes que são proibidas de clonar, como aquelas que são “muito semelhantes a figuras proeminentes”. Esse tipo de tecnologia de triagem pode acabar excluindo qualquer pessoa cuja voz possa soar natural e acidentalmente muito próxima de uma celebridade ou presidente dos EUA.

Tecnologia desenvolvida em 2022

De acordo com a empresa, a OpenAI desenvolveu sua tecnologia Voice Engine no final de 2022, e muitas pessoas já estão usando uma versão da tecnologia com vozes pré-definidas (e não clonadas) de duas maneiras: o modo de conversa falada no aplicativo ChatGPT lançado em setembro e a API de conversão de texto em fala da OpenAI que estreou em novembro do ano passado.

Com toda a concorrência de clonagem de voz por aí, a OpenAI diz que o Voice Engine é notável por ser um modelo de IA “pequeno” (quão pequeno, exatamente, não sabemos). Mas, tendo sido desenvolvido em 2022, quase parece tarde para a festa. E pode não ser perfeito em sua capacidade de clonagem. Modelos anteriores de conversão de texto em voz treinados pelo usuário, como os da ElevenLabs e da Microsoft , têm lutado com sotaques que ficam fora de seu conjunto de dados de treinamento.