Sora: o primeiro modelo de IA de texto para vídeo

sora-o-primeiro-modelo-de-ia-de-texto-para-video
Imagem: Reprodução | XDA-Developers

Sora foi recentemente revelado pela OpenAI como um verdadeiro modelo de geração de texto para vídeo. Com esse modelo de IA surgiram uma série de questões sobre o impacto social que tal ferramenta pode ter. A capacidade de gerar vídeos com aparência autêntica com facilidade levanta questões sobre a integridade do vídeo como forma de prova, ao mesmo tempo que levanta questões sobre onde a OpenAI treinou seu modelo em primeiro lugar.

Sora provavelmente será uma ferramenta protegida pela OpenAI. Suspeito que tudo o que for gerado terá um forte escrutínio por parte dos funcionários da empresa quando for lançado no mercado, e também suspeito que o custo será bastante proibitivo no início. Dito isto, pode ser o primeiro do gênero, mas é quase certo que não será o último.

Modelos de IA como a Sora

sora-o-primeiro-modelo-de-ia-de-texto-para-video

Como foi o caso quando o ChatGPT foi lançado, a Microsoft e o Google se esforçaram para trabalhar em algo semelhante. A Microsoft empregou a tecnologia GPT da OpenAI para impulsionar o que era então conhecido como Bing Chat, enquanto o Google lançou rapidamente o Bard. O resto da indústria também resistiu, com centenas de modelos de IA feitos por empresas e start-ups chegando ao mercado e sendo compartilhados em plataformas como a Hugging Face.

Com Sora, é quase certo que está tendo o mesmo efeito. Talvez não ao mesmo nível de ter o Google questionando sua própria mortalidade nas buscas pela primeira vez, mas o suficiente para que as empresas temam ficar para trás e não queiram deixar isso acontecer. Sora tem implicações de longo alcance para o futuro do vídeo, e Google, Microsoft e outros também vão querer uma fatia do bolo. Não é exatamente possível prever o futuro inteiramente com base no passado, mas podemos fazer algumas suposições muito boas.

Com isso, suspeito que Sora será ladeado por modelos abertos e gratuitos que qualquer pessoa poderá usar num futuro próximo, e com isso surge o perigo de abuso. O Stable Video Diffusion já funciona, mas é lento, curto e precisa de uma imagem inicial para ser animado. Não é um modelo de texto para vídeo como Sora, mas pode ser no futuro. A base está quase lá e até vídeos de seis segundos podem ser convincentes.

O que vem depois?

Não importa o que aconteça, outros estão chegando. As startups vão tentar ser as primeiras, a Microsoft já disse que terá a sua própria versão do Sora, e duvido muito que a Google queira ficar de fora. À medida que a tecnologia prolifera, será difícil evitar o compartilhamento de vídeos falsos. O que isso significa para o futuro do compartilhamento de informações, da política e de outras indústrias não está exatamente claro, mas não suspeito que será bonito.

Quando empresas como a Mistral lançam seu modelo Mixtral AI sob a bandeira da IA desinibida e sem grades de proteção, isso sinaliza algumas coisas. Embora possa tecnicamente promover a inovação, está sujeito a abusos. Texto é texto, e isso não é tão prejudicial, mas uma atitude semelhante tomada em relação à geração de vídeo pode representar enormes problemas no futuro para todos, até mesmo para os maiores defensores dessa tecnologia aberta.