Sora: o primeiro modelo de IA de texto para vídeo

Sora foi recentemente revelado pela OpenAI como um verdadeiro modelo de geração de texto para vídeo. Com esse modelo de IA surgiram uma série de questões sobre o impacto social que tal ferramenta pode ter. A capacidade de gerar vídeos com aparência autêntica com facilidade levanta questões sobre a integridade do vídeo como forma de prova, ao mesmo tempo que levanta questões sobre onde a OpenAI treinou seu modelo em primeiro lugar.

Sora provavelmente será uma ferramenta protegida pela OpenAI. Suspeito que tudo o que for gerado terá um forte escrutínio por parte dos funcionários da empresa quando for lançado no mercado, e também suspeito que o custo será bastante proibitivo no início. Dito isto, pode ser o primeiro do gênero, mas é quase certo que não será o último.

Modelos de IA como a Sora

sora-o-primeiro-modelo-de-ia-de-texto-para-video

Como foi o caso quando o ChatGPT foi lançado, a Microsoft e o Google se esforçaram para trabalhar em algo semelhante. A Microsoft empregou a tecnologia GPT da OpenAI para impulsionar o que era então conhecido como Bing Chat, enquanto o Google lançou rapidamente o Bard. O resto da indústria também resistiu, com centenas de modelos de IA feitos por empresas e start-ups chegando ao mercado e sendo compartilhados em plataformas como a Hugging Face.

Com Sora, é quase certo que está tendo o mesmo efeito. Talvez não ao mesmo nível de ter o Google questionando sua própria mortalidade nas buscas pela primeira vez, mas o suficiente para que as empresas temam ficar para trás e não queiram deixar isso acontecer. Sora tem implicações de longo alcance para o futuro do vídeo, e Google, Microsoft e outros também vão querer uma fatia do bolo. Não é exatamente possível prever o futuro inteiramente com base no passado, mas podemos fazer algumas suposições muito boas.

Com isso, suspeito que Sora será ladeado por modelos abertos e gratuitos que qualquer pessoa poderá usar num futuro próximo, e com isso surge o perigo de abuso. O Stable Video Diffusion já funciona, mas é lento, curto e precisa de uma imagem inicial para ser animado. Não é um modelo de texto para vídeo como Sora, mas pode ser no futuro. A base está quase lá e até vídeos de seis segundos podem ser convincentes.

O que vem depois?

Não importa o que aconteça, outros estão chegando. As startups vão tentar ser as primeiras, a Microsoft já disse que terá a sua própria versão do Sora, e duvido muito que a Google queira ficar de fora. À medida que a tecnologia prolifera, será difícil evitar o compartilhamento de vídeos falsos. O que isso significa para o futuro do compartilhamento de informações, da política e de outras indústrias não está exatamente claro, mas não suspeito que será bonito.

Quando empresas como a Mistral lançam seu modelo Mixtral AI sob a bandeira da IA desinibida e sem grades de proteção, isso sinaliza algumas coisas. Embora possa tecnicamente promover a inovação, está sujeito a abusos. Texto é texto, e isso não é tão prejudicial, mas uma atitude semelhante tomada em relação à geração de vídeo pode representar enormes problemas no futuro para todos, até mesmo para os maiores defensores dessa tecnologia aberta.