Google lança o Veo, uma ferramenta de geração de vídeo de IA

google-lanca-o-veo-uma-ferramenta-de-geracao-de-video-de-ia

O Google anunciou um novo modelo de IA inovador chamado “Veo” que assumirá a geração de vídeo. O novo modelo é adaptado às visões criativas dos usuários. Além dele, o Google também está atualizando seu modelo de geração de imagens, trazendo-o para sua terceira geração no Imagen 3.

Modelos de IA do Google

O Bard foi uma de nossas primeiras experiências com LLMs de IA modernos no Google. Essa versão foi lançada há cerca de um ano, com grandes mudanças chegando à plataforma nos últimos meses. Uma das maiores mudanças foi uma mudança completa de nome, renomeando a ferramenta de IA voltada para o usuário como Gemini, que agora se espalhou por toda a linha de produtos da empresa com Gemini Nano em dispositivos atuais e futuros e Gemini Pro.

Pouco antes de Bard ser renomeado para Gemini, o Google adicionou a capacidade de solicitar imagens por meio do modelo de conversação de IA. Pedir a imagem de uma vaca em um barco renderia exatamente isso, no estilo que você achar adequado. Esse processo foi desenvolvido pelo Imagen 2, que foi a primeira versão a estar disponível publicamente.

Modelo de IA Veo

Agora, o Google está anunciando dois modelos de geração criativa, Veo e Imagen 3. O Veo é o mais interessante, pois é algo que o público ainda não pôde experimentar. O modelo é construído especificamente para geração de vídeo que compreende a semântica visual e a linguagem natural, semelhante a outros modelos modernos. Essa abordagem trazida para a geração de vídeo oferece resultados que podem ser adaptados de forma criativa para se adequar a determinados estilos. O Google observa que o modelo Veo será capaz de entender “termos cinematográficos” nas instruções do usuário, como fotos aéreas e formatos de lapso de tempo.

O Veo é capaz de gerar vídeos em 1080p que podem durar mais de um minuto, o que supera modelos atuais como o Sora da OpenAI , com duração máxima de 60 segundos. Ele se baseia em anos de nosso trabalho de modelo de vídeo generativo, incluindo Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet e Lumiere – combinando arquitetura, leis de escala e outras técnicas inovadoras para melhorar a qualidade e a resolução de saída.

google-lanca-o-veo-uma-ferramenta-de-geracao-de-video-de-ia

O Google está convidando criadores e cineastas a testar o Veo, a fim de moldar o modelo para que ele possa acomodar uma ampla variedade de estilos artísticos e casos de uso.

Imagen 3

O modelo Imagen também está recebendo uma atualização substancial. O Imagen 3 está posicionado como o modelo de texto para imagem de “mais alta qualidade” do Google e oferece algumas melhorias em relação ao modelo Imagen 2 que vimos em Gemini e Bard. Diz-se que o Imagen 3 traz um nível mais alto de detalhes nas imagens, sem tantos artefatos visuais e impurezas nas imagens geradas. As imagens são mais fotorrealistas e realistas quando solicitadas.

Talvez a maior melhoria seja a capacidade do Imagen 3 de renderizar texto. Isso se tornou uma fraqueza cômica de modelos de texto para imagem como DALL-E e Adobe Firefly. O Google posiciona o novo modelo como uma forma de criar imagens personalizadas com texto, como cartões comemorativos ou fotos com mensagens.

Ainda não se sabe quão bem ele realmente renderiza o texto, mas isso é uma melhoria promissora. Tanto o Veo quanto o Imagen 3 estarão disponíveis para uso em uma visualização privada por meio do VideoFX do Google Labs. VideoFX utilizará SynthID para garantir que o conteúdo criado tenha marca d’água digital e seja gerado de maneira responsável.