O GPT-4o, lançado pela OpenAI, vem com melhorias significativas, especialmente em sua capacidade de gerar imagens detalhadas a partir de instruções em linguagem natural. Esse modelo agora pode criar imagens de alta qualidade e permitir ajustes conforme as necessidades do usuário, ajustando os detalhes até que o resultado final seja exatamente o desejado.
Modelos de IA anteriores tinham dificuldades com texto, frequentemente criando palavras sem sentido ou até rabiscos. Agora, o GPT-4o pode gerar imagens com texto legível, superando esses desafios.
Como o GPT-4o facilita a criação de imagens personalizadas com texto legível
A geração de imagens começa com o envio de um prompt de texto, seguido pela modificação da imagem conforme o usuário refina as instruções. Ao contrário de outros modelos, o GPT-4o permite que o usuário solicite mudanças de forma contínua até atingir o resultado ideal. Um exemplo disso é a possibilidade de modificar uma imagem de um gato, adicionando um chapéu de detetive e monóculo, e refiná-la até criar uma cena semelhante a um RPG.
Além disso, o GPT-4o se destaca pela capacidade de manipular múltiplos objetos em uma cena, lidando com 10 a 20 elementos sem dificuldades. Esse aprimoramento coloca o modelo à frente de outros, que geralmente conseguem gerenciar apenas de 5 a 8 objetos.
Embora o modelo seja altamente eficaz, a OpenAI admite que o GPT-4o ainda não é perfeito. Erros como cortes na imagem, alucinações e dificuldades com textos em caracteres não latinos são algumas das limitações a serem corrigidas. Mesmo assim, a facilidade de uso e a capacidade de criar imagens complexas com instruções detalhadas fazem do GPT-4o uma ferramenta poderosa para a criação de conteúdo visual.
Por fim, a OpenAI compartilhou alguns vídeos demonstrando as novas funcionalidades do GPT-4o, mostrando como o modelo pode transformar simples solicitações em imagens detalhadas e criativas.