NVIDIA desenvolve ferramenta com IA e NVIDIA Omniverse para transformar imagens 2D em 3D

A NVIDIA Research acelerou um novo mecanismo de deep learning que cria modelos de objetos 3D a partir de imagens 2D padrão e pode fazer carros icônicos, como o KITT com tecnologia fornecida por IA de A Super Máquina, se tornarem realidade no NVIDIA Omniverse.

Desenvolvida pelo NVIDIA Toronto Artificial Intelligence Lab, a aplicação GANverse3D converte imagens planas em modelos 3D realistas que podem ser visualizados e controlados em ambientes virtuais. O recurso pode ajudar arquitetos, criadores, desenvolvedores de games e designers a adicionarem novos objetos a maquetes com facilidade sem precisar de experiência em modelagem 3D ou um orçamento grande para gastar em renderizações.

É possível, por exemplo, transformar uma única foto de um carro em um modelo 3D funcional em uma cena virtual, com faróis, luzes traseiras e setas realistas.

NVIDIA desenvolve ferramenta com IA e NVIDIA Omniverse para transformar imagens 2D em 3D

Os pesquisadores usaram uma rede generativa adversarial (GAN — Generative Adversarial Network) para sintetizar imagens que mostram o mesmo objeto de várias perspectivas, como um fotógrafo que tira fotos de um automóvel estacionado de diferentes ângulos, e assim gerar um conjunto de dados para treinamento. Essas imagens de vários ângulos foram conectadas a um framework de renderização para gráficos inversos, o processo de inferência de modelos de malha 3D a partir de imagens 2D.

Depois de treinada com as imagens, a GANverse3D só precisa de uma imagem 2D para prever um modelo de malha 3D. O modelo pode ser usado com um renderizador neural 3D que oferece aos desenvolvedores o poder de personalizar objetos e trocar o plano de fundo.

Usada como uma extensão na plataforma NVIDIA Omniverse e executada em GPUs NVIDIA RTX, a GANverse3D pode ser usada para recriar imagens 2D em 3D, como o adorado carro de combate ao crime KITT, da famosa série de TV de 1980, A Super Máquina.

Os modelos anteriores para gráficos inversos usavam formas 3D como dados de treinamento. Em vez disso, “sem a ajuda de materiais 3D, transformamos um modelo de GAN em um gerador de dados muito eficiente para criar objetos 3D a partir de imagens 2D da Web”, afirma Wenzheng Chen, cientista de pesquisa da NVIDIA e principal responsável pelo projeto.

O que dizem

Como o treinamento foi feito com imagens reais, diferentemente do pipeline comum, que se baseia em dados sintéticos, o modelo de IA generaliza melhor as aplicações reais, declara Jun Gao, pesquisador da NVIDIA e um dos responsáveis pelo projeto.
A cada inovação, percebemos novas possibilidades de uso para a IA que, no fim, irão facilitar o dia a dia dos seres humanos em tarefas operacionais que nós muitas vezes não temos capacidade de realizar em grande volume. Tornar imagens 2D em modelos 3D deixa a criação mais acessível e otimiza o tempo dos profissionais especializados, que poderão focar em outras questões, explica Marcio Aguiar, diretor de NVIDIA Enterprise para América Latina.

A pesquisa por trás da GANverse3D será apresentada em duas conferências futuras: a International Conference on Learning Representations, em maio, e a Conference on Computer Vision and Pattern Recognition, em junho.

Do pneu furado ao KITT de corrida

Criadores dos setores de games, arquitetura e design usam ambientes virtuais, como a plataforma de simulação e colaboração NVIDIA Omniverse, para testar novas ideias e visualizar protótipos antes de criar os produtos finais. Com os Omniverse Conectors, os desenvolvedores podem usar suas aplicações 3D favoritas no Omniverse para simular mundos virtuais complexos com ray tracing.

O problema é que nem todos os criadores têm tempo e recursos para criar modelos 3D de cada objeto esboçado. O custo de reunir um número suficiente de imagens de vários ângulos para renderizar o equivalente a uma frota inteira de carros ou a uma rua cheia de edifícios pode ser exorbitante. É aí que entram as aplicações treinadas, como a GANverse3D. Elas convertem imagens-padrão de um carro, de um prédio ou até mesmo de um cavalo em uma figura 3D que pode ser personalizada e animada no Omniverse.

Para recriar o KITT, os pesquisadores só precisaram inserir uma imagem do carro no modelo treinado, e a GANverse3D gerou uma malha com textura 3D correspondente, além de outras partes do automóvel, como rodas e faróis. Depois, eles usaram as ferramentas NVIDIA Omniverse Kit e NVIDIA PhysX para converter a textura gerada em materiais de alta qualidade que conferem ao KITT uma aparência mais realista e colocaram-na em uma sequência dinâmica de condução com outros carros.

“Com o Omniverse, os pesquisadores podem oferecer descobertas interessantes e de ponta diretamente para criadores e usuários finais. O uso da GANverse3D como extensão no Omniverse ajuda os profissionais a criar mundos virtuais mais sofisticados para o desenvolvimento de games, o planejamento de cidades ou até mesmo o treinamento de outros modelos de machine learning”, comenta Jean-Francois Lafleche, engenheiro de deep learning da NVIDIA.

GANs promovem mudança radical

Como os conjuntos de dados reais que capturam o mesmo objeto de ângulos diferentes são raros, a maioria das ferramentas de IA que convertem imagens 2D em 3D são treinadas com conjuntos de dados 3D sintéticos, como o ShapeNet.

Para obter imagens de várias perspectivas a partir de dados reais, como imagens de carros disponíveis publicamente na Web, os pesquisadores da NVIDIA recorreram a um modelo de GAN, manipulando as camadas da rede neural dele para transformá-lo em um gerador de dados.

A equipe observou que, quando abria as 4 primeiras camadas da rede neural e suspendia as outras 12, a GAN renderizava imagens do mesmo objeto de perspectivas diferentes. Já quando suspendiam as 4 primeiras camadas e variavam as outras 12, a rede neural gerava imagens diferentes a partir do mesmo ponto de vista. Ao atribuir manualmente ângulos-padrão, com automóveis retratados a uma elevação e uma distância da câmera específicas, os pesquisadores conseguiram gerar rapidamente um conjunto de dados de várias perspectivas a partir de imagens 2D individuais.

O modelo final, treinado com 55 mil imagens de carros geradas pela GAN, superou o desempenho de uma rede de gráficos inversos treinada com o famoso conjunto de dados Pascal3D.

Quem tiver interesse

Os interessados podem conferir o artigo completo da ICLR, escrito por Wenzheng Chen, Jun Gao e Huan Ling, pesquisadores da NVIDIA; Sanja Fidler, diretora do NVIDIA Toronto Artificial Intelligence Lab; Yuxuan Zhang, estudante da Universidade de Waterloo; Yinan Zhang, estudante da Universidade de Stanford; e Antonio Torralba, professor do MIT. Também contribuíram para a escrita do artigo da CVPR Jean-Francois Lafleche, o pesquisador da NVIDIA Kangxue Yin e Adela Barriuso.

A equipe de pesquisa na NVIDIA é formada por mais de 200 cientistas de todo o mundo especializados em áreas como IA, visão computacional, automóveis autônomos, robótica e gráficos.

Confira a apresentação do CEO da NVIDIA, Jensen Huang, no GPU Technology Conference, que ocorreu recentemente.