Pesquisadores da Nvidia apresentam uma estrutura de renderização que pode produzir objetos 3D a partir de imagens 2D

Os pesquisadores da Nvidia criaram uma estrutura de renderização que usa a Inteligência Artificial (IA) para pegar imagens em 2D e transformá-las em objetos 3D com precisão. O sistema é chamado DIB-R, abreviação de renderizador diferenciável baseado em interpolação e é construído no PyTorch, uma estrutura de machine learning. A equipe apresentará suas descobertas na conferência anual sobre sistemas de processamento de informações neurais em Vancouver, Washington, nesta semana.

Produzir objetos 3D a partir de imagens 2D

Essencialmente, a estrutura faz o oposto do que as GPUs geralmente fazem. Ela analisa uma imagem e forma um objeto 3D de alta fidelidade, incluindo forma, textura, cor e iluminação. A arquitetura codificador-decodificador começa com uma esfera poligonal e a transforma usando as informações fornecidas na imagem 2D.

O processo leva apenas um décimo de segundo, mas a rede neural leva dois dias para treinar usando uma única GPU V100 da Nvidia. A Nvidia afirma que o treinamento usando outras GPUs levaria várias semanas. Depois de alimentar vários conjuntos de dados contendo fotos de pássaros, o DIB-R conseguiu criar modelos 3D com precisão quando recebeu uma única imagem.

Modelos de pássaros em 3D. Crédito da imagem: Nvidia.

Neste experimento, os pássaros eram o foco. Porém, o co-autor do trabalho de pesquisa sobre o assunto, Jun Gao, disse que o sistema pode renderizar qualquer imagem 2D em um modelo 3D.

Gao disse:

Esta é essencialmente a primeira vez que você pode capturar praticamente qualquer imagem 2D e prever propriedades 3D relevantes.

Dessa forma, os pesquisadores acreditam que o sistema pode ser usado para fornecer percepção de profundidade a robôs autônomos, melhorando sua segurança e a sua precisão ao trabalhar em um ambiente. Assim, entender a tridimensionalidade das coisas ao seu redor permitirá que os robôs naveguem melhor e manipulem de maneira eficiente os objetos com os quais eles devem lidar.

Por fim, a Nvidia adicionou o DIB-R ao Kaolin, sua biblioteca 3D com deep learning no GitHub. Dessa maneira, o Kaolin ajudará os pesquisadores a acelerar experimentos de deep learning em 3D.

Afinal, você algum dia imaginou que seríamos capazes de produzir objetos 3D a partir de imagens 2D?

Fonte: Tech Spot

Produzir objetos 3D a partir de imagens 2D

Por Leonardo Santana