Quando a primeira foto instantânea foi tirada há 75 anos com uma câmera Polaroid, foi inovador capturar rapidamente o mundo 3D em uma imagem 2D realista. Hoje, os pesquisadores de inteligência artificial (IA) estão trabalhando no oposto: transformar uma coleção de imagens estáticas em uma cena 3D digital em questão de segundos.
Para isso, a NVIDIA, empresa que redefiniu a computação gráfica moderna, a computação de alto desempenho e IA, anuncia uma nova tecnologia chamada de campos de radiação neurais, ou NeRF. O resultado apelidado de Instant NeRF é um modelo de renderização neural que aprende uma cena 3D de alta resolução em segundos e pode renderizar imagens dessa cena em alguns milissegundos.
Conhecido como renderização inversa, o processo usa IA para aproximar como a luz se comporta no mundo real, permitindo que os pesquisadores reconstruam uma cena 3D a partir de um punhado de imagens 2D tiradas em diferentes ângulos. A equipe de pesquisa da NVIDIA desenvolveu uma abordagem que realiza essa tarefa quase instantaneamente, tornando-o um dos primeiros modelos de seu tipo a combinar treinamento de rede neural ultrarrápido e renderização rápida.
“As possibilidades dessa tecnologia são muito abrangentes, e esse é, com certeza, uma revolução para o 3D. São graus de realidade e profundidade alcançados em instantes, mas com dados muito mais simples“, afirma Marcio Aguiar, Diretor da divisão Entreprise da NVIDIA para América Latina.
A Instant NeRF é a técnica de NeRF mais rápida até hoje, alcançando mais de 1000 speedups (acelerações) em alguns casos. O modelo requer apenas alguns segundos para treinar em algumas dúzias de fotos – além de dados sobre os ângulos da câmera de onde foram tiradas – e pode renderizar a cena 3D em dezenas de milissegundos.
“Se as representações 3D tradicionais, como malhas poligonais, são semelhantes a imagens vetoriais, os NeRFs são como imagens de bitmap: eles capturam densamente a forma como a luz irradia de um objeto ou de uma cena”, explica David Luebke, vice-presidente de pesquisa gráfica da NVIDIA. “Nesse sentido, o Instant NeRF pode ser tão importante para o 3D quanto as câmeras digitais e a compressão JPEG foram para a fotografia 2D – aumentando muito a velocidade, a facilidade e o alcance da captura e compartilhamento em 3D.”
Apresentado em uma sessão no último NVIDIA GTC, o Instant NeRF pode ser usado para criar avatares ou cenas para mundos virtuais, capturar participantes de videoconferências e seus ambientes em 3D ou reconstruir cenas para mapas digitais 3D.
Em uma homenagem aos primeiros dias das imagens Polaroid, a NVIDIA Research recriou uma foto icônica de Andy Warhol tirando uma foto instantânea, transformando-a em uma cena 3D usando o InstanT NeRF.
O que é um NeRF?
Os NeRFs usam redes neurais para representar e renderizar cenas 3D realistas com base em uma coleção de entrada de imagens 2D.
Coletar dados para alimentar um NeRF é um pouco como ser um fotógrafo de tapete vermelho tentando capturar a roupa de uma celebridade de todos os ângulos – a rede neural requer algumas dezenas de imagens tiradas de várias posições ao redor da cena, bem como a posição da câmera de cada uma das fotos.
Em uma cena que inclui pessoas ou outros elementos em movimento, quanto mais rápido essas fotos forem capturadas, melhor. Se houver muito movimento durante o processo de captura de imagem 2D, a cena 3D gerada por IA ficará desfocada.
A partir daí, um NeRF essencialmente preenche os espaços em branco, treinando uma pequena rede neural para reconstruir a cena, prevendo a cor da luz que irradia em qualquer direção, de qualquer ponto no espaço 3D. A técnica pode até contornar oclusões – quando objetos vistos em algumas imagens são bloqueados por obstruções, como pilares em outras imagens.
Acelerando 1000 vezes com NeRF Instantâneo
Embora estimar a profundidade e a aparência de um objeto com base em uma visão parcial seja uma habilidade natural para os humanos, é uma tarefa exigente para a IA.
Criar uma cena 3D com métodos tradicionais leva horas ou mais, dependendo da complexidade e resolução da visualização. Trazer a IA para a imagem acelera as coisas. Os primeiros modelos de NeRF renderizavam cenas nítidas sem artefatos em poucos minutos, mas ainda levavam horas para treinar.
O NeRF instantâneo, no entanto, reduz o tempo de renderização em várias ordens de magnitude. Ele se baseia em uma técnica desenvolvida pela NVIDIA chamada codificação de grade de hash multi-resolução, que é otimizada para funcionar com eficiência em GPUs NVIDIA. Usando um novo método de codificação de entrada, os pesquisadores podem obter resultados de alta qualidade usando uma pequena rede neural que funciona rapidamente.
O modelo foi desenvolvido usando o NVIDIA CUDA Toolkit e a biblioteca Tiny CUDA Neural Networks. Por ser uma rede neural leve, ela pode ser treinada e executada em uma única GPU NVIDIA — rodando mais rápido em placas com NVIDIA Tensor Cores.
A tecnologia pode ser usada para treinar robôs e carros autônomos para entender o tamanho e a forma de objetos do mundo real, capturando imagens 2D ou vídeos deles. Também pode ser usado em arquitetura e entretenimento para gerar rapidamente representações digitais de ambientes reais que os criadores podem modificar e construir.
Além dos NeRFs, os pesquisadores da NVIDIA estão explorando como essa técnica de codificação de entrada pode ser usada para acelerar vários desafios de IA, incluindo aprendizado por reforço, tradução de idiomas e algoritmos de deep learning de uso geral.
Para saber mais sobre as pesquisas mais recentes da NVIDIA, os interessados podem conferir o replay do discurso do CEO Jensen Huang no GTC.