NVIDIA GTC21: GANverse3D превращает 2D снимки в модели 3D

nvidia-gtc Департамент разработок NVIDIA ведет множество программных проектов. Один из них - платформа 3D-разработки под названием Omniverse, которая сочетает все middleware, причем обеспечивается независимость от аппаратных платформ и поддержка вычислений в облаке. Важным преимуществом является и совместимость с различными программными 3D-пакетами.

Разработчики в Торонто (Канада) теперь представили GANverse3D - программу, преобразующую простое 2D-изображение в модель 3D. Для тренировки сети глубокого обучения разработчики использовали Generative Adversarial Network (GAN), которая синтезирует объект из фотографий, снятых под разными углами. Например, это может быть автомобиль. Данные изображения затем передаются в сеть рендеринга, которая строит 3D-каркас из 2D-кадров.

Используется специально натренированная нейросеть StyleGAN. Для тренировки использовались 5,7 млн. снимков автомобилей, 2 млн. снимков лошадей и 48 тыс. снимков птиц. Но не все фотографии получилось использовать для тренировки. В итоге остались 55.429 снимков машин, 16.392 - лошадей и 7.948 - птиц. Сеть глубокого обучения тренировалась с 200.000 итерациями и размером batch 16. Тренировка длилась 120 часов на четырех Tesla V100. Также проводились дополнительные тренировки для улучшения результатов.

Итог показан в галерее. 2D-снимки превращаются в 3D-модель. Кроме 3D-модели создаются и текстуры. Система распознает отдельные компоненты автомобиля, то есть двери, крышу, колеса, бампер и т.д. Соответственно, можно выполнять различные функции, такие как вращение и поворот колес, открывание дверей.

Данные 3D-модели все равно нужно улучшать, чтобы их можно было использовать в дальнейшем. NVIDIA видит в качестве сферы применения проекты архитекторов, 3D-дизайнеров и игровых разработчиков, которым приходилось ранее применять фотограмметрию или полностью создавать объекты с нуля. В зависимости от сложности объекта, на создание уходило от нескольких часов до дней. GANverse3D превращает 2D-снимок в готовую 3D-модель за считанные миллисекунды. Но качество пока еще оставляет желать лучшего.

NVIDIA будет продолжать вносить улучшения. Прежде всего, требуется более эффективный массив для тренировки. Особенно 3D-модели лошадей и птиц выглядят слишком грубыми. Причина в том, что очень много фотографий сделано сбоку, но очень мало сверху или снизу. По этой причине нейросеть просто не может распознать объекты с данных ракурсов. GANverse3D будет и дальше оптимизироваться, тренируясь на новых массивах данных. Кроме того, будет поступать обратная отдача, которая показывает, где нужно внести улучшения.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).