NVIDIA выпустила ИИ, создающий интерактивные 3D-миры по фото

NVIDIA выпустила ИИ, создающий интерактивные 3D-миры по одному фото — Lyra 2.0

С дальнейшим экспортом в условный Unreal Engine 5

NVIDIA выложила в открытый доступ Lyra 2.0. Это ИИ для генерации полноценных интерактивных 3D-миров всего лишь из одной фотографии.

Код и веса модели опубликованы на Hugging Face и GitHub под лицензией Apache 2.0, разрешающей коммерческое использование.

Как это работает

После загрузки изображения, Lyra 2.0 сначала создает видеопрохождение с управляемыми траекториями камеры. Затем ИИ восстанавливает из него 3D-сцену в формате Gaussian splats и полигональных сеток.

Готовые модели можно напрямую импортировать в игровые движки и симуляторы для рендеринга в реальном времени. Разрешение вывода — 832 × 480 пикселей.

В основе фреймворка лежит диффузионный трансформер Wan 2.1-14B.

Какие технические проблемы решили

Предыдущие подходы к генерации 3D-миров страдали от двух проблем при длительном движении камеры.

Первая — «пространственная забывчивость. Т.е банальное несоответствие между передним и задним планом при развороте камеры. Lyra 2.0 решает это, сохраняя геометрическую информацию для каждого кадра.

Вторая — «временной дрейф». Здесь речь идет о накопительных ошибках между кадрами, которые постепенно искажают сцену. Решить эту проблему помогло самоулучшающее обучение — модель учится исправлять собственные ошибки в процессе генерации.

Автор: Булат Кармак

Соцсети: Юлия Зубарева