NVIDIA выложила в открытый доступ Lyra 2.0. Это ИИ для генерации полноценных интерактивных 3D-миров всего лишь из одной фотографии.
Код и веса модели опубликованы на Hugging Face и GitHub под лицензией Apache 2.0, разрешающей коммерческое использование.
Как это работает
После загрузки изображения, Lyra 2.0 сначала создает видеопрохождение с управляемыми траекториями камеры. Затем ИИ восстанавливает из него 3D-сцену в формате Gaussian splats и полигональных сеток.
Готовые модели можно напрямую импортировать в игровые движки и симуляторы для рендеринга в реальном времени. Разрешение вывода — 832 × 480 пикселей.
В основе фреймворка лежит диффузионный трансформер Wan 2.1-14B.
Какие технические проблемы решили
Предыдущие подходы к генерации 3D-миров страдали от двух проблем при длительном движении камеры.
Первая — «пространственная забывчивость. Т.е банальное несоответствие между передним и задним планом при развороте камеры. Lyra 2.0 решает это, сохраняя геометрическую информацию для каждого кадра.
Вторая — «временной дрейф». Здесь речь идет о накопительных ошибках между кадрами, которые постепенно искажают сцену. Решить эту проблему помогло самоулучшающее обучение — модель учится исправлять собственные ошибки в процессе генерации.
