Генеративный ИИ для панорамных изображений на 360°

В последние годы генеративный ИИ добился значительного прогресса, позволив машинам генерировать изображения, текст и даже музыку. Тем не менее, ряд модальностей данных все еще отсутствует.

Некоторые из наиболее известных генеративных моделей включают GPT-4, языковую модель, которая может генерировать человекоподобный текст, и DALL-E 2, модель генерации изображений, которая может создавать высококачественные изображения из текстовых описаний. Стабильная диффузия добилась значительных успехов в создании высококачественных изображений. Поскольку исследования продолжаются, возможности генеративного ИИ кажутся почти безграничными.

Ограничения

Однако большинство генеративных моделей ИИ адаптированы к данным, определенным в евклидовых областях, таких как 2D-изображения или 1D-аудиосигналы. Тем не менее, во многих областях данные часто определяются в неевклидовой геометрии, что приводит к возникновению области геометрического глубокого обучения (см. Краткое введение в геометрическое глубокое обучение).

Подходы к геометрическому глубокому обучению широки, но одним из наиболее распространенных случаев является групповая настройка (см. Геометрическое глубокое обучение в группах), например наблюдения, определенные на сфере. Сферические данные возникают во многих областях, от наблюдений над Землей до панорамных 360° фото и видео в виртуальной реальности, до астрономических наблюдений за реликтовым светом Большого Взрыва, который наблюдается на небесной сфере.

Чтобы использовать преимущества генеративного ИИ для таких данных со сложной геометрией, нам необходимо объединить геометрический и генеративный ИИ.

Генеративные архитектуры ИИ

Современные модели генеративного ИИ обычно используют один из следующих подходов.

  1. GAN (генеративно-состязательные сети) используют генератор и сеть-дискриминатор для создания новых выборок данных, противопоставляя их друг другу в игре с нулевой суммой.
  2. VAE (вариационные автоэнкодеры) — это генеративные модели, которые изучают сжатое представление входных данных и используют его для создания новых выборок.
  3. Нормализующие потоки — это класс генеративных моделей, в которых используется серия обратимых преобразований для моделирования распределения вероятностей данных.
  4. Модели диффузии используют процесс диффузии с шумоподавлением для создания высококачественных изображений.

Текущее состояние дел с точки зрения качества генерируемого изображения обычно достигается с помощью GAN или диффузионных моделей. Поэтому мы сосредоточимся на этих подходах и изучим, как их можно распространить на геометрические параметры.

На пути к генеративному геометрическому ИИ для изображений 360°

Для конкретности давайте сосредоточимся на общем случае сферических данных и, в частности, панорамных изображений 360°.

В то время как модели нормализации потоков и диффузии были расширены на сферические условия в недавних пионерских исследованиях [1,2], эти подходы сосредоточены на поле плотности в сферических координатах, тогда как здесь нас интересует пикселизированное изображение на сфере.

Чтобы распространить как GAN, так и диффузионные модели на сферические данные, базовые архитектуры этих подходов должны быть расширены для естественного моделирования базовой сферической геометрии. Для этого нам нужно, чтобы базовые слои, формирующие строительные блоки этой архитектуры, были расширены до сферы. В прошлом такие сферические слои страдали от вычислительных ограничений. Однако недавно эти вычислительные ограничения были преодолены в гибридной дискретно-непрерывной (DISCO) структуре [3], которая обеспечивает сферические слои, которые являются одновременно высокоэффективными и эффективными с точки зрения вычислений (см. нашу недавнюю статью о Hybrid Discrete-Continuous Геометрическое глубокое обучение).

GAN построены на дискриминаторе (т. е. классификаторе) и генераторе, который поддерживает плотные прогнозы, часто сами построенные на слоях CNN для данных изображения (см. Краткое введение в GAN для получения дополнительной информации). Все эти компоненты уже распространены на сферу [3,4]; следовательно, у нас есть все строительные блоки, необходимые для расширения GAN до сферических данных.

Для моделей распространения требуется изученный показатель или, что то же самое, шумоподавитель, часто основанный на архитектуре в стиле U-Net (дополнительные сведения см. в разделе An Introduction to Stable Diffusion). Опять же, U-сети для изображений с высоким разрешением уже были расширены до сферы [3], и, таким образом, у нас есть именно те строительные блоки, с которыми нам нужно работать.

В это время

В CopernicAI мы работаем именно над этими типами архитектур, чтобы привнести генеративный ИИ в геометрические данные, такие как 360-градусные изображения.

Однако до тех пор, пока эти новые модели не будут готовы, мы модернизировали Stable Diffusion для поддержки генерации изображений 360°.

Стабильная диффузия неправильно моделирует базовую сферическую природу данных 360°, поэтому то, что может быть достигнуто путем модернизации, несколько ограничено, а качество сгенерированных изображений немного страдает. Тем не менее, мы уже можем генерировать довольно хорошие 360-градусные изображения.

Компания CopernicAI только что выпустила подсказку, доступную здесь, так что теперь каждый может создавать 360-градусные изображения, сгенерированные искусственным интеллектом, для своего использования.

А с будущими разработками, в которых базовой геометрией сферы является правильная модель, как описано выше, качество генерируемых 360-градусных изображений будет только повышаться.

Рекомендации

[1] Резенде, Папамакариос, Раканьер, Альберго, Канвар, Шанахан, Кранмер, Нормализация потоков на торах и сферах, ICML (2020), arXiv:2002.02428

[2] Де Бортоли, Матье, Хатчинсон, Торнтон, Тех, Дусе, Риманово генеративное моделирование на основе показателей, NeurIPS (2022), arXiv:2202.02763

[3] Ocampo, Price, McEwen, Масштабируемые и эквивариантные сферические CNN с помощью дискретно-непрерывных (DISCO) сверток, ICLR (2023), arXiv:2209.13603

[4] Макьюэн, Уоллис, Мавор-Паркер, Сети рассеяния на сфере для масштабируемых и вращательно-эквивариантных сферических CNN, ICLR (2022), arXiv:2102.02828