DiffPortrait360: создание 360-градусных видов из одного портрета

Последние ресурсы по искусственному интеллектуОпубликовано 9 месяцев назад Круг обмена ИИ

35.8K 00

Общее введение

DiffPortrait360 - это проект с открытым исходным кодом, который является частью работы CVPR 2025 "DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis". Он генерирует последовательный 360-градусный вид головы из одной портретной фотографии, поддерживая реальных людей, стилизованные изображения и антропоморфных персонажей, включая даже такие детали, как очки и шляпы. Проект основан на диффузионной модели (LDM) в сочетании с ControlNet и модулем Dual Appearance для генерации высококачественных нейронных полей излучения (NeRF), которые могут быть использованы для рендеринга в реальном времени в режиме свободного просмотра. Она подходит для иммерсивного телеприсутствия и создания персонализированного контента и уже привлекает внимание академических кругов и сообщества разработчиков.

Список функций

Создайте 360-градусный вид головы из одной портретной фотографии.
Поддерживает создание реальных людей, стилизованных изображений и антропоморфных персонажей.
Используйте ControlNet для создания обратной информации, чтобы обеспечить реалистичную картину.
Вывод высококачественных NeRF-моделей с поддержкой рендеринга в режиме свободного просмотра.
Согласованность переднего и заднего видов поддерживается модулем двойного внешнего вида.
Открытый исходный код для выводов и предварительно обученные модели, которые разработчики могут использовать и модифицировать.
Предоставляет тестовые данные, полученные через Интернет, с помощью Pexels и 1000 реальных портретов.

Использование помощи

DiffPortrait360 является инструментом для разработчиков и исследователей и требует определенной технической базы. Ниже приведены подробные инструкции по установке и использованию.

Процесс установки

Подготовьте оборудование и системы
Вам понадобится графический процессор NVIDIA с поддержкой CUDA и минимум 30 ГБ оперативной памяти (для создания 32 кадров видео), рекомендуется 80 ГБ (например, A6000). Операционная система должна быть Linux.
- Проверьте версию CUDA, для запуска рекомендуется 12.2:
```
nvcc --version
```
Создание среды
Создание среды Python 3.9 с помощью Conda:

conda env create -n diffportrait360 python=3.9
conda activate diffportrait360

Клонирование кода
Загрузите код проекта локально:

git clone https://github.com/FreedomGu/DiffPortrait360.git
cd DiffPortrait360/diffportrait360_release

Установка зависимостей
Проектные предложения requirements.txtВыполните следующую команду, чтобы установить его:

pip install -r requirements.txt

Если вы столкнулись с конфликтом зависимостей, обновите pip:
```
pip install --upgrade pip
```

Загрузите предварительно обученную модель
Загрузите модель с сайта Hugging Face:

интервью Ссылки по ВЧ.
загрузка PANO_HEAD_MODEL, иHead_Back_MODEL ответить пением Diff360_MODEL.
Поместите модель в локальный путь и inference.sh Измените соответствующий путь, например:
```
PANO_HEAD_MODEL=/path/to/pano_head_model
```

Среда верификации
Проверьте, доступен ли графический процессор:

python -c "import torch; print(torch.cuda.is_available())"

экспорт True Указывает на нормальную среду.

Работа основных функций

Создайте 360-градусный вид заголовка

Подготовка к вводу данных

Подготовьте фронтальную портретную фотографию (JPEG или PNG) с рекомендуемым разрешением 512x512 или выше.
Поместите фотографию в input_image/ (если папка не существует, создайте ее вручную).
усиление dataset.json(информация о камере), см. Руководство по кадрированию PanoHead Обработайте свои собственные фотографии.

Запуск сценариев вывода

Перейдите в каталог кода:
```
cd diffportrait360_release/code
```
Исполнительное обоснование:
```
bash inference.sh
```
Выходные данные будут сохранены в указанной папке (по умолчанию) output/).

Посмотреть результаты

На выходе получаются изображения с многоугольным обзором и файлы моделей NeRF (.nerf (Формат).
Загрузите с помощью инструмента рендеринга NeRF, например NeRFStudio. .nerf файл, отрегулируйте угол обзора, чтобы увидеть 360-градусный эффект.

Оптимизация задней стенки с помощью ControlNet

существовать inference.sh Включите модуль генерации задней стенки в параметрах Изменить:

--use_controlnet

После работы детализация заднего плана станет более реалистичной для сложных сцен.

Обоснование пользовательских данных

Размещение пользовательских фотографий в input_image/.
создание dataset.jsonУбедитесь, что информация о камере верна.
Бег:

bash inference.sh

предостережение

Недостаточный объем памяти GPU может привести к сбою, поэтому рекомендуется использовать видеокарту с большим объемом памяти.
Проект не предоставляет обучающий код и поддерживает только вывод. Следите за обновлениями на GitHub, чтобы быть в курсе последних событий.
Данные испытаний доступны в Обнимающееся лицо Загрузите с Pexels 1000 реальных портретов.

сценарий применения

Иммерсивные телеконференции
Пользователи могут создавать 360-градусный вид головы с помощью одной фотографии, чтобы повысить реалистичность виртуальных встреч.
Дизайн игровых персонажей
Разработчики генерируют 3D-модели головы на основе концептуальных рисунков, чтобы ускорить процесс разработки игры.
Создание цифрового искусства
Художники используют его для создания стилизованных аватаров для NFT или презентаций в социальных сетях.

QA

Каковы минимальные требования к оборудованию?
Требуется графический процессор NVIDIA с поддержкой CUDA, минимум 30 ГБ оперативной памяти, рекомендуется 80 ГБ.
Поддерживает ли он фотографии с низким разрешением?
Не рекомендуется. Детали могут быть потеряны, а результаты могут ухудшиться, если разрешение входного сигнала ниже 512x512.
Возможно ли создать видео?
Текущая версия генерирует статические последовательности представлений, которые могут быть преобразованы в видео с помощью инструмента, но не поддерживает прямой вывод динамического видео.