DiffPortrait360: создание 360-градусных видов из одного портрета
Общее введение
DiffPortrait360 - это проект с открытым исходным кодом, который является частью работы CVPR 2025 "DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis". Он генерирует последовательный 360-градусный вид головы из одной портретной фотографии, поддерживая реальных людей, стилизованные изображения и антропоморфных персонажей, включая даже такие детали, как очки и шляпы. Проект основан на диффузионной модели (LDM) в сочетании с ControlNet и модулем Dual Appearance для генерации высококачественных нейронных полей излучения (NeRF), которые могут быть использованы для рендеринга в реальном времени в режиме свободного просмотра. Она подходит для иммерсивного телеприсутствия и создания персонализированного контента и уже привлекает внимание академических кругов и сообщества разработчиков.

Список функций
- Создайте 360-градусный вид головы из одной портретной фотографии.
- Поддерживает создание реальных людей, стилизованных изображений и антропоморфных персонажей.
- Используйте ControlNet для создания обратной информации, чтобы обеспечить реалистичную картину.
- Вывод высококачественных NeRF-моделей с поддержкой рендеринга в режиме свободного просмотра.
- Согласованность переднего и заднего видов поддерживается модулем двойного внешнего вида.
- Открытый исходный код для выводов и предварительно обученные модели, которые разработчики могут использовать и модифицировать.
- Предоставляет тестовые данные, полученные через Интернет, с помощью Pexels и 1000 реальных портретов.
Использование помощи
DiffPortrait360 является инструментом для разработчиков и исследователей и требует определенной технической базы. Ниже приведены подробные инструкции по установке и использованию.
Процесс установки
- Подготовьте оборудование и системы
Вам понадобится графический процессор NVIDIA с поддержкой CUDA и минимум 30 ГБ оперативной памяти (для создания 32 кадров видео), рекомендуется 80 ГБ (например, A6000). Операционная система должна быть Linux.- Проверьте версию CUDA, для запуска рекомендуется 12.2:
nvcc --version
- Проверьте версию CUDA, для запуска рекомендуется 12.2:
- Создание среды
Создание среды Python 3.9 с помощью Conda:
conda env create -n diffportrait360 python=3.9
conda activate diffportrait360
- Клонирование кода
Загрузите код проекта локально:
git clone https://github.com/FreedomGu/DiffPortrait360.git
cd DiffPortrait360/diffportrait360_release
- Установка зависимостей
Проектные предложенияrequirements.txt
Выполните следующую команду, чтобы установить его:
pip install -r requirements.txt
- Если вы столкнулись с конфликтом зависимостей, обновите pip:
pip install --upgrade pip
- Загрузите предварительно обученную модель
Загрузите модель с сайта Hugging Face:
- интервью Ссылки по ВЧ.
- загрузка
PANO_HEAD_MODEL
, иHead_Back_MODEL
ответить пениемDiff360_MODEL
. - Поместите модель в локальный путь и
inference.sh
Измените соответствующий путь, например:PANO_HEAD_MODEL=/path/to/pano_head_model
- Среда верификации
Проверьте, доступен ли графический процессор:
python -c "import torch; print(torch.cuda.is_available())"
экспорт True
Указывает на нормальную среду.
Работа основных функций
Создайте 360-градусный вид заголовка
- Подготовка к вводу данных
- Подготовьте фронтальную портретную фотографию (JPEG или PNG) с рекомендуемым разрешением 512x512 или выше.
- Поместите фотографию в
input_image/
(если папка не существует, создайте ее вручную). - усиление
dataset.json
(информация о камере), см. Руководство по кадрированию PanoHead Обработайте свои собственные фотографии.
- Запуск сценариев вывода
- Перейдите в каталог кода:
cd diffportrait360_release/code
- Исполнительное обоснование:
bash inference.sh
- Выходные данные будут сохранены в указанной папке (по умолчанию)
output/
).
- Посмотреть результаты
- На выходе получаются изображения с многоугольным обзором и файлы моделей NeRF (
.nerf
(Формат). - Загрузите с помощью инструмента рендеринга NeRF, например NeRFStudio.
.nerf
файл, отрегулируйте угол обзора, чтобы увидеть 360-градусный эффект.
Оптимизация задней стенки с помощью ControlNet
- существовать
inference.sh
Включите модуль генерации задней стенки в параметрах Изменить:
--use_controlnet
- После работы детализация заднего плана станет более реалистичной для сложных сцен.
Обоснование пользовательских данных
- Размещение пользовательских фотографий в
input_image/
. - создание
dataset.json
Убедитесь, что информация о камере верна. - Бег:
bash inference.sh
предостережение
- Недостаточный объем памяти GPU может привести к сбою, поэтому рекомендуется использовать видеокарту с большим объемом памяти.
- Проект не предоставляет обучающий код и поддерживает только вывод. Следите за обновлениями на GitHub, чтобы быть в курсе последних событий.
- Данные испытаний доступны в Обнимающееся лицо Загрузите с Pexels 1000 реальных портретов.
сценарий применения
- Иммерсивные телеконференции
Пользователи могут создавать 360-градусный вид головы с помощью одной фотографии, чтобы повысить реалистичность виртуальных встреч. - Дизайн игровых персонажей
Разработчики генерируют 3D-модели головы на основе концептуальных рисунков, чтобы ускорить процесс разработки игры. - Создание цифрового искусства
Художники используют его для создания стилизованных аватаров для NFT или презентаций в социальных сетях.
QA
- Каковы минимальные требования к оборудованию?
Требуется графический процессор NVIDIA с поддержкой CUDA, минимум 30 ГБ оперативной памяти, рекомендуется 80 ГБ. - Поддерживает ли он фотографии с низким разрешением?
Не рекомендуется. Детали могут быть потеряны, а результаты могут ухудшиться, если разрешение входного сигнала ниже 512x512. - Возможно ли создать видео?
Текущая версия генерирует статические последовательности представлений, которые могут быть преобразованы в видео с помощью инструмента, но не поддерживает прямой вывод динамического видео.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...