PSHuman: создание реалистичных 3D-моделей портретов, использование фотографии для создания 3D-модели человека

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

65.6K 00

Общее введение

PSHuman - это инструмент для реконструкции 3D-портретов по одному изображению, основанный на технологии многоракурсной диффузии. Инструмент способен генерировать детальные геометрические структуры и реалистичные 3D-модели портретов по одной фотографии одетого человека. Основная технология PSHuman включает кросс-масштабную многоракурсную диффузию, которая способна генерировать высококачественные 3D-портреты за короткий промежуток времени. Проект, разработанный командой pengHTYX, призван предоставить пользователям эффективное и простое в использовании решение для моделирования 3D-портретов.

Список функций

Реконструкция 3D-портретов по одному изображению: создание детальных 3D-моделей по отдельным портретным фотографиям.
Многоракурсная диффузия: создавайте высококачественные 3D-портреты с помощью многоракурсной диффузии.
Версия без SMPL: генерация нескольких ракурсов без условия SMPL, подходит для портретов с общим позированием.
Удаление фона: поддержка удаления фона с помощью инструментов Clipdrop или rembg.
Структурированный вывод: сгенерированные 3D-модели и отрендеренные видео сохраняются в виде структурированных файлов для удобства просмотра и обмена.

Использование помощи

Процесс установки

Создайте виртуальную среду и установите зависимости:

$ conda create -n pshuman python=3.10
$ conda activate pshuman
$ pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 --index-url https://download.pytorch.org/whl/cu121
$ pip install kaolin==0.17.0 -f https://nvidia-kaolin.s3.us-east-2.amazonaws.com/torch-2.1.0_cu121.html
$ pip install -r requirements.txt

Настройте связанную модель:
- Загрузите модели, связанные с ECON и SIFU, и реорганизуйте их в проекты.

Процесс использования

Удаление фона: Удалите фон портретной фотографии с помощью инструмента Clipdrop или rembg. Для инструмента rembg можно запустить следующий скрипт:
```
$ python utils/remove_bg.py --path $DATA_PATH$
```
Поместите сгенерированное RGBA-изображение в Каталог.

рассуждения о беге: Сгенерируйте текстурную сетку и отрендерите видео, запустив скрипт inference.py:

$ CUDA_VISIBLE_DEVICES=$GPU python inference.py --config configs/inference-768-6view.yaml \
pretrained_model_name_or_path='pengHTYX/PSHuman_Unclip_768_6views' \
validation_dataset.crop_size=740 \
with_smpl=false \
validation_dataset.root_dir=$DATA_PATH$ \
seed=600 \
num_views=7 \
save_mode='rgb'

Параметры настройки: Настройте crop_size (720 или 740) и seed (42 или 600) по мере необходимости для достижения наилучших результатов.

Основные функции

Реконструкция 3D-портрета по одному изображению: Пользователь предоставляет портретную фотографию, а система автоматически генерирует подробную 3D-модель.
Техника многоракурсной диффузии: Создание высококачественных 3D-портретов с помощью методов кросс-масштабной многоракурсной диффузии.
Удаление фона: Поддержка удаления фона с помощью инструментов Clipdrop или rembg для упрощения последующей обработки.
Структурированный выводСозданные 3D-модели и видеоролики сохраняются в виде структурированных файлов для удобства просмотра и обмена.

Подробная процедура работы

Предоставьте портретные фотографии: Пользователь предоставляет портретную фотографию и обрабатывает ее с помощью инструмента для удаления фона.
Запуск сценариев вывода: Генерируйте 3D-модели и рендерите видео, запуская скрипт inference.py.
Параметры настройки: Настройте параметры в сценарии вывода, чтобы получить наилучшие результаты.
Посмотреть и поделиться: Созданные 3D-модели и отрендеренные видеоролики сохраняются в виде структурированных файлов, которые могут непосредственно просматриваться и распространяться пользователями.

Последние ресурсы по искусственному интеллекту # AI Текст и изображение в 3D