DiffPortrait360: genere vistas de cabecera de 360 grados a partir de un único retrato

Últimos recursos sobre IAPublicado hace 12 meses Círculo de intercambio de inteligencia artificial

54.4K 00

Introducción general

DiffPortrait360 es un proyecto de código abierto que forma parte del documento CVPR 2025 "DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis". Genera una vista consistente de 360 grados de la cabeza a partir de una única foto de retrato, admitiendo humanos reales, imágenes estilizadas y personajes antropomórficos, incluyendo incluso detalles como gafas y sombreros. El proyecto se basa en un modelo de difusión (LDM), combinado con ControlNet y el módulo Dual Appearance para generar campos neuronales de radiación (NeRF) de alta calidad que pueden utilizarse para renderizar vistas libres en tiempo real. Es adecuado para la telepresencia inmersiva y la creación de contenidos personalizados, y ya está acaparando la atención del mundo académico y la comunidad de desarrolladores.

Lista de funciones

Genere una vista de 360 grados de la cabeza a partir de una sola foto de retrato.
Admite la generación de humanos reales, imágenes estilizadas y personajes antropomórficos.
Utilice ControlNet para generar detalles retrospectivos que garanticen una visión realista.
Generación de modelos NeRF de alta calidad con soporte de renderizado de vista libre.
El módulo de doble apariencia mantiene la coherencia de las vistas delantera y trasera.
Código de inferencia de código abierto y modelos preformados para que los desarrolladores los utilicen y modifiquen.
Proporciona datos de prueba capturados en Internet con Pexels y miles de retratos reales.

Utilizar la ayuda

DiffPortrait360 es una herramienta para desarrolladores e investigadores y requiere una cierta base técnica. A continuación se ofrecen instrucciones detalladas de instalación y uso.

Proceso de instalación

Preparar el hardware y los sistemas
Necesitarás una GPU NVIDIA compatible con CUDA y un mínimo de 30 GB de RAM (para generar 32 fotogramas de vídeo); se recomiendan 80 GB (por ejemplo, A6000). El sistema operativo debe ser Linux.
- Compruebe la versión CUDA, se recomienda 12.2 para funcionar:
```
nvcc --version
```
Creación del entorno
Creación de un entorno Python 3.9 con Conda:

conda env create -n diffportrait360 python=3.9
conda activate diffportrait360

Clonación de código
Descargue localmente el código del proyecto:

git clone https://github.com/FreedomGu/DiffPortrait360.git
cd DiffPortrait360/diffportrait360_release

Instalación de dependencias
Ofertas de proyectos requirements.txtejecute el siguiente comando para instalarlo:

pip install -r requirements.txt

Si encuentra un conflicto de dependencias, actualice el pip:
```
pip install --upgrade pip
```

Descargar modelo preentrenado
Descarga el modelo de Hugging Face:

entrevistas Enlaces HF.
descargando PANO_HEAD_MODELyHead_Back_MODEL responder cantando Diff360_MODEL.
Coloque el modelo en la ruta local y inference.sh Modifique la ruta correspondiente en, por ejemplo:
```
PANO_HEAD_MODEL=/path/to/pano_head_model
```

Entorno de verificación
Comprueba si la GPU está disponible:

python -c "import torch; print(torch.cuda.is_available())"

exportaciones True Indica un entorno normal.

Funcionamiento de las funciones principales

Generar vista de cabecera de 360 grados

Preparación de la introducción de datos

Prepare una foto de retrato frontal (JPEG o PNG) con una resolución recomendada de 512x512 o superior.
Coloque la foto en el input_image/ (si esta carpeta no existe, créela manualmente).
ganar dataset.json(información de la cámara), consulte Guía de recorte de PanoHead Procesa tus propias fotos.

Ejecución de scripts de inferencia

Vaya al directorio de códigos:
```
cd diffportrait360_release/code
```
Razonamiento ejecutivo:
```
bash inference.sh
```
La salida se guardará en la carpeta especificada (por defecto) output/).

Ver resultados

El resultado consiste en imágenes multiángulo y archivos de modelos NeRF (.nerf (Formato).
Carga utilizando una herramienta de renderizado NeRF como NeRFStudio. .nerf ajuste el ángulo de visión para ver el efecto de 360 grados.

Optimización de la parte trasera con ControlNet

existe inference.sh Habilite el módulo de generación de reversos en Modificar parámetros:

--use_controlnet

Después de ejecutarlo, el detalle del fondo será más realista para las escenas complejas.

Razonamiento de datos personalizado

Poner fotos personalizadas en input_image/.
generando dataset.jsonAsegúrese de que la información de la cámara es correcta.
Corriendo:

bash inference.sh

advertencia

Una memoria GPU insuficiente puede provocar fallos, se recomienda utilizar una tarjeta gráfica de alta memoria.
El proyecto no proporciona código de entrenamiento y sólo admite inferencia. Siga las actualizaciones de GitHub para conocer los últimos avances.
Los datos de las pruebas pueden descargarse del Cara de abrazo Descarga con Pexels y 1000 retratos reales.

escenario de aplicación

Teleconferencias inmersivas
Los usuarios pueden generar una vista de 360 grados de la cabeza con una sola foto para aumentar el realismo de las reuniones virtuales.
Diseño de personajes
Los desarrolladores generan modelos de cabezas en 3D a partir de dibujos conceptuales para acelerar el proceso de desarrollo del juego.
Creación de arte digital
Los artistas lo utilizan para generar avatares estilizados para NFT o presentaciones en redes sociales.

CONTROL DE CALIDAD

¿Cuáles son los requisitos mínimos de hardware?
Requiere una GPU NVIDIA compatible con CUDA y un mínimo de 30 GB de RAM; se recomiendan 80 GB.
¿Admite fotos de baja resolución?
No se recomienda. Pueden perderse detalles y deteriorarse los resultados cuando la resolución de entrada es inferior a 512x512.
¿Es posible generar un vídeo?
La versión actual genera secuencias de vistas estáticas, que la herramienta puede convertir en vídeo, pero no admite la salida directa de vídeo dinámico.