Hallo2: 오디오 기반 립싱크/표정 동기화 인물 동영상 생성(Windows의 경우 원클릭 설치)

64.3K 00

일반 소개

Hallo2는 푸단대학교와 바이두가 오디오 기반 생성을 통해 고해상도 인물 애니메이션을 생성하기 위해 공동 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 고급 GAN(생성적 적대 신경망)과 시간적 정렬 기술을 활용하여 4K 해상도와 최대 1시간 분량의 동영상을 생성하며, 생성된 콘텐츠의 다양성과 제어 가능성을 높이기 위해 텍스트 프롬프트도 지원합니다.

오디오 신호와 얼굴 표정 사이의 복잡한 관계를 효과적으로 포착하는 교차 주의 메커니즘을 도입하여 오디오 컨디셔닝을 가능하게 하는 Hallo3가 출시되어 놀라운 립싱크를 실현했습니다.
참고: Hallo3는 추론을 위한 입력 데이터에 대해 다음과 같은 간단한 요구 사항을 가지고 있습니다:
참조 이미지: 참조 이미지의 가로 세로 비율은 1:1 또는 3:2여야 합니다.
드라이버 오디오: 드라이버 오디오는 WAV 형식이어야 합니다.
오디오 언어: 모델의 학습 데이터 세트에 이 언어만 포함되어 있으므로 오디오는 영어여야 합니다.
오디오 선명도: 오디오에서 보컬이 선명한지, 배경 음악은 허용되는지 확인합니다.

기능 목록

오디오 기반 애니메이션 생성: 오디오 파일을 입력하여 해당 세로 애니메이션을 생성합니다.
고해상도 지원선명한 화질을 보장하기 위해 4K 해상도의 동영상 생성을 지원합니다.
긴 동영상 생성최대 1시간 길이의 동영상 콘텐츠를 생성할 수 있습니다.
텍스트 알림 개선시맨틱 텍스트 레이블을 통해 생성된 인물 표현 및 동작을 제어합니다.
오픈 소스전체 소스 코드와 사전 학습된 모델이 제공되어 2차 개발이 용이합니다.
멀티 플랫폼 지원Windows, Linux 등 여러 플랫폼에서 실행을 지원합니다.

도움말 사용

설치 프로세스

시스템 요구 사항::
- 운영 체제: 우분투 20.04/22.04
- GPU: CUDA 11.8을 지원하는 그래픽 카드(예: A100)

가상 환경 만들기::

conda create -n hallo python=3.10
conda activate hallo

종속성 설치::

pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt
sudo apt-get install ffmpeg

사전 학습된 모델 다운로드::

git lfs install
git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models

사용 프로세스

데이터 입력 준비::
- 필요한 사전 학습된 모델을 다운로드하여 준비합니다.
- 소스 이미지와 드라이버 오디오 파일을 준비합니다.

추론 스크립트 실행::

python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio

생성된 결과 보기::
- 생성된 동영상 파일은 지정된 출력 디렉토리에 저장되며 모든 동영상 플레이어를 사용하여 볼 수 있습니다.

세부 단계

코드 다운로드::

git clone https://github.com/fudan-generative-vision/hallo2
cd hallo2

가상 환경 만들기 및 활성화::

conda create -n hallo python=3.10
conda activate hallo

필요한 Python 패키지 설치::

pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt

ffmpeg 설치::
```
sudo apt-get install ffmpeg
```

사전 학습된 모델 다운로드::

git lfs install
git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models

추론 스크립트 실행::

python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio

생성된 결과 보기::
- 생성된 동영상 파일은 지정된 출력 디렉토리에 저장되며 모든 동영상 플레이어를 사용하여 볼 수 있습니다.

안녕하세요2: Windows 원클릭 설치 프로그램

https://pan.quark.cn/s/aa9fc15a786f
추출 코드: 51XY

최신 AI 리소스 # AI 디지털 맨

Gemini CLI - 구글 오픈 소스 프로그래밍 에이전트

최신 AI 리소스

9개월 전

043.9K

GraphMaker: AI 지능형 차트 생성 및 데이터 시각화(유료)

최신 AI 리소스 # AI 데이터 분석

1 년 전

053K

Luma Labs：Luma 系列视觉模型，使用丰富的自然语言描述来生成高质量图像和视频

Luma Labs: 풍부한 자연어 설명을 사용하여 고품질 이미지와 동영상을 생성하는 시각적 모델인 Luma 제품군

1 년 전

064.2K

RoboBrain-X0 - 위즈덤 소스 연구소 오픈 소스 제로 샘플 크로스 온톨로지 일반화 구현 모델

최신 AI 리소스

6개월 전

033.6K

댓글 없음

댓글에 참여하려면 로그인해야 합니다!

지금 로그인

댓글 없음...

Hallo2: 오디오 기반 립싱크/표정 동기화 인물 동영상 생성(Windows의 경우 원클릭 설치)

일반 소개

기능 목록

도움말 사용

설치 프로세스

사용 프로세스

세부 단계

안녕하세요2: Windows 원클릭 설치 프로그램

촨후 채팅: 다기능 플러그인의 로컬 배포를 위한 채팅 웹 도구

Flux Pro Art: 모든 사용자에게 모든 Flux Pro 모델에 대한 안전하고 개방적인 액세스 제공

관련 문서

Gemini CLI - 구글 오픈 소스 프로그래밍 에이전트

GraphMaker: AI 지능형 차트 생성 및 데이터 시각화(유료)

Luma Labs: 풍부한 자연어 설명을 사용하여 고품질 이미지와 동영상을 생성하는 시각적 모델인 Luma 제품군

RoboBrain-X0 - 위즈덤 소스 연구소 오픈 소스 제로 샘플 크로스 온톨로지 일반화 구현 모델

댓글 없음

최신 컬렉션

최신 기사

Hallo2: 오디오 기반 립싱크/표정 동기화 인물 동영상 생성(Windows의 경우 원클릭 설치)

일반 소개

기능 목록

도움말 사용

설치 프로세스

사용 프로세스

세부 단계

안녕하세요2: Windows 원클릭 설치 프로그램

촨후 채팅: 다기능 플러그인의 로컬 배포를 위한 채팅 웹 도구

Flux Pro Art: 모든 사용자에게 모든 Flux Pro 모델에 대한 안전하고 개방적인 액세스 제공

관련 문서

Gemini CLI - 구글 오픈 소스 프로그래밍 에이전트

GraphMaker: AI 지능형 차트 생성 및 데이터 시각화(유료)

Luma Labs: 풍부한 자연어 설명을 사용하여 고품질 이미지와 동영상을 생성하는 시각적 모델인 Luma 제품군

RoboBrain-X0 - 위즈덤 소스 연구소 오픈 소스 제로 샘플 크로스 온톨로지 일반화 구현 모델

댓글 없음

선택한 AI 도구

최신 컬렉션

최신 기사