EchoMimic: 오디오 기반 인물 사진으로 말하는 동영상 생성(EchoMimicV2 가속 설치 프로그램)

60.5K 00

일반 소개

에코미믹은 오디오로 사실적인 인물 애니메이션을 생성하는 것을 목표로 하는 오픈 소스 프로젝트입니다. 앤트 그룹의 터미널 기술 부서에서 개발한 이 프로젝트는 편집 가능한 마커 포인트 조건을 활용하여 오디오와 얼굴 마커 포인트를 결합한 역동적인 인물 동영상을 생성하며, 여러 공개 및 독점 데이터 세트에서 종합적으로 비교하여 정량적, 정성적 평가 모두에서 우수한 성능을 입증했습니다.

EchoMimicV2 버전은 추론 속도를 최적화하고 제스처 동작을 추가하며 권장합니다.

EchoMimic：音频驱动人像照片生成说话视频（EchoMimicV2加速版安装包）

데모 주소: https://www.modelscope.cn/studios/BadToBest/BadToBest V2: https://huggingface.co/spaces/fffiloni/echomimic-v2

기능 목록

오디오 드라이버 애니메이션오디오 입력으로 사실적인 인물 애니메이션을 생성합니다.
마커 포인트 기반 애니메이션얼굴 마커 포인트를 사용하여 안정적인 인물 애니메이션을 생성합니다.
오디오 + 마커 드라이버오디오와 선택한 얼굴 마커를 결합하여 더욱 자연스러운 인물 애니메이션을 생성합니다.
다국어 지원중국어, 영어 및 기타 언어의 오디오 입력을 지원합니다.
효율적인 추론최적화된 모델과 파이프라인으로 추론 속도가 크게 향상됩니다.

도움말 사용

설치 프로세스

코드 다운로드::

git clone https://github.com/BadToBest/EchoMimic
cd EchoMimic

Python 환경 설정::
- 가상 환경을 만들 때는 콘다를 사용하는 것이 좋습니다:
```
conda create -n echomimic python=3.8
conda activate echomimic
```
- 종속성 패키지를 설치합니다:
```
pip install -r requirements.txt
```
ffmpeg-static 다운로드 및 압축 풀기::
- ffmpeg-static을 다운로드하여 압축을 푼 다음 환경 변수를 설정합니다:
```
export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static
```
사전 트레이닝 웨이트 다운로드::
- 프로젝트 설명에 따라 적절한 사전 학습된 모델 가중치를 다운로드하세요.

사용 프로세스

웹 인터페이스 실행::
- 웹 인터페이스를 시작합니다:
```
python webgui.py
```
- 로컬 서버를 방문하여 인터페이스를 확인하고 애니메이션 생성을 위한 오디오 파일을 업로드하세요.

명령줄 추론::

오디오 기반 인물 애니메이션을 생성하려면 다음 명령을 사용합니다:
```
python infer_audio2vid.py --audio_path /path/to/audio --output_path /path/to/output
```

푯말과 함께 추론하기:

python infer_audio2vid_pose.py --audio_path /path/to/audio --landmark_path /path/to/landmark --output_path /path/to/output

모델 최적화::
- 최적화된 모델과 파이프라인을 사용하면 추론 속도를 크게 향상시킬 수 있습니다(예: V100 GPU에서 7분/240fps에서 50초/240fps로).

주의

사용된 Python 버전과 CUDA 버전이 프로젝트 요구 사항과 일치하는지 확인합니다.
사용 중 문제가 발생하면 프로젝트의 README 파일을 참조하거나 GitHub에 이슈를 제출하여 도움을 받을 수 있습니다.

Windows 원클릭 설치 관리자

링크: https://pan.quark.cn/s/cc973b142d41
추출 코드: 5T57

EchoMimicV2 가속 다운로드

Quark: https://pan.quark.cn/s/12acd147a758

바이두: https://pan.baidu.com/s/1z8tiuGtN29luQ7Cg2zHJ8Q?pwd=9e8x

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 디지털 맨

오토젠 스튜디오: 사용하기 쉬운 멀티 에이전트 시스템 오토젠의 인터페이스 버전

1 년 전

077.9K

Zencoder: 심층적인 코드베이스 이해를 위한 지능형 보조 프로그래밍 도구

최신 AI 리소스 # AI 프로그래밍

1 년 전

072.1K

보이스플로우: AI 인텔리전스 구축을 위한 글쓰기, 고객 서비스 대화 도구 배포하기 | 고객 서비스 프로세스 조율하기

최신 AI 리소스 # 지식 검색 및 RAG 프레임워크

2 년 전

057.8K

워드프레스, 인공지능 웹사이트 빌더 출시

최신 AI 리소스 # AI 페이지 디자인

12개월 전

052.9K

댓글 없음

댓글에 참여하려면 로그인해야 합니다!

지금 로그인

댓글 없음...

EchoMimic: 오디오 기반 인물 사진으로 말하는 동영상 생성(EchoMimicV2 가속 설치 프로그램)

일반 소개

기능 목록