일반 소개
Wav2Lip은 임의의 오디오를 비디오의 립싱크와 정확하게 동기화하도록 설계된 오픈 소스 고정밀 립싱크 생성 툴입니다. 루드라바 무코파디야(Rudrabha Mukhopadhyay) 등이 ACM 멀티미디어 2020에서 발표한 이 도구는 고급 AI 기술을 활용하여 다양한 환경에서 고품질 립싱크가 가능하며, 연구, 학술 및 개인용으로 적합한 Wav2Lip은 완전한 훈련 코드, 추론 코드 및 사전 훈련된 모델이 함께 제공됩니다.
프로젝트가 반복된 지 오랜 시간이 지났으며, 최근에 최적화한 버전입니다:Easy-Wav2Lip: 고품질 비디오 립싱크를 위한 도구로, Wav2Lip에 최적화되어 있습니다. . Wav2Lip 통합 방법에 대한 자세한 내용은 다음을 참조하세요. 번역 스타터: 오픈 소스 비디오 콘텐츠 번역 동기화 도구 | 언어 변환 | 립싱크 .
Wav2Lip in 동기화 랩 무료 호스팅이 제공됩니다.
공동 작업실 노트:
https://colab.research.google.com/drive/1IjFW1cLevs6Ouyu4Yht4mnR4yeuMqO7Y#scrollTo=Qgo-oaI3JU2u
https://colab.research.google.com/drive/1tZpDWXz49W6wDcTprANRGLo2D_EbD5J8?usp=sharing
기능 목록
- 고정밀 립싱크: 모든 오디오를 비디오의 립싱크와 정확하게 동기화합니다.
- 다국어 지원: CGI 얼굴과 합성 사운드를 포함한 다양한 언어와 사운드로 작업할 수 있습니다.
- 오픈 소스 및 무료: 코드는 완전히 공개되며 사용자는 자유롭게 사용하고 수정할 수 있습니다.
- 대화형 데모: 사용자가 비디오 및 오디오 파일을 업로드하여 체험할 수 있는 온라인 데모를 제공합니다.
- 사전 교육 모델: 다양한 사전 교육 모델을 제공하여 사용자가 직접 사용하거나 2차 교육을 받을 수 있습니다.
- 전체 교육 코드: 입 동기화 판별기 및 Wav2Lip 모델에 대한 교육 코드가 포함되어 있습니다.
도움말 사용
설치 프로세스
- 복제 창고 :
bash 복사
git clonehttps://github.com/Rudrabha/Wav2Lip
- 설치 종속성 :
bash 복사
pip install -r requirements.txt
- 사전 학습된 모델 다운로드: 사전 학습된 모델을 지정된 디렉토리에 다운로드합니다.
face_detection/detection/sfd/s3fd.pth
. - 추론 코드를 실행합니다 :
bash 복사
python inference.py --checkpoint_path <ckpt> --face <video.mp4> --audio <an-audio-source>
사용 프로세스
- 로컬 서버에 액세스: 브라우저에서 열기
http://localhost:3000
. - 입력 팁 : 입력란에 생성하려는 이미지에 대한 설명을 입력하면 실시간으로 이미지가 생성됩니다.
- 이미지 보기 및 다운로드: 생성된 이미지가 페이지에 표시되며 향후 버전에서 다운로드 버튼이 추가될 예정입니다.
- 일관성 모드 사용: 일관성 모드를 활성화하면 배경 또는 주요 개체를 일관되게 유지하면서 일관된 이미지를 생성할 수 있습니다.
- 이미지 히스토리 보기: 이미지 히스토리 기능을 사용하여 생성된 모든 이미지를 보고 이미지 사이를 탐색할 수 있습니다.
고급 기능
- 향상된 팁: 향상된 팁 옵션으로 생성된 결과를 최적화하세요.
- 모델 선택: 필요에 따라 다양한 AI 모델을 선택합니다.
- 사용자 지정 개발 : Wav2Lip은 오픈 소스이므로 사용자는 자신의 필요에 따라 2차 개발을 할 수 있습니다.
Wav2Lip Windows 원클릭 설치 프로그램(메모리 최적화)
링크: https://pan.quark.cn/s/4755eabcdf52
추출 코드: Xr86
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...