디지털 맨 통합 팩의 Wav2Lip 기반 시각적 조작 버전

최신 AI 리소스7개월 전 업데이트 AI 공유 서클
2.7K 00

안녕하세요, 여러분, 오늘은 디지털 피플 메이커 도구를 공유해드리려고 합니다! 사용하기 쉽고 일괄 처리를 지원합니다. (기사 끝에 통합 패키지를 사용하여 자신의 것을 가져 가십시오.) 큰 불이 나기 전에 디지털 사람들의 기술에 대해 배웠다고 생각합니다 궈 데강 영어 말하기, 러시아 아름다움 중국어 말하기 등이 디지털 사람들의 기술의 구체화입니다.

예를 들어 제가 공유한 디지털 피플은 동영상 형태의 디지털 피플이고, 언리얼 엔진으로 만든 3D 모델 디지털 피플도 있으며, 모두 다양한 곳에 적용되고 있습니다. 관심이 있으신 분들은 여기를 보시면 이해하실 수 있지만 설명이 너무 많지는 않습니다.

왜요? 디지털 인재가 뭔지 모르시나요? (바이두)

하지만 오늘 공유한 내용은 실제로 원본에 있는 것입니다. Wav2Lip 이 프로젝트는 최적화를 기반으로 하고 있으며, 배포를 진행하면서 캐싱, 인터페이스, 실행 효율성 문제 등 많은 문제점을 발견하고 최적화를 목표로 삼았습니다.

基于Wav2Lip的可视化操作版数字人整合包

 

구성 요구 사항

Windows(컴퓨터)

N-카드는 N-카드여야 합니다! CPU는 지원되지 않습니다!

MAC

개발 중, 여전히 mps 문제를 해결 중입니다! 며칠 동안 노력 중입니다! 그럼 맥 사용자들은 조금 더 기다려야 하나요?

저는 친구들보다 느리다고 생각하지 않습니다. 통합 팩이 완성되면 많은 테스트를 통해 최적화할 수 있는 부분이 있는지 확인합니다!

 

업데이트

오리지널과 비교한 새로운 기능

1. 웹UI 인터페이스가 추가되었습니다.

2. 일괄 처리를 지원합니다.

3. 원래 캐시 문제를 최적화했습니다.

4. 처리 효율성 최적화 문제.

 

사용법

의도

오디오 및 비디오 파일을 준비해야 합니다.

오디오 파일(컴퓨터)::

  • 오디오 길이는 동영상과 같은 길이를 사용하는 것이 좋습니다(예: 10초짜리 동영상인 경우 오디오 길이는 10초를 사용하는 것이 좋습니다). 오디오 길이가 동영상 길이보다 길면 동영상이 자동으로 뒤로 반복되어 길이가 늘어납니다.)
  • 오디오 파일 형식: wav 및 mp3

비디오 파일::

  • 선택한 동영상 프레임에 모두 얼굴이 포함되어야 하며, 그렇지 않으면 오류가 보고됩니다. (예를 들어, 동영상의 총 길이가 10초이고 중간에 프레임에 얼굴이 없는 2초가 있는 경우 오류가 보고됩니다.)
  • 권장 H264 인코딩 mp4 동영상 형식

팁: 이 버전은 일괄 처리를 지원합니다. 일괄 처리는 여러 개의 오디오가 포함된 여러 개의 동영상, 단일 오디오가 포함된 여러 개의 동영상을 지원합니다.

예시입니다:

  • 동영상 3개와 오디오 3개가 있는 경우, 오디오 1에 해당하는 동영상 1과 오디오 2에 해당하는 동영상 2를 선택한 순서대로 처리됩니다.
  • 동영상 3개와 오디오 1개가 있는 경우 업로드한 모든 동영상이 이 오디오에 해당하는 것처럼 처리됩니다. 비디오 1은 오디오 1에, 비디오 2는 오디오 1에, 비디오 3은 오디오 3에 해당합니다.

처리 시작

가장 쉬운 방법:

비디오와 오디오를 해당 파일 상자에 끌어다 놓고 생성 시작을 클릭한 다음 완료합니다!

基于Wav2Lip的可视化操作版数字人整合包

각 매개변수의 기능에 대해 자세히 알아보고 싶다면 계속 읽어보세요!

 

매개변수 세부 정보

비디오 품질:

빠르고 빠른: Wav2Lip 오디오를 포트 유형으로 변환하는 모드.

개선됨: Wav2Lip 오디오를 입술 모드로 전환 + 입술 주위에 마스크 페더링이 있는 입술로 입술 주변의 테두리를 제거합니다.

향상된 기능: Wav2Lip 오디오-립 모드 + 마스크 페더링 + GFPGAN HD 얼굴 향상

실험 중: 향상된 모델에서 실행 효율성 최적화.

基于Wav2Lip的可视化操作版数字人整合包

컴퓨터의 구성이 너무 나쁘지 않은 경우 기본적으로 권장됩니다.향상된노래로 응답실험적

해상도 옵션

전체 해상도

절반 해상도

주의:

반 해상도 테스트는 경우에 따라 호환되지 않는 문제가 있으므로이 옵션을 사용하여 전체 해상도를 선택하는 것이 좋습니다.

Wav2Lip 버전 옵션

Wav2Lip

장점: 보다 정확한 입 동기화, 소리가 나지 않을 때 입을 닫은 상태를 유지합니다.

단점: 때때로 치아가 빠지는 경우가 있습니다(경우에 따라).

Wav2Lip_GAN

장점: 효과가 더 좋아 보이고 화자의 원래 표정을 유지합니다.

단점: 특히 소리 없이 입술의 움직임을 가리는 데는 취약합니다.

권장 사항:

먼저 Wav2Lip을 사용해 본 다음 마우스피스에 큰 간격이 생기는 효과가 발생하면 Wav2Lip_GAN 버전으로 전환하세요.

얼굴 다듬기 활성화

활성화하면 wav2lip이 각 프레임에서 얼굴을 독립적으로 자릅니다.

동영상에서 빠른 움직임이나 편집에 이상적입니다.

얼굴의 각도가 이상하게 기울어지면 경련을 일으킬 수 있습니다.

비활성화하면 wav2lip은 감지된 얼굴 위치를 5프레임 사이에서 블렌딩합니다.

느린 움직임, 특히 일반적으로 각도가 없는 얼굴에 이상적입니다.

얼굴이 프레임에서 빠르게 움직이면 컷 사이에 입이 오프셋되어 끔찍하게 보일 수 있습니다.

패딩 (채우기)::

이 옵션은 각 방향에서 얼굴 자르기에서 추가되거나 제거되는 픽셀 수를 제어합니다.

基于Wav2Lip的可视化操作版数字人整合包

이 옵션은 턱이나 얼굴의 다른 가장자리에서 딱딱한 선을 제거하는 데 도움이 될 수 있지만 채우기를 너무 많이 또는 너무 적게 하면 입의 크기나 위치가 바뀔 수 있습니다. 일반적으로 하단에 10픽셀을 추가하는 것이 일반적이며 최상의 결과를 찾기 위해 다양한 값으로 실험해 보는 것이 좋습니다.

마스크 마스크 섹션

基于Wav2Lip的可视化操作版数字人整合包

마스크 크기

를 누르면 마스크가 덮는 영역의 크기가 커집니다.(얼굴 주위에 테두리를 두면 이 값을 줄일 수 있습니다(예: 1.5).

마스크 페더링

마스크의 중앙과 가장자리 사이의 블렌딩 양을 결정합니다.(얼굴 주위에 테두리를 두면 이 값을 높일 수도 있습니다).

마스크 입 추적 활성화

마스크의 위치를 각 프레임의 입 위치로 업데이트합니다(느림).

주의:

프레임이 얼굴에 맞춰 잘리기 때문에 입 위치는 이미 대략적으로 정해져 있으며, 이 기능은 동영상의 마스크가 입을 따라가지 않는 것처럼 보이는 경우에만 활성화됩니다.

마스크 디버깅 활성화

이 옵션을 켜면 배경이 회색조로 바뀌고 마스크가 컬러로 바뀌며 프레임에서 마스크의 위치를 확인할 수 있습니다. (이 매개변수를 True로 변경하면 매개변수의 효과를 더 직관적으로 확인할 수 있습니다.)

 

통합 팩 획득

基于Wav2Lip的可视化操作版数字人整合包

 

Quark: https://pan.quark.cn/s/382936a190e2

바이두:https://pan.baidu.com/s/17FJpF-V3rxhlg89QunLIDw?pwd=9mnu

 

끝까지 밀기

디지털 사람들만 놓고 보면 사실 헤이젠, 웨이브2립, 제네페이스++ 등 여러 가지 방법이 있지만, 효과에서 벗어난 이러한 도구는 동일하지 않으며 각각 고유한 장단점이 있습니다.

고려할 수 있는 제작 아이디어를 하나 더 제공하겠습니다. FaceFusion 먼저 동영상에서 얼굴 스왑을 수행한 다음 GPT를 사용합니다. SoVITS 음성 합성이 수행된 후 최종적으로 디지털 인구 통계 제작에 사용됩니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...