Wan2.1: 소비자 GPU에서 고품질 비디오 생성하기

최신 AI 리소스5개월 전 업데이트 AI 공유 서클
2.6K 00

일반 소개

Wan2.1은 인공지능 기술을 통해 동영상 제작의 경계를 넓히는 데 중점을 두고 Wan-Video 팀이 개발하고 GitHub에서 오픈소스화한 동영상 생성 도구 모음입니다. 고급 디퓨전 컨버터 아키텍처를 기반으로 텍스트-비디오, 이미지-비디오 등을 지원하는 고유한 시간 가변 자동 인코더(Wan-VAE)를 통합합니다. Wan2.1의 하이라이트는 뛰어난 성능과 소비자 등급 하드웨어 지원으로, 8.19GB의 비디오 메모리만 필요하며 RTX 4090에서 5초 480P 비디오를 생성하는 T2V-1.3B 모델과 같은 우수한 성능을 자랑합니다. RTX 4090에서 비디오를 생성합니다. 이 프로젝트는 효율적인 비디오 생성 기능을 제공할 뿐만 아니라 길이 제한 없이 1080P 인코딩 및 디코딩을 지원하여 콘텐츠 크리에이터, 개발자 및 학술 연구팀에 널리 활용될 수 있습니다.

관련 스토리:비디오 생성 모델 VBench가 차트 1위를 차지했습니다... 차트 상위권 - WanX 2.1이 곧 오픈 소스로 공개됩니다!

Wan2.1:在消费级 GPU 上生成高质量视频

 

기능 목록

  • 텍스트-비디오 변환다국어 텍스트 입력을 지원하여 입력 텍스트 설명을 기반으로 동적 비디오 콘텐츠를 생성합니다.
  • 이미지-투-비디오(이미지-비디오): 이미지의 원래 비율과 자연스러운 움직임을 유지하면서 정지 이미지를 모션 비디오로 변환합니다.
  • 비디오 편집AI 기술을 통해 기존 동영상을 수정하거나 최적화합니다.
  • 고해상도 출력 지원480P 및 720P 동영상을 생성할 수 있으며, 일부 모델은 길이 제한 없이 1080P를 지원합니다.
  • Wan-VAE 기술:: 효율적인 시간 압축을 제공하고, 긴 동영상 생성을 지원하며, 시간 정보를 유지합니다.
  • 소비자 GPU 최적화:: 일반적인 하드웨어에서 실행되므로 사용 장벽이 낮습니다.
  • 멀티태스킹 지원텍스트-이미지 변환, 비디오-오디오 변환 및 기타 확장 기능을 포함합니다.
  • 중국어 및 영어 텍스트 생성동영상에 선명한 중국어 및 영어 텍스트를 생성합니다.

 

도움말 사용

Wan2.1은 고품질의 동영상 콘텐츠를 빠르게 생성하려는 사용자를 위한 강력한 오픈 소스 동영상 생성 도구입니다. 다음은 빠르게 시작하는 데 도움이 되는 자세한 설치 및 사용 가이드입니다.

설치 프로세스

Wan2.1을 설치하려면 코드와 모델 가중치를 얻기 위해 주로 GitHub 리포지토리를 통해 약간의 기술력이 필요합니다. 단계는 다음과 같습니다:

1. 환경 준비

  • 운영 체제Windows, Linux 또는 macOS 지원.
  • 하드웨어 요구 사항8GB 이상의 비디오 메모리가 있는 GPU(예: RTX 3060 Ti 또는 4090), Nvidia GPU를 권장합니다.
  • 소프트웨어 종속성Python 3.10+, Git, 그래픽 드라이버 및 CUDA(GPU를 사용하는 경우).
  • Python 설치공식 웹사이트에서 Python 3.10 이상을 다운로드하고 설치하는 동안 '경로에 Python 추가' 확인란을 선택합니다.

2. 코드 및 모델 다운로드

  1. 터미널 또는 명령줄을 열고 다음 명령을 입력하여 리포지토리를 복제합니다:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
  1. 종속 라이브러리를 설치합니다:
pip install -r requirements.txt
  1. 허깅 페이스에서 모델 가중치를 다운로드합니다(예시: T2V-1.3B):
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B
  • 옵션 모델: T2V-14B(더 높은 성능, 더 많은 비디오 메모리 필요), I2V-480P/720P.

3. 구성 환경

  • 비디오 메모리가 부족한 경우 최적화 매개변수(예 --offload_model True 노래로 응답 --t5_cpu).
  • GPU 드라이버와 CUDA가 올바르게 설치되었는지 확인합니다. nvidia-smi 확인.

4. 설치 확인

다음 명령을 실행하여 환경을 테스트합니다:

python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "测试视频生成"

비디오 파일이 출력되면 설치가 성공한 것입니다.

기능 작동 흐름

텍스트-비디오 변환

  1. 준비된 텍스트:: "고양이가 잔디 위를 우아하게 걸으며 카메라가 따라갑니다."와 같이 설명적인 프롬프트를 작성합니다.
  2. 명령 실행:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "A cute cat walking gracefully on a lush green field"
  1. 매개변수화:
  • --size해상도 설정(예: 832)480 또는 1280720).
  • --offload_model True낮은 비디오 메모리 최적화.
  • --sample_shift 8 --sample_guide_scale 6:: 생성 품질 개선.
  1. 수출생성된 동영상은 현재 디렉토리에 저장되며 길이는 약 5초입니다.

이미지-투-비디오(이미지-비디오)

  1. 이미지 준비하기JPG/PNG 이미지 업로드(예 input.jpg).
  2. 명령 실행:
python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image input.jpg --prompt "Summer beach vacation style"
  1. 결국이 모델은 이미지를 기반으로 원래 비율과 자연스러운 움직임을 유지하면서 역동적인 동영상을 생성합니다.

동영상 편집

  1. 비디오 입력: 기존 동영상 파일을 준비합니다.
  2. 편집 작업명령줄에서 관련 모듈을 호출하려면 DiffSynth-Studio(Wan 2.1은 확장 지원)와 같은 도구를 사용합니다.
  3. 샘플 명령(컴퓨팅)구체적인 매개변수는 GitHub 문서를 참조하세요. 현재 기본 편집이 지원됩니다.

고해상도 출력

  • T2V-14B 또는 I2V-720P 모델을 사용하여 다음과 같이 설정합니다. --size 1280*720최신 그래픽 카드에는 더 많은 메모리(약 17GB)가 필요합니다.
  • Wan-VAE는 길이 제한 없이 1080P를 지원하므로 긴 동영상 생성에 적합합니다.

중국어 및 영어 텍스트 생성

  1. 프롬프트에 텍스트 설명을 포함하세요(예: "영어와 중국어로 '환영합니다'라는 표지판").
  2. 텍스트에서 동영상으로 명령을 실행하면 모델에서 자동으로 동영상에 명확한 텍스트를 삽입합니다.

팁 및 유용한 정보

  • 성능 최적화저가형 하드웨어의 경우 1.3B 모델과 480P 해상도, 고급형 하드웨어의 경우 14B와 720P를 권장합니다.
  • 큐 단어 제안상세 설명(예: 액션, 장면, 조명)을 사용하여 생성 품질을 개선합니다.
  • 커뮤니티 지원GitHub 이슈 또는 디스코드 토론 그룹에 참여하여 도움을 받으세요.

이 단계를 통해 Wan2.1을 사용하여 창의적인 프레젠테이션과 학술 연구를 위한 전문가급 동영상 콘텐츠를 쉽게 생성할 수 있습니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...