Step-Video-T2V: 다국어 입력 및 긴 비디오 생성을 지원하는 Vincennes 비디오 모델

최신 AI 리소스게시됨 6 개월 전 AI 공유 서클
2.3K 00

일반 소개

스텝-비디오-T2V는 스텝펀 AI(스텝스타)의 고급 텍스트-비디오 변환 모델입니다. 이 모델에는 30억 개의 매개변수가 있으며 최대 204fps의 동영상을 생성할 수 있습니다. 이 모델은 심층 압축 가변 자동 인코더(VAE)를 통해 16x16의 공간 압축과 8배의 시간 압축을 달성하여 학습 및 추론의 효율성을 향상시켰으며, Step-Video-T2V는 특히 비디오 모션과 효율성 측면에서 비디오 생성 분야에서 우수한 성능을 발휘합니다. 그러나 복잡한 움직임을 처리하는 데는 여전히 몇 가지 과제가 있습니다. 이 모델은 오픈 소스이며 사용자는 GitHub에서 코드에 액세스하고 기여할 수 있습니다.

Step-Video-T2V:支持多语言输入和长视频生成的文生视频模型

 

기능 목록

  • 고화질 동영상 생성: 30억 개의 매개변수를 사용하여 최대 204fps의 동영상을 생성합니다.
  • 딥 압축 기술: 딥 압축 가변형 셀프 인코더를 사용한 16x16 공간 압축 및 8x 시간 압축.
  • 이중 언어 지원: 영어와 중국어로 된 문자 알림을 지원합니다.
  • 오픈 소스 및 커뮤니티 지원: 모델과 벤치마크 데이터 세트는 혁신을 촉진하고 크리에이터의 역량을 강화하기 위해 오픈 소스로 제공됩니다.

 

도움말 사용

설치 프로세스

  1. GitHub 리포지토리 복제하기:
    git clone https://github.com/stepfun-ai/Step-Video-T2V.git
    
  2. 프로젝트 카탈로그로 이동합니다:
    cd Step-Video-T2V
    
  3. 가상 환경을 만들고 활성화합니다:
    conda create -n stepvideo python=3.10
    conda activate stepvideo
    
  4. 종속성을 설치합니다:
    pip install -e .
    pip install flash-attn --no-build-isolation  ## flash-attn是可选的
    

사용 가이드라인

비디오 생성

  1. 다음과 같이 파일에 저장할 텍스트 프롬프트를 준비합니다.prompt.txt::
    飞机在蓝天中飞翔
    
  2. 동영상 생성 스크립트를 실행합니다:
    python generate_video.py --input prompt.txt --output video.mp4
    

세부 기능 작동 흐름

  1. 고품질 동영상 생성::
    • 텍스트 입력: 사용자가 동영상 콘텐츠를 설명하는 텍스트를 입력합니다.
    • 모델 처리: Step-Video-T2V 모델은 텍스트를 구문 분석하고 동영상을 생성합니다.
    • 동영상 출력: 생성된 동영상은 MP4 형식으로 저장되어 사용자가 언제든지 보고 공유할 수 있습니다.
  2. 딥 압축 기술::
    • 공간 압축: 16x16 공간 압축 기술을 통해 동영상 생성의 효율성을 개선합니다.
    • 시간 압축: 8배 시간 압축 기술을 통해 동영상 생성 속도와 품질이 더욱 최적화됩니다.
  3. 이중 언어 지원::
    • 영어 지원: 사용자가 영어 텍스트를 입력하면 모델이 자동으로 구문 분석하여 해당 동영상을 생성합니다.
    • 중국어 지원: 사용자가 중국어 텍스트를 입력하면 모델이 해당 동영상을 생성하여 다국어 사용자의 요구를 지원할 수 있습니다.
  4. 오픈 소스 및 커뮤니티 지원::
    • 오픈 소스 코드: 사용자는 GitHub에서 모델의 전체 코드에 액세스하여 직접 배포하고 수정할 수 있습니다.
    • 커뮤니티 기여: 사용자는 코드 기여를 제출하여 모델 개선 및 최적화에 참여할 수 있습니다.

단일 GPU 추론 및 정량화

Step-Video-T2V 프로젝트는 단일 GPU 추론 및 정량화를 지원하여 필요한 그래픽 메모리의 양을 크게 줄입니다. 다음을 참조하세요.관련 예제자세히 알아보기.

모범 사례 추론 설정

Step-Video-T2V는 추론 설정에서 우수한 성능을 발휘하여 충실도가 높고 역동적인 비디오를 일관되게 생성합니다. 그러나 실험 결과 추론 하이퍼파라미터의 변화가 생성 품질에 영향을 미치는 것으로 나타났습니다.

모델infer_stepscfg_scaleTIME_SHIFTnum_frames
스텝-비디오-T2V30-509.013.0204
단계-비디오-T2V-터보(추론 단계) 증류)10-155.017.0204

모델 다운로드

모델링🤗 허깅페이스🤖 모델 범위
스텝-비디오-T2V다운로드다운로드
스텝-비디오-T2V-터보(추론 단계 증류)다운로드다운로드
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...