일반 소개
스텝-비디오-T2V는 스텝펀 AI(스텝스타)의 고급 텍스트-비디오 변환 모델입니다. 이 모델에는 30억 개의 매개변수가 있으며 최대 204fps의 동영상을 생성할 수 있습니다. 이 모델은 심층 압축 가변 자동 인코더(VAE)를 통해 16x16의 공간 압축과 8배의 시간 압축을 달성하여 학습 및 추론의 효율성을 향상시켰으며, Step-Video-T2V는 특히 비디오 모션과 효율성 측면에서 비디오 생성 분야에서 우수한 성능을 발휘합니다. 그러나 복잡한 움직임을 처리하는 데는 여전히 몇 가지 과제가 있습니다. 이 모델은 오픈 소스이며 사용자는 GitHub에서 코드에 액세스하고 기여할 수 있습니다.

기능 목록
- 고화질 동영상 생성: 30억 개의 매개변수를 사용하여 최대 204fps의 동영상을 생성합니다.
- 딥 압축 기술: 딥 압축 가변형 셀프 인코더를 사용한 16x16 공간 압축 및 8x 시간 압축.
- 이중 언어 지원: 영어와 중국어로 된 문자 알림을 지원합니다.
- 오픈 소스 및 커뮤니티 지원: 모델과 벤치마크 데이터 세트는 혁신을 촉진하고 크리에이터의 역량을 강화하기 위해 오픈 소스로 제공됩니다.
도움말 사용
설치 프로세스
- GitHub 리포지토리 복제하기:
git clone https://github.com/stepfun-ai/Step-Video-T2V.git
- 프로젝트 카탈로그로 이동합니다:
cd Step-Video-T2V
- 가상 환경을 만들고 활성화합니다:
conda create -n stepvideo python=3.10 conda activate stepvideo
- 종속성을 설치합니다:
pip install -e . pip install flash-attn --no-build-isolation ## flash-attn是可选的
사용 가이드라인
비디오 생성
- 다음과 같이 파일에 저장할 텍스트 프롬프트를 준비합니다.
prompt.txt
::飞机在蓝天中飞翔
- 동영상 생성 스크립트를 실행합니다:
python generate_video.py --input prompt.txt --output video.mp4
세부 기능 작동 흐름
- 고품질 동영상 생성::
- 텍스트 입력: 사용자가 동영상 콘텐츠를 설명하는 텍스트를 입력합니다.
- 모델 처리: Step-Video-T2V 모델은 텍스트를 구문 분석하고 동영상을 생성합니다.
- 동영상 출력: 생성된 동영상은 MP4 형식으로 저장되어 사용자가 언제든지 보고 공유할 수 있습니다.
- 딥 압축 기술::
- 공간 압축: 16x16 공간 압축 기술을 통해 동영상 생성의 효율성을 개선합니다.
- 시간 압축: 8배 시간 압축 기술을 통해 동영상 생성 속도와 품질이 더욱 최적화됩니다.
- 이중 언어 지원::
- 영어 지원: 사용자가 영어 텍스트를 입력하면 모델이 자동으로 구문 분석하여 해당 동영상을 생성합니다.
- 중국어 지원: 사용자가 중국어 텍스트를 입력하면 모델이 해당 동영상을 생성하여 다국어 사용자의 요구를 지원할 수 있습니다.
- 오픈 소스 및 커뮤니티 지원::
- 오픈 소스 코드: 사용자는 GitHub에서 모델의 전체 코드에 액세스하여 직접 배포하고 수정할 수 있습니다.
- 커뮤니티 기여: 사용자는 코드 기여를 제출하여 모델 개선 및 최적화에 참여할 수 있습니다.
단일 GPU 추론 및 정량화
Step-Video-T2V 프로젝트는 단일 GPU 추론 및 정량화를 지원하여 필요한 그래픽 메모리의 양을 크게 줄입니다. 다음을 참조하세요.관련 예제자세히 알아보기.
모범 사례 추론 설정
Step-Video-T2V는 추론 설정에서 우수한 성능을 발휘하여 충실도가 높고 역동적인 비디오를 일관되게 생성합니다. 그러나 실험 결과 추론 하이퍼파라미터의 변화가 생성 품질에 영향을 미치는 것으로 나타났습니다.
모델 | infer_steps | cfg_scale | TIME_SHIFT | num_frames |
---|---|---|---|---|
스텝-비디오-T2V | 30-50 | 9.0 | 13.0 | 204 |
단계-비디오-T2V-터보(추론 단계) 증류) | 10-15 | 5.0 | 17.0 | 204 |
모델 다운로드
모델링 | 🤗 허깅페이스 | 🤖 모델 범위 |
---|---|---|
스텝-비디오-T2V | 다운로드 | 다운로드 |
스텝-비디오-T2V-터보(추론 단계 증류) | 다운로드 | 다운로드 |
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...