Step-Video-T2V: 다국어 입력 및 긴 비디오 생성을 지원하는 Vincennes 비디오 모델

61.5K 00

일반 소개

스텝-비디오-T2V는 스텝펀 AI(스텝스타)의 고급 텍스트-비디오 변환 모델입니다. 이 모델에는 30억 개의 매개변수가 있으며 최대 204fps의 동영상을 생성할 수 있습니다. 이 모델은 심층 압축 가변 자동 인코더(VAE)를 통해 16x16의 공간 압축과 8배의 시간 압축을 달성하여 학습 및 추론의 효율성을 향상시켰으며, Step-Video-T2V는 특히 비디오 모션과 효율성 측면에서 비디오 생성 분야에서 우수한 성능을 발휘합니다. 그러나 복잡한 움직임을 처리하는 데는 여전히 몇 가지 과제가 있습니다. 이 모델은 오픈 소스이며 사용자는 GitHub에서 코드에 액세스하고 기여할 수 있습니다.

기능 목록

고화질 동영상 생성: 30억 개의 매개변수를 사용하여 최대 204fps의 동영상을 생성합니다.
딥 압축 기술: 딥 압축 가변형 셀프 인코더를 사용한 16x16 공간 압축 및 8x 시간 압축.
이중 언어 지원: 영어와 중국어로 된 문자 알림을 지원합니다.
오픈 소스 및 커뮤니티 지원: 모델과 벤치마크 데이터 세트는 혁신을 촉진하고 크리에이터의 역량을 강화하기 위해 오픈 소스로 제공됩니다.

도움말 사용

설치 프로세스

GitHub 리포지토리 복제하기:

git clone https://github.com/stepfun-ai/Step-Video-T2V.git

프로젝트 카탈로그로 이동합니다:
```
cd Step-Video-T2V
```

가상 환경을 만들고 활성화합니다:

conda create -n stepvideo python=3.10
conda activate stepvideo

종속성을 설치합니다:

pip install -e .
pip install flash-attn --no-build-isolation  ## flash-attn是可选的

사용 가이드라인

비디오 생성

다음과 같이 파일에 저장할 텍스트 프롬프트를 준비합니다.prompt.txt::
```
飞机在蓝天中飞翔
```

동영상 생성 스크립트를 실행합니다:

python generate_video.py --input prompt.txt --output video.mp4

세부 기능 작동 흐름

고품질 동영상 생성::
- 텍스트 입력: 사용자가 동영상 콘텐츠를 설명하는 텍스트를 입력합니다.
- 모델 처리: Step-Video-T2V 모델은 텍스트를 구문 분석하고 동영상을 생성합니다.
- 동영상 출력: 생성된 동영상은 MP4 형식으로 저장되어 사용자가 언제든지 보고 공유할 수 있습니다.
딥 압축 기술::
- 공간 압축: 16x16 공간 압축 기술을 통해 동영상 생성의 효율성을 개선합니다.
- 시간 압축: 8배 시간 압축 기술을 통해 동영상 생성 속도와 품질이 더욱 최적화됩니다.
이중 언어 지원::
- 영어 지원: 사용자가 영어 텍스트를 입력하면 모델이 자동으로 구문 분석하여 해당 동영상을 생성합니다.
- 중국어 지원: 사용자가 중국어 텍스트를 입력하면 모델이 해당 동영상을 생성하여 다국어 사용자의 요구를 지원할 수 있습니다.
오픈 소스 및 커뮤니티 지원::
- 오픈 소스 코드: 사용자는 GitHub에서 모델의 전체 코드에 액세스하여 직접 배포하고 수정할 수 있습니다.
- 커뮤니티 기여: 사용자는 코드 기여를 제출하여 모델 개선 및 최적화에 참여할 수 있습니다.