일반 소개
STAR(텍스트-비디오 모델을 이용한 공간-시간적 증강)는 난징대학교, 바이트댄스, 사우스웨스트대학교가 공동으로 개발한 혁신적인 비디오 초고해상도 프레임워크입니다. 이 프로젝트는 실제 비디오 초고해상도 처리의 주요 문제를 해결하기 위한 것으로, 텍스트-비디오(T2V) 확산 모델에 대한 선험적 지식을 결합하여 비디오 프레임의 고품질 향상을 달성하며, STAR 모델의 특징은 공간적 세부 충실도와 시간적 일관성을 동시에 유지하는 능력에 있으며, 이는 기존의 GAN 기반 접근 방식으로는 조정하기 어려운 경우가 많습니다. 이 프로젝트는 두 가지 버전의 구현을 제공합니다: I2VGen-XL을 기반으로 하는 경량 및 중량 품질 저하 처리 모델과 다양한 시나리오에서 비디오 향상 요구 사항에 적응할 수 있는 CogVideoX-5B를 기반으로 하는 중량 품질 저하 처리 모델입니다.

기능 목록
- 다양한 유형의 비디오 화질 저하 처리(가볍고 무거운)를 위한 초고해상도 재구성 지원
- 자동화된 큐워드 생성, Pllava와 같은 도구를 사용한 동영상 설명 생성 지원
- 온라인 데모 플랫폼 제공(허깅페이스 스페이스)
- 720x480 해상도 비디오 입력 처리 지원
- 완전한 추론 코드 및 사전 학습된 모델 제공
- 화면의 세부적인 재구성 품질을 개선하기 위해 로컬 정보 향상 모듈(LIEM)을 통합합니다.
- 일괄 비디오 처리 지원
- 유연한 모델 가중치 옵션 제공
도움말 사용
1. 환경 설정
먼저 다음과 같이 런타임 환경을 구성해야 합니다:
- 코드 리포지토리를 복제합니다:
git clone https://github.com/NJU-PCALab/STAR.git
cd STAR
- 콘다 환경을 만들고 활성화합니다:
conda create -n star python=3.10
conda activate star
pip install -r requirements.txt
sudo apt-get update && apt-get install ffmpeg libsm6 libxext6 -y
2. 모델 선택 및 다운로드
STAR는 두 가지 버전의 모델을 제공합니다:
- I2VGen-XL 기반 모델입니다:
- light_deg.pt: 빛 저하 비디오 처리용
- heavy_deg.pt: 비디오 처리 성능이 크게 저하된 경우
- CogVideoX-5B 기반 모델입니다:
- 화질이 크게 저하된 동영상을 처리하도록 특별히 설계되었습니다.
- 720x480 해상도 입력만 지원
허깅페이스에서 적절한 모델 가중치를 다운로드하고 이를pretrained_weight/
카탈로그.
3. 비디오 처리 흐름
- 테스트 데이터를 준비합니다:
- 처리할 동영상을
input/video/
디렉토리(컴퓨터 하드 드라이브에 있음) - 큐 단어 준비(세 가지 선택):
- 프롬프트되지 않은 단어
- Pllava를 사용하여 자동 생성
- 동영상 설명 수동 작성
- 처리할 동영상을
- 처리 매개변수를 구성합니다:
- 수정
video_super_resolution/scripts/inference_sr.sh
경로 구성은- VIDEO_FOLDER_PATH: 입력 동영상 경로
- txt_file_path: 프롬프트 파일 경로
- model_path: 모델 가중치 경로
- save_dir: 출력 저장 경로
- 수정
- 추론을 시작하세요:
bash video_super_resolution/scripts/inference_sr.sh
참고: 메모리 오버플로우(OOM) 문제가 발생하면inference_sr.sh
미드레인지 단조(음악)frame_length
매개변수.
4. CogVideoX-5B 모델의 특수 구성
CogVideoX-5B 모델을 사용하는 경우 추가 단계가 필요합니다:
- 전용 환경을 만듭니다:
conda create -n star_cog python=3.10
conda activate star_cog
cd cogvideox-based/sat
pip install -r requirements.txt
- 추가 종속성을 다운로드하세요:
- VAE 및 T5 인코더 다운로드 필요
- 업데이트
cogvideox-based/sat/configs/cogvideox_5b/cogvideox_5b_infer_sr.yaml
경로 구성은 - transformer.py 파일 교체하기
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...