VideoGrain: 비디오 오픈 소스 프로젝트의 로컬 편집을 위한 텍스트 프롬프트

47.9K 00

일반 소개

비디오그레인은 멀티그레인 비디오 편집에 초점을 맞춘 오픈 소스 프로젝트로, xAI 팀에서 개발하여 GitHub에서 호스팅하고 있습니다. 이 프로젝트는 ICLR 2025 컨퍼런스에 선정된 논문 "VideoGrain: Modulating Space-Time Attention for Multi-Grained Video Editing"을 기반으로 합니다. 확산 모델에서 시공간적 주의 메커니즘을 변조하여 카테고리, 인스턴스, 로컬 수준에서 동영상 콘텐츠를 세밀하게 편집할 수 있습니다. 기존 방식에 비해 비디오그레인은 텍스트와 영역 제어의 의미 정렬 문제와 특징 결합 문제를 해결하고, 추가 교육 없이도 고품질 편집을 완료할 수 있습니다. 이 프로젝트는 개발자, 연구자 및 비디오 편집 애호가를 위해 완전한 코드, 설치 가이드 및 사전 훈련된 모델을 제공하며 이미 학계 및 오픈 소스 커뮤니티에서 주목을 받고 있습니다.

기능 목록

다중 세분화 비디오 편집동영상에서 카테고리(예: '사람'을 '로봇'으로 바꾸기), 인스턴스(예: 특정 개체), 로컬 세부 사항(예: 손동작)의 정밀한 수정을 지원합니다.
제로 샘플 편집 기능특정 동영상에 대해 다시 교육할 필요 없이 텍스트 프롬프트에 입력하기만 하면 편집이 완료됩니다.
시공간적 주의력 변조교차 주의(텍스트와 영역 간) 및 자체 주의(영역 내 기능 분리)를 강화하여 편집 정확도와 동영상 품질을 개선합니다.
오픈 소스 코드 및 모델링전체 구현 코드와 사전 학습된 모델이 제공되어 사용자가 쉽게 재현하고 확장할 수 있습니다.
확산 호환 모델기존 동영상 생성 프로세스에 쉽게 통합할 수 있도록 디퓨저 및 FateZero와 같은 프레임워크를 기반으로 합니다.
여러 문서 지원사용자가 업로드한 동영상, 이미지 및 기타 콘텐츠를 처리하고 편집된 동영상 결과물을 출력할 수 있습니다.

도움말 사용

비디오그레인은 약간의 프로그래밍 지식과 하드웨어 지원이 필요하지만, 설치 및 운영 절차는 GitHub 저장소에 자세히 설명되어 있습니다. 아래는 사용자가 빠르게 시작할 수 있도록 자세한 설치 및 사용 가이드를 제공합니다.

설치 프로세스

콘다 환경 만들기
터미널에 다음 명령을 입력하여 독립 실행형 Python 3.10 환경을 생성하고 활성화합니다:

conda create -n videograin python=3.10
conda activate videograin

Conda가 설치되어 있는지 확인하고, 설치되어 있지 않은 경우 Anaconda 웹사이트로 이동하여 다운로드하세요.

PyTorch 및 관련 종속성 설치하기
VideoGrain은 PyTorch와 CUDA를 지원하므로 GPU 가속을 권장합니다. 다음 명령을 실행하여 설치하세요:

conda install pytorch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 pytorch-cuda=12.1 -c pytorch -c nvidia
pip install --pre -U xformers==0.0.27

x포머는 메모리와 속도에 최적화할 수 있으며, 필요하지 않은 경우 건너뛸 수 있습니다.

추가 종속성 설치
리포지토리 루트에서 다음 명령을 실행하여 모든 종속 라이브러리를 설치합니다:

pip install -r requirements.txt

인터넷이 열려 있는지 확인하세요. 일부 패키지를 다운로드하려면 과학적인 인터넷 액세스가 필요할 수 있습니다.

사전 학습된 모델 다운로드
VideoGrain에는 Stable Diffusion 1.5 및 ControlNet과 같은 모델 가중치가 필요합니다. 리포지토리에 제공된 스크립트를 실행합니다:

bash download_all.sh

그러면 기본 모델이 지정된 디렉토리에 자동으로 다운로드됩니다. 수동으로 다운로드하려면 허깅 페이스 또는 Google 드라이브 링크를 방문하세요(자세한 내용은 README 참조).

컨트롤넷 전처리기 가중치 준비하기
약 4GB의 어노테이터 가중치(예: DW-Pose, depth_midas 등)를 다운로드합니다. 다음 명령을 사용합니다:

gdown https://drive.google.com/file/d/1dzdvLnXWeMFR3CE2Ew0Bs06vyFSvnGXA/view?usp=drive_link
tar -zxvf videograin_data.tar.gz

파일의 압축을 풀고 파일을 ./annotator/ckpts 카탈로그.

사용법

설치가 완료되면, 사용자는 명령줄을 통해 비디오그레인을 실행하여 동영상 편집을 할 수 있습니다. 주요 기능의 작동 흐름은 다음과 같습니다:

1. 다중 세분화 비디오 편집

입력 파일 준비하기
편집할 비디오 파일을 프로젝트 디렉토리에 넣습니다(예 ./input_video.mp4). MP4, AVI와 같은 일반적인 형식을 지원합니다.
문자 알림 준비하기
예를 들어 스크립트에서 편집 지침을 지정합니다:

prompt = "将视频中的汽车替换为保时捷"

지원 카테고리 교체(예: "자동차"를 "포르쉐"로), 인스턴스 수정(예: "특정 캐릭터"를 "아이언맨 ") 및 로컬 조정(예: "손 움직임"을 "손 흔들기"로).

편집 명령을 실행합니다.
터미널에 입력합니다:

python edit_video.py --input ./input_video.mp4 --prompt "将视频中的汽车替换为保时捷" --output ./output_video.mp4

편집 후 결과는 다음 주소로 저장됩니다. ./output_video.mp4.

2. 샘플 편집 제로

교육 없이 직접 편집
VideoGrain의 핵심 강점은 제로 샘플 기능입니다. 사용자는 사전 교육이 필요 없이 동영상과 단서만 제공하면 됩니다. 예시:

python edit_video.py --input ./sample_video.mp4 --prompt "将狗替换为猫" --output ./edited_video.mp4

조정 매개변수
통과 가능 --strength 이 매개변수는 편집 강도(0.0-1.0, 기본값 0.8)를 제어합니다:

파이썬 편집_비디오.py --input . /sample_video.mp4 --prompt "개를 고양이로 교체" --strength 0.6

3. 시간적 주의력 조절

향상된 텍스트 영역 제어
비디오그레인은 자동으로 교차 주의를 최적화하여 프롬프트가 대상 영역에만 영향을 미치도록 합니다. 예를 들어 "캐릭터의 의상을 빨간색으로 변경"이라는 안내가 있는 경우, 불필요한 배경은 영향을 받지 않습니다.
향상된 기능 분리
자체 주의 메커니즘은 지역 내 세부 사항의 일관성을 향상시키고 지역 간 간섭을 줄입니다. 사용자가 수동으로 조정할 필요가 없으며 런타임에 자동으로 적용됩니다.

취급 시 주의사항

하드웨어 요구 사항
최소 12GB의 비디오 메모리를 갖춘 NVIDIA GPU(예: A100 또는 RTX 3090)를 권장합니다. CPU가 느리게 실행될 수 있습니다.
큐 단어 제안
예를 들어 "왼쪽의 캐릭터를 로봇으로 교체"와 같이 구체적이고 명확해야 하며, 모호한 "캐릭터 수정"보다는 "왼쪽의 캐릭터를 로봇으로 교체"가 더 좋습니다.
디버깅 및 로깅
문제가 발생하면 ./logs 디렉터리에 추가하거나 명령 뒤에 로그 파일을 추가하여 --verbose 자세한 출력 보기.

주요 기능

실제 다중 입도 편집
사용자가 동영상에서 '자전거'를 '오토바이'로 바꾸고 싶다고 가정하고, 동영상 경로와 큐 단어를 입력하기만 하면 VideoGrain이 모든 자전거를 인식하고 액션과 배경을 일관되게 유지하면서 오토바이로 대체합니다.
오픈 소스 확장
사용자 수정 가능 edit_video.py 모델 매개변수를 변경하거나, 더 높은 해상도 또는 더 많은 편집 유형 지원 등 디퓨저 프레임워크에 기반한 새로운 기능을 추가할 수 있습니다.
커뮤니티 지원
GitHub 리포지토리는 사용자가 문제를 제출하거나 다른 사용자가 수행한 작업을 확인할 수 있는 이슈 게시판을 제공합니다.

위의 단계를 통해 사용자는 VideoGrain을 빠르게 시작하고 간단한 교체부터 복잡한 로컬 조정까지 다양한 동영상 편집 작업을 완료할 수 있습니다.