VACE: 동영상 제작 및 편집을 위한 오픈 소스 모델(공개되지 않음)

48.4K 00

일반 소개

VACE는 동영상 제작 및 편집에 중점을 두고 알리통이 시각지능연구소(ali-vilab)에서 개발한 오픈소스 프로젝트입니다. 레퍼런스를 기반으로 동영상 생성, 기존 동영상 콘텐츠 편집, 현지화 수정 등 다양한 기능을 통합한 올인원 툴입니다. 2025년 3월에 공식 출시된 이 프로젝트의 목표는 사용자가 단일 모델로 복잡한 동영상 처리 작업을 완료할 수 있도록 하는 것이며, 유연성과 효율성을 염두에 두고 설계된 VACE는 사용자가 기능을 자유롭게 조합할 수 있도록 지원하여 크리에이터, 개발자, 일반 사용자 모두에게 적합합니다. 코드가 깃허브에 호스팅되어 있어 누구나 무료로 다운로드하여 학습하거나 개선할 수 있습니다. 개발팀은 Ali의 강력한 기술 지원을 바탕으로 인공지능과 동영상 처리 분야의 최신 성과를 결합하여 사용자에게 강력하면서도 실용적인 제작 플랫폼을 제공합니다.

기능 목록

레퍼런스 생성 비디오(R2V): 지정된 참조 클립(예: 사진 또는 동영상 클립)을 기반으로 새로운 동영상 콘텐츠를 생성합니다.
비디오 대 비디오 편집(V2V)색조를 조정하거나 배경을 교체하는 등 기존 동영상의 전반적인 스타일이나 콘텐츠를 수정합니다.
마스킹 비디오 편집(MV2V)로컬 편집이 지원되므로 사용자가 마스크로 비디오의 특정 영역을 선택하여 수정할 수 있습니다.
모션 제어: 캐릭터를 지정된 위치로 이동시키는 등 동영상에 있는 객체의 동작 궤적을 조정합니다.
본체 교체동영상에서 피사체(예: 사람 또는 사물)를 다른 것으로 교체합니다.
화면 확장: 비디오 프레임을 확장하여 원래 경계를 넘어서는 프레임을 생성합니다.
애니메이션 생성: 정지 이미지를 동적 애니메이션 효과로 변환합니다.

도움말 사용

VACE는 주로 특정 기술 기반을 가진 사용자를 위한 오픈 소스 프로젝트입니다. 기성 그래픽 인터페이스가 없으며 코드를 통해 실행해야 합니다. 다음은 빠르게 시작하는 데 도움이 되는 자세한 가이드입니다.

설치 프로세스

환경 준비하기
- 컴퓨터에 Python 3.9 이상이 설치되어 있는지 확인합니다. 명령줄에서 다음과 같이 입력하면 됩니다. python --version 확인.
- GitHub에서 코드를 다운로드할 수 있는 Git 도구를 설치하세요(Windows 사용자의 경우 git-scm.com에서, Mac 사용자의 경우 git-scm.com에서 다운로드할 수 있음). brew install git 설치.
- VACE는 GPU 가속에 의존하므로 NVIDIA GPU 및 CUDA 지원이 필요합니다. GPU가 없는 경우 CPU 모드를 사용해 볼 수 있지만 성능이 저하됩니다.
코드 다운로드
- 터미널을 엽니다(Windows의 경우 CMD 또는 PowerShell, Mac의 경우 터미널).
- 다음 명령을 입력하여 VACE 리포지토리를 복제합니다:
```
git clone https://github.com/ali-vilab/VACE.git
```
- 복제가 완료되면 프로젝트 폴더로 이동합니다:
```
cd VACE
```
종속성 설치
- VACE는 일부 Python 라이브러리 지원이 필요합니다. 다음 명령을 실행하여 설치하세요:
```
pip install -r requirements.txt
```
- 오류가 발생하면 네트워크 연결을 확인하거나 핍을 업데이트하세요( pip install --upgrade pip).
- GPU 사용자의 경우 PyTorch와 해당 CUDA 버전 등을 설치해야 합니다:
```
pip install torch torchvision --extra-index-url https://download.pytorch.org/whl/cu118
```
설치 확인
- 설치가 완료되면 간단한 테스트 명령을 실행하여 환경이 정상인지 확인합니다:
```
python -c "import torch; print(torch.cuda.is_available())"
```
- 반환값이 True다음과 같은 경우 FalseCUDA가 설치되어 있지 않은 경우 CUDA 설치를 확인해야 할 수 있습니다.

사용 방법

VACE의 작동은 주로 명령줄을 통해 이루어지며, 사용자는 구성 파일을 작성하고 Python 스크립트를 실행해야 합니다. 다음은 주요 기능에 대한 자세한 흐름입니다.

기능 1: 참조 생성 비디오(R2V)

이동
1. 이미지(JPG, PNG) 또는 동영상(MP4 형식)과 같은 참고 자료를 준비합니다.
2. 예를 들어 다음과 같이 구성 파일을 만듭니다. config_r2v.yaml콘텐츠는 깃허브에 있는 예제(일반적으로 configs (폴더)에 저장합니다. 구성 파일은 해상도, 프레임 속도 등의 입력 경로와 출력 매개변수를 지정합니다.
3. 터미널에서 명령을 실행합니다:
```
python inference.py --cfg config_r2v.yaml
```
4. 생성된 동영상은 지정된 출력 폴더에 저장됩니다(기본값은 output (폴더)를 클릭합니다.
일반적인 예
- 설정 파일에 "햇살을 받으며 오른쪽으로 달리는 어린 소년"과 같은 설명과 함께 어린 소년의 사진을 입력합니다. 실행하면 VACE가 소년이 달리는 동영상을 생성합니다.

기능 2: 비디오 대 비디오 편집(V2V)

이동
1. 다음과 같이 편집이 필요한 동영상을 준비합니다. input.mp4.
2. 구성 파일 편집 config_v2v.yaml배경을 초원으로 변경하려면 "배경을 초원으로 변경"과 같이 편집 대상을 설정합니다.
3. 실행 명령을 실행합니다:
```
python inference.py --cfg config_v2v.yaml
```
4. 편집된 동영상은 자동으로 저장됩니다.
일반적인 예
- 도시 거리의 동영상을 입력하면 설정 파일에 "배경을 숲으로 바꾸기"라는 문구가 표시되고, 그 결과 숲 속을 걷는 캐릭터가 등장합니다.

기능 3: 마스크드 비디오 편집(MV2V)

이동
1. 동영상과 마스크 파일을 준비합니다(마스크는 흑백 이미지이며, 흰색 영역은 편집 부분을 나타냅니다).
2. 구성 파일에서 config_mv2v.yaml '마스크' 섹션에서 동영상 경로와 마스크 경로를 지정하고 '마스크 영역을 사자로 바꾸기'와 같은 편집 내용을 설정합니다.
3. 실행 명령을 실행합니다:
```
python inference.py --cfg config_mv2v.yaml
```
4. 결과를 확인하면 마스킹된 영역이 바뀝니다.
일반적인 예
- 커피숍의 비디오를 입력하고 마스크에서 테이블 위의 컵을 선택한 다음 "고양이"로 바꾸면 고양이가 테이블 위에 나타납니다.

기능 4: 모션 제어 및 피사체 교체

이동
1. 대상 동작에 대한 동영상과 설명을 준비합니다(예: "말이 왼쪽으로 달리게 하기").
2. 구성 파일에서 동작 매개변수를 설정하거나 본문(예: "말에서 소로 대체")을 교체합니다.
3. 명령을 실행하여 새 동영상을 생성합니다.
일반적인 예
- 승마 동영상을 입력하고 "오른쪽으로 달리는 말, 보라색 머리 기수로 바꾸기"를 설정하면 보라색 머리 기수가 말을 타고 오른쪽으로 달리는 모습이 나타납니다.

취급 시 주의사항

구성 파일 형식YAML 파일은 들여쓰기 및 구문이 엄격합니다.
하드웨어 요구 사항12GB 이상의 RAM이 있는 GPU를 권장하며, 그렇지 않은 경우 메모리 공간을 줄이기 위해 매개변수를 조정해야 할 수 있습니다.
디버깅 팁문제가 발생하면 터미널 로그를 확인하세요. 일반적인 문제는 경로 오류 또는 종속성 누락입니다.
커뮤니티 지원GitHub의 이슈 페이지에서 질문을 하면 개발자와 커뮤니티가 답변을 도와드립니다.

이 단계를 통해 VACE로 동영상을 쉽게 제작하고 편집할 수 있습니다. 구성에 익숙하기만 하면 다양한 창의적인 아이디어를 실현할 수 있는 유연성이 이 도구의 강점입니다.