일반 소개
ConsisID는 북경대학교의 위안롱 그룹이 개발한 오픈 소스 프로젝트로, 주파수 분해 기술을 통해 정체성 일관성 있는 텍스트-비디오 생성(IPT2V)을 목표로 합니다. 이 프로젝트의 핵심은 동영상 생성 시 문자의 신원 일관성을 유지할 수 있는 DiT(확산 변압기) 기반 모델로, ConsisID 프로젝트는 전체 코드와 데이터셋을 제공할 뿐만 아니라 사용자가 빠르게 시작할 수 있도록 상세한 설치 및 사용 지침을 포함하고 있습니다. 이 프로젝트는 동영상 생성 분야, 특히 영화 및 텔레비전 제작, 가상현실 등 캐릭터의 일관성을 유지해야 하는 애플리케이션 시나리오에서 큰 의미가 있습니다.


기능 목록
- 아이덴티티 일관성 있는 비디오 생성주파수 분해 기법을 사용하여 입력 텍스트의 설명과 일치하고 문자의 동일성을 유지하는 동영상을 생성합니다.
- 오픈 소스 코드 및 데이터 세트2차 개발 및 연구를 용이하게 하기 위해 전체 코드 및 일부 데이터 세트가 제공됩니다.
- 멀티 플랫폼 지원윈도우 및 리눅스 시스템에서 실행 지원, Jupyter Notebook 및 ComfyUI 확장 기능 제공.
- 고품질 프롬프트 최적화를 위한 최적화: 생성된 동영상의 품질을 향상시키기 위해 GPT-4o를 사용하여 텍스트 프롬프트 단어 입력을 최적화합니다.
- GPU 메모리 최적화다양한 하드웨어 구성에 맞는 다양한 GPU 메모리 최적화 옵션을 제공합니다.
- 커뮤니티 기여기능 및 사용 경험을 향상시키는 커뮤니티 개발 플러그인 및 확장 프로그램을 지원합니다.
도움말 사용
환경 구성
- 프로젝트 코드를 복제합니다:
git clone --depth=1 https://github.com/PKU-YuanGroup/ConsisID.git
cd ConsisID
- 가상 환경을 만들고 활성화합니다:
conda create -n consisid python=3.11.0
conda activate consisid
- 종속성을 설치합니다:
pip install -r requirements.txt
모델 가중치 다운로드
- 허깅페이스에서 웨이트를 다운로드하세요:
huggingface-cli download --repo-type model BestWishYsh/ConsisID-preview --local-dir ckpts
- 또는 WiseModel에서 다운로드하세요:
git lfs install
git clone https://www.wisemodel.cn/SHYuanBest/ConsisID-Preview.git
실행 예제
- 웹 UI 예제를 실행합니다:
python app.py
- 명령줄 추론을 실행합니다:
python infer.py --model_path BestWishYsh/ConsisID-preview
큐 단어 최적화
GPT-4o를 사용하여 텍스트 프롬프트 단어의 입력을 최적화합니다(예: 원래 프롬프트 단어: "한 남자가 기타를 연주하고 있습니다."). 최적화된 프롬프트 단어: "동영상에는 한 남자가 비행기 옆에 서서 휴대폰으로 통화하는 모습이 나와 있습니다. 그는 선글라스와 검은색 상의를 입고 심각한 표정을 짓고 있습니다. 비행기 옆면에는 녹색 줄무늬가 있고 뒤쪽에는 큰 엔진이 있습니다."
GPU 메모리 최적화
여러 개의 GPU가 있거나 GPU 메모리가 충분하지 않은 경우 다음 옵션을 활성화할 수 있습니다:
pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
참고: 이러한 옵션을 활성화하면 추론 시간이 길어지고 생성 품질이 저하될 수 있습니다.
데이터 전처리
ConsisID 학습에 필요한 데이터는 프로젝트의 데이터 전처리 가이드를 참조하세요. 텍스트-이미지 및 동영상 생성 모델을 학습시켜야 하는 경우 데이터 세트를 다음 형식으로 구성해야 합니다:
datasets/
├── captions/
│ ├── dataname_1.json
│ ├── dataname_2.json
├── dataname_1/
│ ├── refine_bbox_jsons/
│ ├── track_masks_data/
│ ├── videos/
├── dataname_2/
│ ├── refine_bbox_jsons/
│ ├── track_masks_data/
│ ├── videos/
├── ...
├── total_train_data.txt
모델 교육
- 하이퍼파라미터를 설정합니다:
bash train_single_rank.sh
- 교육을 시작합니다:
bash train_multi_rank.sh
커뮤니티 기여
플러그인 및 확장 프로그램의 커뮤니티 개발자에게 감사드립니다:
- ComfyUI-ConsisIDWrapper
- Jupyter-ConsisID
- Windows-ConsisID
ConsisID 빠른 통합
온라인 경험:포옹하는 얼굴
Windows 설치 관리자:포옹하는 얼굴인텔리전스 AI 시작하기
ComfyUI 노드:ComfyUI-CogVideoXWrapper 오픈아트: https://openart.ai/workflows/TxIQ6lwGkRx2zQiYjvE5
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...