ConsisID: 캐릭터가 일관된 비디오를 생성하는 인물 참조 맵, 신속한 다중 터미널 통합

최신 AI 리소스8 개월 전에 게시 됨 AI 공유 서클
3.4K 00

일반 소개

ConsisID는 북경대학교의 위안롱 그룹이 개발한 오픈 소스 프로젝트로, 주파수 분해 기술을 통해 정체성 일관성 있는 텍스트-비디오 생성(IPT2V)을 목표로 합니다. 이 프로젝트의 핵심은 동영상 생성 시 문자의 신원 일관성을 유지할 수 있는 DiT(확산 변압기) 기반 모델로, ConsisID 프로젝트는 전체 코드와 데이터셋을 제공할 뿐만 아니라 사용자가 빠르게 시작할 수 있도록 상세한 설치 및 사용 지침을 포함하고 있습니다. 이 프로젝트는 동영상 생성 분야, 특히 영화 및 텔레비전 제작, 가상현실 등 캐릭터의 일관성을 유지해야 하는 애플리케이션 시나리오에서 큰 의미가 있습니다.

ConsisID:一张人像参考图,生成人物一致的视频,多终端快速集成

 

ConsisID:一张人像参考图,生成人物一致的视频,多终端快速集成

 

기능 목록

  • 아이덴티티 일관성 있는 비디오 생성주파수 분해 기법을 사용하여 입력 텍스트의 설명과 일치하고 문자의 동일성을 유지하는 동영상을 생성합니다.
  • 오픈 소스 코드 및 데이터 세트2차 개발 및 연구를 용이하게 하기 위해 전체 코드 및 일부 데이터 세트가 제공됩니다.
  • 멀티 플랫폼 지원윈도우 및 리눅스 시스템에서 실행 지원, Jupyter Notebook 및 ComfyUI 확장 기능 제공.
  • 고품질 프롬프트 최적화를 위한 최적화: 생성된 동영상의 품질을 향상시키기 위해 GPT-4o를 사용하여 텍스트 프롬프트 단어 입력을 최적화합니다.
  • GPU 메모리 최적화다양한 하드웨어 구성에 맞는 다양한 GPU 메모리 최적화 옵션을 제공합니다.
  • 커뮤니티 기여기능 및 사용 경험을 향상시키는 커뮤니티 개발 플러그인 및 확장 프로그램을 지원합니다.

 

도움말 사용

환경 구성

  1. 프로젝트 코드를 복제합니다:
   git clone --depth=1 https://github.com/PKU-YuanGroup/ConsisID.git
cd ConsisID
  1. 가상 환경을 만들고 활성화합니다:
   conda create -n consisid python=3.11.0
conda activate consisid
  1. 종속성을 설치합니다:
   pip install -r requirements.txt

모델 가중치 다운로드

  1. 허깅페이스에서 웨이트를 다운로드하세요:
   huggingface-cli download --repo-type model BestWishYsh/ConsisID-preview --local-dir ckpts
  1. 또는 WiseModel에서 다운로드하세요:
   git lfs install
git clone https://www.wisemodel.cn/SHYuanBest/ConsisID-Preview.git

실행 예제

  1. 웹 UI 예제를 실행합니다:
   python app.py
  1. 명령줄 추론을 실행합니다:
   python infer.py --model_path BestWishYsh/ConsisID-preview

큐 단어 최적화

GPT-4o를 사용하여 텍스트 프롬프트 단어의 입력을 최적화합니다(예: 원래 프롬프트 단어: "한 남자가 기타를 연주하고 있습니다."). 최적화된 프롬프트 단어: "동영상에는 한 남자가 비행기 옆에 서서 휴대폰으로 통화하는 모습이 나와 있습니다. 그는 선글라스와 검은색 상의를 입고 심각한 표정을 짓고 있습니다. 비행기 옆면에는 녹색 줄무늬가 있고 뒤쪽에는 큰 엔진이 있습니다."

GPU 메모리 최적화

여러 개의 GPU가 있거나 GPU 메모리가 충분하지 않은 경우 다음 옵션을 활성화할 수 있습니다:

pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

참고: 이러한 옵션을 활성화하면 추론 시간이 길어지고 생성 품질이 저하될 수 있습니다.

데이터 전처리

ConsisID 학습에 필요한 데이터는 프로젝트의 데이터 전처리 가이드를 참조하세요. 텍스트-이미지 및 동영상 생성 모델을 학습시켜야 하는 경우 데이터 세트를 다음 형식으로 구성해야 합니다:

datasets/
├── captions/
│   ├── dataname_1.json
│   ├── dataname_2.json
├── dataname_1/
│   ├── refine_bbox_jsons/
│   ├── track_masks_data/
│   ├── videos/
├── dataname_2/
│   ├── refine_bbox_jsons/
│   ├── track_masks_data/
│   ├── videos/
├── ...
├── total_train_data.txt

모델 교육

  1. 하이퍼파라미터를 설정합니다:
   bash train_single_rank.sh
  1. 교육을 시작합니다:
   bash train_multi_rank.sh

커뮤니티 기여

플러그인 및 확장 프로그램의 커뮤니티 개발자에게 감사드립니다:

  • ComfyUI-ConsisIDWrapper
  • Jupyter-ConsisID
  • Windows-ConsisID

 

ConsisID 빠른 통합

온라인 경험:포옹하는 얼굴

Windows 설치 관리자:포옹하는 얼굴인텔리전스 AI 시작하기

ComfyUI 노드:ComfyUI-CogVideoXWrapper 오픈아트: https://openart.ai/workflows/TxIQ6lwGkRx2zQiYjvE5

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...