ConsisID: 캐릭터가 일관된 비디오를 생성하는 인물 참조 맵, 신속한 다중 터미널 통합

최신 AI 리소스12개월 전에 게시됨 AI 공유 서클
33.2K 00
堆友AI

일반 소개

ConsisID는 북경대학교의 위안롱 그룹이 개발한 오픈 소스 프로젝트로, 주파수 분해 기술을 통해 정체성 일관성 있는 텍스트-비디오 생성(IPT2V)을 목표로 합니다. 이 프로젝트의 핵심은 동영상 생성 시 문자의 신원 일관성을 유지할 수 있는 DiT(확산 변압기) 기반 모델로, ConsisID 프로젝트는 전체 코드와 데이터셋을 제공할 뿐만 아니라 사용자가 빠르게 시작할 수 있도록 상세한 설치 및 사용 지침을 포함하고 있습니다. 이 프로젝트는 동영상 생성 분야, 특히 영화 및 텔레비전 제작, 가상현실 등 캐릭터의 일관성을 유지해야 하는 애플리케이션 시나리오에서 큰 의미가 있습니다.

ConsisID:一张人像参考图,生成人物一致的视频,多终端快速集成

 

ConsisID:一张人像参考图,生成人物一致的视频,多终端快速集成

 

기능 목록

  • 아이덴티티 일관성 있는 비디오 생성주파수 분해 기법을 사용하여 입력 텍스트의 설명과 일치하고 문자의 동일성을 유지하는 동영상을 생성합니다.
  • 오픈 소스 코드 및 데이터 세트2차 개발 및 연구를 용이하게 하기 위해 전체 코드 및 일부 데이터 세트가 제공됩니다.
  • 멀티 플랫폼 지원윈도우 및 리눅스 시스템에서 실행 지원, Jupyter Notebook 및 ComfyUI 확장 기능 제공.
  • 고품질 프롬프트 최적화를 위한 최적화: 생성된 동영상의 품질을 향상시키기 위해 GPT-4o를 사용하여 텍스트 프롬프트 단어 입력을 최적화합니다.
  • GPU 메모리 최적화다양한 하드웨어 구성에 맞는 다양한 GPU 메모리 최적화 옵션을 제공합니다.
  • 커뮤니티 기여기능 및 사용 경험을 향상시키는 커뮤니티 개발 플러그인 및 확장 프로그램을 지원합니다.

 

도움말 사용

환경 구성

  1. 프로젝트 코드를 복제합니다:
   git clone --depth=1 https://github.com/PKU-YuanGroup/ConsisID.git
cd ConsisID
  1. 가상 환경을 만들고 활성화합니다:
   conda create -n consisid python=3.11.0
conda activate consisid
  1. 종속성을 설치합니다:
   pip install -r requirements.txt

모델 가중치 다운로드

  1. 허깅페이스에서 웨이트를 다운로드하세요:
   huggingface-cli download --repo-type model BestWishYsh/ConsisID-preview --local-dir ckpts
  1. 또는 WiseModel에서 다운로드하세요:
   git lfs install
git clone https://www.wisemodel.cn/SHYuanBest/ConsisID-Preview.git

실행 예제

  1. 웹 UI 예제를 실행합니다:
   python app.py
  1. 명령줄 추론을 실행합니다:
   python infer.py --model_path BestWishYsh/ConsisID-preview

큐 단어 최적화

GPT-4o를 사용하여 텍스트 프롬프트 단어의 입력을 최적화합니다(예: 원래 프롬프트 단어: "한 남자가 기타를 연주하고 있습니다."). 최적화된 프롬프트 단어: "동영상에는 한 남자가 비행기 옆에 서서 휴대폰으로 통화하는 모습이 나와 있습니다. 그는 선글라스와 검은색 상의를 입고 심각한 표정을 짓고 있습니다. 비행기 옆면에는 녹색 줄무늬가 있고 뒤쪽에는 큰 엔진이 있습니다."

GPU 메모리 최적화

여러 개의 GPU가 있거나 GPU 메모리가 충분하지 않은 경우 다음 옵션을 활성화할 수 있습니다:

pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

참고: 이러한 옵션을 활성화하면 추론 시간이 길어지고 생성 품질이 저하될 수 있습니다.

데이터 전처리

ConsisID 학습에 필요한 데이터는 프로젝트의 데이터 전처리 가이드를 참조하세요. 텍스트-이미지 및 동영상 생성 모델을 학습시켜야 하는 경우 데이터 세트를 다음 형식으로 구성해야 합니다:

datasets/
├── captions/
│   ├── dataname_1.json
│   ├── dataname_2.json
├── dataname_1/
│   ├── refine_bbox_jsons/
│   ├── track_masks_data/
│   ├── videos/
├── dataname_2/
│   ├── refine_bbox_jsons/
│   ├── track_masks_data/
│   ├── videos/
├── ...
├── total_train_data.txt

모델 교육

  1. 하이퍼파라미터를 설정합니다:
   bash train_single_rank.sh
  1. 교육을 시작합니다:
   bash train_multi_rank.sh

커뮤니티 기여

플러그인 및 확장 프로그램의 커뮤니티 개발자에게 감사드립니다:

  • ComfyUI-ConsisIDWrapper
  • Jupyter-ConsisID
  • Windows-ConsisID

 

ConsisID 빠른 통합

온라인 경험:포옹하는 얼굴

Windows 설치 관리자:포옹하는 얼굴인텔리전스 AI 시작하기

ComfyUI 노드:ComfyUI-CogVideoXWrapper 오픈아트: https://openart.ai/workflows/TxIQ6lwGkRx2zQiYjvE5

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...