ConsisID: 캐릭터가 일관된 비디오를 생성하는 인물 참조 맵, 신속한 다중 터미널 통합

55.9K 00

일반 소개

ConsisID는 북경대학교의 위안롱 그룹이 개발한 오픈 소스 프로젝트로, 주파수 분해 기술을 통해 정체성 일관성 있는 텍스트-비디오 생성(IPT2V)을 목표로 합니다. 이 프로젝트의 핵심은 동영상 생성 시 문자의 신원 일관성을 유지할 수 있는 DiT(확산 변압기) 기반 모델로, ConsisID 프로젝트는 전체 코드와 데이터셋을 제공할 뿐만 아니라 사용자가 빠르게 시작할 수 있도록 상세한 설치 및 사용 지침을 포함하고 있습니다. 이 프로젝트는 동영상 생성 분야, 특히 영화 및 텔레비전 제작, 가상현실 등 캐릭터의 일관성을 유지해야 하는 애플리케이션 시나리오에서 큰 의미가 있습니다.

기능 목록

아이덴티티 일관성 있는 비디오 생성주파수 분해 기법을 사용하여 입력 텍스트의 설명과 일치하고 문자의 동일성을 유지하는 동영상을 생성합니다.
오픈 소스 코드 및 데이터 세트2차 개발 및 연구를 용이하게 하기 위해 전체 코드 및 일부 데이터 세트가 제공됩니다.
멀티 플랫폼 지원윈도우 및 리눅스 시스템에서 실행 지원, Jupyter Notebook 및 ComfyUI 확장 기능 제공.
고품질 프롬프트 최적화를 위한 최적화: 생성된 동영상의 품질을 향상시키기 위해 GPT-4o를 사용하여 텍스트 프롬프트 단어 입력을 최적화합니다.
GPU 메모리 최적화다양한 하드웨어 구성에 맞는 다양한 GPU 메모리 최적화 옵션을 제공합니다.
커뮤니티 기여기능 및 사용 경험을 향상시키는 커뮤니티 개발 플러그인 및 확장 프로그램을 지원합니다.

도움말 사용

환경 구성

프로젝트 코드를 복제합니다:

   git clone --depth=1 https://github.com/PKU-YuanGroup/ConsisID.git
cd ConsisID

가상 환경을 만들고 활성화합니다:

   conda create -n consisid python=3.11.0
conda activate consisid

종속성을 설치합니다:

   pip install -r requirements.txt

모델 가중치 다운로드

허깅페이스에서 웨이트를 다운로드하세요:

   huggingface-cli download --repo-type model BestWishYsh/ConsisID-preview --local-dir ckpts

또는 WiseModel에서 다운로드하세요:

   git lfs install
git clone https://www.wisemodel.cn/SHYuanBest/ConsisID-Preview.git

실행 예제

웹 UI 예제를 실행합니다:

   python app.py

명령줄 추론을 실행합니다:

   python infer.py --model_path BestWishYsh/ConsisID-preview

큐 단어 최적화

GPT-4o를 사용하여 텍스트 프롬프트 단어의 입력을 최적화합니다(예: 원래 프롬프트 단어: "한 남자가 기타를 연주하고 있습니다."). 최적화된 프롬프트 단어: "동영상에는 한 남자가 비행기 옆에 서서 휴대폰으로 통화하는 모습이 나와 있습니다. 그는 선글라스와 검은색 상의를 입고 심각한 표정을 짓고 있습니다. 비행기 옆면에는 녹색 줄무늬가 있고 뒤쪽에는 큰 엔진이 있습니다."

GPU 메모리 최적화

여러 개의 GPU가 있거나 GPU 메모리가 충분하지 않은 경우 다음 옵션을 활성화할 수 있습니다:

pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

참고: 이러한 옵션을 활성화하면 추론 시간이 길어지고 생성 품질이 저하될 수 있습니다.

데이터 전처리

ConsisID 학습에 필요한 데이터는 프로젝트의 데이터 전처리 가이드를 참조하세요. 텍스트-이미지 및 동영상 생성 모델을 학습시켜야 하는 경우 데이터 세트를 다음 형식으로 구성해야 합니다:

datasets/
├── captions/
│   ├── dataname_1.json
│   ├── dataname_2.json
├── dataname_1/
│   ├── refine_bbox_jsons/
│   ├── track_masks_data/
│   ├── videos/
├── dataname_2/
│   ├── refine_bbox_jsons/
│   ├── track_masks_data/
│   ├── videos/
├── ...
├── total_train_data.txt

모델 교육

하이퍼파라미터를 설정합니다:

   bash train_single_rank.sh

교육을 시작합니다:

   bash train_multi_rank.sh

커뮤니티 기여

플러그인 및 확장 프로그램의 커뮤니티 개발자에게 감사드립니다:

ComfyUI-ConsisIDWrapper
Jupyter-ConsisID
Windows-ConsisID

ConsisID 빠른 통합

온라인 경험:포옹하는 얼굴

Windows 설치 관리자:포옹하는 얼굴 인텔리전스 AI 시작하기

ComfyUI 노드:ComfyUI-CogVideoXWrapper 오픈아트: https://openart.ai/workflows/TxIQ6lwGkRx2zQiYjvE5

새드토커: 사진 말하기 만들기 | 입 동기화 오디오 | 합성 입 동기화 비디오 | 무료 디지털 피플

1 년 전

064.3K

오디오북: epub 전자책을 m4b 오디오북으로 변환하기

1 년 전

053.8K

미스트랄 3 - 미스트랄 AI, 오픈 소스의 최신 멀티모달 대형 모델 시리즈 출시

최신 AI 리소스

3 개월 전

021.1K

위안바오/위안치: 텐센트의 혼합 요소 지원 AI 어시스턴트 및 개방형 지능형 신체 설계 플랫폼

1 년 전

0277.1K

댓글 없음

댓글에 참여하려면 로그인해야 합니다!

지금 로그인

댓글 없음...

ConsisID: 캐릭터가 일관된 비디오를 생성하는 인물 참조 맵, 신속한 다중 터미널 통합

일반 소개

기능 목록

도움말 사용

환경 구성

모델 가중치 다운로드

실행 예제

큐 단어 최적화

GPU 메모리 최적화

데이터 전처리

모델 교육

커뮤니티 기여

ConsisID 빠른 통합

GraphRAG 비주얼라이저: Microsoft GraphRAG 아티팩트를 시각화하고 탐색하기 위한 도구

스마트 작곡가: 로컬 노트를 참조하기 위한 스마트 글쓰기 및 시맨틱 검색을 위한 옵시디언 플러그인

관련 문서

새드토커: 사진 말하기 만들기 | 입 동기화 오디오 | 합성 입 동기화 비디오 | 무료 디지털 피플

오디오북: epub 전자책을 m4b 오디오북으로 변환하기

미스트랄 3 - 미스트랄 AI, 오픈 소스의 최신 멀티모달 대형 모델 시리즈 출시

위안바오/위안치: 텐센트의 혼합 요소 지원 AI 어시스턴트 및 개방형 지능형 신체 설계 플랫폼

댓글 없음

최신 컬렉션

최신 기사

ConsisID: 캐릭터가 일관된 비디오를 생성하는 인물 참조 맵, 신속한 다중 터미널 통합

일반 소개

기능 목록

도움말 사용

환경 구성

모델 가중치 다운로드

실행 예제

큐 단어 최적화

GPU 메모리 최적화

데이터 전처리

모델 교육

커뮤니티 기여

ConsisID 빠른 통합

GraphRAG 비주얼라이저: Microsoft GraphRAG 아티팩트를 시각화하고 탐색하기 위한 도구

스마트 작곡가: 로컬 노트를 참조하기 위한 스마트 글쓰기 및 시맨틱 검색을 위한 옵시디언 플러그인

관련 문서

새드토커: 사진 말하기 만들기 | 입 동기화 오디오 | 합성 입 동기화 비디오 | 무료 디지털 피플

오디오북: epub 전자책을 m4b 오디오북으로 변환하기

미스트랄 3 - 미스트랄 AI, 오픈 소스의 최신 멀티모달 대형 모델 시리즈 출시

위안바오/위안치: 텐센트의 혼합 요소 지원 AI 어시스턴트 및 개방형 지능형 신체 설계 플랫폼

댓글 없음

선택한 AI 도구

최신 컬렉션

최신 기사