InfiniteYou: 얼굴 특징을 보존하는 사진 생성 및 편집 도구

60.4K 00

일반 소개

인피니트유는 바이트댄스 인텔리전트 크리에이션 팀에서 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 확산 트랜스포머(DiT) 기술을 기반으로 합니다. FLUX.1 개발 모델의 핵심 기능은 사용자가 사진을 업로드하고 텍스트 설명을 입력하여 인물의 신원을 보존하면서 새로운 이미지를 생성할 수 있도록 하는 것입니다. 이 프로젝트는 이미지 품질과 텍스트 정렬을 최적화하기 위한 다단계 훈련과 결합하여 신원 유사성을 향상시키는 InfuseNet 기술을 사용하며, 2025년 3월 코드, 모델 및 온라인 데모와 함께 출시되어 기술 커뮤니티의 주목을 받고 있습니다. 여러 플러그인을 지원하며 개발자, 연구자, 일반 사용자 모두 쉽게 사용할 수 있습니다.

기능 목록

ID 유지 리모델링사진 및 텍스트 설명을 업로드하여 새 이미지를 생성하고 사람의 얼굴 특징을 유지합니다.
고품질 이미지 생성선명한 이미지를 출력하고 흐릿함, 손 왜곡 및 기타 문제를 줄입니다.
텍스트 정렬 최적화편견을 피하기 위해 설명 내용과 매우 일관성 있는 결과를 생성합니다.
모델 선택: 제공 aes_stage2(미학 선호) 및 sim_stage1(신원 확인 우선) 두 가지 모드.
플러그인 확장 기능컨트롤넷, LoRA, IP 어댑터 등을 지원하여 세대 유연성을 높입니다.

도움말 사용

설치 프로세스

InfiniteYou를 사용하려면 로컬 설치가 필요합니다. 자세한 단계는 다음과 같습니다:

환경 준비
- 시스템에 Python 3.8 이상이 설치되어 있는지 확인합니다.
- 코드 다운로드를 위해 Git을 설치합니다.
- 생성 속도 향상을 위해 NVIDIA GPU 및 CUDA를 권장합니다.
코드 복제
터미널에 입력합니다:

git clone https://github.com/bytedance/InfiniteYou.git

카탈로그로 이동합니다:

cd InfiniteYou

종속성 설치
다음 명령을 실행하여 필요한 라이브러리를 설치합니다:

pip install -r requirements.txt

예를 들어 GPU를 사용하는 경우 해당 PyTorch 버전을 설치해야 합니다:

pip install torch torchvision --extra-index-url https://download.pytorch.org/whl/cu124

모델 다운로드
다운로드하려면 https://huggingface.co/ByteDance/InfiniteYou 방문 infu_flux_v1.0 폴더의 aes_stage2 어쩌면 sim_stage1 모델을 프로젝트 디렉토리의 해당 위치에 복사합니다.
데모 실행
Gradio를 설치합니다:

pip install gradio

로컬 인터페이스를 시작합니다:

python app.py

브라우저가 열립니다. http://127.0.0.1:7860바로 사용할 수 있습니다.

주요 기능

신원 보존 사진 재구성

사진 업로드
라디오 인터페이스에서 '신원 이미지 업로드'를 클릭하고 얼굴이 선명한 사진을 선택합니다.
입력 설명
'프롬프트 텍스트' 상자에 구체적인 설명을 입력합니다(예: '숲에서 빨간 드레스를 입은 여성').
매개변수 설정

모델 선택:aes_stage2 미학에 집중합니다.sim_stage1 아이덴티티 유사성에 중점을 둡니다.
매개변수 조정: 기본값 infusenet_conditioning_scale 때문에 1.0(수학.) 속infusenet_guidance_start 때문에 0.0. ID가 충분히 유사하지 않은 경우 후자를 다음과 같이 조정해 보십시오. 0.1.
시드 값(시드): 기본값을 유지하거나 수동으로 설정합니다.

이미지 생성
'생성'을 클릭하고 결과가 화면에 표시될 때까지 약 120초간 기다립니다.

빠른 스크립트 추론

터미널에서 실행됩니다:

python test.py --id_image ./assets/examples/yann-lecun_resize.jpg --prompt "一个男人，肖像，电影风格" --out_results_dir ./results

생성된 결과는 results 폴더.

온라인 데모

설치 없이 사용해 보려면 https://huggingface.co/spaces/ByteDance/InfiniteYou-FLUX 을 방문하세요.

플러그인 사용

ControlNet: 포즈 참조 이미지를 업로드하여 결과를 생성하는 동작을 제어합니다.
LoRA리얼리즘 및 블러 방지 플러그인이 지원되며, 경로를 수동으로 지정해야 합니다. <path_to_lora>.
IP 어댑터개인화된 스타일링을 위한 스타일 참조 차트를 추가합니다.

작동 예

'회의실에서 정장을 입은 남자'의 이미지를 생성하려고 합니다:

남성의 사진을 업로드합니다.
"회의실에 있는 정장 차림의 남자"와 같은 설명을 입력합니다.
옵션 aes_stage2"생성"을 클릭합니다.
결과를 확인하고 성별을 조정해야 하는 경우 "남자"라는 단어를 추가합니다.

주의

사진이 가려지지 않도록 선명하고 정면을 향하도록 촬영해야 합니다.
설명을 구체적으로 작성하고 '아름다운'과 같은 모호한 단어는 피하세요.
생성 시간은 하드웨어에 따라 다르며 GPU의 경우 30~60초 정도로 짧을 수 있습니다.

애플리케이션 시나리오

소셜 미디어 콘텐츠
사용자가 셀카를 업로드하고 "헬스장에서 운동복 입고"라고 입력하면 피트니스 테마의 사진이 생성되어 공유할 수 있습니다.
예술
아티스트는 '중세 의상을 입은 기사'를 묘사한 초상화를 업로드하여 콘셉트 디자인을 생성합니다.
연구 테스트
연구진은 InfiniteYou를 사용하여 신원 유지 효과를 비교하고 생성된 모델의 성능을 검증했습니다.