PiT: 이미지 부분(열려 있지 않은)에서 전체 이미지를 조합하는 도구

최신 AI 리소스5개월 전에 게시 됨 AI 공유 서클
1.5K 00

일반 소개

PiT(Piece it Together)는 깃허브에서 호스팅되는 오픈 소스 도구로, 텔아비브 대학교의 엘라드 리처드슨과 같은 연구자들이 개발했습니다. 사용자는 날개, 헤어스타일, 눈 등 이미지의 일부분을 입력한 다음 인공지능 기술을 사용하여 완전한 이미지를 생성할 수 있으며, PiT는 이미지의 일부를 입력으로 사용하여 텍스트 설명이 필요 없고, 사전 학습된 모델인 IP-Prior를 사용하여 누락된 부분을 채운 다음 SDXL을 통해 최종적으로 결과를 렌더링합니다. 이 도구는 시각 디자이너나 연구원이 창의적인 아이디어를 빠르게 조합하는 데 적합합니다. 2025년 3월 25일 기준 PiT의 최신 코드와 설명은 GitHub에서 확인할 수 있습니다.

PiT:用图像零件拼出完整图像的工具(未开放)

 

기능 목록

  • 직소 퍼즐: 조각난 이미지 부분을 입력하여 전체 이미지를 생성합니다.
  • 디테일에 대한 관심부품의 특성에 따라 보색 이미지가 전체적으로 일관되게 유지됩니다.
  • 순수 이미지 입력텍스트 프롬프트 없이 사진만으로 조작할 수 있습니다.
  • 여러 결과다양한 부품 수를 지원하여 다양한 이미지를 생성할 수 있습니다.
  • 오픈 소스 프로젝트이 코드는 GitHub에 공개되어 있으며 자유롭게 다운로드하여 수정할 수 있습니다.
  • 사용 가능한 스타일IP-LoRA 조정을 통한 특정 스타일 이미지 생성을 지원합니다.
  • 도메인 적응다양한 IP-Prior 모델을 사용하여 특정 주제에 적합한 이미지를 생성할 수 있습니다.

 

도움말 사용

PiT는 기본적인 프로그래밍 기술을 갖춘 사용자를 위한 GitHub의 오픈 소스 프로젝트입니다. 자세한 설치 및 사용 가이드를 통해 빠르게 시작할 수 있습니다.

설치 프로세스

  1. 환경 준비하기
    • 컴퓨터에 Python 3.8 이상이 설치되어 있는지 확인하세요.
    • Git 설치(Windows의 git-scm.com 다운로드, Mac/Lux 입력 git --version (확인).
    • 생성 속도를 높이려면 GPU가 있는 장치(예: CUDA가 있는 NVIDIA 그래픽 카드)를 사용하는 것이 좋습니다. GPU 없이도 사용할 수 있지만 속도가 느립니다.
  2. 코드 다운로드
    • 터미널 또는 명령줄을 엽니다.
    • 명령을 입력하여 PiT를 다운로드합니다:
      git clone https://github.com/eladrich/PiT.git
      
    • 프로젝트 폴더로 이동합니다:
      cd PiT
      
  3. 종속성 설치
    • 이 프로젝트에는 다음과 같은 Python 라이브러리가 필요합니다. torchnumpy목록은 다음 링크에서 확인할 수 있습니다. requirements.txt 가운데.
    • 명령을 실행하여 설치합니다:
      pip install -r requirements.txt
      
    • 이 파일이 없는 경우 사용 설명서를 참조하여 설치하세요. diffuserstransformers 등
  4. 모델 가져오기
    • PiT는 IP-Prior 및 IP-Adapter+ 모델을 사용하며, 다운로드 링크는 GitHub 또는 백서(https://arxiv.org/abs/2503.10365)에서 확인할 수 있습니다.
    • 모델을 지정된 디렉터리에 배치합니다(예 models/), 경로에 대해서는 README를 참조하세요.
  5. SDXL 설치
    • PiT는 SDXL로 이미지를 렌더링합니다. 설치 diffusers::
      pip install diffusers
      
    • 허깅 페이스에서 SDXL 모델을 다운로드하여 로컬에 저장합니다.

사용법

  1. 부품 준비
    • 이미지 부분(예: 귀, 로고)은 배경이 깨끗한 PNG 형식으로 수집하는 것이 좋습니다.
    • 프로젝트의 입력 폴더로 이동합니다(예 input/).
  2. 실행 중인 프로그램
    • 터미널에 PiT 디렉토리를 입력합니다.
    • 스크립트를 실행합니다( generate.py(자세한 내용은 README 참조):
      python generate.py --input_dir input/ --output_dir output/
      
    • 매개변수 설명:
      • --input_dir: 부품 폴더.
      • --output_dir: 결과가 폴더에 저장됩니다.
    • 프로그램은 부품이 포함된 전체 이미지를 생성합니다.
  3. 이미지 보기
    • 생성 후 output/ 폴더 보기.
    • 만족스럽지 않으면 파트를 더 추가하거나 선명한 이미지를 변경하세요.

주요 기능 작동

  • 부품 번호
    하나 이상의 부위를 입력할 수 있습니다. 예를 들어, "발"과 "꼬리"를 입력하면 완전한 동물이 생성됩니다. 같은 스타일의 부품을 사용하는 것이 좋습니다.
  • 스타일링
    IP-LoRA로 스타일 단서를 추가할 수 있습니다. 예시:

    python generate.py --input_dir input/ --output_dir output/ --prompt "卡通风格"
    

    그러면 만화 같은 이미지를 생성할 수 있습니다.

  • (수학.) 정류 도메인 모델
    PiT는 다양한 IP 이전 모델(예: 장난감, 생물)을 지원합니다. 전환 시 해당 모델 파일이 로드되며, 작동에 대해서는 README를 참조하세요.
  • 최적화 결과
    이미지가 흐릿한 경우 파트가 선명한지 확인하거나 매개변수를 추가합니다:

    python generate.py --input_dir input/ --steps 50
    

주의

  • 부품은 명확해야 하며 너무 작거나 어수선하지 않아야 합니다.
  • 첫 번째 실행은 느리고 이후 실행은 빠릅니다.
  • 오류가 발생하면 메시지가 표시되는 대로 누락된 라이브러리를 설치합니다.

이 단계는 PiT로 완전한 이미지를 구성하는 데 도움이 됩니다. 작업에는 프로그래밍이 필요하지만 그 과정은 간단합니다.

 

애플리케이션 시나리오

  1. 디자인 영감
    디자이너는 부품(예: 날개, 모자)을 입력하여 전체 캐릭터를 구성하고 아이디어를 빠르게 시험해 볼 수 있습니다.
  2. 제품 컨셉
    개발자는 부품(예: 버튼, 도형)을 사용하여 새로운 제품 이미지를 생성하고 디자인 방향을 탐색합니다.
  3. 기술 학습
    연구원들은 PiT를 사용하여 AI가 이미지 생성의 원리를 이해하기 위해 부품에서 퍼즐을 맞추는 방법을 테스트했습니다.

 

QA

  1. PiT와 다른 도구의 차이점은 무엇인가요?
    PiT는 텍스트가 없는 이미지 부품이 있는 직접 직소퍼즐로, 시각적 창작에 적합합니다.
  2. 모델을 훈련시켜야 하나요?
    사전 훈련된 공식 모델이 있지만 직접 훈련하고 조정할 수 있습니다.
  3. 생성 속도가 빠르나요?
    빠르지는 않으며 기기에 따라 몇 초에서 몇 분 정도 걸립니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...