OmniGen: 멀티모달 입력으로 캐릭터 일관성 있는 이미지를 생성하는 통합 이미지 생성 모델

일반 소개

옴니젠은 벡터스페이스랩에서 개발한 '범용' 이미지 생성 모델로, 간단한 텍스트 프롬프트나 멀티모달 입력으로 다양하고 맥락이 풍부한 비주얼을 제작할 수 있습니다. 특히 캐릭터 식별과 일관된 캐릭터 렌더링이 필요한 장면에 적합합니다. 사용자는 최대 3개의 이미지를 업로드하고 상세한 프롬프트와 함께 고품질 이미지를 생성할 수 있습니다. 또한 OmniGen은 이전에 생성된 이미지의 편집을 지원하여 이미지 개선 및 실험에 적합한 유연한 시딩 기능을 제공합니다.

OmniGen은 입력 이미지의 특징을 자동으로 인식하고 원하는 이미지를 생성하기 위해 추가적인 플러그인이나 조작이 필요하지 않습니다. 기존 이미지 생성 모델은 일반적으로 만족스러운 이미지를 생성하기 위해 여러 개의 추가 네트워크 모듈(예: 제어망, IP 어댑터, 참조망 등)을 로드하고 추가 전처리 단계(예: 얼굴 감지, 포즈 추정, 자르기 등)를 수행해야 합니다. 그러나 향후 이미지 생성 패러다임은 언어 생성에서 GPT가 작동하는 방식과 유사하게 추가 플러그인 및 작업 없이 임의의 멀티모달 명령어에서 직접 다양한 이미지를 생성하는 등 더 간단하고 유연해야 한다고 생각합니다.

기능 목록

이미지 생성텍스트 프롬프트 또는 멀티모달 입력을 통해 다양한 이미지를 생성합니다.
개인화된 이미지 생성최대 3개의 이미지를 업로드하여 개인화된 이미지를 생성합니다.
캐릭터 렌더링(컴퓨팅): 문자의 일관성과 인식 가능성을 유지하며 문자 식별이 필요한 시나리오에 적합합니다.
이미지 편집이전에 생성한 이미지를 편집하여 유연한 시딩 기능을 제공합니다.
이미지 조건 생성: 입력 이미지의 특정 조건에 따라 새 이미지를 생성합니다.
고품질 출력더 선명하고 고품질의 이미지를 생성하기 위한 자세한 팁입니다.

도움말 사용

사진 업로드캐릭터, 아이템, 조건 맵 등 최대 3개의 이미지를 OmniGen 인터페이스에 업로드할 수 있습니다.
이미지 설명: 프롬프트 상자에 생성하려는 이미지를 자세히 설명합니다. 이미지 요소가 포함된 섹션의 경우 다음 형식을 사용합니다. <img><|image_i|></img> 소개합니다.
조정 매개변수설정에서 이미지 배율과 같은 OmniGen의 생성 매개변수를 조정합니다. 다른 설정은 기본값으로 유지하는 것이 좋습니다.
이미지 생성생성 버튼을 클릭하여 대기열에 들어가 이미지가 생성될 때까지 기다립니다.
이미지 편집옴니젠의 시딩 기능을 사용하여 결과 이미지를 편집하고 다듬습니다.

팁:

이미지 편집 작업 및 제어망 작업의 경우 출력 이미지의 높이와 너비를 입력 이미지와 동일하게 설정하는 것이 좋습니다. 예를 들어 512x512 이미지를 편집하려는 경우 출력 이미지의 높이와 너비를 512x512로 설정해야 합니다. use_input_image_size_as_output 를 사용하여 출력 이미지의 높이와 너비를 입력 이미지에 자동으로 맞춥니다.
메모리가 부족하거나 시간이 부족하다면 offload_model=True또는 참조 . /docs/inference.md1TP5필요한 리소스 적절한 설정을 선택합니다.
여러 이미지를 입력할 때 추론 시간이 너무 긴 경우, 추론 시간을 줄이려면 max_input_image_size. 자세한 내용은 다음을 참조하세요. . /docs/inference.md1TP5필요한 리소스.
과포화: 이미지가 과도하게 포화 상태로 보이면 guidance_scale.
낮은 품질: 더 자세한 단서 단어가 더 나은 결과를 가져올 수 있습니다.
애니메이션 스타일: 생성된 이미지에 애니메이션 스타일이 표시되는 경우 프롬프트에 다음과 같은 단어를 추가할 수 있습니다. photo.
생성된 이미지 편집하기: 옴니젠으로 이미지를 생성한 후 나중에 편집하려는 경우 동일한 시드로는 편집할 수 없습니다. 예를 들어 시드=0으로 이미지를 생성했다면 시드=1로 편집해야 합니다.
이미지 편집 작업의 경우 편집 명령 앞에 이미지를 배치하는 것이 좋습니다. 예를 들어 <img><|image_1|></img> remove suit대신 remove suit <img><|image_1|></img>.

OmniGen 온라인 액세스 및 원클릭 설치 패키지

온라인 공식 웹사이트: aiomnigen.comComfyui

노드: github.com/AIFSH/OmniGen-ComfyUIOmniGen

원클릭 설치 패키지: pan.quark.cn/s/a1fd7d5298f9

OmniGen 더 많은 애플리케이션 시나리오

이미지 편집

OmniGen은 이미지 편집 기능이 뛰어나며 이미지의 텍스트 생성도 가능합니다.

지정된 문자 생성

OmniGen은 역할 일관된 이미지 등을 생성하는 기능, 즉 단일 객체가 있는 이미지를 입력하고 지시를 이해하고 따르며 해당 객체를 기반으로 새로운 이미지를 출력한다는 점에서 InstandID, Pulid 등과 같은 모델과 유사합니다.

InstandID 및 Pulid와 달리 OmniGen은 여러 문자에서 생성을 지정할 수도 있습니다.

지문은 다음을 대신하여 생성됩니다.

명령이 참조하는 개체를 식별하고 여러 개체가 포함된 이미지에서 새 이미지를 생성하는 기능은 OmniGen의 가장 독특한 기능입니다.

OmniGen은 큐 워드 명령에 따라 여러 이미지(최대 3개 이미지 선택 가능)에서 대상 물체를 찾고 추가 모듈이나 작업 없이 명령에 따른 새 이미지를 생성합니다.

일반 이미지 조건 생성

이는 특정 조건에 따라 컨트롤넷과 유사한 이미지 생성을 지원하는 OmniGen의 기능입니다. 현재는 주로 참조 캐릭터 스켈레톤을 기반으로 합니다.Openpose생성, 참조 캐릭터 뎁스 맵에서 생성하는 또 다른 기능입니다.

조건 제어를 위해 컨트롤넷이 필요한 주류 벤 다이어그램 모델과 달리 OmniGen은 단일 모델로 전체 컨트롤넷 프로세스를 완료합니다. OmniGen은 추가 프로세서 없이 원본 다이어그램에서 시각 조건을 직접 추출하고 추출된 조건에 따라 이미지를 생성합니다. 또한, 스켈레톤이나 뎁스 맵을 먼저 생성해야 하는 ControlNet과 달리 OmniGen은 클릭 한 번으로 참조 이미지와 단서를 기반으로 이미지를 생성합니다.

기타 제어 컴포넌트 기능

관계자는 위의 OmniGen 1.0이 기능을 구현할 수 있었던 것 외에도 더 많은 컨트롤넷 기능, 라인, 소프트 에지 생성 등과 같은 더 많은 기능이 있다고 말했습니다.

고전적인 컴퓨터 비전 작업

이미지 노이즈 제거, 가장자리 감지, 포즈 추정 등

LLM과 마찬가지로 작업의 이해도에 따라 어느 정도의 상황 학습 능력(맥락 학습)을 가질 수 있습니다.