AI Personal Learning
und praktische Anleitung

OmniGen: Ein einheitliches Bildgenerierungsmodell mit multimodalen Eingaben zur Generierung zeichenkonsistenter Bilder

Allgemeine Einführung

OmniGen ist ein von VectorSpaceLab entwickeltes "universelles" Bilderzeugungsmodell, das es den Benutzern ermöglicht, mit einfachen Texteingaben oder multimodalen Eingaben vielfältige und kontextreiche visuelle Darstellungen zu erstellen. Es eignet sich besonders gut für Szenen, die eine Zeichenidentifikation und ein konsistentes Zeichenrendering erfordern. Die Benutzer können bis zu drei Bilder hochladen und qualitativ hochwertige Bilder mit detaillierten Eingabeaufforderungen erstellen. Darüber hinaus unterstützt OmniGen die Bearbeitung von zuvor generierten Bildern und bietet flexible Seeding-Funktionen, die sich für die Verfeinerung und das Experimentieren mit Bildern eignen.

OmniGen benötigt keine zusätzlichen Plug-ins oder Operationen, um automatisch Merkmale im Eingangsbild zu erkennen und das gewünschte Bild zu erzeugen. Bestehende Bilderzeugungsmodelle müssen in der Regel mehrere zusätzliche Netzwerkmodule laden (z. B. ControlNet, IP-Adapter, Referenznetz usw.) und zusätzliche Vorverarbeitungsschritte durchführen (z. B. Gesichtserkennung, Posenschätzung, Zuschneiden usw.), um zufriedenstellende Bilder zu erzeugen. Wir glauben jedoch, dass zukünftige Bilderzeugungsparadigmen einfacher und flexibler sein sollten, d.h. sie sollten verschiedene Bilder direkt aus beliebigen multimodalen Anweisungen ohne zusätzliche Plug-ins und Operationen erzeugen, ähnlich wie GPT bei der Spracherzeugung funktioniert.

OmniGen: Vereinheitlichtes Bildgenerierungsmodell mit multimodaler Eingabe zur Generierung zeichenkonsistenter Bilder-1

 

Funktionsliste

  • BilderzeugungGenerieren Sie verschiedene Bilder über Textaufforderungen oder multimodale Eingaben.
  • Personalisierte Bilderstellung: Laden Sie bis zu drei Bilder hoch, um ein persönliches Bild zu erstellen.
  • Zeichenwiedergabe (Computertechnik)Die Konsistenz und Wiedererkennbarkeit der Zeichen bleibt erhalten und eignet sich für Szenarien, in denen eine Identifizierung der Zeichen erforderlich ist.
  • BildbearbeitungEditieren von zuvor erstellten Bildern bietet flexible Seeding-Möglichkeiten.
  • Erzeugung von BildbedingungenGenerierung eines neuen Bildes auf der Grundlage der spezifischen Bedingungen des Eingangsbildes.
  • Hohe Qualität der AusgabeDetaillierte Tipps zur Erzeugung klarerer und hochwertigerer Bilder.

Hilfe verwenden

  1. Ein Bild hochladenHochladen von bis zu drei Bildern in die OmniGen-Schnittstelle, bei denen es sich um Zeichen-, Objekt- oder Zustandspläne handeln kann.
  2. Beschreiben Sie das BildBeschreiben Sie das Bild, das Sie erzeugen wollen, im Eingabefeld genau. Für Abschnitte, die Bildelemente enthalten, verwenden Sie das Format <img><|image_i|></img> Stellen Sie sie vor.
  3. AnpassungsparameterOmniGen: Passen Sie die Generierungsparameter von OmniGen, wie z. B. den Bildmaßstab, in den Einstellungen an. Es wird empfohlen, die anderen Einstellungen als Standard zu belassen.
  4. Bilder generierenKlicken Sie auf die Schaltfläche Generieren, um in die Warteschlange zu gelangen und zu warten, bis das Bild generiert wird.
  5. Bild bearbeitenBearbeiten und verfeinern Sie das resultierende Bild mit der Seeding-Funktion von OmniGen.

 


Tipp:

  • Für Bildbearbeitungsaufgaben und Controlnet-Aufgaben wird empfohlen, die Höhe und Breite des Ausgabebildes auf die gleiche Größe wie das Eingabebild einzustellen. Wenn Sie z.B. ein 512x512 großes Bild bearbeiten wollen, sollten Sie die Höhe und Breite des Ausgabebildes auf 512x512 einstellen. Sie können auch die use_input_image_size_as_output um die Höhe und Breite des Ausgabebildes automatisch an das Eingabebild anzupassen.
  • Wenn Sie unter Speichermangel oder Zeitmangel leiden, können Sie die offload_model=Trueoder Verweis . /docs/inference.md1TP5ErforderlicheRessourcen Wählen Sie die entsprechenden Einstellungen.
  • Wenn bei der Eingabe mehrerer Bilder die Inferenzzeit zu lang ist, versuchen Sie, die max_input_image_size. Ausführliche Informationen finden Sie unter . /docs/inference.md1TP5ErforderlicheRessourcen.
  • Übersättigung: Wenn das Bild übermäßig gesättigt aussieht, verringern Sie den anleitung_skala.
  • Geringe Qualität: Detailliertere Stichwörter würden zu besseren Ergebnissen führen.
  • Anime-Stil: Wenn das erzeugte Bild einen Anime-Stil aufweist, können Sie versuchen, das Aufforderungswort hinzuzufügen Foto.
  • Bearbeitung generierter Bilder: Wenn Sie ein Bild mit omnigen generieren und es später bearbeiten möchten, können Sie dies nicht mit demselben Seed tun. Wenn zum Beispiel ein Bild mit Seed=0 erzeugt wurde, sollte es mit Seed=1 bearbeitet werden.
  • Für Bildbearbeitungsaufgaben wird empfohlen, das Bild vor dem Bearbeitungsbefehl zu platzieren. Wenn Sie zum Beispiel den Befehl <img><|image_1|></img> Anzug abnehmenAnstelle von Anzug abnehmen <img><|image_1|></img>.

 

OmniGen Online-Zugang und Ein-Klick-Installationspaket

Chef-KI-AustauschkreisDieser Inhalt wurde vom Autor versteckt. Bitte geben Sie den Verifizierungscode ein, um den Inhalt zu sehen.
Captcha:
Bitte beachten Sie diese Website WeChat öffentliche Nummer, Antwort "CAPTCHA, eine Art Challenge-Response-Test (Computer)", erhalten Sie den Verifizierungscode. Suchen Sie in WeChat nach "Chef-KI-Austauschkreis"oder"Looks-AI" oder WeChat, indem Sie die rechte Seite des QR-Codes scannen, können Sie die öffentliche WeChat-Nummer dieser Website aufrufen.

 

OmniGen Weitere Anwendungsszenarien

Bildbearbeitung

OmniGen verfügt über gute Bildbearbeitungsfunktionen und kann auch Text aus Bildern erzeugen.

OmniGen: Vereinheitlichtes Bildgenerierungsmodell mit multimodaler Eingabe zur Generierung zeichenkonsistenter Bilder-1

 

Spezifizierte Zeichengenerierung

OmniGen ähnelt Modellen wie InstandID, Pulid usw. in seiner Fähigkeit, rollenkonsistente Bilder usw. zu erzeugen, d. h. ein Bild mit einem einzigen Objekt einzugeben, Anweisungen zu verstehen und zu befolgen und ein neues Bild auf der Grundlage dieses Objekts auszugeben.

OmniGen: Vereinheitlichtes Bildgenerierungsmodell mit multimodaler Eingabe zur Generierung zeichenkonsistenter Bilder-1

Im Gegensatz zu InstandID und Pulid kann OmniGen auch die Erzeugung aus mehreren Zeichen angeben.

OmniGen: Vereinheitlichtes Bildgenerierungsmodell mit multimodaler Eingabe zur Generierung zeichenkonsistenter Bilder-1

 

Fingerabdrücke werden im Namen von

Dies ist das einzigartige Merkmal von OmniGen: die Fähigkeit, das Objekt, auf das sich der Befehl bezieht, zu identifizieren und ein neues Bild aus einem Bild mit mehreren Objekten zu erzeugen.

OmniGen: Vereinheitlichtes Bildgenerierungsmodell mit multimodaler Eingabe zur Generierung zeichenkonsistenter Bilder-1

OmniGen lokalisiert einfach das Zielobjekt aus mehreren Bildern (bis zu 3 Bilder können ausgewählt werden) auf der Grundlage von Cue-Word-Befehlen und erzeugt ein neues Bild, das den Befehlen ohne zusätzliche Module oder Operationen folgt.

 

Generische Erzeugung von Bildbedingungen

Dies ist die Fähigkeit von OmniGen, die ControlNet-ähnliche Erzeugung von Bildern auf der Grundlage bestimmter Bedingungen zu unterstützen. Derzeit basiert sie hauptsächlich auf einem Referenz-ZeichenskelettOpenposeGenerierung, und eine weitere Möglichkeit zur Generierung aus einer Referenzzeichentiefenkarte.

OmniGen: Vereinheitlichtes Bildgenerierungsmodell mit multimodaler Eingabe zur Generierung zeichenkonsistenter Bilder-1

Im Gegensatz zu den gängigen Venn-Diagramm-Modellen, die Controlnet für die Bedingungssteuerung benötigen, vervollständigt OmniGen den gesamten ControlNet-Prozess mit einem einzigen Modell: OmniGen extrahiert visuelle Bedingungen direkt aus dem Originaldiagramm und erzeugt ein Bild auf der Grundlage der extrahierten Bedingungen, ohne dass ein zusätzlicher Prozessor erforderlich ist. Darüber hinaus erzeugt OmniGen ein Bild auf der Grundlage des Referenzbildes und der Cue-Wörter mit einem einzigen Klick, im Gegensatz zu ControlNet, das zunächst ein Skelett oder eine Tiefenkarte erzeugen muss.

 

Andere Funktionen der Steuerkomponente

Zusätzlich zu den oben genannten OmniGen 1.0 wurde in der Lage, die Funktion zu erreichen, sagte der Beamte auch, dass OmniGen gibt es mehr Funktionen, wie z. B. mehr Controlnet Funktionen, Linien, weiche Kante Generation.

OmniGen: Vereinheitlichtes Bildgenerierungsmodell mit multimodaler Eingabe zur Generierung zeichenkonsistenter Bilder-1

 

Klassische Computer-Vision-Aufgaben

Bildentrauschung, Kantenerkennung, Posenschätzung usw.

Auch wie LLM hat ein gewisses Maß an Kontext Lernen Fähigkeit (In-Context Learning), je nach dem Verständnis der Operation.

OmniGen: Vereinheitlichtes Bildgenerierungsmodell mit multimodaler Eingabe zur Generierung zeichenkonsistenter Bilder-1

AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " OmniGen: Ein einheitliches Bildgenerierungsmodell mit multimodalen Eingaben zur Generierung zeichenkonsistenter Bilder

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)