OmniGen: Ein einheitliches Bildgenerierungsmodell mit multimodalen Eingaben zur Generierung zeichenkonsistenter Bilder

Neueste AI-RessourcenAktualisiert vor 9 Monaten AI-Austauschkreis

3.4K 00

Allgemeine Einführung

OmniGen ist ein von VectorSpaceLab entwickeltes "universelles" Bilderzeugungsmodell, das es den Benutzern ermöglicht, mit einfachen Texteingaben oder multimodalen Eingaben vielfältige und kontextreiche visuelle Darstellungen zu erstellen. Es eignet sich besonders gut für Szenen, die eine Zeichenidentifikation und ein konsistentes Zeichenrendering erfordern. Die Benutzer können bis zu drei Bilder hochladen und qualitativ hochwertige Bilder mit detaillierten Eingabeaufforderungen erstellen. Darüber hinaus unterstützt OmniGen die Bearbeitung von zuvor generierten Bildern und bietet flexible Seeding-Funktionen, die sich für die Verfeinerung und das Experimentieren mit Bildern eignen.

OmniGen benötigt keine zusätzlichen Plug-ins oder Operationen, um automatisch Merkmale im Eingangsbild zu erkennen und das gewünschte Bild zu erzeugen. Bestehende Bilderzeugungsmodelle müssen in der Regel mehrere zusätzliche Netzwerkmodule laden (z. B. ControlNet, IP-Adapter, Referenznetz usw.) und zusätzliche Vorverarbeitungsschritte durchführen (z. B. Gesichtserkennung, Posenschätzung, Zuschneiden usw.), um zufriedenstellende Bilder zu erzeugen. Wir glauben jedoch, dass zukünftige Bilderzeugungsparadigmen einfacher und flexibler sein sollten, d.h. sie sollten verschiedene Bilder direkt aus beliebigen multimodalen Anweisungen ohne zusätzliche Plug-ins und Operationen erzeugen, ähnlich wie GPT bei der Spracherzeugung funktioniert.

Funktionsliste

BilderzeugungGenerieren Sie verschiedene Bilder über Textaufforderungen oder multimodale Eingaben.
Personalisierte Bilderstellung: Laden Sie bis zu drei Bilder hoch, um ein persönliches Bild zu erstellen.
Zeichenwiedergabe (Computertechnik)Die Konsistenz und Wiedererkennbarkeit der Zeichen bleibt erhalten und eignet sich für Szenarien, in denen eine Identifizierung der Zeichen erforderlich ist.
BildbearbeitungEditieren von zuvor erstellten Bildern bietet flexible Seeding-Möglichkeiten.
Erzeugung von BildbedingungenGenerierung eines neuen Bildes auf der Grundlage der spezifischen Bedingungen des Eingangsbildes.
Hohe Qualität der AusgabeDetaillierte Tipps zur Erzeugung klarerer und hochwertigerer Bilder.

Hilfe verwenden

Ein Bild hochladenHochladen von bis zu drei Bildern in die OmniGen-Schnittstelle, bei denen es sich um Zeichen-, Objekt- oder Zustandspläne handeln kann.
Beschreiben Sie das BildBeschreiben Sie das Bild, das Sie erzeugen wollen, im Eingabefeld genau. Für Abschnitte, die Bildelemente enthalten, verwenden Sie das Format <img><|image_i|></img> Stellen Sie sie vor.
AnpassungsparameterOmniGen: Passen Sie die Generierungsparameter von OmniGen, wie z. B. den Bildmaßstab, in den Einstellungen an. Es wird empfohlen, die anderen Einstellungen als Standard zu belassen.
Bilder generierenKlicken Sie auf die Schaltfläche Generieren, um in die Warteschlange zu gelangen und zu warten, bis das Bild generiert wird.
Bild bearbeitenBearbeiten und verfeinern Sie das resultierende Bild mit der Seeding-Funktion von OmniGen.

Tipp:

Für Bildbearbeitungsaufgaben und Controlnet-Aufgaben wird empfohlen, die Höhe und Breite des Ausgabebildes auf das gleiche Niveau wie das Eingabebild zu setzen. Wenn Sie z.B. ein 512x512 großes Bild bearbeiten wollen, sollten Sie die Höhe und Breite des Ausgabebildes auf 512x512 einstellen. Sie können auch die use_input_image_size_as_output um die Höhe und Breite des Ausgabebildes automatisch an das Eingabebild anzupassen.
Wenn Sie unter Speichermangel oder Zeitmangel leiden, können Sie die offload_model=Trueoder Verweis . /docs/inference.md1TP5ErforderlicheRessourcen Wählen Sie die entsprechenden Einstellungen.
Wenn bei der Eingabe mehrerer Bilder die Inferenzzeit zu lang ist, versuchen Sie, die max_input_image_size. Ausführliche Informationen finden Sie unter . /docs/inference.md1TP5ErforderlicheRessourcen.
Übersättigung: Wenn das Bild übermäßig gesättigt aussieht, verringern Sie den guidance_scale.
Geringe Qualität: Detailliertere Stichwörter würden zu besseren Ergebnissen führen.
Anime-Stil: Wenn das erzeugte Bild im Anime-Stil gehalten ist, können Sie versuchen, das Aufforderungswort einzufügen photo.
Bearbeitung generierter Bilder: Wenn Sie ein Bild mit omnigen generieren und es später bearbeiten möchten, können Sie dies nicht mit demselben Seed tun. Wenn zum Beispiel ein Bild mit Seed=0 erzeugt wurde, sollte es mit Seed=1 bearbeitet werden.
Für Bildbearbeitungsaufgaben wird empfohlen, das Bild vor dem Bearbeitungsbefehl zu platzieren. Wenn Sie zum Beispiel den Befehl <img><|image_1|></img> remove suitAnstelle von remove suit <img><|image_1|></img>.

OmniGen Online-Zugang und Ein-Klick-Installationspaket

Offizielle Website zur Online-Nutzung: aiomnigen.comComfyui

Knotenpunkt: github.com/AIFSH/OmniGen-ComfyUIOmniGen

Ein-Klick-Installationspaket: pan.quark.cn/s/a1fd7d5298f9

OmniGen Weitere Anwendungsszenarien

Bildbearbeitung

OmniGen verfügt über gute Bildbearbeitungsfunktionen und kann auch Text aus Bildern erzeugen.

Spezifizierte Zeichengenerierung

OmniGen ähnelt Modellen wie InstandID, Pulid usw. in seiner Fähigkeit, rollenkonsistente Bilder usw. zu erzeugen, d. h. ein Bild mit einem einzigen Objekt einzugeben, Anweisungen zu verstehen und zu befolgen und ein neues Bild auf der Grundlage dieses Objekts auszugeben.

Im Gegensatz zu InstandID und Pulid kann OmniGen auch die Erzeugung aus mehreren Zeichen angeben.

Fingerabdrücke werden im Namen von

Dies ist das einzigartige Merkmal von OmniGen: die Fähigkeit, das Objekt, auf das sich der Befehl bezieht, zu identifizieren und ein neues Bild aus einem Bild mit mehreren Objekten zu erzeugen.

OmniGen lokalisiert einfach das Zielobjekt aus mehreren Bildern (bis zu 3 Bilder können ausgewählt werden) auf der Grundlage von Cue-Word-Befehlen und erzeugt ein neues Bild, das den Befehlen ohne zusätzliche Module oder Operationen folgt.

Generische Erzeugung von Bildbedingungen

Dies ist die Fähigkeit von OmniGen, die ControlNet-ähnliche Generierung von Bildern auf der Grundlage bestimmter Bedingungen zu unterstützen. Derzeit basiert sie hauptsächlich auf einem Referenz-ZeichenskelettOpenposeGenerierung, und eine weitere Möglichkeit zur Generierung aus einer Referenzzeichentiefenkarte.

Im Gegensatz zu den gängigen Venn-Diagramm-Modellen, die ControlNet für die Bedingungssteuerung benötigen, schließt OmniGen den gesamten ControlNet-Prozess mit einem einzigen Modell ab: OmniGen extrahiert visuelle Bedingungen direkt aus dem Originaldiagramm und erzeugt ein Bild auf der Grundlage der extrahierten Bedingungen, ohne dass ein zusätzlicher Prozessor erforderlich ist. Darüber hinaus erzeugt OmniGen ein Bild auf der Grundlage des Referenzbildes und der Cue-Wörter mit einem einzigen Mausklick, im Gegensatz zu ControlNet, das zunächst ein Skelett oder eine Tiefenkarte erzeugen muss.

Andere Funktionen der Steuerkomponente

Zusätzlich zu den oben genannten OmniGen 1.0 wurde in der Lage, die Funktion zu erreichen, sagte der Beamte auch, dass OmniGen gibt es mehr Funktionen, wie z. B. mehr Controlnet Funktionen, Linien, weiche Kante Generation.

Klassische Computer-Vision-Aufgaben

Bildentrauschung, Kantenerkennung, Posenschätzung usw.

Auch bei LLM kann ein gewisses Maß an kontextbezogenem Lernen (In-context Learning) vorhanden sein, je nach Verständnis des Vorgangs.