Allgemeine Einführung
OmniGen ist ein von VectorSpaceLab entwickeltes "universelles" Bilderzeugungsmodell, das es den Benutzern ermöglicht, mit einfachen Texteingaben oder multimodalen Eingaben vielfältige und kontextreiche visuelle Darstellungen zu erstellen. Es eignet sich besonders gut für Szenen, die eine Zeichenidentifikation und ein konsistentes Zeichenrendering erfordern. Die Benutzer können bis zu drei Bilder hochladen und qualitativ hochwertige Bilder mit detaillierten Eingabeaufforderungen erstellen. Darüber hinaus unterstützt OmniGen die Bearbeitung von zuvor generierten Bildern und bietet flexible Seeding-Funktionen, die sich für die Verfeinerung und das Experimentieren mit Bildern eignen.
OmniGen benötigt keine zusätzlichen Plug-ins oder Operationen, um automatisch Merkmale im Eingangsbild zu erkennen und das gewünschte Bild zu erzeugen. Bestehende Bilderzeugungsmodelle müssen in der Regel mehrere zusätzliche Netzwerkmodule laden (z. B. ControlNet, IP-Adapter, Referenznetz usw.) und zusätzliche Vorverarbeitungsschritte durchführen (z. B. Gesichtserkennung, Posenschätzung, Zuschneiden usw.), um zufriedenstellende Bilder zu erzeugen. Wir glauben jedoch, dass zukünftige Bilderzeugungsparadigmen einfacher und flexibler sein sollten, d.h. sie sollten verschiedene Bilder direkt aus beliebigen multimodalen Anweisungen ohne zusätzliche Plug-ins und Operationen erzeugen, ähnlich wie GPT bei der Spracherzeugung funktioniert.
Funktionsliste
- BilderzeugungGenerieren Sie verschiedene Bilder über Textaufforderungen oder multimodale Eingaben.
- Personalisierte Bilderstellung: Laden Sie bis zu drei Bilder hoch, um ein persönliches Bild zu erstellen.
- Zeichenwiedergabe (Computertechnik)Die Konsistenz und Wiedererkennbarkeit der Zeichen bleibt erhalten und eignet sich für Szenarien, in denen eine Identifizierung der Zeichen erforderlich ist.
- BildbearbeitungEditieren von zuvor erstellten Bildern bietet flexible Seeding-Möglichkeiten.
- Erzeugung von BildbedingungenGenerierung eines neuen Bildes auf der Grundlage der spezifischen Bedingungen des Eingangsbildes.
- Hohe Qualität der AusgabeDetaillierte Tipps zur Erzeugung klarerer und hochwertigerer Bilder.
Hilfe verwenden
- Ein Bild hochladenHochladen von bis zu drei Bildern in die OmniGen-Schnittstelle, bei denen es sich um Zeichen-, Objekt- oder Zustandspläne handeln kann.
- Beschreiben Sie das BildBeschreiben Sie das Bild, das Sie erzeugen wollen, im Eingabefeld genau. Für Abschnitte, die Bildelemente enthalten, verwenden Sie das Format <img><|image_i|></img> Stellen Sie sie vor.
- AnpassungsparameterOmniGen: Passen Sie die Generierungsparameter von OmniGen, wie z. B. den Bildmaßstab, in den Einstellungen an. Es wird empfohlen, die anderen Einstellungen als Standard zu belassen.
- Bilder generierenKlicken Sie auf die Schaltfläche Generieren, um in die Warteschlange zu gelangen und zu warten, bis das Bild generiert wird.
- Bild bearbeitenBearbeiten und verfeinern Sie das resultierende Bild mit der Seeding-Funktion von OmniGen.
Tipp:
- Für Bildbearbeitungsaufgaben und Controlnet-Aufgaben wird empfohlen, die Höhe und Breite des Ausgabebildes auf die gleiche Größe wie das Eingabebild einzustellen. Wenn Sie z.B. ein 512x512 großes Bild bearbeiten wollen, sollten Sie die Höhe und Breite des Ausgabebildes auf 512x512 einstellen. Sie können auch die
use_input_image_size_as_output
um die Höhe und Breite des Ausgabebildes automatisch an das Eingabebild anzupassen. - Wenn Sie unter Speichermangel oder Zeitmangel leiden, können Sie die
offload_model=True
oder Verweis . /docs/inference.md1TP5ErforderlicheRessourcen Wählen Sie die entsprechenden Einstellungen. - Wenn bei der Eingabe mehrerer Bilder die Inferenzzeit zu lang ist, versuchen Sie, die
max_input_image_size
. Ausführliche Informationen finden Sie unter . /docs/inference.md1TP5ErforderlicheRessourcen. - Übersättigung: Wenn das Bild übermäßig gesättigt aussieht, verringern Sie den
anleitung_skala
. - Geringe Qualität: Detailliertere Stichwörter würden zu besseren Ergebnissen führen.
- Anime-Stil: Wenn das erzeugte Bild einen Anime-Stil aufweist, können Sie versuchen, das Aufforderungswort hinzuzufügen
Foto
. - Bearbeitung generierter Bilder: Wenn Sie ein Bild mit omnigen generieren und es später bearbeiten möchten, können Sie dies nicht mit demselben Seed tun. Wenn zum Beispiel ein Bild mit Seed=0 erzeugt wurde, sollte es mit Seed=1 bearbeitet werden.
- Für Bildbearbeitungsaufgaben wird empfohlen, das Bild vor dem Bearbeitungsbefehl zu platzieren. Wenn Sie zum Beispiel den Befehl
<img><|image_1|></img> Anzug abnehmen
Anstelle vonAnzug abnehmen <img><|image_1|></img>
.
OmniGen Online-Zugang und Ein-Klick-Installationspaket
OmniGen Weitere Anwendungsszenarien
Bildbearbeitung
OmniGen verfügt über gute Bildbearbeitungsfunktionen und kann auch Text aus Bildern erzeugen.
Spezifizierte Zeichengenerierung
OmniGen ähnelt Modellen wie InstandID, Pulid usw. in seiner Fähigkeit, rollenkonsistente Bilder usw. zu erzeugen, d. h. ein Bild mit einem einzigen Objekt einzugeben, Anweisungen zu verstehen und zu befolgen und ein neues Bild auf der Grundlage dieses Objekts auszugeben.
Im Gegensatz zu InstandID und Pulid kann OmniGen auch die Erzeugung aus mehreren Zeichen angeben.
Fingerabdrücke werden im Namen von
Dies ist das einzigartige Merkmal von OmniGen: die Fähigkeit, das Objekt, auf das sich der Befehl bezieht, zu identifizieren und ein neues Bild aus einem Bild mit mehreren Objekten zu erzeugen.
OmniGen lokalisiert einfach das Zielobjekt aus mehreren Bildern (bis zu 3 Bilder können ausgewählt werden) auf der Grundlage von Cue-Word-Befehlen und erzeugt ein neues Bild, das den Befehlen ohne zusätzliche Module oder Operationen folgt.
Generische Erzeugung von Bildbedingungen
Dies ist die Fähigkeit von OmniGen, die ControlNet-ähnliche Erzeugung von Bildern auf der Grundlage bestimmter Bedingungen zu unterstützen. Derzeit basiert sie hauptsächlich auf einem Referenz-ZeichenskelettOpenposeGenerierung, und eine weitere Möglichkeit zur Generierung aus einer Referenzzeichentiefenkarte.
Im Gegensatz zu den gängigen Venn-Diagramm-Modellen, die Controlnet für die Bedingungssteuerung benötigen, vervollständigt OmniGen den gesamten ControlNet-Prozess mit einem einzigen Modell: OmniGen extrahiert visuelle Bedingungen direkt aus dem Originaldiagramm und erzeugt ein Bild auf der Grundlage der extrahierten Bedingungen, ohne dass ein zusätzlicher Prozessor erforderlich ist. Darüber hinaus erzeugt OmniGen ein Bild auf der Grundlage des Referenzbildes und der Cue-Wörter mit einem einzigen Klick, im Gegensatz zu ControlNet, das zunächst ein Skelett oder eine Tiefenkarte erzeugen muss.
Andere Funktionen der Steuerkomponente
Zusätzlich zu den oben genannten OmniGen 1.0 wurde in der Lage, die Funktion zu erreichen, sagte der Beamte auch, dass OmniGen gibt es mehr Funktionen, wie z. B. mehr Controlnet Funktionen, Linien, weiche Kante Generation.
Klassische Computer-Vision-Aufgaben
Bildentrauschung, Kantenerkennung, Posenschätzung usw.
Auch wie LLM hat ein gewisses Maß an Kontext Lernen Fähigkeit (In-Context Learning), je nach dem Verständnis der Operation.