AI Personal Learning
und praktische Anleitung
豆包Marscode1

ChatGPT-Bilderzeugung entzündet das Web: technologische Durchbrüche, Urheberrechtsstreit und arithmetischer Notfall

OpenAI hat kürzlich seine fortschrittliche Bilderzeugungstechnologie direkt in das ChatGPTDiese Initiative hat bei den Nutzern schnell Begeisterung ausgelöst und eine Reihe von Folgeeffekten nach sich gezogen. Die Funktion nutzt die leistungsstarke GPT-4o Modellierungsfähigkeiten, technologischer Hintergrund und Modelle zur Videogenerierung Sora ähnlich, so dass die Benutzer direkt in der vertrauten Dialogoberfläche hochwertige Standbilder erstellen können, was die Benutzerfreundlichkeit erheblich verbessert.

-1


Diese Fähigkeit zur Bilderzeugung ist für alle ChatGPT Offen für Nutzer, einschließlich zahlender Abonnenten (PlusProTeam) und freie Nutzer.OpenAI ergab, dass die anfängliche tägliche Erzeugungsmenge bei den kostenlosen Nutzern etwa dreimal so hoch war, während die DALL·E Die bisherige Strategie ist ähnlich, wird aber dynamisch an den Bedarf angepasst. Dieser Schritt hat die Popularität der hochwertigen KI-Bilderzeugung sicherlich beschleunigt und sie auf eine Stufe mit der Midjourney und andere kostenpflichtige Dienste und Stable Diffusion und andere Open-Source-Modelle konkurrieren um ein breiteres Nutzerportal.

 

Der Technologiemotor: die Kernkompetenz, die den Boom antreibt

Diese Integration ist nicht einfach nur ein Stapel von Funktionen, sondern dahinter verbirgt sich ein bedeutender Fortschritt in der Bilderzeugungstechnologie. Besonders hervorzuheben ist die Lösung des Problems der "Attribut- und Objektbindung" (Bindung), das die KI-Bilderzeugung seit langem plagt. In der Vergangenheit war es für das Modell schwierig, Anweisungen wie "blaue Sterne und rote Dreiecke" korrekt zu verarbeiten, wodurch Farben und Formen oft verwechselt wurden. Laut OpenAI Leiter der Forschung Gabriel Goh Das neue Modell wurde als in der Lage beschrieben, Anweisungen mit 15 bis 20 Objekten und ihren komplexen Beziehungen konsistent zu verarbeiten, was die Grenzen des alten Modells weit übersteigt.

-2

Eine weitere wichtige Verbesserung ist die Qualität der Textdarstellung im Bild. KI hatte schon immer Schwierigkeiten, klaren, fehlerfreien Text in Bildern zu erzeugen, was viele potenzielle Anwendungen (z. B. Plakat- und Logodesign) behindert hat.Goh Nach monatelanger Optimierung ist das neue Modell bei der Textdarstellung sehr zuverlässig geworden, was die Anwendungsszenarien erheblich erweitert", so das Unternehmen. Dies ist auf die im Modell verwendete "autoregressive Generierungsmethode" zurückzuführen, bei der das sequenzielle Zeichnen Pixel für Pixel (z. B. von links nach rechts und von oben nach unten) eine bessere Kontrolle der Details ermöglicht als bei Diffusionsmodellen, bei denen das gesamte Bild auf einmal generiert wird, und die sich besonders gut für die genaue Wiedergabe von Text eignet.

-3

Diese Fortschritte beruhen auf GPT-4o Der omnimodale Kern des Modells wurde von Anfang an so konzipiert, dass er Text, Bilder, Audio und Video vereinheitlicht. Gleichzeitig beinhaltet das Modell ein breites Spektrum an "Weltwissen", um die Logik und den gesunden Menschenverstand hinter Bildern zu verstehen. Zum Beispiel ChatGPT Multimodaler Produktverantwortlicher Jackie Shannon Der Benutzer muss das Modell nicht übermäßig erklären, um Bilder zu erzeugen, die mit den physikalischen Gesetzen und dem Hintergrundwissen übereinstimmen, wie z. B. ein Schema von Newtons trigonometrischem Experiment oder ein Comic, das die Konsistenz der Zeichen beibehält.

-4
-5

 

Doppelte Konsequenzen: Die Ressourcen und ethischen Herausforderungen des Erfolgs

Diese leistungsstarken Funktionen haben dazu geführt, dass die neue Funktion bei ihrer Einführung schnell das Internet in Brand gesetzt hat, aber auch, dass die OpenAI Unmittelbar gibt es zwei große Herausforderungen: der enorme Druck auf die Rechenressourcen und die anhaltende Kontroverse über die Ethik des Urheberrechts.

Erstens ist da die Ebene der Ressourcen. Die große Nachfrage der Nutzer macht OpenAI Die Server des Unternehmens sind überlastet. Der CEO Sam Altman existieren X Die Plattform beschrieb das Dilemma mit der Formulierung "unsere GPUs schmelzen". Um die Stabilität des Dienstes aufrechtzuerhalten, hat dieOpenAI Die Ratenbegrenzung musste dringend eingeführt werden. Nachdem sich die vollständige Öffnung für kostenlose Nutzer aufgrund der hohen Nachfrage bereits verzögert hatte, unterstreicht die erneute Bestätigung einer Begrenzung der kostenlosen Nutzer (etwa drei pro Tag) die Tatsache, dass die rechnerischen Kosten und Ressourcenengpässe für den groß angelegten Einsatz modernster KI-Anwendungen selbst für Branchenriesen eine harte Realität bleiben.

-6

Zweitens ist da die ethische und urheberrechtliche Dimension. Die leistungsstarke Nachahmungsfunktion der neuen Funktion wurde von den Nutzern schnell genutzt. Bilder im Stil des japanischen Animators Hayao Miyazaki gingen in den sozialen Medien viral und lösten eine wahre Flut von Aktivitäten aus.

-7

Dieser "süße Sturm" berührte jedoch schnell die empfindliche rote Linie des Urheberrechts. Nur einen Tag später.OpenAI Das Unternehmen hat damit begonnen, Nutzern die Erstellung von Bildern im Stil bestimmter lebender Künstler, insbesondere im "Hayao Miyazaki-Stil", zu untersagen, und hat öffentlich erklärt, dass es einen "konservativeren" Ansatz verfolgt. Der Sprecher sagte, dass es derzeit die Erstellung von "individuellen lebenden Künstlerstilen" verbietet, aber "breitere Studiostile" oder die Stile von verstorbenen Künstlern erlaubt, und dass es seine Politik auf der Grundlage von Rückmeldungen weiter anpassen wird.

-8

Dieser Vorfall hat einmal mehr den Widerspruch zwischen der künstlerischen Nachahmungsfähigkeit generativer KI und dem Schutz der Rechte und Interessen der Urheber vor Augen geführt. Es ist erwähnenswert, dass Hayao Miyazaki selbst der KI-Kunst immer kritisch gegenüberstand und sie einmal als "eine Beleidigung des Lebens selbst" bezeichnete.Studio Ghibli Obwohl sie nicht direkt auf den Vorfall reagierte, hat die OpenAI Die rasche Reaktion zeigt, dass die Abgrenzung zwischen technologischer Innovation und der Wahrung des bestehenden Kunst-Ökosystems nach wie vor eine Herausforderung ist, der sich die gesamte Branche ernsthaft stellen muss.

-9
-10

 

Operative Überlegungen und Zukunftsperspektiven

Bei der Bewältigung der HerausforderungenOpenAI Die Funktionsweise der neuen Funktion wird ebenfalls erläutert. Was die Geschwindigkeit der Erzeugung betrifft, so ist dieShannon Es wurde zwar eingeräumt, dass es derzeit etwas langsamer sein kann, aber es wurde betont, dass dies ein notwendiger Kompromiss im Streben nach höherer Bildqualität (einschließlich des darin enthaltenen Wissens) ist.

-11

Im Hinblick auf die Rückverfolgbarkeit des Bildes und die Eigentumsverhältnisse wird dem erzeugten Bild kein sichtbares Wasserzeichen hinzugefügt, sondern ein Wasserzeichen eingebettet, das den Anforderungen der C2PA Standard-Metadaten zur Identifizierung der Quelle, wobei der Nutzer die vollen Rechte zur Nutzung des erzeugten Bildes hat (vorbehaltlich der Richtlinien der Plattform).

OpenAI Integrieren Sie leistungsstarke Bilderzeugungsfunktionen in ChatGPTDie neue Technologie ist ein wichtiger Schritt auf dem Weg zum Mainstreaming von KI-Anwendungen. Die daraus resultierenden arithmetischen Spannungen und Urheberrechtsstreitigkeiten zeigen jedoch auch deutlich, dass der Weg, der vor uns liegt, kein gerader ist. Es wird eine große Herausforderung sein, den Ressourcenverbrauch effektiv zu steuern, die ethischen Grenzen zu klären und die Interessen aller Beteiligten auszubalancieren, während sich die Technologie in rasantem Tempo weiterentwickelt. OpenAI und die KI-Branche insgesamt werden auch in Zukunft ein zentrales Thema sein.

Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " ChatGPT-Bilderzeugung entzündet das Web: technologische Durchbrüche, Urheberrechtsstreit und arithmetischer Notfall
de_DEDeutsch