La génération d'images ChatGPT enflamme le web : percées technologiques, fureur des droits d'auteur et urgence arithmétique
OpenAI
a récemment intégré sa technologie avancée de génération d'images directement dans le système de gestion de l'information. ChatGPT
Cette initiative a rapidement suscité l'enthousiasme des utilisateurs et une série d'effets d'entraînement. La fonction utilise la puissante technologie GPT-4o
Capacités de modélisation, pedigree technologique et modèles de génération vidéo Sora
permettant aux utilisateurs de créer des images fixes de haute qualité directement dans l'interface de dialogue familière, ce qui améliore grandement la facilité d'utilisation.

Cette capacité de génération d'images est disponible pour tous les ChatGPT
Ouvert aux utilisateurs, y compris aux abonnés payants (Plus
, Pro
, Team
) et les utilisateurs gratuits.OpenAI
a révélé que le montant initial de la génération journalière pour les utilisateurs gratuits était environ trois fois plus élevé, avec l'augmentation du nombre d'utilisateurs. DALL·E
La stratégie précédente est similaire, mais elle sera ajustée dynamiquement en fonction de la demande. Cette décision a certainement accéléré la popularité de la génération d'images de haute qualité par l'IA, la plaçant sur un pied d'égalité avec la génération d'images de haute qualité par l'IA. Midjourney
et d'autres services payants et Stable Diffusion
et d'autres modèles à code source ouvert se disputent un portail d'utilisateurs plus large.
Le moteur technologique : la compétence clé à l'origine de l'essor économique
Cette intégration n'est pas un simple empilement de fonctions, elle constitue une avancée significative dans la technologie de génération d'images. La solution au problème de la "liaison des attributs et des objets" (binding), qui a longtemps pesé sur la génération d'images par l'IA, en est un exemple frappant. Dans le passé, il était difficile pour le modèle de traiter avec précision des instructions telles que "étoiles bleues et triangles rouges", confondant souvent les couleurs et les formes. D'après le OpenAI
Chef de la recherche Gabriel Goh
Le nouveau modèle a été décrit comme étant capable de traiter de manière cohérente des instructions contenant 15 à 20 objets et leurs relations complexes, dépassant de loin les limites de l'ancien modèle.

L'IA a toujours eu du mal à produire un texte clair et sans erreur dans les images, ce qui a entravé de nombreuses applications potentielles (par exemple, la conception d'affiches ou de logos).Goh
Après des mois d'optimisation, le nouveau modèle est devenu très fiable pour le rendu de texte, ce qui élargit considérablement les scénarios d'application", a déclaré la société. Cela est dû à la "méthode de génération autorégressive" utilisée dans le modèle, selon laquelle le dessin séquentiel pixel par pixel (par exemple, de gauche à droite, de haut en bas) permet de mieux contrôler les détails que les modèles de diffusion, qui génèrent l'ensemble de l'image en une seule fois, et est particulièrement efficace pour un rendu précis du texte.

Ces progrès reposent sur GPT-4o
Le noyau omnimodal du modèle a été conçu dès le départ pour unifier le texte, les images, l'audio et la vidéo. Parallèlement, le modèle intègre un large éventail de "connaissances du monde" qui lui permettent de comprendre la logique et le bon sens des images. Par exemple, le modèle ChatGPT
Product Owner multimodal Jackie Shannon
L'utilisateur n'a pas besoin de sur-expliquer le modèle pour générer des images qui sont cohérentes avec les lois de la physique et les connaissances de base, comme un schéma de l'expérience de trigonométrie de Newton ou une bande dessinée qui maintient la cohérence des personnages.
Double conséquence : les ressources et les défis éthiques qui se cachent derrière le succès
Ce sont ces puissantes capacités qui ont fait que la nouvelle fonctionnalité a rapidement enflammé l'internet lors de son lancement, mais qui ont également fait que la nouvelle fonctionnalité est devenue un véritable outil de travail. OpenAI
Dans l'immédiat, deux défis majeurs se posent : l'énorme pression sur les ressources arithmétiques et la controverse persistante sur l'éthique des droits d'auteur.
Tout d'abord, il y a le niveau des ressources. L'énorme demande des utilisateurs rend OpenAI
Les serveurs de l'entreprise sont débordés. Sam Altman
existent X
La plateforme a décrit le dilemme par la phrase "nos GPU sont en train de fondre". Pour maintenir la stabilité du service, leOpenAI
La limitation des tarifs a dû être mise en œuvre de toute urgence. Après avoir déjà retardé l'ouverture complète aux utilisateurs gratuits en raison de la forte demande, la nouvelle confirmation d'une limite d'utilisateurs gratuits (environ trois par jour) souligne le fait que les coûts arithmétiques et les goulets d'étranglement des ressources pour les déploiements à grande échelle d'applications d'IA de pointe restent une dure réalité, même pour les géants de l'industrie.

Deuxièmement, il y a la dimension éthique et les droits d'auteur. Le nouveau mimétisme puissant a été rapidement exploité par les utilisateurs, les images créées dans le style de l'animateur japonais Hayao Miyazaki devenant virales sur les médias sociaux, déclenchant une frénésie d'activité.

Cependant, cette "jolie tempête" a rapidement touché la ligne rouge sensible du droit d'auteur. Un jour plus tard.OpenAI
L'entreprise a commencé à interdire aux utilisateurs de générer des images dans le style d'artistes vivants spécifiques, notamment le "style Hayao Miyazaki", et a déclaré publiquement qu'elle adoptait une approche plus "conservatrice". Le porte-parole a déclaré qu'il interdisait actuellement la création de "styles d'artistes vivants individuels" mais qu'il autorisait les "styles de studio plus larges" ou les styles d'artistes décédés, et qu'il continuerait d'ajuster sa politique en fonction des commentaires reçus.

Cet incident a une fois de plus mis en évidence la contradiction entre la capacité de l'IA générative à imiter l'art et la protection des droits et des intérêts des créateurs. Il convient de mentionner que Hayao Miyazaki lui-même a toujours critiqué l'art de l'IA, qu'il a qualifié un jour d'"insulte à la vie elle-même".Studio Ghibli
Bien qu'elle n'ait pas réagi directement à l'incident, la OpenAI
La rapidité de la réaction montre que l'établissement d'une limite entre l'innovation technologique et le respect de l'écosystème artistique existant reste un défi que le secteur dans son ensemble doit relever avec sérieux.
Considérations opérationnelles et perspectives d'avenir
Tout en relevant les défisOpenAI
Les détails opérationnels de la nouvelle fonctionnalité sont également expliqués. En ce qui concerne la vitesse de génération, laShannon
Tout en reconnaissant qu'il peut être légèrement plus lent à l'heure actuelle, il a été souligné qu'il s'agit d'un compromis nécessaire pour obtenir une meilleure qualité d'image (y compris les connaissances qu'elle contient).

En termes de traçabilité et de propriété de l'image, l'image générée n'aura pas de filigrane visible ajouté, mais sera incorporée dans un fichier conforme à la norme C2PA
Des métadonnées standard permettent d'identifier la source, tandis que l'utilisateur dispose de tous les droits d'utilisation de l'image générée (sous réserve des politiques de la plateforme).
OpenAI
Intégrer de puissantes capacités de génération d'images dans ChatGPT
Cette nouvelle technologie constitue une étape importante vers la généralisation des applications de l'IA. Toutefois, les tensions arithmétiques et les litiges en matière de droits d'auteur qui s'ensuivent montrent clairement que le chemin à parcourir n'est pas sans embûches. La gestion efficace de la consommation des ressources, la clarification des limites éthiques et l'équilibre des intérêts de toutes les parties, alors que la technologie se développe à un rythme rapide, constitueront un défi majeur. OpenAI
et l'industrie de l'IA dans son ensemble continueront d'être un sujet central à l'avenir.
© déclaration de droits d'auteur
L'article est protégé par le droit d'auteur et ne doit pas être reproduit sans autorisation.
Articles connexes
Pas de commentaires...