La génération d'images ChatGPT enflamme le web : percées technologiques, fureur des droits d'auteur et urgence arithmétique

Nouvelles de l'IAPosté il y a 6 mois Cercle de partage de l'IA

16.2K 00

OpenAI a récemment intégré sa technologie avancée de génération d'images directement dans le système de gestion de l'information. ChatGPTCette initiative a rapidement suscité l'enthousiasme des utilisateurs et une série d'effets d'entraînement. La fonction utilise la puissante technologie GPT-4o Capacités de modélisation, pedigree technologique et modèles de génération vidéo Sora permettant aux utilisateurs de créer des images fixes de haute qualité directement dans l'interface de dialogue familière, ce qui améliore grandement la facilité d'utilisation.

Cette capacité de génération d'images est disponible pour tous les ChatGPT Ouvert aux utilisateurs, y compris aux abonnés payants (Plus, Pro, Team) et les utilisateurs gratuits.OpenAI a révélé que le montant initial de la génération journalière pour les utilisateurs gratuits était environ trois fois plus élevé, avec l'augmentation du nombre d'utilisateurs. DALL·E La stratégie précédente est similaire, mais elle sera ajustée dynamiquement en fonction de la demande. Cette décision a certainement accéléré la popularité de la génération d'images de haute qualité par l'IA, la plaçant sur un pied d'égalité avec la génération d'images de haute qualité par l'IA. Midjourney et d'autres services payants et Stable Diffusion et d'autres modèles à code source ouvert se disputent un portail d'utilisateurs plus large.

Le moteur technologique : la compétence clé à l'origine de l'essor économique

Cette intégration n'est pas un simple empilement de fonctions, elle constitue une avancée significative dans la technologie de génération d'images. La solution au problème de la "liaison des attributs et des objets" (binding), qui a longtemps pesé sur la génération d'images par l'IA, en est un exemple frappant. Dans le passé, il était difficile pour le modèle de traiter avec précision des instructions telles que "étoiles bleues et triangles rouges", confondant souvent les couleurs et les formes. D'après le OpenAI Chef de la recherche Gabriel Goh Le nouveau modèle a été décrit comme étant capable de traiter de manière cohérente des instructions contenant 15 à 20 objets et leurs relations complexes, dépassant de loin les limites de l'ancien modèle.

L'IA a toujours eu du mal à produire un texte clair et sans erreur dans les images, ce qui a entravé de nombreuses applications potentielles (par exemple, la conception d'affiches ou de logos).Goh Après des mois d'optimisation, le nouveau modèle est devenu très fiable pour le rendu de texte, ce qui élargit considérablement les scénarios d'application", a déclaré la société. Cela est dû à la "méthode de génération autorégressive" utilisée dans le modèle, selon laquelle le dessin séquentiel pixel par pixel (par exemple, de gauche à droite, de haut en bas) permet de mieux contrôler les détails que les modèles de diffusion, qui génèrent l'ensemble de l'image en une seule fois, et est particulièrement efficace pour un rendu précis du texte.

Ces progrès reposent sur GPT-4o Le noyau omnimodal du modèle a été conçu dès le départ pour unifier le texte, les images, l'audio et la vidéo. Parallèlement, le modèle intègre un large éventail de "connaissances du monde" qui lui permettent de comprendre la logique et le bon sens des images. Par exemple, le modèle ChatGPT Product Owner multimodal Jackie Shannon L'utilisateur n'a pas besoin de sur-expliquer le modèle pour générer des images qui sont cohérentes avec les lois de la physique et les connaissances de base, comme un schéma de l'expérience de trigonométrie de Newton ou une bande dessinée qui maintient la cohérence des personnages.

ChatGPT 图像生成引爆网络：技术突破、版权风波与算力告急

Double conséquence : les ressources et les défis éthiques qui se cachent derrière le succès

Ce sont ces puissantes capacités qui ont fait que la nouvelle fonctionnalité a rapidement enflammé l'internet lors de son lancement, mais qui ont également fait que la nouvelle fonctionnalité est devenue un véritable outil de travail. OpenAI Dans l'immédiat, deux défis majeurs se posent : l'énorme pression sur les ressources arithmétiques et la controverse persistante sur l'éthique des droits d'auteur.

Tout d'abord, il y a le niveau des ressources. L'énorme demande des utilisateurs rend OpenAI Les serveurs de l'entreprise sont débordés. Sam Altman existent X La plateforme a décrit le dilemme par la phrase "nos GPU sont en train de fondre". Pour maintenir la stabilité du service, leOpenAI La limitation des tarifs a dû être mise en œuvre de toute urgence. Après avoir déjà retardé l'ouverture complète aux utilisateurs gratuits en raison de la forte demande, la nouvelle confirmation d'une limite d'utilisateurs gratuits (environ trois par jour) souligne le fait que les coûts arithmétiques et les goulets d'étranglement des ressources pour les déploiements à grande échelle d'applications d'IA de pointe restent une dure réalité, même pour les géants de l'industrie.

Deuxièmement, il y a la dimension éthique et les droits d'auteur. Le nouveau mimétisme puissant a été rapidement exploité par les utilisateurs, les images créées dans le style de l'animateur japonais Hayao Miyazaki devenant virales sur les médias sociaux, déclenchant une frénésie d'activité.

Cependant, cette "jolie tempête" a rapidement touché la ligne rouge sensible du droit d'auteur. Un jour plus tard.OpenAI L'entreprise a commencé à interdire aux utilisateurs de générer des images dans le style d'artistes vivants spécifiques, notamment le "style Hayao Miyazaki", et a déclaré publiquement qu'elle adoptait une approche plus "conservatrice". Le porte-parole a déclaré qu'il interdisait actuellement la création de "styles d'artistes vivants individuels" mais qu'il autorisait les "styles de studio plus larges" ou les styles d'artistes décédés, et qu'il continuerait d'ajuster sa politique en fonction des commentaires reçus.

Cet incident a une fois de plus mis en évidence la contradiction entre la capacité de l'IA générative à imiter l'art et la protection des droits et des intérêts des créateurs. Il convient de mentionner que Hayao Miyazaki lui-même a toujours critiqué l'art de l'IA, qu'il a qualifié un jour d'"insulte à la vie elle-même".Studio Ghibli Bien qu'elle n'ait pas réagi directement à l'incident, la OpenAI La rapidité de la réaction montre que l'établissement d'une limite entre l'innovation technologique et le respect de l'écosystème artistique existant reste un défi que le secteur dans son ensemble doit relever avec sérieux.

ChatGPT 图像生成引爆网络：技术突破、版权风波与算力告急

Considérations opérationnelles et perspectives d'avenir

Tout en relevant les défisOpenAI Les détails opérationnels de la nouvelle fonctionnalité sont également expliqués. En ce qui concerne la vitesse de génération, laShannon Tout en reconnaissant qu'il peut être légèrement plus lent à l'heure actuelle, il a été souligné qu'il s'agit d'un compromis nécessaire pour obtenir une meilleure qualité d'image (y compris les connaissances qu'elle contient).

En termes de traçabilité et de propriété de l'image, l'image générée n'aura pas de filigrane visible ajouté, mais sera incorporée dans un fichier conforme à la norme C2PA Des métadonnées standard permettent d'identifier la source, tandis que l'utilisateur dispose de tous les droits d'utilisation de l'image générée (sous réserve des politiques de la plateforme).

OpenAI Intégrer de puissantes capacités de génération d'images dans ChatGPTCette nouvelle technologie constitue une étape importante vers la généralisation des applications de l'IA. Toutefois, les tensions arithmétiques et les litiges en matière de droits d'auteur qui s'ensuivent montrent clairement que le chemin à parcourir n'est pas sans embûches. La gestion efficace de la consommation des ressources, la clarification des limites éthiques et l'équilibre des intérêts de toutes les parties, alors que la technologie se développe à un rythme rapide, constitueront un défi majeur. OpenAI et l'industrie de l'IA dans son ensemble continueront d'être un sujet central à l'avenir.

Nouvelles de l'IA

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Claude 3.5 现在可以用多种语言风格回答问题，甚至可以上传你的文字学习你的风格

Claude 3.5 peut maintenant répondre à des questions dans plusieurs styles de langues, et même télécharger votre texte pour apprendre votre style !

Nouvelles de l'IA

Il y a 10 mois

012.4K

Zapier lance un service d'intégration MCP pour connecter plus de 8000 applications

Nouvelles de l'IA

Il y a 6 mois

017.1K

Nvidia 最新推出的 AI 聊天机器人能在你的个人电脑上独立运作，而且完全免费。

Le dernier chatbot d'IA de Nvidia fonctionne indépendamment sur votre PC et est entièrement gratuit.

Nouvelles de l'IA

il y a 1 an

015.1K

Démonstration de la fonctionnalité Google Bard Big Upgrade

Nouvelles de l'IA

il y a 1 an

014.4K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

La génération d'images ChatGPT enflamme le web : percées technologiques, fureur des droits d'auteur et urgence arithmétique

Le moteur technologique : la compétence clé à l'origine de l'essor économique

Double conséquence : les ressources et les défis éthiques qui se cachent derrière le succès

Considérations opérationnelles et perspectives d'avenir

a16z Opinion : Comment MCP réinvente l'interaction avec les outils d'IA

Cloudflare adopte le MCP à distance : étendre les capacités des agents d'intelligence artificielle à l'ensemble de l'Internet

Articles connexes

Claude 3.5 peut maintenant répondre à des questions dans plusieurs styles de langues, et même télécharger votre texte pour apprendre votre style !

Zapier lance un service d'intégration MCP pour connecter plus de 8000 applications

Le dernier chatbot d'IA de Nvidia fonctionne indépendamment sur votre PC et est entièrement gratuit.

Démonstration de la fonctionnalité Google Bard Big Upgrade

Pas de commentaires

Dernières collections

Derniers articles

La génération d'images ChatGPT enflamme le web : percées technologiques, fureur des droits d'auteur et urgence arithmétique

Le moteur technologique : la compétence clé à l'origine de l'essor économique

Double conséquence : les ressources et les défis éthiques qui se cachent derrière le succès

Considérations opérationnelles et perspectives d'avenir

a16z Opinion : Comment MCP réinvente l'interaction avec les outils d'IA

Cloudflare adopte le MCP à distance : étendre les capacités des agents d'intelligence artificielle à l'ensemble de l'Internet

Articles connexes

Claude 3.5 peut maintenant répondre à des questions dans plusieurs styles de langues, et même télécharger votre texte pour apprendre votre style !

Zapier lance un service d'intégration MCP pour connecter plus de 8000 applications

Le dernier chatbot d'IA de Nvidia fonctionne indépendamment sur votre PC et est entièrement gratuit.

Démonstration de la fonctionnalité Google Bard Big Upgrade

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles