OpenAI ouvre la dernière API de génération d'images, le modèle gpt-image-1 est entièrement ouvert

Nouvelles de l'IAMise à jour il y a 5 mois Cercle de partage de l'IA

19.8K 00

OpenAI a récemment annoncé qu'elle avait mis au point son dernier modèle de génération d'images. gpt-image-1 officiellement mis à la disposition des développeurs et des entreprises par le biais d'une API. Le modèle a déjà été mis à disposition dans l ChatGPT Elle a été utilisée dans ChatGPT et a été bien accueillie par les utilisateurs en raison de ses puissantes capacités de génération d'images. Selon OpenAI, au cours de la première semaine d'intégration de la fonction dans ChatGPT, les utilisateurs du monde entier ont créé plus de 700 millions d'images. Aujourd'hui, l'ouverture de cette fonctionnalité sous la forme d'une API signifie que les tiers peuvent intégrer cette capacité de génération d'images directement dans leurs propres applications et services.

gpt-image-1 est décrit comme un modèle multimodal natif capable d'accepter du texte et des images en entrée et de générer des images en sortie. Cette caractéristique permet non seulement de créer des images à partir de descriptions textuelles (Text-to-Image), mais aussi de modifier ou de générer de nouvelles images à partir d'images téléchargées par l'utilisateur et d'invites textuelles (Image-to-Image), et prend même en charge des fonctions telles que la modification locale (Inpainting) et l'édition de conversion de texte. Par rapport à son prédécesseur, la série de modèles DALL-E, le modèlegpt-image-1 Amélioration de la compréhension et de l'exécution de commandes plus détaillées et plus complexes, en particulier de la capacité à restituer avec précision le texte dans les images, ce qui est précieux pour les scénarios d'application qui nécessitent une combinaison de graphiques et de texte (par exemple, matériel didactique, illustrations de livres d'histoires).

Le modèle prend en charge plusieurs résolutions, notamment 1024x1024, 1024x1536 et 1536x1024 pixels, avec une exigence minimale de 1024 pixels en largeur et en hauteur. Les développeurs peuvent utiliser le modèle v1/images/generations Appels de points de terminaison de l'API à la fonction de génération d'images.v1/images/edits Les points d'extrémité sont ensuite utilisés pour l'édition d'images.

Mécanismes de tarification et d'accès

gpt-image-1 Les appels à l'API sont basés sur le Jeton et fait la distinction entre les différents types de jetons :

Saisie de texte Jeton (mot-guide) : La commission s'élève à 5,00 dollars par million de jetons.
Jeton d'entrée d'image (image d'entrée) : La redevance est de 10,00 dollars par million de jetons.
Jeton de sortie d'image (génère une image) : La redevance est de 40,00 dollars par million de jetons.

Le coût de génération d'une image unique varie en fonction de la qualité et de la taille de l'image. Par exemple, le coût de génération d'une image de 1024x1024 pixels est d'environ 0,011 $, 0,042 $ et 0,167 $ pour une qualité faible, moyenne et élevée, respectivement. Le coût des images de plus haute résolution augmente en conséquence.

Qualité de l'image	résolution (d'une photo)	Prix par image
Faible	1024x1024	$0.011
Faible	1024x1536	$0.016
Faible	1536x1024	$0.016
Moyen	1024x1024	$0.042
Moyen	1024x1536	$0.063
Moyen	1536x1024	$0.063
Haut	1024x1024	$0.167
Haut	1024x1536	$0.25
Haut	1536x1024	$0.25

En outre, l'OpenAI a fixé des limites de taux pour garantir la stabilité et l'équité du service, qui sont divisées en différents niveaux (niveau 1 à niveau 5), avec des plafonds de traitement de jetons par minute (TPM) et d'images par minute (IPM) différents pour les différents niveaux d'utilisateurs. Les limites sont automatiquement assouplies au fur et à mesure que l'utilisation de l'API par les utilisateurs augmente et que les frais augmentent.

Niveau	TPM (jeton par minute)	IPM (images par minute)
Gratuit	sans soutien	-
Niveau 1	40,000	5
Niveau 2	100,000	20
Niveau 3	400,000	50
Niveau 4	2,000,000	150
Niveau 5	6,000,000	250

gpt-image-1 Le modèle est actuellement disponible au niveau mondial via l'API Images et prendra en charge l'API Réponses à l'avenir. Certains développeurs peuvent avoir besoin d'une validation organisationnelle avant de pouvoir utiliser le modèle.

Le modèle est également disponible sur la plateforme Azure AI Foundry de Microsoft pour les clients Azure, ce qui élargit encore sa couverture et ses scénarios d'application.

Intégration écologique et perspectives d'application

commandant en chef (militaire) gpt-image-1 L'un des signes notables de l'ouverture aux API est leur intégration rapide à un large éventail d'outils et de plateformes existants. Cela montre l'accélération de la tendance à intégrer des capacités d'IA avancées dans les flux de travail quotidiens des utilisateurs.

Un certain nombre d'entreprises renommées ont ou prévoient d'apporter gpt-image-1 intégrés dans leurs produits :

Adobe. comportera les informations suivantes dans son Luciole Les capacités de génération d'images d'OpenAI sont disponibles dans des outils créatifs tels qu'OpenAI et Express, ce qui permet aux créateurs d'expérimenter différents styles de génération dans des outils familiers.
Table d'aération. Améliorer ses capacités de gestion des flux de travail avec le modèle pour aider les équipes de marketing et de création des entreprises à gérer le matériel à grande échelle, comme la création de concepts de campagne, de contenus médiatiques localisés, etc.
Figma. intégrée dans sa plateforme de conception Figma Design. gpt-image-1Il permet aux utilisateurs de générer et de modifier des images à l'aide de simples invites textuelles, d'ajuster les styles, d'ajouter/supprimer des objets, d'étendre les arrière-plans, etc.
Gamma. L'IA est utilisée quotidiennement pour générer un grand nombre d'images afin d'aider les utilisateurs à créer des présentations et des sites web, en utilisant les technologies de l'information et de la communication (TIC). gpt-image-1 Générer des graphiques, éditer le contenu des images et standardiser les styles.
HeyGen. Intégrer le modèle pour améliorer ses capacités de création et d'édition d'avatars, en offrant des options de personnalisation plus souples.
OpusClip. Son outil de génération de vignettes AI, OpusClip Thumbnail, utilise l'outil de génération de vignettes AI. gpt-image-1 Générer des vignettes personnalisées pour les créateurs de YouTube qui correspondent au contenu et au titre de la vidéo.
Quora. commandant en chef (militaire) gpt-image-1 comme modèle d'image par défaut, améliorant ainsi la qualité de la génération d'images pour des millions d'utilisateurs sur sa plateforme.
Wix. Wixel, sa plateforme de conception assistée par ordinateur, intègre une fonction de génération d'images qui aide les utilisateurs à transformer leurs idées en designs grâce à des options d'édition.
Photoroom. sur la base de gpt-image-1 Lancement d'outils d'IA tels que Product Beautifier, Product Staging et Virtual Model pour aider les vendeurs en ligne à créer rapidement des visuels de produits de haute qualité.
Terrain de jeux. Utiliser le modèle pour fournir à ses utilisateurs des capacités d'édition de conception plus puissantes, telles que la modification des styles, des couleurs et l'application de modèles.

En outre, il comprend Canva, GoDaddy, HubSpot, Instacart, invidéo D'autres plates-formes, notamment, explorent ou testent également l'intégration gpt-image-1 Les scénarios d'application couvrent un large éventail de domaines tels que l'aide à la conception, la création de logos, la production de matériel de marketing, la génération d'images de recettes, le montage vidéo, etc. Cette collaboration et cette exploration approfondies sont le signe d'une pénétration accrue de la technologie de génération d'images par l'IA dans les outils de productivité d'un large éventail d'industries.

Considérations de sécurité

L'OpenAI souligne quegpt-image-1 L'API utilise les mêmes garanties de sécurité que le modèle 4o de génération d'images dans ChatGPT, conçu pour limiter la génération d'images nuisibles. Parallèlement, les images générées contiendront des métadonnées C2PA, une norme technique permettant de suivre l'origine et l'authenticité du contenu, ce qui contribuera à améliorer la transparence et à lutter contre la désinformation. Les développeurs peuvent également utiliser le moderation permet d'ajuster la sensibilité du filtrage du contenu (la valeur par défaut est autoEn option low).

OpenAI a réitéré sa politique de non-utilisation par défaut des données API des clients à des fins de formation, et a rappelé que toutes les entrées et sorties d'images fournies via l'API sont soumises à sa politique d'utilisation. Sur la plateforme Azure, des mesures supplémentaires de sécurité du contenu Azure AI et de surveillance des abus sont appliquées.

gpt-image-1 La publication de l'API marque le passage des capacités de génération d'images IA de haute qualité d'applications fermées à un écosystème de développeurs plus large. Sa nature multimodale, ses performances améliorées et son intégration à de nombreuses plateformes grand public peuvent considérablement abaisser le seuil de création de contenu d'image de qualité professionnelle et donner naissance à de nouveaux modèles d'application. Toutefois, son modèle de tarification complexe basé sur les jetons et la limitation des taux posent également de nouvelles questions aux développeurs en termes de contrôle des coûts et de mise à l'échelle des applications. À l'avenir, il sera essentiel d'observer comment la technologie s'implante dans les applications réelles, comment elle est optimisée et comment elle traite les risques potentiels d'abus pour évaluer sa véritable valeur.

Nouvelles de l'IA

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Google NotebookLM étend ses capacités multilingues, y compris le chinois, et lance des applications mobiles

Nouvelles de l'IA

il y a 5 mois

021.1K

6 interdictions ! Fudan introduit les nouvelles règles les plus strictes du monde en matière d'IA

Nouvelles de l'IA

Il y a 10 mois

015K

智谱 AI 发布开源 GLM 模型家族：MIT 许可、Z.ai 平台与高速推理服务同步亮相

Smart Spectrum AI publie une famille de modèles GLM open source : la licence MIT, la plateforme Z.ai et le service d'inférence à grande vitesse sont dévoilés.

Nouvelles de l'IA

il y a 5 mois

016.4K

Text2Edit : A Native Multimodal Model for Text-Driven Video Ad Creation (non publié)

Nouvelles de l'IA # AI éditeur audio/vidéo

Il y a 8 mois

014.5K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

OpenAI ouvre la dernière API de génération d'images, le modèle gpt-image-1 est entièrement ouvert

Mécanismes de tarification et d'accès

Intégration écologique et perspectives d'application

Considérations de sécurité

$150 Frais d'abonnement pour Super $1800 AI Tools?L'offre groupée annuelle de la lettre d'information de Lenny est arrivée !

Lancement de Qwen3 : une nouvelle génération de grands modèles linguistiques pour une réflexion approfondie et une réponse rapide

Articles connexes

Google NotebookLM étend ses capacités multilingues, y compris le chinois, et lance des applications mobiles

6 interdictions ! Fudan introduit les nouvelles règles les plus strictes du monde en matière d'IA

Smart Spectrum AI publie une famille de modèles GLM open source : la licence MIT, la plateforme Z.ai et le service d'inférence à grande vitesse sont dévoilés.

Text2Edit : A Native Multimodal Model for Text-Driven Video Ad Creation (non publié)

Pas de commentaires

Dernières collections

Derniers articles

OpenAI ouvre la dernière API de génération d'images, le modèle gpt-image-1 est entièrement ouvert

Mécanismes de tarification et d'accès

Intégration écologique et perspectives d'application

Considérations de sécurité

$150 Frais d'abonnement pour Super $1800 AI Tools?L'offre groupée annuelle de la lettre d'information de Lenny est arrivée !

Lancement de Qwen3 : une nouvelle génération de grands modèles linguistiques pour une réflexion approfondie et une réponse rapide

Articles connexes

Google NotebookLM étend ses capacités multilingues, y compris le chinois, et lance des applications mobiles

6 interdictions ! Fudan introduit les nouvelles règles les plus strictes du monde en matière d'IA

Smart Spectrum AI publie une famille de modèles GLM open source : la licence MIT, la plateforme Z.ai et le service d'inférence à grande vitesse sont dévoilés.

Text2Edit : A Native Multimodal Model for Text-Driven Video Ad Creation (non publié)

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles