OpenAI abre la última API de generación de imágenes, el modelo gpt-image-1 totalmente abierto
OpenAI anunció recientemente que ha convertido su último modelo de generación de imágenes gpt-image-1
formalmente a disposición de desarrolladores y empresas a través de una API. El modelo ya estaba disponible en el ChatGPT Se ha utilizado en ChatGPT y ha sido bien recibido por los usuarios por su potente capacidad de generación de imágenes. Según OpenAI, en la primera semana de integración de la función en ChatGPT, usuarios de todo el mundo crearon más de 700 millones de imágenes. Ahora, su apertura en forma de API significa que terceros pueden integrar esta capacidad de generación de imágenes directamente en sus propias aplicaciones y servicios.
gpt-image-1
se describe como un modelo multimodal nativo capaz de aceptar texto e imágenes como entrada y generar imágenes de salida. Esta característica le permite no sólo crear imágenes basadas en descripciones textuales (Text-to-Image), sino también editar o generar nuevas imágenes a partir de imágenes cargadas por el usuario e indicaciones textuales (Image-to-Image), e incluso admite funciones como la modificación local (Inpainting) y la edición de conversión de texto. Comparado con su predecesor, la serie de modelos DALL-E, elgpt-image-1
Mejoras en la comprensión y ejecución de órdenes más detalladas y complejas, especialmente la capacidad de representar con precisión texto en imágenes, lo que resulta valioso para escenarios de aplicación que requieren una combinación de gráficos y texto (por ejemplo, material didáctico, ilustraciones de cuentos).
El modelo admite varias resoluciones, como 1024x1024, 1024x1536 y 1536x1024 píxeles, con un requisito mínimo de 1024 píxeles de ancho y alto. Los desarrolladores pueden utilizar el v1/images/generations
Llamadas del punto final de la API a la función de generación de imágenes.v1/images/edits
A continuación, los puntos finales se utilizan para la edición de imágenes.
Mecanismos de tarificación y acceso
gpt-image-1
Las llamadas a la API se basan en Ficha modelo de facturación y distingue entre distintos tipos de fichas:
- Entrada de texto Token (palabra clave): La tasa es de 5,00 dólares por millón de fichas.
- Token de entrada de imagen (imagen de entrada): La tasa es de 10,00 dólares por millón de fichas.
- Token de salida de imagen (genera una imagen): La tasa es de 40,00 dólares por millón de fichas.
El coste de generar una sola imagen varía en función de la calidad y el tamaño de la imagen. Por ejemplo, el coste de generar una imagen de 1024x1024 píxeles es de aproximadamente 0,011, 0,042 y 0,167 dólares para calidad baja, media y alta, respectivamente. El coste de las imágenes de mayor resolución aumenta en consecuencia.
Calidad de la imagen | resolución (de una foto) | Precio por imagen |
---|---|---|
Bajo | 1024x1024 | $0.011 |
Bajo | 1024x1536 | $0.016 |
Bajo | 1536x1024 | $0.016 |
Medio | 1024x1024 | $0.042 |
Medio | 1024x1536 | $0.063 |
Medio | 1536x1024 | $0.063 |
Alta | 1024x1024 | $0.167 |
Alta | 1024x1536 | $0.25 |
Alta | 1536x1024 | $0.25 |
Además, OpenAI ha establecido límites de tarifas para garantizar la estabilidad y equidad del servicio, que se dividen en distintos niveles (de nivel 1 a nivel 5), con distintos topes de procesamiento de tokens por minuto (TPM) e imágenes por minuto (IPM) para los distintos niveles de usuarios. Los límites se relajan automáticamente a medida que aumenta el uso de la API por parte de los usuarios y suben las tarifas.
Nivel | TPM (fichas por minuto) | IPM (imágenes por minuto) |
---|---|---|
Gratis | sin soporte | - |
Nivel 1 | 40,000 | 5 |
Nivel 2 | 100,000 | 20 |
Nivel 3 | 400,000 | 50 |
Nivel 4 | 2,000,000 | 150 |
Nivel 5 | 6,000,000 | 250 |
gpt-image-1
Actualmente, el modelo está disponible en todo el mundo a través de la API de imágenes y, en el futuro, será compatible con la API de respuestas. Es posible que algunos desarrolladores necesiten completar la validación organizativa antes de poder utilizar el modelo.
El modelo también está disponible en la plataforma Azure AI Foundry de Microsoft para clientes de Azure, ampliando aún más su cobertura y escenarios de aplicación.
Integración ecológica y perspectivas de aplicación
comandante en jefe (militar) gpt-image-1
Un signo notable de la apertura a las API es su rápida integración con una amplia gama de herramientas y plataformas existentes. Esto demuestra la tendencia acelerada a integrar capacidades avanzadas de IA en los flujos de trabajo diarios de los usuarios.
Varias empresas de renombre han traído o tienen previsto traer gpt-image-1
integrados en sus productos:
- Adobe. tendrá la siguiente información en su Luciérnaga Las funciones de generación de imágenes de OpenAI están disponibles en herramientas creativas como OpenAI y Express, lo que permite a los creadores experimentar con distintos estilos de generación en herramientas conocidas.
- Airtable. Mejore sus capacidades de gestión de flujos de trabajo con el modelo para ayudar a los equipos creativos y de marketing corporativo a gestionar material a escala, como la generación de conceptos de campaña, contenidos de medios localizados y mucho más.
- Figma. integrado en su plataforma de diseño Figma Design.
gpt-image-1
Permite a los usuarios generar y editar imágenes con sencillas indicaciones de texto, ajustar estilos, añadir/eliminar objetos, ampliar fondos y mucho más. - Gamma. La IA se utiliza a diario para generar un gran número de imágenes que ayudan a los usuarios a crear presentaciones y sitios web, utilizando la
gpt-image-1
Genere gráficos, edite el contenido de las imágenes y estandarice los estilos. - HeyGen. Integrar el modelo para mejorar sus capacidades de creación y edición de avatares, proporcionando opciones de personalización más flexibles.
- OpusClip. Su herramienta de generación de miniaturas AI, OpusClip Thumbnail, hace uso de la
gpt-image-1
Genere miniaturas personalizadas para los creadores de YouTube que coincidan con el contenido y el título del vídeo. - Quora. comandante en jefe (militar)
gpt-image-1
como su modelo de imagen por defecto, mejorando la calidad de la generación de imágenes para millones de usuarios de su plataforma. - Wix. Integrada en su plataforma de diseño por IA, Wixel, hay una función de generación de imágenes que ayuda a los usuarios a convertir ideas en diseños con opciones de edición.
- Photoroom. sobre la base de
gpt-image-1
Lanzamiento de herramientas de IA como Product Beautifier, Product Staging y Virtual Model para ayudar a los vendedores en línea a crear rápidamente imágenes de productos de alta calidad. - Parque infantil. Utilice el modelo para ofrecer a sus usuarios funciones de edición de diseño más potentes, como cambiar estilos, colores y aplicar modelos.
Además, incluye Canva, GoDaddy, HubSpot, Instacart, invideo También hay más plataformas que están explorando o probando la integración gpt-image-1
Los escenarios de aplicación abarcan una amplia gama de campos, como la asistencia al diseño, la creación de logotipos, la producción de material de marketing, la generación de imágenes de recetas, la edición de vídeo, etc. Esta amplia colaboración y exploración indica una mayor penetración de la tecnología de generación de imágenes por IA en las herramientas de productividad de un amplio abanico de sectores.
Consideraciones de seguridad
OpenAI subraya quegpt-image-1
La API emplea las mismas salvaguardas de seguridad que la generación de imágenes modelo 4o en ChatGPT, diseñadas para limitar la generación de imágenes dañinas. Al mismo tiempo, las imágenes generadas contendrán metadatos C2PA, una norma técnica para rastrear el origen y la autenticidad de los contenidos, ayudando a mejorar la transparencia y a combatir la desinformación. Los desarrolladores también pueden utilizar el moderation
ajusta la sensibilidad del filtrado de contenidos (por defecto es auto
Opcional low
).
OpenAI reiteró su política de no utilizar los datos de la API del cliente para formación por defecto, y que todas las entradas y salidas de imágenes entregadas a través de la API están sujetas a su política de uso. En la plataforma Azure, se aplican medidas adicionales de seguridad de contenidos y supervisión de abusos de Azure AI.
gpt-image-1
El lanzamiento de la API marca el paso de las capacidades de generación de imágenes de IA de alta calidad de las aplicaciones cerradas a un ecosistema de desarrolladores más amplio. Su naturaleza multimodal, su rendimiento mejorado y su integración con muchas plataformas de uso generalizado pueden reducir significativamente el umbral para la creación de contenidos de imagen de calidad profesional y dar lugar a nuevos modelos de aplicación. Sin embargo, su complejo modelo de precios basado en tokens y su limitación de tarifas también plantean nuevas consideraciones a los desarrolladores en términos de control de costes y escalado de aplicaciones. En el futuro, será fundamental observar cómo se aplica la tecnología en el mundo real, cómo se optimiza y cómo se abordan los posibles riesgos de abuso para evaluar su verdadero valor.
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Puestos relacionados
Sin comentarios...