La generación de imágenes ChatGPT enciende la web: avances tecnológicos, furor por los derechos de autor y emergencia aritmética
OpenAI
ha integrado recientemente su avanzada tecnología de generación de imágenes directamente en la ChatGPT
Esta iniciativa ha suscitado rápidamente el entusiasmo de los usuarios y una serie de efectos en cadena. La función utiliza el potente GPT-4o
Capacidad de modelización, pedigrí tecnológico y modelos de generación de vídeo Sora
similar, lo que permite a los usuarios crear imágenes fijas de alta calidad directamente dentro de la interfaz de diálogo familiar, mejorando en gran medida la facilidad de uso.

Esta capacidad de generación de imágenes está disponible para todos los ChatGPT
Abierto a los usuarios, incluidos los abonados de pago (Plus
, Pro
, Team
) y los usuarios gratuitos.OpenAI
reveló que la cantidad de generación diaria inicial para los usuarios gratuitos era de unas tres veces, con el DALL·E
La estrategia anterior es similar, pero se ajustará dinámicamente en función de la demanda. Sin duda, esta medida ha acelerado la popularidad de la generación de imágenes de alta calidad mediante IA, poniéndola a la altura de la Midjourney
y otros servicios de pago y Stable Diffusion
y otros modelos de código abierto compiten por un portal de usuarios más amplio.
El motor tecnológico: la competencia básica que impulsa el auge
Esta integración no es un simple apilamiento de funciones, detrás de ella hay un avance significativo en la tecnología de generación de imágenes. Uno de los más destacados es la solución al problema de la "vinculación de atributos y objetos" (binding) que desde hace tiempo aqueja a la generación de imágenes de IA. En el pasado, resultaba difícil para el modelo manejar con precisión instrucciones como "estrellas azules y triángulos rojos", confundiendo a menudo colores y formas. Según OpenAI
Jefe de Investigación Gabriel Goh
El nuevo modelo se describió como capaz de manejar de forma coherente instrucciones que contenían entre 15 y 20 objetos y sus complejas relaciones, superando con creces los límites del antiguo modelo.

Otra mejora clave es la calidad de la representación del texto dentro de la imagen. La IA siempre ha tenido dificultades para producir texto claro y sin errores en las imágenes, lo que ha obstaculizado muchas aplicaciones potenciales (por ejemplo, diseño de carteles o logotipos).Goh
Tras meses de optimización, el nuevo modelo ha resultado bastante fiable en el renderizado de texto, lo que amplía enormemente los escenarios de aplicación", afirma la empresa. Esto se debe al "método de generación autorregresiva" utilizado en el modelo, según el cual el dibujo secuencial píxel a píxel (por ejemplo, de izquierda a derecha, de arriba a abajo) proporciona un mejor control de los detalles que los modelos de difusión, que generan toda la imagen a la vez, y es especialmente bueno para renderizar texto con precisión.

Estos avances se basan en GPT-4o
El núcleo omnimodal del modelo se diseñó desde el principio para unificar texto, imágenes, audio y vídeo. Al mismo tiempo, el modelo incorpora una amplia gama de "conocimientos del mundo" que le permiten comprender la lógica y el sentido común que hay detrás de las imágenes. Por ejemplo ChatGPT
Propietario de producto multimodal Jackie Shannon
Dicho usuario no necesita sobreexplicar el modelo para generar imágenes que sean coherentes con las leyes de la física y los conocimientos previos, como un esquema del experimento de trigonometría de Newton o un cómic que mantenga la coherencia de los personajes.
Consecuencias dobles: los recursos y los retos éticos detrás del éxito
Son estas potentes capacidades las que hicieron que la nueva función incendiara rápidamente Internet tras su lanzamiento, pero también que la OpenAI
Inmediatamente se plantean dos grandes retos: la enorme presión sobre los recursos aritméticos y la persistente polémica sobre la ética de los derechos de autor.
En primer lugar, está el nivel de recursos. La enorme demanda de los usuarios hace OpenAI
El director general Sam Altman
existe X
La plataforma describió el dilema con la frase "nuestras GPU se están fundiendo". Para mantener la estabilidad del servicio, laOpenAI
La limitación de tarifas tuvo que aplicarse con carácter de urgencia. Tras haber retrasado ya la apertura total a los usuarios gratuitos debido a la gran demanda, la nueva confirmación de un límite de usuarios gratuitos (unos tres al día) subraya el hecho de que los costes aritméticos y los cuellos de botella de recursos para los despliegues a gran escala de aplicaciones de IA de vanguardia siguen siendo una cruda realidad, incluso para los gigantes del sector.

En segundo lugar, está la dimensión ética y de derechos de autor. Los usuarios no han tardado en aprovechar la potente capacidad de imitación de la nueva función, y las imágenes creadas al estilo del animador japonés Hayao Miyazaki se han hecho virales en las redes sociales, desatando un frenesí de actividad.

Sin embargo, esta "bonita tormenta" no tardó en tocar la sensible línea roja de los derechos de autor. Justo un día después.OpenAI
La empresa empezó a restringir a los usuarios la generación de imágenes con el estilo de determinados artistas vivos (en particular, el "estilo Miyazaki"), y ha declarado públicamente que está adoptando un enfoque más "conservador". El portavoz afirmó que actualmente prohíbe la generación de "estilos individuales de artistas vivos", pero permite "estilos de estudio más amplios" o los estilos de artistas fallecidos, y que seguirá ajustando su política en función de los comentarios.

Este incidente ha vuelto a poner sobre la mesa la contradicción entre la capacidad de la IA generativa para imitar el arte y la protección de los derechos e intereses de los creadores. Cabe mencionar que el propio Hayao Miyazaki siempre se ha mostrado crítico con el arte de la IA, calificándolo en una ocasión de "insulto a la vida misma".Studio Ghibli
Aunque no respondió directamente al incidente, la OpenAI
La rápida respuesta demuestra que trazar la línea entre la innovación tecnológica y el respeto al ecosistema artístico existente sigue siendo un reto que la industria en su conjunto debe afrontar seriamente.
Consideraciones operativas y perspectivas de futuro
Al tiempo que se abordan los retosOpenAI
También se explican los detalles operativos de la nueva función. En cuanto a la velocidad de generación, elShannon
Aunque se reconoce que por el momento puede ser un poco más lento, se insiste en que se trata de una contrapartida necesaria en la búsqueda de una mayor calidad de imagen (incluidos los conocimientos que contiene).

En términos de trazabilidad y propiedad de la imagen, la imagen generada no tendrá una marca de agua visible añadida, sino que estará incrustada en un archivo que se ajusta a la C2PA
Metadatos estándar para identificar la fuente, mientras que el usuario tiene plenos derechos para utilizar la imagen generada (sujeto a las políticas de la plataforma).
OpenAI
Integre potentes funciones de generación de imágenes en ChatGPT
La nueva tecnología es un paso importante hacia la generalización de las aplicaciones de la IA. Sin embargo, las consiguientes tensiones aritméticas y disputas sobre derechos de autor también revelan claramente que el camino que queda por recorrer no es recto. Cómo gestionar eficazmente el consumo de recursos, aclarar los límites éticos y equilibrar los intereses de todas las partes mientras la tecnología se desarrolla a un ritmo vertiginoso será un reto importante. OpenAI
y la industria de la IA en su conjunto seguirán siendo un tema central en el futuro.
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...