La generación de imágenes ChatGPT enciende la web: avances tecnológicos, furor por los derechos de autor y emergencia aritmética

Noticias AIPublicado hace 1 año Círculo de intercambio de inteligencia artificial

55.2K 00

OpenAI ha integrado recientemente su avanzada tecnología de generación de imágenes directamente en la ChatGPTEsta iniciativa ha suscitado rápidamente el entusiasmo de los usuarios y una serie de efectos en cadena. La función utiliza el potente GPT-4o Capacidad de modelización, pedigrí tecnológico y modelos de generación de vídeo Sora similar, lo que permite a los usuarios crear imágenes fijas de alta calidad directamente dentro de la interfaz de diálogo familiar, mejorando en gran medida la facilidad de uso.

Esta capacidad de generación de imágenes está disponible para todos los ChatGPT Abierto a los usuarios, incluidos los abonados de pago (Plus, Pro, Team) y los usuarios gratuitos.OpenAI reveló que la cantidad de generación diaria inicial para los usuarios gratuitos era de unas tres veces, con el DALL·E La estrategia anterior es similar, pero se ajustará dinámicamente en función de la demanda. Sin duda, esta medida ha acelerado la popularidad de la generación de imágenes de alta calidad mediante IA, poniéndola a la altura de la Midjourney y otros servicios de pago y Stable Diffusion y otros modelos de código abierto compiten por un portal de usuarios más amplio.

El motor tecnológico: la competencia básica que impulsa el auge

Esta integración no es un simple apilamiento de funciones, detrás de ella hay un avance significativo en la tecnología de generación de imágenes. Uno de los más destacados es la solución al problema de la "vinculación de atributos y objetos" (binding) que desde hace tiempo aqueja a la generación de imágenes de IA. En el pasado, resultaba difícil para el modelo manejar con precisión instrucciones como "estrellas azules y triángulos rojos", confundiendo a menudo colores y formas. Según OpenAI Jefe de Investigación Gabriel Goh El nuevo modelo se describió como capaz de manejar de forma coherente instrucciones que contenían entre 15 y 20 objetos y sus complejas relaciones, superando con creces los límites del antiguo modelo.

Otra mejora clave es la calidad de la representación del texto dentro de la imagen. La IA siempre ha tenido dificultades para producir texto claro y sin errores en las imágenes, lo que ha obstaculizado muchas aplicaciones potenciales (por ejemplo, diseño de carteles o logotipos).Goh Tras meses de optimización, el nuevo modelo ha resultado bastante fiable en el renderizado de texto, lo que amplía enormemente los escenarios de aplicación", afirma la empresa. Esto se debe al "método de generación autorregresiva" utilizado en el modelo, según el cual el dibujo secuencial píxel a píxel (por ejemplo, de izquierda a derecha, de arriba a abajo) proporciona un mejor control de los detalles que los modelos de difusión, que generan toda la imagen a la vez, y es especialmente bueno para renderizar texto con precisión.

Estos avances se basan en GPT-4o El núcleo omnimodal del modelo se diseñó desde el principio para unificar texto, imágenes, audio y vídeo. Al mismo tiempo, el modelo incorpora una amplia gama de "conocimientos del mundo" que le permiten comprender la lógica y el sentido común que hay detrás de las imágenes. Por ejemplo ChatGPT Propietario de producto multimodal Jackie Shannon Dicho usuario no necesita sobreexplicar el modelo para generar imágenes que sean coherentes con las leyes de la física y los conocimientos previos, como un esquema del experimento de trigonometría de Newton o un cómic que mantenga la coherencia de los personajes.

ChatGPT 图像生成引爆网络：技术突破、版权风波与算力告急

Consecuencias dobles: los recursos y los retos éticos detrás del éxito

Son estas potentes capacidades las que hicieron que la nueva función incendiara rápidamente Internet tras su lanzamiento, pero también que la OpenAI Inmediatamente se plantean dos grandes retos: la enorme presión sobre los recursos aritméticos y la persistente polémica sobre la ética de los derechos de autor.

En primer lugar, está el nivel de recursos. La enorme demanda de los usuarios hace OpenAI El director general Sam Altman existe X La plataforma describió el dilema con la frase "nuestras GPU se están fundiendo". Para mantener la estabilidad del servicio, laOpenAI La limitación de tarifas tuvo que aplicarse con carácter de urgencia. Tras haber retrasado ya la apertura total a los usuarios gratuitos debido a la gran demanda, la nueva confirmación de un límite de usuarios gratuitos (unos tres al día) subraya el hecho de que los costes aritméticos y los cuellos de botella de recursos para los despliegues a gran escala de aplicaciones de IA de vanguardia siguen siendo una cruda realidad, incluso para los gigantes del sector.

En segundo lugar, está la dimensión ética y de derechos de autor. Los usuarios no han tardado en aprovechar la potente capacidad de imitación de la nueva función, y las imágenes creadas al estilo del animador japonés Hayao Miyazaki se han hecho virales en las redes sociales, desatando un frenesí de actividad.

Sin embargo, esta "bonita tormenta" no tardó en tocar la sensible línea roja de los derechos de autor. Justo un día después.OpenAI La empresa empezó a restringir a los usuarios la generación de imágenes con el estilo de determinados artistas vivos (en particular, el "estilo Miyazaki"), y ha declarado públicamente que está adoptando un enfoque más "conservador". El portavoz afirmó que actualmente prohíbe la generación de "estilos individuales de artistas vivos", pero permite "estilos de estudio más amplios" o los estilos de artistas fallecidos, y que seguirá ajustando su política en función de los comentarios.

Este incidente ha vuelto a poner sobre la mesa la contradicción entre la capacidad de la IA generativa para imitar el arte y la protección de los derechos e intereses de los creadores. Cabe mencionar que el propio Hayao Miyazaki siempre se ha mostrado crítico con el arte de la IA, calificándolo en una ocasión de "insulto a la vida misma".Studio Ghibli Aunque no respondió directamente al incidente, la OpenAI La rápida respuesta demuestra que trazar la línea entre la innovación tecnológica y el respeto al ecosistema artístico existente sigue siendo un reto que la industria en su conjunto debe afrontar seriamente.

ChatGPT 图像生成引爆网络：技术突破、版权风波与算力告急

Consideraciones operativas y perspectivas de futuro

Al tiempo que se abordan los retosOpenAI También se explican los detalles operativos de la nueva función. En cuanto a la velocidad de generación, elShannon Aunque se reconoce que por el momento puede ser un poco más lento, se insiste en que se trata de una contrapartida necesaria en la búsqueda de una mayor calidad de imagen (incluidos los conocimientos que contiene).

En términos de trazabilidad y propiedad de la imagen, la imagen generada no tendrá una marca de agua visible añadida, sino que estará incrustada en un archivo que se ajusta a la C2PA Metadatos estándar para identificar la fuente, mientras que el usuario tiene plenos derechos para utilizar la imagen generada (sujeto a las políticas de la plataforma).

OpenAI Integre potentes funciones de generación de imágenes en ChatGPTLa nueva tecnología es un paso importante hacia la generalización de las aplicaciones de la IA. Sin embargo, las consiguientes tensiones aritméticas y disputas sobre derechos de autor también revelan claramente que el camino que queda por recorrer no es recto. Cómo gestionar eficazmente el consumo de recursos, aclarar los límites éticos y equilibrar los intereses de todas las partes mientras la tecnología se desarrolla a un ritmo vertiginoso será un reto importante. OpenAI y la industria de la IA en su conjunto seguirán siendo un tema central en el futuro.

Noticias AI

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

¡Mantenga la línea de fondo AI, "niño enterrado foto" que participan en el caso de la persona fue detenida! Estos trucos le enseñan a identificar la autenticidad de las fotos

Noticias AI

hace 1 año

043.1K

RealtimeSTT：实时语音转文字工具，基于Whisper实现低延迟流式语音识别

RealtimeSTT: herramienta de conversión de voz a texto en tiempo real para el reconocimiento del habla en streaming de baja latencia basada en Whisper.

hace 1 año

088K

¡DashInfer-VLM, rendimiento de inferencia SOTA multimodal, ultra-vLLM!

Noticias AI

hace 1 año

055.4K

Tavus lanza una plataforma CVI emocionalmente inteligente: tres modelos básicos impulsan la interacción por vídeo en tiempo real con personas digitales

Noticias AI

hace 1 año

043.4K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

La generación de imágenes ChatGPT enciende la web: avances tecnológicos, furor por los derechos de autor y emergencia aritmética

El motor tecnológico: la competencia básica que impulsa el auge

Consecuencias dobles: los recursos y los retos éticos detrás del éxito

Consideraciones operativas y perspectivas de futuro

a16z Opinión: Cómo MCP está reinventando la interacción entre herramientas de IA

Cloudflare adopta el MCP remoto: amplía las capacidades del agente de IA a Internet

Artículos relacionados

¡Mantenga la línea de fondo AI, "niño enterrado foto" que participan en el caso de la persona fue detenida! Estos trucos le enseñan a identificar la autenticidad de las fotos

RealtimeSTT: herramienta de conversión de voz a texto en tiempo real para el reconocimiento del habla en streaming de baja latencia basada en Whisper.

¡DashInfer-VLM, rendimiento de inferencia SOTA multimodal, ultra-vLLM!

Tavus lanza una plataforma CVI emocionalmente inteligente: tres modelos básicos impulsan la interacción por vídeo en tiempo real con personas digitales

Sin comentarios

Últimas colecciones

Últimos artículos

La generación de imágenes ChatGPT enciende la web: avances tecnológicos, furor por los derechos de autor y emergencia aritmética

El motor tecnológico: la competencia básica que impulsa el auge

Consecuencias dobles: los recursos y los retos éticos detrás del éxito

Consideraciones operativas y perspectivas de futuro

a16z Opinión: Cómo MCP está reinventando la interacción entre herramientas de IA

Cloudflare adopta el MCP remoto: amplía las capacidades del agente de IA a Internet

Artículos relacionados

¡Mantenga la línea de fondo AI, "niño enterrado foto" que participan en el caso de la persona fue detenida! Estos trucos le enseñan a identificar la autenticidad de las fotos

RealtimeSTT: herramienta de conversión de voz a texto en tiempo real para el reconocimiento del habla en streaming de baja latencia basada en Whisper.

¡DashInfer-VLM, rendimiento de inferencia SOTA multimodal, ultra-vLLM!

Tavus lanza una plataforma CVI emocionalmente inteligente: tres modelos básicos impulsan la interacción por vídeo en tiempo real con personas digitales

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos