Генерация изображений ChatGPT зажигает веб: технологический прорыв, фурор по поводу авторских прав и арифметическая катастрофа

Новости ИИОпубликовано 1 год назад Круг обмена ИИ

OpenAI Недавно компания интегрировала свою передовую технологию создания изображений непосредственно в ChatGPTЭта инициатива быстро вызвала энтузиазм пользователей и целый ряд сопутствующих эффектов. Функция использует мощный GPT-4o Возможности моделирования, технологическая родословная и модели создания видеороликов Sora аналогичные, позволяя пользователям создавать высококачественные неподвижные изображения непосредственно в знакомом диалоговом интерфейсе, что значительно повышает удобство использования.

Эта возможность создания изображений доступна для всех ChatGPT Открыт для пользователей, включая платных подписчиков (Plus, Pro, Team) и бесплатных пользователей.OpenAI Выяснилось, что первоначальный объем ежедневной генерации для бесплатных пользователей был примерно в три раза больше, чем для бесплатных. DALL·E Предыдущая стратегия аналогична, но будет динамически корректироваться в зависимости от спроса. Этот шаг, безусловно, ускорил популярность высококачественной генерации изображений с помощью ИИ, поставив ее в один ряд с Midjourney и другие платные услуги и Stable Diffusion и другие модели с открытым исходным кодом конкурируют за более широкий портал пользователей.

Технологический двигатель: основная компетенция, стимулирующая бум

Эта интеграция - не просто набор функций, за ней стоит значительный прогресс в технологии генерации изображений. Особого внимания заслуживает решение проблемы "привязки атрибутов и объектов" (binding), которая долгое время не давала покоя ИИ-генерации изображений. В прошлом модели было сложно точно обрабатывать инструкции типа "синие звезды и красные треугольники", что часто приводило к путанице цветов и форм. Согласно OpenAI Руководитель отдела исследований Gabriel Goh Новая модель была описана как способная последовательно обрабатывать инструкции, содержащие от 15 до 20 объектов и сложные взаимосвязи между ними, что значительно превосходит возможности старой модели.

Еще одно ключевое улучшение - качество рендеринга текста в изображении. ИИ всегда испытывал трудности с созданием четкого, безошибочного текста в изображениях, что мешало многим потенциальным приложениям (например, дизайну плакатов, логотипов).Goh После нескольких месяцев оптимизации новая модель стала достаточно надежной при рендеринге текста, что значительно расширяет сферу применения", - заявили в компании. Это связано с используемым в модели "методом авторегрессивной генерации", при котором последовательная прорисовка пикселя за пикселем (например, слева направо, сверху вниз) обеспечивает лучший контроль деталей, чем диффузионные модели, которые генерируют все изображение сразу, и особенно хороши для точного рендеринга текста".

Эти достижения основаны на GPT-4o Омнимодальное ядро модели с самого начала было разработано так, чтобы объединить текст, изображения, аудио и видео. В то же время модель включает в себя широкий спектр "знаний о мире", позволяющих ей понимать логику и здравый смысл, стоящие за изображениями. Например ChatGPT Владелец мультимодального продукта Jackie Shannon Пользователю не нужно объяснять, что модель также может генерировать изображения, которые согласуются с законами физики и фоновыми знаниями, например, схемы тригонометрического эксперимента Ньютона или комиксы, сохраняющие последовательность персонажей.

ChatGPT 图像生成引爆网络：技术突破、版权风波与算力告急

Двойные последствия: ресурсы и этические проблемы, стоящие за успехом

Именно благодаря этим мощным возможностям новая функция быстро вызвала ажиотаж в Интернете после своего появления, а также сделала OpenAI Сразу же возникают две серьезные проблемы: огромная нагрузка на арифметические ресурсы и затянувшиеся споры об этике авторского права.

Во-первых, это уровень ресурсов. Огромный пользовательский спрос делает OpenAI серверы перегружены. генеральный директор Sam Altman существовать X Платформа описала дилемму фразой "наши GPU плавятся". Для поддержания стабильности сервисаOpenAI Ограничение скорости пришлось внедрять в срочном порядке. После того как из-за высокого спроса было отложено полное открытие для бесплатных пользователей, дальнейшее подтверждение ограничения числа бесплатных пользователей (около трех в день) подчеркивает тот факт, что арифметические затраты и узкие места в ресурсах для масштабного развертывания передовых приложений ИИ остаются суровой реальностью даже для гигантов индустрии.

Во-вторых, существует этический аспект и аспект авторского права. Мощная способность новой функции к подражанию была быстро использована пользователями: изображения, созданные в стиле японского аниматора Хаяо Миядзаки, стали вирусными в социальных сетях, вызвав бешеную активность.

Однако этот "милый шторм" быстро коснулся чувствительной красной линии авторских прав. Всего через день.OpenAI Компания начала ограничивать пользователей в создании изображений в стиле конкретных ныне живущих художников, в частности в "стиле Хаяо Миядзаки", и теперь публично заявила, что придерживается более "консервативного" подхода. Пресс-секретарь сказал, что в настоящее время компания запрещает генерировать "индивидуальные стили живых художников", но разрешает "более широкие студийные стили" или стили умерших художников, и что она будет продолжать корректировать свою политику на основе отзывов.

Этот инцидент в очередной раз высветил противоречие между способностью генеративного ИИ к художественной имитации и защитой прав и интересов создателей. Стоит отметить, что сам Хаяо Миядзаки всегда критически относился к искусству ИИ, однажды назвав его "оскорблением самой жизни".Studio Ghibli Не принимая непосредственных мер по устранению последствий инцидента, сотрудники OpenAI Быстрая реакция показывает, что провести грань между технологическими инновациями и уважением к существующей художественной экосистеме - это все еще задача, которую необходимо серьезно решить всей индустрии.

ChatGPT 图像生成引爆网络：技术突破、版权风波与算力告急

Операционные соображения и перспективы на будущее

В то время как решение проблемOpenAI Также объясняются эксплуатационные детали новой функции. Что касается скорости генерации, тоShannon Признавая, что на данный момент он может быть немного медленнее, было подчеркнуто, что это необходимый компромисс в стремлении к более высокому качеству изображения (включая содержащиеся в нем знания).

С точки зрения отслеживания изображения и права собственности на него, созданное изображение не будет иметь видимого водяного знака, а будет встроено в файл, соответствующий C2PA Стандартные метаданные позволяют идентифицировать источник, а пользователь имеет полное право использовать созданное изображение (в соответствии с политикой платформы).

OpenAI Интегрируйте мощные возможности создания изображений в ChatGPTНовая технология - важный шаг на пути к повсеместному внедрению ИИ. Однако последовавшая за этим арифметическая напряженность и споры об авторских правах также ясно показывают, что путь вперед не будет прямым. Как эффективно управлять потреблением ресурсов, уточнить этические границы и сбалансировать интересы всех сторон в условиях стремительного развития технологии - вот главная задача. OpenAI и индустрия ИИ в целом будут оставаться одной из центральных тем в будущем.