Генерация изображений ChatGPT зажигает веб: технологический прорыв, фурор по поводу авторских прав и арифметическая катастрофа
OpenAI
Недавно компания интегрировала свою передовую технологию создания изображений непосредственно в ChatGPT
Эта инициатива быстро вызвала энтузиазм пользователей и целый ряд сопутствующих эффектов. Функция использует мощный GPT-4o
Возможности моделирования, технологическая родословная и модели создания видеороликов Sora
аналогичные, позволяя пользователям создавать высококачественные неподвижные изображения непосредственно в знакомом диалоговом интерфейсе, что значительно повышает удобство использования.

Эта возможность создания изображений доступна для всех ChatGPT
Открыт для пользователей, включая платных подписчиков (Plus
, Pro
, Team
) и бесплатных пользователей.OpenAI
Выяснилось, что первоначальный объем ежедневной генерации для бесплатных пользователей был примерно в три раза больше, чем для бесплатных. DALL·E
Предыдущая стратегия аналогична, но будет динамически корректироваться в зависимости от спроса. Этот шаг, безусловно, ускорил популярность высококачественной генерации изображений с помощью ИИ, поставив ее в один ряд с Midjourney
и другие платные услуги и Stable Diffusion
и другие модели с открытым исходным кодом конкурируют за более широкий портал пользователей.
Технологический двигатель: основная компетенция, стимулирующая бум
Эта интеграция - не просто набор функций, за ней стоит значительный прогресс в технологии генерации изображений. Особого внимания заслуживает решение проблемы "привязки атрибутов и объектов" (binding), которая долгое время не давала покоя ИИ-генерации изображений. В прошлом модели было сложно точно обрабатывать инструкции типа "синие звезды и красные треугольники", что часто приводило к путанице цветов и форм. Согласно OpenAI
Руководитель отдела исследований Gabriel Goh
Новая модель была описана как способная последовательно обрабатывать инструкции, содержащие от 15 до 20 объектов и сложные взаимосвязи между ними, что значительно превосходит возможности старой модели.

Еще одно ключевое улучшение - качество рендеринга текста в изображении. ИИ всегда испытывал трудности с созданием четкого, безошибочного текста в изображениях, что мешало многим потенциальным приложениям (например, дизайну плакатов, логотипов).Goh
После нескольких месяцев оптимизации новая модель стала достаточно надежной при рендеринге текста, что значительно расширяет сферу применения", - заявили в компании. Это связано с используемым в модели "методом авторегрессивной генерации", при котором последовательная прорисовка пикселя за пикселем (например, слева направо, сверху вниз) обеспечивает лучший контроль деталей, чем диффузионные модели, которые генерируют все изображение сразу, и особенно хороши для точного рендеринга текста".

Эти достижения основаны на GPT-4o
Омнимодальное ядро модели с самого начала было разработано так, чтобы объединить текст, изображения, аудио и видео. В то же время модель включает в себя широкий спектр "знаний о мире", позволяющих ей понимать логику и здравый смысл, стоящие за изображениями. Например ChatGPT
Владелец мультимодального продукта Jackie Shannon
Пользователю не нужно объяснять, что модель также может генерировать изображения, которые согласуются с законами физики и фоновыми знаниями, например, схемы тригонометрического эксперимента Ньютона или комиксы, сохраняющие последовательность персонажей.
Двойные последствия: ресурсы и этические проблемы, стоящие за успехом
Именно благодаря этим мощным возможностям новая функция быстро вызвала ажиотаж в Интернете после своего появления, а также сделала OpenAI
Сразу же возникают две серьезные проблемы: огромная нагрузка на арифметические ресурсы и затянувшиеся споры об этике авторского права.
Во-первых, это уровень ресурсов. Огромный пользовательский спрос делает OpenAI
серверы перегружены. генеральный директор Sam Altman
существовать X
Платформа описала дилемму фразой "наши GPU плавятся". Для поддержания стабильности сервисаOpenAI
Ограничение скорости пришлось внедрять в срочном порядке. После того как из-за высокого спроса было отложено полное открытие для бесплатных пользователей, дальнейшее подтверждение ограничения числа бесплатных пользователей (около трех в день) подчеркивает тот факт, что арифметические затраты и узкие места в ресурсах для масштабного развертывания передовых приложений ИИ остаются суровой реальностью даже для гигантов индустрии.

Во-вторых, существует этический аспект и аспект авторского права. Мощная способность новой функции к подражанию была быстро использована пользователями: изображения, созданные в стиле японского аниматора Хаяо Миядзаки, стали вирусными в социальных сетях, вызвав бешеную активность.

Однако этот "милый шторм" быстро коснулся чувствительной красной линии авторских прав. Всего через день.OpenAI
Компания начала ограничивать пользователей в создании изображений в стиле конкретных ныне живущих художников, в частности в "стиле Хаяо Миядзаки", и теперь публично заявила, что придерживается более "консервативного" подхода. Пресс-секретарь сказал, что в настоящее время компания запрещает генерировать "индивидуальные стили живых художников", но разрешает "более широкие студийные стили" или стили умерших художников, и что она будет продолжать корректировать свою политику на основе отзывов.

Этот инцидент в очередной раз высветил противоречие между способностью генеративного ИИ к художественной имитации и защитой прав и интересов создателей. Стоит отметить, что сам Хаяо Миядзаки всегда критически относился к искусству ИИ, однажды назвав его "оскорблением самой жизни".Studio Ghibli
Не принимая непосредственных мер по устранению последствий инцидента, сотрудники OpenAI
Быстрая реакция показывает, что провести грань между технологическими инновациями и уважением к существующей художественной экосистеме - это все еще задача, которую необходимо серьезно решить всей индустрии.
Операционные соображения и перспективы на будущее
В то время как решение проблемOpenAI
Также объясняются эксплуатационные детали новой функции. Что касается скорости генерации, тоShannon
Признавая, что на данный момент он может быть немного медленнее, было подчеркнуто, что это необходимый компромисс в стремлении к более высокому качеству изображения (включая содержащиеся в нем знания).

С точки зрения отслеживания изображения и права собственности на него, созданное изображение не будет иметь видимого водяного знака, а будет встроено в файл, соответствующий C2PA
Стандартные метаданные позволяют идентифицировать источник, а пользователь имеет полное право использовать созданное изображение (в соответствии с политикой платформы).
OpenAI
Интегрируйте мощные возможности создания изображений в ChatGPT
Новая технология - важный шаг на пути к повсеместному внедрению ИИ. Однако последовавшая за этим арифметическая напряженность и споры об авторских правах также ясно показывают, что путь вперед не будет прямым. Как эффективно управлять потреблением ресурсов, уточнить этические границы и сбалансировать интересы всех сторон в условиях стремительного развития технологии - вот главная задача. OpenAI
и индустрия ИИ в целом будут оставаться одной из центральных тем в будущем.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...