Kunlun Weaver выпускает первую в Китае модель видео с открытым исходным кодом для короткометражных пьес с искусственным интеллектом
Общие сценарии и вертикальные сценарии - вот основное решение, с которым сталкивается разработка больших моделей ИИ.
Большинство представленных на рынке видеомоделей - это модели общего назначения, которые могут генерировать видеоконтент для различных сценариев на основе слов, вводимых пользователями. В то же время некоторые из крупных видеомоделей начали осваивать вертикальные области, более близкие к сценариям применения, например, недавно выпущенная компанией ByteDance модель Гоку Модель, таким образом, фокусируется на приложении Digital Man live banding.
SkyReels V1: веха в развитии моделей генерации короткометражных драматических видеороликов ИИ в Китае
Компания Kunlun World Wide объявила о выпуске SkyReels V1, первой в Китае крупной модели генерации видео для создания короткометражных драматических фильмов с использованием искусственного интеллекта. Компания Kunlun Wanwei официально запустила SkyReels, платформу для создания короткометражных драматических фильмов с использованием искусственного интеллекта, в декабре 2024 года. SkyReels V1 обеспечит надежную поддержку технологии больших моделей для платформы.
Согласно реальным наблюдениям и опыту, SkyReels V1 можно назвать "самой производительной" видеомоделью на рынке. Она продемонстрировала выразительность, сравнимую с кино- и телесъемкой, во многих аспектах, таких как микровыражения персонажей, детализация действий, построение сцены, композиция изображения и работа объектива, и способна генерировать кадры выступлений "уровня кинозвезды и королевы".
SkyReels A1: Одновременные алгоритмы с открытым исходным кодом для контролируемых движений экспрессии
Выпущенный в тандеме со SkyReels V1, он SkyReels A1 - это первый алгоритм управления экспрессией и действием, разработанный компанией KunlunWanwei на уровне SOTA, основанный на видеомодели.
Более того, SkyReels V1 и SkyReels A1 - это модели с открытым исходным кодом, и все пользователи могут скачивать и использовать их бесплатно в соответствии с соглашением об открытом исходном коде. Адрес открытого исходного кода следующий:
https://github.com/SkyworkAI/SkyReels-V1
https://github.com/SkyworkAI/SkyReels-A1
https://skyworkai.github.io/skyreels-a1.github.io/report.pdf
если DeepSeek R1 установил новый открытый стандарт для больших моделей текста, особенно моделей вывода, после чего Kunlun Wanwei's SkyReels V1 SkyReels A1 и SkyReels A1 установили новый уровень открытого исходного кода на бурно развивающемся рынке короткометражных драматических фильмов AI. При поддержке этих двух моделей ожидается, что рынок короткометражных драматических фильмов с искусственным интеллектом начнет "момент DeepSeek".
1. мегамодель видео "с лучшими показателями"

SkyReels V1 - это крупная модель, которая получает пользу от сообщества разработчиков с открытым исходным кодом и активно участвует в его развитии. Она обучается на основе HunYuan-Video, гибридной модели видеогранда, открытой Tencent в декабре 2023 года.
Хотя модели с открытым исходным кодом хорошо справляются с задачами общего назначения, их производительность может быть неоптимальной в конкретных доменах или сегментированных задачах. В результате производителям моделей обычно приходится выполнять множество тонких настроек, оптимизировать выводы и выравнивать безопасность в процессе обучения.
В настоящее время большие видеомодели на рынке короткометражных драматических фильмов AI, как правило, имеют недостатки в создании выражений персонажей, и наиболее заметной проблемой является то, что выражения персонажей пусты и лишены живости. С помощью SkyReels V1 компания Kunlun хочет преодолеть эти болевые точки индустрии.
Обучение модели - ключевой компонент в освоении знаний и возможностей большой модели. В процессе обучения SkyReels V1 основная цель KunlunWei - научить модель "как работать". Для этого компания Kunlun в основном реализовала следующие две основные технологические инновации:
Очистка и маркировка данных: краеугольный камень точной настройки модели
Первая - очистка и маркировка данных, которая является ключевой частью тонкой настройки модели. Как учителю нужны качественные учебные материалы для подготовки к уроку, так и компания KunlunWavi создала десятимиллионный набор высококачественных данных по фильмам, телесериалам и документальным фильмам на основе самостоятельно разработанного процесса высококачественной очистки данных и ручной маркировки. Это и есть "учебные материалы" для SkyReels V1 для обучения актерскому мастерству.
Человеко-ориентированная мультимодальная модель понимания видео: улучшение понимания персонажей
Одних "учебных материалов" недостаточно; необходимо более глубокое руководство по моделированию. Поэтому компания KunlunWanwei разработала собственную человеко-ориентированную (character-centred) мультимодальную модель для понимания видео. Цель - значительно улучшить способность модели понимать информацию, связанную с персонажами на видео.
Эта система интеллектуального анализа персонажей, основанная на мультимодальной большой модели понимания видео, может достигать эффектов "уровня кинозвезды" на нескольких уровнях, таких как распознавание выражения, восприятие пространственного положения персонажа, понимание поведенческих намерений и понимание сцены исполнения.
Что такое выступление "кинозвезды"?
Например, SkyReels V1 способен генерировать микровыражения персонажей кинематографического качества, поддерживая 33 тонких выражения персонажей и более 400 комбинаций естественных движений, что позволяет в точности воспроизвести реальные эмоциональные проявления.




Другим примером является то, что SkyReels V1 также освоил эстетику киношного освещения. На основе высококачественных данных голливудских фильмов и телепередач каждый кадр, сгенерированный SkyReels V1, обладает кинематографическим качеством с точки зрения композиции, положения актеров и ракурса камеры.




Сравнение SkyReels V1 с моделями из закрытых источников
Хотя SkyReels V1 - это модель с открытым исходным кодом, она дает результаты, сравнимые с моделями с закрытым исходным кодом, такими как Conch AI и Corinne AI. При одинаковых условиях использования слов-подсказок сравнение результатов генерации SkyReels V1, Conch AI и Keling AI выглядит следующим образом:
Слово для подсказки 1: Фотография кареглазой женщины в очках с красной оправой и малиновой помадой. Она махнула рукой в сторону входа, улыбнулась, а затем рассмеялась.
SkyReels V1.

Конч А.И.

Керин А.И.

Слово для реплики 2: Драматический фронтальный крупный план показывает лицо глубоководного дайвера в старомодном медном водолазном шлеме. Через толстое круглое стекло шлема хорошо видно его спокойное выражение лица. Внутри шлема вверху плавают крошечные пузырьки, а к внутренним стенкам прилипают капельки воды. Он бережно держит в руках открытую книгу, страницы которой мягко трепещут в подводных течениях. Книга выглядела сухой и неповрежденной, что резко контрастировало с ее водным окружением. Мягкие лучи солнечного света пробивались сквозь воду, освещая его лицо и отбрасывая золотистый отблеск на страницы. Вокруг плавали рыбы, их цвета были приглушены глубиной, но оставались яркими на фоне сине-зеленого фона. Дайвер сосредоточенно читает текст, полностью погрузившись в чтение, несмотря на то что находится под водой. Сюрреалистическое сочетание литературы и океанских глубин создает сказочную атмосферу, подчеркивая поиск знаний в самых неожиданных местах.
SkyReels V1.

Конч А.И.

Керин А.И.

Если говорить о реальных результатах, то SkyReels V1 демонстрирует превосходство над моделями из закрытых источников в плане четкости изображения и тонкости проработки персонажей. SkyReels V1 даже превосходит закрытые модели по динамике волос и другим деталям.

Возможности создания видео на основе графиков не имеют аналогов в моделях с открытым исходным кодом
Кроме того, SkyReels V1 поддерживает не только текстовое видео, но и видео с изображениями, что является одной из самых мощных моделей видео с графами среди существующих моделей с открытым исходным кодом.
Чтобы проверить возможности SkyReels V1 по созданию видео на основе графов, мы загрузили в модель фотографии популярного сурка из китайского новогоднего фильма Ne Zha's Demon Child Descends, и задали слово реплики: сурок смотрит вверх, делает секундную паузу, а затем кричит. Результаты, полученные с помощью SkyReels V1, просто ошеломляют:

Возможно.SkyReels V1 - это самая производительная макромодель для видео, представленная на рынке сегодня.
2. Самостоятельно разработанная система выводов SkyReels Infer: создание модели с открытым исходным кодом для всех

Еще более ценным является то, что SkyReels V1, будучи моделью с открытым исходным кодом, не только совершила значительный прорыв в генерации результатов, но и обладает очень высокой эффективностью вывода. Это стало возможным благодаря SkyReels Infer - системе рассуждений, разработанной Куньлунь Ваньвэем.
Последствия системы обоснования самостоятельного исследования
В чем заключается важность самостоятельного поиска основы для рассуждений?
В целом, модели с открытым исходным кодом реже оптимизируются специально для фреймворков рассуждений, особенно в сценариях крупномасштабных приложений. Однако без оптимизации системы рассуждений трудно удовлетворить требования пользователей в отношении эффективности рассуждений и стоимости.
В качестве примера можно привести релиз OpenAI в начале 2024 года. Сора В то время некоторые пользователи сообщали, что Sora требуется час для создания минутного видео. Это стало одной из главных причин того, что Sora перестала работать почти через год после выхода. Многие крупные видеомодели и по сей день сталкиваются с длительным ожиданием генерации видео.
SkyReels Infer, фреймворк для создания выводов, разработанный компанией KunlunWanwei, не только поддерживает высокую производительность, но и учитывает эффективность и простоту использования.
Превосходная производительность SkyReels Infer
Скорость работы SkyReels Infer с выводами превосходна. На одной карте RTX 4090 для создания видео в формате 544P требуется всего 80 секунд. Пользователь может погрузиться в размышления или просматривать мобильный телефон, а видео уже будет создано.
SkyReels Infer поддерживает распределенные параллельные вычисления на нескольких картах. Это мощная технология. Проще говоря, она позволяет нескольким видеокартам работать вместе над задачами генерации видео.
Благодаря таким технологиям, как Context Parallel, CFG Parallel и VAE Parallel, несколько видеокарт работают вместе как высокоэффективная команда, достигая значительной скорости обработки данных. Это особенно полезно для приложений, требующих масштабных вычислений, таких как создание сложных анимаций или видеороликов со спецэффектами.
SkyReels Infer также отлично справляется с оптимизацией видеопамяти. В нем используется технология квантования fp8 и разгрузки на уровне параметров, благодаря чему SkyReels Infer работает без сбоев даже на обычных видеокартах с небольшим объемом видеопамяти.
Графическая память - это ключевой параметр видеокарты, определяющий объем данных, которые она может обрабатывать одновременно. В прошлом многие модели видеогенераторов требовали большого объема графической памяти, что зачастую не позволяло рядовому пользователю использовать их из-за недостаточной производительности видеокарты. Оптимизация SkyReels Infer под низкий уровень памяти полностью изменила эту ситуацию. Это означает, что пользователи могут с легкостью ощутить всю мощь моделей поколения видео без необходимости приобретать дорогостоящие видеокарты высокого класса. Это, несомненно, снижает порог видеогенерации ИИ, позволяя большему числу пользователей наслаждаться технологией ИИ.
SkyReels Infer основан на библиотеке Diffuser с открытым исходным кодом. Библиотека Diffuser - это отличная библиотека с открытым исходным кодом, которая предоставляет множество возможностей и инструментов. SkyReels Infer основана на библиотеке Diffuser и, естественно, унаследовала многие ее преимущества. Для разработчиков это означает, что они могут быстро приступить к работе и легко интегрировать SkyReels Infer в свои существующие проекты.
Сравнение производительности
Какова реальная производительность SkyReels Infer? Для проведения сравнительного теста производительности компания Kunlun использует SkyReels V1, оснащенный фреймворком для создания выводов SkyReels Infer, и HunYuan-Video, который является официальным открытым исходным кодом Tencent. Результаты теста показывают, что SkyReels V1 имеет лучшую скорость и задержку, чем HunYuan-Video, при создании видео в формате 544p.
Кроме того, SkyReels V1 поддерживает стратегию развертывания нескольких карт, позволяя одновременно использовать до 8 видеокарт для ускорения вычислительных задач. Кроме того, SkyReels V1 совместим с видеокартами высокого класса, такими как A800, и потребительскими видеокартами, такими как RTX 4090, удовлетворяя потребности как профессиональных, так и обычных пользователей.

3. алгоритм управления движением лица с открытым исходным кодом SkyReels A1: ведущая в отрасли технология "AI face-swapping".

Стоит отметить, что после сеансов обучения и вывода моделиДля достижения более точного и контролируемого создания видеороликов с персонажами компания Kunlun также выложила в открытый доступ SkyReels A1 - алгоритм управляемых движений, основанный на базовой модели видео.
SkyReels A1 - это алгоритм прикладного уровня, который располагается поверх базовой технологии обучения и вывода, являясь эталоном технологии Runway Act-One для захвата кинематографических выражений.
Игра "AI Face Swap" от SkyReels A1.
Основу геймплея Runway Act-One и Kunlun SkyReels A1 составляет "AI Face Swap": пользователям нужно лишь подготовить фотографию персонажа А и видеоклип с персонажем Б, после чего выражение лица, движения и линии персонажа Б могут быть напрямую перенесены на персонажа А. Геймплей Runway Act-One и Kunlun SkyReels A1 основан на "AI Face Swap".
По таким параметрам, как сходство идентификаторов, качество изображения, выражение лица и поза, SkyReels A1 достигает результатов SOTA (State of Art) по сравнению с аналогичными алгоритмами с открытым исходным кодом в отрасли. По сравнению с аналогичными отраслевыми алгоритмами с открытым исходным кодом SkyReels A1 достигает результатов SOTA (State of the Art), которые близки к результатам технологии Act-One с закрытым исходным кодом, с преимуществом в качестве генерации.

Захват кинематографической экспрессии с помощью видео
Во-первых, SkyReels A1 позволяет снимать на видео кинематографическую экспрессию с большей степенью выразительности, чем Runway Act-One.

Высокоточное воспроизведение микроэкспрессии
Далее - высокоточное воспроизведение микровыражений. SkyReels A1 способна генерировать высокореалистичное видео людей в движении в любом человеческом масштабе, включая портреты, композиции с половиной и полным телом. Реалистичность достигается за счет точного моделирования изменений выражения лица и эмоций, а также глубины многомерных деталей, таких как текстура кожи и движения тела.
Например, генерация управления выражением бокового лица:

и более реалистичное создание микровыражений бровей и глаз:

Удержание лица и обработка больших движений
Помимо микровыражений, SkyReels A1 также превосходит Runway Act-One в таких областях, как сохранение лиц и масштабная обработка движений. Сохранение лиц и масштабная обработка движений - это именно те области, в которых многие модели генерации видео подвержены ошибкам.
Например, в следующем случае лицо крайнего правого персонажа демонстрирует значительное искажение, которое не соответствует исходному изображению персонажа.

SkyReels A1 также позволяет увеличить количество движений головы и естественных движений тела. В следующем случае тело крайнего правого персонажа почти не двигается.

Легко понять, что алгоритмы SkyReels A1 упрощают сложный процесс традиционного видеопроизводства, предоставляя создателям контента эффективное, гибкое и недорогое решение, которое может широко использоваться при производстве разнообразного творческого контента.
4. "Момент DeepSeek" на рынке короткометражной драмы с искусственным интеллектом

Открытый исходный код SkyReels V1 и SkyReels A1 - это только первый шаг в реализации плана KunlunWei по открытому исходному коду для больших видеомоделей. В будущем Kunlun продолжит открывать исходный код сопутствующих технологий, включая профессиональные версии управления зеркалами, параметры моделей с разрешением 720P, параметры моделей для больших наборов обучающих данных и алгоритмы генерации видео, поддерживающие генерацию с контролем всего тела.
Фан Хань, председатель совета директоров и генеральный директор Kunlun World Wide, отец-основатель Chinese Linux, один из четырех мушкетеров Chinese Linux и один из самых первых экспертов по кибербезопасности в Китае, имеет 30-летний опыт работы в интернет-индустрии. Фанг Хань активно участвует в движении за открытый исходный код с 1994 года и является одним из первых пропагандистов концепции открытого исходного кода в Интернете.
Фанг Хань публично заявил, что большая модель с открытым исходным кодом является важным дополнением и альтернативой коммерческой большой модели с закрытым исходным кодом, надеясь способствовать демократизации технологий и снизить порог развития индустрии с помощью открытого исходного кода.
Уже в декабре 2022 года компания Kunlun WV выпустила целую серию алгоритмов и моделей AIGC "Kunlun Tiangong", а также объявила о полном открытии исходного кода. Kunlun - это не только одна из компаний с наиболее комплексной схемой в отечественной сфере AIGC, но и первая компания в Китае, посвятившая себя сообществу AIGC с открытым исходным кодом.
В течение последних трех лет компания KunlunWanwei выпускала и выкладывала в открытый доступ серию больших моделей Tiangong. В апреле 2024 года КуньлуньВэй выпустила и одновременно открыла доступ к Tiangong 3.0, супермодели MoE с 400 миллиардами параметров, чья производительность превышает производительность Grok 1.0 в то же время. В июне 2024 года компания KunlunWei снова выпустила в открытый доступ 200-миллиардную разреженную модель MoE, став первой моделью MoE с открытым исходным кодом на 100 миллиардов параметров, которая поддерживает вывод на одном сервере RTX 4090. В ноябре 2024 года компания KWL выложила в открытый доступ Skywork-o1-Open и другие серии моделей.
Веря в технологии с открытым исходным кодом, компания Kunlun стремится к тому, чтобы индустрия реализовала мечту об AGI (General Artificial Intelligence).
С момента вступления в сферу ИИ в 2020 году компания Kunlun завершила создание всей отраслевой цепочки "арифметическая инфраструктура - алгоритм большой модели - приложение ИИ" и построила диверсифицированную матрицу бизнеса ИИ.
Короткометражные драмы с искусственным интеллектом - важный сегмент диверсифицированной матрицы приложений искусственного интеллекта Kunlun.
Короткометражная драма AI - это развивающийся рынок, который, как ожидается, будет демонстрировать высокий рост в 2025 году. В документе "2024 Short Drama Overseas Marketing White Paper", выпущенном TikTok for Business, прогнозируется, что среднемесячное количество пользователей короткометражной драмы на зарубежных рынках в будущем достигнет 200-300 миллионов, а размер рынка, как ожидается, достигнет 10 миллиардов долларов, так что потенциал рынка огромен.
В декабре 2024 года компания KunlunWanwei запустила в США платформу для создания короткометражных AI-драм Skyreels, что стало важным шагом для KunlunWanwei на глобальном рынке AI-развлечений и открыло для североамериканской аудитории новый опыт создания интеллектуальных короткометражных драматических фильмов. Платформа SkyReels AI short drama не только предоставляет мощные инструменты создания для профессиональных создателей контента, но и значительно снижает порог создания AI short drama, упрощая начало работы для непрофессиональных пользователей.
Далеко идущие последствия ИИ для мировой индустрии кино и телевидения
Как технология искусственного интеллекта изменит мировую индустрию кино и телевидения?
Выступая на Всемирной конференции по искусственному интеллекту 2024, Фан Хань, председатель компании Kunlun World Wide, отметил, что ИИ имеет огромные дивиденды для развития за рубежом, особенно в малоязычных странах.
Приводя в пример кино- и драматическую индустрию, он отметил, что производство фильма в Нигерии обходится примерно в 20 000 долларов. Такая продукция явно неконкурентоспособна по сравнению с "Блуждающей Землей", производство которой обошлось Китаю в 300 миллионов юаней, и "Аватаром", производство которого обошлось США в сотни миллионов долларов. Однако ожидается, что появление технологии искусственного интеллекта устранит этот разрыв.
По моему личному прогнозу, через 3-5 лет, благодаря технологиям искусственного интеллекта, стоимость производства блокбастера уровня "Блуждающей Земли" может снизиться до десятков тысяч долларов. Это откроет огромные возможности для развития многих регионов за рубежом. Люди повсюду хотят видеть локализованную культурную продукцию, будь то романы, музыка, видео или комиксы, и нуждаются в контенте, который был бы ближе к их местной культуре. Поэтому ИИ за рубежом сулит огромные дивиденды для развития". Фан Хань сказал.
На более мелком уровне дивиденды, приносимые ИИ, заключаются в экспоненциальном снижении стоимости производства культурных продуктов, что делает возможным режим создания "один человек - одна драма". На более высоком уровне, снижая порог создания, технология AIGC дает возможность обездоленным культурным группам самостоятельно производить контент, что способствует глобальному культурному утверждению, которое является лучшим проявлением технологий во благо.
В индустрии принято считать появление ИИ "моментом iPhone", но Фанг Хань считает, что ИИ больше похож на революцию камеры мобильного телефона, потому что камера вызвала изменения в способе съемки, что, в свою очередь, породило огромные платформы коротких видео, такие как Jitterbug и Shutterbug. Аналогичным образом ИИ породит большое количество новых ИИ-платформ пользовательского контента, открыв золотой век производства и потребления персонализированного контента.
SkyReels V1, первая модель генерации видео с открытым исходным кодом для создания ИИ-короткометражек, и SkyReels A1, первый алгоритм управления мимикой на основе базовой видеомодели уровня SOTA, как раз и являются инструментами для ускорения универсальности эры AIGC. SkyReels V1, первая модель генерации видео с открытым исходным кодом для создания короткометражных AI-драм, и SkyReels A1, первый алгоритм управления мимикой на основе базовой видеомодели с рейтингом SOTA, - это инструменты для ускорения наступления эры AIGC.
Рынок короткометражных драматических фильмов с искусственным интеллектом, как ожидается, начнет свой "момент DeepSeek", который принадлежит ему.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...