Kaleido - многосубъектная модель генерации эталонного видео с открытым исходным кодом, созданная Smart Spectrum AI совместно с Университетом Цинхуа и другими организациями.
Что такое Kaleido?
Kaleido - это модель генерации мультисубъектного эталонного видео с открытым исходным кодом, разработанная совместно Хэфэйским технологическим университетом, Университетом Цинхуа и Smart Spectrum AI. Она генерирует предметно-согласованные видео из нескольких опорных изображений, устраняя недостатки существующих моделей в области многосубъектной согласованности и развязки фона. Kaleido генерирует высококачественные обучающие данные с помощью специализированного конвейера построения данных, включая фильтрацию низкокачественных образцов и синтез разнообразных данных. Инновационный механизм кодирования положения вращения эталона (R-RoPE) стабильно и точно объединяет несколько эталонных изображений для поддержания согласованности в многосубъектных сценариях.Kaleido демонстрирует высокие результаты в многочисленных бенчмарках и значительно превосходит предыдущие подходы с точки зрения согласованности, точности и способности к обобщению.

Особенности Kaleido
- Данные создают инновационные трубопроводы: Используется многоступенчатый масштабируемый конвейер построения данных S2V, включающий нарезку/картинку видео, локализацию объекта, качественную фильтрацию, разделение фона и этапы улучшения позы и движения, для эффективного улучшения разнообразия и качества данных и обеспечения высококачественных образцов для обучения модели.
- Механизм R-RoPEКодирование вращательного положения опорных изображений (R-RoPE) используется для уникального кодирования вращательного положения опорных изображений для достижения стабильной интеграции нескольких опорных изображений, что значительно улучшает согласованность в многосубъектных сценах и позволяет избежать путаницы между объектами.
- превосходная производительность: В нескольких эталонных тестах Kaleido значительно превосходит существующие методы в плане согласованности объектов, разделения фона и качества видео, а также демонстрирует хорошие результаты, особенно приближаясь к уровню закрытых моделей в плане эстетического качества и плавности видео.
Основные преимущества Kaleido
- Разнообразие и качество данных: Благодаря многоступенчатой системе построения данных, фильтрации некачественных образцов и синтезу разнообразных данных обеспечивается богатство и высокая достоверность обучающих данных, что закладывает основу для повышения эффективности модели.
- Многосубъектная согласованность: Инновационный механизм R-RoPE эффективно объединяет несколько опорных изображений, значительно улучшает согласованность в многосубъектных сценах, позволяет избежать путаницы между объектами и генерировать высококачественные многосубъектные видео.
- Возможность развязки с фоном: Превосходно справляется с функцией разделения фона, четко отделяя объект съемки от фона, предотвращая загрязнение фона и повышая естественность и реалистичность создаваемого видео.
- Превосходная производительность: В нескольких эталонных тестах Kaleido значительно превосходит существующие методы по согласованности объектов, развязке фона, качеству видео, эстетическому качеству и плавности видео, приближаясь или даже превосходя уровень моделей с закрытым исходным кодом.
- Открытый исходный код способствует развитию экологии: Будучи проектом с открытым исходным кодом, Kaleido обеспечивает мощную поддержку исследований и приложений в области генерации видео, а также способствует технологическому развитию и экологическому строительству всей области, имея широкие перспективы применения.
Что такое официальный сайт Kaleido
- Веб-сайт проекта:: https://criliasmiller.github.io/Kaleido_Project/
- Репозиторий GitHub:: https://github.com/zai-org/Kaleido
- Библиотека моделей HuggingFace:: https://huggingface.co/zai-org/Kaleido-14B-S2V
- Технический документ arXiv:: https://arxiv.org/pdf/2510.18573
Для кого предназначен Kaleido?
- Создатели видеоконтента: Быстрое создание высококачественных видеороликов с помощью Kaleido позволяет сэкономить расходы на съемку и постпроизводство, подходит для создания контента в рекламе, электронной коммерции, кино и телевидении.
- Исследователи искусственного интеллекта: Будучи моделью с открытым исходным кодом, Kaleido предоставляет исследователям богатые экспериментальные данные и передовые технические рамки для облегчения исследовательской работы, связанной с генерацией видео.
- Разработчики и инженеры: Вы можете интегрировать Kaleido в свои собственные проекты, разрабатывать новые приложения или оптимизировать существующие системы для разработки программного обеспечения и платформ, требующих возможности генерации видео.
- Креативный дизайнерВозможность генерации многопредметного видео в Kaleido позволяет быстро реализовать творческие идеи, предоставляя новые идеи и материалы для дизайнерской работы.
- Преподаватели и студенты: Он может быть использован для преподавания и обучения, чтобы помочь студентам понять принципы и применение технологии создания видео, а также развить соответствующие навыки и творческие способности.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...




