Lumina-DiMOO - мультимодальная большая модель с открытым исходным кодом от Shanghai AI Lab и Huawei Rise

Последние ресурсы по искусственному интеллектуОпубликовано 6 месяцев назад Круг обмена ИИ

38.8K 00

Что такое Lumina-DiMOO?

Lumina-DiMOO - это унифицированная модель нового поколения для создания и понимания мультимодальных изображений, представленная Шанхайской лабораторией искусственного интеллекта совместно с Huawei Rise на Всемирной конференции по искусственному интеллекту 2025. На основе базовой аппаратно-программной платформы Rise AI и комплекса мультимодальных больших моделей MindSpeed MM было проведено предварительное обучение на разрешениях 256, 512 и 1024 и контролируемая тонкая настройка на разрешении 1024. Lumina-DiMOO - первая в мире модель с дискретной диффузионной унифицированной архитектурой, полностью заменяющая традиционную диффузионную и авторегрессионную структуру, а скорость выборки была увеличена примерно в 10 раз по сравнению с предшественницей. Lumina-DiMOO поддерживает множество задач, таких как создание текстовых изображений/видео, редактирование изображений, перевод изображений и восстановление изображений, а способность кросс-модальной генерации и восприятия достигла нового уровня. Полнопоточный обучающий код модели был выложен в открытый доступ, обеспечивая разработчикам дружественный и эффективный опыт разработки мультимодальных моделей.

Особенности Lumina-DiMOO

Унифицированная архитектура для дискретной диффузии: Принятие первой в мире унифицированной архитектуры дискретной диффузии, заменяющей традиционную диффузию и авторегрессию, значительно увеличивает скорость выборки.
Высокая скорость отбора проб: Скорость выборки увеличена примерно в 10 раз по сравнению с традиционными моделями, что значительно повышает эффективность генерации.
Мультимодальная поддержка задач: Поддерживает различные задачи, такие как преобразование текста в изображение/видео, редактирование изображений, перевод изображений, восстановление изображений и т.д., с мощными возможностями кросс-модального генерирования и понимания.
Полный код обучения процессу с открытым исходным кодом: Предоставьте полный учебный код процесса, чтобы облегчить разработчикам исследования и разработки и способствовать широкому применению мультимодальных моделей.
На основе платформы Rise AIОпираясь на базовую аппаратно-программную платформу Rise AI и мультимодальный комплекс больших моделей MindSpeed MM, он обеспечивает эффективное обучение и оптимизацию.

Основные преимущества Lumina-DiMOO

Инновационная архитектура: Принятие первой в мире унифицированной архитектуры дискретной диффузии, заменяющей традиционные диффузионные и авторегрессионные системы для более эффективного создания контента.
Высокая производительность: Скорость выборки увеличена примерно в 10 раз по сравнению с традиционными моделями, что значительно повышает эффективность генерации и делает ее пригодной для крупномасштабных приложений.
мультимодальные возможности: Поддерживает широкий спектр задач, включая преобразование текста в изображение/видео, редактирование изображений, перевод изображений и восстановление изображений, с мощными возможностями кросс-модального создания и понимания.
Дружественный открытый исходный код: Открытый исходный код полного процесса обучения для облегчения исследований и разработок разработчиков и содействия широкому применению мультимодальных технологий.
Преимущества платформы: Основан на аппаратно-программной платформе Rise AI Foundation с набором мультимодальных больших моделей MindSpeed MM, обеспечивающих высокую производительность и эффективность обучения и оптимизации.

Какой официальный сайт у Lumina-DiMOO?

Веб-сайт проекта:: https://synbol.github.io/Lumina-DiMOO
Репозиторий Github:: https://github.com/Alpha-VLLM/Lumina-DiMOO
Библиотека моделей HuggingFace:: https://huggingface.co/Alpha-VLLM/Lumina-DiMOO

Для кого предназначена Lumina-DiMOO?

Исследователи искусственного интеллекта: Уметь проводить передовые исследования с использованием открытого кода и инновационных архитектур для изучения новых приложений и методов оптимизации мультимодальных моделей.
создатель контентаПрограммное обеспечение компании предназначено для видеопродюсеров, рекламодателей, разработчиков игр и других людей, которые хотят быстро генерировать креативный контент с мощными возможностями генерации для повышения эффективности творческой деятельности.
разработчик программного обеспечения: Вы можете интегрировать Lumina-DiMOO в свои собственные приложения, предоставляя пользователям возможность генерировать мультимодальный контент, расширяя функциональность и привлекательность вашего приложения.
Преподаватели и студенты: Его можно использовать для преподавания и обучения, помогая студентам понять принципы работы и применения мультимодальных моделей и предоставляя новые инструменты для создания образовательного контента.
бизнес-пользователь: Особенно компании, которым требуется много работы по созданию контента и креативного дизайна, такие как рекламные агентства, кино- и телекомпании, медиа-организации и т.д., могут использовать модель для повышения качества и скорости производства контента.

Последние ресурсы по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.