VoxCPM - Facing Intelligence и Tsinghua Open Source End-to-End TTS Model
VoxCPM - это модель генерации речи, совместно созданная Facade Intelligence и Шэньчжэньской международной высшей школой Университета Цинхуа. VoxCPM использует сквозную диффузионную авторегрессионную архитектуру для генерации непрерывных речевых представлений непосредственно из текста, преодолевая ограничения традиционной дискретной деамбигуации. Благодаря иерархическому моделированию языка и квантованию конечных состояний...
InternVLA-N1 - Shanghai AI Lab Open Source End-to-End Dual System Navigation Large Model
InternVLA-N1 - это сквозная двухсистемная навигационная макромодель, открытая Шанхайской лабораторией искусственного интеллекта. Используя двухсистемную архитектуру, система 2 отвечает за понимание лингвистических команд и планирование дальних маршрутов, в то время как система 1 фокусируется на высокочастотной реакции и маневренном обходе препятствий. Модель обучается полностью на основе синтетических данных с помощью крупномасштабных цифровых ...
VLAC - большая модель воплощенных вознаграждений с открытым исходным кодом от Shanghai AI Lab
VLAC - это макромодель воплощенного вознаграждения с открытым исходным кодом от Шанхайской лаборатории искусственного интеллекта. Основанная на мультимодальной макромодели InternVL, она объединяет данные интернет-видео и данные о работе робота, чтобы обеспечить вознаграждение за процесс и оценку выполнения задачи для обучения робота с подкреплением в реальном мире.VLAC может эффективно ...
InternVLA-M1 - открытый исходный код воплощенной двойной системы управления "мозг" Шанхайской лаборатории искусственного интеллекта
InternVLA-M1 - это воплощенный операционный "мозг" Шанхайской лаборатории искусственного интеллекта с открытым исходным кодом, который представляет собой большую модель двухсистемной работы, ориентированной на следование инструкциям. Она строит полный замкнутый цикл "думать-действовать-учиться" и отвечает за высокоуровневые пространственные рассуждения и планирование задач. Модель использует двухэтапную политику обучения...
PromptEnhancer - Tencent Mixed Meta Open Source AI Prompt Word Enhancement Tool
PromptEnhancer - это инструмент с открытым исходным кодом для улучшения слов подсказок, разработанный командой Tencent's Mixed Meta для улучшения генерации моделей "текст в изображение" (Text-to-Image, T2I). Благодаря цепочке рассуждений (Chain-of-Thought, CoT) подход к использованию ...
UnifoLM-WMA-0 - Yushu Technology Open Source World Model Action Architecture
UnifoLM-WMA-0 - это архитектура модели мира и действий с открытым исходным кодом для нескольких классов онтологий роботов от компании Yu Shu Technology, предназначенная для общего обучения роботов. Состоит из модели мира и архитектуры действий, модель мира понимает физические законы взаимодействия робота с окружающей средой, а архитектура действий отвечает за конкретные...
InfiniteTalk - инструмент для создания видео с открытым исходным кодом, управляемый звуком, для Mission Vision AI
InfiniteTalk - это инструмент для создания видео на основе звука, разработанный командой MeiGen-AI, который генерирует разговорные видео неограниченной длины на основе входного аудио. Основным преимуществом является технология точной синхронизации губ, которая идеально согласует звук с формой рта персонажа, создавая естественный и плавный...
ROMA - мета-агентный фреймворк с открытым исходным кодом для автоматической декомпозиции сложных задач для параллельной обработки
ROMA (Recursive-Open-Meta-Agent) - это мета-агентский фреймворк с открытым исходным кодом, разработанный компанией Sentient AGI для эффективного решения сложных задач с помощью рекурсивной декомпозиции задач и параллельной обработки. Поддерживает Python 3.12+, Docker и...
Lumina-DiMOO - мультимодальная большая модель с открытым исходным кодом от Shanghai AI Lab и Huawei Rise
Lumina-DiMOO - это унифицированная модель нового поколения для мультимодального генерирования и понимания, представленная Шанхайской лабораторией искусственного интеллекта (SAL) совместно с Huawei Rise на Всемирной конференции по искусственному интеллекту 2025. Основанная на базовой аппаратно-программной платформе Rise AI и наборе мультимодальных больших моделей MindSpeed MM, она завершает...
Hyprnote - инструмент для ведения заметок на конференциях с искусственным интеллектом с открытым исходным кодом
Hyprnote - это инструмент для ведения заметок на совещаниях с открытым исходным кодом и искусственным интеллектом, разработанный для профессионалов с целью защиты конфиденциальности пользователей и повышения эффективности совещаний. В соответствии с принципом "сначала локально" все данные хранятся и обрабатываются на локальном устройстве пользователя, что обеспечивает безопасность данных и поддерживает работу в автономном режиме.