UnifoLM-WMA-0 - Yushu Technology Open Source World Model Action Architecture
UnifoLM-WMA-0 - это архитектура модели мира и действий с открытым исходным кодом для нескольких классов онтологий роботов от компании Yu Shu Technology, предназначенная для общего обучения роботов. Состоит из модели мира и архитектуры действий, модель мира понимает физические законы взаимодействия робота с окружающей средой, а архитектура действий отвечает за конкретные...
InfiniteTalk - инструмент для создания видео с открытым исходным кодом, управляемый звуком, для Mission Vision AI
InfiniteTalk - это инструмент для создания видео на основе звука, разработанный командой MeiGen-AI, который генерирует разговорные видео неограниченной длины на основе входного аудио. Основным преимуществом является технология точной синхронизации губ, которая идеально согласует звук с формой рта персонажа, создавая естественный и плавный...
ROMA - мета-агентный фреймворк с открытым исходным кодом для автоматической декомпозиции сложных задач для параллельной обработки
ROMA (Recursive-Open-Meta-Agent) - это мета-агентский фреймворк с открытым исходным кодом, разработанный компанией Sentient AGI для эффективного решения сложных задач с помощью рекурсивной декомпозиции задач и параллельной обработки. Поддерживает Python 3.12+, Docker и...
Lumina-DiMOO - мультимодальная большая модель с открытым исходным кодом от Shanghai AI Lab и Huawei Rise
Lumina-DiMOO - это унифицированная модель нового поколения для мультимодального генерирования и понимания, представленная Шанхайской лабораторией искусственного интеллекта (SAL) совместно с Huawei Rise на Всемирной конференции по искусственному интеллекту 2025. Основанная на базовой аппаратно-программной платформе Rise AI и наборе мультимодальных больших моделей MindSpeed MM, она завершает...
Hyprnote - инструмент для ведения заметок на конференциях с искусственным интеллектом с открытым исходным кодом
Hyprnote - это инструмент для ведения заметок на совещаниях с открытым исходным кодом и искусственным интеллектом, разработанный для профессионалов с целью защиты конфиденциальности пользователей и повышения эффективности совещаний. В соответствии с принципом "сначала локально" все данные хранятся и обрабатываются на локальном устройстве пользователя, что обеспечивает безопасность данных и поддерживает работу в автономном режиме.
MobileLLM-R1 - серия специализированных эффективных моделей вывода с открытым исходным кодом Meta
MobileLLM-R1 - это серия эффективных моделей вывода с открытым исходным кодом от Meta, предназначенная для математических, программистских и научных рассуждений. Она содержит базовую и конечную модели, с версиями 140 миллионов, 360 миллионов и 950 миллионов параметров соответственно. Модели не являются типовыми моделями чатов и имеют тонкую настройку под наблюдением (SFT...
ERNIE-4.5-21B-A3B-Thinking - модель мышления с открытым исходным кодом Baidu
ERNIE-4.5-21B-A3B-Thinking - это крупномасштабная языковая модель Baidu с открытым исходным кодом, ориентированная на задачи рассуждения. Используя архитектуру Mixed Expert (MoE), общее количество ссылок достигает 21 миллиарда, каждая лексема активирует 3 миллиарда параметров для поддержки 128K длинного контекстного окна ...
MobiAgent - открытый фреймворк для создания полного стека мобильных интеллектуальных тел, разработанный Шанхайским университетом Цзяотун
MobiAgent - это инструментарий мобильного интеллектуального тела с открытым исходным кодом от IPADS Lab Шанхайского университета Цзяотун, который помогает пользователям создавать собственные мобильные интеллектуальные помощники. Записывая траекторию движения пользователя и генерируя высококачественные данные, он обучает интеллектуальные тела, способные понимать команды на естественном языке. Среди основных функций - эффективная...
ZipVoice - семейство моделей Xiaomi с открытым исходным кодом для синтеза речи
ZipVoice - это серия моделей синтеза речи (TTS) на основе архитектуры Flow Matching, выпущенная компанией Xiaomi, включая ZipVoice (модель синтеза речи с нулевой выборкой для одного диктора) и ZipVoice-Dialog (модель синтеза речи с нулевой выборкой для диалога...
PP-OCRv5 - модель ИИ с открытым исходным кодом от Baidu для распознавания текста нового поколения
PP-OCRv5 - это последнее поколение модели ИИ для распознавания текста, выпущенное компанией Baidu. Благодаря облегченной конструкции и объему памяти всего 0,07 ББ она подходит для эффективной работы на центральных процессорах и пограничных устройствах и может обрабатывать более 370 символов в секунду. Модель поддерживает упрощенный китайский, традиционный китайский, английский, японский и пиньинь...









