CombatVLA - эффективная модель VLA от Amoy Group
CombatVLA - это инновационная 3D-модель для ролевых игр (ARPG) от команды Future Life Lab из Amoy Group. CombatVLA - это модель видения-лингвистики-действия (VLA), построенная в параметрическом масштабе 3B, которая собирает данные об игроке через трекер движения...
DeepSeek V3.1 - новейшая модель искусственного интеллекта с открытым исходным кодом от DeepSeek
DeepSeek V3.1 - новое поколение моделей искусственного интеллекта, представленное компанией DeepSeek, с важными обновлениями по сравнению с предшественником V3. DeepSeek V3.1 представляет гибридную архитектуру рассуждений, которая позволяет модели гибко переключаться между режимами мышления и не-мышления, значительно улучшая...
Qwen-Image-Edit - модель редактирования изображений с открытым исходным кодом от Ali Tongyi
Qwen-Image-Edit - это универсальная модель редактирования изображений, представленная Али Тонги, построенная на архитектуре Qwen-Image с 20 миллиардами параметров. Модель сочетает в себе возможности семантического редактирования и редактирования внешнего вида и может выполнять низкоуровневое визуальное редактирование внешнего вида изображений (например, добавлять, удалять...
MoE-TTS - новейший фреймворк для генерации речи от KunlunWei
MoE-TTS - это система синтеза речи, представленная компанией KunlunWanwei, основанная на архитектуре Mixed Expert (MoE), которая объединяет предварительно обученные большие языковые модели (LLM) с речевыми экспертными модулями. MoE-TTS сохраняет мощные текстовые рассуждения, замораживая параметры текстовых модулей и обновляя только параметры речевых модулей...
Mureka V7.5 - усовершенствованные модели создания музыки с искусственным интеллектом от Quintessence
Mureka V7.5 - это современная модель генерации музыки с помощью искусственного интеллекта от Kunlun World Wide, ориентированная на создание китайских песен. Модель точно воспроизводит тембр и технику игры для создания естественного, плавного и эмоционального вокала. Основанная на оптимизированной технологии автоматического распознавания речи (ASR), Mureka V...
Skywork Deep Research Agent v2 - обновленная версия разведчика глубоких исследований от Kunlun
Skywork Deep Research Agent v2 - это интеллектуальный орган для глубоких исследований, созданный компанией Kunlun Wave и ориентированный на интеграцию и анализ мультимодальной информации. Skywork Deep Research Agent v2 может обрабатывать текст, граф...
Hunyuan-GameCraft - фреймворк с открытым исходным кодом от Tencent Hunyuan для создания интерактивного видео для игр нового поколения.
Hunyuan-GameCraft является открытым исходным кодом Tencent Hunyuan команды интерактивных игр видео генерации рамки. Фреймворк из одной картинки и подсказок генерирует высокодинамичное игровое видео, поддерживая пользователя с помощью клавиатуры и мыши для управления видеоконтентом в реальном времени.
Skywork UniPic 2.0 - эффективное мультимодальное моделирование с открытым исходным кодом от KunlunWanwei
Skywork UniPic 2.0 - это эффективная мультимодальная модель с открытым исходным кодом от Quintessence, ориентированная на создание, редактирование и понимание изображений. Модель основана на 2B-параметрической архитектуре SD3.5-Medium и реализуется с помощью предварительного обучения, прогрессивной стратегии двухзадачного усиления и совместного обучения...
RynnRCP - первый контекстный протокол для робототехники с открытым исходным кодом от Института Али Дхарма
RynnRCP - это протокол контекста робота (RCP) с открытым исходным кодом от Ali Dharma Institute, который снижает порог для разработки встроенного интеллекта и открывает весь процесс разработки.RynnRCP состоит из фреймворка RCP и модуля RobotMotion.Фреймворк RCP, благодаря абстрагированию возможностей и поддержке нескольких протоколов,...
RynnEC - модель понимания мира с открытым исходным кодом Института Али Дхармы
RynnEC - это модель понимания мира, представленная Alibaba Dharma Institute и ориентированная на задачи воплощенного интеллекта. Модель основана на технологии мультимодального слияния, объединяющей видеоданные и естественный язык, и может анализировать объекты в сцене по нескольким измерениям, поддерживая такие функции, как понимание объектов, пространственное восприятие и сегментация видеоцелей.