Последние ресурсы по искусственному интеллекту

共 2916 篇文章
混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型

Mixed Motion 1.0 - Команда Tencent Mixed Motion с открытым исходным кодом для генерации текстовых 3D-моделей движения

Hybrid Motion1.0 (HY-Motion1.0) является открытым исходным кодом Tencent Hybrid команды текст генерируется 3D модель действий, используя 1 миллиард параметров Diffusion Transformer архитектуры, может быть непосредственно генерируется через естественный язык описания высококачественной 3D анимации персонажа.
1 неделя назад
016.3K
Yume1.5 - 上海AI Lab联合复旦大学开源的交互式世界生成模型

Yume1.5 - интерактивная модель генерации мира с открытым исходным кодом от Шанхайской лаборатории искусственного интеллекта и Фуданьского университета

Yume 1.5 - это интерактивная модель генерации мира с открытым исходным кодом, разработанная совместно Шанхайской лабораторией искусственного интеллекта, Фуданьским университетом и Шанхайским инновационным исследовательским институтом, способная осуществлять интерактивный рендеринг в реальном времени (12 кадров в секунду на одной карте). В ней используется технология совместного пространственно-временного моделирования каналов (TSCM), даже если длина контекста увеличивается...
1 неделя назад
010.6K
AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统

AutoMV - M-A-P - бесплатная система генерации музыкального видео с открытым исходным кодом, созданная совместно с Beipiao, NU и другими.

AutoMV - это система генерации музыкальных видеоклипов с открытым исходным кодом, разработанная командой M-A-P в сотрудничестве с несколькими университетами, которая может автоматически генерировать последовательные музыкальные видеоклипы на основе полных песен без обучения. Она использует многоинтеллектуальную совместную модель, включающую модули анализа музыки, написания сценария, режиссуры и контроля качества, и может точно анализировать тексты, ритмы...
1 неделя назад
012.4K
Tencent-HY-MT1.5 - 腾讯混元开源的翻译模型系列

Tencent-HY-MT1.5 - Серия гибридных моделей перевода с открытым исходным кодом Tencent

Tencent-HY-MT1.5 - это гибридная модель перевода Tencent с открытым исходным кодом версии 1.5, включающая две модели 1.8B и 7B, поддерживающая 33 международных языка и 5 видов китайского и китайско-диалектного перевода.Модель 1.8B специально оптимизирована для мобильных телефонов и других устройств потребительского класса, только 1 ГБ оперативной памяти может быть достигнуто на конечной стороне...
1 неделя назад
016.5K
PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架

PersonaLive - Университет Макао и другие открытые источники для создания портретной анимации в реальном времени с помощью ИИ.

PersonaLive - это фреймворк для прямых трансляций с открытым исходным кодом с искусственным интеллектом в реальном времени, разработанный совместно Университетом Макао, dzine.ai и лабораторией GVC при Университете Большого залива. Он позволяет добиться низких задержек и высокой частоты смены кадров на обычных видеокартах потребительского класса (12 ГБ видеопамяти), а также поддерживает работу в режиме реального времени через камеру...
1 неделя назад
011.4K
Computer Use Preview - Google开源的AI浏览器自动化工具

Computer Use Preview - инструмент автоматизации браузера с открытым исходным кодом AI от Google

Computer Use Preview - это инструмент автоматизации браузера Google с открытым исходным кодом AI, основанный на модели Gemini, с помощью команд естественного языка для достижения взаимодействия с веб-страницами. Используя "снимок экрана → анализ → выполнение" процесса визуального распознавания, поддержка Playwrigh...
1 неделя назад
013.6K
ClipSketch AI - 开源的AI视频转手绘分镜工具,支持B站、小红书

ClipSketch AI - инструмент с открытым исходным кодом для преобразования видео в нарисованное от руки с разделенным экраном, поддержка станции B, маленькая красная книга

ClipSketch AI - это инструмент с открытым исходным кодом, предназначенный для создания коротких видеороликов. Он может конвертировать видео с B station, Xiaohongshu и других платформ в нарисованные от руки раскадровки в один клик, поддерживает маркировку ключевых кадров, автоматическое создание субсцен и социальных копий, а также может интегрировать определенные пользователем роли.
1 неделя назад
014K
MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型

MAI-UI - Открытая универсальная графическая модель тела с интеллектуальным интерфейсом от Ali Tongyi Labs

MAI-UI - это универсальная базовая модель интеллектуального тела с открытым исходным кодом от Alibaba Tongyi Labs, обладающая четырьмя основными возможностями: работа с кросс-приложениями, нечеткое семантическое понимание, активное взаимодействие с пользователем и многоступенчатая координация процессов. Применяя архитектуру взаимодействия "конец-облако", легкая модель размещается в устройстве для решения повседневных задач, а сложные задачи могут вызывать облачные...
1 неделя назад
015.9K
MiniMax M2.1 - MiniMax开源的编码和代理模型

MiniMax M2.1 - MiniMax с открытым исходным кодом и модели агентов

MiniMax M2.1 - это модель кодирования и агентов MiniMax с открытым исходным кодом, 10 миллиардами активаций и поддержкой многих основных языков программирования, таких как Rust, Java, Golang, C++, Kotlin, Objective-C, TypeS...
2 недели назад
08.8K
InstanceAssemble - 小红书联合复旦大学开源的布局控制生成技术

InstanceAssemble - технология генерации управления компоновкой с открытым исходным кодом от Little Red Book и Фуданьского университета

InstanceAssemble - это технология генерации управляющих макетов, совместно созданная Xiaohongshu и Фуданьским университетом, которая обеспечивает точную генерацию изображений от простых до сложных и от разреженных до плотных макетов с помощью механизма "Instance Assemble Attention". Применяется двухступенчатая каскадная архитектура, сначала в фон изображения, а затем по очереди ...
2 недели назад
07.2K
Zen Browser - 基于Firefox内核的开源AI网页浏览器

Zen Browser - веб-браузер с открытым исходным кодом, основанный на ядре Firefox.

Zen Browser - это браузер с открытым исходным кодом, основанный на ядре Firefox и ориентированный на простой и эффективный просмотр веб-страниц, с такими основными функциями, как вертикальная панель вкладок и изоляция рабочего пространства. Благодаря боковой панели он может четко отображать полный заголовок 50+ вкладок и поддерживать многооконный просмотр с разделенным экраном.
2 недели назад
012.2K
QwenLong-L1.5 - 阿里通义实验室开源的长文本推理模型

QwenLong-L1.5 - модель вывода длинных текстов с открытым исходным кодом лаборатории Али Тонги

QwenLong-L1.5 - это модель вывода длинных текстов с открытым исходным кодом от Alibaba Tongyi Lab, ориентированная на решение сложных задач вывода со сверхдлинными контекстами (например, 1M-4M лексем). Основной прорыв заключается в трех основных инновациях на этапе пост-обучения: с помощью графа знаний, синтаксического анализа SQL и мультиинтеллектуального...
2 недели назад
011.5K
Infographic - 阿里AntV团队开源的信息图生成框架

Инфографика - фреймворк для создания инфографики с открытым исходным кодом от команды Ali AntV

Infographic - это новое поколение открытого исходного кода команды Ali AntV, основанного на G2 и разработке Ant Design, ориентированного на быстрое создание высококачественной инфографики, предоставляющего 30 + шаблонов макетов, 120 + предустановленных тем и интеллектуальные возможности генерации AI.
2 недели назад
010.6K
opcode - 专为Claude Code设计的开源图形化桌面应用

opcode - графическое настольное приложение с открытым исходным кодом, разработанное для Claude Code

opcode предназначен для графического настольного приложения Claude Code с открытым исходным кодом, разработчик winfunc на основе Tauri 2 + React 18 + Rust разработки. Предоставляет визуальный интерфейс для управления проектами Claude Code, поддержку создания ...
2 недели назад
012.1K
TurboDiffusion - 生数科技联合清华等开源的视频生成加速框架

TurboDiffusion - фреймворк ускорения генерации видео с открытым исходным кодом от Raw Digital Technology, Tsinghua и других компаний.

TurboDiffusion - это фреймворк для ускорения генерации видео, созданный совместно Университетом Цинхуа, BioDigital Technology и Калифорнийским университетом в Беркли, который способен повысить скорость генерации видео в 100-200 раз при сохранении качества изображения практически без потерь. Благодаря разреженному линейному вниманию, пошаговой дистилляции образцов и 8-битному...
2 недели назад
015K
MedASR - 谷歌开源的医疗语音识别模型

MedASR - модель распознавания медицинской речи с открытым исходным кодом от Google

MedASR - это модель распознавания медицинской речи с 105 миллионами параметров, открытая компанией Google, отлаженная на 5000-часовом десенсибилизированном клиническом корпусе, оптимизированная для терминологии лекарств, дозировок и анатомической терминологии, со встроенной 6-граммовой моделью медицинского языка и коэффициентом ошибок в словах всего 4,6 на частном наборе данных по радиологии RAD-DICT...
2 недели назад
010.7K
Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型

Fun-Audio-Chat-8B - макромодель сквозного речевого взаимодействия с открытым исходным кодом от Али Тонги

Fun-Audio-Chat-8B - это модель сквозной речи с открытым исходным кодом на 8 миллиардов параметров, разработанная командой Ali Tongyi. Прямая речь в речи, без необходимости сращивания ASR+LLM+TTS, двуязычная, свободно говорящая на китайском и английском языках, с низкой задержкой и естественным тембром. Использование общего LLM двойного разрешения с частотой 25 Гц...
2 недели назад
011.1K
PromptFill - 开源的结构化提示词生成AI工具,专为AI绘画设计

PromptFill - ИИ-инструмент с открытым исходным кодом для создания структурированных слов, предназначенный для рисования ИИ.

PromptFill - это инструмент структурированной генерации подсказок, предназначенный для рисования ИИ, который помогает пользователям быстро создавать, управлять и повторять сложные подсказки через визуальное взаимодействие "заполни пустое место", повышая эффективность и качество генерации изображений ИИ.Основные возможности PromptFill...
2 недели назад
010.7K
GLM-4.7 - 智谱AI开源的最新一代旗舰大模型

GLM-4.7 - последнее поколение флагманских больших моделей Wisdom Spectrum AI Open Source

GLM-4.7 - это последнее поколение флагманской модели Grand Model, выпущенной и выложенной в открытый доступ компанией Smart Spectrum AI, которая глубоко оптимизирована для программирования ИИ, сложных рассуждений и задач интеллектуального тела. Модель поддерживает длину контекста 200k и максимальный выход 128k, имеет многоязыковое кодирование, возможности долгосрочного планирования задач и совместной работы с инструментами...
2 недели назад
019.8K
NitroGen - 英伟达联合斯坦福大学、加州理工等开源的游戏AI模型

NitroGen - модель игрового ИИ с открытым исходным кодом от NVIDIA в сотрудничестве со Стэнфордом, Калифорнийским технологическим институтом и другими.

NitroGen - это модель игрового ИИ с открытым исходным кодом, разработанная NVIDIA совместно со Стэнфордским университетом, Калифорнийским технологическим институтом и другими учреждениями, способная играть в более чем 1000 различных типов игр. Модель основана на архитектуре GROOT N1.5 и достигается путем анализа 40 000 часов игровых видеоданных (включая аннотацию операций с джойстиком)...
3 недели назад
016.1K
Qwen-Image-Layered - 阿里团队开源的AI图像编辑模型

Qwen-Image-Layered - модель редактирования изображений с искусственным интеллектом, открытая командой Ali

Qwen-Image-Layered - это модель редактирования изображений с открытым исходным кодом от команды Ali, которая интеллектуально разбивает обычные изображения на независимые прозрачные слои для достижения точности редактирования, подобной Photoshop. Модель имеет открытый исходный код по протоколу Apache 2.0 и поддерживает гибкое управление слоями...
3 недели назад
018.1K
VTP - MiniMax海螺视频团队开源的视觉生成模型技术

VTP - технология визуального генеративного моделирования с открытым исходным кодом MiniMax Conch Video Team

VTP (Visual Tokenizer Pre-training) - это ключевая технология для визуальных генеративных моделей, предложенная командой MiniMax Conch Video для повышения производительности генеративной системы путем улучшения метода предварительного обучения визуального токенизатора (tokenizer). Традиционный метод...
3 недели назад
013.3K
T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型

T5Gemma 2 - модель кодера-декодера следующего поколения с открытым исходным кодом от Google

T5Gemma 2 - это модель кодера-декодера нового поколения, открытая компанией Google, основанная на архитектуре Gemma 3 и дополненная возможностями мультимодальной обработки и обработки длинных контекстов. Она поддерживает широкий спектр типов данных, включая текст и изображения, и способна обрабатывать очень длинные контексты (до 128 К) при генерации...
3 недели назад
013.9K
FunctionGemma - 谷歌开源专为函数调用优化的轻量级AI模型

FunctionGemma - открытая модель ИИ от Google, оптимизированная для вызова функций

FunctionGemma - это облегченная модель искусственного интеллекта, оптимизированная для вызова функций Google, разработанная на основе базовой модели Gemma 3 с 270 миллионами параметров, которая преобразует естественный язык в исполняемые инструкции API в режиме реального времени на мобильных телефонах, браузерах и других устройствах. Основной особенностью является поддержка локальных офф...
3 недели назад
011.9K
SHARP - 苹果开源的单目视图3D场景合成技术

SHARP - технология создания 3D-сцен с монокулярным обзором с открытым исходным кодом от Apple

SHARP (Sharp Monocular View Synthesis in Less Than a Second) - технология синтеза монокулярного изображения с открытым исходным кодом от Apple. Она позволяет быстро генерировать реалистичное 3D-представление сцены на основе одной фотографии менее чем за секунду...
3 недели назад
013.3K
TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2 - крупномасштабные генеративные 3D-модели с открытым исходным кодом от Microsoft

TRELLIS.2 - это крупномасштабная генеративная 3D-модель Microsoft с открытым исходным кодом и 4 миллиардами параметров, ориентированная на высокоточную генерацию изображений в 3D. Используя инновационную "O-Voxel" разреженную воксельную структуру, может эффективно обрабатывать сложную топологию и резкие особенности, генерировать высококачественную 3D информацию с полным PBR материалом ...
3 недели назад
015.2K
Step-GUI - 阶跃星辰开源的AI Agent系列模型

Step-GUI - Step-Star - модели серии агентов ИИ с открытым исходным кодом

Step-GUI - это серия моделей агентов искусственного интеллекта с открытым исходным кодом от Step-Star, включающая облачную модель Step-GUI, первый протокол MCP для агентов GUI, и первую в отрасли модель Step-GUI Edge с открытым исходным кодом для поддержки развертывания мобильных телефонов.Специализированная...
3 недели назад
017.6K
A2UI - 谷歌开源的Agent驱动型用户交互界面声明式协议

A2UI - декларативный протокол с открытым исходным кодом от Google для интерфейсов взаимодействия с пользователем, управляемых агентами

A2UI (Agent-to-User Interface) - это протокол интерфейса с открытым исходным кодом от Google, который решает проблемы создания сложных интерактивных интерфейсов для агентов искусственного интеллекта. Благодаря декларативному формату JSON, позволяющему агентам ИИ описывать структуру пользовательского интерфейса, клиентские приложения ...
3 недели назад
020.3K
SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio - Мультимодальная модель сегментации аудио с открытым исходным кодом из Meta

SAM Audio - это мультимодальная модель сегментации звука с открытым исходным кодом, представленная компанией Meta для точного выделения произвольных целевых звуков из сложных аудиомиксов. Объединяя текстовые, визуальные и временные сигналы, она обеспечивает гибкую и эффективную обработку звука для таких задач, как редактирование, денуазинг, извлечение звука и...
3 недели назад
012.1K
混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架

Mixed World Model 1.5 - Tencent Mixed Open Source Real-time World Model Generation Framework

Hybrid World Model 1.5 (Tencent HY WorldPlay) - это первый в отрасли фреймворк с открытым исходным кодом для моделирования мира в реальном времени, выпущенный компанией Tencent и охватывающий всю цепочку развертывания данных, обучения и потокового вывода. В основе лежит авторегрессионная диффузионная модель WorldPlay, которая использует Next-F...
3 недели назад
012.1K
Molmo 2 - Ai2开源的多模态视频图像理解模型系列

Molmo 2 - семейство моделей мультимодального понимания видеоизображений с открытым исходным кодом Ai2

Molmo 2 - это мультимодальная модель с открытым исходным кодом, выпущенная Институтом искусственного интеллекта Аллена (Ai2) для улучшения понимания видео и мультиизображений. Включены три варианта: Molmo 2 (8B), Molmo 2 (4B) и Molmo 2-O...
3 недели назад
012.8K
LongCat-Video-Avatar - 美团开源的虚拟人视频生成模型

LongCat-Video-Avatar - модель генерации видео аватаров с открытым исходным кодом Meituan

LongCat-Video-Avatar - это продвинутая модель создания видео на основе звука, построенная на базе LongCat-Video с открытым исходным кодом от Meituan, ориентированная на создание гиперреалистичных, синхронизированных по губам длинных видео с естественной динамикой и последовательной идентичностью.
3 недели назад
015.7K
MiMo-V2-Flash - 小米发布的开源MoE架构大模型

MiMo-V2-Flash - большая модель архитектуры MoE с открытым исходным кодом, выпущенная компанией Xiaomi

MiMo-V2-Flash - это большая модель с открытым исходным кодом на основе архитектуры MoE, выпущенная компанией Xiaomi, с 309 миллиардами общих параметров и 15 миллиардами активных параметров, ориентированная на эффективное рассуждение и применение в интеллектуальном теле. Модель использует гибридную архитектуру внимания и технологию многословного мета-предсказания со скоростью вывода 150 лексем/секунду, в...
3 недели назад
015.7K
Nemotron 3 - 英伟达发布的开源 AI 模型系列

Nemotron 3 - семейство моделей ИИ с открытым исходным кодом, выпущенное NVIDIA

Nemotron 3 - это семейство моделей ИИ с открытым исходным кодом, выпущенных NVIDIA в размерах Nano, Super и Ultra. В Nemotron 3 используется скрытая архитектура MoE, которая значительно повышает эффективность вычислений и снижает операционные расходы. Одна из...
3 недели назад
013.3K
Wan-Move - 阿里通义联合清华等开源的AI视频生成框架

Wan-Move - открытый фреймворк для создания видео с помощью искусственного интеллекта, разработанный Али Тонги совместно с Цинхуа и другими.

Wan-Move - это фреймворк для создания видео с открытым исходным кодом, разработанный совместно Ali Tongyi Labs, Университетом Цинхуа и другими учреждениями, ориентированный на создание высококачественных видеокомпозиций с помощью технологии точного управления движением. Основной технологией является "потенциальное управление траекторией", которое позволяет плавно добавить управление движением на уровне точек к существующей модели "изображение-видео"...
3 недели назад
012.3K
PaCoRe - 阶跃星辰开源的并行协同AI推理框架

PaCoRe - система параллельных совместных рассуждений ИИ с открытым исходным кодом StepStar

PaCoRe (Parallel Coordinated Reasoning) - это инновационная система параллельных совместных рассуждений с открытым исходным кодом от StepFun, использующая механизм параллельного мышления, позволяющий одновременно исследовать решение проблемы с нескольких точек зрения, преодолевая традиционные...
3 недели назад
013K
Banana Slides - 基于Nano Banana Pro模型的开源AI PPT生成工具

Banana Slides - инструмент для создания PPT с открытым исходным кодом на основе искусственного интеллекта, основанный на модели Nano Banana Pro.

Banana Slides - это интеллектуальный генератор PPT с открытым исходным кодом, основанный на модели искусственного интеллекта Nano Banana Pro, который поддерживает быстрое создание профессиональных презентаций с помощью команд на естественном языке. Позволяет пользователям описывать тему в одном предложении (например, "Влияние человека на экосистему"), которое может быть само...
3 недели назад
013.9K
Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型

Kaleido - многосубъектная модель генерации эталонного видео с открытым исходным кодом, созданная Smart Spectrum AI совместно с Университетом Цинхуа и другими организациями.

Kaleido - это модель генерации мультисубъектного эталонного видео с открытым исходным кодом, разработанная совместно Хэфэйским технологическим университетом, Университетом Цинхуа и Smart Spectrum AI. Она генерирует предметно-согласованное видео на основе нескольких опорных изображений, решая недостатки существующих моделей в области многопредметной согласованности и разделения фона.Kaleido генерирует видео с помощью специализированных данных...
4 недели назад
010.8K
Paper2Slides - 香港大学开源的学术论文转为幻灯片AI工具

Paper2Slides - инструменты ИИ для преобразования научных статей в слайды с открытым исходным кодом Университета Гонконга

Paper2Slides - это инструмент искусственного интеллекта с открытым исходным кодом, разработанный лабораторией Data Intelligence Laboratory Гонконгского университета, который одним щелчком мыши преобразует научные статьи в профессиональные слайды или постеры. Используя технологию RAG (Retrieval Augmented Generation), она напрямую анализирует содержимое документа, а не полагается на сетевую информацию, чтобы гарантировать, что созданный PPT будет полностью соответствовать оригиналу...
4 недели назад
011K
RealVideo - 智谱 AI 开源的实时流式视频生成系统

RealVideo - система генерации потокового видео в реальном времени с открытым исходным кодом от Wisdom Spectrum AI

RealVideo - это система генерации потокового видео в реальном времени с открытым исходным кодом от Smart Spectrum AI, которая может быстро генерировать естественные и плавные видеоответы за 2-3 секунды. Пользователи просто загружают фотографию и вводят текст, а система генерирует соответствующий голос и видео, позволяя вести диалог с персонажами ИИ в режиме реального времени...
4 недели назад
010K
OpenScreen - 开源免费的屏幕录制工具,支持Mac和Windows双系统

OpenScreen - бесплатный инструмент записи экрана с открытым исходным кодом для Mac и Windows.

OpenScreen - это бесплатный инструмент для записи экрана с открытым исходным кодом, который предоставляет пользователям простую в использовании и функциональную альтернативу Screen Studio. Она поддерживает Mac и Windows, полностью бесплатна, соответствует протоколу MIT и может использоваться для индивидуальной...
4 недели назад
013.5K
SCAIL - 智谱联合清华开源的影视级角色动画生成框架

SCAIL - открытый фреймворк для создания анимационных персонажей для кино и телевидения от Wisdom spectrum и Tsinghua.

SCAIL (Studio-Grade Character Animation via In-Context Learning) - это система создания анимации персонажей для кино и телевидения, предложенная компанией Smart Spectrum в сотрудничестве с группой профессора Лю Юнцзиня из Университета Цинхуа. Благодаря...
4 недели назад
010.9K
DeepSearchQA - 谷歌开源的AI研究Agent测试基准

DeepSearchQA - эталоны тестирования агентов ИИ с открытым исходным кодом от Google

DeepSearchQA - эталонный тест ИИ-исследователя Google с открытым исходным кодом, предназначенный для оценки производительности интеллекта в сложных многоэтапных задачах запроса. Он состоит из 900 вручную разработанных задач "причинно-следственных цепочек", охватывающих 17 доменов, требующих от ИИ действовать как человек-исследователь и продвигаться по многоступенчатым...
4 недели назад
010.8K
Claude-Mem - 开源Claude Code记忆插件,支持跨会话持久化记忆

Claude-Mem - плагин памяти кода Claude с открытым исходным кодом и поддержкой кросс-сессионной постоянной памяти

Claude-Mem - это плагин с открытым исходным кодом для Claude Code, который решает проблему потери памяти при использовании искусственного интеллекта во время сессий. Он помогает Claude, автоматически фиксируя использование инструментом наблюдений, генерируя семантические резюме и вставляя соответствующий контекст в последующие сессии...
4 недели назад
017K
KoalaQA - 开源的AI售后服务系统,帮企业快速搭建问答平台

KoalaQA - система послепродажного обслуживания с открытым исходным кодом на основе искусственного интеллекта, помогающая компаниям быстро создавать платформы вопросов и ответов

KoalaQA - это интеллектуальная система послепродажного обслуживания с открытым исходным кодом, разработанная командой Chaitin. Основанная на модели искусственного интеллекта, она предоставляет функции искусственного обслуживания клиентов, искусственного поиска и управления базой знаний, чтобы помочь предприятиям быстро создать интеллектуальную платформу вопросов и ответов. Система поддерживает круглосуточное реагирование в режиме реального времени ...
4 недели назад
011.8K
VoxCPM 1.5 - 面壁智能开源的端到端文本到语音模型

VoxCPM 1.5 - Faceted Intelligence с открытым исходным кодом для конечного моделирования преобразования текста в речь

VoxCPM 1.5 - это модель генерации речи с открытым исходным кодом, выпущенная Facade Intelligence, основанная на технологии преобразования текста в речь (TTS) без необходимости использования разделителя, с несколькими нововведениями и улучшениями. Используя сквозную диффузионную авторегрессионную архитектуру, она генерирует непрерывные речевые волны непосредственно из текста, избегая ограничений традиционных методов сегментации...
4 недели назад
015.7K
Mistral Vibe - Mistral AI推出的开源命令行编码助手

Mistral Vibe - помощник по кодированию из командной строки с открытым исходным кодом от Mistral AI

Mistral Vibe - это ассистент командной строки с открытым исходным кодом от Mistral AI, разработанный на основе модели Devstral, который поддерживает взаимодействие на естественном языке для выполнения поиска кода, работы с файлами, контроля версий и других задач. Может автоматически сканировать структуру проекта и статус Git через символ @...
4 недели назад
010.7K
GLM-TTS - 智谱AI推出的开源工业级语音合成系统

GLM-TTS - система синтеза речи промышленного уровня с открытым исходным кодом от Smart Spectrum AI

GLM-TTS - это промышленная система синтеза речи с открытым исходным кодом, обладающая мощными возможностями синтеза речи. Она использует двухэтапную архитектуру генерации: на первом этапе текст преобразуется в последовательности речевых лексем, а на втором - лексемы преобразуются в высококачественный звук. Система поддерживает всего 3 секунды голосовых образцов для завершения аудио...
4 недели назад
012.7K
Devstral 2 - Mistral AI 推出的新一代编程模型家族

Devstral 2 - семейство моделей программирования нового поколения от Mistral AI

Devstral 2 - семейство моделей программирования нового поколения для задач программной инженерии от компании Mistral AI, состоящее из версий Devstral 2 (123B параметров) и Devstral Small 2 (24B параметров).D...
4 недели назад
013.5K
GLM-ASR - 智谱AI开源的高性能语音识别模型系列

GLM-ASR - серия высокопроизводительных моделей распознавания речи с открытым исходным кодом Wisdom Spectrum AI

GLM-ASR - это семейство высокопроизводительных моделей распознавания речи с открытым исходным кодом от Smart Spectrum AI, включающее облачную модель GLM-ASR-2512 и модель GLM-ASR-Nano-2512 с открытым исходным кодом. GLM-ASR-2512 - это ведущая в мире облачная модель распознавания речи, поддерживающая множество...
4 недели назад
016.6K
OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM - модель агента ИИ для мобильных телефонов с открытым исходным кодом от Smart Spectrum AI

OpenAutoGLM - это интеллектуальная модель тела с открытым исходным кодом и возможностью "использования мобильного телефона", которая может понимать содержимое экрана мобильного телефона через мультимодальное восприятие и автоматически генерировать поток операций для выполнения заданных пользователем задач. Пользователям достаточно использовать естественный язык для описания потребностей, например, "открыть Meituan для поиска ближайшего горячего горшка...".
1 месяц назад
018.1K
SurfSense - 开源的AI研究与知识管理工具,NotebookLM最强平替

SurfSense - инструмент для исследования ИИ с открытым исходным кодом и управления знаниями, самый сильный пинто NotebookLM

SurfSense - это инструмент для исследований и управления знаниями с открытым исходным кодом на основе искусственного интеллекта. Обладая широкими возможностями настройки, он может подключаться к поисковым системам, Slack, Jira, Notion, YouTube, GitHub и многим другим внешним источникам данных для облегчения интеграции информации. Пользователи могут загружать различные...
1 месяц назад
012.7K
GLM-4.6V - 智谱AI开源的多模态大语言模型系列

GLM-4.6V - Серия мультимодальных моделей большого языка с открытым исходным кодом Wisdom Spectrum AI

GLM-4.6V - серия мультимодальных больших языковых моделей с открытым исходным кодом от Smart Spectrum AI. Серия содержит две версии: GLM-4.6V (106B-A12B), базовая версия для облачных и высокопроизводительных кластерных сценариев, с архитектурой Mixed Expert (MoE), общим количеством около 106 миллиардов ссылок, и активацией...
1 месяц назад
013.6K
InkSight - Google开源的AI手写识别工具

InkSight - инструмент распознавания рукописного текста с открытым исходным кодом от Google

InkSight - это инструмент распознавания рукописного текста с открытым исходным кодом от Google, который преобразует бумажные рукописные заметки в редактируемые цифровые файлы с чернилами (например, в формат SVG). В отличие от традиционного OCR, он может распознавать содержание текста, восстанавливать стиль почерка, структуру абзацев и ключевые пометки, а также поддерживать многоязыковую обработку.
1 месяц назад
011.1K
NewBie-image-Exp0.1 - NewBieAI-Lab开源的实验性动漫文生图模型

NewBie-image-Exp0.1 - открытый исходный код экспериментальных аниме-графовых моделей NewBieAI-Lab

NewBie-image-Exp0.1 - это первая экспериментальная графическая модель аниме, созданная командой NewBieAI-Lab, с использованием архитектуры Next-DiT с 3,5B параметрами, оптимизированная для вторичного стиля. Модель оптимизирована для вторичного стиля с помощью двойного кодировщика текста (GEMMA3-4B...
1 месяц назад
014.3K
LongCat-Image - 美团LongCat团队开源的图像生成与编辑模型

LongCat-Image - команда LongCat с открытым исходным кодом для создания и редактирования изображений американской группы

LongCat-Image - это модель генерации и редактирования изображений с открытым исходным кодом, выпущенная командой LongCat из Meituan. Используя гибридную магистральную архитектуру (MM-DiT+Single-DiT) в сочетании с условным кодером на основе модели визуального языка (VLM), она способна генерировать изображения с текстом и выполнять несколько раундов редактирования изображений...
1 месяц назад
011.2K
VibeVoice-Realtime - 微软开源的轻量级实时文本转语音模型

VibeVoice-Realtime - открытая модель преобразования текста в речь в реальном времени с открытым исходным кодом от Microsoft

VibeVoice-Realtime - это легкая модель преобразования текста в речь (TTS) с открытым исходным кодом от Microsoft, предназначенная для взаимодействия в реальном времени и с низкой задержкой. Поддерживает потоковый ввод текста, с первого текстового маркера может быть озвучен, задержка составляет всего около 300 мс, подходит для динамического количества ...
1 месяц назад
013.7K
Flowra - 魔搭联合呜哩WULI团队开源的AI工作流开发工具

Flowra - инструмент для разработки рабочих процессов с использованием искусственного интеллекта, открытый командой Magic Hitch и Wooli WULI

Flowra - это ModelScope совместный woo mile WULI команды открытым исходным кодом граф выполнения двигателя и узла пакет инструментов разработки, является основным компонентом FlowBench. Посредством направленного ациклического графа (DAG) организация рабочего процесса, с интеллектуальным кэшированием, параллельным планированием, распределенной поддержкой ...
1 месяц назад
013.9K
RoboCOIN - 智源联合多所高校开源的双臂机器人真机数据集

RoboCOIN - набор данных реальных двуруких роботов, открытый Wisdom Source в сотрудничестве с несколькими университетами.

RoboCOIN - это первый в мире крупномасштабный набор данных реальных машин для двуруких роботов, открытый Пекинским научно-исследовательским институтом искусственного интеллекта Zhiyuan совместно с рядом предприятий, колледжей и университетов. Он содержит 15 типов роботизированных платформ, 180 000 реальных траекторий движения и 421 тип сценариев задач. Главной особенностью является использование иерархической системы аннотирования для разбора задач...
1 месяц назад
011.5K
TalkCody - 免费开源的AI编程桌面助手,支持复杂任务

TalkCody - бесплатный настольный помощник с открытым исходным кодом, программируемый искусственным интеллектом, с поддержкой сложных задач

TalkCody - это бесплатное настольное приложение-помощник программирования AI с открытым исходным кодом, построенное на Rust + Tauri 2, поддерживающее три платформы - Windows, macOS и Linux, имеющее родную производительность, быстрый запуск и низкое потребление ресурсов. Поддержка более 50 основных A...
1 месяц назад
018K
MemMachine - MemVerge推出的开源AI记忆系统

MemMachine - система памяти искусственного интеллекта с открытым исходным кодом от MemVerge

MemMachine - это система памяти ИИ с открытым исходным кодом, разработанная компанией MemVerge, предназначенная для моделей и интеллектов ИИ, которая может хранить и вызывать данные о взаимодействии, как человеческий мозг, решая проблему "потери памяти без статики" ИИ. В ней используется многоуровневая архитектура (кратковременная память, долговременная память, пользовательский образ...
1 месяц назад
018K
PartCrafter - 北大联合字节开源的单图3D生成模型

PartCrafter - NU United Bytes с открытым исходным кодом для создания 3D-модели одной фигуры

PartCrafter - это передовая генеративная 3D-модель, совместно предложенная Пекинским университетом, ByteDance и Университетом Карнеги-Меллон. Она может генерировать несколько семантически явных и геометрически разнообразных 3D-частей сетки из одного RGB-изображения одновременно. Модель моделируется через комбинаторное потенциальное пространство и...
1 месяц назад
013.4K
GigaWorld-0 - 极佳视界开源的世界模型框架

GigaWorld-0 - GigaVision Open Source World Modelling Framework

GigaWorld-0 - это фреймворк модели мира с открытым исходным кодом от отечественного стартапа GigaAI, который в основном используется для решения проблемы узких мест в области эмбодированного интеллекта (Embodied AI). Эффективно генерируя высококачественные, разнообразные и физически реалистичные обучающие данные, толчок...
1 месяц назад
013.6K
Mistral 3 - Mistral AI发布开源的最新多模态大模型系列

Mistral 3 - Mistral AI выпускает новейшую серию мультимодальных больших моделей с открытым исходным кодом

Mistral 3 - это последняя серия мультимодальных больших моделей, выпущенная компанией Mistral AI с открытым исходным кодом. Она состоит из флагманской модели Mistral Large 3 (675B общих параметров) и более легкой версии серии Ministral (3B/8B/14B), обе из которых поддерживают восприятие изображений...
1 месяц назад
012.7K
Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

Vidi2 - мультимодальное понимание видео и генеративное макромоделирование с открытым исходным кодом от ByteHop

Vidi2 - это мультимодальная модель понимания и генерации видео второго поколения, открытая компанией ByteDance, ориентированная на понимание, анализ и создание видеоконтента. Она поддерживает совместный ввод текста, видео и аудио, может одновременно понимать содержимое изображения, звуковую информацию и команды на естественном языке для достижения кросс-модального взаимодействия и...
1 месяц назад
014.3K
Alpamayo-R1 - 英伟达开源的带推理能力的视觉-语言-行动模型

Alpamayo-R1 - открытая модель видения-языка-действия от NVIDIA с возможностями рассуждения

Alpamayo-R1 - это разработанная NVIDIA модель Vision-Language-Action (VLA) с возможностью рассуждений, предназначенная для улучшения способности автономного вождения принимать решения в сложных сценариях. Внедряя механизм рассуждений о причинно-следственных цепочках, автомобиль способен анализировать причинно-следственные связи сценария (например, "из-за предыдущего...
1 месяц назад
021K
Ovis-Image - 阿里AIDC-AI团队开源的文生图模型

Ovis-Image - Графическая модель венчурной деятельности с открытым исходным кодом от команды Ali AIDC-AI

Ovis-Image - это модель графа с 7 миллиардами параметров, созданная командой AIDC-AI из Alibaba International Digital Commerce Group и ориентированная на высококачественную визуализацию текста. Основанная на архитектуре Ovis-U1, она унаследовала передовой визуальный декодер и двунаправленный очиститель токенов...
1 месяц назад
013.9K
悟界·Emu3.5 - 智源研究院开源的多模态世界大模型

Wujie-Emu3.5 - Исследовательский институт Wisdom Source с открытым исходным кодом мультимодальной большой модели мира

Wujie-Emu3.5 - мультимодальная макромодель мира с открытым исходным кодом от Beijing Zhiyuan Artificial Intelligence Research Institute, имеющая 34 миллиарда ссылок и способная моделировать мир. Обученная на 10 триллионах мультимодальных токенов (включая 790 лет видеоданных), она может моделировать законы физики и достигать генерации графики, визуального руководства...
1 месяц назад
014.5K
GELab-Zero - 阶跃团队开源的端侧多模态GUI Agent模型

GELab-Zero - мультимодальная GUI-модель агента с открытым исходным кодом от команды Steps

GELab-Zero - это мультимодальная модель агента GUI с открытым исходным кодом от команды Step Leap, построенная на базовой модели Qwen3-VL-4B-Instruct с параметрами 4B. Она может распознавать элементы пользовательского интерфейса и выполнять такие операции, как нажатие, скольжение и т.д., а также поддерживает кросс-прикладную постановку задач...
1 месяц назад
019K
Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型

Depth Anything 3 - 3D модели визуальной реконструкции с открытым исходным кодом от Bitmap Seed

Depth Anything 3 (DA3) - это модель визуальной 3D-реконструкции, разработанная командой Byte Jump Seed с открытым исходным кодом. Благодаря единой архитектуре трансформеров для достижения пространственной реконструкции геометрии в любой точке обзора, необходимо только предсказать карту глубины и карту лучей, чтобы восстановить 3D-сцену, по сравнению с...
1 месяц назад
021.3K
DeepSeek-Math-V2 - DeepSeek开源的数学推理模型

DeepSeek-Math-V2 - математическая модель рассуждений с открытым исходным кодом DeepSeek

DeepSeek-Math-V2 - это математическая модель рассуждений с открытым исходным кодом от DeepSeek, компании по разработке искусственного интеллекта Phantom Cube. Последняя версия основана на улучшении DeepSeek-V3.2-Exp-Base, по производительности превосходит Gemini DeepThink и достигла международного номера...
1 месяц назад
017.1K
Z-Image - 阿里通义实验室开源的图像生成模型

Z-Image - модель генерации изображений с открытым исходным кодом от Ali Tongyi Labs

Z-Image - это модель генерации изображений с открытым исходным кодом от Ali Tongyi Labs, обладающая эффективными, быстрыми и мощными возможностями генерации изображений. Используя архитектуру однопоточного диффузионного трансформатора (S3-DiT), она объединяет текст, визуальную семантику и маркеры VAE изображений в единый входной поток...
1 месяц назад
028.6K
ROCK - 阿里巴巴开源的智能体训练环境沙箱

ROCK - песочница с открытым исходным кодом Alibaba для интеллектуальной среды тренировки тела

ROCK (Reinforcement Open Construction Kit) - это открытая песочница Alibaba для тренировки интеллекта, которая решает проблему невозможности масштабного обучения интеллекта в реальных условиях. ROCK предоставляет высокостабильный сервис управления песочницей...
1 месяц назад
014.4K
ViMax - 香港大学开源的多智能体视频生成框架

ViMax - мультиинтеллектуальная система генерации видеоизображения тела с открытым исходным кодом в Гонконгском университете

ViMax - это мультиинтеллектуальная система генерации видео с открытым исходным кодом от Лаборатории науки о данных Гонконгского университета, которая может автоматизировать весь процесс от творческого ввода до вывода видео. Интеграция функций генерации сценария, проектирования сцены, планирования съемок и рендеринга видео позволяет пользователям генерировать целостное видео кино- и телевизионного уровня с помощью описания на естественном языке...
1 месяц назад
026K
FLUX.2 - 黑森林开源的图像生成与编辑模型

FLUX.2 - модель генерации и редактирования изображений с открытым исходным кодом Black Forest

FLUX.2 - это модель генерации и редактирования изображений с открытым исходным кодом, выпущенная Black Forest Labs, которая поддерживает текстовые необработанные изображения, ссылки на несколько изображений и редактирование изображений с более богатой детализацией, четкими текстурами и стабильным освещением. Существует четыре версии: FLUX.2 [pro] (сравнима с топовой закрытой...
1 месяц назад
015.1K
Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B - модель компьютерного ассистента Agent с открытым исходным кодом от Microsoft

Fara-7B - это выпущенная Microsoft с открытым исходным кодом модель компьютерно-оперативного агента (CUA) с 7 миллиардами параметров, основанная на архитектуре Qwen 2.5-VL-7B. Благодаря визуальному разбору скриншотов веб-страниц и выполнению кликов, вводов и т. д. на экране, ей не нужно полагаться на дополнительные деревья доступности или многочисленные большие модели...
1 месяц назад
018.9K
HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR - экспертная модель Tencent с открытым исходным кодом для оптического распознавания символов

HunyuanOCR - это высокопроизводительная модель оптического распознавания символов с открытым исходным кодом, созданная гибридной командой Tencent и имеющая всего 1 миллиард ссылок. Разработанная на основе гибридной мультимодальной архитектуры, она имеет сквозной дизайн и может эффективно справляться с задачами обнаружения, распознавания и разбора текста. Модель набрала 94,1 балла в тесте на сложные документы, превзойдя...
1 месяц назад
020.7K
Supertonic - 开源的高性能AI 文本转语音系统,极速离线运行

Supertonic - высокопроизводительная система преобразования текста в речь на основе искусственного интеллекта с открытым исходным кодом, работающая в автономном режиме с бешеной скоростью.

Supertonic - это высокопроизводительная система преобразования текста в речь (TTS) с открытым исходным кодом, ориентированная на быструю генерацию речи на локальных устройствах. Используя технологию ONNX Runtime, она может работать на таких устройствах, как мобильные телефоны, компьютеры и даже Raspberry Pi, поддерживает 23 языка и речевые клоны, и не требует сетевого...
2 месяца назад
016.3K
MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied - модель педалированного интеллекта Xiaomi с открытым исходным кодом для кросс-доменного встраивания

MiMo-Embodied - это первая в мире кросс-эмбодиальная базовая модель, открытая Xiaomi Group, которая успешно объединяет эмбодированный ИИ и автономное вождение. Она решает проблему миграции знаний между воплощенным ИИ и автономным вождением и обеспечивает единое моделирование задач в этих двух областях.
2 месяца назад
020.6K
MOSS-Speech - 复旦大学开源的语音到语音大模型

MOSS-Speech - Большая модель преобразования речи в речь с открытым исходным кодом Фуданьского университета

MOSS-Speech - это большая модель преобразования речи в речь (Speech-to-Speech) с открытым исходным кодом, разработанная командой профессора Цю Сипэна в Фуданьском университете. Она преодолевает традиционную обработку речи, не нуждаясь в текстовых подсказках, и напрямую понимает и генерирует речь, которая может захватывать нетекстовые элементы, такие как интонация и эмоции, делая...
2 месяца назад
015.5K
Parallax - Gradient开源的全球首个全自主AI操作系统

Parallax - первая в мире полностью автономная операционная система с искусственным интеллектом с открытым исходным кодом от Gradient

Parallax - это первая в мире "полностью автономная операционная система ИИ", открытая Gradient, распределенной лабораторией ИИ. Она поддерживает кроссплатформенное развертывание больших моделей на Mac, Windows и других гетерогенных устройствах, позволяя пользователям полностью контролировать модель, данные и память ИИ. В систему встроена сетевая ...
2 месяца назад
032.4K
HunyuanVideo 1.5 - 腾讯混元免费开源的轻量级视频生成模型

HunyuanVideo 1.5 - бесплатная модель генерации видео с открытым исходным кодом Tencent mixed yuan

HunyuanVideo 1.5 является Tencent гибридной большой модели команды открытым исходным кодом легкая модель генерации видео, основанная на Diffusion Transformer (DiT) архитектуры, количество параметров составляет 8,3B. поддержка генерации 5-10 секунд видео высокой четкости, суб...
2 месяца назад
020.1K
Awex - 蚂蚁集团开源的高性能权重交换框架

Awex - фреймворк для высокопроизводительного обмена весом с открытым исходным кодом от Ant Group

Awex - это высокопроизводительный фреймворк с открытым исходным кодом Ant Group, предназначенный для крупномасштабной синхронизации параметров в обучении с подкреплением. Он может выполнять терабайты обмена параметрами за секунды, значительно повышая эффективность обучения и вывода. Awex обладает очень высокой скоростью синхронизации, в кластере с тысячей карт модели с триллионом параметров могут быть завершены за 6 секунд после полного...
2 месяца назад
030.5K
Seekdb - 蚂蚁OceanBase开源的AI原生混合搜索数据库

Seekdb - гибридная поисковая база данных Ant OceanBase с открытым исходным кодом и искусственным интеллектом

Seekdb (OceanBase Seekdb) - это гибридная поисковая база данных Ant OceanBase с открытым исходным кодом AI native, поддерживающая унифицированный гибридный поиск векторных, полнотекстовых, скалярных и геопространственных данных, использующая многоступенчатый механизм поиска, для достижения высокой точности поиска при низкой задержке ...
2 месяца назад
016K