Последние ресурсы по искусственному интеллекту

共 2920 篇文章
混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型

Mixed Motion 1.0 - Команда Tencent Mixed Motion с открытым исходным кодом для генерации текстовых 3D-моделей движения

Hybrid Motion1.0 (HY-Motion1.0) является открытым исходным кодом Tencent Hybrid команды текст генерируется 3D модель действий, используя 1 миллиард параметров Diffusion Transformer архитектуры, может быть непосредственно генерируется через естественный язык описания высококачественной 3D анимации персонажа.
2 недели назад
017.4K
Yume1.5 - 上海AI Lab联合复旦大学开源的交互式世界生成模型

Yume1.5 - интерактивная модель генерации мира с открытым исходным кодом от Шанхайской лаборатории искусственного интеллекта и Фуданьского университета

Yume 1.5 - это интерактивная модель генерации мира с открытым исходным кодом, разработанная совместно Шанхайской лабораторией искусственного интеллекта, Фуданьским университетом и Шанхайским инновационным исследовательским институтом, способная осуществлять интерактивный рендеринг в реальном времени (12 кадров в секунду на одной карте). В ней используется технология совместного пространственно-временного моделирования каналов (TSCM), даже если длина контекста увеличивается...
2 недели назад
011.9K
AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统

AutoMV - M-A-P - бесплатная система генерации музыкального видео с открытым исходным кодом, созданная совместно с Beipiao, NU и другими.

AutoMV - это система генерации музыкальных видеоклипов с открытым исходным кодом, разработанная командой M-A-P в сотрудничестве с несколькими университетами, которая может автоматически генерировать последовательные музыкальные видеоклипы на основе полных песен без обучения. Она использует многоинтеллектуальную совместную модель, включающую модули анализа музыки, написания сценария, режиссуры и контроля качества, и может точно анализировать тексты, ритмы...
2 недели назад
013.3K
Tencent-HY-MT1.5 - 腾讯混元开源的翻译模型系列

Tencent-HY-MT1.5 - Серия гибридных моделей перевода с открытым исходным кодом Tencent

Tencent-HY-MT1.5 - это гибридная модель перевода Tencent с открытым исходным кодом версии 1.5, включающая две модели 1.8B и 7B, поддерживающая 33 международных языка и 5 видов китайского и китайско-диалектного перевода.Модель 1.8B специально оптимизирована для мобильных телефонов и других устройств потребительского класса, только 1 ГБ оперативной памяти может быть достигнуто на конечной стороне...
2 недели назад
017.6K
PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架

PersonaLive - Университет Макао и другие открытые источники для создания портретной анимации в реальном времени с помощью ИИ.

PersonaLive - это фреймворк для прямых трансляций с открытым исходным кодом с искусственным интеллектом в реальном времени, разработанный совместно Университетом Макао, dzine.ai и лабораторией GVC при Университете Большого залива. Он позволяет добиться низких задержек и высокой частоты смены кадров на обычных видеокартах потребительского класса (12 ГБ видеопамяти), а также поддерживает работу в режиме реального времени через камеру...
2 недели назад
012K
Computer Use Preview - Google开源的AI浏览器自动化工具

Computer Use Preview - инструмент автоматизации браузера с открытым исходным кодом AI от Google

Computer Use Preview - это инструмент автоматизации браузера Google с открытым исходным кодом AI, основанный на модели Gemini, с помощью команд естественного языка для достижения взаимодействия с веб-страницами. Используя "снимок экрана → анализ → выполнение" процесса визуального распознавания, поддержка Playwrigh...
2 недели назад
014.2K
ClipSketch AI - 开源的AI视频转手绘分镜工具,支持B站、小红书

ClipSketch AI - инструмент с открытым исходным кодом для преобразования видео в нарисованное от руки с разделенным экраном, поддержка станции B, маленькая красная книга

ClipSketch AI - это инструмент с открытым исходным кодом, предназначенный для создания коротких видеороликов. Он может конвертировать видео с B station, Xiaohongshu и других платформ в нарисованные от руки раскадровки в один клик, поддерживает маркировку ключевых кадров, автоматическое создание субсцен и социальных копий, а также может интегрировать определенные пользователем роли.
2 недели назад
015.4K
MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型

MAI-UI - Открытая универсальная графическая модель тела с интеллектуальным интерфейсом от Ali Tongyi Labs

MAI-UI - это универсальная базовая модель интеллектуального тела с открытым исходным кодом от Alibaba Tongyi Labs, обладающая четырьмя основными возможностями: работа с кросс-приложениями, нечеткое семантическое понимание, активное взаимодействие с пользователем и многоступенчатая координация процессов. Применяя архитектуру взаимодействия "конец-облако", легкая модель размещается в устройстве для решения повседневных задач, а сложные задачи могут вызывать облачные...
2 недели назад
018.2K
MiniMax M2.1 - MiniMax开源的编码和代理模型

MiniMax M2.1 - MiniMax с открытым исходным кодом и модели агентов

MiniMax M2.1 - это модель кодирования и агентов MiniMax с открытым исходным кодом, 10 миллиардами активаций и поддержкой многих основных языков программирования, таких как Rust, Java, Golang, C++, Kotlin, Objective-C, TypeS...
2 недели назад
09.2K
InstanceAssemble - 小红书联合复旦大学开源的布局控制生成技术

InstanceAssemble - технология генерации управления компоновкой с открытым исходным кодом от Little Red Book и Фуданьского университета

InstanceAssemble - это технология генерации управляющих макетов, совместно созданная Xiaohongshu и Фуданьским университетом, которая обеспечивает точную генерацию изображений от простых до сложных и от разреженных до плотных макетов с помощью механизма "Instance Assemble Attention". Применяется двухступенчатая каскадная архитектура, сначала в фон изображения, а затем по очереди ...
2 недели назад
07.8K
Zen Browser - 基于Firefox内核的开源AI网页浏览器

Zen Browser - веб-браузер с открытым исходным кодом, основанный на ядре Firefox.

Zen Browser - это браузер с открытым исходным кодом, основанный на ядре Firefox и ориентированный на простой и эффективный просмотр веб-страниц, с такими основными функциями, как вертикальная панель вкладок и изоляция рабочего пространства. Благодаря боковой панели он может четко отображать полный заголовок 50+ вкладок и поддерживать многооконный просмотр с разделенным экраном.
2 недели назад
013.1K
QwenLong-L1.5 - 阿里通义实验室开源的长文本推理模型

QwenLong-L1.5 - модель вывода длинных текстов с открытым исходным кодом лаборатории Али Тонги

QwenLong-L1.5 - это модель вывода длинных текстов с открытым исходным кодом от Alibaba Tongyi Lab, ориентированная на решение сложных задач вывода со сверхдлинными контекстами (например, 1M-4M лексем). Основной прорыв заключается в трех основных инновациях на этапе пост-обучения: с помощью графа знаний, синтаксического анализа SQL и мультиинтеллектуального...
2 недели назад
012.3K
Infographic - 阿里AntV团队开源的信息图生成框架

Инфографика - фреймворк для создания инфографики с открытым исходным кодом от команды Ali AntV

Infographic - это новое поколение открытого исходного кода команды Ali AntV, основанного на G2 и разработке Ant Design, ориентированного на быстрое создание высококачественной инфографики, предоставляющего 30 + шаблонов макетов, 120 + предустановленных тем и интеллектуальные возможности генерации AI.
2 недели назад
012K
opcode - 专为Claude Code设计的开源图形化桌面应用

opcode - графическое настольное приложение с открытым исходным кодом, разработанное для Claude Code

opcode предназначен для графического настольного приложения Claude Code с открытым исходным кодом, разработчик winfunc на основе Tauri 2 + React 18 + Rust разработки. Предоставляет визуальный интерфейс для управления проектами Claude Code, поддержку создания ...
3 недели назад
013.2K
TurboDiffusion - 生数科技联合清华等开源的视频生成加速框架

TurboDiffusion - фреймворк ускорения генерации видео с открытым исходным кодом от Raw Digital Technology, Tsinghua и других компаний.

TurboDiffusion - это фреймворк для ускорения генерации видео, созданный совместно Университетом Цинхуа, BioDigital Technology и Калифорнийским университетом в Беркли, который способен повысить скорость генерации видео в 100-200 раз при сохранении качества изображения практически без потерь. Благодаря разреженному линейному вниманию, пошаговой дистилляции образцов и 8-битному...
3 недели назад
015.6K
MedASR - 谷歌开源的医疗语音识别模型

MedASR - модель распознавания медицинской речи с открытым исходным кодом от Google

MedASR - это модель распознавания медицинской речи с 105 миллионами параметров, открытая компанией Google, отлаженная на 5000-часовом десенсибилизированном клиническом корпусе, оптимизированная для терминологии лекарств, дозировок и анатомической терминологии, со встроенной 6-граммовой моделью медицинского языка и коэффициентом ошибок в словах всего 4,6 на частном наборе данных по радиологии RAD-DICT...
3 недели назад
011.4K
Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型

Fun-Audio-Chat-8B - макромодель сквозного речевого взаимодействия с открытым исходным кодом от Али Тонги

Fun-Audio-Chat-8B - это модель сквозной речи с открытым исходным кодом на 8 миллиардов параметров, разработанная командой Ali Tongyi. Прямая речь в речи, без необходимости сращивания ASR+LLM+TTS, двуязычная, свободно говорящая на китайском и английском языках, с низкой задержкой и естественным тембром. Использование общего LLM двойного разрешения с частотой 25 Гц...
3 недели назад
012K
PromptFill - 开源的结构化提示词生成AI工具,专为AI绘画设计

PromptFill - ИИ-инструмент с открытым исходным кодом для создания структурированных слов, предназначенный для рисования ИИ.

PromptFill - это инструмент структурированной генерации подсказок, предназначенный для рисования ИИ, который помогает пользователям быстро создавать, управлять и повторять сложные подсказки через визуальное взаимодействие "заполни пустое место", повышая эффективность и качество генерации изображений ИИ.Основные возможности PromptFill...
3 недели назад
011.5K
GLM-4.7 - 智谱AI开源的最新一代旗舰大模型

GLM-4.7 - последнее поколение флагманских больших моделей Wisdom Spectrum AI Open Source

GLM-4.7 - это последнее поколение флагманской модели Grand Model, выпущенной и выложенной в открытый доступ компанией Smart Spectrum AI, которая глубоко оптимизирована для программирования ИИ, сложных рассуждений и задач интеллектуального тела. Модель поддерживает длину контекста 200k и максимальный выход 128k, имеет многоязыковое кодирование, возможности долгосрочного планирования задач и совместной работы с инструментами...
3 недели назад
020.4K
NitroGen - 英伟达联合斯坦福大学、加州理工等开源的游戏AI模型

NitroGen - модель игрового ИИ с открытым исходным кодом от NVIDIA в сотрудничестве со Стэнфордом, Калифорнийским технологическим институтом и другими.

NitroGen - это модель игрового ИИ с открытым исходным кодом, разработанная NVIDIA совместно со Стэнфордским университетом, Калифорнийским технологическим институтом и другими учреждениями, способная играть в более чем 1000 различных типов игр. Модель основана на архитектуре GROOT N1.5 и достигается путем анализа 40 000 часов игровых видеоданных (включая аннотацию операций с джойстиком)...
3 недели назад
016.8K
Qwen-Image-Layered - 阿里团队开源的AI图像编辑模型

Qwen-Image-Layered - модель редактирования изображений с искусственным интеллектом, открытая командой Ali

Qwen-Image-Layered - это модель редактирования изображений с открытым исходным кодом от команды Ali, которая интеллектуально разбивает обычные изображения на независимые прозрачные слои для достижения точности редактирования, подобной Photoshop. Модель имеет открытый исходный код по протоколу Apache 2.0 и поддерживает гибкое управление слоями...
3 недели назад
018.9K
VTP - MiniMax海螺视频团队开源的视觉生成模型技术

VTP - технология визуального генеративного моделирования с открытым исходным кодом MiniMax Conch Video Team

VTP (Visual Tokenizer Pre-training) - это ключевая технология для визуальных генеративных моделей, предложенная командой MiniMax Conch Video для повышения производительности генеративной системы путем улучшения метода предварительного обучения визуального токенизатора (tokenizer). Традиционный метод...
3 недели назад
014.2K
T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型

T5Gemma 2 - модель кодера-декодера следующего поколения с открытым исходным кодом от Google

T5Gemma 2 - это модель кодера-декодера нового поколения, открытая компанией Google, основанная на архитектуре Gemma 3 и дополненная возможностями мультимодальной обработки и обработки длинных контекстов. Она поддерживает широкий спектр типов данных, включая текст и изображения, и способна обрабатывать очень длинные контексты (до 128 К) при генерации...
3 недели назад
014.4K
FunctionGemma - 谷歌开源专为函数调用优化的轻量级AI模型

FunctionGemma - открытая модель ИИ от Google, оптимизированная для вызова функций

FunctionGemma - это облегченная модель искусственного интеллекта, оптимизированная для вызова функций Google, разработанная на основе базовой модели Gemma 3 с 270 миллионами параметров, которая преобразует естественный язык в исполняемые инструкции API в режиме реального времени на мобильных телефонах, браузерах и других устройствах. Основной особенностью является поддержка локальных офф...
3 недели назад
013.1K
SHARP - 苹果开源的单目视图3D场景合成技术

SHARP - технология создания 3D-сцен с монокулярным обзором с открытым исходным кодом от Apple

SHARP (Sharp Monocular View Synthesis in Less Than a Second) - технология синтеза монокулярного изображения с открытым исходным кодом от Apple. Она позволяет быстро генерировать реалистичное 3D-представление сцены на основе одной фотографии менее чем за секунду...
3 недели назад
014K
TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2 - крупномасштабные генеративные 3D-модели с открытым исходным кодом от Microsoft

TRELLIS.2 - это крупномасштабная генеративная 3D-модель Microsoft с открытым исходным кодом и 4 миллиардами параметров, ориентированная на высокоточную генерацию изображений в 3D. Используя инновационную "O-Voxel" разреженную воксельную структуру, может эффективно обрабатывать сложную топологию и резкие особенности, генерировать высококачественную 3D информацию с полным PBR материалом ...
3 недели назад
016.3K
Step-GUI - 阶跃星辰开源的AI Agent系列模型

Step-GUI - Step-Star - модели серии агентов ИИ с открытым исходным кодом

Step-GUI - это серия моделей агентов искусственного интеллекта с открытым исходным кодом от Step-Star, включающая облачную модель Step-GUI, первый протокол MCP для агентов GUI, и первую в отрасли модель Step-GUI Edge с открытым исходным кодом для поддержки развертывания мобильных телефонов.Специализированная...
4 недели назад
018.5K
A2UI - 谷歌开源的Agent驱动型用户交互界面声明式协议

A2UI - декларативный протокол с открытым исходным кодом от Google для интерфейсов взаимодействия с пользователем, управляемых агентами

A2UI (Agent-to-User Interface) - это протокол интерфейса с открытым исходным кодом от Google, который решает проблемы создания сложных интерактивных интерфейсов для агентов искусственного интеллекта. Благодаря декларативному формату JSON, позволяющему агентам ИИ описывать структуру пользовательского интерфейса, клиентские приложения ...
4 недели назад
022K
SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio - Мультимодальная модель сегментации аудио с открытым исходным кодом из Meta

SAM Audio - это мультимодальная модель сегментации звука с открытым исходным кодом, представленная компанией Meta для точного выделения произвольных целевых звуков из сложных аудиомиксов. Объединяя текстовые, визуальные и временные сигналы, она обеспечивает гибкую и эффективную обработку звука для таких задач, как редактирование, денуазинг, извлечение звука и...
4 недели назад
013.3K
混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架

Mixed World Model 1.5 - Tencent Mixed Open Source Real-time World Model Generation Framework

Hybrid World Model 1.5 (Tencent HY WorldPlay) - это первый в отрасли фреймворк с открытым исходным кодом для моделирования мира в реальном времени, выпущенный компанией Tencent и охватывающий всю цепочку развертывания данных, обучения и потокового вывода. В основе лежит авторегрессионная диффузионная модель WorldPlay, которая использует Next-F...
4 недели назад
012.8K
Molmo 2 - Ai2开源的多模态视频图像理解模型系列

Molmo 2 - семейство моделей мультимодального понимания видеоизображений с открытым исходным кодом Ai2

Molmo 2 - это мультимодальная модель с открытым исходным кодом, выпущенная Институтом искусственного интеллекта Аллена (Ai2) для улучшения понимания видео и мультиизображений. Включены три варианта: Molmo 2 (8B), Molmo 2 (4B) и Molmo 2-O...
4 недели назад
014.3K
LongCat-Video-Avatar - 美团开源的虚拟人视频生成模型

LongCat-Video-Avatar - модель генерации видео аватаров с открытым исходным кодом Meituan

LongCat-Video-Avatar - это продвинутая модель создания видео на основе звука, построенная на базе LongCat-Video с открытым исходным кодом от Meituan, ориентированная на создание гиперреалистичных, синхронизированных по губам длинных видео с естественной динамикой и последовательной идентичностью.
4 недели назад
016.9K
MiMo-V2-Flash - 小米发布的开源MoE架构大模型

MiMo-V2-Flash - большая модель архитектуры MoE с открытым исходным кодом, выпущенная компанией Xiaomi

MiMo-V2-Flash - это большая модель с открытым исходным кодом на основе архитектуры MoE, выпущенная компанией Xiaomi, с 309 миллиардами общих параметров и 15 миллиардами активных параметров, ориентированная на эффективное рассуждение и применение в интеллектуальном теле. Модель использует гибридную архитектуру внимания и технологию многословного мета-предсказания со скоростью вывода 150 лексем/секунду, в...
4 недели назад
016.8K
Nemotron 3 - 英伟达发布的开源 AI 模型系列

Nemotron 3 - семейство моделей ИИ с открытым исходным кодом, выпущенное NVIDIA

Nemotron 3 - это семейство моделей ИИ с открытым исходным кодом, выпущенных NVIDIA в размерах Nano, Super и Ultra. В Nemotron 3 используется скрытая архитектура MoE, которая значительно повышает эффективность вычислений и снижает операционные расходы. Одна из...
4 недели назад
014.1K
Wan-Move - 阿里通义联合清华等开源的AI视频生成框架

Wan-Move - открытый фреймворк для создания видео с помощью искусственного интеллекта, разработанный Али Тонги совместно с Цинхуа и другими.

Wan-Move - это фреймворк для создания видео с открытым исходным кодом, разработанный совместно Ali Tongyi Labs, Университетом Цинхуа и другими учреждениями, ориентированный на создание высококачественных видеокомпозиций с помощью технологии точного управления движением. Основной технологией является "потенциальное управление траекторией", которое позволяет плавно добавить управление движением на уровне точек к существующей модели "изображение-видео"...
4 недели назад
013.3K
PaCoRe - 阶跃星辰开源的并行协同AI推理框架

PaCoRe - система параллельных совместных рассуждений ИИ с открытым исходным кодом StepStar

PaCoRe (Parallel Coordinated Reasoning) - это инновационная система параллельных совместных рассуждений с открытым исходным кодом от StepFun, использующая механизм параллельного мышления, позволяющий одновременно исследовать решение проблемы с нескольких точек зрения, преодолевая традиционные...
4 недели назад
013.8K
Banana Slides - 基于Nano Banana Pro模型的开源AI PPT生成工具

Banana Slides - инструмент для создания PPT с открытым исходным кодом на основе искусственного интеллекта, основанный на модели Nano Banana Pro.

Banana Slides - это интеллектуальный генератор PPT с открытым исходным кодом, основанный на модели искусственного интеллекта Nano Banana Pro, который поддерживает быстрое создание профессиональных презентаций с помощью команд на естественном языке. Позволяет пользователям описывать тему в одном предложении (например, "Влияние человека на экосистему"), которое может быть само...
4 недели назад
015.3K
Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型

Kaleido - многосубъектная модель генерации эталонного видео с открытым исходным кодом, созданная Smart Spectrum AI совместно с Университетом Цинхуа и другими организациями.

Kaleido - это модель генерации мультисубъектного эталонного видео с открытым исходным кодом, разработанная совместно Хэфэйским технологическим университетом, Университетом Цинхуа и Smart Spectrum AI. Она генерирует предметно-согласованное видео на основе нескольких опорных изображений, решая недостатки существующих моделей в области многопредметной согласованности и разделения фона.Kaleido генерирует видео с помощью специализированных данных...
4 недели назад
011.7K
Paper2Slides - 香港大学开源的学术论文转为幻灯片AI工具

Paper2Slides - инструменты ИИ для преобразования научных статей в слайды с открытым исходным кодом Университета Гонконга

Paper2Slides - это инструмент искусственного интеллекта с открытым исходным кодом, разработанный лабораторией Data Intelligence Laboratory Гонконгского университета, который одним щелчком мыши преобразует научные статьи в профессиональные слайды или постеры. Используя технологию RAG (Retrieval Augmented Generation), она напрямую анализирует содержимое документа, а не полагается на сетевую информацию, чтобы гарантировать, что созданный PPT будет полностью соответствовать оригиналу...
4 недели назад
012.2K
RealVideo - 智谱 AI 开源的实时流式视频生成系统

RealVideo - система генерации потокового видео в реальном времени с открытым исходным кодом от Wisdom Spectrum AI

RealVideo - это система генерации потокового видео в реальном времени с открытым исходным кодом от Smart Spectrum AI, которая может быстро генерировать естественные и плавные видеоответы за 2-3 секунды. Пользователи просто загружают фотографию и вводят текст, а система генерирует соответствующий голос и видео, позволяя вести диалог с персонажами ИИ в режиме реального времени...
4 недели назад
010.8K
OpenScreen - 开源免费的屏幕录制工具,支持Mac和Windows双系统

OpenScreen - бесплатный инструмент записи экрана с открытым исходным кодом для Mac и Windows.

OpenScreen - это бесплатный инструмент для записи экрана с открытым исходным кодом, который предоставляет пользователям простую в использовании и функциональную альтернативу Screen Studio. Она поддерживает Mac и Windows, полностью бесплатна, соответствует протоколу MIT и может использоваться для индивидуальной...
4 недели назад
014.8K
SCAIL - 智谱联合清华开源的影视级角色动画生成框架

SCAIL - открытый фреймворк для создания анимационных персонажей для кино и телевидения от Wisdom spectrum и Tsinghua.

SCAIL (Studio-Grade Character Animation via In-Context Learning) - это система создания анимации персонажей для кино и телевидения, предложенная компанией Smart Spectrum в сотрудничестве с группой профессора Лю Юнцзиня из Университета Цинхуа. Благодаря...
4 недели назад
011.7K
DeepSearchQA - 谷歌开源的AI研究Agent测试基准

DeepSearchQA - эталоны тестирования агентов ИИ с открытым исходным кодом от Google

DeepSearchQA - эталонный тест ИИ-исследователя Google с открытым исходным кодом, предназначенный для оценки производительности интеллекта в сложных многоэтапных задачах запроса. Он состоит из 900 вручную разработанных задач "причинно-следственных цепочек", охватывающих 17 доменов, требующих от ИИ действовать как человек-исследователь и продвигаться по многоступенчатым...
4 недели назад
011.9K
Claude-Mem - 开源Claude Code记忆插件,支持跨会话持久化记忆

Claude-Mem - плагин памяти кода Claude с открытым исходным кодом и поддержкой кросс-сессионной постоянной памяти

Claude-Mem - это плагин с открытым исходным кодом для Claude Code, который решает проблему потери памяти при использовании искусственного интеллекта во время сессий. Он помогает Claude, автоматически фиксируя использование инструментом наблюдений, генерируя семантические резюме и вставляя соответствующий контекст в последующие сессии...
1 месяц назад
018.4K
KoalaQA - 开源的AI售后服务系统,帮企业快速搭建问答平台

KoalaQA - система послепродажного обслуживания с открытым исходным кодом на основе искусственного интеллекта, помогающая компаниям быстро создавать платформы вопросов и ответов

KoalaQA - это интеллектуальная система послепродажного обслуживания с открытым исходным кодом, разработанная командой Chaitin. Основанная на модели искусственного интеллекта, она предоставляет функции искусственного обслуживания клиентов, искусственного поиска и управления базой знаний, чтобы помочь предприятиям быстро создать интеллектуальную платформу вопросов и ответов. Система поддерживает круглосуточное реагирование в режиме реального времени ...
1 месяц назад
012.5K
VoxCPM 1.5 - 面壁智能开源的端到端文本到语音模型

VoxCPM 1.5 - Faceted Intelligence с открытым исходным кодом для конечного моделирования преобразования текста в речь

VoxCPM 1.5 - это модель генерации речи с открытым исходным кодом, выпущенная Facade Intelligence, основанная на технологии преобразования текста в речь (TTS) без необходимости использования разделителя, с несколькими нововведениями и улучшениями. Используя сквозную диффузионную авторегрессионную архитектуру, она генерирует непрерывные речевые волны непосредственно из текста, избегая ограничений традиционных методов сегментации...
1 месяц назад
016.4K
Mistral Vibe - Mistral AI推出的开源命令行编码助手

Mistral Vibe - помощник по кодированию из командной строки с открытым исходным кодом от Mistral AI

Mistral Vibe - это ассистент командной строки с открытым исходным кодом от Mistral AI, разработанный на основе модели Devstral, который поддерживает взаимодействие на естественном языке для выполнения поиска кода, работы с файлами, контроля версий и других задач. Может автоматически сканировать структуру проекта и статус Git через символ @...
1 месяц назад
011.4K
GLM-TTS - 智谱AI推出的开源工业级语音合成系统

GLM-TTS - система синтеза речи промышленного уровня с открытым исходным кодом от Smart Spectrum AI

GLM-TTS - это промышленная система синтеза речи с открытым исходным кодом, обладающая мощными возможностями синтеза речи. Она использует двухэтапную архитектуру генерации: на первом этапе текст преобразуется в последовательности речевых лексем, а на втором - лексемы преобразуются в высококачественный звук. Система поддерживает всего 3 секунды голосовых образцов для завершения аудио...
1 месяц назад
013.7K
Devstral 2 - Mistral AI 推出的新一代编程模型家族

Devstral 2 - семейство моделей программирования нового поколения от Mistral AI

Devstral 2 - семейство моделей программирования нового поколения для задач программной инженерии от компании Mistral AI, состоящее из версий Devstral 2 (123B параметров) и Devstral Small 2 (24B параметров).D...
1 месяц назад
014.5K
GLM-ASR - 智谱AI开源的高性能语音识别模型系列

GLM-ASR - серия высокопроизводительных моделей распознавания речи с открытым исходным кодом Wisdom Spectrum AI

GLM-ASR - это семейство высокопроизводительных моделей распознавания речи с открытым исходным кодом от Smart Spectrum AI, включающее облачную модель GLM-ASR-2512 и модель GLM-ASR-Nano-2512 с открытым исходным кодом. GLM-ASR-2512 - это ведущая в мире облачная модель распознавания речи, поддерживающая множество...
1 месяц назад
017.3K
OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM - модель агента ИИ для мобильных телефонов с открытым исходным кодом от Smart Spectrum AI

OpenAutoGLM - это интеллектуальная модель тела с открытым исходным кодом и возможностью "использования мобильного телефона", которая может понимать содержимое экрана мобильного телефона через мультимодальное восприятие и автоматически генерировать поток операций для выполнения заданных пользователем задач. Пользователям достаточно использовать естественный язык для описания потребностей, например, "открыть Meituan для поиска ближайшего горячего горшка...".
1 месяц назад
019.2K
SurfSense - 开源的AI研究与知识管理工具,NotebookLM最强平替

SurfSense - инструмент для исследования ИИ с открытым исходным кодом и управления знаниями, самый сильный пинто NotebookLM

SurfSense - это инструмент для исследований и управления знаниями с открытым исходным кодом на основе искусственного интеллекта. Обладая широкими возможностями настройки, он может подключаться к поисковым системам, Slack, Jira, Notion, YouTube, GitHub и многим другим внешним источникам данных для облегчения интеграции информации. Пользователи могут загружать различные...
1 месяц назад
014.1K
GLM-4.6V - 智谱AI开源的多模态大语言模型系列

GLM-4.6V - Серия мультимодальных моделей большого языка с открытым исходным кодом Wisdom Spectrum AI

GLM-4.6V - серия мультимодальных больших языковых моделей с открытым исходным кодом от Smart Spectrum AI. Серия содержит две версии: GLM-4.6V (106B-A12B), базовая версия для облачных и высокопроизводительных кластерных сценариев, с архитектурой Mixed Expert (MoE), общим количеством около 106 миллиардов ссылок, и активацией...
1 месяц назад
014.5K
InkSight - Google开源的AI手写识别工具

InkSight - инструмент распознавания рукописного текста с открытым исходным кодом от Google

InkSight - это инструмент распознавания рукописного текста с открытым исходным кодом от Google, который преобразует бумажные рукописные заметки в редактируемые цифровые файлы с чернилами (например, в формат SVG). В отличие от традиционного OCR, он может распознавать содержание текста, восстанавливать стиль почерка, структуру абзацев и ключевые пометки, а также поддерживать многоязыковую обработку.
1 месяц назад
012.4K
NewBie-image-Exp0.1 - NewBieAI-Lab开源的实验性动漫文生图模型

NewBie-image-Exp0.1 - открытый исходный код экспериментальных аниме-графовых моделей NewBieAI-Lab

NewBie-image-Exp0.1 - это первая экспериментальная графическая модель аниме, созданная командой NewBieAI-Lab, с использованием архитектуры Next-DiT с 3,5B параметрами, оптимизированная для вторичного стиля. Модель оптимизирована для вторичного стиля с помощью двойного кодировщика текста (GEMMA3-4B...
1 месяц назад
015.4K
LongCat-Image - 美团LongCat团队开源的图像生成与编辑模型

LongCat-Image - команда LongCat с открытым исходным кодом для создания и редактирования изображений американской группы

LongCat-Image - это модель генерации и редактирования изображений с открытым исходным кодом, выпущенная командой LongCat из Meituan. Используя гибридную магистральную архитектуру (MM-DiT+Single-DiT) в сочетании с условным кодером на основе модели визуального языка (VLM), она способна генерировать изображения с текстом и выполнять несколько раундов редактирования изображений...
1 месяц назад
012K
VibeVoice-Realtime - 微软开源的轻量级实时文本转语音模型

VibeVoice-Realtime - открытая модель преобразования текста в речь в реальном времени с открытым исходным кодом от Microsoft

VibeVoice-Realtime - это легкая модель преобразования текста в речь (TTS) с открытым исходным кодом от Microsoft, предназначенная для взаимодействия в реальном времени и с низкой задержкой. Поддерживает потоковый ввод текста, с первого текстового маркера может быть озвучен, задержка составляет всего около 300 мс, подходит для динамического количества ...
1 месяц назад
014.5K
Flowra - 魔搭联合呜哩WULI团队开源的AI工作流开发工具

Flowra - инструмент для разработки рабочих процессов с использованием искусственного интеллекта, открытый командой Magic Hitch и Wooli WULI

Flowra - это ModelScope совместный woo mile WULI команды открытым исходным кодом граф выполнения двигателя и узла пакет инструментов разработки, является основным компонентом FlowBench. Посредством направленного ациклического графа (DAG) организация рабочего процесса, с интеллектуальным кэшированием, параллельным планированием, распределенной поддержкой ...
1 месяц назад
014.6K
RoboCOIN - 智源联合多所高校开源的双臂机器人真机数据集

RoboCOIN - набор данных реальных двуруких роботов, открытый Wisdom Source в сотрудничестве с несколькими университетами.

RoboCOIN - это первый в мире крупномасштабный набор данных реальных машин для двуруких роботов, открытый Пекинским научно-исследовательским институтом искусственного интеллекта Zhiyuan совместно с рядом предприятий, колледжей и университетов. Он содержит 15 типов роботизированных платформ, 180 000 реальных траекторий движения и 421 тип сценариев задач. Главной особенностью является использование иерархической системы аннотирования для разбора задач...
1 месяц назад
012.1K
TalkCody - 免费开源的AI编程桌面助手,支持复杂任务

TalkCody - бесплатный настольный помощник с открытым исходным кодом, программируемый искусственным интеллектом, с поддержкой сложных задач

TalkCody - это бесплатное настольное приложение-помощник программирования AI с открытым исходным кодом, построенное на Rust + Tauri 2, поддерживающее три платформы - Windows, macOS и Linux, имеющее родную производительность, быстрый запуск и низкое потребление ресурсов. Поддержка более 50 основных A...
1 месяц назад
018.4K
MemMachine - MemVerge推出的开源AI记忆系统

MemMachine - система памяти искусственного интеллекта с открытым исходным кодом от MemVerge

MemMachine - это система памяти ИИ с открытым исходным кодом, разработанная компанией MemVerge, предназначенная для моделей и интеллектов ИИ, которая может хранить и вызывать данные о взаимодействии, как человеческий мозг, решая проблему "потери памяти без статики" ИИ. В ней используется многоуровневая архитектура (кратковременная память, долговременная память, пользовательский образ...
1 месяц назад
018.7K
PartCrafter - 北大联合字节开源的单图3D生成模型

PartCrafter - NU United Bytes с открытым исходным кодом для создания 3D-модели одной фигуры

PartCrafter - это передовая генеративная 3D-модель, совместно предложенная Пекинским университетом, ByteDance и Университетом Карнеги-Меллон. Она может генерировать несколько семантически явных и геометрически разнообразных 3D-частей сетки из одного RGB-изображения одновременно. Модель моделируется через комбинаторное потенциальное пространство и...
1 месяц назад
014.4K
GigaWorld-0 - 极佳视界开源的世界模型框架

GigaWorld-0 - GigaVision Open Source World Modelling Framework

GigaWorld-0 - это фреймворк модели мира с открытым исходным кодом от отечественного стартапа GigaAI, который в основном используется для решения проблемы узких мест в области эмбодированного интеллекта (Embodied AI). Эффективно генерируя высококачественные, разнообразные и физически реалистичные обучающие данные, толчок...
1 месяц назад
014.3K
Mistral 3 - Mistral AI发布开源的最新多模态大模型系列

Mistral 3 - Mistral AI выпускает новейшую серию мультимодальных больших моделей с открытым исходным кодом

Mistral 3 - это последняя серия мультимодальных больших моделей, выпущенная компанией Mistral AI с открытым исходным кодом. Она состоит из флагманской модели Mistral Large 3 (675B общих параметров) и более легкой версии серии Ministral (3B/8B/14B), обе из которых поддерживают восприятие изображений...
1 месяц назад
013.2K
Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

Vidi2 - мультимодальное понимание видео и генеративное макромоделирование с открытым исходным кодом от ByteHop

Vidi2 - это мультимодальная модель понимания и генерации видео второго поколения, открытая компанией ByteDance, ориентированная на понимание, анализ и создание видеоконтента. Она поддерживает совместный ввод текста, видео и аудио, может одновременно понимать содержимое изображения, звуковую информацию и команды на естественном языке для достижения кросс-модального взаимодействия и...
1 месяц назад
014.8K
Alpamayo-R1 - 英伟达开源的带推理能力的视觉-语言-行动模型

Alpamayo-R1 - открытая модель видения-языка-действия от NVIDIA с возможностями рассуждения

Alpamayo-R1 - это разработанная NVIDIA модель Vision-Language-Action (VLA) с возможностью рассуждений, предназначенная для улучшения способности автономного вождения принимать решения в сложных сценариях. Внедряя механизм рассуждений о причинно-следственных цепочках, автомобиль способен анализировать причинно-следственные связи сценария (например, "из-за предыдущего...
1 месяц назад
022.1K
Ovis-Image - 阿里AIDC-AI团队开源的文生图模型

Ovis-Image - Графическая модель венчурной деятельности с открытым исходным кодом от команды Ali AIDC-AI

Ovis-Image - это модель графа с 7 миллиардами параметров, созданная командой AIDC-AI из Alibaba International Digital Commerce Group и ориентированная на высококачественную визуализацию текста. Основанная на архитектуре Ovis-U1, она унаследовала передовой визуальный декодер и двунаправленный очиститель токенов...
1 месяц назад
014.4K
悟界·Emu3.5 - 智源研究院开源的多模态世界大模型

Wujie-Emu3.5 - Исследовательский институт Wisdom Source с открытым исходным кодом мультимодальной большой модели мира

Wujie-Emu3.5 - мультимодальная макромодель мира с открытым исходным кодом от Beijing Zhiyuan Artificial Intelligence Research Institute, имеющая 34 миллиарда ссылок и способная моделировать мир. Обученная на 10 триллионах мультимодальных токенов (включая 790 лет видеоданных), она может моделировать законы физики и достигать генерации графики, визуального руководства...
1 месяц назад
015.8K
GELab-Zero - 阶跃团队开源的端侧多模态GUI Agent模型

GELab-Zero - мультимодальная GUI-модель агента с открытым исходным кодом от команды Steps

GELab-Zero - это мультимодальная модель агента GUI с открытым исходным кодом от команды Step Leap, построенная на базовой модели Qwen3-VL-4B-Instruct с параметрами 4B. Она может распознавать элементы пользовательского интерфейса и выполнять такие операции, как нажатие, скольжение и т.д., а также поддерживает кросс-прикладную постановку задач...
1 месяц назад
019.7K
Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型

Depth Anything 3 - 3D модели визуальной реконструкции с открытым исходным кодом от Bitmap Seed

Depth Anything 3 (DA3) - это модель визуальной 3D-реконструкции, разработанная командой Byte Jump Seed с открытым исходным кодом. Благодаря единой архитектуре трансформеров для достижения пространственной реконструкции геометрии в любой точке обзора, необходимо только предсказать карту глубины и карту лучей, чтобы восстановить 3D-сцену, по сравнению с...
1 месяц назад
022.8K
DeepSeek-Math-V2 - DeepSeek开源的数学推理模型

DeepSeek-Math-V2 - математическая модель рассуждений с открытым исходным кодом DeepSeek

DeepSeek-Math-V2 - это математическая модель рассуждений с открытым исходным кодом от DeepSeek, компании по разработке искусственного интеллекта Phantom Cube. Последняя версия основана на улучшении DeepSeek-V3.2-Exp-Base, по производительности превосходит Gemini DeepThink и достигла международного номера...
1 месяц назад
018.4K
Z-Image - 阿里通义实验室开源的图像生成模型

Z-Image - модель генерации изображений с открытым исходным кодом от Ali Tongyi Labs

Z-Image - это модель генерации изображений с открытым исходным кодом от Ali Tongyi Labs, обладающая эффективными, быстрыми и мощными возможностями генерации изображений. Используя архитектуру однопоточного диффузионного трансформатора (S3-DiT), она объединяет текст, визуальную семантику и маркеры VAE изображений в единый входной поток...
2 месяца назад
030.2K
ROCK - 阿里巴巴开源的智能体训练环境沙箱

ROCK - песочница с открытым исходным кодом Alibaba для интеллектуальной среды тренировки тела

ROCK (Reinforcement Open Construction Kit) - это открытая песочница Alibaba для тренировки интеллекта, которая решает проблему невозможности масштабного обучения интеллекта в реальных условиях. ROCK предоставляет высокостабильный сервис управления песочницей...
2 месяца назад
015.5K
ViMax - 香港大学开源的多智能体视频生成框架

ViMax - мультиинтеллектуальная система генерации видеоизображения тела с открытым исходным кодом в Гонконгском университете

ViMax - это мультиинтеллектуальная система генерации видео с открытым исходным кодом от Лаборатории науки о данных Гонконгского университета, которая может автоматизировать весь процесс от творческого ввода до вывода видео. Интеграция функций генерации сценария, проектирования сцены, планирования съемок и рендеринга видео позволяет пользователям генерировать целостное видео кино- и телевизионного уровня с помощью описания на естественном языке...
2 месяца назад
027.1K
FLUX.2 - 黑森林开源的图像生成与编辑模型

FLUX.2 - модель генерации и редактирования изображений с открытым исходным кодом Black Forest

FLUX.2 - это модель генерации и редактирования изображений с открытым исходным кодом, выпущенная Black Forest Labs, которая поддерживает текстовые необработанные изображения, ссылки на несколько изображений и редактирование изображений с более богатой детализацией, четкими текстурами и стабильным освещением. Существует четыре версии: FLUX.2 [pro] (сравнима с топовой закрытой...
2 месяца назад
015.7K
Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B - модель компьютерного ассистента Agent с открытым исходным кодом от Microsoft

Fara-7B - это выпущенная Microsoft с открытым исходным кодом модель компьютерно-оперативного агента (CUA) с 7 миллиардами параметров, основанная на архитектуре Qwen 2.5-VL-7B. Благодаря визуальному разбору скриншотов веб-страниц и выполнению кликов, вводов и т. д. на экране, ей не нужно полагаться на дополнительные деревья доступности или многочисленные большие модели...
2 месяца назад
019.6K
HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR - экспертная модель Tencent с открытым исходным кодом для оптического распознавания символов

HunyuanOCR - это высокопроизводительная модель оптического распознавания символов с открытым исходным кодом, созданная гибридной командой Tencent и имеющая всего 1 миллиард ссылок. Разработанная на основе гибридной мультимодальной архитектуры, она имеет сквозной дизайн и может эффективно справляться с задачами обнаружения, распознавания и разбора текста. Модель набрала 94,1 балла в тесте на сложные документы, превзойдя...
2 месяца назад
021.7K
Supertonic - 开源的高性能AI 文本转语音系统,极速离线运行

Supertonic - высокопроизводительная система преобразования текста в речь на основе искусственного интеллекта с открытым исходным кодом, работающая в автономном режиме с бешеной скоростью.

Supertonic - это высокопроизводительная система преобразования текста в речь (TTS) с открытым исходным кодом, ориентированная на быструю генерацию речи на локальных устройствах. Используя технологию ONNX Runtime, она может работать на таких устройствах, как мобильные телефоны, компьютеры и даже Raspberry Pi, поддерживает 23 языка и речевые клоны, и не требует сетевого...
2 месяца назад
017.3K
MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied - модель педалированного интеллекта Xiaomi с открытым исходным кодом для кросс-доменного встраивания

MiMo-Embodied - это первая в мире кросс-эмбодиальная базовая модель, открытая Xiaomi Group, которая успешно объединяет эмбодированный ИИ и автономное вождение. Она решает проблему миграции знаний между воплощенным ИИ и автономным вождением и обеспечивает единое моделирование задач в этих двух областях.
2 месяца назад
021.8K
MOSS-Speech - 复旦大学开源的语音到语音大模型

MOSS-Speech - Большая модель преобразования речи в речь с открытым исходным кодом Фуданьского университета

MOSS-Speech - это большая модель преобразования речи в речь (Speech-to-Speech) с открытым исходным кодом, разработанная командой профессора Цю Сипэна в Фуданьском университете. Она преодолевает традиционную обработку речи, не нуждаясь в текстовых подсказках, и напрямую понимает и генерирует речь, которая может захватывать нетекстовые элементы, такие как интонация и эмоции, делая...
2 месяца назад
016.8K