Последние ресурсы по искусственному интеллекту

共 3100 篇文章
OmniVinci - NVIDIA开源的全模态大语言模型

OmniVinci - Омнимодальная модель большого языка с открытым исходным кодом от NVIDIA

OmniVinci - это крупномасштабная языковая модель с открытым исходным кодом, полностью модальная, разработанная NVIDIA, которая решает проблему модальной фрагментации в мультимодальных моделях с помощью архитектурных инноваций и оптимизации данных. Выравнивание визуальных и аудио вкраплений улучшено с помощью OmniAlignNet, которая использует временной групповой захват...
6 месяцев назад
035K
Infographic - 阿里AntV团队开源的信息图生成框架

Инфографика - фреймворк для создания инфографики с открытым исходным кодом от команды Ali AntV

Infographic - это новое поколение открытого исходного кода команды Ali AntV, основанного на G2 и разработке Ant Design, ориентированного на быстрое создание высококачественной инфографики, предоставляющего 30 + шаблонов макетов, 120 + предустановленных тем и интеллектуальные возможности генерации AI.
4 месяца назад
035K
GLM-TTS - 智谱AI推出的开源工业级语音合成系统

GLM-TTS - система синтеза речи промышленного уровня с открытым исходным кодом от Smart Spectrum AI

GLM-TTS - это промышленная система синтеза речи с открытым исходным кодом, обладающая мощными возможностями синтеза речи. Она использует двухэтапную архитектуру генерации: на первом этапе текст преобразуется в последовательности речевых лексем, а на втором - лексемы преобразуются в высококачественный звук. Система поддерживает всего 3 секунды голосовых образцов для завершения аудио...
5 месяцев назад
034.8K
SAM 3D - Meta开源的3D重建模型系列

SAM 3D - серия моделей для 3D-реконструкции с открытым исходным кодом Meta

SAM 3D - это модель 3D-реконструкции на основе серии SAM от Meta, включающая две ветви: SAM 3D Objects и SAM 3D Body. SAM 3D Objects может генерировать интерактивные 3D-модели объектов по одной фотографии, поддерживая...
5 месяцев назад
034.8K
VibeThinker-1.5B - 微博AI开源的15亿参数大型语言模型

VibeThinker-1.5B - крупномасштабная языковая модель с 1,5 миллиардами параметров, открытая Weibo AI

VibeThinker-1.5B - это крупномасштабная языковая модель с 1,5 миллиардами параметров, открыто представленная Weibo AI. Доработанная на основе Qwen2.5-Math-1.5B от Alibaba, она оптимизирована для решения математических задач и задач кодирования и демонстрирует лучшие в отрасли показатели точности выводов.
6 месяцев назад
034.7K
PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架

PersonaLive - Университет Макао и другие открытые источники для создания портретной анимации в реальном времени с помощью ИИ.

PersonaLive - это фреймворк для прямых трансляций с открытым исходным кодом с искусственным интеллектом в реальном времени, разработанный совместно Университетом Макао, dzine.ai и лабораторией GVC при Университете Большого залива. Он позволяет добиться низких задержек и высокой частоты смены кадров на обычных видеокартах потребительского класса (12 ГБ видеопамяти), а также поддерживает работу в режиме реального времени через камеру...
4 месяца назад
034.4K
T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型

T5Gemma 2 - модель кодера-декодера следующего поколения с открытым исходным кодом от Google

T5Gemma 2 - это модель кодера-декодера нового поколения, открытая компанией Google, основанная на архитектуре Gemma 3 и дополненная возможностями мультимодальной обработки и обработки длинных контекстов. Она поддерживает широкий спектр типов данных, включая текст и изображения, и способна обрабатывать очень длинные контексты (до 128 К) при генерации...
4 месяца назад
034.4K
Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型

Step-Audio-EditX - первая большая модель редактирования звука с открытым исходным кодом уровня LLM от Step-Star

Step-Audio-EditX - макромодель редактирования звука с открытым исходным кодом, разработанная командой Step-Star и ориентированная на тонкую манипуляцию аудиоконтентом с помощью технологий искусственного интеллекта. Модель способна динамически настраивать настроение аудио, стиль речи (например, мелочность, акцент старика и т. д.) и паралингвистические элементы (например, смех, вздох...
6 месяцев назад
034.4K
Devstral 2 - Mistral AI 推出的新一代编程模型家族

Devstral 2 - семейство моделей программирования нового поколения от Mistral AI

Devstral 2 - семейство моделей программирования нового поколения для задач программной инженерии от компании Mistral AI, состоящее из версий Devstral 2 (123B параметров) и Devstral Small 2 (24B параметров).D...
5 месяцев назад
034.4K
Yume1.5 - 上海AI Lab联合复旦大学开源的交互式世界生成模型

Yume1.5 - интерактивная модель генерации мира с открытым исходным кодом от Шанхайской лаборатории искусственного интеллекта и Фуданьского университета

Yume 1.5 - это интерактивная модель генерации мира с открытым исходным кодом, разработанная совместно Шанхайской лабораторией искусственного интеллекта, Фуданьским университетом и Шанхайским инновационным исследовательским институтом, способная осуществлять интерактивный рендеринг в реальном времени (12 кадров в секунду на одной карте). В ней используется технология совместного пространственно-временного моделирования каналов (TSCM), даже если длина контекста увеличивается...
4 месяца назад
034.4K
TurboDiffusion - 生数科技联合清华等开源的视频生成加速框架

TurboDiffusion - фреймворк ускорения генерации видео с открытым исходным кодом от Raw Digital Technology, Tsinghua и других компаний.

TurboDiffusion - это фреймворк для ускорения генерации видео, созданный совместно Университетом Цинхуа, BioDigital Technology и Калифорнийским университетом в Беркли, который способен повысить скорость генерации видео в 100-200 раз при сохранении качества изображения практически без потерь. Благодаря разреженному линейному вниманию, пошаговой дистилляции образцов и 8-битному...
4 месяца назад
034.3K
FIBO - 全球首个开源原生支持JSON的文本生成图像模型

FIBO - первая в мире программа с открытым исходным кодом, поддерживающая JSON-текст для создания моделей изображений.

FIBO - это первая в мире модель изображений для генерации текста с открытым исходным кодом и поддержкой JSON, разработанная компанией Bria AI. Основанная на архитектуре DiT (Diffusion Transformer) с 8B параметрами, она использует метод обучения Flow Matching...
6 месяцев назад
034.3K
UniWorld V2 - 兔展智能联合北大推出的新一代图像编辑模型

UniWorld V2 - новое поколение моделей для редактирования изображений, выпущенное RabbitShow Intelligence и Пекинским университетом

UniWorld V2 - это новое поколение модели для редактирования изображений, созданной совместно RabbitZhan Intelligence и командой UniWorld Пекинского университета. Она обладает значительными преимуществами в области редактирования изображений, особенно в понимании китайского языка и выполнении сложных команд. Модель способна точно передавать художественные китайские шрифты и поддерживать тонкую...
6 месяцев назад
034.2K
OpenAgents - 开源免费的构建AI Agent网络开放协作项目

OpenAgents - бесплатный проект с открытым исходным кодом для создания сетей агентов искусственного интеллекта

OpenAgents - это проект с открытым исходным кодом, который создает сеть агентов искусственного интеллекта и способствует открытому сотрудничеству между ними. Предоставляется базовая сетевая инфраструктура, позволяющая агентам ИИ легко соединяться и сотрудничать. Пользователи могут быстро создать свою собственную сеть агентов, расширить функциональность за счет модульной архитектуры, поддерживать...
7 месяцев назад
034.1K
FunctionGemma - 谷歌开源专为函数调用优化的轻量级AI模型

FunctionGemma - открытая модель ИИ от Google, оптимизированная для вызова функций

FunctionGemma - это облегченная модель искусственного интеллекта, оптимизированная для вызова функций Google, разработанная на основе базовой модели Gemma 3 с 270 миллионами параметров, которая преобразует естественный язык в исполняемые инструкции API в режиме реального времени на мобильных телефонах, браузерах и других устройствах. Основной особенностью является поддержка локальных офф...
4 месяца назад
034K
GPT-5-Codex - OpenAI推出的最强编程模型

GPT-5-Codex - самая сильная модель программирования, представленная OpenAI

GPT-5-Codex - это мощная модель оптимизации программирования от OpenAI, усовершенствованная GPT-5 и предназначенная для инженеров-программистов. Модель быстро генерирует высококачественный код, поддерживает множество языков программирования и оптимизирует существующий код для повышения производительности.
8 месяцев назад
034K
Egocentric-10K - Build AI开源的第一人称视角机器人数据集

Egocentric-10K - открытый набор данных для робототехники с перспективой от первого лица Build AI

Egocentric-10K - это крупномасштабная видеодата с видом от первого лица (эгоцентрическая), открытая командой build.ai. Набор содержит 10 000 часов видео, в общей сложности 1,08 миллиарда кадров, с участием 2...
6 месяцев назад
033.9K
ERNIE-4.5-21B-A3B-Thinking - 百度开源的推理思考模型

ERNIE-4.5-21B-A3B-Thinking - модель мышления с открытым исходным кодом Baidu

ERNIE-4.5-21B-A3B-Thinking - это крупномасштабная языковая модель Baidu с открытым исходным кодом, ориентированная на задачи рассуждения. Используя архитектуру Mixed Expert (MoE), общее количество ссылок достигает 21 миллиарда, каждая лексема активирует 3 миллиарда параметров для поддержки 128K длинного контекстного окна ...
8 месяцев назад
033.9K
LongCat-Flash-Omni - 美团开源的全模态大语言模型

LongCat-Flash-Omni - полностью модальная модель большого языка для Meituan с открытым исходным кодом

LongCat-Flash-Omni - это полностью модальная модель большого языка с открытым исходным кодом, выпущенная командой LongCat из Meituan. С масштабом параметров 560 миллиардов (27 миллиардов активированных параметров) она позволяет достичь миллисекундного уровня взаимодействия в реальном времени с аудио и видео при сохранении большого количества параметров.
6 месяцев назад
033.7K
NewBie-image-Exp0.1 - NewBieAI-Lab开源的实验性动漫文生图模型

NewBie-image-Exp0.1 - открытый исходный код экспериментальных аниме-графовых моделей NewBieAI-Lab

NewBie-image-Exp0.1 - это первая экспериментальная графическая модель аниме, созданная командой NewBieAI-Lab, с использованием архитектуры Next-DiT с 3,5B параметрами, оптимизированная для вторичного стиля. Модель оптимизирована для вторичного стиля с помощью двойного кодировщика текста (GEMMA3-4B...
5 месяцев назад
033.4K
Astron Agent - 科大讯飞开源的企业级智能工作流开发平台

Astron Agent - открытая платформа KDDI для разработки интеллектуальных рабочих процессов корпоративного класса

Astron Agent - это платформа разработки интеллектуальных рабочих процессов корпоративного уровня с открытым исходным кодом от KDDI, ориентированная на то, чтобы помочь предприятиям быстро создать пригодное для использования приложение AI-агента. Используя стек технологий Java + Spring Boot, поддерживается легкое частное развертывание (минимум 2-ядерная конфигурация 4G), встроенный ...
5 месяцев назад
033.2K
LongCat-Audio-Codec - 美团LongCat开源的语音编解码方案

LongCat-Audio-Codec - голосовой кодек LongCat с открытым исходным кодом для Meituan

LongCat-Audio-Codec - это речевой кодек с открытым исходным кодом от команды LongCat из Meituan. Решение предназначено для Speech Large Language Model (Speech LLM), посредством семантического и акустического механизма параллельного извлечения Token, учитывающего семантические и акустические особенности речи ...
6 месяцев назад
033K
Omnilingual ASR - Meta推出的多语言语音识别框架

Omnilingual ASR - многоязычный фреймворк для распознавания речи от Meta

Omnilingual ASR - это многоязычная система распознавания речи, представленная компанией Meta, охватывающая 1600+ языков, с 78% языковым коэффициентом ошибок ниже 10%. Ее кодер wav2vec 2.0 с 7 миллиардами параметров в сочетании с декодером CTC и Transformer, поддержива...
6 месяцев назад
032.9K
DPAI Arena - JetBrains开源的AI编程基准测试平台

DPAI Arena - платформа бенчмаркинга JetBrains с открытым исходным кодом для программирования ИИ

DPAI Arena (Developer Productivity AI Arena) - это открытая платформа бенчмаркинга, созданная компанией JetBrains для измерения эффективности инструментов разработки с помощью искусственного интеллекта в реальных задачах программной инженерии. С помощью прозрачного потока оценок...
5 месяцев назад
032.8K
SceneGen - 上海交大开源的单图像生成3D场景框架

SceneGen - открытая платформа для генерации 3D-сцены из одного изображения, созданная Шанхайским университетом Цзяо Тун.

SceneGen - это метод генерации 3D-сцен из одного изображения, разработанный в Шанхайском университете Цзяо Тун. Из одного изображения сцены и маски целевого ресурса эффективно генерируется полная сцена, содержащая множество 3D-ресурсов, включая геометрическую структуру ресурсов, текстуру и относительное пространственное расположение.
7 месяцев назад
032.8K
MOSS-Speech - 复旦大学开源的语音到语音大模型

MOSS-Speech - Большая модель преобразования речи в речь с открытым исходным кодом Фуданьского университета

MOSS-Speech - это большая модель преобразования речи в речь (Speech-to-Speech) с открытым исходным кодом, разработанная командой профессора Цю Сипэна в Фуданьском университете. Она преодолевает традиционную обработку речи, не нуждаясь в текстовых подсказках, и напрямую понимает и генерирует речь, которая может захватывать нетекстовые элементы, такие как интонация и эмоции, делая...
5 месяцев назад
032.7K
Open-o3 Video - 北大联合字节开源的视频推理模型

Open-o3 Video - модель рассуждений о видео с открытым исходным кодом Пекинского университета Объединенные байты

Open-o3 Video - это модель вывода видео с открытым исходным кодом, разработанная совместно Пекинским университетом и ByteDance и направленная на улучшение вывода видео с помощью временных и пространственных данных. Явное обозначение ключевых свидетельств временными метками и ограничительными рамками помогает модели лучше понимать и интерпретировать видеоконтент.
6 месяцев назад
032.6K
TalkCody - 免费开源的AI编程桌面助手,支持复杂任务

TalkCody - бесплатный настольный помощник с открытым исходным кодом, программируемый искусственным интеллектом, с поддержкой сложных задач

TalkCody - это бесплатное настольное приложение-помощник программирования AI с открытым исходным кодом, построенное на Rust + Tauri 2, поддерживающее три платформы - Windows, macOS и Linux, имеющее родную производительность, быстрый запуск и низкое потребление ресурсов. Поддержка более 50 основных A...
5 месяцев назад
032.6K
SurfSense - 开源的AI研究与知识管理工具,NotebookLM最强平替

SurfSense - инструмент для исследования ИИ с открытым исходным кодом и управления знаниями, самый сильный пинто NotebookLM

SurfSense - это инструмент для исследований и управления знаниями с открытым исходным кодом на основе искусственного интеллекта. Обладая широкими возможностями настройки, он может подключаться к поисковым системам, Slack, Jira, Notion, YouTube, GitHub и многим другим внешним источникам данных для облегчения интеграции информации. Пользователи могут загружать различные...
5 месяцев назад
032.6K
Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台

Dexbotic - машина Силы Духа с открытым исходным кодом воплощенного интеллекта VLA модель универсальной платформы исследовательских услуг

Dexbotic - это сервисная платформа с открытым исходным кодом Visual-Linguistic-Action (VLA) model of embodied intelligence one-stop research service platform компании Dexmal, которая решает проблемы фрагментации и низкой эффективности исследований в области воплощенного интеллекта. Основанная на PyTorch, Dexbotic является универсальной платформой исследовательского сервиса для решения проблем фрагментации и низкой эффективности исследований в области воплощенного интеллекта...
6 месяцев назад
032.6K
LLaSO - 逻辑智能推出的业界首个全面开源的语音模型

LLaSO - первая в отрасли речевая модель с открытым исходным кодом от Logic Intelligence

LLaSO - это модель речи с открытым исходным кодом, созданная компанией Beijing Depth Logic Intelligence Technology Co. Ltd., которая решает проблемы разброса данных и недостаточного охвата задач в области крупномасштабного моделирования языка речи путем интеграции речи и текстовых данных и предоставления наборов данных для выравнивания, наборов данных для тонкой настройки команд и эталонов оценки.
8 месяцев назад
032.5K
MemMachine - MemVerge推出的开源AI记忆系统

MemMachine - система памяти искусственного интеллекта с открытым исходным кодом от MemVerge

MemMachine - это система памяти ИИ с открытым исходным кодом, разработанная компанией MemVerge, предназначенная для моделей и интеллектов ИИ, которая может хранить и вызывать данные о взаимодействии, как человеческий мозг, решая проблему "потери памяти без статики" ИИ. В ней используется многоуровневая архитектура (кратковременная память, долговременная память, пользовательский образ...
5 месяцев назад
032.5K
Pyscn - 专为Python开发者开源的免费AI代码质量分析工具

Pyscn - бесплатный инструмент анализа качества AI-кода с открытым исходным кодом для разработчиков на Python

Pyscn - это интеллектуальный инструмент анализа качества кода, предназначенный для разработчиков на Python для обнаружения потенциальных проблем в коде с целью улучшения его сопровождаемости. Он анализирует мертвый код с помощью диаграмм потока управления, выявляет дубликаты кода с помощью алгоритма APTED+LSH, вычисляет такие метрики, как связь модулей и сложность круга...
7 месяцев назад
032.4K
Jamba Reasoning 3B - 以色列AI21 Labs开源的轻量级推理模型

Jamba Reasoning 3B - израильская модель рассуждений с открытым исходным кодом от AI21 Labs

Jamba Reasoning 3B - это легкая модель умозаключений с открытым исходным кодом, созданная израильским ИИ-стартапом AI21 Labs, обладающая высокой производительностью и потенциалом для широкого спектра приложений. Она использует гибридную архитектуру SSM-Transformer, которая сочетает в себе транс...
7 месяцев назад
032.3K
NocoBase - 免费开源的AI无代码开发平台,可视化构建应用

NocoBase - бесплатная платформа для визуальной разработки приложений с открытым исходным кодом без ИИ

NocoBase основан на платформе разработки без кода, управляемой искусственным интеллектом, с открытым исходным кодом, поддерживает быстрое создание бизнес-систем, без программирования, может быть завершена через конфигурацию разработки приложений. Проект использует протокол Apache-2.0, обеспечивает частное развертывание и гибкую масштабируемость, подходит для управления предприятием, платформы сотрудничества и других областей ...
6 месяцев назад
032.2K
Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型

Fun-Audio-Chat-8B - макромодель сквозного речевого взаимодействия с открытым исходным кодом от Али Тонги

Fun-Audio-Chat-8B - это модель сквозной речи с открытым исходным кодом на 8 миллиардов параметров, разработанная командой Ali Tongyi. Прямая речь в речи, без необходимости сращивания ASR+LLM+TTS, двуязычная, свободно говорящая на китайском и английском языках, с низкой задержкой и естественным тембром. Использование общего LLM двойного разрешения с частотой 25 Гц...
4 месяца назад
032.1K
Kosong - Moonshot AI开源的全新AI Agent开发框架

Kosong - Moonshot AI's New Open Source AI Agent Development Framework

Kosong - это новый фреймворк для разработки агентов искусственного интеллекта с открытым исходным кодом от Moonshot AI, предоставляющий разработчикам легкую, гибкую и высокомасштабируемую базовую поддержку для создания интеллектуальных приложений следующего поколения. Асинхронный механизм планирования инструментов позволяет эффективно планировать работу нескольких инструментов...
6 месяцев назад
032.1K
PromptFill - 开源的结构化提示词生成AI工具,专为AI绘画设计

PromptFill - ИИ-инструмент с открытым исходным кодом для создания структурированных слов, предназначенный для рисования ИИ.

PromptFill - это инструмент структурированной генерации подсказок, предназначенный для рисования ИИ, который помогает пользователям быстро создавать, управлять и повторять сложные подсказки через визуальное взаимодействие "заполни пустое место", повышая эффективность и качество генерации изображений ИИ.Основные возможности PromptFill...
4 месяца назад
032K
DeepSeek-Math-V2 - DeepSeek开源的数学推理模型

DeepSeek-Math-V2 - математическая модель рассуждений с открытым исходным кодом DeepSeek

DeepSeek-Math-V2 - это математическая модель рассуждений с открытым исходным кодом от DeepSeek, компании по разработке искусственного интеллекта Phantom Cube. Последняя версия основана на улучшении DeepSeek-V3.2-Exp-Base, по производительности превосходит Gemini DeepThink и достигла международного номера...
5 месяцев назад
032K
KoalaQA - 开源的AI售后服务系统,帮企业快速搭建问答平台

KoalaQA - система послепродажного обслуживания с открытым исходным кодом на основе искусственного интеллекта, помогающая компаниям быстро создавать платформы вопросов и ответов

KoalaQA - это интеллектуальная система послепродажного обслуживания с открытым исходным кодом, разработанная командой Chaitin. Основанная на модели искусственного интеллекта, она предоставляет функции искусственного обслуживания клиентов, искусственного поиска и управления базой знаний, чтобы помочь предприятиям быстро создать интеллектуальную платформу вопросов и ответов. Система поддерживает круглосуточное реагирование в режиме реального времени ...
5 месяцев назад
031.8K
Supertonic - 开源的高性能AI 文本转语音系统,极速离线运行

Supertonic - высокопроизводительная система преобразования текста в речь на основе искусственного интеллекта с открытым исходным кодом, работающая в автономном режиме с бешеной скоростью.

Supertonic - это высокопроизводительная система преобразования текста в речь (TTS) с открытым исходным кодом, ориентированная на быструю генерацию речи на локальных устройствах. Используя технологию ONNX Runtime, она может работать на таких устройствах, как мобильные телефоны, компьютеры и даже Raspberry Pi, поддерживает 23 языка и речевые клоны, и не требует сетевого...
5 месяцев назад
031.5K
Koina - 慕尼黑工大联合密歇根大开源的去中心化机器学习平台

Koina - децентрализованная платформа машинного обучения с открытым исходным кодом, разработанная TU Munich совместно с Мичиганским университетом

Koina - это децентрализованная платформа машинного обучения с открытым исходным кодом, направленная на упрощение анализа данных по протеомике. Она разработана командой из Мюнхенского технического университета (Германия) и Мичиганского университета (США). Платформа интегрирует более 30 основных моделей (например, ProSIT, MS²PIP) через стандартизированный интерфейс и поддерживает пептидные масс...
6 месяцев назад
031.5K
InfinityStar - 字节开源的统一时空自回归视频生成框架

InfinityStar - байтовая унифицированная система генерации пространственно-временного видео с авторегрессией с открытым исходным кодом

InfinityStar - это унифицированный пространственно-временной авторегрессионный фреймворк с открытым исходным кодом от ByteDance, предназначенный для создания изображений и видео высокого разрешения. Используя дискретный авторегрессионный подход, он может одновременно решать задачи преобразования текста в изображение, текста в видео и изображения в видео в рамках одной модели. Фреймворк протестирован в бенчмарке VBench ...
6 месяцев назад
031.4K
DeepOCR - 基于DeepSeek-OCR模型的开源复刻项目

DeepOCR - проект реплики с открытым исходным кодом, основанный на модели DeepSeek-OCR

DeepOCR - проект репликации с открытым исходным кодом, реализующий основную архитектуру DeepSeek-OCR, которая эффективно обрабатывает текстовую информацию с помощью методов оптического сжатия. Ядром является DeepEncoder, состоящий из SAM-базы (обработка изображений высокого разрешения), 16× сверточного компрессора...
6 месяцев назад
031.4K
Seekdb - 蚂蚁OceanBase开源的AI原生混合搜索数据库

Seekdb - гибридная поисковая база данных Ant OceanBase с открытым исходным кодом и искусственным интеллектом

Seekdb (OceanBase Seekdb) - это гибридная поисковая база данных Ant OceanBase с открытым исходным кодом AI native, поддерживающая унифицированный гибридный поиск векторных, полнотекстовых, скалярных и геопространственных данных, использующая многоступенчатый механизм поиска, для достижения высокой точности поиска при низкой задержке ...
5 месяцев назад
031.3K
GigaBrain-0 - 开源的具身基础模型,由世界模型生成数据驱动

GigaBrain-0 - базовая воплощенная модель с открытым исходным кодом, управляемая данными генерации модели мира

GigaBrain-0 - первая в Китае сквозная воплощенная базовая модель Vision-Language-Action (VLA), использующая мировые данные о генерации моделей для достижения реального машинного обобщения и совместно выпущенная с открытым исходным кодом компаниями GigaVision и Hubei Humanoid Robotics Innovation Centre. В ней используется гибридная архитектура Transformer, объединяющая ...
6 месяцев назад
031.1K
FG-CLIP 2 - 360开源的图文跨模态视觉语言模型

FG-CLIP 2 - 360 Open Source Cross-Modal Visual Language Model for Graphics

FG-CLIP 2 - ведущая в мире графическая кросс-модальная модель визуального языка (VL-M), созданная 360 Artificial Intelligence Research Institute, превосходящая аналогичные модели от Google и Meta в 29 авторитетных бенчмарках, что делает ее самой мощной VL-M на сегодняшний день.Она способна точно определить грубые...
6 месяцев назад
031.1K
Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

Vidi2 - мультимодальное понимание видео и генеративное макромоделирование с открытым исходным кодом от ByteHop

Vidi2 - это мультимодальная модель понимания и генерации видео второго поколения, открытая компанией ByteDance, ориентированная на понимание, анализ и создание видеоконтента. Она поддерживает совместный ввод текста, видео и аудио, может одновременно понимать содержимое изображения, звуковую информацию и команды на естественном языке для достижения кросс-модального взаимодействия и...
5 месяцев назад
030.7K
PartCrafter - 北大联合字节开源的单图3D生成模型

PartCrafter - NU United Bytes с открытым исходным кодом для создания 3D-модели одной фигуры

PartCrafter - это передовая генеративная 3D-модель, совместно предложенная Пекинским университетом, ByteDance и Университетом Карнеги-Меллон. Она может генерировать несколько семантически явных и геометрически разнообразных 3D-частей сетки из одного RGB-изображения одновременно. Модель моделируется через комбинаторное потенциальное пространство и...
5 месяцев назад
030.6K
ROCK - 阿里巴巴开源的智能体训练环境沙箱

ROCK - песочница с открытым исходным кодом Alibaba для интеллектуальной среды тренировки тела

ROCK (Reinforcement Open Construction Kit) - это открытая песочница Alibaba для тренировки интеллекта, которая решает проблему невозможности масштабного обучения интеллекта в реальных условиях. ROCK предоставляет высокостабильный сервис управления песочницей...
5 месяцев назад
030.5K
VibeVoice-Realtime - 微软开源的轻量级实时文本转语音模型

VibeVoice-Realtime - открытая модель преобразования текста в речь в реальном времени с открытым исходным кодом от Microsoft

VibeVoice-Realtime - это легкая модель преобразования текста в речь (TTS) с открытым исходным кодом от Microsoft, предназначенная для взаимодействия в реальном времени и с низкой задержкой. Поддерживает потоковый ввод текста, с первого текстового маркера может быть озвучен, задержка составляет всего около 300 мс, подходит для динамического количества ...
5 месяцев назад
030.4K
SAIL-VL2 - 字节跳动开源的多模态视觉语言模型

SAIL-VL2 - мультимодальная модель визуального языка с открытым исходным кодом от ByteHop

SAIL-VL2 - это мультимодальная модель визуального языка с открытым исходным кодом, разработанная командой Byte Jump и ориентированная на совместное моделирование мультимодальных входных данных, таких как изображения и текст. Используя архитектуру разреженной смеси экспертов (MoE) и стратегию прогрессивного обучения, она достигает высокой производительности при масштабах параметров от 2B до 8B, особенно в областях графического понимания, математического...
7 месяцев назад
030.4K
GLM-4.6V - 智谱AI开源的多模态大语言模型系列

GLM-4.6V - Серия мультимодальных моделей большого языка с открытым исходным кодом Wisdom Spectrum AI

GLM-4.6V - серия мультимодальных больших языковых моделей с открытым исходным кодом от Smart Spectrum AI. Серия содержит две версии: GLM-4.6V (106B-A12B), базовая версия для облачных и высокопроизводительных кластерных сценариев, с архитектурой Mixed Expert (MoE), общим количеством около 106 миллиардов ссылок, и активацией...
5 месяцев назад
030K
opcode - 专为Claude Code设计的开源图形化桌面应用

opcode - графическое настольное приложение с открытым исходным кодом, разработанное для Claude Code

opcode предназначен для графического настольного приложения Claude Code с открытым исходным кодом, разработчик winfunc на основе Tauri 2 + React 18 + Rust разработки. Предоставляет визуальный интерфейс для управления проектами Claude Code, поддержку создания ...
4 месяца назад
029.9K
悟界·Emu3.5 - 智源研究院开源的多模态世界大模型

Wujie-Emu3.5 - Исследовательский институт Wisdom Source с открытым исходным кодом мультимодальной большой модели мира

Wujie-Emu3.5 - мультимодальная макромодель мира с открытым исходным кодом от Beijing Zhiyuan Artificial Intelligence Research Institute, имеющая 34 миллиарда ссылок и способная моделировать мир. Обученная на 10 триллионах мультимодальных токенов (включая 790 лет видеоданных), она может моделировать законы физики и достигать генерации графики, визуального руководства...
5 месяцев назад
029.9K
Petri - Anthropic开源的 AI 安全审计框架

Petri - система аудита безопасности ИИ с открытым исходным кодом от Anthropic

Petri - это система аудита безопасности ИИ с открытым исходным кодом, разработанная компанией Anthropic, которая систематически оценивает безопасность и поведенческую согласованность моделей ИИ. Имитируя реальный сценарий, в котором автоматический аудитор проводит несколько раундов диалога с целевой моделью, а затем агент-судья действует на...
6 месяцев назад
029.7K
RoboCOIN - 智源联合多所高校开源的双臂机器人真机数据集

RoboCOIN - набор данных реальных двуруких роботов, открытый Wisdom Source в сотрудничестве с несколькими университетами.

RoboCOIN - это первый в мире крупномасштабный набор данных реальных машин для двуруких роботов, открытый Пекинским научно-исследовательским институтом искусственного интеллекта Zhiyuan совместно с рядом предприятий, колледжей и университетов. Он содержит 15 типов роботизированных платформ, 180 000 реальных траекторий движения и 421 тип сценариев задач. Главной особенностью является использование иерархической системы аннотирования для разбора задач...
5 месяцев назад
029.7K
Computer Use Preview - Google开源的AI浏览器自动化工具

Computer Use Preview - инструмент автоматизации браузера с открытым исходным кодом AI от Google

Computer Use Preview - это инструмент автоматизации браузера Google с открытым исходным кодом AI, основанный на модели Gemini, с помощью команд естественного языка для достижения взаимодействия с веб-страницами. Используя "снимок экрана → анализ → выполнение" процесса визуального распознавания, поддержка Playwrigh...
4 месяца назад
029.5K
FLUX.2 - 黑森林开源的图像生成与编辑模型

FLUX.2 - модель генерации и редактирования изображений с открытым исходным кодом Black Forest

FLUX.2 - это модель генерации и редактирования изображений с открытым исходным кодом, выпущенная Black Forest Labs, которая поддерживает текстовые необработанные изображения, ссылки на несколько изображений и редактирование изображений с более богатой детализацией, четкими текстурами и стабильным освещением. Существует четыре версии: FLUX.2 [pro] (сравнима с топовой закрытой...
5 месяцев назад
029.5K
InkSight - Google开源的AI手写识别工具

InkSight - инструмент распознавания рукописного текста с открытым исходным кодом от Google

InkSight - это инструмент распознавания рукописного текста с открытым исходным кодом от Google, который преобразует бумажные рукописные заметки в редактируемые цифровые файлы с чернилами (например, в формат SVG). В отличие от традиционного OCR, он может распознавать содержание текста, восстанавливать стиль почерка, структуру абзацев и ключевые пометки, а также поддерживать многоязыковую обработку.
5 месяцев назад
029.5K
GigaWorld-0 - 极佳视界开源的世界模型框架

GigaWorld-0 - GigaVision Open Source World Modelling Framework

GigaWorld-0 - это фреймворк модели мира с открытым исходным кодом от отечественного стартапа GigaAI, который в основном используется для решения проблемы узких мест в области эмбодированного интеллекта (Embodied AI). Эффективно генерируя высококачественные, разнообразные и физически реалистичные обучающие данные, толчок...
5 месяцев назад
029.4K
Bee - 腾讯混元联合清华开源的全栈多模态大模型项目

Bee - проект Tencent Mixed Meta и Tsinghua Open Source Full Stack Multimodal Large Model Project

Bee - это полнофункциональное решение с открытым исходным кодом для мультимодальных больших моделей, созданное совместными усилиями команды Tencent Mixed Element и Университета Цинхуа с целью сокращения разрыва в производительности между моделями с открытым и закрытым исходным кодом за счет повышения качества данных. Проект содержит три основных достижения: 15-миллионный высококачественный двухслойный набор данных CoT Honey-Data...
6 месяцев назад
029.2K
SenseNova-SI - 商汤科技开源的空间智能大模型系列

SenseNova-SI - семейство больших моделей пространственной разведки с открытым исходным кодом от ShangTang Technology

SenseNova-SI - это грандиозная модель пространственного интеллекта с открытым исходным кодом, выпущенная компанией ShangTech и направленная на улучшение способностей ИИ к пространственному пониманию и рассуждению. Модель демонстрирует превосходство в шести основных измерениях, включая пространственные измерения, реконструкцию, оценку отношений, преобразование перспективы, анализ деформации и пространственные рассуждения, значительно превосходя другие...
6 месяцев назад
028.3K
Flowra - 魔搭联合呜哩WULI团队开源的AI工作流开发工具

Flowra - инструмент для разработки рабочих процессов с использованием искусственного интеллекта, открытый командой Magic Hitch и Wooli WULI

Flowra - это ModelScope совместный woo mile WULI команды открытым исходным кодом граф выполнения двигателя и узла пакет инструментов разработки, является основным компонентом FlowBench. Посредством направленного ациклического графа (DAG) организация рабочего процесса, с интеллектуальным кэшированием, параллельным планированием, распределенной поддержкой ...
5 месяцев назад
028.2K
LongCat-Image - 美团LongCat团队开源的图像生成与编辑模型

LongCat-Image - команда LongCat с открытым исходным кодом для создания и редактирования изображений американской группы

LongCat-Image - это модель генерации и редактирования изображений с открытым исходным кодом, выпущенная командой LongCat из Meituan. Используя гибридную магистральную архитектуру (MM-DiT+Single-DiT) в сочетании с условным кодером на основе модели визуального языка (VLM), она способна генерировать изображения с текстом и выполнять несколько раундов редактирования изображений...
5 месяцев назад
028.1K
QwenLong-L1.5 - 阿里通义实验室开源的长文本推理模型

QwenLong-L1.5 - модель вывода длинных текстов с открытым исходным кодом лаборатории Али Тонги

QwenLong-L1.5 - это модель вывода длинных текстов с открытым исходным кодом от Alibaba Tongyi Lab, ориентированная на решение сложных задач вывода со сверхдлинными контекстами (например, 1M-4M лексем). Основной прорыв заключается в трех основных инновациях на этапе пост-обучения: с помощью графа знаний, синтаксического анализа SQL и мультиинтеллектуального...
4 месяца назад
027.9K
BestBlogs - 开源的AI内容聚合平台,精选优质技术内容

BestBlogs - платформа для агрегации контента ИИ с открытым исходным кодом и подборкой качественного технического контента

BestBlogs - это платформа, ориентированная на предоставление высококачественного контента для практиков в области технологий, предпринимателей, менеджеров по продуктам и других. Она собирает статьи, подкасты, видео и другой мультиформатный контент из более чем 400 высококачественных блогов с помощью RSS-каналов и технологии crawler. Основная сила компании заключается в использовании искусственного интеллекта, большого языка...
6 месяцев назад
027.7K
Mistral 3 - Mistral AI发布开源的最新多模态大模型系列

Mistral 3 - Mistral AI выпускает новейшую серию мультимодальных больших моделей с открытым исходным кодом

Mistral 3 - это последняя серия мультимодальных больших моделей, выпущенная компанией Mistral AI с открытым исходным кодом. Она состоит из флагманской модели Mistral Large 3 (675B общих параметров) и более легкой версии серии Ministral (3B/8B/14B), обе из которых поддерживают восприятие изображений...
5 месяцев назад
027K
Ovis-Image - 阿里AIDC-AI团队开源的文生图模型

Ovis-Image - Графическая модель венчурной деятельности с открытым исходным кодом от команды Ali AIDC-AI

Ovis-Image - это модель графа с 7 миллиардами параметров, созданная командой AIDC-AI из Alibaba International Digital Commerce Group и ориентированная на высококачественную визуализацию текста. Основанная на архитектуре Ovis-U1, она унаследовала передовой визуальный декодер и двунаправленный очиститель токенов...
5 месяцев назад
026.6K
ChatTutor - 开源的AI教学辅助工具,可视化互动学习

ChatTutor - учебное пособие с искусственным интеллектом с открытым исходным кодом для визуализации интерактивного обучения

ChatTutor - это учебное пособие с открытым исходным кодом AI, ориентированное на визуальное интерактивное обучение по предметам STEM. Благодаря многоинтеллектуальной архитектуре тела для достижения диалога Q&A и динамической функции рисования, могут быть нарисованы на доске в реальном времени математические графики, физические схемы или карты ума, чтобы помочь пользователям интуитивно понять абстрактные общие...
5 месяцев назад
026.5K