Последние ресурсы по искусственному интеллекту

共 3100 篇文章
问小白o4 - 问小白推出的并行思考模型,同时开启8条思考路径

Ask o4 - модель параллельного мышления, представленная Ask o4, которая открывает 8 путей мышления одновременно

Ask White o4 - это инновационная модель параллельного мышления, которая открывает 8 путей мышления одновременно, анализирует проблему с разных точек зрения и автоматически отфильтровывает оптимальное решение. Модель использует передовые технологии обучения с подкреплением Long-CoT и обучения с вознаграждением за процесс, обладает мощными возможностями глубоких рассуждений и отлично справляется со сложными задачами.
8 месяцев назад
041.3K
rStar2-Agent - 微软开源的高效AI推理模型

rStar2-Agent - эффективная модель искусственного интеллекта с открытым исходным кодом от Microsoft

rStar2-Agent - это продвинутая модель математических рассуждений ИИ с открытым исходным кодом от Microsoft, которая демонстрирует сильные возможности решения математических задач, достигнув точности 80,61 TP3T в тесте AIME24. Модель обладает способностями к научным рассуждениям, достигнув в бенчмарке GPQA-Diamond...
8 месяцев назад
041.3K
Hunyuan-MT-7B - 腾讯混元开源的轻量级翻译模型

Hunyuan-MT-7B - модель облегченного перевода Tencent Mixed Meta с открытым исходным кодом

Hunyuan-MT-7B - это облегченная модель перевода, представленная командой Tencent's Mixed Meta Team, имеющая 7 миллиардов ссылок и поддерживающая взаимный перевод 33 языков и 5 народно-китайских языков/диалектов, включая кантонский, уйгурский и тибетский. В конкурсе WMT2025 Международной ассоциации вычислительной лингвистики (ACL)...
8 месяцев назад
041.2K
MCP Registry - GitHub推出的官方MCP服务器管理平台

MCP Registry - официальная платформа управления серверами MCP с GitHub.

MCP Registry - это централизованная платформа от GitHub, которая помогает разработчикам легче находить и устанавливать MCP-серверы. С помощью MCP Registry разработчики могут быстро найти необходимые им инструменты искусственного интеллекта в одном месте, что значительно упрощает...
7 месяцев назад
041.2K
NitroGen - 英伟达联合斯坦福大学、加州理工等开源的游戏AI模型

NitroGen - модель игрового ИИ с открытым исходным кодом от NVIDIA в сотрудничестве со Стэнфордом, Калифорнийским технологическим институтом и другими.

NitroGen - это модель игрового ИИ с открытым исходным кодом, разработанная NVIDIA совместно со Стэнфордским университетом, Калифорнийским технологическим институтом и другими учреждениями, способная играть в более чем 1000 различных типов игр. Модель основана на архитектуре GROOT N1.5 и достигается путем анализа 40 000 часов игровых видеоданных (включая аннотацию операций с джойстиком)...
4 месяца назад
041K
DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

DeepSeek-V3.2-Exp - новейшая экспериментальная модель искусственного интеллекта DeepSeek с открытым исходным кодом

DeepSeek-V3.2-Exp - экспериментальная модель искусственного интеллекта с открытым исходным кодом от компании DeepSeek, которая значительно повышает эффективность обработки длинных текстов за счет внедрения механизма DeepSeek Sparse Attention (DSA). Модель основана на DeepSeek...
7 месяцев назад
041K
DeepSeek-V3.1-Terminus - DeepSeek推出的最新版AI模型

DeepSeek-V3.1-Terminus - последняя версия модели искусственного интеллекта, представленная компанией DeepSeek.

DeepSeek-V3.1-Terminus - это обновленная версия DeepSeek-V3.1, языковой модели искусственного интеллекта от команды DeepSeek. Модель была оптимизирована с точки зрения согласованности языка, генерации кода и возможностей поиска для более точного...
7 месяцев назад
040.8K
olmOCR 2 - AI2开源的多模态文档解析模型

olmOCR 2 - модель мультимодального разбора документов с открытым исходным кодом AI2

olmOCR 2 - это мультимодальная модель разбора документов с открытым исходным кодом от Института искусственного интеллекта Аллена (AI2), которая является обновленной версией olmOCR. Оцифрованные печатные документы (например, PDF) будут иметь высокую...
6 месяцев назад
040.7K
混元图像2.1 - 腾讯推出的开源文生图模型

Гибридное изображение 2.1 - Графическая модель поставщика с открытым исходным кодом Tencent

HunyuanImage 2.1 - это графическая модель с открытым исходным кодом от Tencent, предназначенная для создания высококачественных изображений. Модель поддерживает родное разрешение 2K, может точно прорисовывать сложные сцены и детали, благодаря чему ярко передается выражение лица и движения персонажа.
8 месяцев назад
040.6K
Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型

Depth Anything 3 - 3D модели визуальной реконструкции с открытым исходным кодом от Bitmap Seed

Depth Anything 3 (DA3) - это модель визуальной 3D-реконструкции, разработанная командой Byte Jump Seed с открытым исходным кодом. Благодаря единой архитектуре трансформеров для достижения пространственной реконструкции геометрии в любой точке обзора, необходимо только предсказать карту глубины и карту лучей, чтобы восстановить 3D-сцену, по сравнению с...
5 месяцев назад
040.4K
EverMemOS - 盛大团队推出的开源长期记忆操作系统

EverMemOS - операционная система с открытым исходным кодом для долговременной памяти от команды Shanda

EverMemOS - операционная система долговременной памяти с открытым исходным кодом, созданная командой Shanda под руководством Чена Тяньцяо, предназначенная для искусственного интеллекта, чтобы решить проблему нехватки памяти, вызванную фиксированным контекстным окном больших языковых моделей. Система основана на механизме памяти человеческого мозга и использует четырехслойную архитектуру (слой агента, слой памяти, слой индекса...
5 месяцев назад
040.4K
MiMo-V2-Flash - 小米发布的开源MoE架构大模型

MiMo-V2-Flash - большая модель архитектуры MoE с открытым исходным кодом, выпущенная компанией Xiaomi

MiMo-V2-Flash - это большая модель с открытым исходным кодом на основе архитектуры MoE, выпущенная компанией Xiaomi, с 309 миллиардами общих параметров и 15 миллиардами активных параметров, ориентированная на эффективное рассуждение и применение в интеллектуальном теле. Модель использует гибридную архитектуру внимания и технологию многословного мета-предсказания со скоростью вывода 150 лексем/секунду, в...
4 месяца назад
040.3K
PaCoRe - 阶跃星辰开源的并行协同AI推理框架

PaCoRe - система параллельных совместных рассуждений ИИ с открытым исходным кодом StepStar

PaCoRe (Parallel Coordinated Reasoning) - это инновационная система параллельных совместных рассуждений с открытым исходным кодом от StepFun, использующая механизм параллельного мышления, позволяющий одновременно исследовать решение проблемы с нескольких точек зрения, преодолевая традиционные...
5 месяцев назад
040.2K
XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - открытый движок Shanghai AI Lab для обучения больших моделей

XTuner V1 - это новое поколение движка для обучения больших моделей с открытым исходным кодом Шанхайской лаборатории искусственного интеллекта, предназначенного для обучения сверхбольших моделей с разреженными смешанными экспертами (MoE). Разработанный на основе PyTorch FSDP, он достигает высокой производительности за счет многомерной оптимизации памяти, связи и нагрузки...
8 месяцев назад
040.2K
SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

SongBloom - модель генерации песен с открытым исходным кодом от Tencent в сотрудничестве с HKCS и NTU

SongBloom - это модель генерации песен с открытым исходным кодом, разработанная Tencent AI Lab в сотрудничестве с Китайским университетом Гонконга (Шэньчжэнь) и Нанкинским университетом, которая решает проблему "пластичности" в генерации музыки ИИ и обеспечивает высококачественную, структурно полную генерацию песен. Просто введите 10 секунд эталонного аудио и соответствующий текст, и вы сможете...
7 месяцев назад
040.2K
Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate - генеративная модель для генерации действий из тунъи Ваньсяна с открытым исходным кодом

Wan2.2-Animate - это модель генерации действий с открытым исходным кодом от Tongyi Wanxiang, поддерживающая два режима: имитацию действий и ролевую игру. Пользователям нужно только ввести изображение персонажа и эталонное видео, модель может перенести движения и выражения видео персонажа на изображение персонажа, придавая изображению персонажа динамическое выражение...
7 месяцев назад
040.1K
Ling-V2 - 蚂蚁百灵开源的MoE架构语言模型系列

Ling-V2 - Серия моделей языка архитектуры MoE с открытым исходным кодом Ant-Belling

Ling-V2 - это семейство крупномасштабных языковых моделей, основанных на архитектуре MoE, представленной командой Ant-Belling. Первая версия, Ling-mini-2.0, имеет 16 миллиардов общих параметров, при этом на одну входную лексему активируется только 1,4 миллиарда параметров.
7 месяцев назад
040K
Alpamayo-R1 - 英伟达开源的带推理能力的视觉-语言-行动模型

Alpamayo-R1 - открытая модель видения-языка-действия от NVIDIA с возможностями рассуждения

Alpamayo-R1 - это разработанная NVIDIA модель Vision-Language-Action (VLA) с возможностью рассуждений, предназначенная для улучшения способности автономного вождения принимать решения в сложных сценариях. Внедряя механизм рассуждений о причинно-следственных цепочках, автомобиль способен анализировать причинно-следственные связи сценария (например, "из-за предыдущего...
5 месяцев назад
040K
MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 - сверхэффективное макромоделирование с торцевой стороны с помощью технологии Facing Face Intelligence

MiniCPM 4.1 - это сверхэффективная конечная модель большого языка, представленная компанией Facade Intelligence. Благодаря архитектуре разреженного внимания InfLLM v2, каждой лексеме требуется вычислять корреляцию только с менее чем 5% лексем, что значительно снижает затраты на обработку длинных текстов. В сценарии с длинным текстом объемом 128K...
8 месяцев назад
039.8K
Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型

Ming-UniAudio - Ant Open Source Unified Audio Multimodal Generation Model

Ming-UniAudio - это унифицированная мультимодальная модель генерации звука с открытым исходным кодом от Ant Group, которая поддерживает смешанный ввод и вывод текста, аудио, изображений и видео. Используя многомасштабную архитектуру трансформатора и смешанного эксперта (MoE), с помощью механизма маршрутизации с учетом модальностей для эффективной обработки кросс-модальных ...
7 месяцев назад
039.6K
CWM - Meta FAIR开源的代码世界语言模型

CWM - Meta FAIR Open Source Code World Language Model

CWM (Code World Model) - это 32-миллиардная модель языка мира с открытым исходным кодом, выпущенная командой Meta FAIR и предназначенная для генерации и обоснования кода. Она вводит понятие "модель мира", которая может имитировать процесс выполнения кода, предсказывать изменения состояния переменных и продвигать...
7 месяцев назад
039.5K
混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型

Mixed Motion 1.0 - Команда Tencent Mixed Motion с открытым исходным кодом для генерации текстовых 3D-моделей движения

Hybrid Motion1.0 (HY-Motion1.0) является открытым исходным кодом Tencent Hybrid команды текст генерируется 3D модель действий, используя 1 миллиард параметров Diffusion Transformer архитектуры, может быть непосредственно генерируется через естественный язык описания высококачественной 3D анимации персонажа.
4 месяца назад
039.5K
Lynx - 字节跳动开源的高保真视频生成模型

Lynx - модель генерации видео высокой точности с открытым исходным кодом от ByteHop

Lynx - это модель генерации персонализированного видео с высокой точностью и открытым исходным кодом от ByteDance, которая может генерировать видео, соответствующее личности, используя только одну портретную фотографию. Построенная на основе базовой модели диффузионного трансформатора (DiT), введение ID-адаптера и Ref-адаптера...
7 месяцев назад
039.4K
Paper2Slides - 香港大学开源的学术论文转为幻灯片AI工具

Paper2Slides - инструменты ИИ для преобразования научных статей в слайды с открытым исходным кодом Университета Гонконга

Paper2Slides - это инструмент искусственного интеллекта с открытым исходным кодом, разработанный лабораторией Data Intelligence Laboratory Гонконгского университета, который одним щелчком мыши преобразует научные статьи в профессиональные слайды или постеры. Используя технологию RAG (Retrieval Augmented Generation), она напрямую анализирует содержимое документа, а не полагается на сетевую информацию, чтобы гарантировать, что созданный PPT будет полностью соответствовать оригиналу...
5 месяцев назад
039.4K
Granite-Docling-258M - IBM开源的视觉语言模型

Гранит-Доклинг-258М - Визуальные языковые модели IBM с открытым исходным кодом

Granite-Docling-258M - это ультракомпактная модель визуального языка с открытым исходным кодом от IBM, предназначенная для эффективного преобразования документов. Модель преобразует документы в машиночитаемый формат, сохраняя при этом макет, таблицы, формулы и другие элементы в неизменном виде.
7 месяцев назад
039.3K
MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型

MAI-UI - Открытая универсальная графическая модель тела с интеллектуальным интерфейсом от Ali Tongyi Labs

MAI-UI - это универсальная базовая модель интеллектуального тела с открытым исходным кодом от Alibaba Tongyi Labs, обладающая четырьмя основными возможностями: работа с кросс-приложениями, нечеткое семантическое понимание, активное взаимодействие с пользователем и многоступенчатая координация процессов. Применяя архитектуру взаимодействия "конец-облако", легкая модель размещается в устройстве для решения повседневных задач, а сложные задачи могут вызывать облачные...
4 месяца назад
038.9K
LazyCraft - 开源AI Agent应用开发与管理平台,基于LazyLLM构建

LazyCraft - платформа для разработки и управления приложениями ИИ-агентов с открытым исходным кодом, построенная на базе LazyLLM

LazyCraft - это платформа разработки и управления приложениями AI Agent с открытым исходным кодом, созданная компанией Shangtang на основе открытого исходного кода LazyLLM, предоставляющая универсальные решения по разработке приложений AI для предприятий и разработчиков. Помогает разработчикам быстро создавать и выпускать крупные модели приложений с низким порогом и низкой стоимостью...
6 месяцев назад
038.8K
DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

DreamOmni2 - модель редактирования и генерации мультимодальных изображений ИИ с открытым исходным кодом HKUST

DreamOmni2 - это мультимодальная модель редактирования и генерации изображений с открытым исходным кодом, созданная командой Цзяцзя в HKUST. Она может одновременно обрабатывать текстовые и графические команды, а также поддерживает несколько опорных изображений, предоставляя создателям более гибкие возможности для творчества. Модель обучается с помощью трехэтапного процесса синтеза данных, совместного обучения генерации/редактирования...
6 месяцев назад
038.8K
UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

UniPixel - мультимодальная модель на уровне пикселя с открытым исходным кодом от Гонконгского политехнического института, Tencent, CAS и др.

UniPixel - это новая мультимодальная модель, совместно предложенная Гонконгским политехническим университетом, компанией Tencent, Китайской академией наук и компанией Vivo для достижения понимания визуального языка на уровне пикселей. Объединяя возможности привязки к объектам и сегментации, она поддерживает различные тонкие задачи, такие как сегментация изображений, сегментация видео, понимание регионов и пи...
7 месяцев назад
038.7K
GELab-Zero - 阶跃团队开源的端侧多模态GUI Agent模型

GELab-Zero - мультимодальная GUI-модель агента с открытым исходным кодом от команды Steps

GELab-Zero - это мультимодальная модель агента GUI с открытым исходным кодом от команды Step Leap, построенная на базовой модели Qwen3-VL-4B-Instruct с параметрами 4B. Она может распознавать элементы пользовательского интерфейса и выполнять такие операции, как нажатие, скольжение и т.д., а также поддерживает кросс-прикладную постановку задач...
5 месяцев назад
038.6K
Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目

Paper2Video - проект NUS с открытым исходным кодом для автоматического создания демонстрационных видеороликов научных статей

Paper2Video - это проект с открытым исходным кодом для автоматизированного создания презентационных видеороликов для научных работ в лаборатории Show Lab, Национальный университет Сингапура. С помощью мультиинтеллектуального фреймворка PaperTalker статьи превращаются в полноценные презентационные видеоролики, содержащие слайды, субтитры, голос за кадром и аватар докладчика...
7 месяцев назад
038.6K
混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架

Mixed World Model 1.5 - Tencent Mixed Open Source Real-time World Model Generation Framework

Hybrid World Model 1.5 (Tencent HY WorldPlay) - это первый в отрасли фреймворк с открытым исходным кодом для моделирования мира в реальном времени, выпущенный компанией Tencent и охватывающий всю цепочку развертывания данных, обучения и потокового вывода. В основе лежит авторегрессионная диффузионная модель WorldPlay, которая использует Next-F...
4 месяца назад
038.6K
Mini-o3 - 字节、港大联合开源的视觉推理模型

Mini-o3 - Bytes, HKU Joint Open Source Visual Reasoning Model

Mini-o3 - это модель с открытым исходным кодом, созданная совместно ByteDance и Университетом Гонконга и предназначенная для решения сложных задач визуального поиска. Модель обладает мощными возможностями многораундового интерактивного рассуждения и может находить цель путем глубокого исследования и проб и ошибок.
8 месяцев назад
038.4K
混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

Модель смешанного мира 1.1 - Tencent Mixed World выпустила открытую 3D-реконструированную большую модель

WorldMirror 1.1 (WorldMirror) - это 3D-реконструкция больших моделей с открытым исходным кодом, выпущенная командой Tencent's WorldMirror, которая является обновленной версией серии WorldMirror. Она поддерживает многоракурсные изображения, видео и мультимодальные априорные данные, такие как положение камеры, внутренняя ссылка, карта глубины и т. д. Она преодолевает традиционную 3D-реконструкцию, которая полагается только на...
6 месяцев назад
038.4K
SHARP - 苹果开源的单目视图3D场景合成技术

SHARP - технология создания 3D-сцен с монокулярным обзором с открытым исходным кодом от Apple

SHARP (Sharp Monocular View Synthesis in Less Than a Second) - технология синтеза монокулярного изображения с открытым исходным кодом от Apple. Она позволяет быстро генерировать реалистичное 3D-представление сцены на основе одной фотографии менее чем за секунду...
4 месяца назад
038.3K
HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR - экспертная модель Tencent с открытым исходным кодом для оптического распознавания символов

HunyuanOCR - это высокопроизводительная модель оптического распознавания символов с открытым исходным кодом, созданная гибридной командой Tencent и имеющая всего 1 миллиард ссылок. Разработанная на основе гибридной мультимодальной архитектуры, она имеет сквозной дизайн и может эффективно справляться с задачами обнаружения, распознавания и разбора текста. Модель набрала 94,1 балла в тесте на сложные документы, превзойдя...
5 месяцев назад
038.3K
LongCat-Flash-Thinking - 美团开源的高效推理模型

LongCat-Flash-Thinking - эффективная модель рассуждений для Meituan с открытым исходным кодом

LongCat-Flash-Thinking - это эффективная модель рассуждений, выпущенная командой LongCat в рамках Mission LongCat, которая становится все более мощной и профессиональной, сохраняя при этом экстремальную скорость LongCat-Flash-Chat. Модель основана на логике, математике, коде, интеллекте...
7 месяцев назад
038.2K
HunyuanVideo 1.5 - 腾讯混元免费开源的轻量级视频生成模型

HunyuanVideo 1.5 - бесплатная модель генерации видео с открытым исходным кодом Tencent mixed yuan

HunyuanVideo 1.5 является Tencent гибридной большой модели команды открытым исходным кодом легкая модель генерации видео, основанная на Diffusion Transformer (DiT) архитектуры, количество параметров составляет 8,3B. поддержка генерации 5-10 секунд видео высокой четкости, суб...
5 месяцев назад
037.9K
AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统

AutoMV - M-A-P - бесплатная система генерации музыкального видео с открытым исходным кодом, созданная совместно с Beipiao, NU и другими.

AutoMV - это система генерации музыкальных видеоклипов с открытым исходным кодом, разработанная командой M-A-P в сотрудничестве с несколькими университетами, которая может автоматически генерировать последовательные музыкальные видеоклипы на основе полных песен без обучения. Она использует многоинтеллектуальную совместную модель, включающую модули анализа музыки, написания сценария, режиссуры и контроля качества, и может точно анализировать тексты, ритмы...
4 месяца назад
037.9K
Youtu-Embedding - 腾讯优图开源的通用文本表示模型

Youtu-Embedding - Tencent Youtu Open Source Универсальная модель представления текста

Youtu-Embedding - это универсальная модель представления текста с открытым исходным кодом от Tencent's Youtu Labs, предназначенная для корпоративных приложений. Текст отображается в векторное пространство высокой размерности с помощью глубоких нейронных сетей, так что семантически схожие предложения оказываются ближе друг к другу в этом пространстве, что позволяет добиться точного семантического поиска.
7 месяцев назад
037.8K
RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - исследовательский институт Wisdom Source Research Institute с открытым исходным кодом и нулевым образцом кросс-онтологической обобщенной модели воплощения

RoboBrain-X0 - первая в мире воплощенная модель с открытым исходным кодом, поддерживающая кросс-онтологическое обобщение с нулевой выборкой, открытая исследовательским институтом Wisdom Source Research Institute и имеющая большое промышленное значение. Она может управлять несколькими реальными роботами различных конфигураций для выполнения базовых задач без тонкой настройки, а после небольшой тонкой настройки образца демонстрирует способность воспроизводить ...
7 месяцев назад
037.7K
聆音EchoCare - 香港科学院开源的超声基座大模型

EchoCare - Гонконгская академия наук с открытым исходным кодом Большая модель ультразвуковой базы

EchoCare - это большая модель ультразвуковой базы, разработанная Центром искусственного интеллекта и робототехники (CAIR) Гонконгского института инноваций и исследований Китайской академии наук (CAS), обученная на крупнейшем в мире наборе данных ультразвуковых изображений (более 4,5 миллионов изображений), охватывающем мультицентровые, мультирегиональные, мультиэтнические и более 50 индивидуальных...
7 месяцев назад
037.5K
nanochat - Karpathy免费开源的低成本模型训练项目

nanochat - бесплатный и открытый проект Карпати по обучению недорогим моделям

nanochat - это проект с открытым исходным кодом, созданный легендой ИИ и бывшим директором Tesla AI Андреем Карпати, который позволяет людям быстро обучить небольшую языковую модель, подобную ChatGPT, при очень низких затратах и простоте. Весь проект использует всего около 800...
7 месяцев назад
037.5K
AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - Фуданьский институт и Институт Али Дхармы и другие открытые рамки для создания интеллектуальной анимации изображений

AnyI2V - это фреймворк для создания анимации изображений, созданный совместно Фуданьским университетом, Академией Alibaba Darmo и другими компаниями, который позволяет преобразовывать статичные условные изображения (например, сетки, облака точек и т.д.) в динамичные видеоролики без необходимости сложного процесса обучения и большого количества данных.
8 месяцев назад
037.3K
DeepSearchQA - 谷歌开源的AI研究Agent测试基准

DeepSearchQA - эталоны тестирования агентов ИИ с открытым исходным кодом от Google

DeepSearchQA - эталонный тест ИИ-исследователя Google с открытым исходным кодом, предназначенный для оценки производительности интеллекта в сложных многоэтапных задачах запроса. Он состоит из 900 вручную разработанных задач "причинно-следственных цепочек", охватывающих 17 доменов, требующих от ИИ действовать как человек-исследователь и продвигаться по многоступенчатым...
5 месяцев назад
037.1K
SCAIL - 智谱联合清华开源的影视级角色动画生成框架

SCAIL - открытый фреймворк для создания анимационных персонажей для кино и телевидения от Wisdom spectrum и Tsinghua.

SCAIL (Studio-Grade Character Animation via In-Context Learning) - это система создания анимации персонажей для кино и телевидения, предложенная компанией Smart Spectrum в сотрудничестве с группой профессора Лю Юнцзиня из Университета Цинхуа. Благодаря...
5 месяцев назад
037.1K
Wan-Move - 阿里通义联合清华等开源的AI视频生成框架

Wan-Move - открытый фреймворк для создания видео с помощью искусственного интеллекта, разработанный Али Тонги совместно с Цинхуа и другими.

Wan-Move - это фреймворк для создания видео с открытым исходным кодом, разработанный совместно Ali Tongyi Labs, Университетом Цинхуа и другими учреждениями, ориентированный на создание высококачественных видеокомпозиций с помощью технологии точного управления движением. Основной технологией является "потенциальное управление траекторией", которое позволяет плавно добавить управление движением на уровне точек к существующей модели "изображение-видео"...
5 месяцев назад
037K
Zen Browser - 基于Firefox内核的开源AI网页浏览器

Zen Browser - веб-браузер с открытым исходным кодом, основанный на ядре Firefox.

Zen Browser - это браузер с открытым исходным кодом, основанный на ядре Firefox и ориентированный на простой и эффективный просмотр веб-страниц, с такими основными функциями, как вертикальная панель вкладок и изоляция рабочего пространства. Благодаря боковой панели он может четко отображать полный заголовок 50+ вкладок и поддерживать многооконный просмотр с разделенным экраном.
4 месяца назад
036.9K
VLAC - 上海AI Lab开源的具身奖励大模型

VLAC - большая модель воплощенных вознаграждений с открытым исходным кодом от Shanghai AI Lab

VLAC - это макромодель воплощенного вознаграждения с открытым исходным кодом от Шанхайской лаборатории искусственного интеллекта. Основанная на мультимодальной макромодели InternVL, она объединяет данные интернет-видео и данные о работе робота, чтобы обеспечить вознаграждение за процесс и оценку выполнения задачи для обучения робота с подкреплением в реальном мире.VLAC может эффективно ...
7 месяцев назад
036.8K
Qwen3-Next - 阿里通义推出的最新基础模型

Qwen3-Next - последняя базовая модель, выпущенная компанией Ali Tongyi

Qwen3-Next - это новое поколение гибридной архитектуры большой модели с открытым исходным кодом от Али Тонги, объединяющей технологии Gated DeltaNet и Gated Attention, которая хорошо справляется с длинными текстами, быстро делает выводы и экономит вычислительные ресурсы.
8 месяцев назад
036.5K
InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

InternVLA-M1 - открытый исходный код воплощенной двойной системы управления "мозг" Шанхайской лаборатории искусственного интеллекта

InternVLA-M1 - это воплощенный операционный "мозг" Шанхайской лаборатории искусственного интеллекта с открытым исходным кодом, который представляет собой большую модель двухсистемной работы, ориентированной на следование инструкциям. Она строит полный замкнутый цикл "думать-действовать-учиться" и отвечает за высокоуровневые пространственные рассуждения и планирование задач. Модель использует двухэтапную политику обучения...
7 месяцев назад
036.5K
MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied - модель педалированного интеллекта Xiaomi с открытым исходным кодом для кросс-доменного встраивания

MiMo-Embodied - это первая в мире кросс-эмбодиальная базовая модель, открытая Xiaomi Group, которая успешно объединяет эмбодированный ИИ и автономное вождение. Она решает проблему миграции знаний между воплощенным ИИ и автономным вождением и обеспечивает единое моделирование задач в этих двух областях.
5 месяцев назад
036.4K
Nemotron 3 - 英伟达发布的开源 AI 模型系列

Nemotron 3 - семейство моделей ИИ с открытым исходным кодом, выпущенное NVIDIA

Nemotron 3 - это семейство моделей ИИ с открытым исходным кодом, выпущенных NVIDIA в размерах Nano, Super и Ultra. В Nemotron 3 используется скрытая архитектура MoE, которая значительно повышает эффективность вычислений и снижает операционные расходы. Одна из...
4 месяца назад
036.2K
SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio - Мультимодальная модель сегментации аудио с открытым исходным кодом из Meta

SAM Audio - это мультимодальная модель сегментации звука с открытым исходным кодом, представленная компанией Meta для точного выделения произвольных целевых звуков из сложных аудиомиксов. Объединяя текстовые, визуальные и временные сигналы, она обеспечивает гибкую и эффективную обработку звука для таких задач, как редактирование, денуазинг, извлечение звука и...
4 месяца назад
036.2K
ClipSketch AI - 开源的AI视频转手绘分镜工具,支持B站、小红书

ClipSketch AI - инструмент с открытым исходным кодом для преобразования видео в нарисованное от руки с разделенным экраном, поддержка станции B, маленькая красная книга

ClipSketch AI - это инструмент с открытым исходным кодом, предназначенный для создания коротких видеороликов. Он может конвертировать видео с B station, Xiaohongshu и других платформ в нарисованные от руки раскадровки в один клик, поддерживает маркировку ключевых кадров, автоматическое создание субсцен и социальных копий, а также может интегрировать определенные пользователем роли.
4 месяца назад
036.1K
VTP - MiniMax海螺视频团队开源的视觉生成模型技术

VTP - технология визуального генеративного моделирования с открытым исходным кодом MiniMax Conch Video Team

VTP (Visual Tokenizer Pre-training) - это ключевая технология для визуальных генеративных моделей, предложенная командой MiniMax Conch Video для повышения производительности генеративной системы путем улучшения метода предварительного обучения визуального токенизатора (tokenizer). Традиционный метод...
4 месяца назад
035.9K
Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B - модель компьютерного ассистента Agent с открытым исходным кодом от Microsoft

Fara-7B - это выпущенная Microsoft с открытым исходным кодом модель компьютерно-оперативного агента (CUA) с 7 миллиардами параметров, основанная на архитектуре Qwen 2.5-VL-7B. Благодаря визуальному разбору скриншотов веб-страниц и выполнению кликов, вводов и т. д. на экране, ей не нужно полагаться на дополнительные деревья доступности или многочисленные большие модели...
5 месяцев назад
035.9K
OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM - модель агента ИИ для мобильных телефонов с открытым исходным кодом от Smart Spectrum AI

OpenAutoGLM - это интеллектуальная модель тела с открытым исходным кодом и возможностью "использования мобильного телефона", которая может понимать содержимое экрана мобильного телефона через мультимодальное восприятие и автоматически генерировать поток операций для выполнения заданных пользователем задач. Пользователям достаточно использовать естественный язык для описания потребностей, например, "открыть Meituan для поиска ближайшего горячего горшка...".
5 месяцев назад
035.8K
Frappe Builder - 开源的AI低代码网站构建工具,拖拽组件快速搭建

Frappe Builder - ИИ-конструктор сайтов с открытым исходным кодом, перетаскиваемые компоненты для быстрого создания.

Frappe Builder - это конструктор сайтов с открытым исходным кодом, разработанный компанией Frappe, основной особенностью которого является предоставление Figma-подобного визуального редактора, поддерживающего перетаскивание компонентов для быстрого создания сайтов. Является частью экологии Frappe (Frappeverse)...
6 месяцев назад
035.7K
MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - серия специализированных эффективных моделей вывода с открытым исходным кодом Meta

MobileLLM-R1 - это серия эффективных моделей вывода с открытым исходным кодом от Meta, предназначенная для математических, программистских и научных рассуждений. Она содержит базовую и конечную модели, с версиями 140 миллионов, 360 миллионов и 950 миллионов параметров соответственно. Модели не являются типовыми моделями чатов и имеют тонкую настройку под наблюдением (SFT...
8 месяцев назад
035.7K
Glow - 开源的命令行工具,支持在终端渲染Markdown文件

Glow - инструмент командной строки с открытым исходным кодом, поддерживающий рендеринг файлов Markdown в терминале

Glow - это инструмент командной строки с открытым исходным кодом для элегантного отображения файлов Markdown в терминале. Инструмент поддерживает выделение блоков кода, математических формул и других сложных элементов, предоставляя множество возможностей, таких как пользовательские стили, отображение страниц, поддержка мыши и так далее.
6 месяцев назад
035.5K
ChronoEdit - 英伟达与多伦多大学联合开源的AI图像编辑框架

ChronoEdit - ИИ-фреймворк для редактирования изображений с открытым исходным кодом от NVIDIA и Университета Торонто

ChronoEdit, система редактирования изображений с открытым исходным кодом, разработанная NVIDIA совместно с Университетом Торонто, переопределяет задачу редактирования изображений как задачу генерации видео, чтобы обеспечить временное и физическое соответствие результатов редактирования. Путем дистилляции предварительно обученной модели генерации видео с 14B параметрами из...
6 месяцев назад
035.5K
Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型

Kaleido - многосубъектная модель генерации эталонного видео с открытым исходным кодом, созданная Smart Spectrum AI совместно с Университетом Цинхуа и другими организациями.

Kaleido - это модель генерации мультисубъектного эталонного видео с открытым исходным кодом, разработанная совместно Хэфэйским технологическим университетом, Университетом Цинхуа и Smart Spectrum AI. Она генерирует предметно-согласованное видео на основе нескольких опорных изображений, решая недостатки существующих моделей в области многопредметной согласованности и разделения фона.Kaleido генерирует видео с помощью специализированных данных...
5 месяцев назад
035.5K
Androidify - 谷歌开源如何在Android上构建AI应用的免费资源

Androidify - бесплатные ресурсы Google по созданию приложений с искусственным интеллектом на Android

Androidify - это проект Google с открытым исходным кодом, помогающий разработчикам научиться создавать приложения с искусственным интеллектом на Android. В проекте используются новейшие технологии Google, такие как Jetpack Compose, Gemini API (через Fire...
7 месяцев назад
035.5K
KAT-Dev-72B-Exp - 快手开源的免费编程专用模型

KAT-Dev-72B-Exp - модель Racer с открытым исходным кодом для свободного программирования

KAT-Dev-72B-Exp - это модель большого языка программирования с открытым исходным кодом, созданная командой Racer, оптимизированная на основе методов обучения с подкреплением, которая достигла точности 74,6% в бенчмарке SWE-Bench Verified, что на данный момент является лучшим показателем среди моделей с открытым исходным кодом. Модель использует инновационные...
7 месяцев назад
035.4K
Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型

Ming-flash-omni-Preview - макромодель Ant Group с открытым исходным кодом и полной модальностью

Ming-flash-omni-Preview - полномодальная макромодель с открытым исходным кодом, выпущенная Ant Group inclusionAI, с масштабом параметров в сотни миллиардов, основанная на разреженной MoE архитектуре Ling 2.0, с общими параметрами 103B и активациями 9B...
6 месяцев назад
035.4K
RealVideo - 智谱 AI 开源的实时流式视频生成系统

RealVideo - система генерации потокового видео в реальном времени с открытым исходным кодом от Wisdom Spectrum AI

RealVideo - это система генерации потокового видео в реальном времени с открытым исходным кодом от Smart Spectrum AI, которая может быстро генерировать естественные и плавные видеоответы за 2-3 секунды. Пользователи просто загружают фотографию и вводят текст, а система генерирует соответствующий голос и видео, позволяя вести диалог с персонажами ИИ в режиме реального времени...
5 месяцев назад
035.4K
MedASR - 谷歌开源的医疗语音识别模型

MedASR - модель распознавания медицинской речи с открытым исходным кодом от Google

MedASR - это модель распознавания медицинской речи с 105 миллионами параметров, открытая компанией Google, отлаженная на 5000-часовом десенсибилизированном клиническом корпусе, оптимизированная для терминологии лекарств, дозировок и анатомической терминологии, со встроенной 6-граммовой моделью медицинского языка и коэффициентом ошибок в словах всего 4,6 на частном наборе данных по радиологии RAD-DICT...
4 месяца назад
035.3K
VitaBench - 美团LongCat开源的交互式Agent评测基准

VitaBench - бенчмарки MMT LongCat Open Source Interactive Agent Review

VitaBench - это первый интерактивный эталон оценки агентов для сложных жизненных сценариев, выпущенный командой LongCat компании Meituan и оценивающий всесторонние возможности больших модельных интеллектов в реальных жизненных сценариях. В качестве носителей для создания пакетов используются три высокочастотных жизненных сценария: заказ еды на вынос, обед в ресторане и путешествие...
6 месяцев назад
035.3K
Mistral Vibe - Mistral AI推出的开源命令行编码助手

Mistral Vibe - помощник по кодированию из командной строки с открытым исходным кодом от Mistral AI

Mistral Vibe - это ассистент командной строки с открытым исходным кодом от Mistral AI, разработанный на основе модели Devstral, который поддерживает взаимодействие на естественном языке для выполнения поиска кода, работы с файлами, контроля версий и других задач. Может автоматически сканировать структуру проекта и статус Git через символ @...
5 месяцев назад
035.2K
LLaVA-OneVision-1.5 - 免费开源的多模态模型,高性能多模态理解

LLaVA-OneVision-1.5 - бесплатная мультимодальная модель с открытым исходным кодом для высокопроизводительного мультимодального понимания

LLaVA-OneVision-1.5 - мультимодальная модель с открытым исходным кодом, разработанная командой EvolvingLMMS-Lab, использующая шкалу параметров 8B и прошедшая компактный трехэтапный процесс обучения (выравнивание языка и изображения, концептуальное уравновешивание и введение знаний, а также тонкая настройка инструкций) на 128 A800...
7 месяцев назад
035.1K
SmartResume - 阿里巴巴开源的AI简历解析与优化工具

SmartResume - открытый инструмент Alibaba для анализа и оптимизации резюме с помощью искусственного интеллекта

SmartResume - это интеллектуальный инструмент Alibaba с открытым исходным кодом для разбора и оптимизации резюме, который эффективно извлекает структурированную информацию, такую как основные сведения, образование и опыт работы, из документов PDF, изображений или документов Office. Благодаря интеграции технологии OCR и метаданных PDF...
6 месяцев назад
035.1K