Последние ресурсы по искусственному интеллекту

共 2985 篇文章
混元图像2.1 - 腾讯推出的开源文生图模型

Гибридное изображение 2.1 - Графическая модель поставщика с открытым исходным кодом Tencent

HunyuanImage 2.1 - это графическая модель с открытым исходным кодом от Tencent, предназначенная для создания высококачественных изображений. Модель поддерживает родное разрешение 2K, может точно прорисовывать сложные сцены и детали, благодаря чему ярко передается выражение лица и движения персонажа.
6 месяцев назад
033K
Molmo 2 - Ai2开源的多模态视频图像理解模型系列

Molmo 2 - семейство моделей мультимодального понимания видеоизображений с открытым исходным кодом Ai2

Molmo 2 - это мультимодальная модель с открытым исходным кодом, выпущенная Институтом искусственного интеллекта Аллена (Ai2) для улучшения понимания видео и мультиизображений. Включены три варианта: Molmo 2 (8B), Molmo 2 (4B) и Molmo 2-O...
3 месяца назад
033K
UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

UniPixel - мультимодальная модель на уровне пикселя с открытым исходным кодом от Гонконгского политехнического института, Tencent, CAS и др.

UniPixel - это новая мультимодальная модель, совместно предложенная Гонконгским политехническим университетом, компанией Tencent, Китайской академией наук и компанией Vivo для достижения понимания визуального языка на уровне пикселей. Объединяя возможности привязки к объектам и сегментации, она поддерживает различные тонкие задачи, такие как сегментация изображений, сегментация видео, понимание регионов и пи...
5 месяцев назад
032.9K
CWM - Meta FAIR开源的代码世界语言模型

CWM - Meta FAIR Open Source Code World Language Model

CWM (Code World Model) - это 32-миллиардная модель языка мира с открытым исходным кодом, выпущенная командой Meta FAIR и предназначенная для генерации и обоснования кода. Она вводит понятие "модель мира", которая может имитировать процесс выполнения кода, предсказывать изменения состояния переменных и продвигать...
6 месяцев назад
032.9K
Ling-V2 - 蚂蚁百灵开源的MoE架构语言模型系列

Ling-V2 - Серия моделей языка архитектуры MoE с открытым исходным кодом Ant-Belling

Ling-V2 - это семейство крупномасштабных языковых моделей, основанных на архитектуре MoE, представленной командой Ant-Belling. Первая версия, Ling-mini-2.0, имеет 16 миллиардов общих параметров, при этом на одну входную лексему активируется только 1,4 миллиарда параметров.
6 месяцев назад
032.7K
Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型

Depth Anything 3 - 3D модели визуальной реконструкции с открытым исходным кодом от Bitmap Seed

Depth Anything 3 (DA3) - это модель визуальной 3D-реконструкции, разработанная командой Byte Jump Seed с открытым исходным кодом. Благодаря единой архитектуре трансформеров для достижения пространственной реконструкции геометрии в любой точке обзора, необходимо только предсказать карту глубины и карту лучей, чтобы восстановить 3D-сцену, по сравнению с...
4 месяца назад
032.6K
混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

Модель смешанного мира 1.1 - Tencent Mixed World выпустила открытую 3D-реконструированную большую модель

WorldMirror 1.1 (WorldMirror) - это 3D-реконструкция больших моделей с открытым исходным кодом, выпущенная командой Tencent's WorldMirror, которая является обновленной версией серии WorldMirror. Она поддерживает многоракурсные изображения, видео и мультимодальные априорные данные, такие как положение камеры, внутренняя ссылка, карта глубины и т. д. Она преодолевает традиционную 3D-реконструкцию, которая полагается только на...
5 месяцев назад
032.5K
Alpamayo-R1 - 英伟达开源的带推理能力的视觉-语言-行动模型

Alpamayo-R1 - открытая модель видения-языка-действия от NVIDIA с возможностями рассуждения

Alpamayo-R1 - это разработанная NVIDIA модель Vision-Language-Action (VLA) с возможностью рассуждений, предназначенная для улучшения способности автономного вождения принимать решения в сложных сценариях. Внедряя механизм рассуждений о причинно-следственных цепочках, автомобиль способен анализировать причинно-следственные связи сценария (например, "из-за предыдущего...
3 месяца назад
032.5K
Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目

Paper2Video - проект NUS с открытым исходным кодом для автоматического создания демонстрационных видеороликов научных статей

Paper2Video - это проект с открытым исходным кодом для автоматизированного создания презентационных видеороликов для научных работ в лаборатории Show Lab, Национальный университет Сингапура. С помощью мультиинтеллектуального фреймворка PaperTalker статьи превращаются в полноценные презентационные видеоролики, содержащие слайды, субтитры, голос за кадром и аватар докладчика...
5 месяцев назад
032.2K
HunyuanVideo 1.5 - 腾讯混元免费开源的轻量级视频生成模型

HunyuanVideo 1.5 - бесплатная модель генерации видео с открытым исходным кодом Tencent mixed yuan

HunyuanVideo 1.5 является Tencent гибридной большой модели команды открытым исходным кодом легкая модель генерации видео, основанная на Diffusion Transformer (DiT) архитектуры, количество параметров составляет 8,3B. поддержка генерации 5-10 секунд видео высокой четкости, суб...
4 месяца назад
032.2K
EverMemOS - 盛大团队推出的开源长期记忆操作系统

EverMemOS - операционная система с открытым исходным кодом для долговременной памяти от команды Shanda

EverMemOS - операционная система долговременной памяти с открытым исходным кодом, созданная командой Shanda под руководством Чена Тяньцяо, предназначенная для искусственного интеллекта, чтобы решить проблему нехватки памяти, вызванную фиксированным контекстным окном больших языковых моделей. Система основана на механизме памяти человеческого мозга и использует четырехслойную архитектуру (слой агента, слой памяти, слой индекса...
4 месяца назад
032.2K
Mini-o3 - 字节、港大联合开源的视觉推理模型

Mini-o3 - Bytes, HKU Joint Open Source Visual Reasoning Model

Mini-o3 - это модель с открытым исходным кодом, созданная совместно ByteDance и Университетом Гонконга и предназначенная для решения сложных задач визуального поиска. Модель обладает мощными возможностями многораундового интерактивного рассуждения и может находить цель путем глубокого исследования и проб и ошибок.
6 месяцев назад
032.2K
Youtu-Embedding - 腾讯优图开源的通用文本表示模型

Youtu-Embedding - Tencent Youtu Open Source Универсальная модель представления текста

Youtu-Embedding - это универсальная модель представления текста с открытым исходным кодом от Tencent's Youtu Labs, предназначенная для корпоративных приложений. Текст отображается в векторное пространство высокой размерности с помощью глубоких нейронных сетей, так что семантически схожие предложения оказываются ближе друг к другу в этом пространстве, что позволяет добиться точного семантического поиска.
5 месяцев назад
032.1K
MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型

MAI-UI - Открытая универсальная графическая модель тела с интеллектуальным интерфейсом от Ali Tongyi Labs

MAI-UI - это универсальная базовая модель интеллектуального тела с открытым исходным кодом от Alibaba Tongyi Labs, обладающая четырьмя основными возможностями: работа с кросс-приложениями, нечеткое семантическое понимание, активное взаимодействие с пользователем и многоступенчатая координация процессов. Применяя архитектуру взаимодействия "конец-облако", легкая модель размещается в устройстве для решения повседневных задач, а сложные задачи могут вызывать облачные...
3 месяца назад
032.1K
Granite-Docling-258M - IBM开源的视觉语言模型

Гранит-Доклинг-258М - Визуальные языковые модели IBM с открытым исходным кодом

Granite-Docling-258M - это ультракомпактная модель визуального языка с открытым исходным кодом от IBM, предназначенная для эффективного преобразования документов. Модель преобразует документы в машиночитаемый формат, сохраняя при этом макет, таблицы, формулы и другие элементы в неизменном виде.
6 месяцев назад
031.9K
NitroGen - 英伟达联合斯坦福大学、加州理工等开源的游戏AI模型

NitroGen - модель игрового ИИ с открытым исходным кодом от NVIDIA в сотрудничестве со Стэнфордом, Калифорнийским технологическим институтом и другими.

NitroGen - это модель игрового ИИ с открытым исходным кодом, разработанная NVIDIA совместно со Стэнфордским университетом, Калифорнийским технологическим институтом и другими учреждениями, способная играть в более чем 1000 различных типов игр. Модель основана на архитектуре GROOT N1.5 и достигается путем анализа 40 000 часов игровых видеоданных (включая аннотацию операций с джойстиком)...
3 месяца назад
031.7K
LongCat-Flash-Thinking - 美团开源的高效推理模型

LongCat-Flash-Thinking - эффективная модель рассуждений для Meituan с открытым исходным кодом

LongCat-Flash-Thinking - это эффективная модель рассуждений, выпущенная командой LongCat в рамках Mission LongCat, которая становится все более мощной и профессиональной, сохраняя при этом экстремальную скорость LongCat-Flash-Chat. Модель основана на логике, математике, коде, интеллекте...
6 месяцев назад
031.7K
AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - Фуданьский институт и Институт Али Дхармы и другие открытые рамки для создания интеллектуальной анимации изображений

AnyI2V - это фреймворк для создания анимации изображений, созданный совместно Фуданьским университетом, Академией Alibaba Darmo и другими компаниями, который позволяет преобразовывать статичные условные изображения (например, сетки, облака точек и т.д.) в динамичные видеоролики без необходимости сложного процесса обучения и большого количества данных.
6 месяцев назад
031.6K
GELab-Zero - 阶跃团队开源的端侧多模态GUI Agent模型

GELab-Zero - мультимодальная GUI-модель агента с открытым исходным кодом от команды Steps

GELab-Zero - это мультимодальная модель агента GUI с открытым исходным кодом от команды Step Leap, построенная на базовой модели Qwen3-VL-4B-Instruct с параметрами 4B. Она может распознавать элементы пользовательского интерфейса и выполнять такие операции, как нажатие, скольжение и т.д., а также поддерживает кросс-прикладную постановку задач...
3 месяца назад
031.5K
RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - исследовательский институт Wisdom Source Research Institute с открытым исходным кодом и нулевым образцом кросс-онтологической обобщенной модели воплощения

RoboBrain-X0 - первая в мире воплощенная модель с открытым исходным кодом, поддерживающая кросс-онтологическое обобщение с нулевой выборкой, открытая исследовательским институтом Wisdom Source Research Institute и имеющая большое промышленное значение. Она может управлять несколькими реальными роботами различных конфигураций для выполнения базовых задач без тонкой настройки, а после небольшой тонкой настройки образца демонстрирует способность воспроизводить ...
5 месяцев назад
031.4K
VLAC - 上海AI Lab开源的具身奖励大模型

VLAC - большая модель воплощенных вознаграждений с открытым исходным кодом от Shanghai AI Lab

VLAC - это макромодель воплощенного вознаграждения с открытым исходным кодом от Шанхайской лаборатории искусственного интеллекта. Основанная на мультимодальной макромодели InternVL, она объединяет данные интернет-видео и данные о работе робота, чтобы обеспечить вознаграждение за процесс и оценку выполнения задачи для обучения робота с подкреплением в реальном мире.VLAC может эффективно ...
6 месяцев назад
031.4K
GLM-ASR - 智谱AI开源的高性能语音识别模型系列

GLM-ASR - серия высокопроизводительных моделей распознавания речи с открытым исходным кодом Wisdom Spectrum AI

GLM-ASR - это семейство высокопроизводительных моделей распознавания речи с открытым исходным кодом от Smart Spectrum AI, включающее облачную модель GLM-ASR-2512 и модель GLM-ASR-Nano-2512 с открытым исходным кодом. GLM-ASR-2512 - это ведущая в мире облачная модель распознавания речи, поддерживающая множество...
3 месяца назад
031.1K
nanochat - Karpathy免费开源的低成本模型训练项目

nanochat - бесплатный и открытый проект Карпати по обучению недорогим моделям

nanochat - это проект с открытым исходным кодом, созданный легендой ИИ и бывшим директором Tesla AI Андреем Карпати, который позволяет людям быстро обучить небольшую языковую модель, подобную ChatGPT, при очень низких затратах и простоте. Весь проект использует всего около 800...
5 месяцев назад
031.1K
混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型

Mixed Motion 1.0 - Команда Tencent Mixed Motion с открытым исходным кодом для генерации текстовых 3D-моделей движения

Hybrid Motion1.0 (HY-Motion1.0) является открытым исходным кодом Tencent Hybrid команды текст генерируется 3D модель действий, используя 1 миллиард параметров Diffusion Transformer архитектуры, может быть непосредственно генерируется через естественный язык описания высококачественной 3D анимации персонажа.
2 месяца назад
031K
MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied - модель педалированного интеллекта Xiaomi с открытым исходным кодом для кросс-доменного встраивания

MiMo-Embodied - это первая в мире кросс-эмбодиальная базовая модель, открытая Xiaomi Group, которая успешно объединяет эмбодированный ИИ и автономное вождение. Она решает проблему миграции знаний между воплощенным ИИ и автономным вождением и обеспечивает единое моделирование задач в этих двух областях.
4 месяца назад
031K
HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR - экспертная модель Tencent с открытым исходным кодом для оптического распознавания символов

HunyuanOCR - это высокопроизводительная модель оптического распознавания символов с открытым исходным кодом, созданная гибридной командой Tencent и имеющая всего 1 миллиард ссылок. Разработанная на основе гибридной мультимодальной архитектуры, она имеет сквозной дизайн и может эффективно справляться с задачами обнаружения, распознавания и разбора текста. Модель набрала 94,1 балла в тесте на сложные документы, превзойдя...
4 месяца назад
030.9K
LazyCraft - 开源AI Agent应用开发与管理平台,基于LazyLLM构建

LazyCraft - платформа для разработки и управления приложениями ИИ-агентов с открытым исходным кодом, построенная на базе LazyLLM

LazyCraft - это платформа разработки и управления приложениями AI Agent с открытым исходным кодом, созданная компанией Shangtang на основе открытого исходного кода LazyLLM, предоставляющая универсальные решения по разработке приложений AI для предприятий и разработчиков. Помогает разработчикам быстро создавать и выпускать крупные модели приложений с низким порогом и низкой стоимостью...
4 месяца назад
030.9K
InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

InternVLA-M1 - открытый исходный код воплощенной двойной системы управления "мозг" Шанхайской лаборатории искусственного интеллекта

InternVLA-M1 - это воплощенный операционный "мозг" Шанхайской лаборатории искусственного интеллекта с открытым исходным кодом, который представляет собой большую модель двухсистемной работы, ориентированной на следование инструкциям. Она строит полный замкнутый цикл "думать-действовать-учиться" и отвечает за высокоуровневые пространственные рассуждения и планирование задач. Модель использует двухэтапную политику обучения...
6 месяцев назад
030.8K
PaCoRe - 阶跃星辰开源的并行协同AI推理框架

PaCoRe - система параллельных совместных рассуждений ИИ с открытым исходным кодом StepStar

PaCoRe (Parallel Coordinated Reasoning) - это инновационная система параллельных совместных рассуждений с открытым исходным кодом от StepFun, использующая механизм параллельного мышления, позволяющий одновременно исследовать решение проблемы с нескольких точек зрения, преодолевая традиционные...
3 месяца назад
030.6K
OpenScreen - 开源免费的屏幕录制工具,支持Mac和Windows双系统

OpenScreen - бесплатный инструмент записи экрана с открытым исходным кодом для Mac и Windows.

OpenScreen - это бесплатный инструмент для записи экрана с открытым исходным кодом, который предоставляет пользователям простую в использовании и функциональную альтернативу Screen Studio. Она поддерживает Mac и Windows, полностью бесплатна, соответствует протоколу MIT и может использоваться для индивидуальной...
3 месяца назад
030.6K
聆音EchoCare - 香港科学院开源的超声基座大模型

EchoCare - Гонконгская академия наук с открытым исходным кодом Большая модель ультразвуковой базы

EchoCare - это большая модель ультразвуковой базы, разработанная Центром искусственного интеллекта и робототехники (CAIR) Гонконгского института инноваций и исследований Китайской академии наук (CAS), обученная на крупнейшем в мире наборе данных ультразвуковых изображений (более 4,5 миллионов изображений), охватывающем мультицентровые, мультирегиональные, мультиэтнические и более 50 индивидуальных...
5 месяцев назад
030.5K
Qwen3-Next - 阿里通义推出的最新基础模型

Qwen3-Next - последняя базовая модель, выпущенная компанией Ali Tongyi

Qwen3-Next - это новое поколение гибридной архитектуры большой модели с открытым исходным кодом от Али Тонги, объединяющей технологии Gated DeltaNet и Gated Attention, которая хорошо справляется с длинными текстами, быстро делает выводы и экономит вычислительные ресурсы.
6 месяцев назад
030.4K
ChronoEdit - 英伟达与多伦多大学联合开源的AI图像编辑框架

ChronoEdit - ИИ-фреймворк для редактирования изображений с открытым исходным кодом от NVIDIA и Университета Торонто

ChronoEdit, система редактирования изображений с открытым исходным кодом, разработанная NVIDIA совместно с Университетом Торонто, переопределяет задачу редактирования изображений как задачу генерации видео, чтобы обеспечить временное и физическое соответствие результатов редактирования. Путем дистилляции предварительно обученной модели генерации видео с 14B параметрами из...
4 месяца назад
030.1K
MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - серия специализированных эффективных моделей вывода с открытым исходным кодом Meta

MobileLLM-R1 - это серия эффективных моделей вывода с открытым исходным кодом от Meta, предназначенная для математических, программистских и научных рассуждений. Она содержит базовую и конечную модели, с версиями 140 миллионов, 360 миллионов и 950 миллионов параметров соответственно. Модели не являются типовыми моделями чатов и имеют тонкую настройку под наблюдением (SFT...
6 месяцев назад
030.1K
MiMo-V2-Flash - 小米发布的开源MoE架构大模型

MiMo-V2-Flash - большая модель архитектуры MoE с открытым исходным кодом, выпущенная компанией Xiaomi

MiMo-V2-Flash - это большая модель с открытым исходным кодом на основе архитектуры MoE, выпущенная компанией Xiaomi, с 309 миллиардами общих параметров и 15 миллиардами активных параметров, ориентированная на эффективное рассуждение и применение в интеллектуальном теле. Модель использует гибридную архитектуру внимания и технологию многословного мета-предсказания со скоростью вывода 150 лексем/секунду, в...
3 месяца назад
030K
Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型

Ming-flash-omni-Preview - макромодель Ant Group с открытым исходным кодом и полной модальностью

Ming-flash-omni-Preview - полномодальная макромодель с открытым исходным кодом, выпущенная Ant Group inclusionAI, с масштабом параметров в сотни миллиардов, основанная на разреженной MoE архитектуре Ling 2.0, с общими параметрами 103B и активациями 9B...
5 месяцев назад
029.9K
Androidify - 谷歌开源如何在Android上构建AI应用的免费资源

Androidify - бесплатные ресурсы Google по созданию приложений с искусственным интеллектом на Android

Androidify - это проект Google с открытым исходным кодом, помогающий разработчикам научиться создавать приложения с искусственным интеллектом на Android. В проекте используются новейшие технологии Google, такие как Jetpack Compose, Gemini API (через Fire...
5 месяцев назад
029.8K
SHARP - 苹果开源的单目视图3D场景合成技术

SHARP - технология создания 3D-сцен с монокулярным обзором с открытым исходным кодом от Apple

SHARP (Sharp Monocular View Synthesis in Less Than a Second) - технология синтеза монокулярного изображения с открытым исходным кодом от Apple. Она позволяет быстро генерировать реалистичное 3D-представление сцены на основе одной фотографии менее чем за секунду...
3 месяца назад
029.8K
LLaVA-OneVision-1.5 - 免费开源的多模态模型,高性能多模态理解

LLaVA-OneVision-1.5 - бесплатная мультимодальная модель с открытым исходным кодом для высокопроизводительного мультимодального понимания

LLaVA-OneVision-1.5 - мультимодальная модель с открытым исходным кодом, разработанная командой EvolvingLMMS-Lab, использующая шкалу параметров 8B и прошедшая компактный трехэтапный процесс обучения (выравнивание языка и изображения, концептуальное уравновешивание и введение знаний, а также тонкая настройка инструкций) на 128 A800...
5 месяцев назад
029.6K
VitaBench - 美团LongCat开源的交互式Agent评测基准

VitaBench - бенчмарки MMT LongCat Open Source Interactive Agent Review

VitaBench - это первый интерактивный эталон оценки агентов для сложных жизненных сценариев, выпущенный командой LongCat компании Meituan и оценивающий всесторонние возможности больших модельных интеллектов в реальных жизненных сценариях. В качестве носителей для создания пакетов используются три высокочастотных жизненных сценария: заказ еды на вынос, обед в ресторане и путешествие...
5 месяцев назад
029.4K
OmniVinci - NVIDIA开源的全模态大语言模型

OmniVinci - Омнимодальная модель большого языка с открытым исходным кодом от NVIDIA

OmniVinci - это крупномасштабная языковая модель с открытым исходным кодом, полностью модальная, разработанная NVIDIA, которая решает проблему модальной фрагментации в мультимодальных моделях с помощью архитектурных инноваций и оптимизации данных. Выравнивание визуальных и аудио вкраплений улучшено с помощью OmniAlignNet, которая использует временной групповой захват...
5 месяцев назад
029.3K
KAT-Dev-72B-Exp - 快手开源的免费编程专用模型

KAT-Dev-72B-Exp - модель Racer с открытым исходным кодом для свободного программирования

KAT-Dev-72B-Exp - это модель большого языка программирования с открытым исходным кодом, созданная командой Racer, оптимизированная на основе методов обучения с подкреплением, которая достигла точности 74,6% в бенчмарке SWE-Bench Verified, что на данный момент является лучшим показателем среди моделей с открытым исходным кодом. Модель использует инновационные...
5 месяцев назад
029.3K
VibeThinker-1.5B - 微博AI开源的15亿参数大型语言模型

VibeThinker-1.5B - крупномасштабная языковая модель с 1,5 миллиардами параметров, открытая Weibo AI

VibeThinker-1.5B - это крупномасштабная языковая модель с 1,5 миллиардами параметров, открыто представленная Weibo AI. Доработанная на основе Qwen2.5-Math-1.5B от Alibaba, она оптимизирована для решения математических задач и задач кодирования и демонстрирует лучшие в отрасли показатели точности выводов.
4 месяца назад
029.2K
Glow - 开源的命令行工具,支持在终端渲染Markdown文件

Glow - инструмент командной строки с открытым исходным кодом, поддерживающий рендеринг файлов Markdown в терминале

Glow - это инструмент командной строки с открытым исходным кодом для элегантного отображения файлов Markdown в терминале. Инструмент поддерживает выделение блоков кода, математических формул и других сложных элементов, предоставляя множество возможностей, таких как пользовательские стили, отображение страниц, поддержка мыши и так далее.
4 месяца назад
029.1K
SmartResume - 阿里巴巴开源的AI简历解析与优化工具

SmartResume - открытый инструмент Alibaba для анализа и оптимизации резюме с помощью искусственного интеллекта

SmartResume - это интеллектуальный инструмент Alibaba с открытым исходным кодом для разбора и оптимизации резюме, который эффективно извлекает структурированную информацию, такую как основные сведения, образование и опыт работы, из документов PDF, изображений или документов Office. Благодаря интеграции технологии OCR и метаданных PDF...
4 месяца назад
029.1K
GPT-5-Codex - OpenAI推出的最强编程模型

GPT-5-Codex - самая сильная модель программирования, представленная OpenAI

GPT-5-Codex - это мощная модель оптимизации программирования от OpenAI, усовершенствованная GPT-5 и предназначенная для инженеров-программистов. Модель быстро генерирует высококачественный код, поддерживает множество языков программирования и оптимизирует существующий код для повышения производительности.
6 месяцев назад
028.9K
FIBO - 全球首个开源原生支持JSON的文本生成图像模型

FIBO - первая в мире программа с открытым исходным кодом, поддерживающая JSON-текст для создания моделей изображений.

FIBO - это первая в мире модель изображений для генерации текста с открытым исходным кодом и поддержкой JSON, разработанная компанией Bria AI. Основанная на архитектуре DiT (Diffusion Transformer) с 8B параметрами, она использует метод обучения Flow Matching...
5 месяцев назад
028.7K
SAM 3D - Meta开源的3D重建模型系列

SAM 3D - серия моделей для 3D-реконструкции с открытым исходным кодом Meta

SAM 3D - это модель 3D-реконструкции на основе серии SAM от Meta, включающая две ветви: SAM 3D Objects и SAM 3D Body. SAM 3D Objects может генерировать интерактивные 3D-модели объектов по одной фотографии, поддерживая...
4 месяца назад
028.6K
混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架

Mixed World Model 1.5 - Tencent Mixed Open Source Real-time World Model Generation Framework

Hybrid World Model 1.5 (Tencent HY WorldPlay) - это первый в отрасли фреймворк с открытым исходным кодом для моделирования мира в реальном времени, выпущенный компанией Tencent и охватывающий всю цепочку развертывания данных, обучения и потокового вывода. В основе лежит авторегрессионная диффузионная модель WorldPlay, которая использует Next-F...
3 месяца назад
028.6K
Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B - модель компьютерного ассистента Agent с открытым исходным кодом от Microsoft

Fara-7B - это выпущенная Microsoft с открытым исходным кодом модель компьютерно-оперативного агента (CUA) с 7 миллиардами параметров, основанная на архитектуре Qwen 2.5-VL-7B. Благодаря визуальному разбору скриншотов веб-страниц и выполнению кликов, вводов и т. д. на экране, ей не нужно полагаться на дополнительные деревья доступности или многочисленные большие модели...
4 месяца назад
028.5K
MedASR - 谷歌开源的医疗语音识别模型

MedASR - модель распознавания медицинской речи с открытым исходным кодом от Google

MedASR - это модель распознавания медицинской речи с 105 миллионами параметров, открытая компанией Google, отлаженная на 5000-часовом десенсибилизированном клиническом корпусе, оптимизированная для терминологии лекарств, дозировок и анатомической терминологии, со встроенной 6-граммовой моделью медицинского языка и коэффициентом ошибок в словах всего 4,6 на частном наборе данных по радиологии RAD-DICT...
3 месяца назад
028.4K
Frappe Builder - 开源的AI低代码网站构建工具,拖拽组件快速搭建

Frappe Builder - ИИ-конструктор сайтов с открытым исходным кодом, перетаскиваемые компоненты для быстрого создания.

Frappe Builder - это конструктор сайтов с открытым исходным кодом, разработанный компанией Frappe, основной особенностью которого является предоставление Figma-подобного визуального редактора, поддерживающего перетаскивание компонентов для быстрого создания сайтов. Является частью экологии Frappe (Frappeverse)...
4 месяца назад
028.4K
OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM - модель агента ИИ для мобильных телефонов с открытым исходным кодом от Smart Spectrum AI

OpenAutoGLM - это интеллектуальная модель тела с открытым исходным кодом и возможностью "использования мобильного телефона", которая может понимать содержимое экрана мобильного телефона через мультимодальное восприятие и автоматически генерировать поток операций для выполнения заданных пользователем задач. Пользователям достаточно использовать естественный язык для описания потребностей, например, "открыть Meituan для поиска ближайшего горячего горшка...".
3 месяца назад
028.3K
Paper2Slides - 香港大学开源的学术论文转为幻灯片AI工具

Paper2Slides - инструменты ИИ для преобразования научных статей в слайды с открытым исходным кодом Университета Гонконга

Paper2Slides - это инструмент искусственного интеллекта с открытым исходным кодом, разработанный лабораторией Data Intelligence Laboratory Гонконгского университета, который одним щелчком мыши преобразует научные статьи в профессиональные слайды или постеры. Используя технологию RAG (Retrieval Augmented Generation), она напрямую анализирует содержимое документа, а не полагается на сетевую информацию, чтобы гарантировать, что созданный PPT будет полностью соответствовать оригиналу...
3 месяца назад
028.3K
ClipSketch AI - 开源的AI视频转手绘分镜工具,支持B站、小红书

ClipSketch AI - инструмент с открытым исходным кодом для преобразования видео в нарисованное от руки с разделенным экраном, поддержка станции B, маленькая красная книга

ClipSketch AI - это инструмент с открытым исходным кодом, предназначенный для создания коротких видеороликов. Он может конвертировать видео с B station, Xiaohongshu и других платформ в нарисованные от руки раскадровки в один клик, поддерживает маркировку ключевых кадров, автоматическое создание субсцен и социальных копий, а также может интегрировать определенные пользователем роли.
3 месяца назад
028.2K
Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型

Step-Audio-EditX - первая большая модель редактирования звука с открытым исходным кодом уровня LLM от Step-Star

Step-Audio-EditX - макромодель редактирования звука с открытым исходным кодом, разработанная командой Step-Star и ориентированная на тонкую манипуляцию аудиоконтентом с помощью технологий искусственного интеллекта. Модель способна динамически настраивать настроение аудио, стиль речи (например, мелочность, акцент старика и т. д.) и паралингвистические элементы (например, смех, вздох...
4 месяца назад
028.2K
OpenAgents - 开源免费的构建AI Agent网络开放协作项目

OpenAgents - бесплатный проект с открытым исходным кодом для создания сетей агентов искусственного интеллекта

OpenAgents - это проект с открытым исходным кодом, который создает сеть агентов искусственного интеллекта и способствует открытому сотрудничеству между ними. Предоставляется базовая сетевая инфраструктура, позволяющая агентам ИИ легко соединяться и сотрудничать. Пользователи могут быстро создать свою собственную сеть агентов, расширить функциональность за счет модульной архитектуры, поддерживать...
5 месяцев назад
028K
LongCat-Flash-Omni - 美团开源的全模态大语言模型

LongCat-Flash-Omni - полностью модальная модель большого языка для Meituan с открытым исходным кодом

LongCat-Flash-Omni - это полностью модальная модель большого языка с открытым исходным кодом, выпущенная командой LongCat из Meituan. С масштабом параметров 560 миллиардов (27 миллиардов активированных параметров) она позволяет достичь миллисекундного уровня взаимодействия в реальном времени с аудио и видео при сохранении большого количества параметров.
4 месяца назад
027.9K
SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio - Мультимодальная модель сегментации аудио с открытым исходным кодом из Meta

SAM Audio - это мультимодальная модель сегментации звука с открытым исходным кодом, представленная компанией Meta для точного выделения произвольных целевых звуков из сложных аудиомиксов. Объединяя текстовые, визуальные и временные сигналы, она обеспечивает гибкую и эффективную обработку звука для таких задач, как редактирование, денуазинг, извлечение звука и...
3 месяца назад
027.9K
ERNIE-4.5-21B-A3B-Thinking - 百度开源的推理思考模型

ERNIE-4.5-21B-A3B-Thinking - модель мышления с открытым исходным кодом Baidu

ERNIE-4.5-21B-A3B-Thinking - это крупномасштабная языковая модель Baidu с открытым исходным кодом, ориентированная на задачи рассуждения. Используя архитектуру Mixed Expert (MoE), общее количество ссылок достигает 21 миллиарда, каждая лексема активирует 3 миллиарда параметров для поддержки 128K длинного контекстного окна ...
6 месяцев назад
027.7K
LongCat-Audio-Codec - 美团LongCat开源的语音编解码方案

LongCat-Audio-Codec - голосовой кодек LongCat с открытым исходным кодом для Meituan

LongCat-Audio-Codec - это речевой кодек с открытым исходным кодом от команды LongCat из Meituan. Решение предназначено для Speech Large Language Model (Speech LLM), посредством семантического и акустического механизма параллельного извлечения Token, учитывающего семантические и акустические особенности речи ...
5 месяцев назад
027.6K
Zen Browser - 基于Firefox内核的开源AI网页浏览器

Zen Browser - веб-браузер с открытым исходным кодом, основанный на ядре Firefox.

Zen Browser - это браузер с открытым исходным кодом, основанный на ядре Firefox и ориентированный на простой и эффективный просмотр веб-страниц, с такими основными функциями, как вертикальная панель вкладок и изоляция рабочего пространства. Благодаря боковой панели он может четко отображать полный заголовок 50+ вкладок и поддерживать многооконный просмотр с разделенным экраном.
3 месяца назад
027.6K
Wan-Move - 阿里通义联合清华等开源的AI视频生成框架

Wan-Move - открытый фреймворк для создания видео с помощью искусственного интеллекта, разработанный Али Тонги совместно с Цинхуа и другими.

Wan-Move - это фреймворк для создания видео с открытым исходным кодом, разработанный совместно Ali Tongyi Labs, Университетом Цинхуа и другими учреждениями, ориентированный на создание высококачественных видеокомпозиций с помощью технологии точного управления движением. Основной технологией является "потенциальное управление траекторией", которое позволяет плавно добавить управление движением на уровне точек к существующей модели "изображение-видео"...
3 месяца назад
027.5K
AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统

AutoMV - M-A-P - бесплатная система генерации музыкального видео с открытым исходным кодом, созданная совместно с Beipiao, NU и другими.

AutoMV - это система генерации музыкальных видеоклипов с открытым исходным кодом, разработанная командой M-A-P в сотрудничестве с несколькими университетами, которая может автоматически генерировать последовательные музыкальные видеоклипы на основе полных песен без обучения. Она использует многоинтеллектуальную совместную модель, включающую модули анализа музыки, написания сценария, режиссуры и контроля качества, и может точно анализировать тексты, ритмы...
2 месяца назад
027.5K
DeepSearchQA - 谷歌开源的AI研究Agent测试基准

DeepSearchQA - эталоны тестирования агентов ИИ с открытым исходным кодом от Google

DeepSearchQA - эталонный тест ИИ-исследователя Google с открытым исходным кодом, предназначенный для оценки производительности интеллекта в сложных многоэтапных задачах запроса. Он состоит из 900 вручную разработанных задач "причинно-следственных цепочек", охватывающих 17 доменов, требующих от ИИ действовать как человек-исследователь и продвигаться по многоступенчатым...
3 месяца назад
027.5K
PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架

PersonaLive - Университет Макао и другие открытые источники для создания портретной анимации в реальном времени с помощью ИИ.

PersonaLive - это фреймворк для прямых трансляций с открытым исходным кодом с искусственным интеллектом в реальном времени, разработанный совместно Университетом Макао, dzine.ai и лабораторией GVC при Университете Большого залива. Он позволяет добиться низких задержек и высокой частоты смены кадров на обычных видеокартах потребительского класса (12 ГБ видеопамяти), а также поддерживает работу в режиме реального времени через камеру...
3 месяца назад
027.4K
LLaSO - 逻辑智能推出的业界首个全面开源的语音模型

LLaSO - первая в отрасли речевая модель с открытым исходным кодом от Logic Intelligence

LLaSO - это модель речи с открытым исходным кодом, созданная компанией Beijing Depth Logic Intelligence Technology Co. Ltd., которая решает проблемы разброса данных и недостаточного охвата задач в области крупномасштабного моделирования языка речи путем интеграции речи и текстовых данных и предоставления наборов данных для выравнивания, наборов данных для тонкой настройки команд и эталонов оценки.
6 месяцев назад
027.4K
Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型

Kaleido - многосубъектная модель генерации эталонного видео с открытым исходным кодом, созданная Smart Spectrum AI совместно с Университетом Цинхуа и другими организациями.

Kaleido - это модель генерации мультисубъектного эталонного видео с открытым исходным кодом, разработанная совместно Хэфэйским технологическим университетом, Университетом Цинхуа и Smart Spectrum AI. Она генерирует предметно-согласованное видео на основе нескольких опорных изображений, решая недостатки существующих моделей в области многопредметной согласованности и разделения фона.Kaleido генерирует видео с помощью специализированных данных...
3 месяца назад
027.4K
VTP - MiniMax海螺视频团队开源的视觉生成模型技术

VTP - технология визуального генеративного моделирования с открытым исходным кодом MiniMax Conch Video Team

VTP (Visual Tokenizer Pre-training) - это ключевая технология для визуальных генеративных моделей, предложенная командой MiniMax Conch Video для повышения производительности генеративной системы путем улучшения метода предварительного обучения визуального токенизатора (tokenizer). Традиционный метод...
3 месяца назад
027.3K
UniWorld V2 - 兔展智能联合北大推出的新一代图像编辑模型

UniWorld V2 - новое поколение моделей для редактирования изображений, выпущенное RabbitShow Intelligence и Пекинским университетом

UniWorld V2 - это новое поколение модели для редактирования изображений, созданной совместно RabbitZhan Intelligence и командой UniWorld Пекинского университета. Она обладает значительными преимуществами в области редактирования изображений, особенно в понимании китайского языка и выполнении сложных команд. Модель способна точно передавать художественные китайские шрифты и поддерживать тонкую...
4 месяца назад
027.3K
Nemotron 3 - 英伟达发布的开源 AI 模型系列

Nemotron 3 - семейство моделей ИИ с открытым исходным кодом, выпущенное NVIDIA

Nemotron 3 - это семейство моделей ИИ с открытым исходным кодом, выпущенных NVIDIA в размерах Nano, Super и Ultra. В Nemotron 3 используется скрытая архитектура MoE, которая значительно повышает эффективность вычислений и снижает операционные расходы. Одна из...
3 месяца назад
027.3K
SurfSense - 开源的AI研究与知识管理工具,NotebookLM最强平替

SurfSense - инструмент для исследования ИИ с открытым исходным кодом и управления знаниями, самый сильный пинто NotebookLM

SurfSense - это инструмент для исследований и управления знаниями с открытым исходным кодом на основе искусственного интеллекта. Обладая широкими возможностями настройки, он может подключаться к поисковым системам, Slack, Jira, Notion, YouTube, GitHub и многим другим внешним источникам данных для облегчения интеграции информации. Пользователи могут загружать различные...
3 месяца назад
027.1K
T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型

T5Gemma 2 - модель кодера-декодера следующего поколения с открытым исходным кодом от Google

T5Gemma 2 - это модель кодера-декодера нового поколения, открытая компанией Google, основанная на архитектуре Gemma 3 и дополненная возможностями мультимодальной обработки и обработки длинных контекстов. Она поддерживает широкий спектр типов данных, включая текст и изображения, и способна обрабатывать очень длинные контексты (до 128 К) при генерации...
3 месяца назад
027K
TalkCody - 免费开源的AI编程桌面助手,支持复杂任务

TalkCody - бесплатный настольный помощник с открытым исходным кодом, программируемый искусственным интеллектом, с поддержкой сложных задач

TalkCody - это бесплатное настольное приложение-помощник программирования AI с открытым исходным кодом, построенное на Rust + Tauri 2, поддерживающее три платформы - Windows, macOS и Linux, имеющее родную производительность, быстрый запуск и низкое потребление ресурсов. Поддержка более 50 основных A...
3 месяца назад
026.9K
SceneGen - 上海交大开源的单图像生成3D场景框架

SceneGen - открытая платформа для генерации 3D-сцены из одного изображения, созданная Шанхайским университетом Цзяо Тун.

SceneGen - это метод генерации 3D-сцен из одного изображения, разработанный в Шанхайском университете Цзяо Тун. Из одного изображения сцены и маски целевого ресурса эффективно генерируется полная сцена, содержащая множество 3D-ресурсов, включая геометрическую структуру ресурсов, текстуру и относительное пространственное расположение.
5 месяцев назад
026.8K
Astron Agent - 科大讯飞开源的企业级智能工作流开发平台

Astron Agent - открытая платформа KDDI для разработки интеллектуальных рабочих процессов корпоративного класса

Astron Agent - это платформа разработки интеллектуальных рабочих процессов корпоративного уровня с открытым исходным кодом от KDDI, ориентированная на то, чтобы помочь предприятиям быстро создать пригодное для использования приложение AI-агента. Используя стек технологий Java + Spring Boot, поддерживается легкое частное развертывание (минимум 2-ядерная конфигурация 4G), встроенный ...
4 месяца назад
026.8K
Omnilingual ASR - Meta推出的多语言语音识别框架

Omnilingual ASR - многоязычный фреймворк для распознавания речи от Meta

Omnilingual ASR - это многоязычная система распознавания речи, представленная компанией Meta, охватывающая 1600+ языков, с 78% языковым коэффициентом ошибок ниже 10%. Ее кодер wav2vec 2.0 с 7 миллиардами параметров в сочетании с декодером CTC и Transformer, поддержива...
4 месяца назад
026.6K
MemMachine - MemVerge推出的开源AI记忆系统

MemMachine - система памяти искусственного интеллекта с открытым исходным кодом от MemVerge

MemMachine - это система памяти ИИ с открытым исходным кодом, разработанная компанией MemVerge, предназначенная для моделей и интеллектов ИИ, которая может хранить и вызывать данные о взаимодействии, как человеческий мозг, решая проблему "потери памяти без статики" ИИ. В ней используется многоуровневая архитектура (кратковременная память, долговременная память, пользовательский образ...
3 месяца назад
026.5K
DeepSeek-Math-V2 - DeepSeek开源的数学推理模型

DeepSeek-Math-V2 - математическая модель рассуждений с открытым исходным кодом DeepSeek

DeepSeek-Math-V2 - это математическая модель рассуждений с открытым исходным кодом от DeepSeek, компании по разработке искусственного интеллекта Phantom Cube. Последняя версия основана на улучшении DeepSeek-V3.2-Exp-Base, по производительности превосходит Gemini DeepThink и достигла международного номера...
4 месяца назад
026.5K
TurboDiffusion - 生数科技联合清华等开源的视频生成加速框架

TurboDiffusion - фреймворк ускорения генерации видео с открытым исходным кодом от Raw Digital Technology, Tsinghua и других компаний.

TurboDiffusion - это фреймворк для ускорения генерации видео, созданный совместно Университетом Цинхуа, BioDigital Technology и Калифорнийским университетом в Беркли, который способен повысить скорость генерации видео в 100-200 раз при сохранении качества изображения практически без потерь. Благодаря разреженному линейному вниманию, пошаговой дистилляции образцов и 8-битному...
3 месяца назад
026.5K