Не можете найти инструменты искусственного интеллекта? Попробуйте здесь!

Просто введите ключевое слово Доступность Bing SearchРаздел "Инструменты искусственного интеллекта" - это быстрый и простой способ найти все инструменты искусственного интеллекта на этом сайте.

GLM-ASR - 智谱AI开源的高性能语音识别模型系列

GLM-ASR - серия высокопроизводительных моделей распознавания речи с открытым исходным кодом Wisdom Spectrum AI

GLM-ASR - это семейство высокопроизводительных моделей распознавания речи с открытым исходным кодом от Smart Spectrum AI, включающее облачную модель GLM-ASR-2512 и модель GLM-ASR-Nano-2512 с открытым исходным кодом. GLM-ASR-2512 - это ведущая в мире облачная модель распознавания речи, поддерживающая множество...
4 месяца назад
035.5K
OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM - модель агента ИИ для мобильных телефонов с открытым исходным кодом от Smart Spectrum AI

OpenAutoGLM - это интеллектуальная модель тела с открытым исходным кодом и возможностью "использования мобильного телефона", которая может понимать содержимое экрана мобильного телефона через мультимодальное восприятие и автоматически генерировать поток операций для выполнения заданных пользователем задач. Пользователям достаточно использовать естественный язык для описания потребностей, например, "открыть Meituan для поиска ближайшего горячего горшка...".
4 месяца назад
031.9K
SurfSense - 开源的AI研究与知识管理工具,NotebookLM最强平替

SurfSense - инструмент для исследования ИИ с открытым исходным кодом и управления знаниями, самый сильный пинто NotebookLM

SurfSense - это инструмент для исследований и управления знаниями с открытым исходным кодом на основе искусственного интеллекта. Обладая широкими возможностями настройки, он может подключаться к поисковым системам, Slack, Jira, Notion, YouTube, GitHub и многим другим внешним источникам данных для облегчения интеграции информации. Пользователи могут загружать различные...
4 месяца назад
029.5K
GLM-4.6V - 智谱AI开源的多模态大语言模型系列

GLM-4.6V - Серия мультимодальных моделей большого языка с открытым исходным кодом Wisdom Spectrum AI

GLM-4.6V - серия мультимодальных больших языковых моделей с открытым исходным кодом от Smart Spectrum AI. Серия содержит две версии: GLM-4.6V (106B-A12B), базовая версия для облачных и высокопроизводительных кластерных сценариев, с архитектурой Mixed Expert (MoE), общим количеством около 106 миллиардов ссылок, и активацией...
4 месяца назад
026.7K
InkSight - Google开源的AI手写识别工具

InkSight - инструмент распознавания рукописного текста с открытым исходным кодом от Google

InkSight - это инструмент распознавания рукописного текста с открытым исходным кодом от Google, который преобразует бумажные рукописные заметки в редактируемые цифровые файлы с чернилами (например, в формат SVG). В отличие от традиционного OCR, он может распознавать содержание текста, восстанавливать стиль почерка, структуру абзацев и ключевые пометки, а также поддерживать многоязыковую обработку.
4 месяца назад
025.7K
NewBie-image-Exp0.1 - NewBieAI-Lab开源的实验性动漫文生图模型

NewBie-image-Exp0.1 - открытый исходный код экспериментальных аниме-графовых моделей NewBieAI-Lab

NewBie-image-Exp0.1 - это первая экспериментальная графическая модель аниме, созданная командой NewBieAI-Lab, с использованием архитектуры Next-DiT с 3,5B параметрами, оптимизированная для вторичного стиля. Модель оптимизирована для вторичного стиля с помощью двойного кодировщика текста (GEMMA3-4B...
4 месяца назад
029.2K
LongCat-Image - 美团LongCat团队开源的图像生成与编辑模型

LongCat-Image - команда LongCat с открытым исходным кодом для создания и редактирования изображений американской группы

LongCat-Image - это модель генерации и редактирования изображений с открытым исходным кодом, выпущенная командой LongCat из Meituan. Используя гибридную магистральную архитектуру (MM-DiT+Single-DiT) в сочетании с условным кодером на основе модели визуального языка (VLM), она способна генерировать изображения с текстом и выполнять несколько раундов редактирования изображений...
4 месяца назад
024.7K
VibeVoice-Realtime - 微软开源的轻量级实时文本转语音模型

VibeVoice-Realtime - открытая модель преобразования текста в речь в реальном времени с открытым исходным кодом от Microsoft

VibeVoice-Realtime - это легкая модель преобразования текста в речь (TTS) с открытым исходным кодом от Microsoft, предназначенная для взаимодействия в реальном времени и с низкой задержкой. Поддерживает потоковый ввод текста, с первого текстового маркера может быть озвучен, задержка составляет всего около 300 мс, подходит для динамического количества ...
4 месяца назад
025.4K
Flowra - 魔搭联合呜哩WULI团队开源的AI工作流开发工具

Flowra - инструмент для разработки рабочих процессов с использованием искусственного интеллекта, открытый командой Magic Hitch и Wooli WULI

Flowra - это ModelScope совместный woo mile WULI команды открытым исходным кодом граф выполнения двигателя и узла пакет инструментов разработки, является основным компонентом FlowBench. Посредством направленного ациклического графа (DAG) организация рабочего процесса, с интеллектуальным кэшированием, параллельным планированием, распределенной поддержкой ...
4 месяца назад
024.7K
RoboCOIN - 智源联合多所高校开源的双臂机器人真机数据集

RoboCOIN - набор данных реальных двуруких роботов, открытый Wisdom Source в сотрудничестве с несколькими университетами.

RoboCOIN - это первый в мире крупномасштабный набор данных реальных машин для двуруких роботов, открытый Пекинским научно-исследовательским институтом искусственного интеллекта Zhiyuan совместно с рядом предприятий, колледжей и университетов. Он содержит 15 типов роботизированных платформ, 180 000 реальных траекторий движения и 421 тип сценариев задач. Главной особенностью является использование иерархической системы аннотирования для разбора задач...
4 месяца назад
025.2K
TalkCody - 免费开源的AI编程桌面助手,支持复杂任务

TalkCody - бесплатный настольный помощник с открытым исходным кодом, программируемый искусственным интеллектом, с поддержкой сложных задач

TalkCody - это бесплатное настольное приложение-помощник программирования AI с открытым исходным кодом, построенное на Rust + Tauri 2, поддерживающее три платформы - Windows, macOS и Linux, имеющее родную производительность, быстрый запуск и низкое потребление ресурсов. Поддержка более 50 основных A...
4 месяца назад
029.1K
MemMachine - MemVerge推出的开源AI记忆系统

MemMachine - система памяти искусственного интеллекта с открытым исходным кодом от MemVerge

MemMachine - это система памяти ИИ с открытым исходным кодом, разработанная компанией MemVerge, предназначенная для моделей и интеллектов ИИ, которая может хранить и вызывать данные о взаимодействии, как человеческий мозг, решая проблему "потери памяти без статики" ИИ. В ней используется многоуровневая архитектура (кратковременная память, долговременная память, пользовательский образ...
4 месяца назад
029K
PartCrafter - 北大联合字节开源的单图3D生成模型

PartCrafter - NU United Bytes с открытым исходным кодом для создания 3D-модели одной фигуры

PartCrafter - это передовая генеративная 3D-модель, совместно предложенная Пекинским университетом, ByteDance и Университетом Карнеги-Меллон. Она может генерировать несколько семантически явных и геометрически разнообразных 3D-частей сетки из одного RGB-изображения одновременно. Модель моделируется через комбинаторное потенциальное пространство и...
4 месяца назад
026.5K
GigaWorld-0 - 极佳视界开源的世界模型框架

GigaWorld-0 - GigaVision Open Source World Modelling Framework

GigaWorld-0 - это фреймворк модели мира с открытым исходным кодом от отечественного стартапа GigaAI, который в основном используется для решения проблемы узких мест в области эмбодированного интеллекта (Embodied AI). Эффективно генерируя высококачественные, разнообразные и физически реалистичные обучающие данные, толчок...
4 месяца назад
025.4K
Mistral 3 - Mistral AI发布开源的最新多模态大模型系列

Mistral 3 - Mistral AI выпускает новейшую серию мультимодальных больших моделей с открытым исходным кодом

Mistral 3 - это последняя серия мультимодальных больших моделей, выпущенная компанией Mistral AI с открытым исходным кодом. Она состоит из флагманской модели Mistral Large 3 (675B общих параметров) и более легкой версии серии Ministral (3B/8B/14B), обе из которых поддерживают восприятие изображений...
4 месяца назад
023.5K
Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

Vidi2 - мультимодальное понимание видео и генеративное макромоделирование с открытым исходным кодом от ByteHop

Vidi2 - это мультимодальная модель понимания и генерации видео второго поколения, открытая компанией ByteDance, ориентированная на понимание, анализ и создание видеоконтента. Она поддерживает совместный ввод текста, видео и аудио, может одновременно понимать содержимое изображения, звуковую информацию и команды на естественном языке для достижения кросс-модального взаимодействия и...
4 месяца назад
027.2K
Alpamayo-R1 - 英伟达开源的带推理能力的视觉-语言-行动模型

Alpamayo-R1 - открытая модель видения-языка-действия от NVIDIA с возможностями рассуждения

Alpamayo-R1 - это разработанная NVIDIA модель Vision-Language-Action (VLA) с возможностью рассуждений, предназначенная для улучшения способности автономного вождения принимать решения в сложных сценариях. Внедряя механизм рассуждений о причинно-следственных цепочках, автомобиль способен анализировать причинно-следственные связи сценария (например, "из-за предыдущего...
4 месяца назад
035.5K
Ovis-Image - 阿里AIDC-AI团队开源的文生图模型

Ovis-Image - Графическая модель венчурной деятельности с открытым исходным кодом от команды Ali AIDC-AI

Ovis-Image - это модель графа с 7 миллиардами параметров, созданная командой AIDC-AI из Alibaba International Digital Commerce Group и ориентированная на высококачественную визуализацию текста. Основанная на архитектуре Ovis-U1, она унаследовала передовой визуальный декодер и двунаправленный очиститель токенов...
4 месяца назад
023.3K
悟界·Emu3.5 - 智源研究院开源的多模态世界大模型

Wujie-Emu3.5 - Исследовательский институт Wisdom Source с открытым исходным кодом мультимодальной большой модели мира

Wujie-Emu3.5 - мультимодальная макромодель мира с открытым исходным кодом от Beijing Zhiyuan Artificial Intelligence Research Institute, имеющая 34 миллиарда ссылок и способная моделировать мир. Обученная на 10 триллионах мультимодальных токенов (включая 790 лет видеоданных), она может моделировать законы физики и достигать генерации графики, визуального руководства...
4 месяца назад
026.6K
GELab-Zero - 阶跃团队开源的端侧多模态GUI Agent模型

GELab-Zero - мультимодальная GUI-модель агента с открытым исходным кодом от команды Steps

GELab-Zero - это мультимодальная модель агента GUI с открытым исходным кодом от команды Step Leap, построенная на базовой модели Qwen3-VL-4B-Instruct с параметрами 4B. Она может распознавать элементы пользовательского интерфейса и выполнять такие операции, как нажатие, скольжение и т.д., а также поддерживает кросс-прикладную постановку задач...
4 месяца назад
034.1K
Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型

Depth Anything 3 - 3D модели визуальной реконструкции с открытым исходным кодом от Bitmap Seed

Depth Anything 3 (DA3) - это модель визуальной 3D-реконструкции, разработанная командой Byte Jump Seed с открытым исходным кодом. Благодаря единой архитектуре трансформеров для достижения пространственной реконструкции геометрии в любой точке обзора, необходимо только предсказать карту глубины и карту лучей, чтобы восстановить 3D-сцену, по сравнению с...
4 месяца назад
035.8K
DeepSeek-Math-V2 - DeepSeek开源的数学推理模型

DeepSeek-Math-V2 - математическая модель рассуждений с открытым исходным кодом DeepSeek

DeepSeek-Math-V2 - это математическая модель рассуждений с открытым исходным кодом от DeepSeek, компании по разработке искусственного интеллекта Phantom Cube. Последняя версия основана на улучшении DeepSeek-V3.2-Exp-Base, по производительности превосходит Gemini DeepThink и достигла международного номера...
4 месяца назад
028.6K
Z-Image - 阿里通义实验室开源的图像生成模型

Z-Image - модель генерации изображений с открытым исходным кодом от Ali Tongyi Labs

Z-Image - это модель генерации изображений с открытым исходным кодом от Ali Tongyi Labs, обладающая эффективными, быстрыми и мощными возможностями генерации изображений. Используя архитектуру однопоточного диффузионного трансформатора (S3-DiT), она объединяет текст, визуальную семантику и маркеры VAE изображений в единый входной поток...
4 месяца назад
050.2K
ROCK - 阿里巴巴开源的智能体训练环境沙箱

ROCK - песочница с открытым исходным кодом Alibaba для интеллектуальной среды тренировки тела

ROCK (Reinforcement Open Construction Kit) - это открытая песочница Alibaba для тренировки интеллекта, которая решает проблему невозможности масштабного обучения интеллекта в реальных условиях. ROCK предоставляет высокостабильный сервис управления песочницей...
4 месяца назад
027K
ViMax - 香港大学开源的多智能体视频生成框架

ViMax - мультиинтеллектуальная система генерации видеоизображения тела с открытым исходным кодом в Гонконгском университете

ViMax - это мультиинтеллектуальная система генерации видео с открытым исходным кодом от Лаборатории науки о данных Гонконгского университета, которая может автоматизировать весь процесс от творческого ввода до вывода видео. Интеграция функций генерации сценария, проектирования сцены, планирования съемок и рендеринга видео позволяет пользователям генерировать целостное видео кино- и телевизионного уровня с помощью описания на естественном языке...
4 месяца назад
044.5K
FLUX.2 - 黑森林开源的图像生成与编辑模型

FLUX.2 - модель генерации и редактирования изображений с открытым исходным кодом Black Forest

FLUX.2 - это модель генерации и редактирования изображений с открытым исходным кодом, выпущенная Black Forest Labs, которая поддерживает текстовые необработанные изображения, ссылки на несколько изображений и редактирование изображений с более богатой детализацией, четкими текстурами и стабильным освещением. Существует четыре версии: FLUX.2 [pro] (сравнима с топовой закрытой...
4 месяца назад
026.3K
Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B - модель компьютерного ассистента Agent с открытым исходным кодом от Microsoft

Fara-7B - это выпущенная Microsoft с открытым исходным кодом модель компьютерно-оперативного агента (CUA) с 7 миллиардами параметров, основанная на архитектуре Qwen 2.5-VL-7B. Благодаря визуальному разбору скриншотов веб-страниц и выполнению кликов, вводов и т. д. на экране, ей не нужно полагаться на дополнительные деревья доступности или многочисленные большие модели...
4 месяца назад
031.9K
HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR - экспертная модель Tencent с открытым исходным кодом для оптического распознавания символов

HunyuanOCR - это высокопроизводительная модель оптического распознавания символов с открытым исходным кодом, созданная гибридной командой Tencent и имеющая всего 1 миллиард ссылок. Разработанная на основе гибридной мультимодальной архитектуры, она имеет сквозной дизайн и может эффективно справляться с задачами обнаружения, распознавания и разбора текста. Модель набрала 94,1 балла в тесте на сложные документы, превзойдя...
4 месяца назад
033.5K
Supertonic - 开源的高性能AI 文本转语音系统,极速离线运行

Supertonic - высокопроизводительная система преобразования текста в речь на основе искусственного интеллекта с открытым исходным кодом, работающая в автономном режиме с бешеной скоростью.

Supertonic - это высокопроизводительная система преобразования текста в речь (TTS) с открытым исходным кодом, ориентированная на быструю генерацию речи на локальных устройствах. Используя технологию ONNX Runtime, она может работать на таких устройствах, как мобильные телефоны, компьютеры и даже Raspberry Pi, поддерживает 23 языка и речевые клоны, и не требует сетевого...
4 месяца назад
027.8K
MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied - модель педалированного интеллекта Xiaomi с открытым исходным кодом для кросс-доменного встраивания

MiMo-Embodied - это первая в мире кросс-эмбодиальная базовая модель, открытая Xiaomi Group, которая успешно объединяет эмбодированный ИИ и автономное вождение. Она решает проблему миграции знаний между воплощенным ИИ и автономным вождением и обеспечивает единое моделирование задач в этих двух областях.
5 месяцев назад
033.2K
MOSS-Speech - 复旦大学开源的语音到语音大模型

MOSS-Speech - Большая модель преобразования речи в речь с открытым исходным кодом Фуданьского университета

MOSS-Speech - это большая модель преобразования речи в речь (Speech-to-Speech) с открытым исходным кодом, разработанная командой профессора Цю Сипэна в Фуданьском университете. Она преодолевает традиционную обработку речи, не нуждаясь в текстовых подсказках, и напрямую понимает и генерирует речь, которая может захватывать нетекстовые элементы, такие как интонация и эмоции, делая...
5 месяцев назад
028.6K
Parallax - Gradient开源的全球首个全自主AI操作系统

Parallax - первая в мире полностью автономная операционная система с искусственным интеллектом с открытым исходным кодом от Gradient

Parallax - это первая в мире "полностью автономная операционная система ИИ", открытая Gradient, распределенной лабораторией ИИ. Она поддерживает кроссплатформенное развертывание больших моделей на Mac, Windows и других гетерогенных устройствах, позволяя пользователям полностью контролировать модель, данные и память ИИ. В систему встроена сетевая ...
5 месяцев назад
084.1K
HunyuanVideo 1.5 - 腾讯混元免费开源的轻量级视频生成模型

HunyuanVideo 1.5 - бесплатная модель генерации видео с открытым исходным кодом Tencent mixed yuan

HunyuanVideo 1.5 является Tencent гибридной большой модели команды открытым исходным кодом легкая модель генерации видео, основанная на Diffusion Transformer (DiT) архитектуры, количество параметров составляет 8,3B. поддержка генерации 5-10 секунд видео высокой четкости, суб...
5 месяцев назад
034.4K
Awex - 蚂蚁集团开源的高性能权重交换框架

Awex - фреймворк для высокопроизводительного обмена весом с открытым исходным кодом от Ant Group

Awex - это высокопроизводительный фреймворк с открытым исходным кодом Ant Group, предназначенный для крупномасштабной синхронизации параметров в обучении с подкреплением. Он может выполнять терабайты обмена параметрами за секунды, значительно повышая эффективность обучения и вывода. Awex обладает очень высокой скоростью синхронизации, в кластере с тысячей карт модели с триллионом параметров могут быть завершены за 6 секунд после полного...
5 месяцев назад
081.8K
Seekdb - 蚂蚁OceanBase开源的AI原生混合搜索数据库

Seekdb - гибридная поисковая база данных Ant OceanBase с открытым исходным кодом и искусственным интеллектом

Seekdb (OceanBase Seekdb) - это гибридная поисковая база данных Ant OceanBase с открытым исходным кодом AI native, поддерживающая унифицированный гибридный поиск векторных, полнотекстовых, скалярных и геопространственных данных, использующая многоступенчатый механизм поиска, для достижения высокой точности поиска при низкой задержке ...
5 месяцев назад
027.4K
LoopTool - 上海交大联合小红书开源的自动化工具调用数据进化框架

LoopTool - автоматизированный инструмент с открытым исходным кодом для вызова механизма эволюции данных, разработанный Шанхайским университетом Цзяотун и компанией Little Red Book.

LoopTool - это автоматизированный фреймворк для эволюции данных "инструмент-вызов", открытый Шанхайским университетом Цзяо Тун и командой Little Red Book, разработанный для расширения возможностей "инструмент-вызов" больших языковых моделей. Он оптимизирует генерацию данных и обучение модели через замкнутый цикл итераций, используя модели с открытым исходным кодом (например, Qwen3-32B) в качестве генерации данных...
5 месяцев назад
083.3K
SAM 3D - Meta开源的3D重建模型系列

SAM 3D - серия моделей для 3D-реконструкции с открытым исходным кодом Meta

SAM 3D - это модель 3D-реконструкции на основе серии SAM от Meta, включающая две ветви: SAM 3D Objects и SAM 3D Body. SAM 3D Objects может генерировать интерактивные 3D-модели объектов по одной фотографии, поддерживая...
5 месяцев назад
031.1K
AgentEvolver - 阿里通义实验室开源的智能体进化系统

AgentEvolver - система с открытым исходным кодом для эволюционирующих интеллектов от Ali Tongyi Lab

AgentEvolver - это интеллектуальная система эволюции тела с открытым исходным кодом от Alibaba Tongyi Lab. Благодаря трем механизмам самоопроса, самонавигации и самоатрибуции, она обеспечивает автономное обучение и эволюцию интеллекта.AgentEvolver использует сервис-ориентированную архитектуру, которая объединяет экологическую песочницу, LLM и sc...
5 месяцев назад
089.1K
MemOS - 开源的AI记忆管理与调度平台,共享长期记忆

MemOS - платформа управления памятью и планирования ИИ с открытым исходным кодом для обмена долгосрочными воспоминаниями

MemOS - это фреймворк с открытым исходным кодом для управления памятью и планирования для больших языковых моделей (LLM), таких как MemTensor. Рассматривая память как ресурс, столь же важный, как и арифметическая мощность, он унифицирует управление открытым текстом, состоянием активации и памятью параметров с помощью стандартизированных блоков памяти MemCube.
5 месяцев назад
085.2K
网格搜索(Grid Search)是什么,一文看懂

Поиск по сетке (Grid Search) - что это такое, статья для понимания

Grid Search - это автоматизированный метод систематического поиска оптимальных комбинаций гиперпараметров в машинном обучении. Этот метод выбирает наилучший гиперпараметр, предварительно определив диапазон возможных значений для каждого гиперпараметра, исчерпав все возможные комбинации параметров, обучив модель по очереди и оценив производительность, и, наконец, выбрав наилучший гиперпараметр...
5 месяцев назад
028.3K
随机搜索(Random Search)是什么,一文看懂

Случайный поиск (Random Search) - это что, статья для ознакомления и понимания

Случайный поиск (RS) - это метод гиперпараметрической оптимизации, который находит оптимальную конфигурацию путем случайной выборки точек-кандидатов в пространстве параметров.
5 месяцев назад
028.3K
WithAnyone - 复旦联合阶跃星辰开源的AI合照生成模型

WithAnyone - Фудань совместный шаг прыжок звезда открытым исходным кодом AI модель генерации фотографий

WithAnyone - это модель искусственного интеллекта для создания фотографий, разработанная совместно Фуданьским университетом и компанией StepStar, которая решает распространенную проблему "копирования и вставки" в традиционном искусственном интеллекте для создания изображений и обеспечивает более естественное и контролируемое создание изображений с участием нескольких человек. Модель основана на крупномасштабном наборе данных MultiID-2M ...
5 месяцев назад
084.2K
ChatTutor - 开源的AI教学辅助工具,可视化互动学习

ChatTutor - учебное пособие с искусственным интеллектом с открытым исходным кодом для визуализации интерактивного обучения

ChatTutor - это учебное пособие с открытым исходным кодом AI, ориентированное на визуальное интерактивное обучение по предметам STEM. Благодаря многоинтеллектуальной архитектуре тела для достижения диалога Q&A и динамической функции рисования, могут быть нарисованы на доске в реальном времени математические графики, физические схемы или карты ума, чтобы помочь пользователям интуитивно понять абстрактные общие...
5 месяцев назад
023.4K
DPAI Arena - JetBrains开源的AI编程基准测试平台

DPAI Arena - платформа бенчмаркинга JetBrains с открытым исходным кодом для программирования ИИ

DPAI Arena (Developer Productivity AI Arena) - это открытая платформа бенчмаркинга, созданная компанией JetBrains для измерения эффективности инструментов разработки с помощью искусственного интеллекта в реальных задачах программной инженерии. С помощью прозрачного потока оценок...
5 месяцев назад
029.3K
EverMemOS - 盛大团队推出的开源长期记忆操作系统

EverMemOS - операционная система с открытым исходным кодом для долговременной памяти от команды Shanda

EverMemOS - операционная система долговременной памяти с открытым исходным кодом, созданная командой Shanda под руководством Чена Тяньцяо, предназначенная для искусственного интеллекта, чтобы решить проблему нехватки памяти, вызванную фиксированным контекстным окном больших языковых моделей. Система основана на механизме памяти человеческого мозга и использует четырехслойную архитектуру (слой агента, слой памяти, слой индекса...
5 месяцев назад
035.3K
Astron Agent - 科大讯飞开源的企业级智能工作流开发平台

Astron Agent - открытая платформа KDDI для разработки интеллектуальных рабочих процессов корпоративного класса

Astron Agent - это платформа разработки интеллектуальных рабочих процессов корпоративного уровня с открытым исходным кодом от KDDI, ориентированная на то, чтобы помочь предприятиям быстро создать пригодное для использования приложение AI-агента. Используя стек технологий Java + Spring Boot, поддерживается легкое частное развертывание (минимум 2-ядерная конфигурация 4G), встроенный ...
5 месяцев назад
029.6K
Bee - 腾讯混元联合清华开源的全栈多模态大模型项目

Bee - проект Tencent Mixed Meta и Tsinghua Open Source Full Stack Multimodal Large Model Project

Bee - это полнофункциональное решение с открытым исходным кодом для мультимодальных больших моделей, созданное совместными усилиями команды Tencent Mixed Element и Университета Цинхуа с целью сокращения разрыва в производительности между моделями с открытым и закрытым исходным кодом за счет повышения качества данных. Проект содержит три основных достижения: 15-миллионный высококачественный двухслойный набор данных CoT Honey-Data...
5 месяцев назад
026.5K
InfinityStar - 字节开源的统一时空自回归视频生成框架

InfinityStar - байтовая унифицированная система генерации пространственно-временного видео с авторегрессией с открытым исходным кодом

InfinityStar - это унифицированный пространственно-временной авторегрессионный фреймворк с открытым исходным кодом от ByteDance, предназначенный для создания изображений и видео высокого разрешения. Используя дискретный авторегрессионный подход, он может одновременно решать задачи преобразования текста в изображение, текста в видео и изображения в видео в рамках одной модели. Фреймворк протестирован в бенчмарке VBench ...
5 месяцев назад
027.5K
Koina - 慕尼黑工大联合密歇根大开源的去中心化机器学习平台

Koina - децентрализованная платформа машинного обучения с открытым исходным кодом, разработанная TU Munich совместно с Мичиганским университетом

Koina - это децентрализованная платформа машинного обучения с открытым исходным кодом, направленная на упрощение анализа данных по протеомике. Она разработана командой из Мюнхенского технического университета (Германия) и Мичиганского университета (США). Платформа интегрирует более 30 основных моделей (например, ProSIT, MS²PIP) через стандартизированный интерфейс и поддерживает пептидные масс...
5 месяцев назад
028.2K
VibeThinker-1.5B - 微博AI开源的15亿参数大型语言模型

VibeThinker-1.5B - крупномасштабная языковая модель с 1,5 миллиардами параметров, открытая Weibo AI

VibeThinker-1.5B - это крупномасштабная языковая модель с 1,5 миллиардами параметров, открыто представленная Weibo AI. Доработанная на основе Qwen2.5-Math-1.5B от Alibaba, она оптимизирована для решения математических задач и задач кодирования и демонстрирует лучшие в отрасли показатели точности выводов.
5 месяцев назад
031.2K
BestBlogs - 开源的AI内容聚合平台,精选优质技术内容

BestBlogs - платформа для агрегации контента ИИ с открытым исходным кодом и подборкой качественного технического контента

BestBlogs - это платформа, ориентированная на предоставление высококачественного контента для практиков в области технологий, предпринимателей, менеджеров по продуктам и других. Она собирает статьи, подкасты, видео и другой мультиформатный контент из более чем 400 высококачественных блогов с помощью RSS-каналов и технологии crawler. Основная сила компании заключается в использовании искусственного интеллекта, большого языка...
5 месяцев назад
025.1K
Egocentric-10K - Build AI开源的第一人称视角机器人数据集

Egocentric-10K - открытый набор данных для робототехники с перспективой от первого лица Build AI

Egocentric-10K - это крупномасштабная видеодата с видом от первого лица (эгоцентрическая), открытая командой build.ai. Набор содержит 10 000 часов видео, в общей сложности 1,08 миллиарда кадров, с участием 2...
5 месяцев назад
030.2K
LazyCraft - 开源AI Agent应用开发与管理平台,基于LazyLLM构建

LazyCraft - платформа для разработки и управления приложениями ИИ-агентов с открытым исходным кодом, построенная на базе LazyLLM

LazyCraft - это платформа разработки и управления приложениями AI Agent с открытым исходным кодом, созданная компанией Shangtang на основе открытого исходного кода LazyLLM, предоставляющая универсальные решения по разработке приложений AI для предприятий и разработчиков. Помогает разработчикам быстро создавать и выпускать крупные модели приложений с низким порогом и низкой стоимостью...
5 месяцев назад
033.9K
Kosong - Moonshot AI开源的全新AI Agent开发框架

Kosong - Moonshot AI's New Open Source AI Agent Development Framework

Kosong - это новый фреймворк для разработки агентов искусственного интеллекта с открытым исходным кодом от Moonshot AI, предоставляющий разработчикам легкую, гибкую и высокомасштабируемую базовую поддержку для создания интеллектуальных приложений следующего поколения. Асинхронный механизм планирования инструментов позволяет эффективно планировать работу нескольких инструментов...
5 месяцев назад
028.2K
SenseNova-SI - 商汤科技开源的空间智能大模型系列

SenseNova-SI - семейство больших моделей пространственной разведки с открытым исходным кодом от ShangTang Technology

SenseNova-SI - это грандиозная модель пространственного интеллекта с открытым исходным кодом, выпущенная компанией ShangTech и направленная на улучшение способностей ИИ к пространственному пониманию и рассуждению. Модель демонстрирует превосходство в шести основных измерениях, включая пространственные измерения, реконструкцию, оценку отношений, преобразование перспективы, анализ деформации и пространственные рассуждения, значительно превосходя другие...
5 месяцев назад
024.7K
Omnilingual ASR - Meta推出的多语言语音识别框架

Omnilingual ASR - многоязычный фреймворк для распознавания речи от Meta

Omnilingual ASR - это многоязычная система распознавания речи, представленная компанией Meta, охватывающая 1600+ языков, с 78% языковым коэффициентом ошибок ниже 10%. Ее кодер wav2vec 2.0 с 7 миллиардами параметров в сочетании с декодером CTC и Transformer, поддержива...
5 месяцев назад
028.4K
Frappe Builder - 开源的AI低代码网站构建工具,拖拽组件快速搭建

Frappe Builder - ИИ-конструктор сайтов с открытым исходным кодом, перетаскиваемые компоненты для быстрого создания.

Frappe Builder - это конструктор сайтов с открытым исходным кодом, разработанный компанией Frappe, основной особенностью которого является предоставление Figma-подобного визуального редактора, поддерживающего перетаскивание компонентов для быстрого создания сайтов. Является частью экологии Frappe (Frappeverse)...
5 месяцев назад
031.3K
DeepOCR - 基于DeepSeek-OCR模型的开源复刻项目

DeepOCR - проект реплики с открытым исходным кодом, основанный на модели DeepSeek-OCR

DeepOCR - проект репликации с открытым исходным кодом, реализующий основную архитектуру DeepSeek-OCR, которая эффективно обрабатывает текстовую информацию с помощью методов оптического сжатия. Ядром является DeepEncoder, состоящий из SAM-базы (обработка изображений высокого разрешения), 16× сверточного компрессора...
5 месяцев назад
027.9K
Glow - 开源的命令行工具,支持在终端渲染Markdown文件

Glow - инструмент командной строки с открытым исходным кодом, поддерживающий рендеринг файлов Markdown в терминале

Glow - это инструмент командной строки с открытым исходным кодом для элегантного отображения файлов Markdown в терминале. Инструмент поддерживает выделение блоков кода, математических формул и других сложных элементов, предоставляя множество возможностей, таких как пользовательские стили, отображение страниц, поддержка мыши и так далее.
5 месяцев назад
032K
NocoBase - 免费开源的AI无代码开发平台,可视化构建应用

NocoBase - бесплатная платформа для визуальной разработки приложений с открытым исходным кодом без ИИ

NocoBase основан на платформе разработки без кода, управляемой искусственным интеллектом, с открытым исходным кодом, поддерживает быстрое создание бизнес-систем, без программирования, может быть завершена через конфигурацию разработки приложений. Проект использует протокол Apache-2.0, обеспечивает частное развертывание и гибкую масштабируемость, подходит для управления предприятием, платформы сотрудничества и других областей ...
5 месяцев назад
028.3K
UniWorld V2 - 兔展智能联合北大推出的新一代图像编辑模型

UniWorld V2 - новое поколение моделей для редактирования изображений, выпущенное RabbitShow Intelligence и Пекинским университетом

UniWorld V2 - это новое поколение модели для редактирования изображений, созданной совместно RabbitZhan Intelligence и командой UniWorld Пекинского университета. Она обладает значительными преимуществами в области редактирования изображений, особенно в понимании китайского языка и выполнении сложных команд. Модель способна точно передавать художественные китайские шрифты и поддерживать тонкую...
5 месяцев назад
030.1K
SmartResume - 阿里巴巴开源的AI简历解析与优化工具

SmartResume - открытый инструмент Alibaba для анализа и оптимизации резюме с помощью искусственного интеллекта

SmartResume - это интеллектуальный инструмент Alibaba с открытым исходным кодом для разбора и оптимизации резюме, который эффективно извлекает структурированную информацию, такую как основные сведения, образование и опыт работы, из документов PDF, изображений или документов Office. Благодаря интеграции технологии OCR и метаданных PDF...
5 месяцев назад
031.6K
Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型

Step-Audio-EditX - первая большая модель редактирования звука с открытым исходным кодом уровня LLM от Step-Star

Step-Audio-EditX - макромодель редактирования звука с открытым исходным кодом, разработанная командой Step-Star и ориентированная на тонкую манипуляцию аудиоконтентом с помощью технологий искусственного интеллекта. Модель способна динамически настраивать настроение аудио, стиль речи (например, мелочность, акцент старика и т. д.) и паралингвистические элементы (например, смех, вздох...
5 месяцев назад
030.9K
Open-o3 Video - 北大联合字节开源的视频推理模型

Open-o3 Video - модель рассуждений о видео с открытым исходным кодом Пекинского университета Объединенные байты

Open-o3 Video - это модель вывода видео с открытым исходным кодом, разработанная совместно Пекинским университетом и ByteDance и направленная на улучшение вывода видео с помощью временных и пространственных данных. Явное обозначение ключевых свидетельств временными метками и ограничительными рамками помогает модели лучше понимать и интерпретировать видеоконтент.
5 месяцев назад
027.3K
Handy - 开源免费的本地AI语音转文字工具

Handy - бесплатный инструмент для преобразования речи в текст с открытым исходным кодом на основе искусственного интеллекта

Handy - это бесплатный локальный инструмент преобразования речи в текст с открытым исходным кодом, поддерживающий системы Windows, MacOS и Linux, разработанный на Rust и React. Обрабатывая голосовые данные локально, без загрузки в облако, он гарантирует конфиденциальность и безопасность, а также подходит для быстрой транскрипции и ввода текста.
5 месяцев назад
059.6K
FG-CLIP 2 - 360开源的图文跨模态视觉语言模型

FG-CLIP 2 - 360 Open Source Cross-Modal Visual Language Model for Graphics

FG-CLIP 2 - ведущая в мире графическая кросс-модальная модель визуального языка (VL-M), созданная 360 Artificial Intelligence Research Institute, превосходящая аналогичные модели от Google и Meta в 29 авторитетных бенчмарках, что делает ее самой мощной VL-M на сегодняшний день.Она способна точно определить грубые...
5 месяцев назад
028K
朴素贝叶斯(Naive Bayes)是什么,一文看懂

Что такое Naive Bayes в одной статье?

Алгоритм Naive Bayes - это алгоритм контролируемого обучения, основанный на теореме Байеса. "Наивный Байес" основан на теореме Байеса и предполагает, что признаки условно независимы друг от друга. Упрощение предположений значительно снижает вычислительную сложность и делает алгоритм эффективным в практических приложениях.
5 месяцев назад
033.1K
K均值聚类(K-Means Clustering)是什么,一文看懂

Что такое кластеризация K-Means (кластеризация K-Means) в одной статье?

Кластеризация K-Means (K-Means Clustering) - это классический алгоритм машинного обучения без контроля. В основном он используется для разделения набора данных на K неравнозначных кластеров. Цель алгоритма - распределить n точек данных по K кластерам таким образом, чтобы каждая точка данных принадлежала кластеру, соответствующему ближайшему к ней центру кластера.
5 месяцев назад
027.6K
微舆BettaFish - 开源的多智能体舆情分析系统

Micro Opinion BettaFish - мультиинтеллектуальная система анализа мнений с открытым исходным кодом

BettaFish - это мультиинтеллектуальная система анализа мнений с открытым исходным кодом. Используя многоинтеллектуальную архитектуру, агенты Query, Media, Insight, Report и другие работают вместе, чтобы достичь замкнутого цикла поиска, извлечения и отчетности. Система поддерживает управляемую искусственным интеллектом полную ...
5 месяцев назад
061.5K
Ouro - 字节跳动Seed团队开源的新型循环语言模型

Ouro - новая циклическая языковая модель с открытым исходным кодом от команды ByteHopper Seed

Ouro - это новый тип Looped Language Models (LLMs), разработанный командой ByteDance Seed, основной инновацией которого является непосредственное построение возможностей вывода на этапе предварительного обучения с помощью рекуррентной вычислительной структуры с общим доступом к параметрам. Модель использует 24 слоя в качестве базового блока, через...
5 месяцев назад
037.1K
ChronoEdit - 英伟达与多伦多大学联合开源的AI图像编辑框架

ChronoEdit - ИИ-фреймворк для редактирования изображений с открытым исходным кодом от NVIDIA и Университета Торонто

ChronoEdit, система редактирования изображений с открытым исходным кодом, разработанная NVIDIA совместно с Университетом Торонто, переопределяет задачу редактирования изображений как задачу генерации видео, чтобы обеспечить временное и физическое соответствие результатов редактирования. Путем дистилляции предварительно обученной модели генерации видео с 14B параметрами из...
5 месяцев назад
032.1K
LongCat-Flash-Omni - 美团开源的全模态大语言模型

LongCat-Flash-Omni - полностью модальная модель большого языка для Meituan с открытым исходным кодом

LongCat-Flash-Omni - это полностью модальная модель большого языка с открытым исходным кодом, выпущенная командой LongCat из Meituan. С масштабом параметров 560 миллиардов (27 миллиардов активированных параметров) она позволяет достичь миллисекундного уровня взаимодействия в реальном времени с аудио и видео при сохранении большого количества параметров.
5 месяцев назад
030.1K
Petri - Anthropic开源的 AI 安全审计框架

Petri - система аудита безопасности ИИ с открытым исходным кодом от Anthropic

Petri - это система аудита безопасности ИИ с открытым исходным кодом, разработанная компанией Anthropic, которая систематически оценивает безопасность и поведенческую согласованность моделей ИИ. Имитируя реальный сценарий, в котором автоматический аудитор проводит несколько раундов диалога с целевой моделью, а затем агент-судья действует на...
5 месяцев назад
026.5K
前馈神经网络(Feedforward Neural Network)是什么,一文看懂

Что такое нейронная сеть с прямолинейным движением (FNN) в одной статье?

Нейронная сеть с прямой связью (FNN) - основная и широко используемая модель искусственной нейронной сети. Основная особенность заключается в том, что связи в сети не образуют никаких петель или путей обратной связи, а информация поступает строго однонаправленно от входного слоя к выходному слою через...
5 месяцев назад
030.9K
卷积神经网络(Convolutional Neural Network)是什么,一文看懂

Что такое конволюционная нейронная сеть (CNN), в одной статье

Конволюционная нейронная сеть (CNN), искусственная нейронная сеть, специально разработанная для обработки данных с решетчатой структурой, отлично зарекомендовала себя в области анализа изображений и видео.
5 месяцев назад
028.4K
Kimi Linear - 月之暗面开源的新型混合线性注意力架构

Kimi Linear - новая гибридная архитектура линейного внимания с открытым исходным кодом на темной стороне Луны

Kimi Linear - это новая гибридная архитектура линейного внимания с открытым исходным кодом от Dark Side of the Moon, в основе которой лежит Kimi Delta Attention (KDA), оптимизирующая традиционную модель внимания за счет более тонкого механизма регулировки, значительно повышающего эффективность аппаратного обеспечения и возможности управления памятью...
5 месяцев назад
038.6K
FIBO - 全球首个开源原生支持JSON的文本生成图像模型

FIBO - первая в мире программа с открытым исходным кодом, поддерживающая JSON-текст для создания моделей изображений.

FIBO - это первая в мире модель изображений для генерации текста с открытым исходным кодом и поддержкой JSON, разработанная компанией Bria AI. Основанная на архитектуре DiT (Diffusion Transformer) с 8B параметрами, она использует метод обучения Flow Matching...
5 месяцев назад
031K
SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast - модель синтеза разговорной речи от Soul AI Lab с открытым исходным кодом

SoulX-Podcast - это продвинутая модель синтеза разговорной речи с открытым исходным кодом от Soul AI Lab, предназначенная для создания высококачественного подкаст-контента. SoulX-Podcast способна генерировать несколько раундов диалога и имитировать плавный диалог в реальных сценариях подкастинга, поддерживая мандаринский, английский и несколько китайских...
5 месяцев назад
039.8K
GigaBrain-0 - 开源的具身基础模型,由世界模型生成数据驱动

GigaBrain-0 - базовая воплощенная модель с открытым исходным кодом, управляемая данными генерации модели мира

GigaBrain-0 - первая в Китае сквозная воплощенная базовая модель Vision-Language-Action (VLA), использующая мировые данные о генерации моделей для достижения реального машинного обобщения и совместно выпущенная с открытым исходным кодом компаниями GigaVision и Hubei Humanoid Robotics Innovation Centre. В ней используется гибридная архитектура Transformer, объединяющая ...
5 месяцев назад
027.3K
Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型

Ming-flash-omni-Preview - макромодель Ant Group с открытым исходным кодом и полной модальностью

Ming-flash-omni-Preview - полномодальная макромодель с открытым исходным кодом, выпущенная Ant Group inclusionAI, с масштабом параметров в сотни миллиардов, основанная на разреженной MoE архитектуре Ling 2.0, с общими параметрами 103B и активациями 9B...
5 месяцев назад
032.1K
OmniVinci - NVIDIA开源的全模态大语言模型

OmniVinci - Омнимодальная модель большого языка с открытым исходным кодом от NVIDIA

OmniVinci - это крупномасштабная языковая модель с открытым исходным кодом, полностью модальная, разработанная NVIDIA, которая решает проблему модальной фрагментации в мультимодальных моделях с помощью архитектурных инноваций и оптимизации данных. Выравнивание визуальных и аудио вкраплений улучшено с помощью OmniAlignNet, которая использует временной групповой захват...
5 месяцев назад
031.7K
olmOCR 2 - AI2开源的多模态文档解析模型

olmOCR 2 - модель мультимодального разбора документов с открытым исходным кодом AI2

olmOCR 2 - это мультимодальная модель разбора документов с открытым исходным кодом от Института искусственного интеллекта Аллена (AI2), которая является обновленной версией olmOCR. Оцифрованные печатные документы (например, PDF) будут иметь высокую...
5 месяцев назад
037.8K
ValueCell - 开源的多智能体金融平台,多个Agent分工协作

ValueCell - многоинтеллектуальная финансовая платформа с открытым исходным кодом и совместной работой нескольких агентов

ValueCell - это финансовая платформа с открытым исходным кодом, повышающая эффективность финансового анализа и управления инвестициями с помощью технологии искусственного интеллекта. Имитируя профессиональную инвестиционную команду, множество интеллектов ИИ работают вместе, охватывая анализ рынка, анализ настроений, фундаментальные исследования, автоматическую торговлю и другие функции, предоставляя пользователям всесторонний...
5 месяцев назад
057K
Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台

Dexbotic - машина Силы Духа с открытым исходным кодом воплощенного интеллекта VLA модель универсальной платформы исследовательских услуг

Dexbotic - это сервисная платформа с открытым исходным кодом Visual-Linguistic-Action (VLA) model of embodied intelligence one-stop research service platform компании Dexmal, которая решает проблемы фрагментации и низкой эффективности исследований в области воплощенного интеллекта. Основанная на PyTorch, Dexbotic является универсальной платформой исследовательского сервиса для решения проблем фрагментации и низкой эффективности исследований в области воплощенного интеллекта...
5 месяцев назад
029K
LongCat-Video - 美团LongCat开源的视频生成模型

LongCat-Video - LongCat - модель генерации видео с открытым исходным кодом Mission

LongCat-Video - это модель генерации видео с открытым исходным кодом на 1,36 миллиарда параметров, созданная командой LongCat по протоколу MIT с открытым исходным кодом и поддерживающая три основные задачи: генерация видео с текстом, генерация видео с графом и продолжение видео. Модель, благодаря стратегии генерации "от грубого к тонкому" и блочному механизму разреженного внимания, может в течение нескольких минут ...
5 месяцев назад
051K
DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

DreamOmni2 - модель редактирования и генерации мультимодальных изображений ИИ с открытым исходным кодом HKUST

DreamOmni2 - это мультимодальная модель редактирования и генерации изображений с открытым исходным кодом, созданная командой Цзяцзя в HKUST. Она может одновременно обрабатывать текстовые и графические команды, а также поддерживает несколько опорных изображений, предоставляя создателям более гибкие возможности для творчества. Модель обучается с помощью трехэтапного процесса синтеза данных, совместного обучения генерации/редактирования...
5 месяцев назад
035.7K
交叉验证(Cross-Validation)是什么,一文看懂

Кросс-валидация (Cross-Validation) - что это такое, статья для ознакомления

Перекрестная валидация - это основной метод оценки обобщающей способности модели в машинном обучении. Основная идея заключается в том, чтобы разделить исходные данные на обучающее и тестовое множество и получить более надежные оценки эффективности путем чередования обучения и проверки с использованием различных подмножеств данных. Этот подход имитирует ...
5 месяцев назад
031.8K
随机森林(Random Forest)是什么,一文看懂

Что такое случайный лес (Random Forest), статья для чтения и понимания

Random Forest (Случайный лес) - это интегрированный алгоритм обучения, который решает задачу машинного обучения путем построения нескольких деревьев решений и объединения их прогнозов. Алгоритм основан на идее агрегирования Bootstrap, когда из исходного набора данных случайным образом берется несколько подмножеств образцов с возвратом для каждого дерева...
5 месяцев назад
028.9K
损失函数(Loss Function)是什么,一文看懂

Функция потерь (Функция потерь) - что это такое, статья для ознакомления

Функция потерь (LF) - одно из основных понятий в машинном обучении и выполняет важную задачу количественной оценки ошибки предсказания модели. Эта функция математически измеряет степень разницы между предсказанным моделью значением и истинным значением, обеспечивая четкое направление для оптимизации модели.
5 месяцев назад
027.6K
混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

Модель смешанного мира 1.1 - Tencent Mixed World выпустила открытую 3D-реконструированную большую модель

WorldMirror 1.1 (WorldMirror) - это 3D-реконструкция больших моделей с открытым исходным кодом, выпущенная командой Tencent's WorldMirror, которая является обновленной версией серии WorldMirror. Она поддерживает многоракурсные изображения, видео и мультимодальные априорные данные, такие как положение камеры, внутренняя ссылка, карта глубины и т. д. Она преодолевает традиционную 3D-реконструкцию, которая полагается только на...
6 месяцев назад
035K
DeepSeek-OCR - DeepSeek开源的光学字符识别模型

DeepSeek-OCR - модель оптического распознавания символов с открытым исходным кодом DeepSeek

DeepSeek-OCR - это усовершенствованная модель оптического распознавания символов (OCR), открытая командой DeepSeek, которая преобразует текст в изображения с помощью технологии "контекстного оптического сжатия" и использует визуальные маркеры для сжатия и декодирования для эффективной обработки длинных текстов.
6 месяцев назад
040.2K
VitaBench - 美团LongCat开源的交互式Agent评测基准

VitaBench - бенчмарки MMT LongCat Open Source Interactive Agent Review

VitaBench - это первый интерактивный эталон оценки агентов для сложных жизненных сценариев, выпущенный командой LongCat компании Meituan и оценивающий всесторонние возможности больших модельных интеллектов в реальных жизненных сценариях. В качестве носителей для создания пакетов используются три высокочастотных жизненных сценария: заказ еды на вынос, обед в ресторане и путешествие...
6 месяцев назад
031.7K
MinerU2.5 - 上海AI Lab联合北大开源的文档解析模型

MinerU2.5 - открытая модель синтаксического анализа документов из Шанхайской лаборатории искусственного интеллекта и Пекинского университета

MinerU2.5 - это модель визуального языка, разработанная совместно Шанхайской лабораторией искусственного интеллекта и командой Пекинского университета и направленная на эффективный разбор изображений документов высокого разрешения. Основная инновация заключается в двухфазном дизайне "обнаружение глобального расположения с последующим распознаванием локального содержания": первая фаза представляет собой низкое разрешение...
6 месяцев назад
045.8K
LongCat-Audio-Codec - 美团LongCat开源的语音编解码方案

LongCat-Audio-Codec - голосовой кодек LongCat с открытым исходным кодом для Meituan

LongCat-Audio-Codec - это речевой кодек с открытым исходным кодом от команды LongCat из Meituan. Решение предназначено для Speech Large Language Model (Speech LLM), посредством семантического и акустического механизма параллельного извлечения Token, учитывающего семантические и акустические особенности речи ...
6 месяцев назад
029.6K
PaddleOCR-VL - 百度开源的超轻量级视觉-语言模型

PaddleOCR-VL - ультралегкие визуально-лингвистические модели с открытым исходным кодом от Baidu

PaddleOCR-VL - это ультралегкая визуально-лингвистическая модель Baidu с открытым исходным кодом, оптимизированная для сценариев парсинга документов. Модель содержит всего 0,9 Б параметров, благодаря слиянию динамического визуального кодера высокого разрешения и легкой языковой модели ERNIE, сохраняя при этом высокую точность и значительно снижая вычислительные затраты.
6 месяцев назад
046.4K
UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

UniPixel - мультимодальная модель на уровне пикселя с открытым исходным кодом от Гонконгского политехнического института, Tencent, CAS и др.

UniPixel - это новая мультимодальная модель, совместно предложенная Гонконгским политехническим университетом, компанией Tencent, Китайской академией наук и компанией Vivo для достижения понимания визуального языка на уровне пикселей. Объединяя возможности привязки к объектам и сегментации, она поддерживает различные тонкие задачи, такие как сегментация изображений, сегментация видео, понимание регионов и пи...
6 месяцев назад
035.1K
DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS - фреймворк для синтеза речи с открытым исходным кодом из нескольких диалектов, разработанный компаниями Tsinghua и Giant Network

DiaMoE-TTS - это система синтеза речи для нескольких диалектов, созданная совместно Университетом Цинхуа и Giant Network на основе Международного фонетического алфавита (IPA) для решения проблем нехватки диалектных данных, несоответствия орфографии и сложности фонологических изменений. Благодаря единому стандартизированному представлению фонем на основе IPA, устраняются междиалектные различия ...
6 месяцев назад
037.1K