Проект с открытым исходным кодом AI

Всего 1020 статей
расставлять по порядку
Qwen2.5-VL:支持图像视频文档解析的开源多模态大模型

Qwen2.5-VL: мультимодальная большая модель с открытым исходным кодом для разбора изображений и видеодокументов

Всеобъемлющее введение Qwen2.5-VL - это мультимодальная большая модель с открытым исходным кодом, разработанная командой Qwen из Alibaba Cloud (Alibaba Cloud). Она может обрабатывать текст, изображения, видео и документы одновременно, является обновленной версией Qwen2-VL, основанной на Qwen2.5...
1 год назад
086.1K
bilive:B站无人监守直播录制与自动切片、上传工具

bilive: Неконтролируемая запись в реальном времени и автоматическая нарезка, инструмент загрузки для станции B

Всеобъемлющее представление bilive - это инструмент, предназначенный для прямой записи B-станций, обеспечивающий чрезвычайно быструю прямую запись, автоматическую нарезку, рендеринг всплывающих окон и генерацию субтитров. Инструмент совместим с машинами ультранизкой конфигурации, поддерживает 7x24-часовую запись без присмотра, автоматически идентифицирует и отображает всплывающие окна и субтитры, автоматически нарезает и...
1 год назад
085.9K
基于Cloudflare Worker的AI图片生成脚本

Cloudflare Скрипты генерации изображений ИИ на основе рабочего процесса

Общее представление CloudFlare-AI-Image - это проект с открытым исходным кодом, размещенный на GitHub, который предоставляет бесплатные услуги по генерации изображений искусственного интеллекта через платформу Cloudflare Workers. Он поддерживает функции генерации текстовых изображений и изображений, основанных...
1 год назад
085.8K
Cog-ComfyUI:使用API运行ComfyUI工作流

Cog-ComfyUI: запуск рабочих процессов ComfyUI с помощью API

Общее введение Cog-ComfyUI - это проект с открытым исходным кодом, предназначенный для запуска рабочих процессов ComfyUI через API. Созданный пользователем fofr на GitHub, проект предоставляет эффективный способ интеграции и запуска рабочих процессов ComfyUI.ComfyUI - это ...
1 год назад
085.6K
uniOCR:跨平台开源的文字识别工具

uniOCR: кроссплатформенный инструмент для распознавания текста с открытым исходным кодом

Общее представление uniOCR - это инструмент для распознавания текста с открытым исходным кодом, разработанный командой mediar-ai. Он основан на языке Rust и поддерживает системы macOS, Windows и Linux. Пользователи могут использовать его для извлечения текста из изображений...
1 год назад
084.9K
Knowledge Graph Studio(WhyHow):创建和管理知识图谱的开源平台,RAG应用原生支持

Knowledge Graph Studio (WhyHow): платформа с открытым исходным кодом для создания и управления графами знаний, со встроенной поддержкой RAG-приложений.

Всеобъемлющее введение Knowledge Graph Studio (KGS) - это платформа с открытым исходным кодом, разработанная для упрощения процесса создания и управления RAG-родными графами знаний. Платформа обеспечивает разрешение сущностей на основе правил, модульное построение графов, гибкое...
1 год назад
084.9K
OpenPilot:开源自动驾驶系统,为爱车DIY一套自己的智能驾驶系统

OpenPilot: система автономного вождения с открытым исходным кодом, сделайте свой собственный набор интеллектуальной системы вождения для вашего автомобиля

Общее представление OpenPilot - это система автономного вождения с открытым исходным кодом, разработанная comma.ai для повышения удобства и безопасности вождения существующих автомобилей с помощью передовых функций помощи водителю. С момента своего первого релиза в 2016 году OpenPilot поддерживает более 2...
1 год назад
084.8K
Gemini-OpenAI:反代Gemini地址绕过区域限制并转换为OpenAI兼容API

Gemini-OpenAI: обратная генерация адресов Gemini в обход региональных ограничений и преобразование в API, совместимые с OpenAI

Общее введение Gemini OpenAI API Agent - это бесплатная и не требующая обслуживания сервера конечная точка, совместимая с OpenAI. Пользователи могут легко развернуть его на таких платформах, как Vercel, Netlify и Cloudflare для личного использования. Проект ...
1 год назад
084.7K
Mad Professor:辅助阅读和分析学术论文的AI工具

Mad Professor: инструмент искусственного интеллекта, помогающий читать и анализировать научные статьи

Общее представление Mad Professor (Grumpy Professor Reads Papers) - это академический инструмент с открытым исходным кодом на основе ИИ, разработанный для исследователей и студентов, чтобы упростить чтение и анализ научных работ. Он объединяет в себе обработку PDF, перевод ИИ, поиск RAG, вопросы ИИ...
12 месяцев назад
084.5K
ImBD:AI生成内容检测,检测内容是否由人工智能生成

ImBD: обнаружение контента, созданного ИИ, определение того, создан ли контент ИИ или нет

Всеобъемлющее введение ImBD (Imitate Before Detect) - это новаторский проект по обнаружению текста, созданного машиной, который был представлен на конференции AAAI 2025. С широким распространением больших языковых моделей (LLM), таких как ChatGPT, определение A...
1 год назад
084.2K
Mem0:为AI助手和代理提供智能记忆层的开源项目

Mem0: проект с открытым исходным кодом, обеспечивающий интеллектуальный уровень памяти для ИИ-помощников и агентов.

Общее представление Mem0 (произносится как "мем-ноль") - это проект с открытым исходным кодом, который предоставляет интеллектуальный слой памяти для ИИ-помощников и агентов. Он запоминает предпочтения пользователей, адаптируется к индивидуальным потребностям и улучшается со временем, что делает его идеальным для чат-ботов, ИИ-помощников и автономных систем...
2 года назад
084.2K
Dify-WebUI:基于Dify API的桌面智能对话客户端,提供企业级AI对话能力

Dify-WebUI: клиент интеллектуального диалога для настольных компьютеров, основанный на API Dify, обеспечивающий диалоговые возможности ИИ корпоративного уровня

Всеобъемлющее введение Dify-WebUI - это современное настольное интеллектуальное диалоговое приложение, основанное на API Dify, предназначенное для предоставления предприятиям мощных диалоговых возможностей искусственного интеллекта. Приложение поддерживает несколько предустановленных цветов тем для удовлетворения индивидуальных потребностей предприятий, а также имеет функцию управления базой знаний для поддержки...
1 год назад
084.2K
DDG-Chat:一键部署Chat2API后端,DuckDuckGo转API

DDG-Chat: развертывание бэкенда Chat2API одним щелчком мыши, DuckDuckGo для API

Общее введение DDG-Chat - это проект с открытым исходным кодом, целью которого является предоставление бэкенда ChatGPT API, который может быть развернут на нескольких платформах одним щелчком мыши. Проект поддерживает множество моделей, включая GPT-4o mini, Claude 3 Haiku, Llam...
1 год назад
084.1K
GitIngest:快速将Github代码仓库转为适合LLM理解的文本

GitIngest: быстрое преобразование репозиториев кода Github в текст, пригодный для понимания LLM

Общие сведения Введение GitIngest - это инструмент с открытым исходным кодом, предназначенный для преобразования репозиториев кода GitHub в текст, подходящий для подсказок Large Language Model (LLM). С помощью простой операции пользователи могут извлечь и отформатировать содержимое любого репозитория GitHub, чтобы оно соответствовало LLM ...
1 год назад
084.1K
One API:多模型API管理与负载均衡,分发系统

Единый API: многомодельное управление API и балансировка нагрузки, система распределения

Всеобъемлющее введение One API - это система управления и распространения интерфейсов с открытым исходным кодом, которая поддерживает различные большие модели, такие как OpenAI ChatGPT, Anthropic Claude, Google PaLM 2 & Gemini. ...
2 года назад
084.1K
Aider:开源编程助手工具,使用AI助手进行代码编写和文件编辑

Aider: инструмент-помощник программиста с открытым исходным кодом, используйте AI-помощника для написания кода и редактирования файлов

Общее представление Aider - это мощный помощник программирования с открытым исходным кодом, который помогает разработчикам писать, редактировать и рефакторить код с помощью диалога на естественном языке. Будучи интерактивным инструментом для парного программирования с искусственным интеллектом, Aider поддерживает многие основные языки программирования и может быть легко интегрирован в Git...
1 год назад
084K
RuoYi AI:基于SpringBoot实现AI聊天和绘画的后端框架

RuoYi AI: основанный на SpringBoot бэкэнд-фреймворк для чата и рисования ИИ

Всеобъемлющее введение RuoYi AI является бэкэнд проект, основанный на ruoyi-плюс рамки , сосредоточив внимание на интеграции AI чат и живопись функции. Он является полностью открытым исходным кодом и бесплатно, используя Java17 и SpringBoot 3.X стека технологий, бэкэнд управления ...
1 год назад
083.6K
Kokoro WebGPU:浏览器中离线运行的文本转语音服务

Kokoro WebGPU: служба преобразования текста в речь для автономной работы в браузерах

Общее представление Kokoro WebGPU - это WebGPU-версия модели преобразования текста в речь (TTS) Kokoro, предоставляемая WebML Community на платформе Hugging Face. Проект использует технологию WebGPU, чтобы позволить пользователям...
1 год назад
083.5K
MNN-LLM-Android:MNN 多模态语言模型的安卓应用

MNN-LLM-Android: Мультимодальное моделирование языка с помощью MNN для Android

Всеобъемлющее введение MNN (Mobile Neural Network) - это эффективный, легкий фреймворк глубокого обучения, разработанный компанией Alibaba и оптимизированный для мобильных устройств. MNN не только способен быстро делать выводы на мобильных устройствах, но и поддерживает мультимодальные задачи, включая генерацию текста...
1 год назад
083.2K
文多多 AiPPT:AI生成PPT,演讲稿生成

Wenduoduo AiPPT: AI Generated PPT, генерация презентаций

Всеобъемлющее введение AiPPT - это инструмент для создания PPT на основе технологии искусственного интеллекта, призванный помочь пользователям быстро создавать профессиональные презентации. Он автоматически генерирует насыщенные контентом и красиво оформленные слайды при вводе тем, загрузке файлов или предоставлении URL-адресов и т.д. Он поддерживает встроенные диаграммы, анимацию и 3D-спец...
1 год назад
083.1K
GraphRAG-Dify:让Dify具备GraphRAG能力

GraphRAG-Dify: оснащение Dify возможностями GraphRAG

Всеобъемлющее введение GraphRAG-Dify - это проект с открытым исходным кодом, предназначенный для объединения технологий GraphRAG и Dify для быстрого создания и развертывания агентов искусственного интеллекта. Проект использует FastAPI и Uvicorn для создания сервисов, а также поддерживает импорт DSL, что удобно для...
1 год назад
082.8K
PPTX2MD:将PPTX文件转换为Markdown的专用工具

PPTX2MD: Специальный инструмент для преобразования файлов PPTX в Markdown

Общее представление PPTX2MD - это инструмент с открытым исходным кодом, предназначенный для преобразования файлов PowerPoint PPTX в формат Markdown. Разработанный пользователем GitHub ssine, инструмент поддерживает сохранение заголовков, списков, форматирования текста (например, жирный шрифт, курсив, цвета и супер...
1 год назад
082.8K
ElizaOS:构建自主执行的多智能体,功能完备的开源AI智能体开发框架

ElizaOS: создание автономно исполняющих мультиинтеллектов, полнофункциональный фреймворк для разработки интеллектуальных тел ИИ с открытым исходным кодом

Всеобъемлющее введение Eliza является передовым мульти-интеллектуального тела (Multi-Agent) развития рамки, стремится упростить строительство и развертывание автономных интеллектуальных тел (автономный агент) процесс. Она поддерживает развертывание нескольких интеллектуальных тел с различными настройками роли, может достичь интеллектуального ...
1 год назад
082.7K
NGCBot:新闻推送、AI对话与群聊管理的微信机器人

NGCBot: бот для WeChat для отправки новостей, диалога с искусственным интеллектом и управления групповым чатом

Всеобъемлющее введение NGCBot является HOOK механизм на основе развития WeChat робот открытый исходный проект , созданный разработчиком ngc660sec (Yunshan/eXM) и размещен на GitHub После двух лет итерации, текущая версия V2.3, функции от первоначального простого ...
1 год назад
082.6K
PPTAgent:自动生成和评估PPT演示文稿,文档转PPT

PPTAgent: автоматическое создание и оценка PPT-презентаций, документов в PPT

Общее представление PPTAgent - это инновационная система, предназначенная для автоматического создания презентаций на основе документов. Система опирается на человеческий подход к созданию презентаций, используя двухэтапный процесс для обеспечения качества содержания и визуального воздействия. Кроме того, PPTAgent представляет PPTEval, комплексный...
1 год назад
082.6K
InstantID:上传一张图片,迁移人像特征来生成不同风格图片

InstantID: загрузите изображение и переместите функции портрета для создания различных стилей изображений

Всеобъемлющее введение InstantID - это передовая технология, направленная на создание изображений с индивидуальными стилями или позами за считанные секунды, обеспечивая при этом высокий уровень достоверности с использованием одной эталонной идентификационной фотографии. Технология использует решение на основе диффузионной модели, объединяющее изображения лиц, карты ориентиров...
2 года назад
082.6K
Stagehand:自然语言实现浏览器自动化操作框架

Stagehand: фреймворк для реализации операций автоматизации браузеров на естественном языке

Общее представление Stagehand - это фреймворк для веб-браузинга с искусственным интеллектом, ориентированный на простоту и расширяемость. Он полностью совместим с Playwright и предоставляет три простых AI API (act, extract и observe), которые построены на базе...
1 год назад
082.5K
Search-R1:强化学习训练大模型搜索与推理的工具

Search-R1: обучение с подкреплением для обучения больших моделей для поиска и рассуждений

Общее представление Search-R1 - это проект с открытым исходным кодом, разработанный PeterGriffinJin на GitHub и построенный на фреймворке veRL. Он обучает большие языковые модели (LLM) с помощью методов обучения с подкреплением (RL), позволяя моделям автономно обучаться...
1 год назад
082.5K
AutoGen Studio:多代理系统AutoGen的简易用户界面版

AutoGen Studio: простая в использовании интерфейсная версия мультиагентной системы AutoGen

Общее описание AutoGen Studio 2.0 - это пользовательский интерфейс на базе AutoGen, предназначенный для упрощения процесса создания и управления мультиагентными решениями. Платформа позволяет пользователям декларативно определять и изменять агентов и их рабочие процессы с помощью интуитивно понятного интерфейса...
1 год назад
082.5K
CAD-MCP:通过自然语言指令控制CAD软件的MCP服务

CAD-MCP: услуги MCP для управления программным обеспечением САПР с помощью команд на естественном языке

Общее введение CAD-MCP - это проект с открытым исходным кодом, который позволяет пользователям управлять программным обеспечением САПР с помощью команд на естественном языке для выполнения чертежных операций. Он сочетает в себе обработку естественного языка и технологию автоматизации САПР, так что пользователям не нужно вручную управлять интерфейсом САПР, достаточно ввести простые текстовые команды, которые ...
12 месяцев назад
082.5K
InternVL:开源多模态大模型,支持图像、视频和文本处理

InternVL: Мультимодальные большие модели с открытым исходным кодом для обработки изображений, видео и текста

Всеобъемлющее введение InternVL - это проект мультимодальной большой модели с открытым исходным кодом, разработанный Шанхайской лабораторией искусственного интеллекта (OpenGVLab) и размещенный на GitHub. Он объединяет возможности визуальной и лингвистической обработки для поддержки комплексного понимания и создания изображений, видео и текстов.В...
1 год назад
082.2K
MetaGPT:多智能体协作框架,构建 AI 软件开发团队实现自然语言编程

MetaGPT: механизм взаимодействия с несколькими интеллектуальными органами для создания команд разработчиков программного обеспечения ИИ для программирования на естественном языке

Всеобъемлющее введение MetaGPT - это инновационный фреймворк с несколькими интеллектуальными телами, предназначенный для моделирования работы полноценной компании по разработке программного обеспечения с искусственным интеллектом. Цель проекта, созданного geekan (Александр Ву), - объединить модели GPT с различными ролями в совместную структуру...
1 год назад
082.2K
Orama:高性能全文本和向量搜索引擎

Orama: высокопроизводительная система полнотекстового поиска книг и векторов

Общее представление Orama - это высокопроизводительная поисковая система с открытым исходным кодом, написанная полностью на TypeScript, поддерживающая полнотекстовый поиск, векторный поиск и гибридный поиск.Orama разработана для работы в любой среде выполнения JavaScript, обеспечивая быстрый, надежный ...
1 год назад
082K
Steel Browser:自动化网页浏览器API,构建控制浏览器操作的智能体与应用

Steel Browser: автоматизированный API веб-браузера для создания интеллектов и приложений, контролирующих работу браузера

Общее представление Steel Browser - это API браузера с открытым исходным кодом, разработанный для агентов и приложений искусственного интеллекта. Он предоставляет полный экземпляр браузера, который позволяет пользователям автоматизировать веб-операции, не заботясь об инфраструктуре.Steel Browser поддерживает...
1 год назад
081.9K
无服务器快速部署Grok3国内镜像站

Бессерверное быстрое развертывание внутреннего зеркального сайта Grok3

Общее введение Grok Playground - это проект с открытым исходным кодом, разработанный командой "Technical Crawling Shrimp". Основная функция этого инструмента заключается в том, чтобы позволить пользователям развернуть внутренний зеркальный сайт Grok3 за 10 секунд. Grok3 - это модель искусственного интеллекта, представленная компанией xAI, и ...
1 год назад
081.9K
IC-Light(V2):图像照明控制神器,控制图像光影和背景

IC-Light (V2): магия управления освещением изображения, управление светом, тенью и фоном изображения

Всеобъемлющее введение IC-Light - это проект по управлению освещением изображений, целью которого является манипулирование эффектами освещения изображений с помощью продвинутых моделей искусственного интеллекта. Разработанный Лвмином Чжаном и другими, проект предоставляет две основные модели: модель пересвета с учетом текста и модель с учетом фона. Пользователи могут передавать...
1 год назад
081.7K
DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

DeepSeek-VL2: экспертная модель визуального языка для расширенного мультимодального понимания

Всеобъемлющее введение DeepSeek-VL2 - это серия усовершенствованных визуальных языковых моделей Mixture-of-Experts (MoE), которые значительно улучшают производительность своего предшественника DeepSeek-VL. Модели полезны для визуальных вопросов и ответов, оптического распознавания символов,...
1 год назад
081.6K
Anon-Kode:命令行AI代码助手(Claude Code代码反编译)

Anon-Kode: помощник ИИ-кода из командной строки (декомпиляция кода Claude Code)

Общее представление Anon-Kode - это кодовый помощник ИИ с открытым исходным кодом для терминальных операций, запущенный на GitHub разработчиком Даниилом Наковым. Он предназначен для программистов, чтобы поддерживать API в стиле OpenAI, интегрируя языковые модели, поддерживающие...
1 год назад
081.1K
TimesFM 2.0:谷歌开源进行时间序列预测的预训练模型

TimesFM 2.0: Google выкладывает в открытый доступ предварительно обученную модель для прогнозирования временных рядов

Общее представление TimesFM 2.0 - 500M PyTorch - это предварительно обученная базовая модель временных рядов, разработанная Google Research и предназначенная для прогнозирования временных рядов. Модель способна обрабатывать до 2048 временных точек вверх и вниз...
1 год назад
081.1K
Clone Voice:支持多语言的少样本声音克隆工具,基于xtts_v2提供Windows一键安装包

Clone Voice: Многоязычный инструмент для клонирования голоса без сэмплов на основе xtts_v2 для Windows.

Общее описание Clone Voice - это инструмент клонирования звука с открытым исходным кодом, который предоставляет веб-интерфейс, позволяющий пользователям клонировать голоса, используя любой звук или личную запись голоса. Инструмент прост в использовании, даже без NVIDIA GPU, и может быть использован с предварительно скомпилированным приложением...
2 года назад
081K
AutoDev:支持多语言的自动代码生成与调试工具

AutoDev: инструмент для автоматической генерации и отладки кода с поддержкой нескольких языков

Общее представление AutoDev - это проект с открытым исходным кодом, разработанный командой Unit Mesh и размещенный на GitHub, целью которого является повышение эффективности программирования разработчиков с помощью методов искусственного интеллекта. Это мощный помощник в написании кода, поддерживающий множество языков программирования, включая Ja...
1 год назад
081K
MobileAgent:多代理协作的移动设备操作助手

MobileAgent: мультиагентное взаимодействие для помощника по эксплуатации мобильных устройств

Общее представление MobileAgent - это мощный помощник по управлению мобильными устройствами, предназначенный для повышения эффективности и автоматизации работы с мобильными устройствами за счет мультиагентного взаимодействия и улучшенных модулей визуального восприятия. Он разработан командой X-PLUG и поддерживает Android и ...
1 год назад
080.7K
RD-Agent:自动化数据驱动研发工具,通过AI技术推动以数据为导向的研发过程

RD-Agent: автоматизированный инструмент для проведения НИОКР на основе данных, который облегчает процессы НИОКР на основе данных с помощью технологии искусственного интеллекта.

Общее представление RD-Agent - это инструмент с открытым исходным кодом от Microsoft, предназначенный для автоматизации и оптимизации процесса исследований и разработок (R&D). Инструмент ориентирован на сценарии, основанные на данных, для повышения эффективности разработки моделей и данных с помощью методов искусственного интеллекта.RD-Agent объединяет исследовательские...
1 год назад
080.7K
阿布量化交易系统:基于Python的开源量化交易平台

Количественная торговая система Abu: платформа для количественной торговли с открытым исходным кодом на основе Python

Общее введение Abu Quantitative Trading System - это платформа с открытым исходным кодом, основанная на Python. Она была создана пользователем "bbfamily", чтобы помочь инвесторам реализовать количественные торговые стратегии с помощью кода. Система поддерживает бэктестирование и торговлю различными финансовыми продуктами, такими как акции, опционы, фьючерсы и биткоин. Она...
1 год назад
080.6K
Abogen:将多种文本格式转换为有声读物的工具

Abogen: инструмент для преобразования различных текстовых форматов в аудиокниги

Общее представление Abogen - это инструмент с открытым исходным кодом, предназначенный для быстрого преобразования файлов ePub, PDF или обычного текста в высококачественный звук. Он использует модель Kokoro-82M для генерации естественной и плавной речи и поддерживает одновременную генерацию субтитров, что подходит для создания аудиокниг...
12 месяцев назад
080.6K
Moffee:将Markdown转为PPT幻灯片

Moffee: Преобразование Markdown в PPT слайд-шоу

Общее представление Moffee - это инструмент с открытым исходным кодом, который быстро, просто и эффективно превращает файлы Markdown в профессиональные слайд-шоу. Пользователям нужно только написать содержимое в формате Markdown, а Moffee автоматически обработает макет, пагинацию и стиль, избавляя от необходимости вручную набирать...
1 год назад
080.6K
Unsloth:高效微调和训练大语言模型的开源工具

Unsloth: инструмент с открытым исходным кодом для эффективной тонкой настройки и обучения больших языковых моделей

Всеобъемлющее введение Unsloth - это проект с открытым исходным кодом, предназначенный для предоставления эффективных инструментов для тонкой настройки и обучения больших языковых моделей (LLM). Проект поддерживает множество известных моделей, включая Llama, Mistral, Phi и Gemma.Unsloth...
1 год назад
080.3K
FreeAI:基于Pollinations封装的的免费AI工具

FreeAI: бесплатный инструмент искусственного интеллекта, основанный на пакете Pollinations.

Общее введение FreeAI - это платформа приложений ИИ с открытым исходным кодом, основанная на Pollinations.AI API, предоставляющая бесплатные и неограниченные услуги чат-ассистентов ИИ, генерации изображений и синтеза речи. Проект был начат разработчиком Azad-sl в Г...
1 год назад
080.2K
Cursor Auto Register:自动创建并管理Cursor账号的开源工具

Cursor Auto Register: автоматическое создание и управление учетными записями Cursor с помощью инструментов с открытым исходным кодом

Общее введение Cursor Auto Register - это проект с открытым исходным кодом, размещенный на GitHub. Он был создан разработчиком ddCat-main, чтобы помочь пользователям автоматически регистрировать и управлять учетными записями для редактора кода Cursor AI...
1 год назад
079.9K
Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR

Zerox: PDF, DOCX, преобразование изображений в Markdown, высокоточное распознавание визуальных моделей

Общее представление Zerox - это проект с открытым исходным кодом, предназначенный для преобразования PDF, DOCX, изображений и других документов в формат Markdown с помощью визуальных моделей. Проект разработан командой getomni-ai и представляет собой простое и эффективное решение OCR (Optical Character Recognition).Ze...
1 год назад
079.9K
VLM-R1:通过自然语言定位图像目标的视觉语言模型

VLM-R1: модель визуального языка для определения местоположения целей изображения с помощью естественного языка

Всеобъемлющее введение VLM-R1 - это проект визуального моделирования языка с открытым исходным кодом, разработанный Om AI Lab и размещенный на GitHub. Проект основан на подходе R1 компании DeepSeek, объединенном с моделью Qwen2.5-VL, с помощью обучения с подкреплением...
1 год назад
079.9K
OuteTTS:实验性文本转语音模型,使用纯语言建模方法实现的TTS

OuteTTS: экспериментальная модель преобразования текста в речь, TTS, реализованная с использованием подхода чистого языкового моделирования

Всеобъемлющее введение OuteTTS - это экспериментальная модель преобразования текста в речь (TTS), которая использует подход чистого языкового моделирования для генерации высококачественной речи. В отличие от традиционных систем TTS, OuteTTS не требует внешних адаптеров или сложных архитектур. Модель основана на архитектуре LLaMa...
1 год назад
079.7K
MCP Playwright:提供浏览器自动化操作的MCP服务

MCP Playwright: служба MCP, обеспечивающая автоматизацию работы браузера

Общее представление MCP-Playwright - это инструмент с открытым исходным кодом, разработанный компанией ExecuteAutomation и размещенный на GitHub. Он основан на Playwright и Model Context Proto...
1 год назад
079.6K
KTransformers:大模型推理性能引擎:极致加速,灵活赋能

KTransformers: механизм вывода больших моделей: экстремальное ускорение, гибкое расширение возможностей

KTransformers: высокопроизводительный фреймворк на языке Python для преодоления узких мест, связанных с выводом больших моделей. Это больше, чем просто инструмент для работы с моделями, это набор движков для оптимизации производительности и гибкая платформа для расширения возможностей интерфейса. KTransf...
1 год назад
079.6K
Open R1:Hugging Face 复现 DeepSeek-R1 的训练过程

Open R1: обнимающееся лицо повторяет процесс обучения DeepSeek-R1

Общее введение Проект Hugging Face's Open R1 - это проект репликации DeepSeek-R1 с открытым исходным кодом, целью которого является создание недостающих частей конвейера R1, чтобы каждый мог воспроизвести их и построить на их основе. Проект задуман как простой и состоит в основном из обучения и оценки...
1 год назад
079.5K
Step1X-Edit:自然语言指令编辑图像的开源工具

Step1X-Edit: инструмент с открытым исходным кодом для редактирования изображений с помощью инструкций на естественном языке

Общее представление Step1X-Edit - это фреймворк для редактирования изображений с открытым исходным кодом, разработанный командой Stepfun AI и размещенный на GitHub. Он сочетает в себе мультимодальную модель большого языка (Qwen-VL) и диффузионный трансформатор (DiT), чтобы позволить пользователям создавать изображения с помощью простой и естественной...
12 месяцев назад
079.5K
Klee:桌面本地运行AI大模型并管理私人知识库

Klee: запуск макромоделей ИИ локально на рабочем столе и управление частной базой знаний

Общее представление Klee - это настольное приложение с открытым исходным кодом, разработанное для того, чтобы помочь пользователям запускать открытые Большие языковые модели (LLM) локально с безопасным управлением частными базами знаний и возможностями ведения заметок в формате Markdown. Оно основано на технологиях Ollama и LlamaIndex...
1 год назад
079.4K
AgenticSeek:完全本地运行的任务自动化AI助手

AgenticSeek: ИИ-помощник для автоматизации задач, работающий полностью локально

Общее представление AgenticSeek - это ИИ-ассистент с открытым исходным кодом, который работает полностью локально и основан на модели Deepseek R1. Он не требует облачного API и не влечет за собой ежемесячной платы в сотни долларов. Его цель - стать интеллектуальным помощником, подобным "Джарвису" из фильма...
1 год назад
079.2K
AsrTools:语音转字幕工具,内置剪映、快手、必剪接口的轻量客户端

AsrTools: инструмент преобразования речи в субтитры, легкий клиент со встроенными интерфейсами для Cutscene, Racer и Must-Cut

Всеобъемлющее введение AsrTools - это интеллектуальный инструмент преобразования речи в текст со встроенными интерфейсами от таких крупных игроков, как Cutscene, QuickScope, MustCut и т.д. Он не требует GPU или громоздкой конфигурации, а также поддерживает эффективную многопоточную пакетную обработку. Он основан на разработке PyQt5, имеет красивый и удобный интерфейс, способен выводить слова в форматах SRT и TXT...
2 года назад
079.2K
VoltAgent:快速构建AI智能体的TypeScript开源框架

VoltAgent: фреймворк с открытым исходным кодом на TypeScript для быстрого создания искусственного интеллекта

Общее представление VoltAgent - это фреймворк TypeScript с открытым исходным кодом, предназначенный для разработчиков, чтобы помочь быстро создать и оркестровать интеллектуальные системы искусственного интеллекта. Он предоставляет модульные инструменты и стандартизированную модель разработки, которая упрощает взаимодействие с большими языковыми моделями (LLM), состоянием...
12 месяцев назад
079K
InstantCharacter:从单张图片生成一致性角色的开源工具

InstantCharacter: инструмент с открытым исходным кодом для генерации последовательных персонажей из одного изображения

Общее представление InstantCharacter - это проект с открытым исходным кодом, разработанный Tencent Hunyuan и командой InstantX и размещенный на GitHub. Он генерирует последовательные карты символов с эталонным изображением и текстовым описанием...
12 месяцев назад
079K
BetterWhisperX:自动语音识别与说话人分离,提供高精度单词级时间戳

BetterWhisperX: автоматическое распознавание речи отдельно от диктора, обеспечивающее высокую точность временных меток на уровне слов

Общее введение BetterWhisperX - это оптимизированная версия проекта WhisperX, ориентированная на предоставление эффективных и точных услуг автоматического распознавания речи (ASR). Как улучшенное ответвление WhisperX, проект был разработан Федерико ...
1 год назад
078.9K
GFPGAN:腾讯开源的人脸修复算法

GFPGAN: алгоритм восстановления лица с открытым исходным кодом от Tencent

Всеобъемлющее введение GFPGAN (Generative Facial Prior GAN) - это алгоритм восстановления лица с открытым исходным кодом, разработанный Tencent ARC (Applied Research Center). Алгоритм использует предварительно обученный лицевой GAN...
2 года назад
078.8K
CrewAI:多角色扮演协作智能框架,简化复杂任务

CrewAI: многоролевая система совместного интеллекта для упрощения сложных задач

Всеобъемлющее введение CrewAI - это продвинутый фреймворк, предназначенный для организации взаимодействия между ролевыми играми и автономными агентами ИИ. Благодаря совместной интеллектуальной деятельности CrewAI позволяет агентам беспрепятственно работать вместе для решения сложных задач. Независимо от того, создаете ли вы платформу интеллектуального помощника, автоматизируете команды обслуживания клиентов или мультиагентную...
1 год назад
078.7K
Dia:生成超现实多人对话的文本转语音模型

Dia: модель преобразования текста в речь для создания гиперреалистичных многопользовательских диалогов

Общее представление Dia - это модель преобразования текста в речь (TTS) с открытым исходным кодом, разработанная компанией Nari Labs и предназначенная для создания гиперреалистичных диалоговых аудио. Она преобразует текстовые сценарии в реалистичные многосимвольные диалоги за один процесс, поддерживает управление эмоциями и интонациями и даже генерирует невербальные представления...
1 год назад
078.7K
Motia:用代码快速构建智能体的开发框架

Motia: система разработки для быстрого создания интеллекта в коде

Общее представление Motia - это фреймворк ИИ-агентов с открытым исходным кодом для инженеров-программистов, размещенный на GitHub и разработанный командой MotiaDev. Он позволяет разработчикам использовать знакомые языки программирования (например, Python, TypeScript, Rub...
1 год назад
078.7K
NSFW Detector:检测文件是否包含不适(NSFW)内容,保护数据安全

Детектор NSFW: определяет, содержит ли файл содержимое NSFW, чтобы защитить данные.

Всеобъемлющее введение NSFW Detector - это инструмент обнаружения дискомфортного содержимого на основе искусственного интеллекта, в основном используемый для определения того, содержат ли изображения, видео, PDF-файлы и т.д. дискомфортное содержимое. Инструмент использует Falconsai/nsfwimagedetectio...
1 год назад
078.6K
Browser-Use:构建智能网页自动化工具,让AI智能体轻松操作浏览器

Browser-Use: создание интеллектуальных инструментов веб-автоматизации для ИИ-интеллектуалов, позволяющих легко управлять браузерами

Всеобъемлющее введение Browser-Use - это инновационный инструмент автоматизации веб-сайтов с открытым исходным кодом, специально разработанный для того, чтобы языковые модели (LLM) могли естественным образом взаимодействовать с веб-сайтами. Он предоставляет мощный и гибкий фреймворк, поддерживающий широкий спектр основных языковых моделей, включая GPT-4, Claud...
1 год назад
078.6K
Comp AI:自动化SOC 2、ISO 27001和GDPR合规的开源平台

Comp AI: платформа с открытым исходным кодом для автоматизации соблюдения требований SOC 2, ISO 27001 и GDPR

Общее представление Comp AI - это платформа с открытым исходным кодом, разработанная компанией Comp AI, Inc. в Сан-Франциско, США. Она помогает организациям быстро выполнить требования к соответствию, такие как SOC 2, ISO 27001 и GDPR, с помощью автоматизированных инструментов, с целью...
1 год назад
078.6K
Local Deep Research:本地运行的生成深度研究报告工具

Местные глубокие исследования: локальный инструмент для создания отчетов о глубоких исследованиях

Общее представление Local Deep Research - это исследовательский помощник ИИ с открытым исходным кодом, призванный помочь пользователям проводить глубокие исследования и создавать подробные отчеты по сложным проблемам. Он поддерживает локальный запуск, позволяя пользователям выполнять исследовательские задачи, не полагаясь на облачные сервисы. Инструмент ...
12 месяцев назад
078.6K
优化代码生成和展示的Open WebUI

Открытый WebUI для оптимизированной генерации и представления кода

Общее представление Open WebUI Artifacts Overhaul - форк проекта на основе Open WebUI, разработанный разработчиком Ником Тоньюмом. Это инструмент с открытым исходным кодом, ориентированный на улучшение кода, генерируемого искусственным интеллектом...
1 год назад
078.6K
FinGPT:开源金融大语言模型平台,助力金融分析与预测

FinGPT: платформа с открытым исходным кодом для финансового моделирования на большом языке для финансовой аналитики и прогнозирования

Общее представление FinGPT - это платформа для моделирования на большом финансовом языке с открытым исходным кодом, разработанная фондом AI4Finance Foundation и предназначенная для финансового сектора с целью решения сложных финансовых задач и стимулирования инноваций в области финтеха. FinGPT использует методы облегченной адаптации и подходы к обучению с усилением...
1 год назад
078.5K
Fabric:集成众多提示词的AI开源工作流框架,高效处理各种事务

Fabric: фреймворк рабочего процесса с открытым исходным кодом для ИИ, объединяющий множество слов-ключей для эффективной обработки различных операций.

Общее представление Fabric - это фреймворк искусственного интеллекта с открытым исходным кодом, разработанный Даниэлем Мисслером для упрощения и автоматизации повседневных компьютерных задач и облегчения использования искусственного интеллекта. Он эффективно помогает пользователям благодаря модульной конструкции и заранее заданным словам-подсказкам (Patterns)...
2 года назад
078.3K
MathTranslate:科学论文LaTeX翻译工具

MathTranslate: инструмент для перевода научных статей в формате LaTeX

Общее введение MathTranslate - это онлайн-инструмент, предназначенный для перевода документов LaTeX, особенно научных работ. Инструмент способен сохранять выражения LaTeX (например, математические выражения) без изменений и в итоге компилирует документы LaTeX в...
1 год назад
078.2K
TreeGPT:可视化树状对话的AI聊天界面

TreeGPT: интерфейс чата с искусственным интеллектом для визуализации разговоров на основе деревьев

Общее представление TreeGPT - это чат-приложение с открытым исходным кодом на базе Next.js, ориентированное на визуализацию разговоров с большими языковыми моделями (LLM, например, GPT) через древовидные графовые структуры (directed acyclic graphs, DAGs), заменяя традиционные линейные методы чата для повышения скорости и...
1 год назад
078.1K
Llasa 1~8B:高品质语音生成和克隆的开源文本转语音模型

Llasa 1~8B: модель преобразования текста в речь с открытым исходным кодом для генерации и клонирования речи высокого качества

Общие сведения Введение Llasa-3B - это модель преобразования текста в речь (TTS) с открытым исходным кодом, разработанная аудиолабораторией Гонконгского университета науки и технологий (HKUST Audio). Модель основана на архитектуре Llama 3.2B, которая была тщательно настроена для обеспечения высококачественной генерации речи, которая не только поддерживает множество...
1 год назад
078K
Qwen-Agent:基于Qwen的智能代理应用框架,包括工具调用、代码解释器、RAG和Chrome扩展。

Qwen-Agent: основанный на Qwen фреймворк для приложений интеллектуальных агентов, включающий вызовы инструментов, интерпретаторы кода, RAG и расширения для Chrome.

Всеобъемлющее введение Qwen-Agent - это фреймворк интеллектуальных агентских приложений, разработанный на основе Qwen 2.0 и выше, с такими возможностями, как выполнение команд, использование инструментов, планирование и память. Фреймворк предоставляет множество примеров приложений, таких как браузерные помощники, интерпретаторы кода и пользовательские помощники...
1 год назад
077.9K
OpenWebUI-Monitor:监控OpenWebUI用户活动,管理使用限额,支持一键部署。

OpenWebUI-Monitor: мониторинг действий пользователей OpenWebUI, управление лимитами использования, поддержка развертывания одним щелчком мыши.

Общее представление OpenWebUI-Monitor - это приборная панель для мониторинга деятельности пользователей OpenWebUI и управления квотами использования. Она позволяет эффективно устанавливать пользовательские квоты, просматривать пользовательские данные и визуальную информацию в режиме реального времени, поддерживает развертывание одним щелчком мыши, а также облегчает управление пользователями и мониторинг...
1 год назад
077.9K
Magic MCP:生成现代化UI组件的MCP服务

Magic MCP: MCP-сервис для генерации современных компонентов пользовательского интерфейса

Общее введение Magic MCP - это инструмент, управляемый искусственным интеллектом, разработанный командой 21st.dev и предназначенный для front-end разработчиков. Он генерирует современные компоненты пользовательского интерфейса "на лету" из описаний на естественном языке и интегрируется с Cursor, WindSurf и ...
1 год назад
077.8K
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

Step-Audio: мультимодальный фреймворк для голосового взаимодействия, который распознает речь и общается с помощью клонированной речи, среди прочих возможностей

Всеобъемлющее введение Step-Audio - это фреймворк с открытым исходным кодом для интеллектуального речевого взаимодействия, предназначенный для обеспечения готовых возможностей понимания и генерации речи в производственных средах. Фреймворк поддерживает многоязычные разговоры (например, китайский, английский, японский), эмоциональную речь (например, счастливую, грустную), региональные диалекты (например, кантонский, чечуаньский ...
1 год назад
077.7K
AI reads books:AI逐页阅读PDF书籍,自动提取知识要点并生成总结

ИИ читает книги: ИИ читает PDF-книги страницу за страницей, автоматически извлекает основные моменты и создает резюме.

Комплексное введение AI-reads-books-page-by-page - это основанная на Python разработка интеллектуального инструмента анализа PDF-книг, который может автоматизировать постраничный анализ PDF-книг, извлекать ключевые точки знаний, а после указанного интервала страниц генерировать этап...
1 год назад
077.7K
DiffRhythm(谛韵):10秒内生成最长4分45秒的歌曲

DiffRhythm: генерируйте песни длительностью до 4 минут 45 секунд за 10 секунд.

Общее представление DiffRhythm - это проект с открытым исходным кодом, разработанный ASLP-lab (Группа обработки аудио, речи и языка, Северо-Западный политехнический университет) и направленный на сквозное создание музыки с помощью методов искусственного интеллекта. Он основан на латентной диффу...
1 год назад
077.7K
tldraw:开源无限画布白板SDK,AI生成简约线框图和UML图

tldraw: SDK с открытым исходным кодом для создания неограниченных досок на холсте, искусственный интеллект для создания минималистичных электронных схем и UML-диаграмм

Общее описание tldraw - это бесплатный инструмент для совместного рисования, который предоставляет неограниченный холст, на котором пользователи могут быстро рисовать графику, писать текст и мгновенно работать. Обладая интуитивно понятным интерфейсом и отличной производительностью, он подходит для совместной и удаленной работы. Поддерживаемый сообществом разработчиков с открытым исходным кодом, tldr...
1 год назад
077.5K
Whisper Input:利用Groq免费且高速的语音转录文本服务

Whisper Input: бесплатный и высокоскоростной сервис транскрипции голоса в текст с помощью Groq.

Общее описание Whisper Input - это инструмент транскрипции голоса с открытым исходным кодом, который позволяет пользователям начинать запись голоса нажатием кнопки Option и заканчивать запись поднятием кнопки. Инструмент вызывает Groq Whisper Large V3 Turbo ...
1 год назад
077.4K
multi-model-bolt.new:基于 Bolt.new 的开源修改版,AI驱动的全栈开发工具

multi-model-bolt.new: модификация с открытым исходным кодом, основанная на Bolt.new, управляемом искусственным интеллектом инструменте разработки полного стека

Общее описание multi-model-bolt.new - это модифицированная версия Bolt.new, которая позволяет использовать модели TogetherAI, поддерживая такие функции, как развертывание, мобильный ответ и голосовой ввод. Пользователи могут получать запросы непосредственно в браузере, запускать...
1 год назад
077.2K
Agent TARS:使用视觉和命令操作电脑的开源智能体

Агент TARS: интеллектуальная система с открытым исходным кодом, использующая зрение и команды для управления компьютерами

Всеобъемлющее введение Агент TARS - это мультимодальный искусственный интеллект с открытым исходным кодом от ByteDance, основные функции которого помогают пользователям выполнять сложные компьютерные задачи путем визуального понимания веб-контента и комбинирования операций командной строки и файловой системы. Вместо того чтобы требовать ручных операций, как это делают традиционные инструменты, он может самостоятельно...
1 год назад
077.1K
MediaCrawler:多社交媒体平台内容、视频评论爬虫工具

MediaCrawler: инструмент для поиска контента и комментариев к видео на платформах мультисоциальных медиа

Общее представление MediaCrawler - это инструмент для сбора контента социальных сетей, предназначенный для разработчиков. Благодаря мощному краулеру он может быстро захватывать видео, изображения, комментарии, лайки, ретвиты и другие данные с таких социальных платформ, как Xiaohongshu, Shake, Shutter, B, Weibo и других...
2 года назад
077.1K
WeChatAI:Windows版微信群聊智能助手客户端

WeChatAI: клиент интеллектуального помощника группового чата WeChat для Windows

Всеобъемлющее введение WeChatAI - это основанный на Python групповой чат WeChat и персональный интеллектуальный помощник, поддерживающий различные большие языковые модели (такие как DeepSeek, Gemini, Tongyi Thousand Questions), которые могут достигать интеллектуального диалога, автоответа и других функций. Проект использует современные ...
1 год назад
077.1K
BEN2:从图像、视频中快速移除背景的深度学习模型

BEN2: модель глубокого обучения для быстрого удаления фона с изображений и видео

Всеобъемлющее введение BEN2 (Background Erase Network 2) - это модель глубокого обучения, разработанная компанией Prama LLC специально для автоматического удаления фона с изображения и создания изображения переднего плана. Модель использует инновационную систему Confiden...
10 месяцев назад
077.1K
Firecrawl MCP Server:基于 Firecrawl 的网页爬虫 MCP 服务

Firecrawl MCP Server: MCP-служба веб-краулера на основе Firecrawl

Общее представление Firecrawl MCP Server - это инструмент с открытым исходным кодом, разработанный MendableAI, основанный на реализации протокола Model Context Protocol (MCP), с Firecrawl A...
1 год назад
077K
AIGCPanel:开源克隆数字人整合系统,一键部署免费数字人客户端

AIGCPanel: клон интеграционной системы digital man с открытым исходным кодом, развертывание бесплатного клиента digital man одним щелчком мыши

Всеобъемлющее введение AigcPanel - это универсальная система производства цифровых людей AI для всех пользователей, разработанная с использованием стека технологий electron+vue3+typescript, поддерживающая развертывание в один клик на Windows. Система спроектирована так, чтобы быть удобной для пользователя, даже...
1 год назад
077K
AI投资系统:自动化A股投资决策系统,利用多智能体系统分析市场数据

Инвестиционная система AI: автоматизированная система принятия инвестиционных решений по акциям A, использующая мультиинтеллектуальную систему для анализа рыночных данных

Всеобъемлющее введение A_Share_investment_Agent - это помощник в принятии инвестиционных решений на основе мультиинтеллектуальной системы. Система предназначена для анализа рыночных данных, расчета внутренней стоимости акций, анализа настроений на рынке и фундаментальных данных с помощью нескольких совместных интеллектов, чтобы...
1 год назад
077K
Kolors Virtual Try On:高效的虚拟试穿/模特换装,文本到图像生成模型

Виртуальная примерка Kolors: эффективная виртуальная примерка/одевание моделей, генерация моделей из текста в изображение

Общее представление Kolors Virtual Try-On - это приложение для виртуальной примерки от команды Kwai-Kolors на платформе Hugging Face. Приложение использует передовую технологию искусственного интеллекта, чтобы помочь пользователям примерить виртуальные...
1 год назад
076.9K
WeClone:用微信聊天记录和语音训练数字分身

WeClone: обучение цифровых двойников с помощью журналов чатов WeChat и голосов

Всеобъемлющее введение WeClone - это проект с открытым исходным кодом, который использует транскрипты чатов WeChat и голосовые сообщения в сочетании с большими языковыми моделями и технологией синтеза речи, чтобы позволить пользователям создавать персонализированных цифровых двойников. Проект может анализировать привычки пользователя в чате для обучения модели, а также небольшое количество образцов голоса для генерации реалистичного звука...
1 год назад
076.9K
Unstructured:开源预处理非结构化文档,无结构数据处理的利器

Неструктурированные: препроцессинг неструктурированных документов с открытым исходным кодом, инструменты обработки неструктурированных данных

Всеобъемлющее введение Unstructured-IO представляет собой набор компонентов с открытым исходным кодом для обработки и предварительной обработки изображений и текстовых документов, таких как PDF, HTML, документы Word и т. д. Его основная цель - упростить и оптимизировать рабочие процессы обработки данных, особенно для больших языковых моделей (LL...
2 года назад
076.9K
A2A:谷歌发布AI智能间通信的开放协议

A2A: Google выпускает открытый протокол для общения между ИИ-интеллектами

Общее введение A2A (Agent2Agent) - это протокол с открытым исходным кодом, разработанный компанией Google для того, чтобы позволить ИИ-интеллектам, разработанным различными структурами или поставщиками, общаться и сотрудничать друг с другом. Он предоставляет стандартизированный набор методов, позволяющих интеллектам узнавать о возможностях друг друга, делиться задачами и завершать работу...
1 год назад
076.9K
微信Markdown编辑器:简洁高效的微信图文排版工具,一键粘贴文章到微信公众号

Редактор WeChat Markdown: простые и эффективные инструменты для графической верстки WeChat, ключ для вставки статьи в публичный номер WeChat

Всеобъемлющее введение WeChat Markdown Editor (редактор WeChat Markdown) - это очень лаконичный инструмент для графической верстки WeChat, призванный помочь пользователям легко создавать красивые посты в WeChat. Редактор поддерживает все основные ...
1 год назад
076.8K
TRELLIS:Microsoft开发的3D资产生成模型,支持多种格式和灵活编辑

TRELLIS: разработанная Microsoft модель создания 3D-активов с поддержкой различных форматов и возможностью гибкого редактирования

Общее представление TRELLIS - это крупномасштабная модель генерации 3D-активов, разработанная компанией Microsoft. Она способна получать текстовые или графические подсказки и генерировать высококачественные 3D-активы в различных форматах, таких как радиальные поля, 3D-гауссианы и сетки.В основе TRELLIS лежит унифицированная структурированная скрытая...
1 год назад
076.7K