NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本综合介绍 NV Ingest(NVIDIA Ingest) 是一套早期访问的微服务,专为解析数十万复杂、混乱的非结构化 PDF 和其他企业文档而设计。它能够将这些文档转换为元数据和文本,以便嵌入到检索...最新AI资源# AI开源项目# 文档提取与清洗11个月前039.2K
Easy Dataset:创建大模型微调数据集的简易工具综合介绍 Easy Dataset 是一个专门为大模型(LLM)微调设计的开源工具,托管在 GitHub 上。它提供了一个简单易用的界面,让用户可以上传文件、自动分割内容、生成问题和答案,最终输出适合...最新AI资源# AI开源项目# 大模型微调8个月前039.2K
MiMo:高效数学推理与代码生成的小型开源模型综合介绍 MiMo 是小米公司开发的一个开源大语言模型项目,专注于数学推理和代码生成。核心产品是 MiMo-7B 系列模型,包含基础模型 (Base)、监督微调模型 (SFT)、从基础模型训练的强化学...最新AI资源# AI开源项目7个月前039.2K
Auto-Deep-Research:多Agent协作执行文献查询并生成研究报告综合介绍 Auto-Deep-Research 是由香港大学数据智能实验室(HKUDS)开发的一款开源AI工具,旨在帮助用户自动完成深度研究任务。它基于 AutoAgent 框架打造,支持多种大语言模...最新AI资源# AI开源项目# 生成深度研究报告# 论文8个月前039.2K
Gemini Playground:无服务器部署Gemini多模态对话网站综合介绍 Gemini Playground 是一个开源项目,旨在帮助用户快速部署一个多模态对话网站。该项目由技术爬爬虾开发,支持使用 Gemini API Key 在 10 秒内完成部署。无论用户身...最新AI资源# AI开源项目# 免费大模型API10个月前039.1K
tldraw:开源无限画布白板SDK,AI生成简约线框图和UML图综合介绍 tldraw是一款免费且即时的协作绘图工具,提供一个无限画布,用户可以快速绘制图形、撰写文字并进行即时协作。具备界面直观、性能优秀的特点,适用于团队协作和远程工作。通过开源社区支持,tldr...最新AI资源# AI开源项目# AI白板与信息图1年前039.1K
InternVL:开源多模态大模型,支持图像、视频和文本处理综合介绍 InternVL 是由上海人工智能实验室(OpenGVLab)开发的一个开源多模态大模型项目,托管在 GitHub 上。它集成了视觉和语言处理能力,支持图像、视频和文本的综合理解与生成。In...最新AI资源# AI开源项目7个月前039.1K
AudioX:参考文本、图像、视频生成音频和音乐综合介绍 AudioX 是一个由 Zeyue Tian 等人在 GitHub 上开源的项目,官方论文发布于 arXiv(编号 2503.10522)。它基于扩散变换器(Diffusion Transf...最新AI资源# AI开源项目# AI音乐8个月前039.1K
NVIDIA Garak:检测LLM漏洞的开源工具,确保生成式AI的安全性综合介绍 NVIDIA Garak 是一款开源工具,专门用于检测大型语言模型(LLM)的漏洞。它通过静态、动态和自适应探测,检查模型是否存在幻觉、数据泄露、提示注入、错误信息生成、有害内容生成等多种弱...最新AI资源# AI开源项目# 大模型微调1年前039.1K
Kolors Virtual Try On:高效的虚拟试穿/模特换装,文本到图像生成模型综合介绍 Kolors Virtual Try-On 是由 Kwai-Kolors 团队在 Hugging Face 平台上推出的一款虚拟试穿应用。该应用利用先进的人工智能技术,帮助用户在虚拟环境中试...最新AI资源# AI开源项目# AI换脸与换装11个月前039.1K
RealtimeVoiceChat:低延迟与AI进行自然口语对话综合介绍 RealtimeVoiceChat 是一个开源项目,专注于通过语音与人工智能进行实时、自然的对话。用户使用麦克风输入语音,系统通过浏览器捕获音频,快速转为文字,由大型语言模型(LLM)生成回...最新AI资源# AI开源项目# 多模态实时互动产品7个月前039K
MathTranslate:科学论文LaTeX翻译工具综合介绍 MathTranslate 是一个专门用于翻译 LaTeX 文档的在线工具,特别适用于科学论文的翻译。该工具能够保持 LaTeX 表达式(如数学表达式)不变,并最终将 LaTeX 文档编译成...最新AI资源# AI开源项目# AI翻译# 论文10个月前039K
OpenPilot:开源自动驾驶系统,为爱车DIY一套自己的智能驾驶系统综合介绍 OpenPilot 是由 comma.ai 开发的开源自动驾驶系统,旨在通过先进的驾驶辅助功能提升现有车辆的驾驶体验和安全性。自 2016 年首次发布以来,OpenPilot 已支持超过 2...最新AI资源# AI开源项目10个月前039K
AingDesk:个人电脑一键安装AI模型和聊天界面(含DeepSeek)综合介绍 AingDesk是一款开源且免费的软件,旨在帮助用户轻松地在本地计算机上部署和运行各种AI模型。无论是 DeepSeek 还是 Llama 模型,AingDesk都能通过简单的操作步骤实现一...最新AI资源# AI开源项目# AI本地化聊天应用9个月前039K
Voice-Pro:开源多功能视频翻译工具,语音转录并翻译为多语言,Windows一键安装综合介绍 Voice-Pro 是一个基于 Gradio WebUI 的多功能工具,支持语音转文字、文本转语音、实时翻译、YouTube 视频下载和人声分离。它集成了 Whisper、Faster-Wh...最新AI资源# AI开源项目# AI翻译# AI语音转文本1年前039K
Data Formulator:AI驱动的数据可视化工具综合介绍 Data Formulator是由微软研究院开发的一款开源AI驱动的数据可视化工具。该工具结合了图形化用户界面(GUI)和自然语言输入(NL),使用户能够通过简单的交互和指令,快速创建和迭代...最新AI资源# AI开源项目# AI数据分析10个月前039K
Anubis:通过工作量证明干扰AI爬虫抓取综合介绍 Anubis 是一个由 TecharoHQ 团队开发的开源工具,主要用来保护网站免受 AI 爬虫的侵扰。它在 HTTP 请求中加入 SHA256 工作量证明(Proof-of-Work)挑战...最新AI资源# AI开源项目8个月前038.9K
Moshi:实时语音对话框架,支持多种语言和口音的语音对话基础模型综合介绍 Moshi Chat 是由法国非营利性AI实验室 Kyutai 推出的一款端到端实时AI语音助手。它不仅可以实时收听,还能进行自然对话,支持多模态交互,包括看、听、说的能力。Moshi Ch...最新AI资源# AI开源项目1年前038.9K
Watermark Removal:开源去除图像水印工具,图片去水印恢复原始图像综合介绍 Watermark Removal 是一个开源项目,利用机器学习和深度学习技术进行图像修复,专门用于去除图像中的水印。该项目由 Chimzuruoke Okafor 开发,灵感来源于 Con...最新AI资源# AI开源项目# AI抠图改背景9个月前038.9K
实时语音转文字的开源工具综合介绍 realtime-transcription-fastrtc 是一个开源项目,专注于将语音实时转换为文字。它利用 FastRTC 技术处理低延迟音频流,结合本地 Whisper 模型实现高效...最新AI资源# AI开源项目# AI语音转文本8个月前038.9K
Ai2 OLMoE:基于 OLMoE 模型离线运行的开源iOS AI应用综合介绍 Ai2 OLMoE是由Allen Institute for AI(简称Ai2,艾伦人工智能研究所)开发的一款开源iOS应用,旨在提供完全在设备上运行的AI模型。该应用利用了Ai2的开源OL...最新AI资源# AI大模型原生对话工具# AI开源项目# AI本地化聊天应用10个月前038.9K
腾讯混元3D(Hunyuan3D):生成高分辨率3D资产,多种3D素材生成工作流综合介绍 腾讯混元3D(Hunyuan3D 2.0)是腾讯推出的先进大规模3D合成系统,旨在生成高分辨率的纹理3D资产。该系统包括两个核心组件:大规模形状生成模型Hunyuan3D-DiT和大规模纹理...最新AI资源# AI开源项目# AI文本与图片转3D10个月前038.8K
QAnything:高度集成RAG处理流程的本地知识库问答系统QAnything 综合介绍 QAnything(Question and Answer based on Anything)是由网易推出的本地知识库问答系统,支持各类文件格式及数据库,可离线安装使用...最新AI资源# AI开放服务# AI开源项目# 知识检索与RAG框架1年前038.8K
Muyan-TTS:个性化播客语音训练与合成综合介绍 Muyan-TTS 是一个专为播客场景设计的开源文本转语音(TTS)模型。它通过超过10万小时的播客音频数据预训练,支持零样本语音合成,生成高质量的自然语音。模型基于 Llama-3.2-3...最新AI资源# AI开源项目# AI文本转语音7个月前038.8K
uniOCR:跨平台开源的文字识别工具综合介绍 uniOCR 是一个开源的文字识别工具,由 mediar-ai 团队开发。它基于 Rust 语言编写,支持 macOS、Windows 和 Linux 系统。用户可以通过它从图片中提取文字...最新AI资源# AI开源项目# OCR8个月前038.8K
AutoGen:微软开发的多智能体对话框架综合介绍 AutoGen是由微软研究团队开发的开源框架,专注于通过多智能体对话来简化大型语言模型(LLM)应用的构建。它允许开发者创建可以相互对话、协作解决任务的AI代理。这种方法不仅提高了LLM的性...最新AI资源# AI开源项目# 智能体开发框架10个月前038.8K
WebPilot:智能网页信息处理工具,网页内容抓取免费APIWebPilot 综合介绍 Webpilot是一个免费开源的“网页助手”,它可以让你和任何网页进行自由交流,或者执行自动任务。你不需要切换网页或者复制粘贴,只需要选择文本或者输入指令,webpilot...最新AI资源# AI开放服务# AI开源项目# AI搜索工具1年前038.7K
Deep Recall:为大模型提供企业级记忆框架的开源工具综合介绍 Deep Recall 是一个开源的企业级记忆框架,专为大型语言模型(LLM)设计。它通过高效的上下文检索和整合,提供超个性化的响应能力。框架采用三层架构,包括记忆服务、推理服务和协调器,支...最新AI资源# AI开源项目# 知识检索与RAG框架7个月前038.7K
Aide:强化VSCode开发体验的AI助手扩展,一键注释、转换、UI生成代码综合介绍 AIDE(AI-assisted Development Extension)是一款强大的 VSCode AI 辅助开发扩展,专注于提供独特且实用的 AI 编程辅助功能。它不同于 GitHu...最新AI资源# AI开源项目# AI编程11个月前038.7K
BrowserTools MCP:实时监控浏览器活动的MCP服务综合介绍 BrowserTools MCP 是一个开源项目,由 AgentDeskAI 团队开发。它通过 Chrome 扩展和 Node.js 服务,让 AI 能实时监控浏览器活动,包括日志、网络请求...最新AI资源# AI开源项目# MCP服务8个月前038.6K
YuE:将歌词转化为完整歌曲的基础模型,支持多种音乐风格综合介绍 YuE是一个开源的全歌曲生成基础模型,专注于将歌词转化为完整的歌曲。与其他仅能生成短片段非声乐音乐的模型不同,YuE能够生成包含主唱和伴奏的完整歌曲,时长可达数分钟。该模型解决了音乐生成中的...最新AI资源# AI开源项目# AI音乐10个月前038.6K
修复无效JSON字符串,解决 LLMs 生成的 JSON 数据中可能出现的格式错误。综合介绍 一个用于修复无效JSON文件的模块,特别适用于解析由大型语言模型(LLMs)输出的错误JSON数据。该模块能够修复常见的JSON语法错误,如缺失的引号、错误的逗号、不转义的字符和不完整的键值...最新AI资源# AI开源项目1年前038.6K
One API:多模型API管理与负载均衡,分发系统综合介绍 One API 是一个开源的接口管理与分发系统,支持多种大模型如 OpenAI ChatGPT、Anthropic Claude、Google PaLM 2 & Gemini 等。该...最新AI资源# AI开源项目1年前038.6K
RoomGPT:上传房间照片,使用AI重新设计综合介绍 RoomGPT是一个由GitHub用户Nutlope开发的开源项目,允许用户上传房间照片并利用人工智能技术生成重新设计的房间版本。该项目旨在让用户无需昂贵的设计师费用即可获得专业级的室内设计...最新AI资源# AI图像风格控制# AI开源项目1年前038.5K
promptfoo:提供安全可靠的LLM应用测试工具综合介绍 promptfoo 是一个开源的命令行工具和库,专门用于评估和红队测试大语言模型(LLM)应用。它为开发者提供了一套完整的工具,用于构建可靠的提示、模型和基于检索的生成(RAGs),并通过自...最新AI资源# AI开源项目9个月前038.5K
Zonos:高质量语音合成与语音克隆工具综合介绍 Zonos 是由 Zyphra 开发的一款开源语音合成与语音克隆工具。Zonos-v0.1 版本采用了先进的 Transformer 和混合模型,能够生成高质量的语音输出。该工具支持多种语言...最新AI资源# AI开源项目# AI语音克隆10个月前038.5K
YOLOE:实时视频检测和分割物体的开源工具综合介绍 YOLOE 是清华大学软件学院多媒体智能组(THU-MIG)开发的一个开源项目,全称“You Only Look Once Eye”。它基于 PyTorch 框架,属于 YOLO 系列的扩展...最新AI资源# AI开源项目# AI抠图改背景# 视觉目标检测8个月前038.5K
AgenticSeek:完全本地运行的任务自动化AI助手综合介绍 AgenticSeek 是一个完全本地运行的开源AI助手,基于 Deepseek R1 模型开发。它不需要云端API,也不产生每月数百美元的费用。它的目标是成为类似电影中“贾维斯”的智能助手...最新AI资源# AI开源项目# 智能体应用8个月前038.4K
Amurex:开源AI会议记录助手,自动记录会议内容生成总结综合介绍 Amurex是由The Personal AI Company开发的开源AI会议助手,旨在通过智能化的功能提升会议效率。Amurex能够实时提供建议、生成智能总结、记录会议内容,并自动发送跟...最新AI资源# AI开源项目# AI文本与音频/视频总结工具11个月前038.4K
Agent S:像人类一样操作电脑的开源智能体框架综合介绍 Agent S 是由 Simular AI 开发的开源框架,让智能体通过图形用户界面(GUI)像人类一样操作电脑。它使用多模态大语言模型和经验学习技术,能完成浏览网页、编辑文档、使用软件等任...最新AI资源# AI开源项目# 桌面自动化智能体8个月前038.4K
Basic Memory:从AI对话中构建持久知识图谱的MCP服务综合介绍 Basic Memory 是一个通过与AI助手(如Claude)对话来构建知识图谱的工具。它由 Basic Machines 公司开发,核心特点是把对话内容保存为 Markdown 文件,存...最新AI资源# AI开源项目# MCP服务# 知识图谱9个月前038.4K
LlamaCoder:使用提示词快速生成并发布小型web应用综合介绍 LlamaCoder 是一个基于 Llama 3.1 和 Together AI 的开源代码生成工具。它可以通过简单的提示生成小型应用程序,适合开发者快速实现创意。LlamaCoder 提供...最新AI资源# AI开源项目# AI编程# AI页面设计11个月前038.4K
Memary:利用知识图谱增强Agent长期记忆的开源项目综合介绍 Memary 是一个创新的开源项目,专注于为自主智能体提供长期记忆管理解决方案。该项目通过知识图谱和专门的记忆模块,帮助智能体突破传统上下文窗口的限制,实现更智能的交互体验。Memary 采...最新AI资源# AI开源项目# 智能体开发框架# 知识图谱11个月前038.4K
RAGLite:高效的检索增强生成(RAG)工具,支持多种数据库和语言模型。综合介绍 RAGLite 是一个用于检索增强生成(RAG)的 Python 工具包,支持 PostgreSQL 或 SQLite 数据库。它提供了灵活的配置选项,允许用户选择不同的语言模型和重排序器...最新AI资源# AI开源项目# 知识检索与RAG框架1年前038.4K
AnyText:生成和编辑多语言图像文本,高可控在图像中生成多行中文综合介绍 AnyText是一个革命性的多语言视觉文本生成和编辑工具,基于扩散模型开发。它能够在图像中生成自然、高质量的多语种文本,并支持灵活的文本编辑功能。该项目由研究团队开发,并在ICLR 2024...最新AI资源# AI图像生成辅助工具# AI图像风格控制# AI开源项目11个月前038.3K
Vercel AI SDK:使用流行前端框架构建AI驱动应用程序综合介绍 Vercel AI SDK 是一款由 Vercel 团队开发的开源工具,旨在帮助开发者使用 React、Svelte、Vue 和 Solid 等框架构建人工智能应用。它支持多种语言模型供应商...最新AI资源# AI开源项目10个月前038.3K
MTEB:评估文本嵌入模型性能的基准测试综合介绍 MTEB(Massive Text Embedding Benchmark)是一个由 embeddings-benchmark 团队开发并托管在 GitHub 上的开源项目,旨在为文本嵌入模...最新AI资源# AI开源项目9个月前038.3K
99AI:集成多模态AI服务的商业化Web应用(免费开源)综合介绍 99AI 是一个开源的 AI Web 应用项目,旨在提供一个易部署、低门槛的集成化人工智能服务平台。该项目支持智能对话、多模态模型、应用广场、联网搜索等功能,并集成了 AI 绘画、音乐和视频...最新AI资源# AI副业赚钱项目# AI开源项目# AI本地化聊天应用1年前038.2K
在cloudflare部署hugging face的免费api,支持接口转发因国内部署无法访问hugging face,所以在大佬部署方案的基础上改造成能部署到cloudflare workers。 准备工作 1、注册 cloudflare 2、注册hugging fac...最新AI资源# AI开源项目# 免费大模型API1年前038.2K
ModelBest(面壁智能):全球领先的轻量高性能端侧大模型综合介绍 ModelBest 是一家专注于开发轻量高性能大模型的公司,致力于将先进的 AI 技术应用于日常生活中的主流消费电子和各类终端设备。其 MiniCPM 系列端侧模型以极致的算力和内存使用效率...最新AI资源# AI大模型原生对话工具# AI开源项目1年前038.2K
Fast-Agent:声明式语法和MCP集成快速构建多智能体工作流综合介绍 Fast-Agent 是一个由 evalstate 团队在 GitHub 上维护的开源工具,旨在帮助开发者快速定义、测试和构建多智能体工作流。它基于简单的声明式语法,支持与 MCP(Mode...最新AI资源# AI开源项目# 智能体开发框架9个月前038.2K
Zed:Rust开发的高性能多人协作代码编辑器综合介绍 Zed 是由 Atom 和 Tree-sitter 的创造者开发的一款高性能、多用户协作的代码编辑器。Zed 采用 Rust 语言编写,旨在提供快速、流畅的编码体验。其主要特点包括支持多人实...最新AI资源# AI IDE# AI开源项目# AI编程12个月前038.2K
Baichuan-Audio:支持实时语音交互的端到端音频模型综合介绍 Baichuan-Audio 是由百川智能(baichuan-inc)开发的一个开源项目,托管于 GitHub 上,专注于端到端的语音交互技术。该项目提供了一个完整的音频处理框架,能够将语音...最新AI资源# AI开源项目# 多模态实时互动产品9个月前038.1K
FinGPT:开源金融大语言模型平台,助力金融分析与预测综合介绍 FinGPT 是由 AI4Finance 基金会开发的开源金融大语言模型平台,专为金融领域设计,旨在解决复杂的金融任务,并推动金融科技的创新发展。FinGPT 利用轻量化适配技术和强化学习方...最新AI资源# AI开源项目# AI金融数据分析10个月前038.1K
Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)综合介绍 Datalab 提供了一系列先进的AI模型,专注于OCR、布局分析、PDF转Markdown等功能。这些模型不仅性能卓越,而且易于使用,并且是开源的。平台上的Marker模型可以快速准确地将...最新AI资源# AI开放服务# AI开源项目# OCR1年前038.1K
Diffusers Image Outpaint:超强开源AI图像扩展工具,图像外绘(image outpainting)综合介绍 Diffusers Image Outpaint 是由 Hugging Face 社区成员 fffiloni 创建的一个强大的 AI 图像扩展工具。该工具利用先进的扩散模型技术,可以将图像进...最新AI资源# AI图像放大与修复# AI开源项目1年前038.1K
ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)综合介绍 ChatTTS 是一个专为对话场景设计的生成语音模型。它能够生成自然且富有表现力的语音,支持多种语言和多位说话者,适用于互动对话。该模型通过预测和控制细粒度的韵律特征,如笑声、停顿和插话,超...最新AI资源# AI开源项目# AI文本转语音10个月前038.1K
Mad Professor:辅助阅读和分析学术论文的AI工具综合介绍 Mad Professor(暴躁的教授读论文) 是一个开源的 AI 学术工具,专为研究人员和学生设计,旨在简化学术论文的阅读和分析。它集成了 PDF 处理、AI 翻译、RAG 检索、AI 问...最新AI资源# AI开源项目# AI教育工具7个月前038K
DiffSynth-Engine:低现存部署FLUX、Wan2.1的开源引擎综合介绍 DiffSynth-Engine 是魔搭社区(ModelScope)推出的开源项目,托管于 GitHub。它基于扩散模型技术,专注于高效生成图像和视频,适合开发者在生产环境中部署 AI 模型...最新AI资源# AI开源项目8个月前038K
推荐Github优秀开源下载工具在互联网高速发展的今天,下载工具作为用户获取信息和资源的重要手段,扮演着不可或缺的角色。本文将系统分析五款开源下载工具:AB Download Manager、XDM(Xtreme Download ...最新AI资源# AI开源项目1年前038K
R1 Overthinker:强制 DeepSeek R1 模型延长思考时间综合介绍 DeepSeek R1 Overthinker 是一个专为增强 DeepSeek R1 模型思考深度而设计的工具。通过延长模型的推理过程,该工具能够使模型进行更深入的思考,从而提高其回答的质...最新AI资源# AI开源项目10个月前037.9K
Research Rabbit:使用本地LLM进行网页研究和报告撰写,自动深入用户指定主题并生成总结。综合介绍 Research Rabbit 是一个基于本地LLM(大语言模型)的网页研究和总结助手。用户提供研究主题后,Research Rabbit 会生成搜索查询,获取相关网页结果,并总结这些结果...最新AI资源# AI开源项目# 生成深度研究报告8个月前037.9K
n8n-mcp-server:与n8n工作流交互的MCP服务工具综合介绍 n8n-mcp-server 是一个开源项目,托管在 GitHub 上,由 Leonard Sellem 开发。它是一个 MCP(Model Context Protocol)服务工具,专门...最新AI资源# AI开源项目# MCP服务8个月前037.9K
Sidekick CLI:一个开源的 Claude Code 替代工具综合介绍 Sidekick CLI 是一个开源的命令行工具,旨在通过 AI 辅助简化开发者的项目开发和部署流程。它受到 Claude Code、Copilot 和 Cursor 的启发,提供类似的功能...最新AI资源# AI开源项目# AI编程7个月前037.9K
Screenshot to Code:将截图转换为干净前端代码的AI工具综合介绍 Screenshot-to-Code 是一个开源工具,利用人工智能将截图、设计稿和 Figma 设计转换为干净、功能性的代码。该工具支持多种前端技术栈,包括 HTML、Tailwind CS...最新AI资源# AI开源项目# AI页面设计1年前037.9K
PocketFlow:100行代码实现AI应用开发的极简框架综合介绍 PocketFlow 是一个只有100行代码的轻量级AI应用开发框架,由 The-Pocket 团队开发并在 GitHub 上开源。它追求极简设计,核心代码控制在100行,没有任何外部依赖...最新AI资源# AI开源项目# 智能体开发框架# 知识图谱8个月前037.9K
WeClone:用微信聊天记录和语音训练数字分身综合介绍 WeClone 是一个开源项目,它通过微信聊天记录和语音消息,结合大语言模型和语音合成技术,让用户创建个性化的数字分身。项目能分析用户的聊天习惯来训练模型,还可以用少量语音样本生成逼真的声音...最新AI资源# AI开源项目# 大模型微调8个月前037.9K
微信Markdown编辑器:简洁高效的微信图文排版工具,一键粘贴文章到微信公众号综合介绍 微信 Markdown 编辑器(WeChat Markdown Editor)是一款高度简洁的微信图文排版工具,旨在帮助用户轻松创建美观的微信文章。该编辑器支持所有基础的 Markdown ...最新AI资源# AI开源项目# AI生活效率助手11个月前037.9K
Search-R1:强化学习训练大模型搜索与推理的工具综合介绍 Search-R1 是一个开源项目,由 PeterGriffinJin 在 GitHub 上开发,基于 veRL 框架构建。它通过强化学习(RL)技术训练大语言模型(LLM),让模型自主学会...最新AI资源# AI开源项目# 大模型微调8个月前037.9K
MegaTTS3:合成中英文语音的轻量模型综合介绍 MegaTTS3 是字节跳动与浙江大学合作开发的一款开源语音合成工具,专注于生成高质量的中英文语音。它的核心模型只有 0.45B 参数,轻量高效,支持中英文混合语音生成和语音克隆。项目托管在...最新AI资源# AI开源项目# AI文本转语音# AI语音克隆8个月前037.9K
Trackers:用于视频对象跟踪的开源工具库综合介绍 Trackers 是一个开源的 Python 工具库,专注于视频中的多对象跟踪。它集成了多种领先的跟踪算法,如 SORT 和 DeepSORT,允许用户结合不同的对象检测模型(如 YOLO...最新AI资源# AI开源项目# 视觉目标检测7个月前037.9K
NarratoAI:文本生成影视解说与自动化剪辑神器综合介绍 NarratoAI 是一个集影视解说、自动化剪辑、配音和字幕生成于一体的全自动化工具。它依托大型语言模型(LLM)技术,自动生成文案,并自动剪辑视频,配上相应的配音和字幕,为用户提供一站式的...最新AI资源# AI副业赚钱项目# AI开源项目# AI文本转视频1年前037.8K
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流综合介绍 百聆(Bailing)是一个开源的语音对话助手,旨在通过语音与用户进行自然的对话。该项目结合了语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成(TTS)技术,实现了...最新AI资源# AI开源项目# 多模态实时互动产品10个月前037.8K
AI ContentCraft:生成短故事、对话脚本、配音、配图的多功能AI内容创作工具综合介绍 AI ContentCraft 是一个多功能的内容创作工具,集成了文本生成、语音合成、图像生成等功能。它可以帮助创作者快速生成故事、播客脚本和配套的音视频内容。该工具支持多种语言转换,能够批...最新AI资源# AI写作# AI开源项目10个月前037.8K
FitDiT:高保真度AI虚拟试衣工具,提升服装细节真实性综合介绍 FitDiT是一个基于扩散变换器(Diffusion Transformers)的高保真虚拟试衣系统。该项目由腾讯AI Lab开发,旨在解决传统虚拟试衣系统在展示服装细节时的局限性。FitD...最新AI资源# AI开源项目# AI换脸与换装11个月前037.7K
SegAnyMo:从视频中自动分割任意运动物体的开源工具综合介绍 SegAnyMo 是一个开源项目,由加州大学伯克利分校和北京大学的研究团队开发,包括 Nan Huang 等成员。这个工具专注于视频处理,能自动识别和分割视频中任意运动的物体,比如人、动物或...最新AI资源# AI开源项目# AI抠图改背景# 视觉目标检测8个月前037.7K
UltraRAG:一站式RAG系统解决方案,简化数据构建与模型微调综合介绍 UltraRAG是由清华大学THUNLP组、东北大学NEUIR组、Modelbest.Inc和9#AISoft团队联合提出的RAG(检索增强生成)系统解决方案。该框架基于敏捷部署和模块化构建...最新AI资源# AI开源项目# 知识检索与RAG框架10个月前037.6K
GOT-OCR2.0:基于 QWen2 0.5B 端到端的多模态OCR模型综合介绍 GOT-OCR2.0是一个阶跃星辰联合推出de 开源光学字符识别(OCR)模型,旨在通过一个统一的端到端模型推动OCR技术向OCR-2.0迈进。该模型支持多种OCR任务,包括普通文本识别、格...最新AI资源# AI开源项目# OCR1年前037.6K
OpenAvatarChat:模块化设计的数字人对话工具综合介绍 OpenAvatarChat 是由 HumanAIGC-Engineering 团队开发的一个开源项目,托管在 GitHub 上。它是一个模块化的数字人对话工具,用户可以在单台 PC 上运行...最新AI资源# AI开源项目# 多模态实时互动产品8个月前037.5K
Flow(Laminar):构建智能体的轻量级任务引擎,简化并灵活管理任务综合介绍 Flow是一个轻量级的任务引擎,专为构建AI代理而设计,强调简洁性和灵活性。与传统的基于节点和边的工作流不同,Flow采用动态任务队列系统,支持并行执行、动态调度和智能依赖管理。其核心理念是...最新AI资源# AI开源项目# 低代码工作流12个月前037.5K
BuffGPT:企业级生成式AI应用低代码开发平台综合介绍 BuffGPT 是一个基于大语言模型(LLM)的开源AI应用开发平台,提供数据处理、模型调用、RAG检索和可视化工作流编排等开箱即用功能,帮助用户轻松构建和运营生成式AI应用。平台支持私有化...最新AI资源# AI开源项目# 低代码工作流# 智能体开发框架9个月前037.5K
SVFR:实现视频人脸修复的统一框架,修复黑白、模糊的人像老视频综合介绍 SVFR(Stable Video Face Restoration)是一个用于视频人脸修复的统一框架,支持基础人脸修复(BFR)、着色、修复及其组合任务。该框架利用生成和运动先验,通过统一...最新AI资源# AI图像放大与修复# AI开源项目11个月前037.5K
OmniSQL:将自然语言转化为高质量SQL查询的模型综合介绍 OmniSQL 是一个开源项目,由 RUCKBReasoning 团队开发,托管在 GitHub 上。它的核心功能是将用户输入的自然语言问题转化为高质量的 SQL 查询语句,帮助用户轻松与数...最新AI资源# AI开源项目# AI数据分析8个月前037.5K
Firecrawl MCP Server:基于 Firecrawl 的网页爬虫 MCP 服务综合介绍 Firecrawl MCP Server 是由 MendableAI 开发的一款开源工具,基于 Model Context Protocol (MCP) 协议实现,与 Firecrawl A...最新AI资源# AI开源项目# MCP服务# 文档提取与清洗9个月前037.4K
Dify-Plus:为Dify开发的企业内部管理后台综合介绍 Dify-Plus是基于Dify开源项目二次开发的AI应用开发平台。它在Dify的基础上,新增了基于的管理中心,针对企业场景进行了功能优化。项目最初为企业内部使用,后来发现社区有类似需求,便...最新AI资源# AI开源项目8个月前037.4K
LocalGPT:在本地设备上与多文档对话,确保数据隐私综合介绍 LocalGPT是一个开源项目,旨在让用户在本地设备上与文档进行对话,确保数据隐私。通过使用各种开源模型,LocalGPT可以在不将数据上传到云端的情况下处理和理解文档内容。该项目支持多种平...最新AI资源# AI开源项目# 知识检索与RAG框架12个月前037.4K
MeetingMind:依赖OpenAI Whisper的开源智能会议记录与总结工具综合介绍 MeetingMind 是一个先进的 AI 应用程序,旨在提高捕捉和总结商务会议的效率。该应用集成了 OpenAI 的 Whisper 技术,用于准确的语音转文字,并使用 IBM Watso...最新AI资源# AI开源项目# AI文本与音频/视频总结工具1年前037.4K
MiniRAG:简化检索增强生成框架,实体图索引召回相关文本块综合介绍 MiniRAG是一个极其简单的检索增强生成(RAG)框架,旨在通过异构图索引和轻量级拓扑增强检索,使小模型也能实现良好的RAG性能。该项目由香港大学数据科学实验室(HKUDS)开发,主要解决...最新AI资源# AI开源项目# 知识图谱# 知识检索与RAG框架10个月前037.3K
BetterWhisperX:自动语音识别与说话人分离,提供高精度单词级时间戳综合介绍 BetterWhisperX 是一个基于 WhisperX 项目的优化版本,专注于提供高效、准确的自动语音识别(ASR)服务。作为 WhisperX 的改进分支,该项目由 Federico ...最新AI资源# AI开源项目# AI语音转文本11个月前037.3K
Cosmos:世界基础模型,构建物理世界的人工智能基础模型平台综合介绍 NVIDIA Cosmos 是一个面向开发者的世界基础模型平台,专门设计用于帮助物理人工智能开发者更好、更快地构建其物理人工智能系统。该平台提供了一系列预训练模型,包括基于扩散和自回归的世界...最新AI资源# AI开放服务# AI开源项目11个月前037.3K
mcp-ui:基于MCP协议的简洁AI聊天界面综合介绍 mcp-ui 是一个开源项目,由开发者 machaojin1917939763 创建,基于 Model Context Protocol(MCP)协议打造,是一款支持 Web 和桌面环境的智...最新AI资源# AI开源项目# AI本地化聊天应用8个月前037.3K
Goose:开源可扩展的编程智能体,自动化执行编程全流程任务综合介绍 Goose是由 Block 公司开发的一个开源AI代理工具,旨在帮助开发者自动化处理日常开发任务。它支持多种大型语言模型(LLM),通过命令行或桌面应用接口与用户互动。Goose可以执行从代...最新AI资源# AI开源项目# AI编程# 智能体开发框架10个月前037.3K
OpenAOE:大模型群聊框架:同时与多个大语言模型聊天综合介绍 OpenAOE 是一个开源的大模型群聊框架,旨在解决当前市场上缺乏多模型并行响应的聊天框架的问题。通过 OpenAOE,用户可以同时与多个大语言模型(LLM)进行对话,获取并行输出。该框架支...最新AI资源# AI开源项目# AI集成多模型对话平台10个月前037.3K
E2B Open Computer Use:E2B沙盒中安全的运行AI操作系统综合介绍 E2B Open Computer Use 是一个开源项目,旨在通过 E2B 桌面沙盒提供安全的云端 Linux 计算机使用体验。E2B沙盒提供了一个桌面图形环境,用户可以将其连接到任何大型...最新AI资源# AI开源项目# 桌面自动化智能体11个月前037.2K
AutoDev:支持多语言的自动代码生成与调试工具综合介绍 AutoDev 是一个由 Unit Mesh 团队开发的开源项目,托管在 GitHub 上,旨在通过人工智能技术提升开发者的编程效率。它是一个功能强大的编码助手,支持多种编程语言,包括 Ja...最新AI资源# AI开源项目# AI编程9个月前037.2K
Paper2Code:将机器学习论文自动转化为可运行代码综合介绍 Paper2Code 是一个开源项目,旨在解决机器学习论文缺乏代码实现的问题。它通过多代理大语言模型(LLM)系统 PaperCoder,将科学论文自动转化为可运行的代码仓库。系统采用规划...最新AI资源# AI开源项目# 智能体应用7个月前037.2K
Deep Research Web UI:支持多语言深度研究的AI助手综合介绍 Deep Research Web UI 是一个基于AI技术的开源研究助手工具,旨在帮助用户对任何主题进行深度的迭代研究。它结合了搜索引擎、网页抓取和大型语言模型的能力,通过直观的Web界面...最新AI资源# AI开源项目# 生成深度研究报告8个月前037.2K
AnkiAIUtils:Anki闪卡学习AI工具集,自动优化记忆卡片的智能助手综合介绍 AnkiAIUtils是一套专为Anki闪卡学习系统设计的人工智能增强工具集。该工具由一位医学院学生开发,旨在通过AI技术自动改进用户在学习过程中遇到困难的卡片。它能够智能地为用户提供个性化...最新AI资源# AI开源项目# AI教育工具11个月前037.2K
Ruyi-Models:生成图像到视频开源模型,支持镜头控制与运动幅度控制综合介绍 Ruyi-Models 是一个开源项目,旨在通过图像生成高质量的视频。该项目由 IamCreateAI 团队开发,支持生成 768 分辨率、每秒 24 帧、总计 5 秒 120 帧的电影级视...最新AI资源# AI图像转视频# AI开源项目11个月前037.2K