Agno:构建具备记忆、知识和工具的多模态智能体框架综合介绍 Agno 是一个由 agno-agi 团队开发并托管于 GitHub 的开源 Python 库,致力于让开发者轻松构建具备记忆、知识和工具的 AI 智能体。它支持文本、图像、音频和视频等多模...最新AI资源# AI开源项目# 智能体开发框架7个月前027.5K
KG Gen:从纯文本中自动生成知识图谱的开源工具综合介绍 KGGen 是由斯坦福可信人工智能研究实验室(STAIR Lab)开发的一款开源工具,托管于 GitHub,旨在从任意文本中自动生成知识图谱。它利用先进的语言模型和聚类算法,将非结构化的文本...最新AI资源# AI开源项目# 知识图谱8个月前027.5K
RF-DETR:实时视觉对象检测开源模型综合介绍 RF-DETR 是 Roboflow 团队开发的一个开源对象检测模型。它基于 Transformer 架构,核心特点是实时高效。模型在微软 COCO 数据集上首次实现超过 60 AP 的实时...最新AI资源# AI开源项目# 视觉目标检测7个月前027.4K
BlinkShot:输入提示词实时生成图像(免费接入Flux Schnell模型)综合介绍 BlinkShot 是一个开源的实时AI图像生成器,利用Together AI和Flux Schnell技术,用户可以在输入提示的同时生成高质量的图像。该平台完全免费,支持用户自定义和二次开...最新AI资源# AI在线生成图像# AI开源项目12个月前027.4K
GFPGAN:腾讯开源的人脸修复算法综合介绍 GFPGAN(Generative Facial Prior GAN)是由腾讯ARC(Applied Research Center)开发的一种开源人脸修复算法。该算法利用预训练的面部GAN...最新AI资源# AI图像放大与修复# AI开源项目1年前027.3K
PocketFlow:100行代码实现AI应用开发的极简框架综合介绍 PocketFlow 是一个只有100行代码的轻量级AI应用开发框架,由 The-Pocket 团队开发并在 GitHub 上开源。它追求极简设计,核心代码控制在100行,没有任何外部依赖...最新AI资源# AI开源项目# 智能体开发框架# 知识图谱7个月前027.3K
MiniMind:2小时从零训练26M参数GPT的开源工具综合介绍 MiniMind 是一个开源项目,由开发者 jingyaogong 创建。它的核心目标是让普通人也能快速训练自己的 AI 模型。MiniMind 主打特点是用 2 小时在单张 NVIDIA ...最新AI资源# AI开源项目7个月前027.3K
InstantIR:受损图像修复与图像高清放大开源项目,最低16G显存综合介绍 InstantIR 是由 InstantX 团队开发的一款创新的单图像修复模型,旨在复活您损坏的图像,提供极高质量且逼真的细节,能够对受损图像进行高质量的修复。该工具不仅可以恢复图像的细节...最新AI资源# AI图像放大与修复# AI开源项目11个月前027.3K
OpenAI Edge TTS:利用 Edge TTS 的免费文本转语音API,兼容 OpenAI 格式综合介绍 OpenAI Edge TTS 是一个开源项目,提供与 OpenAI 兼容的本地文本转语音(TTS)API。该项目使用 Microsoft Edge 的在线文本转语音服务,允许用户生成高质量...最新AI资源# AI开源项目# AI文本转语音9个月前027.3K
Qwen-Agent:基于Qwen的智能代理应用框架,包括工具调用、代码解释器、RAG和Chrome扩展。综合介绍 Qwen-Agent 是一个基于 Qwen 2.0 及以上版本开发的智能代理应用框架,具备指令跟随、工具使用、规划和记忆等能力。该框架提供了多种示例应用,如浏览器助手、代码解释器和自定义助手...最新AI资源# AI开源项目# 智能体开发框架10个月前027.3K
Midjourney Proxy:代理/逆向Midjourney Discord频道,实现AI绘图API调用(免费测试)综合介绍 Midjourney Proxy是一个开源项目,旨在为Midjourney的Discord频道提供代理服务,将AI绘图功能转换为API形式。该项目完全免费且开源,支持一键换脸、图片混合、图生...最新AI资源# AI开源项目10个月前027.3K
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本综合介绍 NV Ingest(NVIDIA Ingest) 是一套早期访问的微服务,专为解析数十万复杂、混乱的非结构化 PDF 和其他企业文档而设计。它能够将这些文档转换为元数据和文本,以便嵌入到检索...最新AI资源# AI开源项目# 文档提取与清洗9个月前027.3K
Chonkie:轻量级RAG文本切块库综合介绍 Chonkie 是一个轻量级且高效的 RAG(Retrieval-Augmented Generation)文本切块库,旨在帮助开发者快速、简便地对文本进行分块处理。该库支持多种分块方法,包...最新AI资源# AI开源项目# 文档提取与清洗8个月前027.3K
Memary:利用知识图谱增强Agent长期记忆的开源项目综合介绍 Memary 是一个创新的开源项目,专注于为自主智能体提供长期记忆管理解决方案。该项目通过知识图谱和专门的记忆模块,帮助智能体突破传统上下文窗口的限制,实现更智能的交互体验。Memary 采...最新AI资源# AI开源项目# 智能体开发框架# 知识图谱9个月前027.2K
YuE:将歌词转化为完整歌曲的基础模型,支持多种音乐风格综合介绍 YuE是一个开源的全歌曲生成基础模型,专注于将歌词转化为完整的歌曲。与其他仅能生成短片段非声乐音乐的模型不同,YuE能够生成包含主唱和伴奏的完整歌曲,时长可达数分钟。该模型解决了音乐生成中的...最新AI资源# AI开源项目# AI音乐8个月前027.2K
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能综合介绍 Step-Audio 是一个开源的智能语音交互框架,旨在提供生产环境开箱即用的语音理解和生成能力。该框架支持多语言对话(如中文、英文、日语)、情感语音(如快乐、悲伤)、区域方言(如粤语、四川...最新AI资源# AI开源项目# AI语音克隆# 多模态实时互动产品8个月前027.2K
Orion:小米开源的端到端自动驾驶推理与规划框架综合介绍 Orion 是小米实验室开发的开源项目,专注于端到端(E2E)自动驾驶技术。它通过视觉语言模型(VLM)和生成式规划器,解决传统自动驾驶方法在复杂场景中因果推理不足的问题。Orion 整合长...最新AI资源# AI开源项目6个月前027.2K
StreamingT2V:从文本到长视频的动态且可扩展的生成技术综合介绍 StreamingT2V是Picsart AI研究团队开发的一个公开项目,专注于根据文本描述生成连贯、动态且可扩展的长视频。这项技术使用先进的自回归方式,保证了视频的时间一致性,与描述文本紧...最新AI资源# AI开源项目# AI文本转视频11个月前027.2K
MCP Containers:基于 Docker 提供数百种 MCP 容器化部署综合介绍 MCP Containers 是一个开源项目,托管在 GitHub,专注于为 Model Context Protocol(MCP)服务器提供容器化解决方案。它通过 Docker 容器简化了...最新AI资源# AI开源项目# MCP服务6个月前027.2K
Open Deep Research:LangChain开源的深度研究智能助手综合介绍 Open Deep Research 是一个基于网络的研究助手,能够生成有关任何主题的综合研究报告。该系统采用计划和执行的工作流程,用户可以先对报告结构进行规划并审阅,然后进入耗时的研究阶段...最新AI资源# AI开源项目# 生成深度研究报告6个月前027.1K
Auto-Deep-Research:多Agent协作执行文献查询并生成研究报告综合介绍 Auto-Deep-Research 是由香港大学数据智能实验室(HKUDS)开发的一款开源AI工具,旨在帮助用户自动完成深度研究任务。它基于 AutoAgent 框架打造,支持多种大语言模...最新AI资源# AI开源项目# 生成深度研究报告# 论文6个月前027.1K
Anon-Kode:命令行AI代码助手(Claude Code代码反编译)综合介绍 Anon-Kode 是一个基于终端操作的开源AI代码助手,由开发者 Daniel Nakov 在 GitHub 上推出。它专为程序员设计,通过集成支持 OpenAI 风格 API 的语言模型...最新AI资源# AI开源项目# AI编程7个月前027.1K
wechat-article-exporter:一键部署微信公众号文章批量导出工具综合介绍 wechat-article-exporter 是一个开源工具,旨在帮助用户批量导出微信公众号文章。该工具支持导出文章中的内嵌音视频,无需搭建任何环境,能够100%还原文章样式,并支持私有部...最新AI资源# AI开源项目12个月前027.1K
RMBG-2-Studio:批量移除图像和视频背景的开源程序,基于RMBG 2.0优化综合介绍 RMBG-2-Studio 是一款基于 BRIA-RMBG-2.0 模型开发的增强型背景移除和替换应用。该应用旨在为用户提供高效、准确的图像背景处理功能,适用于各种图像类型,包括电商、游戏和...最新AI资源# AI开源项目# AI抠图改背景10个月前027K
ChatGPT-on-WeChat:基于大模型构建的智能对话机器人,支持微信等多对话平台接入综合介绍 ChatGPT-on-WeChat项目是一个基于大模型的智能对话机器人,支持个人微信、微信公众号、企业微信应用、飞书、钉钉等多平台接入。用户可以选择GPT3.5、GPT-4、Claude、文...最新AI资源# AI开源项目10个月前027K
Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)综合介绍 Datalab 提供了一系列先进的AI模型,专注于OCR、布局分析、PDF转Markdown等功能。这些模型不仅性能卓越,而且易于使用,并且是开源的。平台上的Marker模型可以快速准确地将...最新AI资源# AI开放服务# AI开源项目# OCR11个月前027K
ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)综合介绍 ChatTTS 是一个专为对话场景设计的生成语音模型。它能够生成自然且富有表现力的语音,支持多种语言和多位说话者,适用于互动对话。该模型通过预测和控制细粒度的韵律特征,如笑声、停顿和插话,超...最新AI资源# AI开源项目# AI文本转语音8个月前027K
LangBot:开源大模型即时通信机器人,支持多微信、QQ、飞书等多平台部署AI机器人综合介绍 LangBot 是一个基于大模型的即时通信机器人平台,支持多种消息平台和大模型。该平台适配 QQ、微信(企业微信、个人微信)、飞书、Discord、OneBot 等消息平台,并支持 Open...最新AI资源# AI开源项目8个月前027K
Llasa 1~8B:高品质语音生成和克隆的开源文本转语音模型综合介绍 Llasa-3B是由香港科技大学音频实验室(HKUST Audio)开发的一个开源文本转语音(TTS)模型。该模型基于Llama 3.2B架构,经过细致调优,提供高质量的语音生成,不仅支持多...最新AI资源# AI开源项目# AI文本转语音# AI语音克隆8个月前027K
Hunyuan3D-2:腾讯开源的高分辨率3D模型生成工具综合介绍 Hunyuan3D-2 是腾讯开发的一个开源项目,旨在通过文字或图像生成高分辨率的3D模型。它由两个核心部分组成:形状生成模型(Hunyuan3D-DiT)和纹理生成模型(Hunyuan3D...最新AI资源# AI开源项目# AI文本与图片转3D7个月前027K
Whisper Input:利用Groq免费且高速的语音转录文本服务综合介绍 Whisper Input 是一个开源的语音转译工具,用户可以通过按下 Option 按钮开始录制语音,抬起按钮结束录制。该工具调用 Groq Whisper Large V3 Turbo ...最新AI资源# AI开源项目# AI语音转文本8个月前026.9K
Mem0:为AI助手和代理提供智能记忆层的开源项目综合介绍 Mem0(发音为“mem-zero”)是一个为AI助手和代理提供智能记忆层的开源项目。它能够记住用户偏好,适应个体需求,并随着时间的推移不断改进,使其成为客户支持聊天机器人、AI助手和自主系...最新AI资源# AI开源项目1年前026.9K
Open R1:Hugging Face 复现 DeepSeek-R1 的训练过程综合介绍 Hugging Face的Open R1项目是一个完全开源的DeepSeek-R1复现项目,旨在构建R1管道的缺失部分,使每个人都能复现并在其基础上进行构建。该项目设计简单,主要包括训练和评...最新AI资源# AI开源项目9个月前026.9K
AutoGen:微软开发的多智能体对话框架综合介绍 AutoGen是由微软研究团队开发的开源框架,专注于通过多智能体对话来简化大型语言模型(LLM)应用的构建。它允许开发者创建可以相互对话、协作解决任务的AI代理。这种方法不仅提高了LLM的性...最新AI资源# AI开源项目# 智能体开发框架9个月前026.9K
n8n自托管AI入门套件:快速搭建本地AI环境的开源模板综合介绍 n8n自托管AI入门套件是一个开源的Docker Compose模板,旨在快速初始化一个全面的本地AI和低代码开发环境。由n8n团队精心策划,该套件结合了自托管的n8n平台和一系列兼容的AI...最新AI资源# AI开源项目8个月前026.9K
OpenWebUI-Monitor:监控OpenWebUI用户活动,管理使用限额,支持一键部署。综合介绍 OpenWebUI-Monitor 是一个用于监控 OpenWebUI 用户活动和管理使用限额的仪表板。它可以高效地设置用户配额,实时查看用户数据和可视化信息,支持一键部署,方便用户管理和监...最新AI资源# AI副业赚钱项目# AI开源项目11个月前026.9K
TinyZero:低成本复现 DeepSeeK-R1 Zero 的顿悟效果综合介绍 TinyZero 是一个基于 veRL 的强化学习模型,旨在复现 DeepSeeK-R1 Zero 在倒计时和乘法任务中的表现。令人惊讶的是,该项目仅需 30 美元的运行成本(使用 2xH2...最新AI资源# AI开源项目9个月前026.9K
TANGO:语音生成协调手势人像视频的工具,全身像数字人综合介绍 TANGO (Co-Speech Gesture Video Reenactment with Hierarchical Audio-Motion Embedding and Diffusi...最新AI资源# AI开源项目# AI数字人9个月前026.8K
AI reads books:AI逐页阅读PDF书籍,自动提取知识要点并生成总结综合介绍 AI-reads-books-page-by-page是一个基于Python开发的智能PDF书籍分析工具,它能够自动化地对PDF书籍进行逐页分析,提取关键知识点,并在指定页数间隔后生成阶段性...最新AI资源# AI开源项目# AI文本与音频/视频总结工具9个月前026.8K
AutoAgent:通过自然语言快速创建并部署AI智能体的框架综合介绍 AutoAgent是由香港大学数据智能实验室(HKUDS)开发的一个开源AI智能体框架,托管于GitHub。它允许用户通过纯自然语言描述需求,快速创建和部署定制化的AI智能体,无需任何编程基...最新AI资源# AI开源项目# 无代码开发# 智能体开发框架4个月前026.8K
Diffusers Image Outpaint:超强开源AI图像扩展工具,图像外绘(image outpainting)综合介绍 Diffusers Image Outpaint 是由 Hugging Face 社区成员 fffiloni 创建的一个强大的 AI 图像扩展工具。该工具利用先进的扩散模型技术,可以将图像进...最新AI资源# AI图像放大与修复# AI开源项目1年前026.8K
Dia:生成超现实多人对话的文本转语音模型综合介绍 Dia 是一个由 Nari Labs 开发的开源文本转语音(TTS)模型,专注于生成超现实的对话音频。它能在一次处理中将文本脚本转化为逼真的多角色对话,支持情感和语调控制,甚至能生成非语言表...最新AI资源# AI开源项目# AI文本转语音6个月前026.7K
DUIX:实时互动的智能数字人,支持多平台一键部署综合介绍 DUIX(Dialogue User Interface System)是由硅基智能创建的AI驱动的数字人交互平台。通过开源数字人交互功能,开发者可以轻松集成大规模模型、自动语音识别(ASR...最新AI资源# AI开源项目# AI数字人9个月前026.7K
WebPilot:智能网页信息处理工具,网页内容抓取免费APIWebPilot 综合介绍 Webpilot是一个免费开源的“网页助手”,它可以让你和任何网页进行自由交流,或者执行自动任务。你不需要切换网页或者复制粘贴,只需要选择文本或者输入指令,webpilot...最新AI资源# AI开放服务# AI开源项目# AI搜索工具1年前026.7K
MMAudio:为视频画面生成同步音效与配乐,视频到音频的多模态联合训练工具综合介绍 MMAudio是一个开源项目,旨在通过多模态联合训练生成高质量的同步音频。该项目由香港中文大学的程浩基(Ho Kei Cheng)等人开发,主要功能是根据视频和/或文本输入生成同步音频。MM...最新AI资源# AI开源项目# AI音乐10个月前026.7K
Orate:集成知名语音生成、语音转录与变声模型的统一API综合介绍 Orate 是一个专注于语音生成与转录的人工智能工具包。它提供了一个统一的API,能够与领先的AI提供商(如OpenAI、ElevenLabs和AssemblyAI)无缝集成,帮助用户创建逼...最新AI资源# AI开源项目# AI文本转语音# AI语音转文本8个月前026.7K
AsrTools:语音转字幕工具,内置剪映、快手、必剪接口的轻量客户端综合介绍 AsrTools是一款智能语音转文字工具,内置剪映、快手、必剪等大厂接口,无需GPU或繁琐配置,支持高效的多线程批处理。它基于PyQt5开发,界面美观且用户友好,能够输出SRT和TXT格式字...最新AI资源# AI开源项目# AI语音转文本1年前026.6K
ImBD:AI生成内容检测,检测内容是否由人工智能生成综合介绍 ImBD (Imitate Before Detect) 是一个开创性的机器生成文本检测项目,该项目发表于AAAI 2025会议。随着ChatGPT等大语言模型(LLMs)的广泛应用,识别A...最新AI资源# AI开源项目# AI教育工具9个月前026.6K
AI RSS生成器:通过AI将网页内容转换为RSS订阅源的工具综合介绍 AI RSS是一个创新的工具,通过AI技术将网页内容转换为RSS订阅源。它包含两个主要部分:一个浏览器插件和一个服务器端。浏览器插件允许用户选择网页中的列表并生成结构化数据描述(SDD)文件...最新AI资源# AI开源项目# AI生活效率助手9个月前026.5K
GPT SoVITS:革命性的语音生成与语音克隆工具综合介绍 GPT-SoVITS是一款开源的语音转换与合成工具,结合了GPT模型和SoVITS变声器技术。该工具支持零样本与少量样本的即时文本转语音,仅需5秒音频样本即可实现声音风格迁移。其特色包括跨语...最新AI资源# AI开源项目# AI语音克隆1年前026.5K
Agent.exe:让AI直接控制你的电脑,Claude控制计算机的开源实现综合介绍 Agent.exe 是一个开源的 Electron 应用程序,利用 Anthropic 的 Claude 3.5 Sonnet API,让用户可以通过 AI 直接控制本地计算机。该项目由 K...最新AI资源# AI开源项目# 桌面自动化智能体10个月前026.5K
tldraw:开源无限画布白板SDK,AI生成简约线框图和UML图综合介绍 tldraw是一款免费且即时的协作绘图工具,提供一个无限画布,用户可以快速绘制图形、撰写文字并进行即时协作。具备界面直观、性能优秀的特点,适用于团队协作和远程工作。通过开源社区支持,tldr...最新AI资源# AI开源项目# AI白板与信息图11个月前026.5K
Tabby:可集成到 VSCode 的本地自托管AI编程助手综合介绍 Tabby 是一个开源的 AI 编程助手,由 TabbyML 团队开发,用户可以自己部署在本地或服务器上。它提供类似 GitHub Copilot 的功能,比如代码自动补全和智能问答,但最大...最新AI资源# AI开源项目# AI编程6个月前026.5K
Unstructured:开源预处理非结构化文档,无结构数据处理的利器综合介绍 Unstructured-IO 提供了一系列开源组件,用于处理和预处理图像和文本文档,如 PDF、HTML、Word 文档等。其主要目标是简化和优化数据处理工作流程,特别是为大语言模型(LL...最新AI资源# AI开源项目# 文档提取与清洗1年前026.5K
HippoRAG:基于长时记忆的多跳知识检索框架综合介绍 HippoRAG 是俄亥俄州立大学 OSU-NLP 小组开发的一个开源框架,灵感来源于人类长时记忆机制。它结合检索增强生成(RAG)、知识图谱和个性化 PageRank 技术,帮助大语言模型...最新AI资源# AI开源项目# 知识检索与RAG框架7个月前026.4K
Refly:基于自由画布上流程编排的AI写作平台,自动化生成文章综合介绍 Refly 是一个基于自由画布的 AI 原生创作引擎,旨在通过多线程对话、知识库集成、上下文记忆和智能搜索技术,帮助用户将创意转化为高质量内容。该平台覆盖了超过 20 种专业场景模板,包括学...最新AI资源# AI写作# AI开源项目8个月前026.4K
Grok-Mirror:一键部署可盈利的Grok镜像站综合介绍 Grok-Mirror是一个基于 无服务器快速部署Grok3国内镜像站 构建的可经营的Grok镜像站。它让用户可以通过Docker一键部署本地Grok服务站。Grok是xAI公司推出的人工智...最新AI资源# AI副业赚钱项目# AI开源项目7个月前026.4K
ChatFree(ChatAnywhere-2):使用GPT API创建的本地Copilot,支持任意窗口中补全对话综合介绍 ChatFree是一个开源项目,旨在让用户的AI应用摆脱浏览器的束缚,实现本地化运行。利用GPT API创建的Copilot,旨在支持多种办公软件如Office、Word、WPS等。该项目由...最新AI资源# AI开源项目# AI本地化聊天应用10个月前026.4K
Deep Live Cam:开源的实时AI换脸工具,一张照片就能实现实时换脸直播综合介绍 Deep Live Cam 是一个开源的人工智能工具,旨在通过单张照片实现实时换脸和深度伪造视频生成。该工具利用先进的深度学习算法,能够在直播或视频通话中实时替换人脸,保护用户隐私并增加趣味...最新AI资源# AI开源项目# AI视频换脸11个月前026.4K
DeepFace:实现面部年龄、性别、情绪、种族识别的轻量级Python库综合介绍 DeepFace是一个轻量级的面部识别和面部属性分析(包括年龄、性别、情绪和种族)的Python库。它集成了多种先进的面部识别模型,如VGG-Face、FaceNet、OpenFace、De...最新AI资源# AI开源项目9个月前026.4K
DeOldify:使用AI技术为黑白照片和视频上色的经典开源工具综合介绍 DeOldify 是一个基于深度学习技术的开源项目,专门用于为黑白照片和视频进行智能上色和修复。该项目采用创新的 NoGAN 训练方法,成功解决了传统 GAN 网络在图像上色过程中常见的瑕疵...最新AI资源# AI图像放大与修复# AI图像风格控制# AI开源项目10个月前026.4K
在cloudflare部署hugging face的免费api,支持接口转发因国内部署无法访问hugging face,所以在大佬部署方案的基础上改造成能部署到cloudflare workers。 准备工作 1、注册 cloudflare 2、注册hugging fac...最新AI资源# AI开源项目# 免费大模型API12个月前026.3K
AI Hedge Fund:开源自动化交易系统,利用多智能体进行复杂对冲基金交易决策综合介绍 AI Hedge Fund 是一个利用多代理系统进行交易决策的人工智能对冲基金。该系统通过多个专门的代理协同工作,包括市场数据代理、量化代理、风险管理代理和投资组合管理代理,以实现复杂的交易...最新AI资源# AI副业赚钱项目# AI开源项目# AI金融数据分析9个月前026.3K
VLM-R1:通过自然语言定位图像目标的视觉语言模型综合介绍 VLM-R1 是由 Om AI Lab 开发的一个开源视觉语言模型项目,托管在 GitHub 上。该项目基于 DeepSeek 的 R1 方法,结合 Qwen2.5-VL 模型,通过强化学习...最新AI资源# AI开源项目# 视觉目标检测8个月前026.3K
R1-V:低成本强化学习实现视觉语言模型泛化能力综合介绍 R1-V 是一个开源项目,旨在通过低成本的强化学习(RL)实现视觉语言模型(VLM)的突破。该项目利用可验证的奖励机制,激励 VLMs 学习通用的计数能力。令人惊叹的是,R1-V 的 2B ...最新AI资源# AI开源项目8个月前026.3K
RD-Agent:自动化数据驱动研发工具,通过AI技术推动以数据为导向的研发过程综合介绍 RD-Agent是由微软推出的一款开源工具,旨在自动化和优化研究与开发(R&D)过程。该工具专注于数据驱动的场景,通过人工智能技术提升模型和数据的开发效率。RD-Agent集成了研究...最新AI资源# AI开源项目# 智能体应用7个月前026.3K
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流综合介绍 百聆(Bailing)是一个开源的语音对话助手,旨在通过语音与用户进行自然的对话。该项目结合了语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成(TTS)技术,实现了...最新AI资源# AI开源项目# 多模态实时互动产品9个月前026.2K
Llama OCR:利用免费Llama 3.2 Vision接口,三行代码将图像转换为Markdown的OCR库综合介绍 Llama OCR 是一个基于 Llama 3.2 Vision 的 OCR(光学字符识别)库,能够将文档转换为 Markdown 格式。该库由 Nutlope 开发,使用 Together...最新AI资源# AI开源项目# OCR# 免费大模型API10个月前026.2K
QAnything:高度集成RAG处理流程的本地知识库问答系统QAnything 综合介绍 QAnything(Question and Answer based on Anything)是由网易推出的本地知识库问答系统,支持各类文件格式及数据库,可离线安装使用...最新AI资源# AI开放服务# AI开源项目# 知识检索与RAG框架1年前026.2K
One API:多模型API管理与负载均衡,分发系统综合介绍 One API 是一个开源的接口管理与分发系统,支持多种大模型如 OpenAI ChatGPT、Anthropic Claude、Google PaLM 2 & Gemini 等。该...最新AI资源# AI开源项目12个月前026.2K
NeoAI:让AI接管电脑远程操作,使用自然语言控制电脑的开源项目综合介绍 NeoAI是一款创新的开源AI助手工具,它通过自然语言对话的方式让用户轻松控制和管理电脑。无需编写任何代码,用户只需要用日常对话的方式就能完成文件查找、任务自动化、设备管理等操作。NeoAI...最新AI资源# AI开源项目# 桌面自动化智能体9个月前026.2K
AI2SRT:利用 Gemini模型,一键为长视频创建解说短视频或视频总结综合介绍 AI2SRT是一个开源项目,利用GeminiAI大模型,为长视频一键生成解说短视频和视频总结,同时支持音视频转录字幕。该项目旨在简化视频内容创作过程,提供高效的字幕生成和翻译功能。用户可以通...最新AI资源# AI开源项目# AI音视频编辑10个月前026.2K
Coze on WeChat:将Coze(扣子)机器人接入微信综合介绍 Coze on WeChat 是一个开源项目,旨在帮助用户将 Coze 平台的 AI 机器人无缝接入微信。它基于 chatgpt-on-wechat 和 dify-on-wechat 开发...最新AI资源# AI客服机器人# AI开源项目7个月前026.2K
PDF Craft:PDF扫描文件转Markdown的开源工具综合介绍 PDF Craft 是一个开源工具,专为扫描书籍的PDF设计,能将其转换为Markdown格式。它由 oomol-lab 开发,托管在 GitHub 上,适合喜欢整理电子书的用户。工具通过本...最新AI资源# AI开源项目# OCR# 文档提取与清洗7个月前026.1K
LHM:从单张图片生成支持动作的3D人体模型综合介绍 LHM(Large Animatable Human Reconstruction Model)是一个开源项目,它由aigc3d团队开发,能从一张图片快速生成支持动作的3D人体模型。核心特色...最新AI资源# AI开源项目# AI文本与图片转3D7个月前026.1K
YOLOE:实时视频检测和分割物体的开源工具综合介绍 YOLOE 是清华大学软件学院多媒体智能组(THU-MIG)开发的一个开源项目,全称“You Only Look Once Eye”。它基于 PyTorch 框架,属于 YOLO 系列的扩展...最新AI资源# AI开源项目# AI抠图改背景# 视觉目标检测6个月前026.1K
OpenAvatarChat:模块化设计的数字人对话工具综合介绍 OpenAvatarChat 是由 HumanAIGC-Engineering 团队开发的一个开源项目,托管在 GitHub 上。它是一个模块化的数字人对话工具,用户可以在单台 PC 上运行...最新AI资源# AI开源项目# 多模态实时互动产品6个月前026.1K
MegaTTS3:合成中英文语音的轻量模型综合介绍 MegaTTS3 是字节跳动与浙江大学合作开发的一款开源语音合成工具,专注于生成高质量的中英文语音。它的核心模型只有 0.45B 参数,轻量高效,支持中英文混合语音生成和语音克隆。项目托管在...最新AI资源# AI开源项目# AI文本转语音# AI语音克隆7个月前026.1K
Audiblez:生成有声书,使用Kokoro将电子书转换为有声读物综合介绍 Audiblez 是一个开源项目,旨在将电子书(如 .epub 格式)转换为有声书(如 .m4b 格式)。该项目利用 Kokoro 的高质量语音合成技术,支持多种语言和多种声音。用户只需简单...最新AI资源# AI开源项目# AI文本转语音9个月前026.1K
DeepSeek-VL2:高级多模态理解的专家级视觉语言模型综合介绍 DeepSeek-VL2 是一系列高级的 Mixture-of-Experts (MoE) 视觉语言模型,显著提升了其前身 DeepSeek-VL 的性能。该模型在视觉问答、光学字符识别、文...最新AI资源# AI开源项目# 多模态实时互动产品8个月前026K
文多多 AiPPT:AI生成PPT,演讲稿生成综合介绍 AiPPT 是一个基于人工智能技术的PPT生成工具,旨在帮助用户快速创建专业演示文稿。它通过输入主题、上传文件或提供网址等方式,自动生成内容丰富、设计精美的幻灯片,支持原生图表、动画和3D特...最新AI资源# AI开源项目# AI生成演示文稿/PPT8个月前026K
sensitive-word:敏感词过滤工具,高效DFA算法实现综合介绍 敏感词过滤工具(Sensitive Word)是一个基于DFA算法实现的高性能Java敏感词过滤工具框架。该工具能够高效地检测和过滤敏感词,支持多种格式转换和自定义替换策略。其设计目标是提供...最新AI资源# AI开源项目1年前026K
OpenManus-RL:微调大模型强化智能体推理与决策能力综合介绍 OpenManus-RL是由UIUC-Ulab与 MetaGPT 社区的OpenManus团队联合开发的开源项目,托管于GitHub。该项目通过强化学习(RL)技术提升大型语言模型(LLM...最新AI资源# AI开源项目# 大模型微调7个月前026K
Browser-Use:构建智能网页自动化工具,让AI智能体轻松操作浏览器综合介绍 Browser-Use是一个创新的开源网页自动化工具,专门设计用于让语言模型(LLM)能够自然地与网站进行交互。它提供了一个强大而灵活的框架,支持多种主流语言模型,包括GPT-4、Claud...最新AI资源# AI开源项目# 桌面自动化智能体10个月前026K
Spark-TTS:生成自然语音的文本转语音工具综合介绍 Spark-TTS 是由 SparkAudio 团队开发的一款开源文本转语音(Text-to-Speech, TTS)工具,托管在 GitHub 上,旨在帮助用户将文本高效转换为自然流畅的语...最新AI资源# AI开源项目# AI文本转语音# AI语音克隆7个月前026K
Linly-Talker:数字人智能对话系统,结合大语言模型与视觉模型,实现互动新体验综合介绍 Linly-Talker 是一个创新的数字人对话系统,结合了大语言模型(LLMs)与视觉模型,创造出一种新颖的人机互动方式。该系统集成了多种技术,如 Whisper、Linly、Micros...最新AI资源# AI开源项目# AI数字人8个月前026K
Goose:开源可扩展的编程智能体,自动化执行编程全流程任务综合介绍 Goose是由 Block 公司开发的一个开源AI代理工具,旨在帮助开发者自动化处理日常开发任务。它支持多种大型语言模型(LLM),通过命令行或桌面应用接口与用户互动。Goose可以执行从代...最新AI资源# AI开源项目# AI编程# 智能体开发框架8个月前026K
FinGPT:开源金融大语言模型平台,助力金融分析与预测综合介绍 FinGPT 是由 AI4Finance 基金会开发的开源金融大语言模型平台,专为金融领域设计,旨在解决复杂的金融任务,并推动金融科技的创新发展。FinGPT 利用轻量化适配技术和强化学习方...最新AI资源# AI开源项目# AI金融数据分析9个月前026K
支持数据库查询的Dify插件综合介绍 dify-plugin-tools-dbquery 是一个专为 Dify 1.0 平台设计的开源插件,由开发者 junjiem 在 GitHub 上发布。它提供数据库查询功能,帮助用户在构建...最新AI资源# AI开源项目7个月前025.9K
Agent Inbox:与AI智能体进行人机交互的管理界面综合介绍 Agent Inbox是由LangChain团队开发的一个开源项目,旨在提供一种新的用户体验,用于与AI智能体进行交互。该项目允许用户通过一个集中的界面管理和优化与多个AI智能体的交互。Ag...最新AI资源# AI开源项目9个月前025.9K
k8m:简化Kubernetes集群管理的轻量级AI控制台工具综合介绍 k8m 是一款轻量级、跨平台的 Mini Kubernetes AI Dashboard,专为简化集群管理设计。它基于 AMIS 构建,并通过 kom 作为 Kubernetes API 客...最新AI资源# AI开源项目9个月前025.9K
Fish Agent:端到端AI语音克隆助手,实时语音对话助理,Fish Speech衍生项目综合介绍 Fish Speech 衍生项目 Fish Agent 是一款革命性的端到端AI语音克隆系统,基于V0.1 3B模型架构开发。作为一个完全端到端的语音克隆处理系统,其最大特点是采用创新的无语...最新AI资源# AI开源项目# AI语音克隆# 多模态实时互动产品9个月前025.9K
Motia:用代码快速构建智能体的开发框架综合介绍 Motia 是一个面向软件工程师的开源 AI 代理框架,托管在 GitHub 上,由 MotiaDev 团队开发。它让开发者能用熟悉的编程语言(如 Python、TypeScript、Rub...最新AI资源# AI开源项目# 智能体开发框架7个月前025.9K
ComfyUI-Copilot:文字描述生成 ComfyUI 工作流的AI助手综合介绍 ComfyUI-Copilot是一个专为ComfyUI框架设计的AI驱动自定义节点,旨在通过自然语言交互提升AI算法调试与部署的效率。它由AIDC-AI团队(阿里巴巴)开发并开源于GitHu...最新AI资源# AI图像生成辅助工具# AI开源项目# ComfyUI8个月前025.9K
99AI:集成多模态AI服务的商业化Web应用(免费开源)综合介绍 99AI 是一个开源的 AI Web 应用项目,旨在提供一个易部署、低门槛的集成化人工智能服务平台。该项目支持智能对话、多模态模型、应用广场、联网搜索等功能,并集成了 AI 绘画、音乐和视频...最新AI资源# AI副业赚钱项目# AI开源项目# AI本地化聊天应用11个月前025.9K
Klavis AI:面向AI应用的模型上下文协议(MCP)集成工具综合介绍 Klavis AI 是一个开源平台,专注于简化模型上下文协议(MCP)的使用和集成。MCP 是一种开放标准,允许 AI 应用与外部工具和数据源动态连接。Klavis AI 提供 Slack...最新AI资源# AI开源项目# MCP服务5个月前025.9K
Cognita:构建模块化RAG应用的开源框架,快速测试多样RAG策略综合介绍 Cognita 是由 TrueFoundry 开发的一个开源框架,旨在简化基于 RAG(Retrieval-Augmented Generation)的应用开发。该框架提供了一个结构化的、模...最新AI资源# AI开源项目# 无代码开发# 知识检索与RAG框架9个月前025.8K
微信视频号下载器:快速下载微信视频号视频,支持多种格式和平台综合介绍 微信视频号下载器是一个开源项目,旨在帮助用户快速下载微信视频号中的视频内容。该工具支持多种视频格式和平台,用户可以方便地在Windows和macOS系统上使用。项目由ltaoo开发,并托管在...最新AI资源# AI开源项目9个月前025.8K
Hibiki:实时语音翻译模型,保留原声特点的流式翻译综合介绍 Hibiki 是由 Kyutai Labs 开发的一款高保真度实时语音翻译模型。与传统的离线翻译不同,Hibiki 能够在用户讲话的同时,实时生成目标语言的自然语音翻译,并提供文本翻译。该模...最新AI资源# AI开源项目# AI翻译8个月前025.8K