
Kotaemon:简单部署的开源多模态文档问答工具
综合介绍 Kotaemon 是一个开源的文档问答工具,旨在为终端用户和开发者提供基于检索增强生成(RAG)的问答功能。该项目由 Cinnamon 开发,支持多种 LLM API 提供商(如 OpenAI、AzureOpenAI、Cohere 等)以及本地...
综合介绍 Kotaemon 是一个开源的文档问答工具,旨在为终端用户和开发者提供基于检索增强生成(RAG)的问答功能。该项目由 Cinnamon 开发,支持多种 LLM API 提供商(如 OpenAI、AzureOpenAI、Cohere 等)以及本地...
综合介绍 HivisionIDPhotos 是一款开源的轻量级 AI 证件照制作工具,能够智能识别用户拍照场景并进行抠图,生成符合多种规格的标准证件照。该工具支持自定义背景色和尺寸,未来还将推出美颜和智能换正装功能。用...
开启 Builder 智能编程模式,无限量使用 DeepSeek-R1 和 DeepSeek-V3 ,对比海外版体验更加流畅。只需输入中文指令,不懂编程的小白也可以零门槛编写自己的应用。
综合介绍 Marker 是一个基于深度学习的文档处理工具,旨在将 PDF 文件快速准确地转换为 Markdown 格式。它支持多种文档类型,特别优化了书籍和科学论文的转换。Marker 能够去除页眉页脚等多余内容,格式化表格和...
综合介绍 SadTalker是一个开源工具,能够将单张静态人像照片和音频文件结合,创造出逼真的说话头像视频,适用于个性化信息、教育内容等多种场景。革命性地使用3D建模技术,如ExpNet和PoseVAE,优秀地捕获细微的面...
综合介绍 VideoReTalking是一款创新的系统,允许用户根据输入音频生成唇形同步的面部视频,即使有不同的情绪,也能产生高质量且嘴唇同步的输出视频。系统将这一目标分解为三个连续任务:带有典型表情的面部视频生...
综合介绍 MuseV是一个GitHub上的公共项目,旨在实现无限长度和高保真度的虚拟人视频生成。它基于扩散技术,并提供了Image2Video、Text2Image2Video、Video2Video等多种功能。提供了模型结构、使用案例、快速开始...
综合介绍 Unstructured-IO 提供了一系列开源组件,用于处理和预处理图像和文本文档,如 PDF、HTML、Word 文档等。其主要目标是简化和优化数据处理工作流程,特别是为大语言模型(LLM)应用提供支持。Unstructured...
综合介绍 magic-html是一个Python库,旨在简化从HTML中提取主体区域内容的过程。无论处理的是复杂的HTML结构还是简单的网页,这个库都旨在为用户提供一个便捷高效的接口。它支持多模态抽取,支持多种版面extracto...
WebPilot 综合介绍 Webpilot是一个免费开源的“网页助手”,它可以让你和任何网页进行自由交流,或者执行自动任务。你不需要切换网页或者复制粘贴,只需要选择文本或者输入指令,webpilot就会为你提供实时信息和智...
综合介绍 DB-GPT是一个开源的AI原生数据应用开发框架,采用AWEL(Agentic Workflow Expression Language)和智能体技术构建。该项目旨在大模型领域构建基础设施,通过开发多项技术能力,包括多模型管理系统(SMMF)、...
DreamTalk 综合介绍 DreamTalk是一个扩散模型驱动的表情说话头生成框架,由清华大学、阿里巴巴集团和华中科技大学联合开发。主要由降噪网络、风格感知嘴唇专家和风格预测器三部分构成,能够基于音频输入生成多样...
综合介绍 GPT Crawler 是一个开源工具,允许用户通过抓取特定网站内容来生成知识文件,进而创建定制的 GPT 模型。该项目主要用于抓取和整理网页信息,支持通过 API 和本地部署运行。用户可以灵活配置爬虫,以适应...
综合介绍 InstantID是一项先进的技术,专注于利用单张参考身份证图片,在几秒钟内生成具有个性化风格或姿态的图像,同时确保高度保真。该技术采用了基于扩散模型的解决方案,通过集成面部图片、地标图片与...
综合介绍 ComfyUI Portrait Master 中文版是一个专为AI图像创作者设计的人物肖像提示词生成工具。该工具通过优化提示词,帮助用户生成高质量的人物肖像。用户可以根据需求选择不同的镜头类型、性别、国籍、面部表...
综合介绍 IOPaint是一款免费且开源的AI图像处理工具,支持图像擦除、修复和扩展等功能。它采用最先进的AI模型,能够帮助用户轻松移除图像中的不需要对象、修复瑕疵、添加新内容,甚至扩大图像。IOPaint完全自托管...
综合介绍 GPT Academic 是一个专门为学术研究优化的大语言模型交互平台,为 GPT/GLM 等大语言模型提供实用化交互接口的工具,特别优化了论文翻译、论文阅读、润色和写作体验。它采用模块化设计,支持自定义快捷按...
综合介绍 gpt-prompt-engineer是一个GitHub上的开源项目,专注于GPT模型的提示工程。用户可以通过输入任务描述和测试用例,这个工具能够生成、测试,并排名不同提示以寻找表现最佳者。该项目利用GPT-4和GPT-3.5-T...
综合介绍 STORM是由斯坦福大学 Oval 团队开发的一个知识整合和文章生成系统。它专注于从头开始生成类似维基百科的详尽文章(成体系的论文)。系统利用大型语言模型进行话题研究,准备概要并模拟实际互联网来源的...
综合介绍 XHS-Downloader 是一个开源工具,专为小红书用户设计,支持提取和下载小红书上的无水印图片和视频作品。该工具提供多种功能,包括从浏览器获取 Cookie、支持命令行操作、批量下载、断点续传等。用户可以...