综合介绍
wdoc是一个功能强大的RAG(检索增强生成)系统,专为处理和分析大量多样化的文档而设计。它能够从各种文件类型中进行检索,包括PDF、网页、YouTube视频、音频文件等。wdoc特别适合处理大量信息源,是研究人员、学生和需要处理大量信息的专业人士的理想工具。该系统利用LangChain库进行文档处理,支持多种LLM(大型语言模型)提供商,并提供高精度的检索和总结功能。wdoc还在不断开发中,欢迎用户提供反馈和功能请求。
功能列表
- 多文件类型支持:支持超过15种文件类型,包括PDF、网页、YouTube视频、音频文件等。
- 高精度检索和总结:通过嵌入搜索和语义批处理,提供高精度的文档检索和总结。
- 多LLM支持:支持多种LLM提供商,包括本地模型和具有额外安全层的私有模型。
- 高级RAG功能:使用弱LLM过滤无关文档,强LLM提供精准回答,并通过语义聚类和排序合并答案。
- 易于扩展:不仅是一个工具,也是一个库,用户可以在其他Python项目中使用wdoc。
- 详细文档和帮助:提供丰富的文档和帮助信息,方便用户快速上手。
使用帮助
安装
wdoc目前需要Python 3.11版本运行。请确保您的Python版本正确,然后按照以下步骤进行安装:
- 使用pip安装:
pip install -U wdoc
- 或者安装特定的git分支:
pip install git+https://github.com/thiswillbeyourgithub/wdoc@dev
- 建议安装pdftotext和fasttext支持:
pip install -U wdoc[pdftotext] wdoc[fasttext]
使用
- 添加所需的API密钥作为环境变量:
export OPENAI_API_KEY="您的API密钥"
- 启动wdoc:
wdoc --task=query --path=您的文档路径
功能操作流程
文档查询
使用wdoc查询文档内容:
wdoc --task=query --path=您的文档路径 --filetype=pdf --query="查询内容"
该命令将从指定路径加载PDF文件,并根据查询内容进行检索,返回相关文档。
文档总结
使用wdoc对文档进行总结:
wdoc --task=summarize --path=您的文档路径 --filetype=pdf
该命令将对指定路径的PDF文件进行总结,返回详细的文档内容概要。
组合任务
您还可以组合查询和总结任务:
wdoc --task=summarize_then_query --path=您的文档路径 --filetype=pdf
该命令将首先总结文档内容,然后允许您对总结内容进行进一步查询。
高级功能
wdoc支持多种高级功能,例如:
- 多文件类型支持:通过递归路径、链接文件等加载多种文件类型。
- 高级RAG功能:使用多查询检索、语义批处理等技术提高检索精度。
- 本地和私有LLM支持:确保数据安全,不泄露给外部提供商。
- 详细的文档和帮助:通过
wdoc --help
获取更多使用信息。