综合介绍
Rowfill 是一个开源的文档处理平台,专为知识工作者设计。它利用先进的人工智能技术,从复杂的文档、图像和PDF中提取、分析和处理数据。Rowfill 支持本地大语言模型(LLM)和OpenAI视觉模型,确保数据隐私和安全。该平台提供了高精度的OCR(光学字符识别)功能,能够自动生成文档结构,并允许用户创建定制的工作流程以实现自动化任务处理。Rowfill 采用AGPLv3许可证,完全开源,用户可以自由使用和贡献代码。
其他可以提取PDF结构化数据的工具:Parsio ,但Rowfill更适合对节后话的数据进行分析。
功能列表
- 高级OCR和处理:高精度提取文本、表格和手写内容
- 自动生成文档结构:自动检测并适应不同的文档结构
- 定制工作流程:创建自动化任务处理的定制工作流程
- 本地LLM支持:支持本地大语言模型如Llama、Mistral
- 数据隐私和安全:同步公司数据,确保数据隐私
- 开源项目:基于AGPLv3许可证,完全开源
- 云版本:提供Alpha版云服务
使用帮助
安装流程
- 运行Docker Compose文件:
- 下载并安装Docker。
- 克隆Rowfill仓库:
git clone https://github.com/harishdeivanayagam/rowfill.git
- 进入项目目录:
cd rowfill
- 运行Docker Compose:
docker-compose up
- 配置环境变量:
- 参考
mockenv
文件,配置必要的环境变量。
- 参考
- 启动数据提取:
- 配置完成后,启动服务并开始从文档中提取数据。
功能操作流程
- 文档处理:
- 上传文档(支持多种格式,如PDF、图像)。
- 使用高级OCR功能提取文本、表格和手写内容。
- 自动生成文档结构,便于后续处理。
- 创建定制工作流程:
- 进入工作流程创建界面。
- 选择需要自动化的任务(如数据提取、分析)。
- 配置任务参数,保存并运行工作流程。
- 本地LLM支持:
- 配置本地大语言模型(如Llama、Mistral)。
- 同步公司数据,确保数据隐私和安全。
- 云版本使用:
- 访问Rowfill云版本(Alpha版)。
- 注册并登录账户,开始使用云服务。
详细操作示例
- 示例1:从PDF中提取表格数据:
- 上传PDF文件。
- 选择“表格提取”功能。
- 系统自动识别并提取表格数据,生成结构化数据文件。
- 示例2:创建自动化数据分析工作流程:
- 进入工作流程创建界面。
- 选择“数据分析”任务。
- 配置分析参数(如数据源、分析方法)。
- 保存并运行工作流程,系统自动完成数据分析并生成报告。