综合介绍
pdf-extract-api是一个文档提取和解析API,使用最先进的OCR技术和Ollama支持的模型,支持文档匿名化处理。它可以将任何文档或图片转换为结构化的JSON或Markdown,支持高精度的表格数据、数字和数学公式的提取。该API基于FastAPI构建,使用Celery进行异步任务处理,并利用Redis缓存OCR结果,确保高效和可靠的文档处理。
功能列表
- 高精度的PDF到Markdown转换
- PDF到JSON转换
- 使用LLM(如LLama 3.1)改进OCR结果
- 删除个人身份信息(PII)
- 分布式队列处理(使用Celery)
- 结果缓存(使用Redis)
- CLI工具用于发送任务和处理结果
使用帮助
安装流程
- 克隆仓库:
git clone https://github.com/CatchTheTornado/pdf-extract-api.git cd pdf-extract-api
2. **安装依赖** :
确保已安装Docker和Docker Compose,然后运行以下命令:
```bash
docker-compose up
使用流程
- 转换PDF到Markdown :
使用CLI工具发送任务并处理结果,例如:
python client/cli.py ocr --file examples/example-mri.pdf --prompt_file examples/example-mri-2-json-prompt.txt
这将把PDF文件转换为Markdown格式。
- 转换PDF到JSON并删除PII :
python client/cli.py ocr --file examples/example-invoice.pdf --prompt_file examples/example-invoice-remove-pii.txt
这将把PDF文件转换为JSON格式并删除个人身份信息。
- 缓存OCR结果 :
使用Redis缓存OCR结果,提高处理效率。
详细操作流程
- 启动服务 :确保Docker容器正常运行,服务启动后,可以通过CLI工具发送OCR任务。
- 发送任务 :使用CLI工具发送OCR任务,指定输入文件和转换格式。
- 处理结果 :任务完成后,结果将以指定格式输出,可以直接使用或进一步处理。