AI个人学习
和实操指南

pdf-extract-api:可本地运行个人信息匿名化的PDF提取工具

综合介绍

pdf-extract-api是一个文档提取和解析API,使用最先进的OCR技术和Ollama支持的模型,支持文档匿名化处理。它可以将任何文档或图片转换为结构化的JSON或Markdown,支持高精度的表格数据、数字和数学公式的提取。该API基于FastAPI构建,使用Celery进行异步任务处理,并利用Redis缓存OCR结果,确保高效和可靠的文档处理。

pdf-extract-api:PDF文档或图片转换JSON/Markdown,自动抹去个人信息-1


 

功能列表

  • 高精度的PDF到Markdown转换
  • PDF到JSON转换
  • 使用LLM(如LLama 3.1)改进OCR结果
  • 删除个人身份信息(PII)
  • 分布式队列处理(使用Celery)
  • 结果缓存(使用Redis)
  • CLI工具用于发送任务和处理结果

 

使用帮助

安装流程

  1. 克隆仓库
    git clone https://github.com/CatchTheTornado/pdf-extract-api.git
    cd pdf-extract-api
    
2. **安装依赖** :
确保已安装Docker和Docker Compose,然后运行以下命令:
```bash
docker-compose up

使用流程

  1. 转换PDF到Markdown :
    使用CLI工具发送任务并处理结果,例如:
python client/cli.py ocr --file examples/example-mri.pdf --prompt_file examples/example-mri-2-json-prompt.txt

这将把PDF文件转换为Markdown格式。

  1. 转换PDF到JSON并删除PII :
python client/cli.py ocr --file examples/example-invoice.pdf --prompt_file examples/example-invoice-remove-pii.txt

这将把PDF文件转换为JSON格式并删除个人身份信息。

  1. 缓存OCR结果 :
    使用Redis缓存OCR结果,提高处理效率。

详细操作流程

  • 启动服务 :确保Docker容器正常运行,服务启动后,可以通过CLI工具发送OCR任务。
  • 发送任务 :使用CLI工具发送OCR任务,指定输入文件和转换格式。
  • 处理结果 :任务完成后,结果将以指定格式输出,可以直接使用或进一步处理。
AI轻松学

普通人的AI入门指南

帮助你以低成本、零基础学会如何利用AI工具。AI就像办公软件一样,是每个人的必备技能。 掌握AI会让你在求职中占据优势,在未来的工作和学习中事半功倍。

查看详情>
未经允许不得转载:首席AI分享圈 » pdf-extract-api:可本地运行个人信息匿名化的PDF提取工具

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们