AI个人学习
和实操指南
豆包Marscode1

文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具

综合介绍

文本提取API(text-extract-api)是一个强大的工具,旨在从各种文档格式(如PDF、Word、PPTX等)中提取和解析内容。该API利用最先进的光学字符识别(OCR)技术和Ollama支持的模型,能够将任何文档或图片转换为结构化的JSON或Markdown格式。其主要特点包括高精度的文本提取、去除个人身份信息(PII)、支持多种存储策略以及分布式任务处理。文本提取API通过FastAPI构建,并使用Celery进行异步任务处理,Redis用于缓存OCR结果,确保高效和可靠的文档处理体验。

pdf-extract-api是一个文档提取和解析API,使用最先进的OCR技术和Ollama支持的模型,支持文档匿名化处理。它可以将任何文档或图片转换为结构化的JSON或Markdown,支持高精度的表格数据、数字和数学公式的提取。该API基于FastAPI构建,使用Celery进行异步任务处理,并利用Redis缓存OCR结果,确保高效和可靠的文档处理。


文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具-1

 

pdf-extract-api:PDF文档或图片转换JSON/Markdown,自动抹去个人信息-1

 

功能列表

  • 高精度OCR:使用PyTorch、Marker、Llama3.2-vision等多种OCR策略,实现高精度文本提取。
  • 文档转换:支持将PDF、Word、PPTX等文档转换为Markdown或JSON格式。
  • 去除PII:自动识别并去除文档中的个人身份信息。
  • 分布式处理:使用Celery进行分布式任务处理,提高处理效率。
  • 缓存机制:使用Redis缓存OCR结果,减少重复处理时间。
  • 多存储策略:支持本地文件系统、Google Drive等多种存储方式。
  • CLI工具:提供命令行工具,方便用户发送任务和处理结果。

 

使用帮助

安装流程

  1. 下载并安装Ollama。
  2. 下载并安装Docker。
  3. 克隆text-extract-api仓库:
   git clone https://github.com/CatchTheTornado/text-extract-api.git
  1. 进入项目目录并启动Docker容器:
   cd text-extract-api
docker-compose up

使用方法

文档转换

  1. 将待转换的文档上传到指定目录。
  2. 使用CLI工具发送转换任务:
   python client/cli.py ocr_upload --file examples/example.pdf --prompt_file examples/example-to-json-prompt.txt
  1. 转换结果将以JSON或Markdown格式保存在指定目录。

去除PII

  1. 上传包含PII的文档。
  2. 使用CLI工具发送去除PII任务:
   python client/cli.py ocr_upload --file examples/example-pii.pdf --prompt_file examples/example-remove-pii.txt
  1. 处理后的文档将去除所有个人身份信息。

详细功能操作流程

  1. 高精度OCR:通过配置不同的OCR策略(如Marker、Llama3.2-vision等),实现对各种文档的高精度文本提取。用户可以根据文档类型选择最适合的OCR策略。
  2. 文档转换:支持将PDF、Word、PPTX等多种格式的文档转换为Markdown或JSON格式,方便后续的数据处理和分析。
  3. 去除PII:自动识别并去除文档中的个人身份信息,确保数据隐私和安全。
  4. 分布式处理:使用Celery进行分布式任务处理,支持大规模文档处理任务,提高处理效率。
  5. 缓存机制:使用Redis缓存OCR结果,减少重复处理时间,提高系统响应速度。
  6. 多存储策略:支持本地文件系统、Google Drive等多种存储方式,用户可以根据需求选择合适的存储策略。
  7. CLI工具:提供命令行工具,用户可以通过简单的命令发送任务和处理结果,方便快捷。
未经允许不得转载:首席AI分享圈 » 文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具
zh_CN简体中文