综合介绍
文本提取API(text-extract-api)是一个强大的工具,旨在从各种文档格式(如PDF、Word、PPTX等)中提取和解析内容。该API利用最先进的光学字符识别(OCR)技术和Ollama支持的模型,能够将任何文档或图片转换为结构化的JSON或Markdown格式。其主要特点包括高精度的文本提取、去除个人身份信息(PII)、支持多种存储策略以及分布式任务处理。文本提取API通过FastAPI构建,并使用Celery进行异步任务处理,Redis用于缓存OCR结果,确保高效和可靠的文档处理体验。
pdf-extract-api是一个文档提取和解析API,使用最先进的OCR技术和Ollama支持的模型,支持文档匿名化处理。它可以将任何文档或图片转换为结构化的JSON或Markdown,支持高精度的表格数据、数字和数学公式的提取。该API基于FastAPI构建,使用Celery进行异步任务处理,并利用Redis缓存OCR结果,确保高效和可靠的文档处理。
功能列表
- 高精度OCR:使用PyTorch、Marker、Llama3.2-vision等多种OCR策略,实现高精度文本提取。
- 文档转换:支持将PDF、Word、PPTX等文档转换为Markdown或JSON格式。
- 去除PII:自动识别并去除文档中的个人身份信息。
- 分布式处理:使用Celery进行分布式任务处理,提高处理效率。
- 缓存机制:使用Redis缓存OCR结果,减少重复处理时间。
- 多存储策略:支持本地文件系统、Google Drive等多种存储方式。
- CLI工具:提供命令行工具,方便用户发送任务和处理结果。
使用帮助
安装流程
- 下载并安装Ollama。
- 下载并安装Docker。
- 克隆text-extract-api仓库:
git clone https://github.com/CatchTheTornado/text-extract-api.git
- 进入项目目录并启动Docker容器:
cd text-extract-api
docker-compose up
使用方法
文档转换
- 将待转换的文档上传到指定目录。
- 使用CLI工具发送转换任务:
python client/cli.py ocr_upload --file examples/example.pdf --prompt_file examples/example-to-json-prompt.txt
- 转换结果将以JSON或Markdown格式保存在指定目录。
去除PII
- 上传包含PII的文档。
- 使用CLI工具发送去除PII任务:
python client/cli.py ocr_upload --file examples/example-pii.pdf --prompt_file examples/example-remove-pii.txt
- 处理后的文档将去除所有个人身份信息。
详细功能操作流程
- 高精度OCR:通过配置不同的OCR策略(如Marker、Llama3.2-vision等),实现对各种文档的高精度文本提取。用户可以根据文档类型选择最适合的OCR策略。
- 文档转换:支持将PDF、Word、PPTX等多种格式的文档转换为Markdown或JSON格式,方便后续的数据处理和分析。
- 去除PII:自动识别并去除文档中的个人身份信息,确保数据隐私和安全。
- 分布式处理:使用Celery进行分布式任务处理,支持大规模文档处理任务,提高处理效率。
- 缓存机制:使用Redis缓存OCR结果,减少重复处理时间,提高系统响应速度。
- 多存储策略:支持本地文件系统、Google Drive等多种存储方式,用户可以根据需求选择合适的存储策略。
- CLI工具:提供命令行工具,用户可以通过简单的命令发送任务和处理结果,方便快捷。