文本提取API（text-extract-api）：视觉提取文本信息，匿名化的PDF提取工具

58.4K 00

综合介绍

文本提取API（text-extract-api）是一个强大的工具，旨在从各种文档格式（如PDF、Word、PPTX等）中提取和解析内容。该API利用最先进的光学字符识别（OCR）技术和Ollama支持的模型，能够将任何文档或图片转换为结构化的JSON或Markdown格式。其主要特点包括高精度的文本提取、去除个人身份信息（PII）、支持多种存储策略以及分布式任务处理。文本提取API通过FastAPI构建，并使用Celery进行异步任务处理，Redis用于缓存OCR结果，确保高效和可靠的文档处理体验。

pdf-extract-api是一个文档提取和解析API，使用最先进的OCR技术和Ollama支持的模型，支持文档匿名化处理。它可以将任何文档或图片转换为结构化的JSON或Markdown，支持高精度的表格数据、数字和数学公式的提取。该API基于FastAPI构建，使用Celery进行异步任务处理，并利用Redis缓存OCR结果，确保高效和可靠的文档处理。

文本提取API（text-extract-api）：视觉提取文本信息，匿名化的PDF提取工具

功能列表

高精度OCR：使用PyTorch、Marker、Llama3.2-vision等多种OCR策略，实现高精度文本提取。
文档转换：支持将PDF、Word、PPTX等文档转换为Markdown或JSON格式。
去除PII：自动识别并去除文档中的个人身份信息。
分布式处理：使用Celery进行分布式任务处理，提高处理效率。
缓存机制：使用Redis缓存OCR结果，减少重复处理时间。
多存储策略：支持本地文件系统、Google Drive等多种存储方式。
CLI工具：提供命令行工具，方便用户发送任务和处理结果。

使用帮助

安装流程

下载并安装Ollama。
下载并安装Docker。
克隆text-extract-api仓库：

   git clone https://github.com/CatchTheTornado/text-extract-api.git

   cd text-extract-api
docker-compose up

使用方法

文档转换

将待转换的文档上传到指定目录。
使用CLI工具发送转换任务：

   python client/cli.py ocr_upload --file examples/example.pdf --prompt_file examples/example-to-json-prompt.txt

转换结果将以JSON或Markdown格式保存在指定目录。

去除PII

上传包含PII的文档。
使用CLI工具发送去除PII任务：

   python client/cli.py ocr_upload --file examples/example-pii.pdf --prompt_file examples/example-remove-pii.txt

处理后的文档将去除所有个人身份信息。

详细功能操作流程

高精度OCR：通过配置不同的OCR策略（如Marker、Llama3.2-vision等），实现对各种文档的高精度文本提取。用户可以根据文档类型选择最适合的OCR策略。
文档转换：支持将PDF、Word、PPTX等多种格式的文档转换为Markdown或JSON格式，方便后续的数据处理和分析。
去除PII：自动识别并去除文档中的个人身份信息，确保数据隐私和安全。
分布式处理：使用Celery进行分布式任务处理，支持大规模文档处理任务，提高处理效率。
缓存机制：使用Redis缓存OCR结果，减少重复处理时间，提高系统响应速度。
多存储策略：支持本地文件系统、Google Drive等多种存储方式，用户可以根据需求选择合适的存储策略。
CLI工具：提供命令行工具，用户可以通过简单的命令发送任务和处理结果，方便快捷。