综合介绍
Kreuzberg是一个用于简化PDF文件文本提取的库,旨在提供简单、无忧的文本提取解决方案。该库特别适合需要进行文本提取的RAG(Retrieval-Augmented Generation)服务。Kreuzberg支持本地运行,易于控制且成本低廉。它结合了多种开源和商业选项,提供了灵活的文本提取功能。
功能列表
- PDF文本提取:从PDF文件中提取文本内容。
- 图像/PDF OCR:使用Tesseract-OCR进行图像和PDF的光学字符识别。
- 非PDF文本提取:通过Pandoc进行其他格式文本的提取。
- 本地运行:支持本地安装和运行,易于控制和管理。
- 开源免费:基于MIT许可证开源,免费使用。
使用帮助
安装流程
- 安装Python包:
pip install kreuzberg
- 安装系统依赖:
- Pandoc:用于非PDF文本提取(GPL v2.0许可证,仅作为CLI使用)。
- Tesseract-OCR:用于图像和PDF的OCR(Apache许可证)。
使用指南
- 基本使用:
- 导入库并初始化:
python
from kreuzberg import Kreuzberg
extractor = Kreuzberg()
- 提取PDF文本:
python
text = extractor.extract_text('path/to/pdf/file.pdf')
print(text)
- 导入库并初始化:
- OCR功能:
- 对图像或PDF进行OCR:
python
ocr_text = extractor.ocr('path/to/image_or_pdf')
print(ocr_text)
- 对图像或PDF进行OCR:
- 非PDF文本提取:
- 使用Pandoc提取其他格式文本:
python
other_text = extractor.extract_text('path/to/other/file')
print(other_text)
- 使用Pandoc提取其他格式文本:
详细功能操作流程
- PDF文本提取:
- 确保PDF文件路径正确。
- 使用
extract_text
方法提取文本。 - 处理提取的文本数据,进行后续操作。
- OCR功能:
- 安装并配置Tesseract-OCR。
- 使用
ocr
方法对图像或PDF进行OCR处理。 - 获取并处理OCR结果。
- 非PDF文本提取:
- 安装并配置Pandoc。
- 使用
extract_text
方法提取其他格式文本。 - 处理提取的文本数据,进行后续操作。
通过以上步骤,用户可以轻松上手使用Kreuzberg进行文本提取操作,满足各种文本处理需求。