Kreuzberg: あらゆる文書からテキストを抽出するオープンソースツール

1.9K 00

はじめに

Kreuzbergは、PDFファイルのテキスト抽出を簡素化するライブラリで、シンプルで手間のかからないテキスト抽出ソリューションを提供するように設計されています。このライブラリは、テキスト抽出を必要とするRAG（Retrieval-Augmented Generation）サービスに特に適しています。クロイツベルクは、ローカル操作をサポートし、制御が簡単で安価です。オープンソースと商用のさまざまなオプションを組み合わせて、柔軟なテキスト抽出機能を提供します。

機能一覧

PDFテキスト抽出PDFファイルからテキストコンテンツを抽出します。
画像/PDF OCRTesseract-OCRを用いた画像とPDFの光学文字認識。
PDF以外のテキスト抽出Pandocによる他のフォーマットのテキスト抽出。
ローカルオペレーションローカルインストールと操作をサポートし、制御と管理が容易です。
オープンソースで無料MITライセンスに基づくオープンソース、無償。

ヘルプの使用

設置プロセス

Pythonパッケージのインストール::

   pip install kreuzberg

システム依存のインストール::
- パンドック非 PDF テキスト抽出用 (GPL v2.0 ライセンス、CLI としてのみ使用)。
- テッセラクト-OCR画像と PDF 用 OCR (Apache ライセンス)。

使用ガイドライン

基本的な使い方::
- ライブラリをインポートして初期化する： python from kreuzberg import Kreuzberg extractor = Kreuzberg()
- PDFテキストを抽出します： python text = extractor.extract_text('path/to/pdf/file.pdf') print(text)
OCR機能::
- 画像またはPDFをOCRします： python ocr_text = extractor.ocr('path/to/image_or_pdf') print(ocr_text)
PDF以外のテキスト抽出::
- Pandocを使って他の形式のテキストを抽出する： python other_text = extractor.extract_text('path/to/other/file') print(other_text)

詳細な機能操作の流れ

PDFテキスト抽出::
- PDFファイルのパスが正しいことを確認してください。
- 利用するextract_textメソッドでテキストを抽出します。
- 抽出されたテキストデータをその後の操作のために処理する。
OCR機能::
- Tesseract-OCRをインストールし、設定する。
- 利用するocr画像やPDFのOCR処理のための方法です。
- OCR結果を取得し、処理する。
PDF以外のテキスト抽出::
- Pandocをインストールして設定する。
- 利用するextract_textメソッドを使って他の形式のテキストを抽出することができる。
- 抽出されたテキストデータをその後の操作のために処理する。