はじめに
Kreuzbergは、PDFファイルのテキスト抽出を簡素化するライブラリで、シンプルで手間のかからないテキスト抽出ソリューションを提供するように設計されています。このライブラリは、テキスト抽出を必要とするRAG(Retrieval-Augmented Generation)サービスに特に適しています。クロイツベルクは、ローカル操作をサポートし、制御が簡単で安価です。オープンソースと商用のさまざまなオプションを組み合わせて、柔軟なテキスト抽出機能を提供します。
機能一覧
- PDFテキスト抽出PDFファイルからテキストコンテンツを抽出します。
- 画像/PDF OCRTesseract-OCRを用いた画像とPDFの光学文字認識。
- PDF以外のテキスト抽出Pandocによる他のフォーマットのテキスト抽出。
- ローカルオペレーションローカルインストールと操作をサポートし、制御と管理が容易です。
- オープンソースで無料MITライセンスに基づくオープンソース、無償。
ヘルプの使用
設置プロセス
- Pythonパッケージのインストール::
pip install kreuzberg
- システム依存のインストール::
- パンドック非 PDF テキスト抽出用 (GPL v2.0 ライセンス、CLI としてのみ使用)。
- テッセラクト-OCR画像と PDF 用 OCR (Apache ライセンス)。
使用ガイドライン
- 基本的な使い方::
- ライブラリをインポートして初期化する:
パイソン
フロム・クロイツベルク 輸入 クロイツベルク
エクストラクター = クロイツベルク()
- PDFテキストを抽出します:
パイソン
text = extractor.extract_text('path/to/pdf/file.pdf')
print(テキスト)
- ライブラリをインポートして初期化する:
- OCR機能::
- 画像またはPDFをOCRします:
パイソン
ocr_text = extractor.ocr('path/to/image_or_pdf')
print(ocr_text)
- 画像またはPDFをOCRします:
- PDF以外のテキスト抽出::
- Pandocを使って他の形式のテキストを抽出する:
パイソン
other_text = extractor.extract_text('path/to/other/file')
print(他のテキスト)
- Pandocを使って他の形式のテキストを抽出する:
詳細な機能操作の流れ
- PDFテキスト抽出::
- PDFファイルのパスが正しいことを確認してください。
- 利用する
抽出テキスト
メソッドでテキストを抽出します。 - 抽出されたテキストデータをその後の操作のために処理する。
- OCR機能::
- Tesseract-OCRをインストールし、設定する。
- 利用する
OCR
画像やPDFのOCR処理のための方法です。 - OCR結果を取得し、処理する。
- PDF以外のテキスト抽出::
- Pandocをインストールして設定する。
- 利用する
抽出テキスト
メソッドを使って他の形式のテキストを抽出することができる。 - 抽出されたテキストデータをその後の操作のために処理する。
以上の手順により、ユーザーはクロイツベルクのテキスト抽出操作を簡単に始めることができ、さまざまなテキスト処理のニーズに応えることができる。