AIパーソナル・ラーニング
と実践的なガイダンス

Chonkie: 軽量なRAGテキストチャンキングライブラリ

はじめに

Chonkieは軽量で効率的なRAG(Retrieval-Augmented Generation)テキストチャンキングライブラリで、開発者が素早く簡単にテキストをチャンキングできるように設計されています。トークン、単語、文、意味的類似度に基づくチャンキングなど、様々なチャンキング手法をサポートしており、テキスト処理や自然言語処理の幅広いタスクに適しています。デフォルトのインストールに必要な容量はわずか21MB(他の類似製品は80~171MB) 主要なチャンカーをすべてサポート。

 

機能一覧

  • トーケンチャンカーテキストを固定サイズのマーカーブロックに分割します。
  • ワードチャンカーテキストを単語からチャンクに分ける。
  • センテンスチャンカー文章をチャンクに分ける。
  • セマンティック・チャンカー意味的類似性に基づいてテキストをチャンクに分割する。
  • SDPMChunkerセマンティックダブルマージアプローチによるテキストのセグメンテーション。

 

ヘルプの使用

取り付け

チョンキーをインストールするには、以下のコマンドを実行するだけだ:

pip install chonkie

Chonkieはデフォルトのインストールを最小限にするという原則に従い、必要に応じて特定のチャンカーをインストールするか、依存関係を考慮したくない場合はすべてのチャンカーをインストールすることを推奨している(推奨されていない)。

pip install chonkie[all]

利用する

ここでは、すぐに始められるように基本的な例を示します:

  1. まず、目的のチャンカーをインポートする:
    from chonkie import TokenChunker
    
  2. お気に入りのトークナイザー・ライブラリをインポートします(AutoTokenizers、TikToken、AutoTikTokenizerがサポートされています):
    from tokenizers import Tokenizer
    tokenizer = Tokenizer.from_pretrained("gpt2")
    
  3. チャンカーを初期化する:
    chunker = TokenChunker(tokenizer)
    
  4. テキストのチャンキング
    chunks = chunker("Woah! Chonkie、チャンキング・ライブラリーはとてもクールだ! 小さなカバが大好きだよ。)
    
  5. チャンキング結果にアクセスする:
    for chunk in chunks:
    print(f "チャンク:{chunk.text}")
    print(f"トークン: {chunk.token_count}")
    

支援方法

Chonkieは、独自のチャンクを効率的に作成・配布するための幅広いチャンカーを提供しています。 ラグ アプリケーションはテキストを分割する。以下は、利用可能なチャンカーの概要です:

  • トーケンチャンカーテキストを固定サイズのマーカーブロックに分割します。
  • ワードチャンカーテキストを単語からチャンクに分ける。
  • センテンスチャンカー文章をチャンクに分ける。
  • セマンティック・チャンカー意味的類似性に基づいてテキストをチャンクに分割する。
  • SDPMChunkerセマンティックダブルマージアプローチによるテキストのセグメンテーション。

ベンチマーキング

チョンキーはいくつかのベンチマークで好成績を収めている:

  • サイズデフォルトのインストールはわずか9.7MB(他のバージョンは80~171MB)で、セマンティック・チャンキングを含めても競合他社より軽い。
  • テンポタグ・チャンキングは最も遅い方法より33倍速く、センテン・チャンキングは競合より2倍近く速く、セマンティック・チャンキングは他の方法より2.5倍速い。

詳しい操作手順

  1. インストーラChonkieと必要なタガーライブラリをpipでインストールします。
  2. インポートライブラリPythonスクリプトにChonkieとタグ付けライブラリをインポートしてください。
  3. チャンカーの初期化適切なチャンカーを選択し、初期化する。
  4. チャンクドテキスト初期化されたチャンカーを使ってテキストをチャンクする。
  5. 結果チャンキングの結果を繰り返し、さらなる処理や分析を行う。

AIイージー・ラーニング

AIを始めるための素人ガイド

AIツールの活用方法を、低コスト・ゼロベースから学ぶことができます。AIはオフィスソフトと同様、誰にとっても必須のスキルです。 AIをマスターすれば、就職活動で有利になり、今後の仕事や勉強の労力も半減します。

詳細を見る
無断転載を禁じます:チーフAIシェアリングサークル " Chonkie: 軽量なRAGテキストチャンキングライブラリ

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語