はじめに
ChainForgeは、大規模言語モデル(LLM)のプロンプトの有効性をテスト・評価するために設計された、オープンソースのビジュアルプログラミング環境です。ChainForgeは、OpenAI、HuggingFace、Anthropic等の幅広いモデルプロバイダーをサポートしており、単一のインターフェースで複数のモデルを比較・評価することができます。このツールは、特に初期段階の手がかり探索と迅速な反復に適しており、ユーザーが最適な応答品質を得るために手がかりとモデルの設定を最適化するのに役立ちます。
機能一覧
- マルチ・モデル・クエリ複数のLLMに同時に問い合わせ、ヒントのアイデアやバリエーションを素早くテスト。
- 回答の質の比較手がかり、モデル、モデル設定の違いによる反応の質の比較。
- ビジュアライゼーション評価評価指標を設定し、プロンプト、パラメータ、モデル、設定の結果を即座に可視化します。
- 重層的対話テンプレート・パラメータとチャット・モデルの間で複数回の対話を行い、各対話ラウンドの出力をチェックし評価する。
- テンプレート化されたヒントプロンプトをテンプレート化できるだけでなく、フォローアップのチャットメッセージもテンプレート化できます。
- 評価ストリームの例可能な使用シナリオを示すために、複数の評価ストリーム例を提供する。
- ローカル・オンライン・インストールローカルインストールとオンライントライアルに対応し、柔軟な利用が可能。
- 複数モデルのサポートOpenAI、HuggingFace、Anthropic、Google PaLM2、Azure OpenAI、その他多くのモデルプロバイダーをサポート。
ヘルプの使用
設置プロセス
ローカルインストール
- Python 3.8以降がインストールされていることを確認してください。
- 以下のコマンドを実行してChainForgeをインストールしてください:
pip install chainforge
- インストールが完了したら、以下のコマンドを実行してChainForgeサーバーを起動します:
チェーンフォージサーブ
- ブラウザを開き、次のサイトにアクセスする。
ローカルホスト:8000
今すぐChainForgeをご利用いただけます。
Dockerを使ったインストール
- Dockerイメージをビルドする:
docker build -t chainforge .
- Dockerコンテナを実行する:
docker run -p 8000:8000 chainforge
- ブラウザを開き、次のサイトにアクセスする。
127.0.0.1:8000
今すぐChainForgeをご利用いただけます。
使用ガイドライン
- APIキーの設定右上の設定アイコンをクリックし、OpenAI、Anthropic、Google PaLMなどのAPIキーを入力します。
- 新しいプロジェクトを作成する新規プロジェクト "ボタンをクリックし、必要なモデルとプロンプトテンプレートを選択します。
- ヒントとモデルの追加プロジェクトにプロンプトテンプレートとモデルを追加し、テストのためのさまざまなパラメータを設定します。
- 運用評価Run "ボタンをクリックすると、ChainForgeは自動的に選択された全てのモデルにクエリーを実行し、応答結果を表示します。
- 比較と視覚化視覚化ツールを使用して、さまざまなプロンプトとモデルの応答品質を比較し、最適なプロンプトとモデルの設定を選択します。
- 保存と共有プロジェクトが完了したら、評価を保存して共有リンクを作成し、他の人と共有することができます。
評価ストリームの例
ChainForgeでは、ユーザーがすぐに使い始められるように、評価フローのサンプルをいくつか用意しています。例えば、"応答長比較 "の例では、同じキューに対する異なるモデルの応答長を比較することができます。また、特定の評価指標やビジュアライゼーションを使用したカスタム評価フローを作成することもできます。
高度な機能
- カスタマイズされた評価ノードユーザーはPythonコードを書いて評価ノードをカスタマイズし、より複雑な応答評価を行うことができます。
- 多面的な対話評価複数ラウンドの対話評価がサポートされているため、ユーザーは異なる対話ラウンドの回答の質をテストすることができます。
- データエクスポート評価結果はエクセルの表にエクスポートして、さらに詳しく分析することができます。
ChainForgeは、研究者、開発者、データサイエンティストがキューやモデルの設定を最適化し、LLM応答の質を向上させるための強力なツールです。