エージェント・リーダーボード：AIエージェントのパフォーマンス評価リーダーボード

91.5K 00

はじめに

Agent Leaderboardは、Galileo AIがHugging Faceプラットフォーム上で立ち上げた、AIエージェントの性能評価に特化したオンラインツールです。複数の権威あるデータセット（BFCL、τ-bench、xLAM、ToolACEなど）を組み合わせることで、単純なAPIコールから複雑なマルチツール対話までのシナリオをカバーする17の主要な大規模言語モデル（LLM）をテストします。このウェブサイトは、「AIエージェントは実際のビジネスシナリオでどのように機能するのか」という問いに答え、開発者や企業がニーズに合ったモデルを選択できるようにすることを目的としています。リーダーボードは毎月更新され、効率的なAIエージェントシステムを構築する必要があるチームのために、モデルのランキング、スコア、コスト、その他の情報の閲覧をサポートしています。オープンソースとプライベートモデルのパフォーマンスを視覚的に比較することができます。分析レポートを見るハギング・フェイスがエージェント・インテリジェンスのボディ・ランキングを発表：ツール・コーリングのリーダーは？

機能一覧

モデル・パフォーマンス・ランキングGemini-2.0Flash、GPT-4oなど17の主要なLLMのTSQ（Tool Selection Quality）スコアによるランキングを表示。
多次元評価データ数学、小売、航空、APIインタラクションなど、390以上のシナリオをカバーするクロスドメインのテスト結果を提供します。
コスト対効率各モデルで100万人当たりのデモを行う。トークン価格/性能分析のためのコスト（例：Gemini-2.0 Flash $0.15 vs GPT-4o $2.5）。
フィルタリングと表示ツール:: ベンダー、オープンソース/プライベートのステータス、スコアなどによるモデルのフィルタリングをサポートし、必要な情報を素早く見つけることができます。
データセットへのオープンソースアクセス:: テストデータセットのダウンロードリンクを提供する。
動的更新メカニズム:: リーダーボードは毎月更新され、最新のモデルリリースとパフォーマンスデータが同期されます。

ヘルプの使用

アクセスおよび使用方法

エージェント・リーダーボードは、インストール不要のオンラインツールです。 https://huggingface.co/spaces/galileo-ai/agent-leaderboard すぐに使えるページが読み込まれると、直感的なリーダーボード表が現れ、登録やログインをしなくても、公開されているすべてのデータを閲覧することができます。データセットのダウンロードや提案など、より深いエンゲージメントのために、Hugging Faceのアカウントにサインアップすることができます。

ワークフロー

チャートを見る
- ページを開くと、最初のページにはデフォルトで現在のLLM上位17モデルが表示される。
- 表の列には、「ランク」、「モデル」、「ベンダー」、「スコア」、「コスト」、「タイプ（オープンソース／プライベート）」が含まれる。スコア"、"コスト"、"タイプ（オープンソース/プライベート）"。
- 例：1位のGemini-2.0 Flashのスコアは0.9以上、コストは$0.15/100万トークン。
スクリーニングと比較モデル
- 表の上部にあるフィルターボックスをクリックして、"ベンダー"（例：Google、OpenAI）、"タイプ"（オープンソースまたはプライベート）、または "スコア範囲 "を選択します。
- 例えば、"OpenAI "と入力すると、GPT-4oやo1などのモデルがフィルタリングされ、簡単に性能を比較することができる。
- 費用対効果を見るには、"Cost "列でソートし、最も安価なオプションを見つける。
詳細な評価データを見る
- モデル名（例：Gemini-1.5-Pro）をクリックすると、特定のパフォーマンスレポートが表示されます。
- 例えば、τ-benchにおける小売シナリオのスコア、ToolACEにおけるAPIインタラクションのスコアなどである。
- データは、マルチツールタスクや長いコンテキストのシナリオにおけるモデルの長所と短所を視覚化するために、グラフ形式で表示される。
オープンソースデータセットのダウンロード
- ページの一番下に "Dataset"（データセット）のリンクがあるので、それをクリックすると次のページに移動する。 https://huggingface.co/datasets/galileo-ai/agent-leaderboard.
- ユーザーは、ローカル分析や二次開発のために、完全なテストデータセット（例：BFCLの数学問題集、xLAMのクロスドメインデータ）をダウンロードすることができます。
- ダウンロードするには、Hugging Faceアカウントにサインインする必要があります。アカウントをお持ちでない場合は、ページ右上の「サインアップ」をクリックしてサインアップできます。
最新情報
- リーダーボードは毎月更新されることが約束されており、Galileo AIの公式ブログ（ページ下部のリンク）をフォローすれば、最新モデルの追加が通知される。
- 例えば、最近コミュニティでユーザーから寄せられたクロード 3.7 ソネットとグロック 3、APIが利用可能になり次第、正式な回答が追加される。

注目の機能

ツール選択品質（TSQ）スコアの解釈
- TSQは、Agent Leaderboardの中核となる評価指標で、ツールの使用におけるモデルの精度を測定します。
- 操作例：GPT-4oを選択すると、TSQスコアが0.9となり、マルチツールの共同作業では良好なパフォーマンスを発揮するが、長いコンテキストのシナリオではやや劣ることを示す行項目が表示される。
- 使用上のアドバイス：プロジェクトに複雑なワークフローが含まれる場合は、TSQが0.85以上のモデルを選択してください。
マルチドメインテストの結果分析
- 評価の詳細」をクリックすると、このモデルが14のベンチマークテストでどのような結果を出したかを見ることができる。
- 例：Gemini-2.0 FlashはBFCL（数学と教育）で0.92、ToolACE（APIインタラクション）で0.89を獲得した。
- 使用シナリオ：航空データを扱う必要があるチームは、τベンチの結果を参照して、この分野に特化したモデルを選択することができる。
コスト最適化の意思決定
- 表の「コスト」欄の100万トークンあたりの入出力価格を参照。
- 例："Cost < $1 "のフィルターをかけると、Mistral-small-2501（$0.5/100万トークン）が表示されます。
- ヒント：スコアとコストを組み合わせることで、パフォーマンスと費用のバランスをとる。