Chatbot Arena（LMSYS）：大規模言語モデルのベンチマークと複数モデルの性能比較のためのオンライン競争プラットフォーム

98.8K 00

はじめに

LMSYS Organgは、Large Model Systems Organizationとして知られ、カリフォルニア大学バークレー校の学生と教授陣が、カリフォルニア大学サンディエゴ校、カーネギーメロン大学と共同で設立したオープンな研究組織である。この組織の目標は、オープンなモデル、データセット、システム、評価ツールを共同開発することで、大規模モデルを誰でも利用できるようにすることである。

Chatbot Arenaは、さまざまな大規模言語モデル（LLM）のベンチマークと性能比較に焦点を当てたオンラインプラットフォームです。このプラットフォームは、様々なAIチャットボットを並べて対話し、評価するための匿名、無作為化された環境をユーザーに提供するために研究者によって作成されました。詳細な品質、パフォーマンス、価格の分析を通じて、Chatbot Arenaは、ユーザーが自分のニーズに最も適したAIソリューションを見つけるのに役立ちます。

Chatbot Arena（LMSYS）：大语言模型基准测试和多模型比较性能的在线竞技平台

モデル PK: https://lmarena.ai/

機能一覧

ビキューナ：90% ChatGPTの品質を持つチャットボットで、7B/13B/33Bのサイズがある。
チャットボット・アリーナ：クラウドソーシングとEloレーティングシステムによる、スケーラブルでゲーミフィケーション化されたLLMの評価。
SGLang: 複雑なLLMプログラムのための効率的なインターフェースとランタイム。
LMSYS-Chat-1M: 実際のLLM対話の大規模データセット。
FastChat: LLMベースのチャットボットをトレーニング、提供、評価するためのオープンプラットフォーム。
MT-Bench：チャットボットを評価するための、挑戦的な、多ラウンドの、オープンエンドの質問セット。

ヘルプの使用

モデル比較::
- モデル比較のページをご覧ください。
- 比較したいモデルを選択し、「比較に追加」ボタンをクリックします。
- 品質、性能、価格、その他の指標を含む比較結果を表示します。
品質管理::
- モデルの詳細ページで品質テストの結果をご覧ください。
- テストの次元ごとの具体的なスコアとランキングをご覧ください。
価格分析::
- モデルの詳細ページで、価格分析をご覧ください。
- さまざまなモデルの価格を比較して、最も費用対効果の高いオプションを見つけましょう。
パフォーマンス評価::
- モデルの詳細ページで、性能評価結果を見る。
- モデルの出力速度、待ち時間、その他のパフォーマンス指標を理解する。
コンテキスト・ウィンドウ分析::
- モデルの詳細ページで、コンテキストウィンドウの分析を表示します。
- 異なるアプリケーションシナリオに対するモデルのコンテキストウィンドウサイズを理解する。