VitaBench - MMT LongCatオープンソースインタラクティブエージェントレビューベンチマーク

堆友AI

VitaBenchとは?

VitaBenchは、MeituanのLongCatチームによってリリースされた、複雑な生活シナリオのための初の対話型エージェント評価ベンチマークであり、実際の生活シナリオにおける大型モデル知能の総合的な能力を評価する。テイクアウト注文、レストランでの食事、旅行の3つの高頻度生活シナリオをキャリアとして、66のツールを含む対話型評価環境が構築され、ツールの呼び出し、マルチソース情報処理、ユーザとの対話などの複雑なタスクをカバーしている。初めて、推論の複雑さ、ツールの複雑さ、インタラクションの複雑さの3つの次元を体系的に定量化し、観察空間の大きさ、ツール呼び出しリンクの長さ、ユーザポートレイトのダイナミクスなどの指標を通して、実際のシナリオに対処する知能の能力を正確に測定した。

VitaBench - 美团LongCat开源的交互式Agent评测基准

VitaBenchの特徴

  • 高度にシミュレートされたライフ・サービス・シナリオテイクアウトの注文、レストランでの食事、旅行という高頻度の3つの生活シーンは、複雑なミッション環境を構築する典型的なキャリアです。
  • リッチ・ツール・コール地図ナビゲーション、音声転写、決済インターフェースなど、幅広い分野をカバーする66のツールが含まれており、完全なデジタルライフツールチェーンを形成しています。
  • 多次元的複雑性の定量化複雑な問題の制御された構築を達成するために、深い推論、ツールの使用、ユーザーとの対話という3つの次元から知的身体タスクの定量的な分解を行う。
  • 実ユーザーシミュレータ多ラウンドの対話において、インテリジェンスが多様なユーザー行動に適応できるように、様々なユーザー行動と嗜好をシミュレートするための実ユーザーシミュレータを導入する。
  • きめ細かな評価最近の研究に基づき、タスクゴールを原子論的な評価基準(ルーブリック)に分解し、対話の軌跡をオーバーラップしながらスライディングウィンドウでスキャンし、タスクの完了を厳密な「オール・オア・ナッシング」基準で判定する。
  • クロスシナリオの統合タスクデザイン100のクロスシーンタスクと300のシングルシーンタスクが、複数のシーン間で実行と情報統合を切り替える知能の能力を調べるためにデザインされた。
  • オープンソースプロジェクトのホームページ、論文へのリンク、コードリポジトリ、データセットは完全にオープンソース化されており、研究者や開発者に豊富なリソースを提供している。

ビタベンチの主な利点

  • リアル・シーン・シミュレーションテイクアウトの注文、レストランでの食事、旅行など、高頻度の生活シーンを想定し、高度にシミュレートされたインタラクティブな評価環境を構築することで、実際のアプリケーション要件に近い評価結果を実現している。
  • 多次元的複雑性の定量化複雑なタスクにおける知能の総合的なパフォーマンスを包括的に測定するために、タスクの複雑さを3つの次元、すなわち深い推論、ツールの使用、ユーザーとのインタラクションの観点から初めて定量化した。
  • 実ユーザーシミュレータ多様なユーザーの行動や嗜好をシミュレートし、実インタラクションにおける知能の適応能力を高めるために、実データに基づいて構築されたユーザーシミュレータを紹介する。
  • きめ細かな評価メカニズム原子論的評価基準(Rubric)とスライディングウィンドウ評価器を用いて、知的身体行動のきめ細かな全過程評価を実現し、評価の精度と解釈可能性を向上させる。
  • クロスシナリオのミッションデザインマルチシーンの切り替えと情報統合における知能の能力を検証するために、豊富なクロスシーン統合課題をデザインし、既存のモデルの欠点を明らかにする。

VitaBenchの公式ウェブサイトは?

  • プロジェクトのウェブサイト:: https://vitabench.github.io
  • Githubリポジトリ:: https://github.com/meituan-longcat/vitabench
  • arXivテクニカルペーパー:: https://arxiv.org/abs/2509.26490
  • HuggingFaceデータセット:: https://huggingface.co/datasets/meituan-longcat/VitaBench

VitaBenchの対象者

  • じんこうちのうけんきゅうしゃインテリジェンスを開発・最適化する研究者は、VitaBenchを使って複雑なタスクにおけるインテリジェンスの性能をテスト・評価することで、インテリジェントボディ技術の限界を押し広げることができます。
  • 大規模モデル開発者ビッグ・ランゲージ・モデルの開発・改良チームは、VitaBenchを使用して、実際のシナリオに適用できるモデルの能力を評価し、モデルの欠点を特定して対処しています。
  • アプリケーション開発者スマートボディベースのアプリケーションの開発者は、VitaBenchを使用して、実世界のアプリケーションでスマートボディの性能をテストし、アプリケーションのユーザー体験を向上させます。
  • コーポレート・テクニカル・チームスマートボディ技術の企業ビジネスへの応用を懸念する企業技術チームは、VitaBenchを通じてスマートボディが企業のニーズに合っているかどうかを評価することで、企業のインテリジェント化を加速することができます。
  • 大学・研究機関人工知能や機械学習に関連する研究に従事する大学や研究機関は、教育や研究、専門家のトレーニングのためのツールとしてVitaBenchを使用しています。
  • テクノロジーマニアインテリジェントやAI技術に興味のある人は、VitaBenchを使ってインテリジェントがどのように複雑なタスクをこなすかを学び、探求することで、技術的な視野を広げることができます。
© 著作権表示

関連記事

コメントなし

コメントに参加するにはログインが必要です!
今すぐログイン
なし
コメントはありません