상담원 순위표: AI 상담원 성과 평가 순위표

96.6K 00

일반 소개

에이전트 리더보드는 갈릴레오 AI가 허깅 페이스 플랫폼에서 출시한 AI 에이전트 성능 평가에 중점을 둔 온라인 툴입니다. 이 도구는 여러 권위 있는 데이터 세트(예: BFCL, τ-bench, xLAM 및 ToolACE)를 결합하여 간단한 API 호출부터 복잡한 다중 도구 상호 작용에 이르는 시나리오를 다루는 17개의 주요 LLM(대규모 언어 모델)을 테스트합니다. 이 웹사이트는 "실제 비즈니스 시나리오에서 AI 에이전트는 어떻게 작동하는가?"라는 질문에 답하고 개발자와 기업이 필요에 맞는 올바른 모델을 선택할 수 있도록 지원하는 것을 목표로 합니다. 리더보드는 매월 업데이트되며 효율적인 AI 에이전트 시스템을 구축해야 하는 팀을 위해 모델 순위, 점수, 비용 및 기타 정보를 볼 수 있도록 지원합니다. 사용자는 여기에서 오픈 소스 모델과 프라이빗 모델의 성능을 시각적으로 비교할 수 있습니다. 분석 보고서 보기:허깅 페이스, 에이전트 인텔리전스 바디 랭킹 출시: 툴 호출의 리더는 누구일까요?

기능 목록

모델 성능 순위도구 선택 품질(TSQ) 점수를 기준으로 Gemini-2.0 플래시, GPT-4o 등 17개 주요 LLM의 순위를 표시합니다.
다차원 평가 데이터수학, 리테일, 항공, API 상호 작용 등 390개 이상의 시나리오에 대한 교차 도메인 테스트 결과를 제공합니다.
비용 대비 효율성:: 각 모델에 대한 백만당 시연 토큰 가격 대비 성능 분석을 위한 비용(예: Gemini-2.0 플래시 $0.15 대 GPT-4o $2.5)을 비교합니다.
필터링 및 보기 도구:: 공급업체, 오픈 소스/비공개 상태, 점수 등을 기준으로 모델을 필터링하여 필요한 정보를 빠르게 찾을 수 있도록 지원합니다.
데이터 집합에 대한 오픈 소스 액세스:: 개발자가 연구하고 검증할 수 있도록 테스트 데이터 세트의 다운로드 링크를 제공합니다.
동적 업데이트 메커니즘:: 최신 모델 출시 및 성능 데이터를 동기화하기 위해 매월 리더보드가 업데이트됩니다.

도움말 사용

액세스 및 사용 방법

상담원 순위표는 설치가 필요 없는 온라인 도구로, 사용자가 브라우저를 열고 다음을 방문하기만 하면 됩니다. https://huggingface.co/spaces/galileo-ai/agent-leaderboard 사용할 준비가 되었습니다. 페이지가 로드되면 등록이나 로그인 없이도 공개적으로 사용 가능한 모든 데이터를 탐색할 수 있는 직관적인 리더보드 표가 표시됩니다. 데이터 집합을 다운로드하거나 제안을 하는 등 보다 심도 있는 참여를 원하시면 Hugging Face 계정에 가입하실 수 있습니다.

워크플로

차트 찾아보기
- 페이지를 열면 첫 페이지에는 기본적으로 현재 상위 17개 LLM 모델이 표시됩니다.
- 테이블 열에는 순위, 모델, 공급업체, 점수, 비용 및 유형(오픈 소스/비공개)이 포함됩니다. 점수", "비용" 및 "유형(오픈 소스/비공개)"입니다.
- 예: 0.9점 이상, $0.15/백만 토큰의 비용으로 1위를 차지한 Gemini-2.0 플래시입니다.
심사 및 비교 모델
- 표 상단의 필터 상자를 클릭하여 '공급업체'(예: Google, OpenAI), '유형'(오픈 소스 또는 비공개) 또는 '점수 범위'를 선택합니다.
- 예를 들어 "OpenAI"를 입력하면 페이지에서 GPT-4o, o1 등과 같은 모델을 필터링하여 성능을 쉽게 비교할 수 있습니다.
- 비용 효율성을 확인하려면 '비용' 열을 기준으로 정렬하여 가장 저렴한 옵션을 찾습니다.
자세한 평가 데이터 보기
- 모델 이름(예: Gemini-1.5-Pro)을 클릭하면 특정 성능 보고서가 나타납니다.
- 이 보고서에는 다양한 데이터 세트에 대한 모델의 성능(예: τ-bench의 소매 시나리오 점수, ToolACE의 API 상호 작용 점수 등)이 포함되어 있습니다.
- 데이터는 그래픽 형식으로 표시되어 다중 도구 작업이나 긴 컨텍스트 시나리오에서 모델의 강점과 약점을 시각화할 수 있습니다.
오픈 소스 데이터 세트 다운로드
- 페이지 하단에 "데이터 세트" 링크가 있으며, 이를 클릭하면 다음 페이지로 이동합니다. https://huggingface.co/datasets/galileo-ai/agent-leaderboard.
- 사용자는 로컬 분석 또는 2차 개발을 위해 전체 테스트 데이터 세트(예: BFCL용 수학 문제 은행, xLAM용 교차 도메인 데이터)를 다운로드할 수 있습니다.
- 다운로드하려면 허깅페이스 계정에 로그인해야 합니다. 계정이 없는 경우, 페이지 오른쪽 상단의 '가입하기'를 클릭하여 가입할 수 있습니다.
업데이트 받기
- 순위표는 매월 업데이트될 예정이며, 갈릴레오 AI의 공식 블로그(페이지 하단 링크)를 팔로우하면 최신 모델 추가에 대한 알림을 받을 수 있습니다.
- 예를 들어, 커뮤니티에서 최근 사용자가 가입을 요청하는 경우 Claude 3.7 소네트 및 Grok 3으로 설정하면 API를 사용할 수 있게 되면 공식 답글이 추가됩니다.

주요 기능

도구 선택 품질(TSQ) 점수의 해석
- TSQ는 툴 사용 시 모델의 정확도를 측정하는 상담원 리더보드의 핵심 평가 지표입니다.
- 작업 예: GPT-4o를 선택하면 TSQ 점수가 0.9로 표시되며, 여러 도구의 공동 작업에서는 잘 수행되지만 긴 컨텍스트 시나리오에서는 약간 약하다는 것을 보여주는 항목이 있습니다.
- 사용 팁: 프로젝트에 복잡한 워크플로우가 포함된 경우 TSQ가 0.85보다 높은 모델을 선택하세요.
멀티도메인 테스트 결과 분석
- '평가 세부 정보'를 클릭하면 14개 벤치마크 테스트에서 모델이 어떻게 수행되었는지 확인할 수 있습니다.
- 예: Gemini-2.0 Flash는 BFCL(수학 및 교육)에서 0.92점, ToolACE(API 상호 작용)에서 0.89점을 받았습니다.
- 사용 시나리오: 항공 데이터를 처리해야 하는 팀은 τ-벤치 결과를 참조하여 이 영역에 특화된 모델을 선택할 수 있습니다.
비용 최적화된 의사 결정
- 표의 '비용' 열에서 백만 토큰당 입력/출력 가격을 확인하세요.
- 예: "비용 < $1"을 필터링하면 예산이 제한된 프로젝트에 적합한 미스트랄-소액-2501($0.5/백만 토큰)이 결과로 표시됩니다.
- 팁: 점수와 비용을 결합하여 성과와 비용의 균형을 맞추세요.

주의

데이터 업데이트 시간현재 데이터는 2025년 2월 기준이며, 최신 순위를 확인하려면 정기적으로 방문하는 것이 좋습니다.
커뮤니티 피드백새로운 모델(예: Grok 3)이 필요한 경우 Hugging Face 페이지에 메시지를 남겨주시면 API 가용성에 따라 공식 답변이 제공됩니다.
기술 요구 사항웹 페이지의 네트워크 요구 사항은 낮지만 데이터 세트를 다운로드하려면 안정적인 연결이 필요하며 데스크톱 작업을 권장합니다.

이러한 단계를 통해 사용자는 고성능 모델을 찾거나 AI 에이전트의 기술적 세부 사항을 조사할 때 실질적인 지원을 제공하는 도구인 에이전트 리더보드를 빠르게 시작할 수 있습니다.