비타벤치 - MMT 롱캣 오픈소스 대화형 에이전트 리뷰 벤치마크

최신 AI 리소스22시간 전에 게시 됨 AI 공유 서클
1.9K 00
堆友AI

비타벤치란 무엇인가요?

비타벤치는 메이퇀의 롱캣 팀이 발표한 복잡한 생활 시나리오를 위한 최초의 대화형 에이전트 평가 벤치마크로, 실제 생활 시나리오에서 대규모 모델 인텔리전스의 종합적인 기능을 평가합니다. 테이크아웃 주문, 레스토랑 식사, 여행이라는 세 가지 빈도가 높은 생활 시나리오를 매개체로 삼아 도구 호출, 다중 소스 정보 처리, 사용자 상호 작용과 같은 복잡한 작업을 다루는 66개의 도구가 포함된 대화형 평가 환경을 구축했습니다. 최초로 추론 복잡성, 도구 복잡성, 상호작용 복잡성의 세 가지 차원을 체계적으로 정량화하고 관찰 공간의 크기, 도구 호출 링크의 길이, 사용자 초상화의 역학 등의 지표를 통해 실제 시나리오에 대처하는 인공지능의 능력을 정확하게 측정합니다.

VitaBench - 美团LongCat开源的交互式Agent评测基准

비타벤치의 특징

  • 고도로 시뮬레이션된 수명 주기 서비스 시나리오테이크아웃 주문, 레스토랑 식사, 여행이라는 세 가지 빈도가 높은 생활 시나리오는 복잡한 미션 환경을 구축하는 대표적인 캐리어입니다.
  • 풍부한 도구 호출지도 내비게이션, 음성 녹음, 결제 인터페이스 등 다양한 분야를 아우르는 66개의 도구가 포함되어 있어 완벽한 디지털 라이프 도구 체인을 형성합니다.
  • 다차원 복잡성의 정량화심층 추론, 도구 사용, 사용자 상호 작용이라는 세 가지 차원에서 지능적 신체 작업을 정량적으로 분해하여 복잡한 문제를 제어할 수 있습니다.
  • 실제 사용자 시뮬레이터실제 사용자 시뮬레이터를 도입하여 다양한 사용자 행동과 선호도를 시뮬레이션하여 인공지능이 다각적인 대화에서 다양한 사용자 행동에 적응할 수 있도록 합니다.
  • 세분화된 평가최근 연구를 바탕으로 작업 목표를 일련의 원자론적 평가 기준(루브릭)으로 세분화하고, 전체 대화 궤적을 겹치는 슬라이딩 창을 통해 스캔하여 엄격한 '전부 아니면 전무' 기준에 따라 작업 완료 여부를 판단합니다.
  • 시나리오 간 통합 작업 설계100개의 교차 장면 과제와 300개의 단일 장면 과제는 지능이 여러 장면 간에 실행을 전환하고 정보를 통합하는 능력을 테스트하기 위해 고안되었습니다.
  • 오픈 소스프로젝트 홈페이지, 논문 링크, 코드 저장소 및 데이터 세트가 완전히 오픈 소스화되어 있어 연구자와 개발자에게 풍부한 리소스를 제공합니다.

비타벤치의 핵심 이점

  • 실제 장면 시뮬레이션평가는 테이크아웃 주문, 레스토랑 식사, 여행 등 사용 빈도가 높은 생활 시나리오를 기반으로 하며, 고도로 시뮬레이션된 대화형 평가 환경을 구축하여 평가 결과가 실제 적용 요구 사항에 가깝도록 합니다.
  • 다차원 복잡성의 정량화복잡한 작업에서 지능의 전반적인 성능을 종합적으로 측정하기 위해 처음으로 작업 복잡성을 심층 추론, 도구 사용, 사용자 상호 작용이라는 세 가지 차원으로 정량화했습니다.
  • 실제 사용자 시뮬레이터다양한 사용자 행동과 선호도를 시뮬레이션하고 실제 상호작용에서 인텔리전스의 적응 능력을 향상시키기 위해 실제 데이터를 기반으로 구축된 사용자 시뮬레이터를 소개합니다.
  • 세분화된 평가 메커니즘원자론적 평가 기준(루브릭)과 슬라이딩 윈도우 평가기는 지능적 신체 행동에 대한 세분화된 전 과정 평가를 달성하고 평가의 정확성과 해석 가능성을 향상시키는 데 사용됩니다.
  • 교차 시나리오 미션 설계풍부한 교차 장면 합성 작업을 설계하여 다중 장면 전환 및 정보 통합에서 인텔리전스의 능력을 조사하고 기존 모델의 단점을 드러냅니다.

비타벤치 공식 웹사이트는 무엇인가요?

  • 프로젝트 웹사이트:: https://vitabench.github.io
  • 깃허브 리포지토리:: https://github.com/meituan-longcat/vitabench
  • arXiv 기술 논문:: https://arxiv.org/abs/2509.26490
  • 허깅페이스 데이터 세트:: https://huggingface.co/datasets/meituan-longcat/VitaBench

비타벤치의 대상

  • 인공 지능 연구원지능을 개발하고 최적화하는 연구자들은 VitaBench로 복잡한 작업에서 지능의 성능을 테스트하고 평가하여 지능형 신체 기술의 경계를 넓힐 수 있습니다.
  • 대규모 모델 개발자빅 언어 모델을 개발하고 개선하는 팀은 VitaBench를 사용하여 실제 시나리오에서 모델의 적용 능력을 평가하고 모델의 단점을 파악하고 해결합니다.
  • 애플리케이션 개발자스마트 바디 기반 애플리케이션 개발자는 실제 애플리케이션에서 스마트 바디의 성능을 테스트하고 애플리케이션의 사용자 경험을 향상하기 위해 VitaBench를 사용합니다.
  • 기업 기술팀기업 비즈니스에 스마트 바디 기술을 적용하는 데 주력하는 기업 기술 팀은 VitaBench를 사용하여 스마트 바디가 기업의 요구 사항을 충족하는지 평가하고 기업의 인텔리전트 혁신을 가속화할 수 있습니다.
  • 대학 및 연구 기관인공지능 및 머신러닝 관련 연구를 하는 대학 및 연구 기관에서 교육 및 연구, 전문가 양성을 위한 도구로 비타벤치를 사용하고 있습니다.
  • 기술 애호가인텔리전스 및 AI 기술에 관심이 있는 개인은 비타벤치를 사용하여 복잡한 작업에서 인텔리전스가 어떻게 수행되는지 배우고 탐구함으로써 기술적 지평을 넓힐 수 있습니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...