VitaBench - бенчмарки MMT LongCat Open Source Interactive Agent Review

堆友AI

Что такое VitaBench?

VitaBench - это первый интерактивный эталон оценки агентов для сложных жизненных сценариев, выпущенный командой LongCat компании Meituan и оценивающий всесторонние возможности больших модельных интеллектов в реальных жизненных сценариях. Взяв в качестве носителя три часто встречающихся жизненных сценария: заказ еды на вынос, обед в ресторане и путешествие, мы создали интерактивную среду оценки, содержащую 66 инструментов, которые охватывают такие сложные задачи, как вызов инструментов, обработка информации из нескольких источников и взаимодействие с пользователем. Впервые мы систематически количественно оцениваем три измерения: сложность рассуждений, сложность инструментов и сложность взаимодействия, а также точно измеряем способность интеллекта справляться с реальными сценариями с помощью таких показателей, как размер пространства наблюдения, длина связи вызова инструмента и динамика портрета пользователя.

VitaBench - 美团LongCat开源的交互式Agent评测基准

Особенности VitaBench

  • Сценарии эксплуатации с высокой степенью моделированияТри высокочастотных сценария жизни: заказ еды на вынос, обед в ресторане и путешествие - типичные носители для создания сложной среды миссии.
  • Богатый набор инструментов: Содержит 66 инструментов, охватывающих широкий спектр областей, таких как навигация по карте, транскрипция голоса, платежный интерфейс и т.д., образуя полную цепочку цифровых инструментов для жизни.
  • Количественная оценка многомерной сложности: Количественная разборка задач интеллектуального тела из трех измерений: глубокие рассуждения, использование инструментов и взаимодействие с пользователем, для достижения контролируемого построения сложных задач.
  • Симулятор реального пользователя: Представлен симулятор реального пользователя для моделирования различных моделей поведения и предпочтений пользователей, чтобы интеллект мог адаптироваться к различным моделям поведения пользователей в многораундовых диалогах.
  • Тонкая оценка: Опираясь на последние исследования, цель задачи разбивается на набор атомистических критериев оценки (Rubric), а полная траектория диалога сканируется через скользящее окно с перекрытием, оценивая выполнение задачи по строгому критерию "все или ничего".
  • Разработка комплексных заданий с учетом всех сценариев100 кросс-сценарных заданий и 300 односценарных заданий были разработаны для изучения способности интеллекта к переключению выполнения и интеграции информации между несколькими сценами.
  • открытый исходный кодДомашняя страница проекта, ссылки на статьи, репозиторий кода и наборы данных полностью открыты для доступа, что предоставляет множество ресурсов для исследователей и разработчиков.

Основные преимущества VitaBench

  • Моделирование реальной сценыОценка основана на часто встречающихся жизненных сценариях, таких как заказ еды на вынос, обеды в ресторанах, путешествия и т.д., и построена на основе высоко моделируемой интерактивной среды оценки, чтобы гарантировать, что результаты оценки близки к реальным требованиям приложения.
  • Количественная оценка многомерной сложности: Впервые сложность задачи количественно оценивается по трем параметрам, а именно: глубокие рассуждения, использование инструментов и взаимодействие с пользователем, для комплексного измерения общей эффективности интеллекта в сложных задачах.
  • Симулятор реального пользователя: Представляем симулятор пользователя, созданный на основе реальных данных для моделирования различных моделей поведения и предпочтений пользователей, а также для повышения адаптивных способностей интеллекта в реальном взаимодействии.
  • Механизмы тонкой оценки: Атомистический критерий оценки (Rubric) и оценщик со скользящим окном используются для достижения тонкой, целостной оценки процесса поведения интеллектуального тела и повышения точности и интерпретируемости оценки.
  • Разработка межсценарных миссий: Разработка насыщенных заданий на кросс-сценарный синтез для исследования способностей интеллекта к многосценарному переключению и интеграции информации, выявление недостатков существующих моделей.

Что такое официальный сайт VitaBench

  • Веб-сайт проекта:: https://vitabench.github.io
  • Репозиторий Github:: https://github.com/meituan-longcat/vitabench
  • Технический документ arXiv:: https://arxiv.org/abs/2509.26490
  • Набор данных HuggingFace:: https://huggingface.co/datasets/meituan-longcat/VitaBench

Для кого предназначена VitaBench

  • исследователь искусственного интеллекта: Исследователи, разрабатывающие и оптимизирующие интеллектуальные системы, могут расширить границы технологии интеллектуальных тел, тестируя и оценивая производительность интеллектуальных систем при выполнении сложных задач с помощью VitaBench.
  • Крупные разработчики моделей: Команда, разрабатывающая и совершенствующая Большую языковую модель, использует VitaBench для оценки способности модели применяться в реальных сценариях, а также для выявления и устранения недостатков модели.
  • разработчик приложенийРазработчики приложений на основе "умных тел" используют VitaBench для тестирования производительности "умных тел" в реальных условиях и улучшения пользовательского опыта своих приложений.
  • Корпоративная техническая команда: Технологические команды предприятий, озабоченные применением технологии "умного тела" в корпоративном бизнесе, используют VitaBench для оценки соответствия "умного тела" потребностям предприятия и ускорения интеллектуальной трансформации предприятия.
  • Университеты и исследовательские институты: Университеты и исследовательские институты, занимающиеся исследованиями в области искусственного интеллекта и машинного обучения, используют VitaBench в качестве инструмента для преподавания и исследований, а также для подготовки специалистов.
  • любитель технологий: Люди, интересующиеся интеллигенцией и технологиями искусственного интеллекта, могут расширить свой технический кругозор, используя VitaBench, чтобы узнать и изучить, как интеллигенция справляется со сложными задачами.
© заявление об авторских правах

Похожие статьи

Outerspan:快速部署自动处理邮件的AI智能体

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...