VitaBench - бенчмарки MMT LongCat Open Source Interactive Agent Review

Последние ресурсы по искусственному интеллектуОпубликовано 6 месяцев назад Круг обмена ИИ

32.1K 00

Что такое VitaBench?

VitaBench - это первый интерактивный эталон оценки агентов для сложных жизненных сценариев, выпущенный командой LongCat компании Meituan и оценивающий всесторонние возможности больших модельных интеллектов в реальных жизненных сценариях. Взяв в качестве носителя три часто встречающихся жизненных сценария: заказ еды на вынос, обед в ресторане и путешествие, мы создали интерактивную среду оценки, содержащую 66 инструментов, которые охватывают такие сложные задачи, как вызов инструментов, обработка информации из нескольких источников и взаимодействие с пользователем. Впервые мы систематически количественно оцениваем три измерения: сложность рассуждений, сложность инструментов и сложность взаимодействия, а также точно измеряем способность интеллекта справляться с реальными сценариями с помощью таких показателей, как размер пространства наблюдения, длина связи вызова инструмента и динамика портрета пользователя.

Особенности VitaBench

Сценарии эксплуатации с высокой степенью моделированияТри высокочастотных сценария жизни: заказ еды на вынос, обед в ресторане и путешествие - типичные носители для создания сложной среды миссии.
Богатый набор инструментов: Содержит 66 инструментов, охватывающих широкий спектр областей, таких как навигация по карте, транскрипция голоса, платежный интерфейс и т.д., образуя полную цепочку цифровых инструментов для жизни.
Количественная оценка многомерной сложности: Количественная разборка задач интеллектуального тела из трех измерений: глубокие рассуждения, использование инструментов и взаимодействие с пользователем, для достижения контролируемого построения сложных задач.
Симулятор реального пользователя: Представлен симулятор реального пользователя для моделирования различных моделей поведения и предпочтений пользователей, чтобы интеллект мог адаптироваться к различным моделям поведения пользователей в многораундовых диалогах.
Тонкая оценка: Опираясь на последние исследования, цель задачи разбивается на набор атомистических критериев оценки (Rubric), а полная траектория диалога сканируется через скользящее окно с перекрытием, оценивая выполнение задачи по строгому критерию "все или ничего".
Разработка комплексных заданий с учетом всех сценариев100 кросс-сценарных заданий и 300 односценарных заданий были разработаны для изучения способности интеллекта к переключению выполнения и интеграции информации между несколькими сценами.
открытый исходный кодДомашняя страница проекта, ссылки на статьи, репозиторий кода и наборы данных полностью открыты для доступа, что предоставляет множество ресурсов для исследователей и разработчиков.

Основные преимущества VitaBench

Моделирование реальной сценыОценка основана на часто встречающихся жизненных сценариях, таких как заказ еды на вынос, обеды в ресторанах, путешествия и т.д., и построена на основе высоко моделируемой интерактивной среды оценки, чтобы гарантировать, что результаты оценки близки к реальным требованиям приложения.
Количественная оценка многомерной сложности: Впервые сложность задачи количественно оценивается по трем параметрам, а именно: глубокие рассуждения, использование инструментов и взаимодействие с пользователем, для комплексного измерения общей эффективности интеллекта в сложных задачах.
Симулятор реального пользователя: Представляем симулятор пользователя, созданный на основе реальных данных для моделирования различных моделей поведения и предпочтений пользователей, а также для повышения адаптивных способностей интеллекта в реальном взаимодействии.
Механизмы тонкой оценки: Атомистический критерий оценки (Rubric) и оценщик со скользящим окном используются для достижения тонкой, целостной оценки процесса поведения интеллектуального тела и повышения точности и интерпретируемости оценки.
Разработка межсценарных миссий: Разработка насыщенных заданий на кросс-сценарный синтез для исследования способностей интеллекта к многосценарному переключению и интеграции информации, выявление недостатков существующих моделей.

Что такое официальный сайт VitaBench

Веб-сайт проекта:: https://vitabench.github.io
Репозиторий Github:: https://github.com/meituan-longcat/vitabench
Технический документ arXiv:: https://arxiv.org/abs/2509.26490
Набор данных HuggingFace:: https://huggingface.co/datasets/meituan-longcat/VitaBench

Для кого предназначена VitaBench

исследователь искусственного интеллекта: Исследователи, разрабатывающие и оптимизирующие интеллектуальные системы, могут расширить границы технологии интеллектуальных тел, тестируя и оценивая производительность интеллектуальных систем при выполнении сложных задач с помощью VitaBench.
Крупные разработчики моделей: Команда, разрабатывающая и совершенствующая Большую языковую модель, использует VitaBench для оценки способности модели применяться в реальных сценариях, а также для выявления и устранения недостатков модели.
разработчик приложенийРазработчики приложений на основе "умных тел" используют VitaBench для тестирования производительности "умных тел" в реальных условиях и улучшения пользовательского опыта своих приложений.
Корпоративная техническая команда: Технологические команды предприятий, озабоченные применением технологии "умного тела" в корпоративном бизнесе, используют VitaBench для оценки соответствия "умного тела" потребностям предприятия и ускорения интеллектуальной трансформации предприятия.
Университеты и исследовательские институты: Университеты и исследовательские институты, занимающиеся исследованиями в области искусственного интеллекта и машинного обучения, используют VitaBench в качестве инструмента для преподавания и исследований, а также для подготовки специалистов.
любитель технологий: Люди, интересующиеся интеллигенцией и технологиями искусственного интеллекта, могут расширить свой технический кругозор, используя VitaBench, чтобы узнать и изучить, как интеллигенция справляется со сложными задачами.

Последние ресурсы по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.