VitaBench - MMT LongCat Agente Interactivo de Código Abierto Revisión Benchmarks

堆友AI

¿Qué es VitaBench?

VitaBench es el primer punto de referencia interactivo de evaluación de agentes para escenarios vitales complejos lanzado por el equipo LongCat de Meituan, que evalúa las capacidades integrales de grandes modelos de inteligencia en escenarios vitales reales. Tomando como base tres escenarios vitales de alta frecuencia: pedidos para llevar, cenas en restaurantes y viajes, se construye un entorno de evaluación interactivo que contiene 66 herramientas y que abarca tareas complejas como la invocación de herramientas, el procesamiento de información de múltiples fuentes y la interacción con el usuario. Por primera vez, cuantificamos sistemáticamente las tres dimensiones de complejidad del razonamiento, complejidad de la herramienta y complejidad de la interacción, y medimos con precisión la capacidad de las inteligencias para enfrentarse a escenarios reales mediante indicadores como el tamaño del espacio de observación, la longitud del enlace de invocación de la herramienta y la dinámica del retrato del usuario.

VitaBench - 美团LongCat开源的交互式Agent评测基准

Características de VitaBench

  • Escenarios de vida útil altamente simuladosEl objetivo de este proyecto es crear un entorno de misión complejo a partir de tres escenarios vitales de alta frecuencia: pedir comida para llevar, cenar en un restaurante y viajar.
  • Llamadas ricas en herramientas: Contiene 66 herramientas que cubren una amplia gama de campos, como la navegación por mapas, la transcripción de voz, la interfaz de pago, etc., formando una completa cadena de herramientas para la vida digital.
  • Cuantificación de la complejidad multidimensional: Desmontaje cuantitativo de tareas corporales inteligentes desde tres dimensiones: razonamiento profundo, uso de herramientas e interacción con el usuario, para lograr la construcción controlada de problemas complejos.
  • Simulador de usuario realEl objetivo es simular los diferentes comportamientos y preferencias de los usuarios para que las inteligencias puedan adaptarse a los diversos comportamientos de los usuarios en diálogos de varias rondas.
  • Evaluación detalladaEl objetivo de la tarea se desglosa en un conjunto de criterios de evaluación atomísticos (rúbrica) y la trayectoria completa del diálogo se escanea a través de una ventana deslizante con solapamiento, juzgando la finalización de la tarea según un criterio estricto de "todo o nada".
  • Diseño de tareas integradas en varios escenariosSe diseñaron 100 tareas de escenas cruzadas y 300 tareas de una sola escena para examinar la capacidad de las inteligencias para cambiar la ejecución y la integración de la información entre varias escenas.
  • código abiertoLa página de inicio del proyecto, los enlaces a los artículos, el repositorio de código y los conjuntos de datos son de código abierto, lo que proporciona una gran cantidad de recursos para investigadores y desarrolladores.

Principales ventajas de VitaBench

  • Simulación de escenas realesLa evaluación se basa en un escenario vital de alta frecuencia, como pedir comida para llevar, cenar en restaurantes, viajar, etc., y construye un entorno de evaluación interactivo altamente simulado para garantizar que los resultados de la evaluación se aproximan a los requisitos de la aplicación real.
  • Cuantificación de la complejidad multidimensionalPor primera vez, la complejidad de las tareas se cuantifica en términos de tres dimensiones, a saber, el razonamiento profundo, el uso de herramientas y la interacción con el usuario, para medir de forma exhaustiva el rendimiento global de las inteligencias en tareas complejas.
  • Simulador de usuario realPresentación de un simulador de usuario construido a partir de datos reales para simular diversos comportamientos y preferencias de los usuarios y mejorar la capacidad de adaptación de las inteligencias en interacciones reales.
  • Mecanismos de evaluación detalladaEl criterio de evaluación atomística (Rúbrica) y el evaluador de ventana deslizante se utilizan para lograr una evaluación detallada de todo el proceso de los comportamientos corporales inteligentes y para mejorar la precisión y la interpretabilidad de la evaluación.
  • Diseño de misiones en distintos escenariosDiseño de ricas tareas de síntesis entre escenas para examinar la capacidad de las inteligencias en la conmutación entre múltiples escenas y la integración de la información, revelando las deficiencias de los modelos existentes.

Cuál es la web oficial de VitaBench

  • Página web del proyecto:: https://vitabench.github.io
  • Repositorio Github:: https://github.com/meituan-longcat/vitabench
  • Documento técnico arXiv:: https://arxiv.org/abs/2509.26490
  • Conjunto de datos HuggingFace:: https://huggingface.co/datasets/meituan-longcat/VitaBench

Para quién es VitaBench

  • investigador en inteligencia artificialLos investigadores que desarrollan y optimizan inteligencias pueden ampliar los límites de la tecnología de cuerpos inteligentes probando y evaluando el rendimiento de las inteligencias en tareas complejas con VitaBench.
  • Grandes desarrolladores de modelosEl equipo que desarrolla y mejora el modelo Big Language utiliza VitaBench para evaluar la capacidad del modelo de aplicarse en escenarios reales, así como para identificar y subsanar las deficiencias del modelo.
  • desarrollador de aplicacionesLos desarrolladores de aplicaciones basadas en cuerpos inteligentes utilizan VitaBench para probar el rendimiento de los cuerpos inteligentes en aplicaciones reales y mejorar la experiencia de usuario de sus aplicaciones.
  • Equipo técnico de la empresaLos equipos tecnológicos de las empresas que están preocupados por la aplicación de la tecnología del cuerpo inteligente en el negocio empresarial, utilizan VitaBench para evaluar si el cuerpo inteligente satisface las necesidades de la empresa y acelerar la transformación inteligente de la empresa.
  • Universidades e institutos de investigaciónVitaBench: Las universidades e institutos de investigación dedicados a la investigación relacionada con la inteligencia artificial y el aprendizaje automático utilizan VitaBench como herramienta para la enseñanza y la investigación, así como para la formación de profesionales.
  • entusiasta de la tecnologíaLos interesados en la inteligencia artificial y la tecnología de IA pueden ampliar sus horizontes técnicos utilizando VitaBench para conocer y explorar el rendimiento de la inteligencia artificial en tareas complejas.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...