Debate sobre el rendimiento de la memoria de la Inteligencia Artificial: los puntos de referencia Zep Mem0, en duda

AI 智能体记忆性能之争:Zep 指 Mem0 基准测试存疑

Un reciente anuncio en el campo de la memoria corporal inteligente AI ha despertado un gran interés en el sector.Mem0 Company publica informes de investigaciónque afirman que sus productos alcanzan niveles líderes en el sector (SOTA) en la tecnología AI Smart Body Memory y superan en pruebas de referencia específicas, entre ellas Zep Sin embargo, esta afirmación fue rápidamente rebatida por el equipo de Zep. Sin embargo, esta afirmación fue rápidamente rebatida por el equipo de Zep, que observó que, cuando se aplicaba correctamente, su producto superaba en realidad al punto de referencia LoCoMo seleccionado por Mem0 en aproximadamente 241TP3 T. Esta significativa diferencia suscitó una investigación más profunda sobre la imparcialidad del punto de referencia, el rigor del diseño experimental y la fiabilidad de las conclusiones finales.

En el ámbito altamente competitivo de la Inteligencia Artificial, obtener la designación SOTA (State-of-the-Art) significa mucho para cualquier empresa. No sólo significa liderazgo tecnológico, sino que también atrae la inversión, el talento y la atención del mercado. Por lo tanto, cualquier afirmación sobre SOTA, especialmente las conclusiones alcanzadas a través de la evaluación comparativa, debe ser objeto de escrutinio.

Zep afirma: los resultados de las pruebas LoCoMo se invierten con una aplicación correcta

En su respuesta, el equipo de Zep señaló que cuando el experimento LoCoMo se configuró de acuerdo con las mejores prácticas de su producto, los resultados fueron muy diferentes a los del informe Mem0.

AI 智能体记忆性能之争:Zep 指 Mem0 基准测试存疑

Todas las puntuaciones proceden de informes Mem0, excepto la de "Zep (Correcta)" que se comenta aquí.

Según la evaluación publicada por Zep, la puntuación J de sus productos alcanza 84.61%En comparación con la configuración óptima de Mem0 (Gráfico Mem0) de unos 68,41 TP3T, alcanza unos 23.6% de ganancias relativas de rendimiento. Esto contrasta con la puntuación de Zep de 65,99% comunicada en el documento Mem0, que Zep sugiere que probablemente sea el resultado directo de un error de implementación, como se verá más adelante.

En términos de **latencia de búsqueda (latencia de búsqueda p95)**, Zep señala que cuando su sistema está correctamente configurado para búsquedas concurrentes, la latencia de búsqueda p95 es de 0,632 segundos. Esto es mejor que los 0,778 segundos de Zep en el informe de Mem0 (que Zep especula que está inflado por su implementación de búsqueda secuencial), y ligeramente más rápido que la latencia de búsqueda de gráficos de Mem0 (0,657 segundos).

AI 智能体记忆性能之争:Zep 指 Mem0 基准测试存疑

Todas las puntuaciones proceden de informes Mem0, excepto la de "Zep (Correcta)" que se comenta aquí.

Cabe destacar que la configuración base de Mem0 (Mem0 Base) muestra una latencia de búsqueda más baja (0,200 segundos). Sin embargo, no es una comparación totalmente equivalente, ya que Mem0 Base utiliza un almacén/caché vectorial más simple que no tiene las capacidades relacionales de una base de datos gráfica, y también tiene la puntuación de precisión más baja de las variantes de Mem0. Las eficientes búsquedas concurrentes de Zep demuestran un gran rendimiento para las inteligencias de IA de nivel de producción que requieren estructuras de memoria más complejas y buscan capacidad de respuesta, y Zep explica que sus datos de latencia se midieron en un entorno AWS us-west-2 con una configuración NAT para la transmisión.

Las limitaciones de la evaluación comparativa de LoCoMo plantean dudas

La decisión de Mem0 de elegir LoCoMo como referencia para su investigación fue a su vez analizada por Zep, que identificó una serie de fallos fundamentales en la referencia tanto a nivel de diseño como de ejecución. Diseñar y ejecutar un benchmark completo e imparcial es una tarea difícil en sí misma, que requiere conocimientos profundos, recursos adecuados y un conocimiento profundo de los mecanismos internos del sistema sometido a prueba.

Entre los principales problemas de LoCoMo detectados por el equipo de Zep figuran los siguientes:

  1. Insuficiente duración y complejidad de los diálogos: La longitud media de un diálogo en LoCoMo oscila entre 16.000 y 26.000. Fichas Entre. Aunque esto pueda parecer largo, para los LLM modernos suele estar dentro de sus capacidades de ventana contextual. Esta longitud no ejerce realmente presión sobre las capacidades de recuperación de la memoria a largo plazo. Como prueba contundente, los propios resultados de Mem0 muestran que su sistema no funciona ni siquiera tan bien como una simple "línea de base de contexto completo" (es decir, donde todo el diálogo se introduce directamente en el LLM). La puntuación J para la línea de base de contexto completo es de unos 731 TP3T, mientras que la mejor puntuación de Mem0 es de unos 681 TP3T. Si simplemente proporcionando todo el texto se obtienen mejores resultados que con un sistema de memoria profesional, entonces la prueba de referencia no examina adecuadamente los rigores de la capacidad de memoria en las interacciones IA-inteligencia del mundo real.
  2. No se comprueban las funciones críticas de la memoriaEl benchmark carece del problema de "actualización de conocimientos" para el que está diseñado. La actualización de la memoria a medida que la información cambia con el tiempo (por ejemplo, cuando un usuario cambia de trabajo) es una característica crítica para la memoria de la IA.
  3. Problemas de calidad de los datosEl conjunto de datos adolece de varios defectos de calidad:
    • Categoría de indisponibilidadCategoría 5: no se pudo utilizar la categoría 5 debido a la falta de una respuesta normalizada, lo que obligó tanto a Mem0 como a Zep a excluir esta categoría de sus evaluaciones.
    • error multimodalAlgunas de las preguntas se referían a las imágenes, pero la información necesaria no aparecía en las descripciones de las imágenes generadas por el modelo BLIP durante el proceso de creación del conjunto de datos.
    • Atribución errónea de los oradoresAlgunas preguntas atribuyen incorrectamente comportamientos o afirmaciones al interlocutor equivocado.
    • Falta de claridad en la definición del problemaPreguntas ambiguas: algunas preguntas son ambiguas y pueden tener más de una respuesta potencialmente correcta (por ejemplo, preguntar a alguien cuándo va de acampada cuando esa persona puede haber ido tanto en julio como en agosto).

Dados estos errores e incoherencias, la fiabilidad de LoCoMo como medida autorizada del rendimiento de memoria de las inteligencias de IA es cuestionable. Por desgracia, LoCoMo no es un caso aislado. Otras evaluaciones comparativas, como HotPotQA, han sido criticadas por utilizar datos de entrenamiento LLM (por ejemplo, Wikipedia), simplificar en exceso las preguntas y cometer errores fácticos. Todo ello pone de manifiesto el reto que supone realizar evaluaciones comparativas sólidas en el ámbito de la IA.

Mem0 Crítica a la metodología de evaluación de Zep

Además de la controversia en torno a la propia referencia LoCoMo, la comparación de Zep en el documento Mem0 se basa, según Zep, en una implementación defectuosa y, por tanto, no refleja con exactitud las verdaderas capacidades de Zep:

  1. Modelo de usuario incorrectoMem0 utiliza una estructura de grafo de usuario diseñada para una única interacción usuario-ayudante, pero asigna roles de usuario a los cuadros de diálogo.ambas partes implicadasParticipantes. Es probable que esto confunda la lógica interna de Zep, haciendo que vea el diálogo como un único usuario que cambia constantemente de identidad entre los mensajes.
  2. Tratamiento inadecuado de las marcas de tiempoFechas: Las marcas de tiempo se pasan añadiéndolas al final del mensaje, en lugar de utilizar el campo created_at específico de Zep. Este enfoque no estándar interfiere con las capacidades de inferencia de tiempo de Zep.
  3. Búsqueda secuencial frente a búsqueda paralelaLa operación de búsqueda se ejecuta secuencialmente en lugar de en paralelo, lo que infla artificialmente la latencia de búsqueda de Zep según Mem0.

Zep argumenta que estos errores de implementación malinterpretaron fundamentalmente el modo en que Zep estaba diseñado para funcionar y condujeron inevitablemente a los malos resultados señalados en el documento Mem0.

El sector reclama mejores índices de referencia: por qué Zep se decanta por LongMemEval

La polémica suscitada por LoCoMo ha reforzado la necesidad del sector de contar con evaluaciones comparativas más sólidas y pertinentes, y el equipo de Zep ha expresado su preferencia por evaluaciones comparativas como el LongMemEval Tal criterio de evaluación, ya que compensa las deficiencias de LoCoMo de varias maneras:

  • Duración y desafíocontiene diálogos mucho más largos (115.000 fichas de media) que ponen a prueba los límites contextuales.
  • Razonamiento temporal y cambio de estadoComprueba explícitamente la comprensión del tiempo y la capacidad para hacer frente a los cambios de información (actualización de conocimientos).
  • masa (en física): Planeado y diseñado a mano con el objetivo de garantizar una alta calidad.
  • Relevancia empresarial: Más representativo de la complejidad y los requisitos de las aplicaciones empresariales del mundo real.
AI 智能体记忆性能之争:Zep 指 Mem0 基准测试存疑

Según los informes, Zep demostró un gran rendimiento en LongMemEval, logrando mejoras significativas tanto en precisión como en latencia en comparación con la línea de base, especialmente en tareas complejas como la síntesis multisesión y la inferencia temporal.

La evaluación comparativa es un ejercicio complejo, y evaluar los productos de la competencia requiere aún más diligencia y experiencia para garantizar que las comparaciones sean justas y precisas. De la detallada refutación presentada por Zep se desprende que el rendimiento SOTA alegado por Mem0 se basa en un punto de referencia erróneo (LoCoMo) y en una implementación defectuosa del sistema de un competidor (Zep).

Cuando se evalúa correctamente bajo el mismo punto de referencia, Zep supera significativamente a Mem0 en términos de precisión y muestra una alta competitividad en términos de latencia de búsqueda, especialmente cuando se comparan implementaciones basadas en grafos. Esta diferencia pone de manifiesto la importancia crítica de un diseño experimental riguroso y un conocimiento profundo del sistema evaluado para extraer conclusiones creíbles.

De cara al futuro, el campo de la IA necesita desesperadamente una evaluación comparativa mejor y más representativa. Los observadores del sector también animan a los equipos de Mem0 a evaluar sus productos con parámetros más exigentes y relevantes, como LongMemEval, donde Zep ya ha publicado sus resultados, para poder comparar mejor las capacidades de memoria a largo plazo de las inteligencias artificiales. No se trata sólo de la reputación de los productos individuales, sino de la dirección correcta del progreso tecnológico para la industria en su conjunto.

 

Referencia:ZEP: una arquitectura de grafos de conocimiento temporal para la memoria corporal inteligente

© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...