AI 인텔리전스 메모리 성능 논쟁: 의심의 여지가 있는 Zep Mem0 벤치마크

69.4K 00

최근 AI 지능형 신체 기억 분야에 대한 발표가 업계의 많은 관심을 불러일으켰습니다.Mem0 Company, 연구 보고서 발간는 자사 제품이 AI 스마트 바디 메모리 기술에서 업계 최고(SOTA) 수준을 달성하고 다음과 같은 특정 벤치마크에서 우수한 성능을 발휘한다고 주장합니다. Zep 그러나 이 주장은 Zep 팀에 의해 곧바로 반박되었습니다. 그러나 이 주장은 Zep 팀에 의해 곧바로 이의를 제기되었고, 제대로 구현되었을 때 자사 제품이 실제로 Mem0이 선택한 LoCoMo 벤치마크보다 약 241TP3 T 더 우수한 성능을 보였다고 지적했습니다. 이 큰 차이는 벤치마크의 공정성, 실험 설계의 엄격성, 최종 결론의 신뢰성에 대한 심층적인 조사를 촉발했습니다.

경쟁이 치열한 인공지능 분야에서 SOTA(State-of-the-Art) 지정을 받는다는 것은 모든 기업에게 큰 의미가 있습니다. 기술 리더십을 의미할 뿐만 아니라 투자, 인재, 시장의 관심을 끌 수 있습니다. 따라서 SOTA에 관한 모든 내용, 특히 벤치마킹을 통해 도출된 결론은 면밀히 검토해야 합니다.

Zep 주장: 올바른 구현으로 LoCoMo 테스트 결과가 뒤집힌 사례

이에 대한 답변에서 Zep 팀은 자사 제품의 모범 사례에 따라 LoCoMo 실험을 구성했을 때 그 결과가 Mem0 보고서와 매우 달랐다고 언급했습니다.

여기서 설명하는 'Zep(정답)'을 제외한 모든 점수는 Mem0 보고서의 점수입니다.

Zep가 발표한 평가에 따르면, 제품 J 점수는 다음과 같습니다. 84.61%약 68.41 TP3T의 Mem0 최적 구성(Mem0 그래프)과 비교했을 때 약 23.6% 의 상대적 성능 향상을 기록했습니다. 이는 Mem0 논문에서 보고된 Zep의 점수 65.99%와 대조를 이루며, 아래에서 설명하는 것처럼 구현 오류의 직접적인 결과일 가능성이 높다고 Zep은 제안합니다.

검색 지연 시간(p95 검색 지연 시간)** 측면에서, Zep은 자신의 시스템이 동시 검색을 위해 적절하게 구성된 경우 p95 검색 지연 시간은 다음과 같다고 말합니다. 0.632초. 이는 Mem0 보고서의 0.778초보다 낫고(Zep는 순차 검색 구현으로 인해 부풀려진 것으로 추정), Mem0의 그래프 검색 지연 시간(0.657초)보다 약간 빠른 속도입니다.

여기서 설명하는 'Zep(정답)'을 제외한 모든 점수는 Mem0 보고서의 점수입니다.

Mem0의 기본 구성(Mem0 Base)이 검색 지연 시간(0.200초)이 더 짧다는 점은 주목할 가치가 있습니다. 그러나 Mem0 Base는 그래프 데이터베이스의 관계형 기능이 없는 단순한 벡터 저장소/캐시를 사용하며, Mem0 변형 중 정확도 점수가 가장 낮기 때문에 완전히 동일한 비교라고 할 수는 없습니다. Zep의 효율적인 동시 검색은 보다 복잡한 메모리 구조를 필요로 하고 응답성을 원하는 프로덕션급 AI 인텔리전스에 강력한 성능을 보여주며, 지연 데이터는 전송을 위한 NAT 설정이 있는 AWS us-west-2 환경에서 측정되었다고 Zep는 설명합니다.

LoCoMo 벤치마킹의 한계로 인해 제기되는 의문점

Mem0이 LoCoMo를 연구 벤치마크로 선택하기로 한 결정은 Zep의 면밀한 검토를 통해 벤치마크의 설계 및 실행 수준에서 여러 가지 근본적인 결함을 발견했습니다. 포괄적이고 편견 없는 벤치마크를 설계하고 실행하는 것은 그 자체로 어려운 작업이며, 심도 있는 전문 지식과 충분한 리소스, 테스트 대상 시스템의 내부 메커니즘에 대한 철저한 이해가 필요합니다.

Zep 팀이 파악한 LoCoMo의 주요 문제는 다음과 같습니다:

불충분한 대화 길이와 복잡성LoCoMo의 평균 대화 길이는 16,000~26,000입니다. 토큰 사이. 이 길이가 길어 보일 수 있지만 최신 LLM의 경우 일반적으로 컨텍스트 창 기능 내에 있습니다. 이 정도 길이로는 장기 메모리 검색 기능에 큰 부담을 주지 못합니다. 강력한 증거로, Mem0의 자체 결과는 이 시스템이 단순한 "전체 컨텍스트 기준"(즉, 전체 대화가 LLM에 직접 공급되는 경우)보다도 성능이 좋지 않다는 것을 보여줍니다. 전체 컨텍스트 기준선의 J 점수는 약 731 TP3T인 반면 Mem0의 최고 점수는 약 681 TP3T입니다. 단순히 모든 텍스트를 제공하는 것이 전문 메모리 시스템보다 나은 결과를 가져온다면, 벤치마크는 실제 AI-지능 상호작용에서 메모리 용량의 엄격함을 적절히 조사하지 못한 것입니다.
중요한 메모리 기능을 테스트하지 못함이 벤치마크에는 테스트하도록 설계된 '지식 업데이트' 문제가 없습니다. 시간이 지남에 따라 정보가 변경될 때(예: 사용자가 직업을 변경할 때) 메모리를 업데이트하는 것은 AI 메모리의 중요한 기능입니다.
데이터 품질 문제데이터 집합 자체에 몇 가지 품질 결함이 있습니다:
- 사용 불가 범주카테고리 5는 표준화된 답변이 없어 사용할 수 없었기 때문에 Mem0과 Zep 모두 이 카테고리를 평가에서 제외했습니다.
- 멀티모달 오류이미지에 대한 질문 중 일부는 데이터 세트 생성 과정에서 BLIP 모델에 의해 생성된 이미지 설명에 필요한 정보가 나타나지 않았습니다.
- 스피커의 잘못된 어트리뷰션일부 질문은 행동이나 진술을 잘못된 화자에게 잘못 귀속시킵니다.
- 문제의 정의가 명확하지 않은 경우일부 질문은 모호하고 정답이 두 개 이상일 수 있습니다(예: 7월과 8월에 모두 캠핑을 갔을 수 있는 사람에게 언제 캠핑을 갔는지 묻는 질문).

이러한 오류와 불일치를 고려할 때, 인공지능의 메모리 성능을 측정하는 권위 있는 척도로서 LoCoMo의 신뢰성에 의문이 제기되고 있습니다. 안타깝게도 LoCoMo는 고립된 사례가 아닙니다. HotPotQA와 같은 다른 벤치마크는 LLM 학습 데이터(예: Wikipedia)를 사용하고, 질문을 지나치게 단순화하며, 사실 오류가 있다는 비판을 받아왔습니다. 이는 AI 분야에서 강력한 벤치마킹을 수행해야 하는 지속적인 과제를 강조합니다.

Mem0 Zep의 평가 방법론에 대한 비판

LoCoMo 벤치마크 자체를 둘러싼 논란 외에도, Zep에 따르면 Mem0 논문의 Zep 비교는 결함이 있는 구현을 기반으로 한 것이므로 Zep의 실제 기능을 정확하게 반영하지 못한다고 합니다:

잘못된 사용자 모델Mem0은 단일 사용자-도움말 상호작용을 위해 설계된 사용자 그래프 구조를 사용하지만 대화에 사용자 역할을 할당합니다.관련 당사자 모두참여자. 이렇게 하면 Zep의 내부 논리가 혼동되어 대화가 한 명의 사용자가 메시지 간에 지속적으로 신원을 전환하는 것으로 간주될 수 있습니다.
부적절한 타임스탬프 처리타임스탬프는 Zep 고유의 created_at 필드를 사용하는 대신 메시지 끝에 추가하여 전달됩니다. 이 비표준 접근 방식은 Zep의 타이밍 추론 기능을 방해합니다.
순차 검색과 병렬 검색검색 작업이 병렬이 아닌 순차적으로 실행되어 Mem0에서 보고한 것처럼 Zep의 검색 지연 시간이 인위적으로 부풀려집니다.

Zep은 이러한 구현 오류로 인해 Zep의 작동 방식이 근본적으로 잘못 해석되어 Mem0 논문에서 보고된 성능 저하가 불가피하게 발생했다고 주장합니다.

업계에서 더 나은 벤치마크를 요구하는 이유: Zep가 LongMemEval을 선호하는 이유

LoCoMo로 인한 논란은 보다 강력하고 관련성 있는 벤치마킹에 대한 업계의 필요성을 강화했으며, Zep 팀은 다음과 같은 벤치마크에 대한 선호를 표명했습니다. LongMemEval 이러한 평가 기준은 여러 가지 면에서 LoCoMo의 단점을 보완하기 때문입니다:

길이와 도전 과제에는 문맥의 한계를 실제로 테스트하는 상당히 긴 대화(평균 115,000개의 토큰)가 포함되어 있습니다.
시간 추론 및 상태 변경시간에 대한 이해와 정보 변화(지식 업데이트)에 대처하는 능력을 명시적으로 테스트합니다.
질량(물리학)고품질을 보장하기 위해 수작업으로 기획 및 디자인되었습니다.
기업 관련성실제 엔터프라이즈 애플리케이션의 복잡성과 요구 사항을 더 잘 나타냅니다.

Zep은 특히 다중 세션 합성 및 시간 추론과 같은 복잡한 작업에서 기준선 대비 정확도와 지연 시간 모두에서 상당한 개선을 달성하며 LongMemEval에서 강력한 성능을 입증한 것으로 알려졌습니다.

벤치마킹은 복잡한 작업이며, 경쟁사 제품을 평가하려면 공정하고 정확한 비교를 위해 훨씬 더 많은 노력과 전문 지식이 필요합니다. Zep가 제시한 자세한 반박 내용을 보면, Mem0이 주장하는 SOTA 성능은 결함이 있는 벤치마크(LoCoMo)와 경쟁사 시스템(Zep)의 잘못된 구현에 근거한 것으로 보입니다.

동일한 벤치마크에서 올바르게 평가했을 때, Zep는 정확도 측면에서 Mem0보다 훨씬 뛰어나며 특히 그래프 기반 구현을 비교할 때 검색 지연 시간 측면에서 높은 경쟁력을 보여줍니다. 이러한 차이는 신뢰할 수 있는 결론을 도출하기 위해 엄격한 실험 설계와 평가 대상 시스템에 대한 깊은 이해가 매우 중요하다는 점을 강조합니다.

앞으로 AI 분야는 더 우수하고 대표적인 벤치마킹이 절실히 필요합니다. 업계 관계자들은 AI 지능의 장기 기억 능력을 보다 의미 있게 나란히 비교하기 위해 Zep이 이미 결과를 발표한 LongMemEval과 같이 보다 도전적이고 관련성이 높은 벤치마크를 통해 제품을 평가하도록 Mem0 팀들을 독려하고 있습니다. 이는 개별 제품의 평판뿐만 아니라 업계 전반의 올바른 기술 발전 방향에 관한 것입니다.

참조:ZEP: 지능형 신체 기억을 위한 시간적 지식 그래프 아키텍처