'AI 검색' 평가 벤치마크의 첫 번째 목록이 공개되었습니다! 4O의 선두 마진이 적고 국내 대형 모델들이 총 5개 베이스, 11개 시나리오, 14개 모델로 눈부신 활약을 펼쳤습니다.

AI 뉴스9개월 전에 게시 됨 AI 공유 서클
2K 00

「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
이번에 발표된 중국 빅데이터 모델 'AI 검색'(SuperCLUE-AISearch) 벤치마크 평가는 검색과 결합된 빅데이터 모델의 능력을 심층적으로 평가한 것입니다. 이 평가는 빅 모델의 기본 기능에 초점을 맞출 뿐만 아니라 시나리오 적용에서의 성능도 조사합니다. 평가는 정보 검색, 최신 정보 획득 등 5가지 기본 기능과 뉴스, 생활 애플리케이션 등 11가지 시나리오 애플리케이션을 통해 다양한 기본 기능과 시나리오 애플리케이션 작업에서 검색을 결합한 모델의 성능을 종합적으로 테스트합니다. 평가 방식은 'AI 검색' 벤치마크 평가 방식 공개를 참조하세요. 이번에는 국내외 대표 대형 모델 14개의 AI 검색 성능을 평가했으며, 자세한 평가 보고서는 다음과 같습니다.

AI 검색 평가 요약

측정 지점 1인공지능 검색 순위 1위, 2위 키미 익스플로러, 불과 0.71점 차이 이번 평가에서 chatgpt-4o-latest는 73.41점을 기록하며 다른 참가 모델보다 우수한 성적을 거뒀습니다. 한편, 국내 대형 모델인 Kimi 익스플로러 에디션의 성능도 주목할 만한데, 시나리오 응용 프로그램의 쇼핑 및 문화 주제에서 우수한 성능을 발휘하여 뛰어난 AI 검색 기능을 보여줄 뿐만 아니라 다방면에서 뛰어난 종합 성능을 보여주었습니다.
측정 지점 2: 국내 빅모델의 전반적인 성능, 일부 해외 빅모델을 능가하는 매우 인상적 평가 결과, 시크릿 타워 AI 검색(연구 모드), 지혜 스펙트럼 맑은 음성 AI 검색, 콘치 AI 등 국내 빅모델은 전반적인 성능 면에서 해외 빅모델인 제미니-1.5-Pro-Search와 대등한 수준으로 인상적인 것으로 나타났습니다. 그 외에 360AI 검색(심층 답변), 웬샤오인, 통이첸치(심층 검색) 등 전체 성능의 중간에 있는 여러 국내 빅모델의 성능은 비슷하지 않고 근소한 차이를 보이고 있습니다.
측정 지점 3각 모델은 다양한 시나리오 애플리케이션에서 서로 다른 수준의 성능을 보여줍니다. AI 검색 평가에서도 다양한 시나리오 적용에 따른 각 빅모델의 성능에 중점을 두었습니다. 국내 그랜드 모델은 과학기술, 문화, 비즈니스, 엔터테인먼트 등의 시나리오에서 상대적으로 우수한 성능을 보이며 정보의 시의성을 파악하는 동시에 우수한 정보 검색 및 통합 능력을 보여주었습니다. 하지만 주식, 스포츠 등 시나리오 적용 분야에서는 국내 빅모델이 개선해야 할 여지가 남아있습니다.

 

목록 개요

「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型

SuperCLUE-AISearch 소개

SuperCLUE-AISearch는 중국 AI 검색 모델에 대한 종합적인 평가 세트로, 중국 도메인에서 AI 검색 모델의 기능을 평가하기 위한 참조를 제공하는 것을 목표로 합니다.
「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
기본 기능에는 도메인 간 관련성, 정보 검색, 의미 이해, 최신 정보 획득, 추론 등 AI 검색 작업에 필요한 5가지 기능이 포함됩니다.

시나리오 애플리케이션에는 날씨, 주식, 여행, 뉴스, 쇼핑, 스포츠, 엔터테인먼트, 교육, 여행, 비즈니스, 문화, 기술, 의료, 생활 등 AI 검색 작업에 공통적으로 사용되는 11가지 시나리오가 포함되어 있습니다.

방법론

SuperCLUE의 세분화된 평가 접근 방식을 참조하여 전용 측정 세트를 구성하고 각 차원을 세분화된 수준에서 평가하고 자세한 피드백을 제공할 수 있습니다.

1) 측정 세트 구성

중국어 프롬프트 구성 프로세스: 1. 기존 프롬프트 참조 ---> 2. 중국어 프롬프트 작성 ---> 3. 테스트 ---> 4. 중국어 프롬프트 수정 및 마무리; 각 차원에 대한 전용 평가 세트를 구축합니다.

2) 채점 방법

평가 프로세스는 모델과 데이터 세트의 상호 작용으로 시작되며, 제공된 질문에 따라 이해하고 답변해야 합니다.
평가 기준은 사고 과정, 문제 해결 과정, 성찰 및 조정의 차원을 다룹니다.
채점 규칙은 자동화된 정량적 채점과 전문가 검토를 결합하여 과학적이고 공정한 평가를 보장하면서 효율적으로 점수를 매깁니다.

3) 채점 기준

평가 과제에 대한 각 매크로 모델의 응답 품질을 평가하기 위해 두 가지 평가 기준을 사용하여 평가 세트의 주관적 질문과 객관적 질문을 각각 평가했습니다. 이 평가 기준은 AI 검색 과제에 대한 거대 모델의 성능을 충분히 반영하기 위해 평가에서 서로 다른 가중치를 부여했습니다.

 

주관식 문항의 배점 기준은 5점 만점으로 정보의 유용성, 분석 정확성, 표현의 명확성 차원으로 평가하며, 이 중 정보의 유용성은 60%, 분석 정확성은 20%, 표현의 명확성은 20%를 차지하며, 객관식 문항의 배점 기준은 5점 만점으로 정보의 정확성과 표현의 명확성 차원으로 평가하며, 이 중 정보의 정확성은 80%, 표현의 명확성은 20%를 차지하며, 주관식 문항의 배점은 정보의 정확성과 표현의 명확성은 5점 만점으로 배점합니다. 객관식 문항은 5점 만점으로 정보의 정확성과 표현의 명확성의 두 가지 차원으로 평가되며, 정보의 정확성은 80%, 표현의 명확성은 20%를 차지합니다. 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
평가 예시

프롬프트 단어 프롬프트: 선저우 19호 유인 우주선은 언제, 어디에서 발사되었으며 이 때 우주 비행사는 누구였나요?

답변: 10월 30일 새벽, 지우취안 위성 발사 센터에서 유인 우주선 선저우 19호의 발사가 완전히 성공했습니다. 선저우 19호 유인 우주선의 승무원은 차이 쉬제, 송 링동, 왕 하이즈 세 명의 우주비행사로 구성되었습니다.

모범 답안:
「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型

 

슈퍼모델(chatgpt-4o 최신) 심판:

이 답변은 다음과 같이 평가합니다:
AI 비서의 답변은 선저우 XIX 유인 우주선의 발사 시간과 위치, 우주 비행사 명단을 정확하게 제공했습니다. 하지만 미션의 주요 목표와 미션 내용에 대해서는 언급하지 않아 미션의 세부 사항을 알고자 하는 사용자의 요구를 완전히 충족시키지 못했습니다. 또한 우주 비행사의 개인 프로필에 대한 부분은 상세하긴 하지만 사용자의 관심 범위를 넘어선 것으로 보입니다. 따라서 미션 목표와 주요 임무에 대한 간략한 설명을 추가하여 사용자의 요구를 보다 충분히 충족시킬 수 있도록 개선할 것을 권고합니다.1. 정보 유용성(5점):
AI 어시스턴트는 선저우 16호의 발사 시간, 위치, 우주비행사 명단을 제공하여 이러한 기본 정보에 대한 사용자의 요구를 충족시켰습니다. 그러나 미션의 주요 목표와 미션 내용은 언급되지 않아 미션의 세부 사항을 알고자 하는 사용자의 요구를 완전히 충족시키지 못했습니다. 따라서 정보 유용성 점수는 4점이었습니다.
점수: 4/52. 분석의 정확성(5점):
AI 어시스턴트는 사용자의 질문에서 발사 시간, 위치, 우주비행사 목록과 같은 주요 정보를 정확하게 추출하고 상세한 개인 프로필을 제공했습니다. 그러나 임무 목표와 주요 임무 내용은 다루지 않아 사용자의 요구를 완전히 충족시키지 못했습니다. 따라서 분석 정확도 점수는 4점이었습니다.
점수: 4/53. 표현의 명확성(5점):
AI 어시스턴트의 답변은 이해하기 쉽게 잘 정리된 정보로 명확하게 구성되어 있습니다. 개인 프로필 섹션은 상세하게 설명되어 있어 사용자가 우주 비행사의 배경을 쉽게 이해할 수 있습니다. 따라서 표현의 명확성은 5점입니다.
점수: 5/5 종합 점수 = 4*0.6 + 4*0.2 + 5*0.2 = 4.2 위의 점수를 합산하여 AI 어시스턴트의 답변에 대한 종합 점수는 4.2입니다. (5점 만점)

 

참여 모델

이번 평가에는 국내외 빅모델의 인공지능 검색 능력 개발 수준을 종합적으로 측정하기 위해 해외 4개 모델과 국내 대표 모델 10개를 선정했습니다.

국내외 많은 대규모 모델이 일반적으로 일반 버전과 심층 탐색 버전 등 두 가지 이상의 버전을 제공하는 점을 고려하여, 이번 모델 선정 과정에서는 하나의 모델에 심층 검색 또는 분석 버전이 탑재된 경우 검색 기능이 가장 강력한 버전을 선정하는 통일된 기준을 채택하여 종합적으로 평가합니다. 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型

 

평가 결과

전체 목록「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
기본 기능 목록
「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
시나리오 적용 목록

「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
주관적 질문 목록
「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
객관적인 질문 목록「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型

 

모델 비교 예시

 

예 1 기본 기술 - 추론 및 분석 기술

프롬프트: "GPT-1 모델의 구조가 사용되는 이유는 무엇인가요? 트랜스포머 LSTM 대신?"

모델 응답 비교(5점 만점):
[키미 탐험가]: 4점 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
[chatgpt-4o 최신]: 3.9점 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
[스카이웍스 AI 검색(고급 모드)]: 3.4점 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型

 

예시 2 기본 역량 - 교차 연계성

프롬프트: "농업 분야에서 컴퓨터 비전 기술의 응용 분야에는 어떤 것이 있는지 알아보고 그 중 3가지를 선택하여 각각에 대해 간략하게 설명해 주세요."

모델 응답 비교(5점 만점):

[비밀의 탑 AI 검색(연구 모드)]: 4점 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
[웬 샤오얀]: 3.4점 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
[스타파이어 AI 검색]: 3점 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型

 

예제 3 시나리오 적용 - 주식

프롬프트: "최근 몇 년간 A주의 중요한 강세장과 관련 데이터(예: 시작 시간, 기간, 상승률, 최고점 및 최저점 등)에 대해 알려주세요." 모델 응답 비교(5점 만점): [Gemini-1.5-Pro-Search]: 3.2점 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
[스마트 스펙트럼 클리어 음성 AI 검색]: 3.3점 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
Bing 검색]: 2.6점 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
예제 4 장면 적용 - 수명

프롬프트: "올해 1월부터 10월까지 중국의 자동차 생산량과 판매량은 각각 몇 백만 대에 달했으며, 작년 같은 기간에 비해 몇 퍼센트 증가했습니까?"

모델 응답 비교(5점 만점):

[통이 천 개의 질문(심층 검색)]: 4.2점 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
[360AI 검색(심층 답변)]: 3.8점 「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型

 

인적 일관성 평가

대규모 모델에 대한 자동화된 평가의 과학적 타당성을 보장하기 위해 AI 검색 평가 작업에서 GPT-4o-0513의 인간 일관성을 평가했습니다.

구체적인 운영 방식은 다음과 같습니다. 5개의 모델을 선정하고, 각 모델에 대해 주관적, 객관적 문항의 각기 다른 차원에 대해 한 사람이 독립적으로 채점한 후 채점 기준에 따라 가중치를 부여하여 평균을 내는 방식입니다. 각 문항에 대한 사람 점수와 모델 점수의 차이를 계산한 후 합산 및 평균하여 문항별 평균 격차를 사람 일관성 평가의 평가 결과로 얻습니다.

최종 평균 결과는 다음과 같습니다: 평균 분산 결과(퍼센트): 5.1점

이 자동화된 평가의 신뢰성이 높기 때문입니다.

평가 분석 및 결론

1.AI 검색 종합 기능, 채팅글쓰기-4o 최신 기능으로 선두를 유지합니다.

평가 결과에서 알 수 있듯이 chatgpt-4o-latest(73.41점)는 전반적인 성능이 우수하며 SuperCLUE-AISearch 벤치마크에서 선두를 달리고 있습니다. 국내 최고 모델인 키미 익스플로러보다 0.71점밖에 높지 않습니다.
「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
2. 국산 대형 모델의 전반적인 성능은 매우 인상적이며 모델 간 차이가 비교적 적습니다.

평가 결과, 시크릿 타워 AI 검색(연구 모델), 지혜 스펙트럼 맑은 음성 AI 검색, 콘치 AI 등 국내 모델은 기본 기능 측면에서 상대적으로 우수한 성능을 보이며 해외 대형 모델인 제미니-1.5-Pro-Search를 따라잡을 수 있는 추진력을 갖췄습니다. 전반적으로 전체 결과의 중간에 있는 Conch AI, Wen Xiaoyin, Tongyi Qianqian(심층 검색) 등 몇몇 국내 모델의 성능은 모델 간 비교가 되지 않을 정도로 근소한 차이를 보이고 있습니다.
「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
3. 이 모델은 다양한 시나리오 애플리케이션에서 서로 다른 수준의 성능을 보여줍니다.

이번 AI 검색 테스트에서는 다양한 적용 시나리오에서 모델의 성능에 중점을 두었습니다. 국내 대형 모델은 과학 기술, 문화, 비즈니스, 엔터테인먼트 시나리오에서 좋은 성능을 보였으며 정보의 시의성을 정확하게 파악하면서 정보를 검색하고 통합하는 능력이 뛰어났습니다. 그러나 주식 및 스포츠 시나리오에서는 국내 대형 모델의 개선 여지가 여전히 분명합니다.

예를 들어, AI 검색 과정에서 모델은 사용자의 검색 요구를 정확하게 분해하고 정확한 시간에 민감한 정보로 올바른 관련 웹 페이지를 검색하고 마지막으로 정보를 통합하여 사용자에게 유용한 답변 결과 사본을 형성해야합니다. 현재 관찰 결과, 국내 빅 모델은 때때로 검색 요구를 정확하게 분석하지 못하고 정보를 통합하는 과정에서 관련없는 웹 콘텐츠를 참조하는 경우가있어 특정 시나리오에서 국내 빅 모델의 성능이 저하되는 경우가 있습니다.

© 저작권 정책
AiPPT

관련 게시물

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...