슈퍼클루 리뷰: DeepSeek-R1 타사 플랫폼 안정성 크로스오버, 올바른 플랫폼을 선택하면 성능이 치솟습니다!

AI 뉴스7개월 전에 게시 됨 AI 공유 서클
12.4K 00

타사 플랫폼에서의 DeepSeek-R1 안정성 평가 보고서

인공지능 분야의 급속한 발전은 수많은 뛰어난 추론 모델을 탄생시켰고, 그중에서도 딥서치-R1은 뛰어난 성능과 복잡한 작업 처리 능력으로 업계에서 주목받기 시작했습니다. 그러나 사용자가 급증하고 외부 사이버 공격이 증가함에 따라 DeepSeek-R1의 안정성 문제가 점차 노출되고 있습니다. 이러한 문제를 해결하기 위해 여러 서드파티 플랫폼에서 자체 솔루션을 출시했습니다. DeepSeek-R1 모델 최적화 서비스를 통해 사용자에게 보다 안정적이고 효율적인 경험을 제공하기 위해 노력하고 있습니다.

사용자가 다양한 플랫폼의 서비스 품질을 충분히 이해하고 필요에 따라 정보에 입각한 선택을 할 수 있도록 돕기 위해, 저희는 DeepSeek-R1을 지원하는 여러 타사 플랫폼에 대한 설문조사를 실시했습니다.안정성 평가이번 평가는 12개의 대표적인 서드파티 플랫폼을 대상으로 진행되었습니다. 이번 평가에서는 12개의 대표적인 타사 플랫폼을 선정하고, 각 플랫폼에서 딥서치-R1 모델의 실제 성능을 검증하기 위해 20개의 초등학교 기출 추론 문제를 설계했습니다. 평가 차원은 응답률, 추론 시간 및 정확도와 같은 주요 지표를 포함합니다. 이 보고서는 출시 시점에서 각 플랫폼의 안정성 수준을 반영하여 웹 기반 플랫폼에 대한 첫 번째 평가 결과를 제시하는 것을 목표로 합니다. 향후에는 웹 기반, API, 앱, 로컬 배포 버전 등 다양한 플랫폼에 대해 보다 포괄적인 후속 평가를 지속적으로 실시할 예정입니다.

 

DeepSeek-R1 안정성 평가 경험 요약

평가 포인트 1: 타사 플랫폼인 DeepSeek-R1의 완전 응답률에 상당한 차이가 있습니다.

평가 결과, 바이트 볼케이노 엔진(100%), 티안공 AI(95%), 비밀탑 AI 검색, 의문 없는 코어 돔, 샹탕 빅 디바이스(모두 90%)가 완전 응답률 측면에서 뛰어난 성능을 보여 우수한 안정성을 입증했습니다. 반면, 바이두 인텔리전트 클라우드, 텐센트 클라우드 TI 플랫폼, 실리콘 모빌리티는 모두 50% 미만의 완전 응답률을 기록해 안정성이 개선될 수 있음을 시사했습니다. 이 결과는 사용자 선택 과정에서 플랫폼 안정성의 중요성을 강조합니다.

평가 포인트 2: 플랫폼 간 DeepSeek-R1 모델의 추론 시간에는 상당한 차이가 있으며, 가장 긴 플랫폼과 가장 짧은 플랫폼의 차이는 거의 3배에 달합니다.

추론 시간 측면에서는 POE 플랫폼이 문제당 평균 130초로 가장 우수한 성능을 보였습니다. BT 빅 디바이스와 나노 AI 검색이 각각 155초와 163초의 문제당 평균 시간을 기록하며 그 뒤를 이었습니다. 바이트 볼케이노 엔진은 문제당 평균 시간이 392초로 가장 오래 걸렸습니다.

평가 포인트 3: DeepSeek-R1 모델의 전반적인 정확도는 모든 플랫폼에서 높았으며, 이는 모델 자체의 강력하고 신뢰할 수 있는 성능을 반영합니다.

평가 데이터에 따르면 완전 응답률이 50%보다 낮은 플랫폼을 제외하고 나머지 9 개 플랫폼의 평균 정확도는 85.76%에 달하고 최고 정확도는 100%에 달하며 최저 정확도도 78%에 머무르는 등 DeepSeek-R1 모델 자체가 우수한 성능과 신뢰성을 가지고 있으며 모든 종류의 타사 애플리케이션에 안정적이고 높은 정확도를 지원할 수 있음을 충분히 입증합니다. 이는 DeepSeek-R1 모델 자체가 우수한 성능과 신뢰성을 갖추고 있으며 다양한 타사 애플리케이션을 안정적이고 높은 정확도로 지원할 수 있음을 충분히 증명합니다.

 

목록 개요

SuperCLUE评测:DeepSeek-R1 第三方平台稳定性横评,选对平台,性能飙升!

완전 응답률 + 절단률 + 무응답률 = 100%

  • 전체 응답률이 모델은 잘림이나 무응답 등의 문제 없이 정답을 제공하지만 정답 여부는 고려하지 않습니다. 전체 정답 문항 수를 전체 문항 수로 나눈 값으로 계산됩니다.
  • 잘림 비율모델이 응답 과정에서 중단이 발생하여 완전한 답변을 제공하지 못했습니다. 잘린 문제 수를 총 문제 수로 나눈 값으로 계산됩니다.
  • 응답률 없음: 모델이 특별한 이유(예: 무응답/요청 오류)로 인해 답변을 제공하지 않은 경우입니다. 무응답 문항 수를 총 문항 수로 나눈 값으로 계산됩니다.
  • 정확성: 모델에 대한 완전한 답이 있는 문제의 경우, 표준 답과 일치하는 답의 비율입니다. 최종 정답의 정확성만 평가하며, 풀이 과정은 평가하지 않습니다.
  • 추론에 소요된 시간(초/질문): 완전한 모델 답변이 있는 질문에 대해 모델이 각 답변에 대해 추론하는 데 사용한 평균 시간입니다.

 

방법론

1. 각 타사 플랫폼에 대해 평가의 공정성과 비교 가능성을 보장하기 위해 20개의 초등학교 OU 문항을 사용한 표준화된 테스트를 실시했습니다.2. 추론 문제의 출력 내용이 일반적으로 길다는 점을 고려하여 최대 출력을 조정할 수 있도록 지원하기 위해 토큰 max_tokens를 사용하는 플랫폼의 경우 이 매개변수를 최대값으로 설정하고 나머지 매개변수는 플랫폼의 기본 설정으로 둡니다.3. 추론 시간 소요의 통계적 방법: 추론 타이밍 기능이 있는 플랫폼의 경우 플랫폼에서 제공하는 통계 결과를 사용하며, 이 기능이 없는 플랫폼의 경우 수동 타이밍을 사용합니다.

SuperCLUE评测:DeepSeek-R1 第三方平台稳定性横评,选对平台,性能飙升!

 

평가 결과

(1) 전체 응답률

평가 데이터에 따르면 바이트 볼케이노 엔진, 티안공 AI, 시크릿 타워 AI 검색, 의심할 여지 없는 코어 돔, 샹탕 빅 디바이스의 완전 응답률은 모두 90% 이상에 달했습니다. 이 중 바이트 볼케이노 엔진의 완전 응답률이 100%로 가장 높은 성능을 보였고, 바이두 인텔리전트 클라우드, 텐센트 클라우드 TI 플랫폼, 실리콘 모빌리티의 완전 응답률은 50% 미만으로 현저히 낮았습니다. 절단률 측면에서 텐센트 클라우드 TI 플랫폼이 95%로 가장 높았고, 테스트 중 무응답 또는 요청 오류가 발생한 경우는 실리콘 모빌리티가 75%의 무응답률로 가장 빈번하게 발생했습니다. 응답률은 75%에 달했습니다.

SuperCLUE评测:DeepSeek-R1 第三方平台稳定性横评,选对平台,性能飙升!
SuperCLUE评测:DeepSeek-R1 第三方平台稳定性横评,选对平台,性能飙升!

(2) 정확성

정확도의 통계적 범위는 모델이 정답을 맞힌 질문의 비율을 반영하여 모델이 완전한 답변을 제공하는 질문으로 제한됩니다. 평가 결과, 딥서치-R1 모델을 사용하는 9개 타사 플랫폼의 평균 정확도는 85.76%에 달해 딥서치-R1 모델 자체의 높은 품질과 신뢰성, 다양한 애플리케이션 시나리오를 안정적이고 정확하게 지원할 수 있는 능력을 다시 한 번 확인했습니다.

SuperCLUE评测:DeepSeek-R1 第三方平台稳定性横评,选对平台,性能飙升!
SuperCLUE评测:DeepSeek-R1 第三方平台稳定性横评,选对平台,性能飙升!

(3) 시간이 많이 걸리는 추론

질문당 평균 추론 시간으로 보면 POE 플랫폼이 130초로 가장 우수한 성능을 보였습니다. 샹탕 빅 디바이스와 나노 AI 검색의 추론 시간도 모두 200초 이내로 비교적 짧습니다. 질문 없음 보관소와 바이트 볼케이노 엔진의 추론 시간은 모두 350초를 초과하는 비교적 긴 편입니다. 다른 플랫폼은 250~300초가 소요됩니다.

SuperCLUE评测:DeepSeek-R1 第三方平台稳定性横评,选对平台,性能飙升!
SuperCLUE评测:DeepSeek-R1 第三方平台稳定性横评,选对平台,性能飙升!

 

예제

제목: 개구리가 오전 6시에 10미터 우물을 올라가는데, 2m를 올라갈 때마다 벽의 미끄러움 때문에 0.5미터씩 미끄러집니다. 0.5m를 미끄러지는 데 걸리는 시간은 우물 2m를 올라가는 데 걸리는 시간의 절반입니다. 오전 6시 12분에 개구리가 우물 입구에서 우물 바닥까지 올라가는 데 몇 분이 걸렸습니까?

표준 답변: 15.2분(즉, 15분 12초)

참조 답변(모델: Gemini-2.0-Flash-Exp):

SuperCLUE评测:DeepSeek-R1 第三方平台稳定性横评,选对平台,性能飙升!

 

원인 분석

1. 모델의 최대 출력 길이 제한은 응답 중단으로 이어지는 중요한 요인 중 하나입니다. 통계에 따르면 일부 플랫폼(예: 바이두 인텔리전트 클라우드, 텐센트 클라우드 TI 플랫폼 등)에서는 max_tokens 매개변수를 유연하게 조정할 수 없는 것으로 나타났습니다. 이로 인해 긴 응답을 생성할 때 모델이 잘리기 쉽습니다. 데이터에 따르면 max_tokens 파라미터를 설정할 수 없는 플랫폼의 평균 잘림률은 39%인 반면, 파라미터 설정이 가능한 플랫폼의 잘림률은 16.43%입니다. 특히 이번 평가에서는 초등학교 올림피아드 문제의 복잡성과 문제 풀이의 지루함으로 인해 모델이 생성해야 하는 콘텐츠의 길이가 크게 증가하여 토큰 제한 문제가 더욱 증폭된 것으로 나타났습니다. 출력 잘림 현상이 더욱 악화되었습니다.

SuperCLUE评测:DeepSeek-R1 第三方平台稳定性横评,选对平台,性能飙升!

2. 플랫폼 사용자 부하도 모델 서비스의 안정성에 영향을 미치는 잠재적 요인입니다.

플랫폼별 사용자 수 차이를 고려할 때, 사용자 수가 많은 플랫폼일수록 서버 과부하로 인한 불안정성 위험이 높을 수 있습니다. 플랫폼 서비스 안정성의 부족은 모델 생성 응답의 완성도와 추론 속도에 간접적으로 영향을 미칠 수 있습니다.

 

결론 및 권장 사항

1. DeepSeek-R1 모델을 배포하고 실행할 때 타사 플랫폼마다 안정성 성능에 상당한 차이가 있습니다. 사용자는 플랫폼을 선택할 때 다음 사항을 고려하는 것이 좋습니다.통합 평가 각 플랫폼의 기술 아키텍처, 리소스 스케줄링 기능, 사용자 부하 및각자의 요구 사항 통합(예: 응답률, 추론 시간 소비 및 기타 지표)를 고려하여 평가합니다. 더 높은 안정성을 원하는 사용자의 경우, 상대적으로 사용자가 적지만 리소스가 균형 있게 할당된 플랫폼을 우선순위로 지정하여 높은 동시성으로 인한 성능 변동 위험을 줄일 수 있습니다.

2. 평가 데이터에 따르면 바이트 볼케이노 엔진, 티안공 AI, 시크릿 타워 AI 검색, 질문 없는 코어 돔, 샹탕 빅 디바이스와 같은 플랫폼은 다음과 같습니다.90% 이상의 완전 응답률 달성결과는 이러한 플랫폼이 모델 출력의 무결성과 신뢰성을 보장하는 데 우수한 성능을 발휘한다는 것을 보여줍니다. 높은 응답률을 보장해야 하는 애플리케이션 시나리오의 경우 위의 플랫폼을 기술 지원의 우선순위에 두는 것이 좋습니다.

3. 존재시간 소모적인 추론측면.상탕의 POE 플랫폼 및 대형 설치물 지연 시간이 짧은 특성으로 인해 실시간 요구 사항이 높은 애플리케이션 시나리오에 더 적합하다는 분명한 이점을 보여줍니다. 사용자는 성능과 비용 간에 최적의 균형을 이루기 위해 플랫폼을 선택할 때 특정 비즈니스 요구 사항에 따라 추론 시간 소모의 민감도를 우선적으로 고려하는 것이 좋습니다.

 

각 플랫폼에 대한 DeepSeek-R1 체험 사이트를 첨부합니다:

바이트 볼케이노 엔진:https://console.volcengine.com/ark/region:ark+cn-beijing/experience/chat

실리콘 기반 흐름: https://cloud.siliconflow.cn/playground/chat/17885302724
바이두 스마트 클라우드: https://console.bce.baidu.com/qianfan/ais/console/onlineTest/LLM/DeepSeek-R1
시크릿 타워 AI 검색: https://metaso.cn/
질문이 없는 코어 돔: https://cloud.infini-ai.com/genstudio/experience
PPIO Paio Cloud:https://ppinfra.com/llm

나노 AI 검색: https://bot.n.cn/chat?src=AIsearch
상탕의 훌륭한 장치입니다: https://console.sensecore.cn/aistudio/experience/conversation
스카이웍스 AI: https://www.tiangong.cn/
POE:https://poe.com/

텐센트 클라우드 TI 플랫폼: https://console.cloud.tencent.com/tione/v2/aimarket/detail/deepseek_series?regionId=1&detailTab=deep_seek_v1
사이버오암 오픈 플랫폼:https://training.xfyun.cn/experience/text2text?type=public&modelServiceId=2501631186799621

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...