슈퍼클루 리뷰: DeepSeek-R1 타사 플랫폼 안정성 크로스오버, 올바른 플랫폼을 선택하면 성능이 치솟습니다!

48.9K 00

타사 플랫폼에서의 DeepSeek-R1 안정성 평가 보고서

인공지능 분야의 급속한 발전은 수많은 뛰어난 추론 모델을 탄생시켰고, 그중에서도 딥서치-R1은 뛰어난 성능과 복잡한 작업 처리 능력으로 업계에서 주목받기 시작했습니다. 그러나 사용자가 급증하고 외부 사이버 공격이 증가함에 따라 DeepSeek-R1의 안정성 문제가 점차 노출되고 있습니다. 이러한 문제를 해결하기 위해 여러 서드파티 플랫폼에서 자체 솔루션을 출시했습니다. DeepSeek-R1 모델 최적화 서비스를 통해 사용자에게 보다 안정적이고 효율적인 경험을 제공하기 위해 노력하고 있습니다.

사용자가 다양한 플랫폼의 서비스 품질을 충분히 이해하고 필요에 따라 정보에 입각한 선택을 할 수 있도록 돕기 위해, 저희는 DeepSeek-R1을 지원하는 여러 타사 플랫폼에 대한 설문조사를 실시했습니다.안정성 평가이번 평가는 12개의 대표적인 서드파티 플랫폼을 대상으로 진행되었습니다. 이번 평가에서는 12개의 대표적인 타사 플랫폼을 선정하고, 각 플랫폼에서 딥서치-R1 모델의 실제 성능을 검증하기 위해 20개의 초등학교 기출 추론 문제를 설계했습니다. 평가 차원은 응답률, 추론 시간 및 정확도와 같은 주요 지표를 포함합니다. 이 보고서는 출시 시점에서 각 플랫폼의 안정성 수준을 반영하여 웹 기반 플랫폼에 대한 첫 번째 평가 결과를 제시하는 것을 목표로 합니다. 향후에는 웹 기반, API, 앱, 로컬 배포 버전 등 다양한 플랫폼에 대해 보다 포괄적인 후속 평가를 지속적으로 실시할 예정입니다.

DeepSeek-R1 안정성 평가 경험 요약

평가 포인트 1: 타사 플랫폼인 DeepSeek-R1의 완전 응답률에 상당한 차이가 있습니다.

평가 결과, 바이트 볼케이노 엔진(100%), 티안공 AI(95%), 비밀탑 AI 검색, 의문 없는 코어 돔, 샹탕 빅 디바이스(모두 90%)가 완전 응답률 측면에서 뛰어난 성능을 보여 우수한 안정성을 입증했습니다. 반면, 바이두 인텔리전트 클라우드, 텐센트 클라우드 TI 플랫폼, 실리콘 모빌리티는 모두 50% 미만의 완전 응답률을 기록해 안정성이 개선될 수 있음을 시사했습니다. 이 결과는 사용자 선택 과정에서 플랫폼 안정성의 중요성을 강조합니다.

평가 포인트 2: 플랫폼 간 DeepSeek-R1 모델의 추론 시간에는 상당한 차이가 있으며, 가장 긴 플랫폼과 가장 짧은 플랫폼의 차이는 거의 3배에 달합니다.

추론 시간 측면에서는 POE 플랫폼이 문제당 평균 130초로 가장 우수한 성능을 보였습니다. BT 빅 디바이스와 나노 AI 검색이 각각 155초와 163초의 문제당 평균 시간을 기록하며 그 뒤를 이었습니다. 바이트 볼케이노 엔진은 문제당 평균 시간이 392초로 가장 오래 걸렸습니다.

평가 포인트 3: DeepSeek-R1 모델의 전반적인 정확도는 모든 플랫폼에서 높았으며, 이는 모델 자체의 강력하고 신뢰할 수 있는 성능을 반영합니다.

평가 데이터에 따르면 완전 응답률이 50%보다 낮은 플랫폼을 제외하고 나머지 9 개 플랫폼의 평균 정확도는 85.76%에 달하고 최고 정확도는 100%에 달하며 최저 정확도도 78%에 머무르는 등 DeepSeek-R1 모델 자체가 우수한 성능과 신뢰성을 가지고 있으며 모든 종류의 타사 애플리케이션에 안정적이고 높은 정확도를 지원할 수 있음을 충분히 입증합니다. 이는 DeepSeek-R1 모델 자체가 우수한 성능과 신뢰성을 갖추고 있으며 다양한 타사 애플리케이션을 안정적이고 높은 정확도로 지원할 수 있음을 충분히 증명합니다.

목록 개요

SuperCLUE评测：DeepSeek-R1 第三方平台稳定性横评，选对平台，性能飙升！

완전 응답률 + 절단률 + 무응답률 = 100%

전체 응답률이 모델은 잘림이나 무응답 등의 문제 없이 정답을 제공하지만 정답 여부는 고려하지 않습니다. 전체 정답 문항 수를 전체 문항 수로 나눈 값으로 계산됩니다.
잘림 비율모델이 응답 과정에서 중단이 발생하여 완전한 답변을 제공하지 못했습니다. 잘린 문제 수를 총 문제 수로 나눈 값으로 계산됩니다.
응답률 없음: 모델이 특별한 이유(예: 무응답/요청 오류)로 인해 답변을 제공하지 않은 경우입니다. 무응답 문항 수를 총 문항 수로 나눈 값으로 계산됩니다.
정확성: 모델에 대한 완전한 답이 있는 문제의 경우, 표준 답과 일치하는 답의 비율입니다. 최종 정답의 정확성만 평가하며, 풀이 과정은 평가하지 않습니다.
추론에 소요된 시간(초/질문): 완전한 모델 답변이 있는 질문에 대해 모델이 각 답변에 대해 추론하는 데 사용한 평균 시간입니다.

방법론

1. 각 타사 플랫폼에 대해 평가의 공정성과 비교 가능성을 보장하기 위해 20개의 초등학교 OU 문항을 사용한 표준화된 테스트를 실시했습니다.2. 추론 문제의 출력 내용이 일반적으로 길다는 점을 고려하여 최대 출력을 조정할 수 있도록 지원하기 위해 토큰 max_tokens를 사용하는 플랫폼의 경우 이 매개변수를 최대값으로 설정하고 나머지 매개변수는 플랫폼의 기본 설정으로 둡니다.3. 추론 시간 소요의 통계적 방법: 추론 타이밍 기능이 있는 플랫폼의 경우 플랫폼에서 제공하는 통계 결과를 사용하며, 이 기능이 없는 플랫폼의 경우 수동 타이밍을 사용합니다.

평가 결과

(1) 전체 응답률

평가 데이터에 따르면 바이트 볼케이노 엔진, 티안공 AI, 시크릿 타워 AI 검색, 의심할 여지 없는 코어 돔, 샹탕 빅 디바이스의 완전 응답률은 모두 90% 이상에 달했습니다. 이 중 바이트 볼케이노 엔진의 완전 응답률이 100%로 가장 높은 성능을 보였고, 바이두 인텔리전트 클라우드, 텐센트 클라우드 TI 플랫폼, 실리콘 모빌리티의 완전 응답률은 50% 미만으로 현저히 낮았습니다. 절단률 측면에서 텐센트 클라우드 TI 플랫폼이 95%로 가장 높았고, 테스트 중 무응답 또는 요청 오류가 발생한 경우는 실리콘 모빌리티가 75%의 무응답률로 가장 빈번하게 발생했습니다. 응답률은 75%에 달했습니다.

SuperCLUE评测：DeepSeek-R1 第三方平台稳定性横评，选对平台，性能飙升！

(2) 정확성

정확도의 통계적 범위는 모델이 정답을 맞힌 질문의 비율을 반영하여 모델이 완전한 답변을 제공하는 질문으로 제한됩니다. 평가 결과, 딥서치-R1 모델을 사용하는 9개 타사 플랫폼의 평균 정확도는 85.76%에 달해 딥서치-R1 모델 자체의 높은 품질과 신뢰성, 다양한 애플리케이션 시나리오를 안정적이고 정확하게 지원할 수 있는 능력을 다시 한 번 확인했습니다.

SuperCLUE评测：DeepSeek-R1 第三方平台稳定性横评，选对平台，性能飙升！

(3) 시간이 많이 걸리는 추론

질문당 평균 추론 시간으로 보면 POE 플랫폼이 130초로 가장 우수한 성능을 보였습니다. 샹탕 빅 디바이스와 나노 AI 검색의 추론 시간도 모두 200초 이내로 비교적 짧습니다. 질문 없음 보관소와 바이트 볼케이노 엔진의 추론 시간은 모두 350초를 초과하는 비교적 긴 편입니다. 다른 플랫폼은 250~300초가 소요됩니다.

SuperCLUE评测：DeepSeek-R1 第三方平台稳定性横评，选对平台，性能飙升！

예제

제목: 개구리가 오전 6시에 10미터 우물을 올라가는데, 2m를 올라갈 때마다 벽의 미끄러움 때문에 0.5미터씩 미끄러집니다. 0.5m를 미끄러지는 데 걸리는 시간은 우물 2m를 올라가는 데 걸리는 시간의 절반입니다. 오전 6시 12분에 개구리가 우물 입구에서 우물 바닥까지 올라가는 데 몇 분이 걸렸습니까?

표준 답변: 15.2분(즉, 15분 12초)

참조 답변(모델: Gemini-2.0-Flash-Exp):

원인 분석

1. 모델의 최대 출력 길이 제한은 응답 중단으로 이어지는 중요한 요인 중 하나입니다. 통계에 따르면 일부 플랫폼(예: 바이두 인텔리전트 클라우드, 텐센트 클라우드 TI 플랫폼 등)에서는 max_tokens 매개변수를 유연하게 조정할 수 없는 것으로 나타났습니다. 이로 인해 긴 응답을 생성할 때 모델이 잘리기 쉽습니다. 데이터에 따르면 max_tokens 파라미터를 설정할 수 없는 플랫폼의 평균 잘림률은 39%인 반면, 파라미터 설정이 가능한 플랫폼의 잘림률은 16.43%입니다. 특히 이번 평가에서는 초등학교 올림피아드 문제의 복잡성과 문제 풀이의 지루함으로 인해 모델이 생성해야 하는 콘텐츠의 길이가 크게 증가하여 토큰 제한 문제가 더욱 증폭된 것으로 나타났습니다. 출력 잘림 현상이 더욱 악화되었습니다.

2. 플랫폼 사용자 부하도 모델 서비스의 안정성에 영향을 미치는 잠재적 요인입니다.

플랫폼별 사용자 수 차이를 고려할 때, 사용자 수가 많은 플랫폼일수록 서버 과부하로 인한 불안정성 위험이 높을 수 있습니다. 플랫폼 서비스 안정성의 부족은 모델 생성 응답의 완성도와 추론 속도에 간접적으로 영향을 미칠 수 있습니다.

결론 및 권장 사항

1. DeepSeek-R1 모델을 배포하고 실행할 때 타사 플랫폼마다 안정성 성능에 상당한 차이가 있습니다. 사용자는 플랫폼을 선택할 때 다음 사항을 고려하는 것이 좋습니다.통합 평가 각 플랫폼의 기술 아키텍처, 리소스 스케줄링 기능, 사용자 부하 및각자의 요구 사항 통합(예: 응답률, 추론 시간 소비 및 기타 지표)를 고려하여 평가합니다. 더 높은 안정성을 원하는 사용자의 경우, 상대적으로 사용자가 적지만 리소스가 균형 있게 할당된 플랫폼을 우선순위로 지정하여 높은 동시성으로 인한 성능 변동 위험을 줄일 수 있습니다.

2. 평가 데이터에 따르면 바이트 볼케이노 엔진, 티안공 AI, 시크릿 타워 AI 검색, 질문 없는 코어 돔, 샹탕 빅 디바이스와 같은 플랫폼은 다음과 같습니다.90% 이상의 완전 응답률 달성결과는 이러한 플랫폼이 모델 출력의 무결성과 신뢰성을 보장하는 데 우수한 성능을 발휘한다는 것을 보여줍니다. 높은 응답률을 보장해야 하는 애플리케이션 시나리오의 경우 위의 플랫폼을 기술 지원의 우선순위에 두는 것이 좋습니다.

3. 존재시간 소모적인 추론측면.상탕의 POE 플랫폼 및 대형 설치물 지연 시간이 짧은 특성으로 인해 실시간 요구 사항이 높은 애플리케이션 시나리오에 더 적합하다는 분명한 이점을 보여줍니다. 사용자는 성능과 비용 간에 최적의 균형을 이루기 위해 플랫폼을 선택할 때 특정 비즈니스 요구 사항에 따라 추론 시간 소모의 민감도를 우선적으로 고려하는 것이 좋습니다.

각 플랫폼에 대한 DeepSeek-R1 체험 사이트를 첨부합니다:

바이트 볼케이노 엔진:https://console.volcengine.com/ark/region:ark+cn-beijing/experience/chat

실리콘 기반 흐름: https://cloud.siliconflow.cn/playground/chat/17885302724
바이두 스마트 클라우드: https://console.bce.baidu.com/qianfan/ais/console/onlineTest/LLM/DeepSeek-R1
시크릿 타워 AI 검색: https://metaso.cn/
질문이 없는 코어 돔: https://cloud.infini-ai.com/genstudio/experience
PPIO Paio Cloud:https://ppinfra.com/llm

나노 AI 검색: https://bot.n.cn/chat?src=AIsearch
상탕의 훌륭한 장치입니다: https://console.sensecore.cn/aistudio/experience/conversation
스카이웍스 AI: https://www.tiangong.cn/
POE:https://poe.com/

텐센트 클라우드 TI 플랫폼: https://console.cloud.tencent.com/tione/v2/aimarket/detail/deepseek_series?regionId=1&detailTab=deep_seek_v1
사이버오암 오픈 플랫폼:https://training.xfyun.cn/experience/text2text?type=public&modelServiceId=2501631186799621