SuperCLUE Review : DeepSeek-R1 Plate-forme tierce de stabilité Crossover, choisissez la bonne plate-forme, les performances s'envolent !

Rapport d'évaluation de la stabilité de DeepSeek-R1 sur des plateformes tierces

Le développement rapide du domaine de l'intelligence artificielle a donné naissance à un certain nombre de modèles d'inférence exceptionnels. DeepSeek-R1 est rapidement devenu le centre d'intérêt de l'industrie en raison de ses performances exceptionnelles et de sa capacité à gérer des tâches complexes. Cependant, avec la prolifération des utilisateurs et l'augmentation des cyber-attaques externes, le problème de stabilité de DeepSeek-R1 a été progressivement mis en évidence. Pour relever ce défi, plusieurs plateformes tierces ont lancé leurs propres solutions pour le système DeepSeek-R1. Profondeur de l'eau-R1 Services d'optimisation des modèles, et s'efforcer de fournir aux utilisateurs une expérience plus stable et plus efficace.

Afin d'aider les utilisateurs à bien comprendre la qualité du service des différentes plateformes et à faire un choix éclairé en fonction de leurs besoins, l'organisation a mené une enquête sur un certain nombre de plateformes tierces qui prennent en charge DeepSeek-R1.Évaluation de la stabilitéCette évaluation a été réalisée sur 12 plateformes tierces représentatives. Dans cette évaluation, 12 plateformes tierces représentatives ont été sélectionnées, et 20 questions originales de raisonnement oracle pour les écoles primaires ont été conçues pour examiner la performance réelle du modèle DeepSeek-R1 sur chaque plateforme. Les dimensions de l'évaluation couvrent des indicateurs clés tels que le taux de réponse, le temps de raisonnement et la précision. Ce rapport vise à présenter les premiers résultats d'évaluation des plates-formes basées sur le web, reflétant le niveau de stabilité de chaque plate-forme au moment de sa publication. À l'avenir, l'organisation continuera à assurer le suivi et à mener des évaluations plus complètes sur diverses plateformes, y compris les versions basées sur le web, les API, les APP et même les versions déployées localement.

 

Résumé de l'expérience de l'évaluation de la stabilité de DeepSeek-R1

Point d'évaluation 1 : Il y a une différence significative dans le taux de réponse complète de la plateforme tierce DeepSeek-R1.

Les résultats de l'évaluation montrent que Byte Volcano Engine (100%), Tiangong AI (95%), Secret Pagoda AI Search, Unquestioning Core Dome et Shangtang Big Device (tous 90%) ont des performances exceptionnelles en termes de taux de réponse complet, ce qui démontre une excellente stabilité. En revanche, Baidu Intelligent Cloud, Tencent Cloud TI Platform et Silicon Mobility ont tous des taux de réponse complète inférieurs à 50%, ce qui suggère que leur stabilité pourrait être améliorée. Cette constatation souligne l'importance de la stabilité des plateformes dans le processus de sélection des utilisateurs.

Point d'évaluation 2 : Il existe une différence significative dans le temps d'inférence du modèle DeepSeek-R1 entre les plates-formes, la différence entre les plates-formes les plus longues et les plus courtes étant presque trois fois plus importante.

En termes de temps d'inférence, la plateforme POE est la plus performante avec un temps moyen de 130 secondes par question. Shangtang Big Device et Nano AI Search suivent de près, avec un temps moyen par question de 155 secondes et 163 secondes, respectivement. Le moteur Byte Volcano a obtenu le temps moyen par question le plus long, atteignant 392 secondes.

Point d'évaluation 3 : La précision globale du modèle DeepSeek-R1 est élevée sur toutes les plateformes, ce qui reflète les performances solides et fiables du modèle lui-même.

Les données d'évaluation montrent qu'à l'exception des plateformes dont le taux de réponse complète est inférieur à 50%, le taux de précision moyen des neuf autres plateformes atteint 85,76%, le taux de précision le plus élevé atteignant même 100%, et le taux de précision le plus bas restant également à 78%, ce qui prouve pleinement que le modèle DeepSeek-R1 lui-même a d'excellentes performances et une grande fiabilité, et qu'il peut fournir un soutien stable et de haute précision pour toutes sortes d'applications tierces. Cela prouve que le modèle DeepSeek-R1 a d'excellentes performances et une grande fiabilité, et qu'il peut fournir un support stable et de haute précision pour diverses applications tierces.

 

Aperçu de la liste

SuperCLUE评测:DeepSeek-R1 第三方平台稳定性横评,选对平台,性能飙升!

Taux de réponse complète + taux de troncature + taux d'absence de réponse = 100%

  • Taux de réponse complèteLe modèle donne des réponses complètes sans problèmes tels que la troncature ou l'absence de réponse, mais ne tient pas compte du fait que la réponse est correcte ou non. Calculé comme le nombre de questions à réponse complète divisé par le nombre total de questions.
  • taux de troncatureLe modèle s'est interrompu dans le processus de réponse et n'a pas donné une réponse complète. Calculé comme le nombre de questions tronquées divisé par le nombre total de questions.
  • taux de non-réponseLes modèles ne donnent pas de réponse pour des raisons particulières (par exemple, pas de réponse/erreur de demande). Calculé comme le nombre de questions sans réponse divisé par le nombre total de questions.
  • précisionPour les questions avec des réponses complètes au modèle, la proportion de réponses qui sont en accord avec la réponse standard. Seule l'exactitude de la réponse finale est évaluée, le processus de résolution n'est pas examiné.
  • Temps de raisonnement consommé (secondes/question)Le temps moyen utilisé par le modèle pour raisonner sur chaque réponse pour les questions avec des réponses complètes du modèle.

 

Méthodologie

1. Pour chacune des plateformes tierces, un test standardisé utilisant 20 questions OU de l'école primaire a été réalisé afin de garantir l'équité et la comparabilité de l'évaluation.2. Étant donné que le contenu de sortie des questions de raisonnement est généralement long, pour aider à ajuster la sortie maximale, il est nécessaire d'utiliser le système de gestion de l'information. jeton Pour les plates-formes avec max_tokens, définissez ce paramètre à la valeur maximale et laissez les autres paramètres aux valeurs par défaut de la plate-forme.3. Méthode statistique de consommation du temps d'inférence : pour les plates-formes dotées d'une fonction de synchronisation de l'inférence, les résultats statistiques fournis par la plate-forme sont utilisés ; pour les plates-formes dépourvues de cette fonction, la synchronisation manuelle est utilisée.

SuperCLUE评测:DeepSeek-R1 第三方平台稳定性横评,选对平台,性能飙升!

 

Résultats de l'évaluation

(1) Taux de réponse complète

Les données d'évaluation montrent que le taux de réponse complet de Byte Volcano Engine, Tiangong AI, Secret Tower AI Search, Unquestionable Core Dome et Shangtang Big Device a atteint plus de 90%. Parmi eux, le moteur Byte Volcano est le plus performant, avec un taux de réponse complète de 100%. En revanche, le taux de réponse complète de Baidu Intelligent Cloud, Tencent Cloud TI platform et Silicon Mobility est nettement inférieur, avec un taux inférieur à 50%. En termes de taux de troncature, Tencent Cloud TI platform atteint 95%. Silicon Mobility présente les cas les plus fréquents de non-réponse ou d'erreur de demande pendant le test, avec un taux de non-réponse de 75%. Le taux de réponse a atteint 75%.

SuperCLUE评测:DeepSeek-R1 第三方平台稳定性横评,选对平台,性能飙升!
SuperCLUE评测:DeepSeek-R1 第三方平台稳定性横评,选对平台,性能飙升!

(2) Précision

La plage statistique du taux de précision est limitée aux questions pour lesquelles le modèle donne une réponse complète, reflétant la proportion de questions auxquelles le modèle répond correctement. Les résultats de l'évaluation montrent que le taux de précision moyen de neuf plateformes tierces utilisant le modèle DeepSeek-R1 atteint 85,76%, ce qui confirme la haute qualité et la fiabilité du modèle DeepSeek-R1 lui-même et sa capacité à fournir un soutien stable et précis pour divers scénarios d'application.

SuperCLUE评测:DeepSeek-R1 第三方平台稳定性横评,选对平台,性能飙升!
SuperCLUE评测:DeepSeek-R1 第三方平台稳定性横评,选对平台,性能飙升!

(3) Un raisonnement qui prend du temps

En termes de temps moyen d'inférence par question, la plateforme POE est la plus performante avec 130 secondes. Le temps de raisonnement de Shangtang Big Device et de Nano AI Search est également relativement court, puisqu'il ne dépasse pas 200 secondes dans les deux cas. Le temps de raisonnement de No Question Vault et de Byte Volcano Engine est relativement long, dépassant tous deux 350 secondes. Les autres plateformes ont un temps de raisonnement compris entre 250 et 300 secondes.

SuperCLUE评测:DeepSeek-R1 第三方平台稳定性横评,选对平台,性能飙升!
SuperCLUE评测:DeepSeek-R1 第三方平台稳定性横评,选对平台,性能飙升!

 

Exemples

Titre : Une grenouille grimpe dans un puits de 10 mètres à 6 heures du matin. Tous les 2 mètres qu'elle parcourt, elle glisse de 0,5 mètre à cause du glissement des parois. Le temps qu'elle met pour glisser de 0,5 mètre est la moitié du temps qu'elle met pour monter de 2 mètres dans le puits. La grenouille se trouve à 2,5 mètres de l'entrée du puits à 6 h 12. Combien de minutes a-t-elle mis pour monter du fond du puits jusqu'à l'entrée du puits ?

Réponse standard : 15,2 minutes (soit 15 minutes 12 secondes)

Réponse de référence (du modèle : Gemini-2.0-Flash-Exp) :

SuperCLUE评测:DeepSeek-R1 第三方平台稳定性横评,选对平台,性能飙升!

 

Analyse des causes

1. La limitation de la longueur maximale des sorties du modèle est l'un des facteurs importants conduisant à l'interruption des réponses. Les statistiques montrent que certaines plateformes ne permettent pas un ajustement flexible du paramètre max_tokens (par exemple, Baidu Intelligent Cloud, Tencent Cloud TI platform, etc.) ). Le modèle est donc plus susceptible d'être tronqué lorsqu'il génère des réponses plus longues. Les données montrent que le taux de troncation moyen des plateformes qui ne peuvent pas définir le paramètre max_tokens est de 39%, tandis que le taux de troncation des plateformes qui peuvent définir le paramètre est de 16,43%. Dans cette évaluation en particulier, la complexité des questions des Olympiades de l'enseignement primaire et le caractère fastidieux de la résolution des questions entraînent une augmentation significative de la longueur du contenu qui doit être généré par le modèle, et le problème de la limitation des tokens est encore amplifié. Cela a eu pour effet d'exacerber l'occurrence de la troncature de sortie.

SuperCLUE评测:DeepSeek-R1 第三方平台稳定性横评,选对平台,性能飙升!

2. La charge des utilisateurs de la plateforme est également un facteur potentiel qui affecte la stabilité des services modèles.

Compte tenu des différences entre les volumes d'utilisateurs des différentes plateformes, les plateformes ayant un plus grand nombre d'utilisateurs peuvent être confrontées à un risque plus élevé d'instabilité en raison de la surcharge des serveurs. Le manque de stabilité du service de la plateforme peut indirectement affecter l'exhaustivité et la vitesse d'inférence des réponses générées par le modèle.

 

Conclusions et recommandations

1. Il existe des différences significatives dans la stabilité des performances des différentes plateformes tierces lors du déploiement et de l'exécution du modèle DeepSeek-R1. Il est conseillé aux utilisateurs, lorsqu'ils choisissent une plateformeÉvaluation intégrée l'architecture technique, les capacités de programmation des ressources et la charge d'utilisateurs de chaque plate-forme, etIntégration de leurs propres besoins(par exemple, le taux de réponse, la consommation de temps de raisonnement et d'autres indicateurs). Les utilisateurs qui recherchent une plus grande stabilité peuvent donner la priorité aux plateformes qui comptent relativement moins d'utilisateurs, mais dont l'allocation des ressources est plus équilibrée, afin de réduire le risque de fluctuations des performances dues à une forte concurrence.

2. Les données d'évaluation montrent que des plateformes telles que Byte Volcano Engine, Tiangong AI, Secret Tower AI Search, No Questions Asked Core Dome, et Shangtang Big DeviceDes taux de réponse complète de 90% et plus ont été obtenusLes résultats montrent que ces plateformes garantissent bien l'intégrité et la fiabilité des résultats du modèle. Pour les scénarios d'application qui doivent garantir un taux de réponse élevé, il est recommandé de donner la priorité aux plateformes susmentionnées pour l'assistance technique.

3. existentun raisonnement qui prend du tempsAspects.Plateformes POE et grandes installations à Shangtang Ses caractéristiques de faible latence, qui présentent des avantages évidents, la rendent plus adaptée aux scénarios d'application exigeant des temps de réponse élevés. Il est conseillé aux utilisateurs de donner la priorité à la sensibilité de la consommation de temps d'inférence en fonction des exigences spécifiques de l'entreprise lors de la sélection d'une plateforme afin d'obtenir le meilleur équilibre entre les performances et le coût.

 

Vous trouverez ci-joint le site de l'expérience DeepSeek-R1 pour chaque plateforme :

Moteur volcanique Byte :https://console.volcengine.com/ark/region:ark+cn-beijing/experience/chat

Flux à base de silicium : https://cloud.siliconflow.cn/playground/chat/17885302724
Baidu Smart Cloud : https://console.bce.baidu.com/qianfan/ais/console/onlineTest/LLM/DeepSeek-R1
Recherche d'IA dans la tour secrète : https://metaso.cn/
Aucune question n'est posée sur le dôme central : https://cloud.infini-ai.com/genstudio/experience
PPIO Paio Cloud :https://ppinfra.com/llm

Recherche Nano AI : https://bot.n.cn/chat?src=AIsearch
Le grand dispositif de Shang Tang : https://console.sensecore.cn/aistudio/experience/conversation
Skyworks AI : https://www.tiangong.cn/
POE :https://poe.com/

Plate-forme Tencent Cloud TI : https://console.cloud.tencent.com/tione/v2/aimarket/detail/deepseek_series?regionId=1&detailTab=deep_seek_v1
Plate-forme ouverte de Cyberoam :https://training.xfyun.cn/experience/text2text?type=public&modelServiceId=2501631186799621

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...