Análisis de SuperCLUE: DeepSeek-R1 Plataforma de estabilidad de terceros Crossover, elige la plataforma adecuada, ¡el rendimiento se dispara!

Noticias AIPublicado hace 1 año Círculo de intercambio de inteligencia artificial

65.5K 00

Informe de evaluación de la estabilidad de DeepSeek-R1 en plataformas de terceros

El rápido desarrollo del campo de la inteligencia artificial ha dado lugar a una serie de modelos de inferencia sobresalientes. DeepSeek-R1 se ha convertido rápidamente en el centro de atención de la industria por su extraordinario rendimiento y su capacidad para gestionar tareas complejas. Sin embargo, con la proliferación de usuarios y el aumento de los ciberataques externos, el problema de estabilidad de DeepSeek-R1 ha ido quedando gradualmente al descubierto. Para hacer frente a este reto, varias plataformas de terceros han lanzado sus propias soluciones para el DeepSeek-R1 Servicios de optimización de modelos, y se esfuerzan por ofrecer a los usuarios una experiencia más estable y eficaz.

Para ayudar a los usuarios a comprender plenamente la calidad del servicio de las distintas plataformas y tomar una decisión informada en función de sus necesidades, la organización ha realizado una encuesta sobre varias plataformas de terceros compatibles con DeepSeek-R1.Evaluación de la estabilidadEn esta evaluación, se seleccionaron 12 plataformas representativas de terceros y se diseñaron 20 preguntas originales de razonamiento oracular de primaria para examinar el rendimiento real del modelo DeepSeek-R1. En esta evaluación, se seleccionaron 12 plataformas representativas de terceros y se diseñaron 20 preguntas originales de razonamiento oracular de primaria para examinar el rendimiento real del modelo DeepSeek-R1 en cada plataforma. Las dimensiones de la evaluación abarcan indicadores clave como la tasa de respuesta, el tiempo de razonamiento y la precisión. El objetivo de este informe es presentar los primeros resultados de evaluación de las plataformas web, que reflejan el nivel de estabilidad de cada plataforma en el momento de su lanzamiento. En el futuro, la organización continuará el seguimiento y realizará evaluaciones más exhaustivas de diversas plataformas, incluidas las basadas en web, API, APP e incluso versiones desplegadas localmente.

Resumen de la experiencia en la evaluación de la estabilidad de DeepSeek-R1

Punto de evaluación 1: Existe una diferencia significativa en las tasas de respuesta completa de las plataformas de terceros DeepSeek-R1.

Los resultados de la evaluación muestran que Byte Volcano Engine (100%), Tiangong AI (95%), Secret Pagoda AI Search, Unquestioning Core Dome y Shangtang Big Device (todos 90%) tienen un rendimiento sobresaliente en términos de tasa de respuesta completa, lo que demuestra una excelente estabilidad. Por el contrario, Baidu Intelligent Cloud, Tencent Cloud TI Platform y Silicon Mobility presentan tasas de respuesta completa inferiores a 50%, lo que sugiere que su estabilidad podría mejorarse. Este hallazgo subraya la importancia de la estabilidad de la plataforma en el proceso de selección de usuarios.

Punto de evaluación 2: Existe una diferencia significativa en el tiempo de inferencia del modelo DeepSeek-R1 entre las plataformas, siendo la diferencia entre la plataforma más larga y la más corta de casi tres veces.

En términos de tiempo de inferencia, la plataforma POE es la que mejores resultados obtiene, con un tiempo medio de 130 segundos por pregunta. Le siguen de cerca Shangtang Big Device y Nano AI Search, con un tiempo medio por pregunta de 155 segundos y 163 segundos, respectivamente. Byte Volcano Engine obtuvo el mayor tiempo medio por pregunta, alcanzando los 392 segundos.

Punto de evaluación 3: La precisión global del modelo DeepSeek-R1 es alta en todas las plataformas, lo que refleja el rendimiento sólido y fiable del propio modelo.

Los datos de la evaluación muestran que, excepto en el caso de las plataformas con una tasa de respuesta completa inferior a 50%, la tasa de precisión media de las otras nueve plataformas alcanza los 85,76%, la tasa de precisión más alta llega incluso a 100%, y la tasa de precisión más baja también se mantiene en 78%, lo que demuestra plenamente que el modelo DeepSeek-R1 en sí mismo tiene un rendimiento y una fiabilidad excelentes, y puede proporcionar un soporte estable y de alta precisión para todo tipo de aplicaciones de terceros. Esto demuestra plenamente que el propio modelo DeepSeek-R1 tiene un excelente rendimiento y fiabilidad, y puede proporcionar un soporte estable y de alta precisión para diversas aplicaciones de terceros.

Resumen de la lista

SuperCLUE评测：DeepSeek-R1 第三方平台稳定性横评，选对平台，性能飙升！

Tasa de respuesta completa + tasa de truncamiento + tasa de no respuesta = 100%

Tasa de respuesta completaEl porcentaje de respuestas completas: el modelo ofrece respuestas completas sin problemas como el truncamiento o la ausencia de respuesta, pero no tiene en cuenta si la respuesta es correcta o no. Se calcula como el número de preguntas con respuesta completa dividido por el número total de preguntas.
tasa de truncamientoEl modelo tuvo una interrupción en el proceso de respuesta y no pudo dar una respuesta completa. Calculado como el número de preguntas truncadas dividido por el número total de preguntas.
sin tasa de respuestaModelos que no responden por razones especiales (por ejemplo, error de no respuesta/solicitud). Calculado como el número de preguntas sin respuesta dividido por el número total de preguntas.
precisiónEn las preguntas con respuestas completas al modelo, la proporción de respuestas que coinciden con la respuesta estándar. Sólo se evalúa la corrección de la respuesta final, no se examina el proceso de solución.
Tiempo de razonamiento consumido (segundos/pregunta)Tiempo medio empleado por el modelo para razonar cada respuesta en las preguntas con respuestas completas del modelo.

Metodología

1. Para cada una de las plataformas de terceros, se realizó una prueba estandarizada con 20 preguntas OU de primaria para garantizar la imparcialidad y comparabilidad de la evaluación.2. Teniendo en cuenta que el contenido de salida de las preguntas de razonamiento suele ser largo, para apoyar el ajuste de la salida máxima ficha Para plataformas con max_tokens, establece este parámetro en el valor máximo y deja el resto de parámetros en la configuración por defecto de la plataforma.3. Métodos estadísticos para el consumo de tiempo de razonamiento: para las plataformas que disponen de su propia función de cronometraje del razonamiento, se utilizan los resultados estadísticos proporcionados por la plataforma; para las plataformas que no disponen de esta función, se utiliza el cronometraje manual.

Resultados de la evaluación

(1) Tasa de respuesta completa

Los datos de evaluación muestran que la tasa de respuesta completa de Byte Volcano Engine, Tiangong AI, Secret Tower AI Search, Unquestionable Core Dome y Shangtang Big Device supera los 90%. Entre ellos, el motor de volcán de bytes tiene el mejor rendimiento, con una tasa de respuesta completa de 100%. Por el contrario, la tasa de respuesta completa de Baidu Intelligent Cloud, la plataforma Tencent Cloud TI y Silicon Mobility es significativamente inferior, con una tasa de menos de 50%. En cuanto a la tasa de truncamiento, la plataforma Tencent Cloud TI alcanza los 95%. Silicon Mobility tiene los casos más frecuentes de falta de respuesta o error de solicitud durante la prueba, con una tasa de falta de respuesta de 75%. La tasa de respuesta alcanzó los 75%.

SuperCLUE评测：DeepSeek-R1 第三方平台稳定性横评，选对平台，性能飙升！

(2) Precisión

El rango estadístico de la tasa de precisión se limita a las preguntas para las que el modelo dio una respuesta completa, lo que refleja la proporción de preguntas que el modelo respondió correctamente. Los resultados de la evaluación muestran que la tasa de precisión media de nueve plataformas de terceros que utilizan el modelo DeepSeek-R1 alcanza el 85,76%, lo que confirma aún más la alta calidad y fiabilidad del propio modelo DeepSeek-R1 y su capacidad para proporcionar un soporte estable y preciso para diversos escenarios de aplicación.

SuperCLUE评测：DeepSeek-R1 第三方平台稳定性横评，选对平台，性能飙升！

(3) Razonamiento lento

En cuanto al tiempo medio de inferencia por pregunta, la plataforma POE obtiene los mejores resultados con 130 segundos. El tiempo de razonamiento de Shangtang Big Device y Nano AI Search también es relativamente corto, ambos dentro de los 200 segundos. El tiempo de razonamiento de No Question Vault y Byte Volcano Engine es relativamente largo, superando ambos los 350 segundos. Otras plataformas tardan entre 250 y 300 segundos.

SuperCLUE评测：DeepSeek-R1 第三方平台稳定性横评，选对平台，性能飙升！

Ejemplos

Título: Una rana sube por un pozo de 10 metros a las 6.00 h. Por cada 2 metros que sube, resbala 0,5 metros debido al deslizamiento de las paredes. El tiempo que tarda en resbalar 0,5 metros es la mitad del tiempo que tarda en subir 2 metros por el pozo. 2,5 metros desde la boca del pozo a las 6.12 a.m. ¿Cuántos minutos tardó la rana en subir desde el fondo del pozo hasta la boca del pozo?

Respuesta estándar: 15,2 minutos (es decir, 15 minutos 12 segundos)

Respuesta de referencia (del modelo: Gemini-2.0-Flash-Exp):

Análisis de las causas

1. La limitación de la longitud máxima de salida del modelo es uno de los factores importantes que provocan la interrupción de las respuestas. Las estadísticas muestran que algunas plataformas no proporcionan un ajuste flexible del parámetro max_tokens (por ejemplo, Baidu Intelligent Cloud, Tencent Cloud TI platform, etc.). Esto hace que el modelo sea más propenso al truncamiento cuando se generan respuestas más largas. Los datos muestran que la tasa media de truncamiento de las plataformas que no pueden establecer el parámetro max_tokens es de 39%, mientras que la tasa de truncamiento de las plataformas que sí pueden establecer el parámetro es de 16,43%. Especialmente en esta evaluación, la complejidad de las preguntas de la Olimpiada de primaria y lo tedioso de los pasos de resolución provocan un aumento significativo de la longitud del contenido que el modelo necesita generar, y el problema de la limitación de tokens se amplifica aún más. que agravó la aparición de truncamientos en la salida.

2. La carga de usuarios de la plataforma también es un factor potencial que afecta a la estabilidad de los servicios modelo.

Teniendo en cuenta las diferencias en el volumen de usuarios de las distintas plataformas, las plataformas con un mayor número de usuarios pueden enfrentarse a un mayor riesgo de inestabilidad debido a la sobrecarga de los servidores. La falta de estabilidad del servicio de la plataforma puede afectar indirectamente a la exhaustividad y la velocidad de inferencia de las respuestas generadas por el modelo.

Conclusiones y recomendaciones

1. Existen diferencias significativas en el rendimiento de la estabilidad de diferentes plataformas de terceros cuando se despliega y ejecuta el modelo DeepSeek-R1. Se aconseja a los usuarios que al elegir una plataformaEvaluación integrada La arquitectura técnica, las capacidades de programación de recursos y la carga de usuarios de cada plataforma, yIntegración de sus propias necesidades(por ejemplo, tasa de respuesta, consumo de tiempo de razonamiento y otros indicadores) que sopesar. Los usuarios que busquen una mayor estabilidad pueden dar prioridad a plataformas con relativamente menos usuarios pero con una asignación de recursos más equilibrada para reducir el riesgo de fluctuaciones de rendimiento debidas a una elevada concurrencia.

2. Los datos de la evaluación muestran que plataformas como Byte Volcano Engine, Tiangong AI, Secret Tower AI Search, No Questions Asked Core Dome y Shangtang Big DeviceSe alcanzaron tasas de respuesta completa de 90% y superioresSe sugiere que estas plataformas tengan un buen rendimiento a la hora de garantizar la integridad y fiabilidad de los resultados del modelo. Para los escenarios de aplicación que necesiten garantizar un alto índice de respuesta, se recomienda dar prioridad a las plataformas mencionadas para el soporte técnico.

3. existerazonamiento lentoAspectos.Plataformas POE y grandes instalaciones en Shangtang Demostrando ventajas evidentes, sus características de baja latencia la hacen más adecuada para escenarios de aplicación con elevados requisitos de tiempo real. Se aconseja a los usuarios que, a la hora de seleccionar una plataforma, den prioridad a la sensibilidad del consumo de tiempo de inferencia en función de los requisitos empresariales específicos, con el fin de lograr el mejor equilibrio entre rendimiento y coste.

Se adjunta el sitio de la experiencia DeepSeek-R1 para cada plataforma:

Byte Volcano Engine:https://console.volcengine.com/ark/region:ark+cn-beijing/experience/chat

Flujo a base de silicio: https://cloud.siliconflow.cn/playground/chat/17885302724
Nube inteligente de Baidu: https://console.bce.baidu.com/qianfan/ais/console/onlineTest/LLM/DeepSeek-R1
Torre secreta AI Search: https://metaso.cn/
Cúpula central sin preguntas: https://cloud.infini-ai.com/genstudio/experience
Nube de Paio PPIO:https://ppinfra.com/llm

Nano AI Search: https://bot.n.cn/chat?src=AIsearch
El gran dispositivo de Shang Tang: https://console.sensecore.cn/aistudio/experience/conversation
Skyworks AI: https://www.tiangong.cn/
POE:https://poe.com/

Plataforma TI en la nube de Tencent: https://console.cloud.tencent.com/tione/v2/aimarket/detail/deepseek_series?regionId=1&detailTab=deep_seek_v1
Plataforma abierta Cyberoam:https://training.xfyun.cn/experience/text2text?type=public&modelServiceId=2501631186799621

Noticias AI

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Xinference: fácil despliegue y servicio de modelos de IA distribuidos

Noticias AI # Herramienta de modelos de gran tamaño de código abierto desplegada localmente

hace 1 año

059.2K

Grok 3 基准测试数据“掺水”？ OpenAI 员工爆料 xAI 或虚报性能

¿Los datos de referencia de Grok 3 están "aguados"? Un empleado de OpenAI dice que xAI podría estar falseando el rendimiento

Noticias AI

hace 1 año

075.5K

Claude 3.5 现在可以用多种语言风格回答问题，甚至可以上传你的文字学习你的风格

Claude 3.5 ahora puede responder a preguntas en varios estilos lingüísticos, ¡e incluso cargar tu texto para aprender tu estilo!

Noticias AI

hace 1 año

045.2K

5 herramientas ChatGPT que pueden utilizarse directamente en casa (agosto de 2024)

Noticias AI

hace 2 años

050.4K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Análisis de SuperCLUE: DeepSeek-R1 Plataforma de estabilidad de terceros Crossover, elige la plataforma adecuada, ¡el rendimiento se dispara!

Resumen de la experiencia en la evaluación de la estabilidad de DeepSeek-R1

Resumen de la lista

Metodología

Resultados de la evaluación

Ejemplos

Análisis de las causas

Conclusiones y recomendaciones

Anthropic publica el informe AI Economic Index: cómo la IA está reconfigurando el mercado laboral

Bing: Cómo los motores de búsqueda impulsados por IA pueden aumentar el valor de los SEO basados en la intención

Artículos relacionados

Xinference: fácil despliegue y servicio de modelos de IA distribuidos

¿Los datos de referencia de Grok 3 están "aguados"? Un empleado de OpenAI dice que xAI podría estar falseando el rendimiento

Claude 3.5 ahora puede responder a preguntas en varios estilos lingüísticos, ¡e incluso cargar tu texto para aprender tu estilo!

5 herramientas ChatGPT que pueden utilizarse directamente en casa (agosto de 2024)

Sin comentarios

Últimas colecciones

Últimos artículos

Análisis de SuperCLUE: DeepSeek-R1 Plataforma de estabilidad de terceros Crossover, elige la plataforma adecuada, ¡el rendimiento se dispara!

Resumen de la experiencia en la evaluación de la estabilidad de DeepSeek-R1

Resumen de la lista

Metodología

Resultados de la evaluación

Ejemplos

Análisis de las causas

Conclusiones y recomendaciones

Anthropic publica el informe AI Economic Index: cómo la IA está reconfigurando el mercado laboral

Bing: Cómo los motores de búsqueda impulsados por IA pueden aumentar el valor de los SEO basados en la intención

Artículos relacionados

Xinference: fácil despliegue y servicio de modelos de IA distribuidos

¿Los datos de referencia de Grok 3 están "aguados"? Un empleado de OpenAI dice que xAI podría estar falseando el rendimiento

Claude 3.5 ahora puede responder a preguntas en varios estilos lingüísticos, ¡e incluso cargar tu texto para aprender tu estilo!

5 herramientas ChatGPT que pueden utilizarse directamente en casa (agosto de 2024)

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos