Обзор SuperCLUE: кроссовер DeepSeek-R1 с устойчивостью на сторонних платформах, выберите правильную платформу, и производительность взлетит до небес!
Отчет об оценке стабильности DeepSeek-R1 на сторонних платформах
Стремительное развитие сферы искусственного интеллекта привело к появлению целого ряда выдающихся моделей вывода. deepSeek-R1 быстро стал центром внимания в индустрии благодаря своей выдающейся производительности и способности справляться со сложными задачами. Однако с ростом числа пользователей и увеличением числа внешних кибератак постепенно выявилась проблема стабильности DeepSeek-R1. Чтобы решить эту проблему, несколько сторонних платформ выпустили собственные решения для DeepSeek-R1 Услуги по оптимизации моделей и стремление обеспечить пользователям более стабильную и эффективную работу.
Чтобы помочь пользователям получить полное представление о качестве услуг различных платформ и сделать осознанный выбор, исходя из своих потребностей, организация провела исследование ряда сторонних платформ, поддерживающих DeepSeek-R1.Оценка стабильностиВ этой оценке были выбраны 12 репрезентативных сторонних платформ и 20 оригинальных оракульных вопросов для начальной школы, чтобы изучить фактическую производительность модели DeepSeek-R1. В этой оценке было выбрано 12 репрезентативных сторонних платформ и разработано 20 оригинальных оракульных вопросов для начальной школы, чтобы изучить фактическую производительность модели DeepSeek-R1 на каждой платформе. Оценка охватывает такие ключевые показатели, как скорость ответа, время рассуждения и точность. Цель данного отчета - представить первые результаты оценки веб-платформ, отражающие уровень стабильности каждой из них на момент выпуска. В будущем организация продолжит отслеживать и проводить более комплексные оценки различных платформ, включая веб-платформы, API, APP и даже локально развернутые версии.
Краткий обзор опыта оценки устойчивости DeepSeek-R1
Точка оценки 1: Существует значительная разница в показателе полных ответов сторонней платформы DeepSeek-R1.
Результаты оценки показывают, что Byte Volcano Engine (100%), Tiangong AI (95%), Secret Pagoda AI Search, Unquestioning Core Dome и Shangtang Big Device (все 90%) имеют выдающиеся показатели по скорости полного ответа, демонстрируя отличную стабильность. В отличие от них, у Baidu Intelligent Cloud, Tencent Cloud TI Platform и Silicon Mobility показатели полного ответа были ниже 50%, что говорит о том, что их стабильность может быть улучшена. Этот вывод подчеркивает важность стабильности платформы в процессе выбора пользователя.
Точка оценки 2: Время вывода модели DeepSeek-R1 на разных платформах значительно отличается, причем разница между самой длинной и самой короткой платформами составляет почти три раза.
Что касается времени вывода, то платформа POE является лучшим показателем со средним временем ответа на вопрос 130 секунд. За ней следуют Shangtang Big Device и Nano AI Search со средним временем на вопрос 155 секунд и 163 секунды соответственно. Самое продолжительное среднее время на вопрос - 392 секунды - у Byte Volcano Engine.
Точка оценки 3: Общая точность модели DeepSeek-R1 высока на всех платформах, что отражает сильную и надежную работу самой модели.
Данные оценки показывают, что за исключением платформ с коэффициентом полного ответа ниже 50%, средний коэффициент точности остальных девяти платформ достигает 85,76%, самый высокий коэффициент точности даже достигает 100%, а самый низкий коэффициент точности также остается на уровне 78%, что полностью доказывает, что сама модель DeepSeek-R1 обладает отличной производительностью и надежностью, и может обеспечить стабильную и высокоточную поддержку для всех видов сторонних приложений. Это полностью доказывает, что модель DeepSeek-R1 обладает отличной производительностью и надежностью, а также может обеспечить стабильную и высокоточную поддержку различных сторонних приложений.
Обзор списка

Частота полных ответов + частота усечений + частота отсутствия ответов = 100%
- Доля полных ответов: Модель дает полные ответы без таких проблем, как усечение или отсутствие ответа, но не учитывает, является ли ответ правильным или нет. Она рассчитывается как количество вопросов с полными ответами, деленное на общее количество вопросов.
- коэффициент усечения: Модель прервала процесс ответа и не смогла дать полный ответ. Рассчитывается как количество усеченных вопросов, деленное на общее количество вопросов.
- нет ответа: Модели не дают ответов по особым причинам (например, нет ответа/ошибка запроса). Рассчитывается как количество вопросов без ответов, деленное на общее количество вопросов.
- точность: Для вопросов с полными ответами по модели - доля ответов, согласующихся со стандартным ответом. Оценивается только правильность окончательного ответа, процесс решения не рассматривается.
- Время, затраченное на рассуждения (секунд/вопрос): Среднее время, затраченное моделью на обоснование каждого ответа, для вопросов с полными ответами модели.
Методология
1. Для каждой из сторонних платформ был проведен стандартный тест с использованием 20 вопросов OU для начальной школы, чтобы обеспечить справедливость и сопоставимость оценки.2. Учитывая, что содержание вопросов для рассуждений обычно длинное, для поддержки настройки максимального вывода жетон Для платформ с max_tokens установите этот параметр на максимальное значение, а остальные параметры оставьте по умолчанию.3. Статистический метод определения времени вывода: для платформ с функцией определения времени вывода используются статистические результаты, предоставляемые платформой; для платформ без этой функции используется ручной расчет времени.

Результаты оценки
(1) Доля полных ответов
Данные оценки показывают, что полная скорость отклика Byte Volcano Engine, Tiangong AI, Secret Tower AI Search, Unquestionable Core Dome и Shangtang Big Device достигла более 90%. Среди них, движок "Байт Вулкан" имеет наилучшие показатели, со скоростью полного ответа 100%. Напротив, скорость полного ответа Baidu Intelligent Cloud, Tencent Cloud TI platform и Silicon Mobility значительно ниже, со скоростью менее 50%. С точки зрения скорости усечения, Tencent Cloud TI platform достигает 95%. Silicon Mobility имеет наиболее частые случаи неответа или ошибки запроса во время теста, со скоростью неответа 75%. Скорость отклика достигла 75%.
(2) Точность
Статистический диапазон коэффициента точности ограничивается вопросами, на которые модель дает полный ответ, отражая долю вопросов, на которые модель отвечает правильно. Результаты оценки показывают, что средний показатель точности девяти сторонних платформ, использующих модель DeepSeek-R1, достигает 85,76%, что еще раз подтверждает высокое качество и надежность самой модели DeepSeek-R1 и ее способность обеспечивать стабильную и точную поддержку различных сценариев применения.
(3) Рассуждения, требующие много времени
По среднему времени умозаключений на один вопрос платформа POE показывает наилучшие результаты - 130 секунд. Время умозаключений Shangtang Big Device и Nano AI Search также относительно невелико - оба в пределах 200 секунд. Время рассуждений No Question Vault и Byte Volcano Engine относительно велико - оба превышают 350 секунд. Остальные платформы занимают от 250 до 300 секунд.
Примеры
Название: Лягушка поднимается по 10-метровому колодцу в 6:00 утра. Через каждые 2 метра она проскальзывает 0,5 метра из-за скольжения стенок. Время, затраченное на проскальзывание 0,5 м, равно половине времени, затраченного на подъем на 2 м вверх по колодцу. 2,5 м от устья колодца в 6:12 утра. Сколько минут потребовалось лягушке, чтобы подняться со дна колодца до его устья?
Стандартный ответ: 15,2 минуты (т.е. 15 минут 12 секунд)
Эталонный ответ (от модели: Gemini-2.0-Flash-Exp):

Анализ причин
1. Ограничение максимальной длины вывода модели является одним из важных факторов, приводящих к прерыванию ответов. Статистика показывает, что некоторые платформы не обеспечивают гибкой настройки параметра max_tokens (например, Baidu Intelligent Cloud, Tencent Cloud TI platform и т. д.). Это делает модель более склонной к усечению при генерации длинных ответов. Данные показывают, что средний показатель усечения для платформ, которые не могут установить параметр max_tokens, составляет 39%, в то время как показатель усечения для платформ, которые могут установить этот параметр, составляет 16,43%. Особенно в этой оценке, сложность вопросов олимпиады для начальной школы и утомительность решения вопросов приводят к значительному увеличению длины контента, который должен быть сгенерирован моделью, и проблема ограничения токенов еще больше усиливается. Это усугубляет проблему усечения выходных данных.

2. Нагрузка на пользователей платформы также является потенциальным фактором, влияющим на стабильность работы сервисов модели.
Учитывая различия в количестве пользователей разных платформ, платформы с большим числом пользователей могут столкнуться с повышенным риском нестабильности из-за перегрузки серверов. Отсутствие стабильности сервиса платформы может косвенно повлиять на полноту и скорость вывода ответов, генерируемых моделью.
Выводы и рекомендации
1. Существуют значительные различия в стабильности работы различных сторонних платформ при развертывании и запуске модели DeepSeek-R1. Пользователям рекомендуется при выборе платформыКомплексная оценка Техническая архитектура, возможности планирования ресурсов и пользовательская нагрузка каждой платформы, а такжеИнтеграция собственных потребностей(например, скорость отклика, расход времени на рассуждения и другие показатели). Пользователи, стремящиеся к высокой стабильности, могут отдать предпочтение платформам с относительно меньшим количеством пользователей, но более сбалансированным распределением ресурсов, чтобы снизить риск колебаний производительности из-за высокого параллелизма.
2. Данные оценки показывают, что такие платформы, как Byte Volcano Engine, Tiangong AI, Secret Tower AI Search, No Questions Asked Core Dome и Shangtang Big DeviceБыли достигнуты показатели полного ответа 90% и вышеПредполагается, что эти платформы хорошо справляются с гарантией целостности и надежности выходных данных модели. Для сценариев применения, в которых необходимо обеспечить высокую скорость отклика, рекомендуется отдать предпочтение вышеуказанным платформам для технической поддержки.
3. существоватьтрудоемкие рассужденияАспекты.Платформы POE и большие установки в Шангтанге Благодаря очевидным преимуществам платформы, ее характеристики с низкой задержкой делают ее более подходящей для сценариев приложений с высокими требованиями к реальному времени. При выборе платформы пользователям рекомендуется учитывать чувствительность к временным затратам на вычисления в соответствии с конкретными бизнес-требованиями, чтобы достичь оптимального баланса между производительностью и стоимостью.
Во вложении - сайт опыта DeepSeek-R1 для каждой платформы:
Байтовый двигатель вулкана:https://console.volcengine.com/ark/region:ark+cn-beijing/experience/chat
Поток на основе кремния: https://cloud.siliconflow.cn/playground/chat/17885302724
Baidu Smart Cloud: https://console.bce.baidu.com/qianfan/ais/console/onlineTest/LLM/DeepSeek-R1
Секретная башня ИИ Поиск: https://metaso.cn/
Купол с сердечником без вопросов: https://cloud.infini-ai.com/genstudio/experience
PPIO Paio Cloud:https://ppinfra.com/llm
Нано ИИ Поиск: https://bot.n.cn/chat?src=AIsearch
Великое устройство Шан Тана: https://console.sensecore.cn/aistudio/experience/conversation
Skyworks AI: https://www.tiangong.cn/
POE:https://poe.com/
Tencent Cloud TI Platform: https://console.cloud.tencent.com/tione/v2/aimarket/detail/deepseek_series?regionId=1&detailTab=deep_seek_v1
Cyberoam Open Platform:https://training.xfyun.cn/experience/text2text?type=public&modelServiceId=2501631186799621
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...