DeepSeek: вопросы, игнорируемые средствами массовой информации
Приглашенные авторы Леннарт Хейм и Сихао Хуанг, эта статья перепечатана из блога Леннарта, который является постоянным автором ChinaTalk и недавно участвовал в дискуссии о геополитике в эпоху проверенных временем вычислений, и Сихао, который ранее писал о видении Пекином глобального управления ИИ.
Последние доклады о DeepSeek Сообщения о моделях ИИ в основном сосредоточены на их превосходстве в сравнительном анализе и повышении эффективности. Несмотря на то, что эти достижения общепризнанны и имеют политическое значение (подробнее см. ниже), реальная ситуация с доступом к вычислительным ресурсам, экспортным контролем и развитием ИИ сложнее, чем представляется во многих отчетах. Вот несколько ключевых моментов, представляющих интерес:
- Реальные ограничения на экспорт чипов искусственного интеллекта начнут действовать с октября 2023 года, и нынешние заявления об их неэффективности преждевременны. DeepSeek работает на чипе Nvidia H800, разработанном для обхода первоначального ограничения, введенного в октябре 2022 года. Для вычислительных задач DeepSeek производительность этих чипов сопоставима с H100, доступным в США. Последний чип Nvidia H20 - чип ИИ, который все еще можно экспортировать в Китай, - слабее в плане обучения, но все еще мощнее в плане развертывания.
Несмотря на ограничения в обучении, H20 остается неограниченным и надежным в самых современных системах ИИ, особенно в задачах, требующих большого объема памяти, таких как длительное контекстное рассуждение. Это очень важно, особенно с учетом таких тенденций, как вычисления на испытаниях, генерация синтетических данных и обучение с подкреплением - процессы, которые в большей степени зависят от памяти, чем от вычислительной мощности. Поскольку ограничения на экспорт памяти с высокой пропускной способностью (HBM) вступают в силу в декабре 2024 года, стоит следить за дальнейшей доступностью H20, особенно в контексте того, что спрос на вычисления для ИИ все больше склоняется в сторону развертывания. - Контроль за экспортом оборудования имеет временную задержку и еще не полностью эффективен.
Обратите внимание, что все это предполагает, что экспортный контроль соблюдается идеально, а это не так. Контроль над полупроводниками имеет большое количество лазеек, и есть достоверные свидетельства крупномасштабной передачи чипов. Хотя Diffusion Framework может помочь закрыть некоторые из этих лазеек, обеспечение соблюдения остается ключевой проблемой. [JS: Конечно, проблемы с доступом остаются и в западном облаке .......Китай все еще использует центры обработки данных, построенные до введения экспортных ограничений и содержащие десятки тысяч микросхем, в то время как американские компании строят центры обработки данных, содержащие сотни тысяч микросхем. Настоящее испытание наступит тогда, когда эти центры обработки данных нужно будет модернизировать или расширить - процесс, который проще для американских компаний, но будет сложным для китайских компаний, подверженных экспортному контролю. Если для обучения следующего поколения моделей потребуется 100 000 чипов, экспортный контроль окажет значительное влияние на разработку передовых моделей в Китае. Однако даже при отсутствии таких масштабных требований к обучению экспортный контроль все равно окажет глубокое влияние на китайскую экосистему ИИ, сократив потенциал развертывания, ограничив развитие предприятий и ограничив возможности синтеза обучающих данных и самостоятельной игры.

- Неудивительно, что DeepSeek V3 завершает обучение с меньшими вычислительными ресурсами: стоимость алгоритмов машинного обучения со временем снижается. Но то же самое повышение эффективности, которое позволяет малым предприятиям, таким как DeepSeek, получить доступ к возможностям ИИ (т. е. "эффект доступности"), а также может позволить другим компаниям создавать более мощные системы на больших вычислительных кластерах (т.е. "эффект производительности"). К счастью, DeepSeek обучил V3, используя всего 2 000 H800 вместо 200 000 B200 (чип последнего поколения от Nvidia).

- Выбор времени выхода обусловлен стратегическими соображениями, но техническое мастерство налицо. Выпуск R1 совпал с инаугурацией президента Трампа на прошлой неделе и явно призван подорвать доверие общественности к американскому лидерству в области ИИ в критический для политики США момент. Такую же стратегию Huawei использовала для запуска своего нового продукта во время визита бывшего министра торговли Раймондо в Китай. В конце концов, результаты бенчмарков R1 Preview были обнародованы еще в ноябре.
Такой тщательный пиар не должен заслонять два факта: технологические достижения DeepSeek, а также их текущие и будущие структурные проблемы, связанные с экспортным контролем. - Экспортным контролем сложно точно повлиять на отдельную учебную задачу, но он может эффективно сдерживать развитие всей экосистемы ИИ. В частности, ограничения на новейшие чипы могут эффективно сдерживать масштабное развертывание ИИ (т. е. предоставление услуг ИИ большому числу пользователей) и расширение возможностей. Компании, занимающиеся разработкой ИИ, обычно выделяют 60-80% вычислительных ресурсов на развертывание - еще до появления моделей рассуждений, требующих больших вычислений. Ограничение вычислительных ресурсов приведет к увеличению стоимости китайского ИИ, снижению его способности к масштабному развертыванию и ограничению производительности системы. Стоит отметить, что вычислительные ресурсы для развертывания - это не только доступ для пользователей; они также играют ключевую роль в генерировании синтетических обучающих данных, содействии улучшению возможностей за счет взаимодействия моделей, а также в построении, масштабировании и оптимизации моделей.
Например, в недавних комментариях Гверна отмечается, что развертывающие вычисления играют ключевую роль в развитии ИИ, выходя далеко за рамки доступа пользователей. Такие модели, как OpenAI's o1, могут использоваться для создания высококачественных обучающих данных, что создает петлю обратной связи, в которой возможности развертывания напрямую определяют возможности разработки и общее повышение производительности. - Повышение эффективности DeepSeek может быть связано с масштабной арифметической поддержкой, которую он получал ранее. На первый взгляд может показаться, что путь к сокращению использования чипов (т. е. к "повышению эффективности") начинается с наличия большого количества вычислительных мощностей. deepSeek располагает первым в Азии кластером A100 на 10 000 чипов и, как сообщается, кластером H800 на 50 000 чипов, а также неограниченным доступом к поставщикам облачных услуг (под экспортным контролем) в Китае и за рубежом. Провайдеры облачных услуг в Китае и за рубежом (не подлежат экспортному контролю). Такой широкий доступ к вычислительным мощностям имеет решающее значение для разработки эффективных технологий путем итеративного тестирования и предоставления услуг моделирования своим клиентам.
Сможет ли DeepSeek справиться с подобными скачками, пока не известно, да и вычислительные мощности ограничены. (Сэм Альтман даже утверждает, что ChatGPT Планы подписки Pro в настоящее время приносят убытки).
Хотя их модель R1 продемонстрировала отличную эффективность, процесс ее разработки требовал большого количества арифметических действий для создания синтетических данных, дистилляции и проведения экспериментов. - Экспортный контроль еще больше усугубил арифметический разрыв между США и Китаем, который остается основным ограничением для DeepSeek, чье руководство публично признало, что даже при улучшении эффективности они все еще сталкиваются с 4-кратным арифметическим недостатком. Это означает, что нам нужно в два раза больше вычислительных мощностей, чтобы добиться таких же результатов, - говорит Вэньфэн Лян, основатель DeepSeek. Кроме того, существует примерно двукратный разрыв в эффективности данных, что означает, что для достижения сопоставимых результатов нам нужно в два раза больше обучающих данных и вычислительной мощности. В совокупности это требует в 4 раза большей вычислительной мощности". Он добавил: "У нас нет планов по финансированию в ближайшей перспективе. Нашей проблемой никогда не было финансирование, а было эмбарго на поставку чипов высокого класса".
- Ведущие компании США, занимающиеся разработкой ИИ, держат в секрете свои самые сильные стороны, а это значит, что публичные бенчмарки не совсем точно отражают полную картину развития ИИ. Китайские компании склонны публично делиться достигнутыми успехами, в то время как Антропология и OpenAI, среди прочих, сохраняют значительную часть частных возможностей. В результате прямые сравнения на основе общедоступной информации оказываются неполными. DeepSeek привлекла к себе внимание отчасти благодаря своей открытости - они подробно делятся весами моделей и методологиями, что контрастирует с тенденцией западных компаний к все большей закрытости. Однако еще предстоит выяснить, обязательно ли открытость приводит к стратегическим преимуществам.
И что это значит?
Достижения DeepSeek реальны и важны. Неверно отвергать их успехи, считая их просто пропагандой. Заявленные ими затраты на обучение не являются беспрецедентными, и исторические тенденции в эффективности алгоритмов подтверждают это. Однако сравнения следует рассматривать в контексте - DeepSeek сообщает только об окончательных затратах на предварительное обучение, игнорируя такие ключевые расходы, как затраты на персонал, предварительные эксперименты, сбор данных и развитие инфраструктуры. Более подробную информацию об ошибочных сравнениях, к которым могут привести различные методы расчета стоимости, можно найти в этой статье.
Рост эффективности арифметики означает, что возможности ИИ в конечном итоге будут расширяться. Одних мер контроля недостаточно; необходимы дополнительные меры для повышения устойчивости и защиты общества, создания институтов, способных выявлять, оценивать и реагировать на риски ИИ, а также для создания надежной системы защиты от потенциальных угроз ИИ со стороны противников. Однако мы также должны признать, что экспортный контроль уже оказал влияние на развитие ИИ в Китае и может оказать еще более сильное воздействие в будущем.
Сами по себе модели, возможно, не являются тем, что многие считают "стратегическим рвом", но влияние арифметической мощности на национальную безопасность зависит от сценария применения. Для приложений, требующих масштабного развертывания (например, массового наблюдения), ограничения по мощности могут стать существенным препятствием. Для однопользовательских приложений, с другой стороны, влияние регулирования менее существенно. Взаимосвязь между арифметической доступностью и возможностями национальной безопасности остается сложной, хотя сами моделируемые возможности становится все проще воспроизвести.
Хотя возможности ИИ могут распространяться, несмотря на меры контроля, а полностью остановить распространение всегда будет сложно, эти меры контроля остаются критически важными для сохранения технологического преимущества. Контроль позволяет выиграть драгоценное время, но для того, чтобы демократические страны оставались впереди и могли противостоять вызовам со стороны потенциальных конкурентов, необходима дополнительная политика.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...