DeepSeek: 미디어에서 무시하는 이슈

45.5K 00

객원 기고자인 Lennart Heim과 Sihao Huang이 작성한 이 글은 Lennart의 블로그에 교차 게시되었으며, Lennart는 차이나톡의 정기 기고자로 최근 검증된 컴퓨팅 시대의 지정학에 대한 토론에 참여했고, Sihao는 이전에 글로벌 AI 거버넌스에 대한 중국의 비전에 대한 글을 기고한 적이 있습니다.

최근 보고서 DeepSeek AI 모델에 대한 보고서는 주로 벤치마킹과 효율성 향상에 있어 우수한 성능에 초점을 맞추고 있습니다. 이러한 성과는 인정할 만하고 정책적 함의도 있지만(자세한 내용은 아래 참조), 컴퓨팅 리소스에 대한 접근, 수출 통제 및 AI 개발의 현실은 많은 보고서에서 제시하는 것보다 더 복잡합니다. 다음은 몇 가지 주요 관심 사항입니다:

AI 칩에 대한 실질적인 수출 제한은 2023년 10월부터 시작되며, 현재 AI 칩의 비효율성에 대한 주장은 시기상조입니다. 딥시크는 2022년 10월의 초기 제한을 피하기 위해 설계된 칩인 엔비디아 H800으로 훈련합니다. 딥시크의 연산 작업에서 이 칩의 성능은 미국에서 사용 가능한 H100과 비슷합니다. 중국으로 수출할 수 있는 엔비디아의 최신 AI 칩인 H20은 훈련 측면에서는 약하지만 배포 측면에서는 여전히 강력합니다.
H20은 트레이닝의 한계에도 불구하고 최첨단 AI 배포, 특히 긴 문맥 추론과 같은 메모리 집약적인 작업에서 제한 없이 강력하게 작동합니다. 이는 특히 컴퓨팅 성능보다 메모리에 더 많이 의존하는 컴퓨팅 온 테스트, 합성 데이터 생성, 강화 학습과 같은 트렌드에서 매우 중요합니다. 2024년 12월 고대역폭 메모리(HBM) 수출에 대한 제한이 시행됨에 따라, 특히 AI 컴퓨팅 수요가 점점 더 배포 쪽으로 기울고 있는 상황에서 H20이 어떻게 계속 사용 가능한지 지켜보는 것은 흥미로울 것입니다.
하드웨어 수출 통제는 시차 효과가 있으며 아직 완전히 효과적이지 않습니다.
이 모든 것은 수출 통제가 완벽하게 시행된다는 전제하에 이루어지며, 실제로는 그렇지 않다는 점에 유의하는 것이 중요합니다. 반도체 규제에는 많은 허점이 있으며 대규모 칩 이전이 이루어지고 있다는 믿을 만한 증거가 있습니다. 확산 프레임워크가 이러한 허점 중 일부를 메우는 데 도움이 될 수 있지만, 여전히 핵심 과제는 집행입니다. [JS: 물론 서양 클라우드에는 여전히 액세스 문제가 남아 있습니다 ......중국은 수출 제한 이전에 지어진 수만 개의 칩이 포함된 데이터 센터를 여전히 사용하고 있는 반면, 미국 기업들은 수십만 개의 칩이 포함된 데이터 센터를 건설하고 있습니다. 이러한 데이터 센터를 업그레이드하거나 확장해야 할 때 진정한 시험대에 오르게 되는데, 미국 기업에게는 더 쉬운 과정이지만 수출 규제를 받는 중국 기업에게는 어려운 일이 될 것입니다. 차세대 모델을 훈련하는 데 10만 개의 칩이 필요하다면 수출 통제가 중국의 첨단 모델 개발에 상당한 영향을 미칠 것입니다. 그러나 이러한 대규모 훈련 요구 사항이 없더라도 수출 통제는 배포 용량을 줄이고 기업 개발을 제한하며 훈련 데이터와 자체 게임을 합성하는 능력을 억제함으로써 중국의 AI 생태계에 큰 영향을 미칠 것입니다.

시간이 지남에 따라 머신 러닝 알고리즘의 비용이 감소하고 있기 때문에, 더 적은 컴퓨팅 리소스로도 DeepSeek V3가 학습을 완료하는 것은 놀라운 일이 아닙니다. 그러나 DeepSeek와 같은 소규모 비즈니스가 AI 기능에 액세스할 수 있는 동일한 효율성 향상("접근성 효과"), 다른 비즈니스가 더 큰 컴퓨팅 클러스터에서 더 강력한 시스템을 구축할 수도 있습니다("성능 효과"). 다행히도 딥시크는 200,000개의 B200(엔비디아의 최신 세대 칩) 대신 2,000개의 H800만을 사용하여 V3를 학습시켰습니다.

출시 시기에는 전략적인 고려 사항이 있지만, 기술력은 진짜입니다. R1의 출시는 지난주 트럼프 대통령의 취임식과 맞물려 있으며, 미국 정책의 중요한 시기에 미국의 AI 리더십에 대한 대중의 신뢰를 약화시키려는 의도가 분명합니다. 이는 화웨이가 라이몬도 전 상무장관이 중국을 방문했을 때 신제품을 출시할 때 사용한 전략과 동일합니다. 결국 R1 프리뷰의 벤치마크 결과는 지난 11월에 공개되었습니다.
이러한 신중한 홍보 타이밍이 딥시크의 기술 발전과 수출 규제로 인한 현재 및 미래의 구조적 문제라는 두 가지 사실을 가려서는 안 됩니다.
수출 통제는 단일 학습 작업에 정확한 영향을 미치기는 어렵지만, 전체 AI 생태계의 발전을 효과적으로 억제할 수 있습니다. 특히, 최첨단 칩에 대한 제한은 대규모 AI 배포(즉, 많은 사용자가 AI 서비스에 액세스할 수 있도록 하는 것)와 기능 향상을 효과적으로 제한할 수 있습니다. AI 기업은 일반적으로 컴퓨팅 집약적인 추론 모델이 등장하기 전에도 배포에 60-80%의 컴퓨팅 리소스를 할당했습니다. 컴퓨팅 리소스를 제한하면 중국 AI의 비용이 증가하고 대규모 배포 능력이 저하되며 시스템 성능이 제한됩니다. 배포 컴퓨팅은 사용자 액세스뿐만 아니라 합성 학습 데이터 생성, 모델 상호 작용을 통한 기능 개선 촉진, 모델 구축, 확장 및 최적화에도 핵심적인 역할을 한다는 점에 주목할 필요가 있습니다.
예를 들어, Gwern의 최근 발언은 배포 컴퓨팅이 사용자 액세스를 넘어 AI 개발에서 핵심적인 역할을 한다는 점을 지적합니다. OpenAI의 o1과 같은 모델은 고품질 학습 데이터를 생성하는 데 사용할 수 있으며, 배포 기능이 개발 역량과 전반적인 성능 향상을 직접적으로 이끄는 피드백 루프를 생성합니다.
DeepSeek의 효율성 향상은 이전에 받았던 대규모 산술 지원에서 비롯된 것일 수 있습니다. 언뜻 보기에 칩 사용량을 줄이는 길(즉, "효율성 증대")은 많은 컴퓨팅 성능을 확보하는 것에서 시작되는 것처럼 보일 수 있습니다. 딥시크는 아시아 최초의 10,000칩 A100 클러스터를 운영하고 있으며 50,000칩 H800 클러스터와 중국 및 해외의 클라우드 서비스 공급자(수출 통제 대상)에 무제한으로 액세스할 수 있는 클러스터를 보유하고 있는 것으로 알려졌습니다. 중국 및 해외의 서비스 제공업체(수출 통제 대상이 아님)에 대한 무제한 액세스를 제공합니다. 이러한 컴퓨팅 성능에 대한 광범위한 액세스는 반복적인 테스트를 통해 효율적인 기술을 개발하고 고객에게 모델링 서비스를 제공하는 데 매우 중요합니다.
최근 다른 인공지능 회사들은 더 큰 컴퓨팅 파워를 지원함에도 불구하고 사용량이 급증하여 서비스 중단을 초래한 사례가 있었는데, DeepSeek가 이와 유사한 급증에 대처할 수 있을지는 아직 검증되지 않았으며 제한된 컴퓨팅 파워로 이를 처리해야 하는 과제를 안게 될 것입니다. (샘 알트먼은 다음과 같이 주장하기도 합니다. ChatGPT 프로 구독 요금제는 현재 손실이 발생하고 있습니다.)
R1 모델은 뛰어난 효율성을 보여주었지만, 개발 과정에서 합성 데이터 생성, 증류 및 실험을 위해 많은 산술 연산에 의존했습니다.
수출 통제로 인해 미국과 중국의 산술적 격차는 더욱 악화되었으며, 이는 딥시크의 주요 한계로 남아 있으며, 경영진은 효율성을 개선하더라도 여전히 산술적으로 4배의 불리한 상황에 직면해 있음을 공개적으로 인정했습니다. 이는 동일한 결과를 얻으려면 두 배의 컴퓨팅 파워가 필요하다는 뜻입니다."라고 DeepSeek의 설립자 Wenfeng Liang은 말합니다. 또한 데이터 효율성에서도 약 2배의 격차가 있는데, 이는 비슷한 결과를 얻으려면 2배의 학습 데이터와 컴퓨팅 파워가 필요하다는 것을 의미합니다. 이를 모두 합치면 4배의 컴퓨팅 파워가 필요합니다." 그는 "단기적으로는 자금 조달 계획이 없습니다. 우리의 문제는 자금 조달이 아니라 하이엔드 칩에 대한 금수 조치입니다."
미국의 선도적인 AI 기업들은 자신들의 가장 강력한 역량을 비밀에 부치고 있기 때문에 공개적인 벤치마킹은 AI 개발의 전체 상황을 정확하게 반영하지 못합니다. 중국 기업들은 진행 상황을 공개적으로 공유하는 경향이 있습니다. 인류학 및 OpenAI 등은 많은 비공개 기능을 보유하고 있습니다. 따라서 공개된 정보를 기반으로 한 직접적인 비교는 불완전하며, 딥시크는 모델 가중치와 방법론을 상세히 공유하는 개방성으로 인해 서구 기업들이 점점 더 폐쇄적으로 변하는 추세와는 대조적으로 주목을 받고 있습니다. 그러나 개방성이 반드시 전략적 이점으로 이어지는지는 아직 지켜봐야 합니다.

그렇다면 이는 무엇을 의미할까요?

딥시크의 성과는 실제적이고 중요합니다. 그들의 성과를 단순한 선전으로 치부하는 것은 정확하지 않습니다. 그들이 보고한 훈련 비용은 전례가 없는 것이 아니며 알고리즘 효율성의 과거 추세가 이를 뒷받침합니다. 그러나 딥시크는 인건비, 사전 실험, 데이터 수집, 인프라 개발과 같은 주요 비용을 무시하고 최종 사전 훈련 실행 비용만 보고하기 때문에 맥락에서 비교를 신중하게 고려할 필요가 있습니다. 다른 비용 산정 방법으로 인해 발생할 수 있는 오해의 소지가 있는 비교에 대한 자세한 내용은 이 문서를 참조하세요.

연산 효율성이 높아진다는 것은 결국 AI 기능이 확산된다는 것을 의미합니다. 통제만으로는 충분하지 않으며, 사회의 회복력과 방어력을 강화하고, AI 위험을 식별, 평가 및 대응할 수 있는 기관을 설립하고, 적의 잠재적인 AI 위협에 대한 강력한 방어 시스템을 구축하기 위한 보완 조치가 필요합니다. 그러나 수출 통제가 이미 중국의 AI 개발에 영향을 미쳤으며 앞으로 더욱 강력한 영향을 미칠 수 있다는 점도 인식해야 합니다.

모델 자체가 '전략적 해자'라고 생각하는 사람은 많지 않을 수 있지만, 산술적 파워가 국가 안보에 미치는 영향은 애플리케이션 시나리오에 따라 다릅니다. 대규모 배포가 필요한 애플리케이션(예: 대규모 감시)의 경우 용량 제약이 중요한 장벽이 될 수 있습니다. 반면에 단일 사용자 애플리케이션의 경우 규제의 영향이 덜 큽니다. 산술적 가용성과 국가 보안 역량 간의 관계는 여전히 복잡하지만, 모델링된 역량 자체는 복제하기가 더 쉬워지고 있습니다.

AI 기능은 통제에도 불구하고 확산될 수 있으며, 확산을 완전히 막는 것은 항상 어렵지만, 이러한 통제는 기술적 우위를 유지하는 데 여전히 중요합니다. 규제를 통해 소중한 시간을 벌 수 있지만, 민주주의 국가가 앞서 나가고 잠재적 경쟁자의 도전을 방어할 수 있도록 하기 위해서는 여전히 보완적인 정책이 필요합니다.