'중국 위협'을 외치며 미국의 AI 패권을 지지하는 앤트로픽 CEO

50.1K 00

이 기사의 작성자는 미국이 다음과 같은 입장을 취합니다.의도적으로 과장 DeepSeek 중국 AI 기업 등의 기술 발전으로 인한 미국에 대한 소위 "위협"과이를 소위 "XXX 위협"과 강제 연관시키는 것은 다음과 같은 주장이 만연합니다.냉전적 사고방식노래로 응답이념적 편견.

저자는 딥시크의 혁신과 효율성을 인정하면서도, 뒤돌아서서 딥시크의 성공을 "XXXX가 XXXX를 위반했기 때문"이라고 비난하는데, 이는 중국 AI 기업이 자체적인 노력과 시장 기반 메커니즘에 의존해 성공한다는 사실을 완전히 무시하는 근거 없는 비난입니다.
저자는 미국의 칩 수출 통제 정책을 옹호하기 위해 "중국이 XX 이점을 얻지 못하도록 막는다"는 구실을 사용하지만, 중국이 경쟁사를 억압하기 위해 기술적 이점을 사용하는 것에 대해서는 언급하지 않습니다.이중 기준노출됨.

2. 미국의 기술 패권 유지와 중국의 AI 개발 억제 시도

이 글의 핵심 목적은 다음과 같습니다.AI 분야에서 미국의 글로벌 지배력 유지를 통해 시도했습니다:

수출 통제의 역할 과장:: 저자는 수출 통제가 "중국이 수백만 개의 칩을 확보하는 것을 막을 수 있는 유일한 방법"이라고 주장하며, 이를 미래 세계 지형의 핵심 결정 요인으로 보고 있습니다. 이 주장은 글로벌 산업 체인의 복잡성과 중국의 기술 발전을 무시한 것입니다.
- 실제로 중국은 칩 연구 개발에 대한 투자를 늘리고 있으며 상당한 진전을 이루었습니다. 미국의 수출 통제가 중국의 AI 개발에 어느 정도 영향을 미치기는 했지만, 중국 AI 기술의 지속적인 발전을 막을 수는 없습니다.
"기술적 디커플링" 옹호:: 저자는 미국이 중국에 대한 기술 금수 조치를 계속 강화해야 한다고 주장하며, 심지어 미국이 AI 기술을 활용하여 "지속적인 우위"를 확보해야 한다고 제안하는데, 이는 의심 할 여지없이 "기술 분리"를 옹호하고 세계화 추세에 역행하는 것입니다.
- 이러한 접근 방식은 중국의 이익뿐만 아니라 미국 자체의 이익에도 해를 끼치고 글로벌 과학 기술 발전과 경제 발전을 저해할 것입니다.

3. AI 개발의 본질을 무시하고 대중의 인식을 오도하는 행위

이 기사는 AI의 발전에 대한 이해가 편향되어 있습니다.지나친 강조'스케일링의 법칙'과 '스케일 효과'는 다음과 같은 중요한 요소를 무시합니다:

AI 개발의 다극화 추세AI 기술 개발은 미국, 중국, 유럽 및 기타 국가와 지역에서 AI 개발의 길을 적극적으로 모색하고 있으며 각자의 장점을 달성하고 있습니다.
AI 윤리 및 보안:: AI 개발로 인해 제기되는 윤리적, 보안적 문제는 일방주의와 기술 봉쇄가 아닌 글로벌 협력을 통해 함께 해결해야 합니다.
AI가 인간 사회에 미치는 영향:: AI 기술은 거대한 파워 게임을 위한 도구가 아니라 궁극적으로 인류 사회의 발전과 진보에 기여해야 합니다.

4. 중미 AI 경쟁에 대한 합리적인 시각과 글로벌 협력 촉진 촉구

중국과 미국은 AI 개발의 기회와 도전에 직면해 있습니다:

제로섬 게임 사고 버리기중국과 미국은 AI 분야에서 경쟁 관계에 있을 뿐만 아니라 협력을 강화하고 글로벌 AI 기술 발전과 산업 발전을 공동으로 추진해야 합니다.
커뮤니케이션 및 대화 강화양측은 AI 개발의 주요 이슈에 대해 심도 있는 교류를 통해 이해를 높이고 오해와 오해를 피해야 합니다.
AI 거버넌스 규칙 공동 개발중국과 미국은 다른 국가들과 협력하여 공정하고 정의로우며 포용적인 글로벌 AI 거버넌스 시스템 구축을 촉진하여 AI 기술이 모든 인류에게 혜택을 줄 수 있도록 해야 합니다.

속독

1. DeepSeek의 기술 발전과 비용 이점

미국의 최첨단 AI 모델에 근접하는 성능딥서치에서 출시한 모델(특히 딥서치-V3)은 코딩, 수학 경시대회, 추론 과제 등 일부 중요한 과제에서 미국 최첨단 모델의 성능에 근접합니다[원본 기사 2부, '딥서치의 모델'].
상당한 비용 절감딥시크의 모델 학습 비용은 미국 기업보다 훨씬 저렴합니다. 예를 들어, DeepSeek-V3의 훈련 비용은 약 600만 달러인데 반해, 미국 기업들은 인류학 (명목식 형태로 사용됨) Claude 3.5 소네트는 훈련하는 데 수천만 달러의 비용이 듭니다 [원본 글의 2부, "DeepSeek의 모델"].
'파괴적인' 혁신은 아닙니다.저자들은 딥시크의 성과가 "특별한 돌파구"는 아니지만, AI 비용이 감소하는 예상 곡선 안에 있다고 주장합니다[원본 기사의 2부, "딥시크의 모델"].

2. AI 개발의 세 가지 주요 발전

확장의 법칙AI 시스템의 학습 규모가 커질수록 인지 작업의 성능은 원활하게 향상됩니다. 예를 들어 모델 규모가 100만 달러에서 1억 달러로 증가하면 작업 해결률은 20%에서 60%로 증가합니다[원본 기사, 1부 '세 가지 주요 역학'].
곡선형 전송(물리학)모델 아키텍처 개선, 하드웨어 효율성 증대 등을 통해 학습 비용을 절감할 수 있습니다. 예를 들어, Claude 3.5 Sonnet API는 GPT-4보다 약 10배 저렴합니다. 예를 들어, Claude 3.5 Sonnet의 API 가격은 GPT-4보다 약 10배 저렴합니다[원본 기사 1부 '세 가지 주요 개발 사항'].
패러다임 전환강화 학습과 같은 새로운 학습 방법이 AI 학습 프로세스에 도입되고 있습니다. 예를 들어 Anthropic, DeepSeek 등의 회사에서는 추론을 개선하기 위해 모델을 훈련하는 데 강화 학습을 사용하는 방법을 모색하고 있습니다[원본 기사 1부, "세 가지 큰 발전"].

3. 딥시크의 리소스와 미국 AI 기업 비교

칩 개수딥시크는 약 50,000개의 호퍼 세대 칩(H100, H800, H20 포함)을 보유하고 있으며, 이는 미국 내 주요 AI 기업이 보유한 칩 수의 약 2~3배에 해당합니다[원본 기사 2부, '딥시크의 모델'].
자본 투자자본 투자 측면에서 딥시크와 미국 AI 기업들 사이에는 큰 차이가 없으며, 둘 다 AI 연구 개발에 많은 돈을 투자하고 있습니다[원본 기사 2부, '딥시크의 모델'].

4. 중국에 대한 미국의 칩 수출 규제

제어:: 미국은 중국에 대한 H100 칩 수출 금지, H800 칩 수출 제한 등 여러 차례의 칩 수출 통제 조치를 시행했습니다[원본 기사 '딥시크의 모델' 파트 2].
제어 효과:: 저자들은 수출 통제가 효과적이며, 딥시크가 사용하는 대부분의 칩은 금지되지 않았거나 금지 이전에 출하된 것이라고 주장합니다[원본 기사의 2부, '딥시크의 모델'].
향후 전망:: 저자는 엄격한 수출 통제가 중국의 수백만 개의 칩 확보를 막는 열쇠이며, 이것이 미래의 세계 지형이 단극이 될지 양극이 될지를 결정할 것이라고 주장합니다[원본 글의 2부, "수출 통제"].

5. AI 개발에 대한 지정학적 영향

미-중 AI 경쟁:: 저자는 AI 개발이 중국과 미국 간의 경쟁 심화로 이어져 '데이터 센터의 천재 국가'라는 양극화 패턴으로 이어질 수 있다고 생각합니다[원본 기사의 2부, '수출 통제'].
아메리칸 어드밴티지:: 저자는 미국이 AI 기술 우위를 활용해 중국이 AI 분야에서 우위를 점하지 못하도록 지속적인 우위를 구축해야 한다고 주장합니다[원본 기사의 2부 '수출 통제'].

6. AI 개발에 대한 다른 견해

AI 비용 및 가치기술 발전으로 AI 모델 학습 비용은 감소했지만, AI 모델의 지능 향상에 따른 경제적 가치가 높아지면서 기업들은 더 많은 돈을 투자할 의향이 있습니다[원문, 1부 '세 가지 역학 관계'].
AI 개발의 불확실성:: 저자들은 AI 개발에는 불확실성이 존재하며, 예를 들어 AI 시스템이 더 똑똑한 AI 시스템을 만드는 데 도움이 될 수 있고, 일시적인 우위가 지속적인 이점으로 바뀔 수 있다는 점을 인정합니다[원본 문서의 2부, "수출 통제"].

비판적 읽기 Anthropic CEO의 '딥서치와 수출 규제에 관하여' 전문 읽기

몇 주 전, 저는기사(게시 중)는 미국이 중국 칩 수출에 대한 규제를 강화해야 한다고 주장했습니다. 그 이후로 딥시크라는 중국 AI 회사는 적어도 어떤 면에서는 미국의 최첨단 AI 모델 성능에 근접하면서도 가격은 더 저렴해졌습니다.

여기서는 딥시크가 앤서픽과 같은 미국 AI 기업에 위협이 되는지 여부에 초점을 맞추지 않겠습니다(미국 AI 리더십에 대한 위협 주장은 다소 과장된 측면이 있다고 생각합니다). 대신 딥시크의 출시가 칩 수출 통제 정책의 근거를 약화시키는지 여부에 초점을 맞추고자 합니다. 저는 그렇게 생각하지 않습니다. 사실.수출 통제 정책이 일주일 전보다 훨씬 더 중요해졌다고 생각합니다..

수출 통제는 민주주의 국가가 AI 개발의 선두에 서도록 하는 중요한 목적을 가지고 있습니다. 분명히 말하지만, 수출 규제는 미국과 중국 간의 경쟁을 피하기 위한 수단이 아닙니다. 궁극적으로 우리가 승리하려면 미국과 다른 민주주의 국가들의 AI 기업들이 중국보다 더 나은 모델을 만들어야 합니다. 하지만 그럴 필요도 없는데 중국에 기술적 우위를 넘겨주어서는 안 됩니다.

인공 지능의 세 가지 주요 발전

정책적 논거를 제시하기 전에 중요한 AI 시스템의 세 가지 기본 역학 관계에 대해 설명하겠습니다:

확장 법률. 제가 OpenAI에서 공동 창립자들과 함께 일하면서 느낀 인공지능의 특징 중 하나는가장 빠른 기록이 캐릭터의 사람들 중 하나는 다음과 같습니다.다른 모든 것이 동일합니다.(수학.) 속AI 시스템의 학습을 확장하면 다양한 인지 작업에서 원활하게 더 나은 결과를 얻을 수 있습니다.. 예를 들어, 100만 달러짜리 모델은 20%의 중요한 코딩 작업을 해결할 수 있고, 1000만 달러짜리 모델은 40%를 해결할 수 있으며, 1억 달러짜리 모델은 60%를 해결할 수 있는 식으로 말이죠. 이러한 차이는 실제로 큰 영향을 미치기 때문에(학부생과 박사 간의 기술 수준 차이에 해당할 수도 있습니다) 기업에서는 이러한 모델을 교육하는 데 많은 투자를 합니다.
커브 시프트. 현장에서는 더 효과적이거나 더 효율적인 작업을 위해 크고 작은 아이디어를 끊임없이 내놓고 있습니다.빌드개선(오늘날의 모든 모델에 사용되는 트랜스포머 아키텍처 조정) 또는 단순히 기본 하드웨어에서 더 효율적인 방식으로 모델을 실행하는 것일 수 있습니다. 최신 세대의 하드웨어도 동일한 효과가 있습니다. 일반적으로전송 커브혁신이 2배의 "계산 승수"(CM)라면, 40%에 도달하기 위해 코딩 작업에 1천만 달러 대신 5백만 달러를, 60%에 도달하기 위해 1억 달러 대신 5천만 달러를 사용할 수 있는 것과 같은 방식입니다. 모든 첨단 AI 회사에서는 보통 소형(~1.2배), 중형(~2배), 때로는 초대형(~10배)의 이러한 CM을 정기적으로 많이 발견합니다. 더 스마트한 시스템을 소유하는 것의 가치가 매우 높기 때문에, 이러한 곡선의 변화는 일반적으로 회사로 하여금더 많은 지출비용 효율성 향상은 궁극적으로 회사의 재정적 자원에 의해서만 제한적으로 더 똑똑한 모델을 훈련하는 데만 사용됩니다. 사람들은 자연스럽게 "처음에는 비싸다가 점점 더 저렴해진다"는 생각에 매료됩니다. 마치 AI가 일정한 질량이고 저렴해질수록 더 적은 수의 칩을 사용하여 훈련할 수 있는 것처럼 말이죠. 하지만 중요한 것은 여기에 있습니다.확장 곡선이동하면 곡선 끝의 값이 너무 높기 때문에 곡선을 더 빠르게 횡단할 뿐입니다. 2020년에 저희 팀은논문 또는 논문 토론(이전)이는산술진행 상황에서는 연간 약 1.68배의 속도로 곡선이 이동했습니다. 그 이후에는 그 속도가 훨씬 더 빨라졌을 것이며, 이는 효율성과 하드웨어를 고려하지 않은 수치이기도 합니다. 오늘날 그 수치는 아마도 연간 4배 정도일 것으로 추정됩니다. 또 다른 추정치는다음은 다음과 같습니다.. 훈련 곡선의 이동은 추론 곡선도 이동시켰기 때문에 수년에 걸쳐모델의 질량을 일정하게 유지를 통해 상당한 가격 인하가 이루어지고 있습니다. 예를 들어, Claude 3.5 Sonnet은 기존 GPT-4 이후 15개월 후에 출시되었으며 거의 모든 벤치마크에서 GPT-4보다 높은 점수를 받았으며, 동시에 API 가격은 약 10배 인하되었습니다.
패러다임 전환. 종종 확장되는 기본 사항이 약간 변경되거나 교육 중에 새로운 유형의 확장 기능이 추가됩니다. 2020년부터 2023년까지 확장되는 주요 사항은 다음과 같습니다.사전 교육 모델점점 더 많은 양의 인터넷 텍스트로 훈련된 모델과 약간의 다른 훈련. 2024년에는 다음을 사용하여 훈련된 모델집중 학습(RL)을 사용하여 사고의 사슬을 생성하도록 모델을 훈련하는 것은 확장을 위한 새로운 초점이 되었습니다. anthropic, DeepSeek 및 기타 여러 회사(특히 9월에 o1-preview 모델을 출시한 OpenAI)는 이러한 종류의 훈련이 특정하고 객관적으로 측정 가능한 특정 작업(예: 수학, 코딩 대회, 이러한 작업과 유사한 추론)에서 성능을 크게 향상시킨다는 사실을 밝혀냈습니다. 이러한 과제와 유사한 추론). 이 새로운 패러다임에는 다음이 포함됩니다.통해 (틈새)사전 학습된 일반 모델시작에 이어 추론 능력을 추가하기 위한 두 번째 단계로 RL을 사용했습니다. 중요한 점은 이러한 유형의 RL이 새로운 것이기 때문에 아직 확장 곡선의 초기 단계에 있다는 점입니다. 모든 참가자가 2단계 RL 단계에 지출한 금액이 적었습니다. 10만 달러가 아닌 100만 달러만 투자해도 큰 효과를 거둘 수 있습니다. 기업들은 이제 2단계 규모를 수억 또는 수십억 달러로 확장하기 위해 매우 빠르게 노력하고 있지만, 강력한 새 패러다임이 확장 곡선의 초기 단계에 있기 때문에 매우 빠르게 큰 이익을 얻을 수 있는 독특한 '교차점'에 있다는 점을 이해하는 것이 중요합니다.

딥시크의 모델

위에서 언급한 세 가지 역학 관계는 DeepSeek의 최근 릴리스를 이해하는 데 도움이 될 수 있습니다. 약 한 달 전에 DeepSeek는 새로운 소프트웨어인 "DeepSeek-V3"이 모델은 순전히사전 교육 모델-위에서 언급한 1단계. 그리고 지난 주에는 "DeepSeek-R1', 두 번째 단계를 추가합니다. 외부에서 이러한 모델의 모든 세부 사항을 파악하는 것은 불가능하지만 두 가지 릴리스에 대해 제가 가장 잘 이해하는 것은 다음과 같습니다.

DeepSeek-V3는 실제로 정말 혁신적입니다.해야 합니다.약 한 달 전에 사람들의 관심을 끌었습니다(저희도 확실히 알아차렸습니다). 사전 학습된 모델로서, 특정 중요 작업에서 미국 최신 모델의 성능에 근접하면서도 학습 비용이 훨씬 저렴합니다(실제 코딩과 같은 다른 중요 작업에서는 여전히 Claude 3.5 Sonnet이 훨씬 더 나은 것으로 나타났습니다.) DeepSeek 팀은 다음과 같은 몇 가지 정말 인상적인 혁신을 통해 이를 달성했습니다. DeepSeek 팀은 주로 엔지니어링 효율성에 초점을 맞춘 몇 가지 정말 인상적인 혁신을 통해 이를 달성했습니다. 특히 '키-값 캐싱'이라는 키-값 캐시를 관리하고 '전문가 블렌딩'이라는 접근 방식을 추진하는 데 있어 혁신적인 개선이 있었습니다.

하지만 자세히 살펴보는 것이 중요합니다:

딥시크는 "미국 AI 기업들이 수십억 달러를 들여서 할 수 있는 일을 600만 달러로 해낸 것"이 아닙니다. 저는 Anthropic에 대해서만 말할 수 있지만, 클로드 3.5 소네트는 훈련하는 데 수천만 달러가 드는 중형 모델입니다(정확한 수치는 밝히지 않겠습니다). 또한 3.5 소네트의 훈련에는 (일부 소문과는 달리) 더 크거나 더 비싼 모델이 포함되지 않았습니다. 소네트는 9~12개월 전에 훈련된 반면 딥시크의 모델은 11~12월에 훈련되었으며, 여러 내외부 평가에서 소네트가 여전히 앞서고 있습니다. 따라서 공정한 표현은 "DeepSeek는 7~10개월 전에 미국 모델과 비슷한 성능의 모델을 훨씬 저렴한 비용으로 생산했습니다(하지만 사람들이 생각하는 비율에 근접하지는 못했습니다).".
비용 곡선 하락의 역사적 추세가 연간 약 4배라면, 이는 정상적인 비즈니스 활동에서, 즉 2023년과 2024년에 발생하는 비용 하락의 정상적인 역사적 추세에서 이제 3.5배 더 저렴한 모델을 기대할 수 있다는 의미입니다. Sonnet/GPT-4o보다 3~4배 더 저렴한 모델을 보유하게 될 것입니다. DeepSeek-V3가 이러한 미국 프론티어 모델보다 확장 곡선에서 약 2배 더 나쁘다고 가정하면, 이는 이미 DeepSeek-V3에 상당히 관대하다고 생각합니다. V3가 1년 전에 개발된 현재 미국 모델보다 훈련 비용이 약 8배 저렴하다면 이는 지극히 정상적이고 완벽하게 "트렌드에 부합"하는 것입니다. 구체적인 수치는 밝히지 않겠지만, 앞의 요점을 보면 딥시크의 훈련 비용을 액면 그대로 받아들이더라도 기껏해야 트렌드에 부합하는 수준일 뿐, 그 이상도 이하도 아니라는 점은 분명합니다. 예를 들어, 이는 기존 GPT-4와 GPT-4보다 더 나은 모델인 Claude 3.5 Sonnet의 추론 가격 차이(10배)보다 더 평평합니다. **이 모든 것을 종합해 볼 때 DeepSeek-V3는 특별한 혁신이 아니며, LLM의 경제성을 근본적으로 바꾸지도 않으며, 지속적인 비용 절감 곡선에서 예상되는 지점에 있다는 것을 알 수 있습니다. 다만 이번에는 중국 기업이 먼저 비용 절감 효과를 입증했다는 점에서 차이가 있습니다. **이는 전례가 없는 일이며 지정학적으로도 중요한 의미를 지니고 있습니다. 그러나 미국 기업들도 곧 그 뒤를 따를 것이며, 그들도 딥시크를 모방하는 것이 아니라 일반적인 비용 절감 추세를 깨닫고 있기 때문에 그렇게 할 것입니다.
딥시크와 AI 아메리카는 그 어느 때보다 더 많은 자금과 칩을 보유하고 있습니다. 여분의 칩은 모델 이면의 아이디어를 개발하기 위한 R&D에 사용되고 있으며, 때로는 아직 준비가 되지 않았거나 여러 번의 시도가 필요한 대규모 모델을 훈련하는 데 사용되고 있습니다. 사실인지는 확실하지 않지만, DeepSeek가 실제로 다음과 같은 정보를 보유하고 있다는 보고가 있습니다.50,000 호퍼세대 칩을 보유하고 있으며, 이는 미국의 주요 AI 기업이 보유한 수와 약 2~3배 정도 차이가 나는 것으로 추정됩니다(예: xAI의 "거상"클러스터는 2~3배 더 적습니다). 이 50,000개의 호퍼 칩의 비용은 약 10억 달러입니다.그 결과, 딥시크의 회사 전체 지출(개별 모델 훈련에 대한 지출이 아닌)은 미국 AI 연구소의 지출과 크게 다르지 않습니다.
'확장 곡선' 분석은 모델마다 강점과 약점이 다소 다르기 때문에 다소 지나치게 단순화되었다는 점에 유의할 필요가 있으며, 확장 곡선 수치는 많은 세부 사항이 제외된 대략적인 평균치라는 점에 유의할 필요가 있습니다. 저는 Anthropic의 모델에 대해서만 이야기할 수 있지만, 위에서 언급했듯이 Claude는 코딩과 사람들과 상호작용하는 방식(많은 사람들이 개인적인 조언이나 지원을 구하는 데 사용)이 매우 잘 설계되어 있습니다. 이러한 작업과 몇 가지 추가 작업에서 DeepSeek와 비교할 수 없습니다. 이러한 요소는 확장된 수치에는 나타나지 않습니다.

R1지난 주에 출시되어 광범위한 대중의 관심을 불러 일으킨 모델입니다 (NVIDIA 주가는 약 17% 하락했습니다.), 혁신이나 엔지니어링 관점에서 볼 때 V3만큼 흥미롭지 않습니다. 이전 섹션의 3번 항목에서 설명한 것처럼 두 번째 훈련 단계인 강화 학습을 추가하고 OpenAI가 o1에서 한 일을 본질적으로 복제합니다(비슷한 규모에서 비슷한 결과를 얻는 것 같습니다)^.8^. 그러나 확장 곡선의 초기 단계에 있기 때문에 강력한 사전 훈련된 모델로 시작하는 한 이러한 유형의 모델을 생산하는 여러 회사가있을 가능성이 높습니다. V3가 R1을 생산하는 데 매우 저렴하다는 점을 감안하면 말이죠. 따라서 당분간은 여러 회사가 좋은 추론 모델을 생산하는 흥미로운 '크로스오버 지점'에 있습니다. 모든 회사가 이러한 유형의 모델을 더 확장함에 따라 이러한 현상은 곧 멈출 것입니다.

수출 관리

이 모든 것은 저의 주요 관심사인 중국에 대한 칩 수출 규제의 서막에 불과합니다. 이러한 사실을 감안할 때 제가 바라보는 상황은 다음과 같습니다:

기업들은점점 더 많은 지출을 하고 있습니다.를 사용하여 주기적으로 커브가 바뀌고 훈련이상태를 미리수평적 모델 인텔리전스의 비용은 빠르게 감소하고 있습니다. 더 스마트한 모델 학습의 경제적 가치가 너무 커서 비용 대비 효과가 거의 즉시 나타나기 때문입니다.완전히 취소--원래 계획했던 막대한 비용으로 더 스마트한 모델을 만드는 데 재투자하고 있습니다. 미국 연구소에서는 아직 이를 발견하지 못했기 때문에, 딥시크가 개발한 효율성 혁신은 곧 미국과 중국의 연구소에서 수십억 달러 상당의 모델을 훈련하는 데 적용될 것입니다. 이러한 모델은 이전에 계획했던 수십억 달러 규모의 모델보다 더 나은 성능을 발휘할 것이지만, 여전히 수십억 달러의 비용이 들 것입니다. AI가 거의 모든 분야에서 거의 모든 인간보다 더 똑똑해지는 시점에 도달할 때까지 그 숫자는 계속 증가할 것입니다.
거의 모든 분야에서 거의 모든 인간보다 더 똑똑한 AI를 만들려면 수백만 개의 칩이 필요하고 최소 수백억 달러의 비용이 들며 2026~2027년에나 가능할 것으로 예상됩니다. 이번 DeepSeek의 출시는 이러한 계산에서 항상 고려되어 온 비용 절감 곡선에 거의 부합하기 때문에 이 사실을 바꾸지 않습니다.
즉, 2026~2027년에 우리는 매우 다른 두 가지 세상에 살게 될 수도 있습니다. 미국에서는 여러 회사가 수백억 달러의 비용을 들여 필요한 수백만 개의 칩을 확실히 확보할 것입니다. 문제는 중국도 수백만 개의 칩에 접근할 수 있을지 여부입니다.
- 만약 그들이 할 수 있다면 우리는북극과 남극세계, 미국과 중국은 모두 과학과 기술 분야에서 매우 빠른 발전을 가져올 강력한 AI 모델을 보유하고 있습니다.데이터 센터의 천재들이 모인 나라". 양극단의 세상이 항상 균형을 이루는 것은 아닙니다. 미국과 중국의 AI 시스템이 대등하더라도 중국은 기술의 군사적 응용에 더 많은 인재와 자본, 관심을 쏟을 수 있습니다. 대규모 산업 기반과 군사 전략적 이점을 결합하면 중국은 AI뿐만 아니라 모든 측면에서 글로벌 무대에서 우위를 점할 수 있습니다.
- 중국하지 않아야 합니다수백만 개의 칩을 확보하면 우리는 (적어도 일시적으로)단극세계에서는 미국과 그 동맹국만이 이러한 모델을 가지고 있습니다. 단극적 세계가 얼마나 오래 지속될지는 불분명하지만 적어도AI 시스템은 궁극적으로 더 스마트한 AI 시스템을 만드는 데 도움이 될 수 있으므로, 일시적인 우위가 지속적인 이점으로 이어질 수 있습니다.. 그 결과 미국과 그 동맹국들이 세계 무대에서 지배적이고 지속적인 주도권을 잡을 가능성이 높은 세계가 되었습니다.
엄격하게 시행되는 수출 통제는 중국의 수백만 개의 칩 확보를 막을 수 있는 유일한 방법이며, 따라서 우리가 단극의 세계에 살게 될지 양극의 세계에 살게 될지를 결정하는 가장 중요한 요소입니다.
딥시크의 성능이 수출 통제에 실패했다는 의미는 아닙니다. 위에서 말했듯이, 딥시크는 보통에서 많은 수의 칩을 보유하고 있기 때문에 강력한 모델을 개발하고 훈련할 수 있었다는 것은 놀라운 일이 아닙니다. 딥시크는 미국 AI 기업보다 리소스의 제약이 크지 않으며, 수출 통제가 '혁신'의 주요 요인도 아닙니다. 그들은 단지 매우 재능 있는 엔지니어들이며 중국이 왜 미국의 심각한 경쟁자인지를 보여줍니다.
딥시크는 또한 중국이 항상 밀수를 통해 필요한 칩을 확보할 수 있다거나 통제에 항상 허점이 있다는 것을 보여주지 않습니다. 수출 통제가 중국이 수만 개의 칩을 확보하지 못하도록 설계된 적이 없다고 생각합니다. 10억 달러의 경제 활동은 숨길 수 있지만 100억 달러 또는 심지어 100억 달러를 숨기기는 어렵고, 백만 개의 칩도 밀수하기 어려울 수 있습니다. 다시 한 번 말씀드리지만, 현재 딥시크가 보유하고 있다고 보고한 칩을 살펴보면 도움이 될 것입니다. SemiAnalysis에 따르면 H100, H800, H20이 혼합되어 있으며 총 50,000개에 달합니다. H100은 출시 이후 수출 통제가 금지되었기 때문에 DeepSeek가 보유하고 있다면 밀수를 통해 확보했을 것입니다(NVIDIA는이미 선언됨H800은 2022년 1차 수출 통제에서 허용되었지만 2023년 10월 통제 업데이트에서 금지되었으므로 금지 이전에 출하되었을 가능성이 높습니다. H20은 훈련에는 효율성이 떨어지고 샘플링에는 더 효율적입니다. --하지만 여전히 허용되고 있지만 금지되어야 한다고 생각합니다. 이 모든 것을 종합해 보면 딥시크의 AI 칩은 대부분 금지되지 않은(그러나 금지되었어야 하는) 칩, 금지 이전에 출하된 칩, 그리고 밀수되었을 가능성이 매우 높은 칩으로 구성되어 있다는 것을 알 수 있습니다. 이는 수출 통제가 실제로 효과가 있고 적응하고 있다는 것을 시사합니다. 즉, 허점이 폐쇄되고 있다는 뜻이고, 그렇지 않다면 최상위 등급의 H100을 모두 보유하고 있을 수도 있습니다. 만약 우리가 충분히 빨리 허점을 막을 수 있다면 중국이 수백만 개의 칩을 확보하는 것을 막을 수 있고, 미국이 주도하는 단극 세계의 가능성이 높아질 수 있습니다.

수출 통제와 미국 국가 안보에 대한 우려를 감안할 때 분명히 말씀드리고 싶습니다. 저는 딥시크를 그 자체로 적으로 보지 않으며, 특별히 딥시크에 초점을 맞추고 있지도 않습니다. 지금까지 인터뷰한 내용을 보면 그들은 유용한 기술을 만들려고 노력하는 똑똑하고 호기심 많은 연구자들처럼 보였습니다.

그러나 그들은 XX를 위반하고 세계 무대에서 공격적으로 행동하는 XXXX의 지배를 받고 있으며, 그들이 AI에서 미국과 맞먹을 수 있다면 그러한 행동에 더욱 자유로울 것입니다. 수출 통제는 이를 방지할 수 있는 가장 강력한 도구 중 하나이며, 기술 발전이더 강력한가격 대비 성능 비율더 큰를 수출 규제 해제의 명분으로 삼고 있는데, 이는 전혀 정당화될 수 없습니다.