딥서치 토론: 중국의 비용 리더십, 실제 교육 비용, 비공개 소스 모델의 수익 영향력

34.9K 00

키워드: h100 가격 급등, 보조금 추론 가격, 수출 통제, MLA

딥시크의 내러티브가 세계를 강타하다

DeepSeek 전 세계를 강타하고 있습니다. 지난 한 주 동안 전 세계 모든 사람들이 딥시크에 대해 이야기하고 싶어하는 유일한 주제였습니다. 현재 딥시크의 일일 트래픽은 클로드, 퍼플렉시티, 심지어 제미니보다 훨씬 더 많습니다.

하지만 이 분야를 면밀히 주시하는 분들에게는 '새로운' 뉴스가 아닙니다. 우리는 몇 달 전부터 딥시크에 대해 이야기해 왔습니다(모든 링크는 예시입니다). 이 회사는 새롭지는 않지만, 과대 광고가 많았고 SemiAnalysis는 오랫동안 DeepSeek가 매우 재능이 있으며 더 많은 미국 대중은 신경 쓰지 않는다고 주장해 왔습니다. 마침내 세상이 주목하기 시작했을 때, 현실을 반영하지 않은 과대 광고에 열광한 것이죠.

스케일링 법칙이 깨진 지난 달과는 달라졌다는 점을 강조하고 싶고, 현재 알고리즘이 너무 빠르게 개선되고 있다는 오해를 불식시켰으며, 이는 어떤 면에서는 엔비디아와 GPU에도 좋지 않은 영향을 미칩니다.

배경: 2024년 12월 11일 스케일링 법칙 - O1 Pro 아키텍처, 추론 훈련 인프라, Orion 및 Claude 3.5 작품 "실패"

이제 딥시크가 너무 효율적이어서 더 이상의 계산이 필요하지 않으며, 모델 변경으로 인해 모든 것에 엄청난 과잉 생산이 발생했다는 이야기입니다. 제본스 패러독스도 과장된 측면이 있지만, 제본스는 현실에 더 가깝고 이 모델들이 수요를 유도하여 H100과 H200의 가격에 가시적인 영향을 미쳤습니다.

딥서치 및 하이플라이어

하이플라이어는 중국 헤지펀드로, 트레이딩 알고리즘에 AI를 사용하는 얼리 어답터입니다. 이들은 금융 외 분야에서 AI의 잠재력과 스케일링의 핵심 인사이트를 일찍이 깨달았습니다. 그 결과 GPU 공급을 늘리고 있습니다. 수천 개의 GPU 클러스터를 사용해 모델을 실험한 후, 하이 플라이어는 수출 규제가 시작되기 전인 2021년에 10,000개의 A100 GPU에 투자했습니다*. * 이는 성과를 거두었습니다. 하이플라이어의 실적이 개선됨에 따라 2023년 5월, 하이플라이어는 보다 집중적인 방식으로 AI 역량을 강화하기 위해 '딥시크'를 분사할 때가 되었다는 것을 깨달았습니다. 당시에는 외부 투자자들의 AI에 대한 관심이 거의 없었고 비즈니스 모델의 부재가 가장 큰 문제였기 때문에 하이플라이어는 자체적으로 자금을 조달하여 회사를 설립했습니다. 하이플라이어와 딥시크는 현재 인적 자원과 전산 자원을 공유하고 있습니다.

딥시크는 이제 많은 언론에서 주장하는 '부업'과는 거리가 먼 진지하고 협력적인 노력으로 발전했습니다. 수출 통제를 고려하더라도 GPU 투자 규모는 5억 달러가 넘는 것으로 추정됩니다.

출처: SemiAnalysis, Lennart Heim.

GPU 상황

약 50,000명이 사용할 수 있을 것으로 예상됩니다. 호퍼 GPU이는 일부 사람들이 주장하는 50,000대의 H100과는 다르며, Nvidia는 다양한 규정을 준수하기 위해 다양한 H100 모델(H800, H20)을 만들고 있으며 현재 중국에서는 H20만 모델 공급업체에서 사용할 수 있습니다. H800은 H100과 컴퓨팅 성능은 동일하지만 네트워크 대역폭이 더 낮다는 점에 유의하세요.

딥시크는 약 10,000개의 H800과 약 10,000개의 H100을 사용할 수 있을 것으로 예상하고 있습니다. 또한 H20을 더 주문했고, 엔비디아는 지난 9개월 동안 중국 전용 GPU를 100만 개 이상 생산했습니다. 이러한 GPU는 하이플라이어와 딥시크가 공유하며 지역적으로 어느 정도 분산되어 있습니다. 거래, 추론, 트레이닝에 사용됩니다. 트레이딩, 추론, 트레이닝, 연구에 사용됩니다. 보다 구체적이고 자세한 분석은 가속기 모델을 참조하세요.

출처: SemiAnalysis

분석 결과, 딥시크의 총 서버 설비 투자액은 약 16억 달러이며, 이러한 클러스터 운영과 관련된 비용은 9억 4,400만 달러에 달하는 것으로 나타났습니다. 마찬가지로 모든 AI 랩과 하이퍼스케일러는 리소스 풀링이 어렵기 때문에 단일 트레이닝 실행에 투입하는 것보다 연구 및 트레이닝을 포함한 다양한 작업에 더 많은 GPU를 사용합니다. x.AI는 모든 GPU를 한 곳에 배치한 독특한 AI 랩입니다.

DeepSeek는 이전 자격에 관계없이 역량과 호기심에 중점을 두고 중국에서 인재를 소싱하는 데 특화되어 있으며, 많은 직원이 졸업한 북경과 절강 등의 명문 대학에서 정기적으로 채용 행사를 개최하고 있습니다. 직책이 반드시 미리 정해져 있지 않고 채용 담당자에게 유연성을 부여하며, 심지어 10,000개 이상의 GPU에 대한 사용 제한이 없는 채용 광고도 있습니다. 경쟁이 매우 치열하여 유망한 후보자에게 130만 달러가 넘는 연봉을 제공하는 것으로 알려졌으며, 이는 중국의 대형 기술 기업이나 Moonshot과 같은 AI 연구소보다 훨씬 높은 수준입니다. 직원 수는 약 150명 정도이지만 빠르게 성장하고 있습니다.

역사적으로 볼 때 자금이 풍부하고 집중력이 뛰어난 소규모 스타트업은 종종 가능성의 한계를 뛰어넘을 수 있습니다. DeepSeek는 Google과 같은 회사의 관료주의가 없으며 자체 자금으로 운영되기 때문에 아이디어를 빠르게 추진할 수 있습니다. 그러나 Google과 마찬가지로 DeepSeek는 (대부분) 자체 데이터 센터를 운영하며 외부 업체나 제공업체에 의존하지 않습니다. 따라서 실험을 위한 더 많은 공간을 확보하고 전체 스택에 걸쳐 혁신을 이룰 수 있습니다.

메타의 라마, 미스트랄 등을 제치고 현재 최고의 '오픈 웨이트' 연구소라고 생각합니다.

DeepSeek의 비용 및 성능

이번 주에는 DeepSeek의 가격 및 효율성이 화제가 되었는데, 주요 헤드라인은 DeepSeek V3의 '600만 달러' 교육 비용이었습니다. 이는 잘못된 정보입니다. 이는 제품 자재 명세서의 특정 부분을 가리키며 전체 비용으로 간주하는 것과 비슷합니다. 사전 교육 비용은 전체 비용에서 매우 작은 부분입니다.

교육 비용

사전 교육 수치는 모델에 대한 실제 지출과는 거리가 멀다고 생각합니다. 유니티는 지금까지 하드웨어에 5억 달러 이상을 지출한 것으로 추정됩니다. 새로운 아키텍처 혁신을 개발하기 위해 모델 개발 과정에서 새로운 아이디어, 새로운 아키텍처 아이디어를 테스트하고 제거하는 데 상당한 비용이 지출됩니다. 딥시크의 핵심 혁신인 멀티헤드 잠재주의는 개발하는 데 수개월이 걸렸고, 전체 팀 인력과 GPU 시간이 소요되었습니다.

이 논문의 600만 달러 비용은 사전 학습 실행의 GPU 비용에 기인한 것으로, 전체 모델 비용의 일부에 불과합니다. R&D 및 하드웨어 자체의 TCO와 같은 퍼즐의 중요한 부분은 포함되지 않았습니다. 참고로 Claude 3.5 Sonnet은 훈련하는 데 수천만 달러가 들었고, 이것이 Anthropic에 필요한 전부였다면 Google로부터 수십억 달러, Amazon으로부터 수백억 달러를 모금하지 않았을 것입니다. 실험하고, 새로운 아키텍처를 개발하고, 데이터를 수집 및 정리하고, 직원들에게 급여를 지급하는 등의 작업을 해야 하기 때문입니다.

그렇다면 어떻게 딥시크가 이렇게 큰 클러스터를 보유할 수 있었을까요? 수출 통제의 지연이 핵심이며 아래 수출 섹션에서 설명합니다.

격차 줄이기 - V3 성능

V3는 의심할 여지없이 인상적인 모델이지만 다음과 같은 점을 강조할 가치가 있습니다. 인상적인 것과는 정반대입니다.많은 사람들이 V3를 GPT-4o와 비교했습니다. 많은 사람들이 V3와 GPT-4o를 비교하며 V3가 어떻게 4o의 성능을 능가하는지 강조했습니다. 이는 사실이지만 GPT-4o는 2024년 5월released.AI는 빠르게 진화하고 있으며 2024년 5월은 알고리즘 개선의 또 다른 시대가 될 것입니다. 또한, 주어진 시간이 지나면 더 적은 계산으로 비슷하거나 더 큰 성능을 달성하는 것도 놀랄 일이 아닙니다. 추론 비용의 붕괴는 AI 개선의 신호입니다.

출처: SemiAnalysis

한 가지 예로, 노트북에서 실행할 수 있는 작은 모델은 학습을 위해 슈퍼컴퓨터와 추론을 위해 여러 대의 GPU가 필요한 GPT-3와 비슷한 성능을 가지고 있습니다. 즉, 알고리즘 개선으로 동일한 기능을 가진 모델을 훈련하고 추론하는 데 더 적은 계산을 할 수 있으며, 패턴이 반복적으로 작동합니다. 이번에 전 세계가 주목한 이유는 바로 sino 연구실처럼 말이죠. 하지만 더 작은 모델이 개선되는 것은 새로운 일이 아닙니다.

출처: SemiAnalysis, Artificialanalysis.ai, 아나킨.ai, a16z

지금까지 우리가 목격한 패턴은 AI 연구소가 더 많은 절대 비용을 지출하고 있다는 것입니다. 더 보기 앤트로픽의 지능. 알고리즘의 발전은 매년 4배로 추정되며, 이는 매년 같은 성능을 달성하는 데 4배의 계산만 필요하다는 의미입니다. Anthropic의 CEO인 Dario는 알고리즘의 발전 속도가 훨씬 더 빨라져 10배의 개선이 이루어질 것이라고 믿습니다. GPT-3 품질 추론 가격 책정의 경우 비용이 1200배나 떨어졌습니다.

GPT-4의 비용을 조사할 때 곡선의 초기에는 비용이 비슷하게 감소하는 것을 볼 수 있습니다. 시간 경과에 따른 비용 차이의 감소는 위의 그래프에서와 같이 용량을 더 이상 일정하게 유지하지 않는 것으로 설명할 수 있습니다. 이 경우 알고리즘 개선과 최적화를 통해 비용은 10배 감소하고 용량은 10배 증가했음을 알 수 있습니다.

출처: SemiAnalysis, OpenAI, 함께.ai

분명히 말하자면, 딥시크는 애초에 이 수준의 비용과 기능을 달성했다는 점에서 독특합니다. 오픈 가중치를 출시하는 것은 독특하지만, 이전에는 미스트랄 그리고 과거에 Llama 모델이 이를 달성한 바 있습니다.DeepSeek는 이 수준의 비용을 달성했지만 연말까지 비용이 5배 더 떨어지더라도 놀라지 마세요.

R1의 성능이 o1의 성능과 비슷한가요?

반면에 R1은 9월에야 발표된 o1과 비슷한 성과를 달성할 수 있었는데, 어떻게 딥시크가 이렇게 빠르게 따라잡을 수 있었을까요?

추론은 반복이 빠르고 목표를 달성하기 쉬운 새로운 패러다임으로, 이전 패러다임에 비해 적은 양의 계산으로도 의미 있는 이득을 얻을 수 있다는 것이 그 해답입니다. 확장 법칙 보고서에서 설명한 것처럼 이전 패러다임은 사전 학습에 의존했는데, 이는 점점 더 비용이 많이 들고 강력한 이득을 얻기가 어려워지고 있습니다.

새로운 패러다임은 기존 모델에 대한 사후 학습에서 합성 데이터 생성 및 강화 학습을 통해 추론 기능을 구현하는 데 중점을 두어 더 낮은 비용으로 더 빠른 이득을 얻을 수 있도록 합니다. 간단한 최적화와 함께 진입 장벽이 낮기 때문에 딥시크는 평소보다 더 빠르게 o1 접근 방식을 복제할 수 있습니다. 참가자들이 이 새로운 패러다임에서 더 많은 확장 방법을 알아내면서 매칭 기능의 시간 격차는 더 커질 것으로 예상됩니다.

R1 논문 언급되지 않음 계산이 사용되었습니다. R1의 사후 학습에 사용되는 합성 데이터를 생성하는 데는 많은 계산이 필요합니다. 여기에는 강화 학습이 포함되지 않습니다. R1이 매우 훌륭한 모델이라는 점에는 이견이 없으며, 추론 우위를 이렇게 빨리 따라잡는 것은 객관적으로 인상적입니다. DeepSeek가 중국인이고 더 적은 자원으로 따라잡았다는 사실이 더욱 인상적입니다.

하지만 R1이 언급하는 벤치마크 중 일부는 다음과 같습니다. 오해의 소지가 있는. R1은 앞서지 않는 벤치마크를 구체적으로 언급하지 않기 때문에 R1과 o1을 비교하는 것은 까다롭습니다. R1은 추론 성능에서는 일치하지만 모든 메트릭에서 확실한 승자는 아니며 많은 경우 o1보다 열등합니다.

출처: (아직) 또 다른 흥망성쇠 이야기. DeepSeek R1

o3는 R1이나 o1보다 훨씬 더 뛰어난 성능을 발휘합니다. 실제로 OpenAI는 최근 벤치마크 스케일링이 수직으로 진행된 o3의 결과를 공유했습니다. "딥러닝이 벽에 부딪혔다"라고 말하지만, 그 방식은 다릅니다.

출처: AI 액션 서밋

R1만큼 우수한 Google의 추론 모델

R1에 대한 열광적인 과대 광고가 쏟아지는 동안, 한 달 전 2조 5천억 달러 규모의 미국 기업이 더 저렴한 추론 모델을 출시했습니다: Google의 쌍둥이자리 플래시 2.0 사고. 이 모델을 사용할 수 있으며 API를 통해 액세스할 수 있습니다. R1보다 훨씬 저렴합니다.를 사용하여 모델의 컨텍스트 길이가 더 긴 경우에도 마찬가지입니다.

벤치마크가 모든 것을 말해주지는 않지만, 보고된 벤치마크에서 플래시 2.0 Thinking이 R1을 앞섰습니다. 구글은 3개의 벤치마크만 공개했기 때문에 불완전한 그림입니다. 그럼에도 불구하고 Google의 모델은 견고하고 여러 면에서 R1과 경쟁할 수 있지만 과대 광고의 대상이 되지는 않는다고 생각합니다. 이는 구글의 시장 진입 전략이 부족하고 사용자 경험이 좋지 않기 때문일 수도 있지만, 중국에서도 R1은 깜짝 놀랄만한 제품이었습니다.

출처: SemiAnalysis

분명하게 말하지만, 이 모든 것이 빠르게 성장하고, 자금력이 풍부하며, 스마트하고 집중력 있는 스타트업으로서 추론 모델을 게시하는 데 있어 확률을 뛰어넘는 구조를 가진 DeepSeek의 우수성을 떨어뜨리는 것은 아닙니다. 메타 및 다른 거대 기업들을 칭찬할 만한 이유가 있습니다.

기술적 성과

딥시크는 암호를 해독하고 선도적인 연구소들이 아직 실현하지 못한 혁신을 실현했습니다. 앞으로 출시될 딥시크의 모든 개선 사항은 서구 연구소에서 거의 즉시 복제될 것으로 예상합니다.

어떤 개선 사항이 있나요? 대부분의 아키텍처 성과는 특히 R1의 기본 모델이기도 한 V3와 관련이 있습니다. 이러한 혁신에 대해 좀 더 자세히 설명해 보겠습니다.

교육(사전 및 사후 교육)

DeepSeek V3는 전례 없는 규모의 다중 토큰 예측(MTP)은 단일 토큰 대신 다음 몇 개의 토큰을 예측하는 주의 모듈을 추가하여 훈련 중 모델 성능을 개선하고 추론 중에 폐기할 수 있습니다. 이는 더 적은 계산 노력으로 향상된 성능을 달성하는 알고리즘 혁신의 한 예입니다.

훈련 시 FP8 정확도와 같은 다른 주의 사항도 있지만, 미국의 주요 연구소에서는 한동안 FP8 훈련을 해왔습니다.

딥시크 v3는 또한 하이브리드 전문가 모델로, 서로 다른 분야에 특화된 여러 소규모 전문가로 구성된 대규모 모델이며, 이는 일종의 긴급 행동입니다. MoE 모델이 직면한 과제 중 하나는 어떤 토큰이 어떤 하위 모델 또는 "전문가"에게 전달되는지 결정하는 방법입니다. 딥시크는 모델 성능에 영향을 주지 않으면서 균형 잡힌 방식으로 토큰을 올바른 전문가에게 라우팅하는 "게이트 네트워크"를 구현합니다. 즉, 라우팅이 매우 효율적이며 각 토큰은 모델의 전체 규모에 비해 훈련 중에 몇 개의 파라미터만 변경됩니다. 따라서 학습 효율성이 향상되고 추론 비용이 낮아집니다.

하이브리드 전문가(MoE)의 효율성 향상으로 인해 투자가 줄어들 수 있다는 우려에도 불구하고, Dario는 더 강력한 AI 모델의 경제성이 매우 뛰어나기 때문에 절감된 비용은 더 큰 모델을 구축하는 데 빠르게 재투자된다고 지적하며, MoE의 효율성 향상은 전체 투자를 줄이는 것이 아니라 오히려 AI 확장 노력을 가속화한다고 강조합니다. 이러한 기업들은 알고리즘을 통해 모델을 더 많은 계산으로 확장하고 더 효율적으로 만드는 데 집중합니다.

R1의 경우, 강력한 기본 모델(v3)을 보유함으로써 이점을 얻었는데, 이는 부분적으로 강화 학습(RL) 덕분입니다. 이는 부분적으로 강화 학습(RL) 덕분인데, 강화 학습은 형식화(일관된 결과물을 제공하기 위한)와 유용성 및 무해성(모델이 유용한지 확인하기 위한)이라는 두 가지 주요 초점을 가지고 있습니다. 추론 능력은 모델을 미세 조정하는 동안 합성 데이터 세트에서 나타납니다. 이.스케일링 법칙 문서에 설명된 대로이것이 바로 o1에서 일어난 일입니다. R1 논문에는 계산에 대한 언급이 없는데, 이는 얼마나 많은 계산이 사용되었는지를 언급하면 서술에서 암시하는 것보다 더 많은 GPU가 사용되었음을 의미하기 때문입니다. 이 정도 규모의 RL은 특히 합성 데이터를 생성하는 데 많은 연산이 필요합니다.

또한, DeepSeek에서 사용하는 데이터 중 일부는 OpenAI의 모델에서 나온 것으로 보이며, 이는 결과물에서 추출하는 전략에 영향을 미칠 것으로 예상됩니다. 이는 이미 TOS에서 불법이지만, 앞으로는 추출을 차단하기 위한 KYC(고객 파악)의 한 형태가 새로운 트렌드가 될 수 있습니다.

추출에 관해 말하자면, R1 논문에서 가장 흥미로운 부분은 추론 모델의 출력을 사용해 비추론 미니 모델을 추론 모델로 변환하여 미세 조정할 수 있다는 점입니다. 데이터 세트 관리에는 총 80만 개의 샘플이 포함되어 있으며, 이제 누구나 R1의 CoT 출력을 사용하여 자신만의 데이터 세트를 만들고 그 출력의 도움으로 추론 모델을 만들 수 있습니다. 앞으로 더 많은 소규모 모델에서 추론 기능을 시연할 수 있게 되어 소규모 모델의 성능이 향상될 것으로 보입니다.

다단계 주의(MLA)

MLA는 DeepSeek의 추론 가격을 크게 낮춘 핵심 혁신입니다. 그 이유는 표준 주의에 비해 MLA는 쿼리당 필요한 KV 캐싱의 양을 약 50%까지 줄여주기 때문입니다. 93.3%KV 캐시는 트랜스포머 대화의 맥락을 나타내는 데이터를 저장하는 모델의 메모리 메커니즘으로, 불필요한 계산을 줄여줍니다.

확장 법칙 문서에서 설명한 대로 대화 컨텍스트가 커짐에 따라 KV 캐시가 증가하여 상당한 메모리 제한이 생깁니다. 쿼리당 필요한 KV 캐시의 양을 크게 줄이면 쿼리당 필요한 하드웨어의 양이 줄어들어 비용을 절감할 수 있습니다. 그러나 우리는 딥시크가 실제로 돈을 벌지 않고 시장 점유율을 높이기 위해 원가로 추론을 제공하고 있다고 생각합니다. 구글 제미니 플래시 2 사고는 여전히 저렴하며 구글은 원가로 제공하지 않을 것입니다. 특히 MLA는 많은 미국 주요 연구소의 관심을 끌고 있습니다. MLA는 2024년 5월에 출시될 예정인 DeepSeek V2에서 공개됩니다. 또한, 딥시크는 H20의 더 높은 메모리 대역폭과 용량으로 인해 H100에 비해 H20의 추론 워크로드 효율성이 더 높습니다. 또한 화웨이와의 파트너십을 발표했지만, 아직까지 어센드 컴퓨팅에 대한 작업은 거의 이루어지지 않았습니다.

특히 수익에 미치는 영향과 이것이 생태계 전체에 미치는 영향이 가장 흥미롭습니다. 아래에서는 AI 산업 전반의 미래 가격 구조를 살펴보고, 딥시크가 가격을 보조하고 있다고 생각하는 이유와 제본스 패러독스의 초기 징후가 나타나는 이유를 자세히 설명합니다. 또한 수출 통제에 미치는 영향, 딥시크의 지배력이 커짐에 따라 중국 정부가 어떻게 대응할지 등에 대해서도 설명합니다.