DeepSeek, 현 단계에서 가장 강력한 코드(중국에서)를 갖춘 첫 번째 오픈 소스 버전의 v3 모델 출시

DeepSeek-V3는 총 6,710억 개의 파라미터와 각 토큰에 대해 37억 개의 파라미터가 활성화된 강력한 전문가 혼합 언어 모델(MoE, Mixture-of-Experts)입니다. 이 모델은 입증된 DeepSeekMoE 아키텍처와 함께 혁신적인 멀티 헤드 잠재 주의(MLA) 아키텍처를 사용하며, CogAgent는 보조 손실 없이 부하 분산 전략을 구현하고 다중 토큰 예측 학습 목표를 제안하여 모델 성능을 크게 향상시킵니다. 1,480만 개의 다양한 고품질 토큰으로 사전 학습되며, 잠재력을 최대한 활용하기 위해 감독된 미세 조정 및 강화 학습 단계를 거칩니다.
DeepSeek-V3는 여러 표준 벤치마크, 특히 수학 및 코드 작업에서 우수한 성능을 보여 현재 사용 가능한 가장 강력한 오픈 소스 기본 모델이며, 훈련 비용이 저렴하고 훈련 전반에 걸쳐 안정성이 높은 것으로 인정받고 있습니다.

어제 딥시크의 새로운 모델 시리즈인 딥시크-V3의 첫 번째 버전이 출시와 동시에 오픈소스로 공개되었습니다. chat.deepseek.com에 로그인하면 최신 버전의 V3 모델로 채팅할 수 있으며, API 서비스도 동시에 업데이트되어 인터페이스 구성을 변경할 필요가 없습니다. 현재 버전의 DeepSeek-V3는 멀티모달 입출력을 지원하지 않습니다.

성능 정렬 해외 선도적 오픈소스 모델

DeepSeek-V3는 14.8T에서 671B 매개변수와 37B 활성화를 지원하는 자체 개발 MoE 모델입니다. 토큰 사전 교육은 다음 사항에 대해 실시되었습니다.

논문 링크:

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

DeepSeek-V3는 여러 리뷰에서 Qwen2.5-72B 및 Llama-3.1-405B와 같은 다른 오픈 소스 모델보다 성능이 우수하며 세계 최고의 비공개 소스 모델인 GPT-4o 및 Claude-3.5-Sonnet의 성능과 비슷합니다.
DeepSeek 发布了 v3 模型的首个开源版本，现阶段拥有（国产）最强代码能力

백과사전식 지식지식 기반 작업(MMLU, MMLU-Pro, GPQA, SimpleQA)에 대한 DeepSeek-V3의 수준은 이전 모델인 DeepSeek-V2.5에 비해 크게 향상되었으며, 현재 최고 성능 모델인 Claude-3.5-Sonnet-1022에 근접합니다.
긴 텍스트평균적으로 딥서치-V3는 긴 텍스트 측정에서 DROP, FRAMES 및 LongBench v2에서 다른 모델보다 성능이 뛰어납니다.
코딩::DeepSeek-V3는 알고리즘 코드 포스에서 시중에 나와 있는 모든 비o1 모델보다 훨씬 앞서 있습니다.엔지니어링 클래스 코드 시나리오에서 Claude-3.5-Sonnet-1022를 근사화합니다(SWE-Bench Verified).
수학DeepSeek-V3는 미국 수학 경시대회(AIME 2024, MATH)와 전국 고등학교 수학 리그(CNMO 2024)에서 모든 오픈 소스 폐쇄 소스 모델을 크게 앞질렀습니다.
중국어 능력DeepSeek-V3는 교육 분야의 C-Eval 및 대명사 모호성 평가 세트에서 Qwen2.5-72B와 비슷한 성능을 보이지만 사실 지식 분야의 C-SimpleQA에서 더 발전했습니다.

최대 3배 빠른 생성

딥서치-V3는 알고리즘 및 엔지니어링 혁신을 통해 단어 생성 속도를 V2.5 모델에 비해 3배 증가한 20TPS에서 60TPS로 대폭 향상시켜 사용자에게 더 빠르고 원활한 경험을 제공합니다. DeepSeek 发布了 v3 模型的首个开源版本，现阶段拥有（国产）最强代码能力

API 서비스 가격 조정

더욱 강력하고 빨라진 DeepSeek-V3 업데이트가 출시됨에 따라 모델 API 서비스의 가격도 다음과 같이 조정됩니다.입력 토큰 백만 개당 0.5달러(캐시 히트) / 2달러(캐시 미스), 출력 토큰 백만 개당 8달러목표는 모두에게 지속적으로 더 나은 모델링 서비스를 제공할 수 있도록 하는 것입니다. DeepSeek 发布了 v3 模型的首个开源版本，现阶段拥有（国产）最强代码能力 동시에 새로운 모델에 45일간의 가격 인하를 제공하기로 결정했습니다. 지금부터 2025년 2월 8일까지 DeepSeek-V3의 API 서비스 가격은 기존과 동일하게 유지됩니다.입력 토큰 백만 개당 0.1(캐시 히트) / 1달러(캐시 미스), 출력 토큰 백만 개당 2달러위의 할인 요금은 기존 사용자와 이 기간 동안 등록하는 신규 사용자 모두에게 적용됩니다. DeepSeek 发布了 v3 模型的首个开源版本，现阶段拥有（国产）最强代码能力

오픈 소스 가중치 및 로컬 배포

DeepSeek-V3는 FP8 훈련과 오픈 소스 네이티브 FP8 가중치를 사용합니다. 오픈 소스 커뮤니티의 지원 덕분에 SGLang과 LMDeploy는 처음으로 V3 모델의 네이티브 FP8 추론을 지원하고, TensorRT-LLM과 MindIE는 BF16 추론을 구현합니다. 또한 커뮤니티의 편의를 위해 FP8에서 BF16으로 변환하는 스크립트를 제공하여 적용 시나리오를 조정하고 확장할 수 있도록 지원합니다.

모델 가중치 다운로드 및 자세한 로컬 배포 정보는 다음에서 확인할 수 있습니다:

https://huggingface.co/deepseek-ai/DeepSeek-V3-Base