DeepSeek-V3 모델 로우프로파일 업데이트, 코드 기능이 Claude-3.7로 향상되었습니다.

56.8K 00

기술 분야의 경쟁은 항상 치열합니다. 최근 중국 AI 스타트업 딥시크릿(DeepSeek)의 팀은 대규모 홍보 없이 로우키 방식으로 V3 기본 모델을 업데이트했으며, 새 버전은 DeepSeek-V3-0324 는 개발자가 다운로드하여 배포할 수 있도록 Hugging Face 플랫폼에 조용히 출시되었습니다. 이 업데이트의 인지도가 낮았음에도 불구하고 코드 기능 측면에서 크게 개선된 새 모델은 기술 커뮤니티에서 많은 관심과 열띤 토론을 불러일으켰습니다.

몇 시간 전, DeepSeek-AI는 2025년 3월 24일에 HuggingFace에 업로드된 업데이트된 버전의 DeepSeekV3, 버전 0324를 MIT 프로토콜을 사용하여 오픈소스화했습니다.

모델 구성 정보에 따르면 DeepSeekV3-0324는 여전히 256명의 라우팅 전문가와 각 전문가당 1명의 공유 전문가를 포함하는 MoE 그랜드 모델입니다. 토큰 추론에 8명의 전문가를 사용합니다. DeepSeekV3-0324는 RoPE를 통해 최대 163840(160K)의 컨텍스트 길이로 확장됩니다. 모델 어휘 크기는 129280개이며 LoRA 메커니즘을 통합하여 가벼운 미세 조정을 지원합니다.

이러한 매개변수 중 어느 것도 2024년 12월 26일에 출시된 DeepSeekV3에서 변경된 것이 없으므로 이번 업데이트는 원래 모델의 지속적인 학습 또는 사후 학습의 결과일 가능성이 높습니다.

코드 기능이 소스 벤치마크에 근접할 정도로 급증했습니다.

사용자들의 첫인상과 여러 테스트에 따르면 DeepSeek-V3-0324의 가장 눈에 띄는 개선 사항은 코드 생성 및 이해 기능입니다. 많은 테스터들은 수학적 추론 및 프런트엔드 개발과 같은 영역에서 새 버전이 심지어 Claude 소셜 미디어 플랫폼 X의 블로거 @KuittinenPetri는 DeepSeek-V3-0324를 사용하면 아름다운 HTML5, CSS 및 프론트 엔드 코드를 쉽고 무료로 만들 수 있다고 말하면서 더욱 솔직하게 말했죠. 인류학 와 OpenAI는 새로운 과제를 제시합니다.

예를 들어, 간단한 명령만으로 DeepSeek-V3-0324는 모든 요소를 단일 HTML5 파일에 통합하여 NexusAI라는 AI 회사를 위한 멋진 반응형 홈페이지를 생성할 수 있었습니다. 결과 코드는 958줄에 달했으며, 필요한 이미지 리소스까지 포함된 대화형 모바일 친화적인 웹사이트가 탄생했습니다. 쿠이티넨 페트리에 따르면, DeepSeek-V3-0324는 다음과 같습니다. DeepSeek 현재 사용 가능한 최고의 비추론 모델은 창의적인 글쓰기에 탁월할 뿐만 아니라 HTML5 + CSS + 프론트엔드 코드를 생성하는 데 있어서도 R1보다 훨씬 더 뛰어납니다. 또 다른 사용자는 DeepSeek-V3-0324를 사용하여 한 번에 800줄이 넘는 코드를 생성하는 웹사이트를 만들었는데, 사이트 레이아웃이 상당히 성공적이었습니다.

강력한 프로그래밍 잠재력을 보여주는 멀티 시나리오 실제 테스트

많은 연구원들이 DeepSeek-V3-0324의 프로그래밍 기능을 보다 완벽하게 평가하기 위해 다양한 시나리오로 테스트를 수행하고 이전 V3, Claude 3.7 및 o1 pro와 같은 모델과 비교했습니다. 테스트 결과는 프로그래밍 측면에서 새 버전의 V3가 크게 개선되었음을 입증했습니다.

텍스트를 시각화 페이지로 변환합니다: 텍스트 설명을 대화형 웹 페이지로 변환하는 테스트에서 DeepSeek-V3-0324는 이전 V3 버전에서 비약적인 발전을 보여주었습니다. 새 버전에서 생성된 웹 페이지는 콘텐츠가 더 풍부할 뿐만 아니라 사용자 인터페이스 디자인과 레이아웃이 크게 개선되어 Claude 3.5에서 3.7로 업그레이드된 것을 능가합니다. DeepSeek-V3-0324는 자세한 지침에 따라 PDF 파일의 내용을 웹 페이지의 아름다운 중국어 시각화로 변환할 수 있으며, 이는 종종 Claude 3.7의 강점 영역으로 간주되는 기능이라는 점에 주목할 가치가 있습니다.
3D 애니메이션을 생성합니다: JS 코드베이스에서 대화형 3D 프레젠테이션을 생성하는 테스트에서 새로운 V3는 초콜릿 제조 과정의 각 단계를 모델링하고 탭 상호 작용 및 사이드바를 지원할 수 있었습니다. Claude에 비해 아직 개선의 여지가 있지만, 이전 V3의 기능을 크게 뛰어넘는 수준입니다.
UI 컴포넌트 디자인: 일기 예보 UI 구성 요소 디자인 테스트에서 V3-0324는 애니메이션 성능과 날씨 텍스트 라벨링의 정확도가 향상되어 실용적인 사용자 인터페이스를 생성할 수 있음을 보여주었습니다.
물리적 세계 시뮬레이션: 회전하는 육각형 안에서 공이 튕기는 것을 시뮬레이션하는 테스트에서 DeepSeek-V3-0324는 공 충돌 효과를 정확하게 구현합니다. 아직 몇 가지 결함이 있지만 전반적인 성능은 이전 V3보다 우수하고 o1 프로와 비슷합니다.
AI 게임 생성: 가장 놀라운 점은, DeepSeek-V3-0324는 단 한 문장의 명령어로 음향 효과와 AI 지원 모드를 갖춘 플레이 가능한 픽셀 스네이크 게임을 생성한다는 것입니다. 복잡성과 완성도 면에서 Claude 3.7의 확장 사고 모드에는 미치지 못하지만, 완전한 기능을 갖춘 게임을 완성할 수 있다는 사실은 강력한 프로그래밍 기능을 입증하는 좋은 예라고 할 수 있습니다.

기술적 특징 및 비용 이점

DeepSeek-V3-0324는 아직 자세한 모델 카드를 공개하지 않았지만, 파라미터 크기가 6,850억 개에 달하는 것으로 알려져 있습니다. 한 가지 주목할 점은 DeepSeek V3가 하이브리드 전문가 모델링(MoE) 6,710억 개의 매개 변수가 있는 아키텍처이며, 이 중 추론 당 활성화되는 매개 변수는 370억 개에 불과합니다. (편집자 주: MoE 모델은 대규모 모델을 여러 개의 '전문가' 하위 네트워크로 분해하여 계산 비용과 지연 시간을 크게 줄이면서도 모델 성능을 유지합니다.) 기존 MoE 모델의 불균형한 전문가 부하 문제를 해결하기 위해 딥시큐어는 V3에서 다음과 같이 혁신적으로 제안합니다. 보조 손실 없는 부하 분산 전략 또한 V3는 "바이어스 용어"를 사용하여 전문가 부하를 동적으로 조정하여 모델 성능과 학습 효율성을 향상시킵니다. 또한 V3는 다음을 채택합니다. 노드 제한 라우팅 메커니즘 를 사용하여 대규모 분산 교육에서 통신 비용을 절감할 수 있습니다.

강력한 성능 외에도, DeepSeek-V3-0324는 편안한 MIT 오픈 소스 프로토콜을 이어갑니다. 더 중요한 것은 이 API가 OpenAI의 그것에 비해 경쟁력 있는 가격이라는 점입니다. o1-pro 최소 50배 이상 저렴합니다. Claude 3.7과 비교했을 때, DeepSeek v3는 투입 가격은 약 10분의 1, 출력 가격은 표준 가격의 약 13분의 1, 심지어 할인된 가격의 27분의 1에 불과합니다. 이러한 매력적인 가격 이점은 오픈 소스라는 특성과 결합되어 AI 프로그래밍의 대중화와 개발에 강력한 인센티브를 제공할 것입니다.

DeepSeek-V3-0324 모델 특징

DeepSeek-V3-0324는 몇 가지 주요 영역에서 이전 버전인 DeepSeek-V3에 비해 크게 개선되었습니다.

추론 능력이 향상됩니다:
- MMLU-Pro: 75.9 → 81.2(+5.3)
- GPQA: 59.1 → 68.4(+9.3)
- 시간대: 39.6 → 59.4(+19.8)
- 라이브코드벤치: 39.2 → 49.2 (+10.0)
향상된 프런트엔드 웹 개발 기능:
- 코드 실행 개선
- 웹 및 게임 프런트엔드의 미적 만족도 향상
중국어 작문 실력 향상:
- 스타일과 콘텐츠의 품질이 향상되었습니다:
  - R1 글쓰기 스타일에 더 가깝게
  - 중간 길이의 글쓰기 품질 향상
- 기능 향상
  - 다라운드 대화형 재작성 기능 개선
  - 번역 및 서신 품질 최적화
중국어 검색 기능 개선:
- 보고서 분석 요청에 대한 더 자세한 출력
함수 호출 기능이 개선되었습니다:
- 함수 호출 정확도 향상, V3 버전의 레거시 문제 수정

사용 권장 사항

시스템 프롬프트

특정 날짜가 포함된 동일한 시스템 알림이 공식 DeepSeek 웹/앱에서 사용됩니다.

该助手为DeepSeek Chat，由深度求索公司创造。
今天是{current date}。

예시:

该助手为DeepSeek Chat，由深度求索公司创造。
今天是3月24日，星期一。

온도 매개변수 설정

DeepSeek 웹 및 애플리케이션 환경에서는 온도 매개변수(T_모델)는 0.3으로 설정되어 있습니다. 많은 사용자가 API 호출에서 기본 온도인 1.0을 사용한다는 점을 고려하여 DeepSeek는 API 온도(T_api) 매핑 메커니즘은 API 입력 온도 값 1.0을 가장 적절한 모델 온도 설정인 0.3으로 조정합니다.

T_모델 = T_api × 0.3 (0 ≤ T_api ≤ 1)

T_모델 = T_api - 0.7 (1 < T_api ≤ 2)

따라서 API를 통해 V3를 호출하는 경우 온도 1.0은 모델 온도 0.3에 해당합니다.

파일 업로드 및 웹 검색을 위한 프롬프트

파일 업로드의 경우 아래 템플릿에 따라 프롬프트를 작성합니다. {file_name}및{file_content} 노래로 응답 {question} 를 매개변수로 지정할 수 있습니다.

file_template = \
"""[file name]: {file_name}
[file content begin]
{file_content}
[file content end]
{question}"""

웹 검색의 경우.{search_results}및{cur_date} 노래로 응답 {question} 를 매개변수로 지정할 수 있습니다.

중국어 쿼리 프롬프트:

search_answer_zh_template = \
'''# 以下内容是基于用户发送的消息的搜索结果:
{search_results}
在我给你的搜索结果中，每个结果都是[webpage X begin]...[webpage X end]格式的，X代表每篇文章的数字索引。请在适当的情况下在句子末尾引用上下文。请按照引用编号[citation:X]的格式在答案中对应部分引用上下文。如果一句话源自多个上下文，请列出所有相关的引用编号，例如[citation:3][citation:5]，切记不要将引用集中在最后返回引用编号，而是在答案对应部分列出。
在回答时，请注意以下几点：
- 今天是{cur_date}。
- 并非搜索结果的所有内容都与用户的问题密切相关，你需要结合问题，对搜索结果进行甄别、筛选。
- 对于列举类的问题（如列举所有航班信息），尽量将答案控制在10个要点以内，并告诉用户可以查看搜索来源、获得完整信息。优先提供信息完整、最相关的列举项；如非必要，不要主动告诉用户搜索结果未提供的内容。
- 对于创作类的问题（如写论文），请务必在正文的段落中引用对应的参考编号，例如[citation:3][citation:5]，不能只在文章末尾引用。你需要解读并概括用户的题目要求，选择合适的格式，充分利用搜索结果并抽取重要信息，生成符合用户要求、极具思想深度、富有创造力与专业性的答案。你的创作篇幅需要尽可能延长，对于每一个要点的论述要推测用户的意图，给出尽可能多角度的回答要点，且务必信息量大、论述详尽。
- 如果回答很长，请尽量结构化、分段落总结。如果需要分点作答，尽量控制在5个点以内，并合并相关的内容。
- 对于客观类的问答，如果问题的答案非常简短，可以适当补充一到两句相关信息，以丰富内容。
- 你需要根据用户要求和回答内容选择合适、美观的回答格式，确保可读性强。
- 你的回答应该综合多个相关网页来回答，不能重复引用一个网页。
- 除非用户要求，否则你回答的语言需要和用户提问的语言保持一致。
# 用户消息为：
{question}'''

영어 문의 프롬프트:

search_answer_en_template = \
'''# The following contents are the search results related to the user's message:
{search_results}
In the search results I provide to you, each result is formatted as [webpage X begin]...[webpage X end], where X represents the numerical index of each article. Please cite the context at the end of the relevant sentence when appropriate. Use the citation format [citation:X] in the corresponding part of your answer. If a sentence is derived from multiple contexts, list all relevant citation numbers, such as [citation:3][citation:5]. Be sure not to cluster all citations at the end; instead, include them in the corresponding parts of the answer.
When responding, please keep the following points in mind:
- Today is {cur_date}.
- Not all content in the search results is closely related to the user's question. You need to evaluate and filter the search results based on the question.
- For listing-type questions (e.g., listing all flight information), try to limit the answer to 10 key points and inform the user that they can refer to the search sources for complete information. Prioritize providing the most complete and relevant items in the list. Avoid mentioning content not provided in the search results unless necessary.
- For creative tasks (e.g., writing an essay), ensure that references are cited within the body of the text, such as [citation:3][citation:5], rather than only at the end of the text. You need to interpret and summarize the user's requirements, choose an appropriate format, fully utilize the search results, extract key information, and generate an answer that is insightful, creative, and professional. Extend the length of your response as much as possible, addressing each point in detail and from multiple perspectives, ensuring the content is rich and thorough.
- If the response is lengthy, structure it well and summarize it in paragraphs. If a point-by-point format is needed, try to limit it to 5 points and merge related content.
- For objective Q&A, if the answer is very brief, you may add one or two related sentences to enrich the content.
- Choose an appropriate and visually appealing format for your response based on the user's requirements and the content of the answer, ensuring strong readability.
- Your answer should synthesize information from multiple relevant webpages and avoid repeatedly citing the same webpage.
- Unless the user requests otherwise, your response should be in the same language as the user's question.
# The user's message is:
{question}'''

로컬 실행 방법

DeepSeek-V3-0324의 모델 구조는 DeepSeek-V3와 동일합니다. 이 모델을 로컬에서 실행하는 방법에 대한 자세한 내용은 DeepSeek-V3 코드 리포지토리.

이 모델은 함수 호출, JSON 출력 및 FIM 완성과 같은 기능을 지원합니다. 이러한 기능을 사용하기 위한 프롬프트를 작성하는 방법에 대한 지침은 DeepSeek-V2.5 코드 리포지토리.

DeepSeek-V3-0324는 기술 업계에서 많은 관심을 끌었던 로우키 업데이트입니다. 여러 프로그래밍 작업에서 강점을 보일 뿐만 아니라 어떤 면에서는 Claude 3.5/3.7 Sonnet과 같은 최고 모델에 필적하는 코딩 기능에서 인상적인 진전을 이루었습니다. 오픈 소스이며 효율적이고 비용 효율적인 특성은 미래에 대한 좋은 징조입니다. AI 프로그래밍의 보편화 시대가 가속화될 수 있습니다. DeepSeek. 더 많은 타사 플랫폼이 새로운 V3 버전의 DeepSeek에 연결됨에 따라 개발자와 사용자 모두 더 저렴한 비용으로 고급 AI 프로그래밍 기능을 경험할 수 있게 될 것입니다. 이는 의심할 여지 없이 전체 AI 생태계에 새로운 활력을 불어넣고 더욱 혁신적인 애플리케이션의 출현을 촉진할 것입니다. 강력한 코드 기능인 V3와 최고의 추론 기능인 R1을 갖춘 DeepSeek의 향후 R2 모델은 기대해도 좋을 것입니다.

이번 DeepSeekV3의 업데이트는 중국의 AI 기술이 빠르게 발전하고 따라잡고 있음을 다시 한 번 증명합니다. DeepSeek-V3-0324의 오픈 소스 및 무료 상용 라이선스 전략은 의심할 여지없이 더 많은 개발자와 기업이 AI 애플리케이션 개발 대열에 합류하도록 유도하고 AI 기술의 발전과 인기를 공동으로 촉진할 것입니다.