라마 4 시리즈 출시: 네이티브 멀티모달 AI 혁신의 새로운 시작?

40.9K 00

Meta는 2025년 4월 5일에 대규모 언어 모델인 Llama 제품군의 최신 버전인 Llama 4를 출시하여 AI, 특히 네이티브 멀티모달리티 및 모델 아키텍처에서 상당한 발전을 이루었습니다. 이번 릴리스의 중심에는 Llama 4 Scout 및 Llama 4 Maverick 모델과 이 기술을 뒷받침하는 거대한 '교사' 모델인 Llama 4 Behemoth의 프리뷰가 있습니다. 이러한 움직임은 업계 최고의 모델을 따라잡고 그 성능을 능가하려는 Meta의 노력을 보여줄 뿐만 아니라 오픈 소스 AI 생태계를 주도하려는 전략을 이어가고 있습니다.

핵심 모델인 Llama 4 시리즈 개요

Meta는 개발자와 애플리케이션을 위한 두 가지 모델의 Llama 4 시리즈를 출시합니다:

라마 4 스카우트이 모델에는 170억 개의 활성 파라미터와 16명의 전문가, 총 1,090억 개의 파라미터가 있습니다. 가장 큰 특징은 이전의 모든 라마 모델을 능가하는 동급 최고의 멀티모달 기능입니다. 더욱 놀라운 점은 최대 천만 개까지 지원한다는 것입니다. 토큰 컨텍스트 창으로, 라마 3의 128K를 훨씬 뛰어넘습니다. 메타는 이 모델이 구글의 젬마 3 및 쌍둥이자리 2.0 플래시 라이트 및 미스트랄 AI (명목식 형태로 사용됨) 미스트랄 3.1 및 Int4로 정량화되어 단일 NVIDIA H100 GPU에 배포되어 효율성에 중점을 두고 있습니다.
라마 4 매버릭170억 개의 활성 파라미터를 보유하고 있으며 128명의 전문가와 4,000억 개의 총 파라미터를 갖추고 있습니다. 동급 최고의 멀티모달 모델로 자리매김한 매버릭은 OpenAI의 GPT-4o와 Google의 Gemini 2.0 Flash에 도전하는 것을 목표로 하고 있습니다. Meta가 발표한 데이터에 따르면 매버릭은 여러 벤치마크에서 우수한 성능을 보였으며 추론 및 코딩 능력 측면에서 활성 매개변수보다 2배 더 많은 매개변수를 보유하고 있는 것으로 나타났습니다. DeepSeek v3 . 채팅의 실험용 버전은 다음에서 사용할 수 있습니다. LMArena 리더보드에서 1417점의 ELO 점수를 받아 대화 기능의 잠재력을 보여주었습니다. 이 모델은 단일 NVIDIA H100 DGX 호스트에서 실행할 수 있습니다.

또한 메타 미리보기 라마 4 베헤모스 모델링. 2,880억 개의 활성 매개변수, 16명의 전문가, 총 2조 명에 가까운 참여자를 보유한 거대한 모델입니다. 아직 훈련 중이며 아직 출시되지는 않았지만, 지식 증류를 통해 스카우트와 매버릭의 성능을 향상시키는 '교사' 모델 역할을 합니다. 수학, 다국어 및 이미지 벤치마크에서 뛰어난 성능을 발휘하며, Meta는 MATH-500 및 GPQA Diamond와 같은 일부 STEM 벤치마크에서 GPT-4.5보다 뛰어난 성능을 보인다고 주장합니다, 인류학 (명목식 형태로 사용됨) Claude Sonnet 3.7 및 Google의 Gemini 2.0 Pro.

주요 기술 혁신: MoE, 멀티모달리티 및 긴 컨텍스트

라마 4 시리즈에는 성능 향상을 뒷받침하는 여러 가지 주요 기술 혁신이 도입되었습니다.

하이브리드 전문성 모델(MoE) 아키텍처

라마 4는 전체 파라미터 수는 많지만 추론 시 소수의 파라미터(즉, '전문가')만 활성화할 수 있어 최근 많은 주목을 받고 있는 혼합 전문가(MoE) 아키텍처를 채택한 Meta의 첫 번째 모델 제품군입니다. 이 설계는 주어진 훈련 계산 예산에서 기존의 고밀도(밀도) 모델보다 더 높은 성능을 구현하고 훈련 및 추론의 계산 효율성을 향상시킵니다.

예를 들어, 라마 4 매버릭은 128명의 라우팅 전문가와 1명의 공유 전문가에게 총 4,000억 개의 매개변수가 분산되어 있습니다. 추론할 때 각 토큰은 공유 전문가와 라우팅 전문가 중 한 명에게 모두 전송됩니다. 이 모델은 성능과 효율성의 균형을 맞추기 위해 고밀도 레이어와 MoE 레이어를 번갈아 사용합니다. 이 아키텍처를 통해 Maverick을 단일 H100 DGX 호스트에 배포하거나 분산 추론을 통해 효율성을 극대화하여 모델 서비스의 비용과 지연 시간을 줄일 수 있습니다.

네이티브 멀티모달리티 및 조기 통합

언어 모델을 학습시킨 후 시각적 기능에 적용했던 이전 접근 방식과 달리, Llama 4는 네이티브 멀티모달 모델로 설계되었습니다. 이 모델은 모델 백본 네트워크에서 텍스트 토큰과 시각적 토큰을 원활하게 통합하는 조기 융합 전략을 사용합니다. 즉, 라벨링되지 않은 대량의 텍스트, 이미지 및 비디오 데이터로 모델을 공동으로 사전 학습할 수 있습니다. 또한, 라마 4는 대규모 언어 모델을 더 잘 수용하기 위해 메타클립을 기반으로 하지만 고정된 라마 모델과 공동 학습되는 시각 인코더를 개선했습니다. 이 모델은 사전 학습에서 최대 48개의 이미지 입력을 처리할 수 있고 학습 후 테스트에서 최대 8개의 이미지 입력으로 우수한 성능을 발휘하며 시각적 추론과 이해를 위해 여러 이미지 입력과 텍스트 단서를 처리할 수 있습니다.

1,000만 토큰 컨텍스트 창 돌파

라마 4 스카우트의 또 다른 특징은 최대 1,000만 토큰에 달하는 업계 최고의 컨텍스트 창입니다. 이러한 엄청난 컨텍스트 용량은 예를 들어 매우 긴 문서를 처리하거나 대규모 데이터 세트를 분석하거나 장기 메모리가 필요한 대화를 수행할 수 있는 새로운 가능성을 열어줍니다:

여러 장의 긴 보고서나 책을 요약하고 Q&A를 작성하세요.
전체 코드베이스를 분석하여 종속성을 이해하거나 오류를 찾아보세요.
몇 주 또는 몇 달간의 사용자 활동을 기반으로 심층적인 개인 맞춤형 서비스를 제공하세요.
법률이나 의학 등 대량의 텍스트를 처리해야 하는 분야의 정보 추출 및 분석.

메타는 스카우트의 긴 컨텍스트 기능을 혁신적인 iRoPE 아키텍처. 이 아키텍처는 사전 훈련과 사후 훈련 모두에 256K의 컨텍스트 길이를 사용하며, 인터리브 주의 레이어(위치 임베딩 없음)와 추론 시간 온도 스케일링을 결합하여 길이 일반화를 향상시킵니다. 'i'는 인터리브를 의미하며, 'RoPE'는 회전식 위치 임베딩을 의미하여 '무한한 컨텍스트 길이'를 지원한다는 장기적인 목표를 암시합니다.

교육 방법 및 성과

라마 4의 개발에는 교육 과정에 대한 많은 개선 사항이 포함되었습니다.

사전 교육 단계:

데이터 및 규모총 학습 데이터의 양은 30조 개가 넘는 토큰으로 라마 3보다 2배 이상 많으며 텍스트, 이미지, 동영상 데이터 세트가 다양하게 포함되어 있습니다. 200개 언어를 지원하며, 100개 이상의 언어에 10억 개 이상의 학습 데이터 토큰이 있습니다.
효율성과 정확성트레이닝은 FP8 정밀도로 수행되어 계산 효율을 높이면서도(32K GPU에서 Behemoth의 경우 390 TFLOPs/GPU) 품질 저하가 없다고 주장합니다.
하이퍼파라미터 최적화주요 하이퍼파라미터(예: 레이어당 학습 속도, 초기화 규모)를 안정적으로 설정하기 위해 MetaP라는 새로운 기술을 개발했으며 이러한 파라미터가 배치 크기, 모델 폭, 깊이, 학습 토큰 수에 걸쳐 잘 마이그레이션되는 것을 확인했습니다.
교육 중긴 컨텍스트 기능을 확장하고 핵심 성능을 개선하기 위한 사전 훈련 후 구체적인 훈련 방법과 데이터 세트를 소개합니다.

교육 후 단계:

새로운 프로세스경량 감독 미세 조정(SFT) -> 온라인 강화 학습(RL) -> 경량 직접 선호도 최적화(DPO)의 새로운 프로세스 채택 기존의 SFT와 DPO가 모델을 과도하게 제약하여 RL 단계에서의 탐색을 제한하고 추론, 코딩 및 수학 능력에 영향을 미칠 수 있다는 메타 결과가 나왔습니다.
데이터 필터링라마 모델을 판단 기준으로 삼고 더 어려운 데이터 세트의 경량 SFT에 집중하여 "쉬운"으로 표시된 50% 이상의 SFT 데이터를 제거합니다.
온라인 집중 학습멀티모달 온라인 RL 단계에서 더 어려운 프롬프트(프롬프트)를 신중하게 선택함으로써 상당한 성능 향상을 달성했습니다. 모델 학습과 모델 필터링 데이터를 번갈아 사용하면서 중간 정도에서 어려운 프롬프트만 유지하여 계산과 정확도 사이의 균형을 유지하는 지속적인 온라인 RL 전략을 사용했습니다.
경량 DPO마지막으로 모델 응답 품질과 관련된 경계 사례를 처리하여 모델의 지능과 대화 기능의 균형을 맞추기 위해 경량 DPO가 수행됩니다.

성능 비교:
메타 게시 벤치마크 결과를 보여줍니다:

라마 4 매버릭코딩, 추론, 다국어, 긴 문맥, 이미지 벤치마크에서 GPT-4o 및 Gemini 2.0보다 뛰어난 성능을 발휘합니다. 코딩 및 추론에서 더 큰 매개변수 스케일을 갖춘 DeepSeek v3.1과 비슷합니다.
라마 4 스카우트동급 최고의 성능으로 Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1 및 이전 세대 모든 라마 모델보다 성능이 뛰어납니다. 이미지 접지 성능에서 이전 모든 라마 모델보다 뛰어납니다.

Llama 4 系列登场：原生多模态 AI 创新的新起点？

벤치마크 결과는 일반적으로 특정 조건에서 얻은 결과이며 실제 애플리케이션에서의 성능은 다를 수 있다는 점에 유의해야 합니다. 그러나 이러한 데이터는 적어도 Llama 4가 여러 측면에서 업계 최고의 모델과 경쟁할 수 있는 잠재력을 가지고 있음을 보여줍니다.

베히모스: 2조 개의 매개변수를 가진 '선생님'과 교육 과제

라마 4 베헤모스는 메타의 대규모 모델 훈련 능력을 보여주기 위해 존재할 뿐만 아니라, 더 중요한 것은 라마 4 개발의 '선생님' 역할을 하기 위해 존재한다는 점입니다. 코디스틸레이션을 통해 Behemoth는 수학, 다국어, 이미지 이해 분야의 강점을 더 작은 매버릭 모델에 이전했고, Meta는 훈련 과정에서 소프트 타깃(교사 모델의 확률 분포)과 하드 타깃(실제 레이블)의 가중치를 동적으로 조정하는 새로운 코디스틸레이션 손실 함수를 개발했습니다. 가중치. 사전 훈련 중 이러한 협업 증류는 학생 모델의 증류 목표를 계산하는 데 드는 상당한 계산 비용을 상각합니다.

2조 개의 파라미터로 모델을 훈련하는 것은 그 자체로 엄청난 엔지니어링 과제입니다. 메타는 훈련 후 단계에 대한 몇 가지 경험을 공개했습니다:

데이터 정리성능을 극대화하기 위해 SFT 데이터는 고품질의 어려운 데이터에 집중하기 위해 소규모 모델보다 최대 95%까지 더 공격적으로 잘라내야 합니다.
집중 학습모델의 추론 및 코딩 능력을 향상시키기 위해서는 경량 SFT 이후 대규모 RL이 특히 중요하며, RL 전략은 pass@k 분석을 통해 어려운 단서를 선택하고 난이도가 높아지는 훈련 세션을 구성하는 데 중점을 둡니다. 수학, 추론 및 코딩 성능을 향상시키기 위해서는 제로 이점의 단서를 동적으로 필터링하고 다양한 능력 차원의 단서를 훈련 배치에 혼합하는 것이 중요합니다.
지침은 다음과 같습니다.다양한 시스템 명령어(시스템 지침)를 샘플링하는 것은 추론 및 코딩 작업에서 모델이 지침을 잘 준수하도록 하는 데 매우 중요합니다.
인프라MoE 아키텍처와 하이퍼스케일을 위해 메타는 병렬화 설계를 최적화하고 완전 비동기식 온라인 RL 트레이닝 프레임워크를 개발했습니다. 이 프레임워크는 서로 다른 모델을 서로 다른 GPU에 유연하게 할당하고 계산 속도에 따라 리소스의 균형을 맞출 수 있으며, 이전 세대보다 훈련 효율을 최대 10배까지 개선한 것으로 알려졌습니다.

보안 및 편향성 완화

다른 대규모 모델 개발사와 마찬가지로 Meta는 라마 4 개발에서 보안과 책임감 있는 AI에 중점을 두었습니다. 메타의 접근 방식은 모델 개발의 전체 라이프사이클을 포괄합니다:

교육 전/후 완화사전 학습 단계에서 데이터 필터링과 같은 조치 사용; 학습 후 단계에서 각 단계에 적절한 양의 안전 데이터를 주입하여 모델이 사용 전략에 부합하도록 하는 등 다양한 기법을 적용합니다.
시스템 수준 도구메타는 개발자가 통합할 수 있는 다양한 보안 도구를 오픈소스화합니다:
- 라마 가드:: MLCommons의 위험 분류를 기반으로 개발된 입력/출력 보안 탐지 모델입니다.
- 프롬프트 가드:: 악성 힌트(예: 탈옥 공격) 및 인젝션 공격을 탐지하기 위한 분류기 모델입니다.
- CyberSecEval생성형 AI 네트워크의 보안 위험을 평가하고 완화하기 위한 평가 도구입니다.
  Meta는 이러한 도구의 사용자 지정 기능을 강조하여 개발자가 필요에 따라 보안 정책을 조정할 수 있도록 합니다.
평가 및 레드팀 테스트:: 자동 및 수동 적대적 프로빙을 통해 시스템 모델 테스트를 수행했습니다. 다음과 같은 시스템을 개발했습니다. GOAT(생성 공격 에이전트 테스트) 의 새로운 접근 방식은 중간 정도의 숙련도를 가진 공격자의 여러 차례의 상호작용을 시뮬레이션하여 테스트 범위와 효율성을 개선함으로써 인간 레드팀 전문가가 보다 최첨단 위험 영역에 집중할 수 있도록 합니다.

편향성 해결

메타는 대규모 언어 모델에 만연한 편향성 문제, 특히 논란이 되는 정치적, 사회적 주제에 대해 특정 입장을 선호하는 역사적 경향을 인식하고 있으며, 이는 부분적으로 인터넷 학습 데이터의 내재적 편향성에서 비롯된 것입니다. 라마 4의 목표는 모델 편향을 제거하여 논란이 되는 이슈의 다양한 측면을 편견이나 판단 없이 이해하고 표현할 수 있도록 하는 것입니다.

메타는 이 분야에서 라마 4가 라마 3를 능가하는 상당한 진전을 이뤘으며, 이는 Grok 그렇죠:

논란이 되는 정치 및 사회적 이슈에 대한 답변 거부 비율은 라마 3.3의 71%에서 21% 이하로 감소했습니다.
불균등(편향된) 거부를 표시하는 프롬프트의 비율은 거부 응답의 경우 1%보다 낮았습니다.
논란의 여지가 있는 정치적 또는 사회적 이슈에 대해 라마 4는 라마 3.3의 절반 정도인 그로크와 비슷한 응답 빈도로 강한 정치적 편향성을 보였습니다.
메타는 모델의 편향률을 줄이기 위해 계속 노력할 것이라고 밝혔습니다.

개방성, 사용성 및 에코시스템

Llama 4 Scout와 Llama 4 Maverick은 현재 llama.com과 Hugging Face에서 다운로드할 수 있으며, 모든 주요 클라우드, 데이터 및 엣지 컴퓨팅 파트너에게 제공될 예정입니다. 사용자들은 또한 Llama 4 기반의 메타 AI .

메타는 개방성이 혁신을 이끈다는 신념으로 개방형 생태계에 대한 노력을 다시 한 번 강조했습니다. 특히 MoE 아키텍처, 네이티브 멀티모달 기능, 매우 긴 컨텍스트 창을 갖춘 Llama 4의 출시는 AI 개발자와 연구자에게 강력하고 새로운 도구를 제공하는 것은 분명합니다. 그러나 이러한 고급 모델의 실제 성능, 사용 편의성, 미세 조정 비용, '개인화된 경험'을 제공하는 과정에서 발생할 수 있는 잠재적 위험은 아직 테스트하고 관찰해야 할 부분이 남아 있습니다. 라마 4 시리즈가 진정으로 메타가 이끄는 새로운 AI 시대를 열게 될지 여부는 궁극적으로 시장이 답할 것입니다. 메타는 4월 29일에 열리는 라마콘에서 자사의 비전에 대한 더 많은 정보를 공유할 예정입니다.