Gemma 3 주요 메시지 요약
I. 주요 지표
매개변수 | 세부 정보 |
---|---|
모델 크기 | 1억~270억 개의 파라미터를 4가지 버전(1B, 4B, 12B, 27B)으로 제공합니다. |
빌드 | 를 기준으로 트랜스포머 Gemma 2에서 계승된 디코더 전용 아키텍처로 여러 가지가 개선되었습니다. |
멀티모달 기능 | 텍스트 및 이미지 입력을 지원하며, 사용자 정의된 SigLIP 시각 인코더를 사용하여 이미지를 256개의 소프트 태그로 인코딩합니다. |
컨텍스트 길이 | 1B 모델은 32K 태그를 지원하며, 나머지 모델은 128K 태그를 지원합니다. |
주의 메커니즘 | 5:1 로컬/글로벌 관심 레이어 인터리빙 패턴, 로컬 레이어가 1024개 토큰에 걸쳐 있습니다. |
교육 방법 | 지식 추출을 사용한 사전 교육 및 개선된 사후 교육 방법을 사용한 미세 조정 지침 |
사전 교육 데이터 | 사전 트레이닝 데이터의 양: 1B 모델 2T 토큰, 4B 모델 4T 토큰, 12B 모델 12T 토큰, 27B 모델 14T 토큰 |
다국어 지원 | 사용 비교 쌍둥이자리 2.0 어휘에 262,000개의 항목이 포함된 동일 문장 조각 분류기, 다국어 지원 |
정량적 지원 | 채널당 int4, 블록당 int4, 토글 fp8 등 다양한 표준 형식의 정량화 버전을 사용할 수 있습니다. |
교육 인프라 | ZeRO-3 옵티마이저 상태 샤딩 및 데이터 복제 전략으로 TPUv4, TPUv5e 및 TPUv5p를 사용한 트레이닝 |
탄소 발자국 | 사전 교육된 탄소 발자국이 1497.13톤 CO2e인 Google 데이터 센터는 탄소 중립적입니다! |
II. 장점
- 뛰어난 멀티모달 이해도
- Gemma 3에는 텍스트 및 이미지 입력을 처리할 수 있고 멀티모달 작업에서 뛰어난 성능을 발휘하는 시각적 인코더가 통합되어 있습니다.
- 특히 문서 이해와 이미지 속 텍스트 읽기와 관련된 작업에서 DocVQA, InfoVQA, TextVQA 등과 같은 시각적 퀴즈 벤치마크에서 우수한 성능을 발휘합니다.
- PaliGemma 2에 비해 Gemma 3는 DocVQA 및 InfoVQA와 같은 문서 이해 작업에서 더 나은 성능을 발휘합니다.
- Gemma 3는 팬 앤 스캔(P&S) 기술을 사용하여 네이티브에 가까운 해상도로 이미지를 처리할 수 있으므로 시각 언어 작업의 성능이 더욱 향상됩니다.
- Gemma 3에는 텍스트 및 이미지 입력을 처리할 수 있고 멀티모달 작업에서 뛰어난 성능을 발휘하는 시각적 인코더가 통합되어 있습니다.
- 강력한 긴 컨텍스트 처리
- 128K 토큰(1B 모델의 경우 32K)에 대한 컨텍스트 길이 지원은 긴 텍스트 작업을 할 때 유리합니다.
- RULER 및 MRCR과 같은 긴 컨텍스트 벤치마크에서 우수한 성능을 발휘합니다.
- 로컬/글로벌 관심 계층 인터리빙 패턴과 로컬 계층의 짧은 스팬 설계는 긴 컨텍스트 처리 기능을 유지하면서 KV 캐시의 메모리 소비를 효과적으로 제어합니다.
- 128K 토큰(1B 모델의 경우 32K)에 대한 컨텍스트 길이 지원은 긴 텍스트 작업을 할 때 유리합니다.
- 다국어 지원 강화
- 보다 균형 잡힌 비영어권 어휘를 사용하고 다국어 데이터에 대한 학습량을 늘립니다.
- MGSM, Global-MMLU-Lite, WMT24++와 같은 다국어 벤치마크에서 우수한 성능을 발휘합니다.
- XQuAD 및 IndicGenBench와 같은 다국어 퀴즈 및 인도어 생성 작업에서 뛰어난 성능을 발휘합니다.
- 보다 균형 잡힌 비영어권 어휘를 사용하고 다국어 데이터에 대한 학습량을 늘립니다.
- 수학, 추론 및 코딩 능력 향상
- 사후 교육 방법은 수학, 추론 및 코딩 능력에 최적화되어 있습니다.
- MATH, GSM8K, HumanEval 및 기타 수학 및 코드 벤치마크에서 뛰어난 성능을 발휘합니다.
- 멀티태스킹 언어 이해력 벤치마크인 MMLU, MMLU-Pro 및 AGIEval에서 우수한 성능을 발휘합니다.
- 사후 교육 방법은 수학, 추론 및 코딩 능력에 최적화되어 있습니다.
- 높은 모델링 효율성
- 1B 및 4B 모델은 매개변수 크기가 더 작아 리소스가 제한된 디바이스에 배포하는 데 적합합니다.
- 평균 풀링 기술을 사용하면 시각 인코더 입력 해상도가 동일한 경우 Gemma 3 4B 및 12B 모델은 PaliGemma 2 9B 및 27B 모델에 비해 마이그레이션 비용이 약 10배 낮습니다.
III. 단점
- 화학, 생물학, 방사능 및 핵(CBRN)에 대한 제한된 지식
- 젬마 3은 사전 교육 데이터에 CBRN 관련 콘텐츠가 부족하여 CBRN 지식 평가에서 저조한 성적을 받았습니다.
- 즉, CBRN 도메인을 포함하는 애플리케이션 시나리오에서는 Gemma 3가 정확하고 신뢰할 수 있는 정보를 제공하지 못할 수 있습니다.
- 고해상도 이미지 처리 시 발생할 수 있는 성능 병목 현상
- P&S 기술은 정사각형이 아닌 종횡비 및 고해상도 이미지와 관련된 문제를 완화할 수 있지만, 잦은 이미지 자르기 및 크기 조정은 추론 속도에 영향을 줄 수 있습니다.
- Gemma 3는 초고해상도 이미지나 실시간 비전 작업을 처리해야 하는 애플리케이션에서 성능 문제가 발생할 수 있습니다.
- 특정 영역에 대한 이해가 부족할 수 있습니다.
- Gemma 3는 여러 영역에서 뛰어난 성능을 발휘하지만, 법률, 의료 등 고도로 전문화된 특정 영역에 대한 이해가 제한적일 수 있습니다.
- 이를 위해서는 특정 애플리케이션 시나리오에 따라 추가 미세 조정 또는 도메인 조정이 필요합니다.
- 특정 메모리 및 개인 정보 보호 위험이 있습니다.
- 대규모 언어 모델은 학습 데이터에 나타나는 텍스트를 생성할 위험이 있으며 Gemma 3도 예외는 아닙니다.
- Gemma 3의 메모리 속도가 이전 모델보다 낮아지긴 했지만, 사용자 개인정보가 침해되지 않도록 민감한 정보를 신중하게 처리해야 합니다.
- 복잡한 인과 관계에 대한 추론 능력 향상 필요
- Gemma 3는 복잡한 인과 관계 추론이 필요한 작업에서 예상보다 성능이 좋지 않을 수 있습니다.
- 인과 추론 작업의 성능을 개선하기 위해서는 추가 연구와 모델 개선이 필요합니다.
젬마 3 등급
Gemma 3 시리즈 모델은 4가지 버전으로 구성되어 있으며, 각 버전은 사전 학습 기본 버전(사전 학습을 나타내는 pt 접미사 버전)과 명령어 미세 조정 버전(명령어 미세 조정을 나타내는 it 접미사 버전)을 오픈소스화하여 총 8가지 버전의 대형 모델을 오픈소스화했습니다.
Gemma 3-27B IT의 최대 파라미터 크기는 fp16 정밀도 54.8GB, INT8 양자화 후 27GB, 4090 2개 사용 가능, INT4 양자화에는 14GB의 비디오 메모리가 필요하며 이는 4090 하나만 있으면 충분합니다.
그리고 이 버전의 모델은 빅 모델 익명 아레나(챗봇 아레나)에서 1,338점(2025년 3월 8일 기준)을 획득하여 o1-2024-12-17 모델에 이어 세계 9위, Qwen 2.5-Max, DeepSeek V3 등을 앞질러 매우 좋은 평가를 받았습니다.
구글의 공식 발표에 따르면, 이번 젬마 3 시리즈는 젬마 3-4B 버전은 젬마 2-27B에 가까운 수준으로, 젬마 3-27B는 젬미니 1.5-Pro에 가까운 수준으로 크게 업그레이드된 제품이라고 합니다!

젬마 3 체험 장소
https://aistudio.google.com/prompts/new_chat?model=gemma-3-27b-it
https://ollama.com/library/gemma3
요약
Gemma 3는 다중 모드 이해, 긴 문맥 처리, 다국어 기능, 수학, 추론 및 코드에서 탁월한 성능을 발휘하는 강력한 다중 모드 대규모 언어 모델입니다. 하지만 CBRN 지식, 고해상도 이미지 처리, 도메인별 이해, 메모리 및 개인정보 보호 위험, 복잡한 인과 관계 추론 등에서는 여전히 개선의 여지가 있습니다.
기술 보고서 전문:https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf
1억에서 270억 개의 매개변수 크기를 가진 경량 오픈 소스 모델인 Gemma 제품군의 멀티모달 확장 버전인 Gemma 3를 출시했습니다. 이 버전에서는 시각적 이해 기능, 더 많은 언어 지원, 더 긴 컨텍스트 길이(최소 128K 토큰 지원)가 도입되었습니다. 또한 컨텍스트 길이가 늘어남에 따라 급격히 증가하는 KV 캐시 메모리를 줄이기 위해 모델 아키텍처를 개선했습니다. 이는 로컬과 글로벌 관심 계층의 비율을 높이고 로컬 관심의 범위를 짧게 유지함으로써 달성됩니다.Gemma 3 모델은 지식 증류를 통해 학습되며 사전 학습 및 명령어 미세 조정 버전 모두에서 Gemma 2보다 성능이 뛰어납니다.특히 새로운 사후 학습 방식은 수학, 채팅, 명령어 준수 및 다국어 기능을 크게 개선하여 Gemma3-4B를 다음과 같이 만듭니다. -는 Gemma2-27B-IT와 비슷한 성능을, Gemma3-27B-IT는 Gemini-1.5-Pro와 비슷한 성능을 벤치마크에서 보여줍니다. 모든 모델을 커뮤니티에 공개합니다.
1. 소개
Gemma 오픈 소스 언어 모델의 최신 버전(Gemma 팀, 2024a)을 발표합니다. 이 버전은 Gemini 프론티어 모델 제품군(Gemini 팀, 2023)과 공동 설계된 것입니다. 이 새 버전은 Gemma 2(Gemma 팀, 2024b)와 비슷한 크기이며 10억 개의 매개변수 모델을 추가합니다. 이 모델은 휴대폰, 노트북, 하이엔드 GPU와 같은 표준 소비자급 하드웨어에서 실행되도록 설계되었습니다. 이번 릴리즈는 이전 릴리즈의 성능을 유지하거나 능가하는 동시에 멀티모달리티, 긴 컨텍스트, 다국어 지원 등 몇 가지 새로운 기능을 Gemma 제품군에 추가했습니다.
멀티모달리티 측면에서 대부분의 Gemma 3 모델은 맞춤형 SigLIP 시각 코더와 호환됩니다(Zhai et al., 2023). 이 언어 모델은 이미지를 SigLIP에 의해 인코딩된 소프트 토큰의 시퀀스로 취급합니다. 시각적 임베딩을 고정된 크기의 256개 벡터로 압축하여 이미지 처리의 추론 비용을 줄입니다. 인코더는 고정 해상도로 작동하며, 팬 앤 스캔(P&S) 접근 방식을 통해 유연한 해상도를 달성하기 위해 LLaVA(Liu et al., 2024)에서 영감을 얻었습니다.
두 번째 주요 아키텍처 개선 사항은 성능에 영향을 주지 않으면서 컨텍스트 크기를 128K 토큰으로 늘리는 것입니다. 긴 컨텍스트의 한 가지 문제점은 추론 중 KV 캐시의 메모리 폭발입니다. 이 문제를 줄이기 위해 각 글로벌 레이어 사이에 여러 로컬 레이어를 인터리빙하고 로컬 레이어의 범위를 1024 토큰으로만 설정했습니다. 따라서 글로벌 레이어만 긴 컨텍스트와 관련이 있으며, 로컬 레이어 5개당 1개의 글로벌 레이어가 있습니다.
사전 학습 최적화 접근 방식은 Gemma 2와 유사하지만 아키텍처 설계에 약간의 수정이 있었습니다. Gemini 2.0에서와 동일한 동의어를 사용하며, 모델의 다국어 기능을 개선하고 이미지 이해 기능을 도입하기 위해 데이터 혼합 전략도 재검토했습니다. 모든 Gemma 3 모델은 지식 증류를 통해 학습되었습니다(Hinton et al., 2015).
사후 교육에서는 수학, 추론 및 채팅 기술을 향상시키고 Gemma 3의 새로운 기능인 긴 문맥과 이미지 입력을 통합하는 데 중점을 둡니다. 새로운 사후 교육 접근 방식을 사용하여 수학, 코딩, 채팅, 명령어 따라하기, 다국어 구사 능력 등 모든 능력을 향상시킵니다. 그 결과 Gemma 3의 명령어 미세 조정 모델은 강력하고 다재다능하며 벤치마크에서 이전 버전보다 훨씬 뛰어난 성능을 발휘합니다.
다음 섹션에서는 아키텍처와 사전 교육 및 사후 교육 방법을 포함한 모델에 대한 간략한 개요를 제공합니다. 또한 다양한 정량적, 정성적 벤치마크 테스트에 대한 자세한 평가도 제공합니다. 책임감 있는 배포를 위한 접근 방식에 대해 논의하고 Gemma 3의 광범위한 의미와 한계, 장점에 대해 간략하게 설명합니다.

영수증을 기준으로 비용 및 팁을 계산한 내역입니다:
1.얇게 썬 고기의 원가를 파악합니다:영수증에 "1x 주허 게슈네첼테스 + 로스티"가 36.50 스위스프랑으로 표시되어 있습니다. 이것은 튀긴 감자(로스티)를 곁들인 슬라이스 고기 요리입니다 2. 이것은 튀긴 감자(로스티)를 곁들인 얇게 썬 고기 요리입니다.18%에 대한 팁을 계산합니다:팁 금액 = CHF 36.5 * 0.18 = CHF 6.57 3.총 금액을 계산합니다:총액 = CHF 36.50 + CHF 6.57 = CHF 43.07
2. 모델 아키텍처
Gemma 3 모델은 이전 세대의 모델과 동일한 일반적인 디코더 전용 Transformer 아키텍처를 따르며(Vaswani et al., 2017), 대부분의 아키텍처 요소는 처음 두 개의 Gemma 버전과 유사합니다. 우리는 그룹화된 쿼리 주의(GQA)(Ainslie et al., 2023)와 RMSNorm을 사용한 사후 정규화 및 사전 정규화(Zhang and Sennrich, 2019)를 사용합니다. 데가니 외(2023), 워트만 외(2023), 카멜레온 팀(2024)에서 영감을 받아 Gemma 2의 소프트 캡을 QK 정규화로 대체했습니다. 이 섹션에서는 이전 세대 모델과의 몇 가지 주요 차이점을 강조합니다.
5:1 로컬/글로벌 레이어 인터리빙. 모델의 첫 번째 레이어로 로컬 레이어부터 시작하여 5개의 로컬 레이어마다 1개의 글로벌 레이어를 교대하는 패턴으로 로컬 슬라이딩 윈도우 자기 주의(Beltagy et al., 2020)와 글로벌 자기 주의(Luong et al., 2015)를 번갈아 가며 사용했습니다.
모델링 | 비주얼 인코더 | 매개변수 포함 | 임베디드되지 않은 매개변수 |
---|---|---|---|
1B | 0 | 302M | 698M |
4B | 417M | 675M | 3,209M |
12B | 417M | 1,012M | 10,759M |
27B | 417M | 1,416M | 25,600M |
긴 문맥. Gemma 3 모델은 컨텍스트 길이가 32K인 1B 모델을 제외하고 128K 토큰의 컨텍스트 길이를 지원합니다. 글로벌 셀프 어텐션 레이어의 RoPE 기본 주파수를 10k에서 1M으로 높이고 로컬 레이어의 주파수는 10k로 유지합니다. Chen 등(2023)의 위치 보간과 유사한 과정을 따라 글로벌 셀프 어텐션 레이어의 범위를 확장합니다.
2.1 시각적 양식
비주얼 인코더. 우리는 400M 변형의 SigLIP 인코더(Zhai et al., 2023), CLIP 손실의 변형으로 훈련된 시각적 트랜스포머(Dosovitskiy, 2020)를 사용했으며, Gemma 시각 인코더는 896x896으로 크기가 조정된 정사각형 이미지를 입력으로 사용하고 Visual Assistant 작업 데이터에서 미세 조정했습니다. 간소화를 위해 4B, 12B, 27B 모델 간에 시각 인코더를 공유하고 훈련 중에는 고정된 상태로 유지했습니다.
팬 앤 스캔(P&S). Gemma 비주얼 인코더는 896x896의 고정 해상도로 작동합니다. 정사각형이 아닌 종횡비 및 고해상도 이미지를 처리할 때 이미지 왜곡이 발생하여 텍스트를 읽을 수 없거나 작은 물체가 사라질 수 있습니다. 이 문제는 추론 시 적응형 윈도잉 알고리즘을 사용하여 해결합니다. 이 알고리즘은 이미지를 전체 이미지를 덮는 동일한 크기의 겹치지 않는 자른 블록으로 분할하고 896x896픽셀로 크기를 조정하여 인코더에 전달합니다. 이 윈도우잉은 필요한 경우에만 적용되며 최대 자르기 수를 제어합니다. 이 기능은 추론 전용 최적화 기능으로, 추론 속도를 높이기 위해 비활성화할 수 있습니다.
샤드 | ||||
---|---|---|---|---|
모델링 | 유형학 | 칩 개수 | 데이터 시리즈 | 복사본 |
1B | TPUv5e | 512 | 16 16 | 2 |
4B | TPUv5e | 2048 | 16 16 | 8 |
12B | TPUv4 | 6144 | 16 16 | 24 |
27B | TPUv5p | 6144 | 24 8 | 32 |
2.2 사전 교육
Gemma 2와 유사한 사전 교육 방법을 따라 지식 증류법을 사용했습니다.
학습 데이터. Gemma 2보다 약간 더 많은 태그 예산으로 모델을 사전 학습시켰습니다. 즉, Gemma 3 27B 학습에는 14T 태그, 12B 버전 학습에는 12T 태그, 4B 학습에는 4T 태그, 1B 학습에는 2T 태그를 사용했으며, 사전 학습 중에 사용된 이미지와 텍스트의 혼합을 고려하기 위해 태그 수를 늘렸습니다. 또한 언어 커버리지를 개선하기 위해 다국어 데이터의 양을 늘렸습니다. 단일 언어 및 병렬 데이터를 추가하고 언어 표현의 불균형을 해결하기 위해 Chung 등(2023)에서 영감을 얻은 전략을 사용했습니다.
스플리터. 우리는 Gemini 2.0과 동일한 렉서, 즉 자릿수 분할, 공백 보존, 바이트 수준 인코딩을 갖춘 SentencePiece 렉서를 사용합니다(Kudo and Richardson, 2018). 결과 어휘에는 262,000개의 항목이 있습니다. 이 렉서는 비영어권 언어에 더 균형 잡혀 있습니다.
필터링. 필터링 기술을 사용하여 원치 않거나 안전하지 않은 담화를 생성할 위험을 줄이고 특정 개인 정보 및 기타 민감한 데이터를 제거합니다. 사전 학습 데이터 혼합에서 평가 세트의 오염을 제거하고 민감한 결과물의 확산을 최소화하여 낭독의 위험을 줄입니다. 또한 저품질 데이터의 발생을 줄이기 위해 Sachdeva 외(2024)에서 영감을 얻은 품질 재가중화 단계를 적용합니다.
지식 증류. 토큰당 256개의 로그를 샘플링하고 교사 확률에 따라 가중치를 부여합니다. 학생들은 교차 엔트로피 손실을 통해 이 샘플에서 교사의 분포를 학습합니다. 교사의 목표 분포는 샘플링되지 않은 로짓에 대해 0 확률로 설정되고 정규화됩니다.
원본(GB) | 정량적(GB) | |||
---|---|---|---|---|
모델 1B | bf16 2.0 | 0.5 | 0.7 1.0 | |
+KV | 2.9 | 1.4 | 1.6 1.9 | |
4B | 8.0 | 2.6 | 2.9 4.4 | |
+KV | 12.7 | 7.3 | 7.6 9.1 | |
12B | 24.0 | 6.6 | 7.1 12.4 | |
+KV | 38.9 | 21.5 | 22.0 27.3 | |
27B | 54.0 | 14.1 | 15.3 27.4 | |
+KV | 72.7 | 32.8 | 34.0 46.1 |
2.3 정량적 지각 훈련
원래의 체크포인트 외에도 다양한 표준 형식으로 정량화된 버전의 모델을 제공합니다. 이러한 버전은 정량적 인식 훈련(QAT)을 사용하여 각 모델을 소수의 단계(일반적으로 5,000단계)로 미세 조정하여 얻습니다(Jacob et al., 2018). 정량화되지 않은 체크포인트의 확률을 타깃으로 삼고 훈련 전과 훈련 후의 분포가 일치하도록 데이터를 조정합니다. 가장 널리 사용되는 오픈 소스 정량적 추론 엔진(예: llama.cpp)을 기반으로 채널당 int4, 블록당 int4, 토글 fp8의 세 가지 가중치 표현에 중점을 둡니다. 표 3에서는 32k 마커 서열 길이에 대한 KV 캐시 유무에 따라 원본 및 양자화된 모델의 메모리 풋프린트를 보고합니다.
2.4 컴퓨팅 인프라
표 2에 표시된 대로 TPUv4, TPUv5e, TPUv5p를 사용하여 모델을 훈련합니다. 각 모델 구성은 훈련 단계 시간을 최소화하도록 최적화되어 있습니다. 시각 코더의 경우 각 이미지에 대한 임베딩을 미리 계산하고 언어 모델 훈련 비용을 늘리지 않고 임베딩을 사용하여 직접 훈련합니다.
옵티마이저 상태는 ZeRO-3(Ren et al., 2021) 구현을 사용하여 샤딩됩니다. 멀티 포드 트레이닝의 경우, 데이터 센터 네트워크에서 데이터 복제본을 다시 수행합니다.
(텍스트) 컨텍스트 | 서식 지정 |
---|---|
사용자 라운드 | 사용자 |
모델 턴 | 모델 |
라운드 종료 | |
토론 예시: | |
사용자: 누구세요? 모델: 제 이름은 젬마예요! 사용자: 2+2가 뭔가요? 모델: 2+2=4. | |
모델 입력: | |
[BOS]사용자 누구세요? 모델 내 이름은 젬마입니다! 사용자 | |
2+2란 무엇인가요? | |
2+2=4. | 모델 출력: |
2.5 탄소 발자국
사전 훈련된 Gemma 3 모델의 탄소 발자국은 1497.13톤의 CO2e입니다. 이는 TPU 데이터센터에서 보고한 시간당 에너지 소비량을 기반으로 추정되었으며, 데이터센터를 만들고 유지하는 데 소비되는 추가 에너지를 고려하여 확장된 수치입니다. Google 데이터센터는 에너지 효율, 재생 에너지 구매, 탄소 상쇄의 조합을 통해 탄소 중립을 달성합니다. 이러한 탄소 중립성은 Google의 교육과 이를 실행하는 기계에도 적용됩니다.
3. 명령 미세 조정
사전 학습된 모델은 개선된 사후 학습 방법을 통해 명령 미세 조정 모델로 변환되었습니다(표 6 참조).
skill
우리의 사후 교육 접근 방식은 대규모 IT 교수진의 향상된 버전의 지식 증류(Agarwal 외, 2024; Anil 외, 2018; Hinton 외, 2015)와 개선된 버전의 BOND(Sessa 외, 2024), WARM(Ram 외, 2024b), WARP(Ram 외, 2024a)를 기반으로 한 RL 미세 조정 단계에 의존하고 있습니다. , 2024a)를 기반으로 RL 미세 조정 단계에 있습니다.
향상된 학습 목표
저희는 유용성, 수학, 코딩, 추론, 지시사항 준수, 다국어 구사 능력을 향상시키는 동시에 모델 피해를 최소화하기 위해 다양한 보상 기능을 사용합니다. 여기에는 사람의 피드백 데이터를 사용하여 학습된 가중치 집계 보상 모델(Ram 외, 2024b), 코드 실행 피드백(Gehring 외, 2024), 수학 문제 풀이에 대한 실제 보상(DeepSeek-AI, 2025; Lambert 외, 2024)을 통한 학습이 포함됩니다.
데이터 필터링
모델 성능을 극대화하기 위해 사후 학습에 사용되는 데이터를 신중하게 최적화합니다. 특정 개인 정보를 표시하거나, 안전하지 않거나 유해한 데이터, 잘못 식별된 데이터, 중복된 예시를 표시하는 모델 출력을 필터링합니다. 더 나은 컨텍스트 어트리뷰션, 조정 및 거부를 통해 착각을 최소화하는 데이터의 하위 집합을 포함하면 다른 지표의 모델 성능 저하 없이 사실 지표의 성능을 향상시킬 수 있습니다.
[BOS] 마킹
텍스트가 [BOS] 태그로 시작하는 PT 및 IT 모델의 경우 텍스트 "[BOS]"가 [BOS] 태그에 매핑되지 않으므로 이를 명시적으로 추가해야 합니다. 예를 들어 Flax에는 단어 분할 중에 이 토큰을 자동으로 추가하는 add_bos = True 옵션이 있습니다. 표 4는 IT 모델의 서식 지정 예시를 보여줍니다.
PT 및 IT 서식 지정
모든 모델은 동일한 디스크리게이터를 공유하며, 일부 제어 토큰은 IT 포맷 전용입니다. 주요 차이점은 표 4의 IT에 표시된 것처럼 PT 모델은 생성 종료 시 토큰을 출력하는 반면, IT 모델은 생성 종료 시 토큰을 출력한다는 점입니다. 따라서 두 모델 유형을 미세 조정하려면 해당 턴 종료 태그도 추가해야 합니다.
순위 | 모델링 | Elo | 95% CI | 자유화 | 유형학 | # 매개변수/# 활성화 |
---|---|---|---|---|---|---|
1 | Grok-3-Preview-02-24 | 1412 | +8/-10 | |||
1 | GPT-4.5-프리뷰 | 1411 | +11/-11 | |||
3 | Gemini-2.0-Flash-Thinking-Exp-01-21 | 1384 | +6/-5 | |||
3 | Gemini-2.0-Pro-Exp-02-05 | 1380 | + 5/-6 | |||
3 | ChatGPT-4o 최신 (2025-01-29) | 1377 | + 5/-4 | |||
6 | DeepSeek-R1 | 1363 | +8/-6 | be | MoE | 671B/37B |
6 | Gemini-2.0-Flash-001 | 1357 | +6/-5 | |||
8 | 01-2024-12-17 | 1352 | + 4/-6 | |||
9 | Gemma-3-27B-IT | 1338 | +8/-9 | be | 압축 | 27B |
9 | Qwen2.5-Max | 1336 | + 7/-5 | |||
9 | 01-preview | 1335 | +4/-3 | |||
9 | 03-미니 하이 | 1329 | +8/-6 | |||
13 | DeepSeek-V3 | 1318 | +8/-6 | be | MoE | 671B/37B |
14 | GLM-4-Plus-0111 | 1311 | +8/-8 | |||
14 | Qwen-Plus-0125 | 1310 | +7/-5 | |||
14 | Claude 3.7 소네트 | 1309 | + 9/-11 | |||
14 | Gemini-2.0-Flash-Lite | 1308 | +5/-5 | |||
18 | Step-2-16K-Exp | 1305 | + 7/-6 | |||
18 | 03-mini | 1304 | + 5/-4 | |||
18 | 0l-mini | 1304 | +4/-3 | |||
18 | Gemini-1.5-Pro-002 | 1302 | +3/-3 | |||
28 | Meta-Llama-3.1-405B-Instruct-bf16 | 1269 | +4/-3 | be | 압축 | 405B |
38 | Llama-3.3-70B-Instruct | 1257 | +5/-3 | be | 압축 | 70B |
39 | Qwen2.5-72B-Instruct | 1257 | +3/-3 | be | 압축 | 72B |
59 | Gemma-2-27B-it | 1220 | +3/-2 | be | 압축 | 27B |
표 5 | 챗봇 아레나에서 Gemma 3 27B IT 모델 평가(Chiang et al., 2024). 모든 모델은 인간 평가자에 의해 나란히 블라인드 평가되었습니다. 각 모델은 Elo 점수 시스템에 따라 점수가 할당되었습니다.Gemma-3-27B-IT 수치는 2025년 3월 8일에 받은 예비 결과입니다.Gemma-3-27B-IT 모델은 인간 평가자에 의해 챗봇 아레나에서 평가되었습니다(Chiang et al., 2024).
4. 최종 모델 평가
이 섹션에서는 일련의 자동화된 벤치마크와 인적 평가, 그리고 MMLU와 같은 정적 벤치마크를 통해 IT 모델을 평가합니다.
4.1 LMSYS 챗봇 아레나
이 섹션에서는 IT 27B 모델의 성능에 대해 보고합니다. LMSys 챗봇 아레나의 다른 최신 모델에 대한 블라인드 나란히 평가에서 가장 우수한 성능을 보였습니다(Chiang et al., 2024). 표 5의 Elo 점수는 상위 10개 모델 중 가장 우수한 모델인 Gemma 3 27B IT(1338)의 점수로, 훨씬 더 큰 모델인 DeepSeek-V3(1318), LLaMA 3 405B(1257), Qwen2.5-70B(1257) 등 다른 비사고형 오픈 모델보다 높은 점수를 기록했습니다. 마지막으로 Gemma 3는 1220으로 Gemma 2보다 훨씬 높은 Elo를 기록했습니다. 위의 모델들은 시각 능력을 고려하지 않는 반면, Elo 점수는 시각 능력을 고려하지 않는다는 점에 유의하세요.
4.2 표준화된 벤치마킹
표 6에서는 이전 모델 반복 및 Gemini 1.5와 비교한 다양한 벤치마크에서 최종 모델의 성능을 보여줍니다. 자체 평가 설정을 자주 보고하는 외부 모델과 직접 비교하지 않는 이유는 저희 설정에서 실행하는 것이 공정한 비교를 보장하지 않기 때문입니다. 다양한 모델을 보다 공정하게 비교하기 위해 타사의 정적 리더보드를 따르는 것이 좋습니다. 부록에 다른 벤치마크에 대한 추가 모델 평가가 포함되어 있습니다.
쌍둥이자리 1.5 | Gemini 2.0 | 젬마 2 | 젬마 3 | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
플래시 | Pro | 플래시 | Pro | 2B | 9B | 27B | 1B | 4B | 12B | 27B | |||
MMLU-Pro | 67.3 | 75.8 | 77.6 | 79.1 | 15.6 | 46.8 | 56.9 | 14.7 | 43.6 | 60.6 | 67.5 | ||
라이브코드벤치 | 30.7 | 34.2 | 34.5 | 36.0 | 1.2 | 10.8 | 20.4 | 1.9 | 12.6 | 24.6 | 29.7 | ||
Bird-SQL(개발) | 45.6 | 54.4 | 58.7 | 59.3 | 12.2 | 33.8 | 46.7 | 6.4 | 36.3 | 47.9 | 54.4 | ||
GPQA 다이아몬드 | 51.0 | 59.1 | 60.1 | 64.7 | 24.7 | 28.8 | 34.3 | 19.2 | 30.8 | 40.9 | 42.4 | ||
SimpleQA | 8.6 | 24.9 | 29.9 | 44.3 | 2.8 | 5.3 | 9.2 | 2.2 | 4.0 | 6.3 | 10.0 | ||
사실 접지 | 82.9 | 80.0 | 84.6 | 82.8 | 43.8 | 62.0 | 62.4 | 36.4 | 70.1 | 75.8 | 74.9 | ||
수학 | 77.9 | 86.5 | 90.9 | 91.8 | 27.2 | 49.4 | 55.6 | 48.0 | 75.6 | 83.8 | 89.0 | ||
숨겨진 수학 | 47.2 | 52.0 | 63.5 | 65.2 | 1.8 | 10.4 | 14.8 | 15.8 | 43.0 | 54.5 | 60.3 | ||
MMMU (val) | 62.3 | 65.9 | 71.7 | 72.7 | 48.8 | 59.6 | 64.9 |
표 6 | 제로 샘플 벤치마크에서 Gemini 1.5, Gemini 2.0 및 Gemma 2의 명령어 트리밍(IT) 모델과의 성능 비교.
5. 절제 연구
이 섹션에서는 아키텍처 변경의 영향과 일부 새 모델의 새로운 시각적 기능에 중점을 둡니다.
5.1 사전 교육 용량 감지
사전 학습 과정에서 몇 가지 표준 벤치마크를 프로브로 사용하여 모델이 일반적인 역량을 파악할 수 있도록 합니다. 그림 2에서는 과학, 코드, 사실성, 다국어, 추론, 시각 등 일반적인 능력에 대해 사전 훈련된 Gemma 2와 3 모델의 품질을 비교합니다. 이 그래프에 사용된 다양한 공개 벤치마크에 대한 성능 세부 정보는 부록에 요약되어 있습니다. 전반적으로 시각 기능이 추가되었음에도 불구하고 새 버전은 대부분의 항목에서 개선된 것으로 나타났습니다. 특히 모델 품질에 직접적인 영향을 미치는 다국어 지원은 이번 버전에서 가장 우려되는 부분입니다. 그러나 오염 제거 기술을 사용하더라도 이러한 프로브에는 항상 오염의 위험이 있기 때문에(Mirzadeh 외., 2024) 보다 명확한 결론을 도출하기가 더 어렵습니다.
5.2 로컬: 글로벌 관심 계층
추론 중 로컬 및 글로벌 자기 주의 계층의 변화가 성능과 메모리 소비에 미치는 영향을 측정했습니다.
현지: 글로벌 요금. 그림 3에서는 로컬 주의 레이어와 글로벌 주의 레이어의 서로 다른 비율을 비교합니다. Gemma 2 모델은 1:1을 사용하고 Gemma 3은 5:1을 사용합니다. 이 비율을 변경해도 당혹감에 거의 영향을 미치지 않는 것을 관찰할 수 있습니다.
슬라이딩 창 크기. 그림 4에서는 로컬 관심 레이어의 다양한 글로벌:로컬 비율 구성에 따른 다양한 슬라이딩 윈도우 크기의 복잡도를 비교합니다. 슬라이딩 윈도우는 복잡도에 영향을 주지 않으면서도 크게 줄일 수 있습니다.
KV 캐시 메모리에 미치는 영향. 그림 5는 32k 태그의 컨텍스트에서 모델과 KV 캐시 메모리 간의 균형을 보여줍니다. 로컬 대 글로벌 비율과 슬라이딩 윈도우 크기(sw)가 다른 2B 모델을 고려합니다. 이를 Gemma 1과 Llama에서 사용되는 표준 구성인 전역 고유 구성과 비교합니다. "전역 고유" 구성은 1:3 및 1024의 슬라이딩 윈도우를 사용하는 동안 60%의 메모리 오버헤드를 발생시키는 것을 관찰했습니다(sw=1024그림 6에서는 "전역적으로 고유한" 2B 모델과 함께 2B 아키텍처(**L:G=5:1, sw=1024**)를 사용하여 컨텍스트 길이의 함수로서 KV 캐시의 메모리 사용량을 계산합니다.
5.3 긴 컨텍스트 활성화하기
저희는 처음부터 128k 시퀀스를 훈련하는 대신 32k 시퀀스를 사용하도록 모델을 사전 훈련한 다음, 사전 훈련이 끝날 때 4B, 12B, 27B 모델을 128k 토큰으로 스케일링하고 RoPE를 다시 스케일링했습니다(Chen et al., 2023). 우리는 실제로 8의 스케일링 계수가 잘 작동한다는 것을 발견했습니다. 특히, Gemma 2와 비교하여 글로벌 자기 주의 계층에 대한 RoPE의 기본 주파수를 10k에서 1M으로 높이고 로컬 자기 주의 계층의 주파수는 10k로 유지했으며, 그림 7에서는 다양한 컨텍스트 길이에 따른 당혹감의 효과를 보여줍니다. 이 모델은 128k까지 일반화되지만, 계속 확장함에 따라 당혹감은 급격히 감소합니다.
5.4 소규모 및 대규모 교사
일반적인 발견은 작은 모델을 훈련하려면 작은 교사로부터 증류하는 것이 가장 좋다는 것입니다.




이는 이러한 연구들이 일반적으로 더 나은 교사를 사용할 때의 이점보다 열악한 환경에서 더 열악한 교사를 사용하기 때문인 것으로 추정됩니다. 저희는 교육 기간에 따라 큰 교사와 작은 교사 두 명의 서로 다른 규모의 교사를 사용하여 학생들을 교육합니다. 그림 8에서는 교육 기간이 짧을수록 작은 교사가 더 효과적이지만, 교육 기간이 길어질수록 그 추세가 반전되는 것을 관찰할 수 있습니다.
5.5 비주얼 인코더
이미지 해상도의 효과. SigLIP(Zhai et al., 2023)에 기반한 시각적 코더를 사용합니다. 시각 코더는 고정되어 있고 언어 모델만 학습됩니다. 이 멀티모달 데이터의 각 이미지는 해당 시각 코더의 256개 이미지 토큰으로 표현됩니다. 따라서 고해상도 인코더는 평균 풀링을 사용하여 출력을 256개의 토큰으로 줄입니다. 예를 들어, 896 해상도 인코더는 출력에 4x4 평균 풀링을 사용합니다. 표 7에서 볼 수 있듯이 해상도가 높은 인코더가 낮은 인코더보다 성능이 뛰어납니다.


팬 앤 스캔(P&S). P&S를 사용하면 기본 화면 비율과 이미지 해상도에 가까운 이미지를 캡처할 수 있습니다. 표 8에서는 27B IT 모델과 P&S를 사용하지 않은 모델을 비교하고 있는데, 예상대로 기본 해상도에 가까운 이미지 처리 기능은 이미지에서 텍스트를 읽어야 하는 작업에 큰 도움이 되며, 이는 시각 언어 모델에 특히 중요합니다.
6. 메모리 및 개인정보 보호
대규모 언어 모델은 훈련에 사용되는 일부 텍스트의 거의 복제품을 생성할 수 있습니다(Biderman 외. 2023; Carlini 외. 2021, 2022; Ippolito 외. 2022; Nasr 외. 2023). 이전의 여러 보고서에서 기억률을 측정하여 이러한 위험을 정량화한 감사 결과를 발표했습니다(Anil 외. 2023; Chowdhery 외. 2022; Gemini 팀 2023, 2024; Gemma 팀 2024a,b; LLaMa 팀 2024). 이 "메모리 비율"1은 다음 설정을 사용하여 전체 모델 생성에 대한 훈련 데이터와 일치하는 모델 생성의 비율로 정의됩니다. 이를 측정하기 위해 Gemma 팀(2024b)에서 설명한 방법을 따릅니다. 구체적으로, 훈련 데이터의 균일하게 분포된 더 큰 부분에서 하위 표본을 추출하고 길이 50의 접두사와 길이 50의 접미사를 사용하여 이 콘텐츠의 검색 가능한 추출 여부를 테스트합니다(Nasr et al., 2023). 텍스트는 연속되는 모든 토큰이 소스 접미사와 일치하는 경우 '전체 메모리'로, 10%의 편집 거리 내에서 일치하는 경우 '근거리 메모리'로 표현되었습니다.
그림 9는 Gemma 모델과 Gemini 모델의 메모리 속도를 비교한 것으로, 시간 역순으로 배열되어 있으며 왼쪽에 최신 Gemma 3 모델이 있습니다. Gemma 3 모델이 이전 모델보다 훨씬 낮은 속도로 긴 텍스트를 기억하는 것으로 나타났습니다(로그 Y축을 참고하세요). 4B, 12B, 27B 모델 간에는 메모리 속도에 약간의 차이만 있었으며, 1B 모델은 다른 대형 모델보다 기억하는 속도가 더 낮았습니다. 또한 텍스트의 더 많은 부분이 대략적인 메모리로 특징지어졌으며, 전체 메모리와 비교하여 대략적인 메모리가 약 24배 정도 상대적으로 증가한 것으로 나타났습니다.
또한 개인정보가 포함될 수 있는 생성 비율도 조사합니다. 잠재적인 개인정보를 식별하기 위해 Google은 Google 클라우드 민감 데이터 보호(SDP) 서비스를 사용합니다.2 SDP는 광범위한 탐지 규칙을 사용하여 개인정보를 포함할 수 있는 텍스트를 식별하며, SDP는 높은 리콜률을 갖도록 설계되었으며 정보가 나타날 수 있는 문맥을 고려하지 않아 많은 오탐지를 유발할 수 있습니다. 결과적으로 출력물에 포함된 실제 개인 정보의 양을 과대평가할 수 있습니다.SDP는 또한 낮음, 중간, 높음 등 다양한 심각도 수준을 제공합니다. SDP에서 심각도 수준에 따라 텍스트를 개인정보로 분류하면 해당 텍스트를 개인정보로 분류합니다. 모든 Gemma 3 모델에는 출력물에 개인정보가 포함되어 있지 않은 것으로 관찰되었습니다. 이는 출력물에서 메모리로 분류된 개인 데이터의 비율이 당사의 탐지 임계값보다 낮다는 것을 의미합니다.


7. 책임, 안전, 보안
책임, 안전, 보안은 Gemma 모델 개발에서 매우 중요합니다. Gemma 3 사용자에게 미치는 영향을 최소화하기 위해 Google은 개발 워크플로우를 통해 실행되는 강화된 내부 보안 프로세스를 최신 Google AI 모델(Gemini Team, 2024)에 맞춰 지속적으로 통합하고 있습니다. 이는 학습 중 보안 완화와 새로운 이미지-텍스트 변환 기능에 대한 강력하고 투명한 모델 평가에 중점을 두고 있습니다.
7.1 거버넌스 및 평가
젬마의 혜택과 위험을 평가하는 접근 방식은 젬마 1(젬마 팀, 2024a)에서 설명한 내용을 반영하고 지원 모델의 변화를 고려합니다. 우리는 AI의 개방성이 이러한 기술의 혜택을 사회 전체로 확산시킬 수 있다고 믿지만, 개인과 기관 차원에서 발생할 수 있는 피해의 위험을 평가해야 한다고 생각합니다(Weidinger et al., 2021). Gemma가 처음 출시된 이래로 이러한 모델이 위험한 콘텐츠, 성 착취, 폭력 카테고리에 대한 안전 라벨을 출력하는 이미지 안전을 위한 기성 솔루션을 제공하는 Gemma 3을 사용하여 구축된 4B 이미지 안전 분류기인 ShieldGemma 2와 같은 여러 사회적으로 유익한 애플리케이션을 추진하는 것을 보았습니다.
Gemma 3 모델의 출시는 모델 기능의 변화에 대한 특별한 주의와 기존 멀티모달 LLM의 진화하는 위험에 대한 면밀한 모니터링이 필요하며(Lin et al., 2024), 이 모델이 야생에서 어떻게 사용되는지에 대한 이해가 필요합니다. 아직까지 Gemma의 악의적인 사용에 대한 신고는 접수되지 않았지만, 이러한 신고를 조사하고 학계 및 개발자 커뮤니티와 협력하는 것은 물론 자체 모니터링을 실시하여 이러한 사례를 포착하기 위해 최선을 다하고 있습니다.
개선된 기능에도 불구하고, 더욱 강력한 개방형 모델을 사용할 수 있다는 점을 고려할 때 이번 릴리스가 전체 리스크 환경에 미치는 영향은 미미할 것으로 예상됩니다.
7.2 교육 중 보안 정책 및 완화 조치
Gemma 보안 접근 방식의 핵심 기둥 중 하나는 Gemini 모델(Gemini 팀, 2023년)에 맞춰 Google 보안 정책을 준수하는 것입니다. 이는 Google 모델이 유해한 콘텐츠를 생성하는 것을 방지하는 데 도움이 되도록 설계되었습니다:
- 아동 성 학대 및 착취
- 피해를 초래할 수 있는 개인 식별 정보(예: 주민등록번호) 공개
- 혐오 발언 및 괴롭힘
- 위험하거나 악의적인 콘텐츠(자해 조장 또는 유해한 활동 지시 포함)
- 음란물
- 과학적 또는 의학적 합의에 반하는 의학적 조언
사전 학습 데이터에 대한 광범위한 보안 필터링을 수행하여 사전 학습 및 미세 조정 체크포인트가 유해한 콘텐츠를 생성할 가능성을 줄입니다. 또한 모델을 미세 조정할 때는 SFT와 RLHF를 사용하여 바람직하지 않은 동작을 피하도록 모델을 조정합니다.
7.3 세이프가드 평가
또한, 저희는 IT 모델이 야기할 수 있는 잠재적 피해를 파악하기 위해 일련의 기본 보증 평가를 거쳤습니다. 또한 개방형 모델을 장려함에 따라 가중치 릴리스의 비가역성 때문에 위험에 대한 엄격한 평가가 필요하다는 점을 인식하고 있습니다. 이에 따라 내부 보안 프로세스를 설계했으며, 이전 Gemma 모델에 대해서도 극한 위험과 관련된 기능에 대한 평가를 수행한 바 있습니다(Phuong 외, 2024; Shevlane 외, 2023). 개방형 모델을 지속적으로 개발하고 공유함에 따라, 더 강력한 모델이 일반적으로 덜 강력한 모델에 대해 충분한 커버리지를 제공하는지 철저히 평가하여 이 휴리스틱을 따를 것입니다. 따라서 특정 모델이 잠재적으로 더 높은 위험성을 가질 수 있는 상황에 대비해 심층적인 위험 역량 평가를 유보하고 Gemma 3에 대한 간소화된 평가 세트의 우선순위를 정했습니다(아래 CBRN 평가에 대해 설명 참조). 개발 속도와 목표 안전 테스트의 균형을 유지하여 프론티어 안전 프레임워크에 명시된 약속을 준수하면서 평가가 집중적이고 효율적으로 이루어질 수 있도록 했습니다.
기준 평가
기준 보증은 모델이 보안 정책을 위반하는 비율을 파악하기 위해 대량의 합성 적대적 사용자 쿼리를 사용하고 인간 평가자를 사용하여 정책 위반 여부에 대한 답변에 플래그를 지정합니다. 전반적으로 Gemma 3는 이러한 보안 정책 위반률이 매우 낮습니다.
화학, 생물학, 방사능 및 핵(CBRN) 지식
STEM 관련 과제에 대한 성과가 향상됨에 따라 내부 데이터 세트에 대한 폐쇄형 지식 기반 객관식 문제를 사용하여 생물학적, 방사능 및 핵 위험과 관련된 지식을 평가했습니다. 화학 지식 평가의 경우, Macknight 등이 개발한 폐쇄형 지식 기반 접근법을 사용하여 화학적 위험을 평가했습니다. 평가 결과, Gemma 3 모델은 이러한 영역에 대한 지식이 낮은 것으로 나타났습니다.
7.4 책임감 있는 오픈 모델링 접근 방식
안전하고 안전하며 책임감 있는 애플리케이션을 설계하려면 각 특정 사용 사례 및 환경과 관련된 위험을 완화하기 위해 노력하는 시스템 수준의 접근 방식이 필요합니다. Facebook은 모델의 잠재적 위험에 비례하는 평가와 보안 완화 조치를 지속적으로 적용할 것이며, 이점이 예측 가능한 위험보다 명백히 크다고 확신하는 경우에만 이를 커뮤니티와 공유할 것입니다.
8. 토론 및 결론
이번 작업에서는 텍스트, 이미지, 코드를 위한 오픈 소스 언어 모델인 Gemma 제품군의 최신 버전인 Gemma 3을 소개합니다. 이번 릴리스에서는 이미지 이해와 긴 문맥을 추가하는 동시에 다국어 기능과 STEM 관련 기능을 개선하는 데 중점을 두었습니다. 모델 크기와 아키텍처는 표준 하드웨어와 호환되도록 설계되었으며, 대부분의 아키텍처 개선 사항은 성능을 유지하면서 이 하드웨어를 수용하도록 설계되었습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...