지식 증류는 사전 학습된 대규모 모델(즉, '교사 모델')에서 더 작은 '학생 모델'로 학습을 이전하는 것을 목표로 하는 머신 러닝 기법입니다. 증류 기법은 지능형 대화 및 콘텐츠 제작과 같은 영역에서 사용할 수 있는 더 가벼운 생성 모델을 개발하는 데 도움이 될 수 있습니다.
가장 가까운 (위치) 증류 이 단어는 매우 자주 볼 수 있습니다.
이틀 전 큰 화제를 불러일으킨 딥시크 팀은 DeepSeek-R1는 670억 개의 파라미터를 가진 대규모 모델을 강화 학습과 증류 기법을 통해 7억 개의 파라미터를 가진 경량 모델로 기능을 성공적으로 마이그레이션했습니다.
이 증류 모델은 같은 크기의 기존 모델보다 성능이 뛰어나며 심지어 OpenAI의 최상위 소형 모델인 OpenAI-o1-mini에 근접합니다.
인공 지능 분야에서는 대규모 언어 모델(예: GPT-4, DeepSeek-R1 )는 수천억 개의 매개변수를 사용하여 뛰어난 추론 및 생성 기능을 입증했습니다. 하지만 엄청난 연산 요구 사항과 높은 배포 비용으로 인해 모바일 디바이스 및 엣지 컴퓨팅과 같은 시나리오에서는 적용이 심각하게 제한됩니다.
성능 저하 없이 모델 크기를 압축하는 방법은 무엇인가요?지식 증류(지식 증류)는 이 문제를 해결하기 위한 핵심 기술입니다.
1. 지식 증류란 무엇인가요?
지식 증류는 사전 학습된 대규모 모델(즉, '교사 모델')에서 더 작은 '학생 모델'로 학습을 이전하는 것을 목표로 하는 머신 러닝 기법입니다.
딥 러닝에서는 특히 대규모 심층 신경망의 모델 압축 및 지식 전달의 한 형태로 사용됩니다.
지식 증류의 본질은 다음과 같습니다.지식의 마이그레이션교사 모델의 출력 분포를 모방하여 학생 모델이 일반화 능력과 추론 논리를 상속받도록 합니다.
- 교사 모델(교사 모델): 일반적으로 많은 수의 매개변수와 충분한 학습을 거친 복잡한 모델(예: DeepSeek-R1)로, 예측 결과뿐만 아니라 카테고리 간의 유사성 정보도 암시적으로 출력에 포함됩니다.
- 학생 모델(학생 모델: 교사 모델의 소프트 목표와 일치하여 역량 이전을 가능하게 하는 매개변수가 적은 작고 간결한 모델입니다.
인공 신경망이 학습 데이터 세트에 제공된 샘플 결과와 더 유사한 예측을 하도록 훈련하는 것이 목표인 기존의 딥러닝과 달리, 지식 증류에서는 학생 모델이 정답을 맞추는 것(어려운 목표)뿐만 아니라 교사 모델의 '사고 논리'도 학습해야 합니다. -즉, 교사 모델의 출력인확률 분포(소프트 타겟).
예를 들어, 이미지 분류 과제에서 교사 모델은 "이 그림은 고양이입니다"(90% 신뢰도)라고 말할 뿐만 아니라 "여우처럼 보입니다"(5%), "다른 동물입니다. "(5%) 및 기타 가능성을 제시합니다.
이러한 확률 값은 시험지를 채점할 때 교사가 표시하는 '쉬운 점'과 같습니다. 학생 모델은 상관관계(예: 고양이와 여우는 뾰족한 귀와 털의 특징이 비슷하다)를 파악함으로써 결국 표준 답을 기계적으로 외우기보다 더 유연하게 변별하는 능력을 배우게 될 것입니다.

2. 증류의 원리에 대한 지식
2015년 논문 '신경망에서 지식의 증류'에서 저자는 훈련을 목적이 다른 두 단계로 나눌 것을 제안하면서 많은 곤충의 애벌레 형태는 환경으로부터 에너지와 영양분을 추출하는 데 최적화된 반면, 성충 형태는 완전히 달라 이동과 번식에 최적화되어 있다고 비유합니다. 은 학습 및 배포 단계에서 동일한 모델을 사용하지만 요구 사항은 서로 다릅니다.
논문에서 '지식'에 대한 이해도도 다양합니다:
논문이 발표되기 전에는 학습 모델의 지식과 학습된 파라미터 값을 동일시하는 경향이 있었기 때문에 모델의 형태를 변경해도 동일한 지식을 유지할 수 있는지 확인하기 어려웠습니다.
지식에 대한 보다 추상적인 관점은 지식이 학습된 것이라는 것입니다.입력 벡터에서 출력 벡터로 매핑하기.
지식 증류 기술은 교사 모델의 결과물을 복제할 뿐만 아니라 그들의 '사고 과정'을 모방하기도 합니다. LLM 시대에 지식 증류는 스타일, 추론 능력, 인간의 선호도 및 가치관과의 일치와 같은 추상적인 자질을 전수할 수 있게 해줍니다.
지식 증류의 실현은 세 가지 핵심 단계로 나눌 수 있습니다:
2.1 소프트 타겟 생성: 답을 '퍼지'하기
교사 모델이 통과되었습니다.고온 소프트맥스이 기술은 '흑백' 답변을 자세한 정보가 포함된 '퍼지 힌트'로 변환합니다.
온도(온도)가 높아질수록(예: T=20) 모델 출력의 확률 분포가 더 부드러워집니다.
예를 들어, "고양이(90%), 여우(5%)"
"고양이(60%), 여우(20%), 기타(20%)"가 될 수 있습니다.
이러한 방식을 통해 학생 모델은 기계적으로 라벨을 암기하는 대신 범주 간의 상관관계(예: 고양이와 여우는 귀 모양이 비슷하다)에 집중하게 됩니다.
2.2 객관적 기능 설계: 소프트 목표와 하드 목표의 균형 맞추기
학생 모델의 학습 목표는 두 가지입니다:
- 교사의 사고 논리 모방하기(소프트 타겟): 교사의 높은 온도 확률 분포를 매칭하여 학급 간 관계를 학습합니다.
- 정답을 기억하세요.(하드 타겟): 기본 정확도가 떨어지지 않는지 확인합니다.
학생 모델의 손실 함수는 소프트 목표와 하드 목표의 가중치 조합이며, 두 목표의 가중치를 동적으로 조정해야 합니다.
예를 들어 소프트 목표에 70%, 하드 목표에 30%의 가중치를 부여할 경우, 학생이 교사의 풀이를 공부하는 데 70%, 표준 답안을 정리하는 데 30%의 시간을 할애하여 궁극적으로 유연성과 정확성 사이의 균형을 달성하는 것과 유사합니다.
2.3 온도 매개변수의 동적 조절, 지식의 '전달 세분성' 제어
온도 매개변수는 지적 증류의 '난이도 노브'입니다:
- 고온 모드(예: T=20): 답변이 매우 모호하며 복잡한 연관성(예: 여러 품종의 고양이를 구별하는 것)을 전달하기에 적합합니다.
- 저온 모드(예: T = 1): 답변이 원래 분포에 가깝고 간단한 작업(예: 숫자 인식)에 적합합니다.
- 동적 전략초기에는 높은 온도로 지식을 광범위하게 흡수하고, 나중에는 핵심 기능에 집중하기 위해 온도를 낮춥니다.
예를 들어 음성 인식 작업은 정확도를 유지하기 위해 더 낮은 온도가 필요합니다. 이 과정은 교사가 휴리스틱부터 시험 응시까지 학생의 수준에 맞게 수업의 깊이를 조절하는 것과 유사합니다.
3. 지식 증류의 중요성
주어진 작업에 대해 가장 성능이 좋은 모델은 대부분의 실제 사용 사례에서는 너무 크거나 느리거나 비용이 많이 드는 경향이 있지만, 그 크기와 대량의 학습 데이터에 대한 사전 학습 능력에서 비롯되는 뛰어난 성능을 가지고 있습니다.
반면, 더 작은 모델은 더 빠르고 계산 부담이 적지만 더 많은 매개변수를 가진 큰 모델에 비해 정확도가 떨어지고 정교하지 않으며 지식이 부족합니다.
예를 들어 지식 증류의 적용 가치가 발휘되는 곳이 바로 이 지점입니다:
DeepSeek-R1의 670B 파라미터 대형 모델은 지식 증류 기법을 통해 그 기능을 7B 파라미터 경량 모델로 마이그레이션하여 모든 측면에서 GPT-4o-0513과 같은 비추론 모델보다 성능이 뛰어난 DeepSeek-R1-7B를, 모든 평가 메트릭에서 QwQ-32BPreview보다 성능이 뛰어난 DeepSeek-R1-14B를 제공합니다. DeepSeek-R1-32B 및 DeepSeek-R1-70B는 대부분의 벤치마크에서 o1-mini를 크게 능가합니다.
이러한 결과는 증류의 강력한 잠재력을 보여줍니다. 지식 증류는 중요한 기술 도구가 되었습니다.
자연어 처리 분야에서는 많은 연구 기관과 기업에서 번역, 대화 시스템, 텍스트 분류 등의 작업을 위해 대용량 언어 모델을 더 작은 버전으로 압축하는 증류 기법을 사용하고 있습니다.
예를 들어, 대형 모델을 증류하면 강력한 클라우드 컴퓨팅 리소스에 의존하지 않고도 모바일 장치에서 실행하여 실시간 번역 서비스를 제공할 수 있습니다.
지식 증류의 가치는 IoT와 엣지 컴퓨팅에서 훨씬 더 중요합니다. 기존의 대형 모델은 강력한 GPU 클러스터 지원이 필요한 경우가 많았지만, 소형 모델은 훨씬 낮은 전력 소비로 마이크로프로세서나 임베디드 장치에서 실행할 수 있도록 증류되었습니다.
이 기술은 배포 비용을 대폭 절감할 뿐만 아니라 의료, 자율 주행, 스마트 홈과 같은 분야에서 지능형 시스템을 더 널리 사용할 수 있게 해줍니다.
앞으로 지식 증류의 적용 가능성은 훨씬 더 넓어질 것입니다. 제너레이티브 AI의 발전으로 증류 기술은 지능형 대화, 콘텐츠 제작 및 기타 영역에서 더 가벼운 무게의 제너레이티브 모델을 개발하는 데 도움이 될 수 있습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...