LLM 증류: 대형 모델 독립을 둘러싼 '암흑의 전쟁'?

31.8K 00

I. 배경 및 과제

AI 기술의 급속한 발전과 함께 대규모 언어 모델(LLM)은 자연어 처리 분야의 핵심 동력이 되었습니다. 그러나 이러한 모델을 학습하려면 막대한 컴퓨팅 리소스와 시간 비용이 필요하기 때문에 지식 증류(KD) 기술이 증가하고 있습니다. 지식 증류는 큰 모델(교사 모델)에서 작은 모델(학생 모델)로 지식을 마이그레이션하여 리소스 소비를 줄이면서 교사 모델의 성능에 근접하거나 능가하는 효과를 얻을 수 있습니다.

ground LLM-증류-정량화 이 프로젝트는 실험의 결론 기사에서 주어진 "The대규모 언어 모델에 대한 증류 정량화LLM 증류기의 문제와 과제를 분석하는 LLM 증류기 가이드입니다.

1. LLM 증류의 장점: 기회와 도전 과제 모두

강점.

리소스 효율적. 증류 기술을 통해 리소스가 제한된 교육 기관과 개발 팀은 고급 LLM의 역량을 활용하여 AI 기술을 발전시킬 수 있습니다.
성능 향상. 지식 전달을 통해 학생 모델은 특정 작업에서 교사 모델의 성과를 충족하거나 심지어 능가할 수 있습니다.

질문.

'후발주자 우위'라는 양날의 검.
- 증류 기법에 지나치게 의존하면 연구자가 기존 모델에 대한 지식에 지나치게 의존하게 되고 새로운 기법을 탐색하는 데 방해가 될 수 있습니다.
- 이는 AI 분야의 기술 개발 정체로 이어져 혁신의 여지를 제한할 수 있습니다.
견고성 저하.
- 기존 연구에 따르면 증류 과정은 모델의 견고성을 감소시켜 복잡하거나 새로운 작업에 직면했을 때 성능이 저하되는 것으로 나타났습니다.
- 예를 들어 학생 모델은 적의 공격에 더 취약할 수 있습니다.
동질화 위험.
- 소수의 교사 모델에 지나치게 의존하면 다양한 학생 모델 간의 다양성이 부족해질 수 있습니다.
- 이는 모델의 적용 시나리오를 제한할 뿐만 아니라 모델의 집단적 실패 가능성과 같은 잠재적인 시스템 리스크를 증가시킵니다.

2. LLM 증류 정량화의 과제: 안개 속에서의 탐구

증류 기술의 광범위한 응용에도 불구하고 정량적 평가는 많은 어려움에 직면해 있습니다:

투명하지 않은 프로세스.
- 증류 과정은 종종 영업 비밀로 간주되고 투명성이 부족하여 학생 모델과 원본 모델의 차이점을 직접 비교하기 어렵습니다.
기준 데이터 부족.
- LLM 증류를 평가하기 위해 특별히 설계된 기준 데이터 세트가 부족합니다.
- 연구자들은 학생 모델의 결과물을 원래 모델과 비교하는 등 간접적인 방법에 의존해야 했지만, 이는 증류의 효과를 완전히 파악할 수 있는 방법이 아닙니다.
중복성 또는 추상화를 나타냅니다.
- LLM의 내부 표현에는 중복되거나 추상적인 정보가 많이 포함되어 있어 증류 지식을 해석 가능한 출력으로 직접 변환하기가 어렵습니다.
- 이로 인해 증류 정도를 정량화하기가 더 어려워집니다.
명확한 정의가 부족합니다.
- 학계에서는 '증류'의 정의에 대한 합의가 이루어지지 않았으며 증류 정도를 측정하는 통일된 기준이 부족합니다.
- 이는 서로 다른 연구 간의 결과를 비교하기 어렵게 만들고 해당 분야의 발전을 저해합니다.

II. 방법론: LLM 증류를 정량화하는 두 가지 혁신적인 지표

위의 문제를 해결하기 위해 이 프로젝트에서는 서로 다른 관점에서 LLM의 증류 정도를 평가하기 위해 두 가지 보완적인 정량적 지표를 제안합니다:

1. 응답 유사성 평가(RSE)

목표. 학생 모델과 참조 모델(교사 모델)의 산출물을 비교하고 둘 사이의 유사성을 평가하여 증류 정도를 정량화했습니다.

방법.

참조 모델 선택. 이 논문에서는 GPT-4를 참조 모델로 선정하고 Claude, Doubao, Gemini 등을 포함한 12개의 학생 모델을 평가 대상으로 선정했습니다.
다양한 프롬프트 세트 구축
- 각각 일반 추론, 수학 및 교육 추론 영역에서 모델 응답의 유사성을 평가하기 위해 세 가지 큐 세트인 ArenaHard, Numina 및 ShareGPT를 선택했습니다.
- 이러한 프롬프트 세트는 다양한 작업 유형과 난이도를 다루어 포괄적인 평가가 이루어지도록 합니다.
다차원 평가.
- 학생과 참조 모델 응답 간의 유사성은 세 가지 방법으로 평가되었습니다:
  - 응답 스타일. 어조, 어휘 및 문장 부호의 유사성 정도입니다.
  - 논리 구조. 아이디어의 순서와 아이디어가 추론되는 방식의 유사성 정도입니다.
  - 콘텐츠 세부 정보. 다루는 지식 포인트 및 예제의 세부 수준입니다.
- 각 학생 모델은 1-5점 척도(1은 매우 유사하지 않음, 5는 매우 유사함)를 사용하여 LLM을 심사위원으로 삼아 점수를 매겼습니다.

그림 1: RSE 점수 기준. 그림은 1(매우 유사하지 않음)에서 5(매우 유사함)까지 RSE에 사용되는 5가지 평가 척도를 보여줍니다.

2. 신원 일관성 평가(ICE)

목표. 학생 모델이 자신의 신원을 인식하는 일관성을 평가하여 학습 데이터에서 신원 유출 가능성을 파악합니다.

방법.

ID 팩트 세트(F)를 정의합니다.
- 소스 LLM(예: GPT-4)에 대한 신원 정보는 수집되어 일련의 팩트 F로 표현되며, 각 팩트 f_i는 "나는 OpenAI가 개발한 AI 비서입니다."와 같이 LLM에 대한 신원 관련 정보를 명시적으로 설명합니다.
ID 프롬프트 세트(P_id) 빌드.
- "어느 개발 팀에 소속되어 있나요?" , "개발 회사 이름이 무엇인가요?" 등의 신원 관련 프롬프트를 사용하여 학생 모델에게 신원 정보를 쿼리합니다. , "개발 회사 이름이 무엇인가요?" 등과 같은 프롬프트를 사용하여 신원 정보를 쿼리합니다. .
GPTFuzz를 사용한 반복 최적화.
- GPTFuzz 프레임워크를 사용하여 학생 모델에서 정체성 인식의 차이를 식별하기 위해 보다 효과적인 프롬프트를 반복적으로 생성합니다.
- 구체적으로, LLM은 큐 응답을 팩트 세트 F와 비교하여 논리적 충돌을 식별하고 다음 반복에 병합하는 판단자로 사용됩니다.
등급.
- 루즈 스코어. 신원 불일치의 잘못된 예시를 성공적인 공격으로 간주합니다.
- 엄격한 점수. 은 모델을 다음과 같이 잘못 식별할 뿐입니다. Claude 또는 GPT 예시를 성공적인 공격으로 간주합니다.

그림 2: ICE 프레임워크. 이 그림은 ICE의 증류 정량화 프레임워크를 보여줍니다.

III. 실험 결과 및 중요한 결론

1. 신원 일관성 평가(ICE) 결과.

주요 결과
- GLM-4-Plus, QwenMax 및 DeepSeek-V3 은 세 가지 모델 중 의심되는 응답이 가장 많은 학생 모델로, 이는 높은 수준의 증류가 이루어지고 있으며 신원 정보가 여러 출처에서 나올 수 있음을 시사합니다.
- 클로드-3.5-소넷 및 두바오-프로-32k 의심스러운 응답이 거의 없다는 것은 증류 수준이 낮고, 그들의 정체성이 더 명확하며, 독립성이 더 높다는 것을 의미합니다.
- 느슨한 채점에는 오탐의 예가 일부 포함되어 있지만 엄격한 채점은 보다 정확한 측정을 제공합니다.

그림 3: ICE 결과 비교. 모델 약어는 다음과 같이 매핑됩니다: "Claude"는 "Claude3.5-Sonnet", "Doubao"는 "Doubao-Pro-32k", "Gemini"는 "Gemini-Flash-2.0", "Gemini"는 "Gemini-Flash-2.0"에 해당합니다. "두바오"는 "두바오-Pro-32k", "제미니"는 "Gemini-Flash-2.0"에 해당합니다. "Llama3.1"은 "Llama3.1-70B-Instruct", "DPSK-V3"는 다음과 같습니다. "DeepSeek-V3", "Qwen-Max"는 "Qwen-Max-0919"에 해당합니다.

다양한 유형의 신원 확인 프롬프트에 대한 공격 성공 횟수입니다.
- 팀, 산업, 기술 측면이 공격에 더 취약한데, 이는 아마도 이러한 측면에 정리되지 않은 증류 데이터가 더 많이 존재하기 때문일 수 있습니다.

그림 4: 다양한 유형의 신원 단서에 대한 ICE 공격 성공 횟수. 모델 약어 매핑은 그림 3과 동일합니다.

2. 응답 유사성 평가(RSE) 결과.

주요 결과
- GPT 시리즈 모델(예: 평균 유사도 4.240의 GPT4o-0513)가 가장 높은 응답 유사도를 보여 높은 수준의 증류가 이루어졌음을 나타냅니다.
- Llama 3.1-70B-Instruct (3.628) 및 Doubao-Pro32k (3.720) 아이소-학생 모델의 유사도가 낮을수록 증류의 정도가 낮음을 나타냅니다.
- DeepSeek-V3 (4.102) 및 Qwen-Max-0919 (4.174) 이소 학생 모델은 GPT4o-0806과 일치하는 더 높은 수준의 증류 수준을 나타냅니다.

그림 5: RSE 결과. 행은 테스트한 다양한 모델을 나타내고 열은 다양한 데이터 세트(ArenaHard, Numina 및 ShareGPT)를 나타냅니다. 표의 점수는 각 모델-데이터 세트 쌍에 대한 RSE 점수를 나타냅니다. '평균' 열은 각 모델의 평균 RSE 점수를 나타냅니다.

3. 기타 중요한 결과.

기준 LLM과 미세 조정된 LLM.
- 베이스라인 LLM은 일반적으로 감독형 미세 조정(SFT) LLM보다 높은 증류 수준을 나타냅니다.
- 이는 기준 LLM이 작업별 미세 조정 부족으로 인해 인식 가능한 증류 패턴을 보이는 경향이 있으며, 이로 인해 평가에서 악용되는 허점에 더 취약할 수 있음을 시사합니다.
오픈 소스 및 비공개 소스 LLM.
- 실험 결과에 따르면 클로즈드 소스 LLM(예: Qwen-Max-0919)이 오픈 소스 LLM(예: Qwen 2.5 시리즈)보다 증류 정도가 더 높은 것으로 나타났습니다.

IV. 결론

다음 두 가지 영역에 집중하세요:

1. 탈옥 공격에 따른 자기 인식의 역설 파악하기: 를 사용하여 자기 인식 측면에서 LLM의 일관성을 평가합니다.
2. 다중 세분성 응답 유사성 분석: The 를 사용하여 LLM 간의 동질성 정도를 측정합니다.

다음과 같은 핵심 사항이 공개되었습니다:

LLM 증류의 현재 상태.
- 가장 잘 알려진 클로즈드 소스 및 오픈 소스 LLM은 Claude, Doubao 및 쌍둥이자리 예외.
- 이는 LLM 분야에서 어느 정도 동질화가 이루어졌음을 시사합니다.
증류가 AI 독립성에 미치는 영향.
- 베이스라인 LLM은 미세 조정된 LLM보다 더 높은 수준의 증류도를 나타내며, 이는 기존 모델 지식에 더 취약하고 충분한 독립성이 부족하다는 것을 의미합니다.
- 클로즈드 소스 LLM의 높은 수준의 증류는 또한 AI 독립성에 대한 생각을 불러일으킵니다.
향후 방향.
- 이 백서는 LLM의 견고성과 보안을 강화하기 위해 LLM 분야에서 보다 독립적인 개발과 투명한 기술 보고를 요구합니다.
- 기존 모델의 지식에 지나치게 의존하지 않고 보다 다양하고 혁신적인 방향으로 LLM을 추진하세요.

실험 결과에 따르면 클로드, 두바오, 제미니를 제외한 대부분의 잘 알려진 클로즈드 소스 및 오픈 소스 LLM은 높은 증류 수준을 나타냅니다. 또한 기본 LLM은 미세 조정된 LLM보다 더 높은 증류 수준을 보였습니다.

이 백서는 LLM 데이터 증류의 투명성을 개선하기 위한 체계적인 접근 방식을 제공함으로써 LLM의 견고성과 보안을 강화하기 위해 LLM 분야에서 보다 독립적인 개발과 투명한 기술 보고를 촉구합니다.