정규화(정규화)란 무엇인가, 보고 이해해야 할 기사

19.1K 00

정규화의 정의

정규화는 모델 과적합을 방지하기 위한 머신러닝 및 통계의 핵심 기술입니다. 과적합이란 모델이 학습 데이터에서는 잘 작동하지만 새로운 데이터에서는 성능이 저하되는 것을 의미합니다. 정규화는 모델의 복잡성과 관련된 목적 함수에 페널티 항을 추가하여 적합도를 제어합니다. 일반적인 형태로는 L1 및 L2 정규화가 있습니다. L1은 희소 솔루션을 생성하고 특징 선택에 적합하며, L2는 계수를 균일하게 축소하고 안정성을 향상시킵니다. 이 기술은 본질적으로 편향-편차 트레이드 오프의 구체적인 구현으로, 약간의 편향을 도입하여 편차를 줄이고 일반화 오류를 개선합니다. 정규화 매개변수는 교차 검증을 통해 결정되며, 이 아이디어는 단순한 모델이 바람직하다는 Occam의 면도날 원칙에 부합합니다. 베이지안 관점에서 정규화는 사전 분포에 해당하며, 도메인 지식을 모델 추정에 통합합니다. 머신 러닝의 기본 도구인 정규화는 수학적 제약을 통해 모델의 견고성과 유용성을 향상시킵니다.

정규화의 기원

수학적 최적화에 뿌리를 둔 역사정규화 개념은 1940년대에 역문제에서 수치 불안정성과 같은 난제를 해결하기 위한 티코노프 정규화라는 이름으로 처음 등장했습니다. 러시아의 수학자 티코노프는 안정화 항을 추가하여 고유한 해를 얻을 것을 제안했습니다. 이 연구는 이후 수십 년 동안 계산 수학 분야에 영향을 미친 정규화 이론의 토대를 마련했으며, 티코노프 정규화는 처음에는 편미분 방정식을 위해 개발되었지만 나중에 더 광범위한 최적화 문제로 일반화되었습니다.
통계의 발전1970년대에 통계학자 Hoerl과 Kennard는 다중공선성 문제를 다루기 위해 L2 정규화된 선형 모델인 Ridge 회귀를 도입했습니다. 이는 정규화가 통계학의 주류로 진입하는 계기가 되었습니다. 릿지 회귀는 계수 크기에 불이익을 주어 추정 안정성을 향상시켰고 계량경제학의 표준 도구가 되었습니다. 같은 기간 동안 주성분 회귀와 같은 다른 통계 방법에도 정규화 개념이 도입되었습니다.
머신 러닝 분야에서의 채택1990년대에 서포트 벡터 머신(SVM)이 등장하면서 정규화가 핵심 요소로 자리 잡았고, Vapnik과 같은 학자들은 구조적 위험 최소화와 정규화를 결합하여 모델 복잡성 제어를 강조했습니다. 서포트 벡터 머신의 정규화 용어는 분류 간격을 최대화하여 일반화를 개선합니다. 이 단계에서 정규화는 이론에서 실무로 이동하여 패턴 인식 작업에 적용됩니다.
신경망의 진화21세기 초, 딥러닝 혁명으로 인해 신경망 과적합 문제를 해결하기 위해 드롭아웃과 가중치 붕괴와 같은 정규화 기법이 널리 채택되었습니다. Hinton과 같은 연구자들은 과적합을 줄이기 위해 뉴런을 무작위로 삭제하여 모델 평균을 시뮬레이션하는 드롭아웃을 실용화하기 위해 노력했습니다. 정규화는 딥 네트워크의 훈련에 필수적인 요소가 되었습니다.
최신 확장 기능최근 몇 년 동안 정규화 아이디어는 적대적 훈련과 데이터 증강 영역으로 확장되어 빅데이터 환경에 적응할 수 있는 다양한 접근법이 등장했습니다. 적대적 정규화는 섭동 샘플을 추가하여 견고성을 개선하고, 데이터 증강 정규화는 변환을 사용하여 데이터 세트를 확장합니다. 이러한 확장은 새로운 과제를 해결하기 위해 정규화 기법이 지속적으로 진화하고 있음을 보여줍니다.

정규화의 핵심 원칙

평형 피팅 및 일반화정규화의 핵심은 훈련 데이터에 대한 모델의 정확도(피팅)와 새로운 데이터에 대한 예측력(일반화) 사이의 절충점입니다. 페널티 항을 추가하면 모델이 훈련 노이즈에 과도하게 적합되는 것을 방지할 수 있습니다. 이 원칙은 경험적 위험 최소화 프레임워크에 기반하며, 정규화 항은 복잡성 페널티 역할을 하여 모델이 더 간단한 가정을 선택하도록 유도합니다. 균형점은 모델이 지나치게 복잡하거나 단순하지 않은지 확인하기 위해 검증 세트에 의해 평가됩니다.
편향성-변동성 트레이드 오프모델 바이어스(모델 단순화)를 높여 분산(데이터 변동에 대한 민감도)을 줄임으로써 전체 오류를 줄입니다. 이 원리는 편향-분산 분해가 오류의 원인을 밝혀내는 통계적 학습 이론에 기반합니다. 정규화는 페널티의 강도를 조정하여 트레이드오프 지점을 제어합니다. 예를 들어, 강한 정규화는 편향을 증가시키지만 분산은 감소시키며, 약한 정규화는 그 반대의 결과를 가져옵니다. 이 트레이드 오프를 이해하면 매개변수 조정에 도움이 됩니다.
오캄의 면도기 매니페스트정규화는 "필요하지 않은 엔티티는 추가하지 않는다"는 철학을 따르며, 단순한 모델을 선호하고 불필요한 복잡성을 피하며 해석 가능성을 개선합니다. 머신 러닝에서 Occam의 면도날 원칙은 가설 공간에서 가장 단순한 모델을 선택하는 것으로 구체화됩니다. 정규화는 이 원리를 수학적 형태로 구현합니다. 예를 들어, L1 정규화는 희소성을 촉진하고 중요한 특징을 자동으로 선택합니다.
최적화 문제 재구성손실 함수에 정규 항을 추가하면 비제약 최적화가 제약 최적화로 전환되어 더 부드럽고 안정적인 해를 구하는 해법 프로세스가 진행됩니다. 재구성된 문제는 종종 고유한 해를 가지거나 더 나은 수치 특성을 갖습니다. 예를 들어, 릿지 회귀는 병적인 문제를 양성 문제로 변환하여 솔루션의 존재와 연속성을 보장합니다.
확률적 관점베이지안 관점에서 정규화는 사전 분포에 해당하며, 예를 들어 L2 정규화는 가우스 사전과 동일하며 사전 지식을 모델 추정에 통합합니다. 사전 분포는 매개변수에 대한 믿음을 반영하며, 정규화 매개변수는 사전의 강도를 제어합니다. 이러한 관점은 빈도 및 베이지안 학파를 통합하고 이론적 일관성을 제공합니다.

일반적인 형태의 정규화

L1 정규화(올가미)모델 가중치의 절대값의 합을 페널티 항으로 사용하여 일부 가중치를 0으로 만들어 고차원 데이터의 차원 감소에 적합한 자동 특징 선택을 달성하며, L1 정규화는 희소 해를 생성하고 모델 구조를 단순화합니다. 최적화 문제는 계산 효율이 높은 좌표 하강법을 사용하여 해결할 수 있습니다. 적용 시나리오에는 유전자 선택, 텍스트 분류가 포함됩니다.
L2 정규화(Ridge)가중치의 제곱합에 기반한 페널티로, 가중치가 0이 아닌 균일하게 감소하여 선형 회귀 및 신경망에서 흔히 발생하는 간섭에 대한 모델의 저항력을 향상시킵니다.L2 정규화는 조건 수를 개선하고 과적합을 줄입니다. 간편한 계산을 위한 분석 솔루션이 존재합니다. 회귀 문제와 딥러닝 가중치 감쇠에 널리 사용됩니다.
Elastic NetL1과 L2 정규화를 결합하여 희소성과 안정성의 균형을 맞춰 상관관계가 높은 특징 시나리오를 처리합니다. 탄력적 네트워크는 특징 선택 기능을 유지하면서 상관관계가 있는 특징 하에서 L1 정규화의 불안정성을 극복합니다. 페널티 용어는 조정 가능한 매개변수가 있는 L1과 L2의 선형 조합입니다.
드롭아웃신경망에 특화되어 훈련 중에 일부 뉴런을 무작위로 삭제하여 뉴런 간 의존성을 줄이고 모델 통합 효과를 시뮬레이션합니다. 드롭아웃은 네트워크 견고성을 개선하고 공동 적응을 방지합니다. 테스트 중에 보정하려면 스케일링 가중치가 필요합니다. 변형으로는 DropConnect, 지역 드롭아웃이 있습니다.
조기 중지훈련 중 검증 세트 성능을 모니터링하고 성능이 떨어지면 훈련을 중지하여 과적합을 방지하는 암시적 정규화입니다. 조기 중지는 손실 함수를 수정하지 않고도 간단하고 효과적입니다. 원칙은 과적합 영역에 들어가는 최적화 과정을 피하는 것입니다. 일반적으로 경사 하강 최적화에 사용됩니다.

머신 러닝의 정규화

이미지 인식컨볼루션 신경망에서 드롭아웃 및 가중치 감쇠 정규화는 모델이 물체를 인식할 때 배경 소음을 무시하고 정확도를 향상시키는 데 도움이 됩니다(예: 얼굴 감지 시스템). 정규화는 이미지 왜곡, 조명 변화를 처리하고 모델 일반화를 향상시킵니다. 구체적인 예로는 ImageNet 대회에서 정규화 기법을 사용한 것이 있습니다.
자연어 처리(NLP)L1 정규화는 텍스트 분류 작업을 위한 단어 가방 모델에서 키워드를 자동으로 필터링하고, 특징 차원을 줄이며, 감성 분석 성능을 향상시키는 데 사용됩니다. 정규화는 고차원의 희박한 텍스트 데이터에 대응하여 과적합을 방지합니다. 엔티티 인식이라는 이름의 기계 번역에도 적용이 가능합니다.
추천 시스템정규화와 결합된 협업 필터링 알고리즘으로 사용자의 과거 행동에 대한 과적합을 방지하고 추천 다양성(예: 이커머스 플랫폼의 개인화된 추천)을 개선합니다. 정규화는 사용자 항목 행렬의 희소성을 처리하여 예측 정확도를 향상시킵니다. 정규화는 넷플릭스 프라이즈 경쟁에서 핵심적인 역할을 합니다.
의료 진단예측 모델링에서 정규화는 모델 복잡성을 제어하고 작은 샘플 데이터의 과적합을 방지하여 질병 예측의 신뢰성을 보장합니다. 정규화는 게놈 데이터와 같은 의료 데이터의 고차원적 특징을 처리하여 조기 진단을 돕습니다. 암 위험 예측 모델을 예로 들 수 있습니다.
재무 위험 관리신용 평가 모델은 정규화를 사용하여 고차원적 특징을 처리하고, 오탐을 줄이며, 변동성이 큰 시장에서 모델의 안정성을 향상시킵니다. 정규화는 금융 시계열 노이즈에 대응하고 위험 평가를 개선합니다. 은행과 보험 회사에서 널리 사용됩니다.

정규화의 장점

일반화 기능 향상정규화의 직접적인 목표는 새로운 데이터에 대한 모델의 성능을 개선하여 과적합의 위험을 줄이고 모델을 더 유용하게 만드는 것입니다. 일반화가 개선된다는 것은 실제 환경에서 모델의 신뢰성이 높아져 배포 실패가 줄어든다는 것을 의미합니다. 이러한 이점은 정규화가 존재하는 근본적인 이유입니다.
향상된 모델 견고성정규화는 노이즈에 대한 민감도를 억제함으로써 입력 변화에 대해 모델을 더욱 견고하게 만들고 실제 불확실성에 적응하도록 합니다. 견고성은 공격에 대한 안정성 및 데이터 분포 편향에 대한 안정성으로 반영됩니다. 예를 들어, L2 정규화는 가중치 편차를 줄이고 의사 결정 경계를 부드럽게 합니다.
보조 기능 선택L1 정규화는 중요하지 않은 특징 가중치를 자동으로 0으로 설정하여 모델 구조를 간소화하고 계산 비용을 절감합니다. 특징 선택은 모델 해석 가능성을 개선하고 저장 및 추론 오버헤드를 줄여줍니다. 이러한 장점은 고차원 데이터에서 특히 두드러집니다.
수치 안정성 향상최적화 프로세스에서 정규화는 가중치 폭발이나 행렬 특이점을 방지하고 솔루션 프로세스의 수렴을 보장합니다. 수치 안정성은 계산 오류를 방지하고 알고리즘의 신뢰성을 향상시킵니다. 특히 병리적 문제에서는 정규화가 필수입니다.
해석 가능성 향상간단한 모델은 이해하기 쉽고 규칙화는 투명한 의사 결정과 의료 또는 법적 애플리케이션과 같은 윤리적 요구 사항 준수를 촉진합니다. 해석 가능성은 사용자가 모델 결과물을 신뢰하고 디버깅 및 감사를 지원하는 데 도움이 됩니다. 정규화는 모델을 단순화하여 이 속성을 향상시킵니다.

정규화의 한계

매개변수 조정은 복잡합니다.정규화 효과는 하이퍼파라미터(예: 정규화 계수)에 따라 달라지며, 올바르게 선택하지 않으면 과소 또는 과대 적합으로 이어질 수 있으므로 광범위한 실험적 검증이 필요합니다. 튜닝 프로세스는 교차 검증과 그리드 검색을 포함하여 시간과 노동 집약적인 작업입니다. AutoML과 같은 자동화된 도구는 이러한 문제를 부분적으로 완화하지만 여전히 어려운 과제입니다.
계산 오버헤드 증가페널티 조건을 추가하면 특히 대규모 데이터의 경우 학습 시간이 길어질 수 있으며 정규화 최적화 프로세스에 더 많은 시간이 소요됩니다. 예를 들어, L1 정규화 솔루션은 반복 알고리즘이 필요하며 일반적인 최소제곱보다 느립니다. 분산 컴퓨팅은 이러한 문제를 완화하지만 비용이 증가합니다.
의존성 가정정규화의 일부 형태는 분포별 가정(예: 가우스 선행)을 기반으로 하며, 데이터가 가정을 충족하지 않으면 효율성이 저하됩니다. 가정 편차는 불합리한 페널티로 이어져 성능에 영향을 미칩니다. 적절한 정규화를 선택하려면 데이터 탐색이 필요합니다.
정보 손실 가능성과도한 정규화는 유용한 신호를 걸러내어 데이터의 미묘한 패턴을 포착하기에는 너무 단순한 모델을 만듭니다. 정보 손실은 이미지 세부 인식과 같은 복잡한 작업에서 특히 심각합니다. 정규화 강도의 균형을 맞춰야 합니다.
모든 시나리오에 적용되지 않음이미 단순한 모델의 경우 정규화가 중복되어 실질적인 이득 없이 복잡성을 가중시킬 수 있습니다. 예를 들어, 저차원 데이터의 경우 정규화는 오히려 성능을 저하시킵니다. 시나리오 평가가 전제 조건입니다.

정규화의 작동 메커니즘

손실 함수 수정표준 손실 함수(예: 평균 제곱 오차)에 정규 항을 추가하여 기울기 하강 방향을 안내하는 새로운 최적화 목표를 형성합니다. 수정된 손실 함수에는 피팅 오류와 복잡도 페널티가 포함되며, 최적화 프로세스는 이 두 가지를 최소화합니다. 구체적인 형태는 손실에 정규 항을 더한 가중치 합입니다.
큰 무게로 처벌일반 용어는 일반적으로 가중치 패러다임에 불이익을 주는데, 가중치 값이 크면 손실이 증가하여 모델이 더 작고 분산된 가중치를 학습하도록 강제합니다. 페널티 메커니즘은 패러다임 메트릭을 기반으로 합니다. 예를 들어 L2 패러다임은 큰 가중치 값에 페널티를 주고 L1 패러다임은 희소성을 장려합니다. 이 프로세스는 과도한 가중치 증가를 방지합니다.
임팩트 그라데이션 업데이트: 역전파에서 정규화 항은 추가 기울기에 기여하고, 가중치는 수축 효과를 얻기 위해 가중치 크기를 동시에 줄이면서 업데이트됩니다. 그라데이션 업데이트 공식에는 가중치 감쇠 항과 같은 정규화 도함수가 포함되어 있습니다. 이 메커니즘은 가중치가 0을 향해 수축하도록 보장합니다.
제어 모델 용량정규화는 모델 가정 공간을 간접적으로 제한하고 효과적인 복잡성을 줄이며 학습 데이터를 암기하지 않도록 합니다. 용량 제어는 페널티 조건을 통해 이루어지며, 모델의 자유도를 감소시킵니다. 이론적 지원은 VC 차원과 같은 복잡도 측정에서 비롯됩니다.
평활화 촉진함수 공간에서 정규화는 함수를 평활화하여 급격한 변동을 줄이고 보간을 개선하는 것을 선호합니다. 평활화는 예를 들어 스플라인 모델에서 고차 도함수나 큰 변화에 페널티를 부여함으로써 달성됩니다. 이 메커니즘은 함수 추정 안정성을 향상시킵니다.

정규화의 실제 사례

Google 검색 엔진순위 알고리즘은 L2 정규화를 사용하여 많은 수의 기능을 처리함으로써 검색 결과가 안정적이고 사용자 쿼리의 변화에 적응할 수 있도록 합니다. 정규화는 알고리즘이 과거 클릭 데이터를 과도하게 맞추는 것을 방지하고 새로운 쿼리에 대한 응답을 개선합니다. 이 애플리케이션은 수억 명의 사용자의 검색 경험에 영향을 미칩니다.
자동 운전 시스템시각 인식 신경망은 드롭아웃 정규화를 통합하여 특정 픽셀에 대한 과도한 의존을 방지하고 장애물 감지의 안정성을 개선합니다. 정규화는 빛과 날씨 변화를 처리하여 시스템 안전성을 향상시킵니다. 테슬라, 웨이모 등의 사례.
소셜 미디어 필터링콘텐츠 추천 모델은 탄력적인 네트워크 정규화를 적용하여 사용자의 관심사와 다양성의 균형을 맞추고 정보 고치 효과를 줄입니다. 정규화는 추천의 정확성과 참신성을 최적화하며, Facebook 및 Twitter와 같은 플랫폼에서 이 기술을 사용합니다.
기후 예측 모델시계열 분석에 정규화를 통합하여 과거 데이터의 과적합을 방지하고 장기 예측 정확도를 개선합니다. 정규화는 기후 데이터 노이즈를 처리하여 정책 개발을 지원합니다. NASA와 같은 연구 기관에서 사용합니다.
소매 재고 관리수요 예측 알고리즘은 조기 중지 정규화를 사용하여 판매 데이터에 따라 동적으로 조정하고 재고 수준을 최적화합니다. 정규화는 계절적 변동으로 인한 모델 과적합을 방지하여 월마트와 같은 기업에 도움이 됩니다.

정규화 대 모델 복잡성

복잡성 메트릭모델 복잡도는 종종 매개변수의 수나 함수의 곡률로 표현되며, 정규화는 페널티 조건을 통해 이러한 척도를 직접적으로 제한합니다. 예를 들어 가중치 패러다임은 복잡성 프록시 역할을 하며 정규화는 그 크기를 제어합니다. 메트릭은 정규화 설계에 영향을 미칩니다.
과도한 매개변수화 방지복잡도가 높은 모델은 과적합이 발생하기 쉽고, 정규화는 비용을 추가하며 불필요한 매개변수 증가를 억제합니다. 과도한 파라미터화는 딥 네트워크에서 흔히 발생하며, 드롭아웃과 같은 정규화는 유효 파라미터를 감소시킵니다. 이 관계는 모델이 지나치게 복잡해지지 않도록 합니다.
곡선 맞춤 비유: 다항식 회귀에서 정규화는 고차 항이 지배하는 것을 방지하여 실제 추세에 가까운 더 부드러운 곡선을 선택합니다. 이 비유는 고차 다항식을 과적합하고 정규화를 통해 저차 항을 선택하는 복잡도 제어를 시각화합니다.
교차 검증 연계정규화 매개변수는 모델 복잡도와 연결되며 교차 검증은 최적의 균형을 찾고 일반화 성능을 극대화하는 데 도움이 됩니다. 연결 과정에는 적절한 복잡도를 가진 모델을 선택하기 위한 훈련-검증 주기가 포함됩니다.
이론적 경계 지원VC 차원과 같은 통계적 학습 이론은 정규화가 복잡도 측정을 줄이고 일반화 오차 상한을 보장한다는 것을 보여줍니다. 이론은 구조적 위험 최소화 프레임워크와 같은 정규화 유효성을 지원합니다. 상한은 실제 매개변수 선택에 지침이 됩니다.