Regularización (Regularization) es qué, un artículo para ver y entender
Definición de regularización
La regularización es una técnica fundamental en el aprendizaje automático y la estadística para evitar el ajuste excesivo de los modelos. El exceso de ajuste significa que el modelo funciona bien con los datos de entrenamiento, pero se degrada con los nuevos datos. La regularización controla el grado de ajuste añadiendo un término de penalización a la función objetivo que está relacionado con la complejidad del modelo. Las formas más comunes son la regularización L1 y L2: la L1 produce soluciones dispersas y es adecuada para la selección de características; la L2 reduce los coeficientes uniformemente y mejora la estabilidad. La técnica es esencialmente una aplicación concreta de la compensación sesgo-varianza, que reduce la varianza y mejora el error de generalización introduciendo un ligero sesgo. Los parámetros de regularización se determinan mediante validación cruzada, y la idea se ajusta al principio de la navaja de Occam: los modelos simples son preferibles. Desde una perspectiva bayesiana, la regularización corresponde a la distribución a priori, incorporando el conocimiento del dominio a la estimación del modelo. Como herramienta fundamental del aprendizaje automático, la regularización mejora la robustez y utilidad de los modelos mediante restricciones matemáticas.

Orígenes de la regularización
- Historia basada en la optimización matemáticaEl concepto de regularización apareció por primera vez en la década de 1940 como regularización de Tikhonov para resolver problemas mal planteados, como la inestabilidad numérica en problemas inversos. El matemático ruso Tikhonov propuso obtener una solución única añadiendo un término estabilizador. Este trabajo sentó las bases de la posterior teoría de la regularización, que influyó en el campo de las matemáticas computacionales durante décadas. La regularización de Tikhonov se desarrolló inicialmente para ecuaciones diferenciales parciales, pero más tarde se generalizó a una gama más amplia de problemas de optimización.
- Evolución de las estadísticasEn la década de 1970, los estadísticos Hoerl y Kennard introdujeron la regresión Ridge, el modelo lineal regularizado L2, para tratar los problemas de multicolinealidad. Esto supuso la entrada de la regularización en la corriente principal de la estadística. La regresión Ridge mejoró la estabilidad de las estimaciones al penalizar la magnitud de los coeficientes y se convirtió en una herramienta estándar de la econometría. Durante el mismo periodo, otros métodos estadísticos, como la regresión de componentes principales, también incorporaron la idea de regularización.
- Adopción en el campo del aprendizaje automáticoEn la década de 1990, surgieron las máquinas de vectores de soporte (SVM) y la regularización se convirtió en un componente central. Estudiosos como Vapnik combinaron la minimización del riesgo estructural con la regularización para hacer hincapié en el control de la complejidad del modelo. El término de regularización en las máquinas de vectores de soporte garantiza la maximización de los intervalos de clasificación, lo que mejora la generalización. En esta fase, la regularización pasa de la teoría a la práctica y se aplica a tareas de reconocimiento de patrones.
- Evolución en las redes neuronalesEn la revolución del aprendizaje profundo, a principios del siglo XXI, se adoptaron ampliamente técnicas de regularización como el dropout y el weight decay para resolver el problema del overfitting de las redes neuronales.Investigadores como Hinton impulsaron su aplicación práctica.El dropout reduce el overfitting mediante el dropout aleatorio de neuronas, simulando el promediado del modelo. La regularización se ha convertido en un componente necesario para el entrenamiento en redes profundas.
- Ampliaciones modernasEn los últimos años, las ideas de regularización se han extendido a las áreas de entrenamiento adversarial y aumento de datos, dando lugar a diversos enfoques para adaptarse al entorno de big data. La regularización adversarial mejora la robustez añadiendo muestras de perturbación, mientras que la regularización por aumento de datos amplía el conjunto de datos mediante transformaciones. Estas ampliaciones muestran la continua evolución de las técnicas de regularización para hacer frente a los nuevos retos.
Principios básicos de la regularización
- Ajuste del equilibrio y generalizaciónEl núcleo de la regularización es un compromiso entre la precisión del modelo en los datos de entrenamiento (ajuste) y su poder predictivo en los nuevos datos (generalización). La adición de un término de penalización impide que el modelo se ajuste en exceso al ruido de entrenamiento. Este principio se basa en un marco empírico de minimización del riesgo, en el que el término de regularización actúa como una penalización por complejidad, guiando al modelo para que elija hipótesis más sencillas. El punto de equilibrio se evalúa mediante un conjunto de validación para garantizar que el modelo no sea excesivamente complejo o simple.
- Compensación entre sesgo y varianzaReducir la varianza (sensibilidad a las fluctuaciones de los datos) aumentando el sesgo del modelo (simplificando el modelo), reduciendo así el error total. Este principio se basa en la teoría del aprendizaje estadístico, donde la descomposición sesgo-varianza revela las fuentes de error. La regularización ajusta la fuerza de la penalización para controlar el punto de compensación. Por ejemplo, una regularización fuerte aumenta el sesgo pero disminuye la varianza, y una regularización débil hace lo contrario. Comprender este equilibrio ayuda a ajustar los parámetros.
- La Navaja de Occam se manifiestaLa regularización sigue la filosofía de "no añadir entidades si no es necesario", prefiriendo modelos simples, evitando la complejidad innecesaria y mejorando la interpretabilidad. El principio de la navaja de Occam en el aprendizaje automático cristaliza en la selección del modelo más simple en el espacio de hipótesis. La regularización aplica este principio de forma matemática, por ejemplo, la regularización L1 fomenta la dispersión y selecciona automáticamente las características importantes.
- Reconstrucción del problema de optimizaciónLa optimización sin restricciones se transforma en optimización con restricciones al añadir un término regular a la función de pérdida, lo que orienta el proceso de solución hacia una solución más suave y estable. El problema reconstruido suele tener una solución única o mejores propiedades numéricas. Por ejemplo, la regresión de crestas transforma un problema patológico en uno benigno, garantizando la existencia y continuidad de la solución.
- perspectiva probabilísticaDesde un punto de vista bayesiano, la regularización corresponde a la distribución a priori; por ejemplo, la regularización L2 equivale a una distribución a priori gaussiana, que incorpora el conocimiento previo a la estimación del modelo. La distribución a priori refleja las creencias sobre los parámetros, y el parámetro de regularización controla la fuerza de la distribución a priori. Esta perspectiva unifica las escuelas frecuencial y bayesiana y proporciona coherencia teórica.
Formas habituales de regularización
- Regularización L1 (Lasso)La regularización L1 utiliza la suma de los valores absolutos de las ponderaciones del modelo como término de penalización, lo que hace que algunas de las ponderaciones sean cero, para lograr la selección automática de características, lo que resulta adecuado para la reducción de la dimensionalidad de los datos de alta dimensión. Su problema de optimización puede resolverse mediante el método de descenso por coordenadas, que es eficiente desde el punto de vista computacional. Sus aplicaciones incluyen la selección de genes y la clasificación de textos.
- Regularización L2 (Ridge)Regularización: Penalizaciones basadas en la suma de cuadrados de los pesos, de forma que los pesos se reducen uniformemente pero no son cero, lo que mejora la resistencia del modelo a las interferencias, algo habitual en la regresión lineal y las redes neuronales.La regularización L2 mejora el número de condición y reduce el sobreajuste. Existen soluciones analíticas de fácil cálculo. Muy utilizada en problemas de regresión y decaimiento de pesos en aprendizaje profundo.
- Red elásticaLa red elástica combina la regularización L1 y L2 para equilibrar la dispersión y la estabilidad en situaciones de características altamente correlacionadas. La red elástica supera la inestabilidad de la regularización L1 con características correlacionadas, al tiempo que conserva la capacidad de selección de características. Su término de penalización es una combinación lineal de L1 y L2 con parámetros ajustables.
- AbandonoEspecializado para redes neuronales, elimina aleatoriamente algunas neuronas durante el entrenamiento para reducir las dependencias entre neuronas y simular los efectos de integración del modelo. el abandono mejora la robustez de la red y evita la coadaptación. Es necesario escalar los pesos para compensar durante las pruebas. Las variantes incluyen DropConnect, Region Dropout.
- Parada anticipadaRegularización implícita: una regularización implícita que controla el rendimiento del conjunto de validación durante el entrenamiento y detiene el entrenamiento cuando el rendimiento disminuye para evitar el sobreajuste. La detención temprana es sencilla y eficaz sin modificar la función de pérdida. El principio es evitar que el proceso de optimización entre en la región de sobreajuste. Se utiliza habitualmente en la optimización por descenso de gradiente.
Regularización en el aprendizaje automático
- reconocimiento de imágenesEn las redes neuronales convolucionales, el abandono y la regularización del peso ayudan al modelo a ignorar el ruido de fondo al reconocer objetos y mejorar la precisión, por ejemplo en los sistemas de detección de caras. La regularización controla la distorsión de la imagen, los cambios de iluminación y mejora la generalización del modelo. Ejemplos concretos son el uso de técnicas de regularización en el concurso ImageNet.
- procesamiento del lenguaje natural (PLN)La regularización L1 se utiliza en modelos de bolsa de palabras para tareas de clasificación de textos con el fin de filtrar automáticamente las palabras clave, reducir la dimensionalidad de las características y mejorar el rendimiento del análisis de sentimientos. La regularización hace frente a los datos de texto dispersos de alta dimensionalidad para evitar el sobreajuste. Las aplicaciones se extienden a la traducción automática y el reconocimiento de entidades con nombre.
- sistema de recomendaciónAlgoritmos de filtrado colaborativo combinados con regularización para evitar el ajuste excesivo a los comportamientos históricos de los usuarios y mejorar la diversidad de las recomendaciones, por ejemplo, recomendaciones personalizadas para plataformas de comercio electrónico. La regularización tiene en cuenta la escasez de matrices usuario-elemento para mejorar la precisión de las predicciones.
- diagnóstico médicoEn la modelización predictiva, la regularización controla la complejidad del modelo, evita el sobreajuste de datos de muestras pequeñas y garantiza la fiabilidad de la predicción de enfermedades. La regularización maneja las características de alta dimensión de los datos médicos, como los datos genómicos, para ayudar al diagnóstico precoz. Algunos ejemplos son los modelos de predicción del riesgo de cáncer.
- control de riesgos financierosLos modelos de calificación crediticia utilizan la regularización para tratar características de alta dimensión, reducir los falsos positivos y mejorar la estabilidad del modelo en mercados volátiles. La regularización hace frente al ruido de las series temporales financieras y mejora la evaluación del riesgo. Ampliamente utilizado por bancos y compañías de seguros.
Ventajas de la regularización
- Mejorar la capacidad de generalizaciónEl objetivo directo de la regularización es mejorar el rendimiento del modelo con nuevos datos, reduciendo el riesgo de sobreajuste y haciendo que el modelo sea más útil. Una mejor generalización significa que los modelos son más fiables en el mundo real, lo que reduce los fallos de implantación. Esta ventaja es la razón fundamental de la existencia de la regularización.
- Mayor robustez del modeloLa regularización, al suprimir la sensibilidad al ruido, hace que el modelo sea más robusto a las variaciones de entrada y se adapte a la incertidumbre del mundo real. La robustez se refleja en la estabilidad frente a los ataques y los sesgos en la distribución de los datos. Por ejemplo, la regularización L2 reduce la varianza de los pesos y suaviza los límites de decisión.
- Selección de características auxiliaresRegularización L1: la regularización L1 reduce automáticamente a cero los pesos de las características sin importancia, lo que simplifica la estructura del modelo y reduce los costes computacionales. La selección de características mejora la interpretabilidad del modelo y reduce los gastos generales de almacenamiento e inferencia. Esta ventaja es especialmente importante en datos de gran dimensión.
- Mejora de la estabilidad numéricaEn el proceso de optimización, la regularización evita la explosión de pesos o la singularidad de la matriz y garantiza la convergencia del proceso de solución. La estabilidad numérica evita errores de cálculo y mejora la fiabilidad del algoritmo. Especialmente en problemas patológicos, la regularización es imprescindible.
- Mayor interpretabilidadLos modelos sencillos son más fáciles de entender y la regularización favorece la transparencia en la toma de decisiones y el cumplimiento de requisitos éticos, como las aplicaciones médicas o jurídicas. La interpretabilidad ayuda a los usuarios a confiar en los resultados del modelo y facilita la depuración y la auditoría. La regularización mejora esta propiedad al simplificar el modelo.
Limitaciones de la regularización
- El ajuste de parámetros es complejoEl efecto de regularización depende de los hiperparámetros (por ejemplo, los coeficientes de regularización), que pueden dar lugar a un ajuste insuficiente o excesivo si no se eligen correctamente, y requiere una amplia validación experimental. El proceso de ajuste requiere mucho tiempo y trabajo, así como la validación cruzada y la búsqueda en cuadrículas. Herramientas automatizadas como AutoML lo mitigan parcialmente, pero siguen siendo un reto.
- Aumento de la carga computacionalLa adición de términos de penalización puede alargar el tiempo de entrenamiento, especialmente con datos a gran escala, y el proceso de optimización de la regularización requiere más tiempo. Por ejemplo, la solución regularizada L1 requiere algoritmos iterativos y es más lenta que los mínimos cuadrados ordinarios. La computación distribuida lo mitiga, pero los costes aumentan.
- Supuesto de dependenciaEl método de la regularización: Algunas formas de regularización se basan en supuestos específicos de la distribución (por ejemplo, a priori gaussiana), y la eficacia se ve comprometida cuando los datos no satisfacen los supuestos. Las desviaciones de los supuestos provocan penalizaciones poco razonables que afectan al rendimiento. Es necesario explorar los datos para seleccionar la regularización adecuada.
- Posible pérdida de informaciónLa sobrerregularización filtra las señales útiles y da lugar a modelos demasiado simples para captar patrones sutiles en los datos. La pérdida de información es especialmente grave en tareas complejas como el reconocimiento de detalles de imágenes. Es necesario equilibrar la intensidad de la regularización.
- No aplicable a todos los escenariosPara modelos ya simples, la regularización puede ser redundante, añadiendo complejidad sin beneficios sustanciales. Por ejemplo, con datos de baja dimensión, la regularización reduce en cambio el rendimiento. La evaluación de escenarios es un requisito previo.
El mecanismo de funcionamiento de la regularización
- Modificar la función de pérdidaFunción de pérdida: se añade un término regular a la función de pérdida estándar (por ejemplo, el error cuadrático medio) para formar un nuevo objetivo de optimización que guíe la dirección del descenso gradiente. La función de pérdida modificada contiene un error de ajuste y una penalización de complejidad, y el proceso de optimización minimiza ambos. La forma específica es una suma ponderada de la pérdida más el término regular.
- castigar con gran pesoTérminos regulares: los términos regulares suelen penalizar los paradigmas de ponderación, en los que los valores de ponderación grandes aumentan las pérdidas, lo que obliga al modelo a aprender ponderaciones más pequeñas y dispersas. El mecanismo de penalización se basa en una métrica de paradigma, por ejemplo, el paradigma L2 penaliza los valores de peso grandes y el paradigma L1 fomenta la dispersión. Este proceso evita el crecimiento excesivo de las ponderaciones.
- Actualización del gradiente de impactoEn la retropropagación, el término de regularización aporta un gradiente adicional, y los pesos se actualizan con una reducción simultánea de la magnitud del peso para conseguir un efecto de contracción. La fórmula de actualización del gradiente contiene derivados de la regularización, como el término de caída de los pesos. Este mecanismo garantiza que los pesos se contraigan hacia cero.
- Capacidad del modelo de controlRegularización: la regularización restringe indirectamente el espacio de hipótesis del modelo, reduce la complejidad efectiva y evita memorizar los datos de entrenamiento. El control de la capacidad se consigue mediante términos de penalización, reduciendo los grados de libertad del modelo. El apoyo teórico procede de medidas de complejidad como la dimensión VC.
- Promover el alisadoEn los espacios de funciones, la regularización prefiere suavizar las funciones, reduciendo las fluctuaciones bruscas y mejorando la interpolación. El suavizado se consigue penalizando las derivadas de orden superior o los grandes cambios, por ejemplo en los modelos spline. Este mecanismo mejora la estabilidad de la estimación de funciones.
Ejemplos prácticos de regularización
- Motor de búsqueda GoogleLos algoritmos de clasificación utilizan la regularización L2 para manejar un gran número de características, lo que garantiza que los resultados de las búsquedas sean estables y adaptables a los cambios en las consultas de los usuarios. La regularización evita que el algoritmo se ajuste en exceso a los datos históricos de clics y mejora la respuesta a las nuevas consultas. Esta aplicación repercute en la experiencia de búsqueda de cientos de millones de usuarios.
- sistema de conducción automatizadaLa red neuronal de percepción visual integra la regularización Dropout para evitar la dependencia excesiva de píxeles concretos y mejorar la fiabilidad de la detección de obstáculos. La regularización gestiona los cambios de luz y clima para mejorar la seguridad del sistema. Casos de Tesla, Waymo y otros.
- Filtrado de redes socialesRecomendación de contenidos: los modelos de recomendación de contenidos aplican la regularización de redes elásticas para equilibrar el interés y la diversidad de los usuarios y reducir el efecto capullo de la información. La regularización optimiza la precisión y la novedad de las recomendaciones, y plataformas como Facebook y Twitter confían en esta técnica.
- Modelos de predicción climáticaIncorporar la regularización al análisis de series temporales para evitar el sobreajuste de los datos históricos y mejorar la precisión de las previsiones a largo plazo. La regularización trata el ruido de los datos climáticos para apoyar el desarrollo de políticas. La utilizan organismos de investigación como la NASA.
- Gestión de inventarios minoristasEl algoritmo de previsión de la demanda utiliza la regularización temprana para ajustarse dinámicamente a los datos de ventas y optimizar los niveles de inventario. La regularización evita que el modelo se ajuste en exceso a las fluctuaciones estacionales, lo que beneficia a empresas como Walmart.
Regularización frente a complejidad del modelo
- métrica de complejidadLa complejidad de los modelos suele estar representada por el número de parámetros o la curvatura de la función, y la regularización limita estas medidas directamente mediante términos de penalización. Por ejemplo, los paradigmas de ponderación actúan como indicadores de complejidad, y la regularización controla su tamaño. Las métricas influyen en el diseño de la regularización.
- Evitar la sobreparametrizaciónLa regularización añade costes y suprime el crecimiento innecesario de los parámetros. La sobreparametrización es común en las redes profundas, la regularización como Dropout reduce los parámetros efectivos. Esta relación garantiza que el modelo no sea excesivamente complejo.
- analogía del ajuste de curvasEn la regresión polinómica, la regularización impide que dominen los términos de orden superior y elige curvas más suaves que se aproximan a la tendencia real. La analogía visualiza el control de la complejidad, donde los polinomios de orden superior se ajustan en exceso y la regularización elige los de orden inferior.
- Enlace de validación cruzadaLos parámetros de regularización están vinculados a la complejidad del modelo, y la validación cruzada ayuda a encontrar el equilibrio óptimo y a maximizar el rendimiento de la generalización. El proceso de vinculación implica un ciclo de formación-validación para seleccionar modelos de complejidad adecuada.
- Apoyo a los límites teóricosTeorías de aprendizaje estadístico: las teorías de aprendizaje estadístico, como la dimensión VC, muestran que la regularización reduce las medidas de complejidad y proporciona garantías de límite superior de error de generalización. La teoría respalda la validez de la regularización, por ejemplo, el marco de minimización del riesgo estructural. Los límites guían la selección práctica de parámetros.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...