La validación cruzada (Cross-Validation) es lo que, un artículo para ver y entender

AI RespuestasPublicado hace 5 meses Círculo de intercambio de inteligencia artificial

29.9K 00

Definición de validación cruzada

La validación cruzada es un método fundamental para evaluar la capacidad de generalización de un modelo en el aprendizaje automático. La idea básica es dividir los datos originales en un conjunto de entrenamiento y un conjunto de prueba, y obtener estimaciones de rendimiento más fiables rotando el entrenamiento y la validación con distintos subconjuntos de datos. Este enfoque simula el rendimiento del modelo en datos desconocidos y ayuda a detectar el sobreajuste. La validación cruzada K-fold más común divide aleatoriamente los datos en K subconjuntos mutuamente excluyentes, utilizando cada vez K-1 subconjuntos para entrenar el modelo y el subconjunto restante 1 para probar el modelo, y repitiendo esto K veces para garantizar que cada subconjunto actúa una vez como conjunto de prueba, y tomando finalmente la media de los K resultados como estimación del rendimiento. La validación cruzada sin exclusión es una forma especial de K-fold en la que K es igual al número total de muestras. La validación cruzada estratificada mantiene las proporciones de categorías en cada pliegue coherentes con los datos originales. La validación cruzada de series temporales tiene en cuenta las propiedades de orden temporal de los datos. La validación cruzada repetida reduce la varianza resultante al aleatorizar la división varias veces. Los resultados de la validación cruzada no sólo se utilizan para la evaluación de modelos, sino que también orientan el ajuste de hiperparámetros y la selección de modelos, proporcionando una sólida base de validación para el proceso de aprendizaje automático.

La idea central de la validación cruzada

Mecanismos de rotación del uso de los datosMaximización de la utilización de datos mediante la rotación de diferentes subconjuntos de datos como conjuntos de prueba. Cada muestra tiene la oportunidad de participar en el entrenamiento y las pruebas, lo que proporciona una evaluación exhaustiva.
Orientación generalizada de la evaluación de competenciasSe centra en el rendimiento del modelo en datos no observados, más que en el grado de ajuste en los datos de entrenamiento. Este tipo de evaluación se acerca más a los escenarios de aplicación práctica.
Función de detección de sobreajusteIdentificar el sobreajuste de los datos de entrenamiento comparando la diferencia en el rendimiento del modelo en los conjuntos de entrenamiento y validación. Las diferencias grandes indican riesgo de sobreajuste.
Métodos de verificación de la estabilidadEvalúe el rendimiento del modelo dividiendo los datos varias veces para comprobar la estabilidad de los resultados. Los modelos con menos volatilidad suelen ser más fiables.
Marco de la Fundación para la Comparación EquitativaEl objetivo es: proporcionar un marco de evaluación unificado para diferentes algoritmos y eliminar el sesgo de comparación debido a la aleatoriedad de una única segmentación de datos.

Métodos habituales de validación cruzada

Validación cruzada K-foldDividir los datos equitativamente en K subconjuntos y realizar K rondas de ciclos de prueba de formación. Normalmente, K toma el valor de 5 o 10, equilibrando el coste computacional con la precisión de la evaluación.
validación del método leave-one-outSólo se conserva una muestra cada vez como conjunto de pruebas y el resto se utiliza para el entrenamiento. Adecuado para muestras pequeñas, pero con una enorme sobrecarga computacional.
Validación K-fold por capas: Mantiene la proporción de muestras en cada categoría en cada pliegue coherente con el conjunto de datos original. Especialmente adecuado para distribuciones de datos con categorías desequilibradas.
Validación de series temporalesConsidere la dependencia temporal de los datos y divida los conjuntos de entrenamiento y prueba cronológicamente. Evite predecir el pasado con datos futuros.
Aleatorización repetidaMúltiples segmentaciones aleatorias para entrenar el conjunto de pruebas y promediar los resultados. Reduce aún más el efecto de azar de una única segmentación aleatoria.

Etapas de aplicación de la validación cruzada

Fase de preparación de los datosComprobar la calidad de los datos y tratar los valores que faltan y los valores atípicos. Asegúrese de que los datos están en un estado estándar utilizable.
Proceso de determinación del descuentoElección del número adecuado de pliegues: seleccione el número adecuado de pliegues en función del tamaño del volumen de datos y de los recursos informáticos. Los conjuntos de datos grandes pueden elegir pliegues más pequeños, los pequeños necesitan más pliegues.
Operación de segmentación de datosSegmentar los datos en conjuntos de entrenamiento y de prueba según el método seleccionado. El método de estratificación debe mantener una distribución equilibrada de las categorías.
Ciclo de validación del modeloEntrena el modelo en cada ronda del ciclo y evalúalo en el conjunto de pruebas. Registre los resultados de las métricas de rendimiento de cada vez.
Análisis resumido de los resultadosCalcular la media y la desviación típica de los indicadores de rendimiento de todas las rondas. Analizar la estabilidad y fiabilidad de los resultados.

Ventajas de la validación cruzada

Uso eficiente de los datosAproveche al máximo los datos limitados, ya que cada muestra participa tanto en el entrenamiento como en las pruebas. Especialmente valioso para escenarios con conjuntos de datos pequeños.
Evaluación de la fiabilidad de los resultados: La reducción de la varianza de los resultados de la evaluación mediante validaciones múltiples proporciona estimaciones de rendimiento más estables. Más convincente que una única segmentación.
Sensibilidad de reconocimiento excesivaDetección eficaz del sobreajuste del modelo a los datos de entrenamiento. Proporcionar una dirección clara para la mejora del modelo.
Amplia gama de aplicacionesAplicable a una amplia gama de algoritmos de aprendizaje automático y tipos de tareas. Funciona con todo, desde la clasificación hasta la regresión y la agrupación.
Lograr una simplicidad relativaLos conceptos son claros y fáciles de entender, y la implementación del código no es complicada. Las principales bibliotecas de aprendizaje automático ofrecen implementaciones listas para usar.

Limitaciones de la validación cruzada

Mayores costes de cálculoSe requiere un entrenamiento múltiple del modelo y la sobrecarga de tiempo crece linealmente con el número de pliegues. Puede resultar poco práctico en grandes conjuntos de datos.
Supuestos de independencia de los datosSupone que las muestras son independientes entre sí e ignora la posible correlación de los datos. Escenarios como las series temporales requieren un tratamiento especial.
pequeño tamaño de la muestra (estadísticas)Efecto limitado en cantidades muy pequeñas de datos, lo que dificulta el funcionamiento de otros métodos distintos del método de exclusión única.
Dependencia de la estabilidad del modeloLos resultados de evaluación de los algoritmos inestables fluctúan mucho y se necesitan más repeticiones para obtener estimaciones fiables.

Aplicaciones prácticas de la validación cruzada

Comparación de la selección de modelosComparar el rendimiento de distintos algoritmos en el mismo marco de validación cruzada y seleccionar el modelo óptimo. Garantizar la equidad y fiabilidad de la comparación.
ajuste de hiperparámetrosCon métodos como la búsqueda en cuadrícula para encontrar las combinaciones óptimas de hiperparámetros. Cada combinación de parámetros se evalúa en una validación múltiple.
Validación de la ingeniería de característicasEvaluar el impacto de diferentes combinaciones de características en el rendimiento del modelo. Identificar el subconjunto de características más valioso.
Evaluación de la investigación algorítmica: Proporciona protocolos normalizados de evaluación del rendimiento en la investigación académica. Garantiza resultados reproducibles y comparables.

Selección de parámetros para la validación cruzada

Selección del número de plegado KDescuento: Una opción habitual es el descuento del 5% o el 10%, que puede reducirse al 3% cuando el volumen de datos es muy elevado, y puede considerarse el método de exclusión única cuando el volumen de datos es muy bajo.
Aplicación de la estrategia por capasValidación cruzada jerárquica: la validación cruzada jerárquica se recomienda en problemas de clasificación para mantener la coherencia de la distribución de categorías.
Configuración de semillas aleatoriasSemillas aleatorias fijas para garantizar resultados reproducibles al probar diferentes semillas para comprobar la estabilidad.
Número de repeticiones determinadoPara algoritmos de alta varianza, aumentar el número de repeticiones mejora la fiabilidad de la evaluación. Normalmente entre 10 y 100 repeticiones.
Control de barajado de datosDatos de series no temporales: los datos de series no temporales suelen barajarse aleatoriamente y los de series temporales deben mantenerse en orden.

Consideraciones para la validación cruzada

Prevención de la violación de datosLa información del conjunto de pruebas no debe incluirse en el proceso de formación. Operaciones como el escalado de características deben aplicarse al conjunto de pruebas después del entrenamiento.
Categoría mantenimiento del equilibrioUtilizar un muestreo estratificado o parámetros de evaluación apropiados en caso de datos desequilibrados. Evite subestimar el rendimiento de unas pocas clases.
Optimización de la eficiencia computacionalAcelerar el proceso de verificación múltiple mediante computación paralela. Aprovechar la potencia del hardware informático moderno.
Resultados interpretados con cautelaValidación cruzada: la validación cruzada evalúa el rendimiento medio y no representa el rendimiento en un subconjunto específico. Debe combinarse con análisis específicos.
Integración de conocimientosSelección de métodos de validación adecuados teniendo en cuenta las características de los datos y el contexto empresarial. Los datos médicos, las series temporales, etc. requieren un tratamiento especializado.