Qué es la máquina de vectores soporte (Support Vector Machine), un artículo para leer y entender

AI RespuestasPublicado hace 2 meses Círculo de intercambio de inteligencia artificial

17.8K 00

Definición de máquina de vectores soporte

La máquina de vectores soporte (SVM) es un algoritmo de aprendizaje supervisado basado en la teoría del aprendizaje estadístico, que se utiliza principalmente para la clasificación y el análisis de regresión. El objetivo principal es encontrar un hiperplano de decisión óptimo que separe los puntos de datos de diferentes clases y maximice la distancia límite entre las dos clases. El hiperplano óptimo viene determinado por un pequeño número de muestras clave de entrenamiento, denominadas vectores de soporte, que se encuentran en los límites de las categorías. La esencia matemática de una máquina de vectores soporte es resolver un problema de programación cuadrática convexa, asegurando que se encuentra una solución globalmente óptima. El algoritmo mapea el problema no lineal de baja dimensión a un espacio de características de alta dimensión mediante trucos de funciones de núcleo, y construye límites de decisión lineales en el espacio de alta dimensión. Las funciones kernel más utilizadas son el kernel lineal, el kernel polinómico, el kernel de función de base radial, etc. Las distintas funciones kernel se adaptan a las diferentes características de los datos. El principio de minimización del riesgo de la estructura de la máquina de vectores soporte le confiere una mayor capacidad de generalización y evita el problema del sobreajuste. El algoritmo es eficaz en el procesamiento de datos de alta dimensión, e incluso cuando la dimensión de la característica supera el número de muestras, sigue manteniendo un buen rendimiento. La introducción del concepto de espaciado suave mejora la robustez del algoritmo frente a datos ruidosos y permite que algunas muestras violen las restricciones de los límites. Estas características convierten a las máquinas de vectores soporte en una opción ideal para escenarios de muestras pequeñas y dimensiones elevadas.

Orígenes históricos de las máquinas de vectores soporte

Fundamentos de la teoría del aprendizaje estadísticoEn la década de 1960, Vapnik y Chervonenkins propusieron la teoría de las dimensiones VC para sentar las bases matemáticas de las máquinas de vectores soporte. La teoría describe la capacidad de aprendizaje de las clases de funciones y proporciona apoyo teórico al principio de minimización del riesgo estructural.
Surgen prototipos de algoritmosEn 1992, Boser, Guyon y Vapnik introdujeron el concepto de clasificadores óptimos acotados, introduciendo por primera vez el truco del núcleo en los problemas de clasificación. Este trabajo pionero supuso el nacimiento formal de las máquinas de vectores soporte.
mesetaEn 1995, Cortes y Vapnik publicaron un artículo sobre máquinas de vectores soporte de intervalo suave para resolver problemas linealmente indivisibles. Posteriormente se propusieron diversas funciones de núcleo para ampliar el abanico de aplicaciones algorítmicas.
Periodo de uso generalizado: A principios del siglo XXI, las máquinas de vectores soporte han alcanzado un éxito notable en los campos de la clasificación de textos y el reconocimiento de imágenes. En comparación con las redes neuronales, las máquinas de vectores soporte obtienen mejores resultados en escenarios con muestras pequeñas.
Profundización y ampliación de la teoría: En los últimos años, las máquinas de vectores soporte se han combinado con el aprendizaje profundo para producir máquinas de vectores soporte profundas, mientras que las versiones mejoradas, como el aprendizaje multinúcleo, han seguido enriqueciendo el sistema algorítmico.

La idea central de las máquinas de vectores soporte

Principio del límite máximoEn lugar de conformarse con clasificar correctamente, las máquinas de vectores de soporte buscan los límites de clasificación más alejados de los puntos de datos a ambos lados. Este principio aumenta la robustez del modelo y mejora la generalización.
Función clave del vector de apoyoEl límite de decisión final está determinado sólo por unos pocos vectores de soporte, no por todos los datos de entrenamiento. Esta dispersión reduce la complejidad computacional y aumenta la interpretabilidad del modelo.
Aplicaciones innovadoras de las técnicas nuclearesResolver el problema de la indivisibilidad lineal en espacios de baja dimensión mediante la asignación implícita a espacios de características de alta dimensión a través de funciones de núcleo. Esta técnica evita la catástrofe dimensional asociada al cálculo explícito en alta dimensión.
Minimización del riesgo estructuralEl objetivo de optimización de la máquina de vectores soporte incorpora rangos empíricos de riesgo y confianza, equilibrando el error de entrenamiento con la complejidad del modelo. Este principio garantiza el rendimiento de generalización del modelo.
garantías de optimización convexaEl problema de solución de la máquina de vectores soporte es una programación cuadrática convexa con una solución globalmente óptima. Esta propiedad evita el problema de la optimalidad local que suele darse en las redes neuronales.

Flujo algorítmico de las máquinas de vectores soporte

Fase de preprocesamiento de datosNormalizar las características de entrada para que tengan la misma magnitud. Este paso mejora la estabilidad numérica del algoritmo y acelera el proceso de convergencia.
Selección de la función del núcleoElección de una función de núcleo adecuada y de sus parámetros en función de las características de los datos. El kernel lineal es adecuado para datos linealmente diferenciables, y el kernel gaussiano se adapta a problemas no lineales complejos.
Resolución de problemas de optimizaciónAlgoritmos: Para resolver el problema de pares se utilizan algoritmos como la optimización mínima secuencial. Estos algoritmos manejan eficazmente conjuntos de datos a gran escala y permiten un entrenamiento rápido.
Reconocimiento por vectores de apoyoMuestras: Las muestras con multiplicadores de Lagrange distintos de cero se extraen de los resultados de la formación; son los vectores de soporte. Los vectores de soporte forman la función de decisión final.
Evaluación de la validación de modelosEvaluar el rendimiento del modelo mediante conjuntos de pruebas y ajustar los hiperparámetros. La validación cruzada ayuda a seleccionar los parámetros óptimos del núcleo y los coeficientes de penalización C.

Características ventajosas de las máquinas de vectores soporte

tener una sólida base teóricaEl error de generalización, basado en la teoría del aprendizaje estadístico, tiene un límite superior claro. Esta teoría garantiza que las máquinas de vectores soporte funcionen de forma consistente en escenarios con muestras pequeñas.
Garantía de solución óptima globalLa propiedad de los problemas de optimización convexa garantiza que se encuentre el óptimo global y evita los problemas de extremos locales. Esta ventaja es más determinista que las redes neuronales.
Capacidad de procesamiento de altas dimensionesEl truco del núcleo permite que el algoritmo maneje características de alta dimensión de forma eficiente y funcione incluso cuando la dimensión de la característica supera el número de muestras.
Alta eficiencia de memoriaLa función de decisión se basa únicamente en los vectores de soporte y la representación del modelo es concisa. La fase de predicción sólo necesita almacenar los vectores de soporte y es eficiente desde el punto de vista computacional.
Buenas propiedades de generalizaciónEl principio de límites máximos mejora la robustez del modelo y mantiene una buena precisión de predicción para datos no vistos.

Las limitaciones de las máquinas de vectores soporte son insuficientes

Dificultad para elegir una función de núcleoEl algoritmo de ajuste de los parámetros del kernel: distintos conjuntos de datos son adecuados para distintas funciones del kernel, y la elección depende de la experiencia. El ajuste de los parámetros del núcleo requiere muchos experimentos y poca automatización.
Entrenamiento de masa lentaEl problema de la programación cuadrática tiene una alta complejidad de solución cuando el número de muestras de entrenamiento es demasiado grande. Aunque existen algoritmos de optimización específicos, siguen siendo más lentos que algunos algoritmos lineales.
Faltan resultados probabilísticosMáquinas de vectores soporte: Las máquinas de vectores soporte estándar producen valores de decisión en lugar de probabilidades y requieren una calibración adicional para obtener estimaciones de probabilidad. Esta limitación afecta a determinados escenarios de aplicación que requieren probabilidad.
Complejidad del tratamiento multiclasificaciónMáquinas de vectores soporte: Las máquinas de vectores soporte nativas están diseñadas para la clasificación binaria, y las clasificaciones múltiples requieren la construcción de múltiples clasificadores binarios. Las estrategias uno a muchos o uno a uno aumentan la complejidad y el tiempo de entrenamiento.
Interpretabilidad débil de las característicasEl uso de funciones kernel convierte el proceso de toma de decisiones en una caja negra y dificulta la interpretación de la importancia de las características. Esta limitación supone un obstáculo en ámbitos en los que se requiere interpretabilidad del modelo.

Aplicaciones prácticas de las máquinas de vectores soporte

sistema de categorización de textosEl concepto de máquina de vectores de soporte (Support vector machine) es muy adecuado para el espacio de características de texto de alta dimensión y se utiliza ampliamente en tareas como el filtrado de spam y la clasificación de noticias. La naturaleza dispersa y altamente dimensional de los datos de texto es muy compatible con las ventajas de las máquinas de vectores soporte.
Reconocimiento de imágenesA pesar del dominio del aprendizaje profundo en la visión por ordenador moderna, las máquinas de vectores soporte siguen desempeñando un papel en ciertas tareas de clasificación específicas de la imagen. Como el reconocimiento de dígitos manuscritos, la detección de objetos y otros escenarios.
Análisis bioinformáticoDatos de expresión génica: Los datos de expresión génica suelen tener pocas muestras y muchas características, por lo que las máquinas de vectores soporte se utilizan ampliamente en este campo. La clasificación de enfermedades y la predicción de la estructura de proteínas son aplicaciones típicas.
Modelos de control de riesgos financierosEl algoritmo de las máquinas de vectores soporte proporciona límites de clasificación fiables en tareas como la detección de fraudes con tarjetas de crédito y la calificación crediticia de clientes. La robustez del algoritmo frente a valores atípicos se adapta a las características de los datos financieros.
Resolución de problemas industrialesEl principio de límites máximos garantiza la fiabilidad de los resultados del diagnóstico. El principio de límites máximos garantiza la fiabilidad de los resultados del diagnóstico.

Mejora de variantes de máquinas de vectores soporte

regresión de vectores de apoyo (SVCR)Aplicamos la idea de límites máximos al problema de regresión, buscando una banda de contorno que contenga la mayoría de las muestras. La versión de regresión mantiene la ventaja de la dispersión del vector de soporte.
máquina de vectores soporte multiclasificada (MSSVM)Las estrategias de multiclasificación uno a muchos, uno a uno o directa amplían el algoritmo. Estructura de grafo acíclico orientado a árboles de decisión para mejorar la eficacia de la multiclasificación.
Máquinas de vectores de apoyo ponderadosPara hacer frente al desequilibrio de categorías, se asignan diferentes pesos de penalización a las distintas categorías. Esta mejora aumenta la precisión de la categorización para un número reducido de categorías.
máquina de vectores de apoyo semisupervisada: Combinación de datos etiquetados y no etiquetados para el entrenamiento y la ampliación de la selección de vectores de soporte. Las máquinas transductoras de vectores de soporte son típicas.
Fusión de aprendizaje profundoCombina redes neuronales profundas con máquinas de vectores soporte, utilizando redes neuronales para extraer características y máquinas de vectores soporte como clasificadores. Este modelo híbrido destaca en varios ámbitos.

Ajuste de parámetros para máquinas de vectores soporte

Factor de penalización Opción CControl del equilibrio entre el error de clasificación y el tamaño de la frontera. Un valor demasiado grande de C conduce a un exceso de ajuste, una frontera demasiado pequeña es demasiado amplia y es necesaria la validación cruzada para determinar el valor óptimo.
Optimización de los parámetros nuclearesEl parámetro de ancho de banda σ del kernel gaussiano afecta a la complejidad del modelo. Un σ demasiado grande conduce a un ajuste insuficiente y uno demasiado pequeño a un ajuste excesivo, y la búsqueda en la cuadrícula es un método de ajuste habitual.
Selección del tipo de función del núcleoElección de la función kernel: seleccione la función kernel adecuada en función de la separabilidad lineal de los datos. Los núcleos lineales son rápidos con pocos parámetros, mientras que los no lineales se adaptan a datos complejos pero requieren más ajustes.
Ajuste del peso por categoríaEl ajuste de ponderaciones más altas para unas pocas categorías en datos desequilibrados mejora el rendimiento de la clasificación. La proporción de ponderaciones suele ser inversamente proporcional al número de muestras de categorías.