¿Qué es el aprendizaje supervisado (SL) en un artículo?

堆友AI

Definición e ideas centrales del aprendizaje supervisado

El aprendizaje supervisado es uno de los enfoques más comunes y fundamentales del aprendizaje automático, cuya idea central es enseñar a un modelo informático a hacer predicciones o juicios basándose en un conjunto de datos existente con las "respuestas correctas". Piense en el aprendizaje supervisado como un alumno que aprende bajo la guía de un profesor. El profesor proporciona un gran número de problemas (datos) y sus correspondientes respuestas estándar (etiquetas), y el alumno comprende y domina gradualmente el patrón (modelo) de resolución de problemas mediante la práctica repetida y la comparación de respuestas. Cuando el alumno se encuentra con un problema nuevo, nunca antes visto, puede utilizar los patrones aprendidos para dar una respuesta lo más correcta posible (predicción). En un contexto técnico, estos "ejercicios" se denominan características, que describen aspectos de una cosa, como la altura, el peso y el color del pelaje de un animal a la hora de juzgarlo. La "respuesta estándar" se llama etiqueta, que es el resultado que queremos predecir, como "gato" o "perro". El modelo informático analiza la correspondencia entre un gran número de "características" y "etiquetas" y aprende una compleja función matemática (modelo) que asigna las características de entrada a las etiquetas correctas.

El objetivo último del aprendizaje supervisado es que los modelos hagan predicciones muy precisas a pesar de enfrentarse a datos nuevos y sin etiquetar, un proceso que encarna la capacidad básica de la IA de aprender patrones a partir de los datos y generalizarlos.

监督学习(Supervised Learning)是什么,一文看懂

Dos tipos de tareas básicas para el aprendizaje supervisado

  • Clasificación de las tareasTareas de clasificación en el aprendizaje supervisado: las tareas de clasificación en el aprendizaje supervisado requieren que el modelo prediga etiquetas de categorías discretas, como en las preguntas de elección múltiple con opciones limitadas. El núcleo de estas tareas consiste en clasificar los datos de entrada en categorías predefinidas. Por ejemplo, determinar si un correo electrónico es spam o normal, o identificar las especies de animales en una foto. El resultado de un problema de clasificación es una conclusión cualitativa, y entre sus aplicaciones más comunes se encuentran el diagnóstico de enfermedades, el reconocimiento de imágenes y el análisis de sentimientos.
  • Misión de retornoTareas de regresión: las tareas de regresión requieren la predicción de resultados numéricos continuos, de forma similar a una pregunta de rellenar un espacio en blanco en la que la respuesta es un número específico variable. Este tipo de tarea tiene que ver con la predicción cuantitativa y requiere que el modelo produzca resultados numéricos precisos. Por ejemplo, para predecir el precio de venta de una casa o el precio de una acción es necesario dar un número concreto. La salida de los problemas de regresión es un resultado cuantitativo y se utiliza mucho en ámbitos como la previsión de ventas, la estimación de precios y el análisis de tendencias.
  • Distinción de mandatosLa diferencia fundamental entre las tareas de clasificación y regresión es la naturaleza de los resultados: la clasificación produce etiquetas cualitativas y la regresión, valores cuantitativos. Esta diferencia determina la elección de las métricas y los algoritmos de evaluación. Métricas como la exactitud y la precisión se utilizan habitualmente para las tareas de clasificación, mientras que métricas como el error cuadrático medio y el error absoluto medio se utilizan para las tareas de regresión.
  • Selección de tareasLa elección de la tarea a utilizar depende totalmente de si la necesidad real es de categorías o de valores específicos. La naturaleza del problema empresarial determina si deben utilizarse métodos de clasificación o de regresión. Entender la diferencia entre estos dos tipos de tareas nos ayuda a comprender mejor los escenarios de aplicación y las limitaciones del aprendizaje supervisado.
  • aplicación prácticaEn la práctica, a veces es posible transformar problemas de regresión en problemas de clasificación, o viceversa, por medios técnicos. Por ejemplo, la predicción de las valoraciones de los usuarios puede utilizarse como un problema de regresión (predicción de puntuaciones específicas) y como un problema de clasificación (predicción de valoraciones positivas o negativas). Esta flexibilidad amplía la gama de aplicaciones del aprendizaje supervisado.

Flujo de trabajo completo para el aprendizaje supervisado

  • Recogida de datosEl primer paso en el proceso de aprendizaje supervisado consiste en recopilar una gran cantidad de datos brutos etiquetados. Estos datos deben ser lo suficientemente representativos y diversos como para cubrir una amplia gama de situaciones en escenarios de aplicación del mundo real. La calidad y cantidad de los datos afecta directamente al rendimiento del modelo final.
  • Preprocesamiento de datosTratamiento previo: Los datos brutos se someten a fases de tratamiento previo, como la limpieza, la conversión y la normalización. Esta etapa incluye el tratamiento de los valores que faltan, la corrección de los datos erróneos y la unificación de los formatos de los datos. La calidad del preprocesamiento afecta directamente al efecto del posterior entrenamiento del modelo.
  • ingeniería de funcionesEsta fase transforma los datos brutos en un formato comprensible para el modelo e incluye la selección, la extracción y la construcción de características. Una buena ingeniería de rasgos puede mejorar significativamente el rendimiento del modelo, a veces más que su selección.
  • Selección de modelosEl algoritmo de aprendizaje supervisado: seleccione el modelo de algoritmo adecuado en función de las características del problema y de los datos. Los algoritmos de aprendizaje supervisado más utilizados son los árboles de decisión, las máquinas de vectores soporte, las redes neuronales, etcétera. Los distintos modelos tienen sus propios escenarios de aplicación y sus propias ventajas e inconvenientes.
  • formación de modelosLos datos de entrenamiento se utilizan para ajustar los parámetros del modelo mediante un algoritmo de optimización para minimizar el error de predicción. El proceso de entrenamiento requiere determinar los hiperparámetros adecuados y controlar el efecto del entrenamiento mediante conjuntos de validación para evitar el sobreajuste.
  • evaluación de modelosEvaluar el rendimiento del modelo utilizando datos de prueba independientes para garantizar que cumple los requisitos prácticos. Las métricas de evaluación se seleccionan en función del tipo de tarea: la precisión, la recuperación, etc. se utilizan habitualmente para las tareas de clasificación, mientras que el error cuadrático medio, el coeficiente de determinación, etc. se utilizan habitualmente para las tareas de regresión.
  • Despliegue de modelosIntegración de modelos entrenados en aplicaciones reales para ofrecer servicios de predicción. El despliegue debe tener en cuenta limitaciones prácticas como el tiempo real, la escalabilidad y el consumo de recursos.
  • control continuoEl rendimiento del modelo debe supervisarse continuamente después de su puesta en marcha y reentrenarse periódicamente con nuevos datos para adaptarse a los cambios en la distribución de los datos. Esta sesión garantiza que el modelo pueda mantener un buen rendimiento a lo largo del tiempo.

El papel fundamental de los datos en el aprendizaje supervisado

Los datos son la piedra angular del aprendizaje supervisado, la cantidad y la calidad de los datos determinan directamente el éxito o el fracaso del modelo, la industria suele decir que "basura dentro, basura fuera" se refleja aquí.

  • La importancia del tamaño de los datosEl aprendizaje profundo: Normalmente, cuantos más datos se aportan, más complejos y precisos son los patrones que puede aprender un modelo, y mayor es su generalización (capacidad para manejar nuevas muestras). Los modelos complejos, como el aprendizaje profundo, requieren cantidades ingentes de datos para ser potentes.
  • Impacto decisivo de la calidad de los datosSi los datos de entrenamiento contienen muchos datos mal etiquetados o ruidosos, el modelo aprenderá patrones erróneos. Un ejemplo clásico es que si muchas fotos de "lobos" en el conjunto de datos tienen fondos nevados, mientras que muchas fotos de "perros" tienen fondos de hierba, el modelo puede aprender erróneamente a distinguir entre lobos y perros por la "nieve" y la "hierba", en lugar de por las características propias del animal. El modelo puede aprender erróneamente a distinguir entre lobos y perros por la "nieve" y la "hierba", en lugar de por las características propias de los animales.
  • El enorme coste del etiquetado de datosLa obtención de los datos en sí puede no ser difícil, pero "etiquetarlos" con precisión requiere mucho trabajo y tiempo. Para etiquetar miles de imágenes médicas hacen falta radiólogos especializados, y para etiquetar datos de voz hay que transcribirlos literalmente. Este coste supone un importante cuello de botella para muchos proyectos de aprendizaje supervisado.
  • Relevancia de las características para las etiquetasCaracterísticas: Las características proporcionadas al modelo deben ser prácticamente relevantes para las etiquetas que se quieren predecir. La selección de características significativas requiere el conocimiento de expertos en la materia.

Retos y problemas comunes del aprendizaje supervisado

En la práctica del aprendizaje supervisado, los investigadores e ingenieros tienen que enfrentarse continuamente a varios retos fundamentales.

  • sobreajusteEste es uno de los problemas más comunes y delicados del aprendizaje supervisado. Se refiere a un modelo que funciona demasiado bien con los datos de entrenamiento, aprendiendo en exceso los detalles y el ruido de los datos de entrenamiento hasta el punto de tratarlos como una ley universal, lo que provoca una caída brusca del rendimiento predictivo con nuevos datos. Es como un estudiante que se ha aprendido de memoria las respuestas a todos los ejercicios, pero no entiende en absoluto los principios y no sabe qué hacer cuando las preguntas del examen cambian ligeramente.
  • mal ajusteA diferencia de la sobreadaptación, la inadaptación se produce cuando el modelo es demasiado simple y no capta las pautas y tendencias subyacentes de los datos. La adaptación insuficiente no funciona ni con los datos de entrenamiento ni con los de prueba. Es como si un estudiante que no domina los conocimientos más básicos cometiera errores tanto en los problemas originales como en los nuevos.
  • Compromisos entre sesgo y varianzaLa relación entre sesgo y varianza en el aprendizaje automático es bien conocida. Los modelos sencillos tienen un sesgo alto (propensos al infraajuste) y una varianza baja; los modelos complejos tienen una varianza alta (propensos al sobreajuste) y un sesgo bajo. El objetivo ideal es encontrar un modelo que sea "justo" y equilibre ambas características.
  • desastre dimensionalCuando el número de características en los datos es muy grande (es decir, alta dimensionalidad), los datos se vuelven extremadamente dispersos, y el modelo requiere tamaños de muestra exponencialmente crecientes para cubrir eficazmente el espacio de características. Esto no sólo es costoso desde el punto de vista informático, sino que también es más probable que conduzca a un ajuste excesivo. Tratar con datos de alta dimensionalidad es un reto importante para el aprendizaje supervisado.
  • Desequilibrio de datosEn muchos problemas del mundo real, el número de muestras de las distintas categorías varía enormemente. Por ejemplo, en la detección de fraudes, las transacciones fraudulentas pueden representar sólo 1 de cada 10.000 transacciones. Si se entrena directamente con los datos brutos, el modelo puede aprender simplemente a predecir siempre "no fraudulento" y alcanzar una precisión del 99,99%, pero esto carece completamente de sentido. Tratar con conjuntos de datos desequilibrados requiere habilidades especiales.

Ejemplos de algoritmos clásicos de aprendizaje supervisado

Los investigadores han desarrollado una amplia variedad de algoritmos de aprendizaje supervisado, cada uno de los cuales tiene sus propios méritos y es adecuado para diferentes escenarios.

  • Regresión lineal y regresión logísticaEl modelo más básico e intuitivo. La regresión lineal se utiliza para tareas de regresión, en las que intenta encontrar una línea recta (o hiperplano) que se ajuste mejor a los puntos de datos. La regresión logística, a pesar de su nombre, es en realidad una gran herramienta para resolver problemas de clasificación binaria, mapeando una salida lineal a un valor de probabilidad entre 0 y 1 a través de una función en forma de S.
  • árbol de decisiónModelo arborescente que simula el proceso humano de toma de decisiones. Una serie de "¿Y si...? Entonces...". Los datos se filtran a través de una serie de preguntas "si..." para llegar a una conclusión (nodo hoja). Los árboles de decisión son muy intuitivos y fáciles de interpretar, por ejemplo: "Aprobar un préstamo si tiene más de 30 años y más de 500.000 dólares de ahorros".
  • máquina de vectores de apoyo: Un potente algoritmo de clasificación cuya idea central es encontrar un hiperplano con el máximo espaciado para clasificar diferentes clases de datos. Este hiperplano actúa como la "zona de aislamiento" más amplia que mejor separa las dos clases de puntos de datos, lo que da como resultado un modelo más generalizado y más robusto ante datos no vistos.
  • Algoritmo del vecino más próximo (K-Nearest Neighbour Algorithm)Algoritmo de "aprendizaje perezoso": Un algoritmo de "aprendizaje perezoso" sencillo pero eficaz. No abstrae activamente los datos, sino que se limita a recordar todas las muestras de entrenamiento. Cuando hay que predecir una nueva muestra, encuentra los K "vecinos" más cercanos de la nueva muestra en el espacio de características y, a continuación, predice la etiqueta de la nueva muestra basándose en las etiquetas de estos K vecinos (ya sea votando o promediando).
  • Bayesiano simple (matemáticas)Un clasificador probabilístico simple basado en el teorema de Bayes. Bayes simple parte de un supuesto "simple": todas las características son independientes entre sí. Aunque esta suposición rara vez se cumple en la realidad, Bayes simple suele funcionar muy bien en la práctica, especialmente en el campo de la clasificación de texto (por ejemplo, filtrado de spam), y es muy rápido de calcular.
  • Redes neuronales y aprendizaje profundoModelo complejo formado por un gran número de neuronas (nodos) interconectadas e inspirado en la estructura del cerebro humano. Las redes neuronales superficiales son modelos tradicionales de aprendizaje supervisado, mientras que el aprendizaje profundo se refiere específicamente a redes neuronales con un número muy elevado de capas. Capaz de aprender automáticamente representaciones jerárquicas de características de los datos, ha logrado un éxito revolucionario en tareas complejas como el procesamiento de imágenes, el habla y el lenguaje natural, y es el motor central de muchas aplicaciones actuales de IA.

Aprendizaje supervisado en diversas industrias

  • SanidadEl aprendizaje supervisado ayuda a los médicos a identificar lesiones en el análisis de imágenes médicas, evaluar el riesgo de enfermedad en la predicción de enfermedades y acelerar el proceso de descubrimiento de nuevos fármacos en el descubrimiento de medicamentos. Estas aplicaciones mejoran la precisión de los diagnósticos y hacen posible la medicina personalizada.
  • Sector financieroRecomendación: Los bancos y las instituciones financieras utilizan el aprendizaje supervisado para la calificación crediticia y la gestión de riesgos, lo que permite la aprobación automatizada de préstamos. En la detección de fraudes, los modelos identifican transacciones sospechosas en tiempo real para proteger los fondos de los usuarios. Las organizaciones de inversión también utilizan el aprendizaje supervisado para la previsión de mercados y la negociación cuantitativa.
  • Sector del comercio electrónico al por menorSistema de recomendación: el sistema de recomendación ofrece recomendaciones de productos personalizadas mediante el análisis de los datos de comportamiento del usuario, lo que mejora significativamente la experiencia del usuario y la tasa de conversión de ventas. Los modelos de previsión de la demanda ayudan a los minoristas a optimizar la gestión del inventario y reducir la falta de existencias y los productos de baja rotación.
  • Campo de visión por ordenadorLa tecnología de reconocimiento facial se utiliza en la verificación de identidades, los sistemas de control de acceso y la vigilancia de la seguridad. En el campo de la conducción autónoma, el aprendizaje supervisado permite a los vehículos reconocer diversos objetos en el entorno de la carretera. La tecnología de reconocimiento visual también se utiliza ampliamente en la inspección industrial para el control de calidad de los productos.
  • procesamiento del lenguaje natural (PLN)El filtrado de spam protege a los usuarios del acoso, y el análisis de opiniones ayuda a las empresas a entender los comentarios de los usuarios. La traducción automática y el servicio inteligente de atención al cliente se basan en técnicas de aprendizaje supervisado para comprender y generar lenguaje natural.
  • EducaciónSistema de aprendizaje personalizado: el sistema de aprendizaje personalizado recomienda contenidos y rutas de aprendizaje adecuados en función del perfil de aprendizaje del alumno. El sistema de corrección inteligente evalúa automáticamente las tareas y los exámenes, proporcionando información al instante.
  • sector serviciosMantenimiento predictivo: los modelos de mantenimiento predictivo alertan con antelación del riesgo de avería analizando los datos de los sensores de los equipos. Los sistemas de control de calidad utilizan tecnología de reconocimiento visual para detectar defectos en los productos y mejorar la productividad.
  • transporteLa predicción del flujo de tráfico ayuda a optimizar la planificación de rutas y el control de señales. Los modelos de predicción de la demanda ayudan a las plataformas de movilidad compartida a enviar vehículos de forma racional y mejorar la calidad del servicio.

Consideraciones éticas y sociales derivadas del aprendizaje supervisado

Con el uso generalizado de las técnicas de aprendizaje supervisado, las cuestiones éticas y sociales que plantean han cobrado cada vez más protagonismo y deben recibir una alta prioridad y tratarse con criterio.

  • Sesgo algorítmico y discriminaciónSi los propios datos de entrenamiento contienen sesgos históricos o sociales, el modelo los aprenderá y los amplificará.
  • Privacidad y seguridad de los datosEl aprendizaje supervisado requiere grandes cantidades de datos, y proteger adecuadamente la privacidad del usuario durante la recopilación, el almacenamiento y el uso de estos datos para evitar la fuga de datos y el uso indebido constituye un enorme desafío. Normativas como el Reglamento General de Protección de Datos (RGPD) de la UE están diseñadas para hacer frente a este desafío.
  • Interpretabilidad y responsabilidad de los modelos: Muchos modelos avanzados de aprendizaje supervisado (especialmente el aprendizaje profundo) son complejas "cajas negras" cuya lógica de decisión interna es difícil de entender. Cuando un modelo toma una decisión errónea o controvertida (por ejemplo, rechazar una solicitud de préstamo), es difícil explicar por qué al usuario. Esto dificulta la rendición de cuentas: ¿quién es responsable de las malas decisiones del modelo? ¿Es el desarrollador, la empresa o el propio algoritmo?
  • El impacto de la automatización en el empleo: Los modelos que automatizan las tareas de predicción y clasificación hacen reflexionar a la sociedad sobre cómo afrontar este reto del desempleo estructural y la transición laboral.
  • Seguridad y uso malintencionado: Las tecnologías potentes también pueden utilizarse con fines maliciosos. La tecnología de reconocimiento facial basada en el aprendizaje supervisado puede utilizarse para la vigilancia masiva; la tecnología de falsificación profunda puede generar audio y vídeo falsos que pueden utilizarse para crear rumores y cometer fraudes. La sociedad necesita establecer leyes y reglamentos adecuados y medios técnicos para prevenir estos riesgos.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...