¿Qué es el aprendizaje autosupervisado (SSL) en un artículo?

AI RespuestasPublicado hace 3 meses Círculo de intercambio de inteligencia artificial

Definición de aprendizaje autosupervisado

El aprendizaje autosupervisado (SSL) es un paradigma de aprendizaje emergente en el campo del aprendizaje automático, en el que la idea central es generar automáticamente señales supervisadas a partir de datos no etiquetados y entrenar modelos para aprender representaciones útiles de los datos. A diferencia del aprendizaje supervisado tradicional, que se basa en etiquetas etiquetadas manualmente, el aprendizaje autosupervisado utiliza la estructura intrínseca de los propios datos para diseñar tareas de preentrenamiento, que el modelo resuelve para captar los patrones y características subyacentes de los datos.

Por ejemplo, en el procesamiento del lenguaje natural, los modelos pueden aprender representaciones lingüísticas prediciendo palabras enmascaradas en las frases; en visión por ordenador, los modelos pueden entender el contenido visual identificando si una imagen ha sido girada o empalmada. La ventaja de este enfoque es que reduce drásticamente la dependencia de anotaciones manuales costosas y lentas, puede manejar cantidades masivas de datos sin etiquetar y mejora la generalización y adaptabilidad del modelo. El aprendizaje autosupervisado es aplicable a imágenes y texto, y también se extiende a datos multimodales como audio y vídeo, lo que supone un nuevo impulso para el desarrollo de la inteligencia artificial. Las características aprendidas en la fase de preentrenamiento, que son esencialmente un tipo de aprendizaje de representación, pueden migrarse eficazmente a diversas tareas posteriores como la clasificación, la detección y la segmentación, desempeñando un papel importante en las aplicaciones prácticas. El auge del aprendizaje autosupervisado refleja la búsqueda de un uso eficiente de los datos por parte de la comunidad del aprendizaje automático y marca el paso de la dependencia de los datos etiquetados al aprendizaje autónomo.

Fundamentos del aprendizaje autosupervisado

Los principios básicos del aprendizaje autosupervisado giran en torno a la creación de señales supervisadas a partir de datos no etiquetados y la conducción del aprendizaje del modelo mediante tareas de preentrenamiento inteligentemente diseñadas. Estos principios abarcan varios aspectos clave para garantizar que el modelo capte las características esenciales de los datos.

Mejora de datos y generación de vistasEl modelo se basa en la aplicación de transformaciones aleatorias, como la rotación, el recorte o el ajuste del color, para generar múltiples vistas aumentadas a partir de los datos originales. El modelo aprende a mantener la coherencia entre estas vistas, lo que mejora la solidez y la invariabilidad. Por ejemplo, en el ámbito de la imagen, se utilizan diferentes versiones aumentadas de la misma imagen para entrenar modelos que reconozcan características invariantes.
Mecanismos comparativos de aprendizajeEl aprendizaje por contraste es uno de los métodos básicos del aprendizaje autosupervisado, en el que las representaciones se aprenden comparando pares de muestras. Los modelos se entrenan para acercar las muestras similares (por ejemplo, diferentes mejoras de la misma imagen) y alejar las muestras disímiles. Este proceso se basa en una función de pérdida como InfoNCE, que motiva al modelo a distinguir diferencias finas en los datos.
Tareas de preentrenamiento generativoEstas tareas requieren que el modelo reconstruya o genere parte de los datos de entrada. Por ejemplo, en la modelización del lenguaje enmascarado, el modelo predice las palabras enmascaradas; en la restauración de imágenes, el modelo rellena los píxeles que faltan. Al reconstruir los errores, el modelo aprende información semántica y estructural sobre los datos.
Diseño predictivo de tareasEl aprendizaje autosupervisado suele implicar la predicción de alguna propiedad o transformación de los datos. Por ejemplo, predecir el ángulo de rotación de una imagen o el orden de los fotogramas de un vídeo. Estas tareas obligan al modelo a comprender la dinámica intrínseca de los datos y aprender así representaciones de características útiles.
Indica migración y puesta a puntoUna vez completado el preentrenamiento, la representación aprendida se traslada a una tarea posterior para ajustar el modelo con una pequeña cantidad de datos etiquetados. Esto demuestra la utilidad del aprendizaje autosupervisado, que combina el preentrenamiento no supervisado con el ajuste supervisado para mejorar el rendimiento global.

Aprendizaje autosupervisado frente al aprendizaje supervisado tradicional

Existen diferencias significativas entre el aprendizaje autosupervisado y el aprendizaje supervisado tradicional en varias dimensiones, que se reflejan en los requisitos de datos, el proceso de aprendizaje y los escenarios aplicables.

Dependencias de etiquetado de datosAprendizaje supervisado: Mientras que el aprendizaje supervisado tradicional depende por completo de etiquetas etiquetadas manualmente, el aprendizaje autosupervisado elimina la necesidad de etiquetado externo y utiliza los propios datos para generar pseudoetiquetas. Esto reduce el coste y el tiempo de preparación de los datos y es especialmente adecuado para ámbitos en los que el etiquetado es escaso.
Conocer el origen de la señalEn el aprendizaje supervisado tradicional, las señales de aprendizaje se derivan de categorías o valores etiquetados; el aprendizaje autosupervisado genera señales mediante tareas de preentrenamiento, como tareas de comparación o generación. Este último se centra más en la estructura intrínseca de los datos que en la semántica externa.
Capacidad de generalización de modelosEl aprendizaje supervisado tradicional tiende a ajustarse en exceso a los datos etiquetados, mientras que el aprendizaje autosupervisado aprende representaciones más generales mediante un preentrenamiento no etiquetado y tiende a mostrar mejores resultados de generalización en tareas de migración.
Gama ampliada de aplicacionesEl aprendizaje supervisado tradicional se limita a tareas en las que se dispone de datos etiquetados, mientras que el aprendizaje autosupervisado es capaz de tratar una gama más amplia de datos no etiquetados, como imágenes en bruto o texto en Internet, lo que amplía los límites del aprendizaje automático.
Recursos informáticos necesariosAprendizaje supervisado tradicional: el aprendizaje supervisado tradicional suele requerir menos recursos informáticos para el entrenamiento, pero tiene unos costes de etiquetado elevados; el aprendizaje autosupervisado es intensivo desde el punto de vista informático en la fase previa al entrenamiento, pero reduce la sobrecarga de etiquetado y es más eficiente en general.

Áreas de aplicación del aprendizaje autosupervisado

El aprendizaje autosupervisado ha demostrado un gran potencial en diversos ámbitos, con aplicaciones que van desde la investigación básica hasta escenarios industriales del mundo real.

visión por ordenadorEn la clasificación de imágenes, la detección de objetos y la segmentación, el aprendizaje autosupervisado mejora el rendimiento de los modelos mediante el preentrenamiento de modelos como SimCLR o MoCo. Por ejemplo, en el campo de la imagen médica, los modelos se preentrenan con radiografías sin etiquetar y luego se ajustan para el diagnóstico de enfermedades, lo que reduce la dependencia de las anotaciones de expertos.
procesamiento del lenguaje natural (PLN)El aprendizaje autosupervisado ha impulsado el éxito de modelos como BERT, GPT, etc., que son preentrenados por modelos lingüísticos enmascarados, y los modelos aprenden representaciones lingüísticas que se aplican a tareas como la traducción automática y el análisis de sentimientos. Esto ha mejorado enormemente la precisión y la eficacia de los modelos lingüísticos.
procesamiento de audioEn el reconocimiento del habla y el análisis musical, los modelos de aprendizaje autosupervisado aprenden características acústicas mediante la predicción de segmentos de audio o el aprendizaje por comparación. Por ejemplo, se pueden utilizar modelos preentrenados para el procesamiento del habla en lenguas con pocos recursos para mejorar la accesibilidad.
análisis de vídeoEl aprendizaje autosupervisado explota la información temporal para el reconocimiento de acciones o el resumen de vídeos, como la predicción del orden de los fotogramas o la comparación de videoclips, y el modelo capta características dinámicas. Esto tiene un valor práctico en la industria de la vigilancia o el entretenimiento.
aprendizaje multimodalEl aprendizaje autosupervisado, que combina imágenes, texto y audio, aprende representaciones uniformes mediante tareas de comparación intermodal. Aplicaciones a la conducción autónoma o los asistentes virtuales para mejorar la comprensión de entornos complejos.

Ventajas del aprendizaje autosupervisado

Las ventajas del aprendizaje autosupervisado lo convierten en una dirección importante en el aprendizaje automático, y estas ventajas se reflejan en la eficiencia, la escalabilidad y la practicidad.

Reducción de los requisitos de etiquetadoEl aprendizaje autosupervisado, que aprovecha los datos no etiquetados, reduce drásticamente el coste de la anotación manual y hace más viable el aprendizaje automático en entornos con recursos limitados. Por ejemplo, en la investigación científica es posible procesar grandes cantidades de datos sin etiquetar.
Mayor utilización de los datosEl aprendizaje autosupervisado es capaz de extraer la información oculta en los datos y mejorar la eficiencia de su utilización. El modelo aprende a partir de datos masivos no etiquetados para evitar el sesgo de etiquetado y obtener una representación del conocimiento más completa.
Gran capacidad de aprendizaje migratorioEl resultado es un modelo que permite migrar fácilmente las representaciones preentrenadas a múltiples tareas posteriores con pocos ajustes. Esto acelera el despliegue de modelos para escenarios de aplicación rápidamente iterativos.
Solidez y generalizaciónEl aprendizaje autosupervisado: mediante el aumento de datos y el aprendizaje comparativo, los modelos de aprendizaje autosupervisado son más robustos frente al ruido y la variación, rinden mejor con datos desconocidos y reducen el riesgo de sobreajuste.
Fomentar la innovaciónEl aprendizaje autosupervisado fomenta el diseño de tareas de preentrenamiento novedosas, fomentando la creatividad en la comunidad del aprendizaje automático y dando lugar a avances como los convertidores visuales autosupervisados.

Los retos del aprendizaje autosupervisado

A pesar de lo prometedor del aprendizaje autosupervisado, aún se enfrenta a una serie de retos relacionados con aspectos teóricos, prácticos y éticos.

Complejidad del diseño de la misiónTareas de preentrenamiento: diseñar tareas de preentrenamiento eficaces requiere conocimiento del dominio y experimentación, y las tareas inadecuadas pueden hacer que el modelo aprenda características irrelevantes y afectar al rendimiento posterior. Por ejemplo, en el texto, las estrategias de enmascaramiento pueden introducir sesgos.
Recursos informáticos necesariosLa fase de preentrenamiento del aprendizaje autosupervisado suele requerir recursos informáticos y tiempo considerables, lo que supone un obstáculo para las PYME o los investigadores individuales. Optimizar la eficiencia de los algoritmos y el hardware es una de las prioridades actuales de la investigación.
Falta de criterios de evaluaciónEl aprendizaje autosupervisado: a diferencia del aprendizaje supervisado, que cuenta con métricas claras como la precisión, el aprendizaje autosupervisado carece de un protocolo de evaluación uniforme, lo que dificulta la comparación entre distintos métodos. La comunidad está desarrollando conjuntos de datos y parámetros de referencia.
Mala interpretabilidadLa investigación sobre el aprendizaje autosupervisado: las representaciones aprendidas por los modelos de aprendizaje autosupervisado suelen ser de tipo "caja negra" y resulta difícil explicar su proceso de toma de decisiones, lo que plantea problemas de credibilidad en aplicaciones de alto riesgo como la asistencia sanitaria.
Amplificación del sesgo de los datosEl aprendizaje autosupervisado: si los datos no etiquetados contienen sesgos sociales o culturales, el aprendizaje autosupervisado puede amplificarlos y dar lugar a modelos injustos. Se necesitan estrategias de detección y mitigación de sesgos.

Técnicas clave para el aprendizaje autosupervisado

El aprendizaje autosupervisado se basa en una serie de técnicas clave para lograr un aprendizaje eficaz, que abarcan desde el tratamiento de datos hasta la optimización de modelos.

Marco de aprendizaje contrastivocomo SimCLR y MoCo, aprende representaciones discriminatorias maximizando la similitud de pares de muestras positivas y minimizando la similitud de pares de muestras negativas. Se basa en el procesamiento de grandes lotes y la gestión de bancos de memoria.
Generación de redes adversarialesLas redes generativas adversariales se utilizan para el aprendizaje autosupervisado, en el que el modelo aprende la distribución de datos mediante tareas generativas y discriminativas. Por ejemplo, en la generación de imágenes, las redes generativas adversariales ayudan al modelo a capturar características reales.
Estructura del autocodificadorEl autocodificador variacional o autocodificador de eliminación de ruido aprende una representación comprimida reconstruyendo los datos de entrada. Se utiliza mucho en la detección de anomalías.
Técnicas de modelización temporalPara datos secuenciales como el vídeo o el habla, se utiliza una red neuronal recurrente o convertidor para predecir futuros fotogramas o palabras, y el modelo aprende las dependencias temporales.
Integración del aprendizaje multitareaEl modelo de la Comisión Europea: Combinando múltiples tareas de preentrenamiento, como tareas simultáneas de comparación y generación, el modelo obtiene una representación más completa y mejora la generalización.

La evolución del aprendizaje autosupervisado

El desarrollo del aprendizaje autosupervisado ha pasado por un proceso que va desde su infancia hasta su aparición, y el viaje refleja la evolución del campo del aprendizaje automático.

fase de germinación temprana: A principios de la década de 2010, los métodos de incrustación de palabras, entre otros, demostraron el potencial del aprendizaje de representación no supervisado, que sienta las bases para el aprendizaje autosupervisado mediante la predicción de vectores de palabras a partir de palabras contextuales.
Avances en visión por ordenador: Alrededor de 2018, métodos como la predicción de rotación y las tareas de rompecabezas surgieron en el campo de la imagen, con artículos relacionados que impulsaron el campo.
revolución del procesamiento del lenguaje natural: El modelo BERT se lanzó en 2018, logrando un rendimiento revolucionario mediante el preentrenamiento de modelos lingüísticos enmascarados, lo que condujo al uso generalizado del aprendizaje autosupervisado en el procesamiento del lenguaje natural.
Extensiones multimodalesDesde 2020, el aprendizaje autosupervisado se extiende a datos multimodales como vídeo y audio, con modelos como CLIP que combinan visión y texto para un aprendizaje sin muestras.
Puntos de investigación actuales: Aprendizaje autosupervisado combinado con aprendizaje de refuerzo y metaaprendizaje para explorar paradigmas de aprendizaje más eficientes, con un enfoque comunitario en leyes de escalado y cuestiones éticas.

Tendencias futuras del aprendizaje autosupervisado

Las tendencias futuras en el aprendizaje autosupervisado apuntan hacia direcciones más eficientes, generalizadas y responsables que darán forma a la próxima generación de sistemas de IA.

Formación previa a mayor escalaEl aprendizaje autosupervisado: A medida que aumenten los recursos informáticos, el aprendizaje autosupervisado manejará conjuntos de datos y modelos más grandes, como modelos de billones de parámetros, para mejorar la calidad de la representación. Esto requiere algoritmos optimizados y un progreso distribuido de la formación.
unificación intermodalEn el futuro, el aprendizaje autosupervisado integrará datos multimodales como la visión, el lenguaje, el audio, etc., para aprender una representación unificada y lograr una IA verdaderamente generalizada. Aplicaciones como la inteligencia corporal y la robótica.
Mejora del aprendizaje sin muestrasEl preentrenamiento autosupervisado permitirá a los modelos obtener mejores resultados en tareas posteriores con menos muestras, lo que reducirá la necesidad de datos ajustados y facilitará el despliegue de la IA en dispositivos periféricos.
Interpretabilidad y equidadLa investigación se centrará en explicar las decisiones de los modelos de aprendizaje autosupervisado y reducir el sesgo de los datos para garantizar que los modelos sean justos, transparentes y éticos.
Desembarco industrial aceleradoEl aprendizaje autosupervisado se impondrá rápidamente en la sanidad, la educación, la fabricación y otros campos, impulsando productos y servicios innovadores y cambiando los flujos de trabajo de la industria.