¿Qué es una red neuronal recurrente (RNN) en un artículo?

AI RespuestasPublicado hace 4 meses Círculo de intercambio de inteligencia artificial

26.1K 00

Definición de red neuronal recurrente

La red neuronal recurrente (RNN) es una arquitectura de red neuronal diseñada para procesar datos secuenciales. Por datos secuenciales se entiende una colección de datos con orden temporal o dependencias, como textos lingüísticos, señales de voz o series temporales. A diferencia de las redes neuronales feed-forward tradicionales, la RNN permite a la red mantener un estado oculto interno que captura la información contextual dinámica de las secuencias mediante la introducción de una estructura de conexión recurrente. Este estado oculto se actualiza continuamente con las entradas en cada paso temporal y pasa al siguiente, formando un mecanismo de memoria que permite a la RNN procesar secuencias de longitud variable y modelar dependencias a corto y largo plazo. Las RNN primitivas sufren problemas de desaparición de gradiente y explosión, lo que dificulta el aprendizaje eficaz de dependencias a largo plazo. Con este fin se han desarrollado variantes mejoradas, como las redes de memoria a corto plazo (LSTM) y las unidades recurrentes controladas (GRU). El valor fundamental de las RNN reside en su gran capacidad para modelar dinámicas temporales, y se utilizan ampliamente en campos como el procesamiento del lenguaje natural, el reconocimiento del habla y la predicción de series temporales, y se han convertido en un importante modelo básico para el aprendizaje profundo.

循环神经网络（Recurrent Neural Network）是什么，一文看懂

Cómo funcionan las redes neuronales recurrentes

El mecanismo central de funcionamiento de las redes neuronales recurrentes gira en torno a su estructura recurrente y a la actualización y transferencia de estados ocultos, que pueden procesar eficazmente información con asociaciones temporales.

Expansión temporal y procesamiento paso a pasoUna red neuronal recurrente trata toda la secuencia de entrada como una serie de puntos de datos ordenados en pasos temporales. En lugar de procesar todos los datos a la vez, la red realiza los cálculos paso a paso. Por ejemplo, al analizar una frase, la red lee sucesivamente cada palabra.
Ciclado y actualización de estados ocultosEn cada paso temporal, la red recibe dos entradas: datos de entrada externos del paso temporal actual y estados ocultos internos del paso temporal anterior. Estas dos entradas se transforman linealmente mediante un conjunto de parámetros de peso compartidos y, a continuación, se procesan mediante una función de activación no lineal (por ejemplo, la función tangente hiperbólica tanh), que en última instancia genera un nuevo estado oculto para el paso temporal actual.
Cómo se genera la salidaEl estado oculto del paso temporal actual no sólo se pasa al futuro, sino que también se utiliza para generar la salida de ese paso temporal. Esta salida puede ser un valor predicho, como la distribución de probabilidad predicha de la palabra siguiente, y suele obtenerse mediante una transformación de la capa de salida, como una función Softmax. No es necesario que cada paso de tiempo genere una salida.
Mecanismo para compartir parámetrosRedes neuronales recurrentes: las redes neuronales recurrentes reutilizan la misma matriz de pesos (pesos de entrada, pesos de estado oculto y pesos de salida) en todos los pasos temporales. Este uso compartido de parámetros reduce en gran medida el número de parámetros que el modelo necesita aprender, mejora la eficiencia computacional y permite que el modelo generalice a secuencias de diferentes longitudes.
Suministro selectivo de flujos de informaciónConexiones cíclicas: las conexiones cíclicas constituyen un flujo dirigido de información, que permite que la información histórica influya continuamente en los cálculos futuros. Este diseño permite a la red captar patrones a corto plazo en la secuencia, pero las redes recurrentes simples primitivas tienen dificultades inherentes para captar patrones a largo plazo.

Ámbitos de aplicación de las redes neuronales recurrentes

Las redes neuronales recurrentes se han utilizado en numerosos campos científicos e industriales por su excelente capacidad para procesar datos secuenciales.

procesamiento del lenguaje natural (PLN)Las redes neuronales recurrentes son la tecnología básica para la traducción automática, la generación de textos, el análisis de sentimientos y el modelado lingüístico. En la traducción automática, el modelo lee las frases del idioma de origen como una secuencia y genera gradualmente palabras en el idioma de destino, aprovechando al máximo la información contextual para mejorar la precisión de la traducción.
Reconocimiento y síntesis de vozEl objetivo: las señales de voz suelen ser series temporales. Las redes neuronales recurrentes se utilizan para convertir formas de onda de audio en transcripciones textuales, impulsando asistentes de voz inteligentes y sistemas de subtitulado en tiempo real. También se utilizan para sintetizar un habla más natural.
Previsión y análisis de series temporalesEn las finanzas, la meteorología, la energía y la industria, las redes neuronales recurrentes se utilizan para predecir los precios de las acciones, las previsiones meteorológicas, las cargas eléctricas o la vida útil restante de los equipos. Los modelos hacen inferencias sobre tendencias futuras aprendiendo patrones en datos históricos.
Comprensión de contenidos de vídeoEl vídeo se compone de fotogramas de imagen consecutivos. Las redes neuronales recurrentes pueden procesar estas secuencias de fotogramas para el reconocimiento de comportamientos, la descripción de contenidos de vídeo, el marcado automático y la detección de eventos anómalos, muy utilizados en la vigilancia de la seguridad y la recomendación de contenidos.
Generación musical y composición de secuenciasLa red neuronal recurrente puede aprender las notas, acordes y patrones rítmicos de composiciones musicales y crear automáticamente nuevos fragmentos musicales, melodías o incluso partituras completas, proporcionando herramientas para la inteligencia artificial creativa.

Variantes de tipos de redes neuronales recurrentes

Para superar las limitaciones de las redes neuronales recurrentes básicas, los investigadores han propuesto varias variantes arquitectónicas importantes.

Red neuronal recurrente básica (Vanilla RNN)Red recurrente : La forma más sencilla de red recurrente, que utiliza funciones de activación como tanh. Sin embargo, su capacidad de memoria es efímera, es propensa a sufrir el problema de desaparición del gradiente y es difícil aprender la dependencia a largo plazo.
Red de memoria a largo plazo (LSTM)Las LSTM pueden recordar u olvidar información de forma selectiva, controlando eficazmente el flujo de información, gracias a sofisticados mecanismos de "compuerta" (puertas de entrada, puertas de olvido y puertas de salida). Esto les permite aprender y recordar dependencias a larga distancia, lo que las convierte en la opción preferida para muchas tareas secuenciales.
Unidad de recirculación cerrada (GRU)La célula de bucle cerrado, una variante de la LSTM, combina las puertas de entrada y olvido en una única "puerta de actualización" y simplifica la estructura del estado de la célula. Este diseño reduce la complejidad computacional y la velocidad de entrenamiento al tiempo que mantiene un rendimiento similar al de LSTM.
Red neuronal bidireccional recurrente (Bi-RNN)La arquitectura consiste en dos capas de redes recurrentes separadas, una que procesa secuencias hacia delante a lo largo del tiempo y otra en sentido inverso. El resultado final combina información contextual pasada y futura y es muy adecuado para tareas que requieren información completa sobre secuencias, como el reconocimiento de nombres de entidades.
Red neuronal recurrente profunda (RNN profunda)La profundidad y la expresividad del modelo pueden aumentarse apilando varias capas de bucles, lo que permite aprender características de secuencias jerárquicas más complejas. Sin embargo, una mayor profundidad también conlleva una mayor dificultad de entrenamiento.

Ventajas de las redes neuronales recurrentes

El conjunto de ventajas de las redes neuronales recurrentes las convierte en una arquitectura insustituible para las tareas de modelado de secuencias.

Tratamiento directo de secuencias de longitud variableLas redes neuronales recurrentes son capaces de procesar de forma nativa entradas secuenciales de longitudes variables, lo que es coherente con la diversidad de datos del mundo real.
Compartir parámetros aumenta la eficienciaCompartir los parámetros en todos los pasos temporales no sólo reduce drásticamente el número total de parámetros del modelo y el riesgo de sobreajuste, sino que también mejora la capacidad del modelo para generalizarse a secuencias de diferentes longitudes.
Potente capacidad de modelización de la dinámica temporalEl mecanismo recurrente de estados ocultos permite a la red captar cambios dinámicos y dependientes del tiempo en los datos, algo que las redes neuronales feedforward no pueden hacer directamente.
Arquitectura flexible y ampliableLas redes neuronales recurrentes pueden utilizarse como un módulo base que puede combinarse fácilmente con otras arquitecturas de redes neuronales (por ejemplo, las redes neuronales convolucionales CNN) para formar modelos híbridos más potentes para procesar datos de secuencias multimodales.
Apoya el aprendizaje de principio a finEl modelo completo puede aprenderse directamente a partir de los datos de secuencia brutos hasta el resultado final, lo que minimiza la necesidad de ingeniería manual de características y simplifica el proceso de aprendizaje automático.

Limitaciones de las redes neuronales recurrentes

A pesar de su potencia, las redes neuronales recurrentes presentan algunos inconvenientes y retos inherentes.

Problemas de desaparición y explosión de gradienteEste es el principal obstáculo para el entrenamiento de redes recurrentes profundas. Durante la retropropagación, el gradiente puede encogerse (desaparecer) o expandirse (explotar) exponencialmente, lo que provoca que la red no pueda actualizar los pesos de capas anteriores, dificultando el aprendizaje de dependencias a largo plazo.
Bajo paralelismo computacional y formación lentaEl algoritmo de cálculo paralelo de la GPU se basa en un modelo de cálculo secuencial: debido a la naturaleza secuencial del cálculo, hay que esperar a que se complete el paso temporal anterior antes de proceder al siguiente, lo que no aprovecha plenamente las capacidades de cálculo paralelo del hardware moderno (por ejemplo, las GPU), lo que se traduce en un tiempo de entrenamiento prolongado.
Capacidad de memoria real limitadaAunque variantes como la LSTM mejoran la capacidad de memoria, la dimensionalidad fija del estado oculto sigue limitando la cantidad total de información histórica que puede recordar la red, y puede que no funcione bien para secuencias muy largas.
Riesgo de sobreajusteAunque la compartición de parámetros ayuda a la regularización, las redes recurrentes complejas siguen siendo propensas a sobreajustar el conjunto de entrenamiento cuando la cantidad de datos es insuficiente, lo que requiere técnicas de regularización como Dropout.
Mala interpretación del modeloEl significado representado por los estados internos (estados ocultos) de las redes neuronales recurrentes suele ser difícil de interpretar, y su proceso de toma de decisiones se asemeja a una caja negra, lo que supone un gran inconveniente en aplicaciones que requieren un alto grado de transparencia y fiabilidad.

Métodos de entrenamiento de redes neuronales recurrentes

El éxito del entrenamiento de redes neuronales recurrentes requiere algoritmos y técnicas específicas para garantizar la estabilidad y la convergencia.

Retropropagación en el tiempo (BPTT)Este es el algoritmo estándar para el entrenamiento de redes neuronales recurrentes, y es esencialmente un despliegue del algoritmo tradicional de retropropagación en la dimensión temporal. El error se retropropaga desde la salida final hasta el inicio de la secuencia para calcular el gradiente.
Selección y aplicación de optimizadoresRecomendación: Además del descenso estocástico por gradiente (SGD) estándar, se utilizan mucho los optimizadores adaptativos de la tasa de aprendizaje, como Adam o RMSProp. Pueden ajustar automáticamente la tasa de aprendizaje de los parámetros para acelerar la convergencia y mejorar la estabilidad del entrenamiento.
Técnica de recorte degradadoRecorte de gradiente: para mitigar el problema de la explosión del gradiente, el recorte de gradiente establece un límite superior en el valor del gradiente.
Estrategia de inicialización del pesoLa inicialización adecuada es crucial para el entrenamiento de redes profundas. En el caso de las redes recurrentes, métodos como Xavier o la inicialización ortogonal ayudan a que el gradiente fluya bien en las primeras fases del entrenamiento.
Métodos de regularización para evitar el sobreajusteLa técnica Dropout: Además del método de parada anticipada, la técnica Dropout se utiliza habitualmente en redes neuronales recurrentes. Una variante consiste en aplicar Dropout entre pasos temporales o en las entradas de la capa recurrente, en lugar de en las propias conexiones recurrentes, para evitar corromper la memoria.

Desarrollo histórico de las redes neuronales recurrentes

La evolución de la idea de las redes neuronales recurrentes ha experimentado décadas de acumulación de investigaciones y avances.

Germinación temprana de ideasEl concepto de conectividad cíclica se remonta a los años 80. En 1982, John Hopfield propuso la red de Hopfield, una de las primeras redes cíclicas de memoria asociativa.
Fundamentos teóricos y problemas al descubiertoEn la década de 1990, Sepp Hochreiter analizó en profundidad el problema de la desaparición del gradiente en su tesis de licenciatura y, en 1997, Hochreiter y Schmidhuber propusieron un diseño preliminar para una red de memoria a largo plazo (LSTM), que proporcionaba una orientación para resolver el problema.
Avances en algoritmos y primeras aplicaciones: Con el perfeccionamiento del algoritmo de retropropagación en el tiempo (BPTT) y el aumento de la potencia de cálculo, las redes neuronales recurrentes están empezando a aplicarse a tareas de reconocimiento del habla y modelado del lenguaje a pequeña escala.
Renacimiento y prosperidad del aprendizaje profundoEn torno a 2010, gracias a los conjuntos de datos a gran escala, los saltos en la potencia de cálculo de las GPU y las mejoras en las técnicas de entrenamiento, las variantes de redes recurrentes como LSTM y GRU han logrado un gran éxito en áreas como el procesamiento del lenguaje natural, y se han convertido en el núcleo de muchos sistemas comerciales.
Situación actual y futura: En los últimos años, las arquitecturas transformadoras basadas en mecanismos de autoatención han demostrado un rendimiento superior al de las redes recurrentes en varias tareas. Sin embargo, las redes neuronales recurrentes y sus variantes siguen manteniendo un valor significativo en muchos escenarios debido a su posición fundacional en el modelado de secuencias.

Comparación de las redes neuronales recurrentes con otros modelos

La comparación de las redes neuronales recurrentes con otros modelos convencionales ayuda a comprender su valor único y sus escenarios de aplicabilidad.

Comparación con las redes neuronales de avance (FNN)Las redes neuronales feedforward suponen que los datos de entrada son independientes entre sí, no tienen estado interno y procesan entradas de tamaño fijo. Las redes neuronales recurrentes, en cambio, están diseñadas para secuencias y tienen capacidad de memoria, pero son más complejas de entrenar y menos eficientes desde el punto de vista computacional.
Comparación con las redes neuronales convolucionales (CNN)Redes neuronales convolucionales: las redes neuronales convolucionales son buenas para extraer características espacialmente localizadas (por ejemplo, imágenes), y su invariabilidad de traslación es ventajosa en el tratamiento de imágenes. Las redes neuronales recurrentes son buenas para captar dependencias temporales globales. Las redes convolucionales unidimensionales también pueden procesar secuencias, pero con campos sensoriales limitados, mientras que las redes recurrentes pueden teóricamente recordar toda la historia.
Comparación con el modelo TransformerTransformer, basado enteramente en un mecanismo de autoatención, puede procesar secuencias enteras en paralelo, es extremadamente eficiente de entrenar y destaca en el modelado de dependencias a larga distancia. Las redes recurrentes, por su parte, deben procesarse secuencialmente y son lentas, pero pueden tener una menor sobrecarga computacional y de memoria para la inferencia y son más adecuadas para aplicaciones de flujo con recursos limitados.
Comparación con los modelos de Markov ocultos (HMM)Modelos de Markov ocultos: los modelos de Markov ocultos son modelos gráficos probabilísticos secuenciales clásicos basados en supuestos matemáticos estrictos y son más pequeños y fáciles de interpretar. Las redes neuronales recurrentes son modelos discriminativos basados en datos que son más expresivos y suelen funcionar mejor, pero requieren más datos y recursos informáticos.
Comparación con el aprendizaje por refuerzo (RL)El aprendizaje por refuerzo se centra en las inteligencias que aprenden estrategias de toma de decisiones mediante ensayo y error en entornos en los que el propio problema suele ser de naturaleza temporal. Las redes neuronales recurrentes suelen utilizarse como componente central en las inteligencias de aprendizaje por refuerzo para procesar estados parcialmente observables o recordar observaciones históricas.

Tendencias futuras en redes neuronales recurrentes

La investigación sobre redes neuronales recurrentes sigue evolucionando y puede avanzar en varias direcciones en el futuro.

Aumento de la eficacia y sinergias de hardware: Investigación sobre unidades de bucle más ligeras y eficientes desde el punto de vista computacional para optimizar su despliegue y aplicación en escenarios de computación periférica como dispositivos móviles y sistemas empotrados.
Integración de la innovación con las nuevas tecnologíasIntegración más profunda de las redes neuronales recurrentes con nuevas ideas, como los mecanismos de atención y las redes de mejora de la memoria, para crear nuevas arquitecturas que mantengan la eficacia de la estructura recurrente y, al mismo tiempo, proporcionen una mayor capacidad de memoria y generalización.
Ampliar los límites de las aplicaciones emergentesEl objetivo es explorar el potencial de las redes neuronales recurrentes para aplicaciones en campos emergentes como la bioinformática (análisis de secuencias genéticas), la sanidad (análisis de historiales médicos electrónicos) y la conducción automatizada (fusión de series temporales de sensores).
Mejorar la interpretabilidad y la credibilidadDesarrollo de nuevas herramientas de visualización y análisis para revelar la representación y la lógica de decisión aprendidas de los estados internos de las redes neuronales recurrentes, aumentando la transparencia del modelo y satisfaciendo las necesidades de la IA responsable.
Explorar paradigmas de aprendizaje más avanzadosInvestigación de cómo paradigmas como el metaaprendizaje y el aprendizaje de muestras pequeñas pueden combinarse con redes neuronales recurrentes para permitirles adaptarse rápidamente a nuevas tareas secuenciales con escasez de datos y mejorar la versatilidad y flexibilidad de los modelos.