Qu'est-ce qu'un réseau neuronal récurrent (RNN) en un article ?

Réponses AIPublié il y a 2 jours Cercle de partage de l'IA

1.4K 00

Définition d'un réseau neuronal récurrent

Le réseau neuronal récurrent (RNN) est une architecture de réseau neuronal conçue pour traiter des données séquentielles. Les données séquentielles font référence à une collection de données présentant un ordre temporel ou des dépendances, telles que des textes linguistiques, des signaux vocaux ou des séries temporelles. Contrairement aux réseaux neuronaux classiques à progression directe, le RNN permet au réseau de maintenir un état caché interne qui capture les informations contextuelles dynamiques dans les séquences en introduisant une structure de connexion récurrente. Cet état caché est continuellement mis à jour avec les entrées à chaque pas de temps et transmis au pas de temps suivant, formant un mécanisme de mémoire qui permet au RNN de traiter des séquences de longueur variable et de modéliser des dépendances à court et à long terme. Les RNN primitifs souffrent de problèmes de disparition et d'explosion du gradient, ce qui rend difficile l'apprentissage efficace des dépendances à long terme. Des variantes améliorées, telles que les réseaux à mémoire à long terme (LSTM) et les unités récurrentes gérées (GRU), ont été développées à cette fin. La valeur fondamentale des RNN réside dans leur puissante capacité à modéliser la dynamique temporelle, et ils sont largement utilisés dans des domaines tels que le traitement du langage naturel, la reconnaissance vocale et la prédiction de séries temporelles, et sont devenus un modèle de base important pour l'apprentissage en profondeur.

循环神经网络（Recurrent Neural Network）是什么，一文看懂

Fonctionnement des réseaux neuronaux récurrents

Le mécanisme de fonctionnement central des réseaux neuronaux récurrents s'articule autour de leur structure récurrente et de la mise à jour et du transfert des états cachés, ce qui permet de traiter efficacement les informations comportant des associations temporelles.

Extension de la durée et traitement étape par étapeUn réseau neuronal récurrent traite l'ensemble de la séquence d'entrée comme une série de points de données organisés en étapes temporelles. Au lieu de traiter toutes les données en même temps, le réseau effectue des calculs pas à pas. Par exemple, lors de l'analyse d'une phrase, le réseau lit chaque mot à tour de rôle.
Cyclage et mise à jour des états cachésLe réseau reçoit deux entrées à chaque pas de temps : les données d'entrée externes du pas de temps en cours et les états cachés internes du pas de temps précédent. Ces deux entrées sont transformées linéairement par un ensemble de paramètres de poids partagés, puis traitées par une fonction d'activation non linéaire (par exemple, la fonction tangente hyperbolique tanh), qui génère finalement un nouvel état caché pour le pas de temps en cours.
Comment le résultat est généréL'état caché du pas de temps actuel est non seulement transmis au futur, mais également utilisé pour générer la sortie de ce pas de temps. Cette sortie peut être une valeur prédite, telle que la distribution de probabilité prédite du mot suivant, et est généralement obtenue par une transformation de la couche de sortie telle qu'une fonction Softmax. Il n'est pas nécessaire que chaque pas de temps génère une sortie.
Mécanisme de partage des paramètresLes réseaux neuronaux récurrents réutilisent la même matrice de poids (poids d'entrée, poids de l'état caché et poids de sortie) à tous les pas de temps. Ce partage des paramètres réduit considérablement le nombre de paramètres que le modèle doit apprendre, améliore l'efficacité des calculs et permet au modèle de se généraliser à des séquences de longueurs différentes.
Diffusion ciblée de flux d'informationsLes connexions cycliques constituent un flux d'informations dirigé, ce qui permet aux informations historiques d'influencer continuellement les calculs futurs. Cette conception permet au réseau de saisir des modèles à court terme dans la séquence, mais les réseaux récurrents simples primitifs ont des difficultés inhérentes à saisir des modèles à long terme.

Domaines d'application des réseaux neuronaux récurrents

Les réseaux neuronaux récurrents sont utilisés dans de nombreux domaines scientifiques et industriels en raison de leur excellente capacité à traiter des données séquentielles.

le traitement du langage naturel (NLP): Les réseaux neuronaux récurrents constituent la technologie de base pour la traduction automatique, la génération de textes, l'analyse des sentiments et la modélisation linguistique. Dans la traduction automatique, le modèle lit les phrases de la langue source comme une séquence et génère progressivement des mots de la langue cible, en utilisant pleinement les informations contextuelles pour améliorer la précision de la traduction.
Reconnaissance et synthèse de la paroleLes signaux vocaux sont généralement des séries temporelles. Les réseaux neuronaux récurrents sont utilisés pour convertir les formes d'ondes audio en transcriptions textuelles, pour piloter les assistants vocaux intelligents et les systèmes de sous-titrage en temps réel. Ils sont également utilisés pour synthétiser une parole plus naturelle.
Prévision et analyse des séries temporellesLes réseaux neuronaux récurrents sont utilisés dans les domaines de la finance, de la météorologie, de l'énergie et de l'industrie pour prédire le cours des actions, les prévisions météorologiques, les charges électriques ou la durée de vie restante d'un équipement. Les modèles déduisent les tendances futures en apprenant les schémas des données historiques.
Compréhension du contenu vidéo: La vidéo est constituée de trames d'images consécutives. Les réseaux neuronaux récurrents peuvent traiter ces séquences d'images pour la reconnaissance du comportement, la description du contenu vidéo, le marquage automatique et la détection d'événements anormaux, qui sont largement utilisés dans la surveillance de la sécurité et la recommandation de contenu.
Génération de musique et composition de séquencesLes réseaux neuronaux récurrents peuvent apprendre les notes, les accords et les schémas rythmiques des compositions musicales et créer automatiquement de nouveaux fragments musicaux, des mélodies ou même des partitions complètes, fournissant ainsi des outils pour l'intelligence artificielle créative.

Variantes de types de réseaux neuronaux récurrents

Pour surmonter les limites des réseaux neuronaux récurrents de base, les chercheurs ont proposé plusieurs variantes architecturales importantes.

Réseau neuronal récurrent de base (Vanilla RNN)Réseau récurrent : La forme la plus simple de réseau récurrent, qui utilise des fonctions d'activation telles que tanh. Cependant, sa capacité de mémoire est de courte durée, il est susceptible de souffrir du problème de disparition du gradient et il est difficile d'apprendre la dépendance à long terme.
Réseau de mémoire à long terme (LSTM)LSTM : En introduisant des mécanismes sophistiqués de "portes" (y compris des portes d'entrée, des portes d'oubli et des portes de sortie), les LSTM peuvent se souvenir ou oublier des informations de manière sélective, contrôlant ainsi efficacement le flux d'informations. Cela leur permet d'apprendre et de mémoriser des dépendances à longue distance, ce qui en fait le choix privilégié pour de nombreuses tâches séquentielles.
Unité de recirculation à grille (GRU)La cellule à boucle gated : Variante de la LSTM, la cellule à boucle gated combine les portes d'entrée et d'oubli en une seule "porte de mise à jour" et simplifie la structure de l'état de la cellule. Cette conception réduit la complexité de calcul et la vitesse d'apprentissage tout en maintenant des performances similaires à celles de la LSTM.
Réseau neuronal récurrent bidirectionnel (Bi-RNN)L'architecture consiste en deux couches distinctes de réseaux récurrents, l'une traitant les séquences en avant dans le temps et l'autre en arrière. Le résultat final combine les informations contextuelles passées et futures et convient parfaitement aux tâches qui nécessitent des informations complètes sur les séquences, telles que la reconnaissance des noms d'entités.
Réseau de neurones récurrents profonds (RNN profond)En empilant plusieurs couches de boucles les unes sur les autres, la profondeur et l'expressivité du modèle peuvent être accrues, ce qui lui permet d'apprendre des caractéristiques de séquences plus complexes et hiérarchiques. Cependant, une plus grande profondeur s'accompagne également d'une plus grande difficulté d'apprentissage.

Avantages des réseaux neuronaux récurrents

L'ensemble des avantages des réseaux neuronaux récurrents en fait une architecture irremplaçable pour les tâches de modélisation de séquences.

Traitement direct de séquences de longueur variableLes réseaux neuronaux récurrents peuvent traiter de manière naturelle des entrées séquentielles de longueurs variables, ce qui correspond à la diversité des données du monde réel, sans qu'il soit nécessaire de découper ou de peupler au préalable les données d'entrée à une taille fixe.
Le partage des paramètres est source d'efficacitéLe partage des paramètres à tous les pas de temps permet non seulement de réduire considérablement le nombre total de paramètres dans le modèle et de réduire le risque de surajustement, mais aussi d'améliorer la capacité du modèle à s'adapter à des séquences de longueurs différentes.
Puissante capacité de modélisation de la dynamique du tempsLe mécanisme récurrent des états cachés permet au réseau de saisir les changements dynamiques et dépendants du temps dans les données, ce que les réseaux neuronaux de type feedforward ne peuvent pas faire directement.
Architecture souple et évolutiveLes réseaux neuronaux récurrents peuvent être utilisés comme un module de base qui peut être facilement combiné avec d'autres architectures de réseaux neuronaux (par exemple, les réseaux neuronaux convolutifs CNN) afin de former des modèles hybrides plus puissants pour le traitement des données de séquences multimodales.
Soutenir l'apprentissage de bout en boutLe modèle complet peut être appris directement à partir des données brutes de la séquence jusqu'au résultat final, ce qui minimise le besoin d'ingénierie manuelle des caractéristiques et simplifie le processus d'apprentissage automatique.

Limites des réseaux neuronaux récurrents

Malgré leur puissance, les réseaux neuronaux récurrents présentent certains inconvénients et défis inhérents.

Problèmes de disparition et d'explosion du gradientIl s'agit du principal obstacle à l'apprentissage des réseaux récurrents profonds. Pendant la rétropropagation, le gradient peut diminuer (disparaître) ou augmenter (exploser) de manière exponentielle, ce qui empêche le réseau de mettre à jour les poids des couches précédentes et rend difficile l'apprentissage des dépendances à long terme.
Faible parallélisme de calcul et lenteur de l'apprentissageEn raison de la nature séquentielle du calcul, il faut attendre que le pas de temps précédent soit terminé avant de passer au pas de temps suivant, ce qui ne permet pas de tirer pleinement parti des capacités de calcul parallèle du matériel moderne (par exemple, les GPU), d'où un temps d'apprentissage long.
Capacité de mémoire réelle limitéeBien que des variantes telles que la LSTM améliorent la capacité de mémoire, la dimensionnalité fixe de l'état caché limite toujours la quantité totale d'informations historiques pouvant être mémorisées par le réseau et peut ne pas donner de bons résultats pour des séquences très longues.
Risque de surajustementBien que le partage des paramètres facilite la régularisation, les réseaux récurrents complexes sont toujours susceptibles de suradapter l'ensemble d'apprentissage lorsque la quantité de données est insuffisante, ce qui nécessite des techniques de régularisation telles que le Dropout.
Mauvaise interprétation du modèleLes significations représentées par les états internes (états cachés) des réseaux neuronaux récurrents sont souvent difficiles à interpréter, et leur processus de prise de décision ressemble à une boîte noire, ce qui constitue un inconvénient majeur pour les applications qui exigent un degré élevé de transparence et de fiabilité.

Méthodes d'apprentissage pour les réseaux neuronaux récurrents

L'apprentissage des réseaux neuronaux récurrents nécessite des algorithmes et des techniques spécifiques pour garantir la stabilité et la convergence.

Rétropropagation dans le temps (BPTT)Il s'agit de l'algorithme standard pour la formation des réseaux neuronaux récurrents, qui est essentiellement un déploiement de l'algorithme traditionnel de rétropropagation dans la dimension temporelle. L'erreur est rétropropagée de la sortie finale au début de la séquence pour calculer le gradient.
Sélection et application de l'optimiseurLes optimiseurs de taux d'apprentissage adaptatifs tels qu'Adam et RMSProp sont largement adoptés en plus de la descente de gradient stochastique (SGD) standard. Ils peuvent ajuster automatiquement le taux d'apprentissage des paramètres pour accélérer la convergence et améliorer la stabilité de l'apprentissage.
Technique de découpage en dégradéPour atténuer le problème de l'explosion du gradient, le recadrage du gradient fixe une limite supérieure à la valeur du gradient.
Stratégie d'initialisation des poidsLe rapport : Une bonne initialisation est cruciale pour l'apprentissage des réseaux profonds. Pour les réseaux récurrents, des méthodes telles que Xavier ou l'initialisation orthogonale permettent de maintenir la fluidité du gradient au cours des premières étapes de la formation.
Méthodes de régularisation pour éviter l'ajustement excessifEn plus de la méthode d'arrêt anticipé, la technique Dropout est couramment utilisée dans les réseaux neuronaux récurrents. Une variante consiste à appliquer la méthode Dropout entre les pas de temps ou sur les entrées de la couche récurrente, plutôt que sur les connexions récurrentes elles-mêmes, afin d'éviter de corrompre la mémoire.

Développement historique des réseaux neuronaux récurrents

L'évolution de l'idée des réseaux neuronaux récurrents a connu des décennies d'accumulation de recherches et de percées.

Germination précoce des idéesEn 1982, John Hopfield a proposé le réseau Hopfield, l'un des premiers réseaux cycliques pour la mémoire associative.
Fondements théoriques et problèmes révélésDans les années 1990, Sepp Hochreiter a analysé en profondeur le problème de la disparition du gradient dans son mémoire de fin d'études et, en 1997, Hochreiter et Schmidhuber ont proposé une conception préliminaire pour un réseau de mémoire à long terme (LSTM), qui a fourni une orientation pour la résolution du problème.
Progrès en matière d'algorithmes et d'applications initiales: Grâce au perfectionnement de l'algorithme de rétropropagation dans le temps (BPTT) et à l'augmentation de la puissance de calcul, les réseaux neuronaux récurrents commencent à être appliqués à des tâches de reconnaissance vocale et de modélisation du langage à petite échelle.
Renaissance et prospérité de l'apprentissage profondVers 2010, grâce à des ensembles de données à grande échelle, à la puissance de calcul des GPU et à l'amélioration des techniques d'apprentissage, les variantes de réseaux récurrents telles que LSTM et GRU ont connu un succès fulgurant dans des domaines tels que le traitement du langage naturel, et sont devenues le cœur de nombreux systèmes commerciaux.
Situation actuelle et future: Ces dernières années, les architectures Transformer basées sur des mécanismes d'auto-attention ont démontré des performances supérieures à celles des réseaux récurrents dans plusieurs tâches. Cependant, les réseaux neuronaux récurrents et leurs variantes conservent une valeur significative dans de nombreux scénarios en raison de leur position fondamentale dans la modélisation des séquences.

Comparaison des réseaux neuronaux récurrents avec d'autres modèles

La comparaison des réseaux neuronaux récurrents avec d'autres modèles courants permet de comprendre leur valeur unique et leurs scénarios d'application.

Comparaison avec les réseaux neuronaux de type feedforward (FNN)Les réseaux neuronaux à avance supposent que les données d'entrée sont indépendantes les unes des autres, qu'ils n'ont pas d'état interne et qu'ils traitent des entrées de taille fixe. Les réseaux neuronaux récurrents, quant à eux, sont conçus pour les séquences et ont des capacités de mémoire, mais ils sont plus complexes à former et moins efficaces sur le plan informatique.
Comparaison avec les réseaux neuronaux convolutifs (CNN)Les réseaux neuronaux convolutifs permettent d'extraire des caractéristiques localisées dans l'espace (par exemple, des images) et leur invariance par rapport à la translation est avantageuse pour le traitement des images. Les réseaux neuronaux récurrents permettent de saisir les dépendances temporelles globales. Les réseaux convolutionnels unidimensionnels peuvent également traiter des séquences, mais avec des champs sensoriels limités, alors que les réseaux récurrents peuvent théoriquement mémoriser l'ensemble de l'histoire.
Comparaison avec le modèle du transformateurLes réseaux récurrents, quant à eux, doivent être traités séquentiellement et sont lents, mais ils peuvent avoir des coûts de calcul et de mémoire moins élevés pour l'inférence et sont mieux adaptés aux applications de diffusion en continu à ressources limitées. Les réseaux récurrents, quant à eux, doivent être traités de manière séquentielle et sont lents, mais ils peuvent avoir des frais généraux de calcul et de mémoire moins élevés pour l'inférence, et sont mieux adaptés aux applications de diffusion en continu à ressources limitées.
Comparaison avec les modèles de Markov cachés (HMM)Les modèles de Markov cachés sont des modèles graphiques probabilistes séquentiels classiques basés sur des hypothèses mathématiques strictes ; ils sont plus petits et plus faciles à interpréter. Les réseaux neuronaux récurrents sont des modèles discriminatifs basés sur les données qui sont plus expressifs et généralement plus performants, mais qui nécessitent plus de données et de ressources informatiques.
Comparaison avec l'apprentissage par renforcement (RL)L'apprentissage par renforcement : L'apprentissage par renforcement se concentre sur les intelligences qui apprennent des stratégies de prise de décision par essais et erreurs dans des environnements où le problème lui-même est généralement de nature temporelle. Les réseaux neuronaux récurrents sont souvent utilisés comme composant central dans les intelligences d'apprentissage par renforcement pour traiter des états partiellement observables ou pour se souvenir d'observations historiques.

Tendances futures des réseaux neuronaux récurrents

La recherche sur les réseaux neuronaux récurrents continue d'évoluer et pourrait prendre plusieurs directions à l'avenir.

Gains d'efficacité et synergies matériellesRecherche sur des unités de boucle plus légères et plus efficaces en termes de calcul afin d'optimiser leur déploiement et leur application dans des scénarios d'informatique périphérique tels que les appareils mobiles et les systèmes embarqués.
Intégration de l'innovation dans les nouvelles technologiesLes réseaux neuronaux récurrents : intégration plus profonde des réseaux neuronaux récurrents avec de nouvelles idées telles que les mécanismes d'attention et les réseaux d'amélioration de la mémoire pour créer de nouvelles architectures qui maintiennent l'efficacité de la structure récurrente tout en fournissant une mémoire plus forte et des capacités de généralisation.
Repousser les limites des applications émergentesLes réseaux neuronaux récurrents : explorer le potentiel des réseaux neuronaux récurrents pour des applications dans des domaines émergents tels que la bio-informatique (analyse de séquences de gènes), les soins de santé (analyse de dossiers médicaux électroniques) et la conduite automatisée (fusion de séries temporelles de capteurs).
Améliorer l'interprétabilité et la crédibilitéDéveloppement de nouveaux outils de visualisation et d'analyse pour révéler la représentation et la logique de décision apprises à partir des états internes des réseaux neuronaux récurrents, augmentant ainsi la transparence du modèle et répondant aux besoins d'une IA responsable.
Explorer des paradigmes d'apprentissage plus avancésLes travaux de recherche portent sur la manière dont les paradigmes tels que le méta-apprentissage et l'apprentissage par petits échantillons peuvent être combinés avec les réseaux neuronaux récurrents afin de leur permettre de s'adapter rapidement à de nouvelles tâches séquentielles nécessitant peu de données et d'améliorer la polyvalence et la flexibilité des modèles.