O que é a Rede Neural Recorrente (RNN) em um artigo?

Respostas da IAPublicado há 2 dias Círculo de compartilhamento de IA

1.3K 00

Definição de rede neural recorrente

A Rede Neural Recorrente (RNN) é uma arquitetura de rede neural projetada para processar dados sequenciais. Dados sequenciais referem-se a uma coleção de dados com ordem temporal ou dependências, como texto linguístico, sinais de fala ou séries temporais. Diferentemente das redes neurais feed-forward tradicionais, a RNN permite que a rede mantenha um estado oculto interno que capta informações contextuais dinâmicas em sequências por meio da introdução de uma estrutura de conexão recorrente. Esse estado oculto é continuamente atualizado com as entradas em cada etapa de tempo e passado para a próxima etapa de tempo, formando um mecanismo de memória que permite que a RNN processe sequências de comprimento variável e modele dependências de curto e longo prazo. Os RNNs primitivos sofrem de problemas de desaparecimento e explosão de gradiente, o que dificulta o aprendizado eficiente de dependências de longo alcance. Variantes aprimoradas, como as redes de memória de longo prazo (LSTM) e as unidades recorrentes fechadas (GRU), foram desenvolvidas para essa finalidade. O valor central da RNN está em sua capacidade poderosa de modelar a dinâmica temporal e é amplamente usada em áreas como processamento de linguagem natural, reconhecimento de fala e previsão de séries temporais, além de ter se tornado um modelo básico importante para a aprendizagem profunda.

循环神经网络（Recurrent Neural Network）是什么，一文看懂

Como funcionam as redes neurais recorrentes

O principal mecanismo de funcionamento das redes neurais recorrentes gira em torno de sua estrutura recorrente e da atualização e transferência de estados ocultos, que podem processar com eficiência informações com associações temporais.

Expansão de tempo e processamento passo a passoRede neural recorrente: Uma rede neural recorrente trata toda a sequência de entrada como uma série de pontos de dados organizados em etapas de tempo. Em vez de processar todos os dados de uma só vez, a rede faz os cálculos passo a passo. Por exemplo, ao analisar uma frase, a rede lê cada palavra por vez.
Ciclo e atualização de estados ocultosEm cada etapa de tempo, a rede recebe duas entradas: dados de entrada externa da etapa de tempo atual e estados ocultos internos da etapa de tempo anterior. Essas duas entradas são transformadas linearmente por um conjunto de parâmetros de peso compartilhados e, em seguida, processadas por uma função de ativação não linear (por exemplo, a função tangente hiperbólica tanh), que gera um novo estado oculto para a etapa de tempo atual.
Como a saída é geradaEstado oculto: O estado oculto da etapa de tempo atual não é apenas passado para o futuro, mas também usado para gerar a saída dessa etapa de tempo. Essa saída pode ser um valor previsto, como a distribuição de probabilidade prevista da próxima palavra, e geralmente é obtida por meio de uma transformação da camada de saída, como uma função Softmax. Nem toda etapa de tempo precisa gerar um resultado.
Mecanismo de compartilhamento de parâmetrosRedes neurais recorrentes: As redes neurais recorrentes reutilizam a mesma matriz de pesos (pesos de entrada, pesos de estado oculto e pesos de saída) em todas as etapas de tempo. Esse compartilhamento de parâmetros reduz bastante o número de parâmetros que o modelo precisa aprender, melhora a eficiência computacional e permite que o modelo seja generalizado para sequências de diferentes comprimentos.
Fornecimento direcionado de fluxos de informaçõesConexões cíclicas: As conexões cíclicas constituem um fluxo direcionado de informações, permitindo que as informações históricas influenciem continuamente os cálculos futuros. Esse design permite que a rede capture padrões de curto prazo na sequência, mas as redes recorrentes simples primitivas têm dificuldades inerentes para capturar padrões de longo prazo.

Áreas de aplicação de redes neurais recorrentes

As redes neurais recorrentes foram utilizadas em vários campos científicos e industriais devido à sua excelente capacidade de processar dados sequenciais.

processamento de linguagem natural (NLP)As redes neurais recorrentes são a principal tecnologia para tradução automática, geração de texto, análise de sentimentos e modelagem de idiomas. Na tradução automática, o modelo lê as frases do idioma de origem como uma sequência e gera gradualmente as palavras do idioma de destino, fazendo uso total das informações contextuais para melhorar a precisão da tradução.
Reconhecimento e síntese de falaOs sinais de fala são, em geral, séries temporais. As redes neurais recorrentes são usadas para converter formas de onda de áudio em transcrições textuais, acionando assistentes de voz inteligentes e sistemas de legendagem em tempo real. Elas também são usadas para sintetizar uma fala mais natural.
Previsão e análise de séries temporaisRedes neurais recorrentes: Em finanças, meteorologia, energia e indústria, as redes neurais recorrentes são usadas para prever preços de ações, previsões meteorológicas, cargas de energia ou a vida útil restante de equipamentos. Os modelos fazem inferências sobre tendências futuras ao aprender padrões em dados históricos.
Compreensão do conteúdo de vídeoVídeo: o vídeo consiste em quadros de imagem consecutivos. As redes neurais recorrentes podem processar essas sequências de quadros para reconhecimento de comportamento, descrição de conteúdo de vídeo, marcação automática e detecção de eventos anômalos, que são amplamente usados em vigilância de segurança e recomendação de conteúdo.
Geração de música e composição de sequênciasRedes neurais recorrentes: As redes neurais recorrentes podem aprender as notas, os acordes e os padrões rítmicos das composições musicais e criar automaticamente novos fragmentos musicais, melodias ou até mesmo partituras completas, fornecendo ferramentas para a inteligência artificial criativa.

Variantes de tipo de redes neurais recorrentes

Para superar as limitações das redes neurais recorrentes básicas, os pesquisadores propuseram diversas variantes arquitetônicas importantes.

Rede Neural Recorrente Básica (Vanilla RNN)Rede recorrente: A forma mais simples de rede recorrente, usando funções de ativação como tanh. No entanto, sua capacidade de memória é de curta duração, ela é propensa a sofrer com o problema de desaparecimento do gradiente e é difícil aprender a dependência de longo prazo.
Rede de memória longa de curto prazo (LSTM)LSTMs: Ao introduzir mecanismos sofisticados de "gating" (incluindo portas de entrada, portas de esquecimento e portas de saída), os LSTMs podem lembrar ou esquecer informações de forma seletiva, controlando efetivamente o fluxo de informações. Isso permite que ele aprenda e se lembre de dependências de longa distância, tornando-o a escolha preferida para muitas tarefas sequenciais.
Unidade de recirculação fechada (GRU)Célula de loop fechado: Como uma variante do LSTM, a célula de loop fechado combina as portas de entrada e de esquecimento em uma única "porta de atualização" e simplifica a estrutura do estado da célula. Esse projeto reduz a complexidade computacional e a velocidade de treinamento, mantendo um desempenho semelhante ao do LSTM.
Rede Neural Recorrente Bidirecional (Bi-RNN)A arquitetura consiste em duas camadas de rede recorrentes separadas, uma processando sequências para frente ao longo do tempo e a outra para trás. O resultado final combina informações contextuais passadas e futuras e é adequado para tarefas que exigem informações completas sobre a sequência, como o reconhecimento de nomes de entidades.
Rede neural recorrente profunda (RNN profunda)O modelo pode ser usado para aprender características de sequências hierárquicas mais complexas: Ao empilhar várias camadas de loop umas sobre as outras, a profundidade e a expressividade do modelo podem ser aumentadas, permitindo que ele aprenda características de sequências hierárquicas mais complexas. No entanto, uma profundidade maior também acarreta maior dificuldade de treinamento.

Vantagens das redes neurais recorrentes

O conjunto de vantagens das redes neurais recorrentes faz delas uma arquitetura insubstituível para tarefas de modelagem de sequências.

Processamento direto de sequências de comprimento variávelRedes neurais recorrentes: Sem a necessidade de pré-cortar ou preencher os dados de entrada com um tamanho fixo, as redes neurais recorrentes são capazes de processar nativamente entradas sequenciais de comprimentos variados, o que é consistente com a diversidade dos dados do mundo real.
O compartilhamento de parâmetros leva à eficiênciaCompartilhamento de parâmetros em todas as etapas de tempo: o compartilhamento de parâmetros em todas as etapas de tempo não apenas reduz drasticamente o número total de parâmetros no modelo e reduz o risco de ajuste excessivo, mas também aumenta a capacidade do modelo de generalizar sequências de diferentes comprimentos.
Poderoso recurso de modelagem da dinâmica de tempoO mecanismo recorrente de estados ocultos permite que a rede capture mudanças dinâmicas e dependentes do tempo nos dados, algo que as redes neurais feedforward não podem fazer diretamente.
Arquitetura flexível e dimensionávelRedes neurais recorrentes: as redes neurais recorrentes podem ser usadas como um módulo básico que pode ser facilmente combinado com outras arquiteturas de redes neurais (por exemplo, redes neurais convolucionais, CNNs) para formar modelos híbridos mais avançados para o processamento de dados de sequências multimodais.
Oferece suporte ao aprendizado de ponta a pontaO modelo inteiro pode ser aprendido diretamente dos dados de sequência brutos para a saída final, minimizando a necessidade de engenharia manual de recursos e simplificando o processo de aprendizado de máquina.

Limitações das redes neurais recorrentes

Apesar de seu poder, as redes neurais recorrentes têm algumas desvantagens e desafios inerentes.

Problemas de desaparecimento do gradiente e explosão do gradienteEsse é o principal obstáculo ao treinamento de redes recorrentes profundas. Durante a retropropagação, o gradiente pode encolher (desaparecer) ou expandir (explodir) exponencialmente, o que faz com que a rede não consiga atualizar os pesos das camadas anteriores, dificultando o aprendizado das dependências de longo prazo.
Baixo paralelismo computacional e treinamento lentoTempo de treinamento: Devido à sua natureza sequencial de computação, é necessário aguardar a conclusão da etapa de tempo anterior antes de prosseguir para a próxima etapa de tempo, o que não aproveita totalmente os recursos de computação paralela do hardware moderno (por exemplo, GPUs), resultando em um longo tempo de treinamento.
Capacidade limitada de memória realEmbora variantes como a LSTM melhorem a capacidade de memória, a dimensionalidade fixa do estado oculto ainda limita a quantidade total de informações históricas que podem ser lembradas pela rede e pode não ter um bom desempenho em sequências muito longas.
Risco de sobreajusteEmbora o compartilhamento de parâmetros ajude na regularização, as redes recorrentes complexas ainda são propensas a ajustar demais o conjunto de treinamento quando a quantidade de dados é insuficiente, exigindo técnicas de regularização como o Dropout.
Má interpretação do modeloO significado representado pelos estados internos (estados ocultos) das redes neurais recorrentes geralmente é difícil de interpretar, e seu processo de tomada de decisão se assemelha a uma caixa preta, o que é uma grande desvantagem em aplicativos que exigem um alto grau de transparência e confiabilidade.

Métodos de treinamento para redes neurais recorrentes

O treinamento bem-sucedido de redes neurais recorrentes exige algoritmos e técnicas específicos para garantir a estabilidade e a convergência.

Propagação reversa no tempo (BPTT)Algoritmo de retropropagação: Esse é o algoritmo padrão para o treinamento de redes neurais recorrentes e é essencialmente um desdobramento do algoritmo de retropropagação tradicional na dimensão de tempo. O erro é retropropagado da saída final até o início da sequência para calcular o gradiente.
Seleção e aplicação do otimizadorDescrição: Além da descida de gradiente estocástica padrão (SGD), os otimizadores de taxa de aprendizagem adaptativa, como Adam e RMSProp, são amplamente adotados. Eles podem ajustar automaticamente a taxa de aprendizado dos parâmetros para acelerar a convergência e melhorar a estabilidade do treinamento.
Técnica de recorte de gradientePara atenuar o problema da explosão do gradiente, o corte de gradiente define um limite superior para o valor do gradiente.
Estratégia de inicialização de pesoInicialização: A inicialização adequada é fundamental para o treinamento de redes profundas. Para redes recorrentes, métodos como Xavier ou inicialização ortogonal ajudam a manter o gradiente fluindo bem nos estágios iniciais do treinamento.
Métodos de regularização para evitar o ajuste excessivoTécnica de Dropout: Além do método de parada antecipada, a técnica de Dropout é comumente usada em redes neurais recorrentes. Uma variante é aplicar o Dropout entre as etapas de tempo ou nas entradas da camada recorrente, em vez de nas próprias conexões recorrentes, para evitar a corrupção da memória.

Desenvolvimento histórico das redes neurais recorrentes

A evolução da ideia de redes neurais recorrentes passou por décadas de acúmulo de pesquisas e avanços.

Germinação precoce de ideiasEm 1982, John Hopfield propôs a rede Hopfield, uma das primeiras redes cíclicas para memória associativa.
Fundamentos teóricos e problemas reveladosEm 1997, Hochreiter e Schmidhuber propuseram um projeto preliminar para uma rede LSTM (Long Short-Term Memory, Memória de Curto Prazo Longa), que forneceu uma direção para a solução do problema.
Avanços em Algoritmos e Aplicações IniciaisDescrição: Com o refinamento do algoritmo back propagation through time (BPTT) e o aumento da capacidade computacional, as redes neurais recorrentes estão começando a ser aplicadas a tarefas de reconhecimento de fala e modelagem de linguagem em pequena escala.
Renascimento e prosperidade da aprendizagem profundaPor volta de 2010, graças aos conjuntos de dados em grande escala, aos saltos na capacidade de computação da GPU e aos aprimoramentos nas técnicas de treinamento, as variantes de redes recorrentes, como a LSTM e a GRU, obtiveram um sucesso revolucionário em áreas como o processamento de linguagem natural e se tornaram o núcleo de muitos sistemas comerciais.
Status atual e futuroNos últimos anos, as arquiteturas de transformadores baseadas em mecanismos de autoatenção demonstraram desempenho superior ao das redes recorrentes em várias tarefas. No entanto, as redes neurais recorrentes e suas variantes ainda mantêm um valor significativo em muitos cenários devido à sua posição fundamental na modelagem de sequências.

Comparação de redes neurais recorrentes com outros modelos

A comparação das redes neurais recorrentes com outros modelos convencionais ajuda a entender seu valor exclusivo e os cenários de aplicabilidade.

Comparação com redes neurais feedforward (FNN)Redes neurais feedforward: As redes neurais feedforward pressupõem que os dados de entrada são independentes uns dos outros, não têm estado interno e processam entradas de tamanho fixo. As redes neurais recorrentes, por outro lado, são projetadas para sequências e têm recursos de memória, mas são mais complexas de treinar e menos eficientes do ponto de vista computacional.
Comparação com redes neurais convolucionais (CNN)Redes neurais convolucionais: As redes neurais convolucionais são boas para extrair recursos localizados espacialmente (por exemplo, imagens), e sua invariância de tradução é vantajosa no processamento de imagens. As redes neurais recorrentes são boas para capturar dependências globais temporais. As redes convolucionais unidimensionais também podem processar sequências, mas com campos sensoriais limitados, enquanto as redes recorrentes podem, teoricamente, lembrar todo o histórico.
Comparação com o modelo TransformerO Transformer, baseado inteiramente em um mecanismo de autoatenção, pode processar sequências inteiras em paralelo, é extremamente eficiente para treinar e se destaca na modelagem de dependência de longa distância. As redes recorrentes, por outro lado, devem ser processadas sequencialmente e são lentas, mas podem ter menor sobrecarga computacional e de memória para inferência e são mais adequadas para aplicativos de streaming com restrição de recursos.
Comparação com modelos de Markov ocultos (HMM)Modelos de Markov oculto: os modelos de Markov oculto são modelos gráficos probabilísticos sequenciais clássicos baseados em suposições matemáticas rigorosas e são menores e mais fáceis de interpretar. As redes neurais recorrentes são modelos discriminativos orientados por dados que são mais expressivos e geralmente têm melhor desempenho, mas exigem mais dados e recursos computacionais.
Comparação com o aprendizado por reforço (RL)O aprendizado por reforço concentra-se em inteligências que aprendem estratégias de tomada de decisão por meio de tentativa e erro em ambientes em que o problema em si é geralmente de natureza temporal. As redes neurais recorrentes costumam ser usadas como um componente central nas inteligências de aprendizado por reforço para processar estados parcialmente observáveis ou para lembrar observações históricas.

Tendências futuras em redes neurais recorrentes

A pesquisa sobre redes neurais recorrentes continua a evoluir e pode seguir em várias direções no futuro.

Ganhos de eficiência e sinergias de hardwarePesquisa sobre unidades de loop mais leves e computacionalmente mais eficientes para otimizar sua implantação e aplicação em cenários de computação de ponta, como dispositivos móveis e sistemas incorporados.
Integração da inovação com novas tecnologiasIntegração mais profunda de redes neurais recorrentes com novas ideias, como mecanismos de atenção e redes de aprimoramento de memória, para criar novas arquiteturas que mantenham a eficiência da estrutura recorrente e, ao mesmo tempo, ofereçam recursos mais fortes de memória e generalização.
Expandindo os limites dos aplicativos emergentesExplore o potencial das redes neurais recorrentes para aplicações em campos emergentes, como bioinformática (análise de sequência de genes), saúde (análise de registros médicos eletrônicos) e direção automatizada (fusão de séries temporais de sensores).
Aumentar a interpretabilidade e a credibilidadeDesenvolvimento de novas ferramentas de visualização e análise para revelar a representação e a lógica de decisão aprendidas com os estados internos das redes neurais recorrentes, aumentando a transparência do modelo e atendendo às necessidades da IA responsável.
Explorar paradigmas de aprendizado mais avançadosPesquisa: Investigar como paradigmas como meta-aprendizagem e aprendizagem de pequenas amostras podem ser combinados com redes neurais recorrentes para permitir que elas se adaptem rapidamente a novas tarefas sequenciais com escassez de dados e para melhorar a versatilidade e a flexibilidade dos modelos.