¿Qué es una red neuronal de conexión directa (FNN) en un artículo?

AI RespuestasPublicado hace 2 meses Círculo de intercambio de inteligencia artificial

16.9K 00

Definición de red neuronal feedforward

La red neuronal directa (FNN) es un modelo de red neuronal artificial básico y ampliamente utilizado. Su característica principal es que las conexiones de la red no forman bucles ni vías de retroalimentación, y la información fluye estrictamente unidireccional desde la capa de entrada hasta la capa de salida, donde se procesa a través de una o varias capas ocultas. El flujo unidireccional permite a las redes neuronales feedforward procesar los datos con una dirección clara y es adecuado para diversas tareas de aprendizaje supervisado, como la clasificación de imágenes, el reconocimiento del habla y el análisis predictivo. La red consta de un gran número de neuronas artificiales dispuestas en capas, en las que las neuronas de cada capa están totalmente conectadas a todas las neuronas de la capa siguiente, y la fuerza de las conexiones viene indicada por el parámetro de peso. Los pesos se ajustan durante el entrenamiento mediante un algoritmo de optimización para minimizar el error entre la salida prevista y el valor real. La estructura simple de las redes neuronales feed-forward las hace ideales para una introducción al aprendizaje profundo y sienta las bases para redes más complejas, como las redes neuronales convolucionales y las redes neuronales recurrentes. 前馈神经网络（Feedforward Neural Network）是什么，一文看懂

Estructura básica de las redes neuronales feed-forward

La estructura de una red neuronal directa suele constar de tres partes principales: una capa de entrada, una capa oculta y una capa de salida. Cada capa está formada por varias neuronas que se transmiten información entre sí mediante conexiones ponderadas.

capa de entradaCapa de entrada: como punto de partida de la red, la capa de entrada se encarga de recibir los datos brutos o vectores de características. El número de neuronas corresponde a la dimensión de los datos de entrada; por ejemplo, en el tratamiento de imágenes, el número de neuronas de la capa de entrada puede ser igual al número de píxeles. La capa de entrada no realiza ningún cálculo y sólo pasa los datos a la capa siguiente.
capa ocultaCapa oculta: la capa oculta se sitúa entre las capas de entrada y salida y se encarga de extraer y transformar las características. Una red puede contener varias capas ocultas; cuantas más capas haya, más profunda será la red y más patrones complejos podrá aprender. Cada neurona oculta recibe entradas de todas las neuronas de la capa anterior, aplica pesos y sesgos y produce una salida mediante una función de activación.
capa de salidaLa capa de salida genera la predicción final de la red, con un número de neuronas que depende del tipo de tarea. Para los problemas de clasificación binaria, la capa de salida puede tener una sola neurona que utilice la función de activación Sigmoide; para la multiclasificación, se suele utilizar la función Softmax para dar salida a la distribución de probabilidad.
Conectividad totalEn las redes neuronales feedforward, las neuronas de cada capa están totalmente conectadas a todas las neuronas de la capa siguiente, una estructura conocida como capa totalmente conectada o densa. La matriz de pesos define la fuerza de estas conexiones y el proceso de entrenamiento consiste en optimizar los valores de estos pesos.
escala de parámetrosEl número de parámetros de una red viene determinado por el número de capas y el número de neuronas por capa. Añadir capas o neuronas mejorará la capacidad del modelo, pero también puede llevar a un sobreajuste o a un mayor coste computacional, lo que debe equilibrarse en el diseño.

Mecanismo de funcionamiento de las redes neuronales feed-forward

Las redes neuronales feedforward procesan los datos de entrada y generan los de salida mediante un proceso de propagación hacia delante. Este mecanismo implica múltiples capas de cálculos y transformaciones para derivar progresivamente predicciones a partir de las entradas originales.

paso de propagación hacia delanteLos datos se transmiten capa por capa, empezando por la capa de entrada. Cada capa de neuronas calcula los pesos y las entradas, añade un término de sesgo y, a continuación, aplica una función de activación. Por ejemplo, la salida de la neurona de la capa oculta es igual a la función de activación aplicada a la suma de los pesos y las entradas.
El papel de la función de activaciónFunción de activación: la función de activación introduce la no linealidad, lo que permite a la red aprender relaciones complejas. Las opciones más comunes son la unidad rectificadora lineal (ReLU), que da salida a entradas positivas con valores negativos puestos a cero; la función sigmoidea, que comprime valores entre 0 y 1; y la función tangente hiperbólica (Tanh), que da salida a un rango de -1 a 1. Estas funciones evitan que la red degenere en un modelo lineal.
cálculo de la potenciaEn la capa de salida, la red genera una salida final basada en el tipo de tarea. Las tareas de regresión pueden utilizar una función de activación lineal para generar valores de salida directamente; las tareas de clasificación utilizan una función Softmax para generar probabilidades de categoría. La comparación de los valores de salida con las etiquetas verdaderas produce errores.
ejemplo de cálculoSuponiendo un vector de entrada X, una matriz de pesos W y un vector de sesgo B, la salida de cada capa es una función de activación f(W - X + B). Este proceso se repite hasta la capa de salida, que emite el valor predicho.
ejecución deterministaComo no hay bucles de realimentación, la propagación hacia delante es determinista: la misma entrada siempre produce la misma salida. Esto es fácil de entender y depurar, pero carece de la capacidad de manejar datos secuenciales.

Métodos de entrenamiento de redes neuronales feed-forward

El entrenamiento de redes neuronales feed-forward consiste en ajustar los parámetros de la red para minimizar el error de predicción, principalmente mediante algoritmos de retropropagación y técnicas de optimización. El proceso de entrenamiento se basa en conjuntos de datos etiquetados para el aprendizaje supervisado.

Definición de la función de pérdidaLa función de pérdida cuantifica la diferencia entre el resultado previsto y el valor real. Para los problemas de regresión, se suele utilizar el error cuadrático medio; para los problemas de clasificación, es más común la pérdida de entropía cruzada. Los valores de pérdida guían la dirección del ajuste de los parámetros.
algoritmo de retropropagaciónBackpropagation: calcula el gradiente de la función de pérdida para cada peso. El algoritmo calcula primero la salida y la pérdida por propagación hacia delante y, a continuación, calcula el gradiente capa por capa desde la capa de salida hacia atrás, aplicando la regla de la cadena. El gradiente indica la magnitud y la dirección del ajuste de los pesos.
Optimización por descenso gradualAlgoritmos de optimización como el descenso de gradiente estocástico utilizan gradientes para actualizar los pesos y reducir las pérdidas. El descenso de gradiente estocástico utiliza una muestra de datos cada vez o un pequeño lote de muestras para actualizar los parámetros, equilibrando la eficiencia computacional y la velocidad de convergencia. La tasa de aprendizaje controla el tamaño del paso de actualización y afecta a la estabilidad del entrenamiento.
Bucle de entrenamiento iterativoEntrenamiento de múltiples iteraciones, cada iteración recorre todo el conjunto de datos. El conjunto de validación controla el rendimiento para evitar el sobreajuste; el método de parada temprana termina el entrenamiento cuando la pérdida de validación ya no mejora, lo que mejora la generalización.
ajuste de hiperparámetrosLos hiperparámetros, como la tasa de aprendizaje, el número de capas ocultas y el número de neuronas, deben ajustarse manualmente. La búsqueda en cuadrícula o la búsqueda aleatoria ayudan a encontrar la configuración óptima, mientras que técnicas de regularización como la inactivación aleatoria o la regularización L2 reducen el riesgo de sobreajuste.

Ejemplos de aplicaciones de las redes neuronales feedforward

Las redes neuronales feedforward se utilizan con éxito en una amplia gama de aplicaciones gracias a su flexibilidad y eficacia. Estas aplicaciones abarcan desde la tecnología cotidiana hasta las industrias especializadas.

reconocimiento de imágenesEn visión por computador, las redes neuronales feedforward se utilizan para la clasificación de imágenes y la detección de objetivos. Por ejemplo, los sistemas de reconocimiento de dígitos manuscritos, como la clasificación de conjuntos de datos MN, en los que la red predice categorías de dígitos a partir de entradas de píxeles, proporcionan la base para redes neuronales convolucionales más avanzadas.
procesamiento del hablaEl sistema de reconocimiento de voz utiliza redes neuronales feed-forward para convertir características de audio en texto o comandos. Las características del coeficiente cepstrum de frecuencia mel se extraen como entrada y los fonemas o palabras correspondientes como salida, lo que ayudó al desarrollo inicial de asistentes virtuales como Siri.
procesamiento del lenguaje natural (PLN)En tareas de clasificación de textos como el filtrado de spam o el análisis de sentimientos, las redes neuronales de entrada procesan modelos de bolsa de palabras o vectores de incrustación de entradas y salidas de probabilidades de categoría. Aunque las redes neuronales recurrentes son mejores para datos secuenciales, las redes de entrada son eficientes en tareas sencillas.
diagnóstico médicoEl objetivo: en el ámbito sanitario, la red analiza datos de pacientes como ECG o imágenes para ayudar en la predicción de enfermedades. La introducción de características clínicas y la emisión de resultados de diagnóstico mejoran la precisión de las decisiones de los médicos, pero deben combinarse con la validación profesional para evitar diagnósticos erróneos.
Previsiones financierasEl mercado financiero utiliza redes neuronales feed-forward para predecir el precio de las acciones o la calificación crediticia. Introduce datos históricos e indicadores económicos y genera tendencias futuras para ayudar a tomar decisiones de inversión, a pesar de las dificultades que plantea la volatilidad de los mercados.

Ventajas y limitaciones de las redes neuronales Feedforward

Las redes neuronales feedforward ofrecen importantes ventajas, pero también tienen algunas limitaciones que afectan a su aplicabilidad. Comprender estos aspectos ayuda a elegir el modelo con acierto.

VentajasLa estructura del modelo es sencilla, fácil de implementar y comprender, y adecuada para que los principiantes se inicien en el aprendizaje profundo. La capacidad de aproximación universal permite a la red aproximar cualquier función continua siempre que haya suficientes capas ocultas. Alta eficiencia computacional, rápida propagación hacia adelante, adecuada para aplicaciones en tiempo real. Alta flexibilidad para adaptarse a diversas tareas ajustando la arquitectura. Capacidad de procesamiento paralelo, el hardware moderno, como los procesadores gráficos, acelera el entrenamiento y la inferencia.
sección restringidaEstructura totalmente conectada: la estructura totalmente conectada da lugar a un gran número de parámetros propensos al sobreajuste, y su rendimiento es deficiente, especialmente en conjuntos de datos pequeños. Falta de mecanismos de memoria para manejar datos dependientes de la secuencia o el tiempo, por ejemplo, el modelado del lenguaje requiere redes neuronales recurrentes. El entrenamiento puede caer en óptimos locales, con problemas de desvanecimiento del gradiente o de explosión que afectan al rendimiento de las redes profundas. Poca interpretabilidad, la red actúa como un modelo de caja negra, el proceso de toma de decisiones no es transparente, difícil de usar en dominios que requieren interpretabilidad. Altos requisitos de recursos computacionales, las redes a gran escala requieren grandes cantidades de memoria y tiempo de procesamiento.

Evolución histórica de las redes neuronales feedforward

El desarrollo de las redes neuronales feedforward ha pasado por varias etapas, desde los conceptos iniciales hasta su moderno resurgimiento, reflejando los avances tecnológicos y los avances teóricos.

orígenes tempranosEn los años 40, McCulloch y Pitts propusieron un modelo de neurona artificial para simular la computación lógica de las neuronas biológicas. En los años 50, la máquina perceptiva de Rosenberg se convirtió en la primera red neuronal feed-forward, pero sólo podía tratar problemas linealmente divisibles, y la investigación entró en declive después de que se expusieran sus limitaciones.
Avances en la comunicación inversaEn la década de 1980, Rumelhart, Hinton y Williams redescubrieron y generalizaron el algoritmo de retropropagación para permitir un entrenamiento eficaz de las redes multicapa. Durante este periodo se demostraron teorías como el Teorema de Aproximación Generalizada, que despertaron un nuevo interés.
El auge del aprendizaje profundoA finales de la década de 2000, el aumento de la potencia de cálculo y la disponibilidad de grandes volúmenes de datos impulsaron el renacimiento de las redes neuronales feed-forward. El trabajo de Hinton et al. demostró que las redes profundas podían entrenarse, lo que dio lugar a una revolución del aprendizaje profundo. Las redes neuronales superaron a los métodos tradicionales en la competición ImageNet.
Optimización de la arquitecturaDurante el desarrollo, mejoras como las funciones de activación de células rectificadoras lineales mitigan la desaparición del gradiente y la desactivación estocástica reduce el sobreajuste. Estas innovaciones hacen que la red sea más profunda y eficiente para dar soporte a las aplicaciones modernas de IA.
posición actualEl objetivo de este artículo es presentar las redes neuronales feedforward como modelos fundamentales para la formación continua y las nuevas investigaciones. A pesar de la aparición de redes más complejas, su sencillez y eficacia siguen siendo relevantes en muchas aplicaciones.

Redes neuronales feedforward frente a otras redes neuronales

Las redes neuronales de avance tienen características y escenarios aplicables únicos en comparación con otros tipos de redes neuronales. La comparación pone de relieve sus respectivos puntos fuertes y débiles.

Comparación con redes neuronales recurrentesRedes neuronales recurrentes: las redes neuronales recurrentes contienen conexiones recurrentes y procesan datos secuenciales como series temporales o lenguaje natural, mientras que las redes neuronales feedforward no tienen memoria y sólo son adecuadas para entradas estáticas. Las redes neuronales recurrentes son capaces de captar dependencias temporales, pero son más complejas de entrenar; las redes feedforward son sencillas y eficientes y resultan adecuadas para tareas no secuenciales.
Comparación con las redes neuronales convolucionalesLas redes neuronales convolucionales están diseñadas específicamente para imágenes y utilizan capas convolucionales para compartir pesos, reducir el número de parámetros y mejorar la invariabilidad de traslación. Las estructuras totalmente conectadas de las redes neuronales feedforward son densas en parámetros y menos eficientes en el procesamiento de imágenes, pero pueden existir como ramas totalmente conectadas en arquitecturas de redes neuronales convolucionales.
Comparación con las redes generativas adversarialesRedes neuronales generativas adversariales: las redes neuronales generativas adversariales se utilizan para generar nuevos datos y constan de generadores y discriminadores para el entrenamiento adversarial. Las redes neuronales feedforward suelen utilizarse para tareas discriminatorias, como la clasificación, y carecen de capacidad generativa. Las redes generativas adversariales son más complejas y requieren un ajuste fino de los parámetros.
Comparación con los autocodificadoresAutocodificador: un autocodificador es una variante de red neuronal de entrada para la reducción de la dimensionalidad o la eliminación de ruido que aprende una representación compacta mediante la codificación y descodificación de estructuras. Las redes feedforward estándar no incluyen automáticamente esta compresión y se centran en el mapeo directo de entrada-salida.
Idoneidad generalRedes neuronales feedforward: las redes neuronales feedforward son adecuadas para la clasificación simple y la regresión, mientras que otras redes se ocupan de problemas específicos. La elección depende de las características de los datos: feed-forward para datos tabulares, redes neuronales convolucionales para imágenes, redes neuronales recurrentes para secuencias.

Fundamentos matemáticos de las redes neuronales feedforward

El funcionamiento de las redes neuronales feedforward se basa en principios matemáticos de álgebra lineal, cálculo y teoría de la probabilidad. Estos fundamentos garantizan que el modelo sea riguroso y optimizable.

Aplicaciones del álgebra linealEl cálculo de redes se basa en la multiplicación de matrices y operaciones vectoriales. Los datos de entrada se representan como vectores, los pesos son matrices y la salida de la capa se obtiene por multiplicación de matrices más sesgo. Por ejemplo, la salida de la capa oculta es igual a la función de activación f(W * X + B), donde W es la matriz de pesos, X es el vector de entrada y B es el vector de sesgo.
El papel del cálculoLa retropropagación en el entrenamiento se basa en el cálculo del gradiente, utilizando la regla de la cadena para la derivación. Las derivadas parciales de la función de pérdida con respecto a los pesos guían la actualización, y el cálculo proporciona herramientas para optimizar los parámetros. Los algoritmos de descenso de gradiente encuentran los mínimos de pérdida basándose en las derivadas de primer orden.
Enlaces sobre teoría de la probabilidadEn la tarea de clasificación, la función Softmax de la capa de salida produce una distribución de probabilidad y maximizar la función de verosimilitud equivale a minimizar la pérdida de entropía cruzada. El marco probabilístico ayuda a comprender la incertidumbre del modelo y la capacidad de generalización.
teoría de la optimizaciónEl entrenamiento es esencialmente un problema de optimización que minimiza la función de pérdida. La teoría de la optimización convexa no es directamente aplicable debido a la no convexidad de la red, pero métodos como el descenso de gradiente estocástico son eficaces en la práctica. La programación de la tasa de aprendizaje y los términos de impulso mejoran la convergencia.
Teorema de aproximación universalUn teorema matemático demuestra que una red neuronal feedforward de una sola capa oculta es suficiente para aproximar cualquier función continua, dadas suficientes neuronas. Esto proporciona garantías teóricas que respaldan una amplia gama de aplicaciones de redes, aunque las redes profundas son mejores en la práctica.

Selección de la función de activación para redes neuronales feedforward

La función de activación es un componente clave de las redes neuronales feed-forward que introduce la no linealidad y determina la capacidad de aprendizaje de la red. Diferentes funciones tienen diferentes propiedades y escenarios aplicables.

función sigmoidea (matem.)Salida de 0 a 1, gradiente suave, adecuado para la estimación de la probabilidad de la capa de salida. Sin embargo, es fácil de saturar, lo que da lugar a gradientes desvanecidos, entrenamiento lento y el centro de salida distinto de cero puede afectar a la convergencia.
función tangente hiperbólicaRango de salida -1 a 1, centro cero, gradiente más fuerte, problemas de entrenamiento reducidos. Mejor que Sigmoid, pero aún saturable, comúnmente utilizado para capas ocultas.
Unidad rectificadora linealLa simplicidad computacional de f(x)=max(0,x) atenúa la desaparición del gradiente y acelera el entrenamiento. Sin embargo, una salida negativa de cero puede provocar la "muerte" de la neurona y la interrupción del aprendizaje.
Rectificador lineal con fugasUnidades rectificadoras lineales mejoradas con pequeñas pendientes en las regiones negativas para evitar neuronas muertas. Las versiones parametrizadas, como las unidades rectificadoras lineales parametrizadas, aprenden las pendientes para mejorar la flexibilidad.
Función SoftmaxDedicado a la multiclasificación de la capa de salida, convirtiendo la salida en una distribución de probabilidad que garantice una suma de 1. Emparejamiento con pérdida de entropía cruzada para optimizar la predicción de categorías.

Tipos de funciones de pérdida para redes neuronales feedforward

La función de pérdida mide el rendimiento del modelo y dirige el proceso de formación. La elección depende del tipo de tarea y de las características de los datos.

error cuadrático medioUtilizado en tareas de regresión para calcular la media de las diferencias al cuadrado entre los valores predichos y los verdaderos. Es sensible a los valores atípicos, pero ofrece un panorama de optimización suavizado.
pérdida de entropía cruzadaEntropía cruzada: Se utiliza en tareas de clasificación para medir las diferencias en las distribuciones de probabilidad. Utiliza la entropía cruzada binaria para la clasificación binaria y la entropía cruzada categórica para la multiclasificación, trabaja con la salida Softmax para manejar eficientemente el desequilibrio de categorías.
Pérdida absoluta por errorSustituye al error cuadrático medio en la regresión, calcula la diferencia absoluta, más robusto frente a valores atípicos, pero el gradiente es discontinuo.
Pérdidas HuberCombina las ventajas de los errores medios cuadrados y absolutos, utilizando términos cuadrados para los errores más pequeños y términos lineales para los errores más grandes, equilibrando sensibilidad y robustez.

Algoritmos de optimización para redes neuronales feed-forward

Los algoritmos de optimización ajustan los parámetros de la red para minimizar las pérdidas, lo que afecta a la velocidad de entrenamiento y al rendimiento final. Los distintos algoritmos tienen estrategias y posibilidades de aplicación diferentes.

Descenso de gradiente estocástico:Los algoritmos básicos, que utilizan una muestra o un pequeño lote por actualización, son eficientes desde el punto de vista informático pero ruidosos.
Descenso de gradiente estocástico de momento:Introduce términos de impulso para acumular más allá de la dirección del gradiente, reduciendo las oscilaciones y acelerando la convergencia. Modelización de la inercia física para ayudar a atravesar regiones planas.
Adam Optimiser:Combina el impulso y las tasas de aprendizaje adaptativo para calcular las tasas de aprendizaje para cada parámetro, adecuado para problemas no convexos. Ampliamente utilizado con la selección predeterminada de muchos marcos de aprendizaje profundo.
Adagrad:Tasa de aprendizaje adaptativa, ajustada al gradiente histórico de los parámetros, adecuada para datos dispersos.
Programación de la tasa de aprendizaje:Ajuste dinámico de los ritmos de aprendizaje, como el step decay o el cosine annealing, para mejorar la convergencia y la generalización. Práctica con selección óptima de algoritmos.