viernes, 27 de agosto de 2010

Teoría de la resonancia adaptativa

Una red neuronal artificial es un sistema de procesamiento de información que tiene ciertas características de funcionamiento en común con las redes neuronales biológicas. Las redes neuronales artificiales se han desarrollado como generalizaciones de modelos matemáticos del conocimiento humano o de la biología neuronal, basados en las siguientes suposiciones: (1) El proceso de la información ocurre en muchos elementos simples llamados neuronas. (2) Las señales pasan entre las neuronas a través de enlaces que las unen. (3) Cada conexión entre neuronas lleva asociado un peso, el cual, en una red neuronal típica, lo que hace es multiplicar la señal transmitida. (4) Cada neurona aplica una función de activación, generalmente no lineal, a su entrada con el objetivo de determinar su señal de salida. Asimismo, una red neuronal se caracteriza por estos tres elementos o características: (1) La topología de conexiones entre neuronas, lo que recibe el nombre de arquitectura de la red. (2) El método de determinación de los pesos sobre las conexiones, denominado algoritmo de entrenamiento o de aprendizaje. (3) La función de activación que tengan sus neuronas.

La “teoría de la resonancia adaptativa”, desarrollada por Stephen Grossberg y Gail Carpenter, es un modelo de red neuronal artificial que basa su funcionamiento en la manera en que el cerebro procesa información y que describe una serie de modelos de redes neuronales que utilizando métodos de aprendizaje supervisado y no supervisado abordan problemas tales como el reconocimiento y la predicción de patrones. Grossberg y Carpenter desarrollaron la teoría de resonancia adaptiva en respuesta al “dilema de la estabilidad y plasticidad del aprendizaje, en el que se plantean las siguientes cuestiones: (1) Plasticidad del aprendizaje. Permite a una red neuronal aprender nuevos patrones. (2) Estabilidad del aprendizaje. Permite a una red neuronal retener los patrones aprendidos. (3) Conseguir que un modelo de red neuronal sea capaz de resolver uno solo de estos problemas es sencillo, el reto está en conseguir un modelo que sea capaz de dar respuesta a ambos. Las redes más conocidas, tales como el Perceptrón multicapa o el Adaline, son capaces de aprender cómo han de responder ante unos patrones de entrada pero, una vez entrenados, el intentar que aprendan nuevos patrones puede suponer el "olvido" de lo aprendido previamente.

La red neuronal basada en la teoría de la resonancia adaptativa, es una clasificadora de vectores. Un vector de entrada se clasifica dentro de una de un número de categorías, dependiendo de la similitud con los patrones previos. Si el criterio de similitud no se satisface se crea una nueva categoría. Así, la red neuronal con base en la teoría de la resonancia adaptativa resuelve el dilema entre plasticidad y estabilidad al habilitar que el aprendizaje ocurra solamente en un estado de resonancia. La red neuronal trabaja con patrones binarios los cuales se comparan con los vectores prototipo de modo que disminuye similitudes hasta que una igualdad adecuada se encuentra o se crea una nueva categoría.

Como se dijo anteriormente, el modelo asociado a la teoría de la resonancia adaptativa soluciona el dilema de la estabilidad y plasticidad del aprendizaje mediante un mecanismo de realimentación entre las neuronas competitivas de la capa de salida. Cuando a la red se le presenta un patrón de entrada este se hace resonar con los prototipos de las categorías conocidas por la red, si el patrón entra en resonancia con alguna clase entonces es asociado a esta y el centro de cluster es desplazado ligeramente para adaptarse mejor al nuevo patrón que le ha sido asignado. En caso contrario, si el patrón no entra en resonancia con ninguna clase, pueden suceder dos cosas: si la red posee una capa de salida estática entrará en saturación pues no puede crear una nueva clase para el patrón presentado pero tampoco puede asignarlo a una clase existente, si la red posee una capa de salida dinámica se creará una nueva clase para dicho patrón, esto no afectará a las clases ya existentes. En las redes de resonancia adaptativa existen dos tipos de pesos, los llamados pesos “hacia adelante”, que son pesos entre la capa oculta, o de entrada según se vea el modelo como de dos o tres capas, y la capa de salida, además de los llamados pesos de “realimentación”, que son pesos de retroalimentación entre la capa de salida y la capa oculta, o de entrada, según se vea. Los pesos hacia adelante tienen el mismo valor que los pesos de realimentación, pero normalizados.

El funcionamiento de un modelo asociado a la teoría de la resonancia adaptativa se divide en cuatro fases: (1) Fase de inicialización. En esta fase se inicializan los parámetros de la red neuronal y se establecen las señales de control. Mediante las señales de control, conocidas como ganancia y reinicio, se controla el flujo de datos a través de la red neuronal y se pasa a las otras fases. (2) Fase de reconocimiento. En la fase de reconocimiento se efectúa una operación con los datos de entrada y los pesos asociados a cada neurona de la capa de salida, el resultado de esta operación debe indicar qué clase tiene mayor prioridad para ver si los datos de entrada entran en resonancia con ella. Por ejemplo, se podría calcular la distancia euclidiana entre los datos de entrada y los pesos, la clase ganadora sería aquella cuyo peso estuviese más cerca de los datos de entrada y por lo tanto sería la primera a la que se le intentaría asociar dicho patrón. (3) Fase de comparación. En esta fase el vector de entrada y el vector producido por la capa de salida son comparados en la capa de entrada y el resultado obtenido se envía al control de reinicio. El objetivo es obtener una medida de similitud entre el vector de entrada y el vector prototipo que surge de la capa de salida. (4) Fase de búsqueda. De no representar la neurona ganadora la categoría del vector de entrada, esta neurona se desactiva y se empieza la búsqueda por otras categorías que ya posea la red. Se repiten entonces los pasos anteriores hasta que se encuentre una neurona ganadora que represente la categoría del vector de entrada. Si se repitiera el proceso hasta que no quedara ninguna neurona se llegaría a una situación de saturación de la red que podría solucionarse ampliando el número de neuronas de la red de forma dinámica.

Un sistema básico, asociado a la teoría de la resonancia adaptativa, es un modelo de aprendizaje no supervisado. Normalmente consta de un campo de comparación y un campo de reconocimiento que a su vez se compone de un parámetro de vigilancia y de un módulo de reinicio. El parámetro de vigilancia tiene una influencia considerable en el sistema: un valor mayor del parámetro de vigilancia produce recuerdos muy detallados, mientras que valores más pequeños de dicho parámetro producirán recuerdos más generales.

El campo de comparación toma un vector de entrada, normalmente una matriz bidimensional de valores, y transfiere su mejor coincidencia al campo de reconocimiento. Su mejor coincidencia estará en aquella neurona cuyo conjunto de pesos, o vector de peso, se acerque más al vector de entrada. Cada neurona del campo de reconocimiento emite una señal negativa, proporcional a la calidad de coincidencia de dicha neurona con el vector de entrada, para cada una de las neuronas del campo de reconocimiento provocando una inhibición de su valor de salida. De esta manera el campo de reconocimiento exhibe una inhibición lateral, permitiendo que cada neurona en él represente una categoría en la que se clasifican los vectores de entrada. Después de que el vector de entrada es clasificado, el módulo de reinicio compara la intensidad de la coincidencia encontrada por el campo de reconocimiento con el parámetro de vigilancia. Si el umbral de la vigilancia se cumple, se inicia el entrenamiento. De lo contrario, si el nivel de coincidencia no cumple con el parámetro de vigilancia, la neurona de reconocimiento disparada se inhibe hasta que un vector de entrada se aplique nuevamente.

El entrenamiento se inicia sólo al final del procedimiento de búsqueda, en el cual las neuronas de reconocimiento son desactivadas una a una por la función de reinicio hasta que el parámetro de vigilancia se satisface con una coincidencia de reconocimiento. Si ninguna coincidencia encontrada por las neuronas de reconocimiento supera el umbral de vigilancia una neurona no comprometida se ajusta para que concuerde con el vector de entrada. Existen dos métodos básicos para entrenar una red neuronal basada en la teoría de la resonancia adaptativa: lento y rápido. En el método lento el grado de entrenamiento de los pesos de la neurona de reconocimiento hacia el vector de entrada se calcula para valores continuos con ecuaciones diferenciales y por lo tanto depende del tiempo durante el cual el vector de entrada esté presente. Con el método rápido, se utilizan ecuaciones algebraicas para calcular el grado de ajuste de peso, utilizándose valores binarios. Si bien el aprendizaje rápido es eficaz y eficiente para ciertas tareas, el método de aprendizaje lento es biológicamente posible y puede usarse con redes en tiempo continuo, es decir, cuando el vector de entrada varía de forma continua.

Guillermo Choque Aspiazu
http://www.eldiario.net/
Junio 14 de 2010

No hay comentarios: