Professional Documents
Culture Documents
ARTIFICIALES
Un enfoque prctico
REDES DE NEURONAS
ARTIFICIALES
Un enfoque prctico
PEARSON
Prent in
1lall
Madrid Mxico Santaf de Bogot Buenos Aires Caracas Lima Montevideo
San Juan Sao Jos Santiago Slio Pauto White Plains
/ Datos de catalogacin bibliogrdfica
ISBN: &4-205-4025..0
Materia: Informtica 681.3
DERECHOS RESERVADOS
2004 por PEARSON EDUCACIN, S.A.
Ribera del Loica, 28
28042 MADRID (Espaa)
ISBN: 84-2054025-0
Depsito legal: M. 52.362-2003
l
PEARSON PllliNTICE HALL es u sell editorial autorizado de PEARSON EDUCACIN, S.A.
Equipo editorial:
Editor: David Fayerman Aragn
Tcnico editorial: Ana Isabel Garca Borro
Eqipo de produccin:
Director: Jos Antonio Ciares
Tcnico: Jos Antonio Hemn
Diseo de cubierta: Equipo de diseo de Pearson Educacin, S.A.
Impreso por: Lavel, S.A.
Todos los libros estn escritos siempre con un nimo. Este libro no es una
excepcin. Es en parte el resultado de varios aos de trabajo en la enseanza de
estas materias, y tiene la finalidad de ensear. Afortunadamente, a pesar de la
era tecnolgica que nos ha tocado presenciar, los libros son an el pilar funda-
mental sobre el que descansa la educacin. Los libros son como los profesores:
los malos pueden hacer que odiemos la materia que nos ensean; los buenos,
por el contrario, pueden conseguir que nos apasionemos por algo, que compren-
damos el cdigo oculto que hay detrs de las disciplinas, ya sean cientficas,
sociales o artsticas, que veamos la belleza que recubre los conocimientos de un
determinado campo.
ste es el objetivo fundamental de este libro. No se trata de hacer un libro
de referencia para la comunidad cientfica, ni siquiera de hacer una obra que
contenga nuevos elementos cientficos; se trata de intentar acercar las Redes
de Neuronas Artificiales a aquellos lectores que estn interesados es saber de
qu tratan. Es un libro que nace de la ilusin de los autores por t ransmitir,
de una manera sencilla, todo un campo de conocimiento que resulta, a primera
vista, extrao, extravagante y reservado slo a un grupo de iniciados; pero que,
sin embargo, est siendo aplicado para solucionar problemas y forma parte de
elementos que, cada vez ms, se estn incorporando a nuestra vida cotidiana.
Algunas veces los autores se empean, en una incomprensible creencia de que
lo bueno debe ser ininteligible, en recubrir sus escritos de una estructura ba-
rroca, artificialmente sofisticada. Tambin es cierto que otras veces aligerar una
materia, sin dejarla desprovista de sus elementos fundamentales y necesarios,
es complicado, porque hacer fcil lo difcil no es una tarea sencilla, pero es el
objetivo deseable de todo docente. ste es el espritu con el que se ha escrito este
libro; tratar de contar, de forma sencilla, pero rigurosa y profunda, la disciplina
de las Redes de Neuronas Artificiales. Por esto todos los captulos tericos del
libro concluyen con ejemplos prcticos sencillos, que ayudan en la comprensin
de los conceptos introducidos a lo largo del captulo. Adems, cuenta con tres
captulos de aplicaciones prcticas de las Redes de Neuronas Artificiales a pro-
blemas reales. Estos captulos incluyen problemas difciles, donde se realiza una
descripcin de los mismos: la estructura de los datos que los definen, en qu con-
siste la complejidad de cada uno de ellos y, por supuesto, la solucin mediante
Redes de Neuronas Artificiales. Estas soluciones incluyen la descripcin de los
modelos, los parmetros, cmo dichos parmetros influyen en la solucin y las
V
VI
3 . P er ceptron multicapa 45
3.1. Introduccin. . . . . . . . . . . . . . . . . . . . 45
3.2. Arquitectura del perceptron multicapa . . . . . 46
3.2.1. P ropagacin de los patrones de entrada 48
3.2.2. Diseo de la arquitectura del perceptron multicapa . 51
3.3. Algoritmo de RETROPR.OPAGAClN . . . . . . . . . . . . . 52
IX
X NDICE GENERAL
9. C lasificacin 197
9.1. Tarea de clasificacin . . . . . 197
9.1. 1. Caractersticas . . . . 198
9.1.2. Tipos de clasificadores 201
9.2. Mtodos de clasificacin . . . 204
9.2.1. Redes de cuantizacin vectorial 205
9.2.2. K medias . . . . . . . . . . . . 206
9.3. Clasificacin de enfermos de diabetes . 208
Bibliografa 213
1
2 INTRODUCCIN A LAS REDES DE NEURONAS
l. Los receptores, que estn en las clulas sensoriales, recogen las informa-
ciones en forma de estmulos, bien del ambiente, bien del interior del or-
ganismo.
2. El sistema nervioso, que recibe las informaciones, las elabora, en parte las
almacena y las enva en forma elaborada a los rganos efectores y a otras
zonas del sistema nervioso.
3. rganos diana o efectores (por ejemplo, msculos y glndulas), que reciben
la informacin y la interpretan en forma de acciones motoras, hormonales,
etc.
nicamente con sus ocho adyacentes, lo cual queda varios rdenes de magnitud
por debajo de lo deseable. sta es una de las grandes limitaciones que tienen
los sistemas artificiales existentes en la actualidad.
Algunas de las clulas nerviosas, los receptores, reciben informacin direc-
tamente del exterior; a esta informacin se le da el nombre de estmulo. Los
estmulos son el mecanismo de contacto de un organismo con el mundo exterior.
Existen terminaciones nerviosas en casi todas las partes del org(Ul.$mo que se
encargan de recibir la informacin visual, auditiva, tctil, etc. sta informacin,
una vez elaborada, pasa a ser tratada como el resto de la informacin del siste-
ma nervioso y convertida en impulsos electro-qumicos. Son estos impulsos los
que, bsicamente, ponen en funcionamiento la red neuronal del sistema nervio-
so, la cual propaga todas las seales asncronamente, como se ha descrito, hasta
que llega a los efectores, los rganos, glndulas, msculos; que son capaces de
transformar la informacin recibida en acciones motoras, hormonales, etc. As es
como un organismo recibe, procesa y reacciona ante la informacin recibida del
exterior.
Nuestro comportamiento, inteligente o no, y el del resto de los animales
superiores, siguen un esquema de este tipo. Y son estos mecanismos los que
tratan de incorporar los modelos artificiales que han ido apareciendo a lo largo
de la historia de las Redes de Neuronas Artificiales.
UNIVtRSIDAD O
6 INTRODUCCIN A LAS REDES DE NEURONAS
por ejemplo, una imagen con n+ 1 niveles de gris, o incluso un intervalo continuo
de valores, por ejemplo S= [0, 1].
Las neuronas poseen una funcin que les permite cambiar de nivel de activa-
cin a partir de las seales que reciben; a dicha funcin se la denomina funcin
de transicin de estado o funcin de activacin. Las seales que recibe cada neu-
rona pueden provenir del exterior o de las neuronas a las cuales est conectada.
El nivel de activacin de una clula depende de las entradas recibidas y de los
valores sinpticos, pero no de anteriores valores de estados de activacin. Para
calcular el estado de activacin se ha de calcular en primer lugar la entrada
total a la clula, Ei Este valor se calcula como la suma de todas las entradas
ponderadas por ciertos valores.
U nidad de proceso j
o
J-----:>~0
~o
Salidas
La Figura 1.2 muestra un modelo que representa esta idea. Aqu un grupo de
entradas x1, xz, , Xn son introducidas en una neurona artificial. stas entra-
das, definidas por un vector X, corresponden a las seales de la sinapsis de una
neurona biolgica. Cada seal se multiplica por un peso asociado w1 , Wz, , Wn
antes de ser aplicado el sumatorio etiquetado por :E. Cada peso corresponde a
la fuerza de una conexin sinptica, es decir el nivel de concentracin inica de
la sinapsis, y se representa por un vector W.
El sumatorio, que corresponde al cuerpo de la neurona, suma todas las en-
tradas ponderadas algebraicamente, produciendo una salida que se denomina
E, as:
E= XW + XzWz + + XnWn
Esto puede ser definido en forma vectorial como sigue:
Las seales E son procesadas adems por una funcin llamada funcin de
activacin o de salida :F, que produce la seal de salida de la neurona S. De-
pendiendo de la funcin :F, habr distintos modelos de autmatas; por ejemplo:
Modelo computacional 1
Patrones de Salida
t
Representacion
Interna de las
Unidades
Patrones de Entrada
clula a otra. Estos valores son evaluados por los pesos de las conexiones. Los
pesos de las conexiones se ajustan durante la fase de aprendizaje para producir
una Red de Neuronas Artificial final.
As pues, una Red de Neuronas Artificial podra definirse como un grafo
cuyos nodos estn constituidos por unidades de proceso idnticas, y que propa-
gan informacin a travs de los arcos. En este grafo se distinguen tres tipos de
nodos: los de entrada, los de salida y los intermedios.
El funcionamiento de la red es simple. Para cada vector de entrada, ste
es introducido en la red copiando cada valor de dicho vector en la clula de
entrada correspondiente. Cada clula de la red, una vez recibida la totalidad de
sus entradas, las procesa y genera una salida que es propagada a travs de las
conexiones entre clulas, llegando como entrada a la clula destino. Una vez que
la entrada ha sido completamente propagada por toda la red, se producir un
vector de salida, cuyos componentes son cada uno de los valores de salida de las
clulas de salida.
As pues, el esquema de funcionamiento de una Red de Neuronas por capas/
como la de la Figura 1.3 puede describirse mediante la ecuacin:
(1.1)
donde W 1 y W 2 son los pesos de la primera y segunda capa, respectivamente;
F es la funcin de activacin idntica en todas las neuronas; X es el vector de
entrada a la red, y S es el vector de salida que la red produce. W1 y W2 son
matrices de conexiones entre las capas de la red, y por lo tanto se trata de
multiplicaciones de matrices. La funcin de activacin F desempea un papel
importante en un esquema de Red de Neuronas. Supngase que se utiliza una
funcin lineal del tipo comentado anteriormente: F(x) = k x. En este caso, si
sustituimos dicha funcin en la Ecuacin 1.1 quedar como sigue:
Lo cual es equivalente a una red con una sola capa de conexiones Wt donde:
Wt = k 2 Wt W2
Se va a ilustrar esto con un ejemplo. Sea la red de la Figura 1.5, donde:
3 2 3
4 1 2
5 2 1
6 1 1
Si la funcin de activacin es F(x) = 2x y se introduce el vector x
{ -3, 1, 4, -2}, segn la Ecuacin 1.1la salida ser:
3 2 3
1 ;;;; x W1 ;;;;; (-3 1 4 - 2)
4 1 2
5 2 1
::- (3 1 - 5)
6 1 1
Modelo computacional 9
Wl
-3
4 24
-2
f(x)=2x
' '
- Figura 1.5: Red de dos capas
1.2.3. Aprendizaje
La parte ms importante de una Red de Neuronas Artificial es el aprendizaje.
El esquema de aprendizaje de una red es lo que determina el tipo de problemas
que ser capaz de resolver. Las Redes de Neuronas Artificiales son sistemas
de aprendizaje basados en ejemplos. La capacidad de una red para resolver un
problema estar ligada de forma fundamental al tipo de ejemplos de que dispone
en el proceso de aprendizaje. Desde el punto de vista de los ejemplos, el conjunto
de aprendizaje debe poseer las siguientes caractersticas:
-3
-2
f(x)=2x
proceso y todos los ejemplos del conjunto vuelven a ser introducidos. La modi-
ficacin de los pesos puede hacerse despus de la introduccin de cada ejemplo
del conjunto, o una vez introducidos todos ellos.
El criterio de convergencia depende del tipo de red utilizado o del tipo de
problema a resolver. La finalizacin del periodo de aprendizaje se puede deter-
minar:
Mediante un nmero fijo de ciclos. Se decide a priori cunta.s veces ser in-
troducido todo el conjunto, y una vez superado dicho nmero se detiene
el proceso y se da por aceptada la red resultante.
Cuando el error descienda por debajo de una cantidad preestablecida. En
este caso habr que definir en primer lugar una funcin de error, bien a
nivel de patrn individual, bien a nivel de la totalidad del conjunto de
ent'ren~miento. Se decide a priori un valor aceptable para dicho error, y
slo se para el proceso de aprendizaje cuando la red produzca un valor de
error por debajo del prefijado. Para este criterio puede suceder que la red
jams consiga bajar por debajo del nivel prefijado, en cuyo caso se debe
disponer de un criterio adicional de parada, por ejemplo un nmero de
ciclos, que de utilizarse por la red significar que sta no ha convergido.
En este caso la red se dice que no ha sido capaz de obtener una solucin.
Ser necesario probar cambiando alguno de los parmetros.
Cuando la modificacin de los pesos sea irrelevante. En algunos modelos
se defin~ un esquema de aprendizaje que hace que las conexiones vayan
modificndose cada vez con menor intensidad. Si el proceso de aprendizaje
contina, llegar un momento en que ya no se producirn variaciones de
los valores de los pesos de ninguna conexin; en ese momento se dice que
la red ha convergido y se detiene el proceso de aprendizaje.
12 I NTRODUCCIN A LAS R EDES DE NEURONAS
~
Ajuste
~
.... .... ... ...... . ... "1 -
- ..
-
"' -- -
~ ~
...
~
..... a ... -
"'....
- ..
'
= RED ~
o - - "'
;;: ~ Cl)
"'...e NEURONAL
.e
-
- -
- ...=
...."' - -
~
~
~
.....
:. .... ....... .... ... ....
- -... -- -
~
Cl) ...
~
~
~
Ajuste
~
---~
~
... . ' ... ~ 1
~ "'.....=
~
RED ....
~
.e
~ ' o
"'= NEURONAL ~
'"O
:
~
~ . .... ...... . .. .... ....
00
Para el caso del aprendizaje por refuerzo, el aprendizaje tiene una serie de
caractersticas especficas que es importante resaltar. En este caso el conjunto de
aprendizaje est compuesto por ejemplos que contienen los datos y sus salidas
deseadas.' El proceso consiste en modificar los pesos de la red hasta que para
todos los ejemplos del conjunto de entrenamiento, la salida producida sea lo
ms parecida posible a la deseada. Sin embargo, esto no siempre indica que
la red ser capaz de solucionar el problema, pues lo importante no es que el
sistema d buenas salidas sobre el conjunto de aprendizaje, que ya son conocidas,
sino sobre los datos que puedan presentarse en el futuro, y cuyas salidas se
desconocen.
Supngase que se necesita entrenar una red neuronal para determinar la
direccin del frente principal de fuego de un incendio. Se dispone de informacin
pasada sobre incendios. Dicha informacin constar de un registro por incendio
y hora, del que se sabe la humedad del ambiente, la direccin del viento, la
temperatura, el tipo de terreno en cada unidad de superficie, la intensidad del
viento, el tipo de vegetacin, etc. y adems, en qu direccin se desplaz el foco
principal del incendio dos horas despus. Si se entrena una red con estos datos,
lo importante no es que ajuste adecuadamente los datos de entrenamiento, sino
que sea capaz de predecir dnde se situar el foco de un incendio futuro dos horas
despus del momento de realizar la prediccin, y esto es algo que se desconoce,
por lo cual no puede ser utilizado en el proceso de aprendizaje. Lo que ocurre en
UNIVJ:RSIDAD DE
14 INTRODUCCIN A LAS REDES DE NEURONAS
muchos casos es que un ajuste muy bueno del conjunto de aprendizaje lleva a
malas predicciones. En estos casos se dice que la red ha padecido un sobreajuste
de los datos de entrenamiento, y que su capacidad de generalizacin se ha visto
reducida. Es decir, que el error producido por los datos de entrenamiento no es
una buena medida de la capacidad de prediccin, o de generalizacin, de la red.
Para poder determinar si la red produce salidas adecuadas, se divide el con-
junto de entrenamiento en dos conjuntos que se llamarn de entrenamiento y
de validacin. El conjunto de entrenamiento se utiliza para aprender los valores
de los pesos, como se ha descrito anteriormente. La diferencia es que en vez de
medirse el error en el conjunto de entrenamiento, se utiliza el de validacin. De
esta manera, para medir la eficacia de la red para resolver el problema, se utili-
zarn datos que no han sido utilizados para su aprendizaje. Si el ,euor sobre el
conjunto de validacin es pequeo, entonces quedar garantizada la capacidad
de generalizacin de la red.
Para que este proceso sea eficaz los conjuntos de entrenamiento y validacin
deben tener las siguientes caractersticas:
El conjunto de validacin debe ser independiente del de apren<izaje. No
puede haber ningn tipo de sesgo en el proceso de seleccin de los datos
de validacin.
t
El conjunto de validacin debe cumplir las propiedades de un conjunto de
entrenamiento, descritas anteriormente.
Adems, el conjunto de validacin puede utilizarse durante el aprendizaje
para guiarlo en conjuncin con el de entrenamiento. En este caso el proceso
sera el siguiente:
l. Asignar a los pesos valores aleatorios.
2. Introducir todos los ejemplo del co11-junto de entren.amientG, modificando
los pesos de acuerdo con el esquema de aprendizaje supervisado elegido.
3. Introducir todos los ejemplos del conjunto de validacin. Obtener el error
producido al predecir dichos ejemplos.
4. Si el error calculado en el paso anterior est por encima de cierto valor
umbral, ir a (2).
5. Acabar el proceso de aprendizaje y dar como salida la red obtenida.
UNI'Vt:RSJDAD DE CALDAs
16 INTRODUCCIN A LAS REDES DE NEURONAS
neuronas, que jams son recuperadas. Sin embargo, esta prdida no merma en
absoluto ninguna de las capacidades de nuestros sistemas neuronales. En los
sistemas artificiales, en general, esta caracterstica se conserva, y si la red es
suficientemente grande, la eliminacin de alguna de sus unidades no afectar a
su funcionamiento.
Las redes pueden ser entrenadas para resolver problemas de forma genrica,
y no slo para memorizar los patrones de entrenamiento, siempre que estos
patrones representen adecuadamente al problema, como se ha comentado en el
apartado de aprendizaje. Esta caracterstica e~ importante y hay que tenerla en
cuenta, ya que existen algunos problemas que no pueden ser descritos de forma
exhaustiva mediante ejemplos, y no es posible programar procedimientos para
su resolucin.
. oDE CALDAs
r ~ 1D 1 t ,.,......
20 INTRODUCCIN A LAS REDES DE NEURONAS
UNI'IERSIDAD DE
22 INTRODUCCIN A J,;AS REDES DE NEURONAS
PRIMEROS MODELOS
COMPUTACIONALES
X S
Si L Xix Wi> e
en caso contrario
23
24 PRIMEROS MODELOS COMPUTACIONALES
binarios, X = {X, x2, ... , Xn} procedente de las salidas de otras clulas, o de la
entrada a la red; y produce una nica salida tambin binaria, s. Cada clula
se caracteriza por n + 1 valores reales, de los cuales n son los pesos de las
conexiones (wi) correspondientes a las entradas Xi, y el otro es un valor de
umbral O, que puede ser distinto para cada clula. La clula opera en lapsos
discretos. La forma de procesar la entrada es la siguiente: la clula se activar y,
por lo tanto, producir un valor 1, si la suma de las entradas multiplicadas por
los pesos supera al umbral O.
S( t 1)
1 Ei WiXi(t) > o
+ = O en caso contrario
{
De este modo, una salida puede actuar sobre varias entradas, pero una en-
trada viene a lo sumo de una salida. La red tiene contacto con el exterior a
travs de lneas de entrada y de salida. Las lneas de entrada de la red formarn
parte de la entrada de alguna o de todas las neuronas de la red. Asimismo, las
l(neas de salida procedern de algunas o de todas las neuronas de la red.
sta formalizacin matemtica de la red neuronal no es y no pretende ser una
modelizacin del cerebro, pero s un punto de partida para iniciar los estudios
sobre el mismo.
Una red neuronal de clulas de McCulloch-Pitts tiene la capacidad de compu-
tacin universal. Es decir, cualquier estructura que pueda ser programada en un
computador, puede ser modelizada mediante una red de clulas de McCulloch-
Pitts. Esto se puede intuir mediante las modelizacin de funciones lgicas. Los
computadores estn constituidos de elementos de clculo simples. Si cada uno
de estos elementos puede ser modelizado mediante una estructura de clulas de
McCulloch-Pitts, los cmputos realizados por ste podran ser sustituidos por
su correspondiente red de clulas.
A continuacin se van a representar las funciones lgicas AND, OR y NOT,
mediante clulas de McCulloch-Pitts.
- 1
X S
Figura 2.2: Funcin lgica. NOT mediante una clula de McCulloch-P itts
X S
UNIVERSIDAD DE CALDAs
26 PRIMEROS MODELOS COMPUTACIONALES
X S
X X2 S
o o o
o 1 1
1 o 1
1 1 1
X X2 :Exiwi S
o o o o
o 1 1 1
1 o 1 1
1 1 2 1
En este caso el sumatorio supera al umbral Oen todos los casos menos en el
primero, que ser en el nico en el que la salida da cero.
Aparentemente, el diseo de clulas de ~IcCulloch-Pitts es sencillo; sin em-
bargo, cuando se trata de funciones ms complejas, o de sistemas de computacin
sofisticados, el nmero de clulas necesarias ser muy elevado y los parmetros
involucrados (conexiones entre clulas, umbrales, pesos) tan numerosos que la
realizacin de clulas de McCulloch-Pitts para estos problemas es imposible en
la prctica. Sera necesario un mecanismo de asignacin de los parmetros de
forma automtica. Es lo que se conoce como mecanismo de aprendizaje.
2.2. Perceptron
Como se ha sealado, los primeros estudios sobre Redes de Neuronas Artifi-
ciales datan de los aos 50, sobre todo con la aparicin del modelo PERC.EPTRON.
Este modelo se concibi como un sistema capaz de realizar tareas de clasificacin
de forma automtica. La idea era disponer de un sistema que, a partir de un con-
junto de ejemplos de clases diferentes, fuera capaz de determinar las ecuaciones
de las superficies que hacan de frontera de dichas clases. La informacin sobre
la que se basaba el sistema estaba constituida por los ejemplos existentes ele las
diferentes clases. A esto lo llamaremos a partir de ahora patrones o ejemplos ele
entrenamiento, indistintamente. Son dichos patrones de entrenamiento Jos que
aportaban la informacin necesaria para que el sistema construyera las super-
ficies discriminantes, y adems actuara como un discriminador para ejemplos
Perceptron 27
xl e w2
0---..~ y
x2 e wl
y = :F(y', B)
:F(s B) ={ 1 si s > B
' -1 en caso contrario
28 PRIMEROS MODELOS COMPUTACIONALES
(2.1)
:F 8
{ 1 sis>O (2.2)
( ) = -1 en caso contrario
Esta ecuacin equivale a introducir artificialmente en la salida un nuevo
peso 8 que no est conectado a ninguna entrada, sino a una ficticia con un valor
constante de -1.
La funcin de salida :Fes binaria y de gran utilidad en este modelo ya que al
tratarse de un discriminante de clases, una salida binaria puede ser fcilmente
traducible a una clasificacin en dos categoras de la siguiente forma:
x2
xl
wlxl+w2x2 + 9 =0
Obtener Hay que determinar la ecuacin del hiperplano que deja a un lado los
ejemplos de un tipo y a otro los del otro. La ecuacin del hiperplano se
deduce a partir de los ejemplos.
va E A : W a + ... + Wn an + () > o
y
Vb E B : W b + + Wn bn + 8 < O
va E A: y( a) = 1
y
Vb E B : y(b) = -1
El proceso de aprendizaje consiste en lo siguiente. Se introduce un patrn
de los del conjunto de aprendizaje, perteneciente, por ejemplo, a la clase A. Se
30 PRIMEROS MODELOS COMPUTACIONALES
obtiene la salida que genera la red para dicho patrn. Si la salida producida es 1,
la respuesta de la red para dicho patrn es correcta, y no se realizar ninguna
accin; se proceder simplemente a introducir un nuevo patrn. Si por el con-
trario la salida producida es -1, entonces la respuesta de la red es incorrecta;
la red categoriza el patrn como de la clase B. Esto es un error de clasificacin,
y es en este caso cuando se produce el aprendizaje. El aprendizaje consiste en
modificar fos valores de las conexiones. En este caso, dado que la salida produ-
cida es inferior a la que se debera haber obtenido, los pesos son incrementados
para que en la prxima presentacin del mismo patrn pueda superar el umbral
y producir la salida deseada, l. Si el patrn que se introduce es de la clase B, y
tambin se produce un error de clasificacin, el proceso se invierte; los pesos se
decrementan por la misma razn.
Si se llama x a cada uno de los patrones de entrenamiento y d(x) a su
clase asociada, tomando valores en (1, -1), el proceso de aprendizaje se puede
describir de la siguiente forma:
(2.3)
X Xz AND ,
-1 -1 - 1 (A)
+1 -1 - 1 (A) ,
-1 +1 - 1 (A)
+1 +1 ' +l (B) ,
En este caso hay .ctratro ejemplos; tres de ellos pertenecen a la clase A (salida
-1) y el restante a la clase B (salida 1). Grficamente se representa mediante
la Figura 2.7.
X S
xl e +1
- ~
- t.. y
x2. +1
0.5
Con esta inicializacin, la recta discriminante definida por la red es u;1 + !C'2 +
0,5 = O, cuya representacin grfica es la que aparece en la Figura 2.9. En este
caso se ve cmo la recta clasifica bien un patrn de la clase A, el de la parte
inferior izquierda, y el patrn de la clase B. Luego habr que proceder a realizar
aprendizaje.
A continuacin se introducen los patrones de entrenamiento y se efecta el
aprendizaje para aquellos que produzcan una salida errnea.
UNivt:ASIDAD DE ~
1
818
32 PRIMEROS MODELOS COMPUTACIONALES
(+1 ,+1)
'1
(+1,-1)
x 1+x2-H>.S=O
Aprendizaje:
Antes Incremento Despus
Wt =1 d(x) x1 - 1 . + 1 = -1 Wt =0
W2 = 1 =
d(x) x2 - 1 -1 = 1 W2 =2
B = 0,5 =
d(x) -1 Wt = -0,5
Aprendizaje:
Antes Incremento Despus
WJ = 0 d(x)xl=-1-1=1 W =1
wz = 2 =
d(x) xz -1 1 = -1 wz = 1
(} = -0,5 d(x) -1 wo = -1,5
UNIVtRSIDAD DE CALDAS
34 PRIMEROS MODELOS COMPUTACIONALES
(-1,+1) (+1 ,+1 )
Al
(-1,- 1) (+1.- 1)
x 1+x2-l .5=0
2.3. Adaline
El PERCEPTRON es un sistema de aprendizaje basado en ejemplos capaz
de realizar tareas de clasificacin. Sin embargo, existen un gran nmero de
problemas abordables desde la perspectiva del aprendizaje basado en ejemplos
que no se reducen a tareas de clasificacin. La caracterstica de clasificador
del PERCEPTRON viene dada por la naturaleza de sus salidas. En la capa de
salida las clulas codifican una funcin de salida en escaln, funcin 2.2, que
transforma la suma ponderada de las entradas que es un valor real, en una
salida binaria. Al ser binarias, slo pueden codificar un conjunto discreto de
estados. Si las salidas fueran nmeros reales, podran codificar cualquier tipo
de salida y se convertiran en sistemas de resolucin de problemas generales. En
este caso, podran resolver problemas a partir de ejemplos en los que es necesario
aproximar una funcin cualquiera (F(x)), definida por un conjunto de datos de
entrada.
Los datos de entrenamiento en este caso son conjuntos de valores enteros,
compuestos por un vector de entrada y su salida asociada:
P = {(xi,Yt), .. ,(x~,ym)}
F(xi) = Yi, Vp E P
En otros trminos, habr que buscar la funcin .F(x) tal que aplicada a cada
una de las entradas Xi del conjunto de aprendizaje P produzca la salida Yi
correspondiente en dicho conjunto de aprenclizaje.
Sin embargo, la naturaleza de la regla de aprendizaje del PERCEPTRON no
permite producir salidas reales. Esta regla es fundamentalmente una regla d
aprendizaje por refuerzo en la que se potencian las salidas correctas y no se
tienen en cuenta las incorrectas. No existe ninguna graduacin en la regla que
indique en qu medida resulta errnea la salida producida, y refuerce propor-
cionalmente a dicha meclida de error.
error cuadrtico medio, Ecuacin 2.4, pero otros errores pueden ser utilizados
en el modelo.
(2.4)
Al ser sta una medida de error global, la regla intentar minimizar este
valor para todos los elementos del conjunto de patrones de aprendizaje. La
manera de minimizar este error es recurrir a un proceso iterativo en el que se
van presentando los patrones uno a uno, y modificando los parmetros de la
red, pesos de las conexiones, mediante la regla del descenso del gradiente.
La idea es realizar un cambio en cada peso proporcional a la derivada del
error, medida en el patrn actual, respecto del peso:
{)EP
. w = - " 1 -
P J &wJ
(2.5)
Si se compara la expresin de la regla Delta (Ecuacin 2.5), con la regla
de aprendizaje del P ERCEPTRON (Ecuacin 2.3), se aprecia que la diferencia es
precisamente la introduccin de la diferencia entre la salida deseada y la obtenida
en la regla de aprendizaje. Si la salida del ADALINE fuese binaria, el conjunto de
patrones estara constituido por P = { (xi, O o 1), , (x~, O o 1)}, es decir, dP E
O, 1, Vp. Si se incluye a la salida del ADALINE el acoplador bipolar comentado con
anterioridad para "binarizar" la salida, la regla Delta (Ecuacin 2.5) quedara
as:
si dP > yP
si dP < y'P (2.6)
UNMRSIDAO DE CALDA:,w; = { en caso contrario
BIDUOTECA
Adaline 37
4. Para todos los pesos, multiplicar dicha diferencia por la entrada corres-
pondiente, y ponderarla por una tasa de aprendizaje 'Y
(2.7)
UNI'ItRSIDAD DE CALDAS
BlBLIOTE
38 PRIMEROS MODELOS COMPUTACIONALES
o o 1 1
o 1 o 2
o 1 1 3
1 o o 4
1 o 1 5
1 1 o 6
1 1 1 7
wu W21 ws1
0,84 0,39 0,78
X o o 1 d=1
w]_ 0,84 0,394 0,783
~ ~
wu W21 W31
Antes 0,840 0,394 0,783
b.wj = a(d- y)x1 0,30,2170 = o o'30,2170 -- o 0,30,2171 = 0,065
Despus 0,840 0,394 0,848
Este proceso habr de repetirse para todos los elementos del conjunto de
patrones de entrada. A continuacin se muestra el proceso para los patrones
restantes:
AdaJine ., 39
Patrn nmero 2
-
X
....
o 1 o d=2
W 0,84 0,394 0,848
XX tii' 0,0 0,394 0,0 y= 0,394
l
1 Aprendizaje para patrn nmero 2
L
wu W21 W31
Antes 0,840 0,394 0,848
!:l.wj == a(d- y)xJ 0,31,610 =o 0,31,611 = 0,482 0,31,610 = o
Despus 0,840 0,876 0,848
Patrn nmero 7
....
X 1 1 1 d=7
.... 3,090 1,966 1,825
- -
'Wl
X X W1 3,090 1,966 1,825 y == 6,881
Se puede apreciar cmo despus de una nica iteracin la red produce una
salida muy adecuada para este ltimo patrn. Sin embargo, ser necesario in-
troducir todos los patrones de nuevo y repetir el proceso un nmero indefinido
de veces si se desea reducir el error. A continuacin se reflejarn los valores de
los pesos y salidas producidas para 10 iteraciones de la red, al final de las cuales
la salida producida es prcticamente exacta, y se puede afirmar que la red ha
sido capaz de aprender el problema de descodificacin:
En este ejemplo es fcil determinar los valores de los pesos, dadas unas en-
tradas binarias codificadas como [0,1] {las entradas tambin podran codificarse
en binario mediante [- 1,1]), que realizan la operacin de descodificacin. Estos
40 PRIMEROS MODELOS COMPUTACIONALES
-1 -1 1
-1 1 -1
1 -1 -1
1 1 1
Wu W21
0,84 0,39
Adaline 41
X -1 -1 d=1
~
W1 0,84 0,39
xxwJ. -0,84 - 0 ,39 y = - 1,23
i Aprendizaje para patrn nmero 1
wn W21
Antes 0,84 0,39
!::l.wj =O, 3(d- y)xj 0,3+2,23-1 0,3+2,23- 1
Despus 0,17 -o,28
Se han decrementado los dos pesos para tratar de aproximar las entradas.
Lo mismo se cumplira para los dems patrones:
Patrn nmero 2
~
X -1 1 d = -1
~
W 0,17 -0,28
xxwJ. - 017 -0,28 y= -0,45
'
Aprendizaje para patrn nmero 2
wu W21
Antes 0,17 - 0,28
!::l.wj = O, 3(d- y)x3 o'3- 0 '55- 1 0,3-0,551
Despus 0,34 -0,44
P atrn nmero 3
....
X 1 -1 d = -1
wi 0,34 - 044
'
xxw! 0,34 0,44 y= 0,78
Aprendizaje para patrn nmero 3
wn W21
Antes 0,34 - 044
t::..wi = O, 3(d- y)x3 o'3-1 '781 '
0,3- 1,78-1
Despus -o 20 0,09
'
Patrn nmero 4
x 1 1 d=-1
wi - 0,20 0,09
xxwJ. - 0 20 0,09 y= - 0,11
'
Aprendizaje para patrn nmero 4
wn W21
Antes - 0,20 0,09
t1wj -.O, 3(d - y)xj 0,3- 1,111 o3- 1111
Despus
' '
0,13 0,42
UNIVtRSIDAD DE CALDAS
BIBL
42 PRIMEROS MODELOS COMPUTACIONALES
1-1,+1. ..... 11
<1. 1) ltl ,<t l)
,,
"
(1,-1) (1.- 1
Cl,-1)
@
@
OR AND
a
.'-(:t:'.-lh ..
"
. .
( f-l , f-1 ) Cl.ll (1-l,i-l )
..
''
'
.
.. ''
''
.' '
' .. .
..
... .. ,, "
.
..
(-t.-U (-+1.-U\ <-1.- 1) (+1.-1.
'
. ''
' .' . :'
''
'' -- _....
@
XOR
xl e
-2
/~---o-o.s
2 e/ L
Wll
Xl
Wl
y
W2Y __.. _______-:--
X2 ~- W41
W22
.. '
<
Captulo 3.
PERCEPTRON MULTICAPA
3.1. Introduccin
En este captulo se estudiar una de las clases de redes de neuronas, conocida
como PERCEPTRON multicapa o red multicapa con conexiones hacia adelante. El
PERCEPTRON multi.tcapa es una generalizacin del PERCEP'fRON simple presen-
tado en el Captulo 2, y surgi como consecuencia de las limitaciones de dicha
arquitectura en lo referente al problema de la separabilidad no lineal. Como se
ha discutido en el Captulo 2, Minsky y Papert [Minsky and Papert, 1969] mos-
traron en 1969 que la combinacin de varios PERCEPTRONes simples -inclusin
de neuronas ocultas- poda resultar una solucin adecuada para tratar ciertos
problemas no lineales. Sin embargo, los autores no presentaron una solucin al
problema de cmo adaptar los pesos de la capa de entrada a la capa oculta,
pues la regla de aprendlzaje del PERCEPTRON simple no puede aplicarse en este
escenario. No obstante, la idea de combinar varios PERCEPTRONes sirvi de base
para estudios posteriores realizados por Rumelhart, Hinton y Willians en 1986
[Rumelhart et al., 1986b). Estos autores presentaron una manera de retropropa-
gar los errores medidos en la salida de la red hacia las neuronas ocultas, dando
lugar a la llamada regla delta generalizada, que no es ms que una generalizacin
de la regla delta, descrita en el captulo anterior, para funciones de activacin
no lineales y redes multicapa.
Diferentes autores ([Cybenko, 1989), [Hornik et al., 1989)) han demostrado
independientemente que el PERCEPTRON multicapa es un aproximador univer-
sal, en el sentido de que cualquier funcin continua sobre un compacto de R n
puede aproximarse con un PERCEPTRON multicapa, con al menos una capa ocul-
ta de neuronas. Este resultado sita al PERCEPTRON multicapa como una nueva
clase de funciones -como pueden ser tambin los polinomios, las funciones trigo-
nomtricas, los splines, etc,- para aproximar o inte:rm,~Jpr relaciones no lineales
f!.ta't(;J:, \;'f\
"''~Au ~,.,... , ALD.As ...
45 '"' ,.... .. ,
w;J't:l ft .-~,..'
.,_ (, ' .,
46 PERCEPTRON MULTICAPA
nc-1
de los casos se parte de una arquitectura totalmente conectada, es decir, todas las
neuronas de una capa estn conectadas a todas las neuronas de la siguiente capa.
No es posible demostrar que si se utilizan arquitecturas en las que se eliminan
conexiones o se aaden conexiones de una capa a capas no inmediatamente
posteriores, se puedan obtener mejores resultados. Sin embargo, en ocasiones,
y debido fundamentalmente a la naturaleza del problema, se pueden encontrar
redes multicapa con estas caractersticas en sus conexiones.
donde ar 1
son las activaciones de las neuronas de la capa e- l.
Yi = aie = f ( """"
LJ e-l a;e -
wii 1 +u,:e ) para t = 1,2 , ... ,nc (3.3)
j=l
F\Jncin sigmoidal:
1
/J(x) = 1 + e-:c (3.4)
Ambas son funciones crecientes con dos niveles de saturacin: el mximo, que
proporciona salida 1, y el mnimo, salida O para la funcin sigmoidal y salida -1
para la tangente hiperblica, como se observa en la Figura 3.2.
Tangente
Sigmoidal hiperblica
0.8 0.6
0.6 0.2
r, {x) f {x)
2
0.4 -Q.2
0.2 -o.6
o -1
Y= F(X,W) (3.6)
>y
Considrense los patrones que definen la funcin lgica XOR (cuadro 3.1).
Si los pesos y umbrales de la red que se muestra en la Figura 3.3 toman los
valores W = 5,191129, Wz = 2,758669, W21 = 5,473012, w22 = 2,769596, v 1 =
5,839709, v2 = -6,186834, ui = - 1,90289, u~ = -4,127002 y u3 = -2,570539,
sustituyendo dichos parmetros en las expresiones anteriores y utilizando la
funcin de activacin sigmoidal (Ecuacin 3.4), la salida de la red para los
patrones de la funcin XOR toma los valores especificados en el cuadro 3.2.
MinwE (3.7)
Algoritmo de RetroPropagaci6n 53
1 N
E= N L: e(n) (3.8)
n= l
siendo Y(n) = (Yt(n), ... ,yn0 (n)) y S(n) = (sl(n), ... ,snc (n)) los vectores de
salidas de la red y salidas deseadas para el patrn n, respectivamente.
De este modo, si W* es un mnimo de la funcin error E, en dicho punto el
error es prximo a cero, lo cual implica que la salida de la red es prxima a la
salida deseada, alcanzando as la meta de la regla de aprendizaje.
Por tanto, el aprendizaje del PERCEPTRON multicapa es equivalente a encon-
trar un mnimo de la funcin error. La presencia de funciones de activacin no
lineales hace que la respuesta de la red sea no lineal respecto a los parmetros
ajustables, por lo que el problema de minimizacin es un problema no lineal, y,
como consecuencia, tienen que utilizarse tcnicas de optimizacin no lineales pa-
ra su resolucin. Dichas tcnicas estn, generalmente, basadas en una adaptacin
de los parmetros siguiendo una cierta direccin de bsqueda. En el contexto de
redes de neuronas, y en particular para el PERCEPTRON multicapa, la direccin
de bsqueda ms comnmente usada es la direccin negativa del gradiente de
la funcin E -mtodo de descenso del gradiente-, pues conforme al clculo de
varias variables, sta es la direccin en la que la funcin decxece. No obstante,
se han desarrollado tambin mtodos de bsqueda aleatoria para localizar el
mnimo de dicha funcin [Solis and Wets, 1981] y mtodos basados en tcnicas
evolutivas [Montana and Davis, 1989], en los que la bsqueda est guiada por
una funcin de adecuacin.
Aunque, estrictamente hablando, el aprendizaje de la red debe realizarse
para minimizar el error total (Ecuacin 3.8), el procedimiento ms utilizado
est basado en mtodos del gradiente estocstico, los cuales consisten en una
sucesiva minimizacin de los errores para cada patrn, e(n), en lugar de mini-
mizar el error total E. Por tanto, aplicando el mtodo de descenso del gradiente
estocstico, cada parmetro w de la red se modifica para cada patrn de entrada
n de acuerdo con la siguiente ley de aprendizaje:
8e(n)
w(n) = w(n- 1)- a ow (3.10)
donde e(n) es el error para el patrn n dado por la Ecuacin (3.9) y a es la razn
o tasa de aprendizaje, parmetro que influye en la magnitud del desplazamiento
en la superficie del error, como se analizar ms adelante.
54 PERCEPTRON MULTICAPA
w<?.-
J~
L(n) = w<?.-
Jt
1 (n - 1) - a oe~n)
!.'1 - 1
(3.11)
vwji
8e(n) _ ( ( ) ( )) 8yi(n)
C- 1 - - Si n - Yi n
8wJl.. aw3e-
.. L (3.12)
nc - 1
oyi n
[}
(
C- 1
)
= !'( '"""
L..,
w~-1aC-1 + u9)aC-l(n)
J 3 J
{3.13)
wji j=1
oe(n) = c( ) C-1 ( n )
, n a (3.15)
awJ0.. _
1 3
wki
c - 2(n ) = wki
c - 2(n - 1) +a 8e(n) (3.18)
0 _2
8wki
En este caso, y a diferencia del anterior -pesos hacia la capa de salida-, el
peso wf;- 2 influye en todas las salidas de la red, por lo que la derivada del
error e(n) (Ecuacin 3.9) respecto de dicho peso viene dada por la suma de las
derivadas para cada una de las salidas de la red, es decir:
8Yi (n ) = !'(
nc- 1 8 C-1
"'w<?.-1aq-1 +u9 )w<?.-1 ai (3.20)
8~C-2 L...,; 1 1 1 8 C-2
~1 ~
Sustituyendo este valor en la Ecuacin (3.19) y de acuerdo con la definicin
de en el punto anterior (Ecuacin 3.14), se obtiene que:
nc
8 e (n ) = "'9(n)w<?.- 8 C-1
1 ai (3.21)
C- 2 L...,;
8 wki 1 8 C-2
i= l wki
Para obtener la ley de aprendizaje para el peso wf;- 2 , slo falta derivar la
activacin de la neurona j de la capa oculta e - 1, 1
af-
, respecto a dicho peso.
De nuevo, aplicando la regla de la cadena a la Ecuacin (3.2), dicha derivada
es:
8 C-1 n c- 2
a;
C-2
= !' ( "' wC.-2aC-2 + uq- 1) aC-2(n)
L...,; k3 k 1 k
(3.22)
8wki k= l
UNJVcRSIOAn nc ~-. _ .
58 PERCEPTRON MULTICAPA
Por tanto,
tlc+l
aa~(n)
ay(n)
a
Wt2
= !' (V a+
2
V2ll2 + U V2 a
2 3)
Wt2
UNiveRSIDADDE
62 PERCEPTRON MULTICAPA
_ _ ~ n-l-t 8e(t)
- - -a L....J 1J 8w
t=O
Por tanto, la ley dada por la Ecuacin (3.35) puede escribirse de la forma:
8e(t)
w(n) = w(n- 1)- a 2:
n
1Jn- t _ (3.36)
t=O 8w
Proceso de aprendizaje del perceptron multicapa 63
Paso 3 Se evala. el error cuadrtico cometido por la. red para. el patrn n utili-
zando la. Ecuacin {3.9).
Paso 4 Se aplica. la. regla delta generalizada para modificar los pesos y umbrales
de la. red. Para ello se siguen los siguiente pasos:
4.1 Se calculan los valores para todas las neuronas de la capa de salida
utilizando la Ecuacin {3.14).
4.2 Se calculan los valores 8 para el resto de las neuronas de la red uti-
lizando la Ecuacin {3.27) empezando desde la ltima capa oculta y
retropropagando dichos valores hacia la capa de entrada.
4.3 Se modifican pesos y umbrales de la. red siguiendo las Ecuaciones
{3.16) y (3.17) para los pesos y umbrales de la capa de salida y {3.26)
y (3.28) para el resto de los parmetros de la red.
(a) (b)
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
o ~-----.------~------~ o + --,..----.----.-----,-----._J
o 3000 6000 9000 o 3000 6000 9000 12000 15000
Ciclos de aprendizaje Ciclos de aprendizaje
una red que haya aprendido correctamente los patrones de entrenamiento y que
no responda adecuadamente ante patrones nuevos. Es necesario que durante el
proceso de aprendizaje la red extraiga las caractersticas de las muestras, para
poder as responder correctamente a patrones diferentes. Esto se conoce como la
capacidad de la red para generalizar las caractersticas presentes en el conjunto
de muestras o capacidad de generalizacin de la red.
La Figura 3.5 muestra cmo la generalizacin podra ser llevada a cabo por
una red. Los puntos etiquetados con cruces representan los patrones de entre-
namiento, la lnea punteada la funcin a aproximar y la lnea slida representa
la salida que proporciona el PERCEPTRON multicapa una vez entrenada. En la
Figura 3.5(a), la red ha alcanzado un buen nivel de generalizacin, mientras
que en la Figura 3.5(b) se observa que la red ha memorizado los patrones de
entrenamiento y no ha conseguido una buena generalizacin.
(a) (b)
''
/ Generalizacin
.' Generalizacin
..
..
X
Entrada Entrada
8 0.04-
\.
-
~B
0.03-
0.02 -
.. -
~ 0.0 1 -
.. ' ... .. .
o '
' ' '
o 5000 10000 15000 20000
Ciclos de aprendizaje
(b)
0.06
Error de entrenamiento - -
0.05 Error de validacin
_g
1 0.04
o8 0.03
iB 0.02
.... .. ...
j .... - ...
0.01 - o .... .... ....
o
o 5000 10000 15000 20000
Ciclos de aprendizaje
Mnimos locales
La superficie que define el error E (Ecuacin 3.8) en funcin de los parme-
tros de la red es compleja y llena de valles y colinas. Debido a la utilizacin
del mtodo del gradiente para encontrar un mnimo de esta funcin error,
se corre el riesgo de que el proceso de minimizacin finalice en un mnimo
local [Minsky and Papert, 1988]. Se ha mencionado anteriormente que el
proceso de adaptar los pesos finaliza cuando ~ ~ O, lo cual no garantiza
que el mnimo alcanzado sea un mnimo global, sino simplemente que se
ha alcanzado un mnimo, que podra ser local. Claramente, es indeseable
que el proceso de aprendizaje de la red finalice en un mnimo local, sobre
todo si dicho mnimo est localizado lejos del mnimo global.
Cuando el proceso de aprendizaje cae en un mnimo local, una posible va
para evitar dicho problema es aumentar el nmero de neuronas ocultas en
la red. En ocasiones, se considera que el proceso CM en un ninimo local
debido a que la red posee un escaso poder de representacin interna, de
manera que no es capaz de distinguir patrones diferentes, proporcionando
' ~'
Ejemplo de funcionamiento del perceptron multicapa 69
las mismas salidas para estos patrones. Esto podra resolverse aumentan-
do el nmero de neuronas ocultas, de manera que la red posea un mayor
nmero de parmetros libres y pueda conseguir una mayor representabili-
dad del problema.
Existen otras aproximaciones para evitar el problema de los mnimos lo-
cales, como utilizar razn de aprendizaje decreciente a lo largo del proceso
de aprendizaje, partir de otras inicializaciones de los parmetros de la red
o aadir ruido al mtodo de descenso del gradiente, entre otras.
Parlisis
El fenmeno de la parlisis, tambin conocido como saturacin, en el PER-
CEPTRON mutlicapa se produce cuando la entrada total a una neurona
de la red toma valores muy altos, tanto positivos como negativos. Debido
a que las funciones de activacin poseen dos asntotas horizontales (ver
Figura 3.2), si la entrada a una neurona alcanza un valor alto, sta se
satura, y alcanza un valor de activacin mximo o mnimo.
En las Ecuaciones (3.31) y (3.32) se observa que el ajuste de los parme-
tros de la red es proporcional a y1 (n)(1-y1(n)), siendo y1 (n) la activacin
de la neurona j de salida. Si una neurona de salida est saturada, dicho
valor es prximo a cero, pues y1(n) = O o y1 (n) = l. Por tanto, cuando
ocurre el fenmeno de parlisis en un PERCEPTRON multicapa, los parme-
tros de la red permanecen invariables y, como consecuencia, la suma de
los errores locales permanece constante por un periodo largo de tiempo
[Lee et al., 1991]. Aunque esta situacin pueda confundirse con la presen-
cia de un mnimo local, pues el error es invariable, en este caso es posible
que despus de un cierto tiempo, el error comience de nuevo a decrecer.
El fenmeno de la parlisis en el PERCEPTRON multicapa ocurre, funda-
mentalmente, cuando los parmetros de la red toman valores muy altos.
Por tanto, para evitar este p roblema es conveniente partir de valores ini-
ciales aleatorios prximos a cero.
10
8
6
4
2
><
<;:::;'
o
-2
-4
-6
-8
- JO
- JO -8
1 . (a)
Aproximacin
1 .., (b)
Aproximacin
0.8 -
. .
. . ~.
\
0.8 - .
\
. .....'
1
.~ .
\
0.6 -
:
0.6 - ' ...
......~-
~
><
;;:::'
0.4
..
.. :
~
K
;;:::'
0.4
.. :
'
0.2
.1
0.2 -
\ .1
.. \ ..
l
o
o 0.2 0.4
.
0.6
'
0.8
o
o 0.2
. '
0.4 0.6 0.8
(e) (d)
.. Aproximacin : AproxillUICin
0.8 . : , 0.8
...
' ..
..-.,.
: : '\
.....
\
:
\ ~
' .i '
: '
~
0.6 :/
... 0.6 1
,,1
. :
1<
;;:::' 0.4 'l ;;:::' 0.4 \
\ ~1
. ~ .1
0.2 ": : 0.2 '-;.. '
o
o
0.2
'
0.4
. . 0.6 0.8
o
o 0.2
.
0.4 0.6 0.8
0.03
.......
:.~
...
.'. .... . ...
0.02 ..~
....' '
0.01 .:. :.~ :-.,"7 .. ~"' i.-:,:, :,,:,;.-: ~-~.~ :-.~: ~~:.: ~ .~ ~.; --- :.: . ..:.
0+----.,----,~---.-
, -~~~,~~~~
, ~~~
i
0.03 ' ..
''
0.02 ''
~
' - - . ...
''
0.01
--- --.::._:..:: ...
o --- .... ' .
UNfVtRSIDAD DE CALDAS
l:lh.lt 1 ..._ _ -
74 PERCEPTRON MULTICAPA
4.1. Introduccin
Las redes de neu!'onas de base radial son redes multicapa con conexiones hacia
adelante, al igual que el PERCEPTRON rnulticapa tratado en el captulo anterior.
Las redes de base radial se caracterizan porque estn formadas por una nica
capa oculta y cada neurona de esta capa posee un carcter local, en el sentido
de que cada neurona oculta de la red se activa en una. regin diferente del
espacio de patrones de entrada. Este carcter local viene dado por el uso de
las llamadas funciones de base radial, generalmente la funcin gausiana, corno
funciones de activacin. Las neuronas de la capa de salida de las redes de base
raclial simplemente realizan una combinacin lineal de las activaciones de las
neuronas ocultas.
La mayor contribucin a la teora, diseo y aplicaciones de las redes de
neuronas de base radial se debe a Moody y Darken (Moody and Darken, 1989],
Renals [Renals, 1989] y a Poggio y Girossi [Poggio and Girosi, 1990]. Uno de los
objetivos iniciales de los autores era construir una red de neuronas que requiriese
un menor tiempo de aprendizaje que el que necesita el PERCEPTRON multicapa
y, de este modo, disponer de una red de neuronas que pudiera ser apropiada
para aplicaciones en tiempo real. Esto se consigui incorporando funciones de
activaciones locales en las neuronas ocultas de la red, lo cual permita que slo
unas pocas neuronas ocultas tuvieran que ser procesadas para nuevos patrones
de entrada.
Al igual que el PERCEPTRON multicapa, las redes de neuronas de base radial
son aproximadores universales, en el sentido de que pueden aproximar cualquier
75 UNI'vt=RSJDAO DE CAlDA$
76 REDES DE NEURONAS DE BASE RADIAL
X :;. .. -
o , ....
\
V
-
)o
....
--
1
Y
/\ ' h 1..
x.1 / \ 1 ....
)1 ~ --4-l,.
\ ,, -- - ....
..
\
'1
1 \
~
y,
\ / 1
1 \ /'('
1
~
'~
\ \
1 ~
\ \
Xp :;. /
\ \
.... ....
.... ' \
\
\
' ' \ \
....
' '
\
Yr
las neuronas de salida poseen un umbral, que tambin se suele tratar -al igual
que en el PERCEPTRON multicapa- como una conexin ms de la neurona cuya
entrada es constante e igual a l.
Las redes de neuronas de base radial definen una relacin no lineal entre las
variables de entrada y las variables de salida d e la red, propagando hacia la salida
las seales o muestras recibidas en la entrada. A continuacin, se presentan las
expresiones para calcular las activaciones de las neuronas de las redes de base
radial.
m
Yk(n) = L Wik</Ji(n) + Uk para k= 1, 2, ... , r (4.1)
=l
donde cj> es una funcin de base radial; Ci = (Cil, ... , Cip) son vectores que re-
presentan los centros de la funcin de base radial; d son nmeros reales que
representan la desviacin, anchura o dilatacin de la funcin de base radial; y
1111 es la distancia eucldea del vector de entrada X(n) al centro Ci , definida
como:
1
Por tanto, la activacin de una neurona oculta en las redes de base radial
depende de la distancia del patrn de entrada X (n) al centro Ci de la funcin de
base radial. Estas funciones bases 4> poseen un carcter local, pues son funciones
que alcanzan un nivel cercano al mximo de su recorrido cuando el patrn de
entrada X(n) est prximo al centro de la .lileurona; a medida que el patrn se
aleja del centro, el valor de funcin va tendiendo al valor mnimo de su recorrido
(ver Figura 4.2).
La funcin de base radial 4> puede adoptar diferentes formas y expresiones
(Figura 4.2), entre ellas:
Funcin gausiana:
2
4>(r) =e<-; ) (4.4)
Funcin inversa cuadrtica:
1
4>(r) = 1 + rZ (4.5)
II X(n) - C 11 2
""'p
L_ j-1
(.,(n) -c ) 2
:J 3
Las sa.Jjdas de las redes de neuronas de base radial (Ecuacin 4.1) son, por
tanto, una combinacin lineal de gausianas, cada una de las cuales se activa
para una determinada porcin del espacio definido por los patrones de entrada.
1....-------------,
0.6 0.6
-;::-
....... -;::-
.......
e- 0.4 e- 0.4
0.2 0.2
o
o 2 4 6 8 10 12 o 2 4 6 8 10 12
0.5
Funcin inversa
0.4 multicuadrtica
0.3
~
...
.......
e- 0.2
0.1
o
o 2 4 6 8 10 12
x 1 (n) -~ - - - - - -;::.,
'' /
'' /
/
')'
/
y
/
/ ''
// '~r:\
:;o . ~------~
oculta 3
valor de dichas funciones para los patrones marcados en la grfica. Estos valores
muestran que para el patrn x = 0,23 la neurona con mayor activacin es la
primera, mientras que para el patrn x = 0,59 la mayor activacin la alcanza la
segunda neurona. De este modo, cada patrn est representado por una neurona
oculta de la red.
1
,, -- '
....
'
1 '
'
0.8 '
1 ' \
1
1
1 '
0.6 1
1
'
1
1 '\
1 '\
1
0.4 1
1 .
1
1
1
0.2 1
1
o ~-*~-~-.:~~- -- ~~~&;~><~~--(.)L-~~*~~~~~~~
Figura 4.4: Activacin local de las neuronas ocultas en una red de base radial
UNI\ItRSJDAO DE
82 REDES DE NEURONAS DE BASE RADIAL
dichas variables. Sin embargo, existen aplicaciones en las que pudiera ser nece-
sario llevar a cabo un anlisis de las variables ms relevantes y significativas que
definen el problema.
En lo que respecta al nmero de neuronas ocultas en la red, generalmente,
se determina por prueba y error, variando el nmero de neuronas hasta conse-
guir una red capaz de resolver el problema, corno en el caso del PERCEPTRON
multicapa para determinar el nmero de capas ocultas y el nmero de neuronas
en cada capa. No obstante, y a diferencia del PERCEPTRON multicapa, para las
redes de base radial aadir o eliminar unas pocas neuronas ocultas podra influir
significativamente en los resultados obtenidos por la red. Esto es debido a que
cada neurona oculta representa una determinada regin del espacio de entrada,
pudiendo no estar adecuadamente representado dicho espacio, bien por la pre-
sencia de pocas clases, bien por la presencia de demasiadas neuronas ocultas en
una misma zona, con su posterior consecuencia negativa en la aproximacin de
la red.
En los ltimos aos ha habido un inters creciente por el desarrollo de
mtodos que permitan determinar de modo automtico el nmero de neuro-
nas ocultas en las redes de base radial. Existen varias lneas de investigacin
abiertas en este campo. Una de ellas se basa en el uso de tcnicas evolutivas,
como algoritmos genticos o estrategias evolutivas, que realizan una bsque-
da en el espacio de todas las posibles arquitecturas de redes ([Gruau, 1995],
[Whitehead and Choate, 1996]). Otros trabajos, sin embargo, se centran en el
desarrollo de algoritmos incrementales, es decir, algoritmos que partiendo de
una nica neurona oculta van incorporando nuevas neuronas a medida que se
reciben patrones de entrada que no estn representados con las neuronas ocultas
existentes ([Platt, 1991]). La mayor parte de estos mtodos tratan no slo de
encontrar el nmero ptimo de neuronas, sino tambin los parmetros asociados
a dichas neuronas, es decir, centros y amplitudes.
de entrada y salida que definen el problema. Por tanto, uno de los mecanismos
ms usados para el aprendizaje de las redes de base radial s el llamado mtodo
hbrido, que combina dos fases: una fase no supervisada para la determinacin
de los centros y otra supervisada para la determinacin de los pesos y umbrales.
A pesar de que el mtodo de aprendizaje hbrido es el ms utilizado para
-realizar el aprendizaje de una red de base radial, pues conserva las propieda-
des locales de la red, existe otro mecanismo de aprendizaje, llamado mtodo de
aprendizaje totalmente supervisado. Como su nombre indica, realiza una adap- .
tacin supervisada de todos los parmetros de la red. A continuacin, se va a
describir en detalle cada uno de estos mtodos de aprendizaje, as como sus
propiedades y caractersticas.
Fase no s upervisada
Puesto que las neuronas ocultas de las redes de base radial se caracterizan porque
representan zonas diferentes del espacio de patrones de entrada, los centros y
las desviaciones de las funciones de base radial deben ser determinados con este
objetivo, es decir , con el objetivo de clasificar el espacio de entrada en diferentes
clases. El representante de cada clase ser el centro de la funcin de base radial
y la desviacin vendr dada por la amplitud de cada clase.
K N
J = L L MiniiX(n) - Cill (4.8)
i=l n=l
centros de las clases, los pasos para la aplicacin del algoritmo son los
siguientes:
N
Cij = ~. L MinXj(n) paraj = 1, 2, ... ,p, i = 1, 2, ... , K {4.10)
1
n= l
Paso 4 Se repiten los pasos 2 y 3 hasta que las nuevas posiciones de los
centros no se modifiquen respecto a su posicin anterior, es decir,
hasta que:
0.2 - <>
0.2 - <>
o <>
<> .
o 1 1 1 1
o +-<>--,---,..-
1 --,----,----i
VNIVtASIDAD DE CALDAs
86 REDES DE NEURONAS DE BASE RADIAL
que cada neurona oculta se active en una regin del espacio de entrada y
de manera que el solapamiento de las zonas de activacin de una neurona
a otra sea lo ms ligero posible, para suavizar as la interpolacin.
Las amplitudes de cada funcin de base radial se pueden determinar usan-
do heursticas basadas en los /itp-vecinos ms cercanos, tal y como propuso
Moody [Moody and Darken, 1989), las cuales permiten que el solapamien-
to entre las neuronas ocultas sea lo ms suave posible. Se pueden utilizar
diferentes heursticas, como, por ejemplo:
Media uniforme de las distancias eucldeas del centro Ci a los p cen-
tros ms cercanos:
d = ! IICi- Cpll
p
L p
(4.12)
(4.13)
siendo Ct y e S los dos centros ms cercanos al centro ci.
Fase supervisada
En esta fase se calculan los pesos y umbrales de las neuronas de salida de la red.
En este caso, el objetivo es minimizar las diferencias entre las salidas de la red
y las salidas deseadas. Por tanto, el proceso de aprendizaje est guiado por la
minimizacin de una funcin error computada en la salida de la red:
1 N
E= l\r L e(n) (4.14)
n=l
donde N es el nmero de patrones o muestras y e( n) es el error cometido por
la red para el patrn X(n), que viene dado generalmente por:
1 r
e(n) = 2 L(sk(n) - Yk(n)) 2 (4.15)
k= l
siendo Y(n) = (y 1 (n), ... , Yr(n)) y S(n) = (s (n), ... , sr(n)) los vectores de salida
de la red y salida deseada para el patrn de entrada X(n), respectivamente.
Mnimos cuadrados
Para resolver este problema de optimizacin se suele utilizar una tcnica
basada en la correccin del error. En la Ecuacin (4.1) se observa que
las salidas de la red de base radial dependen lincalrnentc de los pesos y
umbrales, por lo que un mtodo bastante simple y eficiente es el algoritmo
de los mnimos cuadrados. De este modo, los pesos y umbrales de la red se
determinan mediantr un proceso iterativo gobernado por la siguiente ley:
Aprendizaje de las redes de base radial 87
(4.16)
8e(n)
uk(n) = u~.;(n- 1) - o:1
8U k
(4.17)
(4.18)
(4.20)
(4.21)
Por tanto, las leyes dadas por las ecuaciones (4.16) y (4.17) para adaptar
los pesos y umbrales de la capa de salida de la red de base radial se pueden
escribir de la siguiente forma:
Matriz seudoinversa
Debido a que la salida de la red (Ecuacin 4. 1) depende linealmente de
los pesos y umbrales, otro mtodo para el clculo de dichos parmetros
es el llamado mtodo de la seudoinversa (Broomhead and Lowe, 1988]. Se
trata de un mtodo que proporciona una solucin directa al problema de
optimizacin. Dicha solucin viene dada por la siguiente expresin matri-
cial:
(4.24)
wn Wt2 Wr
W21 W22 W2r
W =
Wml Wm2 Wmr
U U2 Ur
</>rn(N) 1
Pesos y umbrales
Las derivadas del error e(n) (Ecuacin 4.15) respecto a los pesos y umbra-
les de la red han sido obtenidas en el apartado anterior (fase supervisada
Aprendizaje de las redes de base radial 91
.
del mtodo hbrido), obteniendo las leyes de aprendizaje dadas por las
ecuaciones (4.22) y (4.23):
Centros
Teniendo en cuenta la expresin del error e(n) (Ecuacin 4.15) y aplicando
la regla de la cadena para derivar, la derivada de dicho error respecto al
parmetro Cii viene dada por:
(4.29)
(4.30)
(4.31)
Amplitudes
Al igual que en el caso anterior, para obtener la derivada del error e(n)
respecto al parmetro di es necesario derivar las salidas de la red respecto
a dicho parmetro:
92 REDES DE NEURONAS DE BASE RADIAL
8e(n) ~ 8</>(n)
od = - L.J (sk(n)- Yk(n))wik ad
1
{4.33)
' k=l
(4.34)
Por tanto, la ley para modificar las amplitudes de las funciones de base
radial (Ecuacin 4.28) es:
para = 1, ... ,m
Al tratarse de un proceso iterativo, es necesario inicializar todos Jos parme-
tros de la red. Generalmente, en el contexto de redes de neuronas, dicha ini-
cializacin suele hacerse de manera aleatoria y con valores cercanos a cero. Sin
embargo, en el caso de las redes de base radial, sta no tiene que ser la manera
ms adecuada de inicializar, fundamentalmente, los centros de las funciones de
base radial. Sera aconsejable inicializar Jos centros de manera que representen
zonas del espacio de patrones de entrada, limitando as la bsqueda del mtodo
a ciertas regiones del espacio. Por ejemplo, los centros podran inicializarse a
patrones de entrada seleccionados aleatoriamente o incluso a valores de los cen-
tros alcanzados despus de aplicar un algoritmo de clasificacin no supervisada
a los patrones de entrada, lo cual facilitar la labor de optimizacin al mtodo
de descenso del gradiente. Esta manera de inicializar los centros conduce a la
aplicacin de la combinacin de ambos mtodos, hbrido y totalmente supervi-
sado, para realizar el aprendizaje de redes de neuronas de base radial, como se
ver ms adelante.
8e(n) -
_ - (s (n ) -y (n )) w 84>1 (n)
1
8c12 8c12
Por tanto:
5. Se evala el error e(n) cometido por la red para dicho patrn (Ecuacin
4.15).
Ln n. n,:,l DAD DE CALDAS
1:31BLIOTECA
96 REDES DE NEURONAS DE BASE RADIAL
2.5
2
~
>< 1.5
i;:'
0.5
o
-4 -3 -2 - 1 o 2 3 4
(4.36)
A continuacin se describen los pasos a seguir para la resolucin de dicho
problema utilizando las redes de neuronas de base radial. Algunos de estos pasos
Ejemplo de funcionamiento de las redes de base radial 97
Aproximacin
0.8
0.6
0.4
0.2
o-~--
Figura 4.7: Aproximacin del polinomio de Hermite con una red de base radial
0.01 - ~
O
o:
o
0.005 - ::o',
o
...
o - '~----------------------------------------------------
' ' 1 1 1 1 1 1
o 50 100 150 200 250 300 350 400 450 500
Ciclos de aprendizaje
0.02 ..,.....-~---------------------,
1 Aprendizaje totalmente supervisado 5 neuronas ocultas - -
1
1
1Oneuronas ocultas
0.015 - 1.1 15 neuronas ocultas - -- -
~ 1 .
1
1
0.01 -
0.005 -
nes estn dirigidas hacia adelante -redes feedforward-. Ambas redes son adems
aproximadores universales, pues se ha demostrado que pueden aproximar cual-
quier funcin continua.
Estos dos tipos de redes presentan tambin algunas diferencias, como el
nmero de capas ocultas -una nica capa en el caso de las redes de base radial y
tantas capas como se desee en el caso del PERCEPTRON multicapa-, la distribu-
cin de los pesos -en las redes de base radial las conexiones de la capa de entrada
a la oculta no llevan pesos asociados- y, por ejemplo, tambin la linealidad en
la capa de salida, la cual no es imprescindible para el caso del PERCEPTRON
multicapa.
Sin embargo, la principal diferencia entre las redes de base radial y el PER-
CEPTRON multicapa radica en la funcin de activacin de las neuronas ocultas
de la red. Las primeras utilizan funciones de base radial, las cuales hacen que
las neuronas ocultas de la red posean un carcter local, como se coment en el
apartado 4.2.2, activndose cada neurona en una determinada regin del espa-
cio de entrada. Por otro lado, el PERCEPTRON multicapa empl.ea funciones de
activacin sigmoidales, que permiten que las neuronas ocultas de la red posean
activacin global, es decir, que se activen en todo el espacio de entrada.
El uso de diferentes funciones de activacin con las propiedades anterior-
mente mencio1_1adas, hace que cada una de estas arquitecturas, PERCEPTRON
multicapa y redes de base radial, tenga sus propias caractersticas, las cuales se
analizan a continuacin.
redes de base radial frente a. perceptron multica.pa. 101
En muchos casos, sin embargo, ocurre que para poder construir una apro-
ximacin mediante la suma de aproximaciones locales se requiere un alto
nmero de neuronas ocultas, lo cual podra influir negativamente en la
capacidad de generalizacin de las redes de base radial.
Finalmente, debe sealarse que el nmero de neuronas ocultas de la red
puede aumentar exponencialmente con la dimensin del espacio de entra-
da. Por tanto, para aplicaciones que requieren un alto nmero de variables
de entrada, las redes de base radial podran no ser las ms adecuadas.
103
104 REDES DE NEURONAS RECURRENTES
activaciones de las neuronas en la capa anterior, sino que depende tambin del
estado o activacin de cualquier otra neurona de la red conectada a ella, o
incluso de su propia activacin. Por tanto, en el contexto de redes de neuronas
recurrentes es necesario incluir la variable tiempo en la activacin o estado de
una neurona, la cual viene dada por:
Dentro del grupo de redes recurrentes que poseen este modo de actuacin
se pueden englobar las redes conocidas como redes parcialmente recurren-
tes y redes totalmente recurrentes. Las primeras se caracterizan porque
slo unas pocas conexiones recurrentes son introducidas en la red, mientras
que las segundas no tienen restricciones en la consideracin de conexio-
nes recurrentes. Ambos tipos de redes utilizan algoritmos de aprendizaje
supervisados para la modificacin de sus parmetros, los cuales sern es-
tudiados en este captulo.
SJ
Figura 5.2: Dos esquemas diferentes para representar la red de Hopfield para
n=4
La red de Hopfield est formada por n neuronas, cada una conectada a todas
las dems salvo a ella misma, corno se muestra en la Figura 5.2. La matriz de
conexiones de la red de Hopfield es una matriz W = (Wij) de orden n x n, donde
Wij representa el peso de la conexin de la neurona i a la neurona j. Dicha
matriz posee las siguientes particularidades:
Es una matriz simtrica, es decir, Wij = Wji Vi, j = 1, ... , n. Esto implica
que el peso de la conexin de la neurona i a la neurona j es igual al peso
de la conexin de la neurona j a la neurona i.
si vi(t + 1) > O
sng(vi(t + 1)) = { +_11 si vi (t + 1) < O
(5.3)
Fase de almacenamiento
Sea {x(k) = (x(k),x2(k), ... ,xn(k))}k=l, ... ,p el conjunto de patrones que se
desea almacenar, donde cada patrn x(k) es un vector n-dimensional cuyas
componentes toman valores binarios, es decir, valores - 1 o l. De acuerdo con
la regla Hebb [Hebb, 1949] para almacenar patrones, el peso de la conexin de
la neurona j a la neurona i en la red de Hopfield viene dado por:
'P
Wji = L xi(k)xi(k) Vi "f; j (5.6)
k=l
108 REDES DE NEURONAS RECURRENTES
Fase de recuperacin
Sea x = (x 1, x2, ... , Xn) un patrn de prueba, diferente a los patrones almacena-
dos en la fase anterior. Dicho patrn representa, generalmente, una versin de
algn patrn almacenado x(k) con informacin incompleta o ruido. Mediante
esta fase, la red de Hopfield va a recuperar el patrn almacenado ms parecido
al patrn de prueba x. Para ello, se sigue el siguiente procedimiento:
(5.9)
Redes parcialmente recurrentes 109
(5.11)
(5.12)
Por tanto, cuando los estados de la red cambian siguiendo las ecuaciones
(5.2), (5.3) y (5.4) , !).E es siempre negativo, por lo que la funcin E es montona
decreciente respecto a los estados de la red. De este modo, el punto estable de
la red de Hopfield se corresponde con un mnimo local de la funcin energa. De
hecho, la manera de modificar los estados de la red en la fase de recuperacin
(ecuaciones 5.2, 5.3 y 5.4) no es ms que el resultado de aplicar el mtodo de
descenso del gradiente para encontrar un mmo de la funcin energa dada por
la Ecuacin (5.9).
Debido a que un mnimo local de la funcin energa se corresponde con
un punto estable de la red de Hopfield, todo problema de optimizacin que
pueda escribirse en trminos de la funcin energa (Ecuacin 5.9) puede ser,
en principio, resuelto con la red de Hopfield asociada a dicha funcin. As, por
ejemplo, una aplicacin interesante de la red de Hopfield, desde el punto de
vista terico, es el problema del viajante, en el que se busca la distancia mnima
entren ciudades. En (Hopfield and Tank, 1985] se formula dicho problema en
trminos de la funcin energa dada por la Ecuacin (5.9).
:e :
Neuronas .. :. ~ : .. :
de entrada
~
:
. ~ ""':
:
o
:
:
.
..
.:o: :.v . . . . :
-
: .
-
:
.
o
.
o
:
........
.
Neuronas
de contexto
r o
; ... . _:
)--___,....;~ y1 ( t+1)
donde xi(t) representan las seales que la red recibe del exterior.
Tanto las neuronas ocultas de la red como las neuronas de salida tienen
funcin de activacin sigmoidal al igual que el PERCEPTRON multicapa.
112 REDES DE NEURONAS RECURRENTES
t- 1
ci(t) =L J.ti-lyi(t - j) para i = 1, 2, ... ,m (5.15)
j= l
X (t)
Y1 (t+l )
Aunque las redes de Jordan y Elman son los modelos de redes parcialmente
recurrentes ms conocidos, es posible disear y utilizar otros modelos diferentes,
como, por ejemplo, incorporar conexiones de las neuronas de contexto a ellas
mismas en el modelo de Elman; considerar neuronas de contexto que no slo
memoricen el estado de ciertas neuronas de la red en el instante inmediatamente
anterior, sino en un intervalo de tiempo, etc ..
El mecanismo para realizar el aprendizaje, tanto de la red de J ordan y de
Elman, como de cualquier red parcialmente recurrente, se puede resumir en los
siguientes pasos:
(5.i8)
(5.19)
~(3)
1 nt 2
E(no, ni) =2 L L ei (n) (5.20)
n=no iES
Cada capa de la red desarrollada puede tener neuronas para las cuales
existen salidas deseadas, ya que las neuronas de salida de la red recurrente
tambin se replican tantas veces como indique la poca o intervalo de
tiempo definido.
Los pesos coinciden para todas las capas de la red multicapa desarrollada,
por lo que al calcular el gTadiente con respecto a un peso hay que hacerlo
individualmente para cada capa y posteriormente sumarlos.
sin = n1
si no< n < n1
(5.22)
donde f'(.) es la derivada de la funcin de activacin respecto a su argu-
mento.
Aplicando dicha ecuacin, se obtienen 8(n 1 ), 8(n 1 - 1), ... , 8(no + 1). Por
tanto, es necesario calcular tantos valores 8 como el nmero de instantes
de tiempo que contiene el intervalo o poca [no, nJ.
4. Una vez que se obtiene el valor 6 de la capa no + 1, el cambio o ajuste
para el peso Wij viene dado por la siguiente expresin:
(5.23)
5. Con los nuevos pesos, se repite el proceso para el instante de tiempo no+ 1,
preparando la red para una nueva poca.
para las que se dispone de una salida deseada. Se trata de una red con N N
conexiones recurrentes, pues las N neuronas se conectan con todas las dems e
incluso con ellas mismas; y M N conexiones hacia adelante, pues cada neurona
de entrada se conecta con el resto de las neuronas de la red, como se observa en
la Figura 5.8. Por tanto, la matriz de pesos de la red, W = (WiJ), es una matriz
de orden N x (M + N), donde WiJ representa la conexin de la neurona j a la
neurona , para j = 1, ... , M+ N y para i = 1, ... ,N.
Salidas
Y Yr
X XM
Entradas
si i E A
(5.24)
si i E B
Las activaciones de las neuronas de la red, Yi(n), vienen dadas por:
(5.28)
La ley para modificar los pesos de la red siguiendo la direccin negativa del
gradiente del error adopta la siguiente expresin:
8E(n)
Wkt(n)=wkt(n-1)-a parakEB, lEAUB (5.29)
8Wkt
donde Wkt representa el peso de la conexin de la neurona l a la neurona k.
Derivando la Ecuacin (5.27) respecto al peso wk 1, se obtiene que:
(5.31)
(5.32)
120 REDES DE NEURONAS RECURRENTES
= "
L...,
[
Wij
auj(n- 1) + -OWij (
-Uj n -
1)]
. A B awkl OWkt
JE U
Por tanto,
(5.33)
Para obtener la derivada de y(n) respecto de wk1, slo falta calcular &uhfv:~l).
Segn se define el vector u en la Ecuacin (5.24), la parte del vector correspon-
diente a las variables de entrada Xj(n- 1) no depende del peso Wkt, por Jo que
su derivada es cero. Sin embargo, las activaciones Yi(n- 1) s dependen de dicho
peso, debido a las conexiones recurrentes. Por tanto:
8ui(n- 1) ={ O si jEA
(5.35)
8wkl &v(n-1) si j E B
&w~r
Por tanto,
8y,(n)
--::-'""---"- = !'(V (n - 1) L Wij
8yi(n- 1) ~
+ UkiUl (n - 1) (5.36)
lJWkl . B 8Wkt
JE
obtiene que:
122 REDES DE NEURONAS RECURRENTES
8
Denotando P2(n) = L~), la expresin anterior puede escribirse de la forma:
(5.44)
siendo P2(n) la salida del sistema dinmico dado por la Ecuacin (5.43).
En el caso de la conexin no recurrente en la red, w 1 , la ley para su adapta-
cin viene dada por la siguiente ecuacin:
{);(n)
W
= f'(w 1 x(n- 1) + w2y(n - 1))(x(n- 1) + W2 {)y;-
Wt
1
)) (5.47)
Captulo 6
APRENDIZAJE NO SUPERVISADO
123
124 APRENDIZAJE NO SUPERVISADO
UNfllt:RSIDAO DE CAlDAS
126 APRENDIZAJE NO SUPERVISADO
Plas ticidad Los seres vivos se adaptan con extrema facilidad a nuevas situa-
ciones, aunque stas sean completamente diferentes y cambien drsticamente,
al mismo tiempo que son capaces de pasar por alto estmulos irrelevantes. A
veces hay ciertas situaciones que es conveniente almacenar, debido a su impor-
tancia para el ser vivo que las padece, aunque no se repitan muy a menudo, o
aunque no hayan ocurrido recientemente: situaciones de peligro, situaciones de
supervivencia. Un elefante es capaz de conducir a la manada a una laguna que
nunca se seca, en perodos de gran sequa, aunque haya estado en ella una sola
vez, muchos aos atrs, y tenga que recorrer grandes distancias.
Todas las caractersticas anteriores son de vital importancia para los anima-
les, ya que les perdiiJ.ten Ja .sup.ervivenc.ia. .en el mnndo .compJej0 y en .constante
cambio en que se desenvuelven y les dota de una capacidad de decisin crucial
para optar por la mejor respuesta ante cada situacin. Un sistema neuronal
artificial que intentara asemejarse a la forma de categorizacin de los animales
debera incluir al menos las caractersticas citadas anteriormente.
donde:
ADOECALDAS
130 APRENDIZAJE NO SUPERVISADO
Conexiones Laterales
Xl X2 X3 Xn
Conexiones inhibitorias
o Conexiones excitatorias
donde:
(12.5Y"2)"-x""21 -
oe
o.e
o.
0.2
-
o
~
<0.8
~- 10 o S 10
de este tipo de redes es categorizar los datos de entrada. Se trata de que los datos
parecidos sean clasificados como pertenecientes a la misma categora. En estos
modelos suele haber una capa de clasificacin compuesta por tantas neuronas
como categoras pueda haber en los datos. Cada categora est representada
por un prototipo cuyas caractersticas son una especie de compendio de las
caractersticas de los datos pertenecientes a esa misma categora. En la capa
de clasificacin, cada clula corresponde, pues, a un prototipo. El sistema debe
relacionar cada clula (prototipo) con los datos de entrada que representa. En
otros trminos, debe agrupar los datos de entrada en categoras, por razones de
similitud, y asignar a cada categora un prototipo, que ms tarde ser utilizado
para clasificar datos nuevos y desconocidos.
La arquitectura de una red de neuronas artificial con aprendizaje competitivo
es la siguiente. Existen dos capas denominadas F 1 y F2. La capa F 1 es la llamada
capa de entrada y recibe los datos de entrada (seales del entorno). La capa F2
es la capa de competicin y se encarga de producir la salida.
Cada clula de la capa F 1 est conectada con todas las clulas de la capa F2
a travs de conexiones ponderadas variables. Por su parte la capa F2, adems de
recibir las entradas de la capa F 1 , tiene conexiones laterales inhibitorias entre
todas las clulas de su capa, excepto consigo misma, en que la conexin es
excitatoria (Figura 6.3).
F2
Fl
- Inhibitorias
Excitatorias
l. Se recibe el estmulo en F1 .
4. Ir al paso 3.
5. Restablecer las conexiones entre las capas F1 y F2 .
Calcular los nuevos valores para los pesos de las conexiones entre la capa
F1 y la clula ganadora en el paso 3.
Celula
Ganadora
F2
Fl
Grossberg (Grossberg, 1987] ofrece una nueva versin del mtodo en la que
las ecuaciones de aprendizaje son las siguientes:
dW
dt = (-wJ.. +O).
_..!2...
t
g(b)
3 (6.2)
donde:
b. ={ 1 si j ganadora
g( 3) O en caso contrario
Mapas autoorganizativos de Kohoncn 135
000000
o 00000
O O O J
.O O
E=EI E2 E3 E4
UNIVERSIDAD DE CALDA~
Mapas autoorga.nizativos de Kohonen 137
es decir, la suma ponderada de las entradas por los pesos de las conexio-
nes. Ahora bien, al estar definidos la mayora de Jos problemas reales en estos
trminos, la funcin ms utilizada es la distancia eucldea:
n
d(x,y) = L (x- Yi) 2
j- J
n
Tj = L(fi- Jl.ij) 2
i= l
JN/Vt:RSIDAD DE CALDAS
..............___ .
138 APRENDIZAJE NO SUPERVISADO
Capa de
Competicion
ooo o X
X
X
X
X
X
X
X
ooo0o
X
X X X
X X X
X X
X
X X ~ X
X
X
X
X X
X X X
Capa de
Entrada
o E2
X
X
X
X
1 El
Conjunto de ejemplos representados
El E2 como puntos en un espacio bidimensional
-
X
X X X
X X X
Cl C2 C3 X X
X X X X X
C32 ------------x------
X X X
e x x
1
------ Cl X X1C3
Cl2 1 1 X
X 1X X Xo
1
1 X X
X 1
1 X C2 X 1 X
X
)( X.
1 X
E2 X X
Cll C31
El
1
El E2
(6.3)
Analizando la ecuacin se aprecia cmo se trata, efectivamente, de un apren-
dizaje hebbiano, ya que, para cada conexin, el incremento del valor de su peso
es proporcional al valor de activacin de las clulas que conecta (rj i)
Por otra parte, el mtodo de aprendizaje utilizado sigue el esquema "el que
gana se lo lleva todo" comentado anteriormente. Para ello, lo nico que se ne-
cesita es que la salida de la clula ganadora sea uno y las del resto sean cero,
esto es:
1 si ci ganadora
T ={ O en caso contrario
Esto se consigue siguiendo el esquema de interaccin lateral comentado an-
teriormente. En este caso la Ecuacin 6.3 se convierte en;
decreciente con el tiempo. Es una funcin denominada "de olvido" que hace que
los patrones ya introducidos con anterioridad sean aprendidos ms intensamente
por la red neuronal. El sistema utilizado para decrementar la variable a: forma
parte del esquema de aprendizaje del mtodo. ~ormalmente se utilizan dos
esquemas equivalentes:
a(t + 1) = a(t) - /3
Mediante la asignacin del parmetro /3 se pueden determinar el nmero
total de ciclos aprendizaje, que sera:
Iteraciones = a~O)
Cl
C2.
d(p,c2) < d(p,c 1)
d(p,c l)
d(p.c2) C2 = Celula ganadora para el patron p
C3
6.;; = a( f - /Jii)
~2j 1
E2 - ~2J 1
1
E2 -Ei-jf1j
El ~lj
'
''
''
/ '
' ''
E2
.
El J..l lj
J..lif<X(El- J..L ~
origen a la destino, caminando por las lneas del vecindario. El vecindario define
de esta forma una "distancia de vecindario 11 d( ci, Cj).
Con el vecinda.ri@, la Ecuacin 6,4; que define el esquema de aprendizaje se
convierte en:
-- --
--
--
-- --- ---
-.
Vecindario tridimensional, cada celula tiene 4 vecinos
l. Inicializar pesos.
Asignar a los pesos valores pequeos aleatorios.
'
',
:n. . ..,. C. t . . .. . .. 1
.. .
una clula ms). Puede suceder que una clula que antes corresponda a una
ciudad, ahora la haya perdido en favor de una ya existente o de otra que haya
aparecido posteriormente. Estas clulas, si en un nmero de iteraciones no han
ganado ninguna competicin , se eliminan de la red. As, la red va incorporando
y eliminando clulas a medida que va ejecutndose el mtodo.
....L z
1 ~.
. ,;t\.... . ... ".. _.,. ., . /;>; .7.: : .. . , .
... . :. /. ., . \ ._.:\ . r / ~-:
.1
'
* ,1- ~
~r.. :J:._,/{:
o
-f"~/'j
"
_,.. -
,
..
.:
~
'l _..... .
'Y '"' -. L
,/
:/'
.
.
.
J
.
6 .
1
':.,
. r_ ..
.. \ . ., ... :. .. . :, . . ..... :i ; ~ .rfjJ; . \ -:--:s. . ,~\.
._ -~;,- :.
~ u-.'"/r .)'...-. . <.:..-- '";.-
_;...~.
_ \. - ' 1. : _ V;.:.:.-:. . : . .: . -:
l . ~ ( .. ,f
.~ ~
\.:.-, '"y": - t
'/'" ( ..... - o '/
r, "'
J:... :
' o
1 ' 1 .... # , ....
1:" :.
: :
-._
-.
_..::. . ,. ' '/ ,
j
. . . . . . . . :
:
,
/
~
o
,/,'
-1 . --: . ...
/
. -~ .._~ 'r<..
'
,
. .
\
. .....
,
.)
0 ..-
~
"';;
/"....
*'\,'
."';--"!~-
/ .. .
--~- -~.r. .:...... l . :;>: . ')
1 ........... , \)"'-'
.
o
.. .
: ~-.. .
l
>,
-~':,
1
. . .
(
v""
..
:r -
...
. -\
o
Figura 6.18: Solucin exacta del problema del TSP para 64 ciudades distribuidas
en rejilJa, aplicando una red de Kohonen
Subsistema Subsistema
Orientador
STM F2
Gain Onda de
Cootrol Reset
LTM
STM Fl
Estimulo
competitivo con dos capas F 1 y F2. La capa F1 es, al igual que en el aprendizaje
competitivo, la capa de entrada; su dimensin es la misma que la de la entrada y
se encarga de propagar la seal de entrada a la capa superior F2. Esta ltima es
bsicamente una capa competitiva donde existen los mismos tipos de conexiones
que en el aprendizaje competitivo; es decir, cada clula inhibe a todas las dems
con una fuerza fija e igual para todas, y recibe una seal excitatoria de s misma
tambin con la misma fuerza.
Uno de los principales problemas que tiene el aprendizaje competitivo es el
de la inestabilidad. El sistema puede ser fcilmente perturbado por entradas
aleatorias, o algo ruidosas, que afectaran a las ya aprendidas. Es decir, el siste-
ma no permanece estable una vez aprendido un conjunto elevado de datos, sino
que fcilmente puede producir salidas incorrectas si se introducen en el sistema
nuevos datos irrelevantes. Grossberg ya indicaba que este problema podra so-
lucionarse introduciendo en el sistema mecanismos de aprendizaje recurrentes y
de correlacin entre los estmulos aprendidos y los que se presenten al sistema.
Por tanto, en el ART se aaden a las conexiones existentes entre la capa F1
y la F 2 , llamadas conexiones bottom-up, otras nuevas entre la capa F 2 y la F 1 ,
llamadas conexiones top-down. Estas nuevas conexiones, poco habituales entre
los sistemas neuronales artificiales, permiten un mecanismo de aprendizaje de
valores esperados o predicciones con las que poder comparar los datos de entrada
y que pueden producir reacciones orientadoras en situaciones de desigualdad,
como se describir ms adelante.
Usando estos mecanismos, un sistema ART puede generar cdigos de reco-
nocimiento de forma adaptativa y sin la presencia de ningn profesor externo.
Puede tambin, de modo adaptativa, conmutar entre un estado estable y uno
plstico de forma que sea capaz de aprender eventos significativamente nuevos
sin perder la estabilidad ante aquellos que sean irrelevantes. Es capaz, pues, de
distinguir entre eventos familiares y no familiares o esperados y no esperados.
Los eventos familiares se procesan en el subsistema atcncional de forma pare-
cida a como se realiza en el modelo de aprendizaje competitivo. Este subsistema
tambin es capaz de aprender las predicciones top-down que ayudarn a estabi-
lizar los cdigos bottom-up aprendidos de los eventos familiares.
Sin embargo, el subsistema atencional por s solo es incapaz de mantener al
mismo tiempo representaciones estables de categoras familiares y crear nuevas
categoras para estmulos no familiares que puedan ir apareciendo. Para reali-
zar esta labor se introduce el subsistema orientador que inhibe al subsistema
atencional cuando se recibe un estmulo no familiar.
Las interacciones que se producen entre estos dos subsistemas ayudan a
decidir cundo un nuevo estmulo es familiar y est bien representado por uno
de los cdigos de reconocimiento, y cundo no es familiar y necesita un nuevo
cdigo de reconocimiento.
La arquitectura del modelo recuerda a la ya descrita del aprendizaje compe-
titivo: dos capas -la de entrada, F 1 , y la de competicin, F 2 - que tendr tantas
clulas como prototipos de los datos existan. En el modelo de Kohonen, comen-
tado con anterioridad, es necesario conocer a priori el nmero de clases en que
se quiere agrupar los datos. Este parmetro se convierte en crtico, y el resulta-
Teora de la resonancia adaptativa 155
Subsist~ma Subsistema
. ----=A
. :. :te:=.naona
:::.:::=. 1 Orienlador
STM F2
+
LTM
STM Fl
+
+
Estimulo
S ubsistema Subsistema
Orientador
STM F2
Galn
Control
LTM
STM fl
Estimulo
(Figura 6.21), que lo inhabilita, y evita que propague la seal de entrada hacia
F 1 . Por lo tanto, en este instante F1 recibir de nuevo dos entradas, pero ahora
en vez de ser la entrada repetida, es la entrada y la seal propagada por las
conexiones top-down.
Despus, el comportamiento es el mismo que ya ha sido descrito: la capa F 1
realiza una comparacin entre las dos entradas que recibe, que ya no tienen por
qu ser idnticas, y produce una salida. inhibitoria hacia el subsistema orienta-
dor, proporcional al resultado de la comparacin. Si la seal de las conexiones
top-down es muy similar a la entrada, entonces el subsistema orientador es in-
hibido. Esto quiere decir que la prediccin realizada sobre el prototipo elegido
para la entrada es correcta, y se procede a adaptar las conexiones, tanto las top-
down como las bottom-up, utilizando el dato de entrada. Se aprende la entrada
recibida siguiendo 1ma serie de ecuaciones que se describirn ms adelante. Sin
embargo, si la comparacin no resulta exitosa, la seal producida no ser capaz
de inhibir el subsistema orientador, y ste se pondr en funcionamiento. Es este
caso, ser porque la prediccin realizada por la red es incorrecta, y habr que
elegir otro candidato para ser el representante de la entrada. El que la compa-
racin resulte o no exitosa depende del valor del parmetro do vigilancia. Para
valores muy elevados en cuanto la comparacin arroja una ligera divergencia,
el resultado cae por debajo de p y no se acepta el prototipo seleccionado. Esto
se corresponde con un sistema exigente, en el que Jos patrones se agrupan en la
misma categora slo si comparten muchas de sus caractersticas, si son patrones
muy parecidos. A medida que se reduce el valor de p el sistema se hace cada
vez menos exigente, y pueden estar en la misma clase datos algo ms diferen-
tes. El usuario puede determinar la exigencia que desea que tenga su sistema,
asignando un valor al factor de vigilancia.
Su b!;lstema Sub!;l~lema
Atcnclonal --....., Orlcnt.a dor
+ +
STM F2
Gain . Onda de
Control Reset
STM Fl
Estimulo
UNIVtASIDAD DE CALDAS
158 APRENDIZAJE NO SUP8RV1SADO
1
biJ(O) = 1 +N
O <= i <= N- 1 N = nmero de nodos de F1
O <= j <= M- 1 M = nmero de nodos de F2
o<= p <= 1
En estas ecuaciones biJ es el peso de la conexin bottom-up, y tii es el peso
de la conexin top-down, entre el nodo de entrada i y el nodo de salida j en el
tiempo t. Estos pesos definen el ejemplar especificado por el nodo de salida j-.
Por ltimo, p es el factor de vigilancia.
Ms formalmente, el funcionamiento del sistema se puede describir segn el
mismo esquema de seguimiento de la propagacin de una entrada cualquiera
X. La entrada X se transforma en un patrn S de activaciones a travs de los
nodos, o de forma ms abstracta directores de caractersticas, de F1 (Figura
6.20). Esta seal se propaga a travs de las conexiones bottom-up mediante la
suma ponderada de la seal S por los valores de los pesos de las conexiones
bottom-up, hasta transformarse en una nueva seal T. A la transformacin de
X en T se la llama filtro adaptativo. Esta seal de entrada T se transforma
rpidamente en otra seal J..L en la capa F2 a travs de las conexiones excitatorias
e inhibitorias existentes en dkha capa. En el modelo ART 1 todo este proceso
podra describirse mediante la ecuacin:
N- 1
J..Li =L biJ(t)xi> O<= j <=M- 1
i=O
J..Lj = maxi(J..Lj)
De la misma forma que ocurra en la transformaein de X en T, ahora se
obtiene una nueva seal V que ser el resultado de realizar la suma ponderada
de la seal J..L por los valores de los pesos de las conexiones top-down. La trans-
formacin de J..L en V ser, por tanto, un nuevo filtro adaptativo. La seal V se
llamar valor predictivo.
donde:
1 si j ganadora
g(J..Lj) = { O en caso contrario
u N l vt RSIDAO DE CALDAS
....... 1 .,.,.,..
160 APRENDIZAJE NO SUPERVISADO
Si dicha seal inhibitoria cae por debajo del factor de vigilancia, el valor
predictivo V se considera errneo, y no debe ser asumido por el cdigo de reco-
nocimiento. En este caso, el subsistema orientador enva una seal a la capa F2
del subsistema atencional comunicndole el error, lo que produce la temporal
desaparicin de la capa F2 del cdigo de reconocimiento elegido, es decir, la
clula ganadora.
I _ 1 + IIX VIl
- 1+ IIXII < p
Entonces se dispara el subsistema orientador. Una vez producido esto se
repite todo el proceso tantas veces como sea neccesario para que uno de los
valores predictivos sea correcto; el sistema entra en r esonancia. En el proceso
de resonancia puede ocurrir que se eliminen todos los cdigos de reconocimiento
Teora de la resonancia adaptativa. 161
i = O, 1, ... , N - 1
donde g es la clula ganadora.
La. Ecuacin 6.2 del aprendizaje competitivo podra formularse en este caso
como:
Ab X,
u ig = N- 1
i=O Xi
UNIVERSIDAD DE CALDAS
,..,~, ,,....r"a
162 APRENDIZAJE NO SUPERVISADO
X o
Figura 6.23: Ejemplo de una red ART 1 para la clula ganadora, con 4 clulas
en la entrada
t9 1 X 0
D.blg = 0,5 + 2 = 2,5 =o
tg2 X2 1
D.b29 = 0,5 + 2 = 2,5 = 0 '4
tg3 X3 0
D.b39 = 0,5 + 2 = 2,5 = o
tg4 X4 1
D.b49 = 0,5 + 2 = 2,5 = 0' 4
i =O, 1, ... , N- 1
Esto es realmente aplicar una funcin AND entre la entrada y las conexiones
top-down del instante de tiempo anterior. En el ejemplo anterior, el nuevo vector
top-down quedara t 9 = {0, 1, O, 1}.
Teora de la resonancia adaptativa 163
1'
'. .
.
-
., '
A={ 1,1,1,1,1,
1,0,0,0,1,
1,0,0,0,1,
1,1,1,1,1,
1,0,0,0,1,
1,0,0,0,1,
1,0,0,0,1}
Teora de la. resonancia adaptativa 16 5
,
~ e!e
~
e
~
~.~ ~ e
e ! - - ~!
e
~".ee
;e-e ele
e
e!_-~ e
e
__e
e
- ee
~
~ li
e 1-"-.
e !-
e
...
e ee'e
e ~
A(I,I.I.I,I,I.O.O.O.I.
1.o.o.o.l,l,l,l,l.l,
Baii,I,I,I.O, I,O.O.O,I,
1.0.0,0.1.1,1 ,1,1,1.
C( I,I.I, I, I, I,O,O.O.O.
I,O.O,O,D.I,O.D.O.O,
l= e
D-(1,1,1,1,0,1.0.0.0.1,
1.0.0.0,1,1.0.0.0.1'
~ eee
1:-(l,l,l,l,l,t.O,D.O.O.
1,0,0,0,0.1 , 1,1,1,1,
fII.I,I,I,I,I,O,O.O.O.
1.0.0.0.0,1,1,1.1.0.
1,(},0,0,1,1,0,0,0,1 1.0,0.0.1, 1,0,0,0.1 l,o.o,o.o.l.o.o.II.D 1,0.0,0.1,1.0.0,0.1 1.0.0.0.0,1.0,0,0,0 1.0.0,0,0,1,0,0,0,0
1.0.0,0,11 1,1.1.1.01 1, 1,1.1.11 1,1,1,1.01 1,1,1,1, 11 1.0.0,0,0)
e --
e ----
____
~ -;-
1 ----
e
eeee
C',a(I,I,I,I,I,I,O,O.O.O, 11 (I,O.O.O.I.I.O.o.O.I, 1=11.1.1.1. 1.0,0,1,0.0. J(I,I,I,I,I,O,O, I,O,O. K( I,O.O,I.I .l.O, I.O.II. 1..-(1,0,0,0,0,1,0,0,0,0,
1,0,0,0.0,1,0.1,1,1, 1,0,0,0,1.1,1 , 1, 1,1, o .o. 1.0.0.0.0. 1,0,0, 0,0.1.0,0,0,0,1.0.0, 1,1.0.0.0. 1,0,0.0.0. 1.0.0.0,0.1,0,0,0,0,
1,0,0.0.1,1.0.0.0,1 1,0,0,0. 1, 1,0,0,0,1 0,0,1,0,0,(1,0,1 ,0,1) 0,0,1.0,0.0,0.1,0.0 1, 1,0.0.(), 1,0, 1,1:1.11 I.O.O,O,D, I,D,D.G.O
1, 1,1,1.11 I,O,l),D,II 1,1,1,1.11 1.1.1.0.01 1.0.0,1,11 1,1,1, 1, 11
e~r= ~~
e-
= e e e1e
e
e ~
e
~ e e
e e e e- e
e e e ~. - e
e - ... 1- e e
e e e e~ 1~
M( l ,o,O.O,I, I,I.O,I,I, NII ,D,0,0.1.1.1,0.0,J, O.(l.l . l , l , l . l.ll.O.O, I, P=(I,I,I,I,I,I,O.O.O.l. Qa(I,I,1,U.I.O,O,O,I, R(I,I,J,I,I,I,O.O.O, I,
1,0,1,0,1,1,0,1,0,1, 1,0, 1,0,1,1.0,1,0, 1, 1.0.0.0,1 1.0,0.0,1 1,0,0.0.1.1,1,1,1,1, 1.0.0.0.1.1,0.0,0,1, 1.0.0.0, 1, 1, 1, 1, 1,1 ,
1,0,0.0. 1, 1,0,0,0,1 1.0. 1,!1.1,1.0.0, 1,1 1.0,0.0, 1,1,0.0.0.1 1.u.o.o.o.1.o.o.o.o 1.0,1.0.1,1.0,0,1 ,0 1.0,1,0,0.1,0,0,1,0
1.0.0,0.11 1,0.0.0.1) 1,1,1,1,11 1.0,0.0,0} 1,1 ,1.0.1) 1,0.0.0.11
la categora en cuestin acaba de ser creada para reconocer a dicho carcter. Una
N slo puede aparecer si en esa misma fila las casillas anteriores estn rellenas.
Un nmero indica que el carcter haba sido asociado en primer trmino con
la categora, pero que despus fue descartado; el valor indica en qu lugar fue
asociado.
a b e d e f g h i j k 1 m n o p q r S t
N * * * 1 * 1 1 2 1 * 1 1
N * * 2 * * 1 1 2 2
' '' N * 3 * *
N * * * *
As, en el Cuadro 6.1 , para el carcter M, resulta que en primer lugar fue
asociado a la categora c2 (el 1 est en la segunda fila) y fue descartado; luego a
la categora c1 (el 2 est en la primera fila) y posteriormente a la c3 (el 3 est en
la tercera fila), y en ambos casos fue descartada dicha asociacin, y como no
haba ms categoras en F2, se cre una nueva, C4, para asociarlo (la N est en
la cuarta fila).
a b e d e f g h l J k 1 m n o p q r S t
1 * * 1 * 1 * 2
3 3 3 * * 4
2 2 2 * * * * * 3 1 *
4 '
* - 1 *
N * * * *
1
a b e d e f g h i j k 1 m n o p q r S t
. * * * *
* *
'
* * * * * *
* *
* * * * *
Clase Caracteres
c1 e D F p
02 K L
Os I J M N o T
04 A H R
Os B E G Q S '
a b e d e f g h i J k 1 m n o p q r S
N 1 2 2 * 1 4 2 4 5 * 6 1 2
N 1 * 3 3 3 5 6 1 2 8 5
N 1 1 4 1 3 * 3 2 3 9 4
N * 2 2 4 5 3 4 5 1
N 5 1 1 6 7 2 6
N * 6 7 7 8 10 9
N 2 8 9 3 11
N * 4 5 4 10
N 1 7 3
N 6 7
N 8
'
N
1
a b e d e f g h i j k l m n o p q r S t
1 3 1 * 5 9 * 10
1 2 * 6 7 3
2 1 3 2 5
' * 5
5 * 2 1 2 4
2 9 * 13 11
11 1
;
1 1 14 *
12 11 * 12
10 12 * * 6
6 3 6 * 1
8 * 3 2
7 10 9 *
4 * ~
4 ~
7 *
N 8 8
N * 13
N
a b e d e f g b i j k l m n o p q r S t
* 11 *
'- * 9
6 * '
* 3
* 15
2 *
13 *
14 * *
7 *
* 4
12 *
* 5 *
* 10
1 *
8 *
N
H lADDECAWAS
170 APRENDIZAJE NO SUPERVISADO
tabla, pero esta vez sin resonancia para el carcter /. ste ser, por tanto, el
resultado de la clasificacin para un factor de vigilancia de 0,9:
1 Clase 1 Caracteres
e1 F p
e2 D
e3 L i
e4 e
es H
e6 T '
c1 K
es M N
e9 o
e10 G
eu A R
c12 E S
C13 B
Ct4 J
C1s Q
C16 I
171
172 PREDICCIN DE SERIES TEMPORALES
0.8 -
0.6
~ 0.4
0.2
o ' ' ' '
o 20 60 80 100
-
150
~ 100 -
1 50
o ~~
l
h tAl ~
J
'
1700 1750 1800 1850 1900 1950 2000
tiempo (aos)
Figura 7.1: Ejemplos de series temporales: (a) Serie temporal logstica; (b) Serie
temporal de las manchas solares
tJNIV~RSIDAD DE CALDAS
174 PREDICCIN DE SERIES TEMPORALES
donde tes la variable discreta tiempo; (t) es un error residual que se asume ruido
blanco Gausiano; y F es una funcin no lineal desconocida y que, por tanto,
debe ser estimada o aproximada a partir de un conjunto de datos observados de
la serie temporal, {x(t)}t=O, ... ,N
Por tanto, la construccin de modelos NAR involucra la determinacin de la
funcin F, a partir del conjunto de muestras disponibles, mediante tcnicas de
aproximacin, entre las cuales se encuentran las redes de neuronas artificiales.
de red de FIR (Finite Impulse Response); en (Stage and Sendhoff, 1997] se pro-
pone una modificacin de la red de Elman para prediccin de series temporales;
en [Galvn and Isasi, 2001] se presenta una arquitectura de red parcialmente re-
currente diseada con el propsito de prediccin en mltiples pasos de tiempo,
etc.
A continuacin, se van a presentar los mecanismos para abordar el problema
de prediccin de series temporales utilizando los modelos de redes de neuronas
estticas, PERCEPTRON multicapa y redes de base radial. Como se ha comen-
tado en captulos anteriores, ambas arquite-cturas de redes son aproximadores
urversales, por lo que pueden utilizarse para la construccin de modelos NAR
(Ecuacin 7.1), si bien el PERCEPTRON multicapa ha sido ms utilizado que las
redes de neuronas de base radial.
x(t)
Red de
-
x(t-1) x(t+l)
neuronas
esttica
x(t-r)
!'
Esquema de prediccin 1
Este primer esquema consiste en utilizar de manera recurrente el modelo
neuronal construido para la prediccin en un paso de tiempo dado por la
Ecuacin (7.2). Dicho modelo necesita como entrada los valores de la serie
en los r + 1 instantes de tiempo inmediatamente anteriores. Por tanto, si
el objetivo es predecir el valor de la serie en el instante de tiempo t+h+ 1,
dicha prediccin viene dada por la siguiente expresin:
~
~
1
.
1
Red de
1 -
1 z-j x(t+l) neuronas x(t+h+ t)
x(t) esttica
.
.
x( t-r+h)
'
x(t + 2)= F(x(t + 1),x(t), xjt- 1), ... , x(t- r + 1)) (7.5)
x(t + 3) = P(x(t + 2), x(t + 1), x(t) ... , x(t - r + 2)) (7.6)
fc J
x(t)
Red de
x(t-1) neuronas x(t+h+I)
esttica
x(t-d)
Entrada Salida
.'
deseada
Patrn 1 ; x(d),x(d -1), ... ,x(1) , x(O) x(d + h + 1)
Patrn 2 x(d + 1), x(d), ... , x(2) , x(1) ! ! x(d+h+2)
Patrn 3 x(d + 2), x(d + 1), ... , x(3) , x(2) 1 x(d + h +3)
Patrn 4 x(d + 3),x(d + 2), ... ,x(4),x(3) x(d+h+4)
.. . ... ...
Patrn N-d-h x(N - h- 1),x(N- h- 2), ... , x(N -1- h- d) x(N)
~ (x(t + h + I) -
2
e(t+h+I) = x(t + h + I)) 'Vt = d, ... ,N-h- 1 (7.10)
''.)'DAD DE CALDAS
180 PREDICCIN DE SERIES TEMPORALES
150
~
E LOO
~
"'6'o so
"'
-
"O
-
>
o
a
- 50
o 200 400 600 800 1000 1200 1400
tiempo (horas)
(b)
150
.....,
8 100
~
"'~ 50
-
""
- o
a>
-50
o 200 400 600 800 1000 1200
empo (horas)
Figura 7.5: Muestras del nivel del agua en la laguna de Venecia. (a) Datos para
el entrenamiento: (b) Datos para la validacin
Cuadro 7.3: Error cuadrtico medio (cm) para los esquemas de prediccin
Horizonte E sque m a de Esquema d e
prediccin 1 prediccin 2
h=1 3,30 3,30
h=4 9,75 9,55 '
h = 12 12,38 11,38
h = 24 13,15 11,64
h = 28 16,91 15,74
Resultados de prediccin
El caudro 7.3 recoge los errores cuadrticos medios obtenidos sobre el conjunto
de validacin para la prediccin en un paso de tiempo (h = 1) y para mltiples
pasos de tiempo (h = 4, 12, 24, 28) con los dos esquemas de prediccin presen-
tados en el apartado anterior.
La Figura 7.6 muestra la prediccin en un paso de tiempo realizada por la
red de neuronas para una porcin del conjunto de validacin. Y las Figuras 7.7
y 7.8 muestran las predicciones para 4 y 12 horas, respectivamente, obtenidas
con los diferentes esquemas de prediccin para el mismo conjunto de muestras.
120
100
Ia 80
60
..,-""
~ 40
20
-
>
o
'2 - 20
-40
200 250 300 350 400
tiempo (horas)
Figura 7.6: Prediccin del nivel del agua en la laguna de Venecia con 1 hora de
antelacin
120
100
e 80
~
....""
-
60
40
20
"'-
.:: -20o
" -4()
200 250 300 350 400
tiempo (llora>)
iccin 2
120
100 real - -
e
~
80
predicha
60
.."
o
oO
-
40
20
"'>
; o
a -20
-40
200 300 350 400
tiempo (horas)
Figura 7.7: P rediccin del nivel del agua en la laguna de Venecia con 4 horas de
antelacin
rediccin 1
120
100
e 8()
~
....
""
-
60
40
20
"'
- o
~2 -20
-40
200 250 300 350 400
tiempo (llora~)
120
100
e
.."
~
'i!
80
60
40
; 20
"'
- o
a> -20
-40
200 250 300 350 400
dempo (botas)
Figura 7.8: Prediccin del nivel del agua en la laguna de Venecia con 12 horas
de antelacin
184 PREDICCIN DE SERIES TEMPORALES
8.1. Introduccin
Un proceso o sistema dinmico puede definirse como una combinacin de ele-
mentos o componentes relacionados entre s y que actan para alcanzar una
determinada meta. El estudio de un proceso dinmico es el estudio de la varia-
cin a lo largo del tiempo de las variables de salida de dicho proceso, a partir de
las variables de entrada que afectan al comportamiento dinmico del proceso.
Desde un punto de vista matemtico, un proceso dinmico se suele repre-
sentar mediante una relacin (directa o indirecta) entre las variables de entrada
y salida del proceso, es decir, entre las variables medibles y observables. Para la
mayor parte de los procesos dinmicos reales, no es fcil conocer estas relaciones
o representaciones matemticas. Generalmente, la informacin disponible viene
dada por un conjunto de datos observados, los cuales requieren una interpreta-
cin para obtener una representacin matemtica del proceso. El problema de
determinar dicha representacin, tambin llamada modelo del proceso, es cono-
cido como el problema de modelizacin e identificacin de procesos dinmicos.
En el contexto de procesos dinmicos es habitual perseguir que la salida de
dicho proceso evolucione en una direccin deseada, como mantener una cierta
condicin estable o seguir una trayectoria especificada, para conseguir el mejor
rendimiento del proceso y una actuacin adecuada. Con este propsito, los pro-
cesos dinmicos requieren lo que se conoce como sistemas de control, es decir,
sistemas que mediante la manipulacin de ciertas variables de entrada al pro-
ceso -aquel1as que puedan ser manipuladas-, regulan el comportamiento de las
variables de salida para alcanzar el objetivo deseado.
En toda la literatura se hace una distincin entre procesos dinmicos lineales
y procesos dinmicos no lineales. Se dice que un proceso es lineal cuando la rela-
cin entre las variables que intervienen en el comportamiento de dicho proceso
185
UNIVERSIDAD DE CALDAS
186 CONTROL DE PROCESOS DINMICOS
y(t + 1) = F(y(t), ... , y(t- ny), u(t), ... , u(t- nu)) (8.1)
donde t representa la variable discreta tiempo; u e y son las variables de entra-
da y salida del proceso, respectivamente; nu y ny son nmeros naturales que
indican la longitud de las secuencias discretas en el pasado de dichas variables,
respectivamente; y F es una relacin, desconocida a priori, que tendr que ser
estimada mediante el uso de tcnicas de aproximacin a partir de los datos
observados.
Para la construccin de modelos NARMA pueden utilizarse diferentes clases
o familias de funciones, como los polinomios, las funciones trigonomtricas, los
splines, las redes de neuronas artificiales, etc., que tienen la propiedad de ser
aproximadores universales. Cada uno de estos mtodos tiene sus propias carac-
tersticas, que hacen que, en ciertas condiciones, unos sean mejores que otros.
As, por ejemplo, los modelos construidos con polinomios tienen la ventaja de
que, aun siendo modelos no lineales, siguen presentando linealidad respecto a
los parmetros, lo cual permite el uso de tcnicas lineales para la determinacin
de dichos parmetros. Sin embargo, presentan el inconveniente de que pueden
Esquemas de control utilizando redes de neuronas 187
pueden utilizarse tanto redes con conexiones hacia adelante, como redes recu-
rrentes, aunque las ms utilizadas han sido el PERCEPTRON multicapa y las
redes parcialmente recurrentes.
2. Control inverso
El esquema de control inverso consiste en aproximar mediante una red de
neuronas la dinmica inversa del proceso. Suponiendo que la salida de un
proceso dinmico se puede exprsar de la forma y(t + 1) = S(u(t)), siendo
u la entrada al proceso, la relacin inversa en una expresin de la forma
u(t) = s- 1 (y(t + 1)). Por tanto, en una estrategia de control inverso la
red de neuronas se utiliza para aproximar la relacin s- 1 .
Cuando se plantea un esquema de control inverso utilizando redes de neu-
ronas, el aprendizaje de la red puede llevarse a cabo mediante dos formas
diferentes, denominadas aprendizaje generalizado y aprendizaje especiali-
zado, las cuales se describen a continuacin.
Aprendizaje generalizado
En este caso, la red de neuronas se entrena para que aprenda la
dinmica inversa del proceso en su totalidad. Para ello, se utiliza
un conjunto de datos representativo de dicha dinmica inversa, los
cuales se obtienen manipulando la accin de control en sus diferentes
rangos de operacin y observando o midiendo la salida del proceso
para dicha seal.
En la Figura 8.1 se muestra el esquema general del aprendizaje ge-
neralizado. Se observa que la entrada al proceso acta como salida
deseada para la red, mientras que la salida del proceso es la entrada
a la red. Por tanto, el aprendizaje de la red se realiza siguiendo la
direccin negativa del gradiente de la siguiente funcin error:
(8.2)
u(t) y(t+l)
Proceso
+
---- --,
\
1
-
Red de
neuronas~
(t) (conlroladQr)
'
.- ....
;
; ' ....
; ....
; ....
/
....
y des Red de- " (t)
neurQdas
(COJJfrolador) '
/ . _ __ _ ____J
' .........
1 d 2
es(t + 1) =-(y es- y(t + 1)) (8.3)
2
Para poder realizar el aprendizaje de la red siguiendo la direccin
negativa del gradiente del error dado por la Ecuacin 8.3, es nece-
sario conocer el Jacobiano del proceso, es decir, la variacin de la
salida del proceso respecto de la entrada, ~. Esto es debido a que
el proceso se coloca entre la red que acta como controlador y la
funcin error a minimizar (ver Figura 8.3). En el caso de que dicho
Jacobiano sea desconocido, es necesario utilizar una aproximacin.
Dicha aproximacin se puede obtener, bien utilizando un modelo del
proceso, cuya estructura es conocida, y por tanto es posible derivar
la salida respecto de la entrada, o bien aproximando dicha derivada
mediante una ecuacin en diferencia con dos puntos, es decir:
8y 8ft
w(t + 1) = w(t) + a(ydes- y(t + 1)) ou ow (8.5)
la salida del proceso en un cierto instante de tiempo, sino que ser necesario
utilizar tambin como entrada a la red una secuencia finita de valores en
instantes anteriores de tiempo, como se ver en la Seccin 8.4.
3. Control predictivo
Las estrategias de control predictivo se basan en la idea de que la accin de
control aplicada al proceso en un determinado instante de tiempo podra
influir en la evolucin en el futuro. Desde un punto de vista general, estas
estrategias de control se caracterizan porque utilizan el comportamiento
dinmico del proceso en el futuro para determinar la accin de control
en el instante actual. Para predecir dicho comportamiento futuro y poder
calcular la accin de control actual se utiliza un modelo del proceso. Las
estrategias de control prcdictivo han sido desarrolladas y estudiadas, prin-
cipalmente, para procesos dinmicos lineales, aunque es posible aplicarlas
tambin a procesos no lineales.
Modelo
'
''
'
H
ep(t + 1) = ~ L (ydes - y(t + h + 1))
2
(8.6)
h=O
au H a~(t + h + 1)
w(t + 1) = w(t) + a8- L)Ydes- y(t + h + 1) y Ju (8.7)
W h= O
....
Control de la temperatura en un reactor qumico 193
reactor, T m, y una seal digital, u, que acta para enfriar o calentar el fluido. De
todas las variables de entrada al proceso, slo la seal u puede ser manipulada,
y el resto son salidas de otros procesos dinmicos o simplemente variables del
entorno. Por tanto, el control de la temperatura del fluido se realizar mediante
la sealtt, que ser la salida de la red de neuronas que actuar como controlador.
Segn el diseo del circuito de enfriamiento y calentamiento del reactor, un
valor de la sealtt entre el 11 y el 100% (correspondientes a valores entre 450 y
4095, respectivamente) producir un enfriamiento en el fluido, siendo el 100%.
el mximo enfriamiento. Para ello, se producir la apertura de una vlvula, con
el correspondiente porcentaje, del depsito con lquido fro. Valores de la seal u
entre O y ellO% (equivalentes a valores entre O y 450, respectivamente) produ-
cen el modo de calentamiento, correspondiendo el O% al mximo calentamiento.
Esto se realiza mediante la aplicacin directa de una potencia generada por una
resistencia elctrica.
Te(t + 1) = F ( Te(t), ... , Te(t- n e), Tc(t), ... , Tc(t- nc), Ta.(t) , ... , Tc(t- nc),
, Tm(t), ... , Tm(t- nrn), u(t), ... , u(t- n")) (8.8)
Te(t + 1) = F ( Te(t), Te(t- 1), Te(t- 2), Tc(t), Ta.(t), Tm(t), T m(t - 1),
u( t), ... , tt(t - 20)) (8.9)
. 1
194 CONTROL DE PROCESOS DINMICOS
( Te(t), Te(t - 1), Te(t- 2), Tc(t), Ta (t), Tm(t), T171 (t - 1), u(t), ... , u(t - 20))
u(t) =G ( Te(t + 1), Te(t), Te (t - 1), Te(t - 2) , Tc(t), Ta (t), T m(t), T m (t - 1),
u(t- 1), ... , u(t- 20)) (8.10)
donde G relaciona la accin de control actual y el resto de las variables que in-
tervienen en el proceso. Si dicha relacin G fuera conocida, sera posible calcular
la accin de control que hay que aplicar al proceso en un determinado instante
de tiempo t para que la temperatura del fluido en el instante t + 1 tome el valor
Te(t + 1). De este modo, si el objetivo de control es que la temperatura alcance
el valor T:e11 , la accin de control vendr dada por:
u(t) = G ( Tfes, Te(t), Te(t - 1), Te (t- 2), Tc(t), Ta(t), Tm(t), Tm (t - 1),
u(t- 1), ... , u(t - 20)) (8.11)
Si se utiliza el PERCEPTRO~ multicapa para aproximar la relacin G, cuando
se sigue una estrategia de control inverso con aprendizaje generalizado la red de
neuronas va a tener como variables de entrada el vector (Te(t + 1), Te(t), Te(t-
1), Te(t - 2), Tc(t), Ta(t), T m(t), Tm(t - 1), u(t - 1), ... , u(t - 20)). Cuando se
realice una estrategia de control inverso o predictivo, estrategias en las que se
Control de la temperatura en un reactor qumico 195
utiliza el objetivo de control deseado, el vector de entrada a la red est dado por
( r :e, Te(t), Te(t- 1), Te(t - 2), Tc(t ), T4 (t) , T m(t) , Tm(t - 1), u (t - 1), ... , u (t-
20) ) .
Se observa que, en ambos casos, la red posee un alto nmero de variables de
entrada, por lo que de nuevo puede ser interesante aplicar tcnicas de anlisis
de sensibilidad para reducir el nmero de variables. En este caso, es posible
tambin partir de un modelo NARMA ms simple, que aunque no explique la
dinmica del proceso en su totalidad, s sea capaz de capturar las variaciones
ms importantes de la dinmica del proceso.
C LASIFICACIN
197
198 CLASIFICACIN
lizados. Se van a citar varios ejemplos de aplicaciones reales, en las que se han
utilizado Redes de Neuronas Artificiales en tareas de clasificacin:
Examen de radiografas. Para examinar las radiografas de pacientes es
necesario un mdico especialista capaz de detectar problemas en las mis-
mas. Normalmente el anlisis de la radiografa se realiza como parte de
un conjunto de pruebas en las que el mdico tiene indicios de la dolencia,
y necesita corroborar o descartaJ: la conjetura con la que trabaja. Se sabe
qu es lo que se est buscando, y en muchos casos es fcil de detectar
en la radiografa. Tambin se utilizan en clnicas veterinarias. Un ejemplo
de este tipo son las pruebas realizadas con una raza de perros, el mastn
leons. En estos perros una seal de la pureza de la raza la indica la for-
ma de la cabeza del fmur. Se han realizado sistemas de clasificacin de
dicha pureza, a partir de las radiografas del fmur, utilizando Redes de
Neuronas Artificiales.
Clasificacin de jamones. En algunos casos las aplicaciones son bastante
curiosas. Es el caso del sistema de clasificacin de jamones. El problema
en este caso consiste en determinar el grado de grasa de un jamn, a partir
de una fotografa de ste. Esto permitir clasificar automticamente los
jamones en una fbrica, y asignarles calidades segn la grasa que posean.
Clasificacin de documentos. En ocasiones existe la necesidad de clasificar
documentos como pertenecientes a un determinado tema. Por ejemplo, si
alguien quiere hacer un anlisis sobre un acontecimiento reciente, ponga-
mos un asesinato, puede serie de mucha utilidad disponer de todos los
artculos publicados sobre el tema en los distintos peridicos. Una Red
de Neuronas Artifial puede ser capaz de realizar esta tarea de forma au-
tomtica, al clasificar los artculos en temas.
Etiquetado de libros. En las bibliotecas es necesario introducir una refe-
rencia en cada uno de los libros del depsito. Esta referencia es de gran
importancia para almacenar los libros, y posteriormente facilitar las con-
sultas de los usuarios. Un mal etiquetado puede hacer que el libro est in-
frautilizado y que el usuario se vea afectado. Existen sistemas neuronales
capaces de realizar un buen etiquetado a partir de la clasificacin del libro
en temas.
stos son slo un conjunto de ejemplos reales de problemas de clasificacin
que pueden ser resueltos mediante Redes de Neuronas. El gran nmero de aplica-
ciones posibles de esta tarea hace que su estudio requiera un apartado especial.
En este captulo se hablar en general de tareas de clasificacin automtica y
de algunas tcnicas que producen soluciones eficientes.
9.1.1. Caractersticas
En este captulo se trata el tema del diseo de sistemas de clasificacin
automtica a partir de ejemplos. En este caso se dispone siempre de un conjunto
Tarea de clasificacin 199
de ejemplos significativo que ser utilizado para obtener una serie de reglas
generales de clasificacin, o bien un conjunto de caractersticas de cada una de
las clases, o simplemente un sistema al que presentar nuevos ejemplos para su
clasificacin.
Desde este punto de vista, la tarea de clasificacin automtica puede dividirse
en:
Clasificacin. A partir del conocimiento de la existencia de un conjunto de
clases, determinar la regla, o el conjunto de reglas, que permita asignar, a
cada nueva observacin, a la clase a la que pertenece. Es este caso el tipo
de aprendizaje a partir de ejemplos que ha de utilizarse es el aprendizaje
supervisado, ya que se dispone de la informacin sobre la clase para cada
ejemplo.
Agrupamiento. A partir de una serie de observaciones, determinar si exis-
ten clases en las que dichas observaciones puedan ser agrupadas. En es-
te caso se trata de aprendizaje no supervisado, ya que no existen
categoras "a priori", y se desconoce a qu clase pueden pertenecer los
ejemplos. Hay que determinar cuntas categoras puede haber para los
ejemplos, a cul de las categoras recin generadas pertenecen y las reglas
que distinguen unas categoras de otras.
La clasificacin automtica es una tarea que tiene grandes ventajas. En pri-
mer lugar es mucho ms rpida, y esta propiedad puede ser muy importante
en muchos casos, bien porque el tiempo de respuesta sea crtico -en un caso
mdico puede ser necesario clasificar los datos existentes para la realizacin de
un buen diagnstico en el menor tiempo posible-, o bien porque slo as resulte
til la clasificacin -en un clasificador de piezas en un proceso de fabricacin, la
clasificacin ha de realizarse al ritmo en que las piezas pasan por la cinta para
no tener que detener todo el proceso-. Los sistemas automticos tienen la venta-
ja de que toman decisiones basndose nicamente en la informacin existente,
pasando por alto datos irrelevantes. Por ejemplo, un sistema de clasificacin de
clientes solicitantes de crditos bancarios tendr en cuenta la informacin que
se le aporte, pero no se dejar influir por otro tipo de factores, subjetivos o no,
que no son de importancia en la tarea en cuestin.
Adems, la tarea de clasificacin se puede extender a otras muchas tareas
de mbito general, por ejemplo, a tareas do prediccin. As, si se desea realizar
prediccin de bolsa, se pueden dividir los posibles resultados futuros en clases:
estable, baja moderada, baja intensa, alza moderada, alza intensa, etc. Si se
tiene un sistema capaz de clasificar una situacin, por ejemplo la situacin de
la bolsa hoy, en funcin de la previsin para el da siguiente, se podr realizar
la prediccin correspondiente. Si el sistema clasifica la situacin como de alza
moderada, eso es lo que se esperar para el da siguiente, y se podr actuar en
consecuencia (vender unas pocas acciones, por ejemplo). La tarea de clasificacin
ser adecuada si la prediccin que subyace es correcta.
Uno de los parmetros ms importantes en toda tarea de clasificacin es
la calidad. Este parmetro se utizar en muchos casos para guiar el proceso
UNIVeRSIDAD os: CA
_ e;; LilA.!.o
200 CLASIFICACIN
Discriminantes lineales
Los discriminantes lineales consisten en dividir el espacio de estados, es de-
cir, el conjunto de todos los posibles puntos en los que pueden ser ubicados los
ejemplos1 , en regiones, definidas mediante ecuaciones lineales. En un espacio
n-dimensional las fronteras de las regiones estarn determinadas por las inter-
secciones de los hiperplanos descritos en las ecuaciones que se obtienen como
solucin al problema. Estas regiones han de tener la particularidad de contener
ejemplos nicamente de una clase.
El discriminante lineal ms conocido y ms utilizado por su sencillez y ra-
pidez es el discriminante de Fisher. Este procedimiento consiste en dividir el
espacio en hiperplanos, como se ha dicho anteriormente. Se parte de un con-
junto de datos, que se representarn en el espacio como puntos, de los cuales
se conoce la clase a la que pertenecen. Cada conjunto de puntos pertenecientes
a la misma clase forma un agrupamiento. Se determina en primer lugar el cen-
troide de cada agrupamiento, y a partir de los centroides se determina un nuevo
hiperplano de forma que divida el espacio en dos partes biseccionando la lnea
que une los centros de cada cl.ase.
Para ilustrar estas ideas se incluir un ejemplo sobre diferentes variedades
de la flor del lirio. Existen tres variedades del lirio: Setosa (etiquetada con una
S), Versicolor (etiquetada con una E) y Virginica (etiquetada por una A), que
pueden distinguirse por el ancho y la longitud de sus ptalos. Adems, se dispone
del conjunto de muestras ya. contrastadas que aparece en Ja Figura 9.1.
1 Por ejemplo, si los ejemplos estn representados por vectores bidimensionales en los in-
tervalos (O, 1] y[ 1, 1], el espacio de estados sera el plano: (O, 1],[- 1, 1].
3.0 - A AAA
A A
2.5 -
A}._AA
E 2.0 - t~A'f
R. E E EEEEEE
~ I.S ..
e
~ '
~
<(
EE E EEE
S SS
S SS ~S S
1.0
0.5 - S SS
SS S
o.o SS S
'
o
'
2 4
' '
6 8
Loolgitud del petalo
3.0
S! 2.0
!
:j 1.5
~
<(
EEE
1.0
S S
S
0.5 S S
S S S
0.0
SS S
o 2 4 6 8
longitud del pealo
En la figura se aprecia cmo las clases que estn prximas son discriminadas
ms difcilmente, por lo que se producen errores. Adems, una discriminacin
lineal no tiene por qu ser una solucin adecuada, y en el caso de haber ejemplos
de la misma clase en regiones muy diferentes del espacio, y en varios agrupa-
mientos, las soluciones mediante estos mtodos pueden ser muy disparatadas.
).0 ~
1.0
0,5
2 6 8
LAlnillld do! peulo
nuevo, se calcula un crculo con centro en dicho punto y un radio prefijado como
parmetro del sistema. Se calcula cun tos ejemplos caen dentro del crculo y se
dice que el nuevo caso pertenece a la clase ms numerosa dentro del crculo. En
la Figura 9.4 se aprecia cmo en un pr imer caso, con un radio reducido, dentro
del crculo hay dos ejemplos de la clase A y uno de la clase E, luego diremos
que el nuevo dato pertenece a la clase A.
3.0
A AAA
A A
2.5 A
1.0
0.5
0.0
o 2 4 6 8
Lonitud dd petalo
Vecioot(.2A.IE . . , _ A
Yedooo(0 )=6A.3E <"""""'A
dw
d;J = a(t)ri (t)(t:i (t)- Jl.ij(t)) (9.1)
Pero en este caso se vara la funcin Ti de la siguiente forma:
1 si ci ganadora y pertenece a la misma clase que fi
T = { -1 si ci ganadora y no pertenece a la misma clase que i
O en caso contrario
NfVt:RSIDAD DE CALDAS
206 CLASIFICACIN
9.2.2. K medias
Se trata de una clasificacin por vecindad no supervisada en la que se parte de
un nmero determinado de prototipos, y de un conjunto de ejemplos a agrupar,
sin etiquetar. La idea es situar a los prototipos en el espacio, de forma que los
datos pertenecientes al mismo prototipo tengan caractersticas similares.
Todo ejemplo nuevo, una vez que los prototipos han sido correctamente
situados, es comparado con stos y asociado a aquel que sea el ms prximo, en
los trminos de una distancia previamente elegida. Normalmente, se trata de la
distancia eucldea.
El mtodo tiene una fase de entrenamiento, que puede ser lenta, dependiendo
del nmero de puntos a clasificar y de la dimensin del problema. Pero una vez
terminado el entrenamiento, la clasificacin de nuevos datos es muy rpida,
gracias a que la comparacin de distancias se realiza slo con los prototipos.
El procedimiento es el siguiente:
.........
o
.. .. .....:'.....:...
#.. ..
;
~. : .." ..... ~
o
....
.
!.. . .
~!\
o
.,"
o
. ..
, o. o .
..
..
~.,
"'~ ..
....
. . .
. O
,'
' '
. . .. .. .
....... ...:.............
'
....,...
''
. . .. '
. . ''
''
.... . ..
()
... ... .. ; : o
."". .. .: ... ,'
." '
/'
'
.... : ..... ..
o
. o
. ..
' o o
,' ... ,'
b
.. .. .. . . . &>
,/
'
ste es un caso parecido al. de los mapas de Kohonen. En este caso la dif~
rencia es que los prototipos no son desplazados despus de la presentacin de
cada ejemplo, sino al final de cada iteracin, con lo cual hay que determinar
una regla para mover los prototipos. Esta regla consiste simplemente en mover-
los hasta el centro de masas de los ejemplos a los que representan. Como tras
w1a nueva itera.cin, los ejemplos son reasignados debido al desplazamiento de
todos los prototipos al final de la iteracin anterior, es necesario volver a calcu-
lar los centros de masas de los nuevos ejemplos. A medida que los prototipos
208 CLASIFICACIN
Se aprecia que las distribuciones por clases en ambos casos son casi idnticas,
por lo que la divisin es aceptable. En caso de haberse obtenido distribuciones
dispares de las clases sera conveniente repetir el proceso.
A continuacin habr que disear la red. La dimensin de la entrada es
ocho, ya que hay ocho caractersticas discr iminantes; la novena caracterstica
de Jos datos es la clase que se utiliza en el proceso de aprendizaje del LVQ,
como ya se ha mencionado. Por lo tanto, la red deber tener ocho clulas en la
capa de entrada. En cuanto a la capa de competicin, depender del nmero de
prototipos que se desee obtener. En principio, al haber slo dos clases parece
razonable que haya tambin slo dos prototipos. Esto sera ideal si las clases
estuvieran separadas en dos bloques; sin embargo, esto no tiene por qu ser as.
Se desconoce la forma de las distribuciones de ejemplos y, por lo tanto, tambin
el nmero ptimo de prototipos a generar. En la Figma 9.6 se ilustra esto con
un ejemplo.
En el primer caso se aprecia cmo la disposicin de las clases hace que una
solucin con dos prototipos sea siempre poco eficiente. No existe una disposicin
de los prototipos que, con la regla del vecino ms prximo, reduzca el error de
clasificacin por debajo de un determinado lmite razonable. En ste se necesi-
tarn cinco prototipos para dar una solucin ptima. Sin embargo, el ejemplo
anterior es un caso ideal ilustrativo de lo que se est explicando: en la mayora de
los casos, las distribuciones no estn tan separada.'l y son difciles de representar
al no ser bidimensionales. En el caso de los enfermos de diabetes, el espacio de
estados tiene ocho dimensiones, y es imposible de representar grficamente.
La solucin es hacer una estimacin genrica del nmero de prototipos y
realizar varios experimentos mediante ensayo y error. Es decir, probar con dife-
rente nmero de prototipos y elegir la red que mejores resultados de validacin
produzca. Una buena regla es comenzar con el doble de prototipos que de clases
existentes; en este caso se empieza con cuatro.
2 10 CLASIFICACIN
La ted tendr ocho clulas en la capa de entrada, todas ellas conectadas con
las cuatro clulas de la capa de competicin (Figura 9.7).
P2
,!
' )
t
~) ' )
Fl '
t t t
Figura 9.7: Red LVQ con cuatro prototipos para el problema de la diabetes
Cuadro 9.1: Resultados del problema de diabetes con una red LVQ de cuatro
prototipos
(Galvn and Isasi, 2001] Galvn, l. and Isasi, P. (2001). Multi-step learning
rule for recurrent neural models: and application to time series forecasting.
Neural Processing Letters, 13:115- 133.
[Galvn and Zaldvar, 1997] Galvn, l. and Zaldvar, J. (1997). Application of
recurrent neural networks in batch reactors part i. narma modelling of the dy-
namic behaviour of the heat transfer fluid ternperature. Chemical Engineering
and Processing, 36:505- 518.
217
[Giles et al., 1991) Giles, C., Chen, D. , Miller, C., Chen, H. , Sun, G. , and Lee,
Y. (1991). Second-order recurrent neural network for grammatical inference.
lu International Joint Conference on Neural Networks, volume 2, pages 273-
281. .
[Golub and Loan, 1989) Golub, G. and Loan, C. V. (1989). Matrix Computa-
tions. Baltimore, MD: J ohns Hopkins University Press.
[Goodwin and Sin, 1984) Goodwin, G. and Sin, K. (1984). Adaptive Filtering
Prediction and Control. Prentice-HaU Information Systcms, Englewood Cliffs.
[Grossberg, 1964) Grossberg, S. (1964). The theory of embedding fields with ap-
plications to psychology and neuropsychology. Rockfeller Institute of Medica!
Research, New York.
[Guo and Uhrig, 1992) Guo, Z. and Uhrig, R. (1992). Use of artificial ncural
networks to analyzc nuclear power plant performance. Nuclear Technology,
99:36- 42.
[Gutirrez et al., 2001} Gutirr<>z, G., Galvn, l., and Sanchls, A. (2001). Diseo
de redes neuronales artificiales mediante computacin evolutiva. Technical
report, Departamento de Informtica, Universidad Carlos ID de Madrid.
[Hebb, 1949) Hebb, D. (1949). Oryanization of B ehavior. John Wiley & Sons,
New York.
[Hertz et al., 1991] Hertz, J., Krogh, A., and Palmer, R. (1991). Introduction
to the theory of Neural Gomputation. Studies in the sciences of Complexity.
Addison-Wesley, Santa Fe Institute.
[Hinton et al., 1984] Hinton, G., Ackley, D., and Sejnowski, T. (1984). Boltz-
mann machines: Constraint satisfaction networks that learn. Technical Re-
port CMU-CS-84-119, Carnegie-Mellon University, Department of Computer
Science Technical Report.
[Hopfield, 1982] Hopfield, J. (1982). Neural networks and phisycal systems with
emergent collective computational abilities. In Proceedings of the National
Academy of Science, volume 81, pages 3088- 3092. National Academy of Scien-
ces.
[H,opfield, 1984] Hopfield, J. (1984). Neurons with graded response have collec-
tive computational propertieslike those of two-state neurons. In Proceedings
of the National Academy of Science, volume 81 , pages 3088- 3092.
[Hopfield et al., 1983] Hopfield, J., Feinstein, D., and Palmer, R. (1983). Un-
learning has a stabilizing effect in collective memories. Nature, 304.
[Hopfield and Tank, 1985] Hopfield, J. and Tank, D. (1985). "neural" computa-
tion of decisions in optimization problems. Biological Gybernetics, 52:141- 152.
[Hornik et al. , 1989] Hornik, K., Stinchcombe, M., and White, H. (1989). Mul-
tilayer feedforward networks are universal approximators. Neural Networks,
2:359- 366.
[Hubel and Wiesel, 1962] Hube!, D. and Wiesel, T. (1962). Receptive fields,
binocular interaction a.nd functional a.rchitecture in the cats visual cortex.
Journal of Phsychology, 166:106-154.
[Montana a.nd Davis, 1989] Montana, D. and Davis, L. (1989). Tra.ining feed-
forward networks using genetic a.Jgorithms. In International Joint Conference
on Artificial Intelligence. Margan Kaufmann.
[Moody and Darken, 1989] Moody, J. and Darken, C. (1989). Fa.st learning in
networks of locally-tuned processing units. Neurol Computation, 1:281-294.
[Niranjan and Fallside, 1990] Niranjan, M. and Fa.Jlside, F. (1990). Neura.J net-
works and radial ba.sis functions in cla.ssifying static speech pattcrns. Com-
puter Speech and Language, 4:275- 289.
(Park and Sandberg, 1991] Park, J. a.nd Sandberg, I. {1991). Universal approxi-
mation using ra.dia.J-ba.sis-function networks. Neural Computation, 3:246-257.
(Parlos et al., 1994] Parlos, A., Chong, F., a.nd Atiya, A. (1994). Application
of recurrent multilayer perceptron in modelling complex process dynarnics.
IEEE Transactions on Neural Networks, 5(2).
[Poggio a.nd Girosi, 1990] Poggio, T. and Girosi, F. (1990). Networks for ap-
proximation and learning. In Pr-oceedings of the IEEE, volume 78, pages
1481- 1497.
(Reilly et al., 1982] Reilly, D., Cooper, L., and Elbaum, C. {1982). A neura.J
model for category learning. Biological Cybernetics, 45:35-41.
[Renals, 1989} Renals, S. {1989). Radial ba.sis function network for speech pat-
tern cla.ssification. Electronics Letters, 25:437-439.
[Rumelhart et al., 1986a] Rumelhart, D., Hinton, G., and Willians, R. (1986a).
Learning representations by back-propagating errors. Nature, 323:533- 536.
[Rumelhart et al. , 1986b] Rumelhart, D., Hinton, G., and Willians, R. (1986b).
Parallel Distributed Processing, chapter Leaming representations by back-
propagating errors. MIT Press.
(S., 1980] S., G. (1980). How does the brain build a cognitive code? Psycholo-
gical Review, 87:1- 51.
(S., 1982a] S., G. (1982a). Procesing of expected and unexpected events du-
ring conditioning and attention:a psychophysiological theory. Psychological
Review, 89:529- 572.
(S., 1982b] S., G. (1982b). Studies of mind and brain: Neural principies of lear-
ning, perception, development, cognition and motor control. Reidel Press,
Boston.
[Sackinger et al. , 1992] Sackinger, E., Boser, B., Bromley, J., LeCun, L., and
Jackel, L. (1992). Application of anna neural network chip to high-speed
character recognition. IEEE Transactions on Neural Networks, 3:498- 505.
[Saha et al., 1991] Saha, A., Christian, J., Tang, D., and Wu, C. (1991). Orien-
ted non-radial basis functions for image coding and analysis. In Advances in
Neural Information Processing Systems , pages 728- 734. Morgan Kaufmann.
223
(Solis and Wets, 1981] Solis, F. and Wets, J. (1981). Minimization by random
search techniques. Mathematics of operations research, 6:19- 30.
(Stage and Sendhoff, 1997] Stage, P. and Sendhoff, B. (1997). An extended el-
man net for modelling time series. In Intemational Conference on Artificial
Neural Networks.
[Steinbuch and Piske, 1963] Steinbuch, K. and Piske, U. (1963). Learning ma-
tricers and their application. IEEE Transaction on Electronic Computers,
EC-12:846- 862.
(Tank and Hopfield, 1986] Tank, D. and Hopfield, J. (1986). Simple "neural"
optimization networks: An a/d converter, signal decision circuit, anda linear
programming circuit. IEEE Tmnsactions on Circuits and Systems, CAS-
33:533- 541.
(Tank and Hopfield, 1987] Tank, D. and Hopfield, J. (1987). Collective cornpu-
tation in neuronlike circuits. Scientific American, 257(6):104-114.
[Uttley, 1966] Uttley, A. (1966). The transmision of information and the effect
of local feedback in theoretical and neural network.s. Brain Research, 2:21-50.
224
(Uttley, 1975] Uttley, A. (1975). The inform: A network for adaptive pattern
recognition. Journal of TheoreticalBiology, 49:355- 376.
(Uttley, 1976a] Uttley, A. (1976a). Neurophysiological predictions of a two-
pathway inform thcory of conditioning. Brain Research, 102:55-70.
(Utt1ey, 1976b] Uttley, A. (1976b). A two-pathwa.y inform theory of conditio-
ning and adaptive pattcrn rccognition. Brain Research, 102:23- 35.
(Weiggend et al., 1990] Wciggcnd, A., Huberman, B., and Rumelhart, D.
(1990). Predicting the fut.urc: a connectionist approach. Technical report,
PARC.
[Werbos, 1989] Werbos, P. (1989). Backpropagation and neurocontrol: a re-
view and prospectus. In International Joint Conference on Neural Networks,
volume 1, pages 209-216.
(Werbos, 1990] Werbos, P. (1990). Backpropagation through time: What it does
and how todo it. In Proceedings oj IEEE, volume 78, pagcs 155o-1560.
(Wettschereck and Dietteric..h, 1992] Wettschereck, D. and Dictterich, T.
(1992). Improving the performance of radial basis function networks by lear-
ning centcr locations. In Advances in Neural Information Processing Systems,
pages 1133- 1140. Morgan Kaufmann.
(White and Sofge, 1992] White, D. a.nd Sofge, D. , editors (1992). Handbook of
Intelligent Control. Van Nostrand Reinhold, New York.
(Whitehead and Choate, 1996] Whitehead, B. and Choate, T. (1996).
Coopcrative-competitive gcnetic evolution of radial basis function cen-
tcrs and widths for time series p1ediction. IEEE Transactions on Neural
Networks, 7:869- 880.
(Widrow, 1959] Widrow, B. (1959). Adaptative samplet-data systems- a statis-
tical theory of adaptation. WESCON, 4:74-85.
(Widrow, 1960] Widrow, B. (1960). An adaptative "adaline" neuron using che-
mica} "memistors". Technical Report 1553-2, Stanford Electronics Labora-
tory.
(Widrow, 1988] Widrow, B. (1988). The original adaptativo neural network
. broom balancer. Internationo.l Symposiurn on Circuits and Systerns, pages
351- 357.
[Widrow et al., 1975] Widrow, B., Glover, J., Caunitz, J., Williams, C., and
Ilearn, R. (1975). Adaptative noise cancelling: Principies an applications. In
Proceedings of the IEEE, volume 63, pages 1692- 1716.
(Widrow et al., 1963] Widrow, B., Groner, G., Hu, M. , Smith, F., Specht, D. ,
and Talbert, L. (1963). Practica! applications for adaptative data-processing
systems. WESCON, ll.4.
225
(Widrow et al., 1967] Widrow, B., Mantey, P., and Griffiths, L. (1967). Adap-
ta.tive antenna systems. In Proceedings of the IEEE, volume 55, pa.ges 2143-
2159.
[Widrow and Smith, 1964] Widtow, B. and Smith, F. (1964). Pattern-
recognizng control systems. Spartan Books, Washington.
[Widrow and Stearns, 1985] Widrow, B. and Stearns, S. (1985). Adaptative Sig-
nal Processing. Prentice-Hall.
[Willians and Pcng, 1990] Willians, R. and Peng, J. (1990). An efficient
gradient-based algorithm for on-Jine training of rccurrent network trajecto-
ries. Neural Computation, 2:490 501.
[Willians and Zipser, 1989] Willians, R. and Zipser, D. (1989). A learning algo-
rithm for continually running fully recurrent neural networks. Neural Com-
putation, 1:270 280.
(Willshaw et al., 1969] Willshaw, D. , Buneman, 0. , and Longuet-Higgins, H.
(1969). Non-holographic associative memory. Nature, 222:960- 962.
[Zurada et al., 1997] Zurada, J., Malinowski, A., and Usui, S. (1997). Pertur-
bation method for deleting redundant inputs for perceptron networks. Neu-
rocornputing, 14:177- 193.
,
Indice alfabtico
227
228
umbral, 39, 42
unidades autoescalables, 177