You are on page 1of 69

ANLISIS DISCRIMINANTE

Y
CORRELACIONES
CANNICAS
Prof. ESPERANZA AYUGA TLLEZ
ANLISIS DISCRIMINANTE
Propuesto por primera
vez por Fisher, fsico que
trabaj en una estacin
experimental agrcola y
clebre por sus estudios
genticos.
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Tiene por objeto clasificar un nuevo elemento
observado, usando valores de las variables
conocidas, en alguna de las poblaciones que
originan stas. Conocido como reconocimiento de
patrones o clasificacin supervisada.
Tiene por objeto clasificar un nuevo elemento
observado, usando valores de las variables
conocidas, en alguna de las poblaciones que
originan stas. Conocido como reconocimiento de
patrones o clasificacin supervisada.
p.e. Clasificar los restos de un crneo descubierto en una
excavacin como humano, partiendo de medidas fsicas de
crneos humanos y de antropoides.
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Clasificacin entre dos poblaciones:
Tenemos dos poblaciones, P
1
y P
2
, con un vector
aleatorio X continuo, p-dimensional, definido en ambas
y con funciones de densidad multivariantes conocidas
(f
1
(X) y f
2
(X)).
Queremos clasificar x
0
en una de las dos poblaciones.
Si conocemos
i
, probabilidad a priori de que el
elemento proceda de P
i
, con
1
+
2
=1, entonces (por
Bayes)
) x ( f ) x ( f P x
0 1 1 0 2 2 2 0
>
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Consecuencias de la clasificacin errnea:
x
0
D
1
P(1/X)
P(2/X)
D
2
P(1/X)
P(2/X)
0
C(1/2)
C(2/1)
0
Las decisiones son dos:
Si x
0
A
1
D
1
(clasificar en P
1
)
Si x
0
A
2
D
2
(clasificar en P
2
)
Las consecuencias de los errores
C(i/j) se miden con el coste de
clasificar en P
i
un elemento de P
j
El decisor busca maximizar la
utilidad de la decisin.
Asignamos el elemento a P
2
si
) 2 / 1 ( C
) x ( f
) 1 / 2 ( C
) x ( f
0 1 1 0 2 2

>

Clasificamos en P
2
si:
a)
2
(a priori) es ms alta (a igualdad del resto)
b) f
2
(verosimilitud) es ms alta (a igualdad del
resto)
c) El coste de equivocarnos es ms bajo (a
igualdad del resto)
Clasificamos en P
2
si:
a)
2
(a priori) es ms alta (a igualdad del resto)
b) f
2
(verosimilitud) es ms alta (a igualdad del
resto)
c) El coste de equivocarnos es ms bajo (a
igualdad del resto)
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Caso de dos poblaciones normales:
Tenemos dos poblaciones de f
1
(X) y f
2
(X) normales
con V
1
=V
2
=V entonces la regla general anterior se
reduce a clasificar en P
2
si D
1
2
>D
2
2
,
con D
i
2
= (X-
i
)

V
-1
(X-
i
)= distancia de Mahalanobis
O bien, construir la variable indicador z= wx con
w= V
-1
(
2
-
1
) y clasificar z en P
2
si z-m
1
> z-m
2

con m
i
= w
i
.
Esto equivale a buscar la direccin ptima de
proyeccin para discriminar.
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Probabilidad de error:
P(2/1) = P(1/2) = (-D/2)
con funcin de distribucin de la Normal estandar y
D
2
= (
2
-
1
)

V
-1
(
2
-
1
)= distancia de Mahalanobis.
Probabilidad de acertar:
que nos indica la confianza en la clasificacin.
( )
)
`

+
=
2
1
2
2
2
1
D D
2
1
exp 1
1
) x / 1 ( P
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Generalizacin a varias poblaciones:
Si tenemos G poblaciones, se divide el espacio en G
regiones A
g
tales que si x A
g
se clasifica el punto en
la poblacin P
g
.
La regla de decisin de mxima verosimilitud es:
A
g
={x A
g
/
g
f
g
(x)>
i
f
i
(x); ig}
Esto equivale a calcular las D
2
de x al centro de cada
poblacin y clasificarla en la P
g
que haga esta distancia
mnima (si todas las
i
son iguales y f
i
(x) normales con
la misma matriz de varianzas).
Para G poblaciones se necesitan r=min(G-1,p)
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Poblaciones desconocidas:
Si slo disponemos de la muestra:
) x x ( S

) x x ( min
g 0
1
w g 0
g


1 g g 1 g g, 0
'
1 g , g 1 g , g
w

con , x w

z
+ + + +
= =
1 g 1 g , g g 1 g , g
m

z m

z
+ + +
<
clasificamos x
0
en la poblacin P
g
si
o construimos
y clasificamos en g frente a g+1 si
El error de clasificacin es
= total mal clasificados/total bien clasificados
Tambin podemos construir n funciones discriminantes
con n-1 observaciones y clasificamos el dato con la
regla construida sin l (validacin cruzada)
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
V. CANNICAS
DISCRIMINANTES
Se construyen las variables cannicas que
tengan mximo poder discriminante
(proyecciones en las direcciones de mxima
distancia) mediante los autovalores y que son
incorreladas.
Cuando p y G son grandes es frecuente que la
mayor discriminacin se consiga con pocas
variables cannicas.
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
OTRAS FORMAS DE
DISCRIMINACIN
Cuadrtica: Si las V son distintas se clasifica la
observacin en el grupo con ms probabilidad
a posteriori f. Discrim. Cuadrtica (con
regiones no disjuntas y n de parmetros a
estimar mayor).
Bayesiana: Para v.a. con cualquier distribucin.
Con la probabilidad a posteriori f. Discrim.
Cuadrtica.
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
USO DEL A. DISCRIMINANTE
En muchos casos en que se necesita
clasificar elementos con informaciones
incompletas
ANLISIS DISCRIMINANTE Fases de su aplicacin A. MULTIVARIANTE
PREPARACIN DE LOS DATOS PARA EL ANLISIS
Comprobacin de los supuestos bsicos
Eleccin de las variables predictoras
Seleccin de los casos a analizar
Anlisis de las distribuciones univariantes de los grupos
LAS FUNCIONES DISCRIMINANTES
1
2
Estimacin de las funciones discriminantes
Derivacin de los coeficientes de las funciones discriminantes
Significatividad de las funciones
Obtencin de las puntuaciones discriminantes
Anlisis discriminante
simultneo
Anlisis discriminante
no simultneo
ANLISIS DISCRIMINANTE Fases de su aplicacin A. MULTIVARIANTE
EVALUACIN DE SU ADECUACIN PREDICTIVA
Determinacin de la puntuacin de corte ptima
Obtencin de las matrices de clasificacin
Aplicacin de varios criterios para valorar la clasificacin
INTERPRETACIN DEL MODELO
VALIDACIN DEL MODELO
NEGATIVA
Introduccin de modificaciones
POSITIVA
Asignacin de nuevos objetos a los grupos
R
E
P
L
A
N
T
E
A
R
ESTIMACIN DE LAS FUNC. DISCRIMINANTES
2
4
3
5
Conclusin del anlisis
Rotacin de las funciones discriminantes
ESTADSTICOS GRFICOS
ESTADSTICOS:
Determinar la importancia relativa de cada v. indep. En la
diferenciacin de los grupos:
opesos discriminantes estandarizados
oCorrelaciones de estructuras discriminantes
oValores F parciales
Examen de las medias grupales en relacin con cada funcin
discriminante
Clculo de los ndices de potencialidad
GRFICOS:
Centroides grupales
Correlaciones discriminantes
Mapas territoriales
Histogramas de puntuaciones discriminantes
Diagramas de dispersin para todas las funciones
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
DECISIONES INICIALES
1. Eleccin de variables predictoras:
Se basa en tcnicas previas de clasificacin grupal.
2. Seleccin de casos a analizar:
La eliminacin de dichos casos se basar en el estudio
detallado de stos. Si son demasiadas, si son relevantes, etc.
Si se emplea la validacin cruzada para contrastar las
funciones discriminantes hay determinar qu parte de la
muestra se elimina de la estimacin y se emplea en la
validacin.
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
DECISIONES INICIALES
3. Modalidad de anlisis:
Dependiendo de si slo se quiere discriminar o tambin se
quiere emplear un nmero reducido de variables predictoras:
Anlisis discriminante simultneo: se emplean todas.
Anlisis discriminante secuencial: serie reducida en
consonancia con su poder discriminatorio. La incorporacin es
secuencial, se introduce una nueva variable en consonancia con
su poder discriminante y se analiza la colinealidad.
4. Descriptiva univariante:
Se analizan las diferencias entre grupos de los estadsticos de
cada variable.
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
ESTIMACIN DE LAS FUNCIONES
Funcin discriminante cannica: combinacin lineal de p
variables predictoras que ms discriminan entre los grupos
definidos a priori
f
km
= u
0
+u
1
X
1km
+...+u
p
X
pkm
f
km
= puntuacin para el caso m en el grupo k
X
ikm
= valor de la v. X
i
para el caso m en el grupo k
La puntuacin discriminante representa la proyeccin de ese caso a lo
largo del eje discriminante definido por la funcin.
Los coeficientes se calculan para maximizar diferencias entre centroides
y los valores u
i
incorrelados entre las diferentes funciones.
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
ESTIMACIN DE LAS FUNCIONES
N de funciones y significatividad:
N max = min (p, g-1)
p =n de variables usadas
g =n de grupos
Relevancia de las funciones: se comprueba con la conjuncin
Autovalores:
i
= SCEG/SCIG, cuanto mayor es
i
ms discriminacin
Porcentaje de varianza: % de V relativo que representa cada funcin.
Correlacin cannica: r
i
= [
i
/(1+
i
)]
1/2
, mide el grado de asociacin
entre el grupo y la funcin, cuanto ms prximo a 1 mejor asociacin.
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
ESTIMACIN DE LAS FUNCIONES
N de funciones y significatividad:
Se comprueba con los estadsticos:
Lambda de Wilks: se tienen valores pequeos cuando hay mucha
variabilidad entre grupos y poca dentro de ellos, valores cercanos a 1
indican que la funcin no logra diferenciar entre grupos.
Chi-cuadrado: mide la discriminacin residual. Si p>0,05 no procede
seguir estimando funciones discriminantes.
Estandarizacin de coeficientes:
Las puntuaciones se obtienen con los coef. sin estandarizar.
Los coef. estandarizados se emplean como referentes de la contribucin
de la variable a la funcin discriminante
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
ESTIMACIN DE LAS FUNCIONES
Procedimiento secuencial para elegir v. predictoras:
Hacia delante (forward): se van incluyendo variables por su
poder discriminante.
Hacia atrs (backward): se van eliminando variables.
Criterios de seleccin:
Lambda de Wilks: se selecciona la variable con lambda menor
La razn F parcial: razn de variabilidad entre y var. intra.
Interesan valores elevados. Hay que elegir los valores:
F mnimo (F-to enter) para entrar >2, entre 2,5 y 5
F mximo (F-to remove) para salir >2, entre 2,5 y 5
F
min
>F
max
Para incorporar, F debe ser elevado y =0,05
Ordena las v. por su poder discriminatorio, cuanto mayor F ms contribuye, =0,1
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
CAPACIDAD PREDICTIVA
Procedimiento para VALORAR la capacidad predictiva:
Tabla de clasificacin: Se incluyen los casos bien y mal
clasificados y en qu grupo.
Se determinar una probabilidad a priori de asignacin a cada uno de
los grupos:
Para todos igual
Proporcional al nmero de casos en cada grupo.
Otra asignacin
El caso se clasifica en el grupo con mayor probabilidad a posteriori
El xito se mide con el porcentaje de casos correctamente
clasificados.
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
INTERPRETACIN
1. DESCRIPCIN de las funciones : destacando el poder
discriminatorio de las variables que la forman.
Los coeficientes estandarizados
Las correlaciones
Los valores de F parciales
2. EXAMEN de los centroides : su finalidad es obtener una
visin global de las diferencias grupales respecto a las
funciones obtenidas.
ULTIMAS APLICACIONES
Patrones de comportamiento (2005):
Estudio sobre
diferencias entre los
patrones de asimilacin
de CO
2
, eficiencia
fotosinttica y
crecimiento del Schinus
frente a cinco especies
nativas de Florida en
diferentes condiciones
de salinidad: neutra,
baja y alta.
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
ULTIMAS APLICACIONES
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
ULTIMAS APLICACIONES
Estudio sobre modelos de gestin de
organizaciones culturales mediante medidas
de los valores del individuo sobre tres ejes:
economa-prctica; creatividad-emocional y
tica-social.
Patrones de comportamiento (2005):
tica
creatividad economa
Programa informtico para el
comprobar si el proceso est o no bajo
control, entrando mltiples variables
fsicas y tratamiento estadstico de
stas, incluido el AD.
Control de procesos (2005):
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
ULTIMAS APLICACIONES
Asignacin de parcelas
forestales a diferentes
tipologas estructurales de
los hayedos burgaleses,
atendiendo a variables
dasomtricas y medidas de
la biodiversidad de las
parcelas, con un 95% de
eficiencia en la clasificacin.
Tipologa estructural (2005):
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Ejemplo 1:
Una mquina que admite monedas
realiza 3 mediciones de cada moneda
para determinar su valor: peso(X1),
espesor(X2) y densidad de estras en su
canto(X3). Los instrumentos de
medicin de estas variables no son muy
precisos y se ha comprobado en una
amplia experimentacin con 3 tipos de
monedas M1, M2 y M3, que las
medidas son N(, V)
V
-1
=
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Ejemplo 1:
(
(
(

=

(
(
(

(
(
(

(
(
(

9 9 , 0 5
9 , 0 25 , 0 8 , 0
5 8 , 0 4
5
3 , 8
5 , 20
10
8 , 7
5 , 19
8
8
20
3 2 1
V
Clasificar la
moneda de medidas
(22; 8,5;7)
Aparentemente est
ms prxima a M3
Pero podra ser M1
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Ejemplo 1:
( )
( )
( ) 2 Z 1 Z 3 Z
x 56 , 0 x 74 , 1 x 93 , 0 2 Z
x 98 , 0 x 31 , 3 x 77 , 1 1 Z
3 2
3 2 1 2 1
3 2 1 3 1
=

=
+ =

=
+ =

X V
X V
X V
1
1
1
Funciones discriminantes:
)
`

= + =
= + =
65 , 13 5 98 , 0 3 , 8 31 , 3 5 , 20 77 , 1 ) ( 1 Z
71 , 16 8 98 , 0 8 31 , 3 20 77 , 1 ) ( 1 Z
2
1

La media o punto
de corte es 15,17
Z1=1,77x22-3,31x8,5+0,98x7=17,61 > 15,17M1
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Ejemplo 1:
Equivale a calcular D
2
:
D
1
2
es la menor clasificamos en M1
69 , 6 ) ( ) ( D
01 , 2 ) ( ) ( D
84 , 1 ) ( ) ( D
3
1
3
2
3
2
1
2
2
2
1
1
1
2
1
=

=
=

=
=

x V x
x V x
x V x
La moneda que
queremos clasificar
tiene mucho peso y
espesor (M3)
entonces la
densidad de las
estras deba ser
bajo
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Ejemplo 1:
Hemos clasificado la moneda en M1 y no
en M3 como pensamos al principio. Para
explicarlo estudiamos la matriz de
correlaciones entre coeficientes
estandarizados.
La moneda que queremos clasificar tiene mucho peso y espesor
(M3) entonces la densidad de estras deba ser bajo
(correlacin negativa). Sin embargo es alto, valor compatible
con una moneda M1 sucia (la suciedad aumenta peso y espesor)
(
(
(

=
1 6 , 0 83 , 0
6 , 0 1 8 , 0
83 , 0 8 , 0 1
R
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Ejemplo 2:
Se tienen 360 observaciones de
distintas zonas de la costa, que se
han clasificado, atendiendo al
grado de salinidad y
contaminantes, en aguas no
degradadas (1), algo degradadas
(2) y muy degradadas (3).
Vamos determinar si la presencia
de determinados organismos nos
permite asignar el ecosistema
marino a alguno de estos grados.
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Ejemplo 2:
Las variables que se consideran en la obtencin de las
funciones discriminantes son:
bivalvos
N de sp distintas
poliquetos
ispodos anfpodos
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Ejemplo 2:
% poliquetos
% anfipodos
% bivalvos
% ispodos
n de especies
Resumen estadstico
% poliq % anfip % bivs % isp n de sp
---------------------------------------------------------------------------------------------------
N 360 360 360 360 360
X 5,95833 2,9525 4,37028 1,24028 52,5889
S 1,00765 1,20146 1,1505 0,53954 25,8341
CV 16,9116% 40,6929% 26,3256% 43,5015% 49,1247%
----------------------------------------------------------------------------------------------------
Las variables
ispodos/bivalvos y
poliquetos/bivalvos
estn correlacionadas
linealmente.
El % de ispodos y
n de especies
distintas son los ms
diferentes en cuanto
a medias y
desviaciones tpicas.
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Ejemplo 2:
Number of complete cases: 360
Number of groups: 3
Valor % Correlacin
Funcin propio Relativo Canonica
------------------------------------------------------------------
1 9,36485 83,00 0,95054
2 1,91833 17,00 0,81076
Funciones Wilks Chi g.d.l. P-Valor
Derivadas Lambda
------------------------------------------------------------------------
1 0,0330599 1213,7581 6 0,0000
2 0,342661 381,2804 2 0,0000
-------------------------------------------------------------------------
Las dos funciones
obtienen grupos
con medias
diferentes
Las dos
funciones son
discriminantes
(f1> f2)
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Ejemplo 2:
Stepwise regression: Method: forward selection
F-to-enter: 4,0 / F-to-remove: 4,0
Step 0: 0 variables in the model.
Step 1: Adding variable % ispodos with F-to-enter = 940,328
--------------------------------------------------------------------------------------------------------
1 variables in the model.
Wilk's lambda = 0,159542 Approximate F = 940,328 with P-value = 0,0000
Step 2: Adding variable n de especies with F-to-enter = 430,292
---------------------------------------------------------------------------------------------------------
2 variables in the model.
Wilk's lambda = 0,0466856 Approximate F = 645,813 with P-value = 0,0000
Step 3: Adding variable % bivalvos with F-to-enter = 73,1565
----------------------------------------------------------------------------------------------------------
3 variables in the model.
Wilk's lambda = 0,0330599 Approximate F = 532,479 with P-value = 0,0000
Si disminuimos la F de
entrada a 2,5 incluimos la
variable % de poliquetos con
=0,0323432 que discrimina
un poco menos
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Ejemplo 2:
% ispodos
n


d
e

e
s
p
e
c
i
e
s
degradaci
1
2
3
0 0,5 1 1,5 2 2,5
-10
20
50
80
110
140
% bivalvos
n


d
e

e
s
p
e
c
i
e
s
degradacin
1
2
3
0 2 4 6 8
-10
20
50
80
110
140
% bivalvos
%

i
s

p
o
d
o
s
degradacin
1
2
3
0 2 4 6 8
0
0,5
1
1,5
2
2,5
% ispodos
%

p
o
l
i
q
u
e
t
o
s
degradacin
1
2
3
0 0,5 1 1,5 2 2,5
3,6
4,6
5,6
6,6
7,6
8,6
9,6
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Ejemplo 2:
Grupo tamao Degradacin asignada
actual grupo 1 2 3
------------------------------------------------------------------------
1 120 119 0 1
( 99,17%) ( 0,00%) ( 0,83%)
2 120 0 117 3
( 0,00%) ( 97,50%) ( 2,50%)
3 120 0 2 118
( 0,00%) ( 1,67%) ( 98,33%)
------------------------------------------------------------------------
% de casos correctamente clasificados: 98,33%
G Prob. a priori
------------------------
1 0,3333
2 0,3333
3 0,3333
-------------------------
La clasificacin
ms acertada es la
de los ecosistemas
no degradados
La probabilidad a
priori es igual para
todos los grupos y
proporcional al
tamao del grupo
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Ejemplo 2:
Classification Function Coefficients for degradacin
---------------------------------------------------------------------
1 2 3
% bivalvos 16,018 9,24273 12,244
% ispodos 36,2747 11,8938 23,6155
n de especies 0,553299 0,350885 0,173621
CONSTANT -102,461 -28,5171 -43,9113
------------------------------------------------------------------------
Coeficientes de la Funcin Discriminante para degradacin
Standardized Coefficients
-------------------------------------------------------
1 2
% bivalvos 0,524842 -0,258276
% ispodos 0,681804 -0,405098
n de especies 0,456872 0,892658
Unstandardized Coefficients
---------------------------------------------------------
1 2
% bivalvos 0,887861 -0,436919
% ispodos 3,1549 -1,8745
n de especies 0,0381303 0,0745006
CONSTANT -9,79838 0,316459
Z1= 16,081%biv+36,2747%isop+0,553299nsp-102,461
Z2= 9,24273%biv+11,8938%isop+0,50885nsp-28,5171
Z3= 12,244%biv+23,6155%isop+0,173621nsp-43,9113
Clasificamos en el grupo 2 si
Z2>Z1 y Z2>Z3
En la f1 todas las variables
contribuyen por igual y en f2
la variable de mayor
importancia es la diversidad
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Ejemplo 2:
Function 1
F
u
n
c
t
i
o
n

2
degradacin
1
2
3
Centroids
-5 -2 1 4 7 10
-4
-2
0
2
4
6
Si f1>1 G1
Si f2<0 y f1<1 G3
Si f2>0 y f1<1 G2
coordenadas de
centoides por grupo
1 2
1 4,18751 0,461195
2 -2,97623 1,41074
3 -1,21128 -1,87194
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Ejemplo 2:
degradacin 1 2 3 TOTAL
COUNTS 120 120 120 360
-------------------------------------------------------------------------------
MEANS
% bivalvos 5,5975 3,18167 4,33167 4,37028
% ispodos 1,86917 0,6625 1,18917 1,24028
n de sp 81,8 50,0167 25,95 52,5889
-------------------------------------------------------------------------------
STD. DEVIATIONS
% bivalvos 2,3659 1,78372 2,08127 2,09052
% ispodos 1,36717 0,813941 1,09049 1,11368
n de sp 9,04434 7,07225 5,09411 7,25182
-------------------------------------------------------------------------------
% bivalvos
% ispodos
n


d
e

e
s
p
e
c
i
e
s
grupo
1
2
3
0
2
4
6
8
0
0,5
1
1,5
2
2,5 -10
20
50
80
110
140
Within-Group Covariance Matrix
% bivalvos % ispodos n de especies
% bivalvos 0,349436 0,0043401 -0,284127
% ispodos 0,0043401 0,0467033 0,190672
n de especies -0,284127 0,190672 143,565
-------------------------------------------------------------------------------------------
Within-Group Correlation Matrix
% bivalvos % ispodos n de especies
% bivalvos 1,0 0,0339737 -0,0401147
% ispodos 0,0339737 1,0 0,0736357
n de especies -0,0401147 0,0736357 1,0
-------------------------------------------------------------------------------------------
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Ejemplo 2:
La degradacin de las
costas se puede determinar
por la biodiversidad de los
ecosistemas marinos.
El A. discriminante es una
tcnica estadstica muy
eficaz (menos del 20% de
error) para predecir la
degradacin de las costas por
medio de los organismos
encontrados en ellas.
DEPENDENCIA ENTRE
CONJUNTOS DE
VARIABLES
Hotelling propone en 1936 las
CORRELACIONES CANNICAS
como una extensin de las
componentes principales
DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES ANLISIS MULTIVARIANTE
Tiene por objeto relacionar las variables en dos
grupos.
Tiene por objeto relacionar las variables en dos
grupos.
p.e. Para relacionar un conjunto de variables que midan el
rendimiento escolar y otro grupo que mida el uso de los
tiempos de ocio, o cuando tratamos de relacionar las variables
que miden el rendimiento en Secundaria con las notas de la
Universidad.
DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES ANLISIS MULTIVARIANTE
La relacin se puede buscar con dos enfoques:
Simtrico: cuando no existe un conjunto que sea la
causa del otro (p.e. las variables que miden
caractersticas fisiolgicas y morfolgicas de las
plantas, estn relacionadas sin causalidad).
Asimtrico: cuando unas variables explican las
otras pero no al revs (p.e. el tipo de suelo y el
crecimiento de las plantas)
DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES ANLISIS MULTIVARIANTE
VARIABLES CANNICAS
El problema es encontrar 2 v. resumen, una de cada
conjunto, que tengan correlacin mxima:
Si las variables son normales de media 0, la solucin
consiste en construir las 2 matrices:
Y calcular el vector asociado a su mximo valor
propio, vector que proporciona las v. cannicas.

= =
= = = =
q
1 j
j j
*
p
1 i
i i
*
y y y x x Y X
y
12
1
11 21
1
22 qxq 21
1
22 12
1
11 pxp
V V V V B V V V V A

= =
El objetivo es relacionar de forma global un grupo de
variables x
1
, x
2
,...,x
m
con otro grupo de variables, y
1
,
y
2
,...,y
n
todas ellas medidas en la misma poblacin a
travs de nuevas variables no medibles, U=(u
1,...
u
m
)
y V=(v
1
,...,v
n
):
U
1
=u
11
x
1
+...+u
1m
x
m
V
1
=v
11
y
1
+...+v
1n
y
n
Con la propiedad de que la correlacin entre U y V es
mxima.
DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES ANLISIS MULTIVARIANTE
VARIABLES CANNICAS
Anlisis de Correlacin Cannica
Metodologa
Para relacionar (x
1
, x
2
,...,x
m
) con,( y
1
, y
2
,...,y
n
) habr que
encontrar 2 vectores (u
1,
...u
m
) y (v
1
,...,v
n
) con las
propiedades:
1. u
1,
...u
m
son mutuamente incorreladas.
2. v
1
,...,v
n
son mutuamente incorreladas.
3. Las correlaciones cuadrticas o correlaciones cannicas
entre (u
1
,v
1
), (u
2
, v
2
), ...., (u
n
, v
n
) son mximas:
1
2
>=

2
2
>=...>=
n
2
4. Las variables cannicas se obtienen a partir de:
DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES ANLISIS MULTIVARIANTE
VARIABLES CANNICAS
Det(C
12
C
22
-1
C
21
-
i
2
C
11
)=0
C
12
C
22
-1
C
21
u
i
=
i
2
C
11
u
i
Donde (u
1i,
...u
mi
) es el vector cannico.
C
12
C
11
-1
C
21
v
i
=
i
2
C
22
v
i
Donde (v
1i,
...v
ni
) es el vector cannico.
Correlaciones cannicas-autovalores
Matriz de
Covarianzas
de y con x
Matriz de Covarianzas de x
1
,...,x
m
Matriz de Covarianzas
de y
1
,...,y
m
DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES ANLISIS MULTIVARIANTE
VARIABLES CANNICAS
DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES ANLISIS MULTIVARIANTE
CONSTRUCCIN DE V. C.
Una vez obtenidas las dos variables, es posible que
esta primera relacin entre las 2 v. indicadores
explique completamente los dos conjuntos y no
exista ms relacin entre ambas.
Si no es as, se puede buscar una 2 v. Indicadora del
primer conjunto incorrelada con la 1 y que tenga
correlacin mxima con otra v. Indicadora del
segundo conjunto.
DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES ANLISIS MULTIVARIANTE
CORRELACIN CANNICA
Las correlaciones cannicas representan relaciones
de dependencia entre los subespacios generados por
los dos conjuntos de variables.
Los vectores x* e y*
estn lo ms cerca
posible (es decir, x*
es colineal con la
proyeccin de y*
sobre P
1
y viceversa.
DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES ANLISIS MULTIVARIANTE
PROPIEDADES DE LAS V. C.
Son indicadores de los dos conjuntos de variables
que tienen mxima correlacin.
Si
i
x es una v.c. tambin -
i
x lo es.
Los coeficientes de la v. c. son los vectores
propios ligados al mismo valor propio de A y B.
Las correlaciones cannicas son el cuadrado del
coeficiente de correlacin entre las dos v. c.
DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES ANLISIS MULTIVARIANTE
PROPIEDADES DE LAS V. C.
Las correlaciones cannicas
i
2
son invariantes
ante transformaciones lineales de las variables.
La primera correlacin cannica
1
2
nunca es
menor que el mayor coeficiente de correlacin
simple al cuadrado, entre una variable de cada
conjunto.
DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES ANLISIS MULTIVARIANTE
PROPIEDADES DE LAS V. C.
La correlacin cannica
i
2
es el coeficiente de
determinacin en una regresin mltiple con
respecto a la variable y* y variables explicativas las
x (idem para la regresin de x* con las y).
Las v. c. son los predictores ptimos en el sentido
de minimizar E(,,x*-y*,,
2
)
DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES ANLISIS MULTIVARIANTE
CONTRASTES
Contrastamos que los dos conjuntos de variables
estn incorrelados que equivale a decir que todas las
correlaciones cannicas son nulas .
Bajo las hiptesis de que X e Y siguen distribuciones
normales de media 0:
q) (p, min r y
3) q 2(p
1
- n m
, ) 1 log( m
2
pq
r
1 j
2
j
=
+ +
=
=

=
H
0
: V
12
=0
H
1
: V
12
0
DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES ANLISIS MULTIVARIANTE
CONTRASTES
Podemos contrastar por otra parte que los s 1
os
coeficientes de la correlacin cannica son 0 y los
restantes nulos.
H
0
:
i
>0 i=1,...,s; y
s+1
=...=
r
=0
H
1
:
i
>0 i=1,...,s; y al menos un
j
>0 con j=s+1,...,r

3) q 2(p
1
- n m con , ) 1 log( m
2
s) - s)(q - (p
r
1 s j
2
j
+ +
= =

+ =
CORRELACIONES CANNICAS ANLISIS MULTIVARIANTE
Ejemplo:
Se han medido en 50 poblaciones espaolas variables climticas
que se agrupan en variables relacionadas con la pluviometra
(conjunto 1) y las relacionadas con las temperaturas (conjunto 2):
Conjunto 1: Precipitaciones anuales y nmero de das de niebla.
Conjunto 2: Temperatura media anual y nmero de das
despejados al ao.
Se comprob que las variables de cada conjunto estaban
incorreladas y se transformaron para obtener normalidad.
CORRELACIONES CANNICAS ANLISIS MULTIVARIANTE
Ejemplo:
lnR
raiz DH
T
DD
Correlaciones Cannicas
---------------------------------------------------------------------------------------------
N Valor Correlacin Lambda Chi g.d.l.
propio Cannica Wilks P-Valor
---------------------------------------------------------------------------------------------
1 0,863625 0,929315 0,119216 98,8971 4 0,0000
2 0,12582 0,354711 0,87418 6,25279 1 0,0124
---------------------------------------------------------------------------------------------
CORRELACIONES CANNICAS ANLISIS MULTIVARIANTE
Ejemplo:
Correlaciones significativas
Correlacin alta
CORRELACIONES CANNICAS ANLISIS MULTIVARIANTE
Ejemplo:
Coeficientes de las variables del primer grupo para las dos vvcc
--------------------------------------------------------------------------------------
lnR -0,365702 0,93433
raiz DH -0,961068 -0,288198
Coeficientes de las variables del segundo grupo para las vvcc
--------------------------------------------------------------------------------------
T 1,06964 0,333641
DD -0,184722 -1,10514
CORRELACIONES CANNICAS ANLISIS MULTIVARIANTE
Ejemplo:
Variable cannica 1
Grupo 1
G
r
u
p
o

2
-1,6 -0,6 0,4 1,4 2,4
-1,8
-0,8
0,2
1,2
2,2
3,2
Variable cannica 2
Grupo 1
G
r
u
p
o

2
-1,5 -0,5 0,5 1,5 2,5 3,5
-2,5
-1,5
-0,5
0,5
1,5
2,5
CORRELACIONES CANNICAS ANLISIS MULTIVARIANTE
Ejemplo:
-0,365702*lnR - 0,961068*raiz DH=1,06964*T - 0,184722*DD
Las nuevas variables que representan temperatura y pluviometra
estn muy correlacionadas linealmente segn la VC1:
u
1
v
1
0,93433*lnR - 0,288198*raiz DH=0,333641*T - 1,10514*DD
Otra combinacin de estas variables correlacionadas ms
ligeramente es la VC2:
u
2
v
2
DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES ANLISIS MULTIVARIANTE
RELACIN CON OTRAS
TCNICAS
La regresin es un caso particular de las
correlaciones cannicas: si cada uno de los conjuntos
tiene una sola variable (r
2
=
2
)
La correlacin cannica entre X (v. explicativas) y
las G variables y
i
conduce a los mismos resultados
que el anlisis discriminante si:


=
casos de resto el en 0
i grupo i si 1
y
i
DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES ANLISIS MULTIVARIANTE
ANLISIS CANNICO
ASIMTRICO
El objetivo del estudio es prever cada uno de los
componentes de Y mediante las variables X.
La correlacin cannica no resuelve el problema ya
que puede existir alta correlacin entre x* e y* y baja
entre cada y con las x*.
Construyendo q ecuaciones distintas de regresin.
Buscando una nica X que tenga buenas
propiedades para predecir las YA. C. Asimtrico.
DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES ANLISIS MULTIVARIANTE
ANLISIS CANNICO
ASIMTRICO
Si las variables originales estn estandarizadas
el coeficiente de redundancia se define como:
La medida de la correlacin del conjunto de las r
combinaciones lineales x
1
,..., x
r
es la
redundancia total:
R R x
xy yx

q
1
) / y ( CR
) y / x ( R ) / y ( CR ) x / y ( R
r
1 i

=
i
x
DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES ANLISIS MULTIVARIANTE
A. C. ASIMTRICO
Para encontrar la combinacin lineal x con
mxima correlacin con cada variable y
i
individualmente de manera que la suma de
correlaciones al cuadrado entre x y las y hay que
maximizar R
xy
R
yx
con la restriccin: R
xx
=1
Por tanto, es el vector propio de la matriz:
yx xy
1
xx
R R R H

=
DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES ANLISIS MULTIVARIANTE
A. C. ASIMTRICO
Como en A. C. Simtrico podemos buscar una 2
variable cannica asimtrica, ortogonal a la primera y
con mxima correlacin con la v. endgena.
Este mismo anlisis puede hacerse para explicar las
X con las Y, pero el problema no es simtrico.
R(y/x) no tiene en cuenta las correlaciones entre las
variables y no es una medida multivariante de la
dependencia entre los conjuntos.
ULTIMAS APLICACIONES
Estudio sobre asociaciones entre
variables de tipo morfolgico de las
sp. de rayas de Baha Almejas y la
composicin de sus dietas.
Estudio de relaciones entre el
nmero de Zebrasoma flavescens
y las caractersticas de los
arrecifes de coral de Hawai.
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Ictiologa (2004):
Ecosistemas (2004):
ULTIMAS APLICACIONES
Estudio sobre asociaciones entre
caractersticas fsicas del suelo de
Gana y el uso de ste: agrcola,
cultivo forestal, vegetacin natural...
Estudio de relaciones entre v.
espectrales y nodos y entre v.
temporales y la longitudes de
onda fijas.
ANLISIS DISCRIMINANTE ANLISIS MULTIVARIANTE
Teledeteccin (2005):
Edafologa (2005):

You might also like