You are on page 1of 90

Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Coordenadas Discriminantes y Discriminacion

Graciela Boente

1/90
1 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Ejemplo
Variables medidas sobre arboles de manzana de 6 injertos. Para cada injerto hay 8 arboles. Las variables son:
x1 =Diametro del tronco a los 4 anos en unidades de 10cm,
x2 =Largo a los 4 anos,
x3 =Diametro del tronco a los 15 anos en unidades de 10cm,
x4 =Peso del arbol a los 15 anos, en unidades de 1000 libras.

Inj. 1 1 1 1 1 1 1 1 2 2 2 2
x1 1.11 1.19 1.09 1.25 1.11 1.08 1.11 1.16 1.05 1.17 1.11 1.25
x2 2.569 2.928 2.865 3.844 3.027 2.336 3.211 3.037 2.074 2.885 3.378 3.906
x3 3.58 3.75 3.93 3.94 3.60 3.51 3.98 3.62 4.09 4.06 4.87 4.98
x4 0.760 0.821 0.928 1.009 0.766 0.726 1.209 0.750 1.036 1.094 1.635 1.517
Inj. 2 2 2 2 3 3 3 3 3 3 3 3
x1 1.17 1.15 1.17 1.19 1.07 0.99 1.06 1.02 1.15 1.20 1.20 1.17
x2 2.782 3.018 3.383 3.447 2.505 2.315 2.667 2.390 3.021 3.085 3.308 3.231
x3 4.38 4.65 4.69 4.40 3.76 4.44 4.38 4.67 4.48 4.78 4.57 4.56
x4 1.197 1.244 1.495 1.026 0.912 1.398 1.197 1.613 1.476 1.571 1.506 1.458
Inj. 4 4 4 4 4 4 4 4 5 5 5 5
x1 1.22 1.03 1.14 1.01 0.99 1.11 1.20 1.08 0.91 1.15 1.14 1.05
x2 2.838 2.351 3.001 2.439 2.199 3.318 3.601 3.291 1.532 2.552 3.083 2.330
x3 3.89 4.05 4.05 3.92 3.27 3.95 4.27 3.85 4.04 4.16 4.79 4.42
x4 0.944 1.241 1.023 1.067 0.693 1.085 1.242 1.017 1.084 1.151 1.381 1.242
Inj. 5 5 5 5 6 6 6 6 6 6 6 6
x1 0.99 1.22 1.05 1.13 1.11 0.75 1.05 1.02 1.05 1.07 1.13 1.11
x2 2.079 3.366 2.416 3.100 2.813 0.840 2.199 2.132 1.949 2.251 3.064 2.469
x3 3.47 4.41 4.64 4.57 3.76 3.14 3.75 3.99 3.34 3.21 3.63 3.95
x4 0.673 1.137 1.455 1.325 0.800 0.606 0.790 0.853 0.610 0.562 0.707 0.952

2/90
2 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Ejemplo
Hemos estudiado si las medias de los Injertos 1, 2 y 3 eran iguales, o sea,
testeamos H0 : 1 = 2 = 3 .
Para ello supusimos que las matrices de covarianza eran iguales.
x1 = (1.1375, 2.9771, 3.7388, 0.8711)t
x2 = (1.1575, 3.1091, 4.5150, 1.2805)t
x3 = (1.1075, 2.8152, 4.4550, 1.3914)t
x = (1.1342, 2.9672, 4.2363, 1.1810)t
Las matrices de covarianza estimadas son

0.0034 0.0203 0.0037 0.0018 0.0034 0.0258 0.0088 0.0032
0.0203 0.2007 0.0580
0.0458 0.0258 0.3048 0.1498
0.0832
S1 =
0.0037 S2 =
0.0580 0.0352 0.0285 0.0088 0.1498 0.1157 0.0711
0.0018 0.0458 0.0285 0.0283 0.0032 0.0832 0.0711 0.0565


0.0068 0.0314 0.0087 0.0060
0.0314 0.1543 0.0480 0.0329
S3 =
0.0087

0.0480 0.0951 0.0680
0.0060 0.0329 0.0680 0.0534

3/90
3 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Ejemplo
Construmos
3 X
X ni
U = Q1 + Q2 + Q3 = (xi ,j xi )(xi ,j xi )t
i =1 j=1
k
X
H = ni (xi x)(xi x)t
i =1

obteniendo

0.0956 0.5422 0.1490 0.0771 0.0101 0.0592 0.0079 0.0346
0.5422 4.6184 1.7911 1.1326 0.0592 0.3466 0.0111 0.1674
U=
0.1490
H=
1.7911 1.7221 1.1731 0.0079 0.0111 2.9845 1.8233
0.0771 1.1326 1.1731 0.9670 0.0346 0.1674 1.8233 1.2014

El estadstico para testear H0 : 1 = 2 = 3 era


|U|
V = = (23, 4, 2)
|U + H|
y rechazamos H0 . 4/90
4 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Ejemplo
En el caso de dos poblaciones, nosotros vimos que la direccion a la
que se atribua la responsabilidad del rechazo era

b = S1 (x1 x2 )

con S = ((n1 1)S1 + (n2 1)S2 )/(n1 + n2 2)

b t u es la funcion discriminante lineal.


La funcion H(u) =
Asignabamos u a la poblacion 1 si
 
x1 + x2 m1 + m2
b tu >
z = bt =
2 2

o equivalentemente, si z m2 > m1 z

Observemos que m1 m2 > 0, luego, esto es analogo a clasificar u


en aquella poblacion donde la distancia |z mj | sea mnima. 5/90
5 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

5.991465

x1
2

5.991465
x2

x2
0

0
2

2 0 2 4

x1

6/90
6 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

0.4
0.2

m1 + m2
2
0.0

m1 m2
0.2
0.4

15 10 5 0 5

7/90
7 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Propiedad
Sea x Rp un vector aleatorio y G una variable aleatoria que
indica la pertencia al grupo, tales que para 1 i k

P(G = i ) = i E(x|G = i ) = i Var(x|G = i ) = i

entonces si = E(x) y = Var(x) se cumple que


k
X
= j j = w + b
j=1

donde
k
X k
X
w = i i b = i (i )(i )t
i =1 i =1

8/90
8 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

El Problema
Sea z = at x, luego

Var(z) = at Var(x)a = at w a + at b a

es decir, descompusimos a la varianza de z en una componente


que mide la variabilidad dentro de grupos y otra que mide la
variablidad entre grupos.
Nos interesan combinaciones lineales, o sea, vectores a tales que la
varianza de z es mucho mas grande que la varianza dentro de
grupos ya que de esto indica que la variabilidad dentro de grupos
se ve aumentada por diferencias en posicion.
Como = w + b , nos interesaran direcciones a que maximizan
at b a
Fa = t
a w a
9/90
9 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Caso k = 2

Si k = 2
b = 1 2 (1 2 )(1 2 )t
luego basta maximizar

(at (1 2 ))2
at w a
y vimos que el maximo se alcanza en

= 1
w (1 2 )

que se estima por


b = S1 (b
1
b 2)

10/90
10 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Caso k > 2
Supongamos w > 0. Sea C triangular tal que w = Ct C y
definamos
B = (C1 )t b C1
Sean 1 , . . . , p los autovectores de B asociados a los autovalores
1 p .
p
X
B= j j tj tj ` = 0 si j 6= ` k j k = 1
j=1

Como rango(B) = s min(k 1, p), j = 0 si j > s. Por


simplicidad supondremos que los autovalores no nulos son
distintos, o sea, 1 > > s . Es decir, tenemos que
Xs
B= j j tj , tj ` = 0 si 1 j 6= ` p k j k = 1 , 1 j p
j=1
11/90
11 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Caso k > 2
Luego,
at b a (Ca)t B(Ca)
Fa = t =
a w a kCak2
Por lo tanto, si b = Ca
bt Bb
max Fa = max
a6=0 b6=0 kbk2

El maximo de la expresion del lado derecho se alcanza en 1 el


autovector de B asociado a su mayor autovalor 1 .
Con lo cual,
max Fa = F1 = 1
a6=0
donde
1 = C1 1
La combinacion lineal z1 = t1 x se llama la primer coordenada
discriminante y da la mejor separacion entre grupos. 12/90
12 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Caso k > 2
Tenemos que si rechazamos H3

0 < rango(B) = rango(b ) = s min(k 1, p) .

Luego, para elegir las siguientes direcciones y no repetir


informacion, buscaremos maximizar Fa sujeto a la condicion de que
las nuevas coordenadas sean nocorrelacionadas con z1 , es decir,
tales que
Cov(at x, t1 x) = at w 1 = 0 .
Este problema se puede escribir como
bt Bb
max Fa = max
a6=0 b6=0 kbk2
at w 1 =0 bt 1 =0

El lado derecho de la expresion se alcanza en 2 el autovector de


B asociado al segundo mayor autovalor 2 . 13/90
13 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Caso k > 2

max Fa = F2 = 2 2 = C1 2
a6=0
at w 1 =0

donde 2 el autovector de B asociado a 2 .


Definicion:
Definimos la jesima variable canonica o variable discriminante zj
como
zj = tj x donde j = C1 j
El vector z = (z1 , . . . , zp )t es el vector de variables canonicas o
variables discriminantes.

z = At x con A = (1 , . . . , p )

Observemos que j es un autovector de 1


w b . 14/90
14 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Caso k > 2 y s < p


Como rango(B) = s min(k 1, p) si s < p, para todo
s + 1 m p tendremos que
max F a = F m = m = 0
a6=0
at w ` =0,`<m

Es decir, una combinacion lineal no correlacionada con z1 , . . . , zs


no dara informacion sobre las diferencias en posicion.
En particular, zs+1 , . . . , zp no dan informacion sobre las diferencias
de posicion.
O sea, si = At y si i = At i , entonces
im = m para s +1m p
Mas aun, si 1 = diag (1 , . . . , s )
 
t 1 0
A b A =
0 0 15/90
15 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Ejemplo

21
20
19

apf af
18
z2

17

5.991465
5.991465
16
15
14

1 0 1 2 3 4 5
16/90
z 16 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Caso k > 2 y s < p


Por lo tanto, solo basta considerar el vector de variables
discriminantes
z(1) = (z1 , . . . , zs ) = At1 x
donde
A = (A1 , A2 ) con A1 = (1 , . . . , s )
 (1) 
(1) z
Sean ademas, i = At1 i z(2) t
= A2 x, z =
z(2)
Si i = , 1 i k entonces w = por lo tanto,

Var(z|G = i ) = Ip E(z|G = i ) = i

Si x|G = i N(i , ) entonces

z|G = i N( i , Ip )
17/90
17 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Caso k > 2
En particular
(1)
z(1) |G = i N( i , Is )
Luego, una manera heurstica de definir una region para clasificar
una nueva observacion es asignar el vector x0 al grupo i si la media
(1)
i de las variables transformadas es la mas cercana a v0 = At1 x0 .
O sea, asigno x0 al grupo i si v0 = At1 x0 Gi donde
(1) (1)
Gi = {v Rs : kv i k < kv ` k ` 6= i }
(1) 1 (1) (1) 1 (1)
= {v Rs : ( i )t (v i ) > ( ` )t (v ` ) ` 6= j}
2 2
Si s = 1 partimos la recta de las observaciones transformadas en
dos semirectas.
Si s = 2 la regla de clasificacion genera una particion de R2 en
regiones limitadas por semirectas. 18/90
18 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Inferencia
Supongamos tener ahora observaciones xij N(i , i ),
1 j ni , 1 i k, entonces
xi es el EMV de i .
El EMV de w es
U
n
El EMV de b es
H
n
y P(rango(H) = min(p, k 1)) = 1
Un estimador insesgado de w es

U
nk
19/90
19 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Inferencia

U = Tt T

b = (T1 )t HT1 tales que kbj k = 1,


bj los autovectores de B
btj b` = 0 si ` 6= j
bj de B,
bj es el autovector asociado al jesimo autovalor b
donde

P(b1 >
b2 > >
bs > 0 y s = min(p, k 1)) = 1

aj = (T1 )t bj n k, A b 1 = (a1 , . . . , as )

(1) b t xi . Entonces, si ni es grande z(1) N( (1) , Is /ni ).


zi =A 1 i i

20/90
20 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Inferencia
(1)
Una region de confianza asintotica de nivel 1 para i esta
dada por
s
(1) (1) 2s,
{v Rs : ni kzi vk2 2s, } = {v Rs : kzi vk }
ni

Ademas, asignamos x0 al grupo i si b b t x0 Gbi donde


v0 = A 1
(1) (1)
Gbi = {v Rs : kv zi k < kv z` k ` 6= i }
(1) 1 (1) (1) 1 (1)
= {v Rs : (zi )t (v zi ) > (z` )t (v z` ) ` 6= j}
2 2
1  
(1) (1) (1) (1)
= {v Rs : (zi z` )t v z + z` > 0 ` =
6 j}
2 i
21/90
21 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Ejemplo

En el ejemplo de los arboles tenemos k = 3, p = 4 luego s = 2, los


autovalores no nulos de Bb = (T1 )t HT1 son 3.3522, 0.5879 y

0.0139 0.4232 0.0000 0.9059

b = 0.0139 0.0207 0.9996 0.0094
B 0.9845 0.1523 0.0098 0.0863
0.1742 0.8929 0.0248 0.4145

7.7167 0.0711
0.8135
b 1 = 2.7909
A
6.1042 6.3137
1.9958 10.2292

22/90
22 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II


Ejemplo: Se grafican los crculos de radio {22,0.05 /ni }1/2 = 2.4477/ ni

21
20
19
18
z2

17
16
15
14

20 21 22 23 24 25 26 27

z1

23/90
23 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Ejemplo

21
20
19

z2
18

z1
z2

17

z3
16
15
14

20 21 22 23 24 25 26 27

z1

24/90
24 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Ejemplo

21
20
19

z2
18

z1
z2

17

z3
16
15
14

20 21 22 23 24 25 26 27

z1

25/90
25 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Ejemplo 2
Medidas tridiensionales en craneos de 4 subespecies de oso
hormiguero. Las mediciones hechas fueron
y1 = Largo de base, excluyendo premaxilar
y2 = Largo oxipitonasal
y3 = Largo de los nasales.

Los datos consisten en xj = log(yj ) para las subespecies


Instabilis, (Colombia) n1 = 21, x1 = (2.054, 2.066, 1.621)t .
Chapadensis, en tres localidades
Minas Gerais: n2 = 6, x2 = (2.097, 2.1, 1.625)t,
Matto Grosso: n3 = 9, x3 = (2.091, 2.095, 1.624)t,
Santa Cruz: n3 = 3 x4 = (2.099, 2.102, 1.643)t
Chiriquensis, (Panama) n5 = 4, x5 = (2.092, 2.11, 1.703)t
Mexicana n6 = 5, x5 = (2.099, 2.107, 1.671)t
26/90
26 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

1.72
1.70
1.68
1.66
x3

x2
2.04
1.64

2.12

2.10
1.62

2.08

2.06
1.60

2.04

2.04 2.05 2.06 2.07 2.08 2.09 2.10 2.11

x1
27/90
27 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Ejemplo 2

La matrices U y H son

0.01363 0.01277 0.01644 0.02002 0.01744 0.01308
U= 0.01293 0.01714 H= 0.01585 0.01507
0.03615 0.03068

p(p+1)
Luego, 1 = pk + = 24 y 2 = p + p(p+1)
2 2 = 9 de donde
 
|U|
48 log 215
|U + H|
 
|U| |U|
= 0.1468 48 log = 92.08 215,0.01 = 30.57791
|U + H| |U + H|
y rechazo la igualdad de medias.

28/90
28 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Ejemplo 2

b son
En este ejemplo s = 3. Los autovalores de B
b1 = 2.4001
b2 = 0.9050 b3 = 0.0515


108.9220 40.6120 169.3528
b 1 = 33.8285
A 59.9577 222.1998
35.4962 22.8195 37.4651
Graficaremos las dos primeras coordenadas discriminantes.

29/90
29 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II


Ejemplo 2: Se grafican los crculos de radio {22,0.05 /ni }1/2 = 2.4477/ ni

83
82
chiriquensis
5.991465
81

5.991465
80

mexicana
z2

79

chapadensis(Bolivia)
5.991465
78

instabilis chapadensis(Minas Gerais)


5.99146
5
77

chapadensis(Matto Grosso) 5.991465


5.991465
76

94 95 96 97 98 99 100 101
30/90
z 30 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

49.0

z2
83
49.5

82

81
50.0
z3

80

79
50.5

78

77
51.0

76

94 95 96 97 98 99 100 101

z1
31/90
31 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Tenemos k poblaciones o grupos diferentes P1 , . . . , Pk y un vector


x Rp que puede pertenecer a cualquiera de esas poblaciones.
a) G una variable aleatoria que indica la pertenencia al grupo,
P(G = j) = j
Enfoque bayesiano,
= {P1 , . . . , Pk } o en forma simplificada tenemos una variable
aleatoria G que toma valores {1, . . . , k}.
Sobre definimos una probabilidad a priori que es discreta y
es tal que P(G = j) = j
b) La distribucion de x vara segun el grupo de pertenencia.
Si x pertenece a la poblacion Pj entonces x tiene densidad fj ,
x|G = j fj

c) Para dar una regla de clasificacion daremos una particion de Rp


en k conjuntos disjuntos
Rp = ki=1 Gj Gj Gs = 32/90
32 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Definiciones
La densidad marginal de x esta dada por
k
X
fx (x) = j fj (x)
j=1

y la probabilidad condicional de que una observacion pertenezca a


Pj dado que x = x0 , esta dada por
j fj (x0 )
qj (x0 ) = P(G = j|x = x0 ) = Pk
`=1 ` f` (x0 )
La cantidad qj (x0 ) es la probabilidad a posteriori.

Definicion 1.
Una regla de clasificacion es una variable aleatoria G ? (x) tal que
G ? (x) = j si x Gj
donde {G1 , . . . , Gk } es una particion de Rp . 33/90
33 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Definiciones
Podemos ver a G ? como la pertenencia predicha mientras que G es
la pertenencia real.
La teora de clasificacion trata de encontrar reglas de clasificacion
optimas en algun sentido. Lo ideal sera que P(G ? = G ) = 1, pero
esto no es posible.

Definicion 2. Para una regla de clasificacion G ? con regiones de


clasificacion {G1 , . . . , Gk }, la probabilidad de asignar la observacion
x a Pi cuando en realidad, x Pj es
Z
pi |j = P(G ? = i |G = j) = P(x Gi |G = j) = fj (x)dx
Gi
Pk
Observemos que i =1 pi |j = 1.
34/90
34 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Definiciones
A veces es posible asignar un costo ci |j 0 a la clasificacion de
una observacion del grupo j en el grupo i . En muchos casos se
elige ci |j = 1 si i 6= j.
Definimos
a) La funcion de perdida como

ci |j si i=6 j
L(Pj , i ) =
0 si i =j
k
X
L(Pj , G ? ) = L(j, G ? ) = ci |j I(x Gi |x Pj )
i =1
donde cj|j = 0.
b) El riesgo de G ? es
k
X k
X Z
? ?
R(Pj , G ) = E L(Pj , G ) = ci |j pi |j = ci |j fj (x)dx 35/90
i =1 i =1 Gi 35 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Definiciones
El Riesgo de Bayes de una regla de clasificacion G ? sera
k X
X k X
X Z
? ?
r (, G ) = ER(, G ) = j ci |j pi |j = j ci |j fj (x)dx
j=1 i 6=j j=1 i 6=j Gi

En particular, si ci |j = 1 si i 6= j tenemos que


k X
X k
X k
X Z
?
r (, G ) = j pi |j = 1 j pj|j = 1 j fj (x)dx
j=1 i 6=j j=1 j=1 Gj

que se llama la probabilidad total de mala clasificacion ya que


coincide con P(G ? 6= G ).
Si k = 2 y ci |j = 1 si i 6= j tenemos que
Z
r (, G ? ) = 1 + [2 f2 (x) 1 f1 (x)] dx
G1
36/90
36 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Definiciones

1. Diremos que una regla de clasificacion G0? es Bayes respecto


de la distribucion a priori si

r (, G0? ) = min
?
r (, G ? )
G

2. Diremos que una regla de clasificacion G0? es minimax si

max R(Pj , G0? ) = min


?
max R(Pj , G ? )
1jk G 1jk

37/90
37 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Propiedad

La regla Bayes respecto de clasifica x Pi si x Gi ,0 donde

k
X k
X
Gi ,0 = {x Rp : j ci |j fj (x) < j c`|j fj (x) ` 6= i }
j=1 j=1

o sea, clasifico x Pi si
k
X k
X
j ci |j fj (x) = min j c`|j fj (x)
`
j=1 j=1

siendo la asignacion en la frontera de Gi ,0 arbitraria.

38/90
38 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Casos particulares
a) Supongamos que ci |j = 1 si i 6= j entonces la regla Bayes
clasifica x Pi si x Gi ,0 donde
Gi ,0 = {x Rp : ` f` (x) < i fi (x) ` 6= i }
p
= {x R : q` (x) < qi (x) ` 6= i }
es decir, clasifico x Pi si qi (x) = max1`k q` (x) siendo la
asignacion en la frontera de Gi ,0 arbitraria. Por lo tanto,

i) la regla Bayes coincide con el criterio de minimizar la


probabilidad total de mala clasificacion.

ii) la regla Bayes coincide con el criterio de maximizar la


probabilidad a posteriori.

iii) si ademas, j = 1/k, 1 j k, la regla Bayes coincide con el


criterio de maxima verosimilitud, que asigna x a la poblacion que
maximiza la verosimilitud de x. 39/90
39 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Casos particulares
b) Supongamos que k = 2 entonces la regla Bayes clasifica x P1
si x G1,0 donde
 
p f1 (x) 2 c1|2
G1,0 = xR : >
f2 (x) 1 c2|1
i) Si 2 c1|2 = 1 c2|1 la regla Bayes da el criterio de maxima
verosimilitud. En particular, si ci |j = 1 si i 6= j, el criterio de
1
maxima verosimilitud es la regla Bayes asociada a 1 = 2 = 2

ii) si ci |j = 1 si i 6= j y 1 = 1 , 2 = , 0 < < 1, entonces la


regla Bayes clasifica
x P1 si
f1 (x)
x G1,0 = {x Rp : >a= }
f2 (x) 1
x P2 si
f2 (x) 1 1
x G2,0 = {x Rp : > = } 40/90
f1 (x) a
40 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Casos particulares
b) ii) Sea a0 tal que
Z Z
f2 (x)dx = f1 (x)dx
G1,0 G2,0

Luego, la regla Bayes respecto de = (0 , 1 0 ) con


0 = 1/(1 + a0 ) iguala riesgos y es la regla minimax.

c) Supongamos que x = (x1 , x2 )t con x1 Rq y que x1 y x2 son


independientes en todas las poblaciones, o sea, fj (x) = hj (x1 )`j (x2 ).
Mas aun, supongamos que `j (x2 ) = `(x2 ) para todo j. Entonces, la
regla de clasificacion se basa solamente en x1 , es decir, la regla Bayes
clasifica x Pi si x Gi ,0 donde
k
X k
X
Gi ,0 = {x = (x1 , x2 ) Rp : j ci |j hj (x1 ) < j c`|j hj (x1 ) ` 6= i}
j=1 j=1
Pk Pk
o sea, clasifico x Pi si j=1 j ci |j hj (x1 ) = min` j=1 j c`|j hj (x1 ).
41/90
41 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Ejemplo
Supongamos que k = 2, p = 2
x = (x1 , x2 )t con xi Bernouilli independientes
P(x1 = 1|G = 1) = p11 , P(x1 = 1|G = 2) = p21 ,
P(x2 = 1|G = 1) = p12 , P(x2 = 1|G = 2) = p22

Luego, la regla de clasificacion optima (Bayes) con costos iguales


lleva a una funcion discriminate lineal, o sea, decido que x P1 si
 
2
0 + 1 x1 + 2 x2 > log
1
donde
 
(1 p11 )(1 p12 )
0 = log
(1 p21 )(1 p22 )
   
p11 (1 p21 ) p12 (1 p22 )
1 = log 2 = log
(1 p11 )p21 (1 p12 )p22
42/90
42 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Problema
Hasta ahora supusimos que la distribucion de x en cada poblacion
es conocida. En la mayora de los casos esto no ocurre y tenemos
alguna de las siguientes situaciones
a) la distribucion es conocida salvo por algunos parametros que
deberemos estimar, fj = fj (, j )
b) la distribucion es parcialmente desconocida, o sea, sabemos por
ejemplo que
f1 (x)
log = + tx
f2 (x)
c) la distribucion es desconocida
En a) y b) estimamos los parametros. La regla en este caso se estima por
b ? reemplazando los parametros desconocidos por sus estimadores.
G0

Entonces, necesitamos conocer las probabilidades de error cometido, o


sea, aproximar r (, G0? ) y R(Pj , G0? ). 43/90
43 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Error optimo de clasificacion


El error de mala clasificacion de la poblacion j
k
X k Z
X
R(Pj , G0? ) = pi |j = fj (x)dx
i 6=j i 6=j Gi

Si k = 2, llamaremos
Z Z
e1,opt = R(P1 , G0? ) = f1 (x)dx = 1 f1 (x)dx
G2,0 G1,0
Z Z
e2,opt = R(P2 , G0? ) = f2 (x)dx = 1 f2 (x)dx
G1,0 G2,0
eopt = 1 e1,opt + 2 e2,opt

44/90
44 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Error optimo de clasificacion si fj = fj (, j )


El error de mala clasificacion de la poblacion j
k
X k Z
X
R(Pj , G0? ) = pi |j = fj (x, j )dx
i 6=j i 6=j Gi

Si k = 2, llamaremos
Z Z
e1,opt = R(P1 , G0? ) = f1 (x, 1 )dx = 1 f1 (x, 1 )dx
G2,0 G1,0
Z Z
e2,opt = R(P2 , G0? ) = f2 (x, 2 )dx = 1 f2 (x, 2 )dx
G1,0 G2,0
eopt = 1 e1,opt + 2 e2,opt

45/90
45 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

fj = fj (, j ), j desconocido
Hasta ahora supusimos que la distribucion de x en cada poblacion
es conocida. Supongamos que la distribucion es conocida salvo por
algunos parametros que deberemos estimar, fj = fj (, j ) y sea
bj un estimador de j basado en la muestra xj,1 , . . . , xj,n .
j

b bj )
fj (x) = fj (,
entonces la regla Bayes, con ci |j = 1 si i 6= j, se estima por la regla
b ? que clasifica x Pi si x Gbi ,0 donde
G 0

Gbi ,0 = {x Rp : f` (x) < i b


` b fi (x) ` 6= i }

Se sugiere que nj sea tres veces por lo menos la cantidad de parametros


j a estimar y el numero puede ser mayor si los grupos no estan bien
separados. 46/90
46 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Calculo errores de clasificacion fj , j = 1, 2


Se definen varios tipos de errores

a) El error actual
Z Z
e1,act b ?) =
= R(P1 , G f1 (x)dx = 1 f1 (x)dx
0
Gb2,0 Gb1,0
Z Z
b ?) =
e2,act = R(P2 , G f2 (x)dx = 1 f2 (x)dx
0
Gb1,0 Gb2,0
eact = 1 e1,act + 2 e2,act

Claramente, eopt eact


b) La tasa de error actual esperada

Eeact = 1 Ee1,act + 2 Ee2,act


47/90
47 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Estimacion de los errores de clasificacion


1) El estimador plugin
XZ Z
b
ej,act = b
fj (x)dx = 1 b
fj (x)dx
`6=j Gb`,0 Gbj,0

k
X
b
eact = j b
ek,act
j=1

Este error se basa en la corrrecta especificacion del modelo pero


ademas en muchos casos, como veremos, subestima el error
real eopt .
Si k = 2
Z Z
b
e1,act = b
f1 (x)dx = 1 b
f1 (x)dx
b2,0
G b1,0
G
Z Z
b
e2,act = b
f2 (x)dx = 1 b
f2 (x)dx b
eact = 1 e1,act + 2 e2,act
b1,0
G b2,0
G
48/90
48 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Estimacion de los errores de clasificacion


2) La tasa de error aparente.
Consideremos la regla basada en las regiones Gbj,0 , 1 j k y
sean

ni ,j = #{xi ` clasificadas en la poblacion Pj } = #{xi ` Gbj,0 }

k
X
ni = nij el total de observaciones de la poblacion i esima,
j=1
k
X
ni

bi = con n= ni
n
i =1
X
mi = #{xi ` mal clasificadas } = nij
j6=i
49/90
49 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Estimacion de los errores de clasificacion


2) La tasa de error aparente es
k
X
mi
ei ,app = eapp = i ei ,app
ni
j=1
k
X Pk
i =1 mi
b
eapp =
bi ei ,app =
n
j=1

El metodo basado en b eapp se llama tambien de resustitucion.


Este estimador del error es muy optimista ya que tiende a
subestimar la probabilidad real de error, pues los mismos datos
se usan para armar la regla (estimar los parametros) y para
evaluar la regla resultante. Los estimadores de los parametros
obtenidos son los que mejor ajustan a los datos y por ello
tiendo a clasificar mejor.
50/90
50 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Estimacion de los errores de clasificacion

2) Veamos un ejemplo de como la tasa de error aparente


subestima.

Sea X R y supongamos que n1 = n2 = 1, o sea, tenemos las


observaciones x1 y x2 de la poblacion 1 y 2, respectivamente.
Supongamos x1 > x2 .

Consideremos la regla de clasificacion que asigna x a P1 si


x (x1 + x2 )/2 y al grupo 2 en otro caso.

Entonces, b
eapp = 0, lo cual es demasiado optimista.

51/90
51 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Estimacion de los errores de clasificacion

3) El estimador de convalidacion cruzada.


En este metodo se sacan las observaciones de a una. Con los
n 1 datos restantes se arma la regla y se clasifica la
observacion extrada. Sea

ai = #{xi ` mal clasificadas , 1 ` ni }

k
X
ai
ei ,cv = ecv = i ei ,cv
ni
i =1
k
X Pk
i =1 ai
b
ecv =
bi ei ,cv =
n
i =1

52/90
52 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Estimacion de los errores de clasificacion

3) El estimador de convalidacion cruzada.


Este metodo da estimadores consistentes del error pero con
varianza grande.
Obviamente, es mas costoso computacionalmente pero da
resultados mas honestos y debera ser usado si es posible.
En el caso normal, las formulas para los estimadores de los
parametros evitan efectuar el calculo de la regla en cada paso.

4) Otra opcion es usar el metodo de Mfold que divide la


muestra total en M grupos y construye la regla con M 1
grupos mientras clasifica el grupo restante, sucesivamente.

53/90
53 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Estimacion de los errores de clasificacion


5) El estimador bootstrap.
Como ei ,app es sesgado, Efron (1979) sugiere estimar su sesgo
usando boostrap.
a) Para cada 1 i k, tomamos una muestra xi ` con reemplazo de
la muestra original de la poblacion Pi , de tamano ni .
b) Construyamos la regla de clasificacion basada en esta muestras
que llamaremos G b ?, con regiones Gb . Sean
0 i ,0

/ Gbj,0
mi =#{xi ` mal clasificadas 1 ` ni } = #{xi `
1 ` ni }
mi =#{xi ` mal clasificadas 1 ` ni } = #{xi ` / Gbj,0

1 ` ni }
mi mi
di =
ni

c) Repitase a) y b) un numero B grande de veces. Sea di ,s el valor


P
de di en la replicacion s y defina d i = Bs=1 di ,s
54/90
54 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Estimacion de los errores de clasificacion

5) El estimador bootstrap.
El estimador bootstrap se define como
k
X
mi
ei ,boot = + di eboot = i ei ,boot
ni
i =1
k
X
b
eboot =
bi ei ,boot
i =1

55/90
55 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

fj N(j , j )
Supongamos que ci |j = 1 si i 6= j entonces la regla Bayes clasifica
x Pi si x Gi ,0 donde

` fi (x)
Gi ,0 = {x Rp : < ` 6= i }
i f (x)
 `   
fi (x) `
= {x Rp : log > log ` 6= i }
f` (x) i

donde
 
fi (x) 1 det(` ) 1 t 1 
log = log i i i t` 1
` `
f` (x) 2 det(j ) 2
1  t 1  
x i 1 ` x 2xt 1
i i 1` `
2
o sea, obtenemos una forma cuadratica en x.
56/90
56 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Caso ` =
En este caso,
 
fi (x) 1 1
log = ti 1 (x i ) t` 1 (x ` )
f` (x) 2 2

Por lo tanto, si llamamos


1
Li (x) = log i + ti 1 (x i )
2
asigno x al grupo con mayor Li (x), o sea, clasifico x Pi si

Li (x) = max L` (x)


1`k

Si j = k1 para todo j, esta regla de clasificacion es la obtenida


antes con las coordenadas discriminantes.
57/90
57 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Caso ` =
En este caso, asigno x al grupo con mayor Li (x) donde llamamos
1
Li (x) = log i + ti 1 (x i )
2
Las funciones
 
t 1 (i + ` )
di ` (x) = Li (x)L` (x) = (i ` ) x +log i log `
2

se llaman funciones discriminantes y di ` (x) = d`i (x). Sea


i ,` = 1 (i ` ), Luego
 
( + ` )
di ` (x) = ti ,` x i + log i log `
2

58/90
58 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Caso ` =
Si tenemos k poblaciones, solo necesitamos encontrar  
k
r = min(p, k 1) direcciones de proyeccion en lugar de .
2
Efectivamente, basta conocer i ,i +1 , 1 i k 1 ya que

i ,i +2 = i ,i +1 i +1,i +2

Ejemplo: Si k = 3 y obtenemos que L1 (x) > L2 (x) y


L2 (x) > L3 (x) entonces L1 (x) > L3 (x).
Si ademas p = 2 cada ecuacion di ` (x) = 0 es una recta y las tres
rectas se cortan en el mismo punto ya que

d13 (x) = L1 (x)L3 (x) = L1 (x)L2 (x)+(L2 (x)L3 (x)) = d12 (x)+d23 (x)

59/90
59 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Caso ` =

Si k = 2, como = 1 (1 2 )
 
( + 2 )
d12 (x) = t x 1 + log 1 log 2
2

es la regla discriminante lineal de Fisher que clasifica en el grupo 1


si d12 (x) > 0.
El hiperplano d12 (x) = 0 determina un hiperplano que separa los
dos grupos.

60/90
60 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Caso ` =
Veamos que si j = k1 para todo j, la regla de clasificacion Bayes es la
obtenida antes con las coordenadas discriminantes. Sea
P
b = ki=1 i (i )(i )t , s = rango(b )
z = z = At x = (zt t t
1 , z2 ) el vector de variables discriminantes con

A = (1 , . . . , p ) = (A1 , A2 ) donde A1 = (1 , . . . , s )

z(1) = At
1 x, z
(2)
= At
2x

i = At i , entonces (2)
i = (2)

Si x|G = i N(i , ) vimos que


z|G = i N( i , Ip )
o sea,
(1)
z(1) |G = i N( i , Is ) z(2) N( (2) , Ips )
61/90
61 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Caso ` =
La regla que vimos asignaba x0 al grupo i si v0 = At1 x0 Gi donde

(1) (1)
Gi = {v Rs : kv i k < kv ` k ` 6= i }
(1) 1 (1) (1) 1 (1)
= {v Rs : ( i )t (v i ) > ( ` )t (v ` ) ` 6= i }
2 2
1
Esta regla es Bayes cuando j = k para todo j.
Para una probabilidad a priori general tenemos que modificar Gi
por Gi , , o sea, asigno x0 al grupo i si v0 = At1 x0 Gi , donde
(1) (1) 2
Gi , = {v Rs : kv i k2 2 log(i ) < kv ` k 2 log(` ) ` 6= i}
1 (1) 1 (1)
{v Rs : ( i )t (v i ) > ( ` )t (v
(1) (1)
= )
2 2 `
+ log(` ) log(i ) ` 6= i}

62/90
62 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

fj N(j , j ), j = 1, 2

Definicion. Supongamos que x N(j , j ), j = 1, 2. Se dice que


x esta dada en forma canonica si 1 = 0, 1 = Ip y 2 es
diagonal. Llamaremos = 2 = diag(1 , . . . , p ) y
2 = = (1 , . . . , p )t .

Propiedad. Supongamos que x N(j , j ), j = 1, 2 donde


1 > 0, 2 > 0. Entonces existe Rpp no singular tal que
z = t (x 1 ) esta en forma canonica.

63/90
63 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Por lo tanto, si ci |j = 1 si i 6= j entonces la regla Bayes clasifica


x P1 si z = t (x 1 ) G1,0 donde
   
p f1 (x) 2
G1,0 = {z R : log > log } = {z Rp : Q(z) > 0}
f2 (x) 1
con
p
X p
X
Q(z) = aii zi2 + bi z i + c
i =1 i =1


1
1 i
aii = 1 bi =
2
i i
  p p
1 1X 1 X s2
c = log + log s +
2 2 2 s
s=1 s=1

La ventaja de la forma canonica es que los terminos de la forma


aij xi xj desaparecen lo que hace mas facil de entender la regla de
clasificacion. 64/90
64 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Ejemplo p = 2

Tomemos 1 = 2 = 1/2 y los siguientes valores para y

Caso 1 2 1 2 a11 a22 b1 b2 c


A 2 1 0.4 0.1 0.75 4.5 -5 -10 8.391
B 2 -1 4 0.25 -0.375 1.5 -0.5 4 2.5
C 3 1 4 1 -0.375 0 -0.75 -1 2.318
D 2 0 10 1 -0.45 0 -0.2 0 1.351

65/90
65 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Ejemplo p = 2, Caso A

6
4
x2

G2
1
0

1
2

G1

2 0 2 4 6
66/90
66 / 90
x
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Ejemplo p = 2, Caso B

6
4

G1
x2

G2
0

G2 1
0
0

1
2

G1

2 0 2 4 6
67/90
67 / 90
x
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Ejemplo p = 2, Caso C, a22 = 0

G2
4

0
x2

1
0

1
2

G1

2 0 2 4 6
68/90
68 / 90
x
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Ejemplo p = 2, Caso D, a22 = 0, b2 = 0

0
6
4 G2 G1 G2
x2

2
0

1 1
2

2 0 2 4 6
69/90
69 / 90
x
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

 
1 0.6
Ejemplo 1 = (1, 0.5), 2 = (1.5, 0.5), 1 = ,
0.6 1
 
1 0.8
2 =
0.8 1
4
G2

G1
2

1
x2

1
2

G2
4

4 2 0 2 4

x1 70/90
70 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

 
1 0.6
Ejemplo 1 = (1, 0.5), 2 = (1.5, 0.5), 1 = ,
0.6 1
 
1 0.8
2 =
0.8 1

Datos transformados z = t (x 1 ).
 
0.5590 1.1180
=
0.5590 1.1180
1 = 0.125 2 = 4.5
a11 = 3.500 a22 = 0.3889
b1 = 6.708 b2 = 0.8696 c = 5.325

71/90
71 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Datos transformados z = t (x 1 )

2
0

1
2

G1
y2

4
6

G2

6 4 2 0 2

y1

72/90
72 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Calculo errores de clasificacion fj Np (j , ), j = 1, 2

= 1 (1 2 ),
la regla G0? clasifica en el grupo 1 si x G1,0 , con
G1,0 = {x : d12 (x) > 0}
 
t (1 + 2 )
d12 (x) = x + log 1 log 2
2

2p = t (1 2 ) = (1 2 )t 1 (1 2 ) = t
Luego
Z Z
R(P1 , G0? ) = f1 (x)dx = 1 f1 (x)dx
G2,0 G1,0

73/90
73 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Calculo errores de clasificacion fj Np (j , ), j = 1, 2


En P1 , x Np (1 , ) luego
t x N(t 1 , t ) = N(t 1 , 2p )
de donde
 
2 1
log 2p
1 2
R(P1 , G0? ) =



p

 
2 1
log + 2p
1 2
R(P2 , G0? ) =



p

   
2 1 2 1 2
log 2p log +
1 2 1 2 p
eopt = r (, G0? ) = 1

+ 2



p p
74/90
74 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Calculo errores de clasificacion fj Np (j , ), j = 1, 2


Si 1 = 2 = 1/2 entonces
 
1
R(P1 , G0? ) = R(P2 , G0? ) = p
2

y G0? es minimax.
En general, la regla minimax asigna al grupo 1 si
t (1 +2 )
D(x) = x 2 > log(c) donde c se elige de modo que

1 2 1 2
log(c) p log(c) p
2 2
=
p p

que tiene como solution c = 1 coincidiendo con el metodo de


cociente de verosimilitud. 75/90
75 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Calculo errores de clasificacion fj Np (j , ), j = 1, . . . , k


la regla G0? clasifica en el grupo i si x Gi ,0 , con

Gi ,0 = {x : di ` (x) > 0` 6= i } = {x : Li (x) = max L` (x)}


`
 
t 1 (i + ` )
di ` (x) = Li (x)L` (x) = (i ` ) x +log i log `
2

2i ` = (i ` )t 1 (i ` )

Luego
XZ Z
R(Pi , G0? ) = fi (x)dx = 1 fi (x)dx
`6=i G`,0 Gi ,0

76/90
76 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Calculo errores de clasificacion fj Np (j , ), j = 1, . . . , k

En Pi , x Np (i , ) luego
 
1 2 2
di ` (x) N + log i log ` , i `
2 i`

Mas aun, el vector di (x) = (di ` (x))`6=i tiene distribucion normal


(k 1)variada y

Cov(di ` (x), dij (x)) = (i ` )t 1 i j

Si k = 3 se pueden calcular, facilmente.

77/90
77 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

fi N(i , i ) con i , i desconocidos


Supongamos tener xij N(i , i ), 1 j ni , 1 i k entonces
estimamos i y i por
ni
Qi 1 X
b i = xi
Si = = (xi ,j xi )(xi ,j xi )t
ni 1 ni
j=1

Clasificamos x Pi si x Gbi ,0 con


!  
b
fi (x) `
Gbi ,0 = {x R : p
log > log ` 6= i }
b
f` (x) i

donde b b i , Si ) con f (x, , ) N(, )


fi (x) = f (x,
!
b
fi (x) 1 det(S` ) 1 t 1 
log = log b i Si
b t` S1
bi ` b`
b
f` (x) 2 det(Sj ) 2
1  
xt S1 i S`
1
x 2xt S1
i b i S1
` b`

2 78/90
78 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

fi N(i , ) con i , desconocidos


Supongamos tener xij N(i , ), 1 j ni , 1 i k entonces
estimamos i y por
k k ni
1 X 1 XX
b i = xi
S= Qi = (xi ,j xi )(xi ,j xi )t
nk nk
i =1 i =1 j=1

Clasificamos x Pi si x Gbi ,0 con


Gbi ,0 = {x Rp : b
Li (x) > b
L` (x) ` 6= i } = {x Rp : dbi ` (x) > 0}
donde
1
b b ti S1 (x
Li (x) = log i + b)
2 i

dbi ` (x) = b
Li (x) bL (x)
 `  
i t 1 bi +
b`
= log + (bi
b `) S x
` 2 79/90
79 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Estimacion de los errores de clasificacion k = 2, fj Np (j , )


En el caso normal clasificamos x P1 si db12 (x) > 0,
   
1 x1 + x2
db12 (x) = log + (x1 x2 )t S1 x
2 2
   
1 x1 + x2
= log + bt x
2 2

Por lo tanto, como si x Np (1 , ) y si llamamos 2 = b t b,


X1 = (x1,1 , . . . , x1,n1 ) y X2 = (x2,1 , . . . , x2,n2 ), entonces
     
t x1 + x2 t x1 + x2 2
b
x |(X1 , X2 ) N b 1 ,
2 2
 
db12 (x) N db12 (1 ), 2

80/90
80 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Estimacion de los errores de clasificacion k = 2,


fj Np (j , )
Z Z
e1,act = f1 (x)dx = f1 (x)dx
Gb2,0 b12 (x)<0
d
     
t x1 + x2 1
= P x
b + log < 0|x Np (1 , )
2 2
! !
db12 (1 ) db21 (1 )
= =

Por lo tanto,
! !
db21 (1 ) db12 (2 )
eact = 1 + 2

81/90
81 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Estimacion de los errores de clasificacion k = 2,


fj Np (j , )
   
2 1 2 1 2
log Dp2 log + D
1 2 1 2 p
b
eact = 1
+
2


Dp Dp

donde
b t (b
Dp2 = 1 b 2 )t S1 (b
1
b 2 ) = (b 1
b 2)
Si 1 y 2 son desconocidos se estiman por n1 /n y n2 /n, con
n = n1 + n2 . Si 1 = 2 = 0.5, entonces
 
1
eact = Dp
b
2
82/90
82 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Estimacion de los errores de clasificacion k = 2,


fj Np (j , )
Como EF1 ,2 () = 2 (1 + )/[1 (2 2)] si 2 > 2 y
n1 + n2 p 1 2
T Fp,n1 +n2 p1 (2 )
(n1 + n2 2)p 0

con 2 = n1 n2
n1 +n2 (1 2 )t 1 (1 2 ) y
n1 n2
T02 = (x1 x2 )t S1 (x1 x2 )
n1 + n2
tenemos que
 
n2 pn
EDp2 = 2p +
np3 n1 n2

Dp2 sobreestima a 2p y por lo tanto, b


eact subestima el error real
eact . 83/90
83 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Estimacion de los errores de clasificacion k = 2,


x|x Pj fj = fj (x, j )
Supongamos que ci |j = 1 si i 6= j entonces la regla Bayes
clasificaba x Pi si x Gi ,0 donde

Gi ,0 = {x Rp : ` f` (x) < i fi (x) ` 6= i }


p
= {x R : r` (x) < ri (x) ` 6= i }

es decir, clasifico x Pi si ri (x) = max1`k r` (x), donde


ri (x) = fi (x, i )i .

Lema. Sea b bi )i un estimador insesgado de ri (x), o


ri (x) = fi (x,
sea, Ebb
ri (x)|x = ri (x) para casi todo x. Luego

eact eopt < Eeact


Eb
84/90
84 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Ejemplo Manzanos

21
20
19

z2
18

z1
z2

17

z3
16
15
14

20 21 22 23 24 25 26 27

z1

85/90
85 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Ejemplo Manzanos
: Asignado al grupo 1, asignado al grupo 2, N asignado al grupo 3

Manzanas
2.5 3.0 3.5 0.8 1.0 1.2 1.4 1.6

1.20
Girth.4

1.10
1.00
3.5
3.0

Growth.4
2.5

5.0
4.5
Girth.15

4.0
3.5
1.6

Weight.15
1.2
0.8

86/90
1.00 1.10 1.20 3.5 4.0 4.5 5.0
86 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Ejemplo Manzanos: En negro bien clasificados, en rojo mal clasificados


Partition Plot
app. error rate: 0.583 app. error rate: 0.333 app. error rate: 0.333

1.25

1.25
12 1 2 2
1

1.20

1.20
3 3 3 3

3.5
1 2 1 2 2
22 3 2 2 2 3 2 2 2
1 1 3
1.15

1.15
3
2 3 2 1 3

Growth.4
Girth.4

Girth.4
3
11

3.0
3 2
1 1 1 2 11 1 2 1
1.10

1.10
1 2
1 1 2
1 1 3
3 3
3 3 1
1.05

1.05

2.5
2 2 3
3
1 3
3 3
1.00

1.00
3 3 2
2.5 3.0 3.5 3.6 4.0 4.4 4.8 3.6 4.0 4.4 4.8

Growth.4 Girth.15 Girth.15

app. error rate: 0.375 app. error rate: 0.25 app. error rate: 0.25
1.25

1 2 2 2
1
2

4.8
3
1.20

3 3 2
3.5

1 2 2 3

4.6
2
2 2 32 2 2 33
1 3 3
1.15

3 3

4.4
2 3 1 2 3
2
Growth.4

Girth.15
Girth.4

3
11
3.0

2 3

4.2
1 1 2 1
1.10

1 2
1 2 22

4.0
1 3
3 1
3 1 1 1
1.05

2.5

2 3
3.8
3 1 3
1 3
3 3.6
11
1.00

1
3 2 1
0.8 1.0 1.2 1.4 1.6 0.8 1.0 1.2 1.4 1.6 0.8 1.0 1.2 1.4 1.6

Weight.15 Weight.15 Weight.15


87/90
87 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Comparacion entre LDF y QDF, k = 2


En general la decision de elegir entre la regla lineal (LDF) y
cuadratica (QDF) se hace en base al resultado del test para
H0 : 1 = 2 . Si el test rechaza se usa QDF.

A pesar de que esta decision es razonable ya que LDF es


optima si H0 es cierta, hay un numero importante de trabajos
que muestran que aunque no lo sea, LDF es tan buena como
QDF.

Uno podra basar su decision en elegir el metodo que da


menor error aparente, beapp , lo cual es peligroso ya que este
estimador del error subestima el error real, eact . El calculo del
error actual esperado solo puede hacerse por simulacion.

Una opcion es utilizar el ecv para elegir entre ambas reglas.


88/90
88 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Comparacion entre LDF y QDF, k = 2


En general, LDF es buena para pequenos alejamientos de
H0 : 1 = 2 . El mejor comportamiento de QDF depende del
tamano de las muestras y de la dimension.
Para n1 y n2 pequenas y p 6 hay poca perdida al elegir LDF.

Para n1 , n2 25 y p grande y/o diferencias entre 1 y 2 ,


LDF es preferible.

Sin embargo, cuando p grande y 1 y 2 son muy distintas,


la probabilidades de mala clasificacion e1,act y e2,act pueden
ser muy grandes para un uso practico

89/90
89 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II

Comparacion entre LDF y QDF, k = 2


Si 1 6= 2 y la diferencia es grande y p > 6, QDF es mucho
mejor que LDF si el tamano de muestra es grande.

Se recomienda para p = 4, n1 = n2 = 25

25 observaciones adicionales cada dos dimensiones, o sea, para


p = 6, 8, 10 se necesitan n1 = n2 = 50, 75, 100

Para ni 100 y p moderado los resultados asintoticos que


favorecen QDF se alcanzan bastante rapido.

QDF se deteriora rapidamente si p crece porque Si no provee


una estimacion confiable de i si p es una fraccion moderada
de ni .
90/90
90 / 90

You might also like