Professional Documents
Culture Documents
Graciela Boente
1/90
1 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Ejemplo
Variables medidas sobre arboles de manzana de 6 injertos. Para cada injerto hay 8 arboles. Las variables son:
x1 =Diametro del tronco a los 4 anos en unidades de 10cm,
x2 =Largo a los 4 anos,
x3 =Diametro del tronco a los 15 anos en unidades de 10cm,
x4 =Peso del arbol a los 15 anos, en unidades de 1000 libras.
Inj. 1 1 1 1 1 1 1 1 2 2 2 2
x1 1.11 1.19 1.09 1.25 1.11 1.08 1.11 1.16 1.05 1.17 1.11 1.25
x2 2.569 2.928 2.865 3.844 3.027 2.336 3.211 3.037 2.074 2.885 3.378 3.906
x3 3.58 3.75 3.93 3.94 3.60 3.51 3.98 3.62 4.09 4.06 4.87 4.98
x4 0.760 0.821 0.928 1.009 0.766 0.726 1.209 0.750 1.036 1.094 1.635 1.517
Inj. 2 2 2 2 3 3 3 3 3 3 3 3
x1 1.17 1.15 1.17 1.19 1.07 0.99 1.06 1.02 1.15 1.20 1.20 1.17
x2 2.782 3.018 3.383 3.447 2.505 2.315 2.667 2.390 3.021 3.085 3.308 3.231
x3 4.38 4.65 4.69 4.40 3.76 4.44 4.38 4.67 4.48 4.78 4.57 4.56
x4 1.197 1.244 1.495 1.026 0.912 1.398 1.197 1.613 1.476 1.571 1.506 1.458
Inj. 4 4 4 4 4 4 4 4 5 5 5 5
x1 1.22 1.03 1.14 1.01 0.99 1.11 1.20 1.08 0.91 1.15 1.14 1.05
x2 2.838 2.351 3.001 2.439 2.199 3.318 3.601 3.291 1.532 2.552 3.083 2.330
x3 3.89 4.05 4.05 3.92 3.27 3.95 4.27 3.85 4.04 4.16 4.79 4.42
x4 0.944 1.241 1.023 1.067 0.693 1.085 1.242 1.017 1.084 1.151 1.381 1.242
Inj. 5 5 5 5 6 6 6 6 6 6 6 6
x1 0.99 1.22 1.05 1.13 1.11 0.75 1.05 1.02 1.05 1.07 1.13 1.11
x2 2.079 3.366 2.416 3.100 2.813 0.840 2.199 2.132 1.949 2.251 3.064 2.469
x3 3.47 4.41 4.64 4.57 3.76 3.14 3.75 3.99 3.34 3.21 3.63 3.95
x4 0.673 1.137 1.455 1.325 0.800 0.606 0.790 0.853 0.610 0.562 0.707 0.952
2/90
2 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Ejemplo
Hemos estudiado si las medias de los Injertos 1, 2 y 3 eran iguales, o sea,
testeamos H0 : 1 = 2 = 3 .
Para ello supusimos que las matrices de covarianza eran iguales.
x1 = (1.1375, 2.9771, 3.7388, 0.8711)t
x2 = (1.1575, 3.1091, 4.5150, 1.2805)t
x3 = (1.1075, 2.8152, 4.4550, 1.3914)t
x = (1.1342, 2.9672, 4.2363, 1.1810)t
Las matrices de covarianza estimadas son
0.0034 0.0203 0.0037 0.0018 0.0034 0.0258 0.0088 0.0032
0.0203 0.2007 0.0580
0.0458 0.0258 0.3048 0.1498
0.0832
S1 =
0.0037 S2 =
0.0580 0.0352 0.0285 0.0088 0.1498 0.1157 0.0711
0.0018 0.0458 0.0285 0.0283 0.0032 0.0832 0.0711 0.0565
0.0068 0.0314 0.0087 0.0060
0.0314 0.1543 0.0480 0.0329
S3 =
0.0087
0.0480 0.0951 0.0680
0.0060 0.0329 0.0680 0.0534
3/90
3 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Ejemplo
Construmos
3 X
X ni
U = Q1 + Q2 + Q3 = (xi ,j xi )(xi ,j xi )t
i =1 j=1
k
X
H = ni (xi x)(xi x)t
i =1
obteniendo
0.0956 0.5422 0.1490 0.0771 0.0101 0.0592 0.0079 0.0346
0.5422 4.6184 1.7911 1.1326 0.0592 0.3466 0.0111 0.1674
U=
0.1490
H=
1.7911 1.7221 1.1731 0.0079 0.0111 2.9845 1.8233
0.0771 1.1326 1.1731 0.9670 0.0346 0.1674 1.8233 1.2014
Ejemplo
En el caso de dos poblaciones, nosotros vimos que la direccion a la
que se atribua la responsabilidad del rechazo era
b = S1 (x1 x2 )
o equivalentemente, si z m2 > m1 z
5.991465
x1
2
5.991465
x2
x2
0
0
2
2 0 2 4
x1
6/90
6 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
0.4
0.2
m1 + m2
2
0.0
m1 m2
0.2
0.4
15 10 5 0 5
7/90
7 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Propiedad
Sea x Rp un vector aleatorio y G una variable aleatoria que
indica la pertencia al grupo, tales que para 1 i k
donde
k
X k
X
w = i i b = i (i )(i )t
i =1 i =1
8/90
8 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
El Problema
Sea z = at x, luego
Var(z) = at Var(x)a = at w a + at b a
Caso k = 2
Si k = 2
b = 1 2 (1 2 )(1 2 )t
luego basta maximizar
(at (1 2 ))2
at w a
y vimos que el maximo se alcanza en
= 1
w (1 2 )
10/90
10 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Caso k > 2
Supongamos w > 0. Sea C triangular tal que w = Ct C y
definamos
B = (C1 )t b C1
Sean 1 , . . . , p los autovectores de B asociados a los autovalores
1 p .
p
X
B= j j tj tj ` = 0 si j 6= ` k j k = 1
j=1
Caso k > 2
Luego,
at b a (Ca)t B(Ca)
Fa = t =
a w a kCak2
Por lo tanto, si b = Ca
bt Bb
max Fa = max
a6=0 b6=0 kbk2
Caso k > 2
Tenemos que si rechazamos H3
Caso k > 2
max Fa = F2 = 2 2 = C1 2
a6=0
at w 1 =0
z = At x con A = (1 , . . . , p )
Ejemplo
21
20
19
apf af
18
z2
17
5.991465
5.991465
16
15
14
1 0 1 2 3 4 5
16/90
z 16 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Var(z|G = i ) = Ip E(z|G = i ) = i
z|G = i N( i , Ip )
17/90
17 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Caso k > 2
En particular
(1)
z(1) |G = i N( i , Is )
Luego, una manera heurstica de definir una region para clasificar
una nueva observacion es asignar el vector x0 al grupo i si la media
(1)
i de las variables transformadas es la mas cercana a v0 = At1 x0 .
O sea, asigno x0 al grupo i si v0 = At1 x0 Gi donde
(1) (1)
Gi = {v Rs : kv i k < kv ` k ` 6= i }
(1) 1 (1) (1) 1 (1)
= {v Rs : ( i )t (v i ) > ( ` )t (v ` ) ` 6= j}
2 2
Si s = 1 partimos la recta de las observaciones transformadas en
dos semirectas.
Si s = 2 la regla de clasificacion genera una particion de R2 en
regiones limitadas por semirectas. 18/90
18 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Inferencia
Supongamos tener ahora observaciones xij N(i , i ),
1 j ni , 1 i k, entonces
xi es el EMV de i .
El EMV de w es
U
n
El EMV de b es
H
n
y P(rango(H) = min(p, k 1)) = 1
Un estimador insesgado de w es
U
nk
19/90
19 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Inferencia
U = Tt T
P(b1 >
b2 > >
bs > 0 y s = min(p, k 1)) = 1
aj = (T1 )t bj n k, A b 1 = (a1 , . . . , as )
20/90
20 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Inferencia
(1)
Una region de confianza asintotica de nivel 1 para i esta
dada por
s
(1) (1) 2s,
{v Rs : ni kzi vk2 2s, } = {v Rs : kzi vk }
ni
Ejemplo
22/90
22 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Ejemplo: Se grafican los crculos de radio {22,0.05 /ni }1/2 = 2.4477/ ni
21
20
19
18
z2
17
16
15
14
20 21 22 23 24 25 26 27
z1
23/90
23 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Ejemplo
21
20
19
z2
18
z1
z2
17
z3
16
15
14
20 21 22 23 24 25 26 27
z1
24/90
24 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Ejemplo
21
20
19
z2
18
z1
z2
17
z3
16
15
14
20 21 22 23 24 25 26 27
z1
25/90
25 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Ejemplo 2
Medidas tridiensionales en craneos de 4 subespecies de oso
hormiguero. Las mediciones hechas fueron
y1 = Largo de base, excluyendo premaxilar
y2 = Largo oxipitonasal
y3 = Largo de los nasales.
1.72
1.70
1.68
1.66
x3
x2
2.04
1.64
2.12
2.10
1.62
2.08
2.06
1.60
2.04
x1
27/90
27 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Ejemplo 2
La matrices U y H son
0.01363 0.01277 0.01644 0.02002 0.01744 0.01308
U= 0.01293 0.01714 H= 0.01585 0.01507
0.03615 0.03068
p(p+1)
Luego, 1 = pk + = 24 y 2 = p + p(p+1)
2 2 = 9 de donde
|U|
48 log 215
|U + H|
|U| |U|
= 0.1468 48 log = 92.08 215,0.01 = 30.57791
|U + H| |U + H|
y rechazo la igualdad de medias.
28/90
28 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Ejemplo 2
b son
En este ejemplo s = 3. Los autovalores de B
b1 = 2.4001
b2 = 0.9050 b3 = 0.0515
108.9220 40.6120 169.3528
b 1 = 33.8285
A 59.9577 222.1998
35.4962 22.8195 37.4651
Graficaremos las dos primeras coordenadas discriminantes.
29/90
29 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Ejemplo 2: Se grafican los crculos de radio {22,0.05 /ni }1/2 = 2.4477/ ni
83
82
chiriquensis
5.991465
81
5.991465
80
mexicana
z2
79
chapadensis(Bolivia)
5.991465
78
94 95 96 97 98 99 100 101
30/90
z 30 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
49.0
z2
83
49.5
82
81
50.0
z3
80
79
50.5
78
77
51.0
76
94 95 96 97 98 99 100 101
z1
31/90
31 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Definiciones
La densidad marginal de x esta dada por
k
X
fx (x) = j fj (x)
j=1
Definicion 1.
Una regla de clasificacion es una variable aleatoria G ? (x) tal que
G ? (x) = j si x Gj
donde {G1 , . . . , Gk } es una particion de Rp . 33/90
33 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Definiciones
Podemos ver a G ? como la pertenencia predicha mientras que G es
la pertenencia real.
La teora de clasificacion trata de encontrar reglas de clasificacion
optimas en algun sentido. Lo ideal sera que P(G ? = G ) = 1, pero
esto no es posible.
Definiciones
A veces es posible asignar un costo ci |j 0 a la clasificacion de
una observacion del grupo j en el grupo i . En muchos casos se
elige ci |j = 1 si i 6= j.
Definimos
a) La funcion de perdida como
ci |j si i=6 j
L(Pj , i ) =
0 si i =j
k
X
L(Pj , G ? ) = L(j, G ? ) = ci |j I(x Gi |x Pj )
i =1
donde cj|j = 0.
b) El riesgo de G ? es
k
X k
X Z
? ?
R(Pj , G ) = E L(Pj , G ) = ci |j pi |j = ci |j fj (x)dx 35/90
i =1 i =1 Gi 35 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Definiciones
El Riesgo de Bayes de una regla de clasificacion G ? sera
k X
X k X
X Z
? ?
r (, G ) = ER(, G ) = j ci |j pi |j = j ci |j fj (x)dx
j=1 i 6=j j=1 i 6=j Gi
Definiciones
r (, G0? ) = min
?
r (, G ? )
G
37/90
37 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Propiedad
k
X k
X
Gi ,0 = {x Rp : j ci |j fj (x) < j c`|j fj (x) ` 6= i }
j=1 j=1
o sea, clasifico x Pi si
k
X k
X
j ci |j fj (x) = min j c`|j fj (x)
`
j=1 j=1
38/90
38 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Casos particulares
a) Supongamos que ci |j = 1 si i 6= j entonces la regla Bayes
clasifica x Pi si x Gi ,0 donde
Gi ,0 = {x Rp : ` f` (x) < i fi (x) ` 6= i }
p
= {x R : q` (x) < qi (x) ` 6= i }
es decir, clasifico x Pi si qi (x) = max1`k q` (x) siendo la
asignacion en la frontera de Gi ,0 arbitraria. Por lo tanto,
Casos particulares
b) Supongamos que k = 2 entonces la regla Bayes clasifica x P1
si x G1,0 donde
p f1 (x) 2 c1|2
G1,0 = xR : >
f2 (x) 1 c2|1
i) Si 2 c1|2 = 1 c2|1 la regla Bayes da el criterio de maxima
verosimilitud. En particular, si ci |j = 1 si i 6= j, el criterio de
1
maxima verosimilitud es la regla Bayes asociada a 1 = 2 = 2
Casos particulares
b) ii) Sea a0 tal que
Z Z
f2 (x)dx = f1 (x)dx
G1,0 G2,0
Ejemplo
Supongamos que k = 2, p = 2
x = (x1 , x2 )t con xi Bernouilli independientes
P(x1 = 1|G = 1) = p11 , P(x1 = 1|G = 2) = p21 ,
P(x2 = 1|G = 1) = p12 , P(x2 = 1|G = 2) = p22
Problema
Hasta ahora supusimos que la distribucion de x en cada poblacion
es conocida. En la mayora de los casos esto no ocurre y tenemos
alguna de las siguientes situaciones
a) la distribucion es conocida salvo por algunos parametros que
deberemos estimar, fj = fj (, j )
b) la distribucion es parcialmente desconocida, o sea, sabemos por
ejemplo que
f1 (x)
log = + tx
f2 (x)
c) la distribucion es desconocida
En a) y b) estimamos los parametros. La regla en este caso se estima por
b ? reemplazando los parametros desconocidos por sus estimadores.
G0
Si k = 2, llamaremos
Z Z
e1,opt = R(P1 , G0? ) = f1 (x)dx = 1 f1 (x)dx
G2,0 G1,0
Z Z
e2,opt = R(P2 , G0? ) = f2 (x)dx = 1 f2 (x)dx
G1,0 G2,0
eopt = 1 e1,opt + 2 e2,opt
44/90
44 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Si k = 2, llamaremos
Z Z
e1,opt = R(P1 , G0? ) = f1 (x, 1 )dx = 1 f1 (x, 1 )dx
G2,0 G1,0
Z Z
e2,opt = R(P2 , G0? ) = f2 (x, 2 )dx = 1 f2 (x, 2 )dx
G1,0 G2,0
eopt = 1 e1,opt + 2 e2,opt
45/90
45 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
fj = fj (, j ), j desconocido
Hasta ahora supusimos que la distribucion de x en cada poblacion
es conocida. Supongamos que la distribucion es conocida salvo por
algunos parametros que deberemos estimar, fj = fj (, j ) y sea
bj un estimador de j basado en la muestra xj,1 , . . . , xj,n .
j
b bj )
fj (x) = fj (,
entonces la regla Bayes, con ci |j = 1 si i 6= j, se estima por la regla
b ? que clasifica x Pi si x Gbi ,0 donde
G 0
a) El error actual
Z Z
e1,act b ?) =
= R(P1 , G f1 (x)dx = 1 f1 (x)dx
0
Gb2,0 Gb1,0
Z Z
b ?) =
e2,act = R(P2 , G f2 (x)dx = 1 f2 (x)dx
0
Gb1,0 Gb2,0
eact = 1 e1,act + 2 e2,act
k
X
b
eact = j b
ek,act
j=1
k
X
ni = nij el total de observaciones de la poblacion i esima,
j=1
k
X
ni
bi = con n= ni
n
i =1
X
mi = #{xi ` mal clasificadas } = nij
j6=i
49/90
49 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Entonces, b
eapp = 0, lo cual es demasiado optimista.
51/90
51 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
k
X
ai
ei ,cv = ecv = i ei ,cv
ni
i =1
k
X Pk
i =1 ai
b
ecv =
bi ei ,cv =
n
i =1
52/90
52 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
53/90
53 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
/ Gbj,0
mi =#{xi ` mal clasificadas 1 ` ni } = #{xi `
1 ` ni }
mi =#{xi ` mal clasificadas 1 ` ni } = #{xi ` / Gbj,0
1 ` ni }
mi mi
di =
ni
5) El estimador bootstrap.
El estimador bootstrap se define como
k
X
mi
ei ,boot = + di eboot = i ei ,boot
ni
i =1
k
X
b
eboot =
bi ei ,boot
i =1
55/90
55 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
fj N(j , j )
Supongamos que ci |j = 1 si i 6= j entonces la regla Bayes clasifica
x Pi si x Gi ,0 donde
` fi (x)
Gi ,0 = {x Rp : < ` 6= i }
i f (x)
`
fi (x) `
= {x Rp : log > log ` 6= i }
f` (x) i
donde
fi (x) 1 det(` ) 1 t 1
log = log i i i t` 1
` `
f` (x) 2 det(j ) 2
1 t 1
x i 1 ` x 2xt 1
i i 1` `
2
o sea, obtenemos una forma cuadratica en x.
56/90
56 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Caso ` =
En este caso,
fi (x) 1 1
log = ti 1 (x i ) t` 1 (x ` )
f` (x) 2 2
Caso ` =
En este caso, asigno x al grupo con mayor Li (x) donde llamamos
1
Li (x) = log i + ti 1 (x i )
2
Las funciones
t 1 (i + ` )
di ` (x) = Li (x)L` (x) = (i ` ) x +log i log `
2
58/90
58 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Caso ` =
Si tenemos k poblaciones, solo necesitamos encontrar
k
r = min(p, k 1) direcciones de proyeccion en lugar de .
2
Efectivamente, basta conocer i ,i +1 , 1 i k 1 ya que
i ,i +2 = i ,i +1 i +1,i +2
d13 (x) = L1 (x)L3 (x) = L1 (x)L2 (x)+(L2 (x)L3 (x)) = d12 (x)+d23 (x)
59/90
59 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Caso ` =
Si k = 2, como = 1 (1 2 )
( + 2 )
d12 (x) = t x 1 + log 1 log 2
2
60/90
60 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Caso ` =
Veamos que si j = k1 para todo j, la regla de clasificacion Bayes es la
obtenida antes con las coordenadas discriminantes. Sea
P
b = ki=1 i (i )(i )t , s = rango(b )
z = z = At x = (zt t t
1 , z2 ) el vector de variables discriminantes con
A = (1 , . . . , p ) = (A1 , A2 ) donde A1 = (1 , . . . , s )
z(1) = At
1 x, z
(2)
= At
2x
i = At i , entonces (2)
i = (2)
Caso ` =
La regla que vimos asignaba x0 al grupo i si v0 = At1 x0 Gi donde
(1) (1)
Gi = {v Rs : kv i k < kv ` k ` 6= i }
(1) 1 (1) (1) 1 (1)
= {v Rs : ( i )t (v i ) > ( ` )t (v ` ) ` 6= i }
2 2
1
Esta regla es Bayes cuando j = k para todo j.
Para una probabilidad a priori general tenemos que modificar Gi
por Gi , , o sea, asigno x0 al grupo i si v0 = At1 x0 Gi , donde
(1) (1) 2
Gi , = {v Rs : kv i k2 2 log(i ) < kv ` k 2 log(` ) ` 6= i}
1 (1) 1 (1)
{v Rs : ( i )t (v i ) > ( ` )t (v
(1) (1)
= )
2 2 `
+ log(` ) log(i ) ` 6= i}
62/90
62 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
fj N(j , j ), j = 1, 2
63/90
63 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Ejemplo p = 2
65/90
65 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Ejemplo p = 2, Caso A
6
4
x2
G2
1
0
1
2
G1
2 0 2 4 6
66/90
66 / 90
x
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Ejemplo p = 2, Caso B
6
4
G1
x2
G2
0
G2 1
0
0
1
2
G1
2 0 2 4 6
67/90
67 / 90
x
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
G2
4
0
x2
1
0
1
2
G1
2 0 2 4 6
68/90
68 / 90
x
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
0
6
4 G2 G1 G2
x2
2
0
1 1
2
2 0 2 4 6
69/90
69 / 90
x
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
1 0.6
Ejemplo 1 = (1, 0.5), 2 = (1.5, 0.5), 1 = ,
0.6 1
1 0.8
2 =
0.8 1
4
G2
G1
2
1
x2
1
2
G2
4
4 2 0 2 4
x1 70/90
70 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
1 0.6
Ejemplo 1 = (1, 0.5), 2 = (1.5, 0.5), 1 = ,
0.6 1
1 0.8
2 =
0.8 1
Datos transformados z = t (x 1 ).
0.5590 1.1180
=
0.5590 1.1180
1 = 0.125 2 = 4.5
a11 = 3.500 a22 = 0.3889
b1 = 6.708 b2 = 0.8696 c = 5.325
71/90
71 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Datos transformados z = t (x 1 )
2
0
1
2
G1
y2
4
6
G2
6 4 2 0 2
y1
72/90
72 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
= 1 (1 2 ),
la regla G0? clasifica en el grupo 1 si x G1,0 , con
G1,0 = {x : d12 (x) > 0}
t (1 + 2 )
d12 (x) = x + log 1 log 2
2
2p = t (1 2 ) = (1 2 )t 1 (1 2 ) = t
Luego
Z Z
R(P1 , G0? ) = f1 (x)dx = 1 f1 (x)dx
G2,0 G1,0
73/90
73 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
2 1
log + 2p
1 2
R(P2 , G0? ) =
p
2 1 2 1 2
log 2p log +
1 2 1 2 p
eopt = r (, G0? ) = 1
+ 2
p p
74/90
74 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
y G0? es minimax.
En general, la regla minimax asigna al grupo 1 si
t (1 +2 )
D(x) = x 2 > log(c) donde c se elige de modo que
1 2 1 2
log(c) p log(c) p
2 2
=
p p
2i ` = (i ` )t 1 (i ` )
Luego
XZ Z
R(Pi , G0? ) = fi (x)dx = 1 fi (x)dx
`6=i G`,0 Gi ,0
76/90
76 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
En Pi , x Np (i , ) luego
1 2 2
di ` (x) N + log i log ` , i `
2 i`
77/90
77 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
dbi ` (x) = b
Li (x) bL (x)
`
i t 1 bi +
b`
= log + (bi
b `) S x
` 2 79/90
79 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
80/90
80 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Por lo tanto,
! !
db21 (1 ) db12 (2 )
eact = 1 + 2
81/90
81 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
donde
b t (b
Dp2 = 1 b 2 )t S1 (b
1
b 2 ) = (b 1
b 2)
Si 1 y 2 son desconocidos se estiman por n1 /n y n2 /n, con
n = n1 + n2 . Si 1 = 2 = 0.5, entonces
1
eact = Dp
b
2
82/90
82 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
con 2 = n1 n2
n1 +n2 (1 2 )t 1 (1 2 ) y
n1 n2
T02 = (x1 x2 )t S1 (x1 x2 )
n1 + n2
tenemos que
n2 pn
EDp2 = 2p +
np3 n1 n2
Ejemplo Manzanos
21
20
19
z2
18
z1
z2
17
z3
16
15
14
20 21 22 23 24 25 26 27
z1
85/90
85 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Ejemplo Manzanos
: Asignado al grupo 1, asignado al grupo 2, N asignado al grupo 3
Manzanas
2.5 3.0 3.5 0.8 1.0 1.2 1.4 1.6
1.20
Girth.4
1.10
1.00
3.5
3.0
Growth.4
2.5
5.0
4.5
Girth.15
4.0
3.5
1.6
Weight.15
1.2
0.8
86/90
1.00 1.10 1.20 3.5 4.0 4.5 5.0
86 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
1.25
1.25
12 1 2 2
1
1.20
1.20
3 3 3 3
3.5
1 2 1 2 2
22 3 2 2 2 3 2 2 2
1 1 3
1.15
1.15
3
2 3 2 1 3
Growth.4
Girth.4
Girth.4
3
11
3.0
3 2
1 1 1 2 11 1 2 1
1.10
1.10
1 2
1 1 2
1 1 3
3 3
3 3 1
1.05
1.05
2.5
2 2 3
3
1 3
3 3
1.00
1.00
3 3 2
2.5 3.0 3.5 3.6 4.0 4.4 4.8 3.6 4.0 4.4 4.8
app. error rate: 0.375 app. error rate: 0.25 app. error rate: 0.25
1.25
1 2 2 2
1
2
4.8
3
1.20
3 3 2
3.5
1 2 2 3
4.6
2
2 2 32 2 2 33
1 3 3
1.15
3 3
4.4
2 3 1 2 3
2
Growth.4
Girth.15
Girth.4
3
11
3.0
2 3
4.2
1 1 2 1
1.10
1 2
1 2 22
4.0
1 3
3 1
3 1 1 1
1.05
2.5
2 3
3.8
3 1 3
1 3
3 3.6
11
1.00
1
3 2 1
0.8 1.0 1.2 1.4 1.6 0.8 1.0 1.2 1.4 1.6 0.8 1.0 1.2 1.4 1.6
89/90
89 / 90
Coordenadas Discriminantes Discriminacion Errores de clasificacion Caso Normal I Caso Normal II
Se recomienda para p = 4, n1 = n2 = 25