You are on page 1of 147

Anlisis de datos categricos

Prueba chi-cuadrado
Ignacio Vidal Garca


Instituto de Matematica y Fsica, Universidad de Talca

Ignacio Vidal G. p.1/57


Introduccin
Excepto en las pruebas para proporciones, las
pruebas que hemos visto tratan con datos de
nivel intervalo o razn.

Ignacio Vidal G. p.2/57


Introduccin
Excepto en las pruebas para proporciones, las
pruebas que hemos visto tratan con datos de
nivel intervalo o razn.
Las pruebas para proporciones son para datos
medidos en escala nominal u ordinal, pero con
slo dos categoras.

Ignacio Vidal G. p.2/57


Introduccin
Excepto en las pruebas para proporciones, las
pruebas que hemos visto tratan con datos de
nivel intervalo o razn.
Las pruebas para proporciones son para datos
medidos en escala nominal u ordinal, pero con
slo dos categoras.

Ahora veremos otras pruebas con datos nominal


u ordinal, pero las variables medidas pueden in-
cluir ms de dos categoras.
Ignacio Vidal G. p.2/57
Introduccin
Las pruebas que hemos visto anteriormente, tam-
bin suponen que los datos tienen distribucin
normal o el tamao de muestra es tan grande
que permite aproximar la distribucin de la media
muestral por una distribucin normal.

Ignacio Vidal G. p.3/57


Introduccin
Las pruebas que hecen una supocisin acerca
de la familia de distribuciones de los datos, como
las que hemos visto hasta ahora, se llaman
pruebas paramtricas.

Ignacio Vidal G. p.4/57


Introduccin
Las pruebas que hecen una supocisin acerca
de la familia de distribuciones de los datos, como
las que hemos visto hasta ahora, se llaman
pruebas paramtricas.
Sin embargo, las que no asumen ninguna familia
de distribuciones para los datos se llaman
pruebas no paramtricas.

Ignacio Vidal G. p.4/57


Introduccin
Las pruebas que hecen una supocisin acerca
de la familia de distribuciones de los datos, como
las que hemos visto hasta ahora, se llaman
pruebas paramtricas.
Sin embargo, las que no asumen ninguna familia
de distribuciones para los datos se llaman
pruebas no paramtricas.

En este captulo veremos pruebas no paramtri-


cas para datos categricos.
Ignacio Vidal G. p.4/57
Prueba de bondad de ajuste para
H0 simple
Esta es una de las pruebas no paramtricas ms
usadas. Como el nombre lo indica, el propsito
de las pruebas de bondad de ajuste es ver qu
tan bien se ajusta un conjunto de datos
observados a un conjunto de datos esperados.

Ignacio Vidal G. p.5/57


Prueba de bondad de ajuste para
H0 simple
Esta es una de las pruebas no paramtricas ms
usadas. Como el nombre lo indica, el propsito
de las pruebas de bondad de ajuste es ver qu
tan bien se ajusta un conjunto de datos
observados a un conjunto de datos esperados.

Ejemplo 1 El gerente de marketing de una


empresa que hace tarjetas postales con temas
deportivos quiere iniciar una serie de tarjetas
con fotos de viejos jugadores de la liga mayor de
baseball. Un problema es qu jugadores elegir.
Ignacio Vidal G. p.5/57
Prueba de bondad de ajuste para
H0 simple
Para comenzar el estudio, el gerente puso un
puesto de venta con 120 tarjetas con seis
jugadores distintos en la portada.

Ignacio Vidal G. p.6/57


Prueba de bondad de ajuste para
H0 simple
Para comenzar el estudio, el gerente puso un
puesto de venta con 120 tarjetas con seis
jugadores distintos en la portada.
Los resultados fueron los siguientes:
Jugador 1 2 3 4 5 6 Total
Tarjetas
13 33 14 7 36 17 120
vendidas

Ignacio Vidal G. p.6/57


Prueba de bondad de ajuste para
H0 simple
Para comenzar el estudio, el gerente puso un
puesto de venta con 120 tarjetas con seis
jugadores distintos en la portada.
Los resultados fueron los siguientes:
Jugador 1 2 3 4 5 6 Total
Tarjetas
13 33 14 7 36 17 120
vendidas
Se puede concluir que se vende el mismo
nmero de tarjetas de cada jugador?
Ignacio Vidal G. p.6/57
Prueba de bondad de ajuste para
H0 simple
Para este tipo de problema la hiptesis nula
debe ser que todas las tarjetas se venden en
igual proporcin, o sea, si pi es la probabilidad
de que un cliente compre la tarjeta del jugador i,
entonces

1
H0 : p 1 = p 2 = = p 6 =
6

Ignacio Vidal G. p.7/57


Prueba de bondad de ajuste para
H0 simple
Como la hiptesis alternativa es lo contrario a la
hiptesis nula, entonces

1
H1 : pi 6= , para algn i {1, 2, . . . , 6}
6

Ignacio Vidal G. p.8/57


Prueba de bondad de ajuste para
H0 simple
De manera general, si tenemos una variable
medida con k categoras, las hiptesis a
comparar son:
(
H0 : p1 = p1,0 ; p2 = p2,0 ; ; pk = pk,0
H1 : pi 6= pi,0 , para algn i {1, 2, . . . , 6}

donde pi,0 son las probabilidades asumidas como


si H0 fuera cierta.

Ignacio Vidal G. p.9/57


Prueba de bondad de ajuste para
H0 simple
Para este tipo de prueba el estadstico de
prueba calculado es
k 2
X (ni npi,0 )
2c =
i=1
npi,0
donde n es el tamao de la muestra y ni son los
datos observados en la categora i.

Ignacio Vidal G. p.10/57


Prueba de bondad de ajuste para
H0 simple
Nota 1.1 Siempre debe cumplirse que
n = n 1 + n2 + + n k

Ignacio Vidal G. p.11/57


Prueba de bondad de ajuste para
H0 simple
Nota 1.1 Siempre debe cumplirse que
n = n 1 + n2 + + n k
y
1 = p1,0 + p2,0 + + pk,0

Ignacio Vidal G. p.11/57


Prueba de bondad de ajuste para
H0 simple
El valor-p para este tipo de prueba es
 
valor p = P 2(k1) 2c

donde 2() denota a una distribucin llamada chi-


cuadrado con grados de libertad.

Ignacio Vidal G. p.12/57


Distribucin chi-cuadrado
Caractersticas de la distribucin chi-cuadrado:

Nunca es negativa.

Ignacio Vidal G. p.13/57


Distribucin chi-cuadrado
Caractersticas de la distribucin chi-cuadrado:
2(3)


2(5)



0
El grado de libertad es un parmetro, o sea,
cada valor distinto del grado de libertad
determina a una chi-cuadrado distinta.
Ignacio Vidal G. p.13/57
Distribucin chi-cuadrado
Caractersticas de la distribucin chi-cuadrado:
2(1)



2(3)
2(5)
 2(10)
  
 

0
Al aumentar los grados de libertad nos aproxi-
mamos a una distribucin normal con media y
varianza 2.
Ignacio Vidal G. p.13/57
Ejemplo (continuacin)
Despus que tenemos definidas las hiptesis, el
prximo paso es calcular los valores esperados:

Jugador 1 2 3 4 5 6 Total
Tarjetas
13 33 14 7 36 17 120
vendidas
ei = npi,0 20 20 20 20 20 20

Ignacio Vidal G. p.14/57


Ejemplo (continuacin)
Ya estamos listos para el estadstico calculado:
2
2 (13 20)
c =
20

Ignacio Vidal G. p.15/57


Ejemplo (continuacin)
Ya estamos listos para el estadstico calculado:
2 2
2 (13 20) (33 20)
c = +
20 20

Ignacio Vidal G. p.15/57


Ejemplo (continuacin)
Ya estamos listos para el estadstico calculado:

2 2 2
2 (13 20) (33 20) (17 20)
c = + + +
20 20 20

Ignacio Vidal G. p.15/57


Ejemplo (continuacin)
Ya estamos listos para el estadstico calculado:

2 (13 20)2 (33 20)2 (17 20)2


c = + + +
20 20 20
= 34.4

Ignacio Vidal G. p.15/57


Ejemplo (continuacin)
Por tanto, el valor-p es
 
valor p = P 2(61) 34.4

Ignacio Vidal G. p.16/57


Ejemplo (continuacin)
Por tanto, el valor-p es

   
valor p = P 2(61) 34.4 = P 2(5) 34.4

Ignacio Vidal G. p.16/57


Ejemplo (continuacin)
Por tanto, el valor-p es

   
valorp = P 2(61) 34.4 = P 2(5) 34.4 < 0.01

Ignacio Vidal G. p.16/57


Ejemplo (continuacin)
Por tanto, el valor-p es

   
valorp = P 2(61) 34.4 = P 2(5) 34.4 < 0.01

De aqu rechazamos H0 y conclumos que el


pblico tiene preferencia por algunos jugadores
ms que otros.

Ignacio Vidal G. p.16/57


Distribucin chi-cuadrado
En el ejemplo anterior las probabilidades
supuestas para H0 eran todas iguales, pero sto
no tiene que ser as siempre.

Ignacio Vidal G. p.17/57


Distribucin chi-cuadrado
En el ejemplo anterior las probabilidades
supuestas para H0 eran todas iguales, pero sto
no tiene que ser as siempre.

El siguiente ejemplo ilustra el caso de probabili-


dades bajo H0 distintas y tambin proporciona un
uso prctico de esta prueba para determinar si
una experiencia local difiere de una experiencia
nacional.

Ignacio Vidal G. p.17/57


Ejemplo
Ejemplo 2 En un estudio nacional sobre el
nmero de veces que fue hospitalizado un
enfermo durante dos aos, se encontr que de
los ciudadanos de la tercera edad, residentes en
casas de atencin, 40 % ingresaron a un
hospital slo una vez en los dos aos; 20 % dos
veces; 14 tres veces, etc.

Ignacio Vidal G. p.18/57


Ejemplo
Ejemplo 2 En un estudio nacional sobre el
nmero de veces que fue hospitalizado un
enfermo durante dos aos, se encontr que de
los ciudadanos de la tercera edad, residentes en
casas de atencin, 40 % ingresaron a un
hospital slo una vez en los dos aos; 20 % dos
veces; 14 tres veces, etc.
La siguiente tabla da la distribucin completa
Nmero de
1 2 3 4 5 6 7
hospitalizaciones
% del total 40 20 14 10 8 6 2

Ignacio Vidal G. p.18/57


Ejemplo
El administrador de un hospital local quiere
comparar su experiencia, con la distribucin
nacional del nmero de hospitalizaciones.

Ignacio Vidal G. p.19/57


Ejemplo
El administrador de un hospital local quiere
comparar su experiencia, con la distribucin
nacional del nmero de hospitalizaciones.

Para esto toma a 400 ciudadanos de la tercera


edad, residentes en algn centro de atencin
y que necesitaron hospitalizacin, y determina
cuntas veces fueron hospitalizados en dos aos.

Ignacio Vidal G. p.19/57


Ejemplo
Las frecuencias observadas fueron las
siguientes:

Nmero de
1 2 3 4 5 6 7
hospitalizaciones
Frecuencia
165 79 50 44 32 20 10
observada

Ignacio Vidal G. p.20/57


Ejemplo
Las hiptesis a comparar son las siguientes:


H : p1 = .4; p2 = .2; p3 = .14; p4 = .1;

0
p5 = .08; p6 = .06; p7 = .02
H : p 6= p , para algn i {1, 2, . . . , 7}

1 i i,0

Ignacio Vidal G. p.21/57


Ejemplo
Los valores esperados son:

Nmero de
1 2 3 4 5 6 7
hospitalizaciones
Frecuencia
165 79 50 44 32 20 10
observada
ei = npi,0 = 400pi,0 160

Ignacio Vidal G. p.22/57


Ejemplo
Los valores esperados son:

Nmero de
1 2 3 4 5 6 7
hospitalizaciones
Frecuencia
165 79 50 44 32 20 10
observada
ei = npi,0 = 400pi,0 160 80

Ignacio Vidal G. p.22/57


Ejemplo
Los valores esperados son:

Nmero de
1 2 3 4 5 6 7
hospitalizaciones
Frecuencia
165 79 50 44 32 20 10
observada
ei = npi,0 = 400pi,0 160 80 56

Ignacio Vidal G. p.22/57


Ejemplo
Los valores esperados son:

Nmero de
1 2 3 4 5 6 7
hospitalizaciones
Frecuencia
165 79 50 44 32 20 10
observada
ei = npi,0 = 400pi,0 160 80 56 40 32 24 8

Ignacio Vidal G. p.22/57


Ejemplo
Luego, el estadstico de prueba calculado es

2 2 2
(165 160) (79 80) (10 8)
2c = + + +
160 80 8
= 2.379

Ignacio Vidal G. p.23/57


Ejemplo
El correspondiente valor-p es
 
valor p = P 2(71) 2.379

Ignacio Vidal G. p.24/57


Ejemplo
El correspondiente valor-p es

   
valor p = P 2(71) 2.379 = P 2(6) 2.379

Ignacio Vidal G. p.24/57


Ejemplo
El correspondiente valor-p es

   
valorp = P 2(71) 2.379 = P 2(6) 2.379 > 0.1

Ignacio Vidal G. p.24/57


Ejemplo
El correspondiente valor-p es

   
valorp = P 2(71) 2.379 = P 2(6) 2.379 > 0.1

Con este valor-p no podemos rechazar H0 , pero


tampoco podemos decir que la distribucin de
hospitalizados local es igual a la nacional.

Ignacio Vidal G. p.24/57


Ejemplo
Slo podemos decir que la distribucin local de
hospitalizaciones no difiere significativamente de
la distribucin nacional de hospitalizaciones.

Ignacio Vidal G. p.25/57


Ejemplo
Slo podemos decir que la distribucin local de
hospitalizaciones no difiere significativamente de
la distribucin nacional de hospitalizaciones.

Nota 2.1 El clculo de los valores esperados ei


generalmente da como resultado valores
numricos con decimales.

Ignacio Vidal G. p.25/57


Ejemplo
Slo podemos decir que la distribucin local de
hospitalizaciones no difiere significativamente de
la distribucin nacional de hospitalizaciones.

Nota 2.1 El clculo de los valores esperados ei


generalmente da como resultado valores
numricos con decimales.
Si esto es as, no deben redondearse los valores
esperados a los nmeros enteros.

Ignacio Vidal G. p.25/57


Limitaciones de las pruebas
chi-cuadrados
La prueba de bondad de ajuste chi-cuadrado
debe realizarse para un tamao de muestra
grande, o sea, esta es una prueba aproximada.

Ignacio Vidal G. p.26/57


Limitaciones de las pruebas
chi-cuadrados
La prueba de bondad de ajuste chi-cuadrado
debe realizarse para un tamao de muestra
grande, o sea, esta es una prueba aproximada.
Las aproximaciones se consideran buenas si
todos los valores esperados son mayores o
iguales a 5:
ei = npi,0 5, para todo i = 1, . . . , k

Ignacio Vidal G. p.26/57


Limitaciones de las pruebas
chi-cuadrados
La exigencia anterior no siempre es tan fcil de
obtener, en ocasiones esta exigencia se puede
relajar un poco si contamos con una tabla de val-
ores observados con ms de 4 celdas.

Ignacio Vidal G. p.27/57


Limitaciones de las pruebas
chi-cuadrados
Si queremos aplicar una prueba chi-cuadrado a
una tabla con ms de 4 celdas, no se debe
aplicar la prueba de bondad de ajuste
chi-cuadrado si ms del 20 % de las celdas tiene
una frecuencia esperada menor a 5.

Ignacio Vidal G. p.28/57


Limitaciones de las pruebas
chi-cuadrados
Si queremos aplicar una prueba chi-cuadrado a
una tabla con ms de 4 celdas, no se debe
aplicar la prueba de bondad de ajuste
chi-cuadrado si ms del 20 % de las celdas tiene
una frecuencia esperada menor a 5.
Si en una tabla con ms de 4 celdas hay ms del
20 % de las celdas con valor esperado menor a 5,
entonces una via de solucin puede ser agrupar
algunas celdas para aumentar el valor esperado
en ellas.
Ignacio Vidal G. p.28/57
Test chi-cuadrado de normalidad
La prueba de bondad de ajuste tambin se
puede usar para determinar si un conjunto de
frecuencias observadas coincide con un
conjunto de frecuencias esperadas que tiene
una distribucin normal.

Ignacio Vidal G. p.29/57


Test chi-cuadrado de normalidad
La prueba de bondad de ajuste tambin se
puede usar para determinar si un conjunto de
frecuencias observadas coincide con un
conjunto de frecuencias esperadas que tiene
una distribucin normal.

Dicho de otra manera, coinciden los valores ob-


servados de una distribucin de frecuencias con
los valores esperados segn una distribucin nor-
mal?
Ignacio Vidal G. p.29/57
Ejemplo
En un estudio se reunieron datos sobre los
salarios anuales de los profesores de tiempo
completo en 160 colegios.

Ignacio Vidal G. p.30/57


Ejemplo
En un estudio se reunieron datos sobre los
salarios anuales de los profesores de tiempo
completo en 160 colegios.
La media muestral de estos datos fue x = 54.03
(miles de dlares) y la desviacin estndar
muestral fue s = 13.76 (miles de dlares).

Ignacio Vidal G. p.30/57


Ejemplo
En un estudio se reunieron datos sobre los
salarios anuales de los profesores de tiempo
completo en 160 colegios.
La media muestral de estos datos fue x = 54.03
(miles de dlares) y la desviacin estndar
muestral fue s = 13.76 (miles de dlares).

Adems se hizo la siguiente distribucin de fre-


cuencias de estos salarios anuales:

Ignacio Vidal G. p.30/57


Ejemplo
Salario Nmero de
en miles de $ colegios

20 a 30 4
30 a 40 20
40 a 50 41
50 a 60 44
60 a 70 29
70 a 80 16
80 a 90 2
90 a 100 4
Total 160
Ignacio Vidal G. p.31/57
Ejemplo
Salario Nmero de Coinciden las frecuen-
en miles de $ colegios cias observadas con las
20 a 30 4 frecuencias esperadas
30 a 40 20 segn la distribucin de
probabilidad normal?
40 a 50 41
50 a 60 44
60 a 70 29
70 a 80 16
80 a 90 2
90 a 100 4
Total 160
Ignacio Vidal G. p.31/57
Ejemplo
Por tanto, las hiptesis a comparar son
(
H0 : La poblacin tiene una distribucin normal
H1 : La poblacin no tiene una distribucin normal

Ignacio Vidal G. p.32/57


Ejemplo
Por tanto, las hiptesis a comparar son
(
H0 : La poblacin tiene una distribucin normal
H1 : La poblacin no tiene una distribucin normal

El prximo paso siempre es calcular los valores


esperados, ei = npi,0 .

Ignacio Vidal G. p.32/57


Ejemplo
Por tanto, las hiptesis a comparar son
(
H0 : La poblacin tiene una distribucin normal
H1 : La poblacin no tiene una distribucin normal

El prximo paso siempre es calcular los valores


esperados, ei = npi,0 .

Ya sabemos que n = 160, pero nos falta calcular


los pi,0 de la distribucin normal.

Ignacio Vidal G. p.32/57


Ejemplo
Supongamos que X es la variable aleatroia que
mide los salarios anuales.

Ignacio Vidal G. p.33/57


Ejemplo
Supongamos que X es la variable aleatroia que
mide los salarios anuales.
Si H0 fuera cierta, o sea, si X distribuyera
normal, entonces
p1,0 = P (X < 30)

Ignacio Vidal G. p.33/57


Ejemplo
Supongamos que X es la variable aleatroia que
mide los salarios anuales.
Si H0 fuera cierta, o sea, si X distribuyera
normal, entonces
p1,0 = P (X < 30) , p2,0 = P (30 X < 40)

Ignacio Vidal G. p.33/57


Ejemplo
Supongamos que X es la variable aleatroia que
mide los salarios anuales.
Si H0 fuera cierta, o sea, si X distribuyera
normal, entonces
p1,0 = P (X < 30) , p2,0 = P (30 X < 40) ,
. . . , p8,0 = P (90 X)

Ignacio Vidal G. p.33/57


Ejemplo
Por ejemplo,
p7,0 = P (80 X < 90)

Ignacio Vidal G. p.34/57


Ejemplo
Por ejemplo,
p7,0 = P (80 X < 90)
 
80 X 90
= P <

Ignacio Vidal G. p.34/57


Ejemplo
Por ejemplo,
p7,0 = P (80 X < 90)
 
80 X 90
= P <

 
80 54.03 90 54.03
P Z<
13.76 13.76

Ignacio Vidal G. p.34/57


Ejemplo
Por ejemplo,
p7,0 = P (80 X < 90)
 
80 X 90
= P <

 
80 54.03 90 54.03
P Z<
13.76 13.76
= P (1.89 Z < 2.61)

Ignacio Vidal G. p.34/57


Ejemplo
Por ejemplo,
p7,0 = P (80 X < 90)
 
80 X 90
= P <

 
80 54.03 90 54.03
P Z<
13.76 13.76
= P (1.89 Z < 2.61)
= P (Z < 2.61) P (Z < 1.89)

Ignacio Vidal G. p.34/57


Ejemplo
Por ejemplo,
p7,0 = P (80 X < 90)
 
80 X 90
= P <

 
80 54.03 90 54.03
P Z<
13.76 13.76
= P (1.89 Z < 2.61)
= P (Z < 2.61) P (Z < 1.89)
= 0.9955 0.9706

Ignacio Vidal G. p.34/57


Ejemplo
Por ejemplo,
p7,0 = P (80 X < 90)
 
80 X 90
= P <

 
80 54.03 90 54.03
P Z<
13.76 13.76
= P (1.89 Z < 2.61)
= P (Z < 2.61) P (Z < 1.89)
= 0.9955 0.9706 = 0.0249

Ignacio Vidal G. p.34/57


Ejemplo
Por tanto, si los salarios distribuyen normal, se
espera que la probabilidad de que un salario
elegido al azar este entre 80 mil dlares y 90 mil
dlares es de 0.0249.

Ignacio Vidal G. p.35/57


Ejemplo
Por tanto, si los salarios distribuyen normal, se
espera que la probabilidad de que un salario
elegido al azar este entre 80 mil dlares y 90 mil
dlares es de 0.0249.
Tambin pudiramos calcular
p8,0 = P (90 X)

Veamos...

Ignacio Vidal G. p.35/57


Ejemplo

p8,0 = P (90 X)

Ignacio Vidal G. p.36/57


Ejemplo
 
90 X
p8,0 = P (90 X) = P

Ignacio Vidal G. p.36/57


Ejemplo
 
90 X
p8,0 = P (90 X) = P

 
90 54.03
P Z
13.76

Ignacio Vidal G. p.36/57


Ejemplo
 
90 X
p8,0 = P (90 X) = P

 
90 54.03
P Z = P (Z 2.61)
13.76

Ignacio Vidal G. p.36/57


Ejemplo
 
90 X
p8,0 = P (90 X) = P

 
90 54.03
P Z = P (Z 2.61)
13.76
= 1 P (Z < 2.61)

Ignacio Vidal G. p.36/57


Ejemplo
 
90 X
p8,0 = P (90 X) = P

 
90 54.03
P Z = P (Z 2.61)
13.76
= 1 P (Z < 2.61) = 1 0.9955

Ignacio Vidal G. p.36/57


Ejemplo
 
90 X
p8,0 = P (90 X) = P

 
90 54.03
P Z = P (Z 2.61)
13.76
= 1 P (Z < 2.61) = 1 0.9955
= 0.0045

Ignacio Vidal G. p.36/57


Ejemplo
 
90 X
p8,0 = P (90 X) = P

 
90 54.03
P Z = P (Z 2.61)
13.76
= 1 P (Z < 2.61) = 1 0.9955
= 0.0045

De igual manera podemos calcular el resto de las


probabilidades suponiendo normalidad.
Ignacio Vidal G. p.36/57
Ejemplo
Una de las limitaciones de la prueba
chi-cuadrado indica que si ms del 20 % de las
celdas tienen una frecuencia esperada menor a
5, deben combinarse algunas categoras.

Ignacio Vidal G. p.37/57


Ejemplo
Una de las limitaciones de la prueba
chi-cuadrado indica que si ms del 20 % de las
celdas tienen una frecuencia esperada menor a
5, deben combinarse algunas categoras.
Nosotros tenemos 8 categoras y el 20 % de 8 es
1.6.

Ignacio Vidal G. p.37/57


Ejemplo
Una de las limitaciones de la prueba
chi-cuadrado indica que si ms del 20 % de las
celdas tienen una frecuencia esperada menor a
5, deben combinarse algunas categoras.
Nosotros tenemos 8 categoras y el 20 % de 8 es
1.6.

Por tanto, si tuviramos dos categoras con valor


esperado menor a 5, debemos combinar celdas.

Ignacio Vidal G. p.37/57


Ejemplo
Es fcil ver que los nicos valores esperados
menores a 5 son
e7 = np7,0

Ignacio Vidal G. p.38/57


Ejemplo
Es fcil ver que los nicos valores esperados
menores a 5 son
e7 = np7,0 = 160 0.0249

Ignacio Vidal G. p.38/57


Ejemplo
Es fcil ver que los nicos valores esperados
menores a 5 son
e7 = np7,0 = 160 0.0249 = 3.984

Ignacio Vidal G. p.38/57


Ejemplo
Es fcil ver que los nicos valores esperados
menores a 5 son
e7 = np7,0 = 160 0.0249 = 3.984
y
e8 = np8,0 = 160 0.0045 = 0.72

Ignacio Vidal G. p.38/57


Ejemplo
Luego, si unimos las categoras [80, 90) y
[90, 100) en una sola categora, formamos la
categora [80 y ms), donde su valor esperado
es
e7 + e8 = 4.7

Ignacio Vidal G. p.39/57


Ejemplo
Luego, si unimos las categoras [80, 90) y
[90, 100) en una sola categora, formamos la
categora [80 y ms), donde su valor esperado
es
e7 + e8 = 4.7
Este valor esperado sigue siendo menor a 5,
pero sera una sola categora de 7 la que tuviera
valor esperado menor a 5, y el 20% de 7 es 1.4.

Ignacio Vidal G. p.39/57


Ejemplo
Luego, si unimos las categoras [80, 90) y
[90, 100) en una sola categora, formamos la
categora [80 y ms), donde su valor esperado
es
e7 + e8 = 4.7
Este valor esperado sigue siendo menor a 5,
pero sera una sola categora de 7 la que tuviera
valor esperado menor a 5, y el 20% de 7 es 1.4.
De esta manera tenemos una nueva tabla de val-
ores observados con slo 7 categoras:
Ignacio Vidal G. p.39/57
Ejemplo
Salario Nmero de
en miles de $ colegios
menores a 30 4
30 a 40 20
40 a 50 41
50 a 60 44
60 a 70 29
70 a 80 16
80 o ms 6
Total 160
Ignacio Vidal G. p.40/57
Ejemplo
Clases colegios pi,0
menores a 30 4 .0401
30 a 40 20 .1138
40 a 50 41 .2320
50 a 60 44 .2805
60 a 70 29 .2106
70 a 80 16 .0936
80 o ms 6 .0249+.0045=.0294
Total 160

Ignacio Vidal G. p.40/57


Ejemplo
Salario Nmero de
pi,0 ei = npi,0
en miles de $ colegios
menores a 30 4 .0401 6.416
30 a 40 20 .1138 18.208
40 a 50 41 .2320 37.120
50 a 60 44 .2805 44.880
60 a 70 29 .2106 33.696
70 a 80 16 .0936 14.976
80 o ms 6 .0294 4.704
Total 160 1 160
Ignacio Vidal G. p.40/57
Ejemplo
Como vemos slo hay una celda de 7 con valor
esperado menor a 5.

Ignacio Vidal G. p.41/57


Ejemplo
Como vemos slo hay una celda de 7 con valor
esperado menor a 5.
Ahora podemos calcular el estadstico de
prueba:
2
(4 6.416)
2c =
6.416

Ignacio Vidal G. p.41/57


Ejemplo
Como vemos slo hay una celda de 7 con valor
esperado menor a 5.
Ahora podemos calcular el estadstico de
prueba:
2 2
(4 6.416) (20 18.208)
2c = +
6.416 18.208

Ignacio Vidal G. p.41/57


Ejemplo
Como vemos slo hay una celda de 7 con valor
esperado menor a 5.
Ahora podemos calcular el estadstico de
prueba:

(4 6.416)2 (20 18.208)2


2c = +
6.416 18.208
(6 4.704)2
+ +
4.704

Ignacio Vidal G. p.41/57


Ejemplo
Como vemos slo hay una celda de 7 con valor
esperado menor a 5.
Ahora podemos calcular el estadstico de
prueba:

(4 6.416)2 (20 18.208)2


2c = +
6.416 18.208
(6 4.704)2
+ +
4.704
= 2.590
Ignacio Vidal G. p.41/57
Ejemplo

Su correspondiente valor-p es
 
valor p = P 2(kp1) 2c

donde p es la cantidad de parmetros estimados.

Ignacio Vidal G. p.42/57


Ejemplo
En nuestro caso se estimaron y , por tanto
p = 2:
 
valor p = P 2(721) 2c

Ignacio Vidal G. p.43/57


Ejemplo
En nuestro caso se estimaron y , por tanto
p = 2:
   
valor p = P 2(721) 2c = P 2(4) 2.590

Ignacio Vidal G. p.43/57


Ejemplo
En nuestro caso se estimaron y , por tanto
p = 2:
   
valorp = P 2(721) 2c = P 2(4) 2.590 > 0.1

Ignacio Vidal G. p.43/57


Ejemplo
En nuestro caso se estimaron y , por tanto
p = 2:
   
valorp = P 2(721) 2c = P 2(4) 2.590 > 0.1

Este valor-p es muy grande para rechazar la


hiptesis nula por lo que conclumos que la dis-
tribucin de los salarios de los profesores de
tiempo completo no tiene diferencias estadstica-
mente significativas con la distribucin normal.

Ignacio Vidal G. p.43/57


Prueba de independencia
Nota 2.2 En general, cuando usamos la prueba
de bondad de ajuste chi-cuadrado, y utilizamos
los datos muestrales para estimar p parmetros
poblacionales, entonces el nmero de grados de
libertad es k p 1.

Ignacio Vidal G. p.44/57


Prueba de independencia
Nota 2.2 En general, cuando usamos la prueba
de bondad de ajuste chi-cuadrado, y utilizamos
los datos muestrales para estimar p parmetros
poblacionales, entonces el nmero de grados de
libertad es k p 1.

La prueba chi-cuadrado vista anteriormente se


utilizaba en tablas con una sola fila o columna,
pero la prueba chi-cuadrado tambin se puede
usar en tablas con ms de una fila o columna.

Ignacio Vidal G. p.44/57


Prueba de independencia
Tablas con varias filas y columnas surgen al
medir dos variables con varias categoras, por
ejemplo:
Hay alguna relacin entre el promedio de los
estudiantes en la universidad y sus ingresos
10 aos despus de haberse graduado?

Ignacio Vidal G. p.45/57


Prueba de independencia
Tablas con varias filas y columnas surgen al
medir dos variables con varias categoras, por
ejemplo:
Hay alguna relacin entre el promedio de los
estudiantes en la universidad y sus ingresos
10 aos despus de haberse graduado?
Es diferente la readaptacin a la vida civil
de un hombre liberado de la prisin, si
regresa a su lugar de origen, o si se va a vivir
a otro lado?
Ignacio Vidal G. p.45/57
Prueba de independencia
En general supongamos que tenemos una
muestra de n individuos que sern clasificados
segn dos criterios distintos.

Al terminar la clasificacin tendremos una tabla


como la siguiente:

Ignacio Vidal G. p.46/57


Prueba de independencia

Variable Y
1 2 J Total
1 n11 n12 n1J n1
2 n21 n22 n2j n2
Variable X .. .. .. . . . .. ..
. . . . .
I nI1 nI2 nIJ nI
Total n1 n2 nJ n

Ignacio Vidal G. p.47/57


Prueba de independencia
donde:
El nmero nij indica la cantidad de individuos
que fueron clasificados en la categora i de la
variable X y en la categora j de la variable
Y.

Ignacio Vidal G. p.48/57


Prueba de independencia
donde:
El nmero nij indica la cantidad de individuos
que fueron clasificados en la categora i de la
variable X y en la categora j de la variable
Y.
El nmero ni indica el total de la fila i

Ignacio Vidal G. p.48/57


Prueba de independencia
donde:
El nmero nij indica la cantidad de individuos
que fueron clasificados en la categora i de la
variable X y en la categora j de la variable
Y.
El nmero ni indica el total de la fila i
El nmero nj indica el nmero total de
individous clasificados en la categora j de la
variable Y .

Ignacio Vidal G. p.48/57


Prueba de independencia
La prueba chi-cuadrado que veremos ahora
sirve para comparar las hiptesis
(
H0 : Las variables X e Y son independientes
H1 : Las variables X e Y son dependientes

Ignacio Vidal G. p.49/57


Prueba de independencia
Para comparar las hiptesis anteriores el
estadstico de prueba calculado es
J
I X
X (nij eij )2
2c =
i=1 j=1
eij

Ignacio Vidal G. p.50/57


Prueba de independencia
Para comparar las hiptesis anteriores el
estadstico de prueba calculado es
J
I X
X (nij eij )2
2c =
i=1 j=1
eij

donde eij son los valores esperados suponiendo


independecia de las variables, y se calculan a
travs de la frmula,
ni nj
eij =
n
Ignacio Vidal G. p.50/57
Prueba de independencia
El valor-p correspondiente es
 
valor p = P 2[(I1)(J1)] 2c

Ignacio Vidal G. p.51/57


Prueba de independencia
El valor-p correspondiente es
 
valor p = P 2[(I1)(J1)] 2c

Nota 2.3 Para aplicar esta prueba deben


cumplirse las restricciones ya mencionadas para
la prueba chi-cuadrado.

Ignacio Vidal G. p.51/57


Ejemplo
Ejemplo 3 La Federal Correction Agency (FCA)
quiere investigar la siguiente pregunta: Es
diferente la readaptacin a la vida civil de un
hombre liberado de prisin, si regresa a su lugar
de origen, o si se va a vivir a otro lado?

Ignacio Vidal G. p.52/57


Ejemplo
Ejemplo 3 La Federal Correction Agency (FCA)
quiere investigar la siguiente pregunta: Es
diferente la readaptacin a la vida civil de un
hombre liberado de prisin, si regresa a su lugar
de origen, o si se va a vivir a otro lado?
Dicho de otra manera, hay relacin entre la
readaptacin a la vida civil y el lugar de
residencia despus de haber sido liberado de la
prisin?

Ignacio Vidal G. p.52/57


Ejemplo
Siempre lo primero es establecer las hiptesis:
(
H0 : No hay relacin
H1 : Hay relacin

Ignacio Vidal G. p.53/57


Ejemplo
Los psiclogos de la FCA entrevistaron a 200
prisioneros ya liberados, elegidos al azar. Los
resultados fueron los siguientes:

Table 0: Valores observados


Lugar de Readaptacin a la vida civil
Residencia Excelente Buena Regular Insatisfactoria
Lugar de origen 27 35 33 25
Otro lugar 13 15 27 25

Ignacio Vidal G. p.54/57


Ejemplo
Para calcular el estadstico de prueba, primero
debemos calcular los valores esperados para
cada celda.

Ignacio Vidal G. p.55/57


Ejemplo
Para calcular el estadstico de prueba, primero
debemos calcular los valores esperados para
cada celda.
Partimos con la tabla de valores observados:

Table 1: Valores observados


Lugar de Readaptacin a la vida civil
Residencia Excelente Buena Regular Insatisfactor
Lugar de origen 27 35 33 25
Otro lugar 13 15 27 25

Ignacio Vidal G. p.55/57


Ejemplo
Para calcular el estadstico de prueba, primero
debemos calcular los valores esperados para
cada celda.
Luego calculamos sus totales:

Table 1: Valores observados


Lugar de Readaptacin a la vida civil
Residencia Excelente Buena Regular Insatisfactoria Total

Lugar de origen 27 35 33 25 120


Otro lugar 13 15 27 25 80
Total 40 50 60 50 200
Ignacio Vidal G. p.55/57
Ejemplo
Para calcular el estadstico de prueba, primero
debemos calcular los valores esperados para
cada celda.
y ahora los valores esperados:
ni nj
Table 1: Valores esperados eij = n
Lugar de Readaptacin a la vida civil
Residencia Excelente Buena Regular Insatisfactoria Total

Lugar de origen 24 120


Otro lugar 80
Total 40 50 60 50 200
Ignacio Vidal G. p.55/57
Ejemplo
Para calcular el estadstico de prueba, primero
debemos calcular los valores esperados para
cada celda.
y ahora los valores esperados:
ni nj
Table 1: Valores esperados eij = n
Lugar de Readaptacin a la vida civil
Residencia Excelente Buena Regular Insatisfactoria Total

Lugar de origen 24 30 120


Otro lugar 80
Total 40 50 60 50 200
Ignacio Vidal G. p.55/57
Ejemplo
Para calcular el estadstico de prueba, primero
debemos calcular los valores esperados para
cada celda.
y ahora los valores esperados:
ni nj
Table 1: Valores esperados eij = n
Lugar de Readaptacin a la vida civil
Residencia Excelente Buena Regular Insatisfactoria Total

Lugar de origen 24 30 36 120


Otro lugar 80
Total 40 50 60 50 200
Ignacio Vidal G. p.55/57
Ejemplo
Para calcular el estadstico de prueba, primero
debemos calcular los valores esperados para
cada celda.
y ahora los valores esperados:
ni nj
Table 1: Valores esperados eij = n
Lugar de Readaptacin a la vida civil
Residencia Excelente Buena Regular Insatisfactoria Total

Lugar de origen 24 30 36 30 120


Otro lugar 80
Total 40 50 60 50 200
Ignacio Vidal G. p.55/57
Ejemplo
Para calcular el estadstico de prueba, primero
debemos calcular los valores esperados para
cada celda.
y ahora los valores esperados:
ni nj
Table 1: Valores esperados eij = n
Lugar de Readaptacin a la vida civil
Residencia Excelente Buena Regular Insatisfactoria Total

Lugar de origen 24 30 36 30 120


Otro lugar 16 80
Total 40 50 60 50 200
Ignacio Vidal G. p.55/57
Ejemplo
Para calcular el estadstico de prueba, primero
debemos calcular los valores esperados para
cada celda.
y ahora los valores esperados:
ni nj
Table 1: Valores esperados eij = n
Lugar de Readaptacin a la vida civil
Residencia Excelente Buena Regular Insatisfactoria Total

Lugar de origen 24 30 36 30 120


Otro lugar 16 20 80
Total 40 50 60 50 200
Ignacio Vidal G. p.55/57
Ejemplo
Para calcular el estadstico de prueba, primero
debemos calcular los valores esperados para
cada celda.
y ahora los valores esperados:
ni nj
Table 1: Valores esperados eij = n
Lugar de Readaptacin a la vida civil
Residencia Excelente Buena Regular Insatisfactoria Total

Lugar de origen 24 30 36 30 120


Otro lugar 16 20 24 20 80
Total 40 50 60 50 200
Ignacio Vidal G. p.55/57
Ejemplo
Como todos los valores esperados son mayores
a 5, estamos listos para calcular el estadstico de
prueba:
2
(27 24)
2c =
24

Ignacio Vidal G. p.56/57


Ejemplo
Como todos los valores esperados son mayores
a 5, estamos listos para calcular el estadstico de
prueba:
2 2
(27 24) (35 30)
2c = +
24 30

Ignacio Vidal G. p.56/57


Ejemplo
Como todos los valores esperados son mayores
a 5, estamos listos para calcular el estadstico de
prueba:

2 2 2
(27 24) (35 30) (25 20)
2c = + + +
24 30 20

Ignacio Vidal G. p.56/57


Ejemplo
Como todos los valores esperados son mayores
a 5, estamos listos para calcular el estadstico de
prueba:

2 2 2
(27 24) (35 30) (25 20)
2c = + + +
24 30 20
= 5.729

Ignacio Vidal G. p.56/57


Ejemplo
El valor-p es:
 
2
valor p = P [(21)(41)] 5.729

Ignacio Vidal G. p.57/57


Ejemplo
El valor-p es:
 
2
valor p = P 5.729
[(21)(41)]
 
= P 2(3) 5.729

Ignacio Vidal G. p.57/57


Ejemplo
El valor-p es:
 
2
valor p = P 5.729
[(21)(41)]
 
= P 2(3) 5.729 > 0.1

Ignacio Vidal G. p.57/57


Ejemplo
El valor-p es:
 
2
valor p = P 5.729
[(21)(41)]
 
= P 2(3) 5.729 > 0.1

Este valor es muy grande para rechazar H0 , por lo


que concluimos que no hay evidencias para decir
que existe alguna relacin entre la readaptacin
a la vida civil y el lugar donde residan los pri-
sioneros despus de ser liberados.
Ignacio Vidal G. p.57/57

You might also like