Professional Documents
Culture Documents
Malln Arenas e
Departamento de Estad stica Facultad de Ciencias F sicas y Matemticas a Universidad de Concepcin o
1 / 33
Algunas Aplicaciones de la Prueba Chi-Cuadrado Tabla de contingencia r s La prueba chi cuadrado La prueba de homogeneidad Pruebas sobre independencia de dos variables categricas. o Prueba de Bondad de Ajuste a una Distribucin de Probabilidades o
2 / 33
Muchos experimentos producen datos enumerativos (o de conteo). Por ejemplo, la clasicacin de individuos en 5 categor segn sus ingresos; o as u en un estudio de traco podr requerir de un conteo y la clasicacin del a o tipo de veh culos motorizados que utilizan cierto tramo de las autopistas; un proceso industrial produce art culos que tienen una de las tres clases de calidad: aceptable, de segunda y rechazada, etc.
3 / 33
Los ejemplos anteriores tienen aproximadamente las siguientes caracter sticas, que denen un experimento multinomial:
1 2 3
El experimento cuenta con n pruebas independientes; El de cada prueba cae en una de las k clases o celdas; La probabilidad que el resultado de una prueba caiga en una celda en particular, (en la i-sima) es pi (i = 1, 2, . . . , k) y permanece e constante prueba a prueba. Adems, a p1 + p2 + + pk = 1;
Se est interesado en los valores n1 , n2 , . . . , nk en donde ni es igual al a nmero de pruebas cuyo resultado cae en la i-sima celda. Note que: u e n = n1 + n2 + + nk .
4 / 33
El objetivo ahora es hacer inferencia acerca de las probabilidades p1 , p2 , . . . , pk de las celdas de un experimento multinomial. Las inferencias se realizan en trminos de la prueba estad e stica de una hiptesis acerca de o los valores numricos espec e cos o acerca de su interrelacin. o
5 / 33
Tabla de contingencia r s
Tabla de contingencia r s
Datos de una muestra de tamao n para dos criterios de clasicacin A y n o B: A con los niveles o clases A1 , A2 , . . . , Ar . B con los niveles o clases B1 , B2 , . . . , Bs B1 n11 n21 . . . nr1 n1 B2 n12 n22 . . . nr2 n2 .. . Bs n1s n2s . . . nrs ns Totales n1 n2 . . . nr n
A1 A2 . . . Ar Totales
6 / 33
Tabla de contingencia r s
7 / 33
Al considerar n ensayos o repeticiones independientes de un experimento aleatorio, podemos denir la variable multinomial (n1 , n2 , . . . , nr ), asociada a una particin A1 , A2 , . . . , Ar del correspondiente espacio o muestral , con p(Ai ) = pi , donde ni es el nmero de veces que tiene u lugar el suceso Ai en los n ensayos. Karl Pearson propuso un estad stico de prueba muy util para probar hiptesis respecto de p1 , p2 , . . . , pk y o estableci su distribucin de probabilidad aproximada en un muestreo o o repetitivo.
8 / 33
=
i=1
r i=1
(Oi Ei )2 Ei
sigue una ley de probabilidad 2 o (r1) . Esta aproximacin se considera adecuada si las frecuencias esperadas cumplen Ei = npi < 5 , para i = 1, . . . , r. Se suelen tambin utilizar e Oi = frecuencia observada de Ai ; Ei = frecuencia esperada de Ai .
9 / 33
En el caso que las probabilidades pi hayan de ser reemplazadas por sus estimaciones, la variable presenta la forma:
r
2 =
i=1
(Xi npi )2 = np i
r i=1
(Oi Ei )2 Ei
y su ley se ajusta as ntoticamente a la de una distribucin 2 o (rs1) , o de parmetros que es necesario estimar para determinar a su donde s = n a vez las estimaciones de las probabilidades desconocidas.
10 / 33
Ejemplo En un anlisis de mercado que elabor una empresa de marketing. durante a o el ao pasado se estabilizaron las participaciones del marcado con un 30% n para la compa A, 50% para la compa B y 20% para la compa C. na na na La compa C incorporar un nuevo producto al mercado y le pidi a la na a o misma empresa si el nuevo producto causar una alteracin en las a o participaciones de los tres competidores en el mercado. H0 : p1 = 0, 3 p2 = 0, 5 p3 = 0, 2 Ha : Las proporciones no son las que se indicaron.
11 / 33
Supongamos que la empresa investigadora us una muestra de 200 clientes o para el estudio. A cada persona se le pidi su preferencia de compra entre o las tres alternativas: El producto de la compa A, el de la B o el nuevo na producto de la C. Las respuestas se resumen en la siguiente tabla: Compa A na Frecuencias observadas ni Frecuencias esperadas Ei 48 200(0.3) = 60 Compa B na 98 200(0.5) = 100 Compa C na 54 200(0.2) = 40
12 / 33
2 =
i=1
(ni npi )2 (48 60)2 (98 100)2 (54 40)2 = + + = 7.34 npi 60 100 40
con = 0, 05 . Como 7, 23 > 5, 99 se rechaza H0 . Luego se concluye que la introduccin del nuevo producto de la compa C s alterar la o na a estructura actual de participacin en el mercado. o
13 / 33
La prueba de homogeneidad
La prueba de homogeneidad
Se consideran B1 = (n11 , n12 , . . . , n1s ), B2 = (n21 , n22 , . . . , n2s ), . . . . . . . . . Br = (nr1 , nr2 , . . . , nrs ), r poblaciones multinomiales independientes, en relacin con un mismo o criterio de clasicacin con s niveles o clases A1 , A2 , . . . , As ; donde los o nmeros de ensayos son n1. , n2. , . . . , nr. , respectivamente ; nij = no de u veces, de los ni. ensayos realizados en la poblacin Bi , que tiene lugar Aj o ; pij = probabilidad que en Bi tiene el atributo Aj . Las variables en esta situacin denen la siguiente tabla de contingencia con r las y s columnas o
14 / 33
La prueba de homogeneidad
Datos de una muestra de tamao n para s poblaciones B1 , B2 , . . . , Br y n criterio de clasicacin A con los niveles o clases A1 , A2 , . . . , As . o A1 n11 n21 . . . nr1 n1 A2 n12 n22 . . . nr2 n2 .. . As n1s n2s . . . nrs ns Totales n1 n2 . . . nr n
B1 B2 . . . Br Totales
15 / 33
La prueba de homogeneidad
Se trata de probar si, en relacin al criterio considerado, las r poblaciones o son homogneas, es decir, si no existen diferencias entre la probabilidades e de cada uno de los atributos o clases en todas las poblaciones. La formulacin de este contraste ser o a: H0 : pij = pkj = p.j , para j = 1, 2, . . . , s; k = 1, 2, . . . , r. H1 : al menos una igualdad no se cumple.
16 / 33
La prueba de homogeneidad
2 = c
j=1 i=1
j=1 i=1
sigue aproximadamente, si los tamaos muestrales son grandes, la n distribucin de probabilidad de una 2 con (r 1)(s 1) grados de o libertad, donde: pj = con n=
j=1 i=1
n.j , n
s
Eij =
r
n.j ni. n
nij .
17 / 33
La prueba de homogeneidad
Se rechaza H0 si donde 2 tico. Al tratarse de (r1)(s1),1a es el valor cr un contraste unilateral superior, la formulacin de este criterio , en o trminos del valor-p, ser: e a
2 v p = P (2 (r1)(s1) > c )
18 / 33
La prueba de homogeneidad
Ejemplo En un ensayo cl nico se desean comparar cuatro vacunas, B1 , B2 , B3 y B4 ; en relacin al criterio reaccin cutnea, con tres niveles, A1 =reaccin o o a o nula; A2 =reaccin moderada; y A3 =reaccin importante. Se dividi un o o o grupo de 400 nios en cuatro grupos de 100, a los que se administr las n o vacunas B1 , B2 , B3 y B4 ; respectivamente. Los resultados obtenidos conforman la siguiente tabla de contingencia con 4 las y 3 columnas: A1 13 15 14 5 n1 = 47 A2 71 74 80 70 n2 = 295 A3 16 11 6 25 n3 = 58 Totales n1 = 100 n2 = 100 n3 = 100 n4 = 100 n = 400
B1 B2 B3 B4 Totales
Su hiptesis nula es que, respecto a cualquiera de los tres tipos de o reaccin, las 4 vacunas son similares. o
Malln Arenas (Dpto. Estad e stica) Pruebas de bondad de ajuste 19 / 33
La prueba de homogeneidad
H0 : pij = pkj = p.j , Los valores esperados son: A1 11.75 11.75 11.75 11.75 0.1175
para
j = 1, 2, 3, i, k = 1, 2, 3, 4
E1 E2 E3 E4 pj
20 / 33
La prueba de homogeneidad
2 = =
(Oij Eij )2 r i=1 Eij 2 2 2 (1311.75)2 + (1511.75) + (1411.75) + (511.75) 11.75 11.75 11.75 11.75 2 2 2 2 + (7173.75) + (7473.75) + (8073.75) + (7073.75) 73.75 73.75 73.75 73.75 2 2 2 2 + (1614.5) + (1114.5) + (614.5) + (2514.5) 14.5 14.5 14.5 14.5
21 / 33
Para introducir este tipo de prueba, supongamos que en una poblacin o se consideran dos criterios de clasicacin A y B, integrados por los o niveles o clases A1 , A2 , . . . , Ar ; y B1 , B2 , ..., Bs , respectivamente. Una muestra aleatoria de n individuos dene la variable multinomial. Sea nij = no de individuos de la muestra clasicados en la clase Ai de A y en la Bj de B; y congura la siguiente tabla de contingencia con r las y s columnas.
22 / 33
A1 A2 . . . Ar Totales
.. .
Totales n1 n2 . . . nr n
ni. = total de la i-sima la = no individuos en la muestra de la clase Ai e de A. n.j = total de la j-sima columna = no individuos en la muestra de la e clase Bj de B.
23 / 33
Armar que los dos criterios de clasicacin son independientes signicar o a que cualquier nivel (suceso) Ai del criterio A es independiente de cualquier nivel (suceso) Bj del criterio B, es decir, H0 : pij = pi. p.j H1 : pij = pi. p.j
s r
2 = c
j=1 i=1
j=1 i=1
Eij =
r
n.j ni. n
con n=
nij .
j=1 i=1
24 / 33
Ejemplo Suponga que se ha tomado una muestra de 150 personas bebedoras de cerveza. Despus de probar cada una de las distintas cervezas se les e pregunta su preferencia o primera alternativa. La tabla siguiente resume las respuestas observadas: Cerveza preferida Ligera Clara Oscura 20 40 20 30 30 10 50 70 30
Total 80 70 150
25 / 33
Total 80 70 150
(Oij Eij )2 s r j=1 i=1 Eij 2 (2026.667)2 (4037.333)2 + + (2016) 26.667 37.333 16 2 2 2 + (3023.333) + (3032.667) + (1014) 23.333 32.667 14
26 / 33
La prueba de bondad de ajuste es conveniente cuando se requiere decidir si existe incompatibilidad entre las distribuciones de frecuencias observadas y alguna distribucin predeterminada o hipottica. o e Hiptesis: o H0 : La variable Y tiene una distribucin de probabilidades dada. o H1 : La variable Y no tiene la distribucin de probabilidades o propuesta.
27 / 33
=
i=1
Las frecuencias esperadas se calculan de la siguiente manera: Ei = npi , donde pi son las probabilidades correspondientes a cada valor de Y segn u la distribucin de probabilidades establecidas en la hiptesis nula. o o Regla de Decisin: o La hiptesis nula se rechaza con un nivel de signicacin si el resulta o o mayor que el valor de tabla.
28 / 33
Ejemplo Hay 1000 bolsas de naranjas, cada una de las cuales contienen 10 naranjas. Alguna de las naranjas estn podridas. Es la distribucin de a o probabilidades del nmero de naranjas podridas por bolsa una u Binomial(10,p)?. Los resultados obtenidos tras analizar las 1000 bolsas son los siguientes: No de naranjas podridas Frecuencia observada 0 334 1 369 2 191 3 63 4 22 5 12 6 9
29 / 33
Hiptesis: o H0 : El nmero de naranjas podridas por bolsa sigue una u distribucin Binomial(10,p) para algn p. o u H1 : El nmero de naranjas podridas por bolsa no sigue una u distribucin Binomial (10,p). o p= 1142 = 0, 1142 10000
30 / 33
no de naranjas podridas 0 1 2 3 4 o ms a 5 6 7 o ms a
31 / 33
no de naranjas podridas 0 1 2 3 4 o ms a 5 6
(Oi Ei )2 Ei
1000
1000
37,484
32 / 33
Ejemplo Un entomlogo est analizando la distribucin de una especie de insecto o a o en una zona de cultivo. Para dicho estudio seleccion 40 parcelas de o 2m 2m y contabiliz el nmero de insectos de dicha especie en cada o u una. Los resultados son los siguientes: Nmero de insectos u Nmero de parcelas u 0 4 1 16 2 12 3 6 4 2
33 / 33