You are on page 1of 33

Pruebas de bondad de ajuste y tablas de contingencias

Malln Arenas e
Departamento de Estad stica Facultad de Ciencias F sicas y Matemticas a Universidad de Concepcin o

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

1 / 33

Algunas Aplicaciones de la Prueba Chi-Cuadrado Tabla de contingencia r s La prueba chi cuadrado La prueba de homogeneidad Pruebas sobre independencia de dos variables categricas. o Prueba de Bondad de Ajuste a una Distribucin de Probabilidades o

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

2 / 33

Algunas Aplicaciones de la Prueba Chi-Cuadrado

Algunas Aplicaciones de la Prueba Chi-Cuadrado

Muchos experimentos producen datos enumerativos (o de conteo). Por ejemplo, la clasicacin de individuos en 5 categor segn sus ingresos; o as u en un estudio de traco podr requerir de un conteo y la clasicacin del a o tipo de veh culos motorizados que utilizan cierto tramo de las autopistas; un proceso industrial produce art culos que tienen una de las tres clases de calidad: aceptable, de segunda y rechazada, etc.

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

3 / 33

Algunas Aplicaciones de la Prueba Chi-Cuadrado

Los ejemplos anteriores tienen aproximadamente las siguientes caracter sticas, que denen un experimento multinomial:
1 2 3

El experimento cuenta con n pruebas independientes; El de cada prueba cae en una de las k clases o celdas; La probabilidad que el resultado de una prueba caiga en una celda en particular, (en la i-sima) es pi (i = 1, 2, . . . , k) y permanece e constante prueba a prueba. Adems, a p1 + p2 + + pk = 1;

Se est interesado en los valores n1 , n2 , . . . , nk en donde ni es igual al a nmero de pruebas cuyo resultado cae en la i-sima celda. Note que: u e n = n1 + n2 + + nk .

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

4 / 33

Algunas Aplicaciones de la Prueba Chi-Cuadrado

El objetivo ahora es hacer inferencia acerca de las probabilidades p1 , p2 , . . . , pk de las celdas de un experimento multinomial. Las inferencias se realizan en trminos de la prueba estad e stica de una hiptesis acerca de o los valores numricos espec e cos o acerca de su interrelacin. o

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

5 / 33

Tabla de contingencia r s

Tabla de contingencia r s

Datos de una muestra de tamao n para dos criterios de clasicacin A y n o B: A con los niveles o clases A1 , A2 , . . . , Ar . B con los niveles o clases B1 , B2 , . . . , Bs B1 n11 n21 . . . nr1 n1 B2 n12 n22 . . . nr2 n2 .. . Bs n1s n2s . . . nrs ns Totales n1 n2 . . . nr n

A1 A2 . . . Ar Totales

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

6 / 33

Tabla de contingencia r s

nij = no de individuos de la muestra clasicados en la clase Ai de A y en la Bj de B. ni = A.


s j=1

total de la i-sima la = no individuos de la clase Ai de e

n.j = r total de la j-sima columna = no de individuos de la e i=1 clase Bj de B.

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

7 / 33

La prueba chi cuadrado

La prueba chi cuadrado

Al considerar n ensayos o repeticiones independientes de un experimento aleatorio, podemos denir la variable multinomial (n1 , n2 , . . . , nr ), asociada a una particin A1 , A2 , . . . , Ar del correspondiente espacio o muestral , con p(Ai ) = pi , donde ni es el nmero de veces que tiene u lugar el suceso Ai en los n ensayos. Karl Pearson propuso un estad stico de prueba muy util para probar hiptesis respecto de p1 , p2 , . . . , pk y o estableci su distribucin de probabilidad aproximada en un muestreo o o repetitivo.

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

8 / 33

La prueba chi cuadrado

Cuando n, el nmero de ensayos, es sucientemente grande, la variable: u


r

=
i=1

(ni npi )2 = npi

r i=1

(Oi Ei )2 Ei

sigue una ley de probabilidad 2 o (r1) . Esta aproximacin se considera adecuada si las frecuencias esperadas cumplen Ei = npi < 5 , para i = 1, . . . , r. Se suelen tambin utilizar e Oi = frecuencia observada de Ai ; Ei = frecuencia esperada de Ai .

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

9 / 33

La prueba chi cuadrado

En el caso que las probabilidades pi hayan de ser reemplazadas por sus estimaciones, la variable presenta la forma:
r

2 =
i=1

(Xi npi )2 = np i

r i=1

(Oi Ei )2 Ei

y su ley se ajusta as ntoticamente a la de una distribucin 2 o (rs1) , o de parmetros que es necesario estimar para determinar a su donde s = n a vez las estimaciones de las probabilidades desconocidas.

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

10 / 33

La prueba chi cuadrado

Ejemplo En un anlisis de mercado que elabor una empresa de marketing. durante a o el ao pasado se estabilizaron las participaciones del marcado con un 30% n para la compa A, 50% para la compa B y 20% para la compa C. na na na La compa C incorporar un nuevo producto al mercado y le pidi a la na a o misma empresa si el nuevo producto causar una alteracin en las a o participaciones de los tres competidores en el mercado. H0 : p1 = 0, 3 p2 = 0, 5 p3 = 0, 2 Ha : Las proporciones no son las que se indicaron.

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

11 / 33

La prueba chi cuadrado

Supongamos que la empresa investigadora us una muestra de 200 clientes o para el estudio. A cada persona se le pidi su preferencia de compra entre o las tres alternativas: El producto de la compa A, el de la B o el nuevo na producto de la C. Las respuestas se resumen en la siguiente tabla: Compa A na Frecuencias observadas ni Frecuencias esperadas Ei 48 200(0.3) = 60 Compa B na 98 200(0.5) = 100 Compa C na 54 200(0.2) = 40

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

12 / 33

La prueba chi cuadrado

2 =
i=1

(ni npi )2 (48 60)2 (98 100)2 (54 40)2 = + + = 7.34 npi 60 100 40

con = 0, 05 . Como 7, 23 > 5, 99 se rechaza H0 . Luego se concluye que la introduccin del nuevo producto de la compa C s alterar la o na a estructura actual de participacin en el mercado. o

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

13 / 33

La prueba de homogeneidad

La prueba de homogeneidad

Se consideran B1 = (n11 , n12 , . . . , n1s ), B2 = (n21 , n22 , . . . , n2s ), . . . . . . . . . Br = (nr1 , nr2 , . . . , nrs ), r poblaciones multinomiales independientes, en relacin con un mismo o criterio de clasicacin con s niveles o clases A1 , A2 , . . . , As ; donde los o nmeros de ensayos son n1. , n2. , . . . , nr. , respectivamente ; nij = no de u veces, de los ni. ensayos realizados en la poblacin Bi , que tiene lugar Aj o ; pij = probabilidad que en Bi tiene el atributo Aj . Las variables en esta situacin denen la siguiente tabla de contingencia con r las y s columnas o

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

14 / 33

La prueba de homogeneidad

Datos de una muestra de tamao n para s poblaciones B1 , B2 , . . . , Br y n criterio de clasicacin A con los niveles o clases A1 , A2 , . . . , As . o A1 n11 n21 . . . nr1 n1 A2 n12 n22 . . . nr2 n2 .. . As n1s n2s . . . nrs ns Totales n1 n2 . . . nr n

B1 B2 . . . Br Totales

n.j = total de la j-sima columna = frecuencia de Aj , respecto de n = e no de ensayos total.

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

15 / 33

La prueba de homogeneidad

Se trata de probar si, en relacin al criterio considerado, las r poblaciones o son homogneas, es decir, si no existen diferencias entre la probabilidades e de cada uno de los atributos o clases en todas las poblaciones. La formulacin de este contraste ser o a: H0 : pij = pkj = p.j , para j = 1, 2, . . . , s; k = 1, 2, . . . , r. H1 : al menos una igualdad no se cumple.

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

16 / 33

La prueba de homogeneidad

Bajo el supuesto que H0 es verdadero , el estad stico


s r

2 = c
j=1 i=1

(nij ni. pj )2 = ni. pj

(Oij Eij )2 Eij

j=1 i=1

sigue aproximadamente, si los tamaos muestrales son grandes, la n distribucin de probabilidad de una 2 con (r 1)(s 1) grados de o libertad, donde: pj = con n=
j=1 i=1

n.j , n
s

Eij =
r

n.j ni. n

nij .

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

17 / 33

La prueba de homogeneidad

Se rechaza H0 si donde 2 tico. Al tratarse de (r1)(s1),1a es el valor cr un contraste unilateral superior, la formulacin de este criterio , en o trminos del valor-p, ser: e a
2 v p = P (2 (r1)(s1) > c )

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

18 / 33

La prueba de homogeneidad

Ejemplo En un ensayo cl nico se desean comparar cuatro vacunas, B1 , B2 , B3 y B4 ; en relacin al criterio reaccin cutnea, con tres niveles, A1 =reaccin o o a o nula; A2 =reaccin moderada; y A3 =reaccin importante. Se dividi un o o o grupo de 400 nios en cuatro grupos de 100, a los que se administr las n o vacunas B1 , B2 , B3 y B4 ; respectivamente. Los resultados obtenidos conforman la siguiente tabla de contingencia con 4 las y 3 columnas: A1 13 15 14 5 n1 = 47 A2 71 74 80 70 n2 = 295 A3 16 11 6 25 n3 = 58 Totales n1 = 100 n2 = 100 n3 = 100 n4 = 100 n = 400

B1 B2 B3 B4 Totales

Su hiptesis nula es que, respecto a cualquiera de los tres tipos de o reaccin, las 4 vacunas son similares. o
Malln Arenas (Dpto. Estad e stica) Pruebas de bondad de ajuste 19 / 33

La prueba de homogeneidad

H0 : pij = pkj = p.j , Los valores esperados son: A1 11.75 11.75 11.75 11.75 0.1175

para

j = 1, 2, 3, i, k = 1, 2, 3, 4

H1 : al menos una igualdad no se cumple.

E1 E2 E3 E4 pj

A2 73.75 73.75 73.75 73.75 0.7375

A3 14.5 14.5 14.5 14.5 0.145

ni. 100 100 100 100 400

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

20 / 33

La prueba de homogeneidad

2 = =

(Oij Eij )2 r i=1 Eij 2 2 2 (1311.75)2 + (1511.75) + (1411.75) + (511.75) 11.75 11.75 11.75 11.75 2 2 2 2 + (7173.75) + (7473.75) + (8073.75) + (7073.75) 73.75 73.75 73.75 73.75 2 2 2 2 + (1614.5) + (1114.5) + (614.5) + (2514.5) 14.5 14.5 14.5 14.5

= 19.7504 v p = P (2 > 19.7504) = 0.003067. 6

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

21 / 33

Pruebas sobre independencia de dos variables categricas. o

Pruebas sobre independencia de dos variables categricas. o

Para introducir este tipo de prueba, supongamos que en una poblacin o se consideran dos criterios de clasicacin A y B, integrados por los o niveles o clases A1 , A2 , . . . , Ar ; y B1 , B2 , ..., Bs , respectivamente. Una muestra aleatoria de n individuos dene la variable multinomial. Sea nij = no de individuos de la muestra clasicados en la clase Ai de A y en la Bj de B; y congura la siguiente tabla de contingencia con r las y s columnas.

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

22 / 33

Pruebas sobre independencia de dos variables categricas. o

A1 A2 . . . Ar Totales

B1 n11 n21 . . . nr1 n1

B2 n12 n22 . . . nr2 n2

.. .

Bs n1s n2s . . . nrs ns

Totales n1 n2 . . . nr n

ni. = total de la i-sima la = no individuos en la muestra de la clase Ai e de A. n.j = total de la j-sima columna = no individuos en la muestra de la e clase Bj de B.

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

23 / 33

Pruebas sobre independencia de dos variables categricas. o

Armar que los dos criterios de clasicacin son independientes signicar o a que cualquier nivel (suceso) Ai del criterio A es independiente de cualquier nivel (suceso) Bj del criterio B, es decir, H0 : pij = pi. p.j H1 : pij = pi. p.j
s r

2 = c
j=1 i=1

(nij ni. pj )2 = ni. pj pj = n.j , n


s

(Oij Eij )2 Eij

j=1 i=1

Eij =
r

n.j ni. n

con n=

nij .
j=1 i=1

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

24 / 33

Pruebas sobre independencia de dos variables categricas. o

Ejemplo Suponga que se ha tomado una muestra de 150 personas bebedoras de cerveza. Despus de probar cada una de las distintas cervezas se les e pregunta su preferencia o primera alternativa. La tabla siguiente resume las respuestas observadas: Cerveza preferida Ligera Clara Oscura 20 40 20 30 30 10 50 70 30

Hombres Mujeres Total

Total 80 70 150

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

25 / 33

Pruebas sobre independencia de dos variables categricas. o

Hombres Mujeres Total 2 = =

Valores esperados Ligera Clara Oscura 26.667 37.333 16 23.333 32.667 14 50 70 30

Total 80 70 150

(Oij Eij )2 s r j=1 i=1 Eij 2 (2026.667)2 (4037.333)2 + + (2016) 26.667 37.333 16 2 2 2 + (3023.333) + (3032.667) + (1014) 23.333 32.667 14

= 6.13 v p = P (2 > 6.13) = 0.047. 2

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

26 / 33

Prueba de Bondad de Ajuste a una Distribucin de Probabilidades o

Prueba de Bondad de Ajuste a una Distribucin de o Probabilidades

La prueba de bondad de ajuste es conveniente cuando se requiere decidir si existe incompatibilidad entre las distribuciones de frecuencias observadas y alguna distribucin predeterminada o hipottica. o e Hiptesis: o H0 : La variable Y tiene una distribucin de probabilidades dada. o H1 : La variable Y no tiene la distribucin de probabilidades o propuesta.

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

27 / 33

Prueba de Bondad de Ajuste a una Distribucin de Probabilidades o

Estad stico de prueba:


k

=
i=1

(Oij Eij )2 2 k1m Eij

Las frecuencias esperadas se calculan de la siguiente manera: Ei = npi , donde pi son las probabilidades correspondientes a cada valor de Y segn u la distribucin de probabilidades establecidas en la hiptesis nula. o o Regla de Decisin: o La hiptesis nula se rechaza con un nivel de signicacin si el resulta o o mayor que el valor de tabla.

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

28 / 33

Prueba de Bondad de Ajuste a una Distribucin de Probabilidades o

Ejemplo Hay 1000 bolsas de naranjas, cada una de las cuales contienen 10 naranjas. Alguna de las naranjas estn podridas. Es la distribucin de a o probabilidades del nmero de naranjas podridas por bolsa una u Binomial(10,p)?. Los resultados obtenidos tras analizar las 1000 bolsas son los siguientes: No de naranjas podridas Frecuencia observada 0 334 1 369 2 191 3 63 4 22 5 12 6 9

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

29 / 33

Prueba de Bondad de Ajuste a una Distribucin de Probabilidades o

Hiptesis: o H0 : El nmero de naranjas podridas por bolsa sigue una u distribucin Binomial(10,p) para algn p. o u H1 : El nmero de naranjas podridas por bolsa no sigue una u distribucin Binomial (10,p). o p= 1142 = 0, 1142 10000

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

30 / 33

Prueba de Bondad de Ajuste a una Distribucin de Probabilidades o

no de naranjas podridas 0 1 2 3 4 o ms a 5 6 7 o ms a

Frecuencia observada 334 369 191 63 22 12 9 0

pi 0,297410817 0,383430969 0,222448832 0,076476726 0,017254317 0,002669374 0,000286786 2,21787E-05

Ei npi 297.411 383.431 222.449 76.477 20.233 2.669 0.287 0.022

<5 <5 <5

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

31 / 33

Prueba de Bondad de Ajuste a una Distribucin de Probabilidades o

no de naranjas podridas 0 1 2 3 4 o ms a 5 6

Frecuencia observada 334 369 191 63 22 12 9 1000

Oi 334 369 191 63 43

pi 0,297410817 0,383430969 0,222448832 0,076476726 0,020232656

Ei npi 297.411 383.431 222.449 76.477 20.233

(Oi Ei )2 Ei

4,501 0,543 4,446 2,375 25,618

1000

1000

37,484

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

32 / 33

Prueba de Bondad de Ajuste a una Distribucin de Probabilidades o

Ejemplo Un entomlogo est analizando la distribucin de una especie de insecto o a o en una zona de cultivo. Para dicho estudio seleccion 40 parcelas de o 2m 2m y contabiliz el nmero de insectos de dicha especie en cada o u una. Los resultados son los siguientes: Nmero de insectos u Nmero de parcelas u 0 4 1 16 2 12 3 6 4 2

Pruebe con = 0.05 si los datos se ajustan a una distribucin de Poisson. o

Malln Arenas (Dpto. Estad e stica)

Pruebas de bondad de ajuste

33 / 33

You might also like