You are on page 1of 40

GestinAeronutica:EstadsticaTerica

FacultadCienciasEconmicasyEmpresariales
DepartamentodeEconomaAplicada
Profesor:SantiagodelaFuenteFernndez

APLICACIONES DE LA CHI-CUADRADO:
TABLAS DE CONTINGENCIA. HOMOGENEIDAD.
DEPENDENCIA E INDEPENDENCIA
GestinAeronutica:EstadsticaTerica
FacultadCienciasEconmicasyEmpresariales
DepartamentodeEconomaAplicada
Profesor:SantiagodelaFuenteFernndez

PRINCIPALESAPLICACIONESDELACHICUADRADO

Al analizar en una poblacin un carcter cualitativo o cuantitativo el estudio resulta


muy tedioso por el gran nmero de elementos del que consta la poblacin.

Generalmente, se examina una muestra tomada de la poblacin, lo que lleva a tener una
serie de datos, y ver hasta qu punto la muestra se pude considerar perteneciente a
una distribucin terica conocida.

Siempre existirn desviaciones entre la distribucin emprica u observada y la


distribucin terica. Se plantea la cuestin de saber si estas desviaciones son debidas
al azar o al haber tomado una distribucin terica inadecuada.

CONTRASTEDEBONDADDELAJUSTE

El objetivo del contraste de bondad del ajuste es saber si una muestra procede de
una poblacin terica con determinada distribucin de probabilidad.

Sea una poblacin, donde se analiza un carcter X con (x 1, x 2 , , x k ) modalidades


excluyentes, denotando por n i es el nmero de elementos que presenta la modalidad
k

xi (frecuencia observada de xi ), n n
i 1
i

Por otra parte, sea e i n . p i la frecuencia esperada o terica de cada modalidad x i

Se origina la TABLADECONTINGENCIA:

X x1 x2 xi xk
Frecuencia observada n1 n2 ni nk
Frecuencia esperada (e1 ) (e2 ) (ei ) (ek )

La distribucin terica representa a


Se plantea la hiptesis nula H0 :
la distribucin emprica u observada

Para un nivel de significacin (o riesgo) :

estadstico estadstico
observado observado
estadstico
terico estadstico
terico
k
(n i ei )2 k
(n i ei )2
Se acepta H0 :
i1
ei
2 , (k 1) Se rechaza H0 : i1
ei
2 , (k 1)

1
k
(n i e i )2 k
n2i
El estadstico
i 1
ei
e
i 1 i
n (tilenelclculo)

OBSERVACIONESDELAAPLICACIN

a) El test de la 2 se puede aplicar en situaciones donde se desea decidir si una serie


de datos (observaciones) se ajusta o no a una funcin terica previamente
determinada (Binomial, Poisson, Normal, etc.)

b) Es necesario que las frecuencias esperadas de las distintas modalidades no sea


inferior a cinco. Si alguna modalidad tiene una frecuencia esperada menor que
cinco se agrupan dos o ms modalidades contiguas en una sola hasta conseguir que
la frecuencia esperada sea mayor que cinco.

c) Los grados de libertad de la 2 dependen del nmero de parmetros que se


necesitan hallar para obtener las frecuencias esperadas. En este sentido, si se
requieren hallar p parmetros, los grados de libertad son (k p) si las modalidades
son independientes y (k p 1) cuando las modalidades son excluyentes.

TABLASCONTIGENCIA:CONTRASTEDEDEPENDENCIAOINDEPENDENCIA

Cuando se desea comparar dos caracteres (X, Y) en una misma poblacin que admiten
las modalidades: X (x 1, x 2 , , x i, , x k ) Y (y1 , y2, , yj, , ym ) , se toma una muestra
de tamao n, representando por n ij el nmero de elementos de la poblacin que
presentan la modalidad x i de X e yj de Y.

X
Y
y1 y2 yj ym n
j 1
i

x1 n 11 n 12 n 1j n1m n1
x2 n 21 n 22 n 2j n 2m n2

xi n i1 n i2 n ij n im ni

xk n k1 n k2 n kj n km nk
k

n
i 1
j
n 1 n 2 n j n m n

No existe diferencia entre las


Se plantea la hiptesis nula H0 :
distribuciones empricas de X e Y

2
Bajo la hiptesis nula, cada frecuencia observada n ij (i 1, , k ; j 1, , m) de la
tabla de contingencia (k x m) hay una frecuencia esperada ( e ij ) que se obtiene
mediante la expresin:

ni x n j n i n j
e ij p ij . n , donde p ij x
n n n

Agrupando frecuencias observadas y esperadas en la tabla de contingencia (k x m) :

X
Y
y1 y2 yj ym n
j 1
i

n 11 n 12 n 1j n1m
x1 n1
( e11 ) ( e12 ) ( e1j ) ( e1 m )
n 21 n 22 n 2j n 2m
x2 n2
( e21 ) ( e22 ) ( e2j ) ( e2m )

n i1 n i2 n ij n im
xi ni
( ei1 ) ( ei2 ) ( eij ) ( eim )

n k1 n k2 n kj n km
xk nk
( ek1 ) ( ek2 ) ( ekj ) ( ek m )
k

n
i 1
j
n 1 n 2 n j n m n

Las condiciones necesarias para aplicar el test de la Chi-cuadrado exige que al menos
el 80% de los valores esperados de las celdas sean mayores que 5. Cuando esto no
ocurre hay que agrupar modalidades contiguas en una sola hasta lograr que la nueva
frecuencia sea mayor que cinco.
En una tabla de contingencia de 2 x 2 ser necesario que todas las celdas verifiquen
esta condicin, si bien en la prctica suele permitirse que una de ellas tenga
frecuencias esperadas ligeramente por debajo de 5.

k m
(n ij eij )2
El estadstico de contraste observado:
i 1 j 1
eij
2(k 1) . (m 1) que sigue

aproximadamente una Chi-cuadrado con (k 1) x (m 1) grados de libertad.

3
Para un nivel de significacin se puede contrastar la diferencia significativa entre
las dos distribuciones empricas o la independencia de las distribuciones empricas.

CONTRASTEDEHOMOGENEIDAD

estadstico observado
estadstico terico
k m
(n ij e ij )2
Se acepta Ho si :
i 1 j 1
e ij
2
, (k 1) . (m 1)

estadstico observado
estadstico terico
k m
(n ij e ij )2
Se rechaza Ho si : i 1 j 1
e ij
2
, (k 1) . (m 1)

CONTRASTEDEINDEPENDENCIA

Hiptesis nula H0 : Las distribuciones empricas X e Y son independientes

estadstico observado
estadstico terico
k m
(n ij e ij )2
Se acepta Ho si :
i 1 j 1
e ij
2
, (k 1) . (m 1)

estadstico observado
estadstico terico
k m
(n ij e ij )2
Se rechaza Ho si : i 1 j 1
e ij
2
, (k 1) . (m 1)

TABLASCONTIGENCIA2x2y2x3

Para las tablas de contingencia 2x2 y 2x3 se obtienen frmulas sencillas de la 2


utilizando nicamente las frecuencias observadas

Y
y1 y2
X
x1 n 11 n 12 n1 2
n (n 11 . n 22 n 12 . n 21 )2

1
n 1 . n 2 . n 1 . n 2
x2 n 21 n 22 n2
n 1 n 2 n

Se acepta H0 : 12 2 ,1 Se rechaza H0 : 12 2 ,1

4
Y
y1 y2 y3
X
x1 n 11 n 12 n 13 n1
x2 n 21 n 22 n 23 n2
n 1 n 2 n 3 n

n n211 n212 n213 n n221 n222 n223


2
n
2
n 1 n 1 n 2 n 3 n 2 n 1 n 2 n 3

Se acepta H0 : 22 2 ,2 Se rechaza H0 : 22 2 ,2

CoeficientedeCONTINGENCIA

Es una medida del grado de relacin o dependencia entre dos caracteres en la tabla de
contingencia, se define:

2
C 0C 1
2 n

Mayor valor de C indica un grado de dependencia mayor entre X e Y

FACTORdecorreccindeYATES

Advirtase que como la muestra n 40 se hace aconsejable el uso de la Chi-cuadrado


con el factor de correccin de continuidad de Yates:

nij eij nij 0,5


Factor correccin
nij eij nij 0,5

Para una tabla de contingencia de 2 x 2 la correccin de Yates:

2
n
n n11 .n22 n12 .n21
2 n
12 la correccin no es vlida cuando n11 .n22 n12 .n21
n1 .n2 .n 1 .n 2 2

En general, la correccin de Yates se hace cuando el nmero de grados de libertad es


1.

5
TestGdelarazndeverosimilitud

El test de contraste de independencias por la razn de verosimilitudes (test G) es


una prueba de hiptesis de la Chi-cuadrado que presenta mejores resultados que el de
Pearson. Se distribuye asintticamente con una variable aleatoria 2 con (k 1).(m 1)
grados de libertad.

k m nij
Se define el estadstico G 2 nij ln
eij
i1 j1

k m nij
Se acepta la hiptesis nula H0 si G 2 nij ln 2, (k 1) .(m1)
eij
i1 j1

TestdeMcNemar

El test de McNemar se utiliza para decidir si se puede aceptar o no que determinado


tratamiento induce un cambio en la respuesta de los elementos sometidos al mismo, y
es aplicable a los diseos del tipo antes-despus en los que cada elemento acta como
su propio control.

Consisten en n observaciones de una variable aleatoria bidimensional (X, Y)

La escala de medicin para X e Y es nominal con dos categoras, tales como positivo o
negativo, hembra o macho, presencia o ausencia, que se pueden denominar 0 y 1.

Y
X Total

a b ab
c d cd
Total ac bd n

Los casos que muestran cambios entre la primera y segunda respuesta aparecen en las
celdillas b y c .

Un individuo es clasificado en la celdilla b si cambia de a , en la celdilla a cuando


la respuesta es antes y despus, en la celdilla d cuando la respuesta es antes y
despus.

Hiptesis nula H0 : El tratamiento no induce cambios significativos en las respuestas

En el test de McNemar para la significacin de cambios solamente interesa conocer


las celdas b y c que presentan cambios. Puesto que b + c es el nmero de individuos
que cambiaron, bajo el supuesto de la hiptesis nula, se espera que (b + c) / 2 casos
cambien en una direccin y (b + c) / 2 casos cambien en otra direccin.

6
Estadstico de contraste si b + c < 20 :

2McNemar b se acepta H0 si 2McNemar b 2/2,1

Estadstico de contraste si b + c 20 :

(b c)2 (b c)2
2
2
se acepta H0 si 2
2
2/2,1
McNemar
bc
1 McNemar 1
bc

La aproximacin muestral a la distribucin Chi-cuadrado es ms precisa si se realiza la


correccin de continuidad de Yates (ya que se utiliza una distribucin continua para
aproximar una distribucin discreta). El estadstico corregido:

b c 1 b c 1
2 2

2
2
se acepta H0 si 2
2
2/2,1
McNemar 1
bc McNemar 1
bc

Coeficientesendistribucionesdicotmicas

Los coeficientes ms utilizados en variables dicotmicas son los de correlacin phi y


Q de Yule.

Estos coeficientes tienen algunas propiedades comunes de inters:

a) Estn normalizados, las magnitudes no dependen del tamao de la tabla.

b) Son muy sensibles a la distribucin emprica observada, traduciendo


concentraciones de casos en algunas celdas en magnitudes.

c) Tienen un recorrido terico entre [-1, 1] indicando situaciones de asociacin


perfecta y de independencia estadstica.

Los coeficientes y Q de Yule se diferencian en la sensibilidad rinconal:

a) El coeficiente alcanza su mximo valor slo cuando una de las dos diagonales se
ha vaciado.

b) El coeficiente Q es muy sensible a la existencia de una celda que en trminos


relativos se est vaciando. Su valor mximo se alcanza cuando en una celda no hay
ningn caso, esto es lo que se conoce como sensibilidad rinconal.

Y
X Total
y1 y2
x1 a b (a + b)
x2 c d (c + d)
Total (a + c) (b + d) (n)

7
a d bc
Coeficiente Phi: 01
(a b)(c d)(a c)(b d)

a d bc
Coeficiente Q de Yule: Q 0Q 1
a d bc

TestexactodeFISHER

Si las dos variables que se estn analizando son dicotmicas, y la frecuencia esperada
es menor que 5 en ms de una celda, no resulta adecuado aplicar el test de la 2 ,
aunque s el test exacto de Fisher.

El test exacto de Fisher permite analizar si dos variables dicotmicas estn asociadas
cuando la muestra a estudiar es demasiado pequea y no cumple las condiciones
necesarias para que la aplicacin del test de la Chi-cuadrado sea idnea.

Y
X Total
y1 y2
x1 a b (a + b)
x2 c d (c + d)
Total (a + c) (b + d) (n)

Las condiciones necesarias para aplicar el test de la Chi-cuadrado exige que al menos
el 80% de los valores esperados de las celdas sean mayores que 5. De este modo, en
una tabla de contingencia de 2 x 2 ser necesario que todas las celdas verifiquen esta
condicin, si bien en la prctica suele permitirse que una de ellas tenga frecuencias
esperadas ligeramente por debajo de 5.

El test exacto de Fisher se basa en evaluar la probabilidad asociada a cada una de las
tablas 2 x 2 que se pueden formar manteniendo los mismos totales de filas y columnas
que los de la tabla observada. Cada uno de estas probabilidades se obtiene bajo la
hiptesis de independencia de las dos variables que se estn analizando.

La probabilidad asociada a los datos que han sido observados viene dada por:

(a b)! (c d)! (a c)! (b d)!


p
n! a! b! c! d!

La frmula general de la probabilidad descrita deber calcularse para todas las tablas
de contingencia que puedan formarse con los mismos totales de filas y columnas de la
tabla observada.

8
El valor de la p asociado al test exacto de Fisher puede calcularse sumando las
probabilidades de las tablas que resulten menores o iguales a la probabilidad de la
tabla que ha sido observada.

El planteamiento es bilateral, es decir, cuando la hiptesis alternativa asume la


dependencia entre las variables dicotmicas, pero sin especificar de antemano en qu
sentido se producen dichas diferencias, el valor de la p obtenido se multiplica por 2.

INTERPRETACINDEDATOS

Se ha realizado un estudio sobre la situacin laboral de las mujeres y su estado civil,


los datos obtenidos fueron:

Trabajo Estado civil


Total
remunerado Casada Soltera
Si
No
Total 45 35 80

Los resultados obtenidos en el anlisis de la tabla de contingencia fueron:

Estadsticos Valor p-valor


Chi-cuadrado Pearson 5,634361 0,0175
Chi-cuadrado de Yates 4,154897 0,0357
Test G 5,789645 0,0189
Chi-cuadrado NcNemar 2,94 0,0978
Correlacin Phi -0,685643 0,0178
Q de Yule -0,812345

Con un nivel de significacin = 0, 05 , se pide:

a) Se encuentra asociada la situacin laboral de la mujer a su estado civil?

b) Generalmente, las mujeres que realizan un trabajo remunerado con solteras?

Solucin:

a) Para analizar la dependencia o no de la situacin laboral de la mujer con su estado


civil (asociacin entre variables categricas en una tabla de 2 x 2 ) se utiliza el test de
la 2 de Pearson, con o sin correccin de Yates, el test G de razn de verosimilitudes.
El test de McNemar mo se puede utilizar en este caso por no tratarse de muestras
pareadas (antes-despus).

Estableciendo las hiptesis:

9
H0 : La situacin laboral de la mujer es independiente de su estado civil.
H1 : La situacin laboral de la mujer depende de su estado civil.

Los tres estadsticos primeros, basados en la 2 , presentan un p-valor < 0, 05 , con


lo que se rechaza la hiptesis nula H0 , concluyendo que la situacin laboral de la mujer
est asociada a su estado civil.

b) Partiendo de que la situacin laboral de la mujer se encuentra asociada a su estado


civil, falta por determinar la direccin de dicha asociacin, para lo que se recurre al
coeficiente de correlacin Phi y la Q de Yule.

Ambos estadsticos son negativos, con un p-valor < 0, 05 , pudiendo afirmar que la
correlacin entre la situacin laboral y el estado civil de las mujeres es inversa y
significativa al 5%.

Se puede concluir que la situacin laboral de la mujer (s esta trabajando) esta


asociada a las solteras, con un nivel de significacin del 5%.

10
CONTRASTENOPARAMTRICODEBONDADDEAJUSTE

1.- Para comprobar si los operarios encontraban dificultades con una prensa manual
de imprimir, se hizo una prueba a cuatro operarios anotando el nmero de atascos
sufridos al introducir el mismo nmero de hojas, dando lugar a la siguiente tabla:

Operario A B C D Total
Obstrucciones 6 7 9 18 40

Con un nivel de significacin del 5%, existe diferencia entre los operarios?

Solucin:

Estableciendo la hiptesis nula H0 : 'no existe diferencia entre los operarios'

La probabilidad de que se atascase una hoja sera 1 / 4 para todos los operarios.
De este modo, el nmero de atascos esperados para cada uno de ellos sera
( ei 10)i 1, , 4 .

Tenemos, la tabla de contingencia 1 x 4:

Operario A B C D Total
6 7 9 18 40
Obstrucciones
(10) (10) (10) (10) (40)

Se acepta la hiptesis nula, a un nivel de significacin si

k ( ni e i ) 2 k ni2
2k 1 ei

ei
n 2 ; k 1

k nmero intervalos
i 1 i 1


estadstico terico
estadstico contraste

k
(ni ei ) 2
o bien, la regin de rechazo de la hiptesis nula: R


i 1
ei
2 ; k 1

4
ni2 6 2 7 2 9 2 18 2
con lo cual, 2
3 e
i 1 i
n
10 10 10

10
40 9

Con el nivel de significacin ( 0, 05 ), el estadstico terico: 20, 05 ; 3 7, 815


siendo 23 9 7, 815 20, 05 ; 3 se verifica la regin de rechazo.

En consecuencia, se rechaza la hiptesis nula, concluyendo que existe diferencia


significativa entre los operarios respecto al nmero de atascos en la prensa de
imprimir.

11
CONTRASTENOPARAMTRICODEBONDADDEAJUSTEAUNAPOISSONCON
PARMETRODESCONOCIDO.

2.- En un laboratorio se observ el nmero de partculas que llegan a una


determinada zona procedentes de una sustancia radiactiva en un corto espacio de
tiempo siempre igual, obtenindose los siguientes resultados:

Nmero partculas 0 1 2 3 4 5
Nmero perodos de tiempo 120 200 140 20 10 2

Se pueden ajustar los datos obtenidos a una distribucin de Poisson, con un nivel de
significacin del 5%?

Solucin:

Se establece la hiptesis nula H0 : 'La distribucin emprica se ajusta a la Poisson'

La hiptesis nula se acepta, a un nivel de significacin si

k
(ni ei ) 2 k
ni2 k nmero intervalos
2
k p 1

i 1
ei
e
i 1 i
n 2 ; k p 1

donde
p nmero parmetros a estimar
estadstico terico
estadstico contraste

k
(ni e i ) 2
o bien, la regin de rechazo de la hiptesis nula: R

i 1
ei
2 ; k p 1

La distribucin de Poisson se caracteriza porque slo depende del parmetro que


coincide con la media.

Sea la variable aleatoria X = 'nmero de partculas' y ni = 'nmero de perodos de


tiempo'

xi ni xi n i P(xi k ) pi
0 120 0 0,3012
x
x n i i

590
1,2
1 200 200 0,3614 n 492
2 140 280 0,2169 1,2
3 20 60 0,0867 enconsecuencia,
4 10 40 0,0260 1,2 k 1,2
P(xi k) e k 0, ,5
5 2 10 0,0062 k!
n=492 590

12
Las probabilidades con que llegan las partculas k 0, 1, , 5 se obtienen
1,2 k 1.2
sustituyendo los valores de k en P(xi k) e , o bien en las tablas con 1, 2
k!

Para verificar si el ajuste de los datos a una distribucin de Poisson se acepta o no,
mediante una 2 , hay que calcular las frecuencias esperadas (e i n . pi )

xi 0 1 2 3 4 5
120 200 140 20 10 2
Frecuencias
(e1 = 148,2) (e2 = 177,8) (e3 = 106,7) (e4 = 42,7) (e5 = 12,8) (e6 = 3, 05)

e1 = 492 . 0,3012 = 148,2 e2 = 492 . 0,3614 = 177,8 e3 = 492 . 0,2169 = 106,7


e4 = 492 . 0,0867 = 42,7 e5 = 492 . 0,0260 = 12,8 e6 = 492 . 0,0062 = 3,05

dando lugar a una tabla de contingencia 1 x 6, en donde hay que agrupar las dos
ltimas columnas por tener la ltima columna frecuencias esperadas menores que
cinco.

Por tanto, se tiene la tabla de contingencia 1 x 5:

xi 0 1 2 3 4y5
120 200 140 20 12
Frecuencias
( e1 = 148,2) (e2 = 177,8) (e3 = 106,7) (e4 = 42,7) (e5 = 15,8)

As, los grados de libertad son tres ( k p 1 5 1 1 3 )

El estadstico de contraste:

5
(ni ei ) 2 5
ni2 120 2 200 2 140 2 20 2 12 2
2

3 i 1
ei

i 1
ei
n
148,2 177,8 106,27 42,7 15,8
492 32,31

El estadstico terico: 20,05 ; 3 7,815

El estadstico de contraste (bondad de ajuste) es mayor que el estadstico terico


( 7, 815 ) , rechazndose la hiptesis nula, es decir, la distribucin NO se puede ajustar
a una distribucin de Poisson a un nivel de significacin del 5%.

k
(ni ei ) 2
Se verifica la regin de rechazo: R

i 1
ei
2 ; k p 1 32,31 7, 815

13
CONTRASTENOPARAMTRICODEBONDADDEAJUSTEAUNANORMALCON
PARMETROSDESCONOCIDOS.

3.- Para una muestra aleatoria simple de 350 das, el nmero de urgencias tratadas
diariamente en un hospital A queda reflejado en la siguiente tabla:

Nurgencias 05 510 1015 1520 2025 2530 Totaldas


Ndas 20 65 100 95 60 10 350

Contrastar, con un nivel de significacin del 5%, si la distribucin del nmero de


urgencias tratadas diariamente en el hospital A se ajusta a una distribucin normal.

Solucin:

Para ajustar los datos obtenidos a una distribucin normal N( , ) de parmetros


desconocidos, se necesitan estimar los dos parmetros recurriendo a los estimadores
x ,
mximo-verosmiles: ( 2 2x ) , donde la variable aleatoria X = ' nmero de
urgencias diarias'.

Se establece la hiptesis nula H0 : 'La distribucin emprica se ajusta a la normal'

Se acepta la hiptesis nula, a un nivel de significacin si

k
( ni e i ) 2 k
ni2 k nmero intervalos
2
k p 1

i 1
ei
e i 1 i
n 2 ; k p 1

donde
p nmero parmetros a estimar
estadstico terico
estadstico contraste

Se obtiene la media y la desviacin tpica:

Intervalos xi ni x i .n i x 2i . n i
05 2,5 20 50 125
510 7,5 65 487,5 3656,25
1015 12,5 100 1250 15625
1520 17,5 95 1662,5 29093,75
2025 22,5 60 1350 30375
2530 27,5 10 275 7562,5
6 6 6

n= i=1
n i = 350
i=1
x i n i = 5075 x . n = 86437,5
i=1
2
i i

6 6 6

x n i i
2
(x i
2
x) n i x .n 2
i i

x= i=1
= 14,5 = x
i=1
= i=1
( x ) 2 = 36,71 x = 6,06
350 350 350

14
Se procede al ajuste de una distribucin normal N(14,5 ; 6,06) , hallando las
probabilidades de cada uno de los intervalos:

Intervalos ni pi ei = pi . n (n i e i ) 2 (n i e i ) 2 / ei
05 20 0,0498 17,43 6,6 0,38
510 65 0,1714 59,99 25,1 0,42
1015 100 0,3023 105,81 33,76 0,32
1520 95 0,2867 100,35 28,62 0,29
2025 60 0,1396 48,86 124,1 2,54
2530 10 0,0366 12,81 7,9 0,62
6

n = 350 (n e )
i=1
i i
2
/ ei = 4,57

0 14,5 x 14,5 5 14,5


P(0 < x < 5) = P < < = P( 2,39 < z < 1,57) =
6,06 6,06 6,06
= P(1,57 < z < 2,39) = P(z > 1,57) P(z > 2,39) = 0, 0582 0, 00842 = 0, 04978

5 14,5 x 14,5 10 14,5


P(5 < x < 10) = P < < = P( 1,57 < z < 0,74) =
6,06 6,06 6,06
= P(0,74 < z < 1,57) = P(z > 0,74) P(z > 1,57) = 0,2296 0, 0582 = 0,1714

10 14,5 x 14,5 15 14,5


P(10 < x < 15) = P < < = P( 0,74 < z < 0,08) =
6,06 6,06 6,06
= P(0,08 < z < 0,74) = 1 P(z > 0,74) P(z > 0,08) = 1 0, 4681 0,2296 = 0,3023

15 14,5 x 14,5 20 14,5


P(15 < x < 20) = P < < = P( 0,08 < z < 0,91) =
6,06 6,06 6,06
= P(z > 0,08) P(z > 0,91) = 0, 4681 0,1814 = 0,2867

20 14,5 x 14,5 25 14,5


P(20 < x < 25) = P < < = P( 0,91 < z < 1,73) =
6,06 6,06 6,06
= P(z > 0,91) P(z > 1,73) = 0,1814 0,0418 = 0,1396

25 14,5 x 14,5 30 14,5


P(25 < x < 30) = P < < = P( 1,73 < z < 2,56) =
6,06 6,06 6,06
= P(z > 1,73) P(z > 2,56) = 0,0418 0,0052 = 0,0366

Se calculan las frecuencias esperadas, multiplicando las probabilidades por el


nmero total de datos ei pi . n

15
Se calcula el estadstico de contraste 2 , donde el nmero de grados de libertad
es k p 1 (n intervalos) (n parmetros a estimar) 1 6 2 1 3 , con lo
cual,
6
(ni e i ) 2
2
3 i 1
ei
4,57

Por otra parte, el estadstico terico 20,05 ; 3 7,815

Como 23 4,57 20,05 ; 3 7,815 , se acepta la hiptesis nula a un nivel de


significacin del 5%. En consecuencia, la variable aleatoria nmero de urgencias en el
hospital A sigue una distribucin N(14,5 ; 6,06) .

16
CONTRASTEDEHOMOGENEIDAD.

4.- Para conocer la opinin de los ciudadanos sobre la actuacin del alcalde de una
determinada ciudad, se realiza una encuesta a 404 personas, cuyos resultados se
recogen en la siguiente tabla:

Desacuerdo Deacuerdo Nocontestan


Mujeres 84 78 37
Varones 118 62 25

Contrastar, con un nivel de significacin del 5%, que no existen diferencias de opinin
entre hombres y mujeres ante la actuacin del alcalde.

Solucin:

Se trata de un contraste de homogeneidad en el que se desea comprobar si las


muestras proceden de poblaciones distintas.

Se tienen dos muestras clasificadas en tres niveles, donde se desea conocer si los
hombres y mujeres proceden de la misma poblacin, es decir, si se comportan de
manera semejante respecto a la opinin de la actuacin del alcalde.

La hiptesis nula: H 0 : 'Noexistediferenciaentrehombresymujeresrespectoalaopinin'


Regin de rechazo de la hiptesis nula: R rechazo 2(k 1) . (m 1) 2 ; (k 1) .(m 1)
Se forma una tabla de contingencia 2 x 3: En cada frecuencia observada
( nij )i 1, ,k ; j1, , m en la tabla de contingencia se tiene una frecuencia terica o esperada
n i x n j
eij que se calcula mediante la expresin: e ij pij . n , donde pij son las
n
probabilidades de que un elemento tomado de la muestra presente las modalidades xi
de X e y j de Y.

Desacuerdo Deacuerdo Nocontestan n i


84 78 37
Mujeres 199
(e11 = 99, 5) (e12 = 68,96) (e13 = 30,53)
118 62 25
Varones 205
(e21 = 102, 5) (e22 = 71, 03) (e23 = 31, 46)
n j 202 140 62 n = 404

199 . 202 199 . 140 199 . 62


e 11 = 99,5 e 12 = = 68,96 e 13 = = 30,53
404 404 404

17
205 . 202 205 . 140 205 . 62
e 21 = = 102,5 e 22 = = 71,03 e 23 = = 31, 46
404 404 404

2 3
(nij e ij ) 2
El estadstico de contraste:
i 1 j 1
e ij
2(2 1) . (31) 22 , con lo que,

2 3
(n ij e ij ) 2

2 (84 99,5) 2 (78 68,96) 2 (37 30,53) 2 (118 102,5) 2 (62 71,03) 2
=
2
= + + + + +
i=1 j=1
e ij 99,5 68,96 30,53 102,5 71,03
(25 31, 46) 2
+ = 9, 76
31, 46

sigue una 2 con dos grados de libertad si es cierta la hiptesis nula con eij 5
i, j ; en caso contrario sera necesario agrupar filas o columnas contiguas.

k m
(nij e ij ) 2 k m
nij2
El estadstico de contraste: i 1 j 1
e ij
2
(k 1) . (m 1)
e
i 1 j 1 ij
n

2 3
n 2ij

84 2 78 2 37 2 118 2 62 2 25 2
n= + + + + + 404 = 9, 76
i=1 j=1
e ij 99,5 68,96 30,53 102,5 71,03 31, 46

El estadstico terico 20,05 ; 2 5,991

Como 22 9, 76 20, 05 ; 2 5, 991 se cumple la regin de rechazo, concluyendo que las


muestras no son homogneas, es decir, no proceden de la misma poblacin, hombres y
mujeres no opinan lo mismo.

18
CONTRASTEDEINDEPENDENCIA.

5.- Novecientos cincuenta escolares se clasificaron de acuerdo a sus hbitos


alimenticios y a su coeficiente intelectual:

CoeficienteIntelectual
Total
<80 8090 9099 100
Nutricinbuena 245 228 177 219 869
Nutricinpobre 31 27 13 10 81
Total 276 255 190 229 950

A un nivel de significacin del 10%, hay relacin entre las dos variables tabuladas?

Solucin:

Se trata de un contraste de independencia entre el coeficiente intelectual y los


hbitos alimenticios.

H0 : 'Las dos variables estudiadas son independientes'


Se establecen las hiptesis:
H1 :'Existe dependencia entre las dos variables'

k m
(nij e ij ) 2 k m
nij2
El estadstico de contraste:
i 1 j 1
e ij
2
(k 1) .(m 1)
e
i 1 j 1 ij
n


Siendo la regin de rechazo de la hiptesis nula: R rechazo 2(k 1) . (m 1) 2 ; (k 1) .(m 1)
En la tabla de contingencia 2 x 4 para cada frecuencia observada (nij )i1, , k ; j1,, m se
tiene una frecuencia terica o esperada eij que se calcula mediante la expresin:
n i x n j
e ij
n

CoeficienteIntelectual
ni
<80 8090 9099 100
245 228 177 219
Nutricinbuena (e 11 = 252, 46) (e 12 = 233,25) (e 13 = 173,8) (e 14 = 209, 47) 869

31 27 13 10
Nutricinpobre (e 21 = 23, 53) (e 22 = 21, 74) (e 23 = 16, 2) (e 24 = 19, 52) 81

n j 276 255 190 229 950

869 . 276 869 . 255 869 . 190 869 . 229


e11 = = 252, 46 e12 = = 233, 25 e13 = = 173, 8 e14 = = 209, 47
950 950 950 950

19
81 . 276 81 . 255 81 . 190 81 . 229
e21 = = 23, 53 e22 = = 21, 74 e23 = = 16, 2 e24 = = 19, 52
950 950 950 950

El estadstico de contraste:

2 4
n 2ij
e
2 245 2 228 2 177 2 219 2 31 2 27 2 13 2 10 2
=
3
n= + + + + + + + 950 = 9,75
i=1 j=1 ij
252, 46 233,25 173,8 209, 47 23,53 21,74 16,2 19,52

bien,

2 4
(n ij e ij ) 2

2 (245 252, 46) 2 (228 233,25) 2 (177 173,8) 2 (219 209, 47) 2
=
3
= + + + +
i=1 j=1
e ij 252, 46 233,25 173,8 209, 47
(31 23,53) 2 (27 21,74) 2 (13 16,2) 2 (10 19,52) 2
+ + + + = 9,75
23,53 21,74 16,2 19,52

sigue una 2 con tres grados de libertad si es cierta la hiptesis nula con eij 5
i, j ; en caso contrario sera necesario agrupar filas o columnas contiguas.

El estadstico terico 20,10 ; 3 6,251

Como 23 9, 75 20,10 ; 3 6,251 se cumple la regin de rechazo, concluyendo que se


rechaza la independencia, habiendo por tanto dependencia estadstica entre el
coeficiente intelectual y la alimentacin.

6.- Tres mtodos de empaquetado de tomates fueron probados durante un perodo de


cuatro meses; se hizo un recuento del nmero de kilos por 1000 que llegaron
estropeados, obtenindose los siguientes datos:

Meses A B C Total
1 6 10 10 26
2 8 12 12 32
3 8 8 14 30
4 9 14 16 39
Total 31 44 52 127

a) Observando simplemente los datos, qu se puede inferir sobre el experimento?

b) Con un nivel de significacin de 0,05, comprobar que los tres mtodos tienen la
misma eficacia.

Solucin:

20
a) Con la simple observacin de los datos, el empaquetado A parece ser el mejor, ya
que es el que menos kilos de tomates estropeados tuvo. Ahora bien, esta situacin
puede ser engaosa, ya que hay que tener en cuenta el nmero de kilos que se
empaquetaron.

Para tomar una decisin sobre si hay diferencia entre los diferentes mtodos de
empaquetado, se contrasta la hiptesis nula

H0 :'No existe diferencia entre los mtodos de empaquetado'

b) La hiptesis nula H0 :'No existe diferencia entre los mtodos de empaquetado'

k m
nij2
Se acepta H0 si: 2
(k 1) . (m 1)
e
i 1 j 1 ij
n 2 ; (k 1) . (m 1)

n i x n j
Se forma la tabla de contingencia 3 x 4 , donde e ij
n

Empaquetado
A B C Total
Meses
6 10 10 26
1
(e11 6, 35) (e12 9, 01) (e13 10, 62) (26)
8 12 12 32
2
(e21 7, 81) (e22 11, 09) (e23 13, 10) (32)
8 8 14 30
3
(e31 7, 32) (e32 10, 39) (e33 12, 28) (30)
9 14 16 39
4
(e41 9, 52) (e42 13, 51) (e43 15, 97) (39)
Total 31 44 52 127

26 . 31 32 . 31 30 . 31 39 . 31
e11 6, 35 e21 7, 81 e31 7, 32 e41 9, 52
127 127 127 127

26 . 44 32 . 44 30 . 44 39 . 44
e12 9, 01 e22 11, 09 e32 10, 39 e42 13, 51
127 127 127 127

26 . 52 32 . 52 30 . 52 39 . 52
e13 10, 65 e23 13, 10 e33 12, 28 e43 15, 97
127 127 127 127

3 4
nij2
Estadstico de contraste: 2
(3 1) . ( 4 1)
2
6 e
i 1 j 1 ij
n 128,24 127 1,24

2
El estadstico terico o esperado: 0,05 ; 6
12,592

21
Siendo 26 1, 24 20,05 ; 6 12,592 , el estadstico observado es menor que el
estadstico terico o esperado, por tanto, no se cumple la regin de rechazo,
concluyendo que los tres mtodos de empaquetado tienen la misma eficiencia.

7.- Una empresa multinacional desea conocer si existen diferencias significativas


entre sus trabajadores en distintos pases en el grado de satisfaccin en el trabajo-
Para ello se toman muestran aleatorias simples de trabajadores, obteniendo los
siguientes resultados:

Satisfaccineneltrabajo
Muysatisfecho Satisfecho Insatisfecho Muyinsatisfecho
Espaa 200 300 300 100
Francia 300 400 350 150
Italia 350 300 250 150

Puede admitirse con un nivel de significacin del 5% que la satisfaccin en el trabajo


es similar en los tres pases?

Solucin:

La hiptesis nula H0: 'Las proporciones de los trabajadores con los distintos grados de
satisfaccin son iguales en los tres pases'

Se acepta H0:

k m
( nij eij ) 2 k m
nij2
2
(k 1) . (m 1)

i 1 j 1
e ij
e
i 1 j 1 ij
n 2 ; (k 1) . (m 1)

Regin de rechazo de la hiptesis nula: R rechazo 2(k 1) . (m 1) 2 ; (k 1) . (m 1)


Se forma la tabla de contingencia 3 x 4 donde cada frecuencia observada
n i x n j
(nij )i1, , k ; j1,, m tiene una frecuencia terica o esperada e ij
n

22
Satisfaccineneltrabajo
Total
Muysatisfecho Satisfecho Insatisfecho Muyinsatisfecho
200 300 300 100 900
Espaa (e 14 114, 29)
(e11 242,86) (e12 285, 71) (e13 257, 14) (900)
300 400 350 150 1200
Francia
(e21 323, 81) (e22 380, 95) (e23 342, 86) (e24 152, 38) (1200)
350 300 250 150 1050
Italia
(e31 283, 33) (e32 333, 33) (e33 300) (e34 133, 33) (1050)

Total 850 1000 900 400 3150

3 4
(nij e ij ) 2 3 4
nij2
Estadstico observado: 2
(3 1) . (4 1)

i 1 j 1
eij
e
i 1 j 1 ij
n

200 2 300 2 300 2 100 2 300 2 400 2 350 2 150 2



242,86 285,71 257,14 114,29 323,81 380,95 342,86 152,38

350 2 300 2 250 2 150 2


3150 49,55
283,33 333,33 300 133,33

Estadstico terico: 20,05 ; (3 1) .( 4 1)


20,05 ; 6
12, 592

Como 26 49, 55 12, 592 20,05 ; 6


se rechaza la hiptesis nula de homogeneidad de
las tres muestras.
Es decir, la satisfaccin en el trabajo de los empleados de los tres pases es
significativamente distinta.

8.- Las compaas de seguros de automviles suelen penalizar en sus primas a los
conductores ms jvenes, con el criterio que stos son ms propensos a tener un
mayor nmero de accidentes. En base a la tabla adjunta, con un nivel de significacin
del 5%, contrastar si el nmero de accidentes es independiente de la edad del
conductor.

Nmerodeaccidentesalao
Edaddelconductor
0 1 2 3 4
25omenos 10 10 20 40 70
2635 20 10 15 20 30
msde36 60 50 30 10 5

Solucin:

Hiptesis nula H0: 'El nmero de accidentes sufridos por los conductores no depende
de la edad del conductor'

23
Se acepta H0:
k m
(nij eij ) 2 k m
nij2
2
(k 1) . (m 1)

i 1 j 1
eij
e
i 1 j 1 ij
n 2 ; (k 1) . (m 1)

Regin de rechazo de la hiptesis nula: R rechazo 2(k 1) . (m 1) 2 ; (k 1) . (m 1)


Se forma la tabla de contingencia 3 x 5 donde cada frecuencia observada
(nij )i1, , k ; j1,, m tiene una frecuencia terica o esperada en caso de independencia
n i x n j
e ij
n

Nmerodeaccidentesporao m

Edaddel
0 1 2 3 4 n
j 1
i
conductor
10 10 20 40 70 150
25omenos e13 24,37 e14 26,25 e15 39,37
e11 33, 75 e12 26,25 (150)
20 10 15 20 30 95
2635 e23 15, 44 e24 16, 62 e25 24, 94
e21 21,37 e22 16, 62 (95)
60 50 30 10 5 155
msde36 e31 34, 87 e32 27,12 e33 25,19 e34 27,12 e35 40, 69 (155)
k

n
i 1
j 90 70 65 70 105 400

150 . 90 150 . 70 150 . 65 150 . 70 150 . 105


e11 33, 75 e12 26, 25 e13 24, 37 e14 26,25 e15 39,37
400 400 400 400 400

95 . 90 95 . 70 95 . 65 95 . 70 95 . 105
e21 21, 37 e22 16, 62 e23 15, 44 e24 16, 62 e25 24,94
400 400 400 400 400

155 . 90 155 . 70 155 . 65 155 . 70 155 . 105


e31 34, 87 e32 27,12 e33 25,19 e34 27,12 e35 40,69
400 400 400 400 400

3 5
( nij eij ) 2 3 5
nij2
Estadstico observado: 2
(3 1) . (5 1)
2

8
i 1 j 1
e ij
e
i 1 j 1 ij
n

10 2 10 2 20 2 40 2 70 2 20 2 10 2 15 2 20 2 30 2


33,75 26,25 24,37 26,25 39,37 21,37 16,62 15, 44 16,62 24,94

60 2 50 2 30 2 10 2 52
400 143,51
34,87 27,12 25,19 27,12 40,69

Estadstico terico: 20,05 ; (3 1) . (5 1)


20,05 ;8 15, 507

24
Como 28 143, 51 15, 507 20,05 ; 8 se rechaza la hiptesis nula de independencia
entre la edad del conductor y el nmero de accidentes.
En consecuencia, la edad influye significativamente en el nmero de accidentes al ao.

9.- En dos ciudades, A y B, se observ el color del pelo y de los ojos de sus
habitantes, encontrndose las siguientes tablas:

CiudadA CiudadB
Pelo Pelo
Ojos Rubio NoRubio Ojos Rubio NoRubio

Azul 47 23 Azul 54 30
Noazul 31 93 Noazul 42 80

a) Hallar los coeficientes de contingencia de las dos ciudades.

b) En cul de las dos ciudades podemos afirmar que hay mayor dependencia entre el
color del pelo y de los ojos?

Solucin:

a) Se calculan los valores de la 2 correspondientes a las dos observaciones, siendo


n i x n j
la frecuencia esperada e ij
n

CiudadA
Pelo
Ojos Rubio NoRubio Total
70 . 78 70 . 116
e11 28, 14 e12 41, 85
47 23 70 194 194
Azul
(e11 28, 14) (e12 41,85) (70)
31 93 124 124 . 78 124 . 116
Noazul e21 49, 85 e22 74,14
(e21 49, 85) (e 22 74, 14) (124) 194 194
Total 78 116 194

Estadstico de contraste:

2 2
nij2 47 2 23 2 31 2 93 2
2
(2-1) . (2-1)
= =
2
1
i=1 j=1
eij
-n = + + +
28,14 41,85 49,85 74,14
- 194 = 33,07

33, 07
El coeficiente de contingencia: CA = = 0,3816
33, 07 + 194

En la poblacin B, la tabla de contingencia 2 x 2:

25
CiudadB
Pelo
Ojos Rubio NoRubio Total
84 . 96 84 . 110
e11 39,15 e12 44, 85
54 30 84 206 206
Azul (84)
(e11 = 39, 15) (e12 = 44,85)
42 80 122 96 . 122 110 . 122
Noazul e21 56, 85 e22 65, 15
(e21 = 56, 85) (e22 = 65, 15) (122) 206 206
Total 96 110 206

Estadstico de contraste:

2 2
nij2 54 2 30 2 42 2 80 2
2
(2 1) . (2 1)
2

1 e
i 1 j 1 ij
n
39,15 44,85 56,85 65,15
206 17,82

17,82
El coeficiente de contingencia: CB 0,282
17,82 206

b) Como el coeficiente de contingencia mide el grado de relacin o dependencia entre


las variables, afirmamos que en la poblacin A hay mayor dependencia entre el
color de los ojos y del pelo.

10. En una muestra aleatoria de personas se analizan algunos hbitos de la vida,


habiendo recogido datos de las siguientes variables:

X1 = Estado general de salud: muy bueno (3), bueno (2), regular (1), malo (0)

X2 = Sexo: mujer (1), hombre (0)

X3 = Nivel del ejercicio diario: intenso (2), moderado (1), ninguno (0)

Realizadas las tablas de contingencia correspondientes, se calcularon los siguientes


estadsticos para contrastar la asociacin:

a) 2 (X1 , X2 ) 8 b) 2 (X2 , X3 ) 4,5 2 (X1 , X3 ) 6,1

Con la informacin facilitada, a un nivel de significacin del 5%, elaborar un


diagnstico para cada una de las parejas de variables.

Solucin:

Calculando los p-valor( p ) de cada estadstico se obtiene:

a) H0 : X1 e X2 son independientes

26
En 2 (X1 , X2 ) 8 el nmero de grados de libertad es (4 1) x (2 1) 3

p P(2p, 3 8). Interpolando en la tabla de la Chi-cuadrado:

0,05 p 0,025 0, 05 0, 025 7,815 9,348


7,815 8 9,348 p 0, 025 8 9,348

(p 0, 025) x (7,815 9,348) (0, 05 0, 025) x (8 9,348) p 0, 0469

Siendo p 0, 0469 0, 05 se rechaza la hiptesis nula, concluyendo que el estado


general de salud est asociado al sexo.

b) H0 : X2 e X3 son independientes

En 2 (X2 , X3 ) 4,5 el nmero de grados de libertad es (2 1) x (3 1) 2

p P(2p,2 4,5). Interpolando en la tabla de la Chi-cuadrado:

0,90 p 0,10 0,90 0,10 0,211 4,605


0,211 4,5 4,605 p 0,10 4,5 4,605

(p 0,10) x (0,211 4,605) (0,90 0,10) x (4,5 4,605) p 0,119

Siendo p 0,119 0, 05 se acepta la hiptesis nula, concluyendo que el sexo es


independiente del nivel del ejercicio diario.

c) H0 : X1 e X3 son independientes

En 2 (X1 , X3 ) 6, 1 el nmero de grados de libertad es (4 1) x (3 1) 6

p P(2p, 6 6,1). Interpolando en la tabla de la Chi-cuadrado:

0,90 p 0,10 0,90 0,10 2,204 10,645


2,204 6,1 10,645 p 0,10 6,1 10,645

(p 0,10) x (2,204 10,645) (0,90 0,10) x (6,1 10,645) p 0,530

Siendo p 0,530 0, 05 se acepta la hiptesis nula, concluyendo que el estado


general de salud es independiente del nivel del ejercicio diario.

27
11. En el grfico se presenta la evaluacin del estado general de salud de una
muestra de personas adultas mayores, segn sea su peso normal o sobrepeso.

Con los datos del grfico, con un nivel de significacin del 5%, analizar la existencia de
una relacin significativa entre el peso y el estado general de salud en el adulto mayor.

Solucin:

a) Se trata de dos variables dicotmicas, con datos de frecuencia, pudindose aplicar


una prueba de contraste de asociacin con la Chi-cuadrado.

La hiptesis nula H0 : El estado de salud y el peso son independientes

Llevando la informacin a una tabla de contingencia de 2 x 2

Peso
Estado de Salud Total
Normal Sobrepeso
12 8 20
Bueno
(9, 41) (10, 59) (20)
4 10 14
Malo
(6, 59) (7, 41) (14)
Total 16 18 34

La frecuencia observada n21 4 es menor que lo aconsejable en cada celda ( 5 ), lo


que podra hacer pensar en una inestabilidad del clculo.

Como la frecuencia esperada e21 6,59 , todas las celdas cumplen con el mnimo
aconsejable de 5 en su valor esperado. En la prctica se acepta hasta un 20% de las
celdas que no cumplen con el requisito de que la frecuencia esperada sea 5

Se calculan los valores de la 2 correspondientes a las dos observaciones, siendo la


n i x n j
frecuencia esperada e ij
n

28
20 . 16 20 . 18 14 . 16 14 . 18
e11 9, 41 e12 10, 59 e21 6, 59 e22 7, 41
34 34 34 18

Estadstico de contraste:

2 2
n i2j 12 2 82 42 10 2
2
(2-1) . (2-1)
2
= =
1
i=1 j=1
e ij
-n= + + +
9,41 10,59 6,59 7,41
- 34 = 3,27

Estadstico terico: 20,05,1 3,841

Como 21 = 3,27 3,841 20,05,1 se acepta la hiptesis nula, concluyendo que el estado
general de salud del adulto mayor no est asociado a su peso.

Advirtase que como la muestra n 40 se hace aconsejable el uso de la Chi-


cuadrado con el factor de correccin de continuidad de Yates:

nij eij nij 0,5


Factor correccin
nij eij nij 0,5

Para una tabla de contingencia de 2 x 2 la correccin de Yates:

2
n
n n11 .n22 n12 .n21
2 n
12 la correccin no es vlida cuando n11 .n22 n12 .n21
n1 .n2 .n 1 .n 2 2

En general, la correccin de Yates se hace cuando el nmero de grados de libertad es


1.
2
34
34 12 x10 8x 4
En este caso, 12 2 2,13
20 x 14 x 16x 18

Como 21 = 2,13 3,841 20,05,1 se acepta la hiptesis nula.

La validez del contraste tambin se puede hacer con el p-valor ( p ):


p P 2p,1 2,13 0,271
0,90 p 0,10 0,90 0,10 0, 0158 2,706
0,0158 2,13 2,706 p 0,10 2,13 2,706

29
(p 0,10) x (0, 0158 2,706) (0,90 0,10) x (2,13 2,706) p 0,271

Al ser p 0,271 0, 05 se rechaza la hiptesis nula, afirmando que el estado


general de salud del adulto mayor es independiente de su peso.

12. Un experimento para investigar el efecto de vacunacin de animales de


laboratorio refleja la siguiente tabla:

Animal laboratorio
Vacuna
Enfermo No Enfermo
Vacunado 9 42
No Vacunado 18 28

Con un nivel de significacin de 0,05, Es conveniente vacunar?.

Solucin:

Hiptesis nula H0 : Es independiente la vacuna de los animales enferemos

Animal laboratorio
Vacuna Total
Enfermo No Enfermo
Vacunado 9 42 51
No Vacunado 18 28 46
Total 27 70 97

En una tabla de contingencia de 2 x 2 se puede calcular la 2 de una forma sencilla


recurriendo a las frecuencias observadas.

n n11 .n22 n12 .n21 97 9.28 42.18


2 2

Estadstico observado: 2
5,5570
1
n1 .n2 .n 1 .n 2 51. 46.27 .70

El nmero de grados de libertad es (2 1) x (2 1) 1

Estadstico terico: 20,05,1 3,841

Siendo 12 5,5570 3,841 20,05,1 se rechaza la hiptesis nula, es decir, la vacuna


afecta a la enfermedad, con un nivel de significacin 0, 05

30
13. Para analizar la repercusin que tienen los debates televisivos en la intencin de
voto, un equipo de investigacin recogi datos entre 240 individuos antes y despus
del debate, resultando la siguiente tabla:

Despus del debate


Antes del debate
(candidatos) Total
(candidatos)
A B
A 46 (a) 50 (b) 96 (a + b)
B 85 (c) 59 (d) 144 (c + d)
Total 131 (a + c) 109 (b + d) 240 (n)

Se desea saber si el debate televisivo cambi la intencin de voto, con un nivel de


significacin del 5%.

Solucin:

Se trata de una muestra pareada en una situacin antes-despus, con lo que es idneo
un contraste estadstico Chi-cuadrado de McNemar.

Sea la hiptesis nula H0 : La intencin de voto es la misma antes y despus del debate

(85 50)2
Estadstico muestral: 2McNemar 9, 074
85 50

Estadstico terico: 2/2,1 20,025,1 5, 024

Como 2McNemar 9, 074 5, 024 20,025,1 se rechaza la hiptesis nula, concluyendo que la
intencin de voto cambi significativamente despus del debate, con un nivel de
significacin del 5%.

31
14. Se desea analizar si los estudiantes de universidades privadas preferentemente
son de los estratos econmicos altos del pas. Para ello, se ha tomado la siguiente
muestra:

Grupos socioeconmicos
Universidades
Alto Medio alto Medio bajo Bajo
Estado 13 17 4 3
Privadas 38 19 2 2

a) Para validar el anlisis con un nivel de confianza del 95%, realizar un contraste por
la razn de verosimilitud (test G).

b) Estudiar el grado de dependencia entre el tipo de universidad y el estrato


socioeconmico.

Solucin:

a) El test de contraste de independencias por la razn de verosimilitudes (test G) es


una prueba de hiptesis de la Chi-cuadrado que presenta mejores resultados que el de
Pearson. Se distribuye asintticamente como una variable aleatoria 2 con
(k 1).(m 1) grados de libertad.

k m nij
Se define el estadstico G 2 nij ln
eij
i1 j1

k m nij
Se acepta la hiptesis nula H0 si G 2 nij ln 2, (k 1) .(m1)
eij
i1 j1

Hiptesis nula H0 : El tipo de universidad es independiente del grupo socioecnomico

En un principio, la tabla presenta un 50% de celdas que no verifican que las


frecuencias sean mayores que 5, teniendo que agrupar modalidades contiguas en una
sola hasta lograr que la nueva frecuencia sea mayor que cinco.

Grupos socioeconmicos
Universidades
Alto Medio alto Medio bajo - Bajo
Estado 13 17 7
Privadas 38 19 4

n i x n j
Se calculan los valores esperados de cada celda, donde e ij
n

32
Grupos socioeconmicos
Universidades Total
Alto Medio alto Medio bajo - Bajo
13 17 7 37
Estado
(19,26) (13,59) (4,15) (37)
38 19 4 61
Privadas
(31,74) (22, 41) (6,85) (61)
Total 51 36 11 98

37 . 51 37 . 36 37 . 11
e11 19, 26 e12 13, 59 e13 4,15
98 98 98
61 . 51 61 . 36 61 . 11
e21 31, 74 e22 22, 41 e23 6, 85
98 98 98

La frecuencia esperada e13 = 4,15 < 5 , valor mnimo recomendado para la prueba. En
un caso prctico se admite hasta un 20% de las celdas que no verifican este requisito,
como ocurre en este caso.
nij
En cada celda se calcula el valor de nij x ln
eij

Grupos socioeconmicos
Universidades Total
Alto Medio alto Medio bajo - Bajo
Estado 5,11 3,80 3,66 2,35
Privadas 6,84 3,14 2,15 1,55
Total 1,73 0,66 1,51 3,9

13 17 7
13 x ln 5,11 17 x ln 3,80 7 x ln 3,66
19,26 13,59 4,15
38 19 4
38 x ln 6,84 19 x ln 3,14 4 x ln 2,15
31,74 22, 41 6,85

2 3 nij
El estadstico observado G 2 nij ln 2 x 3,9 7,8
eij
i1 j1

El nmero de grados de libertad es (2 1).(3 1) 2

El estadstico terico 20,05,2 5,991

Como G 7,8 5,991 20,05, 2 , se rechaza la hiptesis nula de independencia,


concluyendo que el tipo de universidad est asociado al grupo socioeconmico.

La validez del contraste tambin se puede hacer con el p-valor ( p ):

33

p P 2p,1 7,8 0,271

0,025 p 0,02 0, 025 0, 02 7,378 7,824


7,378 7,8 7,824 p 0, 02 7,8 7,824

(p 0, 02) x (7,378 7,824) (0, 025 0, 02) x (7,8 7,824) p 0, 02026

Al ser p 0, 02026 0, 05 se acepta la hiptesis nula, afirmando que el tipo de


universidad depende del estrato socioeconmico.

2
b) El grado de contingencia mide el grado de relacin o dependencia: C
2 n

G 7,8
C 0,2715 , hay una dependencia del 27,15%.
G n 7,8 98

15. La tabla adjunta refleja un anlisis de la obesidad en 14 sujetos. Con un nivel de


significacin de 0,05, se desea analizar si existen diferencias en la prevalencia de
obesidad entre hombres y mujeres o si, por el contrario, el porcentaje de obesos no
vara entre sexos.

Obesidad
Sexo Total
S No
Mujeres 1 (a) 4 (b) 5 (a + b)
Hombres 7 (c) 2 (d) 9 (c + d)
Total 8 (a + c) 6 (b + d) 14 (n)

Solucin:

El test exacto de Fisher permite analizar si dos variables dicotmicas estn asociadas
cuando la muestra a estudiar es demasiado pequea y no cumple las condiciones
necesarias para que la aplicacin del test de la Chi-cuadrado sea idnea.

Las condiciones necesarias para aplicar el test de la Chi-cuadrado exige que al menos
el 80% de los valores esperados de las celdas sean mayores que 5. De este modo, en
una tabla de contingencia de 2 x 2 ser necesario que todas las celdas verifiquen esta
condicin, si bien en la prctica suele permitirse que una de ellas tenga frecuencias
esperadas ligeramente por debajo de 5.

Si las dos variables que se estn analizando son dicotmicas, y la frecuencia esperada
es menor que 5 en ms de una celda, no resulta adecuado aplicar el test de la 2 ,
aunque s el test exacto de Fisher.

34
El test exacto de Fisher se basa en evaluar la probabilidad asociada a cada una de las
tablas 2 x 2 que se pueden formar manteniendo los mismos totales de filas y columnas
que los de la tabla observada. Cada uno de estas probabilidades se obtiene bajo la
hiptesis de independencia de las dos variables que se estn analizando.

La probabilidad asociada a los datos que han sido observados viene dada por:

(a b)! (c d)! (a c)! (b d)!


p
n! a! b! c! d!

La frmula general de la probabilidad descrita deber calcularse para todas las tablas
de contingencia que puedan formarse con los mismos totales de filas y columnas de la
tabla observada.

El valor de la p asociado al test exacto de Fisher puede calcularse sumando las


probabilidades de las tablas que resulten menores o iguales a la probabilidad de la
tabla que ha sido observada.
Cuando el planteamiento es bilateral, es decir, cuando la hiptesis alternativa asume
la dependencia entre las variables dicotmicas, pero sin especificar de antemano en
qu sentido se producen dichas diferencias, el valor de la p se multiplica por 2.

En este caso, planteando la hiptesis nula H0 : El sexo y ser obeso son independientes

Obesidad
Sexo Total
S No
Mujeres 1 (a) 4 (b) 5 (a + b)
Hombres 7 (c) 2 (d) 9 (c + d)
Total 8 (a + c) 6 (b + d) 14 (n)

(a b)! (c d)! (a c)! (b d)! 5! 9! 8! 6!


p 0, 0599
n! a! b! c! d! 14! 1! 4! 7 ! 2!

Las siguientes tablas muestran todas las posibles combinaciones de frecuencias que se
pueden obtener con los mismos totales de filas y columnas:

Obesidad
Sexo Total
S No
Mujeres 4 (a) 1 (b) 5 (a + b) p 0,2098
Hombres 4 (c) 5 (d) 9 (c + d)
Total 8 (a + c) 6 (b + d) 14 (n)

(a b)! (c d)! (a c)! (b d)! 5! 9! 8! 6!


p 0,2098
n! a! b! c! d! 14! 4! 1! 4! 5!

35
Obesidad
Sexo Total
S No
Mujeres 2 (a) 3 (b) 5 (a + b) p 0,2797
Hombres 6 (c) 3 (d) 9 (c + d)
Total 8 (a + c) 6 (b + d) 14 (n)

Obesidad
Sexo Total
S No
Mujeres 3 (a) 2 (b) 5 (a + b) p 0, 4196
Hombres 5 (c) 4 (d) 9 (c + d)
Total 8 (a + c) 6 (b + d) 14 (n)

(a b)! (c d)! (a c)! (b d)! 5! 9! 8! 6!


p 0, 4196
n! a! b! c! d! 14! 3! 2! 5! 4!
Obesidad
Sexo Total
S No
Mujeres 0 (a) 5 (b) 5 (a + b) p 0, 0030
Hombres 8 (c) 1 (d) 9 (c + d)
Total 8 (a + c) 6 (b + d) 14 (n)

Obesidad
Sexo Total
S No
Mujeres 5 (a) 0 (b) 5 (a + b) p 0, 0280
Hombres 3 (c) 6 (d) 9 (c + d)
Total 8 (a + c) 6 (b + d) 14 (n)

Sumando las probabilidades de las tablas que son menores o iguales a la probabilidad
de la tabla observada ( p 0, 0599 ) se tiene:

p 0, 0599 0, 0030 0, 0280 0, 0909

Siendo p valor 0, 0909 0, 05 se acepta la hiptesis nula, concluyendo que el sexo y


el hecho de ser obeso son independientes, es decir, no existe asociacin entre las
variables en estudio, con un nivel de significacin 0, 05

Otro mtodo de calcular el p-valor consiste en sumar las probabilidades asociadas a


aquellas tablas que sean ms favorables a la hiptesis alternativa de los datos
observados. La tabla extrema de los datos observados es la que no se observa ninguna
mujer obesa, p 0, 0030

p 0, 0599 0, 0030 0, 0629

36
El SPSS para el cmputo del test de Fisher, calcula el p-valor correspondiente a la
alternativa bilateral (2p 2 x 0, 0909 0,1818) y el p-valor asociado a un
planteamiento unilateral (p 0, 0909).

37

You might also like