Professional Documents
Culture Documents
Facultad Ciencias Económicas y Empresariales
Departamento de Economía Aplicada
Profesor: Santiago de la Fuente Fernández
PRINCIPALES APLICACIONES DE LA CHI‐CUADRADO
Al analizar en una población un carácter cualitativo o cuantitativo el
estudio resulta muy tedioso por el gran número de elementos del que
consta la población.
Generalmente, se examina una muestra tomada de la población, lo que
lleva a tener una serie de datos, y ver hasta qué punto la muestra se pude
considerar perteneciente a una distribución teórica conocida.
Siempre existirán desviaciones entre la distribución empírica u observada
y la distribución teórica. Se plantea la cuestión de saber si estas
desviaciones son debidas al azar o al haber tomado una distribución
teórica inadecuada.
CONTRASTE DE BONDAD DEL AJUSTE
El objetivo del contraste de bondad del ajuste es saber si una muestra
procede de una población teórica con determinada distribución de
probabilidad.
Sea una población, donde se analiza un carácter X con (x 1 , x 2 , , x k )
modalidades excluyentes, denotando por ni es el número de elementos
k
Por otra parte, sea ei n . pi la frecuencia esperada o teórica de cada
modalidad x i
Se origina la TABLA DE CONTINGENCIA:
X x1 x2 xi xk
Frecuencia observada n1 n2 ni nk
Frecuencia esperada (e1 ) (e2 ) (ei ) (ek )
OBSERVACIONES DE LA APLICACIÓN
a) El test de la 2 se puede aplicar en situaciones donde se desea decidir
si una serie de datos (observaciones) se ajusta o no a una función
teórica previamente determinada (Binomial, Poisson, Normal, etc.)
b) Es necesario que las frecuencias esperadas de las distintas modalidades
no sean inferiores a cinco. Si alguna modalidad tiene una frecuencia
esperada menor que cinco se agrupan dos o más modalidades
contiguas en una sola hasta conseguir que la frecuencia esperada sea
mayor que cinco.
c) Los grados de libertad de la 2 dependen del número de parámetros
que se necesitan hallar para obtener las frecuencias esperadas. En este
sentido, si se requieren hallar p parámetros, los grados de libertad son
(k p) si las modalidades son independientes y (k p 1) cuando las
modalidades son excluyentes.
xi ni1 ni2 nij nim ni
xk nk1 nk2 nkj nkm nk
m
n
j1
j n1 n2 n j nm n
No existe diferencia entre las
Hipótesis nula H0 :
distribuciones empíricas de X e Y
Bajo la hipótesis nula, cada frecuencia observada nij donde
(i 1, , k ; j 1, , m) de la tabla de contingencia (k x m) hay una
frecuencia esperada (e ij ) que se obtiene mediante la expresión:
n i n j n i x n j
pij x eij pij . n
n n n
Agrupando frecuencias observadas y esperadas en la TABLA DE
CONTINGENCIA k x m
(e )
n21 n22 n 2j n2m
x2
(e21 ) (e22 ) 2j (e2m )
n2
ni1 ni2 n nim
xi
(ei1 ) (ei2 ) (e ) ij
ij (eim )
ni
nk1 nk2 nkj nkm
xk
(ek1 ) (ek2 ) (ekj ) (ekm )
nk
m
n
j1
j n1 n2 n j nm n
Las condiciones necesarias para aplicar el test de la Chi‐cuadrado exige
que al menos el 80% de los valores esperados de las celdas sean mayores
que 5. Cuando esto no ocurre hay que agrupar modalidades contiguas en
una sola hasta lograr que la nueva frecuencia sea mayor que cinco.
En una TABLA DE CONTINGENCIA de 2 x 2 es necesario que todas las
celdas tengan frecuencias esperadas mayores que cinco, si bien en la
práctica suele permitirse que una de ellas tenga frecuencias esperadas
ligeramente por debajo de 5.
k m
(nij eij )2
El estadístico de contraste observado
i 1 j1
eij
2(k 1) . (m 1) sigue
aproximadamente una Chi‐cuadrado con (k 1) x (m 1) grados de
libertad.
Para un nivel de significación se puede contrastar la diferencia
significativa entre las dos distribuciones empíricas o la independencia de
las distribuciones empíricas.
Estadística Teórica: Aplicaciones Chi-cuadrado 6
CONTRASTE DE HOMOGENEIDAD
estadístico observado
estadístico teórico
k m
(nij eij )2
Se acepta Ho sí:
i1 j1
eij
2 , (k 1) . (m 1)
estadístico observado
estadístico teórico
k m
(nij eij )2
Se rechaza Ho sí:
i1 j1
eij
2 , (k 1) . (m 1)
CONTRASTE DE INDEPENDENCIA
Hipótesis nula Ho : Las distribuciones empíricas X e Y son independientes
estadístico observado
estadístico teórico
k m
(nij eij )2
Se acepta Ho sí:
i1 j1
eij
2 , (k 1) . (m 1)
estadístico observado
estadístico teórico
k m
(nij eij )2
Se rechaza Ho sí:
i1 j1
eij
2 , (k 1) . (m 1)
Y
y1 y2
X
x1 n11 n12 n1 n(n11 . n22 n12 . n21 )2
2
1
n2 n1 . n2 . n1 . n2
x2 n21 n22
n1 n2 n
Y
y1 y2 y3
X
x1 n11 n12 n13 n1
x2 n21 n22 n23 n2
n1 n2 n3 n
n n11
2 2
n12 2
n13 n n221 n222 n223
2
2 n
n1 n
1 n2 n3 n n
2 1 n2 n 3
Coeficiente de CONTINGENCIA
Es una medida del grado de relación o dependencia entre dos caracteres
en la tabla de contingencia, se define:
2
C 0C1
2 n
Mayor valor de C indica un grado de dependencia mayor entre X e Y
n
La corrección no es válida cuando n11 . n22 n12 . n21
2
En general, la corrección de Yates se hace cuando el número de grados de
libertad es 1.
Test G de la razón de verosimilitud
El test de contraste de independencias por la razón de verosimilitudes
(test G) es una prueba de hipótesis de la Chi‐cuadrado que presenta
mejores resultados que el de Pearson. Se distribuye asintóticamente con
una variable aleatoria 2 con (k 1) x (m 1) grados de libertad.
k m
nij
Se define el estadístico G 2
i1 j1
nij ln
eij
k m
nij
Se acepta la hipótesis nula Ho sí: G 2
i1 j1
nij ln 2 , (k1) . (m1)
eij
Estadístico de contraste sí b c 20 :
Se acepta Ho sí McNemar
2
b 2 /2 , 1
Estadístico de contraste si b c 20 :
La aproximación muestral a la distribución Chi‐cuadrado es más precisa si
se realiza la corrección de continuidad de Yates (ya que se utiliza una
distribución continua para aproximar una distribución discreta).
El estadístico corregido:
b c 1 2
Se acepta Ho sí 2
2
2 /2 , 1
bc
McNemar 1
COEFICIENTES EN DISTRIBUCIONES DICOTÓMICAS
Los coeficientes más utilizados en variables dicotómicas son los de
correlación phi y Q de Yule.
Estos coeficientes tienen algunas propiedades comunes de interés:
a) Están normalizados, las magnitudes no dependen del tamaño de la
tabla.
b) Son muy sensibles a la distribución empírica observada, traduciendo
concentraciones de casos en algunas celdas en magnitudes.
c) Tienen un recorrido teórico entre [1, 1] indicando situaciones de
asociación perfecta y de independencia estadística.
Los coeficientes y Q de Yule se diferencian en la sensibilidad rinconal:
El coeficiente alcanza su máximo valor sólo cuando una de las dos
diagonales se ha vaciado.
El coeficiente Q es muy sensible a la existencia de una celda que en
términos relativos se está vaciando. Su valor máximo se alcanza cuando
en una celda no hay ningún caso, esto es lo que se conoce como
sensibilidad rinconal.
ad bc
Coeficiente Phi: 01
(a b)(c d)(a c)(b d)
ad bc
Coeficiente Q de Yule: Q 0Q1
ad bc
TEST EXACTO DE FISHER
Si las dos variables que se están analizando son dicotómicas, y la
frecuencia esperada es menor que 5 en más de una celda, no resulta
adecuado aplicar el test de la 2 aunque sí el test exacto de Fisher.
El test exacto de Fisher permite analizar si dos variables dicotómicas están
asociadas cuando la muestra a estudiar es demasiado pequeña y no
cumple las condiciones necesarias para que la aplicación del test de la
Chi‐cuadrado sea idónea.
Y
X Total
y1 y2
x1 a b ab
x2 c d cd
Total a c bd n
En una TABLA DE CONTINGENCIA de 2 x 2 es necesario que todas las
celdas tengan frecuencias esperadas mayores que cinco, si bien en la
práctica suele permitirse que una de ellas tenga frecuencias esperadas
ligeramente por debajo de 5.
El test exacto de Fisher se basa en evaluar la probabilidad asociada a cada
una de las tablas 2 x 2 que se pueden formar manteniendo los mismos
totales de filas y columnas que los de la tabla observada. Cada uno de
INTERPRETACIÓN DE DATOS
Se ha realizado un estudio sobre la situación laboral de las mujeres y
su estado civil, los datos obtenidos fueron:
Trabajo Estado civil
Total
remunerado Casada Soltera
Si
No
Total 45 35 80
Los resultados obtenidos en el análisis de la tabla de contingencia fueron:
Los tres estadísticos primeros, basados en la 2 , presentan un
p‐valor < 0,05 , con lo que se rechaza la hipótesis nula H0 ,
concluyendo que la situación laboral de la mujer está asociada a su
estado civil.
b) Partiendo de que la situación laboral de la mujer se encuentra
asociada a su estado civil, falta por determinar la dirección de dicha
asociación, para lo que se recurre al coeficiente de correlación Phi y la Q
de Yule.
Ambos estadísticos son negativos, con p‐valor < 0,05 , pudiendo
afirmar que la correlación entre la situación laboral y el estado civil de las
mujeres es inversa y significativa al 5%.
Se puede concluir que la situación laboral de la mujer (sí esta trabajando)
esta asociada a las solteras, con un nivel de significación del 5%.
CONTRASTE NO PARAMÉTRICO DE BONDAD DE AJUSTE
Para comprobar si los operarios encontraban dificultades con una
prensa manual de imprimir, se hizo una prueba a cuatro operarios
anotando el número de atascos sufridos al introducir el mismo número de
hojas, dando lugar a la siguiente tabla:
Operario A B C D Total
Obstrucciones 6 7 9 18 40
Con un nivel de significación del 5%, ¿existe diferencia entre los
operarios?
Solución:
Estableciendo la hipótesis nula H 0 : No existe diferencia entre los
operarios.
La probabilidad de que se atascase una hoja sería 1 / 4 para todos los
operarios.
Estadística Teórica: Aplicaciones Chi-cuadrado 15
De este modo, el número de atascos esperados para cada uno de ellos
sería (ei 10) i 1, , 4
Tabla de Contingencia 1 x 4:
Operario A B C D Total
6 7 9 18 40
Obstrucciones
(10) (10) (10) (10) (40)
Se acepta la hipótesis nula, a un nivel de significación sí
k k
(ni ei ) 2
ni2
2
k1 n 2 ; k 1 k Número intervalos
i1
e i i1
ei
estadístico teórico
estadístico contraste
k (n e ) 2
Región de rechazo de la hipótesis nula: R
i 1
i
ei
i
; k1
2
4
n2i 6 2 7 2 9 2 18 2
con lo cual, 3
2
n 40 9
i1
e i 10 10 10 10
En consecuencia, se rechaza la hipótesis nula, concluyendo que existe
diferencia significativa entre los operarios respecto al número de atascos
en la prensa de imprimir.
La hipótesis nula se acepta, a un nivel de significación sí
k
(n i ei )2 k
n2i
2
kp1 n 2 ; k p 1
i1
ei i1
ei
estadístico teórico
estadístico contraste
k Número intervalos p Número parámetros a estimar
k
(ni ei ) 2
Región de rechazo de la hipótesis nula: R
i1
ei
χα ; kp1
2
La distribución de Poisson se caracteriza porque sólo depende del
parámetro que coincide con la media.
Sea la variable aleatoria X = Número de partículas y ni Número de
períodos de tiempo
xi 0 1 2 3 4 5
120 200 140 20 10 2
Fr
e1 148,2 e2 177,8 e3 106,7 e4 42,7 e5 12,8 e6 3,05
Dando lugar a una tabla de contingencia 1 x 6, en donde hay que agrupar
las dos últimas columnas por tener la última columna frecuencias
esperadas menores que cinco.
Se tiene la tabla de contingencia 1 x 5:
xi 0 1 2 3 4 y 5
120 200 140 20 12
Frecuencias
e1 148,2 e2 177,8 e3 106,7 e4 42,7 e5 15,8
Así, los grados de libertad son tres: k p 1 5 1 1 3
El estadístico de contraste (bondad de ajuste) es mayor que el estadístico
teórico (7,815) , rechazándose la hipótesis nula, es decir, la distribución
NO se puede ajustar a una distribución de Poisson a un nivel de
significación del 5%.
Se verifica la región de rechazo:
k
(ni ei ) 2
R
i1
ei
; k p 1 32,31 7,815
2
Solución:
Hipótesis nula H 0 : La distribución empírica se ajusta alaPoisson
La hipótesis nula se acepta, a un nivel de significación sí
k
(n i ei )2 k
n2i
2
kp1 n 2 ; k p 1
i1
ei i1
ei
estadístico teórico
estadístico contraste
k Número intervalos p Número parámetros a estimar
La distribución de Poisson se caracteriza porque sólo depende del
parámetro que coincide con la media.
Sea la variable aleatoria X = Número de accidentes mortales por día
y ni Número de días
xi ni x i ni P(x i k) pi
0
1
132
195
0
195
0,2466
0,3452 x
x i n i 756
1,4
n 540
2 120 240 0,2417
3 60 180 0,1128 1,4k 1,4
4 24 96 0,0395 P(x i k) e k 0 , , 5
k!
5 9 45 0,0111
n = 540 756
Las probabilidades con que llegan las partículas k 0 , , 5 se obtienen
1,4k 1,4
sustituyendo los valores de k en P(x i k) e o en las tablas con
k!
1,4
Estadística Teórica: Aplicaciones Chi-cuadrado 20
Para verificar si el ajuste de los datos a una distribución de Poisson se
acepta o no, mediante una 2 , hay que calcular las frecuencias esperadas
(ei n . pi )
xi 0 1 2 3 4 5
132 195 120 60 24 9
Fr
133,16 186,43 130,50 60,90 21,31 5,97
Dando lugar a una tabla de contingencia 1 x 6, no teniendo que agrupar
columnas contiguas al no aparecer frecuencias esperadas menor que
cinco.
Los grados de libertad son cuatro: k p 1 6 1 1 4
Estadístico de contraste:
6 6
(ni ei )2
n2i
2
3 n
i1
ei i 1
ei
2 2
132 195 1202 602 242 92
540 4,87
133,16 186,43 130,5 60,9 21,31 5,97
El estadístico de contraste (bondad de ajuste) es menor que el estadístico
teórico (9,488) , por lo que se acepta la hipótesis nula, es decir, con un
nivel de significación 0,05, los accidentes mortales de tráfico diarios en la
carretera se ajustan a una distribución de Poisson.
Se establece la hipótesis nula:
H 0 : La distribución empírica se ajusta alanormal
Se acepta la hipótesis nula, a un nivel de significación sí
k
(n i ei )2 k
ni2
2
kp1 n 2 ; k p 1
i1
ei i1
ei
estadístico teórico
estadístico contraste
k Número intervalos p Número parámetros a estimar
Se obtiene la media y la desviación típica:
6 6 6
x n
i 1
i i (x ‐ x) n x .n
i1
i
2
i
i1
2
i i
Se calculan las frecuencias esperadas, multiplicando las probabilidades
por el número total de datos ei pi . n
En el estadístico de contraste 2 , el número de grados de libertad es
k p 1 (n0 intervalos) (n0 parámetros a estimar) 1 6 2 1 3 ,
6
(ni ei )2
con lo cual,
2
3
i1
ei
4,57
Solución:
Hipótesis nula H 0 : La distribución empírica se ajusta alaPoisson
La hipótesis nula se acepta, a un nivel de significación sí
k
(n i ei )2 k
ni2
2
kp1 n 2 ; k p 1
i1
ei i1
ei
estadístico teórico
estadístico contraste
k Número intervalos p Número parámetros a estimar
La distribución de Poisson se caracteriza porque sólo depende del
parámetro que coincide con la media.
Sea la variable aleatoria X = Número de accidentes mortales por día
y ni Número de días
xi ni x i ni P(x i k) pi
0
1
132
195
0
195
0,2466
0,3452 x
x i n i 756
1,4
n 540
2 120 240 0,2417
3 60 180 0,1128 1,4k 1,4
4 24 96 0,0395 P(x i k) e k 0 , , 5
k!
5 9 45 0,0111
n = 540 756
Las probabilidades con que llegan las partículas k 0 , , 5 se obtienen
1,4k 1,4
sustituyendo los valores de k en P(x i k) e o en las tablas con
k!
1,4
Estadística Teórica: Aplicaciones Chi-cuadrado 25
Para verificar si el ajuste de los datos a una distribución de Poisson se
acepta o no, mediante una 2 , hay que calcular las frecuencias esperadas
(ei n . pi )
xi 0 1 2 3 4 5
132 195 120 60 24 9
Fr
133,16 186,43 130,50 60,90 21,31 5,97
Dando lugar a una tabla de contingencia 1 x 6, no teniendo que agrupar
columnas contiguas al no aparecer frecuencias esperadas menor que
cinco.
Los grados de libertad son cuatro: k p 1 6 1 1 4
El estadístico de contraste:
6 6
(ni ei )2
n2i
2
3 n
i1
ei i 1
ei
2 2
132 195 1202 602 242 92
540 4,87
133,16 186,43 130,5 60,9 21,31 5,97
El estadístico de contraste (bondad de ajuste) es menor que el estadístico
teórico (9,488) , por lo que se acepta la hipótesis nula, es decir, con un
nivel de significación 0,05, los accidentes mortales de tráfico en la
carretera se ajustan a una distribución de Poisson.
Región de rechazo hipótesis nula: Rrechazo 2(k 1) . (m 1) 2 ; (k 1).(m 1)
O bien se acepta H 0 cuando 2(k 1) . (m 1) 2 ; (k 1).(m 1)
Se forma una tabla de contingencia 2 x 3: En cada frecuencia observada
(nij ) i 1, , k ; j 1, , m se tiene una frecuencia teórica o esperada eij que se
ni• x n•j
calcula mediante la expresión: eij pij . n , donde pij son las
n
probabilidades de que un elemento tomado de la muestra presente las
modalidades x i de X e y j de Y.
2 3
(nij eij )2 (84 99,5) 2 (78 68,96) 2 (37 30,53) 2
2
2
i1 j1
eij
99,5
68,96
30,53
sigue una 2 con dos grados de libertad si es cierta la hipótesis nula con
eij 5 i, j . En caso contrario sería necesario agrupar filas o columnas
contiguas.
El estadístico teórico 20,05 ; 2 5,991
En la tabla de contingencia 2 x 4 para cada frecuencia observada
(nij ) i 1, , k ; j 1, , m se tiene una frecuencia teórica o esperada eij que se
ni• x n•j
calcula mediante la expresión: eij
n
Coeficiente Intelectual n i•
< 80 80 ‐ 90 90 ‐ 99 100
Nutrición 245 228 177 219
869
buena e11 252, 46 e12 233,25 e13 173,8 e14 209,47
Nutrición 31 27 13 10
81
pobre e21 23, 53 e22 21, 74 e23 16, 2 e24 19, 52
n• j 276 255 190 229 950
869 . 276 869 . 255 869 . 190 869 . 229
e11 252, 46 e12 233,25 e13 173,8 e14 209, 47
950 950 950 950
Opinión
Muy en Muy a ni
En contra A Favor
contra favor
Fumador 60 50 20 10 140
No Fumador 10 30 70 100 210
n j 70 80 90 110 350
Con un nivel de significación de 0,05 se desea conocer si existe diferencia
de opinión entre fumadores y no fumadores.
Solución:
Se establecen las hipótesis:
H 0 : La opinión es independiente de su condición de fumador o no fumador
H 1 : La opinión no es independiente de su condición de fumador o
no fumador
estadístico observado
estadístico teórico
2 4
(nij eij )2
Se acepta Ho sí:
2
c
i1 j1
eij
2 , (2 1) . (4 1) 20 ,05 , 3
Opinión
Muy en Muy a ni
En contra A Favor
contra favor
60 50 20 10 140
Fumador e11 28 e12 32 e13 36 e14 44 140
10 30 70 100 210
No Fumador e21 42 e22 48 e23 54 e24 66 210
n j 70 80 90 110 350
60 2 50 2 20 2 10 2 10 2 30 2 70 2 100 2
350 133,46
28 32 36 44 42 48 54 66
2c 133,46
Coeficiente de contingencia: C 0,525
2c n 133,46 350
El grado de dependencia es del 52,5% por lo que la asociación entre las
variables es alta. En las tablas de contingencia k x k el valor máximo de C
k1
es Cmáximo
k
2c 133,46
Coeficiente Phi: 0,618
n 350
El estadístico Phi mide el grado de asociación entre las variables.
Coeficiente V de Cramer:
2c 2c 133,46
VCramer 0,618
n. mín(k 1 , m 1) n 350
En las tablas de contingencia 2 x 2 es idéntico al estadístico Phi, presenta
el problema de subestimar el grado de asociación entre las variables.
k m
nij
Test G de la razón de verosimilitud: G 2 nij ln
i1 j1
e
ij
60 50 20 10
g11 60 ln 45,7 g12 50 ln 22,3 g13 20 ln 11,7 g14 10 ln 14,8
28 32 36 44
10 30 70 100
g 21 10 ln 14,3 g22 30 ln 14,1 g23 70 ln 18,2 g 24 100 ln 41,6
42 48 54 66
2 4
nij
G2
i1 j1
nij ln
eij
2 45,7 22,3 11,7 14,8 14,3 14,1 18,2 41,6 145,475
El test G da la razón de verosimilitud es una Prueba de hipótesis de la Chi‐
cuadrado que presenta mejores resultados que el Test de la Chi‐cuadrado
de Pearson.
Coeficiente Lambda (λ) de Goodman y Kruskal, conocido también como
coeficiente de Goodman Predicción, se basa en la reducción proporcional
del error en la predicción la moda, de es decir el número de aciertos que
proporciona el conocer la distribución divido por el número de errores sin
conocerla.
MY Frecuencia modal global
YX
mY MY
mY Suma de frecuencias modales
n MY
n Número total de casos
Valores Lambda (λ) próximos a 0 implican baja asociación y valores
próximos a 1 denotan fuerte asociación.
Dos variables son independientes cuando λ = 0. Sin embargo λ = 0 no
implica independencia estadística.
Opinión
Muy en Muy a ni
En contra A Favor
contra favor
Fumador 60 50 20 10 140
No Fumador 10 30 70 100 210
n j 70 80 90 110 350
MY 210
YX
mY MY 280 210
0,5 mY 60 50 70 100 280
n MY 350 210
n 350
MX 110
XY
mX MX
160 110
0,208 mX 60 100 160
n MX 350 110
n 350
Un Fumador que estuviera Muy en contra de fumar en lugares públicos
acertaría 60 veces de 70, es decir fallaría en 10 ocasiones. Un fumador
que estuviera en contra tendría 80 50 30 errores.
E E
k
(n ni ) ni m k
(n j ni j ) ni j
1 2 donde E1
E1
i1
n
y E2
j1
i1
n j
Para conocer los errores sin conocer la distribución de la variable
independiente:
Se supone que en cada categoría se clasificaran erróneamente por azar
un número de casos, que en cada categoría es igual al número de casos
que no pertenecen a la misma.
n número total de casos
k
(n ni ) ni
E1
i1
n
k número de categorías de la variable
n frecuencia de la categoría i‐ésima
i
Opinión
Muy en Muy a ni
En contra A Favor
contra favor
Fumador 60 50 20 10 140
No Fumador 10 30 70 100 210
n j 70 80 90 110 350
Para conocer los errores conociendo la distribución de la variable
independiente:
m k
(n j ni j ) ni j
E2
j1
i1
n j
nij frecuencia de cada celdilla en la categoría i‐ésima variable dependiente
m número de categorías de la variable independiente
n j total parcial de las categorias de la variable independiente
Categoría con la opinión Muy en contra:
(n1 n11 ) n11 (70 60) 60
Fumadores: 8,57
n1 70
(n n ) n (70 10) 10
No Fumadores: 1 21 21 8,57
n1 70
Errores en la categoría E21 8,57 8,57 17,14
Categoría con la opinión En contra:
(n2 n12 ) n12 (80 50) 50
Fumadores: 18,75
n2 80
(n n ) n (80 30) 30
No Fumadores: 2 22 22 18,75
n2 80
Errores en la categoría E22 18,75 18,75 37,5
Categoría con la opinión A favor:
(n3 n13 ) n13 (90 20) 20
Fumadores: 15,56
n3 90
(n n ) n (90 70) 70
No Fumadores: 3 23 23 15,56
n3 90
Categoría con la opinión Muy a favor:
(n4 n14 ) n14 (110 10) 10
Fumadores: 9,09
n4 110
(n n24 ) n24 (110 100) 100
No Fumadores: 4 9,09
n4 110
Errores en la categoría E24 9,09 9,09 18,18
4 2
(n j ni j ) ni j
E2
j1
i1
n j
17,14 37,5 31,12 18,18 103,94
E1 E2 168 103,94
0,381
E1 168
Analizar la existencia de una relación significativa entre el peso y el
estado general de salud en el adulto mayor, con un nivel de significación
del 5%,
Solución:
Se trata de dos variables dicotómicas con datos de frecuencia,
pudiéndose aplicar una prueba de contraste de asociación con la Chi‐
cuadrado.
La hipótesis nula H0 : El estado de salud y el peso son independientes
Llevando la información a una tabla de contingencia de 2 x 2
Peso
Estado de Salud ni•
Normal Sobrepeso
12 8 20
Bueno
9, 41 10,59 20
4 10 14
Malo
6,59 7, 41 14
n j 16 18 34
Estadístico de contraste:
2 2
n2ij
122 82 42 102
2
(2 1) . (2 1)
2
1 n 34 3,265
i1 j1
eij 9, 41 10,59 6,59 7, 41
Adviértase que como la muestra n 40 se hace aconsejable el uso
de la Chi‐cuadrado con el factor de corrección de continuidad de Yates:
nij eij nij 0,5
Factor corrección
nij eij nij 0,5
Para una tabla de contingencia de 2 x 2 la corrección de Yates:
2
n
n n11 .n22 n12 .n21
12 2
n1 .n2 .n 1 .n 2
n
La corrección no es válida cuando n11 .n22 n12 .n21
2
La validez del contraste también se puede hacer con el p‐valor ( p ):
p P p,1
2
2,125 0,273
2c 3,265
Coeficiente Phi: 0,310
n 34
El estadístico Phi mide el grado de asociación entre las variables.
Coeficiente V de Cramer:
2c 3,265 3,265
VCramer 0,310
n. mín(k 1 , m 1) 34.mín(2 1 , 2 1) 34
En tablas de contingencia 2 x 2 el estadístico Phi y V de Cramer tienen el
mismo valor.
Peso
Estado de Salud ni•
Normal Sobrepeso
Bueno 12 8 20
Malo 4 10 14
n j 16 18 34
Pares Concordantes: C 12 10 120
Pares Discordantes: D 8 4 32
2
ni (ni 1) 1
Parejas empatadas en X: TX i 1
2
20.19 14.13 281
2
2
n j (n j 1)
1
Parejas empatadas en Y: TY
2
2
16.15 18.17 273
j 1
CD
Tau‐B de Kendall: B
n(n 1) n(n 1)
TX TY
2 2
120 32
B 0,310
34 x 33 34 x 33
281 273
2 2
Tau de Goodman y Kruskal:
E1 E2 16, 47 14,89
Peso dependiente: YX 0,096
E1 16, 47
E1
i1
n
34
34
16, 47
2
(n j ni j ) ni j
2
E2
j1 i1
n j
(16 12)12 (16 4)4 (18 8)8 (18 10)10
14,89
16 16 18 18
E1 E2 16,94 15,31
Estado Salud dependiente: YX 0,096
E1 16,94
2
(n n j ) n j (34 16)16 (34 18)18
E1 j1
n
34
34
16,94
2
(ni ni j ) ni j
2
E2
j1 i1
n i
(20 12)12 (20 8)8 (14 4)4 (14 10)10
15,31
20 20 14 14
Coeficiente de Incertidumbre
2
ni ni 20 20 14 14
I(X) i1
n
ln
n 34
ln
34 34
ln 0,677
34
2
n j n 16 16 18 18
I(Y) j1
ln j ln ln 0,691
n n 34 34 34 34
Coeficiente simétrico:
2 I(X) I(Y) I(XY) 2 0,677 0,691 1,319
I 0,072
I(X) I(Y) 0,677 0,691
Estado de salud como variable dependiente:
I(X) I(Y) I(XY) 0,677 0,691 1,319
IX/Y 0,073
I(X) 0,677
Peso como variable dependiente:
I(X) I(Y) I(XY) 0,677 0,691 1,319
IY /X 0,071
I(Y) 0,691
El coeficiente o índice de Kappa es una medida de concordancia
propuesta por Cohen en 1960, se basa en comparar la concordancia
observada en un conjunto de datos, respecto a lo que podría ocurrir por
pura casualidad. Se puede calcular en tablas de cualquier dimensión, en el
caso de tablas de 2 x 2 tiene algunas peculiaridades.
Y
X p0 pe
y1 y2 Índice de Kappa:
1 pe
x1 n11 n12 n1•
n xn
1 1
x2 n21 n22 n2• p0 nii pe i i
n i
n2 i
n1 n2 n
Donde p0 es la proporción de concordancia observada y pe es la
proporción de concordancia esperada por azar.
Cuando 1 se da la máxima concordancia posible. El valor 0 indica
que la concordancia observada es precisamente la que se espera por pura
casualidad.
20 x 16 14 x 18
1
pe ni x n i 0, 495
n2 i
34 2
p0 pe 0,647 0,495
0,301
1 pe 1 0, 495
En el caso de más de dos evaluadores, clasificaciones, métodos, etc.,
Joseph L. Fleiss generalizó el método de Cohen, dando lugar a la Kappa
de Fleiss.
Satisfacción en el trabajo
Edad
A B C D E
25 10 10 20 40 70
25 ‐ 36 20 10 15 20 30
> 36 60 50 30 10 5
Solución:
Se forma la tabla de contingencia 3 x 5 donde cada frecuencia observada
(nij ) i 1, 2 ,3 ; j 1, ,5 tiene una frecuencia teórica o esperada en caso de
n i x n j
independencia eij
n
Satisfacción en el trabajo
n i
Edad A B C D E
25 10 10 20 40 70 150
e11 33,75 e12 26,25 e13 24,37 e14 26,25 e15 39,37 (150)
20 10 15 20 30 95
25 ‐ 36
e21 21,37 e22 16,62 e23 15,44 e24 16,62 e25 24,94 (95)
60 50 30 10 5 155
> 36
e31 34,87 e32 27,12 e33 25,19 e34 27,12 e35 40,69 (155)
nj 90 70 65 70 105 400
ESTADÍSTICOS VARIABLES NOMINALES: FUERZA DE LA RELACIÓN
2c 143,51
Coeficiente Phi: 0,599
n 400
El estadístico Phi mide el grado de asociación entre las variables.
Coeficiente V de Cramer:
2c 143,51 143,51
VCramer 0, 423
n. mín(k 1 , m 1) 400.mín(3 1 , 5 1) 400.2
2c 143,51
Coeficiente de contingencia: C 0,514
2c n 143,51 400
El grado de dependencia es del 51,4% por lo que la asociación entre las
variables es alta.
k m
nij
Test G de la razón de verosimilitud: G 2 nij ln
i1 j1
e
ij
3 5
n
Se acepta la hipótesis nula H0 sí: G 2
i1 j1
nij ln ij 2 , (31) . (51)
eij
Satisfacción en el trabajo
n i
Edad A B C D E
10 10 20 40 70 150
25 e11 33,75 e12 26,25 e13 24,37 e14 26,25 e15 39,37 (150)
g11 12,16 g12 9,65 g13 3,95 g14 16,85 g15 40,28 (31,37)
20 10 15 20 30 95
25 ‐ 36 e21 21,37 e22 16,62 e23 15,44 e24 16,62 e25 24,94 (95)
g 21 1,33 g 22 5,08 g 23 0, 43 g 24 3,7 g25 5,54 (2,4)
60 50 30 10 5 155
> 36 e31 34,87 e32 27,12 e33 25,19 e34 27,12 e35 40,69 (155)
g 31 32,56 g 32 30,59 g33 5,24 g 34 9,98 g 35 10,48 (47,93)
nj 90 70 65 70 105 400
(81,7)
3 5
n
G2
i1 j1
nij ln ij 2.81,667 163,334 15,507 20,05;8
eij
Estadística Teórica: Aplicaciones Chi-cuadrado 47
Se rechaza la hipótesis nula de independencia entre la edad y la
satisfacción en el trabajo, concluyendo que la edad influye
significativamente en la satisfacción en el trabajo.
10 20 60
g11 10 ln 12,16 g 21 20 ln 1,33 g 31 60 ln 32,56
33,75 21,37 34,87
10 10 50
g12 10 ln 9,65 g 22 10 ln 5,08 g 32 50 ln 30,59
26,25 16,62 27,12
20 15 30
g13 20 ln 3,95 g 23 15 ln 0, 43 g 33 30 ln 5,24
24,37 15, 44 25,19
40 20 10
g14 40 ln 16,85 g 24 20 ln 3,7 g 34 10 ln 9,98
26,25 16,62 27,12
70 30 5
g15 70 ln 40,28 g 25 30 ln 5,54 g 35 5 ln 10, 48
39,37 24,94 40,69
El test G da la razón de verosimilitud es una Prueba de hipótesis que
presenta mejores resultados que el Test de la Chi‐cuadrado de Pearson.
MEDIDAS DE ASOCIACIÓN DE VARIABLES ORDINALES
Satisfacción en el trabajo
n i
Edad A B C D E
25 10 10 20 40 70 150
25 ‐ 36 20 10 15 20 30 95
> 36 60 50 30 10 5 155
nj 90 70 65 70 105 400
C 10 10 15 20 30 50 30 10 5
10 15 20 30 30 10 5
20 20 30 10 5
40 30 5
20 50 30 10 5
10 30 10 5
15 10 5
20 5
8175
Pares Discordantes:
D 70 20 10 15 20 60 50 30 10
40 20 10 15 60 50 30
20 20 10 60 50
10 20 60
30 60 50 30 10
20 60 50 30
15 60 50
10 60
35600
La Gamma de Goodman y Kruskal mide la fuerza de asociación de los
datos cuando las variables se miden en el nivel ordinal.
0 indica la ausencia de asociación.
CD
1 1
CD
C D 8175 35600
0,626
C D 8175 35600
Parejas empatadas en X o en Y:
k
ni (ni 1)
m
n j (n j 1)
TX
i 1
2
TY j 1
2
3
ni (ni 1) 1
TX i 1
2
150.149 95.94 155.154 27575
2
5
n j (n j 1)
1
TY
2
2
90.89 70.69 65.64 70.69 105.104 16375
j 1
El estadístico D de Somers establece si las variables ordinales son
dependientes o independientes entre sí.
El coeficiente D de Somers varía entre 1 y 1, es una medida asimétrica
como el coeficiente Lambda, los dos valores que se pueden obtener de la
tabla dependen de que se tome como independiente la variable X o Y.
Valores del estadístico D cercanos a 0 indican que no hay ninguna o muy
poca asociación entre las variables.
CD CD
D de Somers: DX D Y
n(n 1) n(n 1)
TX TY
2 2
n n(n 1) 400(400 1)
Número de pares: 79800
2
2 2
Coeficiente Lambda (λ) de Goodman y Kruskal, conocido también como
coeficiente de Goodman Predicción, se basa en la reducción proporcional
del error en la predicción la moda.
Estadístico utilizado para determinar si usar los resultados de una de las
variables puede utilizarse para predecir los resultados de la otra variable.
Valores Lambda (λ) próximos a 0 implican baja asociación y valores
próximos a 1 denotan fuerte asociación.
Dos variables son independientes tienen λ = 0. Sin embargo λ = 0 no
implica independencia estadística.
Satisfacción en el trabajo
n i
Edad A B C D E
25 10 10 20 40 70 150
25 ‐ 36 20 10 15 20 30 95
> 36 60 50 30 10 5 155
nj 90 70 65 70 105 400
MY Frecuencia modal global
YX
m Y MY
mY Suma de frecuencias modales
n MY
n Número total de casos
E E E1 n My
También, 1 2
E1 E2 n
my
MY 155
YX
mY MY
250 155
0,388 mY 60 50 30 40 70 250
n MY 400 155
n 400
Se parece a la Lambda (λ), siendo su cálculo más complejo. Lo mismo que
Lambda adopta valores entre 0 y 1, dónde 0 es independencia y 1 el total
de dependencia.
E E
1 2
E1
Errores sin conocer la distribución de la variable independiente:
n número total de casos
(n ni ) ni
k
E1
i1
n
k número de categorías de la variable
n frecuencia de la categoría i‐ésima
i
Errores conociendo la distribución de la variable independiente:
m k
(n j ni j ) ni j
E2
j1
i1
n j
nij frecuencia de cada celdilla en la categoría i‐ésima variable dependiente
m número de categorías de la variable independiente
n j total parcial de las categorias de la variable independiente
3
(n ni ) ni (400 150)150 (400 95)95 (400 155)155
E1
i1
n
400
400
400
261,125
5 3
(n j ni j ) ni j (90 10)10 (90 20)20 (90 60)60
E2
j1
i1
n j
90
90
90
(70 10)10 (70 10)10 (70 50)50
70 70 70
(65 20)20 (65 15)15 (65 30)30
65 65 65
(70 40)40 (70 20)20 (70 10)10
70 70 70
(105 70)70 (105 30)30 (105 5)5
105 105 105
206,93
E1 E2 261,125 206,93
0,208 edad variable dependiente
E1 261,125
Cuando la variable dependiente es la satisfacción en el trabajo:
5
(n n j ) n j
E1
j1
n
(400 90)90 (400 70)70 (400 65)65 (400 70)70 (400 105)105
317,125
400 400 400 400 400
E1 E2 317,125 285,38
0,100 satisfacción variable dependiente
E1 317,125
El Coeficiente de Incertidumbre es una medida de asociación basada en
la reducción proporcional del error. Es una medida semejante a Lambda
en cuanto a su concepción de la asociación de las variables, en relación a
la capacidad predictiva y la disminución del error de dicha predicción.
El coeficiente de incertidumbre (I) depende de toda la distribución y no
sólo de los valores modales (caso de Lambda), varía entre 0 y 1, tomando
el valor 0 en el caso total de independencia. Es más difícil de interpretar
que Lambda.
Tiene versiones asimétricas (dependiendo de cual de las dos variables sea
dependiente) y una simétrica (donde no se distingue entre variable
dependiente e independiente).
La versión asimétrica se interpreta como la proporción de incertidumbre
reducida al predecir los valores de una variable a partir de los de valores
de la otra variable.
La versión simétrica se interpreta como la proporción de incertidumbre
reducida al predecir los valores de cualquiera de las dos variables
mediante la tabla de contingencia.
I(X) I(Y) I(XY)
Se obtiene mediante la fórmula: IY /X
I(Y)
Satisfacción en el trabajo
i i
Edad A B C D E
25 10 10 20 40 70 150
i11 0,092 i12 0,092 i13 0,150 i14 0,230 i15 0,305 0,368
20 10 15 20 30 95
25 ‐ 36
i21 0,150 i22 0,092 i23 0,123 i24 0,150 i25 0,194 0,341
60 50 30 10 5 155
> 36
i31 0,284 i32 0,260 i33 0,194 i34 0,092 i35 0,055 0,367
ij 90 70 65 70 105
400
0,335 0,305 0,295 0,305 0,351
90 90 70 70 65 65
i1 ln 0,335 i2 ln 0,305 i3 ln 0,295
400 400 400 400 400 400
70 70 105 105
i4 ln 0,305 i5 ln 0,351
400 400 400 400
5
n j n
I(Y)
j1
ln j 0,335 0,305 0,295 0,305 0,351 1,591
n n
10 10 20 20 60 60
i11 ln 0,092 i21 ln 0,150 i31 ln 0,284
400 400 400 400 400 400
10 10 10 10 50 50
i12 ln 0,092 i22 ln 0,092 i32 ln 0,260
400 400 400 400 400 400
40 40 20 20 10 10
i14 ln 0,230 i24 ln 0,150 i34 ln 0,092
400 400 400 400 400 400
70 70 30 30 5 5
i15 ln 0,305 i25 ln 0,194 i35 ln 0,055
400 400 400 400 400 400
3 5
nij n
I(XY)
i1 j1
ln ij 2, 463
n n
Coeficiente de Incertidumbre, Satisfacción como variable dependiente:
I(X) I(Y) I(XY) 1,076 1,591 2, 463
IY /X 0,128
I(Y) 1,591
Coeficiente de Incertidumbre, Edad como variable dependiente:
I(X) I(Y) I(XY) 1,076 1,591 2, 463
IX/Y 0,190
I(X) 1,076
Coeficiente de Incertidumbre simétrico:
2 I(X) I(Y) I(XY) 2 1,076 1,591 2,463
I 0,153
I(X) I(Y) 1,076 1,591
H0 : La asociación entre las variables es nula (son independientes)
Phi
Coeficiente de Contingencia
Estadísticos Nominales V de Cramer
Variables Cualitativas Lambda
Coeficiente de Incertidumbre
Q de Yule
H0 : La asociación entre las variables es nula (son independientes)
Gamma de Goodman y Kruskal
D de Somers
Estadísticos Ordinales
Tau‐B de Kendall
Variables Cuantitativas
Tau‐C de Kendall
Riesgo relativo
Análogos a las medidas de asociación, aplicables a las variables
que se computan en función de acuerdos‐desacuerdos o
concordancias‐discrepancias
Índice de Concordancia
Pruebas de Concordancia
Coeficiente Kappa de Cohen
Obesidad
Sexo Total
Sí No
Mujeres 1 4 5
Hombres 7 2 9
Total 8 6 14
Solución:
El test exacto de Fisher permite analizar si dos variables dicotómicas están
asociadas cuando la muestra a estudiar es demasiado pequeña y no
cumple las condiciones necesarias para que la aplicación del test de la
Chi‐cuadrado sea idónea.
Las condiciones necesarias para aplicar el test de la Chi‐cuadrado exigen
que al menos el 80% de los valores esperados de las celdas sean mayores
que 5. De este modo, en una tabla de contingencia de 2 x 2 será
necesario que todas las celdas verifiquen esta condición, si bien en la
práctica suele permitirse que una de ellas tenga frecuencias esperadas
ligeramente por debajo de 5.
Si las dos variables que se están analizando son dicotómicas, y la
frecuencia esperada es menor que 5 en más de una celda, no resulta
adecuado aplicar el test de la 2 , aunque sí el test exacto de Fisher.
El test exacto de Fisher se basa en evaluar la probabilidad asociada a cada
una de las tablas 2 x 2 que se pueden formar manteniendo los mismos
totales de filas y columnas que los de la tabla observada.
Cada uno de estas probabilidades se obtiene bajo la hipótesis de
independencia de las dos variables que se están analizando.
Probabilidad asociada a los datos que han sido observados:
(a b)! (c d)! (a c)! (b d)!
p
n! a! b! c! d!
Obesidad
Sexo Total
Sí No
Mujeres 1 (a) 4 (b) 5 (a+ b)
Hombres 7 (c) 2 (d) 9 (c + d)
Total 8 (a + c) 6 (b + d) 14 (n)
(a b)! (c d)! (a c)! (b d)! 5! 9! 8! 6!
p 0,0599
n! a! b! c! d! 14! 1! 4! 7! 2!
Las siguientes tablas muestran todas las posibles combinaciones de
frecuencias que se pueden obtener con los mismos totales de filas y
columnas:
Obesidad
Sexo Total
Sí No
Mujeres 4 (a) 1 (b) 5 (a+ b) p = 0,2098
Hombres 4 (c) 5 (d) 9 (c + d)
Total 8 (a + c) 6 (b + d) 14 (n)
Obesidad
Sexo Total
Sí No
Mujeres 3 (a) 2 (b) 5 (a+ b) p = 0, 4196
Hombres 5 (c) 4 (d) 9 (c + d)
Total 8 (a + c) 6 (b + d) 14 (n)
Obesidad
Sexo Total
Sí No
Mujeres 0 (a) 5 (b) 5 (a+ b) p = 0,0030
Hombres 8 (c) 1 (d) 9 (c + d)
Total 8 (a + c) 6 (b + d) 14 (n)
Obesidad
Sexo Total
Sí No
Mujeres 5 (a) 0 (b) 5 (a+ b) p = 0,0280
Hombres 3 (c) 6 (d) 9 (c + d)
Total 8 (a + c) 6 (b + d) 14 (n)
Sumando las probabilidades de las tablas que son menores o iguales a la
probabilidad de la tabla observada ( p = 0,0599 ) se tiene:
p = 0,0599 + 0,0030 + 0,0280 = 0,0909
Siendo p valor = 0,0909 > 0,05 se acepta la hipótesis nula, concluyendo
que el sexo y el hecho de ser obeso son independientes, es decir, no
existe asociación entre las variables en estudio, con un nivel de
significación α = 0,05
Otro método de calcular el p‐valor consiste en sumar las probabilidades
asociadas a aquellas tablas que sean más favorables a la hipótesis
Estadística Teórica: Aplicaciones Chi-cuadrado 61
alternativa de los datos observados. La tabla extrema de los datos
observados es la que no se observa ninguna mujer obesa, p = 0,0030
p = 0,0599 + 0,0030 = 0,0629
SPSS para el cómputo del test de Fisher, calcula el p‐valor
correspondiente a un contraste bilateral (p = 0,0909) y el p‐valor asociado
a un contraste unilateral (p = 0,0629).
Después del debate
Antes del debate
(candidatos) Total
(candidatos)
A B
A 46 (a) 50 (b) 96 (a+ b)
B 85 (c) 59 (d) 144 (c + d)
Total 131 (a + c) 109 (b + d) 240 (n)
Hipótesis nula
H0 : La intención de voto es la misma antes y después del debate
En esta prueba para la significación de cambios solo interesa conocer las
celdas que presentan cambios (celdas b y c) y siendo (b c) el número de
personas que cambiaron, de acuerdo con la hipótesis nula planteada se
bc bc
espera que casos cambien en una dirección y casos a
2 2
otra dirección.
Estadístico de contraste sí b c 20
Se acepta Ho sí McNemar
2
b 2 /2 , 1
bc
McNemar 1
La aproximación muestral a la distribución Chi‐cuadrado llega a ser muy
buena si se realiza una corrección por continuidad, considerando que se
utiliza una distribución continua para aproximar una distribución discreta
(binomial), por lo que se realiza la corrección de Yates.
b c 12
Se acepta Ho sí 2
2
2 /2 , 1
bc
McNemar 1
En este caso, b c 50 85 135 20
50 85 12
Estadístico muestral: 2
8,563
50 85
McNemar
Como McNemar
2
8,563 5,024 20,025,1 se rechaza la hipótesis nula,
concluyendo que la intención de voto cambió significativamente después
del debate, con un nivel de significación del 5%.
p P(p,3
2
8). Interpolando en la tabla de la Chi‐cuadrado:
p P(p,2
2
4,5). Interpolando en la tabla de la Chi‐cuadrado:
p P(p,6
2
6,1). Interpolando en la tabla de la Chi‐cuadrado:
Gestión Aeronáutica: Estadística Teórica
Facultad Ciencias Económicas y Empresariales
Departamento de Economía Aplicada
Profesor: Santiago de la Fuente Fernández