You are on page 1of 28

1

UNIDAD 5 PRUEBAS DE HIPOTESIS CON DOS MUESTRAS DATOS CATEGORICOS Y


VARIAS MUESTRAS CON DATOS CATEGORICOS.

Prueba De Hipótesis Para Proporciones

El concepto de prueba de hipótesis se puede utilizar para probar hipótesis en relación con
datos cualitativos. Por ejemplo, en el problema anterior el gerente de la fábrica de llantas
quería determinar la proporción de llantas que se reventaban antes de 10,000 millas. Este
es un ejemplo de una variable cualitativa, dado que se desea llegar a conclusiones en
cuanto a la proporción de los valores que tienen una característica particular.

El gerente de la fábrica de llantas quiere que la calidad de llantas producidas, sea lo


bastante alta para que muy pocas se revienten antes de las 10,000 millas. Si más de un 8%
de las llantas se revientan antes de las 10,000 millas, se llegaría a concluir que el proceso
no funciona correctamente. La hipótesis nula y alternativa se pueden expresar como sigue:

Ho: p .08 (funciona correctamente)

H1: p > .08 (no funciona correctamente)

La prueba estadística se puede expresar en términos de la proporción de éxitos como sigue:

En donde

p = proporción de éxitos de la hipótesis nula

Ahora se determinará si el proceso funciona correctamente para las llantas producidas para
el turno de día. Los resultados del turno de día indican que cinco llantas en una muestra de
100 se reventaron antes de 10,000 millas para este problema, si se selecciona un nivel de
significancia de .05, las regiones de rechazo y no rechazo se establecerían como a
continuación se muestra:

Y la regla de decisión sería:

Rechazar Ho si > + 1.645; de lo contrario no rechazar Ho.

Con los datos que se tienen,

= .05

Y entonces,

= −1.107

Z −1.107 < + 1.645; por tanto no rechazar Ho.


2

La hipótesis nula no se rechazaría por que la prueba estadística no ha caído en la región


de rechazo. Se llegaría a la conclusión de que no hay pruebas de que más del 8% de las
llantas producidas en el turno de día se revienten antes de 10,000 millas. El gerente no ha
encontrado ninguna prueba de que ocurra un número excesivo de reventones en las llantas
producidas en el turno de día.

Pruebas de hipótesis a partir de proporciones.

Las pruebas de hipótesis a partir de proporciones se realizan casi en la misma forma


utilizada cuando nos referimos a las medias, cuando se cumplen las suposiciones
necesarias para cada caso. Pueden utilizarse pruebas unilaterales o bilaterales
dependiendo de la situación particular.

La proporción de una población

Las hipótesis se enuncian de manera similar al caso de la media.

Ho: p = p0

H1: p ¹ p0

En caso de que la muestra sea grande n>30, el estadígrafo de prueba es:

Se distribuye normal estándar.

Regla de decisión: se determina de acuerdo a la hipótesis alternativa (si es bilateral o


unilateral), lo cual puedes fácilmente hacerlo auxiliándote de la tabla 4.4.1.

En el caso de muestras pequeñas se utiliza la distribución Binomial. No lo abordaremos por


ser complicado y poco frecuente su uso. Diferencia entre las proporciones de dos
poblaciones

La situación más frecuente es suponer que existen diferencias entre las proporciones de
dos poblaciones, para ello suelen enunciarse las hipótesis de forma similar al caso de las
medias:

Ho: p1 = p2 Þ p1 - p2 = 0

H1: p1 ¹ p2

Puede la hipótesis alternativa enunciarse unilateralmente.

El estadígrafo de prueba para el caso de muestras independientes:

Siendo a1 y a2, el número de sujetos con la característica objeto de estudio en las muestras
1 y 2 respectivamente, es decir, en vez de calcular la varianza para cada muestra, se calcula
3

una p conjunta para ambas muestras bajo el supuesto que no hay diferencias entre ambas
proporciones y así se obtiene la varianza conjunta. Recuerda que q = 1-p.

Está de más que te diga que este estadígrafo se distribuye normal estándar.

La regla de decisión se determina de manera similar a los casos ya vistos anteriormente.

El objetivo de la prueba es comparar estas dos proporciones, como estimadores

H1: p1 ¹ p2

Recuerda que la H1 también puede plantearse de forma unilateral.

5.1 PRUEBA Z PARA LA DIFERENCIA ENTRE DOS PROPORCIONES.

En algunos diseños de investigación, el plan muestral requiere seleccionar dos muestras


independientes, calcular las proporciones muestrales y usar la diferencia de las dos
proporciones para estimar o probar una diferencia entre las mismas.

Las aplicaciones son similares a la diferencia de medias, por ejemplo si dos empresas
consultoras ofrecen datos de proporciones de personas que van a votar por el PRI y al
hacer dos estudios diferentes salen resultados ligeramente diferentes ¿pero qué tanta
diferencia se requiere para que sea estadísticamente significativo? De eso se pruebas
estadísticas de diferencias de proporciones.

El estadístico Z para estos casos se calcula de la siguiente manera:


4

Ejemplo: Una muestra de 87 mujeres trabajadoras profesionales mostró que la cantidad


promedio que pagan a un fondo de pensión privado el 5% de su sueldo. Una muestra de
76 hombres trabajadores profesionales muestra que la cantidad que paga un fondo de
pensión privado es 6.1% de su sueldo. Un grupo activista de mujeres desea demostrar que
las mujeres no pagan tanto como los hombres en fondos de pensión privados. Si se usa
alfa = 0.01 ¿Se confirma lo que el grupo activista de mujeres desea demostrar o no?

Paso 1. Determinar la hipótesis Nula “Ho” y Alternativa “Ha”

Nótese que este problema es de una cola.

Ho: Lo que pagan las mujeres en el fondo de pensión es igual o mayor a lo que pagan los
hombres (algunos autores solo le colocan igual).

Ha: _______________________________________

(El estudiante debe describir la Ha)

La hipótesis alternativa es lo que las mujeres del grupo activista desean demostrar.

Paso 2.

Determinar el nivel de significancia. Definida por el analista, en este casi se desea usar α =
0.01

Gráficamente el nivel de significancia se distribuye en la curva de distribución normal como


se muestra en la figura:
5

Paso 3.

Calcular los intervalos que implican ese nivel de significancia

Para dicho nivel de significancia el valor de Z es: Z=-2.326

Gráficamente queda de la siguiente manera:

Paso 4
6

Ejemplo: En un estudio de infección de vías urinarias no complicadas, los pacientes fueron


asignados para ser tratados con trimetoprim / sulfametoxazol o fosfomicina / trometamol.

92% de los 100 tratados con fosfomicina/ trometamol mostraron curación bacteriológica
mientras que el 61% de los 100 manejados con trimetoprim / sulfametoxazol se curó la
infección.

Cuando comparamos proporciones de muestras independientes, debemos primero calcular


la diferencia en proporciones. El análisis para comparar dos proporciones independientes
es similar al usado para dos medias independientes. Calculamos un intervalo de confianza
y una prueba de hipótesis para la diferencia en proporciones.

La notación que usamos para el análisis de dos proporciones es el mismo que para una
proporción. Los números inferiores son para distinguir los dos grupos.

Parámetros Población Muestra

1 2 1 2

Proporción π1 π2 p1 p2

Desviación √π1(1-π2) √π2(1-π2) √p1(1-p1) √p2(1-


estándar p2)
7

El cuadrado del error estándar de una proporción es conocido como la varianza de la


proporción La varianza de la diferencia entre las dos proporciones independientes es igual
a la suma de las varianzas de las dos proporciones de las muestras. Las varianzas son
sumadas debido a que cada muestra contribuye al error de muestreo en la distribución de
las diferencias.

ES = √p(1-p)/n Varianza = p(1-p)/n

p1(1- p1) p2(1- p2)

Varianza (p1-p2)= varianza de p1 + varianza de p2 = --------- + ----------

n1 n2

El error estándar de la diferencia entre dos proporciones es dado por la raíz cuadrada de la
varianza.

ES (p1-p2)= √[p1(1-p1)/n1 + p2(1-p2)/n2]

Para calcular el intervalo de confianza necesitamos conocer el error estándar de la


diferencia entre dos proporciones.

El error estándar de la diferencia entre dos proporciones es la combinación del error


estándar de las dos distribuciones independientes, ES (p1) y ES (p2).

Hemos estimado la magnitud de la diferencia de dos proporciones de las muestras; ahora


calcularemos el intervalo de confianza para esa estimación.

La fórmula general para el intervalo de confianza al 95% es:

Estimado ±1.96 x ES

La fórmula para 95% IC de dos proporciones sería:

(p1-p2) ± 1.96 ES(p1-p2)

En el estudio de infección de vías urinarias, la proporción en el grupo de fosfomicina/


trometamol fue 0.92 y para trimetoprim/ sulfametoxazol fue 0.61

Diferencia en proporciones = 0.92-0.61=0.31

ES = √[(0.92(1-0.92)/100 + 0.61(1-0.61)/100] = 0.056

El intervalo de confianza al 95% sería:

0.31 ± 1.96 (0.056) = 0.31±0.11 = 0.2 a 0.42

El intervalo de confianza al 95% sería:

1.96 (0.056) = 0.31±0.11 = 0.2 a 0.42

Tengo 95% de confianza de que la diferencia en las proporciones en la población estaría


entre 0.2 y 0.42. Como la diferencia no incluye 0, estamos confiados que en la población la
8

proporción de curados con fosfomicina/trometamol es diferente que con trimetoprim


sulfametoxazol.

Una prueba de hipótesis usa la diferencia observada y el error estándar de la diferencia.


Sin embargo, usamos un error estándar ligeramente diferente para calcular la prueba de
hipótesis. Esto se debe a que estamos evaluando la probabilidad de que los datos
observados asumen que la hipótesis nula es verdad. La hipótesis nula es que no hay
diferencia en las proporciones de las dos poblaciones y ambas grupos tienen una
proporción común, π.

El mejor estimado que podemos obtener de π es la proporción común, p, de las dos


proporciones de la muestra.

P=r1+r2/n1+n2

Donde:

r1 y r2 son los números de respuestas positivas en cada muestra

n1 y n2 son los tamaños de muestra en cada muestra.

La proporción común siempre estará entre las dos proporciones individuales.

El error estándar puede ser calculado sustituyendo p, por p1 y p2. ES(p1-p2)=√p(1-p)(1/n1


+1/n2) Esto se conoce como error estándar agrupado.

En el estudio de infección de vías urinarias, la proporción en el grupo de fosfomicina/


trometamol fue 0.92 y para trimetoprim/ sulfametoxazol fue 0.61 Fueron 100 intregrantes
en cada grupo.

Proporción común, p= 92 + 61/100+100 = 153/200 = 0.765

ES(p1-p2)=√0.77(1-0.77)(1/100 +1/100)= √0.1771 x 0.002 = 0.019

Si asumimos una aproximación a la Normalidad para la distribución Binomial, calculamos


la prueba de z , como antes. Para calcular la prueba de hipótesis, debemos:

1.- Señalar la hipótesis nula Ho

2.- Señalar la hipótesis alternativa H1

3.- Calcular la prueba de hipótesis z.

Hipótesis nula:

Cuando comparamos dos proporciones de poblaciones independientes es usualmente que


las dos proporciones son iguales.

Ho: π1 = π2

Es lo mismo que si la diferencia en las proporciones de las dos poblaciones es igual a 0.

Ho: π1 - π2 = 0

Hipótesis alternativa:
9

Es usualmente que las dos proporciones no son iguales.

H1: π1 ≠ π2

Es lo mismo que la diferencia en proporciones no es igual a cero.

H1: π1 – π2 ≠ 0

0.92 de éxito para fosfomicina / trometamol y 0.61 para trimetoprim / sulfametoxazol

ES = 0.019

(p1-p2) – 0 0.31 - 0

z= -------------- = -----------= 16.3

ES(p1-p2) 0.019

P<0.05

Rechazamos la hipótesis nula de que las dos proporciones son iguales y aceptamos la
hipótesis alternativa de que son diferentes.

5.2 PRUEBA PARA LA DIFERENCIA ENTRE DOS PROPORCIONES.

Las pruebas de hipótesis a partir de proporciones se realizan casi en la misma forma


utilizada cuando nos referimos a las medias, cuando se cumplen las suposiciones
necesarias para cada caso. Pueden utilizarse pruebas unilaterales o bilaterales
dependiendo de la situación particular.

La proporción de una población

Las hipótesis se enuncian de manera similar al caso de la media.

Ho: p = p0

H1: p ¹ p0

En caso de que la muestra sea grande n>30, el estadígrafo de prueba es: se distribuye
normal estándar.

Regla de decisión: se determina de acuerdo a la hipótesis alternativa (si es bilateral o


unilateral. En el caso de muestras pequeñas se utiliza la distribución Binomial. No lo
abordaremos por ser complicado y poco frecuente su uso.

Diferencia entre las proporciones de dos poblaciones

La situación más frecuente es suponer que existen diferencias entre las proporciones de
dos poblaciones, para ello suelen enunciarse las hipótesis de forma similar al caso de las
medias:
Ho: p1 = p2 Þ p1 - p2 = 0
10

H1: p1 ¹ p2

Puede la hipótesis alternativa enunciarse unilateralmente.

El estadígrafo de prueba para el caso de muestras independientes: donde

Siendo a1 y a2, el número de sujetos con la característica objeto de estudio en las muestras
1 y 2 respectivamente, es decir, en vez de calcular la varianza para cada muestra, se calcula
una p conjunta para ambas muestras bajo el supuesto que no hay diferencias entre ambas
proporciones y así se obtiene la varianza conjunta. Recuerda que q = 1-p.

Está de más que te diga que este estadígrafo se distribuye normal estándar.

La regla de decisión se determina de manera similar a los casos ya vistos anteriormente.

El objetivo de la prueba es comparar estas dos proporciones, como estimadores

H1: p1 ¹ p2

Recuerda que la H1 también puede plantearse de forma unilateral. En algunos diseños de


investigación, el plan muestral requiere seleccionar dos muestras independientes, calcular
las proporciones muéstrales y usar la diferencia de las dos proporciones para estimar
aprobar una diferencia entre las mismas .Las aplicaciones son similares a la diferencia de
medias, por ejemplo si dos empresas consultoras ofrecen datos de proporciones de
personas que van a votar por el PRI y al hacer dos estudios diferentes salen resultados
ligeramente diferentes ¿pero qué tanta diferencia se requiere para que sea
estadísticamente significativo? De eso se tratan las Pruebas estadísticas de diferencias de
proporciones.

Estimación de la Diferencia de dos Proporciones

En la sección anterior se vio el tema de la generación de las distribuciones muestrales, en


donde se tenía el valor de los parámetros, se seleccionaban dos muestras y podíamos
calcular la probabilidad del comportamiento de los estadísticos. Para este caso en particular
se utilizará la distribución muestral de diferencia de proporciones para la estimación de las
mismas. Recordando la formula:

Despejando P1-P2 de esta ecuación:


11

Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al hacer el
despeje nos queda las dos proporciones poblacionales y es precisamente lo que queremos
estimar, por lo que se utilizarán las proporciones de la muestra como estimadores
puntuales:

Ejemplo: Se considera cierto cambio en un proceso de fabricación de partes componentes.


Se toman muestras del procedimiento existente y del nuevo para determinar si éste tiene
como resultado una mejoría. Si se encuentra que 75 de 1500 artículos del procedimiento
actual son defectuosos y 80 de 2000 artículos del procedimiento nuevo también lo son,
encuentre un intervalo de confianza de 90% para la diferencia real en la fracción de
defectuosos entre el proceso actual y el nuevo.

Solución:

Sean P1 y P2 las proporciones reales de defectuosos para los procesos actual y nuevo,
respectivamente. De aquí, p1=75/1500 = 0.05 y p2 = 80/2000 = 0.04. con el uso de la tabla
encontramos que z para un nivel de confianza del 90% es de 1.645.

-0.0017<P1-P2<0.0217

Como el intervalo contiene el valor de cero, no hay razón para creer que el nuevo
procedimiento producirá una disminución significativa en la proporción de artículos
defectuosos comparado con el método existente.

Un artículo relacionado con la salud, reporta los siguientes datos sobre la incidencia de
disfunciones importantes entre recién nacidos con madres fumadoras de marihuana y de
madres que no la fumaban:

Usuaria No Usuaria

Tamaño Muestral 1246 11178

Número de
42 294
disfunciones

Proporción muestral 0.0337 0.0263

Encuentre el intervalo de confianza del 99% para la diferencia de proporciones.


12

Solución:

Representemos P1 la proporción de nacimientos donde aparecen disfunciones entre todas


las madres que fuman marihuana y definamos P2, de manera similar, para las no
fumadoras. El valor de z para un 99% de confianza es de 2.58.

-0.0064<P1-P2<0.0212

Este intervalo es bastante angosto, lo cual sugiere que P1-P2 ha sido estimado de manera
precisa.

Determinación de Tamaños de Muestra para Estimaciones

Al iniciar cualquier investigación, la primer pregunta que surge es: ¿de qué tamaño debe
ser la o las muestras?. La respuesta a esta pregunta la veremos en esta sección, con
conceptos que ya se han visto a través de este material.

EJEMPLO: Oficiales escolares comparan el coeficiente intelectual entre niños de dos


grupos.

De una muestra de 159 niños del grupo 1 78 califican con más de 100 puntos, de una
muestra de 250 niños del grupo 2 123 califican con más de 100 puntos.

Construya un intervalo de confianza par a la diferencia entre las dos proporciones del grupo
1 y 2 de los niños con califican con más de 100.
13

Ejemplo: Algunas veces estamos interesados en analizar la diferencia entre las


proporciones de poblaciones de grupos con distintas características. Por ejemplo,
pensemos que la administración de las tiendas Oxxo cree, sobre la base de una
investigación, que el porcentaje de hombres que visitan sus tiendas 9 o más veces al mes
(clientes frecuentes) es mayor que el porcentaje de mujeres que hacen lo mismo. Las
especificaciones requeridas y el procedimiento para probar esta hipótesis es la siguiente:

1. Las hipótesis nula y alternativa son las siguientes:

H o  PH  PM  0 , la proporción de hombres que reportan 9 o más visitas por mes


es la misma o menor que la proporción de mujeres que hacen lo mismo.

H a  PH  PM  0 , la proporción de hombres que reportan 9 o más visitas por mes


es mayor a la proporción de mujeres que hacen lo mismo.

La información proporcionada es:

nH  45 nM  71

PH  .58 PM  .42

PH  PM  .58  .42  .16

2. Especifica el nivel de significación de   .05 . El valor crítico para la prueba de una


sola cola es de 1.64.

3. Estima el error estándar de la diferencia de las dos proporciones:

 1 1 
s phm  P(1  P)  
 H
n nM 

donde:

n H PH  nM PM
P
nH  nM
14

PH = proporción muestra de hombres (H)


PM = proporción muestra de mujeres (M)
NH = tamaño de muestra hombres
NM = tamaño de muestra mujeres

Por lo tanto:

45(.58)  71(.42)
P  0.48
45  71
y

 1 1
s phm  .48(1  .48)    0.10
 45 71 

4. Calcula de prueba estadística:

(diferencia _ entre _ proporcion es _ observadas)  (diferencia _ entre _ proporcion es _ H o )


Z
s ph  m
(.58  .42)  (0)
Z  1.60
.10

La hipótesis nula es aceptada porque el valor de la Z calculada es menor que el valor crítico
Z. La administración no puede concluir con un 95 por ciento de confianza que la proporción
de hombres que visita 9 o más veces los Oxxo es mayor que la proporción de mujeres.

5.3 PRUEBA PARA LA DIFERENCIA EN n PROPORCIONES Z.

Una distribución poblacional representa la distribución de valores de una población y una


distribución muestral representa la distribución de los valores de una muestra. En contraste
con las distribuciones de mediciones individuales, una distribución muestral es una
distribución de probabilidad que se aplica a los valores posibles de una estadística muestral.
Así, la distribución muestral de la media es la distribución de probabilidad de los valores
posibles de la media muestral con base en un determinado tamaño de muestra.

Para cualquier tamaño de muestra dado n, tomado de una población con media , los valores
de la media muestralvarían de una muestra a otra. Esta variabilidad sirve de base para la
distribución muestral. La distribución muestral de la media se describe determinando el
valor esperado E () o media, de la distribución y la desviación estándar de la distribución de
15

las medias, . Como esta desviación estándar indica la precisión de la media muestral como
estimador puntual, por lo general se le denomina error estándar de la media.

Ejemplo: Un fabricante de reproductores de discos compactos utiliza un conjunto de


pruebas amplias para evaluar la función eléctrica de su producto. Todos los reproductores
de discos compactos deben pasar todas las pruebas antes de venderse. Una muestra
aleatoria de 500 reproductores tiene como resultado 15 que fallan en una o más pruebas.
Encuentre un intervalo de confianza de 90% para la proporción de los reproductores de
discos compactos de la población que no pasan todas las pruebas.

Solución:

n=500

p = 15/500 = 0.03

z(0.90) = 1.645

0.0237<P<0.0376

Se sabe con un nivel de confianza del 90% que la proporción de discos defectuosos
que no pasan la prueba en esa población está entre 0.0237 y 0.0376.

Ejemplo: En una muestra de 400 pilas tipo B fabricadas por la Everlast Company, se
encontraron 20 defectuosas. Si la proporción p de pilas defectuosas en esa muestra se usa
para estimar P, que vendrá a ser la proporción verdadera de todas las pilas defectuosas
tipo B fabricadas por la Everlast Company, encuentre el máximo error de estimación tal
que se pueda tener un 95% de confianza en que P dista menos de de p.

Solución:

p=x/n = 20/400=0.05

z(0.95)=1.96

Si p=0.05 se usa para estimar P, podemos tener un 95% de confianza en que P dista menos
de 0.021 de p. En otras palabras, si p=0.05 se usa para estimar P, el error máximo de
estimación será aproximadamente 0.021 con un nivel de confianza del 95%
16

Para calcular el intervalo de confianza se tendría:

Esto da por resultado dos valores, (0.029, 0.071). Con un nivel de confianza del 95% se
sabe que la proporción de pulas defectuosas de esta compañía está entre 0.029 y 0.071.

Si se requiere un menor error con un mismo nivel de confianza sólo se necesita aumentar
el tamaño de la muestra.

5.4 PRUEBA DE INDEPENDENCIA (ji-CUADRADA).

Cuando comparamos dos situaciones podemos esperar que sean ya bien dependientes o
independientes esto quiere decir que pueden o no estar relacionados sus datos debido a
muchos factores que pueden influir en ellos o bien, un problema no tenga relación con otro.

La prueba de independencia trata sobre esto, ya que su objetivo es determinar si alguna


situación es afectada por otra, basándose en datos estadísticos y valores probabilístico
obtenidos de la fabulación de datos o de pronósticos por medio de fórmulas y tablas, para
esto se basa en un nivel de significancia en un caso y en el otro a comparar, valiéndonos
de tablas de contingencia para obtener frecuencias esperadas y poder aplicarlas, para así
obtener datos comparativos que son determinantes en la decisión de independencia.

La estadística de prueba que será utilizada en la toma de una decisión acerca de la


hipótesis nula es ji cuadrado, X2 (X es la letra griega ji minúscula. Los valores de ji cuadrado
se obtienen con las siguientes formula:

X2 = Σ (Oi – ei)2
i ei

Grados de libertad

V = (r-1)*(c-1)

Frecuencia Esperada = Total de la columna * Total del renglón

Gran total

Características

X2 toma valores no negativos; es decir, puede ser cero o positiva.

X2 no es simétrica; es asimétrica hacia la derecha.

Existen muchas distribuciones X2 como en el caso de la distribución t, hay una distribución,


X2 diferente para cada valor de los grados de libertad.
17

Nos dan una tabla de contingencia.

Una tabla de contingencia es una disposición de datos en una clasificación de doble


entrada. Los datos se ordenan en celdas y se reporta él número de datos en cada una. En
la tabla de contingencia están implicados dos factores (o variables), y la pregunta común
en relación con tales tablas es si los datos indican que las dos variables son independientes
o dependientes.

Para ilustrar la utilización y análisis de una tabla de contingencia, considérese la


clasificación por sexo de los estudiantes de una escuela y su área académica favorita.

Ejemplo: Cada persona de un grupo de 300 estudiantes fue identificada como hombre o
mujer, preguntándosele si prefería recibir cursos en el área de matemáticas, ciencias
sociales o humanidades. La siguiente tabla es una de contingencia que indica las
frecuencias encontradas para esas categorías. ¿Presenta esta tabla la evidencia suficiente
para rechazar la hipótesis nula “la preferencia por las matemáticas, ciencias sociales o
humanidades es independiente del sexo de un alumno”, al nivel de significancia del 0.05?

Solución:

Paso 1

Ho: La preferencia por matemáticas, ciencias sociales o humanidades es independiente del


sexo de los estudiantes de la escuela.

Ha: La preferencia por las áreas es no independiente del sexo de los estudiantes.

Pasó 2

Para determinar el valor crítico de la ji cuadrada debe conocerse los grados de libertad,
implicado. En el caso de tablas de contingencia, este número es exactamente el número de
celdas en la tabla que puede ser llenadas libremente cuando se conocen los totales. Estos
últimos se indican en la tabla siguiente.

122
178
72 113 115 300

Dados estos totales, solo pueden llenarse dos celdas antes que las restantes queden
determinadas. (por supuesto, los totales deben ser los mismos.) Por ejemplo, una vez que
se seleccionen dos valores arbitrarios (por ejemplo, 50 y 60) para las dos primeras celdas
de la primera fila (véase la tabla siguiente), quedan fijos los otros cuatro valores.

50 60 C 122
18

D E F 178
72 113 115 300

Dichos valores deben ser C=12, D=22, E=53 y F=103. De otra manera los totales no serán
correctos. En consecuencia, para este problema existen dos selecciones libres. Cada una
de estas corresponde a un grado de libertad. Así, el número de grados de libertada en este
ejemplo es 2 (v=2). Por esta razón, si se utiliza =0.05, el valor critico es X2 (2, 0.05) = 6.
Véase la siguiente figura.

Pasó 3

Antes de poder hallar el valor calculado de ji cuadrada, es necesario examinar los valores
esperados E para cada celda. Para tal fin debe recordarse la hipótesis nula, la cual asevera
que estos factores son independientes. En consecuencia, se espera que los valores estén
distribuidos en proporción a los totales marginales. Hay 122 hombres; se espera que estén
distribuidos entre M, CS y H proporcionalmente a los totales 72, 113 y 115. Así, para los
hombres las cuentas esperadas de celda son:

72/300 x 122 113/300 x 122 115/300 x 122

Similarmente, se esperan:

72/300 x 178 113/300 x 178 115/300 x 178

Para las mujeres. Entonces los valores esperados son como se indica en la tabla siguiente
(siempre verifíquense los totales nuevos contra los antiguos.)
19

M CS H Total

29.28 45.95 46.77 122

42.72 67.05 68.23 178

Total 72.00 113.00 115.00 300.00

Nota

El cálculo de los valores esperados puede verse de manera alternativa. Recuérdese que la
hipótesis nula se supone cierta en tanto no haya evidencia para rechazarla. Habiendo hecho
este supuesto en el ejemplo, de hecho sé está afirmando que son independientes los
eventos un estudiante seleccionado aleatoriamente es hombre, y un estudiante elegido al
azar prefiere cursos de matemáticas. El estimador puntual para la probabilidad de que un
estudiante sea hombre es 122/300, y para la probabilidad de que un estudiante prefiera los
cursos de matemática es 72/300. En consecuencia, la probabilidad de que ocurran ambos
eventos es el producto de las probabilidades.

Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se


seleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes resultados:

Sin depresión Con depresión

Deportista 38 9 47

No deportista 31 22 53

69 31 100

L = (38 – 32,43)2/32,43 + (31 – 36,57)2/36,57 + (9 – 14,57)2/14,57 + (22 – 16,43)2/16,43


= 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227
El valor que alcanza el estadístico L es 5,8227. Buscando en la tabla teórica de Chi
Cuadrado para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite rechazar
la hipótesis de independencia de caracteres con un nivel de significación del 5%,
admitiendo por tanto que la práctica deportiva disminuye el riesgo de depresión.
Ejemplo: Ilustraremos esta técnica con el estudio que realizó Cervecería Modelo, la cual
fabrica y distribuye tres tipos de cerveza: ligera, clara y oscura. En un análisis de
segmentación de mercado para las tres cervezas, el grupo de investigación encargado ha
planteado la duda de si la preferencia para las tres cervezas es diferente entre los
consumidores hombres y mujeres. Si la preferencia de las cervezas fuera independiente
del género del consumidor, se iniciaría una campaña de publicidad para todas las cervezas
Modelo. Sin embargo, si la preferencia depende del género del consumidor, se ajustarían
las promociones para tener en cuenta los distintos mercados meta.
20

Una prueba de independencia usa la pregunta de si la preferencia de la cerveza (ligera,


clara y oscura) es independiente del género del consumidor (hombre, mujer). Las hipótesis
para esta prueba de independencia son:

Ho: La preferencia de la cerveza es independiente del género del consumidor

Ha: La preferencia de la cerveza no es independiente del género del consumidor

Podemos usar una tabla como la 1 para describir el caso que se estudia. Después de
identificar a la población, consumidores hombres y mujeres, se puede tomar una muestra y
preguntar a cada persona que diga su preferencia entre las cervezas modelo.

Cada persona de la muestra se clasificará en una de las seis celdas de la tabla. Por ejemplo
una persona puede ser hombre y prefiera la cerveza clara [celda (1,2)], una mujer que
prefiere la cerveza ligera [celda (2,1)], una mujer que prefiere la cerveza oscura [celda (2,3)]
y así sucesivamente. Como en la lista aparecen todas las combinaciones posibles de
predilección de cerveza y género, en otras palabras aparecen todas las contingencias
posibles, a la tabla se le llama tabla de contingencia.

CervezaCerveza preferida
preferida

Ligera Ligera
Clara ClaraTotal
Oscura Oscura

GéneroGénero
HombreHombre
26.67 Celda
37.33(1,1) Celda80(1,2) Celda (1,3)
16.00

Mujer Mujer
23.33 Celda
32.67(2,1) Celda70(2,2) Celda (2,3)
14.00

Total 50.00 70.00 30.00 150

Supongamos que se ha tomado una muestra aleatoria simple de 150 bebedores de


cerveza. Después de saborear cada una, se les pide expresar su preferencia o primera
alternativa. La tabulación cruzada de la siguiente tabla 2 resume las respuestas obtenidas.
Observamos que, los datos para la prueba de independencia se agrupan en términos de
cantidades o frecuencias para cada celda o categoría. De las 150 personas de la muestra,
20 fueron hombres que prefirieron la cerveza ligera, 40 fueron mujeres que prefirieron la
cerveza clara, 20 fueron hombres que prefirieron la cerveza oscura, y así sucesivamente.

Los datos de la tabla 2 constituyen


Cerveza preferida
las frecuencias observadas para las
seis clases o categorías.
Ligera Clara Oscura Total

Género Hombre 20 40 20 80
Si podemos determinar las
Mujer 30 30 10 70frecuencias esperadas bajo la
hipótesis de independencia entre la
Total 50 70 30 150 preferencia de cerveza y el género
del consumidor, podemos usar la
distribución ji cuadrada para determinar si existe una diferencia significativa entre la
frecuencia observada y la esperada.
21

Las frecuencias esperadas en las celdas de la tabla de contingencia se basan en el


siguiente razonamiento. Primero suponemos que es verdadera la hipótesis nula, de
independencia entre la cerveza preferida y el género del consumidor. A continuación
observamos que en toda la muestra de 150 consumidores, hay 50 que prefieren la cerveza
ligera, 70 la cerveza clara y 30 la cerveza oscura. Expresada en fracción, la conclusión es
que de 50/150 = 1/3 de los consumidores de cerveza prefieren la ligera; 70/150 = 7/15 la
clara y 30/150 = 1/5 la oscura. Si es válida la hipótesis de independencia, decimos que
estas fracciones se deben de aplicar por igual a los consumidores hombres y mujeres. Así
bajo la hipótesis de independencia, esperaríamos que la muestra de 80 consumidores
hombres indicara que (1/3) 80 = 26.7 prefieren cerveza ligera, (7/15) 80 = 37.33 la clara y
(1/5) 80 = 16 la oscura. La aplicación de las mismas fracciones a las 70 consumidoras
mujeres produce las frecuencias esperadas que aparecen en la tabla.

e
Sea ij la frecuencia esperada en la categoría del renglón i y la columna j de la tabla de
contingencia. Con esta notación reconsideremos el cálculo de la frecuencia esperada para
los hombres (renglón i = 1) que prefieren la cerveza clara (columna j = 2) esto es, la
e
frecuencia esperada 1, 2 . Apegándonos al esquema anterior para el cálculo de las
frecuencias esperadas, podemos demostrar que

e1, 2
= (7/15) 80 = 37.33

Esta ecuación se puede escribir como sigue

e1, 2
= (7/15) 80 = (70/150) 80 = 37.33

Observe que 80 es la cantidad total de hombres (total del renglón 1), 70 es la cantidad total
de individuos (hombres y mujeres) que prefieren la cerveza clara (total de la columna 2) y
150 es el tamaño de la muestra total. En consecuencia vemos

(total del renglón 1) (total de la columna 2)


e1, 2 
tamaño de la muestra

Al generalizar la ecuación vemos que la fórmula siguiente determina las frecuencias


esperadas de una tabla de contingencias para la prueba de independencia.

Frecuencias esperadas en la tabla de contingencia suponiendo independencia


22

(Total del renglón i ) (total de la columna j )


eij 
tamaño de la muestra

El procedimiento de prueba para comparar frecuencias observadas con las frecuencias


esperadas, se parece a los cálculos de bondad de ajuste. Específicamente, el valor de 
2

basados en las frecuencias observadas y esperadas se calcula como sigue:

 
2
k f oi  f ei 
2

i 1 f ei

Oi = Valor observado en la i-ésimo celda.

Ei = Valor esperado en la i-ésimo celda.

K = Categorías o celdas.

Con n renglones y m columnas en la tabla de contingencia, el estadístico de prueba tiene


una distribución ji cuadrada con (n – 1) (m – 1) grados de libertad, siempre y cuando las
frecuencias esperadas sean 5 o más para todas las categorías. En consecuencia
proseguimos con el cálculo de la estadística de prueba ji cuadrada.

Los cálculos necesarios para determinar el estadística ji cuadrada y ver si la preferencia de


cerveza es independiente del género de quien la bebe se ven en la tabla.

La cantidad de grados de libertad para la distribución ji cuadrada adecuada se determina


multiplicando la cantidad de renglones menos 1 por la cantidad de columnas menos 1.
Como tenemos dos renglones y tres columnas, entonces (2 – 1) (3 – 1) = (1) (2) = 2 grados
de libertad para la prueba de independencia entre cerveza y género del consumidor. Con
 = .05 como nivel de significancia de la prueba, buscamos en la tabla de ji cuadrada y
nos da un valor
2
.05 = 5.99. Observe que estamos usando el valor de la cola superior,

porque rechazaremos la hipótesis nula sólo si las diferencias entre frecuencias observadas
y esperadas producen un valor grande de  . En el ejemplo  =6.13 es mayor que  =
2 2 2

5.99. Por consiguiente, rechazaremos la hipótesis nula de independencia y concluimos que


la, la preferencia cerveza preferida no es independiente del género del consumidor, es
decir para las tres cervezas es diferente entre los consumidores hombres y mujeres y por
lo tanto la Cervecería Modelo deberá estratificar a los consumidores para ajustar las
promociones y la publicidad, teniendo en cuenta estas diferencias.
23

5.5 PRUEBAS DE CONTINGENCIA (ji-CUDRADA).

La prueba chi-cuadrado de contingencia sirve para comprobar la independencia de


frecuencias entre dos variables aleatorias, X e Y.

Las hipótesis contrastadas en la prueba son:

Hipótesis nula: X e Y son independientes.

Hipótesis alternativa: X e Y no son independientes (No importa cuál sea la relación que
mantengan ni el grado de esta.

La condición de independencia, tal como fue definida en la página anterior era: X e Y son
independientes si y sólo si para cualquier pareja de valores x e y la probabilidad de que X
tome el valor x e Y el valor y, simultáneamente, es igual al producto de las probabilidades
de que cada una tome el valor correspondiente.

Género Cerveza fo fe ( fo  fe ) ( fo  fe )2 ( f o  f e ) 2 / eij

Hombre ligera 20 26.67 -6.67 44.4889 1.66812523

Hombre clara 40 37.33 2.67 7.1289 0.19096973

Hombre Oscura 20 16 4 16 1

Mujer ligera 30 23.33 6.67 44.4889 1.90693956

Mujer clara 30 32.67 -2.67 7.1289 0.21820937

Mujer Oscura 10 14 -4 16 1.14285714

2 6.12710104

Por tanto, todo lo que necesitamos serán unas estimas de las funciones de probabilidad de
ambas variables por separado (f(x) y f(y)) y de la función de probabilidad conjunta (f(x,y))

Empezaremos la prueba tomando una muestra de parejas de valores sobre la que


contaremos la frecuencia absoluta con la que aparece cada combinación de valores (xi,yj)
o de grupos de valores (i,j) (Oij) La tabla siguiente, en la que se recogen estos datos, es en
realidad nuestra estimación de la función de probabilidad conjunta multiplicada por el
número total de datos (T).
24

Para obtener las estimas de las funciones de probabilidad marginales debemos sumar por
filas y por columnas los valores de las frecuencias conjuntas. Las sumas de filas (Fi) son,
en cada caso, el número de veces que hemos obtenido un valor de X (xi) en cualquier
combinación con distintos valores de Y, es decir, son nuestra estima de la función de
probabilidad de X multiplicada por el número total de observaciones; análogamente, las
sumas de columnas (Cj) son nuestra estima de la función de probabilidad de Y multiplicada
por el número total de observaciones.

El número total de observaciones lo podemos obtener como la suma de todas las


frecuencias observadas o, también, como la suma de las sumas de filas o de las sumas de
columnas:

Así pues, si las variables fueran independientes debería cumplirse que

Naturalmente, nadie espera que esta condición se cumpla exactamente debido al efecto de
los errores de muestreo aleatorio. Por tanto, nuestro problema consiste en distinguir entre
las diferencias producidas por efecto del muestreo y diferencias que revelen falta de
independencia.

Podemos convertir la ecuación anterior a frecuencias absolutas multiplicando por T:

Si X e Y son independientes, Oij debe ser igual a y, por tanto,


25

Bajo la hipótesis de independencia, es el valor esperado de Oij (Eij)

Tal como pasaba en la prueba anterior, si las variables son independientes, es decir, si las
frecuencias Eij son realmente los valores esperados de las frecuencias Oij, se puede calcular
un parámetro que depende de ambas que tiene distribución chi-cuadrado,

Por otra parte, si las variables no son independientes, las diferencias entre las series de
frecuencias observadas y esperadas serán mayores que las atribuibles al efecto del azar y,
al estar elevadas al cuadrado en el numerador de la expresión anterior, ésta tenderá a ser
mayor que lo que suele ser el valor de una variable chi-cuadrado.

Por tanto, el parámetro anterior ser el estadístico de la prueba de hipótesis y la región crítica
se encontrar siempre en la cola derecha de la distribución chi-cuadrado. Nuevamente, esta
prueba será siempre de una sola cola.

Estadístico de contraste

Se acepta la hipótesis nula si , el percentil 1 – α de la distribución chi-cuadrado


con grados de libertad.

Tal como ocurría en la prueba anterior lo corriente es que queramos demostrar que dos
variables son independientes, es decir, que, habitualmente, nos veremos obligados a
colocar nuestra hipótesis en la hipótesis nula. El número de grados de libertad de la chi-
cuadrado que sirve de contraste se calcula de la siguiente forma:

A priori tendremos tantos grados de libertad como combinaciones de valores xi, yj tengamos
(I J)

A este número tendremos que restarle I debido a que, para calcular las frecuencias
esperadas, necesitamos calcular las I sumas de filas en la tabla anterior. Conocidas las
sumas de filas obtenemos el número total de observaciones sin perder ningún grado de
libertad.
26

A continuación, necesitaremos calcular, a partir de las frecuencias observadas J - 1 de las


sumas de columnas; la restante podemos obtenerla restando la suma de las anteriores del
total de observaciones (T).

En resumen, el número de grados de libertad de la prueba es el producto del número de


filas menos uno por el número de columnas menos uno.

En cuanto a la magnitud mínima necesaria de las frecuencias observadas y esperadas,


rigen las mismas normas que en el caso de la prueba de ajuste. En este caso, si nos
viéramos obligados a juntar valores para sumar frecuencias, debemos unir columnas o filas
completas (y contiguas). Obviamente, los grados de libertad no deben calcularse hasta que
no se hayan realizado todas las agrupaciones necesarias y quede claro cuál es el número
de filas y columnas de la tabla definitiva.

Como hemos visto, esta prueba no hace ninguna suposición acerca del tipo de distribución
de ninguna de las variables implicadas y utiliza únicamente información de la muestra, es
decir, información contingente. Esta es la razón por la que, habitualmente, se le llama chi-
cuadrado de contingencia.

5.6 PRUEBAS DE BONDAD DE AJUSTE.

Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se ajustan a
una determinada distribución, esta distribución puede estar completamente especificada
(hipótesis simple) o perteneciente a una clase paramétrica (hipótesis compuesta).

Una hipótesis estadística se definió como una afirmación o conjetura acerca de la


distribución f(x,q) de una o más variables aleatorias. Igualmente se planteó que la
distribución podía tener uno o más parámetros desconocidos, que denotamos por q y que
la hipótesis se relaciona con este parámetro o conjunto de parámetros En otros casos, se
desconoce por completo la forma de la distribución y la hipótesis entonces se relaciona con
una distribución específica f(x,q) que podamos asignarle al conjunto de datos de la muestra.
El primer problema, relacionado con los parámetros de una distribución conocida o
supuesta es el problema que hemos analizado en los párrafos anteriores. Ahora
examinaremos el problema de verificar si el conjunto de datos se puede ajustar o afirmar
que proviene de una determinada distribución. Las pruebas estadísticas que tratan este
problema reciben el nombre general de “Pruebas de Bondad de Ajuste”.

Se analizarán dos pruebas básicas que pueden aplicarse: La prueba Chi - Cuadrado y la
prueba de Smirnov-Kolmogorov. Ambas pruebas caen en la categoría de lo que en
estadística se denominan pruebas de “Bondad de Ajuste” y miden, como el nombre lo
indica, el grado de ajuste que existe entre la distribución obtenida a partir de la muestra y
la distribución teórica que se supone debe seguir esa muestra. Ambas pruebas están
basadas en la hipótesis nula de que no hay diferencias significativas entre la distribución
muestral y la teórica. Ambas pruebas están basadas en las siguientes hipótesis:

H0: f(x,q) = f0(x,q)


27

H1: f(x,q) ¹ f0(x,q)

Donde f0(x, q) es la distribución que se supone sigue la muestra aleatoria. La hipótesis


alternativa siempre se enuncia como que los datos no siguen la distribución supuesta. Si se
desea examinar otra distribución específica, deberá realizarse de nuevo la otra prueba
suponiendo que la hipótesis nula es esta nueva distribución. Al especificar la hipótesis nula,
el conjunto de parámetros definidos por q puede ser conocido o desconocido. En caso de
que los parámetros sean desconocidos, es necesario estimarlos mediante alguno de los
métodos de estimación analizados con anterioridad.

Para formular la hipótesis nula deberán tenerse en cuenta los siguientes aspectos o
criterios:

a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la distribución


que siguen los tiempos de falla de unos componentes, podríamos pensar en una
distribución exponencial, o una distribución gama o una distribución Weibull, pero en
principio no consideraríamos una distribución normal. Si estamos analizando los caudales
de un río en un determinado sitio, podríamos pensar en una distribución logarítmica normal,
pero no en una distribución normal.

b) Histograma. La forma que tome el histograma de frecuencia es quizás la mejor indicación


del tipo de distribución a considerar.

5.7 APLICACIONES.

Para la ocurrencia de dos eventos, en la cual se desea observar si son dependientes o


independientes.

La distribución ji cuadrada sirve para todas las inferencias sobre la variancia de una
población.

Existen muchos problemas para los cuales los datos son categorizados y los resultados
expuestos en forma de conteos o cuentas.

Se pueden aplicar en: un conjunto de calificaciones de un examen final puede ser


representado como una distribución de frecuencias. Estos valores son cuentas: él numera
de datos que caen en cada celda.

En una encuesta determinada se podría preguntar a unas personas si votarían por los
candidatos A, B o C, por lo general, los resultados se indican en una gráfica que informa
acerca del número de votantes para cada categoría posible.
28

You might also like