You are on page 1of 27

1

S.E.P. S.N.E.S.T. D.G.E.S.T.


S.E.V.

INSTITUTO TECNOLGICO SUSPERIOR DE LAS CHOAPAS


NOMBRE DEL TEMA
PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMERICO

NOMBRE DE LA MATERIA
ESTADISTICA INFERENCIAL I


CARRERA:
Ingeniera en gestin empresarial


REPORTE No.: 2(UNIDAD 4)

NOMBRE DEL ALUMNO
ESTANISLADO CARLOS LOPEZ

SEMESTRE: 4SEMESTRE



DOCENTE: ING. CELERINO CALDERN MARTNEZ


LAS CHOAPAS, VER. 17 DE MAYODEL 2013






2
INTRODUCCIN


Se desarrolla una metodologa paso a paso que le permita hacer inferencias sobre un
parmetro poblacional mediante el anlisis diferencial entre los resultados observados
(estadstico de la muestra) y los resultados de la muestra esperados si la hiptesis
subyacente es realmente cierta. En el problema de estimacin se trata de elegir el valor
de un parmetro de la poblacin, mientras que en las pruebas de hiptesis se trata de
decidir entre aceptar o rechazar un valor especificado (por ejemplo, si el nivel de
centramiento de un proceso es o no lo es). Prueba de hiptesis: Estadsticamente una
prueba de hiptesis es cualquier afirmacin acerca de una poblacin y/o sus parmetros.






















3
INDICE


INTRODUCCIN PRUEBAS DE HIPTESIS. ..4

DISTRIBUCIN NORMAL Y DISTRIBUCIN T DE STUDENT. 4

PRUEBAS DE SIGNIFICANCIA. .6

COMPARACIN DE DOS MUESTRAS INDEPENDIENTES: PRUEBAS T PARA LAS
DIFERENCIAS ENTRE NORMALES. ..6

PRUEBA DE FISHER PARA VARIANZAS Y DE IGUALDAD DE LAS VARIANZAS DE
DOS POBLACIONES NORMALES. ..15

COMPARACIONES DE DOS MUESTRAS PAREADAS. ..21

MODELO TOTALMENTE ALEATORIO: ANLISIS DE VARIANZA DE UN FACTO.
..22

SELECCIN DEL TAMAO DE MUESTRA PARA ESTIMAR LA DIFERENCIA DE DOS
MEDIAS. ...22







4
4.1 INTRODUCCIN PRUEBAS DE HIPTESIS
Una prueba de hiptesis consiste en contrastar dos hiptesis estadsticas. Tal contraste
involucra la toma de decisin acerca de las hiptesis. La decisin consiste en rechazar o
no una hiptesis en favor de la otra. Una hiptesis estadstica se denota por H y son
dos: - Ho: hiptesis nula - H1: hiptesis alternativa Partes de una hiptesis 1-La hiptesis
nula Ho 2-La hiptesis alternativa H1 3-El estadstico de prueba 4-Errores tipo I y II 5-
La regin de rechazo (crtica) 6-La toma de decisin 1. Concepto: Una prueba de
hiptesis estadstica es una conjetura de una o ms poblaciones. Nunca se sabe con
absoluta certeza la verdad o falsedad de una hiptesis estadstica, a no ser que se
examine la poblacin entera. Esto por su puesto sera imprctico en la mayora de las
situaciones. En su lugar, se toma una muestra aleatoria de la poblacin de inters y se
utilizan los datos que contiene tal muestra para proporcionar evidencia que confirme o no
la hiptesis. La evidencia de la muestra que es un constante con la hiptesis planteada
conduce a un rechazo de la misma mientras que la evidencia que apoya la hiptesis
conduce a su aceptacin.
Definicin de prueba de hiptesis estadstica es que cuantifica el proceso de toma de
decisiones.
Por cada tipo de prueba de hiptesis se puede calcular una prueba estadstica apropiada.
Esta prueba estadstica mide el acercamiento del calor de la muestra (como un promedio)
a la hiptesis nula. La prueba estadstica, sigue una distribucin estadstica bien conocida
(normal, etc.) o se puede desarrollar una distribucin para la prueba estadstica particular.
La distribucin apropiada de la prueba estadstica se divide en dos regiones: una regin
de rechazo y una de no rechazo. Si la prueba estadstica cae en esta ltima regin no se
puede rechazar la hiptesis nula y se llega a la conclusin de que el proceso funciona
correctamente.
Al tomar la decisin con respecto a la hiptesis nula, se debe determinar el valor crtico en
la distribucin estadstica que divide la regin del rechazo (en la cual la hiptesis nula no
se puede rechazar) de la regin de rechazo. A hora bien el valor crtico depende del
tamao de la regin de rechazo.




4.2 DISTRIBUCIN NORMAL Y DISTRIBUCIN T DE STUDENT
En estadstica y probabilidad se llama distribucin normal, distribucin de Gauss o
distribucin gaussiana, a una de las distribuciones de probabilidad de variable continua
que con ms frecuencia aparece en fenmenos reales.
La grfica de su funcin de densidad tiene una forma acampanada y es simtrica respecto
de un determinado parmetro. Esta curva se conoce como campana de Gauss.

5
La importancia de esta distribucin radica en que permite modelar numerosos fenmenos
naturales, sociales y psicolgicos. Mientras que los mecanismos que subyacen a gran
parte de este tipo de fenmenos son desconocidos, por la enorme cantidad de variables
incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse
asumiendo que cada observacin se obtiene como la suma de unas pocas causas
independientes.
De hecho, la estadstica es un modelo matemtico que slo permite describir un
fenmeno, sin explicacin alguna. Para la explicacin causal es preciso el diseo
experimental, de ah que al uso de la estadstica en psicologa y sociologa sea conocido
como mtodo correlacional.
La distribucin normal tambin es importante por su relacin con la estimacin por
mnimos cuadrados, uno de los mtodos de estimacin ms simples y antiguos.
La distribucin normal tambin aparece en muchas reas de la propia estadstica. Por
ejemplo, la distribucin muestral de las medias mustrales es aproximadamente normal,
cuando la distribucin de la poblacin de la cual se extrae la muestra no es normal.
1

Adems, la distribucin normal maximiza la entropa entre todas las distribuciones con
media y varianza conocidas, lo cual la convierte en la eleccin natural de la distribucin
subyacente a una lista de datos resumidos en trminos de media muestral y varianza. La
distribucin normal es la ms extendida en estadstica y muchos tests estadsticos estn
basados en una supuesta "normalidad".
En probabilidad y estadstica, la distribucin t (de Student) es una distribucin de
probabilidad que surge del problema de estimar la media de una poblacinnormalmente
distribuida cuando el tamao de la muestra es pequeo.
Aparece de manera natural al realizar la prueba t de Student para la determinacin de las
diferencias entre dos medias muestrales y para la construccin del intervalo de confianza
para la diferencia entre las medias de dos poblaciones cuando se desconoce la
desviacin tpica de una poblacin y sta debe ser estimada a partir de los datos de una
muestra.
La distribucin t de Student es la distribucin de probabilidad del cociente

Donde
Z tiene una distribucin normal de media nula y varianza 1
V tiene una distribucin chi-cuadrado con grados de libertad
Z y V son independientes

6
Si es una constante no nula, el cociente es una variable aleatoria que sigue la
distribucin t de Student no central con parmetro de no-centralidad .
4.3 PRUEBAS DE SIGNIFICANCIA
Las pruebas de significancia estadstica son un procedimiento que brinda un criterio
objetivo para calificar las diferencias que se presentan al comparar los resultados de dos
muestras, con el objetivo de explicar si dichas diferencias se mantienen dentro de los
lmites previstos por el diseo estadstico (un error y una confianza esperados) o si, por el
contrario, la diferencia entre ellas resulta lo suficientemente grande como para inferir que
ha ocurrido un cambio real en el indicador
4.4 COMPARACIN DE DOS MUESTRAS INDEPENDIENTES: PRUEBAS T PARA LAS
DIFERENCIAS ENTRE NORMALES.
Para comparar las medias de dos muestras aleatorias procedentes de dos poblaciones
normales e independientes, se utiliza el procedimiento Prueba T para muestras
independientes, y para ello, se selecciona:







A continuacin se abre una ventana con los siguientes campos:
Contrastar variables: donde se han de introducir las variables que se van a analizar, es
decir, aquellas variables sobre las que se va a contrastar si hay o no, diferencias de
grupos.
Variable de agrupacin: aqu se debe introducir la variable que se utiliza para definir los
grupos de sujetos sobre los que se estudian las diferencias. Entonces el sistema activa el
botn definir grupos y al presionarlo aparece una ventana donde se introducen los valores
de la variable que definen los dos grupos de sujetos a comparar, o el valor de la variable
que har de corte para definir dichos grupos. Si el valor de la variable para un individuo es
menor o igual que el valor especificado, el individuo pertenecer al primer grupo, y en
caso contrario, al segundo.

7
Opciones: presionando este botn se obtiene una ventana donde se especifica igual que
en la seccin anterior el nivel de confianza para el intervalo y la forma de tratar los valores
missing.

Ejemplo: Vamos a comprobar si existen diferencias significativas entre los tiempos
medios de dedicacin a la docencia, para los profesores asociados y los titulares de
universidad de Profesores2.sav. Para ello, seleccionamos el procedimiento Prueba T para
muestras independientes, y elegimos la variable Tiemdoc para llevarla al campo
contrastar variables. Seguidamente seleccionamos como variable agrupacin la variable
categora, presionamos el botn definir grupos, y tecleamos un 1 en el primer grupo y un 3
en el segundo. Por ltimo pulsamos continuar y aceptar para ejecutar el procedimiento.
El resultado que muestra la Tabla contiene dos tablas. La primera recoge para ambos
grupos, profesores asociados y titulares de universidad, el nmero de casos en cada
muestra, los tiempos medios dedicados a la docencia, las desviaciones tpicas y los
errores tpicos de la media. La segunda tabla muestra el valor del estadstico para la
prueba de Levene sobre la igualdad de varianzas, junto con su p-valor. Este se distribuye
como una F de Snedecor y vale 0.808, mientras que su p-valor 0.373, lo que nos conduce
a aceptar que las varianzas sean iguales, ya que el p-valor es mayor que 0.05. Tambin
aparece en la tabla el valor del estadstico para resolver el contraste de igualdad de
medias, supuesto varianzas iguales y distintas, (en ambos casos se distribuye como una t
de Student), junto con los correspondientes grados de libertad y sus p-valores. Puesto
que hemos concluido que las varianzas coinciden, fijmonos en el que se han asumido
varianzas iguales, el cual vale 8.661, y cuyo p-valor es 0, luego se rechaza que las
medias coincidan. Razonamiento que tambin se puede deducir del intervalo de
confianza, que no contiene el cero.

Tabla : Contraste sobre las Medias de dos Poblaciones Independientes
Prueba TEstadsticos de Grupo

Desviacin Error tp. de

Categora N Media tp. la media
Tiempo diario 1 29 251,3759 29,36731 5,4534
para la docencia 3 23 187,1000 22,5337 4,6986
Prueba de muestras independientes

Prueba de


Levene
para

la igualdad Prueba T para la igualdad de medias

de
varianzas

F Sig. t gl
Sig.
bilater
Diferenc
ia de
Error
tpico
Intervalo de
confianza para

8
al medias de la
diferenc
ia
la diferencia

Inferio
r
Superi
or
Tiempo
Asumien
do
0.80
8
0,37
3
8,66
1
50 0.000 64,2759 7,4209
49,370
4
79,181
3
diario
varianza
s iguales
para la
No
Asumien
do

8,92
9
49,96
1
0.000 64,2759 7,1983
49,817
3
78,734
5
docenc
ia
varianza
s iguales

En muchos estudios, incluidos la mayora de los ensayos clnicos, es necesario comparar
ciertas caractersticas en dos o ms grupos de sujetos. Tal sera el caso, por ejemplo, si
pensamos que un tratamiento nuevo puede tener un porcentaje de mejora mayor que
otro estndar, o cuando nos planteamos si los nios de las distintas comunidades
autnomas tienen o no la misma altura. En este artculo se analizar nicamente el
problema de la comparacin de dos grupos con respecto a una variable continua. La
eleccin de un mtodo de anlisis apropiado en este caso depender de la naturaleza de
los datos y la forma en la que estos hayan sido obtenidos. Fundamentalmente, cuando se
comparan dos o ms grupos de observaciones pueden darse dos tipos de diseo: aquel
en el que las observaciones se refieren a dos grupos independientes de individuos, o el
caso en el que cada serie de datos se recoge en los mismos sujetos bajo condiciones
diferentes. El tipo de metodologa ser distinto segn el caso en el que nos encontremos.
Otro aspecto a tener en consideracin ser el tipo y distribucin de los datos. Para grupos
independientes, los mtodos paramtricos requieren que las observaciones en cada
grupo provengan de una distribucin aproximadamente normal con una variabilidad
semejante, de modo que si los datos disponibles no verifican tales condiciones, puede
resultar til una transformacin
1,2,3
de los mismos (aplicacin del logaritmo, raz cuadrada,
etc.) o, en todo caso, se debera recurrir a la utilizacin de procedimientos no
paramtricos
4
.
Normalmente en este tipo de anlisis podremos establecer una hiptesis de partida
(hiptesis nula), que generalmente asume que el efecto de inters es nulo, por ejemplo
que la tensin arterial es la misma en hombres y mujeres o que dos tratamientos para la
hipercolesterolemia son igualmente efectivos. Posteriormente se puede evaluar la
probabilidad de haber obtenido los datos observados si esa hiptesis es correcta. El valor
de esta probabilidad coincide con el valor-p que nos proporciona cada test estadstico, de
modo que cuanto menor sea ste ms improbable resulta que la hiptesis inicial se
verifique.
En un primer apartado, se presentar el test t de Student para dos muestras
independientes, introduciendo las modificaciones necesarias en el caso de que la

9
variabilidad de ambos grupos sea distinta. A continuacin se introducir el test t de
Student para el caso de dos muestras dependientes.

t de Student para dos muestras independientes
Uno de los anlisis estadsticos ms comunes en la prctica es probablemente el utilizado
para comparar dos grupos independientes de observaciones con respecto a una variable
numrica. Como ejemplo, consideremos los datos que se muestran en la Tabla 1,
correspondientes a 75 individuos con sobrepeso sometidos a dos dietas alimenticias
distintas, de modo que se desea comparar el peso de los individuos que iniciaron cada
una de las dietas.
Bajo las hiptesis de normalidad e igual varianza la comparacin de ambos grupos puede
realizarse en trminos de un nico parmetro como el valor medio (Figura 1a), de modo
que en el ejemplo planteado la hiptesis de partida ser, por lo tanto:
H
0
: La media de peso inicial es igual en ambos grupos
Se denotar por {X
1
, X
2
,...,X
n
} e {Y
1
,Y
2
,...,Y
m
} al peso observado en cada uno de los
sujetos sometidos a la dieta A y a la dieta B respectivamente. En general no se exigir
que coincida el nmero de observaciones en cada uno de los grupos que se comparan,
de modo que en el ejemplo n=40 y m=35.
El t test para dos muestras independientes se basa en el estadstico:

(1)
Donde e denotan el peso medio en cada uno de los grupos:

y , las cuasi varianzasmustrales correspondientes:

Con lo cual, en este caso particular, el valor utilizado para el contraste ser:

10

Si la hiptesis de partida es cierta el estadstico (1) seguir una distribucin t de Student
con n+m-2 grados de libertad. De ser as, el valor obtenido debera estar dentro del rango
de mayor probabilidad segn esta distribucin. Usualmente se toma como referencia el
rango de datos en el que se concentra el 95% de la probabilidad. El valor-p que
usualmente reportan la mayora de paquetes estadsticos no es ms que la probabilidad
de obtener, segn esa distribucin, un dato ms extremo que el que proporciona el test.
Como ya se dijo, refleja tambin la probabilidad de obtener los datos observados si fuese
cierta la hiptesis inicial. Si el valor-p es muy pequeo (usualmente se considera p<0.05)
es poco probable que se cumpla la hiptesis de partida y se debera de rechazar. La
regin de aceptacin corresponde por lo tanto a los valores centrales de la distribucin
para los que p>0.05. En el ejemplo planteado el valor-p correspondiente es de 0.425, de
modo que no existe evidencia estadstica de que el peso medio en ambos grupos sea
diferente. En la Tabla 2, se determina los grados de libertad (en la primera columna) y el
valor de (en la primera fila). El nmero que determina su interseccin es el valor crtico
correspondiente. De este modo, si el estadstico que se obtiene toma un valor mayor se
dir que la diferencia es significativa.
Otro modo de obtener esta misma informacin es mediante el clculo de intervalos de
confianza para la diferencia de la respuesta media en ambos grupos. A mayores, el
intervalo de confianza constituye una medida de la incertidumbre con la que se estima esa
diferencia a partir de la muestra, permitiendo valorar tanto la significacin estadstica
como la magnitud clnica de esa diferencia
6
. En el caso que nos ocupa, el intervalo de
confianza vendr dado como:

Donde denota el valor que segn la distribucin t de Student con n+m-2 grados de
libertad deja a su derecha el 2.5% de los datos. En el ejemplo, el intervalo de confianza
con una seguridad del 95% para la diferencia de peso viene dado por:

Que expresa en definitiva un rango de valores entre los que se puede encontrar el valor
real de la diferencia entre los pesos de ambos grupos. Proporciona adems la misma
informacin que obtenamos del contraste estadstico. El hecho de que el valor cero
pertenezca al intervalo indica que no se dispone de evidencia para concluir que el peso
sea distinto en ambos grupos.
A medida que el tamao muestral aumenta, la distribucin del estadstico (1) se hace ms
prxima a la de una variable Normal estndar. De este modo, en algunos textos se opta
por utilizar esta distribucin para realizar la comparacin de medias. Aunque esta

11
aproximacin es correcta para muestras suficientemente grandes, ambos mtodos
proporcionan en este caso resultados prcticamente idnticos, por lo que resulta ms
simple utilizar, independientemente del tamao de la muestra, la misma metodologa a
partir de la distribucin t. El mismo planteamiento podra utilizarse en el caso de varianzas
distintas o de muestras apareadas.

Dos muestras dependientes
Ya se ha comentado que cuando se trata de comparar dos grupos de observaciones, es
importante distinguir el caso en el que son independientes de aquel en el que los datos
estn apareados. Las series dependientes surgen normalmente cuando se evala un
mismo dato ms de una vez en cada sujeto de la muestra. Tambin se puede encontrar
este tipo de observaciones en estudios de casos y controles donde cada caso se aparea
individualmente con un control.
Supongamos que queremos comprobar, en los datos de la Tabla 1 si realmente se
produce una prdida de peso significativa en esos individuos, para lo que se recoge en
cada sujeto su peso antes y despus de someterse a la dieta. En este tipo de anlisis el
inters no se centra en la variabilidad que puede haber entre los individuos, sino en las
diferencias que se observan en un mismo sujeto entre un momento y otro. Por este
motivo, resulta intuitivo trabajar con la diferencia de ambas observaciones (en el ejemplo
ser la prdida de peso), de modo que se quiere contrastar la hiptesis:
H
0
: La prdida de peso es nula frente a la alternativa de que la prdida de peso sea
importante (es decir, distinta de cero).
La veracidad de dicha hiptesis puede ser contrastada igualmente mediante el test t de
Student. Como se ha dicho, este tipo de mtodos tienen como hiptesis fundamental la
normalidad de los datos. En este caso, sin embargo, no ser necesario que las
observaciones en ambos grupos provengan de poblaciones normales, sino que
nicamente se requiere verificar la normalidad de su diferencia. Denotando por la
prdida media de peso la hiptesis de la que se parte es que:

frente a la alternativa

A partir de las observaciones mustrales {Y
1
,Y
2
,..., Yn} e {Y
1
,Y
2
,...,Y
n
} en cada uno de los
grupos se calcula la diferencia de peso para cada sujeto {d
1
,d
2
,...,d
n
} con d
j
=X
j
-
Y
j
j=1,2,...,n. Ntese que en este caso un requisito fundamental es que se tenga un
nmero igual de observaciones en ambos grupos. A partir de estos datos, el contraste se
basa en el estadstico:


12
o en el clculo del 95% intervalo de confianza:

Donde denota la media de la prdida de peso estimada a partir de la muestra:

y denota la cuasi varianza muestral de la diferencia dada por:

En nuestro ejemplo el valor del estadstico vendra dado por:

a comparar del modo habitual con la distribucin t de Student con n-1=74 grados de
libertad. El intervalo de confianza para la prdida media de peso correspondiente a una
seguridad del 95% es de (3.56;4.41), lo cual se traduce en una prdida de peso
significativamente distinta de cero, tal y como indica el valor-p correspondiente de
p<0.001.

Figura 1. Comparacin de dos poblaciones normales
a) Poblaciones normales con igual varianza y medias distintas

b) Poblaciones normales con igual y diferentes varianzas.

13


Figura 2. Regiones de aceptacin y rechazo en el contraste de
hiptesis


Tabla 1. Datos de 75 pacientes con sobrepeso sometidos a dos
dietas alimenticias.
Dieta Peso inicial Peso final Dieta Peso inicial Peso final
A 94,07 86,59 B 88,02 84,12
A 96,79 93,08 B 88,22 86,13
A 92,15 87,85 B 103,45 101,21
A 92,30 86,83 B 82,94 79,08

14
A 96,50 92,70 B 89,71 86,19
A 83,11 76,80 B 94,83 91,93
A 91,16 83,40 B 81,93 78,97
A 90,81 86,74 B 83,41 78,89
A 81,37 77,67 B 73,59 69,76
A 89,81 85,70 B 108,47 104,20
A 84,92 79,96 B 72,67 70,01
A 84,43 79,80 B 96,84 93,66
A 86,33 81,15 B 88,48 87,00
A 87,60 81,92 B 89,57 87,24
A 81,08 76,32 B 85,22 82,09
A 92,07 90,20 B 103,76 102,24
A 81,14 73,34 B 87,84 84,66
A 96,87 93,58 B 91,50 88,95
A 99,59 92,36 B 93,04 88,73
A 83,90 77,23 B 92,14 88,07
A 89,41 85,45 B 85,26 81,36
A 85,31 84,59 B 89,42 86,64
A 89,25 84,89 B 92,42 88,99
A 93,20 93,10 B 93,13 89,73
A 89,17 86,87 B 80,86 77,81
A 93,51 86,36 B 88,75 85,93
A 88,85 83,24 B 95,02 91,90
A 88,40 81,20 B 92,29 91,28
A 82,45 77,18 B 89,43 87,22
A 96,47 88,61 B 93,32 89,77
A 99,48 94,67 B 92,88 89,38
A 99,95 93,87 B 89,88 88,00
A 100,05 94,15 B 82,25 80,81
A 87,33 82,17 B 88,99 86,87
A 87,61 86,01 B 82,07 79,74
A 89,28 83,78
A 89,72 83,56
A 95,57 89,58
A 97,71 91,35
A 98,73 97,82



15
4.5 PRUEBA DE FISHER PARA VARIANZAS Y DE IGUALDAD DE LAS VARIANZAS
DE DOS POBLACIONES NORMALES.
La necesidad de disponer de mtodos estadsticos para comparar las varianzas de dos
poblaciones es evidente a partir del anlisis de una sola poblacin. Frecuentemente se
desea comparar la precisin de un instrumento de medicin con la de otro, la estabilidad
de un proceso de manufactura con la de otro o hasta la forma en que vara el
procedimiento para calificar de un profesor universitario con la de otro.
Intuitivamente, podramos comparar las varianzas de dos poblaciones, y ,
utilizando la razn de las varianzas muestrales s
2
1
/s
2
2
. Si s
2
1
/s
2
2
es casi igual a 1, se
tendr poca evidencia para indicar que y no son iguales. Por otra parte, un
valor muy grande o muy pequeo para s
2
1
/s
2
2
, proporcionar evidencia de una diferencia
en las varianzas de las poblaciones.
La variable aleatoria F se define como el cociente de dos variables aleatorias ji-cuadrada
independiente, cada una dividida entre sus respectivos grados de libertad. Esto es,

Donde U y V son variables aleatorias ji-cuadrada independientes con grados de libertad
respectivamente.
Sean U y V dos variables aleatorias independientes que tienen distribucin ji cuadradas
con grados de libertad, respectivamente. Entonces la distribucin de la variable
aleatoria est dada por:


y se dice que sigue la distribucin F con grados de libertad en el numerador y
grados de libertad en el denominador.

16
La media y la varianza de la distribucin F son:
para
para

La variable aleatoria F es no negativa, y la distribucin tiene un sesgo hacia la derecha.
La distribucin F tiene una apariencia muy similar a la distribucin ji-cuadrada; sin
embargo, se encuentra centrada respecto a 1, y los dos parmetros proporcionan
una flexibilidad adicional con respecto a la forma de la distribucin.
Si s
1
2
y s
2
2
son las varianzas mustrales independientes de tamao n
1
y n
2
tomadas de
poblaciones normalescon varianzas y , respectivamente, entonces:

Para manejar las tablas de Fisher del libro de Introduccin a la Inferencia Estadstica del
autor Genther, se tendr que buscar primero los grados de libertad dos para luego
localizar el rea correspondiente, relacionndola con los grados de libertad uno, para
calcular el valor de F.
Las tablas tienen la siguiente estructura:


P
1 2 3 . .. 500
6 0.0005
0.001
0.005
.
.

17
0.9995 30.4
El valor de 30.4 es el correspondiente a una Fisher que tiene 3 grados de libertad uno y 6
grados de libertad dos con un rea de cero a Fisher de 0.995. Si lo vemos grficamente:

Como nos podemos imaginar existen varias curvas Fisher, ya que ahora su forma
depende de dos variables que son los grados de libertad.
Ejemplos:
1. Encontrar el valor de F, en cada uno de los siguientes casos:
a. El rea a la derecha de F, es de 0.25 con =4 y =9.
b. El rea a la izquierda de F, es de 0.95 con =15 y =10.
c. El rea a la derecha de F es de 0.95 con con =6 y =8.
d. El rea a la izquierda de F, es de 0.10 con con =24 y
=24
Solucin:
Como el rea que da la tabla es de cero a Fisher, se tiene que localizar primero los
grados de libertad dos que son 9, luego un rea de 0.75 con 4 grados de libertad uno.


18
En este caso se puede buscar el rea de 0.95 directamente en la tabla con sus
respectivos grados de libertad.

Se tiene que buscar en la tabla un rea de 0.05, puesto que nos piden un rea a la
derecha de F de 0.95.

Se busca directamente el rea de 0.10, con sus respectivos grados de libertad.

Si s
1
2
y s
2
2
son las varianzas mustrales de muestras aleatorias independientes de
tamaos n
1
=10 y n
2
=20, tomadas de poblaciones normales que tienen las mismas
varianzas, encuentre P(s
1
2
/s
2
2
2.42).
Solucin:
Primero se establecen los grados de libertad. Como en el numerador est la poblacin
uno y en el denominador la poblacin dos, entonces los grados de libertad uno equivalen
a 10-1=9 y los grados de libertad dos a 20-1=19.

19
Se procede a ir a la tabla a buscar los grados de libertad dos que son 19
y se observa que no estn, por lo tanto se tiene que interpolar entre 15 y
20 grados de libertad, buscando el valor de fisher que quedara:

Este valor de 2.42 se busca en la columna de 9 grados de libertad uno, con 15 grados de
libertad dos, y se encuentra el siguiente:
Area

0.90 2.09
0.95 2.59
Al interpolar entre estos dos valores nos queda un rea de 0.933.
Se procede a hacer lo mismo pero con 20 grados de libertad dos:
Area

0.95 2.39
0.975 2.84
Al interpolar entre estos dos valores nos queda un rea de 0.9516.
Ahora ya se tienen las dos reas referentes a los grados de libertad dos, por lo que se
interpolar para ver cunto le corresponde a los grados libertad dos con un valor de 19.
Al interpolar nos queda que para 9 grados de libertad uno y 19 grados de libertad dos con
un valor de Fisher de 2.42 el rea a la izquierda es de 0.9478.

Si s
1
2
y s
2
2
representan las varianzas de las muestras aleatorias independientes de
tamao n
1
= 25 y n
2
= 31, tomadas de poblaciones normales con varianzas
1
2
=10 y

Area
15 0.933
20 0.9516

20
2
2
= 15, respectivamente, encuentre P(s
1
2
/s
2
2
> 1.26).
Solucin:
Calcular el valor de Fisher:

Luego se va a la tabla de Fisher a buscar 30 grados de libertad 2 con 24 grados de
libertad uno. Cuando se este en esta posicin se busca adentro de la tabla el valor de
Fisher de 1.89. Al localizarlo y ver a la izquierda de este valor se obtiene un rea de 0.95,
pero esta rea correspondera a la probabilidad de que las relaciones de varianzas
mustrales fueran menor a 1.26, por lo que se calcula su complemento que sera 0.05,
siendo esta la probabilidad de que s
1
2
/s
2
2
> 1.26.

Intervalo de Confianza para el Cociente de Varianzas de Dos Distribuciones Normales
Supngase que se tienen dos poblaciones normales e independientes con varianzas
desconocidas
2
y
2
2
, respectivamente. De este par de poblaciones, se tienen
disponibles dos muestras aleatorias de tamaos n
1
y n
2
, respectivamente, sean s
1
2
y s
2
2

las dos varianzas muestrales. Se desea conocer un intervalo de confianza del 100(
) por ciento para el cociente de las dos varianzas,
1
2
/
2
2
.
Para construir el intervalo de confianza para el cociente de dos varianzas poblacionales,
se coloca la varianza muestral mayor en el numerador del estadstico F.
Ejemplos:
Un fabricante de automviles pone a prueba dos nuevos mtodos de ensamblaje de
motores respecto al tiempo en minutos. Los resultados se muestran el la tabla:
Mtodo 1 Mtodo 2
n
1
= 31 n
2
= 25
s
1
2
= 50 s
2
2
= 24

21
Construya un intervalo de confianza del 90% para
1
2
/
2
2
.
Solucin:
Por la recomendacin de que la varianza muestral mayor va en el numerador se tiene la
siguiente frmula:

al despejar: .
F toma dos valores dependiendo del nivel de confianza y de los grados de libertad. En
este caso los grados de libertad uno valen 30 y los grados de libertad dos 24.
1.
2. y
4.6 COMPARACIONES DE DOS MUESTRAS PAREADAS
Una de las hiptesis sobre las que habitualmente se fundamentan las pruebasestadsticas
de comparacin es que las observaciones pertenecientes a cada una de lasmuestras son
independientes entre s, no guardan relacin; siendo precisamente ese unode los
objetivos de la aleatorizacin (eleccin aleatoria de los sujetos o unidades
deobservacin). Sin embargo, la falta de independencia entre las observaciones de
losgrupos puede ser una caracterstica del diseo del estudio para
buscarfundamentalmente una mayor eficiencia del contraste estadstico al disminuir
lavariabilidad. En otras ocasiones con este tipo de diseo pareado lo que se busca es
daruna mayor validez a las inferencias obtenidas, controlando o eliminando la influencia
devariables extraas cuyo efecto ya es conocido o sospechado, y no se desea
queintervenga en el estudio actual pudiendo enmascarar el efecto del tratamiento o de
lavariable de inters.
Las muestras apareadas se obtienen usualmente como distintas observaciones
realizadassobre los mismos individuos. Un ejemplo de observaciones pareadas consiste
enconsiderar a un conjunto de n personas a las que se le aplica un tratamiento mdico y
semide por ejemplo el nivel de insulina en la sangre antes (X) y despus del mismo (Y).En

22
este ejemplo no es posible considerar aXeY como variables independientes ya queva a
existir una dependencia clara entre las dos variables.
4.7 MODELO TOTALMENTE ALEATORIO: ANLISIS DE VARIANZA DE UN FACTOR.
Hay varias formas en las cuales puede disearse un experimento ANOVA. Quizs el ms
comn es el diseo completamente aleatorizado a una va. El trmino proviene del hecho
que varios sujetos o unidades experimentales se asignan aleatoriamente a diferentes
niveles de un solo factor. Por ejemplo: varios empleados (unidades experimentales)
pueden seleccionarse aleatoriamente para participar en diversos tipos (niveles diferentes)
de un programa de capacitacin (el factor).
El anlisis de varianza se basa en una comparacin de la cantidad de variacin en cada
uno de los tratamientos. Si de un tratamiento al otro la variacin es significativamente alta,
puede concluirse que los tratamientos tienen efectos diferentes en las poblaciones.
a. Esta variacin entre el nmero total de las 14 observaciones. Esto se llama variacin
total.
b. Existe variacin entre los diferentes tratamientos (muestras). Esto se llama variacin
entre muestras.
c. Existe variacin dentro de un tratamiento dado (muestra). Esto se denomina
variacin dentro de la muestra.
4.8 SELECCIN DEL TAMAO DE MUESTRA PARA ESTIMAR LA DIFERENCIA DE
DOS MEDIAS
En Estadstica el tamao de la muestra es el nmero de sujetos que componen la muestra
extrada de una poblacin, necesarios para que los datos obtenidos sean representativos
de la poblacin.
1. Estimar un parmetro determinado con el nivel de confianza deseado.
2. Detectar una determinada diferencia, si realmente existe, entre los grupos de
estudio con un mnimo de garanta.
3. Reducir costes o aumentar la rapidez del estudio.
Por ejemplo, en un estudio de investigacin epidemiolgico la determinacin de un
tamao adecuado de la muestra tendra como objetivo su factibilidad. As:
Si el nmero de sujetos es insuficiente habra que modificar los criterios de seleccin,
solicitar la colaboracin de otros centros o ampliar el periodo de reclutamiento. Los
estudios con tamaos muestrales insuficientes, no son capaces de detectar diferencias
entre grupos, llegando a la conclusin errnea de que no existe tal diferencia.
Si el nmero de sujetos es excesivo, el estudio se encarece desde el punto de vista
econmico y humano. Adems es poco tico al someter a ms individuos a una
intervencin que puede ser menos eficaz o incluso perjudicial.
El tamao de una muestra es el nmero de individuos que contiene.

23

Una frmula muy extendida que orienta sobre el clculo del tamao de la muestra para
datos globales es la siguiente:
n = ( (k^2) * N*p*q) / ( (e^2 * (N-1) )+( (k^2) * p*q))
N: es el tamao de la poblacin o universo (nmero total de posibles encuestados).
k: es una constante que depende del nivel de confianza que asignemos. El nivel de
confianza indica la probabilidad de que los resultados de nuestra investigacin sean
ciertos: un 95,5 % de confianza es lo mismo que decir que nos podemos equivocar con
una probabilidad del 4,5%.
Los valores k ms utilizados y sus niveles de confianza son:
K 1,15 1,28 1,44 1,65 1,96 2 2,58
Nivel de confianza 75% 80% 85% 90% 95% 95,5% 99%
(Por tanto si pretendemos obtener un nivel de confianza del 95% necesitamos poner en la
frmula k=1,96)
e: es el error muestral deseado. El error muestral es la diferencia que puede haber entre
el resultado que obtenemos preguntando a una muestra de la poblacin y el que
obtendramos si preguntramos al total de ella.
Ejemplos:
Ejemplo 1: si los resultados de una encuesta dicen que 100 personas compraran un
producto y tenemos un error muestral del 5% comprarn entre 95 y 105 personas.
Ejemplo 2: si hacemos una encuesta de satisfaccin a los empleados con un error
muestral del 3% y el 60% de los encuestados se muestran satisfechos significa que entre
el 57% y el 63% (60% +/- 3%) del total de los empleados de la empresa lo estarn.
Ejemplo 3: si los resultados de una encuesta electoral indicaran que un partido iba a
obtener el 55% de los votos y el error estimado fuera del 3%, se estima que el porcentaje
real de votos estar en el intervalo 52-58% (55% +/- 3%).
p: proporcin de individuos que poseen en la poblacin la caracterstica de estudio. Este
dato es generalmente desconocido y se suele suponer que p=q=0.5 que es la opcin ms
segura.
q: proporcin de individuos que no poseen esa caracterstica, es decir, es 1-p.
n: tamao de la muestra (nmero de encuestas que vamos a hacer).
Altos niveles de confianza y bajo margen de error no significan que la encuesta sea de
mayor confianza o est ms libre de error necesariamente; antes es preciso minimizar la
principal fuente de error que tiene lugar en la recogida de datos. Para calcular el tamao
de la muestra suele utilizarse la siguiente frmula:
Otra frmula para calcular el tamao de la muestra es:

24
n=(N^2 Z^2)/((N-1) e^2+^2 Z^2 ) Donde: n = el tamao de la muestra.
N = tamao de la poblacin.
= Desviacin estndar de la poblacin que, generalmente cuando no se tiene su valor,
suele utilizarse un valor constante de 0,5. Z = Valor obtenido mediante niveles de
confianza. Es un valor constante que, si no se tiene su valor, se lo toma en relacin al
95% de confianza equivale a 1,96 (como ms usual) o en relacin al 99% de confianza
equivale 2,58, valor que queda a criterio del encuestador. e = Lmite aceptable de error
muestral que, generalmente cuando no se tiene su valor, suele utilizarse un valor que
vara entre el 1% (0,01) y 9% (0,09), valor que queda a criterio del encuestador.

La frmula anterior se obtiene de la frmula para calcular la estimacin del intervalo de
confianza para la media:
-Z /n ((N-n)/(N-1)) +Z /n ((N-n)/(N-1))

En donde el error es:
e=Z /n ((N-n)/(N-1))
Elevando al cuadrado el error se tiene: (e)^2=(Z /n ((N-n)/(N-1)))^2 e^2=Z^2 ^2/n
(N-n)/(N-1)
Multiplicando fracciones: e^2= (Z^2 ^2 (N-n))/n(N-1)
Eliminando denominadores: e^2 n(N-1)=Z^2 ^2 (N-n)
Eliminando parntesis: e^2 nN-e^2 n=Z^2 ^2 N-Z^2 ^2 n
Transponiendo n a la izquierda: e^2 nN-e^2 n+Z^2 ^2 n=Z^2 ^2 N
Factor comn de n:
n(e^2 N-e^2+Z^2 ^2 )=Z^2 ^2 N
Despejando n:
n=(Z^2 ^2 N)/(e^2 N-e^2+Z^2 ^2 )
Ordenando se obtiene la frmula para calcular el tamao de la muestra:
n=(N^2 Z^2)/((N-1) e^2+^2 Z^2 )
Ejemplo ilustrativo: Calcular el tamao de la muestra de una poblacin de 500 elementos
con un nivel de confianza del 99%

25
Solucin: Se tiene N=500, para el 99% de confianza Z = 2,58, y como no se tiene los
dems valores se tomar =0,5, y e = 0,05.
Reemplazando valores en la frmula se obtiene:
n=(N^2 Z^2)/((N-1) e^2+^2 Z^2 )
n=(5000,5^2 2,58^2)/((500-1) (0,05)^2+0,5^22,58^2
)=832,05/2,9116=285,77=286
Suponga que se tienen dos poblaciones distintas, la primera con media
1
y desviacin
estndar
1
, y la segunda con media
2
y desviacin estndar
2.
Ms an, se elige
una muestra aleatoria de tamao n
1
de la primera poblacin y una muestra independiente
aleatoria de tamao n
2
de la segunda poblacin; se calcula la media muestral para cada
muestra y la diferencia entre dichas medias. La coleccin de todas esas diferencias se
llama distribucin muestral de las
Ejemplo:Si se tienen dos poblaciones con medias
1
y
2
y varianzas
1
2
y
2
2
,
respectivamente, un estimador puntual de la diferencia entre
1
y
2
est dado por la
estadstica . Por tanto. Para obtener una estimacin puntual de
1
-
2,
se seleccionan dos muestras aleatorias independientes, una de cada poblacin,
de tamao n
1
y n
2
, se calcula la diferencia , de las medias muestrales.
Recordando a la distribucin muestral de diferencia de medias:

Al despejar de esta ecuacin
1
-
2
se tiene:

En el caso en que se desconozcan las varianzas de la poblacin y los tamaos de
muestra sean mayores a 30 se podr utilizar la varianza de la muestra como una
estimacin puntual.
Ejemplo: Se lleva a cabo un experimento en que se comparan dos tipos de motores, A y
B. Se mide el rendimiento en millas por galn de gasolina. Se realizan 50 experimentos
con el motor tipo A y 75 con el motor tipo B. La gasolina que se utiliza y las dems
condiciones se mantienen constantes. El rendimiento promedio de gasolina para el motor
A es de 36 millas por galn y el promedio para el motor B es 24 millas por galn.
Encuentre un intervalo de confianza de 96% sobre la diferencia promedio real para los

26
motores A y B. Suponga que las desviaciones estndar poblacionales son 6 y 8 para los
motores A y B respectivamente.
Solucin:
Es deseable que la diferencia de medias sea positiva por lo que se recomienda restar la
media mayor menos la media menor. En este caso ser la media del motor B menos la
media del motor A.
El valor de z para un nivel de confianza del 96% es de 2.05.

3.43<
B
-
A
<8.57
La interpretacin de este ejemplo sera que con un nivel de confianza del 96% la
diferencia del rendimiento promedio esta entre 3.43 y 8.57 millas por galn a favor del
motor B. Esto quiere decir que el motor B da mas rendimiento promedio que el motor A,
ya que los dos valores del intervalo son positivos.
Una compaa de taxis trata de decidir si comprar neumticos de la marca A o de la B
para su flotilla de taxis. Para estimar la diferencia de las dos marcas, se lleva a cabo un
experimento utilizando 12 de cada marca. Los neumticos se utilizan hasta que se
desgastan, dando como resultado promedio para la marca A 36,300 kilmetros y para la
marca B 38,100 kilmetros. Calcule un intervalo de confianza de 95% para la diferencia
promedio de las dos marcas, si se sabe que las poblaciones se distribuyen de forma
aproximadamente normal con desviacin estndar de 5000 kilmetros para la marca A y
6100 kilmetros para la marca B.
Solucin:

-2662.68<
B
-
A
<6262.67
Grficamente:

27

Como el intervalo contiene el valor "cero", no hay razn para creer que el promedio de
duracin del neumtico de la marca B es mayor al de la marca A, pues el cero nos est
indicando que pueden tener la misma duracin promedio.


BIBLIOGRAFIA
www.ege.fcen.uba.ar/materias/biometria1/files/Clase%2013.pp
http://es.scribd.com/doc/82253086/UNIDAD-IV-PRUEBAS-DE-HIPOTESIS-CON-DOS-
MUESTRAS-Y-VARIAS-MUESTRAS-DE-DATOS-NUMERICOS

You might also like