You are on page 1of 23

1

Muestreo, estadstica
descriptiva, correlacin,
anlisis de varianza
Muestreo
Objetivo: hacer inferencias acerca de una
poblacin de inters.
3
Porque muestrear la poblacin?
Imposibilidad fsica de chequear todos los
tems en la poblacin.
El costo de estudiar todos los elementos en
la poblacin.
Contactar a toda la poblacin
normalmente consume mucho tiempo y
esfuerzo.
La naturaleza destructiva de ciertos
muestreos (costo econmico).
Los resultados del muestreo son
normalmente adecuados.

Objetivo del muestreo
Estimar los parmetros de la poblacin:
Parmetros: promedio, desviacin estndar
Variable
Parmetro
Estadstico
respuesta
muestra
poblacin
Promedio=3,75
Promedio=3,72
2
5
Muestreo probabilstico
Una muestra probabilstica es
aquella seleccionada de manera
tal que el elemento o individuo de
la poblacin tiene la misma
chance de ser incluida en la
muestra.
6
Mtodos de muestreo
Muestreo aleatorio simple: muestra seleccionada
de manera que cada elemento o individuo de la
poblacin tenga las mismas posibilidades de que
se le incluya.

Muestreo aleatorio sistemtico: Los elementos o
individuos de la poblacin se ordenan de alguna
manera. Se selecciona un punto aleatorio de
inicio y posteriormente se elige cada k-simo
miembro de la poblacin.
7
Mtodos de muestreo
Muestreo aleatorio estratificado: La
poblacin se divide en subgrupos
denominados estratos y se selecciona al
azar una muestra de cada estrato.
Muestreo por conglomerados (cluster): La
poblacin se divide en conglomerados a
partir de lmites geogrficos o de otra clase.
Luego se seleccionan los conglomerados al
azar y se toma una muestra aleatoria con
elementos de cada grupo.
8
Mtodos de muestreo
En muestreo no probabilstico inclusion en la
muestra es basada en el juicio de la
persona que selecciona los individuos o
elementos.
El error de muestreo es la diferencia entre el
estadstico de la muestra y su
correspondiente parmetro de la
poblacin.
3
9
Distribucin muestreal del
promedio.
La distribucin muestreal del
promedio es la distribucin de
probabilidad de todos las
posibles promedios de muestras
de un determinado tamao,
seleccionadas desde una
poblacin.
Distribucin muestreal del promedio.
muestra muestra muestra
Promedio
Promedio Promedio
Distribucin
muestreal del
promedio
Es la distribucin de
un estadstico (ej.
promedio) a travs
de un nmero
infinito de muestras.
11
La empresa Tartus tiene siete empleados en produccin
(considerados la poblacin completa). Los salarios por hora
de cada empleado se presentan en la tabla siguiente:
1. Cual es el promedio de la poblacin?
2. Cual es la distribucin muestreal del promedio de una muestra de tamao 2?
3. Cual es el promedio de la distribucin muestreal?
4. Que observaciones se pueden hacer acerca de la poblacin y la distribucin
muestreal ?

Distribucin muestreal del
promedio.
12
Ejemplo:
4
13
Ejemplo
14
Ejemplo
15
Teorema del lmite central
Para una poblacin con media y
varianza
2
la distribucin muestreal de los
promedios de todas las posibles muestras
de tamao n generadas desde la
poblacin sern, aproximadamente,
normalmente distribuidas.
La media de la distribucin muestreal ser
igual a y la varianza igual a
2
/n.
16
5
Cuando usar las distribuciones de z o t
para calcular IC.
Asuma que la poblacin es normal
Se conoce la desviacin estndar
de la poblacin?
Use la distribucin de t Use la distribucin de z
NO SI
Intervalo de confianza para la media
usando la distribucin de t.
Fabricante de neumticos
Investiga la duracin de la
huella de sus neumticos
Muestra de 10 neumticos
despus de 50.000 millas
Media 0,32 pulg. Huella
Desv.est. 0.09 pulg.
Construir IC (95%)
Media de la poblacin 0.3
pulg?


n
s
t X
s
x
n
n 1 , 2 /
a) desconocid es que a (debido t de dist.
la usando I.C. el Calcular
09 . 0
32 . 0
10
: problema el en Dado

=
=
=
o
o
Tabla de distribucin de t de Seleccionar el tamao de muestra
Hay 3 factores que determinan el
tamao de la muestra, ninguno
de los cuales tiene relacin
directa alguna con el tamao
de la poblacin.
El nivel de confianza seleccionado
El mximo error permitido
La variacin de la poblacin
6
Determinacin del tamao de la
muestra.
Para obtener el tamao de la muestra para una
variable:
piloto) muestra (desde muestra la de estndar desviacin la -
definido confianza de nivel al iente correspond z de valor el -
permitido error el -
: donde
2
s
z
E
E
s z
n |
.
|

\
|
=
Se desea determinar la
remuneracin promedio de una
poblacin de miembros de los
concejos de grande ciudades.
El error de estimacin del
promedio es menos que $ 100 con
un 95% de confianza.
Desde un estudio anterior se
determin que la desviacin
estndar fue de $ 1000.
Estimar n

Problema
E, mximo error permitido, is $100
Valor de z para un 95 % de
confianza es 1.96,
s es igua a $1,000.
385
16 . 384
) 6 . 19 (
100 $
000 , 1 $ 96 . 1
2
2
2
=
=
=
|
.
|

\
|
=
|
.
|

\
|
=
E
s z
n
Ejemplo
Se desea estimar el gasto promedio en
electricidad con un error de $ 5 y un nivel de
confianza de 99%.
Estudios anteriores. S=$20
n??


107
5
) 20 )( 58 . 2 (
2
=
|
.
|

\
|
= n
Otro ejemplo
Nmero de muestras necesarias en un
muestreo simple al azar
permitido (error) exactitud de nivel D
muestra la de varianza
2
S
nes observacio de nmero n
: Donde
2
2 2
=
=
=
=
D
s t
n
En condiciones de completa
independencia de las muestras
7
Estimacin de la varianza
variacin de e coeficient CV
rango R
promedio
: donde
y
4
100
*
2
2
2
2
=
=
=
|
.
|

\
|
=
|
.
|

\
|
=
R
s
CV y
s
Ejemplo
Se desea estimar el promedio de P Olsen de
una poblacin de volmenes de suelo
dada, con una probabilidad del 95 % y un
nivel de exactitud de 1,5 mg/kg. El rango de
valores estimados es de 1 a 14 mg/kg.

Desarrollo
Primero se elige un valor de t desde la tabla usando n =10 (valor
arbitrario) gl= 9, p =0,05, t = 2,262

Se calcula la varianza S
2
=( (14-1)/4)
2
= 10,56

D = 1,5 mg/kg

As n = (2,262)
2
10,56/(1,5)
2
= 24

Debido a que n = 24 es mucho mayor que n = 10, se debe hacer el
calculo nuevamente, esta vez obteniendo un valor de t con 23 gl.
= 2,069

n = (2,069)
2
10,56/(1,5)
2
= 20

Tabla de t en Excel (dos colas)
=DISTR.T.INV(prob,gl)
=DISTR.T.INV(0.05,9)
=2.26215889
8
Tabla de t
n-1 0.2 0.1 0.05 0.01
9 1.383 1.833 2.262 3.250
10 1.372 1.812 2.228 3.169
11 1.363 1.796 2.201 3.106
12 1.356 1.782 2.179 3.055
13 1.350 1.771 2.160 3.012
14 1.345 1.761 2.145 2.977
15 1.341 1.753 2.131 2.947
16 1.337 1.746 2.120 2.921
17 1.333 1.740 2.110 2.898
18 1.330 1.734 2.101 2.878
19 1.328 1.729 2.093 2.861
20 1.325 1.725 2.086 2.845
21 1.323 1.721 2.080 2.831
22 1.321 1.717 2.074 2.819
23 1.319 1.714 2.069 2.807
24 1.318 1.711 2.064 2.797
25 1.316 1.708 2.060 2.787
nivel de probabilidad
Clculo de n en Excel
n df t0.05
n=s
2
*t
2
/d
2
10 9 2.262 24
11 10 2.228 23
12 11 2.201 23
13 12 2.179 22
14 13 2.160 22
15 14 2.145 22
16 15 2.131 21
17 16 2.120 21
18 17 2.110 21
19 18 2.101 21
20 19 2.093 21
21 20 2.086 20
22 21 2.080 20
23 22 2.074 20
24 23 2.069 20
25 24 2.064 20
Efecto del nivel de exactitud
requerido sobre el n.
0
100
200
300
400
500
600
700
800
0 0.5 1 1.5 2 2.5 3
Exactitud (ppm)
n
n=21
Determinacin del nmero de muestras
en funcin del CV.
y = 0.0381x
2
+ 0.0098x + 2.5832
R
2
= 0.9997
0
20
40
60
80
100
120
140
160
0 10 20 30 40 50 60 70
CV (%)
n

9
Estadstica descriptiva
Tablas de frecuencia e
histogramas.
Tests de normalidad.
Resumen de estadsticas.
Medidas de dispersin.
Medidas de forma.

Datos muestreales
obs Peso estatura
1 61 162
2 56 155
3 59 180
4 96 196
5 93 192
6 78 156
7 64 191
8 56 191
9 84 178
10 96 175
11 67 184
12 88 159
13 85 161
14 98 190
15 55 167
16 53 159
17 61 176
18 62 188
19 52 168
20 77 150
21 78 167
22 50 152
23 78 177
24 72 191
25 53 176
26 59 180
27 61 194
28 60 178
29 80 151
Histograma
Clase Frecuencia % acumulado
4.80 1 2.33%
4.97 0 2.33%
5.13 7 18.60%
5.30 20 65.12%
5.47 8 83.72%
5.63 6 97.67%
> 5.63 1 100.00%
Histograma
0
5
10
15
20
25
4.80 4.97 5.13 5.30 5.47 5.63 >
5.63
Clase
F
r
e
c
u
e
n
c
i
a
.00%
20.00%
40.00%
60.00%
80.00%
100.00%
120.00%
Frecuencia
% acumulado
Valores extremos y atpicos (outliers)
Q1=percentil 25
Q3=percentil 75
H=Q3-Q1 (rango inter cuartil)


Un valor atpico se define como cualquier valor menor que Q1-1,5*H o mayor
que Q3+1,5*H

Un valor extremo se define como cualquier valor menor que Q1-3*H o mayor
que Q3+3*H

10
Pruebas de normalidad
Grfico de cuantiles: Se grafican los
cuantiles de la muestra contra los de la
distribucin normal. Linea recta si es normal.
Test de Normalidad en distintos programas
estadsticos.
H
0
: Normal
H
a
: no normal
Rechazar H
0
cuando P < 0.05
Prueba de normalidad en SAS
2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4
mo
-2
-1
0
1
2
N
o
r
m
a
l D
is
tr
ib
u
tio
n
QQ Plot
Resumen de estadsticas

=
=
n
i
i
x
n
m
1
1
Promedio
11
Resumen de estadsticas
2
) (
1
2 2
2
1
+
+
+
=
=
n n
n
x x
M
x M n es impar
n es par
Mediana
Resumen de estadsticas
( )
1
2
2

n
y y
s
n
i
i
Varianza
Estadstica descriptiva
inferior confianza de Lmite
superior confianza de Lmite
variacin de e Coeficient
estndar Error
* li
* y ls
100 *
025 . 0
025 . 0
2
y
y
y
s t y
s t
y
s
CV
n
s
s
=
+ =
=
=
Estadstica descriptiva
2
3
1
) (
1
.
o
m x
n
Skewness Coef
n
i
i

=
Asimetra
12
Sesgo (Skewness)
Sesgada a la derecha: Pocos valores
altos
m > M
Coef. de asimetra > 0
Sesgada a la izquierda: pocos valores
a la izquierda.
m < M
Coef. de asimetra < 0

Curtosis
La curtosis representa la elevacin o
achatamiento de una distribucin,
comparada con la distribucin
normal.
Una curtosis positiva indica una
distribucin relativamente elevada
Una curtosis negativa indica una
distribucin relativamente plana.

Ejemplos
En Excel
En SAS
Grficos de dispersin (Scatterplots)
Permiten establecer visualmente
la relacin entre dos variables.
Identificacin de outliers
No dicen nada respecto al grado
de relacin.
13
Relacin entre variables
4.8 5.0 5.2 5.4 5.6 5.8
4
6
8
10
12
14
P

O
ls
e
n
pH
2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4 3.6
20
30
40
50
60
70
80
N

d
is
p
o
n
ib
le
Materia orgnica
Correlacin
Relacin entre variables puede ser:
Positiva
Negativa
Sin correlacin
Coeficiente de correlacin:
Grado y tipo de correlacin entre variables
Vara entre 1 y 1
A mayor valor absoluto > correlacin
Valor depende del n
Fijarse en el nivel de significancia ms que en
el valor absoluto.

Coeficiente de correlacin de
Pearson.
y x
n
i
i i
s s
y y x x
n
r
-

=

=
1
) )( (
1
Numerador: Covarianza
Prueba de hiptesis para
correlacin
H
0
: No existe correlacin entre las dos variables (=0)
H
a
: Existe correlacin entre las dos variables ( 0)

Rechazar H
0
y aceptar H
a
cuando P <
14
Anlisis de correlacin
Proc Corr en SAS (ventaja: informa los valores de P).
Coeficiente de correlacin en Excel.
Correlation en EZAnalyze
Matriz de correlacin en Excel
X Y pH MO N P K Cota
X 1
Y 0.01 1
pH 0.09 -0.07 1
MO -0.06 -0.48 -0.06 1
N -0.26 -0.71 -0.09 0.71 1
P 0.22 -0.24 -0.09 0.35 0.37 1
K 0.04 -0.41 -0.03 0.45 0.54 0.56 1
Cota -0.18 -0.87 0.05 0.54 0.66 0.12 0.32 1
Ejemplos de comparacin de
poblaciones.
Hay alguna diferencia en los valores de las
casas vendidas por corredores de
propiedades damas y varones en Santiago?
Hay diferencia entre el nmero promedio de
defectos en productos fabricados en los
turnos de maana y tarde?
Hay diferencia entre los das de ausencia de
trabajadores jvenes (< 21 aos) y mayores
(>60) en la industria del retail?
Hay diferencias salariales entre los Ing. Com.
graduados de la USM y aquellos graduados
en la UChile?
Mejora la productividad de los trabajadores
cuando se pone msica ambiental?

15
Comparar dos medias de poblaciones
No se requiere ningn supuesto respecto a la forma de las
distribuciones.
Muestras son de poblaciones independientes.
Formula de calculo de z es:


2
2
2
1
2
1
2 1
2 1
conocidas son y si o
30 muestra de tamao si Usar
n n
X X
z
o o
o o
+

=
>
2
2
2
1
2
1
2 1
2 1
as desconocid son y si y
30 muestra de tamao si Usar
n
s
n
s
X X
z
+

=
>
o o
Ejemplo

Se instal un nuevo sistema de scanner (U-scan) en
un supermercado.
Se desea saber si los clientes terminan sus compras
ms rpido que con el sistema de scanner estndar
(S-scan).
Se midi el tiempo desde que el cliente entra a la caja
hasta que las bolsas estn en su carro. Se incluy el
tiempo de espera.


Ejemplo 1
Paso 1: Establecer la hiptesis nula y la alternativa.
H
0
:
S

U



H
1
:
S
>
U

Paso 2: Establecer el nivel de significancia
en este caso 0.01

Paso 3: Encontrar el estadstico apropiado.
En este caos n> 30 en ambos casos, se puede usar
la distribucin de z como estadstico.
Ejemplo 1
Paso 4: Establecer la regla de decisin.
Rechazar H
0
si Z > Z
o

Z > 2.33
(Excel=DISTR.NORM.ESTAND.INV(0.99)=2.33)

16
Ejemplo
Paso 5: calcular el valor de z y decidir
13 . 3
064 . 0
2 . 0
100
30 . 0
50
40 . 0
3 . 5 5 . 5
2 2
2 2
= =
+

=
+

=
u
u
s
s
u s
n n
X X
z
o o
3.13>2.33. La decisin es rechazar la hiptesis
nula. La diferencia de 0.2 minutos es
suficientemente grande para haber ocurrido por
azar. Se concluye que el mtodo U-Scan es ms
rpido.
Comparacin de medias de poblacin con
desviacin estndar desconocida, bajo el supuesto
de igual varianza (Pooled t-test)
Se usa la distribucin de t como
estadstico si una de las muestras tiene <
30 observaciones.
Se requieren los siguientes supuestos:
1. Ambas poblaciones deben ser normales
2. Poblaciones deben tener igual desviacin
estndar (o igual varianza).
3. Muestras vienen de poblaciones
independientes.

Pooled t test
Dos pasos para encontrar t.

1. Ponderar las
desviaciones estndar de
las muestras.
2. Usar la desviacin
estndar ponderada en
la muestra.


2
) 1 ( ) 1 (
2 1
2
2 2
2
1 1 2
+
+
=
n n
s n s n
s
p
|
|
.
|

\
|
+

=
2 1
2
2 1
1 1
n n
s
X X
t
p

Empresa que fabrica cortadoras de pasto.
Existen dos mtodos para montar los
motores (Welles y Atkins).
La pregunta es si existen diferencias en el
tiempo de montaje?
Prueba se hizo con 5 empleados para el
mtodo Welles y 6 empleados para el
Atkins.
Se midi el tiempo de montaje.

Ejemplo (the Pooled t-test)
17
Paso 1: Establecer hiptesis nula y alternativa.
H
0
:
1
=
2



H
1
:
1

2

Paso 2: Establecer el nivel de significancia=10% dos colas (0.1).

Paso 3: Encontrar el test estadstico apropiado.
Debido a que no se conocen las desviaciones estndar,
pero se asumen iguales, se usa el pooled t-test.
Ejemplo (Pooled t-test)
Paso 4: Establecer la regla de decisin.
Rechazar H
0
si t > t
o/2,n1+n2-2
o t < - t
o/2,n1+n2-2

t > t
.05,9
o t < - t
.05,9
t > 1.833

o t < - 1.833

(en Excel=DISTR.T.INV(0.1,9)=1.833; dos colas)

Ejemplo (Pooled t-test)
Paso 5: calcular el valor de t y tomar una decisin.
(a) Calcular la desviacin estndar de las muestras
Ejemplo (Pooled t-test)
(b) Calcular la desviacin estndar ponderada
Paso 5: calcular el valor de t y tomar una decisin
Ejemplo (Pooled t-test)
-0.662

La decisin es no rechazar la
hiptesis nula, debido a que
0.662 cae en la regin que va
de -1.833 a 1.833.
No hay diferencia entre los
mtodos de montaje.

18
Ejemplo (Pooled t-test)
Prueba t para dos muestras suponiendo varianzas iguales
welles atkins
Media 4 5
Varianza 8.5 4.4
Observaciones 5 6
Varianza agrupada 6.22222222
Diferencia hipottica de las medias 0
Grados de libertad 9
Estadstico t -0.66205112
P(T<=t) una cola 0.26226318
Valor crtico de t (una cola) 1.38302874
P(T<=t) dos colas 0.52452635
Valor crtico de t (dos colas) 1.83311292
Comparar medias de poblaciones con distinta
desviacin estndar.
Las desviaciones estndar de
las muestras son S
1
y S
2
,
respectivamente y se usan
en reemplazo de las
desviaciones estndar de
las poblaciones.

Los grados de libertad se
ajustan a la baja a travs
de la formula. El efecto de
reducir los g.l. es que se
requerir un mayor valor
de t para rechazar la
hiptesis nula.
Ejemplo con varianzas desiguales
Prueba t para dos muestras suponiendo varianzas desiguales
welles atkins
Media 4 5
Varianza 8.5 4.4
Observaciones 5 6
Diferencia hipottica de las medias 0
Grados de libertad 7
Estadstico t -0.64106076
P(T<=t) una cola 0.2709471
Valor crtico de t (una cola) 1.41492393
P(T<=t) dos colas 0.54189419
Valor crtico de t (dos colas) 1.8945786
Prueba de hiptesis para dos medias:
muestras dependientes (pareadas).
Muestras dependientes son aquellas que son
pareadas o relacionadas de alguna manera.

Ejemplos:
Si deseara comprar un auto, uno buscara el
mismo modelo de auto en dos (o ms)
concesionarios y comparara los precios.
Si deseara medir la efectividad de una nueva
dieta uno pesara a las personas en dieta al
principio y al final de la dieta.

19
Prueba de hiptesis para muestras
pareadas o dependientes.
Cuando las muestras sean dependientes o pareadas
usar la siguiente frmula:




t
d
s n
d
=
/
d
Donde:
es el promedio de las diferencias
s
d
es la desviacin estndar de las diferencias.
n es el nmero de pares (diferencias)
Un banco desea comparar las
tasaciones de varias
propiedades hechas por
dos tasadores (Schadek
Bowyer).
El banco selecciona diez
propiedades y las hace
tasar por parte de los dos
tasadores.
Resultados se expresan en
miles de dlares.
Al 5% de significancia, se
puede concluir que existen
diferencias entre los valores
de ambos tasadores?

Ejemplo
Paso 1: Establecer las hiptesis nula y alternativa
H
0
:
d
= 0


H
1
:
d
0

Paso 2: Establecer el nivel de significancia. 5%, dos colas(0.05)
en este caso.

Paso 3: Encontrar la prueba estadstica apropiada.
Prueba de t.
Ejemplo
Paso 4: Establecer la regla de
decisin.
Rechazar H
0
si
t > t
o/2, n-1
o t < - t
o/2,n-1

t > t
.025,9
0 t < - t
.025, 9

t > 2.262 o t < -2.262


Ejemplo
=DISTR.T.INV(0.05,9)=2.262
20
Paso 5: calcular el valor de t y tomar una decisin



El valor calculado de t
es mayor que el valor
crtico (2.262), por lo
tanto la decisin es
rechazar la hiptesis
nula. Se concluye que
hay diferencia entre las
tasaciones de las casas.
Ejemplo Resultado en Excel.
Casa Schadek Bowyer Prueba t para medias de dos muestras emparejadas
1 235 228
2 210 205 Schadek Bowyer
3 231 219 Media 226.8 222.2
4 242 240 Varianza 208.844444 204.177778
5 205 198 Observaciones 10 10
6 230 223 Coeficiente de correlacin de Pearson 0.95314381
7 231 227 Diferencia hipottica de las medias 0
8 210 215 Grados de libertad 9
9 225 222 Estadstico t 3.30450068
10 249 245 P(T<=t) una cola 0.00458195
Valor crtico de t (una cola) 1.83311292
P(T<=t) dos colas 0.0091639
Valor crtico de t (dos colas) 2.26215716
Caractersticas de la distribucin de F
Existe una familia de
distribuciones F.
Cada miembro de la familia es
determinado por dos
parmetros: los grados de
libertad del numerador y los
grados de libertad del
denominador.
Cada miembro de F no puede
ser negativo y es una
distribucin continua.
La distribucin de F es sesgada
a la derecha.
Sus valores varan entre 0 e
cuando F la curva se hace
asinttica al eje X.


Comparar dos varianzas de
poblaciones

La distribucin de F es usada para probar la hiptesis de que la varianza
de una poblacin normal es igual a la varianza de otra poblacin
normal.
Ejemplos:
Dos mquinas productoras de acero se programan para producir
barras de acero del mismo largo. Se debe asegurar que adems de
producir el mismo largo de barras, estas tengan una variacin similar.
La tasa promedio de retorno en dos tipos de acciones comunes
puede ser similar, pero podra existir mayor variacin en la tasa de
retorno en una de ellas. Por ejemplo, una muestra de 10 acciones de
tecnologa y 10 de servicios pudieran tener la mima tasa de retorno,
sin embargo, podra existir mayor variacin en las primeras.
Un estudio del Dpto. de Marketing de un peridico importante
encontr que hombres y mujeres gastan ms o menos el mismo
tiempo leyendo el diario. Sin embargo, el mismo estudio determin
que la varianza en el tiempo de lectura fue aproximadamente dos
veces ms grande en hombres que en mujeres.

21
Prueba para varianzas iguales
Para conducir la prueba, se seleccionan muestras de tamao n1 y n2
para las poblaciones 1 y 2, respectivamente. La prueba estadstica F se
Define como:
Ejemplo
Una compaa de transfers ofrece servicios desde
el aeropuerto hasta el centro de la ciudad.
El Gerente de la compaa considera dos rutas:
una va Costanera Norte y la otra va Alameda.
Se desea estudiar el tiempo de viaje para cada
ruta y comparar los resultados.
Se recolectaron datos del tiempo de viaje en
minutos.
Usando un nivel de significancia de un 5%, existe
diferencia en la variacin en los tiempos de viaje
en ambas rutas.

Paso 1: Las hiptesis son:
H
0
:
1
2
=
1
2



H
1
:
1
2

1
2



Paso 2: El nivel de significancia es .05.

Paso 3: La prueba estadstica es la
distribucin de F
Ejemplo
Paso 4: Establecer la regla de decisin.
Rechazar H
0
si F > F
o,v1,v2

F > F
.05,7-1,8-1

F > F
.05,6,7


Ejemplo
22
La decisin es rechazar la hiptesis nula, debido a que el valor de F calculado
(4.23) es mayor que el valor crtico (3.87).
Se concluye que existe una diferencia significativa de la variacin de los
tiempos de viaje en las dos rutas.
Paso 5: Calcular el valor de F y tomar una decisin
Ejemplo
Alameda
Costanera
Ejemplo
Tipos de error Tipos de error en prueba de hiptesis
Error tipo I:
Definido como la probabilidad de rechazar la
hiptesis nula cuando esta es verdadera.
Se denota con la letra griega o
Se conoce tambin como nivel de significancia.

Error tipo II:
Definido como la probabilidad de aceptar la
hiptesis nula cuando esta es en realidad falsa.
Se denota con la letra griega
23
p-Value
p-VALUE probabilidad de observar un valor
muestreal tan o ms extremo que el
observado, si la hiptesis nula es verdadera.

Se puede comparar el p-value con el nivel
de significancia (o).

Si p-value < nivel de significancia, se
rechaza H
0
, de otra forma H
0
no se rechaza.

Partes de una distribucin en una
prueba de hiptesis
interpretacin p-value < o?
(a) .10, alguna evidencia que H
0
no es verdadera.

(b) .05, fuerte evidencia que H
0
no es verdadera.

(c) .01, muy fuerte evidencia que H
0
no es
verdadera.

(d) .001, evidencia extremadamente fuerte que H
0

no es verdadera.