You are on page 1of 13

Pgina 1 de 13

CAPTULO 7: INFERENCIA PARA PROPORCIONES Y MEDIAS


En este captulo entraremos al final del ciclo del mtodo cientfico, usando la informacin de la
muestra para generalizar y llegar a conclusiones acerca de la poblacin de inters.
Recordemos algunas definiciones:
Parmetro es una medida de resumen numrica que se calculara usando todas las
unidades de la poblacin. Es un nmero fijo. Generalmente no lo conocemos.
Estadstica es una medida de resumen numrica que se calcula de las unidades de la
muestra. El valor de la estadstica se conoce cuando tomamos una muestra, pero varia de
muestra en muestra  variacin muestral.
Inferencia estadstica: es el proceso de sacar conclusiones acerca de la poblacin basados
en la informacin de una muestra de esa poblacin.
Objetivos de la inferencia: estimacin de parmetros, intervalos de confianza y docimasia,
prueba o test de hiptesis (o prueba de significacin estadstica).
La estimacin de parmetros consiste en el clculo de estadsticas en muestras, con el fin
de obtener informacin sobre el valor de los parmetros de la poblacin. Esta induccin se
basa en la teora de probabilidades y slo es posible cuando se conoce la conducta o
"distribucin muestral" de las estadsticas.
La docimasia de hiptesis consiste en conocer la probabilidad de ocurrencia, bajo la
hiptesis nula, del resultado obtenido en la investigacin, basndose en la distribucin
muestral de la estadstica utilizada para medir tal resultado.

Inferencia Simple para Proporciones


Tomando decisiones acerca de la proporcin de una poblacin
Primero revisemos el caso donde lo que nos interesa es investigar sobre una proporcin de
una poblacin.

Ejemplo
Embarazo adolescente
En el ao 2000, el 16% de las embarazadas era en adolescentes menores de 20 aos de
edad, Habr aumentado esta cifra?
Escriba las hiptesis nula y alternativa que usara para probar la aseveracin anterior. Las
hiptesis deben ser expresadas en trminos del parmetro P, la proporcin de inters en la
poblacin.
Hiptesis:

H0 :

versus

H1 :

Ac, nuestro parmetro de inters es el porcentaje de embarazadas que son adolescentes


menores de 20 aos, es decir, P=0.16.

Pgina 2 de 13
Para resolver, se considera una muestra de 704 partos ocurridos en el Hospital de Talca,
donde 132 de ellos corresponden a embarazadas que son Adolescentes menores de 20 aos
de edad.
Con la informacin anterior, es posible determinar el porcentaje observado en la muestra de
los embarazos que corresponden a Adolescentes menores de 20 aos de edad, siendo
132
=
p
= 0,1875 .
704
Para la obtencin del valor-p, se requiere conocer la distribucin probabilstica de la
:
proporcin muestral p

, la proporcin muestral
Distribucin muestral de p
Si P representa la proporcin de elementos en una poblacin con alguna caracterstica.
Tomamos una muestra aleatoria simple de tamao n de esa poblacin y si n es
suficientemente grande (cuando nP 5 y n(1 P ) 5 ) , entonces la distribucin de la

es aproximadamente normal:
proporcin muestral p

~
& N P ,
p

P(1 - P )
entonces la proporcin muestral estandarizada es:

Z=

- P
p
P (1 P )
n

& N(0, 1)
~

Test Z para una proporcin en la poblacin


Al docimar una hiptesis acerca del parmetro en la poblacin P, la hiptesis nula es
H0 : P = p0 , donde p0 es un valor hipottico de P.
Supuestos: Se recomienda usar este test cuando los datos provienen de una muestra
aleatoria de tamao n, donde n satisface que np 0 y n(1 p0 ) es mayor o igual a 5.
Nuestra decisin acerca del parmetro P estar basada en el valor de la proporcin
muestral estandarizada, la cual es:

Z obs =

p0
p
p0 (1 p0 )
n

Este score o puntaje z es el test estadstico, y su distribucin bajo H0 es


aproximadamente N(0,1) . Notar que el test estadstico no depende de la hiptesis

alternativa.
Calculamos el valor-p del test, el cual depende de la direccin de la hiptesis alternativa:

Pgina 3 de 13

Test Unilateral, cola


superior

Test Unilateral, cola


inferior

Si H1 : P > p0 , entonces el
valor-p es P(Z > z obs ) es el

Si H1 : P < p0 , entonces el
valor-p es P(Z < z obs ) es el

rea a la derecha del test


estadstico observado bajo
H0 .

rea a la izquierda del test


estadstico observado bajo
H0 .

Test Bilateral

Si

H1 : P p0 , entonces el

valor-p

es

2P(Z > z obs ) el

rea afuera de las dos colas


del test estadstico observado
bajo H0 .
N(0,1)

N(0,1)

N(0,1)

p-value
2
p-value

Z OBS

p-value
2

p-value

-ZOBS

+ZOBS

Z OBS

Decisin: Si el valor-p es menor o igual al nivel de significacin rechazamos H 0 .

En nuestro ejemplo:
Hiptesis:

H0 : P = 0,16
H1 : P > 0,16
El Test Estadstico Observado est dado por:

Z obs =

p0
p
p0 (1 p0 )
n

0,1875 0,16
0,16 ( 1 0,16 )
704

= 1,99

La direccin del extremo es hacia el lado derecho, luego el valor-p:

Valor p = P [ Z > 1,99 ] = 1 P [ Z 1,99 ] = 1 0,9767 = 0,0233


Decisin:
El valor-p result ser del 2,33%, cuyo valor es menor al nivel de significacin del 5%,
luego, existe evidencia para rechazar la H0 .
Conclusin:
Por lo anterior, se concluye que ha aumentado el porcentaje de embarazadas que son
Adolescentes menores de 20 aos de edad.

Pgina 4 de 13
Inferencia Simple para Medias
Tomando decisiones acerca de la media de una poblacin
Ahora veremos el caso donde lo que nos interesa es investigar sobre la media de una
poblacin.

 Ejemplo

Monxido de Carbono
La
Comisin
Federal
de
Comercio
(Federal
Trade
Commission
http://www.ftc.gov/bcp/menu-tobac.htm) de Estados Unidos clasifica anualmente las
variedades de cigarrillos segn su contenido de alquitrn, nicotina y monxido de carbono.
Se sabe que estas tres sustancias son peligrosas para la salud de los fumadores. Estudios
anteriores han revelado que los incrementos en el contenido de alquitrn y nicotina de un
cigarrillo van acompaados por un incremento en el monxido de carbono emitido en el
humo de cigarrillo.
Sea = media de monxido de carbono en la poblacin de todos los paquetes de cigarrillos.
En el pasado esa media ha sido 15 mg, con una desviacin estndar de 4,8 mg y
queremos saber si la media actual es menor que la media antigua de 15 mg.

Escriba las hiptesis nula y alternativa que usara para probar la aseveracin anterior. Las
hiptesis deben ser expresadas en trminos del parmetro , la media de la poblacin de
inters.
Hiptesis:

H0 :

versus

H1 :

Ac, nuestro parmetro de inters es la media de monxido de carbono en la poblacin de


todos los paquetes de cigarrillos.
Para resolver, se requiere una muestra, la cual se describe a continuacin:
La base de datos contiene los datos sobre monxido de carbono (en miligramos) en una
muestra de 25 marcas de cigarrillos (con filtro).
MARCA
Alpine
Benson & Hedges
Bull Dirham
Camel Lights
Carlton
Chesterfield
Golden Lights
Kent
Kool
L&M
Lark Lights
Marlboro
Merit

CO
13,6
16,6
23,5
10,2
5,4
15,0
9,0
12,3
16,3
15,4
13,0
14,4
10,0

MARCA
Multifilter
Newport Lights
Now
Old Gold
Pall Mall Lights
Raleigh
Salem Ultra
Tareyton
True
Viceroy Rich Lights
Virginia Slims
Winston Lights

CO
10,2
9,5
1,5
18,5
12,6
17,5
4,9
15,9
8,5
10,6
13,9
14,9

Pgina 5 de 13

40%

Porcentaje

30%

20%

10%

10

15

20

25

Monxido de Carbono (mg)

Estadsticos descriptivos

N
CO
N vlido (segn lista)

Media
12.528

25
25

Desv.
tp.
4.7397

Segn la informacin proporcionada, se tiene:

n = 25

x = 12,528

s = 4,7397

Para la obtencin del valor-p, se requiere conocer la distribucin probabilstica del promedio
muestral x :
Distribucin muestral del x , el promedio muestral

Si tomamos una muestra aleatoria simple de tamao n de una poblacin con media
desviacin estndar , donde es conocida, y ...

...si la poblacin original distribuye normal,

x ~ N ,

Z=

~ N (0,1)

...si la poblacin original no es necesariamente normal, pero el tamao muestral es


suficientemente grande,


Z=
es aprox. N (0,1) .
x es aprox. N ,
(TCL)


Pgina 6 de 13
Test Z para la media de una poblacin con conocida

Al docimar una hiptesis acerca de la media poblacional

, la hiptesis nula es

H0 : = 0 , donde 0 es un valor hipottico de .

Asumimos que los datos provienen de una muestra aleatoria de tamao n, de una
poblacin con distribucin Normal con desviacin estndar conocida. El supuesto de
normalidad no es crucial si el tamao de la muestra es grande.

Nuestra decisin acerca de


estandarizada

estar basada en

el valor de la media muestral

x , la cual es:
Z obs =

x 0

Este score o puntaje z es el test estadstico y su distribucin bajo H 0 es


aproximadamente N ( 0,1) . Notar que el test estadstico no depende de la hiptesis
alternativa

Calculamos el valor-p del test, el cual depende de la direccin de la hiptesis


alternativa:

Test Unilateral, cola


superior

Test Unilateral, cola


inferior

Si H1 : > 0 , entonces el

Si H1 : < 0 , entonces el

valor-p es P(Z > z obs ) es el

valor-p es P(Z < z obs ) es el

rea a la derecha del test


estadstico observado bajo
H0 .

rea a la izquierda del test


estadstico observado bajo
H0 .

Test Bilateral

Si

H1 : 0 , entonces el

valor-p

es

2P(Z > z obs ) el

rea afuera de las dos colas


del test estadstico observado
bajo H0 .
N(0,1)

N(0,1)

N(0,1)
p-value
2
p-value

Z OBS

p-value
2

p-value

-ZOBS

+ZOBS

Z OBS

Decisin: Si el valor-p es menor o igual al nivel de significacin se rechaza H0 .

En nuestro ejemplo:
Hiptesis:

H0 : = 15
H1 : < 15

Pgina 7 de 13
El Test Estadstico Observado est dado por:

Z obs =

x 0

12,528 15
= 2,58
4,8
25

La direccin del extremo es hacia el lado izquierdo, luego el valor-p:

Valor p = P [ Z < 2,58 ] = 0,0049

Decisin:
El valor-p result ser el 0,49%, cuyo valor es menor al nivel de significacin del 5%, luego,
existe evidencia para rechazar la H 0 .
Conclusin:
Por lo anterior, se concluye que la media actual de monxido de carbono en la poblacin de
todos los paquetes de cigarrillos es inferior a 15 mg.

Qu ocurre si

es desconocida?

El clculo del error estndar del promedio muestral incluye a , pero casi nunca vamos a
conocer la variabilidad en la poblacin en estudio. Cuando se desconoce el del universo, el
error estndar del promedio debe calcularse a partir de la desviacin estndar de la
muestra:

sx =

s
n

En este caso ya no es lcito trabajar con la distribucin normal y la variable normal estndar,

z=

x
n

sino que se trabajar con la variable t de Student:

t=

x x
=
sx
s n

Esta variable t sigue una distribucin t de Student con (n-1) grados de libertad.

Pgina 8 de 13
Propiedades de la distribucin t de Student

N(0,1)
t(15)
t(3)

Los valores de t dependen del nmero de grados de libertad, los que se determinan a partir
del nmero usado en el denominador para el clculo de la desviacin estndar (s) es decir
(n-1).

La funcin de densidad de la distribucin t de Student tiene forma de campana


simtrica, similar a la distribucin normal N(0,1).

Es un poco ms chata y tiene colas ms pesadas que la N(0,1).

Cuando el tamao de la muestra aumenta, la distribucin t de Student se aproxima a la


N(0,1).

Pgina 9 de 13
t(df)

Area =

Tabla: Percentiles de la distribucin t de Student


gl
1
2
3
4
5

t 0.60
0.325
0.289
0.277
0.271
0.267

t 0.70
0.727
0.617
0.584
0.569
0.559

t 0.80
1.376
1.061
0.978
0.941
0.920

t 0.90
3.078
1.885
1.638
1.533
1.476

t 0.95
6.314
2.920
2.353
2.132
2.015

t 0.975
12.706
4.303
3.182
2.776
2.571

t 0.99
31.821
6.965
4.541
3.747
3.365

t 0.995
63.657
9.925
5.841
4.604
4.032

6
7
8
9
10

0.265
0.263
0.262
0.261
0.260

0.553
0.549
0.546
0.543
0.542

0.906
0.896
0.889
0.883
0.879

1.440
1.415
1.397
1.383
1.372

1.943
1.895
1.860
1.833
1.812

2.447
2.365
2.306
2.262
2.228

3.143
2.998
2.896
2.821
2.764

3.657
3.925
3.841
3.604
3.169

11
12
13
14
15

0.260
0.259
0.259
0.258
0.258

0.540
0.539
0.538
0.537
0.536

0.876
0.873
0.870
0.868
0.866

1.363
1.356
1.350
1.345
1.341

1.796
1.782
1.771
1.761
1.753

2.201
2.179
2.160
2.145
2.131

2.718
2.681
2.650
2.624
2.602

3.106
3.055
3.012
2.977
2.947

16
17
18
19
20

0.258
0.257
0.257
0.257
0.257

0.535
0.534
0.534
0.533
0.533

0.865
0.863
0.862
0.861
0.860

1.337
1.333
1.330
1.328
1.325

1.746
1.740
1.734
1.729
1.725

2.120
2.110
2.101
2.093
2.086

2.583
2.567
2.552
2.539
2.528

2.921
2.898
2.878
2.861
2.845

21
22
23
24
25

0.257
0.256
0.256
0.256
0.256

0.532
0.532
0.532
0.531
0.531

0.859
0.858
0.858
0.857
0.856

1.323
1.321
1.319
1.318
1.316

1.721
1.717
1.714
1.711
1.708

2.080
2.074
2.069
2.064
2.060

2.518
2.508
2.500
2.492
2.485

2.831
2.819
2.807
2.797
2.787

26
27
28
29
30

0.256
0.256
0.256
0.256
0.256

0.531
0.531
0.530
0.530
0.530

0.856
0.855
0.855
0.854
0.854

1.315
1.314
1.313
1.311
1.310

1.706
1.703
1.701
1.699
1.697

2.056
2.052
2.048
2.045
2.042

2.479
2.473
2.467
2.462
2.457

2.779
2.771
2.763
2.756
2.750

40
60
120

0.255
0.254
0.254
0.253
- t 0.40

0.529
0.527
0.526
0.524
- t 0.30

0.851
0.848
0.845
0.842
- t 0.20

1.303
1.296
1.289
1.282
- t 0.10

1.684
1.671
1.658
1.645
- t 0.05

2.021
2.000
1.980
1.960
- t 0.025

2.423
2.390
2.358
2.326
- t 0.01

2.704
2.660
2.617
2.576
- t 0.005

gl

Pgina 10 de 13

 Ejemplo
Uso de la Tabla t.

a) Encuentre el percentil 99 de la distribucin t con 4 gl: t.99(4):


b) Encuentre el percentil 10 de la distribucin t con 30 gl: t.10(30):
c) Encuentre el percentil 95 de la distribucin t con

gl:

Se observa, por ejemplo, que el percentil 97,5 que en la curva normal corresponde a un valor
de
z = 1,96, en la distribucin de t para 24 grados de libertad corresponde a un t de 2,064.
Para n infinito la distribucin t de Student es igual a la normal, pero en la prctica cuando el
nmero de observaciones es superior a 30, los valores de z y t ya son tan parecidos que se
puede utilizar como aproximacin, la distribucin normal.

Test t simple para la media de una poblacin con

desconocida.

Estamos interesados en docimar la hiptesis acerca de la media de una poblacin

. La hiptesis nula es H0 : = 0 donde 0 es un valor hipottico para . La


hiptesis alternativa da la direccin del test.

Se asume que los datos provienen de una muestra aleatoria de tamao n de una
El
poblacin con distribucin Normal con desviacin estndar desconocida.
supuesto de normalidad no es crucial si el tamao de la muestra es grande.

Nuestra decisin acerca de


estandarizada x , el cual es

ser en base al valor del promedio muestral

t obs =

x 0
.
s
n

Este es el test estadstico y su distribucin bajo H0 , es una distribucin t con n-1 grados
de libertad.

Pgina 11 de 13

El valor-p del test, depende de la hiptesis alternativa:


Test Unilateral, cola
superior

Test Unilateral, cola


inferior

Si H1 : > 0 , entonces el
valor-p es P(t > t obs ) es el

Si H1 : < 0 , entonces el
valor-p es P(t < t obs ) es el

rea a la derecha del test


estadstico observado bajo
H0 .

rea a la izquierda del test


estadstico observado bajo
H0 .

Test Bilateral

Si

H1 : 0 , entonces el

valor-p es 2P(t > t obs ) el rea


afuera de las dos colas del
test estadstico observado
bajo H0 .

t(n-1)
t(n-1)
t(n-1)

p-value
2

p-value
2

p-value
p-value

TOBS

TOBS T

-TOBS

+TOBS

Decisin: Si el valor-p es menor que el nivel de significancia entonces rechazamos H0 .

Revisin de supuestos del test:


Este test de hiptesis asume que los datos provienen de una muestra aleatoria de tamao n
de una poblacin con distribucin Normal con desviacin estndar desconocida. El supuesto
de normalidad no es crucial si el tamao de la muestra es grande (n > 30). Sin embargo es
importante primero describir los datos y verificar presencia de sesgos y valores extremos
que pudieran hacer pensar que la distribucin de la poblacin no es Normal.

 Ejemplo
Datos del mar Laengelmavesi, Finlandia*

Se tiene una muestra de peces que fueron pescados en el mar Laengelmavesi de Finlandia
(http://www.amstat.org/publications/jse/datasets/fishcatch.txt). Se est investigando el
peso de los peces en kilos. Se quiere docimar la hiptesis de que el peso es menor que 16
kilos.
= peso medio de los percas (perch) en la poblacin en kilos.
Estadsticos para una muestra
N
peso

56

Media
15.839

Desviacin
tp.
1.3618

Error tp. de
la media
.1820

*Fuente: Brofeldt, Pekka: Bidrag till kennedom on fiskbestondet i vaera sjoear. Laengelmavesi. T.H.Jaervi: Finlands
Fiskeriet Band 4, Meddelanden utgivna av fiskerifoereningen i Finland. Helsingfors 1917

Pgina 12 de 13
Test estadstico observado:

t obs =

x 0
15,839 16
=
= 0,885
s
1,3618
n
56

-0,885 nos dice que la media muestral esta a 0,885 errores estndar debajo de la media
hipottica de 16.
Usando la Tabla t: Ya que el test t observado de -0,885 cae entre el percentil 10 y el 20,
en la distribucin t con 40 grados de libertad, el valor-p estar entre 0,10 y 0,20.
0,10 < valor p < 0,20

t(55)

t(40)

Valor-p

-1.303
t

0.10

-0.885
-0.851 0
OBS

t
0.20

En SPSS
Comparar Medias > Prueba T para una muestra > Valor de Prueba (16).
Prueba para una muestra
Valor de prueba = 16

peso

t
-.883

gl
55

Sig. (bilateral)
.381

Diferencia
de medias
-.1607

95% Intervalo de
confianza para la
diferencia
Inferior
Superior
-.525
.204

t=-0,883 y 55 grados de libertad, para el test unilateral de cola inferior se obtiene un


valor-p de 0,1905 (0,381/2).
Por lo tanto con un nivel de significancia del 5% no podemos rechazar H0 . As, parece que
el peso medio de las percas en este mar, no es significativamente menor que 16 kilos.

Pgina 13 de 13

En resumen, podemos notar que los pasos en una prueba de hiptesis se repiten, lo que
cambia es el parmetro de inters:
1.

Establecer la hiptesis

2.

Definir el nivel de significacin

3.

Obtener los datos

4.

Definir test estadstico y verificar los supuestos

5.

Calcular el test estadstico observado bajo H 0

6.

Calcular el valor p

7.

Tomar la decisin con respecto a H 0

8.

Conclusin del investigador

You might also like