You are on page 1of 23

Distribuciones muestrales

Biometra
1

Qu tienen en comn estos ejemplos?

Inferencia estadstica

Poblacin o universo es el conjunto de todas las unidades de inters inters. Normalmente es demasiado grande para poder abarcarla. El estudio de toda la poblacin se denomina censo. Muestra es un subconjunto suyo al que tenemos acceso y sobre el q que realmente hacemos las observaciones (mediciones)

La inferencia estadstica consiste en generalizar g las conclusiones extradas de una muestra sobre la poblacin

Parmetros y estimadores

Parmetro: Es una cantidad numrica calculada sobre la poblacin Estimador: Es una cantidad numrica calculada sobre la muestra

Y en los ejemplos?

Poblacin Parmetro

Muestra Estimador

Pero y cmo generalizamos? podemos equivocarnos? Necesitamos manejar probabilidades

Una situacin supuesta


POBLACIN
44 41 59 53 43 45 42 27 45 54 54 43 56 45 67 37 33 47 50 49 34 61 36 54 51 55 38 55 58 44 36 63 44 52 58 49 35 46 61 57 42 44 57 43 51 36 71 45 53 39 61 47 44 58 32 47 51 55 47 52 41 54 52 60 57 32 49 54 46 42 62 57 32 49 42 48 52 45 43 57 53 44 61 48 52 47 46 42 43 49 59 49 53 59 39 64 41 42 67 47
frecuencia rela ativa
0,25 0,20 0,15 0,10 0 05 0,05 0,00 20 0,30

Contamos con una poblacin integrada por 100 individuos; es decir N=100 La media de la p poblacin es 50; es decir =50 La variabilidad de la poblacin es de 10; es decir = 10

PROMEDIO =50 DESVO STD =10


Histograma

25

30

35

40

45

50

55

60

65

70

575

80

Y si sacamos una muestra?


POBLACIN
41 54 52 60 57 32 49 54 46 42 62 57 32 49 42 48 52 45 43 57 44 41 59 53 43 45 42 27 45 54 54 43 56 45 67 37 33 47 50 49 34 61 36 54 51 55 38 55 58 44 36 63 44 52 58 49 35 46 61 57 42 44 57 43 51 36 71 45 53 39 61 47 44 58 32 47 51 55 47 52 53 44 61 48 52 47 46 42 43 49 59 49 53 59 39 64 41 42 67 47

MUESTRA
44 52

n=5
47 33 42

PROMEDIO

43.6 6 x = 43

El promedio de la muestra no coincide con el de la poblacin La diferencia entre el valor muestral y el poblacional se denomina error muestral. En este caso caso, EM EM=43.6-50= 43 6 50 -6.4 64 Es el costo que pagamos por no haber efectuado un censo
PROMEDIO =50 DESVO STD =10

Y si sacamos otra muestra?


POBLACIN
41 54 52 60 57 32 49 54 46 42 62 57 32 49 42 48 52 45 43 57 44 41 59 53 43 45 42 27 45 54 54 43 56 45 67 37 33 47 50 49 34 61 36 54 51 55 38 55 58 44 36 63 44 52 58 49 35 46 61 57 42 44 57 43 51 36 71 45 53 39 61 47 44 58 32 47 51 55 47 52 53 44 61 48 52 47 46 42 43 49 59 49 53 59 39 64 41 42 67 47

MUESTRA
61 45

n=5
38 67 51

PROMEDIO

52.4 4 x = 52

EM=52 EM 52.4 4-50= 50 2.4 24

Los parmetros se calculan sobre los N valores de la poblacin, por lo tanto no cambian a menos que cambie la poblacin, son constantes. Los estimadores se calculan sobre n valores alores muestrales, m estrales por lo tanto varan aran de muestra en muestra y por lo tanto son variables aleatorias.
PROMEDIO =50 DESVO STD =10

POBLACIN
41 54 52 60 57 32 49 54 46 42 62 57 32 49 42 48 52 45 43 57 44 41 59 53 43 45 42 27 45 54 54 43 56 45 67 37 33 47 50 49 34 61 36 54 51 55 38 55 58 44 36 63 44 52 58 49 35 46 61 57 42 44 57 43 51 36 71 45 53 39 61 47 44 58 32 47 51 55 47 52 53 44 61 48 52 47 46 42 43 49 59 49 53 59 39 64 41 42 67 47

Si repitisemos este proceso , qu q muchas veces, comportamiento esperaramos para los 75.287.520 promedios muestrales posibles?
MUESTRAS
44 52 61 51 47 45 54

n=5
33 38 50 42 67 33 51 71

...........
41 58 49 34 49

x1 x2 x3

...

x75287520

?
PROMEDIO =50 DESVO STD =10
8

Distribuciones muestrales
Definicin: La distribucin muestral de un estimador es la distribucin de probabilidades de todos los posibles valores de un estimador que se pueden obtener extrayendo infinitas muestras aleatorias de tamao n de la poblacin. La distribucin de un estimador, como la de cualquier variable aleatoria, se pueden caracterizar por: tendencia central variabilidad funcin de probabilidad Las distribuciones muestrales de los estimadores pueden ser: aproximadas mediante tcnicas de simulacin 9 derivadas matemticamente

Volviendo al ejemplo

Distribucin muestral de x
DATOS ORIGINALES
0,3

0,3

MEDIAS MUESTRALES

frecuenci ia relativa

0,2

frecuenci a relativa

0,2

0,1

0,1

0,0

0,0

20

30

40

50

60

70

80

20

30

40

50

60

70

80

Media(n=5)

PROMEDIO =50 DESVO STD =10

10

Distribucin muestral de x
Y si promediamos p todas las medias muestrales?

x =
x =

ESTIMADOR INSESGADO

Cul ser la variabilidad de las medias muestrales?

El desvo estndar de un estimador se conoce como error estndar y da idea de la precisin en la estimacin
11

Distribucin muestral de x
Cul ser la distribucin de probabilidades p de
0,3

DATOS ORIGINALES DISTR. DISTR NORMAL


0,3

MEDIAS MUESTRALES DISTR. NORMAL


0,2

frecuenci ia frecuenci a relativa

0,2

0,1

frecuencia a relativa

0,1

0,0

0,0

20

30

40 40

50 50

60 60

70 70

80 80

20

30

40

50

60

70

80

x x

Media(n=5)

PROMEDIO =50 DESVO STD =10

PROMEDIO x =50 ERROR STD x =4.5

12

Y si los datos originales no siguen una distribucin normal?


04 0,4

DATOS ORIGINALES
frecuencia re elativa
0,3

0,3 0,3

MEDIAS MUESTRALES =50 =9 9 DISTR. NORMAL!


35 35 45 45 55 55 65 65 75 75 85 85

frecuenciarela rel ativa frecuencia ativa

=50 =40

0,2 0,2

0,1

0,1 0,1

0,0

0,0 0,0

50

100

150

200
0,3

250

25 25

X
0,3

Media(n=20) Media(n=20) ( )
0,3

frecuencia re elativa

0,2

0,2

frecuencia relativa

frecuencia rela ativa

0,2

n=5
0,1

n=10 10
0,1

n=20
0,1

0,0

50

100

150

200

250

0,0

0,0

Media(n=5)

50

100

150

200

250

50

100

150

200

Media(n=10)

Media(n=20)

13

250

amplia ando

Teorema central del lmite


Si de una poblacin con distribucin no normal o desconocida con media y desvo estndar se extraen infinitas muestras aleatorias de t tamao n y a cada d una d de ellas ll se l le calcula l l el l promedio x , se demuestra que dicho promedio se comporta segn una variable aleatoria continua con distribucin normal si n es lo suficientemente grande

14

A qu consideramos un n lo suficientemente fi i t t grande? d ?


Si la variable original g es normal, entonces x ser normal, para cualquier n x Si la variable original es aproximadamente simtrica x tender y unimodal i d l, entonces t t d a una distribucin di t ib i aproximadamente normal para n relativamente bajos Si la variable original es marcadamente asimtrica, entonces n deber ser de mayor para que la distribucin de x sea normal

15

En resumen: st buc muestral uest a de Distribucin


1. 2. 3.

cuando do es co conocido oc do x cua

La media de x es: x = n El desvo estndar de x (EE) es: x = Si el tamao de la muestra es lo suficientemente grande o x es normal normal, la distribucin de x es normal

Por lo tanto es posible calcular probabilidades utilizando: x

z=

16

Es til conocer la distribucin de un estimador?


Nos permite calcular probabilidades es la clave para hacer inferencia! Por ejemplo:
Se sabe que el peso de la placenta de embarazos normales a trmino sigue una distribucin normal con un promedio de 500g y un desvo estndar de 50g. Se determin el p peso de la p placenta en 50 p partos a trmino de madres fumadoras elegidas al azar y se obtuvo un promedio de 480g. Cul es la probabilidad de que la media muestral sea de 480g o menor?

17

DATOS ORIGINALES
0,008 ,

MEDIAS MUESTRALES
0,057

0,006

0,043

Densidad

Densidad
375 500 625 750

0,004

0,029

0,002

0,014

0,000 250

0,000 250

375

500

625

750

Peso de la placenta

peso medio de 50 placentas

PROMEDIO =500 DESVO STD =50 50

PROMEDIO x =500 ERROR STD x =50/50=7

P( x < 480) = F (2.86) = 0.002


z= x

P l P-valor

480 500 = = 2.86 7


18

Qu necesitamos para hacer i f inferencia? i ?


una muestra aleatoria observaciones independientes un tamao de muestra lo suficientemente grande

19

Algunas dudas que surgen


es necesario sacar muchas (infinitas) muestras para poder aplicar el TCL? A mayor y n ms cerca del parmetro p estar mi estimador? A mayor y n menor variabilidad de los datos?

20

Distribucin muestral de x cuando el desvo estndar t d poblacional bl i l es d desconocido id


En la prctica es habitual que TODOS los parmetros poblacionales sean desconocidos, es decir que ni el promedio ni el desvo estndar poblacional son conocidos! Como se desconoce se utiliza su estimador s mayor incertidumbre No es correcto utilizar la distribucin normal para x

x z= n
Se demuestra que la media muestral en estos casos ajusta a una distribucin conocida como t de Student

x tGL = s n

21

Distribucin t de Student
Tiene forma acampanada como la normal estndar, pero su dispersin es mayor (es ms aplanada). Esto se debe a que al desconocer hay mayor incertidumbre Es simtrica con respecto al cero, es decir que =0 No se trata de una nica curva, sino de infinitas curvas, cada una caracterizada p por un p parmetro denominado g grados de libertad (GL) Los GL indican la cantidad de datos independientes, es decir el nmero de observaciones de la variable menos el nmero de restricciones que verifican Los GL dependen del tamao de la muestra y en este caso valen n-1 A medida que aumentan los GL ms se asemeja a la normal estndar (porque (p q s converge g a )
22

Distribucin muestral de cuando no se conoce


1. 2. 3.

La media de x es: x = El desvo estndar (EE) de x es: x = s n Si el tamao de la muestra es lo suficientemente grande o x es normal, la distribucin de x es t de Student, Student con n-1 n1 grados de libertad Por lo tanto es posible calcular probabilidades utilizando:

x t n 1 = s n

23

You might also like