You are on page 1of 12

Semana 4 :Captulo 2

Este tema lo debemos dar para poder entender las pruebas que van a seguir.
Si uno intentara abordar toda la complejidad desde el punto de vista terico que posee esta
seccin, debiramos profundizar tanto el tema que se tornara por un lado demasiado abstracto y
por otro excedera los alcances de esta Diplomatura.
Intentaremos hacer las explicaciones lo ms sencillas posible, desarrollando de manera muy
bsica los conceptos importantes y necesarios para aplicar la Bioestadstica.
Te repetimos lo que antes te decamos: Consult a tus tutores, particip en los foros... no te
quedes con dudas.No te marees con las frmulas

Distribucin Normal
El matemtico Carl Gauss (1777-1855) trabajaba para un observatorio astronmico alemn. A
partir de numerosos casos donde se determinaban los errores en las mediciones observ que la
forma en que se distribuan esos errores era simtrica. Dicho de otro modo: haba errores positivos
y errores negativos. Por su parte resultaban muy comunes los errores de poca magnitud (tanto
errores positivos como negativos), mientras que eran poco frecuentes los errores grandes.
Suponemos que debe haber realizado histogramas de frecuencia de estos errores. A partir de esa
informacin y a los fines de modelar matemticamente la frecuencia de los errores, adapt una
funcin desarrollada por De Moivre (1667- 1754) y la transform en una distribucin probabilstica,
agregndole un factor de correccin (de modo tal que se cumplan los axiomas de probabilidad o
dicho de otro modo que la probabilidad del espacio muestral sea igual a uno). (Figura 1).

b
Figura 1: a: Distribucin de los errores en un histograma de frecuencias. b: El mismo histograma,
pero con la funcin de una distribucin normal ajustada.
La funcin de densidad (la frmula de esta funcin) est dada por:

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 4 :Captulo 2
(

( )

La forma de esta distribucin es la denominada campana de Gauss o campana de la distribucin


normal.
Como se observa en la frmula, para poder calcular un valor determinado de f(x) necesitamos
2
conocer el valor de x, pero tambin la Media Poblacional y la Varianza Poblacional . Por lo que
2
se dice que la Esperanza de esta distribucin es E(X)= y la Varianza V(X)= .
Por lo tanto se dice que:
(

)
2

(La X posee distribucin normal con esperanza y Varianza )


Ejemplo 1. La variable concentracin de Monxido de Carbono dentro de una empresa durante el
2
perodo de mxima produccin sigue una distribucin Normal con Media 8 ppm y varianza 2 ppm .
De este modo la forma de la distribucin ser:

Figura 2: Distribucin de la Concentracin de Monxido de Carbono dentro de una empresa.


Si se sabe que a partir de concentraciones mayores a 10 ppm pueden sufrir mareos o vmitos los
trabajadores, la pregunta que pueden surgir es qu probabilidad hay que los valores superen los
10 ppm?
Para aquellos que recuerden, se debiera resolver la integral de la funcin de distribucin para
calcular el espacio bajo la curva entre el valor 10 e infinito. Como bien se supone, resolver una
integral tan compleja, cada vez que es necesario encontrar una probabilidad, es una tarea muy
tediosa. Por esta razn se cre una tabla denominada Normal estandarizada o tipificada que tiene
caractersticas muy particulares. Es una distribucin Normal pero que posee Esperanza cero (0) y
Varianza uno (1), es decir es una variable llamada Z que:
(

Esta distribucin Z como dijimos est tabulada. Mediante una sencilla operacin se pueden
transformar a todas las variables X en la variable Z, esta operacin se denomina Estandarizacin

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 4 :Captulo 2
Estandarizacin.
Definimos como Estandarizacin a la operacin mediante la cual se transforma a una variable
X:
(
),a una Z:
(
)

La frmula general de la Estandarizacin es:

Para este el caso particular donde la variable X posee E(X)= y V(X)= , la frmula es:

Observemos para el ejemplo 1 qu ocurre con la estandarizacin del valor 10:

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 4 :Captulo 2

b
Figura 3: a: Distribucin Normal y la ubicacin del valor x=10 y b: del mismo valor estandarizado
z=1,414
Ante la pregunta cul es la probabilidad de tener valores mayores a 10 ppm,
Probabilidad que x>10
P (x >10) = P (z >1,414) = 0,0787, (de la bsqueda de la tabla Normal estndar surge el valor de
la probabilidad).
Para diversos casos ver Figuras 4.

P (x < 10,8284)= P (z < 3) =0,9772

P (x < 6,586)= P (z < -1) = 0,1587

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 4 :Captulo 2
a

d
c
Figuras 4: Valores de x graficados en la distribucin de la variable x (a y b) y sus respectivas
estandarizaciones (c y d).
Ahora ntese que se puede visualizar que los valores Z estn mostrando a cuntos desvos antes
o despus de la media se encuentra el valor de la variable X, es decir muestra la magnitud de cun
alejado est de la media. El valor de x= 6,583 se encuentra ubicado un desvo antes de la media,
por eso su valor z es -1.
Entonces los valores z estn relativizando a los valores de la variable de modo que se expresan no
en valores absolutos sino expresados en distancias con respecto a su centro de gravedad es
decir la media.
Una persona que mide 1,85 m es alta o baja? La respuesta debiera ser: depende. Si esa persona
naci en Argentina, es una persona relativamente alta para la media de este pas y esa persona
tendr un valor z de aproximadamente 2. Pero si naci en Finlandia, es una persona promedio,
pues su valor z es 0, ya que los finlandeses en promedio miden 1,85 m.

Si observamos la superficie bajo la curva en la distribucin normal se constata que:


P (-1 < z < 1) = 0,68; es decir que entre un desvo a la derecha y un desvo a la izquierda de la
media se encuentran aproximadamente el 68% central de los datos.
P (-1,96 < z < 1,96)= 0,95; es decir que casi 2 desvos a la derecha y a la izquierda de la media
contienen aproximadamente el 95% central de los datos.
P (-3 < z < 3)= 0,99; es decir que 3 desvos a la derecha y a la izquierda de la media contienen
algo ms del 99% central de los datos

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 4 :Captulo 2

a. P(-1<z<1)= 0,6827

b. P(-2 <z< 2)= 0,9545

c. P(-3 <z< 3)= 0,9973

Figura 5: Funciones de la distribucin normal y valores estandarizados: 1, 2 y 3.

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 4 :Captulo 2
Para resumir entonces, si deseo conocer la probabilidad de obtener valore mayores, menores o
entre dos valores de una variable que poseen distribucin normal, debo estandarizar los valores.
Recordemos:
1) Dijimos: si tomamos a una unidad o elemento al azar y no sabemos con certeza cul va a ser el
valor exacto de la caracterstica tomada, entonces esa caracterstica es una variable.
2) Dijimos: la diferencia entre parmetro y estimador es que el parmetro es un valor nico tomado
de la poblacin, mientras que el estimador puede variar dependiendo de qu unidades entraron
en la muestra.
La pregunta ahora es: si tenemos una media muestral o una varianza muestral, y si ambas son
variables: qu distribucin van a tener stas.
Distribucin de la media muestral.
Si la variable tiene distribucin normal, la media muestral es una sumatoria de normales, entonces
tambin tiene distribucin normal.
Y cules son los parmetros de la distribucin normal?
Existen dos demostraciones que no explayaremos aqu, que demuestran:
1) Si uno toma varias medias muestrales, cul sera la media muestral de varias medias
muestrales?
La pregunta sera cul es el valor esperado de la media de las medias muestrales?
La respuesta es la media poblacional. Esto intuitivamente nos muestra que la Esperanza de las
medias muestrales es la media poblacional. ( )
2) Si uno toma una media muestral de una muestra de 5 unidades, la media muestral puede tener
diversos valores diferentes. Es decir tiene cierta variabilidad. Pero si tomamos una media muestral
de una muestra de 50 unidades, la media muestral tambin puede variar, pero menos que la
anterior, es decir va a ser menos variable.
Ahora si la muestra es de 100, o de 1000, cada vez la media muestral variar menos.
De ese modo se observa que a medida que se incrementa el n de la muestra, la media muestral
vara menos.
Una demostracin dice que la varianza de la media muestral es:
( )
y la raz cuadrada de la varianza de la media se denomina Error estndar
EE=

Estandarizacin de la media muestral


Anteriormente dijimos que la frmula general de la Estandarizacin era:

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 4 :Captulo 2
Para el caso en que se necesita saber las probabilidades de las medias muestrales entonces,
donde:

, la frmula es:

Distribucin de la varianza muestral


Si la variable tiene distribucin normal y la media muestral entonces tambin tiene distribucin
normal, la varianza muestral es la sumatoria de normales al cuadrado. Esta sumatoria de normales
2
al cuadrado (con un pequeo ajuste) se denomina distribucin Chi cuadrado .
Lo que sigue es una formalidad:
2

Distribucin del estadstico .


Dadas Z1, Z2, Z3; .... Zn, n variables aleatorias independientes, con distribucin Normal estndar
(
(
)), entonces definimos a la distribucin Chi cuadrado como:

Es decir una Chi cuadrado es la sumatoria de Normales estandarizadas al cuadrado.

Funcin de densidad de la distribucin Chi Cuadrado


(

)
(

)
2

Para valores de > 0


Parmetro, Esperanza y varianza de la Distribucin Chi cuadrado
Parmetro: n-1 (grados de libertad)
2
E ( ) = n-1
2
V ( ) = 2 n-1
En las Figuras 6 se observa que la distribucin Chi cuadrado es asimtrica a la derecha y que va
hacindose ms simtrica a medida que se incrementan los grados de libertad

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 4 :Captulo 2

a. Chi cuadrado con 3 grados de libertad

b. Chi cuadrado con 8 grados de libertad

Figuras 6: Funcin de densidad de la distribucin Chi Cuadrado

Importante:
Lo importante de la distribucin Chi cuadrado es que es una distribucin con valores positivos,
asimtrica a la derecha y que va cambiando a medida que se incrementan los valores que se estn
sumando. Si obtuvimos una varianza con una muestra de 10, se dice que tiene 9 grados de
libertad. Los grados de libertad se obtienen con el nmero de unidades de la muestra menos 1:
GL= n-1.
La distribucin chi cuadrado tiene una Esperanza de n-1.
Entonces la Estandarizacin de la varianza muestral es la siguiente frmula:

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 4 :Captulo 2
(

Distribucin del estadstico t


Un investigador llamado Gosset no poda estandarizar los valores de la Media muestral en su
trabajo (control de Calidad en una cervecera) , porque desconoca la varianza poblacional.
Entonces invent una distribucin que denomin t de Student y que tienen la forma como una
distribucin Normal estndar, pero un poco menos puntiaguda y con mayor variabilidad (con las
colas ms altas).
Entonces a la Estandarizacin de una media muestral, cuando no conocemos la varianza
poblacional es:

Formalizamos:
Dada Z una variable aleatoria con distribucin normal estndar (
(
)) y dada Y una variable
aleatoria con distribucin Chi cuadrado, entonces definimos a la distribucin t de Student como:

Es decir una distribucin t es una normal dividido la raz de una chi cuadrado dividida sus grados
de libertad.
Funcin de densidad de la distribucin t
( )

( )
(

Para un rango de valores:


Parmetro, Esperanza y varianza de la Distribucin t
Parmetro: n-1 (grados de libertad)
E (t)= 0
( )
Tiene forma de campana, es simtrica, a medida que se incrementa el n, arroja probabilidades
similares a la distribucin normal, cuando n>30 se dice que la t es significativamente similar a la
normal.

10

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 4 :Captulo 2

Figura 7: Funciones de densidad de diferentes distribuciones t. A medida que se incrementa el n,


aumenta su puntiagudez.

Importante:
Lo importante de la distribucin t de Student es que es una distribucin simtrica centrada en el
cero y, al igual que la Chi cuadrado, va cambiando a medida que se incrementan los valores que
se estn sumando.
Tiene una Esperanza de cero (0).

Distribucin del estadstico F


Un Investigador llamado Ronald Fisher (veremos ms adelante que realiz mltiples aportes a la
Bioestadstica) desarroll una funcin llamada F. Esa funcin corresponde a lo que sera la
estandarizacin del cociente entre dos varianzas muestrales, formalmente es:
Dada una variable aleatoria X con distribucin chi cuadrado y n-1 grados de libertad. Dada otra
variable aleatoria Y con distribucin chi cuadrado y m-1 grados de libertad, definimos a la variable
aleatoria F (de Fisher) como:

Es decir una F es un cociente entre dos variables aleatorias Chi cuadrado.


Funcin de densidad de la Variable F
(

( )
(

)
) (

* +

Para valores de F > 0


Parmetro, Esperanza y varianza de la Distribucin F
Parmetros: n-1 y m-1 (grados de libertad de ambas Chi cuadrado (X e Y)

11

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 4 :Captulo 2
E (F)= 1
(

( )

)
) (

F siempre es positiva, asimtrica a la derecha,

Figura 8: Funcin de densidad de una variable F con 5 y 6 grados de libertad.


Ya vimos cmo se distribuye la media muestral, ahora veremos algo ms:

Importante:
Lo importante de la distribucin F es que posee valores positivos, es asimtrica a la derecha y su
valor esperado es 1.

Para cerrar este Captulo y como un muy muy resumido concepto:


Slo hemos visto muy superficialmente este tema y no ahondaremos mucho ms.
Qu es lo que debiera saber:
Que si la variable tiene distribucin normal, entonces la media muestral tendr distribucin normal.
Si la media muestral tiene distribucin normal puedo buscar las probabilidades de que una media
muestral ocurra de dos formas: con una distribucin normal (si conozco la varianza poblacional) o
con una distribucin t de Student (si no conozco la varianza poblacional).
Si la variable y la media tienen distribucin normal entonces la varianza muestral tendr (con un
pequeo ajuste) una distribucin chi cuadrado.
Si tuviera dos varianzas, el cociente de ellas se distribuye como una F.
Mucho cuidado: las distribuciones t, Chi cuadrado y F, NO SE ENCUENTRAN EN LA
NATURALEZA. son distribuciones de estimadores que uno toma de las muestras.

12

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

You might also like