You are on page 1of 7

Distribución normal

Hemos visto como se construye un gráfico de frecuencias con datos extraídos de una población. A
medida que aumentamos la cantidad de observaciones que tomamos de la población, podemos
construir nuestro gráfico con un número mayor de intervalos, aunque de menor amplitud (El rango
total cubierto por la población es el mismo).
Si continuamos este proceso, con
intervalos cada vez mas estrechos
y numerosos, los altibajos en el
gráfico de la distribución de
frecuencias tienden a desaparecer.

En el límite, el ancho del intervalo


tiende a cero y la población puede
representarse por una distribución
de probabilidad continua.
Cuando, para representar esta distribución de probabilidad continua se utiliza una función
matemática, esta se denomina Función de Densidad de Probabilidad.
La forma de la curva en el gráfico de la
función de distribución es
característica de la población de
observaciones asociada con la misma,
y depende de variables internas del
proceso que generó los datos de la
población.Existen distintas funciones
de distribución teóricas, cada una de
las cuales está basada en un modelo
de comportamiento del proceso que
generó el universo de observaciones.
La aplicación de una de estas distribuciones teóricas a una población particular está justificada si las
hipótesis (suposiciones) del modelo de comportamiento del proceso que generó la población se
cumplen. Dicho de otro modo, si conocemos el proceso, es decir, el conjunto de fenómenos que
dieron lugar a nuestra población de mediciones u observaciones, y además estamos seguros de que
el mismo se ajusta a un modelo de comportamiento determinado, entonces podemos decir que la
distribución de probabilidades de nuestra población es la que corresponde al modelo.
En la práctica, se sabe que ciertos procesos y fenómenos generan resultados numéricos cuya
distribución de probabilidades se puede ajustar a determinados modelos teóricos. Por ejemplo, el
número de partículas alfa emitidas por un material radiactivo sigue una distribución de Poisson.
Existen muchas otras distribuciones teóricas, como la Binomial, la Exponencial, la de Weisbull, etc.
Cada una de ellas tiene su propio campo de aplicación, que se sostiene en un determinado
comportamiento de los fenómenos, y al aplicarla se está haciendo en forma implícita la suposición de
que se cumplen las suposiciones del modelo subyacente.

La Distribución Normal
Una distribución muy
importante es la
Distribución Normal o de
Gauss.
La ecuación matemática
de la función de Gauss es
la siguiente:

La distribución normal es una curva con forma de campana, con eje de simetría en el punto
correspondiente al promedio del universo µ . La distancia entre el eje de simetría de la campana y el
punto de inflexión de la curva es igual a σ , la desviación standard de la población.
El área total debajo de la curva es igual a 1. El área debajo de la curva comprendida entre µ − σ y
µ + σ es aproximadamente igual a 0,68 del área total; entre µ − 2 σ y µ + 2 σ es
aproximadamente igual a 0,95 del área total:
Es importante ver que los únicos parámetros necesarios para dibujar el gráfico de la distribución
normal son y (Media y desviación standard de la población). Con estos dos parámetros sabemos
donde situar la campana de Gauss (En el punto correspondiente a la media) y cual es su ancho
(Determinado por la desviación standard).
Cuando nos encontramos con una población de observaciones, si podemos afirmar que la
distribución correspondiente es normal, sólo hace falta estimar la media y la desviación standard
para tener toda la información necesaria acerca de dicha población.

Función lognormal

La variable T sigue una distribución lognormal si lnT tiene una distribución normal de media μ y varianza
σ². En consecuencia, la variable

es un variable normal reducida, es decir de media igual a 0 y desviación típica igual a 1. Por lo tanto, la
función de supervivencia se puede escribir

siendo la función de distribución acumulativa de la normal reducida. Por lo tanto un modo gráfico de
verificar esta distribución es comparar la función de supervivencia dibujada en papel lognormal con una
recta.

La función están caracterizadas por los dos parámetros μ y σ, que no son su media y desviación típica. La
estimación de estos parámetros sólo es sencilla en el caso de que no haya pérdidas y ésta es la que
implementa el PRESTA.
Se ha usado esta función para estudiar tanto la supervivencia en SIDA (1), como el tiempo hasta la
seroconversión de HIV+ (2).

Ejemplo 7

Estímese las función de supervivencia, asumiendo el modelo lognormal y realícese la prueba de la bondad
de ajuste, para los datos de la tabla.

2
La salida del PRESTA es (nótese que se denomina parámetro A a µ y parámetro B a σ

P R E S T A PC V2.2 25-OCT-2001

ANALISIS DE SUPERVIVENCIA
MODELO LOG-NORMAL : f(lnt)=N(A,B)

NOMBRE DE LOS DATOS: super72


VARIABLE TIEMPO: TIEMPO
VARIABLE PERDIDAS NO SE USA

NUMERO DE CASOS: 121


CASOS QUITADOS POR CONTENER ALGUN VALOR NO ESPECIFICADO: 0

PARAMETRO ERROR STANDARD

A 2.32263 .04138

B .20719 .02664

MATRIZ DE COVARIANZAS

A B

A .00171 .00000

B .00000 .00071

TABLA DE VALORES OBSERVADOS Y ESPERADOS


(SOLO CUENTAN LOS EVENTOS)

INTERVALO OBSERVADOS ESPERADOS CONT. JI2

< 5.69 10.00 12.10 .3645

5.69 - 6.96 9.00 12.10 .7942

6.96 - 8.04 18.00 12.10 2.8769

8.04 - 9.09 12.00 12.10 .0008

9.09 - 10.20 17.00 12.10 1.9843


10.20 - 11.45 12.00 12.10 .0008

11.45 - 12.95 8.00 12.10 1.3893

12.95 - 14.96 9.00 12.10 .7942

14.96 - 18.28 16.00 12.10 1.2570

> 18.28 10.00 12.10 .3645

PRUEBA DE BONDAD DE AJUSTE


JI-CUADRADO: 9.82645 G.L.: 7 p= .197686

Con la prueba de bondad de ajuste basada en la ji-cuadrado, que en este caso que no hay pérdidas
“funciona” mejor, no se rechaza la hipótesis nula de modelo lognormal y en la gráfica también se observa
que el modelo es satisfactorio.

Aceptando que el modelo es bueno, calcúlese la supervivencia a 8 años (suponiendo los tiempos en años)
y la mediana de supervivencia.

En la gráfica se observa que para T=8, S(t) es aproximadamente 0,7 y que S(t)=0,5 para t=10
aproximadamente. O bien, más laborioso pero más preciso, usando las fórmulas

y mirando en la tabla de la normal


es decir la probabilidad de supervivencia a los 8 años es 0,7019. La mediana es el tiempo en el que
S(t)=0,5

y mirando en la tabla de la normal

DISTRIBUCION EXPONENCIAL
Funci´on de densidad:
f(x) =λ ・ e−λx si x > 0
Espacio param´etrico: Tasa media de ocurrencia λ> 0
Valor esperado: 1
λ
Varianza: 1
λ2
Funci´on generadora de momentos: λ
λ−t para t < λ
0x
f(y)
y
F(x)
VALORES DE LA DISTRIBUCION EXPONENCIAL
La funci´on de distribuci´on de la exponencial se puede calcular anal´ıticamente
mediante
la f´ormula F(x) = 1 − e−λx para x > 0.

Método de Gumbel

La distribución Gumbel se utiliza para el cálculo de valores extremos de variables meteorológicas (entre ellas precipitaciones y
caudales máximos) y es uno de los métodos más empleados para el estudio de las precipitaciones máximas en 24 horas.

El "valor máximo" que se quiere determinar para un determinado período de retorno se determina por medio de la expresión: Xt =
ms + Kt*S.

Donde:

- Xt .- Valor máximo (caudal o precipitación) para un periodo de retorno.

- ms .- Media de la muestra.

- Kt.- Factor de frecuencia.

- S.- Desviación típica de la muestra.

El valor de la variable Kt se estima a partir del conocimiento del período de retorno en años y del número de años disponibles en la
serie. K = (Yt -my)/Sy.

- Yt : variable de Gumbel para el período de retorno T, se determina a partir del valor del período de retorno. Yt = -ln ln ().

Distribución lognormal
La distribución lognormal tiene, principalmente, las siguientes aplicaciones:

a. Representa la evolución con el tiempo de la tasa de fallos, λ(t), en la primera fase de vida
de un componente, la correspondiente a los fallos infantiles en la "curva de la bañera"
entendiéndose como tasa de fallos la probabilidad de que un componente que ha
funcionado hasta el instante t, falle entre t y t + dt. En este caso la variable independiente
de la distribución es el tiempo (figura 1).
b. Permite fijar tiempos de reparación de componentes, siendo también en este caso el
tiempo la variable independiente de la distribución.
c. Describe la dispersión de las tasas de fallo de componentes, ocasionada por diferente
origen de los datos, distintas condiciones de operación, entorno, bancos de datos
diferentes, etc. En este caso la variable independiente de la distribución es la tasa de
fallos.

La distribución lognormal tiene dos parámetros: m* (media aritmética del logaritmo de los datos
o tasa de fallos) y σ(desviación estándar del logaritmo de los datos o tasa de fallos).

La distribución lognormal se caracteriza por las siguientes propiedades:

• Asigna a valores de la variable < 0 la probabilidad 0 y de este modo se ajusta a las tasas y
probabilidades de fallo que de esta forma sólo pueden ser positivas.
• Como depende de dos parámetros, se ajusta bien a un gran número de distribuciones
empíricas.
• Es idónea para parámetros que son a su vez producto de numerosas cantidades aleatorias
(múltiples efectos que influyen sobre la fiabilidad de un componente).
• La esperanza matemática o media en la distribución lognormal es mayor que su mediana.
De este modo da más importancia a los valores grandes de las tasas de fallo que una
distribución normal con los mismos percentiles del 5% y 50% tendiendo, por tanto, a ser
pesimista.

Lognorm LOGN(m,
al o)

Función de densidad f(x)= si x>0

de otra
0 manera

Distribución
acumulada F(x)= no existe ecuación

Parámetro
s Parámetro de escala: m

Parámetro de forma: o

Rango [0, &]

Media e^-u+o/2

e^2*u+o^2(e^o^2-
Varianza 1)

You might also like