You are on page 1of 10

Tema 1: Introducci

on a la Estadstica
Bayesiana
Introducci
on
En general, se usan probabilidades de modo informal para expresar la informacion o la incertidumbre
que se tiene acerca de observaciones de cantidades desconocidas. Sin embargo, el uso de probabilidades para expresar la informacion se puede hacer de modo formal. Desde el punto de vista matematico
se puede demostrar que con el Calculo de Probabilidades se puede representar de modo numerico el
conjunto de racional de creencias, de modo que existe una relacion entre probabilidad y e informacion
y la regla de Bayes proporciona un modo natural de actualizacion de las creencias cuando aparece
nueva informacion. Este proceso de aprendizaje inductivo por medio de la regla de Bayes es la base
de la Inferencia Bayesiana.
De manera general, los metodos bayesianos son metodos de analisis de datos que se derivan de
los principios de la inferencia bayesiana. Estos metodos, proporcionan
Estimadores de los parametros que tienen buenas propiedades estadsticas;
Una descripcion parsimoniosa (simple) de los datos observados;
Estimacion de los datos missing y predicciones de futuras observaciones;
Una metodologa computacional potente para la estimacion, seleccion y validacion de modelos.

La metodologa bayesiana consta de tres pasos fundamentales:


1. Especificar un modelo de probabilidad que incluya alg
un tipo de conocimiento previo (a priori)
sobre los parametros del modelo dado.
2. Actualizar el conocimiento sobre los parametros desconocidos condicionando este modelo de
probabilidad a los datos observados.
3. Evaluar el ajuste del modelo a los datos y la sensibilidad de las conclusiones a cambios en los
supuestos del modelo.

La diferencia fundamental entre la estadstica clasica (frecuentista) y la bayesiana es el concepto de


probabilidad. Para la estadstica clasica es un concepto objetivo, que se encuentra en la naturaleza,
mientras que para la estadstica bayesiana se encuentra en el observador, siendo as un concepto
subjetivo. De este modo, en estadstica clasica solo se toma como fuente de informacion las muestras
obtenidas suponiendo, para los desarrollos matematicos, que se pueden tomar tama
nos lmite de
las mismas. En el caso bayesiano, sin embargo, ademas de la muestra tambien juega un papel
fundamental la informacion previa o externa que se posee en relacion a los fenomenos que se tratan
de modelizar.

Definiciones y Teoremas B
asicos
El concepto basico en estadstica bayesiana es el de probabilidad condicional :
Para dos sucesos A y B,
P (A|B) =

P (A B)
P (A B)
P (B)

Se puede aplicar esta definicion tambien a variables discretas o continuas.


Desde el punto de vista bayesiano, todas las probabilidades son condicionales porque casi siempre
existe alg
un conocimiento previo o experiencia acerca de los sucesos.
Ley de la Probabilidad Total:
Para un suceso A y una particion B1 , . . . , Bk ,

P (A) =

k
X

P (A|Bi )P (Bi )

i=1

Se puede aplicar el teorema a variables discretas:


f (x) =

f (x|Y = y)P (Y = y)

o a variables continuas:
Z
f (x) =

f (x|y)f (y) dy.

Ejemplo:
En una fabrica de galletas se embalan en 4 cadenas de montaje; A1 , A2 , A3 y A4 . El 35% de la
produccion total se embala en la cadena A1 y el 20%, 24% y 21% en A2 , A3 y A4 respectivamente.
Los datos indican que no se embalan correctamente un porcentaje peque
no de las cajas; el 1% de
A1 , el 3% de A2 , el 2.5% de A3 y el 2% de A4 . Cual es la probabilidad de que una caja elegida al
azar de la produccion total sea defectuosa?
Defino como D = defectuosa.

Luego,
P (D) =

4
X

P (D|Ai )P (Ai ) =

i=1

= 0.01 0.35 + 0.03 0.20 + 0.025 0.24 +


+0.02 0.21 =

= 0.0197

Ejemplo:
Supongamos que X|Y Pois(Y ), una distribucion Poisson, para x = 0, 1, 2, para y > 0, donde
Y Exp(), una distribucion exponencial
P (x|y) =

y x y
e
x!

f (y) = exp(y)
Entonces, la distribucion marginal de X es

P (x) =

P (x|y)f (y) dy

y x y
e exp [y] dy
x!

=
x!

=
x!

Z
=
0

y x exp [( + 1)y] dy

y (x+1)1 exp [( + 1)y] dy

Para resolver la integral, se observa que el integrando esta relacionado con una distribucion gamma
Ga(x + 1, + 1) :
NOTA:
Si X Ga(a, b) su funcion de densidad es
f (x; a, b) =
de este modo
Z
0

ba a1
x exp[bx],
(a)

ba a1
x exp[bx]dx = 1 =
(a)
3

Z
0

xa1 exp[bx]dx =

(a)
ba

Luego
P (x) =

(x + 1)
x! ( + 1)(x+1)

x!

x! ( + 1)(x+1)

( + 1)(x+1)

Si se denota como p = /(1 + ), entonces 0 < p < 1 y despejando =



x

x
p
1
P (x) = p 1 +
=p
=
1p
1p
= p(1 p)x ,

p
,
1p

para x = 0, 1, 2, . . .
Se observa que es una distribucion geom
etrica con parametro p.
Ejemplo:
Si X| Exp() y Ga(, ), la distribucion marginal es
Z
1
ex
e
d
f (x) =
()
0

=
()

=
()

e(+x) d

(+1)1 e(+x) d

y el integrando esta relacionado con otra distribucion gamma, Ga( + 1, + x):


Z
( + 1)
(+1)1 e(+x) d =
.
( + x)+1
0
Entonces,
f (x) =

( + 1)
()
=
+1
() ( + x)
() ( + x)+1

,
( + x)+1

donde se ha utilizado la propiedad basica de la funcion gamma,


( + 1) = ().
No es una distribucion estandar, pero si se define la v.a. Z = X + , se puede ver que Z tiene
una distribucion de Pareto.
NOTA:
Ver, por ejemplo,
4

http://en.wikipedia.org/wiki/Pareto_distribution

Para ello aplicamos el teorema del cambio de variable:


Sea X una v.a. con funcion de densidad px y sea g una funcion diferenciable, monotona e
invertible. Definimos otra v.a como Y = g(X), entonces la funcion de densidad de Y es


 dg 1 (y)
1

pY (y) = pX g (y)
dy
O equivalentemente


dx
pY (y) = pX (x)
dy

donde x = g 1 (y).
Ver demostracion, e.g,. en
http://www.stat.duke.edu/~michael/screen.pdf

En el caso del ejemplo,


fZ (z) = fX (z ) 1
= z 1 ,
para Z > . Luego Z PA(, ).
La distribucion de Pareto se aplico inicialmente a la modelizacion del reparto de riqueza. Es la
llamada ley 80-20 que afirma que el 20% de la poblacion posee el 80% de la riqueza.

El teorema de Bayes
Se tiene que, para los sucesos A1 , . . . , An y B,
P (Ai |B) =

P (B|Ai )P (Ai )
P (B|Ai )P (Ai )
= P
P (B|Ai )P (Ai )
n
P (B)
P (B|Ai )P (Ai )
i=1

Ejemplo:
Volviendo al ejemplo de las galletas, supongamos que descubrimos que una caja es defectuosa.
Queremos calcular la probabilidad de que la caja proceda de A1 .
P (A1 |D) =

P (D|A1 )P (A1 )
0.01 0.35
=
0.18
P (D)
0.0197

Ejemplo:

Supongamos un juego televisivo en el que tienes que elegir entre tres puertas cerradas, A, B o C.
Detras de dos de las puertas hay una peineta y en la otra hay un coche, con igual probabilidad en
los tres casos. Por tanto, la probabilidad de ganar el coche en cada una de las puertas es
p(A) = 31 , p(B) = 13 , p(C) = 31 .
Despues de que hayas elegido una puerta, digamos A, antes de mostrarte lo que hay detras de la
puerta, el presentador (Risto Mejide) abre otra puerta, digamos B, que tiene una peineta. En este
punto te ofrece la opcion de cambiar de la puerta A a la puerta C. Que deberas hacer?
Intuitivamente parece que t
u has elegido la puerta adecuada, pero que Risto Mejide te quiere
liar... as, desde un punto de vista inocente la probabilidad de encontrar el coche entre las dos
puertas que quedan es 21 . Pero esto es falso...
Asumimos que Risto Mejide va en tu contra (cobra de la productora de television) y calculamos
cual es la probabilidad de que el coche aparezca cuando el abre la puerta B, una vez que t
u hayas
abierto la puerta A:
(i ) La probabilidad de que Risto Mejide abra la puerta B dado que el coche esta detras de la
puerta A es
p (BRM |A) =

1
2

ya que le es indiferente abrir la puerta B o C.


(ii ) La probabilidad de que Risto Mejide abra la puerta B dado que el coche esta detras de la
puerta B es
p (BRM |B) = 0
porque supones que no es est
upido.
(iii ) La probabilidad de que Risto Mejide abra la puerta B dado que el coche esta detras de la
puerta C es
p (BRM |C) = 1
Aplicando la definicion de probabilidad condicionada se obtienen las siguientes distribuciones
conjuntas:
p (BRM , A) = p (BRM |A) p (A) =

1 1
1
=
2 3
6

p (BRM , B) = p (BRM |B) p (B) = 0

1
=0
3

p (BRM , C) = p (BRM |C) p (C) = 1

1
1
=
3
3

Por otro lado, dado que los sucesos son mutuamente excluyentes, por la ley de probabilidad total
p(BRM ) = p (BRM , A) + p (BRM , B) + p (BRM , C) =

1
1
1
+0+ =
6
3
2

Finalmente, aplicando el teorema de Bayes, se tiene que


p (A|BRM ) =

p (BRM |A) p (A)


=
p(BRM )

1
2

1
3

1
2

1
3

1 13
p (BRM |C) p (C)
2
p (C|BRM ) =
= 1 =
p(BRM )
3
2
Luego es mucho mejor que elijas la puerta C .
Se puede aplicar el teorema de Bayes a variables discretas y continuas. En el caso de que la v.a.
X sea continua se tiene
f (x|y) =

f (y|x)f (x)
f (y|x)f (x)
,
=R
f (y)
f (y|x)f (x)dx
R

como el denominador f (y) es independiente de x, entonces se puede escribir el teorema en la forma


de proporcionalidad ():
f (x|y) f (y|x)f (x).
Este resultado es u
til para los calculos porque implica que se pueden olvidar las constantes multiplicativas hasta el final de los calculos en modelos complicados.
Ejemplo:
Retomando el ejemplo de la Poisson, se tena que Y Exp() y X|Y Pois(Y ). Calculamos la
distribucion de Y |x, sabiendo que la distribucion marginal de X era una geometrica:
f (y|x) =

P (x|y)f (y)
P (x)

y x ey
ey
x!

(+1)x+1

( + 1)x+1 x (+1)y
y e
x!

( + 1)x+1 (x+1)1 (+1)y


y
e
(x + 1)

que es la densidad de una variable gamma: Ga(x + 1, + 1).


Ejemplo:
Volviendo al ejemplo de la distribucion de Pareto, donde X| Exp() y Ga(, ), calculamos
la distribucion de dada una observacion x.
7

f (|x) f (x|)f ()

ex

1
e
()

(+1)1 e(+x)
que esta relacionado con una distribucion gamma, es decir, |x Ga( + 1, + x).

La media y varianza condicional.


Dadas dos variables X e Y , definimos la media y varianza de X cuando Y = y como
Z
E [X|Y = y] =
xf (x|y) dx
Z
V ar [X|Y = y] =

(x E[X|Y = y])2 f (x|y) dx

El siguiente teorema nos proporciona la relacion entre la esperanza y varianza marginal y la


esperanza y varianza condicional.
Teorema Dadas dos variables X e Y , se tiene que
(i ) Ex [X] = Ey [Ex [X|Y ]]
(ii ) V arx [X] = Ey [V arx [X|Y ]] + V ary [Ex [X|Y ]]
Demostracion:
(i ) Se tena que, en general,
Z
E(g(x)) =

g(x)f (x) dx

por ello, como E[X|Y ] es una funcion de Y,


Z
Ey [Ex [X|Y ]] =

Ex (X|y)f (y) dy
Z Z


xf (x|y)dx f (y) dy

Z

Z
=

f (x|y)f (y)dy
Z

Z
=


f (x, y)dy

dx

Z
=

xf (x) dx = Ex [X]
8

dx

(ii ) La demostracion, que es mas larga, se puede ver, por ejemplo, en el libro de Lee (2012).
Ejemplo:
Volviendo al ejemplo de la Poisson, se tena que Y Exp() y X|Y Pois(Y ).Supongamos
que queremos calcular la media y varianza de X (y que no sabemos nada acerca de la distribucion
marginal de X que sabamos de antes que sigue una distribucion geometrica).

Ex [X] = Ey [Ex [X|Y ]]

= Ey [Y ] porque X|Y Pois(Y )

la media de la exponencial

V arx [X] = Ey [V arx [X|Y ]] + V ary [Ex [X|Y ]]

= Ey [Y ] + V ary [Y ] porque media = varianza = Y

Sustituyendo p =

1+

1
1
+ 2

+1
2

y despejando =

p
,
1p

E[X] =

se obtiene que

1p
q
=
p
p

1p
V ar[X] =
+
p
=

1p
p

2

q
1p
= 2,
2
p
p

que son los momentos que se obtienen directamente para la distribucion geometrica en la notacion
habitual.
Ejemplo:
Retomando el ejemplo de la distribucion de Pareto, donde X| Exp() y Ga(, ), se tiene

que
E[X] = E [Ex [X|]] = E [1/]
Z
1 1
=
e
d
()
0

=
()

(1)1 e d

El integrando es el n
ucleo de una distribucion gamma; Ga( 1, ). Entonces,
E[X] =

( 1)

,
=
() 1
1

es decir, la esperanza solo existe si > 1.


Hemos visto anteriormente que Z = X + PA(, ). De este modo, podemos calcular la media
de X utilizando tambien la formula para la media de una distribucion Pareto:

E[X] = E[Z]

.
1

10

[para > 1]

You might also like