1 Teoria Decision Presentacion PDF

Contenido
Introduccion
El concepto de probabilidad
La Aproximacion Bayesiana a la Estadstica
Comparacion de modelos
Propiedades clasicas de la aproximacion Bayesiana
Discusion
Teora de la decision robusta
Teora de la Decision
Alvaro J. Riascos Villegas

Universidad de los Andes y Quantil
Enero 30 de 2012
Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Contenido
Introduccion
Discusion
1 Introduccion
2 El concepto de probabilidad
3 La Aproximacion Bayesiana a la Estadstica
Teora de la decision
Riesgo frecuentista
Riesgo Bayesiano
Familias Conjugadas
Estimadores
Prueba de hipotesis
Predicciones
4 Comparacion de modelos
5 Propiedades clasicas de la aproximacion Bayesiana
6 Discusion
7 Teora de la decision robusta
Contenido
Introduccion
Discusion
Introduccion
La teora clasica utiliza la informacion muestral para hacer
inferencias sobre los parametros de interes.
La importancia de la informacion muestral se pone de
manifiesto en este ejemplo de Savage (1961).
Example (Savage (1961))
Uso de la informacion muestral.
1 Una mujer adiciona te a una tasa de leche y afirma poder diferencia
que ingrediente se utilizo primero. En 10 experimentos acierta en
todos.
2 Un musico afirma poder diferenciar entre un partitura de Mozart y
una de Hayden. En 10 experimentos siempre acierta.
3 Un amigo borracho afirma poder Alvaro
Metodos Bayesianos - Banco de Guatemala
predecir el lado que cae una
Riascos
Introduccion
Usualmente existe informacion incial sobre los parametros de

un modelo estructural.
Probabilidad = Incertidumbre. En la teora Bayesiana el
concepto de probabilidad tiene una interpretacion distinta a la
teora clasica o frecuentista. El concepto de probabilidad es
una medida de la incertidumbre sobre la ocurrencia de un
evento. A diferencia de la teora clasica es posible dar
interpetaciones sobre la incertidumbre de un parametro que
no estan basadas en la repeticion bajo condiciones iguales de
un experimento (intervalos de confianza). Por ejemplo es
posible cuantificar en terminos probabilsticos el grado de
incertidubre con la cual se hace un pronostico.
Introduccion
Permite condicionar a los datos observados. En el analisis

clasico se promedia sobre los los datos, aun los no observados.
Distribuciones exactas. La teora clasica se basa en muchas
ocasiones en teora asintotica.
Coherencia y racionalidad: La teora Bayesiana es una
aproximacion general al problema de inferencia consistente
con la teora de la decision.
Las reglas de decision en un contexto Bayesiano son optimas
desde un punto de vista clasico.
Mecanica Bayesiana: Siempre se sabe que hacer.
Computacionalmente es difcil.
Introduccion
Razones tecnicas:
1 Permite hacer inferenecia estadstca en modelos no regulares.
2 Permite introducir incertidumbre en los parametros para hacer
prediciciones.
3 Permite hacer pruebas de modelos no anidados.
4 Se pueden analizar modelos jerarquicos de forma
conceptualmente muy coherente.
Contenido
Introduccion
Discusion
Existen por lo menos tres interpretaciones del concepto:

objetiva (Fermat, Pascal, Huygens, etc), subjetiva (Ramsey,
de Finetti, Savage), logica.
Axiomas de Kolmogorov.

Riesgo e incertidumbre: La paradoja de Ellsberg: Una urna

contiene 90 bolas donde 30 son rojas. El resto de las bolas son
amarillas o negras y su distribucion es desconocida. Algunas
personas fueron sometidas a una apuesta. Apuesta A: Quien
saque una bola roja gana una cantidad monetaria, las
amarillas y las negras pierden. Apuesta B: Quien saque una
bola amarilla gana, el resto pierde. La mayora de las personas
optan por la A. Despues cambiamos las apuestas de una
manera que en ambos casos, las bolas negras son desde ahora
ganadoras. Apuesta C: Quien saque una bola roja o negra
gana, las amarillas pierden. Apuesta D: Quien saque una bola
amarilla o negra gana, las rojas pierden. En este caso, la
mayora de las personas escogen la D. Lo cual entra en
contradiccion con la desicion anterior de escoger la apuesta A,
a pesar de que la bola negra es ganadora en ambas C y D, lo
cual no aporta diferencia alguna.
Ellsberg explica este resultado en terminos de la diferencia

entre el riesgo e incertidumbre. Las personas sometidas a
estas escogencias suponen prudentemente que la distribucion
desconocida entre bolas rojas y amarillas pueden traerles
desventaja y por lo tanto escogen en ambas ocasiones bajo el
riesgo conocido (1/3 en la primera prueba, 2/3 en la segunda).
Llama la atencion sobre la necesidad de una teora para
modelar la incertidumbre.
Una forma de interpretar el concepto de probabilidad desde un

punto de vista logico es de acuerdo al concepto de
razonamiento plausible (Jaymes): cuano en el mundo real
observamos un evento B que tpicamente es consecuencia de
un evento A, decimos que A es plausible pero usalmente no es
posible deducir que A ha sucedido. La idea predominante es
que A es plausible dado que observamos B. La logica es que si
B ha ocurrido, esto arroja evidencia en favor de A.
Al fundamentar la teora de la probabilidad de esta forma se
obtiene una formalizacion de la idea del grado de
incertidumbre sobre la ocurrencia de un evento (plausibilidad
del evento).
Luego la interpretacion de la probabilidad de un evento no

esta relacionada con la frecuencia de un evento repetido sino
con el grado de incertidumbre del evento. Esta es la
interpreatcion subjetivista del concepto de probabilidad.
Para de Finetti la probabiidad (objetiva) de un evento no
existe. Es algo tan ficticio y en contradicion con laevidencia
cuanto la existencia del eter.
Cual es la probabilidad de cada numero cuando se lanza un
dado al aire?
La idea de aprendizaje en un ambiente incierto puede ser sutil.
La paradoja del gato I. Una persona esta frente a tres puertas

cerradas. Se sabe que detras de alguna de las puertas hay un
gato. La persona se le pide escoger una puerta. Antes de abrir
cualquier puerta, una segunda persona que sabe exactamente
que hay detras de cada puerta y conoce tambien cual fue la
puerta elegida por la primera persona, este abre una de las
puertas que sea la elegida por la primera persona y en la que
no este el gato. Ahora, con una puerta abierta en la que no
esta el gato, se le pregunta a la primera persona si deseara
cambiar de puerta.
El sentido comun dice que no hace diferencia. Pero la teora

de la probabilidad dice otra cosa. La probabilidad de encontrar
el gato en alguna de las dos puertas al cambiar la eleccion
original es mayor que la probabilidad de que el gato este en la
primera puerta elegida.
Definicion probabiidad condicional. Dados dos evento A y B,

tal que P(B) > 0 definimos la probabilidad condicional de A
dado B como:
P(A B)
P(A |B) = . (1)
P(B)
El teorema de Bayes (o regla de Bayes) afirma que:
P(B |A) P(A)

P(A |B) = . (2)
P(B)
Este resultado es la base de toda la estadstica Bayesiana.

La paradoja del gato II: Para formalizar este problema,
supongamos que la primera eleccion fue la tercera puerta.
Sean A1 , A2 y A3 los eventos en los cuales el gato esta detras
de la puerta 1, 2 o 3 respectivamente. Sean B1 y B2 los
eventos en los cuales el segundo jugador abre la puerta 1 o 2
reespectivamente. Nuetro objetivo es calcular P (Ai |Bj ) .
Entonces dada la informacion del problema es natural suponer:
1
P(Ai ) = , P (B1 |A1 ) = P (A2 |B2 ) = 0
3
P(B1 |A2 ) = P(B2 |A1 ) = 1

y
1
P(B1 |A3 ) = P(B2 |A3 ) = .
2
Entonces si la segunda persona abre la puerta 2 es facil
calcular, usando la regla de Bayes, P A1 |B2 ) = 23 .
Contenido
Introduccion
Riesgo frecuentista
Riesgo Bayesiano
Familias Conjugadas
Estimadores
Prueba de hipotesis
Discusion
Predicciones

Sea un espacio de parametros o estados de la naturaleza y
un espacio de datos observables.
En terminos de funciones de densidad el teorema se puede
expresar como:
f (y |)f ()
f( |y ) = f (y )
donde f (y ) es la distribucion marginal de la variable aleatoria

Y (o distribucion marginal de los datos):
Z
f (y ) = f (y |)f ()d,

f ( |y ) es la distribucion expost (posteriori) del parametro
La funcion L(|y )= f (y |) , como funicion de se llama la

funcion de verosimilitud.
f () es la distribucion inicial (prior) sobre los parametros.
Observese que no se ha hecho ninguna hipotesis sobre la

forma de la distribucion muestral. En general suponemos que
y es un vector de obsrevaciones y f (y |) es la distribucion
conjunta o distribucion del vector aleatorio Y .
En pocas palabras la estadstica Bayesiana es un modelo
formal de aprendizaje en un ambiente incierto aplicado a la
inferencia estadstica.
La mecanica Bayesiana es siempre la misma. Formule un
distribucion inicial para lo parametros y calcule la distribucion
expost.
El resultado final del analisis Bayesiano es la distribucion
expost. En el analisis clasico, el obejetivo final es un estimador
que si bien es una variable aleatoria es, conceptualmente, muy
distinto.
Contenido
Introduccion
Riesgo frecuentista
Riesgo Bayesiano
Familias Conjugadas
Estimadores
Prueba de hipotesis
Discusion
Predicciones
En la teora de decision la idea es combinar la informacion

muestral con informacion no muestral con el objeto tomar una
decison optima.
El analisis Bayesiano comparte con la teora de la decision el
uso de informacion no muestral.
Recordemos que es el espacio de parametros o estados de la
naturaleza. es un estado de la naturaleza.
Sea A el espacio de acciones del tomador de decisiones. a A
es una accion.

Un problema de decision es una funcion D : A C ,

donde C es un espacion de consecuencias. Suponemos que el
agente tiene preferencias sobre el conjunto de consecuencias
que las representamos mediante una funcion de (des)utilidad.
A continuacion definimos la funcion de perdida como la
composicion de la funcion D y la funcion de (des)utilidad.
Un problema de desicion esta bien puesto cuando el conjunto

la especificacion del conjunto de acciones, estados de la
naturaleza y consecuencias son tales que las preferencias del
tomador de decisiones sobre las consecuencias son totalmente
independientes de las acciones o estados de la naturaleza.
Sea L(, a) una funcion de perdida.

Definimos la perdida esperada expost o perdidad esperada
Bayesiana cuando se toma una decision a A como:
Z
(a |y ) = L(, a)f ( |y )d

Dada una funcion de perdida y una distribucion expost,
definimos el estimador Bayesiano de como:
bB (y ) = argminaA (a |y )
Example (Funciones de perdida)

Algunas funciones de perdida estandar son:
1 Perdida cuadratica.
2 Error absoluto.
Los respectivos estimadores son el valor esperado y la mediana
expost del parametro respectivamente. Verificar el primer caso es
inmediato.
Example (Distribucion inicial y muestral normal)

Supongamos que tenemos una muestra de n observaciones
y1 , ..., yn , yi vi.i.d N(, 1) entonces la distribucion muestral
(funcion de verosimilitud) es:
n 1 X
p(y |) = (2) 2 n exp( (yi )2 ) (3)
2 2
i
Ahora supongamos que la distribucion inicial p() v N 0 , 02

donde los parametros de esta distribucion son conocidos (estos se

denominan hiperparametros). Observese que antes de observar los
datos, si el agente tiene una funcion de perdida que es cuadratica,
entonces el estimador Bayesiano (exante) de es 0 .
La distribucion expost es:
p( |y ) p(y |) p() (4)

1 X
exp( 2 ( )2 ) (5)
2
n
2
y + 12 0
0
= n 1
(6)
2
+ 20
1
2 = n 1
(7)
2
+ 02
Cuando la funcion de perdida es la funcion de error

cuadratico. Entonces el estimador Bayesiano (expost) es:
E [ |y ] = (8)
Es decir, el valor esperado expost de es una combinacion

convexa del estimador clasico y de los datos observados y la
media inicial.
Cuando el numero de observaciones es grande o la
incertidumbre de la distribucion inicial es grande, el estimador
Bayesiano se aproxima al estimador clasico.
: A es una regla de decisicion.

Un tipo de reglas de decision importante son las reglas de
decision aleatorias.
Para un problema sin datos, una regla de decisicion es
simplemente una accion.
Contenido
Introduccion
Riesgo frecuentista
Riesgo Bayesiano
Familias Conjugadas
Estimadores
Prueba de hipotesis
Discusion
Predicciones
Riesgo frecuentista
Definition (Funcion de Riesgo Clasica)
Dada una regla de decision y una funcion de perdida definimos la
funcion de riesgo (clasica) como:
Z
R(, ) = EY [L(, )] = L(, (y ))dF (y |) (9)
Observese que la funcion de riesgo clasica promedia sobre

todas las realizaciones posibles de los datos (aun aquellas que
no han ocurrido!).
Esta es una funcion del estado y la regla de decision (la regla
de desicion es tpicamente un estimador).
Contenido
Introduccion
Riesgo frecuentista
Riesgo Bayesiano
Familias Conjugadas
Estimadores
Prueba de hipotesis
Discusion
Predicciones
A diferencia de la perdida esperada Bayesiana que es un

numero, el riegso frecuentista depende del estado. Esto
dificulta el problema de escoger una regla de decision para
minimizar el riesgo ya que esta va depender del estado.
La siguiente definicion acota el universo razonable de reglas de
decision.
Definition (Admisibilidad)
Dada una funcion de peridida. Decimos que una regla de decision
es inadmisible si existe otra regla de decision que la (domina
debilmente) para toda realizacion posible de los estados. De lo
contrario se llama admisible.

Riesgo frecuentista
Bajo condiciones debiles se puede mostrar que los estimadores

Bayesianos son admisibles. Existe un teorema converso
llamado teorema de completo de clases.
En la teora clasica estadstica existen algunas formas de
resolver el problema de decision:
1 Maxima verosimilitud.
2 Mnima varianza.
3 Mnimos cuadrados ordinarios.
4 Sesgo nulo.
5 Solucion minimax.
Riesgo frecuentista
Una regla de decision M satisface el principio minimax si:
sup R(, M ) = inf(D) sup R(, ) (10)
donde (D) denota e conjunto de reglas de decision

aleatorias (que tienen como rango las acciones mixtas).
Intuitivamente, una regla de decision satisface el principio
minimax si permite asegurar el mnimo riesgo en el pero de los
casos (peor estado).
Invarianza: Este principio afirma que las reglas de decision
deben ser las mismas cuando los problmeas de decision tienen
la misma estructura.
Contenido
Introduccion
Riesgo frecuentista
Riesgo Bayesiano
Familias Conjugadas
Estimadores
Prueba de hipotesis
Discusion
Predicciones
Riesgo Bayesiano
Definition (Riesgo Bayesiano)
Dada una regla de decision , una funcion de peridida L y una
distribucion inicial de los parametros p definimos la funcion de
riesgo Bayesiana como:
Z
r (, p) = Ep [R(, )] = R(, )dp() (11)

Observese que el riesgo Bayesiano promedia sobre el espacio

de parametros y es una funcion unicamente de la regla de
decision y la idstribucion inicial de los parametros.
Riesgo Bayesiano
Asociado a el riesgo Bayesiano hay un principio de decision.

Una regla de decision B es una regla de decision Bayesiana si:
r (, B ) = infD R(, ) (12)
donde D es el espacio de reglas de decision.

Riesgo Bayesiano
En la teora de la decision, la forma estandar de resolver el

problema de decision es usando el principio condicional de
Bayes. Una regla de decision condicional Bayesiana CB es
una regla de decision tal que:
(, CB (y )) = infaA (, a) (13)
Observese que en un problema sin datos, la regla de decision

condicional coincide con la regla de desicion de Bayes.
En general se cumple que la decision usando la regla
condicional es igual a decision usando la regla de Bayes.
Contenido
Introduccion
Riesgo frecuentista
Riesgo Bayesiano
Familias Conjugadas
Estimadores
Prueba de hipotesis
Discusion
Predicciones
Familias Conjugadas
Dada una familia de de distribuciones muestrales F, decimos

que una familia de distribuciones iniciales P es una familia
conjugada para F si la distribucion expost es siempre un
elemento de P. Decimos que natural conjugada si es
conjugada y si esta en la familia de distribuciones muestrales.

Contenido
Introduccion
Riesgo frecuentista
Riesgo Bayesiano
Familias Conjugadas
Estimadores
Prueba de hipotesis
Discusion
Predicciones
Estimadores
El estimador de maximaverosimilitud generalizado de es aquel

que maximiza la distribucion expost.
Este es el el valor mas probable dado la idstribucion inical del
parametro y la muestra y .
El error de un estimador se define como la desviacion
cuadratica promedio de los parametros con respecto al
estimador utilizando la distribucion expost.

Contenido
Introduccion
Riesgo frecuentista
Riesgo Bayesiano
Familias Conjugadas
Estimadores
Prueba de hipotesis
Discusion
Predicciones
Prueba de hipotesis
Un subconjunto C de es creible con un nivel de confianza

1 (condicional a y ) si:
1 P(C |y ) (14)
Un conjunto creible tiene un significado probabilstico (aunque

subjetivo). Esto no ocurre siempre en la teora clasica.
Un problema con la nocion Bayesiana de conjunto creble (o
intervalo de confianza) es que pueden existir mucho onjunto
crebles. Una forma, adhoc, de selecionar uno es calculando
conjunto creble de mayor densidad de expost.

Prueba de hipotesis
Sea k el mayor k tal que:
P( : f ( |y ) k |y ) 1 (15)
Entonces definimos el conjunto creble CHPD con un nivel de

confianza 1 como:
CHPD = { : f ( |y ) k } (16)
Prueba de hipotesis
La prueba de hipotesis en estadstica clasica consiste en

estudiar los errores tipo I y II (probabilidad que la muestra
observada resulte en la hipotesis incorrecta siendo aceptada).
En estadstica Bayesiana la prueba de hipotesis es
conceptualmente sencillo: comparar la probabilidad expost
P(1 |y ) y P(2 |y ) donde las pruebas de hipotesis son:
H0 : 0 y H1 : 1 .
La razon entre estas dos probabilidades se llama posterior
odds ratio. La misma razon pero con las probabilidades
iniciales se llama prior odd ratios.
La razon entre el posterior y el prior odds se llama factor de
Bayes (Berger).
Cuando las hipotesis son simples, el factor de Bayes es
simplemente la razon de las funciones de verosimilitud.
Contenido
Introduccion
Riesgo frecuentista
Riesgo Bayesiano
Familias Conjugadas
Estimadores
Prueba de hipotesis
Discusion
Predicciones
Predicciones
Supongams que queremos pronosticar una variable z basado
en la variable bservable y . En estadstica Bayesiana el objeivo
es determinar p(z |y ) .
Esto se puede escribir:
Z
p(z |y ) = p (z, |y ) d (17)
Z
p(z |y ) = p (z |y , )p( |y ) d (18)

p(z |y ) se denomina la densidad predictiva de z dado los datos
observables y .
El analisis Bayesiano trata de forma simetrica, parametros,
observables y predicciones: son todas variables aleatorias.
Contenido
Introduccion
Discusion
Un modelo se define formalmente como una distribucion
inicial y una distribucion muestral.
Supongamos que tenemos m modelos que buscan explicar los
datos observado y .
Usando la distribucion inicial y muestral de cada modelo
calculamos la distribucion expost de los datos.
P(y |, M) P( |M)
P( |y , M) = (19)
p(y |M)
donde p(y |M) es la distribucion marginal de los datos
condicional al modelo. Esta tambien se denomina la
verosimilitud marginal y se puede obtener mediante la
integracion obvia.
Ahora podemos tener una distribucion inicial de cada uno de

los modelos (grado de confianza que tenemos en el modelo) y
esto nos permite calcular la distribcuion expost sobre nuestra
confianza en el modelo condicional a los datos observados:
P(y |M)P(M)
P(M |y ) = (20)
p(y )
donde P(M) el la distribucion inicial del modelo.

Observese que la verosimilitud marginal se obtiene mediante
integraciony en principio, con esta, se puede calcular la
distribucion expost del modelo (dados la distribucion inical de
los modelos y la distribucion marginal de los datos).
Como usualmente es dificil determinar la distribucion marginal

de los datos lo que se hace es comparar la razon entre las
distribuciones expost:
P(M i |y )
POij = (21)
P(M j |y )
denominado posterior odds ratio.

Cuando la prior sobre cada modelo es la misma, el posterior

odds ratio se reduce a la razon entre las verosimilitudes
marginales.

P(y M i
BFij = (22)
P(y |M j )
El caso de comparar dos modelos lineales bajor normalidad es

posibels hacerlo a mano.
Contenido
Introduccion
Discusion
Consideremos el problema de consistencia.

Supongamos que existe una distribucion poblacional f (y ).
Sea p(y |) la distribucion muestral.
Definamos la distancia entre ambas distribuciones como la
distancia de Kullback - Leibler.
Sea el valor que minimiza la distancia entre la distribucion
poblacional y la distribucion muestral. Uno puede mostrar que
si existe un parametro verdadero tal que la distribucion
muestral es igual a la distribucion poblacional entonces es
el parametro verdadero. En este caso decimos que el modelo
muestral esta bien especificado.
Theorem (Consistencia)
Supongamos que es espacio de estados es compacto y sea 0
una vecindad del verdadero parametro 0 con probabilidad inicial
difeerente de cero. Entonces,
p( 0 |y ) 1
cuando el tamano de la muestra crece hacia el infinito.
Es decir, si el modelo esta bien especificado (distribucion

muestral es igual a la poblacional para algun parametro)
entonces la distribucion expost se va concetrar
asintoticamente alrededor del verdadero parametro siempre el
verdadero parametro este en el soporte de la distribucion
inicial.
Contenido
Introduccion
Discusion
Discusion
Observese que la principal diferencia entre el analisis clasico y
el Bayesiano se deriva de la forma radicalmente de intepretar
los parametros, modelos y pronosticos de un modelo. Estos
tres se intepretan como variable aleatorias y en ese sentido se
les da un tratamiento simetrico con los datos observados.
La diferencia fundamental entre ambas aproximaciones es el
uso de informacion inicial en el proceso de inferencia. La
teora clasica responde
1 Antes de observar los datos, que podemos esperar.
2 Antes de observar los datos, que tan precisos son los
estimadores.
3 Dado que la hipotesis a estudiar es verdadera, que probabilidad
existe de que los datos indiquen que es verdadera.
La aproximacion
Metodos Bayesiana
Bayesianos - Banco de Guatemala considera que las preguntas
Alvaro Riascos
Discusion
Example (Distribucion inicial y muestral normal)

Considere la distribucion expost cuando la distribucion inical no es
informativa. Es facil mostrar que el estimador Bayesiano mas o
menos una distribucion estandar (de la distribucion expost) es:

b=y
(23)
n
Ahora la distribucion del estimador clasico y mas o menos una

desviacion estandar es igual. Sin embargo, la intepretacion es
completamente distinta. En el primer caso la interpretacion es:
Que tan preciso es la estimacion de mu dado que hemos observado
ciertos datos.
Discusion
Una crtica estandard al analisis Bayesiano es la necesidad de
definir una distribucion inicial de los estados.
Bajo condiciones debiles, siempre existe una prior natural.
Decimos que la distribucion marginal conjunta de los datos es
intercambiable si es invariante frente a permutaciones de los
subndices de los datos.
Suponga que los datos toman valores cero o uno unicamente.
Entonces el Teorema de deFinetti afirma que los datos se
pueden interpeetar como distribuidos condicional i.i.d con yi
distribuido Bernoulli con parametro . Ademas caracteriza la
distribucion asintotica del parametro en terminos del la
media muestral. El converso tambien vale.
Luego la intercambiabilidad es una hipotesis natural en ciertas
circunstancias que racionaliza la escogencia de un modelo de
mixtura de Bernoulli dejando como grado de libertad la
distribucion asintotica del para lo cal basta con expresar
nuestra distribucion inicial sobre la distribucion de la media
muestral.
Discusion
Example (Laboratorios)
Una sustancia debe ser analizada y existen dos laboratorios
igualmente buenos para hacerlo. Para tomar una decision se lanza
una moneda al aire. Al recibir los resultados del laboratorio
escogido el agente se pregunta: Deberamos de llevar en
consideracion que estos resultados dependen de que se lanzo al aire
una moneda que hubiera podido indicar que fuera el otro
laboratorio el que hiciera el examen? De acuerdo a la vision clasica
deberamos de promediar sobre todos los posibles resultados
incluyendo los del laboratorio que no hizo la prueba.
Discusion
Example (Diferentes distribuciones muestrales)
Suponga que se lanza de forma independiente 12 monedas al aire y
se obervan 9 caras y 3 sellos. Esta informacion no especifica
completamente el experimento puesto que pudo ser el resultado de
dos procedimientos: (1) Se fijo en 12 el nuemro de lanzamientos y
se lanzo la moneda y (2). La moneda se lanzo hasta que aparecio
la tercer sello. En ambos casos la distribucion muestral es
completamente distinta. En el primer caso es Binomial y el el
segundo es Negativa Binomial. Ahora suponga que queremos
probar la hipotesis de que la probabilidad de que salga cara es 12
contra la hipotesis de que sea mayor que 21 . Se disena una prueba
que es de la siguinete forma, si el nuemro de caras observadas es
superior a algun umbral c, entonces se se rechaza la hipotesis de
que estados (probabilidad de que salga) sea 12 . Por definicion el
p-valor de esta hipotesis es la probabilidad de observar 9 o mas
caras en el experimento. Si calculamos el p-valor bajo para los dos
procedimientos en el primero aceptamos la hipotesis nula y en el
Discusion
La forma como en la teora clasica se eliminan parametros es

mediante la sustitucion de los mismos por un parametro. En el
analisis Bayesiano se promedia sobre todos sus posibles
valores.
Contenido
Introduccion
Discusion

1 Teoria Decision Presentacion PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

1 Teoria Decision Presentacion PDF

Uploaded by

Copyright:

Available Formats

Contenido

Alvaro J. Riascos Villegas

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Usualmente existe informacion incial sobre los parametros de

Permite condicionar a los datos observados. En el analisis

Existen por lo menos tres interpretaciones del concepto:

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Riesgo e incertidumbre: La paradoja de Ellsberg: Una urna

Ellsberg explica este resultado en terminos de la diferencia

Una forma de interpretar el concepto de probabilidad desde un

Luego la interpretacion de la probabilidad de un evento no

La paradoja del gato I. Una persona esta frente a tres puertas

El sentido comun dice que no hace diferencia. Pero la teora

Definicion probabiidad condicional. Dados dos evento A y B,

El teorema de Bayes (o regla de Bayes) afirma que:

P(B |A) P(A)

Este resultado es la base de toda la estadstica Bayesiana.

P(B1 |A2 ) = P(B2 |A1 ) = 1

La Aproximacion Bayesiana a la Estadstica

donde f (y ) es la distribucion marginal de la variable aleatoria

La funcion L(|y )= f (y |) , como funicion de se llama la

Observese que no se ha hecho ninguna hipotesis sobre la

En la teora de decision la idea es combinar la informacion

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Un problema de decision es una funcion D : A C ,

Un problema de desicion esta bien puesto cuando el conjunto

Sea L(, a) una funcion de perdida.

Example (Funciones de perdida)

Example (Distribucion inicial y muestral normal)

Ahora supongamos que la distribucion inicial p() v N 0 , 02

donde los parametros de esta distribucion son conocidos (estos se

La distribucion expost es:

p( |y ) p(y |) p() (4)

Cuando la funcion de perdida es la funcion de error

Es decir, el valor esperado expost de es una combinacion

: A es una regla de decisicion.

Observese que la funcion de riesgo clasica promedia sobre

A diferencia de la perdida esperada Bayesiana que es un

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Bajo condiciones debiles se puede mostrar que los estimadores

Una regla de decision M satisface el principio minimax si:

sup R(, M ) = inf(D) sup R(, ) (10)

donde (D) denota e conjunto de reglas de decision

Observese que el riesgo Bayesiano promedia sobre el espacio

Asociado a el riesgo Bayesiano hay un principio de decision.

r (, B ) = infD R(, ) (12)

donde D es el espacio de reglas de decision.

En la teora de la decision, la forma estandar de resolver el

Observese que en un problema sin datos, la regla de decision

Dada una familia de de distribuciones muestrales F, decimos

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

El estimador de maximaverosimilitud generalizado de es aquel

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Un subconjunto C de es creible con un nivel de confianza

Un conjunto creible tiene un significado probabilstico (aunque

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Sea k el mayor k tal que:

Entonces definimos el conjunto creble CHPD con un nivel de

La prueba de hipotesis en estadstica clasica consiste en

p(z |y ) = p (z |y , )p( |y ) d (18)

Ahora podemos tener una distribucion inicial de cada uno de

donde P(M) el la distribucion inicial del modelo.

Como usualmente es dificil determinar la distribucion marginal