Introduccion A La Estadistica Bayesiana PDF

Introducción a la Estadı́stica
Bayesiana con R
Juan Carlos Correa Morales

Escuela de Estadı́stica
Universidad Nacional de Colombia-Sede Medellı́n
Medellı́n
2013
La incertidumbre está en todas partes
y tú no puedes escapar de ella.
Dennis Lindley
El azar no es, sin embargo, una loca fantası́a;

responde a su vez a leyes.
Los dados obedecen a la gravedad
y sólo tienen seis caras.
Juan José Sebreli
Comediantes y mártires: Ensayo contra los mitos
i
ii
Prefacio
La estadı́stica bayesiana es un campo que ha tenido un desarrollo impre-

sionante en los últimos años, en especial desde la introducción de la parte
computacional. Muchas ideas han estado circulando desde hace mucho tiem-
po, pero su imposibilidad práctica hacı́an que se miraran con cierto pesar, ya
que eran muy atractivas pero inaplicables. Esto afortunadamente ha cambia-
do. Es lamentable que muchos de los libros básicos en estadı́stica no hagan
una presentación de los elementos básicos de esta aproximación para la so-
lución de problemas estadı́sticos. Aquı́ vamos a presentar una aproximación
eminentemente práctica, esto es, el lector puede aplicar de forma casi in-
mediata los métodos a problemas reales. El software que se utilizará es de
dominio público como el R ([18]). Se requiere familiaridad con el progra-
ma al menos a un nivel operativo básico. Consideramos que si la estadı́sti-
ca bayesiana se diferencia en algo de la estadı́stica tradicional (clásica) es
en permitirle al usuario incorporar información disponible de una manera
transparente y directa.
El programa y lenguaje estadı́stico R ([18]) se ha convertido en uno de
los estándares para realizar trabajo estadı́stico, tanto aplicado como para el
desarrollo de nuevas metodologı́as. La estadı́stica bayesiana se ha beneficia-
do enormemente de la flexibilidad y el potencial de este programa, el cual
permite crear fácilmente librerı́as y ser puestas en la red de tal forma que
usuarios a nivel mundial puedan usarlas y validarlas, retroalimentando a sus
creadores, de tal forma que en muy poco tiempo se tengan subprogramas de
gran eficiencia y calidad. Hay ahora muchas librerı́as que han sido creadas
para resolver problemas de tipo general como son modelos lineales y lineales
genralizados, o más generales aún que permiten a un usuario resolver pro-
blemas propios mediante el uso de muestreadores proporcionados en estas
librerı́as.
iii
Se asume que el lector tiene familiaridad con los métodos estadı́sticos
a un nivel operativo, al menos. conocimiento de inferencia a un nivel de
un texto básico de estadı́stica matemática del estilo de [12] o [17] ayuda
bastante.
iv
Índice general
1. Introducción 3
1.1. Ejemplos tı́picos . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2. Probabilidad personal o subjetiva . . . . . . . . . . . . . . . . 5
2. Probabilidad Subjetiva “Apriori” 7

2.1. Probabilidad Subjetiva, Apuestas y Loterı́as . . . . . . . . . . 7
2.1.1. Clasificación de las Distribuciones Apriori . . . . . . . 11
2.2. Distribuciones Apriori No Informativas . . . . . . . . . . . . . 12
2.2.1. Distribuciones Apriori Informativas . . . . . . . . . . . 12
3. Teorema de Bayes 13
3.1. Consistencia Posterior . . . . . . . . . . . . . . . . . . . . . . 17
3.2. Usos de la Función de Verosimilitud en Análisis Bayesiano . . 17
4. Distribuciones Conjugadas 21
4.1. Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . 23
4.1.1. Elicitación de los Parámetros de la Beta para Propor-
ciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.2. Distribución Binomial Negativa . . . . . . . . . . . . . . . . . 31
4.3. Distribución Geométrica . . . . . . . . . . . . . . . . . . . . . 31
4.4. Distribución Multinomial . . . . . . . . . . . . . . . . . . . . 32
4.5. Distribución Poisson . . . . . . . . . . . . . . . . . . . . . . . 33
4.6. Distribución Exponencial . . . . . . . . . . . . . . . . . . . . 41
4.6.1. Caso Especial: Se observa solo el primer estadı́stico de
orden . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.6.2. Caso Especial: Se observa solo el n-ésimo estadı́stico
de orden . . . . . . . . . . . . . . . . . . . . . . . . . . 42
v
4.6.3. Caso Especial: Se observan algunos datos censurados
en el punto x0 . . . . . . . . . . . . . . . . . . . . . . 43
4.6.4. Caso Especial: Se observan todos los datos censurados
en el punto x0 . . . . . . . . . . . . . . . . . . . . . . 43
4.7. Distribución Normal . . . . . . . . . . . . . . . . . . . . . . . 44
4.7.1. Precisión Conocida . . . . . . . . . . . . . . . . . . . . 44
4.7.2. Precisión Desconocida . . . . . . . . . . . . . . . . . . 45
4.7.3. Media y Precisión Desconocidas . . . . . . . . . . . . . 46
4.8. Distribución Gamma . . . . . . . . . . . . . . . . . . . . . . . 49
4.9. Conjugadas en Tramos . . . . . . . . . . . . . . . . . . . . . . 50
5. Análisis de Sensibilidad 51
5.1. Sensibilidad a la Apriori . . . . . . . . . . . . . . . . . . . . . 52
5.1.1. Distancias entre Aposterioris . . . . . . . . . . . . . . 52
5.1.2. Análisis de fronteras extremas (exterme bounds analy-
sis) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2. Sensibilidad a los Datos . . . . . . . . . . . . . . . . . . . . . 52
6. Distribuciones Apriori No Informativas 55

6.1. El Principio de la Razón Insuficiente de Laplace . . . . . . . . 57
6.2. Apriori de Jeffreys . . . . . . . . . . . . . . . . . . . . . . . . 58
6.3. Otras Alternativas . . . . . . . . . . . . . . . . . . . . . . . . 62
7. Marginalización 67
8. Inferencia Bayesiana 71
8.1. Estimación Puntual . . . . . . . . . . . . . . . . . . . . . . . 71
8.2. Regiones de Credibilidad . . . . . . . . . . . . . . . . . . . . . 79
8.2.1. Región de la Densidad Posterior Más Alta (RDPMA) 79
8.2.2. Intervalos Aproximados . . . . . . . . . . . . . . . . . 83
8.3. Pruebas de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . 84
8.3.1. Comparación de Modelos . . . . . . . . . . . . . . . . 93
8.4. Cálculo del Factor de Bayes vı́a MCMC . . . . . . . . . . . . 97
8.4.1. Método de Carlin y Chib . . . . . . . . . . . . . . . . 97
8.4.2. Método de Dellaportas, Foster y Ntzoufras . . . . . . 98
8.5. Otras aproximaciones al factor de Bayes . . . . . . . . . . . . 98
8.6. La aproximación BIC . . . . . . . . . . . . . . . . . . . . . . . 99
vi
9. Estadı́stica Bayesiana vı́a Simulación 103
9.1. MCMC: Monte Carlo por Cadenas de Markov . . . . . . . . . 104
9.1.1. Muestreador de Gibbs . . . . . . . . . . . . . . . . . . 110
9.1.2. Muestreador Griddy Gibbs . . . . . . . . . . . . . . . 123
9.1.3. Algoritmo Metropolis-Hastings . . . . . . . . . . . . . 124
9.1.4. El Algoritmo Metropolis . . . . . . . . . . . . . . . . . 125
9.1.5. Problemas con el Muestreador de Gibbs . . . . . . . . 126
9.1.6. Ventajas y Desventajas Dos Esquemas de Muestreo . 126
10.Diagnósticos de los Muestreadores MCMC 129

10.1. Monitoreo y Convergencia de una MCMC . . . . . . . . . . . 130
10.1.1. Diagnósticos . . . . . . . . . . . . . . . . . . . . . . . 130
10.2. Diagnósticos en CODA . . . . . . . . . . . . . . . . . . . . . . 134
10.2.1. Estimación Paramétrica del Tiempo Medio de Falla
Cuando Solo Es Posible Observar Un Punto en el
Tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . 134
10.3. Algoritmo E − M . . . . . . . . . . . . . . . . . . . . . . . . . 141
10.3.1. Ejemplo: Distribución Birnbaum-Saunders . . . . . . . 142
10.4. Pruebas de hipótesis usando simulación . . . . . . . . . . . . 144
11.Inferencia Predictiva 151

11.1. Procedimiento Exacto . . . . . . . . . . . . . . . . . . . . . . 151
11.2. Distribución Predictiva vı́a MCMC . . . . . . . . . . . . . . . 154
11.2.1. Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . 155
12.Modelos Lineales 163

12.1. La regresión clásica . . . . . . . . . . . . . . . . . . . . . . . . 163
12.1.1. Usos del Análisis de Regresión . . . . . . . . . . . . . 163
12.1.2. Estrategia Tı́pica en un Análisis de Regresión . . . . 163
12.1.3. Regresión simple . . . . . . . . . . . . . . . . . . . . . 164
12.1.4. Modelo de Regresión Lineal Múltiple . . . . . . . . . 165
12.1.5. Notación Matricial . . . . . . . . . . . . . . . . . . . . 166
12.2. Análisis Conjugado . . . . . . . . . . . . . . . . . . . . . . . . 166
12.2.1. Distribución Predictiva . . . . . . . . . . . . . . . . . 169
12.2.2. Inferencias . . . . . . . . . . . . . . . . . . . . . . . . 170
12.2.3. Pruebas de Hipótesis . . . . . . . . . . . . . . . . . . . 170
12.3. Estrategias en Modelación . . . . . . . . . . . . . . . . . . . . 173
12.4. Librerı́a MCMCpack . . . . . . . . . . . . . . . . . . . . . . . 174
12.5. Detección de outliers . . . . . . . . . . . . . . . . . . . . . . . 181
vii
13.Modelo Lineal Generalizado 183
13.1. Modelo Logı́stico . . . . . . . . . . . . . . . . . . . . . . . . . 184
13.1.1. Selección de la Distribución Apriori . . . . . . . . . . 185
13.2. Regresión Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 188
13.3. Estimación del coeficiente de correlación . . . . . . . . . . . . 190
13.3.1. Distribución No Informativa de Laplace . . . . . . . . 191
13.3.2. Distribución Apriori Informativa . . . . . . . . . . . . 191
13.3.3. Uso del Modelo Completo . . . . . . . . . . . . . . . . 192
1
2
Capı́tulo 1
Introducción
La escuela bayesiana en estadı́stica ha tomado fuerza en los últimos años

debido a su potencial para resolver problemas que no se pueden atacar con
otros métodos y porque permite incorporar naturalmente información que es
útil en la solución del problema enfrentado. Nadie niega que ante un proble-
ma debemos utilizar toda la información disponible acerca de un problema
particular. Para nuestro caso estadı́stico la incertidumbre sobre parámteros
poblacionales se resume por medio de distribuciones de probabilidad, que
antes de recoger información muestral relevante para ellos, se conoce como
‘distribución apriori.’
La aproximación bayesiana es una herramienta fundamental en situa-
ciones donde la recolección de información muestral sea muy difı́cil, por
ejemplo en tópicos de alta sensibilidad social, tales como el consumo de dro-
gras ilı́citas, o extremadamente costosos o imposibles, como serı́a el caso de
la determinación del riesgo de falla de una nueva nave espacial o cuál es la
probabilidad de que haya vida inteligente en nuestra galaxia.
En estadı́stica realizamos y tratamos de responder preguntas con res-
pecto a las caracterı́sticas de una o varias poblaciones. En la aproximación
bayesiana tenemos:
La información sobre un parámetro (puede ser un vector) que se tiene
se debe resumir en una distribución de probabilidad, esta será llamada
la distribución apriori.
Los parámetros son considerados variables aleatorias (esto no es acep-
table en la estadı́stica clásica).
La información apriori puede provenir de:
3
• estudios previos
• información subjetiva de expertos (la cuantificación de esta in-
formación es lo que llamamos elicitación).
1.1. Ejemplos tı́picos

Ejemplo 1.1 La loterı́a que jugó anoche. Suponga que a usted un
amigo le ofrece un billete de loterı́a, pero con el problema que la loterı́a
jugó anoche. Su amigo, que ha demostrado ser una persona honesta le in-
forma que él no sabe el resultado de la loterı́a, y usted tampoco. En una
situación como ésta podemos pensar en una probabilidad de que el billete
sea el ganador es la misma que el billete tenı́a antes de que se jugara la
loterı́a, no lo piensa ası́?
Ejemplo 1.2 Estatura de los colombianos. Si pensamos en la estatu-

ra promedio de los hombres colombianos podemos pensar seriamente que
este valor no es mayor que 180 cms. ni menor que 160 cms. Es claro que
si conocemos muchos hombres colombianos nuestra información puede uti-
lizarse en un proceso inferencial, pero confiarı́amos más si la información
sobre la estatura proviene de algún estudio previo realizado sobre el mismo
tema. Si, adicionalmente, disponemos de la información de ACOPLA95 (la
base de datos antropométrica que fue levantada por el ISS y la Escuela de
Salud Pública en 1995) podemos usar esta información para ayudar a la
determinación de este parámetro de interés.
Ejemplo 1.3 Porcentaje de productos rechazados en un proceso

de producción nuevo. Usualmente los ingenieros cuando implementan
nuevos programas de producción tiene ideas muy claras de cuál será el por-
centaje de productos rechazados bajo condiciones normales del proceso. Es-
ta información debe ser cuantificada de tal forma que se puedan establecer
parámetros iniciales y determinar pérdidas esperadas, etc.
Ejemplo 1.4 Tasa de estudiantes que ejercen la prostitución. Si

queremos determinar el porcentaje de estudiantes que ejercen la prostitu-
ción en nuestra universidad, no parece fácil resolver esto mediante una simple
4
encuesta, aunque es posible utilizar procedimientos como el de la respues-
ta aleatorizada, el hecho de enfrentar un encuestador puede llevar a dar
respuestas socialmente aceptables.
1.2. Probabilidad personal o subjetiva

Las ideas iniciales de la probabilidad surgieron relacionadas con los jue-
gos de azar y su interpretación es básicamente frecuentista. Esta formulación
frecuentista trabaja bien en muchas situaciones, pero no en todas. Una ca-
racterı́stica distintiva de la estadı́stica bayesiana es que tiene en cuenta de
forma explı́cita la información previa y se involucra en el análisis en forma de
distribución, llamada distribución apriori. La teorı́a clásica la considera bási-
camente para determinar tamaños muestrales y el diseño de experimentos
y, a veces, como forma de crı́tica de los resultados hallados.
La expresión de la información previa en forma cuantitativa puede ser un
proceso complejo y delicado, aunque se han hallado soluciones que pueden
llegar a parecer extrañas, como lo puede ser el uso de lo que se conoce
como distribuciones no informativas, pero que se utilizan extensamente en
el trabajo bayesiano aplicado.
Fuentes tradicionales para la construcción de la distribución apriori son:
Estudios previos similares. La utilización de estudios previos sobre

unos pocos parámetros especı́ficos ha dado origen a un área conoci-
da como metanálisis, la cual puede trabajarse desde el punto clásico y
bayesiano. Un problema cuando se trabaja con datos sacados de publi-
caciones y no con los estudios originales, es el que se conoce como sesgo
de publicación, que hace referencia a la publicación, por parte de los
editores o autores, solo a aquellos resultados que son significativos. [7]
describe una forma de desarrollar distribuciones apriori, conocidas co-
mo aprioris potencia, la cual se obtiene al combinar una apriori con una
verosimilitud calculada a partir de información muestral histórica pero
ponderada por un factor que refleja de alguna forma la relevancia de
esta información. Si z n0 denota los datos históricos y la verosimilitud
del parámetro θ es L (θ |z n0 ) y si ξ0 (θ) denota la apriori (podrı́amos
decir una pre-apriori), entonces la apriori geométrica se define como
ξ P (θ |z n0 ) ξ0 (θ) [L (θ |z n0 )]a0
5
donde 0 < a0 < 1 es llamado un parámetro de precisión que que valora
la calidad de la información muestral previa. Como puede ser difı́cil
especificar un valor preciso para a0 , se puede considerar una apriori
sobre este parámetro, digamos ξ (a0 |γ0 ) y por lo tanto el resultado
final será
Z
ξ P (θ |z n0 , a0 ) ξ (a0 |γ0 ) d a0
Opinión de expertos. La utilización de expertos es casi obligatoria en

situaciones completamente nuevas donde experimentar puede ser muy
costoso o imposible, por ejemplo en la implementación de polı́ticas a
nivel macroeconómico o en situaciones experimentales especiales, por
ejemplo el lanzamiento de un cohete al espacio.
Diferencias entre la teorı́a clásica

y la teorı́a bayesiana
Caracterı́stica Teorı́a Clásica Teorı́a Bayesiana
Parámetros de interés Constantes desconocidas Variables aleatorias
Distribución apriori No existe Existe y es explı́cita
Modelo muestral Se asume Se asume
Distribución posterior No existe Existe y se deriva
Razonamiento Inductivo Deductivo
Utilizaremos la siguiente notación:
θ 0 = (θ1 , · · · , θk ) Vector de parámetros

x1 , · · · , xn Observaciones muestrales (i.i.d.)
ξ(θ) Distribución apriori conjunto de Θ
f (xi |θ) Distribución de Xi dado θ
6
Capı́tulo 2
Probabilidad Subjetiva “Apriori”
El trabajo estadı́stico descansa en el concepto de probabilidad. La defini-

ción matemática es clara: Es una función aditiva no negativa, cuyo máximo
valor es la unidad. El problema fundamental está en la forma como se deter-
mine esa función. [3] comenta “ Tres interpretaciones se le pueden dar a las
distribuciones apriori: como distribuciones de frecuencia basadas quizá en
datos previos, como representaciones normativas y objetivas de lo que es
racional creer acerca de un parámetro o como una medida subjetiva de los
que un individuo particular realmente cree.”
[13] define la probabilidad como
“La probabilidad no es sino un número ı́ndice entre 0 y 1,

que expresa un pensamiento del individuo sobre la posibilidad
del resultado, relativo, de una experiencia... Debemos por tanto,
reconocer que podemos evaluar la probabilidad, bien cuando el
suceso es único o se trata de un suceso de carácter repetitivo,
que pueda presentarse en varias pruebas. El hecho de que el
suceso vaya a ocurrir una vez no impide que un individuo pueda
formar un juicio acerca de lo probable que suceda respecto a
otros posibles resultados; es decir, puede asignar probabilidades
a cada uno de los posibles resultados.”
2.1. Probabilidad Subjetiva, Apuestas y Loterı́as

Las creencias pueden ser expresadas en términos de apuestas, esto se hace
mucho en la práctica, y esto puede ser utilizado como una forma general de
7
hacer las creencias relativas explı́citas [8]. Hay condiciones naturales a ser
impuestas sobre las apuestas:
La apuesta debe ser reversible y que ninguna apuesta pueda ser ela-
borada tal que uno pierda o gane con certeza. Esta condición obliga
al sujeto a asignar las apuestas consistentemente con sus creencias.
La anterior también obliga a aceptar la segunda condición: una vez él

ha fijado los odds, él debe estar preparado para apostar en cualquier
dirección. Esta coherencia juega dos papeles importantes:
1. es moral y obliga a la gente a ser honesta,

2. y otro formal, que permite que las reglas básicas de la probabili-
dad sean derivadas como teoremas.
Una probabilidad puede pensarse en términos de las cantidades que se

involucren en una apuesta y la porción que el sujesto estuviera dispuesto
a arriesgar. Por ejemplo si ud. dice “Las posibilidades que el DIM gane el
torneo son de uno entre 10,” esto implica que
1
P (DIM gane el torneo) =
10
y9
9
P (DIM no gane el torneo) = .
10
Ası́, el DIM es nueve veces más posible que no gane el torneo que gane
el torneo, según su opinión. En términos de aportadores se dice que las
apuestas están 9 a 1. Esto en otras palabras significa que si ud. apuesta un
peso por el evento “DIM gana el torneo”, si este evento ocurre, ud. ganarı́a
nueve pesos.
Es evidente que “subjetividad” no se puede confundir con “arbitrarie-
dad”, ya que todos los elementos para la asignación de probabilidades deben
tenerse en cuenta, incluyendo el conocimiento que otros puedan asignar a
las diferentes posibilidades de los mismos eventos.
presenta el citewinklersiguiente ejemplo sobre como funcionarı́a un pro-
ceso de elicitación usando loterı́as (la construcción formal desde un punto
de vista constructivista de la definción de probabilidad subjetiva mediante
el uso de loterı́as ha sido desarrollada por [2]):
“Suponga que a ud. debe escoger entre la Loterı́a A y la

Loterı́a B.
8
Loterı́a A Ud. gana $100 con probabilidad 21 .
Ud. gana $0 con probabilidad 12 .
Se asume
Loterı́a B Ud. gana $100 si llueve mañana.
Ud. gana $0 si no llueve mañana.
dado que el premio es el mismo en ambas loterı́as ud. prefe-

rirı́a la loterı́a que le dé a ud. la mayor posibilidad de ganar el
premio. Ası́, si ud. escoge la Loterı́a B, entonces ud. debe sentir
que la probabilidad que llueva mañana es mayor que 21 ; si ud.
escoge la Loterı́a A, entre las dos loterı́as, entonces ud. sentirı́a
que esta probabilidad es menor que 12 ; si ud. es indiferente en-
tre las dos loterı́as, entonces ud. siente que la probabilidad que
llueva mañana es igual a 12 . Ahora, considere las mismas loterı́as,
excepto que las probabilidades en la Loterı́a A se cambiaron a 14
y 34 . Si ud. aún prefiere la Loterı́a A a la B, lo que implica que ud.
siente que tiene una mayor oportunidad de ganar con A que con
B, entonces su probabilidad sibjetiva de lluvia es menor que 41 .
Presumiblemente ud. puede estar cambiando las probabilidades
en la Loterı́a A hasta que ud. sea indiferente a la selección entre
la Loterı́a A y la Loterı́a B; si esto sucede cuando sus probabili-
dades sean 0.1 y 0.9, entonces su probabilidad subjetiva de lluvia
es 0.1. De forma similar ud. puede determinar su probabilidad
subjetiva de cualquier evento.”
Una definición formal de probabilidad subjetiva puede dar-
se en términos de loterı́as como sigue. Su probabilidad sibjetiva
P (E) del evento E es el número P (E) que hace que ud. esté in-
diferente entre las siguientes dos loterı́as.
Loterı́a A Ud. gana X con probabilidad P (E).

Ud. gana Y con probabilidad 1 − p(E).
Loterı́a B Ud. gana X si ocurre E.

Ud. gana $0 si no ocurre E.
Aquı́ X y Y son dos “premios.” La única restricción sobre

X y Y es que uno debe ser preferido sobre el otro; si ud. es
9
indiferente entre X y Y , entonces ud. será indiferente entre las
dos loterı́as sin importar la escogencia de P (E).
Un problema con esta forma de elicitación es que es altamente deman-

dante tanto para el elicitador como para la persona que está proporcionando
la información. Esto genera agotamiento y a la larga la persona elicitada ter-
mina dando información a la ligera [6].
Un problema que ha sido señalado para las apuestas es que realmente
se asume que las personas involucradas son “agentes racionales” [?] cuyo fin
es maximizar su propia función de utilidad1 , que por simplicidad se asume
lineal con respecto al dinero involucrado. Obviamente esto no es cierto para
cualquier rango de dinero, ya que no todo el mundo tiene la misma percep-
ción sobre el valor del dinero a ciertos niveles. Un ejemplo es si una loterı́a
involucra cantidades en miles de pesos, las personas actúan diferente a si
se refieren a millones de pesos. Aun para dos personas, la misma cantidad
puede tener utilidades diferentes, suponga el costo de una bolsa de leche, que
puede ser muy marginal para mucha gente, pero esta cantidad puede apre-
ciarse diferente desde el punto de vista de una madre pobre con un bebé a
quien alimentar.
Otra alternativa similar consiste en el uso de un contrato de referencia
[23]. En esta situción se asume la existencia de un premio muy atractivo que
depende de la ocurrencia de un evento de interés. Por ejemplo, suponga que
aud. le ofrecen un contrato que le paga un millón de pesos si su carro es
1
Una función de utilidad U es una función de valor real definida en R si tiene la
siguiente propiedad: Sean P1 y P2 dos funciones de probabilidad tal que EP1 [U ] y EP2 [U ]
existan. Entonces P1 será a lo más tan preferido como P2 , denotado por P1 ≺ e P2 , si, y solo
sı́, EP1 [U ] ≤ EP2 [U ]. Para cada premio r ∈ R, el número U (r) es llamada la utilidad de r.
El EP [U ] se conoce como la utilidad de P . Los siguientes dos resultados son consecuencias
de la definición de función de utilidad:
e r2 , si, y solo sı́, U (r1 ) ≤ U (r2 ).
1. Si r1 y r2 son dos premios en R, entonces r1 ≺
2. Si ℘ es el conjunto de distribuciones de probabilidad de interés, entonces las fun-
ciones de probabilidad se pueden comparar. Esto es, podemos ordenarlas.
Los siguientes supuestos son establecidos en teorı́a de la utilidad:
Si P1 , P2 y P son distribuciones en la clase de referencia ℘ y si α es un número
cualquiera en (0, 1). Entonces P1 ≺ P2 si, y solo sı́, αP1 +(1−α)P ≺ αP2 +(1−α)P .
Si P1 , P2 y P son distribuciones en la clase de referencia ℘ tal que P1 ≺ P ≺ P2 .
Entonces existen números α y β en (0, 1) tal que P ≺ αP2 + (1 − α)P1 y P
βP2 + (1 − β)P1 .
Un resultado importante que permite justificar la construcción de distrbuciones apriori
vı́a loterı́as es el siguiente: Sean r1 , r2 y r tres premios culesquiera en R tal que r1 ≺ r2 y
e r≺
r1 ≺ e r2 . Entonces existe un único número v (0 ≤ v ≤) tal que r ∼ v r2 + (1 − v)r1 .
10
robado en menos de un año (asumamos que su carro cuesta esta cantidad).
Cuál es la máxima cantidad de dinero que ud. estarı́a dispuesto a pagar por
este contrato? Si ud. está dispuesto a pagar cien mil pesos, entonces su pro-
babilidad subjetiva es 100,000/1,000,000 = 0,1. Este argumento es simular
al caso de las apuestas y la idea detrás es la maximización de la utilidad
del individuo. [14] discuten la relación entre elicitación de probabilidades y
utilidades y otras alternativas.
2.1.1. Clasificación de las Distribuciones Apriori

(
Propias
Distribuciones Apriori =
Impropias
Definición 2.1 (Distribución Apriori Propia) indexdistribución propia

una distribución que asigna pesos no negativos y que suman o integran hasta
uno, a todos los valores posibles del parámetro.
Ası́, una distribución propia satisface las condiciones de función de den-

sidad de probabilidad. Una distribución impropia es la que suma o integra
a un valor diferente de uno, digamos K. Si K es finito, entonces la distri-
bución impropia induce una distribución propia normalizando la función. Si
K es infinito, entonces la distribución tiene un papel de ponderación o de
herramienta técnica para llegar a una distribución posterior.
(
Informativas
No informativas
Definición 2.2 (Distribución Apriori No Informativa) Decimos que una

distribución apriori es no informativa cuando refleja una ignorancia total o
un conocimiento muy limitado sobre el parámetro de interés.
(
Conjugadas
No conjugadas
Definición 2.3 (Distribución Apriori Conjugada) Decimos que una dis-

tribución apriori es conjugada, si al proceder a su actualización mediante la
información muestral, la distribución aposteriori es igual a la apriori, ex-
cepto en los hiperparámetros.
11
2.2. Distribuciones Apriori No Informativas
En muchas ocasiones sabemos nada o muy poco acerca del parámetro
de interés o no queremos involucrar en nuestro estudio información previa,
sino más bien dejar que sean los datos los que “hablen por ellos mismos”.
En este caso la distribución debe reflejar nuestro total desconocimento de
los valores posibles del parámetro. Esta es un área de trabajo que ha crecido
enormemente.
2.2.1. Distribuciones Apriori Informativas

Una de las mayores dificultades en la ejecución de un análisis bayesiano
concierne con la identificación, de la selección y la justificación de la distri-
bución apriori. Preguntas como:
Qué clase de distribución apriori debemos utilizar?
Qué tipos de datos están disponibles para seleccionar el modelo aprio-

ri?
Cómo cuantificamos la información subjetiva?
Cómo ajustamos la distribución apriori con los datos subjetivos dis-

ponibles?
deben ser resueltas sin lugar a dudas.
12
Capı́tulo 3
Teorema de Bayes
El teorema de Bayes es ahora una de las piedras fundamentales del tra-

bajo estadı́stico.
Teorema 3.1 (Teorema de Bayes) Sean B1 , B2 , · · · , Bk eventos mutua-

mente excluyentes y exhaustivos. Para cualquier evento nuevo A, tenemos
T
P (Bi A) P (A|Bi ) P (Bi )
P (Bi |A) = = Pk
P (A) i=1 P (A|Bi ) P (Bi )
Prueba: (Ejercicio)
Teorema 3.2 (Teorema de Bayes para Variables Aleatorias) Sean

X y θ variables aleatorias con fdp’s f (x|θ) y ξ(θ).
f (x|θ) ξ(θ)
ξ (θ|x) = R
Θ f (x|θ) ξ(θ) dθ
Dentro del marco bayesiano tenemos que:
X : Datos (escalar o vector o matriz)
θ: Parámetro desconocido (escalar o vector o matriz)
f (x1 , · · · , xn |θ): Verosimilitud de los datos dado el parámetro (desco-

nocido) θ.
13
ξ(θ): Distribución apriori de θ.
Por el teorema anterior

f (x1 , · · · , xn |θ) ξ(θ)
ξ (θ|x1 , · · · , xn ) = R
Θ f (x1 , · · · , xn |θ) ξ(θ) dθ
Esta es llamada la distribución posterior. La inferencia bayesiana se de-

riva de esta distribución. En la práctica, el denominador de la expresión
anterior no necesita ser calculado en general, y la regla de Bayes se escribe
como
ξ (θ|x1 , · · · , xn ) ∝ f (x1 , · · · , xn |θ) ξ(θ)
Por lo tanto solo necesitamos conocer la distribución posterior hasta una

constante de normalización. Muchas veces somos capaces de identificar la
distribución posterior de θ mirando solamente este numerador. El teorema
de Bayes lo que hace es una “actualización” de ξ(θ) a ξ (θ|x1 , · · · , xn ).
Nota: El aprendizaje bayesiano será
ξ (θ|x1 ) ∝ f (x1 |θ) ξ(θ)

ξ (θ|x1 , x2 ) ∝ f (x2 |θ) f (x1 |θ) ξ(θ)
∝ f (x2 |θ) ξ (θ|x1 )
Por lo tanto el teorema de Bayes nos muestra cómo el conocimiento

acerca del estado de la naturaleza representada por θ es continuamente mo-
dificada a medida que nuevos datos son adquiridos.
Ejemplo 3.1 Distribución Apriori Uniforme Truncada. Muchas ve-

ces somos capaces en un problema binomial de especificar claramente en
qué región es imposible que esté el parámetro, pero somos incapaces de es-
pecificar mejor nuestro conocimiento sobre él. Podemos pensar en utilizar
una distribución apriori que refleje esta ignorancia, para ello considremos
una uniforme truncada, esto es,
π ∼ U (π0 , π1 )
Esto es,
1
ξ (π|π0 , π1 ) = 0 ≤ π0 < π < π 1 ≤ 1
π1 − π0
14
La distribución posterior de π dado x es
Γ(n+2) (y+1)−1 (1 − π)(n−y+1)−1
Γ(y+1)Γ(n−y+1) π
ξ (π|x, π0 , π1 ) = R π1 Γ(n+2) (y+1)−1 (1 − π)(n−y+1)−1 dπ
π0 Γ(y+1)Γ(n−y+1) π
P
donde y = ni=1 xi . Notemos que el denominador de la función es la P (π0 < W < π1 |y + 1, n − y + 1),
donde W ∼ Beta(y + 1, n − y + 1), y esto se calcula fácilmente en programas
como el R.
Es fácil hallar la media y la varianza aposteriori. Ellas son
y + 1 P (π0 < W < π1 |y + 2, n − y + 1)

E (π|x, π0 , π1 ) =
n + 2 P (π0 < W < π1 |y + 1, n − y + 1)
y
(y + 2)(y + 1) P (π0 < W < π1 |y + 3, n − y + 1)

V ar (π|x, π0 , π1 ) =
(n + 3)(n + 2) P (π0 < W < π1 |y + 1, n − y + 1)
2
(y + 1) P (π0 < W < π1 |y + 2, n − y + 1)
−
(n + 2) P (π0 < W < π1 |y + 1, n − y + 1)
Ejemplo 3.2 Aplicación Numérica del Caso Anterior. Suponga que

creemos que el porcentaje de mujeres que actualmente estudia en la univer-
sidad está entre el 35 % y el 70 %, o sea
1
ξ(π) = para π ∈ (0,35, 0,70)
0,70 − 0,35
= 0 en otro caso.
Asumamos además que tomamos una muestra al azar de la población de

10 estudiantes y encontramos que 6 son hombres y 4 mujeres, o sea, y = 4
y n = 10. El intervalo de confianza clásico (clásico porque la mayorı́a de los
textos básicos es el único que presentan) basado en el teorema central del
lı́mite, a pesar del tamaño muestral ser pequeño, dada la casi simetrı́a de la
distribución poblacional, se puede aplicar, será
s
π̂ (1 − π̂)
π̂ ± 1,96
n
15
lo que produce (0.0963, 0.703).
La aproximación bayesiana nos da una distribución posterior
Γ(12) 4
Γ(5)Γ(5) π (1 − π)6
ξ (π|n = 10, y = 4, π0 = 0,35, π1 = 0,70) =
K(0,70; 5, 7) − K(0,35; 5, 7)
donde Z z Γ(α + β) α−1

K(z; α, β) = x (1 − x)β−1 dx
0 Γ(α)Γ(β)
Entonces
E (π|n = 10, y = 4, π0 = 0,35, π1 = 0,70) = 0,4823673
y un intervalo de credibilidad del 95 % es (0.3561442, 0.6680237). Este último

se encuentra resolviendo
Z Γ(12) 4 − π)6
Γ(5)Γ(5) π (1
π∗
dπ = 0,95
π∗ K(0,70; 5, 7) − K(0,35; 5, 7)
y formando el intervalo (π∗ , π ∗ ).
Ejemplo 3.3 Distribución Weibull.

α α−1 xα
f (x |α, θ ) = x exp −
θ θ
para α > 0, θ > 0 y x > 0. θ es el parámetro de escala, α es el parámetro de
forma y ellos lo asumieron conocido. Este último supuesto sabemos que no
es realista, pero permite hallar una solución simple para el otro parámetro.
La fución de verosimilitud es
n n n
!
Y α Y Tn
L(θ) = f (xi |α, θ ) = xα−1
i exp −
i=1
θ i=1
θ
Pn
donde Tn = i=1 xαi .
Ellos consideraron dos aprioris diferentes para θ, una gamma invertida
y una uniforme.
La apriori gamma invertida para θ es

(µ/θ)ν+1 µ
ξ(θ) = exp −
µΓ(ν) θ
16
donde µ > 0 y ν > 0.
La distribución posterior será

µ −n Tn
ξ(θ |Datos ) ∝ θ−(ν+1) exp − θ exp −
θ θ

T n + µ
∝ θ−(ν+n+1) exp −
θ
3.1. Consistencia Posterior

Definición 3.1 Consistencia Pasterior La distribución posterior se dice que
es consistente en un valor dado θ0 si para cualquier vecindad V de θ0 ,
ξ (θ ∈
/ V |Datos ) → 0 (en probabilidad) cuando n → ∞ cuando θ0 es el
verdadero valor del parámetro.
La consistencia posterior equivale a decir que bajo condiciones muy gene-

rales, no importa qué apriori se use, en el fondo si el tamaño muestral crece
indefinidamente, la apriori no tendrá efecto y lo que es fundamental es el ex-
perimento que genera los datos, ya que se presupone que es un experimento
“insesgado”.
3.2. Usos de la Función de Verosimilitud en Análi-

sis Bayesiano
[4] presenta diferentes usos para la función de verosimilitud, L(θ):
1. Reporte Cientı́fico: Se considera una buena práctica de reporte presen-

tar separadamente L(θ) y ξ(θ|x), a menudo gráficamente, para indicar
el efecto de la distribución apriori. Esto le permite a otros investiga-
dores utilizar sus propias distribuciones apriori.
2. Análisis de Sensibilidad: Es importante estudiar la sensibilidad a ξ(θ),

y tener disponible L(θ) para este propósito es valioso.
3. Costo de Elicitación: Obtener distribuciones apriori subjetivas es a

menudo muy costoso, tanto en tiempo como en esfuerzo. Es a menudo
efectivo a nivel de costos eliminar los parámetros de molestia de una
17
forma básica, produciendo L(θ), y concentrar la elicitación subjetiva
a ξ(θ).
4. Objevitivismo: Aunque la “objetividad” no se puede garantizar en
ningún estudio, el presentar L(θ) ayuda a darle esta impresión a mu-
chos investigadores.
5. Combinación de Verosimilitudes: Si se obtiene información sobre θ de
diferentes fuentes independientes, y vienen con sus respectivas verosi-
militudes, digamos Li (θ), podemos resumir toda esta información co-
Q
mo i Li (θ). Esta es la base del meta-análisis. De hecho, no se pueden
multiplicar aposterioris de esta forma.
6. Aprioris Impropias: Se reducen los peligros de utlizar aprioris impro-
pias.
Definición 3.2 (Intercambiabilidad) Variables aleatorias con la siguien-

te propiedad se dice que son intercambiables Yi , i = 1, · · · , n son intercambia-
bles si las distribuciones de (Y1 , · · · , Yn ) y (Yπ(1) , · · · , Yπ(n) ) son las mismas
para todas las permutaciones (π(1), · · · , π(n)) (de Finetti (1930, 1964)).
Las creencias de un individuo con respecto a unas cantidades aleatorias

observables Z1 , Z2 , . . . , Zn descritas por una distribución de probabilidad
conjunta se dice que son intercambiables si, y solo sı́, la distribución es inva-
riante bajo todas las permutaciones de los subı́ndices 1, 2, . . . , n. Creencias
con respecto a una sucesión infinita se dice que son intercambiables si, y solo
sı́, las creencias inducidas son intercambiables para cada subconjunto finito.
Intercambiabilidad e “Independientes e Idénticamente Distribuı́das (IID)”
no son lo mismo: IID implica intercambibilidad, y variables intecambiables
Yi tienen idénticas distribuciones marginales, pero ellas no son necesaria-
mente independientes.
La intercambibilidad impone una forma de “simetrı́a” sobre las sucesio-
nes de observables. Si en el lanzamiento de una moneda varias veces, no
importael orden en que aparezcan los resultados, la apriori no debe cambiar
bajo este principio. Intercambiabilidad es un término que en el sentido usa-
do por de Finetti es limitado y [9] presentan una extensa discusión sobre el
significado y alcances de este término. La idea central tras este término es
el de similaridad entre las unidades observacionales.
Intercambibilidad es un restricción más débil que el de independencia.
Si las creencias subjetivas sobre Z1 , Z2 , . . . son independientes, entonces no
puede haber aprendizaje de la expreriencia. Por el contrario, la intercmbibi-
lidad de las creencias en Z1 , Z2 , . . . implica una visión isomórfica del mundo
18
en el cual existe la variable ficticia θ tal que Z1 , Z2 , . . . son independientes
condicionales en θ (esto es, condicionalmente independientes).
19
20
Capı́tulo 4
Distribuciones Conjugadas
Dada la magnitud de la tarea de determinar una distribución apriori que

refleje de una manera clara nuestra información bayesiana, uno intuitiva-
mente piensa en limitar la búsqueda a familias de distribuciones apriori que
posean ciertas caracterı́sticas, tales como:
1. Tratabilidad analı́tica:
a) Facilidad de determinación de la distribución posterior de la mues-

tra y de la apriori.
b) Facilidad para obtener caracterı́sticas de interés, por ejemplo, va-
lores esperados.
c) La apriori y aposteriori deben ser miembros de la misma familia
(cerrada).
2. Flexibilidad y riqueza: Debe permitir modelar una gran variedad de

información apriori y creencias.
3. Interpretabilidad: Los parámetros deben ser de tal forma que el ana-

lista pueda relacionarlos fácilmente con sus creencias e información.
[20] en 1961 formalizaron el concepto de familias conjugadas (Fink,

1997). La definción y la construcción de una familia conjugada depende de
la existencia e identificación de estadı́sticos suficientes de dimesnión finita
para una función de verosimilitud dada. Si existe este estadı́stico suficiente
entonces la dimnsionalidad puede ser reducida. Cuando existe el estadı́stico
suficiente, entonces existe una familia conjugada.
21
“Una apriori conjugada natural tiene la propiedad adicional de tener
la misma forma funcional de la verosimilitud. Esta propiedad significa que
la información apriori puede ser interpretada de la misma manera que la
información en la función de verosimilitud. En otras palabras, la apriori
puede ser interpretada como si surgiera de un conjunto de datos ficticios
obtenidos del mismo proceso que generó los datos reales”. [16], pág. 18)
Las distribuciones conjugadas juegan un papel importante en los méto-
dos bayesianos, ya que su uso puede simplificar el procedimiento de integra-
ción requerido para la marginalización. Ya que al pertenecer la apriori y la
aposteriori a la misma familia, el proceso de actualización de parámetros se
simplifica [21], lo cual es una gran ventaja para los sistemas inteligentes.
La conjugación nos limita a la selección de una clase de aprioris limi-
tada y la información apriori solo puede utilizarse para la selección de los
hiperparámetros. Si la clase es lo suficientemente grande esto puede no ser
un gran problema. [22] afirma que la automatización de la selección apriori
es una ventaja y una desventaja, ya que por un lado se facilita el proceso de
actualización, en especial cuando esto se hace en un proceso dinámico, pero
en muchas ocasiones limita el proceso de representación de la distribución
apriori y hace referencia a un experimento planteado por Diaconis y Ylvisa-
ker sobre el experimento de dejar caer una moneda que se tiene parada sobre
su borde en forma perpendicular a una superficie horizontal, ellos dicen que
la experiencia muestra que la disribución es bimodal con modas en 1/3 y
2/3.
Si x1 , · · · , xn son v.a.’s i.i.d. de un proceso definido por f (x |θ ), don-
de θ puede ser un escalar o un vector de parámteros desconocidos de in-
terés. Asumimos que existe un familia conjugada para este proceso, donde
ξ (θ |φ ), cuyos miembros están indezados por el hiperparámetro φ. Ya que
existe la familia conjugada, por lo tanto es posible factorizar la versoimilitud
L (θ |x1 , · · · , xn ) de la siguiente manera:
L (θ |x1 , · · · , xn ) = u (x1 , · · · , xn ) v (T (x1 , · · · , xn ) , θ)
donde u(·) no depende de θ y v (T (x1 , · · · , xn ) , θ) es una función del paráme-

tro y del estadı́stico suficiente. Asumamos que estamos interesado en una
transformación biyectiva de los datos. Sean y1 , · · · , yn los datos transforma-
dos tal que
yi = h (xi )
Dado a que la transformación h(x) es biyectiva, su inversa, h−1 (x), existe.
22
Si el proceso es continuo, tenemos entonces
d

L (θ |y ) = f h−1 (y) |θ h−1 (y) ,
dy
y para el conjunto de datos transformado la función de verosimilitu es

L (θ |y1 , · · · , yn ) = f h−1 (y1 ), · · · , h−1 (yn ) |θ |J| ,
donde J es el jacobiano de la transformación. Ya que los datos transformados

se distribuyen en forma independiente entonces
n
Y d
J= h−1 (yi )
i=1
dyi
La función de verosimilitud de los datos transformados será

L (θ |y1 , · · · , yn ) = u h−1 (y1 ) , · · · , h−1 (yn ) v T h−1 (y1 ) , · · · , h−1 (yn ) , θ |J|
Ya que |J| es una función de las xi ’s, tenemos
µ (x1 , · · · , xn ) = u (x1 , · · · , xn ) |J| .
Por lo tanto
L (θ |y1 , · · · , yn ) = µ (x1 , · · · , xn ) v (T (x1 , · · · , xn ) , θ)
Esta expresión de la verosimilitud transformada es el producto de una fun-

ción de los datos que no involucra el parámetro y el kernel de la verosimilitud
sin transformar. Por lo tanto la apriori conjugada del proceso sin transformar
es la misma que la del proceso transfromada.
4.1. Distribución Binomial

Teorema 4.1 Suponga que X1 , · · · , Xn es una muestra aleatoria de una
distribución Bernoulli con parámetro π, donde el valor de π es desconoci-
do. También supongamos que la distribución apriori de π es una beta con
parámetros α(> 0) y β(> 0). Entonces la distribución posterior de π cuan-
P
do Xi = xi , para i = 1, · · · , n es una beta con parámetros α + ni=1 xi y
P
β + n − ni=1 xi .
23
Sean X1 , · · · , Xn variables aleatorias independientes Bernoulli(π). La ve-
rosimilitud es P P
L(θ) ∝ π i Xi (1 − π)n− i Xi
El parámetro π es univariable, y restringido al intervalo [0, 1]. La distribución
conjugada será
ξ(π) ∝ π α−1 (1 − π)β−1 , con α, β > 0
α y β son llamados hiperparámetros. Esta palabra se utiliza para distiguirlos

del parámetro modelo muestral π. Si comparamos la apriori con la verosimi-
P P
litud vemos que α − 1 puede asociarse con i Xi y β − 1 con n − i Xi . Por
lo tanto el experto que debe expresar su información apriori puede realizar
la tarea mental de extraer una muestra imaginaria de 0’s y 1’s de tamaño
α + β − 2 y distribuir tanto los ceros y los unos como su imaginación se
lo dicte. El tamaño de esta muestra imaginaria puede asociarse con el ni-
vel de confianza subjetiva que el experto tenga en sus asignaciones. Esta
distribución apriori se puede resumir mediante:
α
E(π) =
α+β
α−1
M oda =
α+β−2
αβ E(π)(1 − E(π))
V ariancia = 2
=
(α + β) (α + β + 1) α+β+1
La esperanza apriori E(π) corresponde a la probabilidad marginal de

tener un éxito antes de obtener cualquier observación:
Z Z
E(π) = πξ(θ) dπ = p(Y = 1|π)ξ(π) dπ = p(X = 1)
Ya que la varianza de π es una función decreciente de α + β para una media

dada, la suma de los hiperparámetros α + β es también llamada la precisión
de la distribución.
La distribución posterior es
P P
ξ(π|X1 , · · · , Xn ) ∝ π α+ i
Xi −1
(1 − π)β+n− i
Xi −1
P
la cual es una distribución beta con hiperparámetros α + i Xi y β + n −
P
i Xi . Por lo tanto, la precisión posterior se incrementa por el tamaño
muestral n.
24
Distribuciones Beta(a,a)
5
4
Beta(1,1)
Beta(0.8,0.8)
Beta(0.5,0.5)
3
Beta(0.3,0.3)
Densidad
2
1
0
0.0 0.2 0.4 0.6 0.8 1.0
Figura 4.1: Distribución beta para las cuales los parámetros son iguales.
La media aposteriori se puede expresar como

P Pn
α + ni=1 Xi α+β α n i=1 Xi
= +
α+β+n α+β+n α+β α+β+n n
lo que es una media ponderada
Pn
i=1 Xi
E (π|X1 , · · · , Xn , α, β) = w · E(π|α, β) + (1 − w) ·
n
donde w = (α + β)/(α + β + n).
4.1.1. Elicitación de los Parámetros de la Beta para Propor-

ciones
1. Determine la probabilidad r de que un elemento sacado al azar sea un
éxito. Esta probabilidad será considerada como la media de la beta
α
r=
α+β
2. Dada la información que el primer elemento sea un éxito, determi-

ne la probabilidad, r+ , de que el segundo elemento seleccionado al
azar sea otro éxito. La regla dice que la densidad actualizada es una
Beta (α + 1, β), ası́ que
25
Distribuciones Beta(1,b)
5
4
Beta(1,1)
Beta(1,10)
Beta(1,20)
3
Beta(1,50)
Densidad
2
1
0 0.0 0.2 0.4 0.6 0.8 1.0
Figura 4.2: Distribución beta para las cuales el α permanece fijo y β varı́a.
α+1
r+ =
α+β+1
3. Resuelva simultáneamente
r (1 − r+ )
α =
r+ − r
(1 − r) (1 − r+ )
β =
r+ − r
4. Chequee consistencia: Pregunte por la probabilidad de que el segundo

artı́culo sea un éxito dado que el primero fue un fracaso, diga r− .
Utilizando los valores de α y β calcule
α
r− =
α+β+1
y compruebe si los valores elicitados concuerdan.
5. Si el resultado no es satisfactorio se pueden ajustar los valores de r

yr+ o r− hasta obtener un resultado consistente.
26
Método para elicitar los parámetro de una Beta en el caso de
muestreo Bernoulli: Propuesta de [?]
Este método funciona ası́:
1. Especifique un valor para n, el número de ensayos hipotéticos a ser
considerados en la elicitación, se ha recomendado usar n = 20 por los
autores del método.
2. Pregunte por m, el más probable número de éxitos en n ensayos.
3. Presente la tabla de la distribución binomial(n, m/n).
4. Pregunte por los cambios dl y du definidos como sigue:

p(m − 1)
dl =
p(m)
y
p(m + 1)
du =
p(m)
donde p() es la probabilidad predictiva del sujeto.
5. Usando estos valores, y condicionando en m, se resuelven este par

de ecuaciones para α y β
f (m − 1) (n − m)(m + α)
dl = =
f (m) (m + 1)(n − m + β − 1)
y
f (m + 1) (n − m + β)
du = =
f (m) (n − m + 1)(m + α − 1)
donde f () es la función de probabilidad de masa de una distribución

beta-binomial.
6. En los pasos posteriores la moda de la distribución apriori elicitada

es mantenida fija en el valor
α1 − 1
γ=
α1 + β 1 − 2
que corresponde a la moda de una distribución Beta(α1 , β1 ). Ahora
calcule el intervalo de probabilidad más corto que contenga al menos
27
el 50 % de la probabilidad, y presente los puntos que lo constituyen,
sus probabilidades, y la suma de las probabilidades. Al sujeto se le
pregunta si este intervalo es muy largo, en cuyo caso h = −1, si es
adecuado, en cuyo caso h = 0, o si es demasiado corto, en cuyo caso
h = 1. Entonces los nuevos valores de α y β son definidos como
αi+1 = 1 + 2h (αi − 1)
βi+1 = 1 + 2h (βi − 1)
Observe que con estos valores la moda permanece invariante.
7. Si h no es cero, continúe con el paso 6 hasta que h cambie de signo

en paso k. Entonces (αk − 1, βk − 1) y (αk−1 − 1, βk−1 − 1) forman
cotas, superior e inferior, de (α − 1, β − 1) que pueden ser mejoradas
vı́a bisección hasta que h = 0.
8. Los autores sugieren que este procedimiento puede ser repetido con
diferentes valores de n, y que las estimadas resultantes pueden ser
mezcladas de alguna manera.
La distribución beta-binomial
Asuma la función de probabilidad de los datos una binomial(n, π). La
distribución apriori sobre π una Beta(α, β). Recordemos que la media y la
varianza de la beta son
α
E(π) =
α+β
αβ
V ar(π) =
(α + β)2 (α + β + 1)
Reparametrizando esta apriori en términos de µ = α/(α + β) (la media)

y M = α + β se llega
Γ(M )
ξ(π) = π M µ−1 (1 − π)M (1−µ)−1
Γ(µM )Γ(M (1 − µ))
En términos de los nuevos parámetros tenemos la media y la varianza dadas

por
28
E(π) = µ
µ(1 − µ)
V ar(π) =
M +1
Sabemos que la distribución posterior es una beta(x−M µ, n−x+M (1−
µ)). O sea
Γ(M ) Γ(n)
ξ (π|x) = π x+M µ−1 (1 − π)n−x+M (1−µ)−1
Γ(µM )Γ(M (1 − µ)) Γ(x)Γ(n − x)
A partir de esta distribución podemos hallar la distribución marginal de
x. Esta se halla reconociendo que en el teorema de Bayes la constante de
normalización corresponde a una realización de esta distribución.
Z 1
m(x) = ξ(π|x) dπ
0
Γ(M ) Γ(n)
=
Γ(µM )Γ(M (1 − µ)) Γ(x)Γ(n − x)
Γ(x + M µ)Γ(n − x + M (1 − µ))
×
Γ(n + µM )
Para hallar la media y la varianza de esta distribución se puede proceder
de una manera indirecta

X X
E = E E π = E(π) = µ
n n

X X X
V ar = E V ar π + V ar E π
n n n

π(1 − π)
= E + V ar(π)
n
µ(1 − µ) (n − 1) µ(1 − µ)
= +
n n (M + 1)

µ(1 − µ) n−1
= 1+
n M −1
Modificación de Gavasakar
[11] propone la siguiente modificación al procedimiento PM.
1. Piense en n0 ensayos Bernoulli independientes. Especifique su moda
m0 , o sea el número de éxitos más probable, en su opinión.
29
2. Para i = 1, 2, · · · , I, suponga que se efectuaron ki ensayos Bernoulli
y que el número de éxitos observados fue si . Ahora piense en ni ensayos
adicionales. Especifique su moda mi .
3. Encuentre los valores de a y b que minimizan
I
X 2
(ni + 1)(a + si ) 1
mi − −
i=1
a + b + ki 2
donde k0 = s0 = 0
En lugar de una Beta

El modelo apriori Beta tiene limitaciones prácticas para representar co-
nocimiento apriori sobre la proporción. Gordy1 revisa algunos modelos y
propone otro para representar una variable continua que esté definida en un
intervalo acotado.
La Hipergeométrica Gaussiana (GH) tiene densidad

xp−1 (1 − x)q−1 (1 + λx)−r
GH (x |p, q, r, λ ) =
B(p, q) 2 F1 (r, p, p + q, −λ)
para 0 < x < 1, p > 0, q > 0 y 2 F1 es la función gaussiana hiper-
geométrica. Cuando r = 0 ó λ = 0 se tiene la beta ordinaria. Esta
distribución se ha usado en análisis bayesiano.
La beta generalizada se define por
|a| xap−1 (1 − (1 − c)(x/b)a )q−1

GB (x |a, b, c, p, q ) =
bap B(p, q) (1 + c(x/b)a )p+q
para 0 < xa < ba /(1 − c), 0 ≤ c ≤ 1, y b, p y q positivos. Cuando
a = b = 0 y c = 1 se tiene la beta prima.
Gordy propone la beta generalizada llamada hipergeométrica confluen-
te y definida por
xp−1 (1 − p)q−1 exp (−sx)

CH(x |p, q, s ) =
B(p, q) 1 F1 (p, p + q, −s)
para 0 < x < 1. La 1 F1 es la hipergeométrica confluente.
1
Gordi, B. M. (1998) A generalization of generalized beta distributions. Board of Go-
vernors of the Federal Reserve System
30
Gordy propone la hipergeométrica confluente compuesta definida por
xp−1 (1 − νx)q−1 (θ + (1 − θ)νx)−r exp(−sx)

CCH(x |p, q, r, s, ν, θ ) =
B(p, q)H(p, q, r, s, ν, θ)
para 0 < x < 1/ν, p > 0, q > 0, r ∈ R, s ∈ R, 0 ≤ ν ≤ 1 y θ > 0.

Además H está dada por
H(p, q, r, s, ν, θ) = ν −p exp (−s/ν) Φ1 (q, r, p + q, s/ν, 1 − θ)
con Φ1 es la función hipergeométrica confluyente definida por

∞ X
X ∞
(α)m+n (β)n
Φ1 (α, β, γ, x, y) = xm y n
m=0 n=0
(γ)m+n m!n!
y donde (a)k es la notación de Pochhammer, esto es, (a)0 = 1, (a)1 = a

y (a)k = (a)k−1 (a + k − 1). Para esta distribución el k-ésimo momento
se calcula como
(p)k H(p + k, q, r, s, ν, θ)
E(X k ) =
(p + q)k H(p, q, r, s, ν, θ)
4.2. Distribución Binomial Negativa

distribución binomial negativa con parámetros r y π, donde r tiene una
valor especı́fico (r > 0) y el valor de π es desconocido. También supongamos
que la distribución apriori de π es una beta con parámetros α(> 0) y β(> 0).
Entonces la distribución posterior de π cuando Xi = xi , para i = 1, · · · , n
P
es una beta on parámetros α + rn y β + ni=1 xi .
4.3. Distribución Geométrica

Otra distribución de conteo popular es la geométrica, la cual cuenta el
número de fracasos antes de obtener el primer éxito. Su función de proba-
bilidad está dada por
P (X = k) = (1 − π)π k k = 0, 1, 2, · · ·
√
Su media es π/(1 − π) y su varianza π/(1 − π)2 . El sesgo es (1 + π)/ π.
31
4.4. Distribución Multinomial
La distribución multinomial juega un papel fundamental en el trabajo
aplicado, siendo la generalización multivariable de la distribución binomial.
Definición 4.1 (Distribución Dirichlet) El vector aleatorio X = (X1 , · · · , Xk )0

se distribuye como una Dirichlet con vector de parámetros α = (α1 , · · · , αk )0
P
con αi > 0; i = 1, · · · , k, si la p.d.f. f (x|α) para x = (x1 , · · · , xk ) y ki=1 xi =
1 está dada por:
Γ(α1 + · · · + αk ) α1 −1
f (x|α) = x · · · xαk k −1
Γ(α1 ) · · · Γ(αk ) 1
La media de Xi es
αi
E(Xi ) =
α0
P
donde α0 = ki=1 α1 .
La varianza de Xi es
αi (α0 − αi )
var(Xi ) =
α02 (α0 + 1)
y la covarianza entre Xi y Xj es, (i 6= j),

αi αj
Cov(Xi , Xj ) = − 2
α0 (α0 + 1)
Teorema 4.3 Suponga que Y = (Y1 , · · · , Yk )0 tiene una distribución mul-

tinomial con parámetros n (fijo) y W = (W1 , · · · , Wk )0 , desconocidos. Su-
ponga también que la distribución apriori de W es una Dirichlet con vector
de parámetros α = (α1 , · · · , αk )0 con αi > 0; i = 1, · · · , k. Entonces la dis-
tribución posterior de W cuando Yi = yi , i = 1, · · · , k, es una distribución
Dirichlet con vector de parámetros α∗ = (α1 + y1 , · · · , αk + yk )0 .
El parámetro αk puede ser interpretado como el conteo apriori, antes de

ver los datos, que esperarı́amos ver en la celda k. Un valor grande para este
parámetro muestran un gran conocimiento previo acerca de la distribución,
mientras que valores pequeños corresponden a poco conocimiento.
Ejemplo 4.1 Tipos de sangre. La siguiente tabla presenta los datos

sobre el tipo de sangre en una muestra de personas de la región central y
oriental de Antioquia
32
Figura 4.3: Distribución posterior marginal para cada una de las proporcio-
nes del tipo de sangre.
Tipo de Sangre
O A AB B
Frecuencia 474 246 11 59
Si no tenemos un conocimiento apriori sobre las diversas proporciones,

digamos πO , πA , πAB y πAB , entonces podemos escoger como apriori una
Dirichlet(1, 1, 1, 1). Entonces la aposteriori será Dirichlet(474 + 1, 246 +
1, 11 + 1, 59 + 1).
4.5. Distribución Poisson

El modelo de conteo más utilizado es el modelo Poisson ya que su desa-
rrollo teórico es claro y muchos problemas reales pueden modelarse muy bien
de esta forma. Decimos que una variable aleatoria de conteo X se distribuye
P oisson(θ) si su función de probabilidad está dada por
θx exp(−θ)
f (x) = x = 0, 1, 2, 3, · · ·
x!
33
Figura 4.4: Distribución conjunta entre un par de los parámetros considerado
en el problema de los tipos de sangre.
Para esta distribución se tiene que E(X) = V ar(X) = θ.
Teorema 4.4 Suponga que X1 , · · · , Xn es una muestra de una distribución

Poisson con media desconocida θ. También supongamos que la distribución
apriori de θ es una gamma con parámetros α(> 0) y β(> 0). Entonces la
distribución posterior de θ cuando Xi = xi , para i = 1, · · · , n es una gamma
P
con parámetros α + ni=1 xi y β + n.
Prueba: Si X1 , · · · , Xn es una muestra de una distribución Poisson con

media desconocida θ, entonces la verosimilitud será
n
Y θXi exp(θ) Pn
Xi
L (θ |Datos ) = ∝θ i=1 exp(nθ)
i=1
xi !
Si la priori es Gamma(α, β) su densidad será
ξ(θ) ∝ θα−1 exp(βθ)

La aposteriori será entonces
Pn Pn
Xi
ξ (θ |Datos ) ∝ θα−1 exp(βθ)θ i=1 exp(nθ) = θα+ i=1
Xi
exp ((β + n)θ)
Esto muestra el resultado.
34
Ejemplo 4.2 Caso de accidentalidad. En la presentación de la alcaldı́a
de Medellı́n llamada “Georreferenciación de la accidentalidad en los princi-
pales tramos y avenidas de Medellı́n. Año 2008” se dice que el número de
accidentes de tránsito en la ciudad con muertos fue de 315 para ese año. Si
asumimos que el número de accidentes con muertes sigue una distribución
Poisson con parámetro θ y si asumimos una Gamma apriori poco informa-
tiva, digamos α0 = 0,001 y β0 = 0,001, la aposteriori será Gamma con
α1 = 315,001 y β1 = 1,001. La media aposteriori será 314.6863, la cual es
bastante parecida al valor obtenido en la muestra de tamaño 1 que tenemos.
Elicitación de la distribución apriori conjugada para el paráme-

tro de la Poisson
Suponga que deseamos estudiar el número de goles marcados por los
equipos locales en el torneo profesional colombiano. Asumimos que
el número de goles marcados por el equipo local se puede modelar
mediante la Poisson.
El parámetro λ en la Poisson es la media. Cómo escogemos la Gamma(α, β)

que represente adecuadamente nuestro conocimiento del problema?
Vamos a presentar una aproximación usando una forma predictiva.
Probabilidad 0 1 2 3 4 5 6 ó más.
λx exp(−λ)/x! π0 π1 π2 π3 π4 π5 π6+
Si miramos con cuidado el problema lo convertimos en multinomial!
Debemos determinar el vector (α0 , α1 , α2 , α3 , α4 , α5 , α6+ ). Cómo lo ha-

cemos?
Le decimos al experto que nos responda algo como esto: Si ud. obser-
vara 1000 partidos de fútbol, en cuántos esperarı́a que local no hiciera
goles? un gol? dos goles? tres? cuatro? cinco? seis ó más goles? Esto
nos da una tabla como la siguiente:
Goles 0 1 2 3 4 5 6 ó más.
Nro. de juegos n0 n1 n2 n3 n4 n5 n6+
35
X
ni = 1000
i
Resultado del experto:
Goles 0 1 2 3 4 5 6 ó más.
Nro. de juegos 170 250 300 180 60 35 5
Generamos N muestras de tamaño 1000 de una multinomial con pro-

babilidades
(170/1000, 250/1000, 300/1000, 180/1000, 60/1000; 35/1000, 5/1000)
Para cada muestra multinomial, calculamos la probabilidad de cada

celda, o sea, dividimos cada muestra por 1000. Digamos

π0j , π1j , π2j , · · · , π6+
j
Usando estas probabilidades, calculamos la media de la distribución

Poisson, teniendo en cuenta que la última celda corresponde a un trun-
camiento.
∞
X 6
X
λj = i · πij ≈ i · πij
i=0 i=0
La aproximación siempre es por debajo del verdadero valor, ya que se

reemplazan todos los valores mayores que 6 por 6.
error<-NA
acumulado<-NA
media.sin<-NA
media.corr<-NA
medias<-seq(0.5,4,length=20)
for(i in medias){
proba<-dpois(0:20,i)
acumu<-1-sum(proba[1:6])
media<-sum((0:5)*proba[1:6])+6.0*(1-sum(proba[1:6]))
media.sin<-c(media.sin,media)
error<-c(error,i-media)
acumulado<-c(acumulado,acumu)
}
36
Error que se comete con el truncamiento
en la estimación de la media
0.20
0.15
0.10
Error
0.05
0.00
0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0
Figura 4.5: Observamos que el error absoluto es cuadrático con respecto a la

media de la Poisson.
acumulado<-acumulado[-1]
error<-error[-1]
media.sin<-media.sin[-1]
# Relación entre la media y el error

plot(medias,error,xlab=expression(lambda),ylab=’Error’)
title(main=’Error que se comete con el truncamiento \n
en la estimación de la media’)
# El problema es que hay que conocer la verdadera media

# pero si usamos el porcentaje de observaciones hasta el punto
# de truncamiento podemos aproximar la corrección.
plot(acumulado,error)
> summary(modelo<-lm(error~acumulado+acumulado2))
Call:
lm(formula = error ~ acumulado + acumulado2)
Residuals:
Min 1Q Median 3Q Max
37
Figura 4.6: Consideramos el porcentaje de observaciones hasta el punto
de truncamiento. Podemos aproximar esta relación mediante una función
cuadrática. Con datos reales la corrección la obtenemos calculando el por-
centanje de observaciones bajo el punto de truncamiento.
38
-0.0010180 -0.0006270 0.0001269 0.0006803 0.0008440
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.0007817 0.0002460 -3.178 0.0055 **
acumulado 0.4164908 0.0082370 50.563 <2e-16 ***
acumulado2 2.3313949 0.0427119 54.584 <2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.0007206 on 17 degrees of freedom

Multiple R-squared: 0.9999, Adjusted R-squared: 0.9999
F-statistic: 6.387e+04 on 2 and 17 DF, p-value: < 2.2e-16
Podemos hallar la media haciendo la corrección mediante el ajuste cuadráti-

co:
calcula.lambda<-function(proba){
acumu<-1-sum(proba[1:6])
media<-sum((0:5)*proba[1:6])+6.0*(1-sum(proba[1:6]))
media.cor<-media-0.0007817+ 0.4164908*acumu
+ 2.3313949*acumu^2
return(media.cor)
}
# Generación de la multinomial
temp<-scan()
170 250 300 180 60 35 5
res.multi<-rmultinom(2000,1000,temp)/1000
lambdas<-apply(res.multi,2,calcula.lambda)
hist(lambdas,freq=F,xlab=expression(lambda),
main=’Distribución Apriori’,ylab=’Frecuencia’)
summary(lambdas)
Min. 1st Qu. Median Mean 3rd Qu. Max.

1.701 1.809 1.837 1.837 1.865 2.005
39
require(MASS)
Loading required package: MASS
fitdistr(lambdas,’gamma’)
shape rate
1897.79902 1032.99342
( 60.05904) ( 32.69511)
Los parámetros de la gamma apriori serán:
α = 1897,79902
β = 1032,99342
xx<-seq(1.5,2.2,length=100)
yy<-dgamma(xx, 1897.79902,rate=1032.99342)
points(xx,yy,type=’l’,col=’red’)
40
4.6. Distribución Exponencial
La distribución exponencial tiene función de densidad de probabilidad
dada por
f (x) = θe−θx x ∈ (0, ∞)
Teorema 4.5 Suponga que X1 , · · · , Xn es una muestra de una distribución

exponencial con parámetro desconocido θ. También supongamos que la dis-
tribución apriori de θ es una gamma con parámetros α(> 0) y β(> 0).
Entonces la distribución posterior de θ cuando Xi = xi , para i = 1, · · · , n es
P
una gamma con parámetros α + n y β + ni=1 xi .
La prueba es directa:
ξ(λ) ∝ λα exp (−βλ)

n
!
X
n
L (λ |Datos ) ∝ λ exp −λ xi
i=1
" n
#!
X
ξ(λ |Datos ∝ λα+n exp −λ β + xi
i=1
41
4.6.1. Caso Especial: Se observa solo el primer estadı́stico de
orden
Si solo tenemos el valor del primer estadı́stico de orden, o sea el menor
valor de la muestra de tamaño n, nuestra verosimilitud será proporcional a
la densidad del primer estadı́stico de orden. Si X( 1) denota el mı́nimo valor
de la muestra de una distribución abasolutamente continua, su función de
distribución está dada por
h in
F1 x(1) = 1 − 1 − F x(1)
y la densidad está dada por

h in−1
f1 x(1) = nf x(1) 1 − F x(1)
En el caso exponencial

f1 x(1) = nλ exp −nλx(1)
Si la apriori de λ es una Gamma(α, β), la aposteriori serı́a

ξ λ x(1) , n ∝ λ exp −nλx(1) λα−1 exp (−βλ)

∝ λ(α+1)−1 exp −λ β + nx(1)
Esta corresponde a una Gamma(α + 1, β + nx(1) ).
4.6.2. Caso Especial: Se observa solo el n-ésimo estadı́stico

de orden
Si solo tenemos el valor del n-ésimo estadı́stico de orden, o sea el mayor
valor de la muestra de tamaño n, nuestra verosimilitud será proporcional
a la densidad del n-ésimo estadı́stico de orden. Si X( n) denota el máximo
valor de la muestra de una distribución abasolutamente continua, su función
de distribución está dada por
h in
Fn x(n) = F x(n)
y la densidad está dada por

h in−1
fn x(n) = nf x(n) F x(n)
42
En el caso exponencial
n−1
fn x(n) = nλ exp −λx(n) 1 − exp −λx(n)
Si la apriori de λ es una Gamma(α, β), la aposteriori serı́a
n−1

ξ λ x(n) , n ∝ λ exp −λx(n) 1 − exp −λx(n) λα−1 exp (−βλ)
n−1
∝ λ(α+1)−1 exp −λ β + x(n) 1 − exp −λx(n)
Observe como en este caso la distribución posterior no pertenece a la

familia gamma.
4.6.3. Caso Especial: Se observan algunos datos censurados

en el punto x0
Si asumimos una apriori Gamma(α, β) y tenemos n0 observaciones que
no han fallado en el tiempo x0 , de las n observaciones que se disponen (diga-
mos que n1 sı́ se observaron completamente con mediciones x1 , x2 , · · · , xn1 ),
su verosimilitud será
n1
!
X
L (λ |Datos ) ∝ λ n1
exp −λ xi (P (X > x0 |λ ))n0
i=1
n1
!
X
n1
∝ λ exp −λ xi exp (−n0 λx0 )
i=1
n1
!!
X
n1
∝ λ exp −λ n0 x0 + xi
i=1
La aposteriori será
n1
!!
X
ξ (λ |Datos ) ∝ λα−1 exp −λ β + n0 x0 + xi
i=1
Pn 1
Esta corresponde a una Gamma (α, β + n0 x0 + i=1 xi ).
4.6.4. Caso Especial: Se observan todos los datos censurados

en el punto x0
Si asumimos una apriori Gamma(α, β) y tenemos n observaciones que
no han fallado en el tiempo x0 , su verosimilitud será
43
L (λ |Datos ) ∝ (P (X > x0 |λ ))n = exp (−nλx0 )
ξ (λ |Datos ) ∝ λα−1 exp (−λ (β + nx0 ))
Esta corresponde a una Gamma (α, β + nx0 ).
4.7. Distribución Normal

La distribución normal es la más ampliamente conocida y utilizada dis-
tribución en el trabajo estadı́stico. Hay básicamente dos razones para ello:
Muchas poblaciones pueden ser modeladas aproximadamente por esta

distribución.
Como resultados lı́mites se llega a ella en muchas situaciones.
Su función de densidad es
!
1 1 (x − µ)2
f (x) = √ exp −
2πσ 2 σ2
con soporte x ∈ (−∞, ∞). Su función de distribución acumulada se denota

Φ(x), su media es µ y su varianza σ 2 . Esta distribución posee dos parámetros,
lo cual nos lleva a considerar diferentes situaciones. La precisión es el inverso
de la varianza.
4.7.1. Precisión Conocida

distribución normal con un valor desconocido de la media µ y un valor es-
pecificado de la precisión r (r > 0).
Distribución Apriori: µ ∼ N (µ0 , τ0 ) donde τ0 es la precisión, tal

que −∞ < µ0 < ∞ y τ0 > 0.
Distribución Posterior:
(µ|X = x) ∼ N (µ1 , τ1 )
44
donde
τ0 µ0 + nrx̄
µ1 =
τ0 + nr
τ1 = τ0 + nr es la precisión
y x̄ es la media muestral.
Prueba: La prueba es elemental.
Observe que la media posterior se puede expresar como

τ0 µ0 + nrx̄ nr τ0
µ1 = = x̄ + µ0
τ0 + nr τ0 + nr τ0 + nr
Se ve claramente que la media posterior es una media ponderada de la media
apriori y la media muestral.
4.7.2. Precisión Desconocida

Este tipo de problema surge en control de calidad cuando lo que interesa
controlar es la variabilidad de un proceso determinado.
distribución normal con un valor conocido de la media m (−∞ < m < ∞)
y un valor desconocido de la precisión W (W > 0).
Distribución Apriori: W ∼ Gamma2 (α0 , β0 ) donde α0 > 0 y β0 >
0.
Distribución Posterior:
(W |X = x) ∼ Gamma (α1 , β1 )
donde
n
α1 = α0 +
2
n
1X
β1 = β0 + (xi − m)2 .
2 i=1
Prueba: La prueba es directa.
2
Asumimos una gamma de la forma
β α α−1 −βx
f (x) = x e
Γ(α)
45
4.7.3. Media y Precisión Desconocidas
Este caso, a pesar de lo simple que puede parecer, muestra la complejidad
a la que puede llegar a enfrentar el estadı́stico ante la presencia de varios
parámetros.

distribución normal con un valor desconocido de la media µ y un valor des-
conocido de la precisión R (R > 0).
Distribución Apriori Conjunta de µ y R:
1. La distribución condicional de µ cuando R = r es µ ∼ N (µ0 , τ0 r)

donde τ0 r es la precisión, tal que −∞ < µ0 < ∞ y τ0 > 0, y
2. la distribución marginal de R es Gamma (α0 , β0 ) donde α0 > 0
y β0 > 0.
Distribución Posterior Conjunta de µ y R cuando X = x:
1. La distribución condicional de µ cuando R = r es
(µ|X = x) ∼ N (µ1 , τ1 )
donde
τ0 µ0 + nx̄
µ1 =
τ0 + n
τ1 = (τ0 + n)r
y x̄ es la media muestral.
2. la distribución marginal de R es Gamma(α1 , β1 ) donde
n
α1 = α0 +
2
n
1X 2 τ n (x̄ − µ0 )2
β1 = β0 + (xi − x̄) +
2 i=1 2(τ + n)
Prueba:
Recuerde que
f (x, y)
f (x|y) = ⇒ f (x, y) = f (x|y) f (y)
f (y)
46
Si X1 , · · · , Xn es una muestra aleatoria de una distribución normal con
un valor desconocido de la media µ y un valor desconocido de la precisión τ
(τ > 0) la verosimilitud será:
n
Y
τ τ 1/2
L ( µ, τ | Datos) = √ exp − (xi − µ)2
i=1 2π 2
n
!
τX
∝ τ n/2
exp − (xi − µ)2
2 i=1
Ahora
n
X n
X
(xi − µ)2 = (xi − x̄ + x̄ − µ)2
i=1 i=1
n
X
= (xi − x̄)2 + n (x̄ − µ)2
i=1
= (n − 1)S 2 + n (x̄ − µ)2

τ
L ( µ, τ | Datos) ∝ τ exp − (n − 1)S 2 + n (x̄ − µ)2
n/2
2

n/2 τ 2 nτ 2
∝ τ exp − (n − 1)S exp − (x̄ − µ)
2 2
La apriori es
ξ (µ, τ ) = ξ ( µ| τ ) ξ (τ )

τ0 τ
∝ greenτ 1/2 exp − (µ − µ0 )2 blueτ α0 −1 exp (−β0 τ )
2

τ nτ
ξ (µ, τ ) ∝ τ exp − (n − 1)S 2 exp −
n/2
(x̄ − µ)2
2 2

1/2 τ0 τ 2
×τ exp − (µ − µ0 ) τ α0 −1 exp (−β0 τ )
2
i
n/2+1/2 τh 2 2
∝ τ exp − n (x̄ − µ) + τ0 (µ − µ0 )
2
!!
(n − 1)S 2
×τ α0 −1 exp −τ + β0
2
47
hAhora i
n (x̄ − µ)2 + τ0 (µ − µ0 )2 = n (µ − x̄)2 + τ0 (µ − µ0 )2
= nµ2 − 2nµx̄ + nx̄2 + τ0 − 2τ0 µµ0 + τ0 µ20
2 2 2
h − 2µ (nx̄ + τ0 µi0 ) + nx̄ + τ0 µ0
= (n + τ0 ) µ
2 (nx̄+τ0 µ0 ) 2 2
= (n + τ0 ) µ − 2µ (n+τ0 ) + nx̄ + τ0 µ0
h i
(nx̄+τ0 µ0 )2 (nx̄+τ0 µ0 )2
= (n + τ0 ) µ2 − 2µ (nx̄+τ 0 µ0 )
(n+τ0 ) + (n+τ0 ) 2 − (n+τ0 ) + nx̄2 + τ0 µ20

(nx̄+τ0 µ0 ) 2 (nx̄+τ0 µ0 ) 2
= (n + τ0 ) µ − (n+τ0 ) − (n+τ0 ) + nx̄2 + τ0 µ20
Luego la aposteriori queda

ξ(µ, τ) ∝

(nx̄+τ0 µ0 ) 2 (nx̄+τ0 µ0 )2
exp − τ2 (n + τ0 ) µ − (n+τ0 ) − (n+τ0 ) + nx̄2 + τ0 µ20

(n−1)S 2
× τ n/2+1/2 τ α0 −1 exp −τ 2 + β0

(nx̄+τ0 µ0 ) 2
∝ exp − τ (n+τ
2
0)
µ− (n+τ0 )
h 2 i
× exp − τ2 − (nx̄+τ 0 µ0 )
(n+τ0 ) + nx̄2 + τ0 µ20

(n−1)S 2
× τ n/2+1/2 τ α0 −1 exp −τ 2 + β0
Ahora
(nx̄ + τ0 µ0 )2
− + nx̄2 + τ0 µ20
(n + τ0 )
− (nx̄ + τ0 µ0 )2 + nx̄2 + τ0 µ20
=
(n + τ0 )
−n x̄ − 2nx̄τ0 µ0 − τ02 µ20 + nx̄2 + τ0 µ20
2 2
=
(n + τ0 )

(n + τ0 ) τ0 − τ02 µ20 + n (n + τ0 ) − n2 x̄2 − 2nx̄τ0 µ0
=
(n + τ0 )
2 2
nτ0 µ0 + nτ0 x̄ − 2nx̄τ0 µ0
=
(n + τ0 )

nτ0 µ0 + x̄2 − 2x̄µ0
2
=
(n + τ0 )
nτ0 (µ0 − x̄)2
=
(n + τ0 )
Entonces
48
ξ(µ, τ ) ∝

(nx̄+τ0 µ0 ) 2
exp − τ (n+τ
2
0)
µ− (n+τ0 )
h i
nτ0 (µ0 −x̄)2
× exp − τ2 (n+τ0 )

n/2+1/2 α −1 (n−1)S 2
× τ τ 0 exp −τ 2 + β0

(nx̄+τ0 µ0 ) 2
∝ τ 1/2 exp − τ (n+τ
2
0)
µ− (n+τ0 )

(n−1)S 2 nτ0 (µ0 −x̄)2
× τ α0 +n/2−1 exp −τ 2 + β0 + 2(n+τ0 )
Con esto queda demostrado el resultado.
4.8. Distribución Gamma

La distribución gamma ha sido ampliamente aplicada en confiabilidad y
en pruebas de vida. Decimos que la variable aleatoria X tiene una distribu-
ción gamma con parámetros β y α si su densidad es
β α α−1
f (x|α, β) = x exp (−βx) x > 0, α > 0
Γ(α)
donde α denota el parámetro de forma y β es el recı́proco de un parámetro

de escala. Si x1 , x2 , · · · , xn es una muestra aleatoria de esta distribución,
entonces la función de densidad conjunta es
n
Y β nα
f (xi |α, β) = pα−1 exp (−sβ)
i=1
[Γ(α)]n
donde
n
X
s = xi
i=1
Yn
p = xi
i=1
Miller (1980) usa una clase conjugada muy general definida por la con-
junta
0
β ν α−1 0 α−1
ξ(α, β) ∝ (p ) exp −s0 β
[Γ(α)]n0
49
0
donde α > 0, β > 0, n0 > 0, ν 0 > 0, s0 > 0 y p0 > 0, tal que n0 (p0 )1/n /s0 < 1.
La distribución posterior es proporcional a
00
β ν α−1 00 α−1
ξ(α, β|x) ∝ n 00 p exp −s00 β
[Γ(α)]
donde ν 00 = ν 0 + n, p00 = p0 p, s00 = s0 + s y n00 = n0 + n.
La distribución condicional de β dado α es una Gamma (ν 00 , s00 ), y la
distibución marginal posterior de α es proporcional a
ν 00 α
Γ (ν 00 α) r00
[Γ(α)]00 n00
donde
√ 0 0 0
r00 ν 00
p00 (p0 )1/(ν +n) (r/n)n/(ν +n) sn/(ν +n)
= =
n00 s00 s0 + s
4.9. Conjugadas en Tramos

A pesar de las ventajas que se tiene de usar distribuciones conjugadas
para realizar el proceso bayesiano, no siempre es posible hallar una distri-
bución en la familia que refleje el conocimiento previo. Una relajación a
este problema de trabajar en clases de distribuciones conjugadas es trabajar
con mezclas de distribuciones dentro de las familias conjugadas, que algunos
autores argumentan, pueden representar casi cualquier conocimiento previo
ya que ellas pueden aproximar casi cualquier distribución apriori (Meeden,
1992).
Meeden (1992) propuso el uso de distribuciones conjugadas por tramos.
Para ilustrar esto considere la proporción, π, como el parámetro de interés.
Como hemos visto, la familia conjugada en este caso es la Beta. Un ejemplo
del una conjugada en tramos tenemos
(
π α1 −1 (1 − π)β1 −1 para 0 < π ≤ λ
ξ(π) ∝
kπ α2 −1 (1 − π)β2 −1 para λ < π < 1
donde
k = λα1 −α2 (1 − λ)β1 −β2
Con esta selección de k, la densidad ξ es continua en λ.
Como el espacio parametral fue particionado en dos regiones, Meeden
ha llamado esta distribución de orden 2. Uno podrı́a ajustar splines cúbicas
restringidas también como una alternativa.
50
Capı́tulo 5
Análisis de Sensibilidad
En ingenierı́a es reconocida como una parte básica el análisis de sensibi-

lidad en la construcción de modelos. Esto, lamentablemente no es lo común
en estadı́stica, donde, por ejemplo en regresión, encontramos muchos libros
en los cuales, a pesar de darse muchas reglas para la elaboración de modelos,
no se hace énfasis en el análisis de sensibilidad. McCuen y Snyder (1986)
definen la sensibilidad como la tasa de cambio en un factor con respecto al
cambio en otro factor. “Aunque tal definición es vaga en términos de los
factores involucrados, sin embargo ella implica un cociente de dos diferen-
ciales. Estresando la nebulosidad de la definición es importante ya que, en
práctica, la sensibilidad de los parámetros de un modelo es raramente re-
conocida como un caso especial del concepto de sensibilidad. La falla para
reconocer la generalidad de la sensibilidad ha sido la responsable para su
uso limitado...”
Western y Jackman (1993) señalan:
Debido a que la selección de la apriori es subjetiva en el sen-

tido de atraer poco consenso, es importante investigar cómo las
distribuciones aposterioris dependen de las aprioris. Si las apos-
terioris son alatamente sensibles a las aprioris, esto sugiere que
los datos muestrales añaden poco a la información apriori, las
inferencias son obtenidas de las aprioris solas. Un argumento pa-
ralelo puede hacerse a la relación entre los datos muestrales y y
las aposterioris. Si un número pequeño de observaciones de los
datos muestrales son altamente influyentes para las aposterioris,
los resultados son igualmente inestables, reflejando la informa-
ción acerca de unos pocos casos en lugar del total de los datos es
51
combinación con las aprioris. En resumen, debido a la influencia
conjunta de la información apriori y los datos en el análisis, un
análisis convincente investiga la sensibilidad de la aposteriori a
las aprioiris y los datos.
5.1. Sensibilidad a la Apriori

Este análisis considera en cambios en la apriori y el efecto que se tiene
en la aposteriori ante estos cambios. Obviamente uno espera ir desde una
apriori no informativa hasta una apriori casi degenerada. Cómo se miden
estos cambios?
5.1.1. Distancias entre Aposterioris

Existen muchas medidas de la distancia entre funciones que pueden ser
aplicadas al caso de las distribuciones aposterioris. Entre ellas tenemos
Z 1/p
Lp (f, g) = |f − g|p
Z p 1/p
1/p 1/p
Hp (f, g) = f −g
Peña y Zamar (1997) proponen estudiar el efecto que tienen cambios en

la apriori sobre la moda aposteriori. Ellos proponen usar una función de
influencia de moda posterior (PMIF), que es obtenida calculando la deriva-
da direccional de Gateaux de la distribución posterior en dirección de una
apriori contaminadora.
5.1.2. Análisis de fronteras extremas (exterme bounds analy-

sis)
Este análisis investiga la variabilidad en la distribución posterior cuando
se permite que las varianzas aprioris varı́en desde cero hasta infinito mientras
las medias aprioris están fijas en cero.
5.2. Sensibilidad a los Datos

El análisis de sensibilidad a los datos es común en la regresión clási-
ca y se puede decir que tuvo su comienzo con la aparición del trabajo de
52
Belsley, Kuh y Welch (1980). Ellos propuesieron una metodologı́a basada en
estadı́sticos construı́dos teniendo como base la eliminación de observaciones
o el cambio de la posición de una observación. Weiss (1996) propone varias
alternativas para realizar este tipo de análisis basados en el concepto de
influencia, el cual ha sido ampliamente usado en la estadı́stica tradicional.
Se utiliza el concepto de perturbación como la función de influencia, deno-
tada por h∗ (θ), sobre el modelo. Las pertubaciones estándar en el análisis
bayesiano son:
Eliminación de casos, entonces

1
h∗1i (θ) ∝
f (yi |θ, xi )
Perturbación de apriori
q(θ)
h∗2 (θ) ∝
ξ(θ)
Sensibilidad a los valores yi
f (yi + δ |θ, xi )
h∗3i (θ, δ) ∝
f (yi |θ, xi )
Sensibilidad a los valores xi

f (yi |θ, xi + δ )
h∗4i (θ, δ) ∝
f (yi |θ, xi )
53
54
Capı́tulo 6
Distribuciones Apriori No
Informativas
El uso de distribuciones apriori no informativas buscan que ellas tengan

un impacto mı́nimo sobre la distribución posterior del parámetro de interés
y que sea relativamente plana con relación a la verosimilitud. Esto busca
que sean los datos los que tengan un claro dominio en la distribución pos-
terior, y, por lo tanto, en todas las inferencias que de ellas se obtengan.
También se conocen como vagas, difusas, planas o de referencia. El área de
las distribuciones no informativas es grande y polémica. Kadane, Schervish
y Seidenfeld (1999) comentan ”Algunos estadı́sticos usan distribuciones im-
propias, especialmente distribuciones uniformes, como una representación de
nuestra ignorancia. Otros consideran esto como la pérdida de la oportuni-
dad que proporcionan las distribuciones apriori para modelar las opiniones
del cliente.´´ Existen diferentes posiciones sobre cómo reflejar ignorancia
mediante una distribución.
Estas distribuciones no informativas se reunen en dos grupos:
Propias: Cuando la distribución de probabilidad integra a una constante

finita, se dice que es propia. Por ejemplo, para el caso de la distribu-
ción binomial, su parámetro π, que denota el porcentaje de éxitos en
la población, podemos asumir como apriori la U (0, 1), lo cual refleja
nuestra ignorancia total, al asumir que cualquier valor en este intervalo
es igualmente posible como valor.
Impropias: Una distribución apriori ξ(θ) es impropia si
55
Z
ξ(θ) dθ = ∞
Θ
Winkler (1967a) dice
“Los términos difuso y no-difuso son relativos en este contex-

to, no términos absolutos. Cuando decimos que nuestra informa-
ción es difusa realmente queremos decir que es difusa relativa a la
información muestral. También queremos decir que es localmen-
te difusa (i.e., difusa solo dentro dentro de un cierto rango). Ası́,
‘difuso’ puede depender no solo de la precisión de la información
muestral sino también de los valores especı́ficos de la informa-
ción muestral. En muchos casos el uso de distribuciones apriori
difusas por parte del bayesiano puede ser sicológicamente ilumi-
nador, bien sea para otros o para él mismo, aún si su distribución
apriori no es difusa. ”
Notas:
1. Una distribución apriori impropia puede terminar en una aposteriori

impropia y por lo tanto no se podrán hacer inferencias.
2. Una distribución apriori impropia puede llevar a una aposteriori pro-

pia.
Ejemplo 6.1 Asumamos que y1 , · · · , yn |θ son variables distribuidas normal

e independientemente con media θ y con varianza conocida σ 2 . Asumamos
que ξ(θ) ∝ 1 es la distribución apriori uniforme (impropia) sobre los números
reales. La verosimilitud es
!
n (ȳ − θ)2
L (θ|y) ∝ exp −
2 σ2
y la distribución posterior es
!
σ2
θ|y ∼ N ȳ,
n
la cual es una distribución propia.
56
Yang y Berger (1998) presentan varias razones por las cuales es impor-
tante considerar las distribuciones no informativas. Tenemos entre ellas
Con frecuencia la elicitación de las distribuciones apriori es imposible,

por múltiples razones, por ejemplo, limitaciones de costo o tiempo, o
resistencia o falta de entrenamiento de los clientes.
El análisis estadı́stico debe aparecer como “objetivo”.
La elicitación subjetiva puede producir malas distribuciones subjeti-

vas, por ejemplo si la elicitación es sesgada.
En problemas de alta dimensión, lo más que se puede esperar es obte-

ner buenas distribuciones subjetivas para algunos pocos parámetros,
y a los parámetros de perturbación se les asignan distribuciones no
informativas.
El análisis bayesiano con distribuciones no informativas puede utili-

zarse para obtener procedimientos clásicos buenos.
Aún cuando un investigador tenga creencias apriori fuertes, puede ser

más convincente analizar los datos utilizando una apriori de referencia do-
minada por la verosimilitud. Además podemos automatizar el proceso de
hallar aprioris. Yang y Berger (1998) proporcionan un amplio catálogo de
distribuciones no informativas que es útil en el trabajo aplicado.
Robert (1994) señala que en muchas situaciones una distribución im-
propia es el lı́mite de distribuciones propias. Pueden interpretarse ası́ como
casos extremos donde la información apriori ha deaparecido completamente.
6.1. El Principio de la Razón Insuficiente de La-

place
Si el espacio parametral es finito se puede utilizar una distribución apriori
uniforme para reflejar ignorancia total.
ξ(θ) ∝ 1 para θ ∈ Θ
Bhattacharya (1967) dice: “Esta distribución ha causado mucha controversia

entre los estadı́sticos bayesianos ya que no puede interpretarse como una
densidad de probabilidad en el sentido tradicional. Claramente, en casos
de un espacio parametral no acotado, una densidad uniforme asigna una
57
medida infinita al espacio. Más generalmente, si ξ(θ) es cualquier función no
negativa definida en el espacio parametral Θ, tal que ξ(θ) >R 0, entonces ξ(θ)
es llamada una “cuasi densidad apriori.” Aquı́, la integral ξ(θ)dθ puede o
no converger.
Definición 6.1 Una cuasi densidad apriori ξ(θ) es llamada “admisible”
con respecto a una densidad f (x |θ ) definida para x ∈ X, si
Z
h(x) = f (x |θ ) ξ(θ)dθ < ∞
Θ
para casi todo x ∈ X.
Para cada cuasi densidad apriori ξ(θ) que sea admisible con respecto a
f (x |θ ), existe una densidad definida en Θ como sigue:
f (x |θ ) ξ(θ)
ξ ∗ (θ |x ) = .
h(x)
Si ξ(θ) es una densidad apriori propia, entonces, por el teorema
R
de Bayes,
ξ ∗ es una densidad posterior para dado x. Si, sin embargo, Θ ξ(θ)dθ = ∞,
entonces ξ(θ) es simplemente una sustitución formal en el teorema de Bayes.
Estrictamente hablando, el teorema no aplica más pero ξ ∗ es una densidad
de probabilidad propia en Θ, y ası́, un bayesiano entusiasta puede proceder
con su análisis usual tomando a ξ ∗ como su distribución posterior. Wallace
llama a ξ ∗ una densidad posterior débil.”
6.2. Apriori de Jeffreys

La distribución apriori de Jeffreys satisface la propiedad local de unifor-
midad para distribuciones apriori no informativas. Esta apriori está basada
en la matriz de información de Fisher. Jeffreys la propuso como una “regla
general” para determinar la distribución apriori (Kass y Wasserman, 1994).
Definición 6.2 Sea f (x|θ) la densidad de x dado θ. La información de
Fisher es definida como
" #
∂ 2 log (f (x|θ))
I(θ) = −E
∂θ2
Si θ es un vector de p componentes, entonces
" #
∂ 2 log (f (x|θ))
I(θ) = −E
∂θi ∂θj p×p
y entonces I(θ) será una matriz de dimensión p × p.
58
Definición 6.3 La distribución apriori de Jeffreys se define como
ξ(θ) ∝ |I(θ)|1/2
La distribución apriori de Jeffreys es localmente uniforme y por lo tanto

no informativa. Esta propiedad es importante ya que nos proporciona un
esquema automatizado para hallar distribuciones apriori no informativas
para cualquier modelo paramétrico (Ibrahim, 2002). Esta distribución es
impropia para muchos modelos, sin embargo, es propia para algunos.
Ejemplo 6.2 Asumamos que y1 , · · · , yn son variables distribuidas indepen-

dientemente Bernoulli(π). Encontremos la distribución apriori de Jeffreys
para π.
La densidad para una variable Bernoulli(π) es
p(y|π) = π y (1 − π)1−y
Entonces tenemos
log (p(y|π)) = y log(π) + (1 − y) log(1 − π)

∂ y 1−y
log (p(y|π)) = −
∂π π 1−π
∂2 y 1−y
2
log (p(y|π)) = − 2 −
∂π π (1 − π)2
" #
∂2
I(π) = −E log (p(y|π))
∂π 2
E(y) 1 − E(y) 1 1−π
= 2
+ 2
= +
π (1 − π) π (1 − π)2
1 1 1
= + = .
π 1−π π(1 − π)
Por lo tanto la distribución apriori de Jeffreys es
ξ(π) ∝ I(π)1/2
1/2
1
=
π(1 − π)
= π −1/2 (1 − π)−1/2
= π 1/2−1 (1 − π)1/2−1
59

Ası́ π ∼ Beta 12 , 21 . Por lo que vemos en este caso la distribución apriori
de Jeffreys es propia.
Tuyl et al. (2008) discuten el caso donde en la muestra no se tienen éxitos

y comparan la apriori de Laplace y la de Jeffreys. Cuando este es el caso
la distribución de Jeffreys puede ser muy informativa, y selecciones de una
la familia Beta(α, β) que sea informativa también pueden ser excesivamente
informativas, por ejemplo para valores α < 1, sobrepasando la información
de la muestra.
Ejemplo 6.3 Asumamos que y1 , · · · , yn |µ son variables distribuidas normal

e independientemente con media µ y con varianza σ 2 desconocidas. Calcu-
lemos la distribución apriori de Jeffreys para (µ, σ)

1 1
f (x|µ, σ) = √ exp − 2 (x − µ)2
2πσ 2σ
1 1
log (f (x|µ, σ)) = − log(2π) − log(σ) − 2 (x − µ)2
2 2σ
∂ log (f (x|µ, σ)) 1
= (x − µ)
∂µ σ2
2
∂ log (f (x|µ, σ)) 1
= − 2
∂µ2 σ
∂ log (f (x|µ, σ)) 1 1
= − + 3 (x − µ)2
∂σ σ σ
2
∂ log (f (x|µ, σ)) 1 3
= − (x − µ)2
∂σ 2 σ2 σ4
∂ 2 log (f (x|µ, σ)) 2
= − 3 (x − µ)
∂µ∂σ σ
Tomando la esperanza obtenemos

!! " #
1
µ σ2
0
I = 2
σ 0 σ2
Ası́ la distribución apriori será

!!1/2
µ

ξ(µ, σ) ∝ I
σ
60

1 2 1/2
= ×
σ2 σ2
1
∝
σ2
Esta distribución apriori de Jeffreys es impropia.
La distribución apriori de Jeffreys tiene la propiedad de invarianza, ya

que para cualquier otra transformación uno a uno sigue siendo no informa-
tiva. Esto surge de la relación
2
dψ(θ)
I(θ) = I(ψ(θ))
dθ
donde ψ(θ) es una transformación uno a uno de θ. Ası́

1/2 1/2 dψ(θ)
(I(θ)) = (I(ψ(θ)))
dθ

Note que dψ(θ)
dθ es el valor absoluto del jacobiano de la transformación de
θ a ψ(θ). Ası́
(I(θ))1/2 dθ = (I(ψ))1/2 dψ
La apriori de Jeffreys preserva la escala en parametrizaciones.
Ejemplo 6.4 Supongamos x ∼ N (µ, 1). La distribución apriori de Jeffreys

para µ es ξ(µ) ∝ 1. Sea ψ(µ) = eµ . Esta es una transformación uno a uno
en µ. La correspondiente apriori de jeffreys para ψ(µ) es

dψ(µ) −1
(I(ψ(µ)))1/2 = (I(µ))1/2
dµ
= 1 × e−µ
= e−µ
Ası́ la distribución apriori de Jeffreys para ψ(µ) = eµ es
ξ(µ) ∝ e−µ , −∞ < µ < ∞.

La propiedad de invarianza significa que si tenemos una distribución
apriori localmente uniforme en θ, y si ψ(θ) es una función uno a uno de θ,
entonces ξ (ψ(θ)) es una distribución apriori localmente uniforme para ψ(θ).
61
Ejemplo 6.5 Apriori de Jeffreys para una binomial y una binomial
negativa. Según el principio de verosimilitud no existe diferencias entre la
información proporcionada por los dos esquemas de muestreo. Sin embargo
si se escoge una distribución no informativa de Jeffreys para el caso binomial,
ésta es
ξ(θ) ∝ θ−1/2 (1 − θ)−1/2
Para el caso de la distribución binomial negativa, la distribución apriori de

Jeffreys es
ξ(θ) ∝ θ−1/2 (1 − θ)−1
Esto produce, usando esta distribución apriori, diferentes resultados infe-

renciales con la aposteriori (Berger y Wolpert, 1988). Este es un problema
que tiene esta aproximación para construir aprioris en forma automatiza-
da, donde el esquema de muestreo es el que nos determina la distribución
apriori.
6.3. Otras Alternativas

Definición 6.4 (Distribución Apriori de Máxima Entropı́a) Cuando
θ es univariable y puede tomar cualquier valor sobre la recta real, y la media
y la varianza apriori están especificadas, la distribución apriori de máxima
entropı́a es la Normal con la media y la varianza especificadas.
En caso de soporte finito la distribución de máxima es la uniforme, sin

embargo cuando existe alguna información previa, por ejemplo una media,
entonces se construye esta apriori teneindo en cuenta esta restricción. Consi-
deremos el siguiente ejemplo, donde el soporte es finito y contable, digamos
θ1 , . . . , θk , con E [θ] = C, entonces debemos entonces maximizar
k
X
H=− p (θi ) log (p (θi ))
i=1
sujeto a la restricción
k
X
θi p (θi ) = C
i=1
62
y que
k
X
p (θi ) = 1
i=1
Los p (θi ) que resuelvan este problema forman la distribución de máxima

entropı́a.
Como una ilustración consideremos el siguiente caso (McGee, 1971): El
espacio parametral es Θ = {1, 2, 3, 4, 5} con E(θ) = 2. La solución aproxi-
mada es p1 = 0,459, p2 = 0,261, p3 = 0,148, p4 = 0,084, p5 = 0,048. Esto
puede hallarse vı́a algorı́tmos genéticos.
Kass y Wasserman (1994) presentan la definición planteada por Novick
y Hall:
Definición 6.5 (Distribución Apriori Indiferente) Se define una dis-

tribución apriori indiferente si identificando una clase de conjugadas se se-
lecciona una apriori de esta clase que satisfaga:
La apriori debe ser impropia y
una “muestra mı́nima necesaria” debe inducir una posterior propia.
Un ejemplo de la anterior definición es claro en el problema binomial,

con la clase conjugada de las Betas, la distribución apriori {π(1 − π)}−1 es
una apriori indiferente. Esta distribución apriori se conoce como la apriori de
Haldane. Esta distribución es impropia. Si se trabaja con una distribución
de Laplace para el (π) = log(π/1 − π), entonces la distribución sobre π
será esta (Zhu y Lu, 2004).
Bernardo (1979) propone la distribución apriori de referencia que hace
referencia a una apriori no informativa que maximize la información muestral
de la distribución posterior. Esto se hace en términos de distancia entre
distribuciones, la apriori y la aposteriori. En muchos caso esta distribución
coincide con la no informativa de Jeffreys.
Box y Tiao (1973) proponen el uso de distribuciones apriori localmente
uniformes, las cuales consideran el comportamiento local de la apriori en
una región donde la verosimilitud es apreciable, pero la apriori no se asume
grande por fuera de esa región.
Ejemplo 6.6 Distribución Poisson y los goles del local.

Consideremos los goles del local marcados en cada torneo del fútbol
colombiano. Si se utiliza una distribución apriori no informativa tenemos
varias alternativas :
63
Apriori no informativa uniforme de Laplace
π(λ) ∝ 1
Apriori de Jeffreys
π(λ) ∝ λ−1/2
Si usamos una apriori no informativa de Laplace como apriori inicial y

si cada distribución posterior sirve como apriori del torneo siguiente y asu-
miendo que el número de goles marcados por el local sigue una distribución
Poisson con parámetro λ, la aposteriori será Gamma.
Número de Goles Número Total Promedio

Torneo 0 1 2 3 4 5 6 7 Partidos Goles de Goles α β
2000-1 28 60 51 26 6 3 2 0 176 291 1.6534 291 176
2000-2 38 55 39 33 9 2 0 0 176 278 1.5795 569 352
2001-1 35 55 53 24 5 3 1 0 176 274 1.5568 843 528
2001-2 37 57 45 27 7 2 1 0 176 272 1.5455 1115 704
2002-1 47 65 64 13 6 2 1 0 198 272 1.3737 1387 902
2002-2 38 75 45 33 7 0 0 0 198 292 1.4747 1679 1100
2003-1 28 59 53 17 4 0 1 0 162 238 1.4691 1917 1262
2003-2 31 63 40 23 5 0 0 0 162 232 1.4321 2149 1424
2004-1 31 58 46 17 8 2 0 0 162 243 1.5000 2392 1586
2004-2 34 62 38 21 5 1 1 0 162 232 1.4321 2624 1748
2005-1 36 62 39 21 2 2 0 0 162 221 1.3642 2845 1910
2005-2 31 56 45 17 10 2 0 0 161 247 1.5342 3092 2071
2006-1 38 58 42 13 8 1 2 0 162 230 1.4198 3322 2233
2006-2 26 61 39 27 8 1 0 0 162 257 1.5864 3579 2395
2007-1 27 54 56 16 7 1 1 0 162 253 1.5617 3832 2557
2007-2 35 65 34 17 7 1 1 0 160 223 1.3938 4055 2717
2008-1 30 60 38 23 8 2 0 1 162 254 1.5679 4309 2879
2008-2 35 62 40 16 7 2 0 0 162 228 1.4074 4537 3041
2009-1 34 59 41 21 6 0 1 0 162 234 1.4444 4771 3203
2009-2 22 60 43 22 12 3 0 0 162 275 1.6975 5046 3365
64
Media Varianza Perc. 0.05 Mediana perc. 0.95
1 1.6534 0.0094 1.4973 1.6515 1.8160
2 1.6165 0.0046 1.5067 1.6155 1.7295
3 1.5966 0.0030 1.5072 1.5960 1.6881
4 1.5838 0.0022 1.5066 1.5833 1.6626
5 1.5377 0.0017 1.4704 1.5373 1.6062
6 1.5264 0.0014 1.4656 1.5261 1.5881
7 1.5190 0.0012 1.4624 1.5188 1.5765
8 1.5091 0.0011 1.4560 1.5089 1.5631
9 1.5082 0.0010 1.4578 1.5080 1.5593
10 1.5011 0.0009 1.4533 1.5010 1.5497
11 1.4895 0.0008 1.4439 1.4894 1.5358
12 1.4930 0.0007 1.4491 1.4928 1.5374
13 1.4877 0.0007 1.4455 1.4875 1.5304
14 1.4944 0.0006 1.4535 1.4942 1.5357
15 1.4986 0.0006 1.4590 1.4985 1.5387
16 1.4925 0.0005 1.4541 1.4923 1.5312
17 1.4967 0.0005 1.4594 1.4966 1.5344
18 1.4919 0.0005 1.4557 1.4918 1.5286
19 1.4895 0.0005 1.4542 1.4894 1.5252
20 1.4996 0.0004 1.4650 1.4995 1.5344
65
1.8
1.7
Gol Promedio
1.6
1.5
1.4
1.3
5 10 15 20
Torneo
Figura 6.1: Distribuciones Apriori No Informativa Laplace para iniciar el

proceso. Las Aposterioris son Gamma(α, β) para el problema de los goles del
local bajo el supuesto que se distribuye Poisson con parámetro λ. Las lı́neas
correspondientes a los cı́rculos son los percentiles 0.05 y 0.95, mientras que
la lı́nea que tiene los triángulos representa la mediana de las distribuciones
aposteriori. La lı́nea en gris con las cruces corresponde a las medias mues-
trales del proceso. Observamos la gran variabilidad de las medias muestrales
comparadas con la mediana de las distribuciones aposterioris.
66
Capı́tulo 7
Marginalización
Mucho del trabajo estadı́stico aplicado se centra sobre ciertos paráme-

tros que son de interés primario por parte del investigador, por ejemplo los
parámetros de localización. Un ingeniero en contro de calidad puede tener
interés en la variabilidad de un proceso, por lo tanto los demás parámetros
pasan a ser secundarios. La marginalización es un concepto fundamental
en el trabajo bayesiano. Los parámetros de moslestia (nuisance parameters)
han recibido atención en la estadı́stica clásica durante mucho tiempo, llevan-
do a diferentes soluciones sobre las cuales no hay total acuerdo. En muchas
situaciones tenemos un vector de parámetros, pero solo estamos interesa-
dos realmente en unos pocos. Debemos por lo tanto proceder a “eliminar”
aquellos términos de molestia. Esto lo hacemos mediante la marginalización.

Suponga que x , · · · , x es una muestra aleatoria de una N µ, σ 2 , donde
1 n
µ, σ 2 son desconocidos. Sea τ = 1/σ 2 . Suponga que especificamos una
apriori no informativa de Jeffreys

ξ µ, σ 2 ∝ τ
Ahora,
( n
)
n τX
ξ (µ, τ |x) ∝ τ 2
−1
exp − (xi − µ)2 .
2 i=1
Ası́, para eliminar el término nuisance τ marginalizamos

Z ( n
)
∞ n τX
ξ (µ |x) ∝ τ 2
−1
exp − (xi − µ)2 dτ.
0 2 i=1
67
No es difı́cil llegar a
Z (
n )
∞ n
−1 τX 2 nτ 2
ξ (µ |x) ∝ τ 2 exp − (xi − x̄) exp − (x̄ − µ) dτ.
0 2 i=1 2
Sea
n
1 X
s2 = (xi − x̄)2
n − 1 i=1
Entonces
Z
∞ n
−1 τ 2 2
ξ (µ |x) ∝ τ 2 exp − (n − 1)s + n(µ − x̄) dτ
0 2
−n/2
∝ (n − 1)s2 + n(µ − x̄)2
−(n−1+1)/2
n
∝ 1+ (µ − x̄)2
(n − 1)s2
Ası́
!
s2
µ|x ∼ t n − 1, x̄,
n
Por lo tanto
µ − x̄
√ ∼ t(n−1)
s/ n
A pesar de haber llegado a un resultado que es de uso común en la estadı́stica

clásica, la interpretación aquı́ es diferente.
Ejemplo 7.1 Eliminando otro término de molestia. En el ejemplo

anterior supongamos que el término de molestia es µ. Debemos por lo tanto
halla ξ (τ |x). procedemos de manera similar
Z
τ
∞ n
−1

ξ (τ |x) ∝ τ exp − (n − 1)s2 + n(µ − x̄)2
2 dµ
−∞ 2

n−1
−1 τ 2
∝ τ 2 exp − (n − 1)s
2
Ası́
68
!
n − 1 (n − 1)s2
τ |x ∼ Gamma ,
2 2
De lo anterior obtenemos que
(n − 1)s2 τ ∼ ξn−1
2
[1] presenta conceptos tales como la distribución posterior perfilada. Si

tenemos un problema donde exista un parámetro de molestia (θ, ν) y el
parámetro de interés es θ, a ν se le conoce como un parámetro de molestia
(nuisance) y la dsitribución posterior es ξ (θ, ν |x ), si la apriori que se ha
usado es una distribución no informativa, esta posterior será proporcional
a la verosimilitud. La marginalizqación equivaldrı́a a lo que se conoce co-
mo una verosimilitud integrada. Otra alternativa es considerar la posterior
perfilada, en la cual el parámetro de molestia se elimina remplazando este
parámetro por el valor ν̂(θ) que maximiza la verosimilitud conjunta. Esta
posterior perfilada será
ξ P (θ |x ) ∝ ξ (θ, ν̂(θ) |x )
Si la apriori es una uniforme, entonces esto se conoce como la verosimilitud

perfilada. Desde el punto bayesiano es preferible trabajar marginalizando,
sin embargo en algunos casos pudiera ser mejor considerar la perfilada por
cuestiones computacionales.
Una ayuda es considerar transformaciones que produzcan una matriz
de varianzas y covarianzas entre θ y ν cercana a una matriz diagonal. El
concepto de independencia es cercano al de ortogonalidad en la estadı́stica
clásica. Si l(θ, ν) denota la log-verosmilitud de (θ, ν), entonces la matriz de
información observada se define como
" #
∂ 2 l(θ,ν) ∂ 2 l(θ,ν)
I(θ, ν) = − ∂θ 2 ∂θ∂ν
∂ 2 l(θ,ν) ∂ 2 l(θ,ν)
∂θ∂ν ∂ν 2

evaluada en el estimador de máxima verosimilitud θ̂, ν̂ de (θ, ν). Los
parámetros
se dice que son ortogonales si la matriz anterior evaluada en
θ̂, ν̂ es diagonal.
69
70
Capı́tulo 8
Inferencia Bayesiana
8.1. Estimación Puntual

Dada una distribución sobre un parámetro particular, digamos θ, reque-
rimos seleccionar un mecanismo para escoger un “buen” un estimador θ̂.
Supongamos que θ0 es el verdadero parámetro, desconocido. Sea d nuestra
adivinanza de este valor. Debemos de alguna forma medir el error que co-
metemos (digamos que esto puede ser una multa o un pago) al adivinar a θ0
mediante d. Esto puede ser medido por (d − θ0 )2 o por |d − θ0 | o mediante
alguna otra función.
Un problema estadı́stico puede resumirse como (S, Ω, D, L), donde
S: Es el espacio muestral de un experimento relevante que tiene asociada
una variable aleatoria X cuya distribución de probabilidad está para-
metrizada por un elemento de Ω.
Ω: Espacio parametral (en un sentido amplio)
D: Un espacio de decisiones
L: Una función de pérdida.
Una vez un problema estadı́stico ha sido especificado, el problema de
inferencia estadı́stica es seleccionar un procedimiento (estadı́stico), a veces
llamado una función de decisión, que nos describe la forma de tomar una
decisión una vez un resultado muestral ha sido obtenido.
Definición 8.1 Una función de decisión o procedimiento estadı́stico es una

función o estadı́stico d que mapea de S a D.
71
Definición 8.2 Sea D un espacio arbitrario de decisiones. Una función no
negativa L que mapea de Ω × D a R es llamada una función de pérdida.
Definición 8.3 El valor esperado de L(θ, d(X)) cuando θ es el verdadero

valor es llamada la función de riesgo
Z
R(θ, d) = Eθ [L (θ, d(X))] = L (θ, d(x)) dPθ (x)
Función de Pérdida Cuadrática:
L(d, θ) = (d − θ)2
Miremos el riesgo para esta función de pérdida. Sea

Z
b = Eξ(θ|x) (θ) = θ ξ (θ|x) dθ
el promedio de la distribución aposteriori. Entonces
Z
E [L(d, θ)] = L(a, θ) ξ (θ|x) dθ
Z
= (a − b + b − θ)2 ξ (θ|x) dθ
Z
2
= (a − b) + (b − θ)2 ξ (θ|x) dθ
Z
≥ (b − θ)2 ξ (θ|x) dθ
,
para cualquier valor de d. La desigualdad anterior se convierte en igual-

dad cuando d = b. El estimador bayesiano bajo una función de pérdida
cuadrática es la media de la distribución posterior.
Función de Pérdida Error Absoluto:
L(d, θ) = |d − θ|
El riesgo es minimizado tomando d como la mediana de la distribución

posterior, digamos d∗ . O sea, la mediana es el estimador bayesiano
cuando la función de pérdida es el valor absoluto. Para mostrar esto
supongamos otra decisión tal que d > d∗ . Entonces
72

 ∗
 d −d si θ ≥ d,
|θ − d| − |θ − d∗ | = d + d∗ − 2θ si d∗ < θ < d,

 d − d∗ si θ ≤ d∗ .
Ya que (d + d∗ − 2θ) > (d∗ − d) cuando d∗ < θ < d, entonces el siguiente

resultado se consigue
E(|θ − d| − |θ − d∗ |) ≥ (d∗ − d)P (θ ≥ d) + (d∗ − d)P (d∗ < θ < d)
+(d − d∗ )P (θ ≤ d∗ )
= (d − d∗ ) [P (θ ≤ d∗ ) − P (θ > d∗ )] ≥ 0
Esta última desigualdad sigue del hecho que d∗ es la mediana de la distribu-
ción de θ. La primera desigualdad en este conjunto de ecuaciones será una
igualdad si, y solo si, P (d∗ < θ < d) = 0. La desigualdad final será una
igualdad si, y solo sı́,
1
P (θ ≤ d∗ ) = P (θ > d∗ ) = .
2
Estas condiciones implican que d es también una mediana. Por lo tanto,
E(|θ − d|) ≥ E(|θ − d∗ |), y la igualdad se cumple si, y solo si, d es también
mediana.
Una prueba similar puede hacerse si d < d∗ .
Función de Pérdida Error Absoluto Asimétrica:
L(d, θ) = (1 − p) |d − θ| si d < θ
= p |d − θ| si d ≥ δ
donde 0 < p < 1. Bajo esta función de pérdida el estimador bayesiano se

encuentra resolviendo la siguiente ecuación
Z d
ξ (θ |x|) dθ = p
−∞
Función de Pérdida para un Espacio Parametral Discreto:
L(d, θ) = 0 si d = θ
= 1 si d 6= θ
73
Función de Pérdida Escalonada:
L(d, θ) = 0 si |d − θ| ≤ δ
= 1 si |d − θ| > δ
donde δ es un número predeterminado, usualmente pequeño.
Z
E [L(d, θ)] = I (|d − θ| > δ) ξ (θ|x) dθ
Θ
Z
= I (1 − (|d − θ| ≤ δ)) ξ (θ|x) dθ
Θ
Z d+δ
= 1− ξ (θ|x) dθ
d−δ
≈ 1 − 2δξ (d|x)
Para minimizar el riesgo es necesario maximizar ξ (d|x) con respecto a d y el

estimador bayesiano es el maximizador. Por lo tanto, el estimador bayesiano
será el que maximiza la posterior, esto es, el valor modal. Este estimador es
llamado el estimador máximo-aposteriori (MAP).
Propiedad de Invarianza de los Estimadores de Máximo-Aposteriori

Sea θ = (θ1 , θ2 , · · · , θk ) el parámetro k-dimensional y sea Θ que denota
el espacio parametral. Se desea hallar el estimador de máximo aposteriori
de g = g (θ) = (g1 (θ) , g2 (θ) , · · · , gr (θ)), para 1 ≤ r ≤ k. Sea G que denota
el espacio parametral inducido por la transformación de Θ. G es un espacio
r-dimensional. Definamos
ξ ∗ (g |x1 , · · · , xn ) = sup ξ (θ |x1 , · · · , xn )

{θ : g(θ )=g }
ξ ∗ es algunas veces llamada la aposteriori inducida por g. Cuando estimamos
θ maximizamos la función de verosimilitud ξ (θ |x1 , , xn ) como función de θ
para valores fijos de la muestra. Cuando estimamos g(θ) = g maximizamos
la aposteriori inducida por la función g, ξ ∗ , como una función de g mante-
niendo fija la muestra. Ası́ el estimador de MAP de g(θ) = g, denotada por
ĝ, es cualquier valor que maximice la función aposteriori inducida para la
muestra fija; esto es, ĝ es tal que
ξ ∗ (ĝ |x1 , · · · , xn ) ≤ ξ ∗ (g |x1 , · · · , xn ) , ∀g ∈ G
74

Teorema 8.1 Propiedad de Invarianza Sea θ̂ = θ̂1 , θ̂2 , · · · , θ̂k , el esti-
mador MAP en la aposteriori ξ (θ |Datos ). Si g (θ) = (g1 (θ) , g2 (θ) , · · · , gr (θ)),
para 1 ≤ r ≤ k, es una transformación del espacio parametral Θ, entonces
un estimador MAP en la densidad inducida aposteriori es g(θ̂).
Prueba:
Sea θ̂ = θ̂1 , θ̂2 , · · · , θ̂k el MAP. Es suficiente mostrar que

ξ ∗ g(θ̂) |x1 , · · · , xn ≤ ξ ∗ (g(θ) |x1 , · · · , xn )
para todo θ ∈ Θ, lo cual sigue inmediatamente de la desigualdad
ξ ∗ (g |x1 , · · · , xn ) = sup ξ (θ |x1 , · · · , xn )

{θ : g(θ )=g }
≤ sup ξ (θ |x1 , · · · , xn )
θ ∈Θ

= ξ θ̂ |x1 , · · · , xn
= n sup o ξ (θ |x1 , · · · , xn )
θ : g(θ )=g(θˆ )

= ξ ∗ g θ̂ |x1 , · · · , xn
Una estimación que puede ser utilizada en una o más dimensiones, espe-
cialmente cuando la función de pérdida no ha sido definida explı́citamente,
es el valor del parámetro en el cual se maximiza la disribución posterior.
Para cualquier observación de x, sea ψ(·|x) que denota la distribución pos-
terior de W en el espacio parametral Ω. Sea ŵ(x) el valor de w que satisface
la relación
Ejemplo 8.1 Estimación Puntual de la Media de una Población

Normal con Varianza Conocida.
Datos: y = (y1 , y2 , · · · , yn )0 . Asumimos que yi ∼ N (θ, σ 2 ), para todo
i = 1, 2, · · · , n. y la varianza es conocida.
Distribución Apriori para θ:

θ ∼ N µo , σo2 ,
o !
1 (θ − µo )2
ξ(θ) ∝ exp −
2 σo2
75
Verosimilitud:
!
n
Y 1 (yi − θ)2
2
f y|θ, σ = √ exp −
i=1 2πσ 2 2σ 2
n
!
X (yi − θ)2
∝ exp −
i=1
2σ 2
Distribución Aposterior: Se aplica la regla de Bayes
ξ (θ|y) ∝ ξ(θ) · f (y|θ)

∝ ξ(θ) · L (θ|)
! n
!
1 (θ − µo )2 X (yi − θ)2
∝ exp − exp −
2 σo2 i=1
2σ 2
( n
)!
1 (θ − µo )2 X (yi − θ)2
∝ exp − +
2 σo2 i=1
σ2
La distribución posterior se puede reorganizar y mostrar que

θ|y ∼ N µn , σn2
donde
1
µ + σn2 ȳ
σo2 o τo µo + nrȳ
µn = 1 =
σo2
+ σn2 τo + nr
y
1 1 n
2
= 2+ 2
σn σo σ
Bajo las tres funciones de pérdida el estimador bayesiano para la media
será
θ̂ = µn .
Ejemplo 8.2 Caso Poisson.

Sea y1 , · · · yn una muestra aleatoria de una P oisson(λ). Supongamos
también que la apriori es una Gamma(1, 1). Por lo tanto la aposterior
P
será Gamma(1 + ni=1 yi , n + 1).
El estimador bayesiano para λ
76
bajo la función de pérdida cuadrática es
P
1 + ni=1 yi
λ̂ =
n+1
bajo la función de pérdida escalonada

nP
α∗ − 1 i=1 yi
λ̂ = ∗
= si α∗ ≥ 1
β n+1
La siguiente función en R calcula los tres estimadores, bajo el supuesto

de una aprori Gamma(α0 , β0 ) :
calcula.estimadores.poisson<-function(alfa0,beta0,x,n=lenght(x))
{
alfa1<-alfa0+sum(x)
beta1<-beta0+n
estimador.fpc<-alfa1/beta1
estimador.fpa<-qgamma(0.5,alfa1,beta1)
estimador.fpe<-(alfa1-1)/beta1
list(estimador.fpc=estimador.fpc,
estimador.fpa=estimador.fpa,
estimador.fpe=estimador.fpe)
}
La utilización será
> calcula.estimadores.poisson(1,1,16,n=4)
$estimador.fpc
[1] 3.4
$estimador.fpa
[1] 3.333571
$estimador.fpe
[1] 3.2
Definición 8.4 Estimador generalizado de máxima verosimilitud

Si tal valor de w existe para todo valor de x,
ξ [ŵ(x)|x] = sup ξ(w|x)

w∈Ω
77
Densidades en el Problema Poisson
0.7
0.6
Gamma(1,1)
Gamma(17,5)
0.5
Posterior
Apriori
0.4
Densidad
Verosimilitud
0.3
Verosimilitud
0.2
0.1
0.0 0 2 4 6 8 10
Figura 8.1: Distribuciones Apriori Gamma(α0 = 1, β0 = 1) y Aposteriori

Gamma(α1 = 17, β1 = 5) para un problema de conteo Poisson con paráme-
P
tro λ . La muestra n = 4 y 4i=1 yi = 16.
entonces decimos que el estimador ŵ(X) es un estimador generalizado de

máxima verosimilitud de W .
Ejemplo 8.3 Goles del equipo visitante. Consideremos el número de

goles marcados por el equipo visitante en el torneo profesional de fútbol
colombiano. Bajo el supuesto que que esta variable se distribuye Poisson
con parámetro λ y que tenemos los datos:
Goles del Visitante

Torneo 0 1 2 3 4 5
2008-I 61 63 27 9 2 0
2008-II 76 56 23 5 2 0
Si la apriori inicial se escoge no informativa de Laplace entonces
P
xi
ξ1 (λ|T orneoI − 2008) ∝ λ exp (−nλ)ξ0 (λ)
∝ λ(61×0+63×1+27×2+9×3+2×4) exp (−162λ)
∝ λ(152) exp (−162λ)
78
O sea, ξ1 es una Gamma(153, 162)
Considerando los datos del segundo torneo la aposteriori es una Gamma(153+
125, 162 + 162), o sea una Gamma(278, 324).
La media aposteriori es
278
= 0,8580247
324
La moda aposteriori es
277
= 0,8549383
324
8.2. Regiones de Credibilidad

Los intervalos de confianza clásicos frecuentemente son malinterpreta-
dos y los usuarios actúan como si “grado de confianza” fuera sinónimo de
uniformidad dentro del intervalo.
8.2.1. Región de la Densidad Posterior Más Alta (RDPMA)

Si p(θ|Y ) denota la densidad posterior entonces podemos definir un in-
tervalo de credibilidad utilizando la RDPMA.
Definición 8.5 (Box y Tiao, 1973) Una región R en un espacio parametral

Θ es llamada la región de la densidad posterior más alta (RDPMA) de
contenido α si
1. P (θ ∈ R|Y ) = α
2. Para θ1 ∈ R y θ2 6∈ R, se cumple P (θ1 ∈ R|Y ) ≥ P (θ2 ∈ R|Y ).
Para un contenido de probabilidad α, la RDPMA tiene el volumen más

pequeño en el espacio parametral. Hyndman (1996) presenta diversos gráfi-
cos para representar estas regiones.
Ejemplo 8.4 Distribución Exponencial. Elfessi y Reineke (2001) cons-

truyen intervalos de credibilidad para la media de la distribución exponencial
bajo una distribución apriori propia conjugada
ξ(θ) = θα−1 exp (−βθ)
79
para θ > 0, −∞ < α < ∞ y β ≥ 0. Note que esta distribución apriori corres-
ponde al kernel de una distribución gamma cuando α ≥ 0. La distribución
aposteriori es por lo tanto
( n
)!
X
n+α−1
ξ (θ|x1 , · · · xn ) ∝ θ exp −θ β + xi
i=1
Esta distribución posterior es propia cuando α + n > 0, y la constante de

proporcionalidad es
P
(β + ni=1 )α+n
.
Γ(α + n)
El intervalo de credilidad de probabilidad C100 % es

!
χ22(α+n),(1−(1−C)/2) χ22(α+n),((1−C)/2)
P , P
2 (β + ni=1 xi ) 2 (β + ni=1 xi )
Ejemplo 8.5 Tiempo hasta el primer gol. Del primer torneo de fútbol
del 2005 consideramos los tiempos hasta que se marcó el primer gol (en
partidos en los cuales se marcó al menos un gol). Si asumimos que el tiempo
hasta el primer gol se distribuye exponencial y que la apriori es una no
informativa de Jeffreys, entonces la aposteriori será
n
!
X
gamma n, xi
i=1
> tiempo<-scan()
1: 9 80 22 46 9 73 91 62 59 6 46
12: 27 19 77 9 29 60 75 75 16 21
22: 40 24 66 83 55 27 50 81 33 43
32: 67
33:
> s.x<-sum(tiempo)
> s.x
[1] 1480
> n<-length(tiempo)
80
> n
[1] 32
> qgamma(c(0.025,0.975),n,rate=s.x)
[1] 0.01478917 0.02973110
> 1/qgamma(c(0.025,0.975),n,rate=s.x)
[1] 67.61703 33.63482
Ejemplo 8.6 Distribución Uniforme. Rossman et al. (1998) presentan

la contrucción de la región de mayor probabilidad para el “parámetro” de la
distribución uniforme U (0, θ). La estadı́stica clásica nos presenta, asumien-
do que X1 , · · · , Xn sea una muestra aleatoria,
Estimador de Máxima Verosimilitud máx {Xi }
n+1
Estimador de Mı́nima Varianza Insesgado n máx {Xi }
Si escogemos una distribución apriori impropia o aplanada de la forma

ξ(θ) = 1 para θ > 0, la distribución posterior es proporcional a la función
de verosimilitud,
1
ξ (θ|X) ∝ para θ ≥ máx {Xi }
θn
La constante de proporcionalidad, que vuelve la distribución posterior
propia es (n − 1) (máx {Xi })n−1 . Bajo la función de pérdida cuadrática el
estimador bayesiano es igual a la media aposteriori
Z ∞ n−1
E[θ|X] = θ · ξ (θ|X) dθ = máx {Xi }
−∞ n−2
Un intervalo de probabilidad del 95 % se halla resolviendo

Z LS (n − 1) (máx {Xi })n−1
dθ
LI θn
Ejemplo 8.7 Intervalo para la Poisson. La siguiente función permite

construir un intervalo del 95 % de probabilidad de la mayor densidad para
el parámetro de la Poisson
81
intervalo.poisson <-function(a,b){
x1<-1:499/10000
x2<-0.950+x1
dif<-abs(dgamma(qgamma(x1,a,rate=b),a,rate=b)
-dgamma(qgamma(x2,a,rate=b),a,rate=b))
x3<-qgamma(x1[which.min(dif)],a,rate=b)
x4<-qgamma(x2[which.min(dif)],a,rate=b)
list(x3=x3,x4=x4)
}
En el ejemplo que tenı́amos nos da

> intervalo.poisson(17,5)
$x3
[1] 1.871629
$x4
[1] 5.045115
Mientras que el intervalo tradicional hallado con ambas colas iguales a
α/2 es
$x3
[1] 1.980625
$x4
[1] 5.1966
Selección de valores de α y β
Se seleccionaron valores de α y β tales que la media de la distribución
apriori sea pequeña
La distribución Gamma es muy sesgada a la derecha (la mayor parte
de la densidad se halla a la derecha de la media)
Se seleccionó una media igual a uno, razón para hacer α = β, lo que
controlamos es la varianza, que es la que nos da una medida del grado
de incertidumbre y entre más pequeño sea α mayor será la varianza.
En el año 1996, en el tramo La Pintada-Primavera (Tramo 2509), se
registraron 152 accidentes, y no hubo muertes. Si estamos interesados en es-
timar la tasa de muertes por accidentes tenemos la siguiente tabla aplicando
la metodologı́a anterior
82
Método Intervalo
Bayesiano (0,0.0126)
Cota Máxima (0,0.0197)
Factor de Correción (0,0.385)
8.2.2. Intervalos Aproximados

Un intervalo de verosimilitud, I (θ; β |x ), se define como
n o
I (θ; β |x ) = θ; l (θ |x ) ≥ e−β l θ̂ |x
donde β es una constante positiva.

Hudson (1971) en el área de intervalos de confianza vı́a función de ve-
rosimilitud presenta la definición de “forma estándar” para la función de
verosimilitud como
Decimos que una función de verosimilitud tiene la forma estándar si
1. θ̂ es único,
2. l(θL ) = 0 = l(θR ) para algún θL ≤ θ̂ ≤ θR y
3. l(θ) es monotónica sobre θL ≤ θ ≤ θ̂ y monotónica decreciente sobre

θ̂ ≤ θ ≤ θR .
Los anteriores conceptos pueden generalizarse al caso de la distribución

posterior y tendrı́amos entonces las siguientes definiciones:
Definición 8.6 Intervalo verosı́mil posterior. Un intervalo de probabi-

lidad verosimilitud-posterior, I (θ; β |x ), se define como
n o
I (θ; β |x ) = θ; ξ (θ |x ) ≥ e−β ξ θM oda |x
donde β es una constante positiva.
Definición 8.7 Aposteriori con forma estándar. Decimos que una den-
sidad posterior tiene la forma estándar si
1. θM oda es único,
2. ξ(θL ) = 0 = l(θR ) para algún θL ≤ θM oda ≤ θR y
3. ξ(θ) es monotónica sobre θL ≤ θ ≤ θM oda y monotónica decreciente

sobre θM oda ≤ θ ≤ θR .
83
Si asumimos una apriori de Laplace, los intervalos de probabilidad apos-
teriori pueden ser calculados aproximadamente mediante esta metodologı́a.
Si la distribución poblacional es N (µ, 1) y la apriori ξ (µ) ∝ k, entonces
un intervalo aproximado con probablidad 0.954 es

1 1
x̄ − 2 √ ; x̄ + 2 √
n n
8.3. Pruebas de Hipótesis

Ejemplo 8.8 Poderes Sobrenaturales. Bayarri y Berger en la reunión
anual que se lleva a cabo en Valencia (España) presentaron el siguiente caso
de sicokinesis: Tres investigadores (Schmidt, Jahn y Radin) en 1987 utili-
zaron un generador cuántico que recibe una fila de partı́culas y él desvı́a
cada partı́cula, independientemente de las otras, hacia una luz roja o una
luz verde con igual probabilidad. Se le pidió a un sujeto quien alegaba tener
poderes sicokinéticos que tratara de influenciar el generador de tal forma que
las partı́culas se fueran para la luz roja. Se generaron 104.490.000 partı́culas
y se contaron 52.263.470 partı́culas que se fueron hacia la luz roja. Habrá su-
ficiente evidencia que permita decir que el sujeto tiene poderes sicokinéticos?
Podemos pensar en este exprimento ası́: Cada partı́cula corresponde a
un ensayo Bernoulli(π), y un éxito será si la partı́cula se va para la luz
roja. Si X denota el número de éxitos, X ∼ Binomial (n, π). Tenemos x =
52,263,470 como la observación real. Se necesita probar
1
H0 : π = (El sujeto no tiene poderes)
2
1
H1 : π 6= (El sujeto tiene poderes)
2

El valor − p = PH0 X − n2 ≥ x − n2 ≈ 0,0003 nos lleva a concluir que
hay una fuerte evidencia contra H0 .
Si pensamos bayesianamente necesitamos una distribución apriori, pero
ahora definida sobre las hipótesis en juego:
ξ (Hi ) = probabilidad apriori de que Hi sea cierta, i = 0, 1.
Bajo H1 : π 6= 1/2, sea ξ(π) la densidad apriori sobre π. El Bayes objetivo

selecciona
84
1
P r (H0 ) = P r (H1 ) =
2
con ξ(π) = 1 (0 < π < 1)
La probabilidad posterior de la hipótesis
P r (H0 |x) = probabilidad de queH0 sea cierta dados los datos x

f (x|π = 1/2) P r (H0 )
= R
P r (H0 ) f (x|π = 1/2) + P r (H1 ) f (x|π) ξ(π) dπ
Para la apriori objetiva
P r (H0 |x = 52,263,470) ≈ 0,92
La densidad posterior en H1 : π 6= 1/2 es
ξ (π|x, H1 ) ∝ ξ(π)f (x|π) ∝ 1 × π x (1 − π)n−x ,
que es una Beta (52,263,470, 52,226,530)
“En cualquier etapa de conocimiemto es válido preguntar acerca de una

hipótesis que ha sido aceptada, ‘Cómo lo sabe?’ La respuesta usualmente
descansará en algunos datos observacionales. Si preguntamos adicionalmen-
te, ‘Qué pensaba ud. acerca de la hipótesis antes de que obtuviera los datos?’
nos pueden hablar de lagunos datos menos convincentes; pero si vamos lo
suficientemente atrás siempre llegaremos a una etapa donde la respuesta de-
be ser: ‘Yo pensé que valı́a la pena considerar el asunto, pero no tenı́a una
opinión acerca de si era cierta. ’ Cuál es la probabilidad en esta etapa? Ya
tenemos la respuesta. Si no hay razón para creer en una hipótesis en lugar de
otra, las probabilidades son iguales” (Jeffreys, 1961). La aproximación baye-
siana a las pruebas de hipótesis está basada en el cálculo de de la probabili-
dad condicional de una hipótesis Ho dada la información disponible, digamos
Io , esto es, p(H|Io ). Cuando la hipótesis nula es Ho : θ ∈ Θo y la alternativa
T
H1 : θ ∈ Θ1 , con Θo Θ1 = ∅, son formuladas, hay creencias apriori sobre
ambas, digamos ξ(Ho |Io ) y ξ(H1 |Io ), con ξ(Ho |Io ) + ξ(H1 |Io ) = 1. Por el
teorema de la probabilidad total, la distribución apriori de θ es:
ξ(θ|Io ) = ξ(θ|Ho , Io )ξ(Ho |Io ) + ξ(θ|H1 , Io )ξ(H1 |Io )
85
donde ξ(θ|Hi , Io ), son las densidades apriori de θ, condicionadas en cada
hipótesis. La información muestral es utilizada entonces para calcular de los
odds apriori:
ξ(Ho |Io )
ξ(H1 |Io )
los odds posteriores en favor de Ho :
ξ(Ho |I1 ) p(y|Ho ) ξ(Ho |Io )

=
ξ(H1 |I1 ) p(y|H1 ) ξ(H1 |Io )
de la cual se deriva la siguiente regla de decisión:
si ξ(Ho |I1 ) < ξ(H1 |I1 ) Rechace Ho

si ξ(Ho |I1 ) > ξ(H1 |I1 ) Acepte Ho
si ξ(Ho |I1 ) = ξ(H1 |I1 ) Indecisión acerca de Ho
Definición 8.8 (Factor de Bayes) La razón p(y|Ho )/p(y|H1 ) es llamado

el factor de Bayes, denotado por BF o B01 (y).
Si queremos probar
H0 : θ ∈ Θ0 versus H1 : θ ∈ Θ1
Sea f (x|θ) la verosimilitud de x dado θ. Tenemos las siguientes formas del

factor de Bayes
f (x|θ0 )
B01 (x) = (Prueba simple vs. simple)
f (x|θ1 )
f (x|θ0 )
B01 (x) = R (Prueba simple vs. compuesta)
Θ1 f (x|θ)ξ1 (θ)dθ
R
f (x|θ0 )ξ0 (θ)dθ
B01 (x) = RΘ0 (Prueba compuesta vs. compuesta)
Θ1 f (x|θ)ξ1 (θ)dθ
Jeffreys presenta los siguientes criterios sobre el factor de Bayes para

decidir cuándo optar por H0 :
86
1 < B Hipótesis Nula se sostiene
10−1/2 < B < 1 Evidencia contra H0 , pero
apenas para mencionar.
10−1 < B < 10−1/2 Evidencia sustancial contra H0 ,
10−3/2 < B < 10−1 Evidencia fuerte contra H0 ,
10−2 < B < 10−3/2 Evidencia muy fuerte contra H0 ,
B < 10−2 Evidencia decisiva contra H0 ,
Ejemplo 8.9 Continuación del ejemplo de Sicokinesia. Calculemos

el factor de Bayes para la situación del individuo con poderes.

1
f x π = 2
B01 = R 1 ≈ 12
0 f (x|π)ξ(π) dπ
P r(H0 |x) P r(H0 )

P r(H1 |x) = P r(H1 ) × B01
Note que
(Odds posterior) (Odds apriori) (Factor de Bayes)
Una región de credibilidad del 95 % para π bajo el supuesto de H1 es

C = (0,50008, 0,50027).
Cuando las probabilidades apriori son iguales, el factor de Bayes deter-

mina la regla de decisión. La evaluación del factor de Bayes involucra el
cálculo de
Z
p(y|Ho ) = p(y|Ho , θ)ξ(θ|Ho , Io ) dθ
Z
p(y|H1 ) = p(y|H1 , θ)ξ(θ|H1 , Io ) dθ
El factor de Bayes proporciona una indicación de cuánto cambian nues-

tras razones de probabilidad de una situación sin datos, a la luz de los
datos, para favorecer un modelo. Puede verse como una medida de la evi-
dencia proporcionada por los datos en favor de un modelo comparado con
un competidor. El logaritmo del factor de Bayes ha sido llamado el peso
de la evidencia proporcionada por los datos (De Santis y Spezzaferri, 1999;
McGee, 1971).
87
McGee (1971) presenta el factor de Bayes relacionándolo con la medida
del sonido conocida como decibeles. Él utiliza el logaritmo en base 10 para
esto. Ası́, para comparar la evidencia a favor dada por los datos hacia H0 ,
se determinarı́a ası́:

10 log10 PP r(H 0 |x)
r(H0 |x) = 10 log10 P r(H0 )
P r(H1 ) + 10 log10 (B01 )
ev (H0 |Datos ) = ev (H0 ) + 10 log10 (B01 )
(Evidencia posterior) = (Evidencia apriori) + (Evidencia en datos)
Por ejemplo, si tenemos dos hipótesis H1 y H2 y ξ (H1 ) = ξ (H2 ) = 0,5

y además la información muestral corresponde a un experimento Bernoulli
donde un éxito favorece H1 , y de 10 ensayos se observan 3 éxitos, entonces
la evidencia apriori a favor de H1 es

P r (H1 ) 0,5
10 log10 = 10 log10 =0
P r (H2 ) 0,5
Ahora, la evidencia en la muestra serı́a

P r (Resultado |H1 ) 0,3
10 log10 = 10 log10 = −3,679768
P r (Resultado |H2 ) 0,7
La evidencia a favor de H1 se redujo en 3.7 decibeles.
Ejemplo 8.10 La Prueba de Sabor (Sahu, 2000). Se conduce un

experimento para determinar si un individuo tiene poder discriminatorio.
El individuo debe identificar correctamente cuál de las dos marcas de un
producto ha recibido (obviamente las condiciones experimentales deben ser
óptimas). Si θ denota la probabilidad de que seleccione la correcta en el
i-ésimo ensayo, entonces la variable Bernoulli xi denota el resultado del
experimento, tomando el valor de 1 si acierta y 0 si falla. Supongamos que
en los 6 primeros ensayos los resultados son 1, 1, 1, 1, 1 y 0. Nuestro problema
es verificar
1 1
H0 : θ = versus H1 : θ > .
2 2
En este caso tenemos
una hipótesis simple contra una compuesta donde
Θ0 = 21 y Θ1 = 21 , 1 . Asumamos una distribución apriori uniforme sobre
1
θ bajo la hipótesis alternativa. Ası́ ξ1 (θ) = 2 si 2 < θ < 1. Ahora el factor
de Bayes es
88
6
1
2 1
B01 (x) = R 1 = .
1/2 θ5 (1 − θ)2dθ 2,86
Esto sugiere que esta persona parece tener algún poder discriminatorio, pero
no mucho.
El factor de Bayes puede verse como la versión bayesiana de la prueba

clásica de la razón de verosimilitudes (De Santis y Spezzaferri, 1999). Si se
asumen dos hipótesis simples, digamos θ 1 y θ 2 , el factor de Bayes se reduce
a la razón de verosimilitud f (y|θ 1 )/f (y|θ 2 ).
Ejemplo 8.11 Sean y1 , · · · , yn |θ variables independientes y distribuidas Pois-

son con parámtero θ. Ası́,
θyi e−θ
p (yi |θ) =
yi !
para θ > 0, yi = 0, 1, 2, · · ·. Sea H0 : θ = θ0 y H1 : θ = θ1 dos hipótesis

simples, con ξ (H0 |I0 ) = ξ (H1 |I0 ). El Factor Bayes es
P yi
θ0 i
exp (θ1 − θ0 )
θ1
y por lo tanto, ya que la distribución apriori asigna igual probabilidad a las

hipótesis, la regla de decisión será aceptar H0 si el Factor de Bayes es mayor
que 1.
Ejemplo 8.12 Campeonato colombiano. Suponga que deseamos veri-

ficar si la hipótesis que el número promedio de goles del equipo local en el
campeonato colombiano es 1.0 ó menos es más plausible que si el promedio
es mayor que 1.0. Asumamos que el número de goles metidos por el local en
el primer tiempo se distribuye Poisson(λ). Las hipótesis serán:
H1 : λ ≤ 1
H2 : λ > 1
89
Datos observados: Campeonato 2002 I primeras 4 fechas Goles marcados
por el local el primer tiempo 0,1,0,2,1,0,2,1,1, 1,0,1,0,1,0,1,1,0, 0,0,3,0,0,0,0,1,0,
0,2,0,1,0,1,0,1,0.
P
Por suficiencia y = ni=1 xi ∼ P oisson(nλ). Suponga que apriori ξ(H1 ) =
0,4 y ξ(H2 ) = 0,6.
Bajo H1 la apriori sobre Θ1 la escogemos Beta(α0 , β0 ) y bajo H2 asu-
mimos una normal truncada con parámetros µ0 y σ02 . El factor de Bayes
es
R
p(y|H1 ) p(y|H1 , λ)ξ(λ|H1 ) dλ
=R
p(y|H2 ) p(y|H2 , λ)ξ(λ|H2 ) dλ
Ahora
Z
λy exp(−nλ)
p(y|Hi ) = ξ(λ|Hi ) dλ = Eξi [P (Y = y|λ)]
Θi y!
Para H1
Z 1 λy exp(−nλ) Γ (α0 + β0 ) α0 −1
p(y|H1 ) = λ (1 − λ)β0 −1 dλ
0 y! Γ (α0 ) Γ (β0 )
Un algoritmo que nos permite estimar este valor serı́a:
1. Genere λ1 , λ2 , · · · , λM de una Beta (α0 , β0 ).
2. Calcule pi = P (y|nλi ), i = 1, 2, · · · , M
3. Calcule
M
1 X
pi
M i=1
Para H2
Z
∞ λy exp(−nλ) 1 1
p(y|H2 ) = √ exp − 2 (λ − µ0 )2 dλ
1 y! 2πσ0 2σ0
90
1. Calcule p∗ como P (X > 1) donde X ∼ (µ0 , σ02 )
2. Genere p∗1 , p∗2 , · · · , p∗M de una U nif orme (p∗ , 1).
3. Calcule λi tal que

Z λi
1 1
√ exp − 2 (λ − µ0 )2 = p∗i
−∞ 2πσ0 2σ0
5. Calcule
M
1 X
pi
M i=1
# Ejemplo de Factor de Bayes

# Modelo muestral Poisson(lamb)
# H1: lam>=1
# H2: lam>1
# apriori bajo H1--> beta(a0,b0)

# apriori bajo H2--> normal tuncada(u0,s20)
# Datos observados: Campeonato 2002 I primeras 4 fechas

# Goles marcados por el local el primer tiempo
x<-c(0,1,0,2,1,0,2,1,1,
1,0,1,0,1,0,1,1,0,
0,0,3,0,0,0,0,1,0,
0,2,0,1,0,1,0,1,0)
a0<-1
b0<-1
> f.int<-function(la) la^22*exp(-36*la)/48

> integrate(f.int,0,1)
3.722885e-17 with absolute error < 1.6e-19
> f.int2<-function(la)
la^22*exp(-36*la)/48*(dnorm(la,1.5,sd=1)/(1-pnorm(1,1.5,sd=1)))
> integrate(f.int2,1,Inf)
1.661658e-19 with absolute error < 3.6e-22
> 3.722885e-17/1.661658e-19
[1] 224.0464
91
> # Cálculo del BF vı́a simulación
> # Valor de numerador
> lambdas<-matrix(rbeta(1000000,a0,b0),ncol=1)
> prob.pois<-function(lambda,x) exp(sum(dpois(x,lambda,log=T)))
> numerador<-mean(apply(lambdas,1,prob.pois,x))
>
> # Cálculo del denominador
> p.1<-pnorm(1,mean=u0,sd=sqrt(s20))
> p.s<-runif(1000000,p.1,1)
> lambdas<-matrix(qnorm(p.s,mean=u0,sd=sqrt(s20)),ncol=1)
> denominador<-mean(apply(lambdas,1,prob.pois,x))
>
> BF<-numerador/denominador
> BF
[1] 222.3040
> numerador
[1] 3.72909e-17
> denominador
[1] 1.677473e-19
> razon.apriori<-0.4/0.6
> razon.apriori
[1] 0.6666667
> 0.6666667* 120.0339
[1] 80.0226
Ejemplo 8.13 Comparación de dos proporciones. Un problema común

en estadı́stica es el de verificar que dos proporciones son iguales (H0 : π1 = π2 )
contra la alternativa H1 : π1 6= π2 . Bajo el supuesto de H0 solo tenemos
un párametro que puede tomar un valor en (0, 1) y por lo tanto necesita-
mos especificar una distribución apriori en esta situación, digamos ξH0 (π)
(podemos pensar en una Beta(α, β)), donde α y β se escogen de tal forma
que reflejen el conocimiento apriori (en caso de ignorancia podemos escoger
α = 1 y β = 1). Bajo la alternativa H1 debemos pensar en una distribu-
ción conjunta para (π1 , π2 ), digamos ξH1 (π1 , π2 ). Bajo la alternativa una
selección obvia es una uniforme en el área (0, 1) × (0, 1), con π1 6= π2 y esto
corresponde al producto de dos uniformes independientes. Además asuma-
mos que la probabilidad apriori de H0 es 0.5.
Asumamos que nuestros datos son
92
Exitos Fracasos Total
Muestra 1 2 13 15
Muestra 2 14 1 15
El factor de Bayes es 0.0000894 y la probabilidad posterior de la hipótesis

nula es 0.0000894.
8.3.1. Comparación de Modelos

Si pensamos en términos de modelos, digamos M1 , · · · , Ms , donde asu-
mimos que Mi está parametrizado por θ i ∈ Θi , de dimensión di , y con fun-
ción de densidad de probabilidad de los datos fi (y|θ i ) y distribución apriori
ξ(θ i ). Si se tienen las probabilidades apriori para los modelos p1 , · · · , ps , por
el teorema de Bayes tenemos
pi mi (y)
P r (Mi |y) = Ps
j=1 pj mj (y)
donde
Z
mi (y) = fi (y|θ i )ξ(θ i ) dθ i , para i = 1, · · · , s,
Θi
es la distribución marginal de los datos bajo el modelo Mi ( De Santis y
Spezzaferri, 1999). La razón de las probabilidades posteriores nos permiten
hacer una comparación entre modelos. Para los modelos Mj y Mk se tiene:
P r (Mj |y) pj
= Bjk (y),
P r (Mk |y) pk
donde
mj (y)
Bjk (y) =
mk (y)
es el factor de Bayes para el modelo Mj contra el modelo Mk a partir de los
datos y.
Densidad Predictiva Apriori

En la comparación de modelos se puede utilizar la densidad predictiva
apriori (PPD), la cual se define como (Tsionas, 2003)
93
Z
m (y) = L (θ |y ) ξ (θ) dθ
también se conoce como log-verosimilitud marginalizada. Este no es un nom-

bre muy adecuado ya que las verosimilitudes son funciones de los parámetros
y no de los datos.
Si tenemos I modelos candidatos en una situación particular, tendrı́amos
entonces para el i-ésimo modelo mi .
El cálculo de la PPD es difı́cil y algunos autores han sugerido aproxi-
maciones que pueden ser implmentadas más fácilmente como el de Lewis y
Raftery en 1997. Ellos aproximan el logaritmo de la PPD como
di 1

log (m̃i (y)) = log Li θ̃i |y + log ξ θ̃i + log (2π) + log H̃i
2 2
donde
di es la dimensión de θ i ,
θ̃i es un valor que maximice la densidad posterior,
H̃i es la matriz hessiana de la log-posteriori evaluada en θ̃i .
Ejemplo 8.14 Geométrica vs. Poisson (Sahu, 2000). Supongamos

tenemos una muestra aleatoria x1 , x2 , · · · , xn de uno de los dos modelos
hipotéticos
M0 : f (x|θ0 ) = θ0 (1 − θ0 )x , x = 0, 1, · · ·
M1 : f (x|θ1 ) = e−θ1 θ1x /x!, x = 0, 1, · · ·
Por simplicidad asumamos que θ0 y θ1 son conocidos. Cómo nos decidimos

entre los dos modelos utilizando la evidencia muestral?
Ya que los parámetros se asumieron conocidos no necesitamos asumir
ninguna distribución apriori para ellos. Por lo tanto
f (x|M0 ) = θ0n (1 − θ0 )nx̄
e−nθ1 θnx̄
f (x|M1 ) = Qn 1
i=1 xi !
94
ahora, el factor de Bayes es la razón de las dos últimas ecuaciones. Supon-
gamos, θ0 = 1/3 y θ1 = 2, o sea que las dos distribuciones tienen la misma
media. Si n = 2 y x1 = x2 = 0 entonces B01 (x) = 6,1, sin embargo, si n = 2
y x1 = x2 = 2 entonces B01 (x) = 0,3
Definición 8.9 (Modelos Encajados) Dos modelos Mk y Mj son enca-

jados (con Mk en Mj ), si θ j = (φ, η) y θ k = φ y fk (y|φ) = fj (y|φ, η 0 ),
donde η 0 es un valor especı́fico de η, y φ es un parámetro común.
Asumamos que tenemos datos x que surge de uno de los siguientes mo-
delos (hipótesis):
M1 : X tiene densidad f1 (x |θ 1 )
M2 : X tiene densidad f2 (x |θ 2 )
.. ..
. .
Mq : X tiene densidad fq (x |θ q )
Le asignamos probabilidades apriori a cada modelo ξ (Mi ). Bajo el mo-
delo Mi :
Densidad apriori de θ i : ξi (θ i )
Densidad marginal de X:
Z
mi (x) = fi (x | θ i ) ξi (θ i ) dθ i
que mide qué tan verosı́mil es x bajo Mi .

Densidad posterior:
fi (x | θ i ) ξi (θ i )
ξi (θ i |x ) =
mi (x)
El factor de Bayes de Mj con respecto a Mi :
mj (x)
Bji =
mi (x)
La probabilidad posterior de Mi :
 −1
X ξ (Mj ) q
ξ (Mi ) mi (x)
ξ (Mi |x ) = Pq = Bji 
j=1 ξ (Mj ) mj (x) j=1
ξ (Mi )
95
En el caso particular ξ (Mj ) = 1/q, entonces
mi (x) 1
ξ (Mi |x ) = m̄i (x) = Pq = Pq
m
j=1 j (x) j=1 Bji
Ejemplo 8.15 Localización-Escala. Suponga que X1 , X2 , · · · , Xn es

una muestra aleatoria con densidad

1 xi − µ
f (xi |µ, σ ) = g
σ σ
Podemos considerar varios modelos:
1. MN : g es N (0, 1)
2. MU : g es U nif orme(0, 1)

1 x−µ
3. ML : g es Exponencial a la izquierda σe , para x ≤ µ

1 −(x−µ)
4. MR : g es Exponencial a la derecha σe , para x ≥ µ
Observe que estos modelos no son encajados.

Normal:

n−1
Γ 2
m (x |MN ) = √ hP i
2 (n−1/2)
(2π)(n−1)/2 n i (xi − x̄)
Uniforme:
1
m (x |MU ) = (n−1)
n(n − 1) x(n) − x(1)
Exponencial izquierda:
(n − 2)!
m (x |ML ) = (n−1)
nn x(n) − x̄
Exponencial derecha:
(n − 2)!
m (x |MR ) = (n−1)
nn x̄ − x(1)
96
8.4. Cálculo del Factor de Bayes vı́a MCMC
Hemos visto el cáculo del factor de Bayes mediante el uso de técnicas
de simulación. Esto es fácil de realizar cuando la distribución que genera
datos es discreta. Un problema que no es tan fácil de resolver es cuando
la distribución muestral es continua, ya que si aplicamos directamente la
metodologı́a usada, obtendrı́amos el valor esperado de la densidad, no la
probabilidad requerida. Han y Carlin (2001) realizan un recuento de los
métodos propuestos para el cáculo del factor de Bayes en el caso más general.
8.4.1. Método de Carlin y Chib

Si para el j-ésimo modelo la verosimilitud es
f (y |θ j , M = j )
y la apriori
ξ (θ j |M = j )

Bajo estas condiciones tenemos que y es independiente de θ j 0 6=j . El mues-
Q
treador opera sobre el espacio producto M × j∈M Θj . Se requieren distri-
buciones apriori propias. Se asume independencia apriori entre los θ j dado
M.
Z
p (y |M = j ) = f (y |θ, M = j ) ξ (θ |M = j ) dθ
Z
= f (y |θ j , M = j ) ξ (θj |M = j ) dθ j
El muestreador de Gibbs es definido sobre esl espcio producto por las dis-
tribuciones condicionales completas
(
f (y |θ j , M = j ) ξ (θj |M = j ) si M = j
ξ θ j θ j 0 6=j , M, y ∝
ξ (θj |M 6= j ) si M 6= j
y
 
 Y 
ξ (M = j |θ, y ) ∝ f (y |θ j , M = j ) ξ θ j 0 |M = j π
  j
j 0 ∈M
97
Bajo las condiciones de regularidad corrientes este muestreador de Gibbs
produce muestras de la distribución posterior conjunta correcta. La distri-
bución posterior del modelo j puede estimarse como
1 XG
ξˆ (M = j |y ) = I M (g) = j ,
G g=1
que puede ser usada para estimar el factor de Bayes como
ξˆ (M = j |y ) /ξˆ (M = j 0 |y )
B̂jj 0 =
ξ (M = j) /ξ (M = j 0 )
8.4.2. Método de Dellaportas, Foster y Ntzoufras

Este método es una versión metroplizada del algoritmo de Carlin y Chib.
El algoritmo es
1. Sea (j, θ j ), donde θ j es de dimesión nj .
2. Proponga un nuevo modelo j 0 con probabilidad h (j, j 0 ).

3. Genere θ j 0 de una seudoapriori ξ θ j 0 |M 6= j compo en el método de
Carlin y Chib.
4. Acepte el movimiento propuesto (de j a j 0 ) con probabilidad

( )
f y θ j 0 , M = j 0 ξ θ j 0 |M = j 0 πj 0 h (j 0 , j)
α = mı́n 1,
f (y |θ j , M = j ) ξ (θ j |M = j ) πj h (j, j 0 )
8.5. Otras aproximaciones al factor de Bayes

Han y Carlin (2001) presentan otras aproximaciones que han sido pro-
puestas en la literatura para manejar el caso de usar distribuciones apriori
no informativas, conocidos como seudo-factores de Bayes, entre ellos
El factor de Bayes intrı́nseco de Berger y Pericchi,
El factor de Bayes fraccionado de O’Hagan.
98
8.6. La aproximación BIC
Esta sección está basada en Raftery (1994). La cantidad básica que sub-
yace en el factor Bayes es la verosimilitud integrada para el modelo, dada
por
Z
p(D|M1 ) = p(D|θ 1 , M1 )ξ(θ 1 |M1 ) dθ 1
Primero se derivará una aproximación simple para esta cantidad, y mostrar

posteriormente como lleva a aproximar los factores de Bayes al criterio BIC
para cualificar modelos. Por simplicidad la ecuación anterior se escribe como
Z
p(D) = p(D|θ)ξ(θ) dθ
Consideremos el caso donde D consiste de n observaciones i.i.d. y1 , · · · , yn ,

que pueden ser vectores.
Considere la expansión en series de Taylor de g(θ) = log (p(D|θ)ξ(θ))
alrededor de θ̄, el valor de θ que maximiza g(θ), esto es, la moda posterior.
La expansión es
T 1 T
g(θ) = g(θ̄) + θ − θ̄ g 0 (θ̂) + θ − θ̄ g 00 (θ̄) θ − θ̄ + o ||θ − θ̄||2
2
donde  
∂g(θ )
 ∂θ1 
g 0 (θ) = 
 .. 
 .  
∂g(θ )
∂θd
y g 00 (θ) es la matriz Hessian de segundas derivadas parciales

 
∂ 2 g(θ ) ∂ 2 g(θ )
∂θ1 ∂θ1 ··· ∂θ1 ∂θd
 
 .. .. .. 
g 00 (θ) =  . . . 
 
∂ 2 g(θ ) ∂ 2 g(θ )
∂θd ∂θ1 ··· ∂θd ∂θd
Ahora, ya que g(θ̄) = 0 tenemos

1 T
g(θ) ≈ g(θ̄) + θ − θ̄ g 00 (θ̄) θ − θ̄
2
Esta aproximación es buena si θ está cercano a θ̂. Cuando n es grande la
verosimilitud p(D|θ) está concentrada alrededor de su máxima y declina
99
rápidamente cuando
R
se aleja de θ̂, ası́ que los únicos valores de θ que con-
tribuyen a p(D) = p(D|θ)ξ(θ) dθ son los que están cercanos a θ̂. Se sigue
por lo tanto que
Z Z
T
p(D) = exp (g(θ)) dθ ≈ exp g(θ̄) exp θ − θ̄ g 00 (θ̄) θ − θ̄ dθ
La integral en la ecuación anterior es proporcional a una densidad normal

multivariable, por lo tanto

p(D) ≈ exp g(θ̄) (2π)d/2 |A|−1/2

donde A = −g 00 θ̄ . El error en la ecuación anterior es O n−1 , ası́
d 1
log (p(D)) = log p(D|θ̄) + log ξ(θ̄) + log(2π) − log (|A|) + O n−1
2 2
Ahora, si la muestra es grande, θ̄ ≈ θ̂, donde θ̂ es el estimador de máxima
verosimilitud, y A ≈ nI, donde I es la matrix de Información de Fisher
d
esperada para una observación.
Ası́ |A| ≈ n |I|. Estas dos aproximaciones
introducen un error O n−1/2 en la ecuación anterior, la cual se convierte
en
d d 1
log (p(D)) = log p(D|θ̂) +log ξ(θ̂) + log(2π)− log(n)− log (|I|)+O n−1/2 (∗)
2 2 2
Removiendo los términos de orden O(1) o menores queda
d
log (p(D)) = log p(D|θ̂) − log(n) + O(1)
2
La ecuación anterior nos dice que la verosimilitud
log-integrada,
log(p(D)),
es igual a la logverosimilitud maximizada, log p(D|θ̂) , menos un factor de
corrección.
La ecuación anterior es la aproximación en la cual está basada el BIC,
y su error O(1) significa que, en general, el error no se deparaece aún con
una cantidad infinita de datos. Esto no es tan malo como parece, ya que
los otros términos de la derecha de la ecuación tienden a infinito cuando
n lo hace, por lo tanto ellos eventualmente dominarán. Ası́ el error en la
ecuación tenderá hacia cero como una proporción del log (p(D)), asegurando
que el error no afectará la conclusión a la cual se llegue, dado que se tengan
suficientes datos.
Suponga que la apriori ξ (θ) es normal multivariable con media π̂ y
matriz de covarianzas I −1 . Ası́, hablando aproximadamente, la distribución
100
apriori contiene la misma cantidad de información que una solo observación.
Esto parece razonable en una situación en la cual haya poca información
apriori. Entonces
d 1
log ξ(θ̂) = − log (2π) + log (|I|)
2 2
y sustituyendo en (*) se llega a
d
log (p(D)) = log p(D|θ̂) − log(n) + O(n−1/2 )
2
Ası́ para la distribución apriori particular seleccionada, el error en la
aproximación es O(n−1/2 ) en vez de O(n−1/2 )
Esta aproximación puede usarse para aproximar el factor de Bayes
p (D|M2 )
B12 = .
p (D|M1 )
Esto queda mejor en la escala logarı́tmica
2 log (B12 ) = 2 (log (p (D|π̂ 2 , M2 )) − log (p (D|π̂ 1 , M1 )))−(d2 − d1 ) log(n)+O(n−1/2 )
Si M1 está encajado en M2 , la ecuación anterior puede re-escribirse
2 log (B12 ) ≈ χ221 − (d2 − d1 ) log(n)
donde χ221 es el estadı́stico de la prueba de la razón de verosimilitud corriente

para probar M1 contra M2 , y d2 − d1 son los grados de libertad asociados
con la prueba.
Otro criterio es el de Akaike, el cual es bastante simple
AIC = log(Máxima Verosimilitud) − (Número de Parámetros Estimados)
Otro procedimiento usado es el criterio de Schwarz

1
B = log(Máxima Verosimilitud)− log(n)(Número de Parámetros Estimados)
2
101
102
Capı́tulo 9
Estadı́stica Bayesiana vı́a
Simulación
El análisis bayesiano requiere realizar integraciones sobre distribuciones

de probabilidad posiblemente de alta dimensión para realizar inferencias
acerca de los parámetros de un modelo o realizar predicciones. En el pa-
sado los analistas bayesianos resolvı́an este problema mediante métodos de
integración numérica. Este problema es grave cuando se trata de resolver
integraciones en alta dimensión. Algunos métodos de integración numérica
aproximados como la cuadratura gaussiana o de Laplace han sido utilizados.
La integración Monte Carlo extrae muestras de la distribución de probabi-
lidad de interés y trabaja sobre promedios que aproximen las esperanzas de
interés.
Cuando las distribuciones aposteriori son de alta dimensión, las solucio-

nes analı́ticas o las numéricas comúnes no se pueden obtener. Una solución es
considerar un procedimiento Monte Carlo iterativo o Monte Carlo por Cade-
nas de Markov. La metodologı́a MCMC es una herramienta de gran alcance
para la modelación estadı́stica y se ha vuelto muy popular en la computación
bayesiana en modelos estadı́sticos de gran complejidad. Se simula una cadena
de Markov con distribución estacionaria dada por la distribución aposteriori
ξ (θ|Datos).
103
9.1. MCMC: Monte Carlo por Cadenas de Mar-
kov
Brooks (1998) realiza una revisión de la metodologı́a MCMC. Las carac-
terı́sticas de ξ son obtenidas encontrando promedios ergódicos
R
1 X
Φ̂ = h (θ r )
R r=1
Los métodos MCMC son algoritmos iterativos que se utilizan cuando el

muestreo directo de una distribución de interés ξ no es factible. Una cadena
de Markov es generada muestreando

θ (t+1) ∼ p θ|θ (t)
Este p es llamado el kernel de transición de la cadena de Markov. Ası́ θ (t+1)

depende solo de θ (t) , y no de θ (0) , θ (1) , · · · , θ (t−1)
Existen dos problemas mayores que rodean la implementación e inferen-
cias de los métodos MCMC. El primero tiene que ver con la convergencia y el
segundo con la dependencia entre las muestras de la distribución posterior.
Las condiciones bajo las cuales una cadena de Markov tiene una única
distribución estacionaria son bien conocidas teóricamente:
Tiene que se aperiódica,
irreducible,
y positiva recurrente.
La forma en que construimos nuestras cadenas garantiza la existencia
de la distribución estacionaria. Sin embargo en la práctica esta convergencia
puede ser penosamente lenta y el mayor problema es saber si se ha logrado
una convergencia razonable (esto se conoce como un “burn-in”). Por lo tanto
las muestras obtenidas hasta el punto de “burn-in” son descartadas.
Un asunto relacionado con la convergencia es la tasa de mezclado. Infor-
malmente, el mezclado es la tasa con la cual la cadena de Markov se mueve
a través del soporte de la distribución estacionaria. Ası́, si una cadena tiene
un mezclado lento, puede quedarse en cierta porción del espacio de estados
por un perı́odo de tiempo muy largo, y a menos que la longitud de la cadena
sea ajustada acordemente, las inferencias serán afectadas sin ninguna duda.
Lombardi (2007) señala “Uno de los problemas más serios con los algorit-
mos MCMC es el paradigma ‘usted solo ve donde usted ha estado’, que es
104
el hecho que la cadena parece haber convergido pero ha fallado de explorar
completamente el espacio muestral. En lugar de una cadena larga, varias
cadenas paralelas empezando desde puntos ampliamente dispersos pueden
resolver este problema.”
El segundo asunto está relacionado con el hecho que los valores observa-
dos, siendo un camino muestral de una cadena de Markov, no son indepen-
dientes entre sı́. Asumiendo que se ha logrado la convergencia, los valores
observados formarán una muestra dependiente de la distribución posterior.
Esto puede ser molesto para uno pero no es necesariamente malo en MCMC.
En la mayorı́a de los problemas, la estimación tı́pica se obtiene por un pro-
medio sobre las muestras. Aunque las muestras no sean independientes, el
teorema ergódico asegura que estos promedios muestrales convergen a las
verdaderas esperanzas. Ası́ que la aproximación corriente al problema de
dependencia es ignorarla. Pero si uno, por alguna razón, necesita una mues-
tra independiente, puede resolver el problema corriendo varias cadenas de
Markov con puntos de comienzo independientes y utilizar el último punto
de cada cadena. Se sabe de la teorı́a general de los MCMC que la caminata
aleatoria del muestreador Metropolis no puede obtener convergencia unifor-
me. Para demostrar que el muestreador obtiene convergencia geométrica,
uno debe ser capaz de probar que la distribución objetivo tiene colas que
decaen exponencialmente (Lombardi,2007).
Una de las dificultades que surgen en el trabajo bayesiano aparecen cuan-
do tratamos de manipular la distribución aposteriori que usualmente aparece
de la siguiente forma
ξ (θ|Datos) ∝ L (θ|Datos) ξ (θ)
que no es una densidad de probabilidad en sı́ misma, sino que debe ajustarse
por un factor que se calcula como
Z
L (θ|Datos) ξ (θ) dθ
Θ
Solo en problemas muy sencillos es posible evaluar exactamente las ex-

presiones anteriores, lo cual limitarı́a el uso de los métodos bayesianos sino
fuera por la posibilidad de utilizar métodos computacionales como es el
Método Monte Carlo. Con esta técnica es posible:
generar muestras θ 1 , θ 2 , · · · , θ R , de una distribución de probabilidad

dada, digamos F (θ), y
105
estimar valores esperados de funciones bajo esta distribución, por ejem-
plo, Z
Φ = E [h (θ)] = h (θ) dF (θ)
Denotamos por f (θ) la densidad asociada con la distribución y la lla-

maremos densidad objetivo, ella puede ser la distribución aposteriori, que en
nuestro caso es el interés y es una distribución condicionada en los datos.
La generación de muestras es más importante ya que Φ puede ser estimada
como
R
1 X
Φ̂ = h (θ r )
R r=1
R
i si los vectores {θ r }r=1 corresponden a una muestra de F (θ),
Es clarohque
entonces E Φ̂ = Φ. También, a medida queR se incrementa la varianza de
Φ̂ disminuye ya que es σ 2 /R, donde σ 2 es la varianza de h(θ).
De lo anterior se desprende una propiedad importante del método Monte
Carlo: la exactitud de la estimación Monte Carlo no depende de la dimen-
sionalidad del espacio muestreado. La varianza de Φ̂ es siempre σ 2 /R. En
teorı́a, si tenemos una muestra aún pequeña de observaciones independien-
tes podemos obtener una estimación buena de Φ. El problema está en que
obtener muestras independientes de F puede no ser una tarea fácil.
Asumamos que la densidad de la cual deseamos obtener muestras es la
correspondiente a la distribución aposteriori de un parámetro de un experi-
mento exponencial, digamos λ para el cual la única información apriori que
disponı́amos era que λ ∼ U (0, 5). Se obtuvieron cinco muestras con resul-
tados x1 = 1, x2 = 1, x3 = 4, x4 = 2, x5 = 3. Por lo tanto la distrribución
posterior será
ξ(λ|Datos) ∝ λ5 e−11λ I(0, 5)
Si la constante de normalización fuera difı́cil de calcular (obviamente en este

problema no lo es!) entonces no serı́a fácil muestrear de ξ. Si el problema
fuera unidimensional podemos pensar en una discretización y muestrear de
esta distribución discreta como se muestra en la figura 13.1. Cada punto
discretizado en esta gráfica tiene una altura igual al valor de la densidad en
ese punto, o sea p∗i = λ5i e−11λi . Podemos calcular una constante de norma-
lización Z como X
Z= p∗i
i
106
0.00012
0.00012
0.00008
0.00008
λ5e(−11λ)
λ5e(−11λ)
0.00004
0.00004
0.00000
0.00000
0 1 2 3 4 5 0 1 2 3 4 5
λ λ
Figura 9.1: La gráfica derecha muestra el kernel de la densidad posterior

λ5 e−11λ I(0, 5). Cómo obtener muestras de esta densidad? La gráfica derecha
presenta una discretización del kernel evaluado en 50 puntos equiespaciados
en el intervalo (0, 5). Cómo podemos muestrear de esta distribución?
y
p∗
pi =
Z
y nuestreamos de la distribución de probabilidad {pi }. Cuál es el costo de
este procedimiento? Para poder calcular Z se requiere visitar cada punto en
la discretización. En nuestro caso la dimensión del espacio era uno, pero si
el espacio tuviera dimensión 100, el número de puntos a visitar serı́a 50100 .
Un número inmenso de visitas.
Ejemplo 9.1 Una proporción. Suponga que estamos interesados en

determinar la proporción de estudiantes que sufren gastritis.
Como apriori supongamos que una normal truncada con parámetros µ = 0,5
y σ 2 = 0,22 .
Se saca una muestra al azar de 10 estudiantes y se les evalúa. De éstos solo
dos tienen gastritis.
107
0.04
Apriori
Verosimilitud
Aposteriori
0.03
Densidad
0.02
0.01
0.00
0.0 0.2 0.4 0.6 0.8 1.0
Figura 9.2: Caso de los estudiantes con gastritis.
#Generación de muestra de una distribución aposteriori por medio

#del método de discretización
#
densidad.posteriori <- function(x, media.apriori,
dt.apriori, n, nro.exitos){
#n = tama~no de muestra
#vero = verosimilitud
vero <- x^nro.exitos*(1-x)^(n - nro.exitos)
apriori <- exp(-(x - media.apriori)^2/(2*dt.apriori^2))
aposteriori <- vero*apriori
list(vero = vero, apriori = apriori, aposteriori = aposteriori)
}
#Graficos de la verosimilitud, distribuciones apriori, aposteriori
pis <- seq(0.00001, 0.9999, length = 100)
res <- densidad.posteriori(pis, 0.5, 0.2, 10, 2)
res.apriori<-res$apriori/sum(res$apriori)
plot(pis, res.apriori, type =’l’, lty=1, ylab=’’,xlab=’’,,ylim=c(0,0.04))
title(ylab=’Densidad’,xlab=expression(pi))
res.vero<-res$vero/sum(res$vero)
points(pis, res.vero, type =’l’, lty=2)
res.aposteriori<-res$aposteriori/sum(res$aposteriori)
108
points(pis, res.aposteriori, type =’l’, lty=3)
legend(0.7,0.04,c(’Apriori’,’Verosimilitud’,’Aposteriori’),lty=1:3)
resu<-sample(pis,10000,prob=res.aposteriori,replace=T)
hist(resu,main=’Distribución Simulada’,xlab=expression(pi))
> mean(resu)
[1] 0.3171478
> median(resu)
[1] 0.3131069
> quantile(resu, probs=c(0.025, 0.975))
2.5% 97.5%
0.1111089 0.5555044
> require(hdrcde)
> hdr(resu)
$hdr
[,1] [,2]
99% 0.05800344 0.6060039
95% 0.10100899 0.5371268
50% 0.22220778 0.3912115
$mode
109
Figura 9.3: Regiones de más alta densidad en el caso de la gastritis.
[1] 0.317054
$falpha
1% 5% 50%
0.1858224 0.6524188 2.6730446
9.1.1. Muestreador de Gibbs

El muestrador de Gibbs involucra el muestreo de las distribuciones con-
dicionales completas. Es esencial que el el muestreo de las distribuciones con-
dicionales completas sea altamente eficiente desde el punto de vista compu-
tacional. El muestreo de rechazo es una técnica posible de muestreo inde-
pendiente de una densidad general p(θ) donde la densidad p(θ) sea analı́ti-
camente inmanejable.
El muestreo de rechazo requiere una función cobija g de p(θ) donde
g(θ) ≥ p(θ) para todo θ y un punto muestreado es aceptado con probabilidad
p(θ)/g(θ).
El muestreo de rechazo adaptativo (ARS), propuesto por Gilk y Wild
(1992), permite muestrear de densidades condicionales complejas que son
log-cóncavas, o sea d2 ln p(θ)/d θ2 < 0. Ellos mostraron que una función co-
bija (envelope function) para ln p(θ) puede construirse mediante tangentes
110
a ln p en cada abcisa para un conjunto dado de abcisas. Una cobija se cons-
truye entre dos abcisas adyacentes a partir de las tangentes en cada final
del intervalo. Secantes son dibujadas a través de del ln p(θ) en las abcisas
adyacentes. La cobija es una función exponencial a tramos, de la cual el
muestreo es más fácil.
Para obtener una muestra de la distribución conjunta p(X1 , · · · , Xd ) el
Muestreador Gibbs itera sobre este ciclo:

(i+1) (i),···,Xd(i)
Muestree X1
de p X1 X2

(i+1) (i+1) (i) (i)
Muestree X2 de p X2 X1 , X3 · · · , Xd
..
.

(i+1) (i+1) (i+1)
Muestree Xd de p Xd X1 , · · · , Xd−1
Ejemplo 9.2 Distribución Poisson Bivariable. El número de goles

que marcan los equipos en un partido de fútbol puede modelarse bastante
bien mediante una distribución Poisson bivariable. El número de goles de-
pende de si el equipo es local o visitante y depende también de la calidad del
mismo ası́ como de la calidad del visitante. Considere el artı́culo de Karlis
y Ntzoufras (2003) donde presenta una distribución Poisson bivariada.
λx1 λy2
P (x, y) = exp (− (λ1 + λ2 + λ3 ))
x! y!
mı́n(x,y) ! ! 2
X x y λ3
k!
k k λ1 λ2
k=0
E(X) = λ1 + λ3
E(Y ) = λ2 + λ3
cov(X, Y ) = λ3
# Gibbs para una Poisson Bivariada
logVero.biPoisson<-function(l,X){
l1<-exp(l[1]);l2<-exp(l[2]);l3<-exp(l[3])
111
sumita<-function(k,xx,yy,l1,l2,l3)
choose(xx,k)*choose(yy,k)*factorial(k)*(l3/(l1*l2))^k
log.densi.un.punto<-function(x,l1,l2,l3){
min.x<-min(x)
xx<-x[1]
yy<-x[2]
if(min.x==0)suma<-1
else{
suma<-sum(sapply(0:min.x,sumita,xx,yy,l1,l2,l3))
#suma<-0
# for(k in 0:min.x)
suma<-suma+choose(xx,k)*choose(yy,k)*
factorial(k)*(l3/(l1*l2))^k
}#fin else
#print(suma)
log.densi<--l3+dpois(xx,l1,log=T)+dpois(yy,l2,log=T)
+log(suma)
return(log.densi)
} # fin log.densi.en.un.punto
res<-sum(apply(X,1,log.densi.un.punto,l1,l2,l3))
res
}
# Partidos del segundo torneo 2010 hasta la fecha 14

temp<-scan()
2 0 1 1 1 0 2 1 2 0 2 1 1 0 1 1
1 2 1 0 2 0 1 0 1 2 1 2 0 0 1 1 1 2
1 0 3 0 2 1 2 1 1 0 2 0 1 1 3 2 3 1
0 0 1 0 1 1 1 0 4 2 2 2 1 2 0 1 2 2
2 1 0 2 1 0 3 2 0 0 1 3 2 1 4 2 2 0
1 1 2 2 1 0 1 2 3 1 4 1 0 1 1 3 1 0
1 1 2 1 1 1 0 1 3 1 1 1 2 3 2 1 0 2
1 1 1 0 5 3 2 0 1 2 1 2 0 2 0 0 2 1
1 2 2 1 1 1 1 1 0 0 1 1 3 0 0 0 1 0
2 2 1 0 2 2 1 0 2 0 3 3 4 2 2 2 1 0
1 2 2 2 2 1 0 0 0 1 2 0 3 0 2 1 1 1
1 1 1 2 1 4 1 2 2 0 1 1 1 0 1 0 1 0
2 1 2 0 1 1 3 2 6 3 2 1 4 0 2 0 2 0
1 1 1 2 1 2 1 2 1 1 1 1 2 0 0 1 4 1
X<-matrix(temp,ncol=2,byrow=T)
> mean(X[,1])
112
[1] 1.536
> mean(X[,2])
[1] 1.024
> cov(X[,1],X[,2])
[1] 0.2128387
> table(X[,1],X[,2])
0 1 2 3 4
0 7 5 3 0 0
1 19 20 15 2 1
2 13 14 7 1 0
3 3 3 3 1 0
4 1 2 3 0 0
5 0 0 0 1 0
6 0 0 0 1 0
require(gibbs.met)
mc<-gibbs_met(log_f=logVero.biPoisson,no_var=3,
ini_value=c(1,1,0.2),iters=20000,iters_met=2,
stepsizes_met=c(0.2,0.2,0.1), X = X)
plot(exp(mc[,1]),type=’l’)
title(main=expression(lambda[1]))
media.x<-exp(mc[-c(1:10000),1])+exp(mc[-c(1:10000),3])
plot(density(media.x,from=0),
main=’Distribución Marginal de media de X’)
media.y<-exp(mc[-c(1:10000),2])+exp(mc[-c(1:10000),3])
plot(density(media.y,from=0),
main=’Distribución Marginal de media de Y’)
plot(density(media.x-media.y,from=0),
main=’Distribución Diferencia de Medias’)
> quantile(media.x,probs=c(0.025,0.05,1:9/10,0.95,0.975))
2.5% 5% 10% 20% 30% 40% 50%
1.321991 1.357945 1.395152 1.439441 1.474755 1.505350 1.533398
60% 70% 80% 90% 95% 97.5%
1.560306 1.592450 1.627962 1.678656 1.722641 1.764274
113
> quantile(media.y,probs=c(0.025,0.05,1:9/10,0.95,0.975))
2.5% 5% 10% 20% 30% 40% 50%
0.8537324 0.8786668 0.9082815 0.9444425 0.9712392 0.9964568 1.0190101
60% 70% 80% 90% 95% 97.5%
1.0435563 1.0678384 1.0994392 1.1417339 1.1763212 1.2085153
>
> quantile(media.x-media.y,probs=c(0.025,0.05,1:9/10,0.95,0.975))
2.5% 5% 10% 20% 30% 40% 50%
0.2522179 0.2938671 0.3421668 0.3998820 0.4433507 0.4784749 0.5131608
60% 70% 80% 90% 95% 97.5%
0.5454741 0.5808513 0.6229172 0.6864442 0.7346851 0.7766134
require(MASS)
f1 <- kde2d(media.x, media.y, n = 50)
image(f1)
title(xlab=expression(mu[X]))
title(ylab=expression(mu[Y]))
contour(f1)
persp(f1, phi = 45, theta = 20, d = 2)
114
Figura 9.4: Valores tomados por la cadena para el parámetro λ1 . Uno de los
problemas difı́ciles es determinar cuántos elementos de la cadena se deben
eliminar a su comienzo (burn-in).
115
Figura 9.5: Valores tomados por la cadena para el parámetro λ2 . Podemos
pensar que empieza a mostrar alguna estabilidad después del punto 15000?
Figura 9.6: Valores tomados por la cadena para el parámetro λ3 .
116
Ejemplo 9.3 La distribución Gamma generalizada. Upadhyay et al.
(2000) presentan el caso de la distribución gamma generalizada, la cual es
reconocida como un modelo flexible para problemas de confiabilidad pero
con el cual es difı́cil de trabajar desde el punto de vista clásico. La f.d.p. de
esta distribución es
117
Figura 9.7: Distribución conjunta entre µX y µY .
118
β !
β x(βκ−1) x
f (x |θ, β, κ ) = exp −
Γ(κ) θβκ θ
para x > 0, θ > 0, β > 0 y κ > 0.
El parámetro θ es el parámetro de escala, mientras β y κ determinan la
forma de la distribución. Esta familia incluye modelos tales como la gamma
de dos parámetros, la Weibull y la exponencial. La lognormal surge cuando
se hace tender κ a infinito.
Ya que esta distribución es de uso en cofiabilidad, se manejan conceptos
como el MTF (tiempo medio hasta que falle) y es

1
Γ κ+ β
MTF = θ
Γ(κ)
Si x1 , · · · , xn es una muestra aleatoria de este modelo (o sea tiempos de
falla) y si asumimos aprioris independientes para θ, β y κ
1
ξ1 (θ) ∝
θ
119
ξ2 (β) ∝ Gamma (a1 , b1 )
ξ3 (κ) ∝ Gamma (a2 , b2 )
Las distribuciones condicionales para el muestrador de Gibbs son
n !
1 X xi β
ξ (θ |β, κ, Datos ) ∝ exp −
θ(nβκ+1) i=1
θ
n n " #!
β (n+a1 −1) Y βκ β X xi β
ξ (β |θ, κ, Datos ) ∝ x exp − +
θ(nβκ) i=1 i b1 i=1 θ
n
1 κ(a2 −1) Y βκ κ
ξ (κ |θ, β, Datos ) ∝ x exp −
(Γ(κ))n θ(nβκ) i=1 i b1
Ejemplo 9.4 Distribución poli-Weibull. Berger y Sun (1993) discu-

ten la estimación bayesiana de la distribución poli-Weibull. Una variable
aleatoria X se dice que sigue esta distribución si su densidad está dada por
m m !
X βj tβj −1 X t βk
f (t |βj , θj , j = 1, . . . , m ) = β
exp −
j=1 θj j k=1
θk
para t > 0.
Esta distribución surge en el contexto de confiablidad. Suponga que se
tienen m aparatos conectados en serie y no sabemos cuál es el elemento
que falla cuando el artı́culo falla. Por ejemplo las luces de navidad vienen en
grupos de m bombillitos y se daña cuando uno de ellos falla, pero usualmente
es molesto determinar cuál falló.
Si se prueban r aparatos iguales e independientes con distribución de
vida poli-Weibull y se registran t1 , · · · , tn tiempos de falla y t∗1 , · · · , t∗r−n
tiempos de funcionamiento de las unidades que no habı́an fallado aún. La
verosimilitud es
  ( m )
Y β −1
n X m
β j ti j  X S (βk )
L (θ, β) = β
exp − βk
 θj j 
i=1 j=1 k=1 θk
donde
n
X X
S (βk ) = tβi k + r − n (t∗l )βk
i=1 l=1
120
Si la distribución apriori se construye de la siguiente forma
m
Y
ξ1 (θ |β ) = ξ1j (θj |βj )
j=1
 
a
βj bj j −(1+βj aj ) bj
ξ1j (θj |βj ) = θj exp − βj 
Γ (aj ) θ j
m
Y
ξ (β) = ξ2j (βj ) I (βj > cj )
j=1
Cuando hay limitación de datos, las respuestas dependen fuertemente de la

selección de ξ2 . En este problema si se escogen aprioris impropias es muy
problable terminar con una aposterior impropia. El algoritmo de Gibbs es
complejo, pero aún ası́ permite resolver el problema.
Ejemplo 9.5 Distribución Exponencial generalizada. Kundu y Gup-

ta (2008) trabajan la distribución expondencial generalizada de dos paráme-
tros y con la Weibull exponenciada (Raqab y Madi (2005) también desarro-
llan el mismo problema pero hacen referencia del trabajo realizado por los
primeros nombrados). Este tipo de distribuciones son usadas en problemas
de confiabilidad. En el primer caso la f.d.p. es
f (x |αλ ) = αλ (1 − exp(−λx))α−1 exp(−λx) para x > 0
donde α > 0 y λ > 0.

Es común utilizar aprioris gamma para parámetros positivos. Denotemos
por ξ(α) y ξ(λ) las apriori de α y λ respectivamente, además asumamos
independencia. Entonces
ξ(λ) ∝ λb−1 exp(−aλ), para λ > 0

d−1
ξ(α) ∝ exp(−cα), para α > 0
donde se asumen los hiperparámetros a, b, c y d conocidos.

Si se tiene una m.a. x1 , . . . , xn , entonces la verosimilitud es
n
! n
X Y
n n
L (α, λ |Datos ) = α λ exp −λ xi (1 − exp (−λxi ))α−1
i=1 i=1
121
la posterior conjunta será por lo tanto
n
!! n
X Y
ξ (α, λ |Datos ) ∝ α n+d−1 n+b−1
λ exp −λ a + xi exp (−cα) (1 − exp (−λxi ))α−1
i=1 i=1
y las condiconales para el muestreador de Gibbs son
n
Y
ξ (α |λ, Datos ) ∝ αn+d−1 exp (−cα) (1 − exp (−λxi ))α
i=1
n
!! n
X Y
ξ (λ |α, Datos ) ∝ λ n+b−1
exp −λ a + xi exp (−cα) (1 − exp (−λxi ))α−1
i=1 i=1
Ejemplo 9.6 Distribución de Burr La fdp de la distribución Burr gene-

ralizada de cuatro parámetros está dada por
(β−1) ( β )−(κ+1)
βκ x−µ x−µ
f (x |β, κ, λ, µ ) = 1+
λ λ λ
con x > µ; β, κ, λ, µ > 0. Los parámetros β y κ determinan la forma de la

distribución, λ es el parámetro de escala y µ es el de frontera. Si µ = 0 y
λ = 1 se conoce como la distribución Burr Tipo XII. Si µ es concido o cer,
esta es la distribución Burr de tres parámetros.
La función de riesgo (hazard rate, HZR) para el tiempo t está dada por
(β−1) ( β )−1
βκ t−µ t−µ
HZR(t) = 1+
λ λ λ
y la función de confiabilidad
( β )−κ
t−µ
R(t) = 1+
λ
y el tiempo medio hasta fallar (MTF) es

Γ β −1 + 1 Γ κ + β −1
M T F = µ + κλ
Γ (κ + 1)
La función de riesgo es monótona decreciente para β ≤ 1. Tiene curva en
forma de bañera invertida si β > 1.
122
Upadhyay et al. (2004) utilizan como apriori la siguiente distribución
ξ(β, κ, λ, µ) = ξ1 (κ |β ) ξ2 (β) ξ3 (λ) ξ4 (µ)
donde

β (a+1) κβ
ξ1 (κ |β ) = (a+1)
κa exp −
Γ(a + 1)b b

1 β
ξ2 (β) = β (d−1) exp −
Γ(d)cd c
1
ξ3 (λ) ∝
λ
ξ4 (µ) ∼ U nif orme (0, x1 )
donde a > −1, b, c, d > 0.

Para el muestreador de Gibbs se tienen las siguientes condicionales
n
( β )−(κ+1)
Y β xi − µ
(n+a+d) −nβ
ξ (β |κ, λ, µ, Datos ) ∝ β λ (xi − µ) 1+
i=1
λ

κ 1
× exp −β +
b c
n
( β )−κ
Y xi − µ κβ
(n+a)
ξ (κ |β, λ, µ, Datos ) ∝ κ 1+ exp −
i=1
λ b
n
( β )−(κ+1)
Y xi − µ
(nβ+1)
ξ (λ |β, κ, µ, Datos ) ∝ λ 1+
i=1
λ
n
( β )−(κ+1)
Y β−1 xi − µ
ξ (µ |β, κ, λ, Datos ) ∝ (xi − µ) 1+
i=1
λ
9.1.2. Muestreador Griddy Gibbs

Cuando es difı́cil muestrear directamente de p(Xi |Xj , j 6= i), Ritter y
Tanner (1991) propusieron una aproximación simple a la FDA inversa ba-
sada en la evaluación de p(Xi |Xj , j 6= i) en una rejilla de puntos. Los pasos
son los siguientes:
123
1. Evalúe p(Xi |Xj , j 6= i) en Xi = x1 , x2 , · · · , xn para obtener w1 , w2 , · · · , wn .
2. Utilice w1 , w2 , · · · , wn para obtener una aproximación de la FDA in-

versa de p(Xi |Xj , j 6= i).
3. Muestree de una U (0, 1) y transforme la observación via la FDA inversa

aproximada.
9.1.3. Algoritmo Metropolis-Hastings

El muestreo de importancia y el muestreo de rechazo trabajan bien si
la densidad propuesta q(θ) es similar a p(θ). En problemas complejos puede
ser difı́cil crear una única q(θ) que tenga esta propiedad. La construcción
de una cadena de Markov no es difı́cil. Primero describimos el algoritmo
de Metropolis-Hastings. Este algoritmo es una generalización de Hastings
(1970) del método propuesto por Metropolis et al. (1953). El algoritmo Me-
tropolis utiliza una densidad propuesta q que depende del estado actual de
(t)
θ . La densidad q θ |θ 0 (t) puede ser tan simple como una normal localizada
en θ(t) y no es necesario que se parezca a p(θ).
Hitchcock (2003) presenta la historia del desarrollo del algoritmo Metropolis-
Hastings, la cual revela el poco interés que los estadı́sticos prestaron a esta
metodologı́a durante cuatro décadas. La propuesta inicial fue desarrolla-
da en el laboratorio Los Álamos, el cual contaba con el primer computador,
llamado MANIAC (Mathematical Analyzer, Numerical Integrator and Com-
puter). A Metropolis se le conoce como la persona que bautizó los métodos
desarrollados por Ulam y von Neuman como Métodos Monte Carlo.
El algoritmo se resume ası́:
1. Comience en cualquier lugar, y digamos que estamos en θ (t) = θ.
2. Genere θ ∗ de q (θ ∗ |θ). θ ∗ es llamado un punto candidato y q es llamada

una distribución propuesta.
3. Calcule
ξ (θ ∗ ) q (θ|θ ∗ )
α (θ, θ ∗ ) = mı́n 1,
ξ (θ) q (θ ∗ |θ)
4. Acepte θ (t+1) = θ ∗ con probabilidad α (θ, θ ∗ ).
5. En otro caso θ (t+1) = θ
124
Note que la densidad objetivo ξ solo entra en al proceso a través del
∗
ξ (θ )
cociente ξ θ y por lo tanto no hay necesidad de conocer la constante de
( )
normalización para implementar el algoritmo.
Casos especiales:
1. q (θ|θ ∗ ) = q (θ ∗ |θ): Algoritmo Metropolis.
2. q (θ|θ ∗ ) = g (θ ∗ ): Muestreador independiente.

Qk
3. q (θ|θ ∗ ) = i=1 ξ (θi |θ
∗
< i, θ >i ) ⇒ α (θ, θ ∗ ) = 1: Muestreador de
Gibbs.
9.1.4. El Algoritmo Metropolis

Aquı́ la distribución propuesta es simétrica, esto es,
q (θ|θ ∗ ) = q (θ ∗ |θ) ,
como en el caso de una Normal centrada en el punto actual, entonces el

factor
q (θ|θ ∗ )
= 1,
q (θ ∗ |θ)
y el algoritmo Metropolis simplemente se limita a comparar el valor de la
densidad objetivo en los dos puntos.
Ejemplo 9.7 Modelo de regresión simple. Asumamos

Yi ∼ N β1 Xi1 + β2 Xi2 , σ 2
La formulación bayesiana del modelo consiste en

1. La función de verosimilitud f y|β1 , β2 , σ 2

2. La distribución apriori ξ β1 , β2 , σ 2
Estamos interesados en estimar las siguientes distribuciones posteriores:
La distribución posterior conjunta

ξ β1 , β2 , σ 2 |y ∝ f y|β1 , β2 , σ 2 × ξ β1 , β2 , σ 2

Distribuciones marginales posteriores ξ (β1 |y), ξ (β2 |y) y ξ σ 2 |y
125
1. El Muestreador de Gibbs: Este muestreador genera muestras iterativa-
mente de cada distribución posterior condicional completa.
Genere β1 de ξ (β1 |β2 , σ, y)
Genere β2 de ξ (β2 |β1 , σ, y)

Genere σ 2 de ξ σ 2 |β1 , β2 , y
2. El Algoritmo Metropolis

Genere un vector de candidatos nuevo β10 , β20 , σ 20 de una distribución
conocida y fácil de usar

q β1 , β2 , σ 2 |β10 , β20 , σ 20
Acepte los valores propuestos con probabilidad

( )
ξ β10 , β20 , σ 20 |y q β10 , β20 , σ 20 |β1 , β2 , σ 2
α = mı́n 1,
ξ (β1 , β2 , σ 2 |y) q (β1 , β2 , σ 2 |β10 , β20 , σ 20 )
9.1.5. Problemas con el Muestreador de Gibbs

Determinar el número de iteraciones es un problema difı́cil de resolver.
Puede ser extremadamente demandante desde el punto de vista compu-

tacional aún para problemas estadı́sticos a escala pequeña (Raftery y
Lewis, 1991).
Puede ser muy ineficiente cuando la correlación posterior entre los

parámetros es alta.
En modelos jerárquicos tiende a “pegarse”.
9.1.6. Ventajas y Desventajas Dos Esquemas de Muestreo

El algoritmo Metropolis-Hastings tiene la ventaja de ser fácilmente im-
plementable. Prácticamente no hay restricción en la distribución posterior.
Sin embargo se debe de tener cuidado cuando se selecciona la distribución
auxiliar para asegurarse que la cadena se mezcle bien. Algunos ajustes son
requeridos para la distribución auxiliar.
126
El muestreador de Gibbs con ARS para la generación de distribuciones
condicionales tiene la ventaja de ser más automático y no requiere ajustes
extras. Tiene la ventaja adicional de poder trabajar con valores truncados o
censurados. Tiene la desventaja de generar una sola variable cada vez y por
lo tanto en modelos grandes la velocidad computacional puede ser lenta. Un
segundo problema es que la correlación serial puede ser alta.
Raftery y Lewis (1991) sugieren que el método funciona bien para la
mayorı́a de los problemas con menos de 5000 iteraciones, aunque hay im-
portantes excepciones, como se mencionó en la parte anterior.
127
128
Capı́tulo 10
Diagnósticos de los Muestreadores
MCMC
La utilización la realización de una cadena que no ha convergido aún

puede llevarnos a obtener conclusiones con relación a los parámetros de
interés o a obtener resultados completamente equivicados con respecto a
hipótesis bajo estudio. El asunto de determinar si la cadena ha llegado ya
a una etapa estacionaria es un asunto difı́cil y que solo puede realmente
resolverse mediante el desarrollo que den alguna luz si las últimas iteraciones
de la cadena están en ciert estado de estabilidad. Aún ası́ no podemos nunca
estar seguros que hemos llegado a la distribución estacionaria, ya que los
resultados teóricos son de carácter asintótico y sin importar la longitud de
la cadena, esta necesariamente es finita.
Recordando que estamos trabajando con una cadena markoviana, donde
el punto de inicio de la cadena es arbitrario y los valores que toma están
correlacionados, además se desea obtener muestras es de la distribución es-
tacionaria, los primeros valores generados deben descartarse (burning), de-
notemos este número por nB , el cual se toma por muchos como 1000 ó 5000.
Existen algunas reglas que nos permiten establecer el número a quemar pe-
ro es un tópico que no tiene una única solución. Después de descartar los
primeros valores nos queda la muestra definitiva que la llamamos muestra
a monitorear, su tamaño lo denotamos por nM . Cowles y Carlin (1996) y
Sinharay (2003) presentan revisiones extensas de los procedimientos para
realizar diagnósticos en MCMC.
Si queremos que la estimada θ̄ tenga una alta probabilidad, digamos
1 − 0,95, de no estar a más de d = 0,1, por ejemplo, del verdadero valor
129
medio µ = E(θ|y), o sea

P θ̄ − µ ≤ d = 1 −
Bajo el supuesto de un AR1 (ρ)

2
σ 2 (1 + ρ) Φ−1 (1 − /2)
nM =
d2 (1 − ρ)
donde σ es la desviación estándar de un θt y Φ es la función de distribución
acumulada de una N (0, 1).
Como un ejemplo de lo anterior asumamos que ρ̂ = 0,89, una cadena
que no se mezcla muy bien, σ̂ = 3,3, entonces nM ≈ 79500. Si nB = 5000
debemos generar entonces aproximadamente 85000 muestras para un solo
parámetro. Si se tienen muchos parámetros a monitorear, como es lo usual
en un problema aplicado, puede realmente ser muy restrictivo a nivel de
hardware los requerimientos de almacenamiento.
Una de las tareas más difı́ciles es establecer cuándo podemos decidir que
una cadena ha llegado a la distribución lı́mite o de equilibrio, esto puede
vislumbrarse a través de pruebas de estacionaridad de los últimos valores
generados de la serie, aunque aún teniendo estacionaridad no hay garantı́a
de estar obteniendo valores de la distribución deseada.
Una faceta indeseable en un muestreo MCMC es de no obtener valores
bien mezclados, lo cual significa que los valores consecutivos están altamente
correlacionados, lo cual podrı́a probarse mediante la correlación de primer
orden (correlación serial) de la serie. Una buena cadena tendrı́a un ρ cercano
a cero.
10.1. Monitoreo y Convergencia de una MCMC

Una cuestión importante que se relaciona con el monitoreo de una cadena
es sobre cuántos parámetros considerar, realmente la respuesta es chequear
todos, ya que si solo se considera un subconjunto de ellos se puede llegar a
aceptar una cadena que subconverja (que aparentemente converge cuando
realmente no!)(Sinharay, 2003).
10.1.1. Diagnósticos
Existen muchos diagnósticos útiles para analizar los resultados de una
cadena y ya que niniguno de ellos puede garantizar que funcione, Sinha-
ray(2004) recomienda que se utilicen varias de la múltiples técnicas disponi-
130
bles. También es necesario garantizar la convergencia de todos los prámetros
involucrados. Entre los diagnósticos tenemos:
Cuatro Gráficos MCMC

El monitoreo básico de una cadena se logra mediante gráficos que refle-
jen el comportamiento secuencial de la misma. Hay cuatro gráficos que se
realizan fácilmente y son de gran utilidad como primera aproximación. Se
recomienda como paso inicial generar cuatro gráficos para cada parámetro
considerado:
1. Un gráfico de los valores de la cadena en forma de serie tem-
poral. Estos se pueden presentar como una serie de tiempo en su
totalidad, lo cual ayuda a determinar cuántas muestras es necesario
quemar antes de recolectar los valores considerados como la muestra
de la distribución estacionaria. Algunos programas permiten observar
la evolución de la cadena mediante ventanas con una cierta cantidad
de valoes generados. Si se tienen varias cadenas, todas las cadenas del
mismo parámetro se grafican simultáneamente, de tal forma que uno
esperarı́a que en el momento de lograr convergencia todas las series se
entrecrucen.
Otro gráfico que es útil es de medias móviles. Sinharay (2003) reco-
mienda graficar medias móviles calculadas a partir de grupos de a 50
valores. Si el algoritmo logra covergencia las medias móviles deben ser
bastante similares, mostrándose gráficamente como paralelas al eje ho-
rizontal. Este gráfico solo mira el comportamiento de la media de los
datos y no nos presentan el cuadro completo de la convergencia, ya
que, recordemos, la convergencia es a toda una distribución.
2. Un gráfico de la densidad estimada a partir de estos valores.
3. Un gráfico con las autocorrelaciones. Si este gráfico muestra un

decaimiento a cero lento puede ser un indicativo de un mezclado de-
ficiente, lo cual puede sugerir una reparametrización o alguna otra
aproximación.
4. Un gráfico con las autocorrelaciones parciales.
Prueba de Geweke
Es una prueba de igualdad de medias utilizando el Z−score. Si |Z − score| >
2 se considera que los niveles son diferentes. Gewwke recomendó usar el 5 %
131
para el primer suconjunto y 10 % para el segundo subconjunto. Geweke tam-
bién implicaba que el procedimiento servı́a para determinar cuántas observa-
ciones iniciales se descartaban. Obviamente estas dos submuestras deben ser
lo suficientemente grande para garantizar la aplicación del teorema central
del lı́mite.
Un problema con esta técnica es que esencialmente univariable y además
solo es útil para una sola cadena MCMC. Otro problema está en que depende
en parte de la experiencia del usuario.
Prueba de Heidelberger y Welch

Esta prueba usa el estadı́stico Cramér-von Mises para estacionalidad.
Funciona ası́: Si falla la prueba se descarta el 10 % de las observaciones (las
primeras), y ası́ hasta descartar el 50 %.
Prueba de Raftery y Lewis

Este es un diagnóstico de la longitud de la corrida basada en el criterio
de la exactitud de la estimación del cuantil q. Pretende usar una cadena de
Markov piloto (corta). Se calcula el número de iteraciones requeridas para
estimar el cuantil q dentro de una exactitud de ±r con probabilidad p. Los
autores han proporcionado un programa implementado la librerı́a CODA
(que está disponible en R) la cual entrega el número de iteraciones a ser
realizadas, el número de muestras a ser quemadas y el número de valores k
a ser descartados en la cadena de valores aceptados. Sin embargo, algunos
autores como MacEachern y Berliner, no favorecen la práctica de descartar
resultado intermedios ya que la calidad de la estimación se degrada (Cowles
y Carlin, 1996).
Cowles y Carlin (1996) señalan que algunas crı́ticas a este método apun-
tan a que diferentes puntos de inicio de la cadena pueden resultar en di-
ferentes números de iteraciones y que la información que se obtiene es de
carácter univariable.
Prueba de Gelman y Rubin

Esta es una prueba en la que dos o más cadenas paralelas corren con
valores iniciales que son sobredispersos con respecto a la distribución pos-
terior. Cowles y Carlin (1996) recomiendan 10 cadenas cuando se tiene una
distribución aposteriori unimodal. La convergencia se diagnostica cuando las
cadenas han “olvidado” sus valores iniciales y las salidas de todas las cade-
nas son indistinguibles. La prueba está basada en una comparación de las
132
varianzas dentro y entre las cadenas y es similar al análisis de varianza clási-
co. Hay dos formas de estimar la varianza de una distribución estacionaria:
la media de la varianza empı́rica dentro de cada cadena, W , y la varianza
empı́rica de todas las cadenas combinadas, que puede expresarse como
σ̂ 2 = (n − 1)B/n + W/n
donde B es la varianza empı́rica entre las cadenas.
Si las cadenas han convergido, entonces ambas estimadas son insesgadas.
De otra manera el primer método subestima la varianza, ya que las cadenas
individuales no han tenido tiempo de llegar a la distribución estacionaria
y el segundo método sobreestima la varianza, ya que los valores iniciales
fueron seleccionados sobredispersos.
El diagnóstico de convergencia está basado en el supuesto que la dis-
tribución objetivo es normal. Un intervalo bayesiano de credibilidad puede
construirse usando una distribución t con media
µ̂ = Media muestral de todas las cadenas combinadas
y varianza
V̂ = σ̂ 2 + B/(mn)
donde m es el número de cadenas, y los grados de libertad son estimado por
el método de los momentos
V̂
d=2
V ar(V̂ )
El uso de la distribución t tiene en cuenta el hecho que la media y la
varianza de la distribución posterior son estimados.
El diagnóstico de convergencia es
q
R= (d + 3)V̂ /((d + 1)W )
Valores sustancialmente arriba de 1 indican falta de convergencia.
Una de las crı́ticas que se le hace al proceso es que 10 cadenas que generen
1000 puntos cada una no produce un mejor resultado que una sola cadena
que corra y produzaca 10000 puntos, ya que uno ewsperarı́a que esta última
cadena al final estuviera más cercana a la distribución estacionaria que las
10 cadenas iniciales. Si computacionalmente no es costoso y se tienen los
resultados de las cadenas múltiples luego del quemado, se puede implementar
un proceso de mezclado de las cadenas de tal forma que se genere una
supercadena.
133
10.2. Diagnósticos en CODA
La librerı́a del R CODA posee varios diagnósticos útiles para analizar
los resultados de una cadena.
10.2.1. Estimación Paramétrica del Tiempo Medio de Falla

Cuando Solo Es Posible Observar Un Punto en el
Tiempo
Supongamos que en un experimento para determinar la duración de un
producto se realiza una prueba para n unidades y que solo es posible observar
el resultado en un único punto del tiempo, digamos x0 . Tendremos entonces
que n0 ya fallaron y n1 quedan aún funcionando. Los datos que obtenemos
serán entonces
x− − − + + +
0 , x0 , · · · , x0 , x0 , x0 , · · · , x0
donde tenemos n0 x− 0 ’s, donde la notación indica que ya fallaron pero no

se registró el tiempo exacto, y n1 x+0 ´s, unidades que no han fallado aún.
Asumamos que el tiempo se distribuye exponencial con densidad dada por

1 x
f (x; λ) = exp −
λ λ
Por lo tanto la verosimilitud será

n0 n1
x0 x0
L(λ) = 1 − exp − exp −
λ λ
Asumamos que la apriori es una distribución no informativa
ξ(λ) ∝ K
Por lo tanto la aposteriori será proporcional a la verosimilitud

n0 n1
x0 x0
ξ(λ|Datos) ∝ 1 − exp − exp −
λ λ
Suponga que la duración de una resistencia es exponencial con parámetro

λ. Apriori asumimos una distribución no informativa constante. Se ponen
a funcionar 20 resistencias y a las 8 horas se observan. 4 de ellas habı́an
fallado y las otras continuaban funcionando.
134
# Muestreador de Metropolis
# Como muestreadora usaremos una gamma.
# Valor inicial
L0<-1
res<-L0
for(i in 1:100000){
# genera punto candidato
Lc<-rgamma(1,L0,scale=1)
cociente<-4*log(1-exp(-8/Lc))-16*8/Lc-dgamma(Lc,L0,scale=1,log=T)-
(4*log(1-exp(-8/L0))-16*8/L0-dgamma(L0,Lc,scale=1,log=T))
cociente<-exp(cociente)
if(cociente>1){
L0<-Lc
res<-c(res,Lc)
}
else{
if(runif(1)<cociente){
L0<-Lc
res<-c(res,Lc)
}
}
}
>
135
> res<-res[-(1:1000)]
> plot(res,type=’l’)
> hist(res)
>
> summary(res)
Min. 1st Qu. Median Mean 3rd Qu. Max.
12.76 37.49 57.53 80.13 90.26 3631.00
>
> quantile(res,probs=c(0.01,0.05,0.10,0.20,0.25,3:7/10,0.75,0.8,0.95,0.99))
1% 5% 10% 20% 25% 30% 40% 50%
16.66239 23.19815 27.36604 34.08504 37.49353 41.20592 48.08089 57.53452
60% 70% 75% 80% 95% 99%
67.94006 82.50258 90.25736 100.30699 196.28691 401.89871
>
> acf(res,type=’cor’)
> plot(density(res[res<1000],bw=50,from=0),main=’Densidad Posterior’)

> abline(h=0)
> abline(v=0)
136
Prueba KPSS1
library(tseries)
> kpss.test(res)
KPSS Test for Level Stationarity
data: res
KPSS Level = 0.1472, Truncation lag parameter = 12, p-value = 0.1
Warning message:
In kpss.test(res) : p-value greater than printed p-value
> resi<-acf(res,type=’cor’)
> resi
Autocorrelations of series res, by lag
0 1 2 3 4 5 6 7 8 9 10
1.000 0.676 0.426 0.307 0.174 0.108 0.065 0.016 -0.010 -0.025 -0.019
11 12 13 14 15 16 17 18 19 20 21
-0.004 -0.011 -0.019 -0.018 -0.018 -0.013 0.000 0.001 0.003 -0.006 -0.011
22 23 24 25 26 27 28 29 30 31 32
-0.005 0.001 0.000 -0.003 -0.006 -0.006 -0.009 -0.008 -0.005 -0.005 0.003
1
D. Kwiatkowski, P. C. B. Phillips, P. Schmidt, and Y. Shin (1992): Testing the Null
Hypothesis of Stationarity against the Alternative of a Unit Root. Journal of Econometrics
54, 159178.
137
33 34
0.002 -0.003
> s2<-var(res)
> s2*(1+0.676)*4/(1*(1-0.676))
[1] 284061.6
> s2*(1+0.676)*4/(2^2*(1-0.676))
[1] 71015.4
> s2*(1+0.676)*4/(3^2*(1-0.676))
[1] 31562.4
> s2*(1+0.676)*4/(4^2*(1-0.676))
[1] 17753.85
> s2*(1+0.676)*4/(5^2*(1-0.676))
[1] 11362.46
> s2*(1+0.676)*4/(10^2*(1-0.676))
[1] 2840.616
require(MCMCpack)
res.bay<-MCMCregress(Precio~A~
no)
summary(res.bay)
plot(res.bay)
> require(MCMCpack)
Loading required package: MCMCpack
Loading required package: coda
Loading required package: lattice
##
## Markov Chain Monte Carlo Package (MCMCpack)
## Copyright (C) 2003-2008 Andrew D. Martin, Kevin M. Quinn, and Jong Hee Park
##
## Support provided by the U.S. National Science Foundation
## (Grants SES-0350646 and SES-0350613)
##
> res.bay<-MCMCregress(Precio~A~
no)
> summary(res.bay)
Iterations = 1001:11000
Thinning interval = 1
Number of chains = 1
Sample size per chain = 10000
1. Empirical mean and standard deviation for each variable,

plus standard error of the mean:
Mean SD Naive SE Time-series SE
138
(Intercept) -82.6888 9.35477 0.0935477 0.0939296
A~
no 0.9752 0.09075 0.0009075 0.0009139
sigma2 2.1353 0.76615 0.0076615 0.0099141
2. Quantiles for each variable:
2.5% 25% 50% 75% 97.5%

(Intercept) -101.0450 -88.6263 -82.6179 -76.743 -64.137
A~
no 0.7943 0.9178 0.9744 1.033 1.154
sigma2 1.1229 1.6050 1.9824 2.482 4.019
> res.bay[1:15,]
(Intercept) A~
no sigma2
[1,] -100.75066 1.1479148 1.862622
[2,] -84.14091 0.9853853 1.790405
[3,] -93.42793 1.0783263 2.214343
[4,] -87.98343 1.0297587 1.857563
[5,] -60.41204 0.7586823 3.487881
[6,] -88.45529 1.0324655 2.841447
[7,] -70.67004 0.8607582 1.724942
[8,] -78.15466 0.9292954 1.773086
[9,] -83.50116 0.9834269 1.864375
[10,] -97.87236 1.1166745 2.987112
[11,] -87.44617 1.0212019 1.897684
[12,] -70.76430 0.8667845 3.726868
[13,] -89.75502 1.0418003 2.435048
[14,] -81.57685 0.9694492 2.832919
139
[15,] -89.03969 1.0361920 2.303039
>
> cor(res.bay)
(Intercept) A~
no sigma2
(Intercept) 1.000000000 -0.999437116 0.008256327
A~
no -0.999437116 1.000000000 -0.009172142
sigma2 0.008256327 -0.009172142 1.000000000
>
> raftery.diag(res.bay)
Quantile (q) = 0.025

Accuracy (r) = +/- 0.005
Probability (s) = 0.95
Burn-in Total Lower bound Dependence

(M) (N) (Nmin) factor (I)
(Intercept) 2 3802 3746 1.010
A~
no 2 3962 3746 1.060
sigma2 2 3680 3746 0.982
>
> library(mcgibbsit)
> #datos.mcmc<-read.mcmc(1,res.bay)
> mcgibbsit(res.bay, q=0.025, r=0.005, s=0.95,
converge.eps=0.001,correct.cor=TRUE)
Multi-Chain Gibbsit
-------------------
Call = mcgibbsit(data = res.bay, q = 0.025,

r = 0.005, s = 0.95, converge.eps = 0.001,
correct.cor = TRUE)
Number of Chains = 1
Per-Chain Length = 10000
Total Length = 10000
Quantile (q) = 0.025

Accuracy (r) = +/- 0.005
Probability (s) = 0.95
140
Burn-in Estimation Total Lower bound Auto-Corr. Between-Chain
(M) (N) (M+N) (Nmin) factor (I) Corr. factor (R)
(Intercept) 2 3801 3803 3746 1.02 NA

A~
no 2 3960 3962 3746 1.06 NA
sigma2 2 3678 3680 3746 0.982 NA
----- ----- ----- ----- ----- -----
2 3960 3962
NOTE: The values for M, N, and Total are combined numbers of iterations
based on using 1 chains.
10.3. Algoritmo E − M
Esta es una técnica para obtener los estimadores de máxima verosimili-
tud, desarrollada originalmente en el contextod edatos faltantes. Defina
Z
Q θ(t) , θ = ln (p (θ|Yobs , Yperd )) f Yper |Yobs , θ(t) dYperd
donde
ln (p (θ|Yobs , Yperd )) es la log-verosimilitud o la log-posterior de los da-

tos completos.

f Yper |Yobs , θ(t) es la densidad predictiva de Yperd , dados los datos
observados y el valor actual de los parámetros.
La integración es sobre el espacio muestral de Yperd .
PASO E: Utilice las estimadas de los parámetros en la presente ite-

ración para generar las imputaciones, lo que nos permite calcular la
esperanza de la log-verosimilitud de los datos completos.
PASO M : Maximice la función Q con respecto a θ, produciendo una

actualización de los parámetros estimados θ(t+1) , tal que

Q θ(t+1) , θ(t) ≥ Q θ(t) , θ(t)
141
10.3.1. Ejemplo: Distribución Birnbaum-Saunders
La función de distribución acumulada de la distribución de dos paráme-
tros de Birnbaum-Saunders de la variable aleatoria T puede escribirse como
( 1/2 )!
1/2
1 t β
FT (t; α, β) = Φ − t > 0, α, β > 0.
α β t
Este modelo fue propuesto por Birnbaum y Saunders (1969) para mo-
delar la falla de un aparato que oscila por fatiga debido a la iniciación
y crecimiento de una de una ruptura o falla dominante.
En cada oscilación esta falla crece en alguna medida que es aleatoria

debida a factores tales como variación en el material, etc.
La función de densidad de T está dada por
( 3/2 )
1/2
1 t β 1 t β
f (t) = √ + exp − 2 + −2
2 2παβ β t 2α β t

1
E(T ) = β 1 + α2
2

5
V ar(T ) = αβ 1 + α2
4

16α2 11α2 + 6
β1 (T ) = 3
(5α2 + 4)

6α2 93α2 + 41
β2 (T ) = 3+ 2
(5α2 + 4)
Si t1 , t2 , · · · , tn es la información muestral, tenemos entonces que la verosimilitud

será
n
( 3/2 )
Y 1/2
1 ti β 1 ti β
L (α, β|Datos) = √ − exp − 2 + −2
i=1
2 2παβ β ti 2α β ti
n "Y n
( 1/2 3/2
)#
1 ti β
= √ −
2 2παβ i=1
β ti
n !
1 X ti β
× exp − 2 + −2
2α i=1 β ti
x<-c(10.5,7.2,8.4,7.2)
a0<-1; a1<-1; b0<-1; b1<-1
142
# funcion de Birnhaum-Saunders
veros<-function(X,a,b){
X<-c(10.5,10.8,7)
n<-length(X);Xb<-X/b;bX<-b/X
res<-(-n*log(a*b)+sum(log(sqrt(Xb)+(bX)^(3/2)))
-(1/(2*a*a)*sum(Xb+bX-2)))
res<-exp(res)
res
}
apriori<-function(a,b,a0,b0,a1,b1) dgamma(a,a0,b0)
*dgamma(b,a1,b1)
h<-function(a,b,a0,b0,a1,b1) dgamma(a,a0,b0)
*dgamma(b,a1,b1)
aposte<-function(a,b,X,a0,b0,a1,b1) veros(X,a,b)
*apriori(a,b,a0,b0,a1,b1)
#Generar candidatos
muestreadora<-function(a0,b0,a1,b1){
a.e<-rgamma(1,a0,b0)
b.e<-rgamma(1,a1,b1)
res<-c(a.e,b.e)
res
}
# Programa Principal
teta.v<-c(1,1);res<-teta.v
for(i in 1:50000){
a.v<-teta.v[1]
b.v<-teta.v[2]
teta.n<-muestreadora(a.v,b.v,a.v,b.v)
#print(teta.n)
a.n<-teta.n[1]
b.n<-teta.n[2]
r<-aposte(a.n,b.n,X,a0,b0,a1,b1)*h(a.v,b.v,a.n,b.n,a.n,b.n)
/(aposte(a.v,b.v,X,a0,b0,a1,b1)*h(a.n,b.n,a.v,b.v,a.v,b.v))
#print(r)
if(r>1){
res<-rbind(res,teta.n)
teta.v<-teta.n
}
143
else{
if(runif(1)<r){
res<-rbind(res,teta.n)
teta.v<-teta.n
}}}
alfa<-res[,1])
beta<-res[,2])
library(hdrcde)
hdr.den(alfa, prob = c(50, 95, 99),xlab=’alfa’)
hdr.den(beta, prob = c(50, 95, 99),xlab=’beta’)

hdr.boxplot.2d(alfa,beta,,prob=c(0.001,0.01,0.50,0.80,0.90,0.95)
,h = c(5,5),xlab=’alfa’,ylab=’beta’ )
> cov(res)
[,1] [,2]
[1,] 0.41599210 -0.02482227
[2,] -0.02482227 0.24972221
> colMeans(res)
[1] 2.219080 1.175091
> dim(res)
[1] 1325 2
> colMeans(res[-(1:500),])
[1] 2.202812 1.176349
> cov(res[-(1:500),])
[,1] [,2]
[1,] 0.41217844 -0.01287802
[2,] -0.01287802 0.24297240
>
10.4. Pruebas de hipótesis usando simulación

Han y Carlin (2001) presentan una revisión de métodos MCMC desa-
rrollados para calcular el factor de Bayes en problemas donde es complejo
hallarlos vı́a integración exacta o numérica.
Ejemplo 10.1 Prueba para una Poisson. Suponga que deseamos verificar
si la hipótesis que el número promedio de goles del equipo local en el cam-
144
peonato colombiano es 1.0 ó menos es más plausible que si el promedio es
mayor que 1.0. Asumamos que el número de goles metidos por el local en el
primer tiempo se distribuye Poisson(λ). Las hipótesis serán:
H1 : λ ≤ 1
H2 : λ > 1
Datos observados: Campeonato 2002 I primeras 4 fechas Goles marcados

por el local el primer tiempo 0,1,0,2,1,0,2,1,1, 1,0,1,0,1,0,1,1,0, 0,0,3,0,0,0,0,1,0,
0,2,0,1,0,1,0,1,0.
P
Por suficiencia y = ni=1 xi ∼ P oisson(nλ)
Suponga que apriori ξ(H1 ) = 0,4 y ξ(H2 ) = 0,6.
Bajo H1 la apriori sobre Θ1 la escogemos Beta(α0 , β0 ) y bajo H2 asu-
mimos una normal truncada con parámetros µ0 y σ02 . El factor de Bayes
es
R
p(y|H1 ) p(y|H1 , λ)ξ(λ|H1 ) dλ
=R
p(y|H2 ) p(y|H2 , λ)ξ(λ|H2 ) dλ
Ahora
Z
λy exp(−nλ)
p(y|Hi ) = ξ(λ|Hi ) dλ = Eξi [P (Y = y|λ)]
Θi y!
Para H1
Z 1 λy exp(−nλ) Γ (α0 + β0 ) α0 −1
p(y|H1 ) = λ (1 − λ)β0 −1 dλ
0 y! Γ (α0 ) Γ (β0 )
1. Genere λ1 , λ2 , · · · , λM de una Beta (α0 , β0 ).

3. Calcule
M
1 X
pi
M i=1
145
Para H2
Z
∞ λy exp(−nλ) 1 1
p(y|H2 ) = √ exp − 2 (λ − µ0 )2 dλ
1 y! 2πσ0 2σ 0
1. Calcule p∗ como P (X > 1) donde X ∼ (µ0 , σ02 )

2. Genere p∗1 , p∗2 , · · · , p∗M de una U nif orme (p∗ , 1).
3. Calcule λi tal que
Z λi
1 1
√ exp − (λ − µ0 )2 = p∗i
−∞ 2πσ0 2σ02
5. Calcule
M
1 X
pi
M i=1
# Ejemplo de Factor de Bayes
# Modelo muestral Poisson(lamb)

# H1: lam>=1
# H2: lam>1
# apriori bajo H1--> beta(a0,b0)

# apriori bajo H2--> normal tuncada(u0,s20)
# Datos observados: Campeonato 2002 I primeras 4 fechas

# Goles marcados por el local el primer tiempo
x<-c(0,1,0,2,1,0,2,1,1,
1,0,1,0,1,0,1,1,0,
0,0,3,0,0,0,0,1,0,
0,2,0,1,0,1,0,1,0)
a0<-1
b0<-1
u0<-1.5
146
s20<-1
# Cálculo del BF
# Valor de numerador
lambdas<-matrix(rbeta(1000,a0,b0),ncol=1)
prob.pois<-function(lambda,x) ppois(sum(x),length(x)*lambda)
numerador<-mean(apply(lambdas,1,prob.pois,x))
# Cálculo del denominador
p.1<-pnorm(1,mean=u0,sd=sqrt(s20))
p.s<-runif(1000,p.1,1)
lambdas<-matrix(qnorm(p.s,mean=u0,sd=sqrt(s20)),ncol=1)
denominador<-mean(apply(lambdas,1,prob.pois,x))
BF<-numerador/denominador
> BF
[1] 2355.499
> numerador
[1] 0.6305515
> denominador
[1] 0.0002676934
> razon.apriori<-0.4/0.6
> razon.apriori
[1] 0.6666667
> BF*razon.apriori
[1] 1302.348
>
Lanzamiento de un par de dados

En un juego de parqués se registraron los resultados del lanzamiento de
un par de dados 130 veces. A partir de estos resultados quiere uno ver si los
dados son conjuntamente buenos.
Resultado 2 3 4 5 6 7 8 9 10 11 12
Frecuencia 4 8 10 11 22 14 22 18 10 5 6
Nos podemos preguntar si con los datos anteriores podrı́amos jugar tran-
147
quilamente este juego de parqués, o sea si los dados son buenos o están
cargados.
Si el par de dados fueran perfectos, entonces el modelo teórico serı́a el
que aparece en la siguiente tabla:
Resultado 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
Probabilidad 36 36 36 36 36 36 36 36 36 36 36
En los 130 lanzamientos de los dados esperarı́amos hallar

Resultado 2 3 4 5 6 7
Esperada 3.61 7.22 10.83 14.44 18.06 21.67
Resultado 8 9 10 11 12
Esperada 18.06 14.44 10.83 7.22 3.61
H0 : Los dados están buenos

Suponga las dos hipótesis Suponga que aprio-
H1 : Los dados están sesgados
ri no tenemos información que nos haga dudar sobre la calidad de los dados y
escogemos
ξ(H0 ) = 0,9
ξ(H1 ) = 0,1
La información muestral es utilizada entonces para calcular de los odds apriori:
ξ(Ho |Io )
ξ(H1 |Io )
los odds posteriores en favor de Ho :
ξ(Ho |I1 ) p(y|Ho ) ξ(Ho |Io )

=
ξ(H1 |I1 ) p(y|H1 ) ξ(H1 |Io )
n! x1 x2 xk
x1 !x2 !···xk ! π1 π2 · · · πk ξ(H0 )
= R R n! x1 x2 xk
··· x1 !x2 !···xk ! π1 π2 · · · πk ξ(π1 , π2 , · · · , πk ) dπ1 dπ2 · · · dπk ξ(H1 )
> # Cálculo del factor de Bayes

> # Juego de dados
> # H_1: Los resultados corresponden a los de dados justos
> # Los resultados son sesgados
>
148
> # Resultados muestrales
> x<-c(4 , 8 , 10 , 11 , 22 , 14 , 22 , 18 , 10 , 5 , 6)
> prob.teor<-c(1,2,3,4,5,6,5,4,3,2,1)/36
> numerador<-dmultinom(x,prob=prob.teor)
> numerador
[1] 3.668687e-11
>
> library(MCMCpack)
> temp<- rdirichlet(1000,c(1,1,1,1,1,1,1,1,1,1,1))
> densid.multi<-function(proba,x)dmultinom(x,prob=proba)
>
> denominador<-mean(apply(temp,1,densid.multi,x))
> denominador
[1] 1.280907e-17
>
> numerador/denominador
[1] 2864133
> temp<- rdirichlet(1000,c(1,2,3,4,5,6,5,4,3,2,1)*10)

> densid.multi<-function(proba,x)dmultinom(x,prob=proba)
>
> denominador<-mean(apply(temp,1,densid.multi,x))
> denominador
[1] 2.407294e-11
>
> numerador/denominador
[1] 1.523988
Ejemplo:
Sean y1 , · · · , yn |θ variables independientes y distribuidas Poisson con
parámtero θ. Ası́,
θyi e−θ
p (yi |θ) =
yi !
para θ > 0, yi = 0, 1, 2, · · ·. Sea H0 : θ = θ0 y H1 : θ = θ1 dos hipótesis
simples, con ξ (H0 |I0 ) = ξ (H1 |I0 ). El Factor Bayes es
P yi
θ0 i
exp (θ1 − θ0 )
θ1
y por lo tanto, ya que la distribución apriori asigna igual probabilidad a las
hipótesis, la regla de decisión será aceptar H0 si el Factor de Bayes es mayor
que 1.
149
Comparación de dos proporciones
Un problema común en estadı́stica es el de verificar que dos propor-
ciones son iguales (H0 : π1 = π2 ) contra la alternativa H1 : π1 6= π2 .
Bajo el supuesto de H0 solo tenemos un párametro que puede tomar

un valor en (0, 1) y por lo tanto necesitamos especificar una distri-
bución apriori en esta situación, digamos ξH0 (π) (podemos pensar en
una Beta(α, β)), donde α y β se escogen de tal forma que reflejen el
conocimiento apriori (en caso de ignorancia podemos escoger α = 1 y
β = 1).
Bajo la alternativa H1 debemos pensar en una distribución conjunta

para (π1 , π2 ), digamos ξH1 (π1 , π2 ).
Bajo la alternativa una selección obvia es una uniforme en el área

(0, 1) × (0, 1), con π1 6= π2 y esto corresponde al producto de dos uni-
formes independientes. Además asumamos que la probabilidad apriori
de H0 es 0.5.
Asumamos que nuestros datos son
Exitos Fracasos Total

Muestra 1 2 13 15
Muestra 2 14 1 15
El factor de Bayes es 0.0000894 y la probabilidad posterior de la hipótesis

nula es 0.0000894.
150
Capı́tulo 11
Inferencia Predictiva
Muchas situaciones aplicadas implican realizar inferencias sobre una ob-

servación futura de una variable aleatoria, cuya distribución depende de
un número finito de parámetros (desconocidos), esta distribución se cono-
ce como distribución predictiva. Smith (1998) argumenta que afirmaciones
predictivas acerca de variables aleatorias no observadas tiene más sentido a
menudo que la estimación tradicional de parámetros.
11.1. Procedimiento Exacto

Asumiendo que ξ (θ) es la distribución apriori y que ξ (θ|x) es la poste-
rior, la distribución predictiva bayesiana se calcula como
p(z, x)
p (z|x) =
p(x)
R
ΘR p(z, x, θ) dθ
=
p(x, θ) θ
R Θ
ΘR p(z, x|θ)ξ(θ) dθ
=
p(x|θ)ξ(θ) θ
R Θ
Θ p(z|θ)p(x|θ)ξ(θ)
R
dθ
=
Θ p(x|θ)ξ(θ) θ
Z ( )
p(x|θ)ξ(θ)
= p(z|θ) R dθ
Θ Θ p(x|θ)ξ(θ) θ
Z
= p(z|θ)ξ (θ|x) dθ
151
Ası́
Z
p (z|x) = p(z|θ)ξ (θ|x) dθ
= Eθ|x [p(z|θ)]
La función p(z|θ) es la de verosimilitud de θ evaluada en z.
Ejemplo 11.1 Caso Bernoulli. Suponga que x1 , · · · , xn es una muestra

aleatoria de una Bernoulli(π) y suponga que la distribución apriori de π es
una Beta(α, β). Encontremos la distribución predictiva de una observación
futura z.
Tenemos
Z
p (z|x) = p(z|π)ξ (π|x) dπ
Ahora
p(z|π) = π z (1 − π)1−z , z = 0, 1,
y
P P
xi +α−1
ξ(π|x) ∝ π (1 − π)n− xi +β−1
P P
Ahora, si denotamos por α∗ = xi + α y β ∗ = n − xi + β tenemos
que
Z 1
Γ(n + α + β) z+α∗ −1 ∗
p(z|x) = ∗ )Γ(β ∗ )
π (1 − π)β +1−z−1 dπ
0 Γ(α
Γ(n + α + β) Γ(z + α∗ )Γ(1 − z + β ∗ )
=
Γ(α∗ )Γ(β ∗ ) Γ(n + α + β + 1)
Ası́
Γ(n + α + β)Γ(1 + β ∗ )
P (z = 0|x) =
Γ(β ∗ )Γ(n + α + β + 1)
β∗
=
n+α+β
β∗
=
α∗ + β ∗
152
y
α∗
P (z = 1|x) =
α∗ + β ∗
Vale la pena notar que
P (z = 1|x) = E(π|x),
la media posterior.
Ejemplo 11.2 Caso Poisson. Suponga que x1 , · · · , xn es una muestra

aleatoria de un P oisson(θ). Además supongamos que la distribución apriori
de θ es una Gamma(α, β). Encontremos la distribución predictiva p(z|x).
P
Sabemos que la distribución aposteriori es una Gamma(α∗ = α+ xi , β ∗ =
β + n). Ahora
θz e−θ
p(z|x) =
z!
Ası́
Z ∗
∞ θz e−θ (β ∗ )α −β ∗ θ
p(z|x) = e dθ
0 z! Γ (α∗ )
∗ Z
(β ∗ )α ∞ ∗ ∗
= ∗
θz+α −1 e−(β +1)θ dθ
z!Γ (α ) 0
∗
(β ∗ )α Γ (z + α∗ )
=
z!Γ (α∗ ) (β ∗ + 1)(z+α∗ )
! α∗ z
z + α∗ − 1 β∗ 1
=
z β∗ + 1 ∗
β +1
para z = 0, 1, 2, · · · Por lo tanto

1 ∗
z|x ∼ Binomial − N egativa α , ∗
β +1
Ejemplo 11.3 Caso Exponencial.

Sea x1 , · · · , xn una muestra aleatoria de una exponencial con densidad
−θx
θe , con x > 0, θ > 0. Sea Z que denota una observación futura de
153
la misma densidad. Estamos interesados en la probabilidad predictiva que
Z > z para algún nivel dado z. Cuando θ es conocido, esto está dado por
φ = φ(z|θ) = e−θz .
Si asumimos que la distribución apriori de θ es ξ(θ) ∝ θa−1 e−bθ , una
apriori Gamma con parámetros (a, b). La distribución aposteriori de θ es
también una Gamma con parámetros (a + n, b + Sn ), donde Sn = x1 + · · · +
xn , y la esperanza posterior de φ se calcula como
a+n
b + Sn
φ̂ =
b + Sn + z
Cuando a = b = 0 se tiene una distribución apriori Jeffreys y la esperanza
se reduce a
n
Sn
φ̂ =
Sn + z
Ejemplo 11.4 Distribución Multinomial. En el caso de la distribución

multinomial tenemos, bajo una apriori Dirichlet, la aposteriori es también
Dirichlet con parámetros ni + αi , para i = 1, . . . , k. Bajo la distribución
apriori de Jeffreys, que corresponde a una Dirichlet con αi = 1/2 para todo
i = 1, . . . , k, la distribución predictiva es
ni + 21
p (Xi = i |N ) = Pk k
j=1 nj + 2
y, bajo a apriori uniforme
ni + 1
p (Xi = i |N ) = Pk
j=1 nj + k
11.2. Distribución Predictiva vı́a MCMC

A veces es difı́cil resolver la integral para calcular la distribución pre-
dictiva
Z
= Eθ|x [p(z|θ)]
Una solución es usar MCMC.
154
11.2.1. Algoritmo
(Paso 1) Genere una muestra de tamaño M , luego de haber quemado
nB muestras de ξ (θ |Datos ), puede usar un thin (botar valores inter-
medio si es necesario para controlar la autocorrelación). Esta muestra
la denotamos por comodidad como
θ1 , θ2 , · · · , θM
La distribución predictiva p (z |Datos ) podemos aproximarla ası́

Z
M
1 X
= Eθ|x [p(z|θ)] ≈ p (z |θi , Datos )
M i=1
(Paso 2) Sacamos al azar un número en {1, 2, · · · , M } con probabilidad

1/M , digamos m.
(Paso 3) De p(z|θm , Datos) sacamos un número al azar, digamos z.
(Paso 4) Repetimos los pasos 2 y 3 una gran cantidad de veces, diga-

mos K. Al final obtenemos un conjunto de valores
z1 , z2 , · · · zK
(Paso 5) Construı́mos un estimador de la densidad p(z|Datos). Si z

es discreta simplemente calculamos la densidad aproximada como
# {xk = j}
p(z = j|Datos) ≈
K
Ejemplo 11.5 Distribución Discreta. Asumamos
X ∼ P oisson(λ)
ξ(λ) es U (0, 3)
x1 , x2 , · · · , xn es una m.a. de la distribución P oisson(λ)
La distribución aposteriori es
Pn
xi
λ i=1 exp(−nλ)
ξ (λ |Datos ) = Qn
i=1 xi !
para 0 < λ < 3.
155
La distribución predictiva de z dado los Datos es
Pn
Z xi
3 λz exp(−λ) λ i=1 exp(−nλ)
p(z |Datos ) = Qn dλ
0 z! i=1 xi !
Z 3 Pn
1
p(z |Datos ) = Qn exp(−λ(n + 1))λz+ i=1
xi
dλ
z! i=1 xi ! 0
Pn
1 Γ (z +x + 1)
p(z |Datos ) = Qn Pn i
i=1
z! i=1 xi ! (n + 1)z+ i=1 xi +1
Z 3 Pn
(n + 1)z+ i=1 xi +1 Pn
× Pn exp(−λ(n + 1))λz+ i=1 xi dλ
0 Γ (z + i=1 xi + 1)
Esta última integral corresponde a la función de distribución acumulada

P
de una gamma con parámetros z + ni=1 xi + 1 y n + 1 evaluada en 3.
Si observamos del proceso 0,0,2,1,2,0,0,2,2,1,1,1,3,4,4,3. Tenemos

# Cálculo de la distribución predictiva
# Distr. muestral: Poisson

# Apriori: U(0,3)
Datos<-c(0,0,2,1,2,0,0,2,2,1,1,1,3,4,4,3)
p.pred<-function(z,x){
n<-length(x)
S.x<-sum(x)
P.x<-prod(factorial(x))
a<-z+S.x+1
b<-n+1
res<-gamma(a)/(factorial(z)*b^a*P.x)*pgamma(3,a,rate=b)
return(res)
}
temp<-p.pred(0:20,Datos)
prob.poste<-temp/sum(temp)
plot(0:20,prob.poste,type=’h’)
prob.poste
156
Ejemplo 11.6 Distribución continua.
Suponga X ∼ Gamma(α, β)
Distribución apriori
ξ(α, β) ∝ 1
Distribución posterior
n
!α−1 n
!
β nα Y X
ξ (α, β |Datos ) ∝ xi exp −β xi
(Γ(α))n i=1 i=1
# Distribución predictiva para una va continua Gamma
tiempos<-c(1.2,0.5,1.6,2.0,2.1,2.0)
prod.tiempos<-prod(tiempos)
sum.tiempos<-sum(tiempos)
n<-length(tiempos)
u<-mean(tiempos)
v<-var(tiempos)
a<-u^2/v
b<-u/v
> a
157
[1] 6.347701
> b
[1] 4.051724
>
veros<-function(a,b,datos){
res<-1
for(i in 1:length(datos)) res<-res*dgamma(datos[i],a,rate=b)
return(res)
}
a1<-seq(0.01,16.0,length=50)
b1<-seq(0.01,10.0,length=50)
z<-outer(a1, b1, FUN="veros", tiempos)

contour(a1,b1,z,ylab=expression(beta),xlab=expression(alpha))
dist.a.con<-function(a,b,produ,n) exp(n*a*log(b)
-n*lgamma(a)+a*log(produ))
# dist.b.con es una gamma(n*a+1,sum.tiempos)
# Proceso de muestreo
a.viejo<-a
b.viejo<-b
result<-c(a,b)
resulta<-matrix(NA,ncol=2,nrow=10000)
for(i in 1:nrow(resulta)){
pesos<-dist.a.con(a1,b.viejo,prod.tiempos,n)
a.nuevo<- sample(a1,1,prob=pesos)
b.nuevo<-rgamma(1,n*a.nuevo+1,sum.tiempos)
resulta[i,]<-c(a.nuevo,b.nuevo)
b.viejo<-b.nuevo
}
points(resulta,col=’grey’)
par(mfrow=c(2,1))
plot(resulta[,1],type=’l’,ylab=expression(alpha))
plot(resulta[,2],type=’l’,ylab=expression(beta))
par(mfrow=c(1,1))
# Función que genera muestra de la predictiva
genera.muestra.predictiva<-function(a)rgamma(1,a[1],rate=a[2])
158
z<-apply(resulta,1,genera.muestra.predictiva)
plot(density(z,from=0),main=’Distribución Predictiva’)
En estadı́stica clásica existe el área de validación cruzada que permite

medir la calidad de un modelo utilizando los datos de una manera relati-
vamente eficiente: parte de ellos se utilizan para la estimación del modelo
y la otra parte se usan con propósitos de predicción. Esta ha sido un área
159
[] []
160
que ha estado sujeta a muchas propuestas metodológica y controversias pero
no se puede negar su utilidad. Alqallaf y Gustafson (2001) presentan una
propuesta para la utilización de métodos de validación cruzada en estadı́sti-
ca bayesiana. Argumentan ellos que se puede construir una medida que es
comparable al concepto de valor P propuesto por Gelman, Meng y Stern.
Uno de los principales problemas que tiene la utilización de validación cru-
zada en estadı́stica bayesiana es el costo computacional involucrado en este
proceso, pues la complejidad que tiene el problema original necesitarı́a ser
multiplicada por el número de subproblemas generados por la técnica.
161
162
Capı́tulo 12
Modelos Lineales
12.1. La regresión clásica

Un modelo de regresión es un medio formal para expresar los dos ingre-
dientes esenciales de una relación estadı́stica:
1. Una tendencia de la variable dependiente Y que cambia, cuando la

variable independiente cambia, en una forma sistemática.
2. Una dispersión de los puntos alrededor de la relación estadı́stica.
Estas caracterı́sticas se expresan en un modelo de regresión como:
1. Para cada nivel de X hay una distribución de probabilidad de Y .
2. Las medias de estas distribuciones de probabilidad cambian en una

forma sistemática con X.
12.1.1. Usos del Análisis de Regresión

Descripción
Control
Predicción
12.1.2. Estrategia Tı́pica en un Análisis de Regresión

1. Diseño del Experimento
163
2. Análisis Exploratorio o inicial de los datos
3. Desarrollo de uno o más modelos de regresión tentativos
4. Hay uno o más modelos adecuados en los datos? Sı́.
5. Identifique el modelo más adecuado
6. Haga todas las inferencias necesarias basado en el modelo seleccionado
7. Revise los modelos y/o desarrolle otros diferentes
8. Presentacion de resultados e interpretación.
12.1.3. Regresión simple

El modelo más sencillo, pero el más útil, es el que se conoce como modelo
de regresión simple. Si tenemos una variable, Y , en cuyo comportamiento
estamos interesados cuando la condicionamos en ciertos valores de otra va-
riable, X, el modelo de regresión simple nos dice que la media condicional
de Y dado un valor de X = x, denotada por E [Y |X] = µY |X , es una función
lineal de X, o sea,
E [Y |X = x] = µY |X=x = β0 + β1 x
donde β0 y β1 se conocen como los parámetros del modelo. Estos valores
usualmente son desconocidos y el problema es estimarlos a partir de una
muestra de individuos de la población.
Sea (Y1 , X1 ), (Y2 , X2 ), · · · , (Yn , Xn ) una muestra aleatoria extraı́da de la
población de referencia. Observe como cada individuo proporciona infor-
mación simultáneamente sobre X y sobre Y . El individuo i-ésimo puede
representarse en términos del modelos ası́:
Y i = β 0 + β 1 Xi + ei
Supuestos:

1. ei ∼ N ormal 0, σ 2 , varianza constante (homoscedasticidad)
2. Cov (ei , ej ) = 0 para todo i 6= j
Notación:

yi = Yi − Ȳ

xi = Xi − X̄
Las minúsculas denotan desviaciones de la media.
164
12.1.4. Modelo de Regresión Lineal Múltiple
Y = β 0 + β 1 X1 + β 2 X2 + . . . + β k Xk + ei
donde
Y : Respuesta o variable dependiente
X1 , X2 , · · · , Xk : k variables explicatorias o independientes (no es-

tocásticas)
β0 , β1 , · · · , βk : k + 1 parámetros (usualmente desconocidos)
e: Error aleatorio
1. E (e; ) = 0
2. V ar (e; ) = σe2
3. Adicionalmente se asume normal

Y ∼ N β 0 + β 1 X1 + · · · + β k Xk , σ 2
E [Y |X1 , X2 , · · · , Xk ] = β0 + β1 X1 + · · · + βk Xk
La muestra aleatoria consta de n puntos. El i-ésimo punto se denota como
(Xi1 , Xi2 , · · · , Xik , Yi ) , para i = 1, 2, · · · , n
Condicion
Cov (Yi , Yj ) = 0 para todo i 6= j
Yi = β0 + β1 Xi1 + β2 Xi2 + · · · + βk Xik + ei para i = 1, 2, · · · , n
el modelo aplicado al i-ésimo punto
Para las n observaciones tenemos
Y1 = β0 + β1 X11 + β2 X12 + · · · + βk X1k + e1

Y2 = β0 + β1 X21 + β2 X22 + · · · + βk X2k + e2
.. .. ..
. . .
Yn = β0 + β1 Xn1 + β2 Xn2 + · · · + βk Xnk + en
165
12.1.5. Notación Matricial
La notación matricial simplifica todo el trabajo
Y n×1 = Xn×(k+1) β (k+1)1 + en×1

yi | xi ∼ N xi β, σ 2 ó y | X ∼ N Xβ, σ 2 I
−n/2
1
L β, σ | y2
= 2πσ exp − 2 (y − Xβ)0 (y − Xβ)
2
2σ
−n/2
2 1 0
= 2πσ exp − 2 y − Xβ̂ y − Xβ̂
2σ

1 0
× exp − 2 β − β̂ X0 X β − β̂
2σ
donde β̂ = (X0 X)−1 X0 y, el estimador de mı́nimos cuadrados y utilizamos

el hecho que
0 −1
y − Xβ̂ X β − β̂ = y 0 I − X X0 X X0 X β − β̂

= y0 (X − X) β − β̂ = 0.
0
Por lo tanto se concluye que S = y − Xβ̂ y − Xβ̂ , X0 X y β̂ son es-
tadı́sticos suficientes para β y σ 2 .
12.2. Análisis Conjugado

La verosimilitud es de la forma normal-gamma
−(n−k−2)/2−1
1 0
L β, σ 2 | y ∝ σ2 exp − y − X β̂ y − X β̂
2σ 2
−k/2
1 0
× σ2 exp − β − β̂ X 0
X β − β̂
2σ 2
con β | σ 2 normal y la distribución marginal de σ 2 es una Gamma2 invertida,

denotada por IG2 con n − k − 2 grados de libertad. La distribución apriori
conjugada también es de la forma normal-gamma.
166

β | σ 2 ∼ N β0 , σ 2 M−1
0
σ 2 ∼ IG2 (S0 , v0 )
tenemos
−(n−k−2)/2−1
S 1 0
ξ β, σ 2 | y ∝ σ2 exp exp −
− β − β̂ X 0
X β − β̂
2σ 2 2σ 2
−v0 /2−1
S0 −k/2 1
× σ2 exp − 2 σ2 exp − 2 (β − β0 )0 M0 (β − β0 )
2σ 2σ
−(v0 +n)/2−1
S1
= σ2 exp − 2
2σ
−k/2
1
× σ2 exp − 2 (β − β1 )0 M1 (β − β1 )
2σ
donde
M1 = M0 +X0 X
β1 = M−1
1 M0 β0 + X0 Xβ̂
S1 = S0 + S + Sβ
0 h −1 i−1
Sβ = β0 − β̂ M−1 0
0 + XX β0 − β̂
El resultado sigue completando el cuadrado para β y reuniendo los otros

términos en Sβ teniendo en cuenta que
−1 h −1 i−1

M0 + X0 X = M−1 −1
0 − M0 M−1 0
0 + XX M−1
0
−1 −1 h −1 i−1 −1
= X0 X − X0 X M−1 0
0 + XX X0 X
−1 h −1 i−1
X0 X M0 + X0 X M0 = M−1
0 M0 + X0 X X0 X
h −1 i−1
= M−1 0
0 + XX
La distribución posterior será entonces

β | y, σ 2 ∼ N β1 , σ 2 M−1
1
σ 2 | y ∼ IG2 (S1 , v1 )
167
donde v1 = v0 + n.
La distribución marginal posterior para β es una t multivariable1 . Si
integramos para eliminar σ 2 de la distribución conjunta posterior obtenemos
el kernel de la marginal posterior como
h i−(v1+k)/2
ξ (β | y) ∝ S1 + (β − β1 )0 M1 (β − β1 )
Este es el kernel de la distribución t multidimensional con v1 grados de

libertad y parámetros de escala S1 y M1 , y denotado por
β | y ∼ tk (β1 , S1 , M1 , v1 )
Resultados similares se obtienen

para subconjuntos de parámetros de la
regresión. Sea β ∼ N b, σ 2 M−1 y σ 2 ∼ IG2 (S, v). Asumamos la siguiente
partición conformable
!
βa
β =
βb
!
Maa Mab
M−1 =
Mba Mbb
Ya que β es normal condicionado en σ 2 tenemos

β a | σ 2 ∼ N ba , σ 2 Maa
−1 −1
β a | β b , σ 2 ∼ N ba + Mab Mbb β b − bb , σ 2 Maa − Mab Mbb Mba .
Marginalizando con respecto a σ 2 tenemos

1
Un vector aleatorio X se dice que tiene una distribución t multivaiable con n grados
de libertad, vector dfe localización µ y matriz de precisión T , si su densidad es
−(n+k)/2
1
f (x|n, µ, T ) = c 1 + (x − µ)0 T (x − µ)
n
donde
Γ [(n + k)/2] |T |1/2
c= con
Γ(n/2)(nπ)(k/2)
2 α + n grados de libertad, vector de localización β 1 y matriz de precisión
2α + n
τ + X 0X
2β1
168

β a ∼ tka ba , S, (Maa )−1 , v
−1 !
−1 −1
a b a ab bb b b aa ab bb ba
β |β ∼ t ka b + M M β −b , S, M −M M M ,v .
12.2.1. Distribución Predictiva

2

Recordemosque el modelo de interés es y = Xβ+, con ∼ N 0, σ I .Ya
−1 −1
que β | σ 2 ∼ N β0 , σ 2 M0 , entonces Xβ | σ 2 ∼ N(Xβ0 , σ 2 XM0 X0 ). Se
sigue que

y | σ 2 ∼ N Xβ0 , σ 2 I + XM−1
0 X
0
ya que es independiente de β cuando condicionamos en σ 2 . La apriori para

σ 2 es IG2 (S0 , v0 ) y marginalizando con respecto a σ 2 produce
−1
y ∼ tn Xβ0 , S0 , I + XM−1
0 X 0
, v0
La densidad predictiva para un vector y∗ de m componentes condicio-

nado a un conjunto de valores para las variables explicatorias X∗ es
−1
∗ ∗ ∗
y | X ∼ tm X β 1 , S 1 , I + X ∗
M−1
1 X ∗0
, v1
g-apriori de Zellner
La aproximación g-apriori de Zellner no requiere especifificar el cono-
cimiento previo de acerca de los parámetros del modelo. La aproximación
g-apriori asume que las covarianzaqs apriori para β son iguales a las obte-
nidas mediante los datos muestrales. O sea, la matriz de porecisión apriori
está dada por
g 0
XX
σ2
La media aposteriori será
β̂ + gβ (0)
β (1) =
1+g
donde β̂ es el estimador de máxima verosimilitud y β (0) es la media apriori.

El tamaño de g corresponde al peso que se le asigna a la apriori.
169
12.2.2. Inferencias
Intervalos de Probabilidad
Regiones de alta probabilidad para conjuntos de parámetros se encuen-
tran directamente de la distribución marginal posterior. Para un solo paráme-
tro tenemos
−1
βi | y ∼ t βi1 , S1 , Mii1 , v1
donde M1ii es el elemento i, i de M−1

1 . La transformación
βi − βi1
q
M1ii S1 /v1
tiene una distribución t estándar y una región de más alta probabilidad 1−α
está dada por
q q
βi1 − tα/2,v1 M1ii S1 /v1 , βi1 + tα/2,v1 M1ii S1 /v1
Para conjuntos de parámetros notemos que si x ∼ tm (µ, S, M , v) en-

tonces
(x − µ)0 M (x − µ) /m
∼ F(m,n)
S/v
Una región de más alta probabilidad para β está dada por
( )
(β − β1 )0 M1 (β − β1 ) /k
β: ≤ F(1−α,k,v1 )
S1 /v1
12.2.3. Pruebas de Hipótesis

Las pruebas de hipótesis puntuales son fáciles de implementar utilizando
la técnica de la región de más alta probabilidad y verificando que la hipótesis
está contenida en una región apropiada de más alta probabilidad.
Si la hipótesis tiene la forma de q restricciones lineales Bβ = r, tenemos
que la distribución posterior bajo la hipótesis es
−1
Rβ ∼ tq Rβ 1 , S1 , RM−1
1 R , v1
y por lo tanto
170
−1
(δ − Rβ 1 + r)0 RM−1
1 R (δ − Rβ 1 + r) /q
∼ F(q,v1 )
S1 /v1
para δ = Rβ 1 − r. La hipótesis δ = 0 está contenida en la región de más
alta probabilidad si
−1
(Rβ 1 − r)0 RM−1
1 R (Rβ 1 − r) /q
< F(q,v1 )
S1 /v1
Para el cálculo de las pruebas bayesianas y los factores de Bayes suponga-
mos deseamos probar H1 : Rβ = r y H2 : Rβ 6= r. H1 implica excatamente
q restricciones sobre los paámetros que pueden ser sustituidos en el modelo,
lo cual produce
y ∗ = X∗ β ∗ +
donde β es un vector con k − q componentes.

Especificando
una apriori para
∗ 2 ∗ 2 ∗ 2 ∗−1 2
β y σ bajo H1 , digamos β | σ ∼ N β0 , σ M0 , σ ∼ IG1 (S0 , v0 )
obtenemos la verosimilitud marginal bajo H1 como
−1
∗−1
m (y∗ | H1 ) = tn X∗ β0∗ , S0 , I + X∗ M0 X∗0 , v0

Bajo H2 , especificamos una apriori β | σ 2 ∼ N β0 , σ 2 M−1 0 , σ 2 ∼ IG1 (S0 , v0 )
y el análisis es igual al anterior. El factor de Bayes será entonces
−1
∗−1
tn X∗ β0∗ , S0 , I + X∗ M0 X∗0 , v0
B12 =
tn Xβ0 , S0 , (I + XM0 ; −1X0 )−1 , v0
Ejemplo 12.1 Precios de Oferta de Vehı́culos. Consideremos los

datos referentes a los precios de oferta de carros Chevrolet Sprint aparecidos
en el periódico El Colombiano Abril 14 del 2002 en la sección de Avisos
Clasificados.
Año Precio
(en millones)
87 7.0
88 8.0
92 10.4
94 12.5
171
Si asumimos que el modelo P recio = β0 + β1 Año nos puede representar
de una manera adecuada la relación entre el Precio de Oferta del vehı́culo y
el Año del mismo. Además asumimos que una observación particular tiene
una diferencia con el modelo teórico que se distribuye normal con media
cero y varianza σ 2 . La pendiente β0 nos indica la diferencia promedio en el
precio de dos carros Sprint de años consecutivos. Podemos entonces utilizar
un programa estadı́stico que ajuste el modelo ( aún hasta calculadoras de
bolsillo ajustan este tipo de modelos). Los resultados son
Precio Estimado = 9,475 + 0,74275Año

Error Estándar 0,17326 0,06055
Desviación Tı́pica del Modelo: 0.3465 con 2 grados de libertad

R-Cuadrado: 0.9869
Obviamente el modelo ajusta bien, pero es claro que tenemos muy pocos
datos. El intervalo de confianza del 95 % para la pendiente es ( 0.4822244,
1.003276), que es bastante amplio. Un problema con esta aproximación es
la interpretación frecuentista que hay que darle al intervalo y que se basa en
el supuesto de la extracción de infinitas muestras de tamaño 4 de la misma
población.
Los precios de oferta del mismo tipo de carro que aparecieron en El
Colombiano en Diciembre 16 del 2001, en el cual aparecieron los siguientes
datos
Año Precio
(en millones)
88 7.8
90 8.8
95 11.8
95 12.3
94 12.0
95 8.8
Si asumimos que β0 se distribuye normalmente con media 10.86 y preci-

sión de 28.08382 y β1 se distribuye normalmente con media 0.6522 y precisión
225.2477. Para la varianza del modelo asumimos un modelo poco informati-
vo Gamma(0.001,0.001). Los valores anteriores se construyeron asumiendo
inicialmente distribuciones poco informativas y actualizándolos con la in-
formación previa, excepto el de la varianza, ya que este nos refleja el nivel
de credibilidad en las predicciones de esta actualización, que puede no ser
172
muy alto. Dadas esta nuevas condiciones para nuestro problema, o sea in-
formación previa disponible y cuantificada en términos de distribuciones,
procedemos a mezclarla, utilizando el Teorema de Bayes, para obtener nues-
tra distribución actualizada o aposteriori. Esta última produce los resultados
siguientes
Parámetro media sd 2.5 % 97.5 %

β0 10.76 0.1925 10.38 11.14
β1 0.6581 0.06308 0.5339 0.7838
τ 0.5937 0.4655 0.06085 1.825
El intervalo de credibilidad (en la estadı́stica clásica lo llamamos de con-

fianza) para la pendiente del 95 % de probabilidad es (0.5339 , 0.7838 ), el
cual nos dice que el más probable valor para la diferencia promedio en el pre-
cio de oferta de dos carros Sprint de años consecutivos está entre $534.000.00
y $784.000.00. Este intervalo es mucho más preciso que el intervalo hallado
por el método clásico que era $482.200.00 y $1.003.000.00.
12.3. Estrategias en Modelación

Jefferys y Berger (1992) discuten el principio que es ahora popular entre
los modeladores conocido como la cuchilla de Ockham, y que dice Pluritas
non est ponenda sine necessitate, que traduce “La pluralidad no se debe
imponer sin necesidad”. Aunque el principio es relativamente vago, varias
interpretaciones se le han dado tales como:
“Las entidades no deben ser multiplicadas sin necesidad”
“Es vano hacer con más lo que se puede hacer con menos”
“Una explicación de los hechos no debe ser más complicada de lo ne-

cesario”
“Entre hipótesis que compiten, favorezca la más simple”

Este ha sido un principio heurı́stico, pero ellos argumentan que puede ser
justificado y aceptado bajo la escuela bayesiana. Loredo (199*) habla de la
Cuchilla de Occam Automtizada. Para probabilidades predictivas se prefie-
ren modelos simples.
El Factor de Occam:
173
Z
P (D|Mi ) = ξ (θi |M ) L(θi ) dθi

≈ xi θ̂i |M L(θ̂i ) δθi
δθi
≈ L(θ̂i )
∆θi
≈ Máxima Verosilitud × Factor de Occam
Los modelos con más parámetros usualmente hacen que los datos pro-
duzcan un mejor ajuste. El Factor de Occam penaliza los modelos por el
“volumen” del espacio parametral desperdiciado.
No existen reglas rı́gidas que se deban seguir en el proceso de modelación,
más bien lo que se presenta a continuación nace de la experiencia:
Comenzar con modelos pequeños y simples que han sido utilizados por
otras personas y para los cuales los análisis han sido realizados.
Desarrollar modelos más complejos paso a paso.
Cuando realice simulaciones chequee las respuestas finales comenzado

desde diferentes puntos iniciales y diferentes semillas para los genera-
dores de números aleatorios.
12.4. Librerı́a MCMCpack

Esta librerı́a del R contiene un conjunto de funciones que permiten ajus-
tar una amplia variedad de modelos bayesianos. Un problema es que solo
permite ajustar modelos conjugados, lo que en algunas aplicaciones puede
ser restrictivo.
MCMCregress()
Esta función genera muestras de la distribución posterior del modelo
lineal con errores normales usando el muestreador de Gibbs, usando una
distribución apriori normal multivariable del vector β, y una Gamma inversa
para la varianza condicional.
MCMCregress(formula, data = parent.frame(), burnin = 1000,
mcmc = 10000,thin = 1, verbose = 0, seed = NA,
beta.start = NA, b0 = 0, B0 = 0, c0 = 0.001,
d0 = 0.001,marginal.likelihood = c("none",
"Laplace", "Chib95"), ...)
174
Ejemplo 12.2 Modelación del Precio del Twingo. Para ilustrar el
uso de la función MCMCregress() vamos a modelar el precio de oferta de
carros Renault Twingo considerando el año del vehı́culo. Estos datos apare-
cieron en la sección de Avisos Clasificados del El Colombiano, Marzo 30 del
2008.
La lectura de datos es:
# Ajuste del modelo para el precio de Twingo

# A~
no (101=2001)y Precio (en millones)
datos<-scan()
101 15.2
103 16.9
106 21.4
96 12.3
96 13.0
105 19.9
107 24.5
101 16.5
105 18.9
106 20.5
105 18.7
106 19.0
101 13.8
105 19.0
105 20.0
106 21.5
102 15.5
102 17.5
99 11.0
97 12.5
107 22.5
106 21.5
datos<-matrix(datos,ncol=2,byrow=T)
Precio<-datos[,2]
A~
no<-datos[,1]
plot(A~
no,Precio)
Ajustamos el modelo clásico usando la función lm():
res.lm<-lm(Precio~A~
no)
175
summary(res.lm)
abline(res.lm)
lines(smooth.spline(A~
no,Precio),col=’red’)
title(main=’Precio de Oferta de Twingos vs. A~no’,
sub=’El Colombiano, Marzo 30 del 2008’)
> summary(res.lm)
Call:
lm(formula = Precio ~ A~
no)
Residuals:
-2.8500 -0.8438 0.2416 0.7916 2.8387
Coefficients:
(Intercept) -82.81515 8.82414 -9.385 9.1e-09 ***
A~
no 0.97642 0.08559 11.409 3.3e-10 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

F-statistic: 130.2 on 1 and 20 DF, p-value: 3.303e-10
Usando la función MCMCregress() y bajo el supuesto de apriori no in-

formativas obtenemos:
> require(MCMCpack)
Loading required package: MCMCpack
Loading required package: coda
Loading required package: lattice
##
## Markov Chain Monte Carlo Package (MCMCpack)
## Copyright (C) 2003-2008 Andrew D. Martin, Kevin M. Quinn, and Jong Hee Park
##
## Support provided by the U.S. National Science Foundation
## (Grants SES-0350646 and SES-0350613)
##
> res.bay<-MCMCregress(Precio~A~
no)
> summary(res.bay)
176


(Intercept) -82.6888 9.35477 0.0935477 0.0939296
A~
no 0.9752 0.09075 0.0009075 0.0009139
sigma2 2.1353 0.76615 0.0076615 0.0099141
2.5% 25% 50% 75% 97.5%

(Intercept) -101.0450 -88.6263 -82.6179 -76.743 -64.137
A~
no 0.7943 0.9178 0.9744 1.033 1.154
sigma2 1.1229 1.6050 1.9824 2.482 4.019
> res.bay[1:15,]
(Intercept) A~
no sigma2
[1,] -100.75066 1.1479148 1.862622
[2,] -84.14091 0.9853853 1.790405
[3,] -93.42793 1.0783263 2.214343
[4,] -87.98343 1.0297587 1.857563
[5,] -60.41204 0.7586823 3.487881
[6,] -88.45529 1.0324655 2.841447
[7,] -70.67004 0.8607582 1.724942
[8,] -78.15466 0.9292954 1.773086
[9,] -83.50116 0.9834269 1.864375
[10,] -97.87236 1.1166745 2.987112
[11,] -87.44617 1.0212019 1.897684
[12,] -70.76430 0.8667845 3.726868
[13,] -89.75502 1.0418003 2.435048
[14,] -81.57685 0.9694492 2.832919
[15,] -89.03969 1.0361920 2.303039
Ejemplo 12.3 Carros Sprint: Incorporando información previa. Es-

tamos interesados en modelar el precio de oferta del Sprint. En El Colom-
biano del domingo apareció la siguiente información:
# Precio Carros Sprint

# A~
no Precio (en millones)
177
# Oct. 10 2010
datos<-scan()
2003 11
1991 6.2
1991 5.7
1992 7.5
1995 8.3
1996 6.5
1994 8.3
1993 7.6
1993 7.6
a~
no1<-datos[,1]
precio1<-datos[,2]
plot(a~
no1,precio1)
Si tenemos información previa (y si asumimos que el proceso se ha man-

tenido estable) podemos construir la apriori a partir de ella.
# Precio Carros Sprint
# A~
no Precio (en millones)
# junio 21 2009
datos<-scan()
1988 6.0
178
1993 6.8
1996 10.0
1996 9.8
1999 10.2
1987 6.0
1993 8.0
1994 7.5
1994 8.8
a~
no2<-datos[,1]
precio2<-datos[,2]
# actualiza valores de precios-> precios corrientes
# IPC mensual desde julio 2009 hasta sept 2010 (DANE)

IPC<-c(-0.04,0.04,-0.11,-0.13,0.07,0.08,
2.0,0.69,0.83,0.25,0.46,0.10,0.11,-0.04,
0.11,-0.14)
(IPC.acum<-sum(IPC))
(precio2<-precio2*(1+IPC.acum/100))
require(MCMCpack)
res.bay<-MCMCregress(precio2~a~
no2)
summary(res.bay)


(Intercept) -823.2670 164.00857 1.6400857 1.602354
a~
no2 0.4173 0.08228 0.0008228 0.000804
sigma2 0.7868 0.60859 0.0060859 0.009408
2.5% 25% 50% 75% 97.5%

(Intercept) -1145.1565 -922.3210 -823.3099 -725.8357 -490.0331
a~
no2 0.2501 0.3684 0.4173 0.4670 0.5786
179
sigma2 0.2480 0.4327 0.6184 0.9237 2.3171
> res.bay[1:10,]
(Intercept) a~
no2 sigma2
[1,] -848.2590 0.4297464 0.4481977
[2,] -977.8810 0.4947555 0.2565116
[3,] -859.3918 0.4352304 0.7775673
[4,] -911.6296 0.4616164 0.3732648
[5,] -1184.8577 0.5983969 0.9113289
[6,] -703.8946 0.3573862 2.4943903
[7,] -873.8297 0.4425935 0.2302472
[8,] -852.9071 0.4321825 0.8055657
[9,] -640.3850 0.3255312 0.5367643
[10,] -750.3874 0.3807708 0.5411309
>
> library(MASS)
>
> fitdistr(1/res.bay[,3],’gamma’)
shape rate
3.51567358 1.98056756
(0.04754901) (0.02879434)
> (b0<-c(mean(res.bay[,1]),mean(res.bay[,2])))
[1] -823.2670280 0.4172582
> (B0<-solve(cov(res.bay[,1:2])))
(Intercept) a~
no2
(Intercept) 11.24989 22424.72
a~
no2 22424.72321 44699971.20
> B0[1,2]<-B0[2,1]
> res.bay2<-MCMCregress(precio1~a~no1,b0=b0,B0=B0,
c0=3.51567358,d0=1/1.98056756 )
> summary(res.bay2)

180
(Intercept) -726.8450 118.92973 1.1892973 1.2510040
a~
no1 0.3686 0.05966 0.0005966 0.0006274
sigma2 0.9444 0.55779 0.0055779 0.0082347
2.5% 25% 50% 75% 97.5%

(Intercept) -963.9608 -805.0377 -724.6296 -647.8292 -495.7323
a~
no1 0.2528 0.3289 0.3675 0.4078 0.4876
sigma2 0.3377
Si usáramos el modelo clásico para los datos tendrı́amos
> summary(lm(precio1~a~
no1))
Call:
lm(formula = precio1 ~ a~
no1)
Residuals:
-1.7684 -0.2823 0.3888 0.4032 0.7460
Coefficients:
(Intercept) -704.70446 166.43371 -4.234 0.00387 **
a~
no1 0.35720 0.08346 4.280 0.00366 **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

F-statistic: 18.32 on 1 and 7 DF, p-value: 0.003655
12.5. Detección de outliers

Peña y Guttman (1993) presentan varias aproximaciones al tema de la
detección de valores extraños (outliers) en modelos lineales.
Sea H = X (X 0 X)−1 X 0 la matriz hat. Denote por I el conjunto de k
enteros diferentes tomados
del conjunto {1, . . . , n}. El vector y puede des-
0 0
componerse como y = yI , y(I) 0 , donde (I) significa ‘conjunto eliminado I’.

Similarmente la matriz X puede ser particionada como X 0 = XI0 , X(I)
0 .
Siguiendo esta notación denotamos a β̂(I) y s2(I) para los estimadores de β y
σ 2 basados en X(I) y y(I) .
181
Hay dos modelos alternos
yI = XI β + a + I
y(I) = X(I) β + (I)
donde a es un vector

de k componentes de constantes que ajustan

la media
2 2
y I ∼ N 0, σ Ik y es independiente de (I) ∼ N 0, σ In−k .
La idea es usar la densidad predictiva
Z
p yI |y(I) = f (yI |θ) ξ θ|y(I) dθ
Para el modelo lineal con el supuesto de normalidad presentado arriba te-

nemos
−k/2
p yI |y(I) = K s2(I) |I − HI |1/2 (1 + QI )−(n−p)/2
donde

n−p
Γ 2
K= k
1 n−p−k
Γ 2 Γ 2 (n − p − k)k/2
y
0
yI − XI β̂(I) (I − HI ) yI − XI β̂(I)
QI =
(n − p − k)s2(I)
182
Capı́tulo 13
Modelo Lineal Generalizado
El modelo lineal clásico ha sido utilizado extensivamente y con mucho

éxito en múltiples situaciones. En el análisis de regresión estamos interesados
en predecir la media de una variable, llamada la respuesta, basados en un
conjunto de variables, llamadas los predictores. La regresión clásica asume
que la respuesta es continua y distribuı́da normalmente. El modelo lineal
clásico cae en una clase mayor de modelos que se conoce como modelo lineal
generalizado, M.L.G., la cual tiene tres componentes básicas:
1. Un conjunto de variables aleatorias independientes que pertenecen a

la familia exponencial.
2. Una matriz de diseño y un vector de parámetros.
3. Una función link (enlace, conexión) que relaciona las medias del mo-
delo lineal.
Dentro de la clase de modelos lineales generalizados tenemos el modelo

lineal clásico, el modelo loglineal, la regresión Poisson, la regresión logı́stica,
etc.
En el modelo lineal generalizado clásico observamos respuestas Yi y co-
variables k-dimensionales xi , donde las respuestas condicionales (Yi |θi , φ) se
asumen son variables aleatorias independientes con una densidad que per-
tenece a la familia exponencial de un parámetro

yi θi − µ (θi )
f (yi |θi , φ) = exp + c (yi , φ) i = 1, · · · , n
a(φ)
183
El modelo clásico asume que la media E (Yi ) = µ0 (θi ) está relacionada al
intercepto β0 y al vector de parámetros de las covariables β a través de una
función de encadenamiento monótona y diferenciable, y el espacio parame-
tral no es vacı́o.
El modelo lineal generalizado aparece imponiendo una apriori jerárquica
sobre los parámetros (β0 , β). Una selección particularmente conveniente es
usar aprioris normales con aprioris conjugadas para los hiperparámetros
(Ishwaran, 1997)
(β0 |b0 , σ0 ) ∼ N (b0 , σ0 )

(β|b, W ) ∼ Nk (b, W )
(bo |B0 ) ∼ N (0, B0 )
(b|B) ∼ N (0, BI)

σ0−1 |s1 , s2 ∼ gamma (s1 , s2 )

W −1 |V , v ∼ W ishart V −1 , v
13.1. Modelo Logı́stico

Supongamos que observamos proporciones como respuesta y1 , · · · , yN de
poblaciones binomiales con proporciones π1 , · · · , πN y sus correspondientes
tamaños muestrales n1 , · · · , nN . Asociado con la i-ésima observación hay un
vector de covariables xi y la proporción πi es encadenada a las covariables
xi por medio del modelo logı́stico

πi
log = xTi β
1 − πi
La verosimilitud del vector de regresión β está dada por
N
Y
L(β) = πini yi (1 − πi )ni (1−yi )
i=1
donde

exp xTi β
πi =
1 + exp xTi β
184
Si ξ(β) es la densidad apriori para β, entonces la densidad posterior para
β es proporcional a
ξ (β|y) ∝ ξ(β)L(β)
Una ventaja grande de la aproximación bayesiana es que prácticamente

se elimina el problema de separación1 . Este problema aparece con cierta
frecuencia en los ajustes clásicos de la regresión logı́stica y no tiene soluciones
satisfactorias a no ser que sea incrmentar el número de observaciones.
13.1.1. Selección de la Distribución Apriori

Para este caso es difı́cil asignar una distribución apriori directamente al
vector de parámetros de la regresión β ya que está relacionado de una forma
no lineal a las probabilidades {πi }. Puede ser más fácil especificar indirecta-
mente una apriori para β haciendo suposiciones sobre el valor promedio del
valor de la proporción E(π) para valores seleccionados de las covariables. Si
el rango de la matriz de covariables es k, entonces uno considera las propor-
ciones π1 , · · · , πk para k conjuntos diferentes de la covariable x. Las medias
condicionales apriori (MCA) asume que π1 , · · · , πk son independientes con
πi se distribuye Beta (wi mi , wi (1 − mi )), donde mi es una adivinaza apriori
de πi y wi es la precisión de esta adivinanza. La distribución sobre π1 , · · · , πk
es proporcional a
k
Y
ξ (π1 , · · · , πk ) ∝ πiwi mi −1 (1 − πi )wi (1−mi )−1
i=1
1
El conjunto de datos está completamente separado si existe un vector θ ∈ Rp tal que
xTi θ > 0 si yi = 1
xTi θ < 0 si yi = 0
para i = 1, · · · , n.El conjunto de datos está cuasicompletamente separado si existe un
vector θ ∈ Rp {0 tal que
xTi θ ≥ 0 si yi = 1
xTi θ ≤ 0 si yi = 0
para i = 1, · · · , n y si existe j ∈ 1, · · · , n tal que xTj θ = 0. Un conjunto de datos se
dice que se traslapa si no está completamente separado ni cuasicompletamente separado.
El estimador de máxima verosimilitud de θ existe si y solo si el conjunto de datos se
traslapa. Los autores miden el traslapado. Ellos definen nnotraslapado el menor número de
observaciones que necesitan removerse para que los estimadores de máxima verosimilitud
no existan. Observe que nnotraslapado ≤ ncompleto
185
Para el linkeo logı́stico, esta apriori sobre {πi } es equivalente a una apriori
sobre β que es de la misma forma que la verosimilitud con “observaciones
apriori” {(mi , wi , xi )}. Esta es llamada una apriori de datos aumentados
(ADA). Es fácil actualizar la densidad aposteriori de β utilizando esta forma
de distribución apriori. La densidad posterior es proporcional a
N
Y k
Y
ξ (β|y) ∝ πini yi (1 − πi )ni (1−yi ) πiwi mi −1 (1 − πi )wi (1−mi )−1
i=1 i=1
En otras palabras, la distribución aposteriori de β es equivalente a la ve-

rosimilitud de los datos observados {(yi , ni , xi )} aumentados con los “datos
apriori” {(mi , wi , xi )}.
Bedrick et al. (1997) presentan un resumen de diversos procedimientos
para la elicitación de la apriori en el caso de la regresión logı́stica. Entre ellas
se encuentra la elicitación de la probabilidad de éxito a diferentes nivelse de
las covariables. Al-Awadhi y Garthwaite (2006) presentan una metodologı́a
de elicitación del modelo logı́stico en el área de ecologı́a.
Ejemplo 13.1 Niñas Polacas. Consideramos la famosa base sobre la

edad de la menarquia de una niñas en Polonia en los años 60 (Milicer y
Szczotka, 1966 ). En esta base se presenta la edad de una niña y si ya ha
tenido su primera mestruación. Los datos vienen categorizados.
model
{
for( i in 1 : N ){
r[i] ~ dbin(p[i],n[i])
logit(p[i]) <- alpha.star + beta * (x[i] - mean(x[]))
rhat[i] <- n[i] * p[i]
}
alpha <- alpha.star - beta * mean(x[])

beta ~ dnorm(0.0,0.001)
alpha.star ~ dnorm(0.0,0.001)
list( x = c(10.83,11.08,11.33,11.58,11.83,12.08,
12.33,12.58,12.83,13.08,13.33,13.58,13.83,14.08,
14.33,14.58,14.83,15.08,15.33,15.58),
n = c(120,90,88,105,111,100, 93,100,108,99,106,
105,117,98,97,120, 102,122,111,94),
186
r = c(2,2,5,10,17,16, 29,39,51,47,67,
81,88,79,90,113, 95,117,107,92), N =20)
list(alpha.star=0, beta=0)
node mean sd MC error 2.5 % median 97.5 % start sample

beta 1.561 0.05498 5.717E-4 1.458 1.56 1.673 1000 10001
alfa -20.17 0.7105 0.007317 -21.61 -20.16 -18.83 1000 10001
Procedimiento Clásico en R
> edad<- c(10.83,11.08,11.33,11.58,11.83,12.08,

12.33,12.58,12.83,13.08,13.33,13.58,13.83,14.08,14.33,14.58,
14.83,15.08,15.33,15.58)
> exitos<-c(2,2,5,10,17,16, 29,39,51,47,67,
81,88,79,90,113, 95,117,107,92)
> n<-c(120,90,88,105,111,100, 93,100,108,99,106,
105,117,98,97,120, 102,122,111,94)
> summary(glm(cbind(exitos,n-exitos)~edad,family=’binomial’))
Call:
glm(formula = cbind(exitos, n - exitos) ~ edad, family = "binomial")
Deviance Residuals:
-1.2267 -0.8613 -0.3124 0.7507 1.2841
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -20.46917 0.83475 -24.52 <2e-16 ***
edad 1.57545 0.06379 24.70 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1278.571 on 19 degrees of freedom
Residual deviance: 14.893 on 18 degrees of freedom
AIC: 100.35
Number of Fisher Scoring iterations: 3
187
13.2. Regresión Poisson
La distribución Poisson juega un papel de fundamental importancia en
el trabajo aplicado para modelar problemas de conteo en muchas áreas. Los
problemas de regresión donde la variable dependiente es un conteo ocurre con
bastante frecuencia. Ejemplos tenemos el número de muertos por una cierta
enfermedad extraña puede explicarse por un número grande de factores,
por ejemplo, clima, salubridad, educación, etc. El número de defectos que
aparece en cierto rollo de tela depende de la longitud del rollo, época de
elaboración. Es común asumir una respuesta poissoniana, que perteneciendo
a la familia exponencial puede resolverse con la metodologı́a que estamos
desarrollando.
Yi ∼ P oisson(λi )
e−λi λyi i
f (yi ; λi ) =
yi !
= exp (yi log λi − λi − log(yi !))
= exp (yi θi − λi − log(yi !))
donde
θi = log(λi )
el cual es el parámetro natural.
E[yi ] = λi
var[yi ] = λi
ya que g(λi ) = θi cuando g es la función logaritmo. El link canónico es

el link log
log(λi ) = xi 0 β
ya que λi = exp(ηi ) se tiene que
∂λi
= exp(ηi ) = λi
∂ηi
las ecuaciones de verosimilitud

n
X (yi − λi ) ∂λi
xij = 0 j = 1, .., p
i=1
var(yi ) ∂ηi
188
se reduce a
n
X
(yi − λi )xij = 0
i=1
ya que
2
∂λi 1
wi = = λi
∂ηi var(yi )
−1
la matriz de covarianza estimada de β̂ es X 0 Ŵ X c es la
donde W
matriz diagonal con elementos de λ̂ en la diagonal principal.
Defectos en una tela

El conteo de defectos o caracterı́sticas especiales en muchos materiales
depende de la longitud (duración), área o volumen. En algunos casos es
posible asumir que estos defectos urgen al azar y la distribución de estos
problemas se puede modelar mediante una Poisson. En un proceso de con-
trol el material no llega del mismo tamaño y obviamente la tasa de errores
dependerá del tamaño del material. Si recibimos 20 retazos de telas de la
misma clase y medimos su área y contamos los defectos en ellos, podemos
ajustar una regresión Poisson.
# Regresión Poisson Bayesiana
# Defectos: Número de imperfecciones halladas en un tejido

# Area: área del tejido analizado
defectos<-c(0,0,0,1,0,2,0,0,1,0,
0,2,1,0,0,0,0,1,1,0)
area<-c(
1,1,1,1,1,2,0.5,0.5,1,0.5,
1.5,1.5,2,0.5,1,1,1,1.5,2,1.5)
require(MCMCpack)
res<-MCMCpoisson(defectos~area)
summary(res)
189


(Intercept) -3.780 1.3656 0.013656 0.04623
area 2.057 0.8034 0.008034 0.02589
2.5% 25% 50% 75% 97.5%

(Intercept) -6.7468 -4.640 -3.648 -2.835 -1.480
area 0.5677 1.496 2.018 2.562 3.733
En este caso el modelo será

log(Def ectos) = −3,780 + 0,5677Area
y cuando el área sea de 1 metro cuadrado el número de defectos promedio
será 0.1785298.
13.3. Estimación del coeficiente de correlación

El coeficiente de correlación es una de las medidas estadı́sticas de más
uso en el trabajo aplicado. Algunas de sus propiedades fueron estudiadas por
Zheng y Matis (1993). Discusión sobre sus interpretaciones puede hallarse en
Falk y Well (1997). La estimación del coeficiente de correlación por medio
de intervalos es importante y para ello se disponen de diversos métodos.
El problema para el analista es la carencia de reglas sobre cuál fórmula
es preferible. Para esto hemos realizado un estudio de simulación que nos
permiten analizar el comportamiento de los niveles de confianza reales y
comparalos con los teóricos de los diversos intervalos disponibles.
Asumamos que (x1 , y1 ) , (x2 , y2 ) , , (xn , yn ) es una muestra aleatoria de
una normal bivariable con vector de medias µ y matriz de varianzas y co-
varianzas Σ. El estimador máximo verosimil de ρ es (Graybill, 1976)
Pn
1=1 (xi − x̄) (yi − ȳ)
R= 1/2
Pn Pn
1=1 (xi − x̄)2 1=1 (yi − ȳ)2
190
y el estimador UMVU (insegado y uniformemente de varianza mı́nima) de
ρ es
 
Γ n−2 Z
2
1 t−1/2 (1 − t)(n−5)/2
ρ̂ = R   p dt
Γ 21 Γ n−3 0 1 − t(1 − R2 )
2
La f.d.p. de R es
(n−1)/2 (n−4)/2 Z
(n − 2) 1 − ρ2 ∞
fR (r) = 1 − r2 (cosh w − ρ r)−(n−1) dw
π 0
donde −1 < r < 1 y −1 < ρ < 1. El único parámetro de la distribución es

ρ.
Si π(ρ) denota la distribución apriori de ρ entonces la distribución apos-
teriori será
ξ(ρ; Datos) ∝ L(ρ; Datos)ξ(ρ)
(n−1)/2 Z ∞
ξ (ρ |Datos ) ∝ ξ(ρ) 1 − ρ 2
(cosh w − ρ r)−(n−1) dw
0
13.3.1. Distribución No Informativa de Laplace

Si escogemos una distribución apriori no informativa de Laplace, π(ρ) ∝
1, entonces la aposteriori, entonces los resultados serán equivalentes a los
resultados clásicos,ya que la aposteriori será proporcional a la función de
verosimilitud.
π(ρ; Datos) ∝ L(ρ; Datos)
13.3.2. Distribución Apriori Informativa

Debido a que es necesario plantear una distribución apriori para el paráme-
tro del cual se quiere realizar la inferencia, en este caso de ρ, se emplea una
distribución de probabilidad que esté definida en el rango de dicho paráme-
tro, es decir, entre -1 y 1.
Como distribución apriori informativa para el coeficiente de correlación
se puede trabajar con la distribución univariada propuesta por McCullagh
(1989) cuyo rango precisamente es entre -1 y 1. Una descripción de dicha
aprori se presenta a continuación:
191
Definición 13.1 Distribución de McCullagh. Sea X una variable alea-
toria definida en el intervalo (−1, 1) cuya p.d.f es de la siguiente forma:
1
(1 − x2 )v− 2
fx (x; θ, υ) =
(1 − 2θx + θ2 )υ B(υ + 21 , 21 )
Dicha densidad está relacionada con la densidad de la variable X 0 :
1
0 (1 − x02 )υ− 2 (1 − θ2 )
fx0 (x ; θ, υ) =
(1 − 2θx0 + θ2 )υ+1 B(υ + 21 , 12 )
con −1 < x0 < 1.
Ambas variables aleatorias se relacionan de la siguiente manera:
(X − θ)(θ2 − 1)
X0 − θ =
1 − 2θX + θ2
para todo −1 < θ < 1 y υ > − 21 en ambas densidades.
Por lo tanto la apriori para ρ serı́a
1
(1 − ρ2 )v− 2
ξ(ρ) ∝
(1 − 2θρ + θ2 )υ
y la aposteriori quedarı́a como
1
(1 − ρ2 )v− 2 (n−1)/2 Z ∞
ξ (ρ |r ) ∝ 1−ρ 2
(cosh w − ρ r)−(n−1) dw
(1 − 2θρ + θ2 )υ 0
13.3.3. Uso del Modelo Completo

Una aproximación que se ha presentado es considerar la distribución
conjunta de los datos normales bivariables (X1 , Y1 ) , (X2 , Y2 ) , · · · , (Xn , Yn ) ,
con parámetros µ1 , µ2 , σ12 , σ22 , ρ. La distribución posterior será

π µ1 , µ2 , σ12 , σ22 , ρ |Datos ∝ L Datos µ1 , µ2 , σ12 , σ22 , ρ π µ1 , µ2 , σ12 , σ22 , ρ
Una ventaja de esta aproximación es que existen resultados sobre distri-

buciiones conjugadas para el caso normal, pero el problema es que exige la
elicitación de cuatro parámetros adicionales los cuales no sn de interés del
investigador.
En este caso los parámetros µ1 , µ2 , σ12 , σ22 son considerados como paráme-
tros de perturbación (nuisance) y hay que eliminarlos vı́a marginalización,
Z Z Z Z
π (ρ |Datos ) = π µ1 , µ2 , σ12 , σ22 , ρ |Datos dµ1 dµ2 dσ12 dσ22 .
192
Bibliografı́a
[1] Albert, J. (1989) Nuisance Parameters and the Use of Exploratory

Graphical Methods in a Bayesian Analysis. The American Statistician,
Vol. 43, No. 4, pp. 191-196
[2] Anscombe, F. J. y Aumann, R. J. (1963) A Definition of Subjective

Probability. The Annals of Mathematical Statistics, Vol. 34, No. 1, pp.
199-205
[3] Ashby, D. (2006) Bayesian Statistics in Medicine: A 25 Year Review.

Statistics in Medicine, Vol. 25, pp. 3589-3631
[4] Berger, J. O., Liseo, B. y Wolpert, R. L. (1998) Integrated Likelihood

Methods for Eliminating Nuisance Parameters. Purdue Univ. Dept. of
Statistics Technical Report No. 96-7C Revised 1998.
[5] Box, G. E. P. y Tiao, G. C. (1973) Bayesian Inference in Statistical

Analysis. John Wiley & Sons: Nueva York
[6] Cooke, R. M. (1991) Experts in Uncertainty: Opinion and Subjective

Probability in Science. Oxford University Press: Oxford
[7] De Santis, F. (2006) Power Priors and Their Use in Clinical Trials. The
American Statistician, Vol. 60, No. 2, pp. 122-129
[8] D’Agostini, G. (2000) Role and Meaning of Subjective Probability: So-

me Comments on Common Misconceptions. XX International Works-
hop on Bayesian Inference and Maximum Entropy Methods in Science
and Engineering, Gif sur Yvette, Francia.
193
[9] Draper, D., Hodges, J. S., Mallows, C. L. y Pregibon, D. (1993) Exchan-
geability and Data Analysis. Journal of the Royal Statistical Society.
Series A, Vol. 156, No. 1, pp. 9-37
[10] Fink, D. (1997) A Compdium of Conjugate Priors. Technical Report.

Dept. of Biology. Montana State University. Bozeman, MT 59717
[11] Gavasakar, U. (1988) A comparison of two elicitation methods for a

prior distribution for a binomial parameter. Managment Science, Vol.
34, No. 6, pp. 784-790
[12] Hogg, R.V. y Craig, A.T. (1978). Introduction to Mathematical Statis-

tics. Cuarta Edición. Collier MacMillan International:New York
[13] Horowitz, I. (1968) Introducción al Análisis Cuantitativo de los Nego-

cios. Ediciones del Castillo: Madrid
[14] Kadane, J. B. y Winkler, R. L. (1988) Separating Probability Elicitation

From Utilities. Journal of the American Statistical Association, Vol. 83,
No. 402, pp. 357-363
[15] Jeffreys, H. (1961) Theory of Probability. Third Edition. Clarendon

Press: Londres
[16] Koop, G. (2003). Bayesian Econometrics. Wiley: West Sussex, England.
[17] Mood , A.M, Graybill, F.A. y Boes, D.C. (1974). Introduction to the
Theory of Statistics. Third Edition. McGraw-Hill Kogasakua, Ltd: Tok-
yo.
[18] R Development Core Team (2011). R: A language and environment for

statistical computing. R Foundation for Statistical Computing, Vienna,
Austria. ISBN 3-900051-07-0, URL http://www.R-project.org/
[19] Raiffa, H. (1970). Decision Analysis: Introductory Lectures on Choice

Under Uncertainty. Addison-Wesley: Reading, Masschusetts
[20] Raiffa, H. y Schlaifer, R. (1964) Applied Statistical Decision Theory.

Harvard University Press: Boston
[21] Ramoni, M. y Sebastiani, P. (1998) Bayesian Methods for Intelligent

Data Analysis. KMi Technical Report KMi-TR-67
[22] Robert, C. P. (1994) The Bayesian Choice: A Decision-Theoretic Mo-

tivation. Springer-Verlag: New York
194
[23] Winkler, R. L. (1972) An Introduction to Bayesian Inference and De-
cision. Holt, Rinehart and Winston,Inc.: New York
195
Índice alfabético
g-apriori de Zellner, 169 distribución geométrica, 31

distribución impropia, 56
algoritmo Metropolis, 125 distribución informativa, 12
análisis de sensibilidad, 51 distribución multinomial, 32
apriori de Haldane, 63 distribución multinormal, 44
apriori indiferente, 63 distribución no informativa, 11, 12,
apriori localmente uniforme, 63 55
apriori potencia, 5 distribución Poisson, 33
apuesta, 7
apuestas, 7 elicitación, 25, 27
entropı́a, 62
Berger, 57 estimación, 71
Box, 63 estimador bayesiano, 76
contrato de referencia, 10 estimador máximo-aposteriori (MAP),
74
de Finetti, 18 etimador generalizado de máxima ve-
densidad predictiva apriori, 93 rosimilitud, 77
diagnósticos MCMC, 129 experto, 6
distribución apriori, 11
distribución beta, 25 factor de Bayes, 86
distribución beta generalizada, 30 función de pérdida, 72
distribución beta-binomial, 28
Gavasakar, 29
distribución binomial, 23
Gibbs, 110
distribución binomial negativa, 31
griddy Gibbs, 123
distribución conjugada, 11, 21
distribución Dirichlet, 32 inferencia, 71
distribución exponencial, 41 intercambiabilidad, 18
distribución gamma, 49
distribución gamma generalizada, 117 Jeffreys, 58
196
Laplace, 57
log-verosimilitud marginalizada, 94
loterı́as, 7
MCMC, 104
metanálisis, 5
Metropolis, 125
Metropolis-Hastings, 124
modelos encajados, 95
muestreador de Gibbs, 110, 126
probabilidad, 7
probabilidad personal, 5
probabilidad subjetiva, 5, 7
prueba de hipótesis, 84, 144
Raiffa, 21
región de credibilidad, 79
región de la densidad más alta, 79
regresión, 125, 163
Robert, 22
Schlaifer, 21
simulación, 103
tasa de mezclado, 104

teorema de Bayes, 13
Tiao, 63
verosimilitud, 17
Winkler, 56
Yang, 57
197

Introduccion A La Estadistica Bayesiana PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Introduccion A La Estadistica Bayesiana PDF

Uploaded by

Copyright:

Available Formats

Introducción a la Estadı́stica

Juan Carlos Correa Morales

El azar no es, sin embargo, una loca fantası́a;

La estadı́stica bayesiana es un campo que ha tenido un desarrollo impre-

2. Probabilidad Subjetiva “Apriori” 7

6. Distribuciones Apriori No Informativas 55

10.Diagnósticos de los Muestreadores MCMC 129

11.Inferencia Predictiva 151

12.Modelos Lineales 163

La escuela bayesiana en estadı́stica ha tomado fuerza en los últimos años

1.1. Ejemplos tı́picos

Ejemplo 1.2 Estatura de los colombianos. Si pensamos en la estatu-

Ejemplo 1.3 Porcentaje de productos rechazados en un proceso

Ejemplo 1.4 Tasa de estudiantes que ejercen la prostitución. Si

1.2. Probabilidad personal o subjetiva

Estudios previos similares. La utilización de estudios previos sobre

Opinión de expertos. La utilización de expertos es casi obligatoria en

Diferencias entre la teorı́a clásica

Utilizaremos la siguiente notación:

θ 0 = (θ1 , · · · , θk ) Vector de parámetros

El trabajo estadı́stico descansa en el concepto de probabilidad. La defini-

“La probabilidad no es sino un número ı́ndice entre 0 y 1,

2.1. Probabilidad Subjetiva, Apuestas y Loterı́as

La anterior también obliga a aceptar la segunda condición: una vez él

1. es moral y obliga a la gente a ser honesta,

Una probabilidad puede pensarse en términos de las cantidades que se

“Suponga que a ud. debe escoger entre la Loterı́a A y la

dado que el premio es el mismo en ambas loterı́as ud. prefe-

Loterı́a A Ud. gana X con probabilidad P (E).

Loterı́a B Ud. gana X si ocurre E.

Aquı́ X y Y son dos “premios.” La única restricción sobre

Un problema con esta forma de elicitación es que es altamente deman-

2.1.1. Clasificación de las Distribuciones Apriori

Definición 2.1 (Distribución Apriori Propia) indexdistribución propia

Ası́, una distribución propia satisface las condiciones de función de den-

Definición 2.2 (Distribución Apriori No Informativa) Decimos que una

Definición 2.3 (Distribución Apriori Conjugada) Decimos que una dis-

2.2.1. Distribuciones Apriori Informativas

Qué clase de distribución apriori debemos utilizar?

Qué tipos de datos están disponibles para seleccionar el modelo aprio-

Cómo cuantificamos la información subjetiva?

Cómo ajustamos la distribución apriori con los datos subjetivos dis-

deben ser resueltas sin lugar a dudas.

El teorema de Bayes es ahora una de las piedras fundamentales del tra-

Teorema 3.1 (Teorema de Bayes) Sean B1 , B2 , · · · , Bk eventos mutua-

Teorema 3.2 (Teorema de Bayes para Variables Aleatorias) Sean

Dentro del marco bayesiano tenemos que:

X : Datos (escalar o vector o matriz)

θ: Parámetro desconocido (escalar o vector o matriz)

f (x1 , · · · , xn |θ): Verosimilitud de los datos dado el parámetro (desco-

Por el teorema anterior

Esta es llamada la distribución posterior. La inferencia bayesiana se de-

ξ (θ|x1 , · · · , xn ) ∝ f (x1 , · · · , xn |θ) ξ(θ)

Por lo tanto solo necesitamos conocer la distribución posterior hasta una

ξ (θ|x1 ) ∝ f (x1 |θ) ξ(θ)

Por lo tanto el teorema de Bayes nos muestra cómo el conocimiento

Ejemplo 3.1 Distribución Apriori Uniforme Truncada. Muchas ve-

y + 1 P (π0 < W < π1 |y + 2, n − y + 1)

(y + 2)(y + 1) P (π0 < W < π1 |y + 3, n − y + 1)

Ejemplo 3.2 Aplicación Numérica del Caso Anterior. Suponga que

Asumamos además que tomamos una muestra al azar de la población de

donde Z z Γ(α + β) α−1

E (π|n = 10, y = 4, π0 = 0,35, π1 = 0,70) = 0,4823673