You are on page 1of 205

Introducción a la Estadı́stica

Bayesiana con R

Juan Carlos Correa Morales


Escuela de Estadı́stica
Universidad Nacional de Colombia-Sede Medellı́n

Medellı́n

2013
La incertidumbre está en todas partes
y tú no puedes escapar de ella.
Dennis Lindley

El azar no es, sin embargo, una loca fantası́a;


responde a su vez a leyes.
Los dados obedecen a la gravedad
y sólo tienen seis caras.
Juan José Sebreli
Comediantes y mártires: Ensayo contra los mitos

i
ii
Prefacio

La estadı́stica bayesiana es un campo que ha tenido un desarrollo impre-


sionante en los últimos años, en especial desde la introducción de la parte
computacional. Muchas ideas han estado circulando desde hace mucho tiem-
po, pero su imposibilidad práctica hacı́an que se miraran con cierto pesar, ya
que eran muy atractivas pero inaplicables. Esto afortunadamente ha cambia-
do. Es lamentable que muchos de los libros básicos en estadı́stica no hagan
una presentación de los elementos básicos de esta aproximación para la so-
lución de problemas estadı́sticos. Aquı́ vamos a presentar una aproximación
eminentemente práctica, esto es, el lector puede aplicar de forma casi in-
mediata los métodos a problemas reales. El software que se utilizará es de
dominio público como el R ([18]). Se requiere familiaridad con el progra-
ma al menos a un nivel operativo básico. Consideramos que si la estadı́sti-
ca bayesiana se diferencia en algo de la estadı́stica tradicional (clásica) es
en permitirle al usuario incorporar información disponible de una manera
transparente y directa.
El programa y lenguaje estadı́stico R ([18]) se ha convertido en uno de
los estándares para realizar trabajo estadı́stico, tanto aplicado como para el
desarrollo de nuevas metodologı́as. La estadı́stica bayesiana se ha beneficia-
do enormemente de la flexibilidad y el potencial de este programa, el cual
permite crear fácilmente librerı́as y ser puestas en la red de tal forma que
usuarios a nivel mundial puedan usarlas y validarlas, retroalimentando a sus
creadores, de tal forma que en muy poco tiempo se tengan subprogramas de
gran eficiencia y calidad. Hay ahora muchas librerı́as que han sido creadas
para resolver problemas de tipo general como son modelos lineales y lineales
genralizados, o más generales aún que permiten a un usuario resolver pro-
blemas propios mediante el uso de muestreadores proporcionados en estas
librerı́as.

iii
Se asume que el lector tiene familiaridad con los métodos estadı́sticos
a un nivel operativo, al menos. conocimiento de inferencia a un nivel de
un texto básico de estadı́stica matemática del estilo de [12] o [17] ayuda
bastante.

iv
Índice general

1. Introducción 3
1.1. Ejemplos tı́picos . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2. Probabilidad personal o subjetiva . . . . . . . . . . . . . . . . 5

2. Probabilidad Subjetiva “Apriori” 7


2.1. Probabilidad Subjetiva, Apuestas y Loterı́as . . . . . . . . . . 7
2.1.1. Clasificación de las Distribuciones Apriori . . . . . . . 11
2.2. Distribuciones Apriori No Informativas . . . . . . . . . . . . . 12
2.2.1. Distribuciones Apriori Informativas . . . . . . . . . . . 12

3. Teorema de Bayes 13
3.1. Consistencia Posterior . . . . . . . . . . . . . . . . . . . . . . 17
3.2. Usos de la Función de Verosimilitud en Análisis Bayesiano . . 17

4. Distribuciones Conjugadas 21
4.1. Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . 23
4.1.1. Elicitación de los Parámetros de la Beta para Propor-
ciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.2. Distribución Binomial Negativa . . . . . . . . . . . . . . . . . 31
4.3. Distribución Geométrica . . . . . . . . . . . . . . . . . . . . . 31
4.4. Distribución Multinomial . . . . . . . . . . . . . . . . . . . . 32
4.5. Distribución Poisson . . . . . . . . . . . . . . . . . . . . . . . 33
4.6. Distribución Exponencial . . . . . . . . . . . . . . . . . . . . 41
4.6.1. Caso Especial: Se observa solo el primer estadı́stico de
orden . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.6.2. Caso Especial: Se observa solo el n-ésimo estadı́stico
de orden . . . . . . . . . . . . . . . . . . . . . . . . . . 42

v
4.6.3. Caso Especial: Se observan algunos datos censurados
en el punto x0 . . . . . . . . . . . . . . . . . . . . . . 43
4.6.4. Caso Especial: Se observan todos los datos censurados
en el punto x0 . . . . . . . . . . . . . . . . . . . . . . 43
4.7. Distribución Normal . . . . . . . . . . . . . . . . . . . . . . . 44
4.7.1. Precisión Conocida . . . . . . . . . . . . . . . . . . . . 44
4.7.2. Precisión Desconocida . . . . . . . . . . . . . . . . . . 45
4.7.3. Media y Precisión Desconocidas . . . . . . . . . . . . . 46
4.8. Distribución Gamma . . . . . . . . . . . . . . . . . . . . . . . 49
4.9. Conjugadas en Tramos . . . . . . . . . . . . . . . . . . . . . . 50

5. Análisis de Sensibilidad 51
5.1. Sensibilidad a la Apriori . . . . . . . . . . . . . . . . . . . . . 52
5.1.1. Distancias entre Aposterioris . . . . . . . . . . . . . . 52
5.1.2. Análisis de fronteras extremas (exterme bounds analy-
sis) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2. Sensibilidad a los Datos . . . . . . . . . . . . . . . . . . . . . 52

6. Distribuciones Apriori No Informativas 55


6.1. El Principio de la Razón Insuficiente de Laplace . . . . . . . . 57
6.2. Apriori de Jeffreys . . . . . . . . . . . . . . . . . . . . . . . . 58
6.3. Otras Alternativas . . . . . . . . . . . . . . . . . . . . . . . . 62

7. Marginalización 67

8. Inferencia Bayesiana 71
8.1. Estimación Puntual . . . . . . . . . . . . . . . . . . . . . . . 71
8.2. Regiones de Credibilidad . . . . . . . . . . . . . . . . . . . . . 79
8.2.1. Región de la Densidad Posterior Más Alta (RDPMA) 79
8.2.2. Intervalos Aproximados . . . . . . . . . . . . . . . . . 83
8.3. Pruebas de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . 84
8.3.1. Comparación de Modelos . . . . . . . . . . . . . . . . 93
8.4. Cálculo del Factor de Bayes vı́a MCMC . . . . . . . . . . . . 97
8.4.1. Método de Carlin y Chib . . . . . . . . . . . . . . . . 97
8.4.2. Método de Dellaportas, Foster y Ntzoufras . . . . . . 98
8.5. Otras aproximaciones al factor de Bayes . . . . . . . . . . . . 98
8.6. La aproximación BIC . . . . . . . . . . . . . . . . . . . . . . . 99

vi
9. Estadı́stica Bayesiana vı́a Simulación 103
9.1. MCMC: Monte Carlo por Cadenas de Markov . . . . . . . . . 104
9.1.1. Muestreador de Gibbs . . . . . . . . . . . . . . . . . . 110
9.1.2. Muestreador Griddy Gibbs . . . . . . . . . . . . . . . 123
9.1.3. Algoritmo Metropolis-Hastings . . . . . . . . . . . . . 124
9.1.4. El Algoritmo Metropolis . . . . . . . . . . . . . . . . . 125
9.1.5. Problemas con el Muestreador de Gibbs . . . . . . . . 126
9.1.6. Ventajas y Desventajas Dos Esquemas de Muestreo . 126

10.Diagnósticos de los Muestreadores MCMC 129


10.1. Monitoreo y Convergencia de una MCMC . . . . . . . . . . . 130
10.1.1. Diagnósticos . . . . . . . . . . . . . . . . . . . . . . . 130
10.2. Diagnósticos en CODA . . . . . . . . . . . . . . . . . . . . . . 134
10.2.1. Estimación Paramétrica del Tiempo Medio de Falla
Cuando Solo Es Posible Observar Un Punto en el
Tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . 134
10.3. Algoritmo E − M . . . . . . . . . . . . . . . . . . . . . . . . . 141
10.3.1. Ejemplo: Distribución Birnbaum-Saunders . . . . . . . 142
10.4. Pruebas de hipótesis usando simulación . . . . . . . . . . . . 144

11.Inferencia Predictiva 151


11.1. Procedimiento Exacto . . . . . . . . . . . . . . . . . . . . . . 151
11.2. Distribución Predictiva vı́a MCMC . . . . . . . . . . . . . . . 154
11.2.1. Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . 155

12.Modelos Lineales 163


12.1. La regresión clásica . . . . . . . . . . . . . . . . . . . . . . . . 163
12.1.1. Usos del Análisis de Regresión . . . . . . . . . . . . . 163
12.1.2. Estrategia Tı́pica en un Análisis de Regresión . . . . 163
12.1.3. Regresión simple . . . . . . . . . . . . . . . . . . . . . 164
12.1.4. Modelo de Regresión Lineal Múltiple . . . . . . . . . 165
12.1.5. Notación Matricial . . . . . . . . . . . . . . . . . . . . 166
12.2. Análisis Conjugado . . . . . . . . . . . . . . . . . . . . . . . . 166
12.2.1. Distribución Predictiva . . . . . . . . . . . . . . . . . 169
12.2.2. Inferencias . . . . . . . . . . . . . . . . . . . . . . . . 170
12.2.3. Pruebas de Hipótesis . . . . . . . . . . . . . . . . . . . 170
12.3. Estrategias en Modelación . . . . . . . . . . . . . . . . . . . . 173
12.4. Librerı́a MCMCpack . . . . . . . . . . . . . . . . . . . . . . . 174
12.5. Detección de outliers . . . . . . . . . . . . . . . . . . . . . . . 181

vii
13.Modelo Lineal Generalizado 183
13.1. Modelo Logı́stico . . . . . . . . . . . . . . . . . . . . . . . . . 184
13.1.1. Selección de la Distribución Apriori . . . . . . . . . . 185
13.2. Regresión Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 188
13.3. Estimación del coeficiente de correlación . . . . . . . . . . . . 190
13.3.1. Distribución No Informativa de Laplace . . . . . . . . 191
13.3.2. Distribución Apriori Informativa . . . . . . . . . . . . 191
13.3.3. Uso del Modelo Completo . . . . . . . . . . . . . . . . 192

1
2
Capı́tulo 1
Introducción

La escuela bayesiana en estadı́stica ha tomado fuerza en los últimos años


debido a su potencial para resolver problemas que no se pueden atacar con
otros métodos y porque permite incorporar naturalmente información que es
útil en la solución del problema enfrentado. Nadie niega que ante un proble-
ma debemos utilizar toda la información disponible acerca de un problema
particular. Para nuestro caso estadı́stico la incertidumbre sobre parámteros
poblacionales se resume por medio de distribuciones de probabilidad, que
antes de recoger información muestral relevante para ellos, se conoce como
‘distribución apriori.’
La aproximación bayesiana es una herramienta fundamental en situa-
ciones donde la recolección de información muestral sea muy difı́cil, por
ejemplo en tópicos de alta sensibilidad social, tales como el consumo de dro-
gras ilı́citas, o extremadamente costosos o imposibles, como serı́a el caso de
la determinación del riesgo de falla de una nueva nave espacial o cuál es la
probabilidad de que haya vida inteligente en nuestra galaxia.
En estadı́stica realizamos y tratamos de responder preguntas con res-
pecto a las caracterı́sticas de una o varias poblaciones. En la aproximación
bayesiana tenemos:
La información sobre un parámetro (puede ser un vector) que se tiene
se debe resumir en una distribución de probabilidad, esta será llamada
la distribución apriori.
Los parámetros son considerados variables aleatorias (esto no es acep-
table en la estadı́stica clásica).
La información apriori puede provenir de:

3
• estudios previos
• información subjetiva de expertos (la cuantificación de esta in-
formación es lo que llamamos elicitación).

1.1. Ejemplos tı́picos


Ejemplo 1.1 La loterı́a que jugó anoche. Suponga que a usted un
amigo le ofrece un billete de loterı́a, pero con el problema que la loterı́a
jugó anoche. Su amigo, que ha demostrado ser una persona honesta le in-
forma que él no sabe el resultado de la loterı́a, y usted tampoco. En una
situación como ésta podemos pensar en una probabilidad de que el billete
sea el ganador es la misma que el billete tenı́a antes de que se jugara la
loterı́a, no lo piensa ası́?

Ejemplo 1.2 Estatura de los colombianos. Si pensamos en la estatu-


ra promedio de los hombres colombianos podemos pensar seriamente que
este valor no es mayor que 180 cms. ni menor que 160 cms. Es claro que
si conocemos muchos hombres colombianos nuestra información puede uti-
lizarse en un proceso inferencial, pero confiarı́amos más si la información
sobre la estatura proviene de algún estudio previo realizado sobre el mismo
tema. Si, adicionalmente, disponemos de la información de ACOPLA95 (la
base de datos antropométrica que fue levantada por el ISS y la Escuela de
Salud Pública en 1995) podemos usar esta información para ayudar a la
determinación de este parámetro de interés.

Ejemplo 1.3 Porcentaje de productos rechazados en un proceso


de producción nuevo. Usualmente los ingenieros cuando implementan
nuevos programas de producción tiene ideas muy claras de cuál será el por-
centaje de productos rechazados bajo condiciones normales del proceso. Es-
ta información debe ser cuantificada de tal forma que se puedan establecer
parámetros iniciales y determinar pérdidas esperadas, etc.

Ejemplo 1.4 Tasa de estudiantes que ejercen la prostitución. Si


queremos determinar el porcentaje de estudiantes que ejercen la prostitu-
ción en nuestra universidad, no parece fácil resolver esto mediante una simple

4
encuesta, aunque es posible utilizar procedimientos como el de la respues-
ta aleatorizada, el hecho de enfrentar un encuestador puede llevar a dar
respuestas socialmente aceptables.

1.2. Probabilidad personal o subjetiva


Las ideas iniciales de la probabilidad surgieron relacionadas con los jue-
gos de azar y su interpretación es básicamente frecuentista. Esta formulación
frecuentista trabaja bien en muchas situaciones, pero no en todas. Una ca-
racterı́stica distintiva de la estadı́stica bayesiana es que tiene en cuenta de
forma explı́cita la información previa y se involucra en el análisis en forma de
distribución, llamada distribución apriori. La teorı́a clásica la considera bási-
camente para determinar tamaños muestrales y el diseño de experimentos
y, a veces, como forma de crı́tica de los resultados hallados.
La expresión de la información previa en forma cuantitativa puede ser un
proceso complejo y delicado, aunque se han hallado soluciones que pueden
llegar a parecer extrañas, como lo puede ser el uso de lo que se conoce
como distribuciones no informativas, pero que se utilizan extensamente en
el trabajo bayesiano aplicado.
Fuentes tradicionales para la construcción de la distribución apriori son:

Estudios previos similares. La utilización de estudios previos sobre


unos pocos parámetros especı́ficos ha dado origen a un área conoci-
da como metanálisis, la cual puede trabajarse desde el punto clásico y
bayesiano. Un problema cuando se trabaja con datos sacados de publi-
caciones y no con los estudios originales, es el que se conoce como sesgo
de publicación, que hace referencia a la publicación, por parte de los
editores o autores, solo a aquellos resultados que son significativos. [7]
describe una forma de desarrollar distribuciones apriori, conocidas co-
mo aprioris potencia, la cual se obtiene al combinar una apriori con una
verosimilitud calculada a partir de información muestral histórica pero
ponderada por un factor que refleja de alguna forma la relevancia de
esta información. Si z n0 denota los datos históricos y la verosimilitud
del parámetro θ es L (θ |z n0 ) y si ξ0 (θ) denota la apriori (podrı́amos
decir una pre-apriori), entonces la apriori geométrica se define como

ξ P (θ |z n0 ) ξ0 (θ) [L (θ |z n0 )]a0

5
donde 0 < a0 < 1 es llamado un parámetro de precisión que que valora
la calidad de la información muestral previa. Como puede ser difı́cil
especificar un valor preciso para a0 , se puede considerar una apriori
sobre este parámetro, digamos ξ (a0 |γ0 ) y por lo tanto el resultado
final será
Z
ξ P (θ |z n0 , a0 ) ξ (a0 |γ0 ) d a0

Opinión de expertos. La utilización de expertos es casi obligatoria en


situaciones completamente nuevas donde experimentar puede ser muy
costoso o imposible, por ejemplo en la implementación de polı́ticas a
nivel macroeconómico o en situaciones experimentales especiales, por
ejemplo el lanzamiento de un cohete al espacio.

Diferencias entre la teorı́a clásica


y la teorı́a bayesiana
Caracterı́stica Teorı́a Clásica Teorı́a Bayesiana
Parámetros de interés Constantes desconocidas Variables aleatorias
Distribución apriori No existe Existe y es explı́cita
Modelo muestral Se asume Se asume
Distribución posterior No existe Existe y se deriva
Razonamiento Inductivo Deductivo

Utilizaremos la siguiente notación:

θ 0 = (θ1 , · · · , θk ) Vector de parámetros


x1 , · · · , xn Observaciones muestrales (i.i.d.)
ξ(θ) Distribución apriori conjunto de Θ
f (xi |θ) Distribución de Xi dado θ

6
Capı́tulo 2
Probabilidad Subjetiva “Apriori”

El trabajo estadı́stico descansa en el concepto de probabilidad. La defini-


ción matemática es clara: Es una función aditiva no negativa, cuyo máximo
valor es la unidad. El problema fundamental está en la forma como se deter-
mine esa función. [3] comenta “ Tres interpretaciones se le pueden dar a las
distribuciones apriori: como distribuciones de frecuencia basadas quizá en
datos previos, como representaciones normativas y objetivas de lo que es
racional creer acerca de un parámetro o como una medida subjetiva de los
que un individuo particular realmente cree.”
[13] define la probabilidad como

“La probabilidad no es sino un número ı́ndice entre 0 y 1,


que expresa un pensamiento del individuo sobre la posibilidad
del resultado, relativo, de una experiencia... Debemos por tanto,
reconocer que podemos evaluar la probabilidad, bien cuando el
suceso es único o se trata de un suceso de carácter repetitivo,
que pueda presentarse en varias pruebas. El hecho de que el
suceso vaya a ocurrir una vez no impide que un individuo pueda
formar un juicio acerca de lo probable que suceda respecto a
otros posibles resultados; es decir, puede asignar probabilidades
a cada uno de los posibles resultados.”

2.1. Probabilidad Subjetiva, Apuestas y Loterı́as


Las creencias pueden ser expresadas en términos de apuestas, esto se hace
mucho en la práctica, y esto puede ser utilizado como una forma general de

7
hacer las creencias relativas explı́citas [8]. Hay condiciones naturales a ser
impuestas sobre las apuestas:

La apuesta debe ser reversible y que ninguna apuesta pueda ser ela-
borada tal que uno pierda o gane con certeza. Esta condición obliga
al sujeto a asignar las apuestas consistentemente con sus creencias.

La anterior también obliga a aceptar la segunda condición: una vez él


ha fijado los odds, él debe estar preparado para apostar en cualquier
dirección. Esta coherencia juega dos papeles importantes:

1. es moral y obliga a la gente a ser honesta,


2. y otro formal, que permite que las reglas básicas de la probabili-
dad sean derivadas como teoremas.

Una probabilidad puede pensarse en términos de las cantidades que se


involucren en una apuesta y la porción que el sujesto estuviera dispuesto
a arriesgar. Por ejemplo si ud. dice “Las posibilidades que el DIM gane el
torneo son de uno entre 10,” esto implica que
1
P (DIM gane el torneo) =
10
y9
9
P (DIM no gane el torneo) = .
10
Ası́, el DIM es nueve veces más posible que no gane el torneo que gane
el torneo, según su opinión. En términos de aportadores se dice que las
apuestas están 9 a 1. Esto en otras palabras significa que si ud. apuesta un
peso por el evento “DIM gana el torneo”, si este evento ocurre, ud. ganarı́a
nueve pesos.
Es evidente que “subjetividad” no se puede confundir con “arbitrarie-
dad”, ya que todos los elementos para la asignación de probabilidades deben
tenerse en cuenta, incluyendo el conocimiento que otros puedan asignar a
las diferentes posibilidades de los mismos eventos.
presenta el citewinklersiguiente ejemplo sobre como funcionarı́a un pro-
ceso de elicitación usando loterı́as (la construcción formal desde un punto
de vista constructivista de la definción de probabilidad subjetiva mediante
el uso de loterı́as ha sido desarrollada por [2]):

“Suponga que a ud. debe escoger entre la Loterı́a A y la


Loterı́a B.

8
Loterı́a A Ud. gana $100 con probabilidad 21 .
Ud. gana $0 con probabilidad 12 .
Se asume
Loterı́a B Ud. gana $100 si llueve mañana.
Ud. gana $0 si no llueve mañana.

dado que el premio es el mismo en ambas loterı́as ud. prefe-


rirı́a la loterı́a que le dé a ud. la mayor posibilidad de ganar el
premio. Ası́, si ud. escoge la Loterı́a B, entonces ud. debe sentir
que la probabilidad que llueva mañana es mayor que 21 ; si ud.
escoge la Loterı́a A, entre las dos loterı́as, entonces ud. sentirı́a
que esta probabilidad es menor que 12 ; si ud. es indiferente en-
tre las dos loterı́as, entonces ud. siente que la probabilidad que
llueva mañana es igual a 12 . Ahora, considere las mismas loterı́as,
excepto que las probabilidades en la Loterı́a A se cambiaron a 14
y 34 . Si ud. aún prefiere la Loterı́a A a la B, lo que implica que ud.
siente que tiene una mayor oportunidad de ganar con A que con
B, entonces su probabilidad sibjetiva de lluvia es menor que 41 .
Presumiblemente ud. puede estar cambiando las probabilidades
en la Loterı́a A hasta que ud. sea indiferente a la selección entre
la Loterı́a A y la Loterı́a B; si esto sucede cuando sus probabili-
dades sean 0.1 y 0.9, entonces su probabilidad subjetiva de lluvia
es 0.1. De forma similar ud. puede determinar su probabilidad
subjetiva de cualquier evento.”
Una definición formal de probabilidad subjetiva puede dar-
se en términos de loterı́as como sigue. Su probabilidad sibjetiva
P (E) del evento E es el número P (E) que hace que ud. esté in-
diferente entre las siguientes dos loterı́as.

Loterı́a A Ud. gana X con probabilidad P (E).


Ud. gana Y con probabilidad 1 − p(E).

Loterı́a B Ud. gana X si ocurre E.


Ud. gana $0 si no ocurre E.

Aquı́ X y Y son dos “premios.” La única restricción sobre


X y Y es que uno debe ser preferido sobre el otro; si ud. es

9
indiferente entre X y Y , entonces ud. será indiferente entre las
dos loterı́as sin importar la escogencia de P (E).

Un problema con esta forma de elicitación es que es altamente deman-


dante tanto para el elicitador como para la persona que está proporcionando
la información. Esto genera agotamiento y a la larga la persona elicitada ter-
mina dando información a la ligera [6].
Un problema que ha sido señalado para las apuestas es que realmente
se asume que las personas involucradas son “agentes racionales” [?] cuyo fin
es maximizar su propia función de utilidad1 , que por simplicidad se asume
lineal con respecto al dinero involucrado. Obviamente esto no es cierto para
cualquier rango de dinero, ya que no todo el mundo tiene la misma percep-
ción sobre el valor del dinero a ciertos niveles. Un ejemplo es si una loterı́a
involucra cantidades en miles de pesos, las personas actúan diferente a si
se refieren a millones de pesos. Aun para dos personas, la misma cantidad
puede tener utilidades diferentes, suponga el costo de una bolsa de leche, que
puede ser muy marginal para mucha gente, pero esta cantidad puede apre-
ciarse diferente desde el punto de vista de una madre pobre con un bebé a
quien alimentar.
Otra alternativa similar consiste en el uso de un contrato de referencia
[23]. En esta situción se asume la existencia de un premio muy atractivo que
depende de la ocurrencia de un evento de interés. Por ejemplo, suponga que
aud. le ofrecen un contrato que le paga un millón de pesos si su carro es
1
Una función de utilidad U es una función de valor real definida en R si tiene la
siguiente propiedad: Sean P1 y P2 dos funciones de probabilidad tal que EP1 [U ] y EP2 [U ]
existan. Entonces P1 será a lo más tan preferido como P2 , denotado por P1 ≺ e P2 , si, y solo
sı́, EP1 [U ] ≤ EP2 [U ]. Para cada premio r ∈ R, el número U (r) es llamada la utilidad de r.
El EP [U ] se conoce como la utilidad de P . Los siguientes dos resultados son consecuencias
de la definición de función de utilidad:
e r2 , si, y solo sı́, U (r1 ) ≤ U (r2 ).
1. Si r1 y r2 son dos premios en R, entonces r1 ≺
2. Si ℘ es el conjunto de distribuciones de probabilidad de interés, entonces las fun-
ciones de probabilidad se pueden comparar. Esto es, podemos ordenarlas.
Los siguientes supuestos son establecidos en teorı́a de la utilidad:
Si P1 , P2 y P son distribuciones en la clase de referencia ℘ y si α es un número
cualquiera en (0, 1). Entonces P1 ≺ P2 si, y solo sı́, αP1 +(1−α)P ≺ αP2 +(1−α)P .
Si P1 , P2 y P son distribuciones en la clase de referencia ℘ tal que P1 ≺ P ≺ P2 .
Entonces existen números α y β en (0, 1) tal que P ≺ αP2 + (1 − α)P1 y P 
βP2 + (1 − β)P1 .
Un resultado importante que permite justificar la construcción de distrbuciones apriori
vı́a loterı́as es el siguiente: Sean r1 , r2 y r tres premios culesquiera en R tal que r1 ≺ r2 y
e r≺
r1 ≺ e r2 . Entonces existe un único número v (0 ≤ v ≤) tal que r ∼ v r2 + (1 − v)r1 .

10
robado en menos de un año (asumamos que su carro cuesta esta cantidad).
Cuál es la máxima cantidad de dinero que ud. estarı́a dispuesto a pagar por
este contrato? Si ud. está dispuesto a pagar cien mil pesos, entonces su pro-
babilidad subjetiva es 100,000/1,000,000 = 0,1. Este argumento es simular
al caso de las apuestas y la idea detrás es la maximización de la utilidad
del individuo. [14] discuten la relación entre elicitación de probabilidades y
utilidades y otras alternativas.

2.1.1. Clasificación de las Distribuciones Apriori


(
Propias
Distribuciones Apriori =
Impropias

Definición 2.1 (Distribución Apriori Propia) indexdistribución propia


una distribución que asigna pesos no negativos y que suman o integran hasta
uno, a todos los valores posibles del parámetro.

Ası́, una distribución propia satisface las condiciones de función de den-


sidad de probabilidad. Una distribución impropia es la que suma o integra
a un valor diferente de uno, digamos K. Si K es finito, entonces la distri-
bución impropia induce una distribución propia normalizando la función. Si
K es infinito, entonces la distribución tiene un papel de ponderación o de
herramienta técnica para llegar a una distribución posterior.
(
Informativas
Distribuciones Apriori =
No informativas

Definición 2.2 (Distribución Apriori No Informativa) Decimos que una


distribución apriori es no informativa cuando refleja una ignorancia total o
un conocimiento muy limitado sobre el parámetro de interés.

(
Conjugadas
Distribuciones Apriori =
No conjugadas

Definición 2.3 (Distribución Apriori Conjugada) Decimos que una dis-


tribución apriori es conjugada, si al proceder a su actualización mediante la
información muestral, la distribución aposteriori es igual a la apriori, ex-
cepto en los hiperparámetros.

11
2.2. Distribuciones Apriori No Informativas
En muchas ocasiones sabemos nada o muy poco acerca del parámetro
de interés o no queremos involucrar en nuestro estudio información previa,
sino más bien dejar que sean los datos los que “hablen por ellos mismos”.
En este caso la distribución debe reflejar nuestro total desconocimento de
los valores posibles del parámetro. Esta es un área de trabajo que ha crecido
enormemente.

2.2.1. Distribuciones Apriori Informativas


Una de las mayores dificultades en la ejecución de un análisis bayesiano
concierne con la identificación, de la selección y la justificación de la distri-
bución apriori. Preguntas como:

Qué clase de distribución apriori debemos utilizar?

Qué tipos de datos están disponibles para seleccionar el modelo aprio-


ri?

Cómo cuantificamos la información subjetiva?

Cómo ajustamos la distribución apriori con los datos subjetivos dis-


ponibles?

deben ser resueltas sin lugar a dudas.

12
Capı́tulo 3
Teorema de Bayes

El teorema de Bayes es ahora una de las piedras fundamentales del tra-


bajo estadı́stico.

Teorema 3.1 (Teorema de Bayes) Sean B1 , B2 , · · · , Bk eventos mutua-


mente excluyentes y exhaustivos. Para cualquier evento nuevo A, tenemos
T
P (Bi A) P (A|Bi ) P (Bi )
P (Bi |A) = = Pk
P (A) i=1 P (A|Bi ) P (Bi )

Prueba: (Ejercicio)

Teorema 3.2 (Teorema de Bayes para Variables Aleatorias) Sean


X y θ variables aleatorias con fdp’s f (x|θ) y ξ(θ).

f (x|θ) ξ(θ)
ξ (θ|x) = R
Θ f (x|θ) ξ(θ) dθ

Dentro del marco bayesiano tenemos que:

X : Datos (escalar o vector o matriz)

θ: Parámetro desconocido (escalar o vector o matriz)

f (x1 , · · · , xn |θ): Verosimilitud de los datos dado el parámetro (desco-


nocido) θ.

13
ξ(θ): Distribución apriori de θ.

Por el teorema anterior


f (x1 , · · · , xn |θ) ξ(θ)
ξ (θ|x1 , · · · , xn ) = R
Θ f (x1 , · · · , xn |θ) ξ(θ) dθ

Esta es llamada la distribución posterior. La inferencia bayesiana se de-


riva de esta distribución. En la práctica, el denominador de la expresión
anterior no necesita ser calculado en general, y la regla de Bayes se escribe
como

ξ (θ|x1 , · · · , xn ) ∝ f (x1 , · · · , xn |θ) ξ(θ)

Por lo tanto solo necesitamos conocer la distribución posterior hasta una


constante de normalización. Muchas veces somos capaces de identificar la
distribución posterior de θ mirando solamente este numerador. El teorema
de Bayes lo que hace es una “actualización” de ξ(θ) a ξ (θ|x1 , · · · , xn ).
Nota: El aprendizaje bayesiano será

ξ (θ|x1 ) ∝ f (x1 |θ) ξ(θ)


ξ (θ|x1 , x2 ) ∝ f (x2 |θ) f (x1 |θ) ξ(θ)
∝ f (x2 |θ) ξ (θ|x1 )

Por lo tanto el teorema de Bayes nos muestra cómo el conocimiento


acerca del estado de la naturaleza representada por θ es continuamente mo-
dificada a medida que nuevos datos son adquiridos.

Ejemplo 3.1 Distribución Apriori Uniforme Truncada. Muchas ve-


ces somos capaces en un problema binomial de especificar claramente en
qué región es imposible que esté el parámetro, pero somos incapaces de es-
pecificar mejor nuestro conocimiento sobre él. Podemos pensar en utilizar
una distribución apriori que refleje esta ignorancia, para ello considremos
una uniforme truncada, esto es,

π ∼ U (π0 , π1 )

Esto es,
1
ξ (π|π0 , π1 ) = 0 ≤ π0 < π < π 1 ≤ 1
π1 − π0

14
La distribución posterior de π dado x es
Γ(n+2) (y+1)−1 (1 − π)(n−y+1)−1
Γ(y+1)Γ(n−y+1) π
ξ (π|x, π0 , π1 ) = R π1 Γ(n+2) (y+1)−1 (1 − π)(n−y+1)−1 dπ
π0 Γ(y+1)Γ(n−y+1) π
P
donde y = ni=1 xi . Notemos que el denominador de la función es la P (π0 < W < π1 |y + 1, n − y + 1),
donde W ∼ Beta(y + 1, n − y + 1), y esto se calcula fácilmente en programas
como el R.
Es fácil hallar la media y la varianza aposteriori. Ellas son

y + 1 P (π0 < W < π1 |y + 2, n − y + 1)


E (π|x, π0 , π1 ) =
n + 2 P (π0 < W < π1 |y + 1, n − y + 1)
y

(y + 2)(y + 1) P (π0 < W < π1 |y + 3, n − y + 1)


V ar (π|x, π0 , π1 ) =
(n + 3)(n + 2) P (π0 < W < π1 |y + 1, n − y + 1)
 2
(y + 1) P (π0 < W < π1 |y + 2, n − y + 1)

(n + 2) P (π0 < W < π1 |y + 1, n − y + 1)

Ejemplo 3.2 Aplicación Numérica del Caso Anterior. Suponga que


creemos que el porcentaje de mujeres que actualmente estudia en la univer-
sidad está entre el 35 % y el 70 %, o sea

1
ξ(π) = para π ∈ (0,35, 0,70)
0,70 − 0,35
= 0 en otro caso.

Asumamos además que tomamos una muestra al azar de la población de


10 estudiantes y encontramos que 6 son hombres y 4 mujeres, o sea, y = 4
y n = 10. El intervalo de confianza clásico (clásico porque la mayorı́a de los
textos básicos es el único que presentan) basado en el teorema central del
lı́mite, a pesar del tamaño muestral ser pequeño, dada la casi simetrı́a de la
distribución poblacional, se puede aplicar, será
s
π̂ (1 − π̂)
π̂ ± 1,96
n

15
lo que produce (0.0963, 0.703).
La aproximación bayesiana nos da una distribución posterior
Γ(12) 4
Γ(5)Γ(5) π (1 − π)6
ξ (π|n = 10, y = 4, π0 = 0,35, π1 = 0,70) =
K(0,70; 5, 7) − K(0,35; 5, 7)

donde Z z Γ(α + β) α−1


K(z; α, β) = x (1 − x)β−1 dx
0 Γ(α)Γ(β)
Entonces

E (π|n = 10, y = 4, π0 = 0,35, π1 = 0,70) = 0,4823673

y un intervalo de credibilidad del 95 % es (0.3561442, 0.6680237). Este último


se encuentra resolviendo
Z Γ(12) 4 − π)6
Γ(5)Γ(5) π (1
π∗
dπ = 0,95
π∗ K(0,70; 5, 7) − K(0,35; 5, 7)

y formando el intervalo (π∗ , π ∗ ).

Ejemplo 3.3 Distribución Weibull.


 
α α−1 xα
f (x |α, θ ) = x exp −
θ θ
para α > 0, θ > 0 y x > 0. θ es el parámetro de escala, α es el parámetro de
forma y ellos lo asumieron conocido. Este último supuesto sabemos que no
es realista, pero permite hallar una solución simple para el otro parámetro.
La fución de verosimilitud es
n  n n
!  
Y α Y Tn
L(θ) = f (xi |α, θ ) = xα−1
i exp −
i=1
θ i=1
θ
Pn
donde Tn = i=1 xαi .
Ellos consideraron dos aprioris diferentes para θ, una gamma invertida
y una uniforme.
La apriori gamma invertida para θ es
 
(µ/θ)ν+1 µ
ξ(θ) = exp −
µΓ(ν) θ

16
donde µ > 0 y ν > 0.
La distribución posterior será

   
µ −n Tn
ξ(θ |Datos ) ∝ θ−(ν+1) exp − θ exp −
θ θ
 
T n + µ
∝ θ−(ν+n+1) exp −
θ

3.1. Consistencia Posterior


Definición 3.1 Consistencia Pasterior La distribución posterior se dice que
es consistente en un valor dado θ0 si para cualquier vecindad V de θ0 ,
ξ (θ ∈
/ V |Datos ) → 0 (en probabilidad) cuando n → ∞ cuando θ0 es el
verdadero valor del parámetro.

La consistencia posterior equivale a decir que bajo condiciones muy gene-


rales, no importa qué apriori se use, en el fondo si el tamaño muestral crece
indefinidamente, la apriori no tendrá efecto y lo que es fundamental es el ex-
perimento que genera los datos, ya que se presupone que es un experimento
“insesgado”.

3.2. Usos de la Función de Verosimilitud en Análi-


sis Bayesiano
[4] presenta diferentes usos para la función de verosimilitud, L(θ):

1. Reporte Cientı́fico: Se considera una buena práctica de reporte presen-


tar separadamente L(θ) y ξ(θ|x), a menudo gráficamente, para indicar
el efecto de la distribución apriori. Esto le permite a otros investiga-
dores utilizar sus propias distribuciones apriori.

2. Análisis de Sensibilidad: Es importante estudiar la sensibilidad a ξ(θ),


y tener disponible L(θ) para este propósito es valioso.

3. Costo de Elicitación: Obtener distribuciones apriori subjetivas es a


menudo muy costoso, tanto en tiempo como en esfuerzo. Es a menudo
efectivo a nivel de costos eliminar los parámetros de molestia de una

17
forma básica, produciendo L(θ), y concentrar la elicitación subjetiva
a ξ(θ).
4. Objevitivismo: Aunque la “objetividad” no se puede garantizar en
ningún estudio, el presentar L(θ) ayuda a darle esta impresión a mu-
chos investigadores.
5. Combinación de Verosimilitudes: Si se obtiene información sobre θ de
diferentes fuentes independientes, y vienen con sus respectivas verosi-
militudes, digamos Li (θ), podemos resumir toda esta información co-
Q
mo i Li (θ). Esta es la base del meta-análisis. De hecho, no se pueden
multiplicar aposterioris de esta forma.
6. Aprioris Impropias: Se reducen los peligros de utlizar aprioris impro-
pias.

Definición 3.2 (Intercambiabilidad) Variables aleatorias con la siguien-


te propiedad se dice que son intercambiables Yi , i = 1, · · · , n son intercambia-
bles si las distribuciones de (Y1 , · · · , Yn ) y (Yπ(1) , · · · , Yπ(n) ) son las mismas
para todas las permutaciones (π(1), · · · , π(n)) (de Finetti (1930, 1964)).

Las creencias de un individuo con respecto a unas cantidades aleatorias


observables Z1 , Z2 , . . . , Zn descritas por una distribución de probabilidad
conjunta se dice que son intercambiables si, y solo sı́, la distribución es inva-
riante bajo todas las permutaciones de los subı́ndices 1, 2, . . . , n. Creencias
con respecto a una sucesión infinita se dice que son intercambiables si, y solo
sı́, las creencias inducidas son intercambiables para cada subconjunto finito.
Intercambiabilidad e “Independientes e Idénticamente Distribuı́das (IID)”
no son lo mismo: IID implica intercambibilidad, y variables intecambiables
Yi tienen idénticas distribuciones marginales, pero ellas no son necesaria-
mente independientes.
La intercambibilidad impone una forma de “simetrı́a” sobre las sucesio-
nes de observables. Si en el lanzamiento de una moneda varias veces, no
importael orden en que aparezcan los resultados, la apriori no debe cambiar
bajo este principio. Intercambiabilidad es un término que en el sentido usa-
do por de Finetti es limitado y [9] presentan una extensa discusión sobre el
significado y alcances de este término. La idea central tras este término es
el de similaridad entre las unidades observacionales.
Intercambibilidad es un restricción más débil que el de independencia.
Si las creencias subjetivas sobre Z1 , Z2 , . . . son independientes, entonces no
puede haber aprendizaje de la expreriencia. Por el contrario, la intercmbibi-
lidad de las creencias en Z1 , Z2 , . . . implica una visión isomórfica del mundo

18
en el cual existe la variable ficticia θ tal que Z1 , Z2 , . . . son independientes
condicionales en θ (esto es, condicionalmente independientes).

19
20
Capı́tulo 4
Distribuciones Conjugadas

Dada la magnitud de la tarea de determinar una distribución apriori que


refleje de una manera clara nuestra información bayesiana, uno intuitiva-
mente piensa en limitar la búsqueda a familias de distribuciones apriori que
posean ciertas caracterı́sticas, tales como:

1. Tratabilidad analı́tica:

a) Facilidad de determinación de la distribución posterior de la mues-


tra y de la apriori.
b) Facilidad para obtener caracterı́sticas de interés, por ejemplo, va-
lores esperados.
c) La apriori y aposteriori deben ser miembros de la misma familia
(cerrada).

2. Flexibilidad y riqueza: Debe permitir modelar una gran variedad de


información apriori y creencias.

3. Interpretabilidad: Los parámetros deben ser de tal forma que el ana-


lista pueda relacionarlos fácilmente con sus creencias e información.

[20] en 1961 formalizaron el concepto de familias conjugadas (Fink,


1997). La definción y la construcción de una familia conjugada depende de
la existencia e identificación de estadı́sticos suficientes de dimesnión finita
para una función de verosimilitud dada. Si existe este estadı́stico suficiente
entonces la dimnsionalidad puede ser reducida. Cuando existe el estadı́stico
suficiente, entonces existe una familia conjugada.

21
“Una apriori conjugada natural tiene la propiedad adicional de tener
la misma forma funcional de la verosimilitud. Esta propiedad significa que
la información apriori puede ser interpretada de la misma manera que la
información en la función de verosimilitud. En otras palabras, la apriori
puede ser interpretada como si surgiera de un conjunto de datos ficticios
obtenidos del mismo proceso que generó los datos reales”. [16], pág. 18)
Las distribuciones conjugadas juegan un papel importante en los méto-
dos bayesianos, ya que su uso puede simplificar el procedimiento de integra-
ción requerido para la marginalización. Ya que al pertenecer la apriori y la
aposteriori a la misma familia, el proceso de actualización de parámetros se
simplifica [21], lo cual es una gran ventaja para los sistemas inteligentes.
La conjugación nos limita a la selección de una clase de aprioris limi-
tada y la información apriori solo puede utilizarse para la selección de los
hiperparámetros. Si la clase es lo suficientemente grande esto puede no ser
un gran problema. [22] afirma que la automatización de la selección apriori
es una ventaja y una desventaja, ya que por un lado se facilita el proceso de
actualización, en especial cuando esto se hace en un proceso dinámico, pero
en muchas ocasiones limita el proceso de representación de la distribución
apriori y hace referencia a un experimento planteado por Diaconis y Ylvisa-
ker sobre el experimento de dejar caer una moneda que se tiene parada sobre
su borde en forma perpendicular a una superficie horizontal, ellos dicen que
la experiencia muestra que la disribución es bimodal con modas en 1/3 y
2/3.
Si x1 , · · · , xn son v.a.’s i.i.d. de un proceso definido por f (x |θ ), don-
de θ puede ser un escalar o un vector de parámteros desconocidos de in-
terés. Asumimos que existe un familia conjugada para este proceso, donde
ξ (θ |φ ), cuyos miembros están indezados por el hiperparámetro φ. Ya que
existe la familia conjugada, por lo tanto es posible factorizar la versoimilitud
L (θ |x1 , · · · , xn ) de la siguiente manera:

L (θ |x1 , · · · , xn ) = u (x1 , · · · , xn ) v (T (x1 , · · · , xn ) , θ)

donde u(·) no depende de θ y v (T (x1 , · · · , xn ) , θ) es una función del paráme-


tro y del estadı́stico suficiente. Asumamos que estamos interesado en una
transformación biyectiva de los datos. Sean y1 , · · · , yn los datos transforma-
dos tal que

yi = h (xi )

Dado a que la transformación h(x) es biyectiva, su inversa, h−1 (x), existe.

22
Si el proceso es continuo, tenemos entonces
  d

L (θ |y ) = f h−1 (y) |θ h−1 (y) ,
dy

y para el conjunto de datos transformado la función de verosimilitu es


 
L (θ |y1 , · · · , yn ) = f h−1 (y1 ), · · · , h−1 (yn ) |θ |J| ,

donde J es el jacobiano de la transformación. Ya que los datos transformados


se distribuyen en forma independiente entonces
n
Y d
J= h−1 (yi )
i=1
dyi

La función de verosimilitud de los datos transformados será


     
L (θ |y1 , · · · , yn ) = u h−1 (y1 ) , · · · , h−1 (yn ) v T h−1 (y1 ) , · · · , h−1 (yn ) , θ |J|

Ya que |J| es una función de las xi ’s, tenemos

µ (x1 , · · · , xn ) = u (x1 , · · · , xn ) |J| .

Por lo tanto

L (θ |y1 , · · · , yn ) = µ (x1 , · · · , xn ) v (T (x1 , · · · , xn ) , θ)

Esta expresión de la verosimilitud transformada es el producto de una fun-


ción de los datos que no involucra el parámetro y el kernel de la verosimilitud
sin transformar. Por lo tanto la apriori conjugada del proceso sin transformar
es la misma que la del proceso transfromada.

4.1. Distribución Binomial


Teorema 4.1 Suponga que X1 , · · · , Xn es una muestra aleatoria de una
distribución Bernoulli con parámetro π, donde el valor de π es desconoci-
do. También supongamos que la distribución apriori de π es una beta con
parámetros α(> 0) y β(> 0). Entonces la distribución posterior de π cuan-
P
do Xi = xi , para i = 1, · · · , n es una beta con parámetros α + ni=1 xi y
P
β + n − ni=1 xi .

23
Sean X1 , · · · , Xn variables aleatorias independientes Bernoulli(π). La ve-
rosimilitud es P P
L(θ) ∝ π i Xi (1 − π)n− i Xi
El parámetro π es univariable, y restringido al intervalo [0, 1]. La distribución
conjugada será

ξ(π) ∝ π α−1 (1 − π)β−1 , con α, β > 0

α y β son llamados hiperparámetros. Esta palabra se utiliza para distiguirlos


del parámetro modelo muestral π. Si comparamos la apriori con la verosimi-
P P
litud vemos que α − 1 puede asociarse con i Xi y β − 1 con n − i Xi . Por
lo tanto el experto que debe expresar su información apriori puede realizar
la tarea mental de extraer una muestra imaginaria de 0’s y 1’s de tamaño
α + β − 2 y distribuir tanto los ceros y los unos como su imaginación se
lo dicte. El tamaño de esta muestra imaginaria puede asociarse con el ni-
vel de confianza subjetiva que el experto tenga en sus asignaciones. Esta
distribución apriori se puede resumir mediante:

α
E(π) =
α+β
α−1
M oda =
α+β−2
αβ E(π)(1 − E(π))
V ariancia = 2
=
(α + β) (α + β + 1) α+β+1

La esperanza apriori E(π) corresponde a la probabilidad marginal de


tener un éxito antes de obtener cualquier observación:
Z Z
E(π) = πξ(θ) dπ = p(Y = 1|π)ξ(π) dπ = p(X = 1)

Ya que la varianza de π es una función decreciente de α + β para una media


dada, la suma de los hiperparámetros α + β es también llamada la precisión
de la distribución.
La distribución posterior es
P P
ξ(π|X1 , · · · , Xn ) ∝ π α+ i
Xi −1
(1 − π)β+n− i
Xi −1

P
la cual es una distribución beta con hiperparámetros α + i Xi y β + n −
P
i Xi . Por lo tanto, la precisión posterior se incrementa por el tamaño
muestral n.

24
Distribuciones Beta(a,a)

5
4
Beta(1,1)
Beta(0.8,0.8)
Beta(0.5,0.5)

3
Beta(0.3,0.3)

Densidad

2
1
0

0.0 0.2 0.4 0.6 0.8 1.0

Figura 4.1: Distribución beta para las cuales los parámetros son iguales.

La media aposteriori se puede expresar como


P       Pn 
α + ni=1 Xi α+β α n i=1 Xi
= +
α+β+n α+β+n α+β α+β+n n
lo que es una media ponderada
Pn
i=1 Xi
E (π|X1 , · · · , Xn , α, β) = w · E(π|α, β) + (1 − w) ·
n
donde w = (α + β)/(α + β + n).

4.1.1. Elicitación de los Parámetros de la Beta para Propor-


ciones
1. Determine la probabilidad r de que un elemento sacado al azar sea un
éxito. Esta probabilidad será considerada como la media de la beta
α
r=
α+β

2. Dada la información que el primer elemento sea un éxito, determi-


ne la probabilidad, r+ , de que el segundo elemento seleccionado al
azar sea otro éxito. La regla dice que la densidad actualizada es una
Beta (α + 1, β), ası́ que

25
Distribuciones Beta(1,b)

5
4
Beta(1,1)
Beta(1,10)
Beta(1,20)

3
Beta(1,50)

Densidad

2
1
0 0.0 0.2 0.4 0.6 0.8 1.0

Figura 4.2: Distribución beta para las cuales el α permanece fijo y β varı́a.

α+1
r+ =
α+β+1

3. Resuelva simultáneamente

r (1 − r+ )
α =
r+ − r
(1 − r) (1 − r+ )
β =
r+ − r

4. Chequee consistencia: Pregunte por la probabilidad de que el segundo


artı́culo sea un éxito dado que el primero fue un fracaso, diga r− .
Utilizando los valores de α y β calcule

α
r− =
α+β+1
y compruebe si los valores elicitados concuerdan.

5. Si el resultado no es satisfactorio se pueden ajustar los valores de r


yr+ o r− hasta obtener un resultado consistente.

26
Método para elicitar los parámetro de una Beta en el caso de
muestreo Bernoulli: Propuesta de [?]
Este método funciona ası́:
1. Especifique un valor para n, el número de ensayos hipotéticos a ser
considerados en la elicitación, se ha recomendado usar n = 20 por los
autores del método.

2. Pregunte por m, el más probable número de éxitos en n ensayos.

3. Presente la tabla de la distribución binomial(n, m/n).

4. Pregunte por los cambios dl y du definidos como sigue:


p(m − 1)
dl =
p(m)
y
p(m + 1)
du =
p(m)
donde p() es la probabilidad predictiva del sujeto.

5. Usando estos valores, y condicionando en m, se resuelven este par


de ecuaciones para α y β

f (m − 1) (n − m)(m + α)
dl = =
f (m) (m + 1)(n − m + β − 1)
y

f (m + 1) (n − m + β)
du = =
f (m) (n − m + 1)(m + α − 1)

donde f () es la función de probabilidad de masa de una distribución


beta-binomial.

6. En los pasos posteriores la moda de la distribución apriori elicitada


es mantenida fija en el valor

α1 − 1
γ=
α1 + β 1 − 2
que corresponde a la moda de una distribución Beta(α1 , β1 ). Ahora
calcule el intervalo de probabilidad más corto que contenga al menos

27
el 50 % de la probabilidad, y presente los puntos que lo constituyen,
sus probabilidades, y la suma de las probabilidades. Al sujeto se le
pregunta si este intervalo es muy largo, en cuyo caso h = −1, si es
adecuado, en cuyo caso h = 0, o si es demasiado corto, en cuyo caso
h = 1. Entonces los nuevos valores de α y β son definidos como

αi+1 = 1 + 2h (αi − 1)

βi+1 = 1 + 2h (βi − 1)

Observe que con estos valores la moda permanece invariante.

7. Si h no es cero, continúe con el paso 6 hasta que h cambie de signo


en paso k. Entonces (αk − 1, βk − 1) y (αk−1 − 1, βk−1 − 1) forman
cotas, superior e inferior, de (α − 1, β − 1) que pueden ser mejoradas
vı́a bisección hasta que h = 0.

8. Los autores sugieren que este procedimiento puede ser repetido con
diferentes valores de n, y que las estimadas resultantes pueden ser
mezcladas de alguna manera.

La distribución beta-binomial
Asuma la función de probabilidad de los datos una binomial(n, π). La
distribución apriori sobre π una Beta(α, β). Recordemos que la media y la
varianza de la beta son

α
E(π) =
α+β
αβ
V ar(π) =
(α + β)2 (α + β + 1)

Reparametrizando esta apriori en términos de µ = α/(α + β) (la media)


y M = α + β se llega

Γ(M )
ξ(π) = π M µ−1 (1 − π)M (1−µ)−1
Γ(µM )Γ(M (1 − µ))

En términos de los nuevos parámetros tenemos la media y la varianza dadas


por

28
E(π) = µ
µ(1 − µ)
V ar(π) =
M +1
Sabemos que la distribución posterior es una beta(x−M µ, n−x+M (1−
µ)). O sea
Γ(M ) Γ(n)
ξ (π|x) = π x+M µ−1 (1 − π)n−x+M (1−µ)−1
Γ(µM )Γ(M (1 − µ)) Γ(x)Γ(n − x)
A partir de esta distribución podemos hallar la distribución marginal de
x. Esta se halla reconociendo que en el teorema de Bayes la constante de
normalización corresponde a una realización de esta distribución.

Z 1
m(x) = ξ(π|x) dπ
0
Γ(M ) Γ(n)
=
Γ(µM )Γ(M (1 − µ)) Γ(x)Γ(n − x)
Γ(x + M µ)Γ(n − x + M (1 − µ))
×
Γ(n + µM )
Para hallar la media y la varianza de esta distribución se puede proceder
de una manera indirecta

    
X X
E = E E π = E(π) = µ
n n
       
X X X
V ar = E V ar π + V ar E π
n n n
 
π(1 − π)
= E + V ar(π)
n
µ(1 − µ) (n − 1) µ(1 − µ)
= +
n n (M + 1)
 
µ(1 − µ) n−1
= 1+
n M −1
Modificación de Gavasakar
[11] propone la siguiente modificación al procedimiento PM.
1. Piense en n0 ensayos Bernoulli independientes. Especifique su moda
m0 , o sea el número de éxitos más probable, en su opinión.

29
2. Para i = 1, 2, · · · , I, suponga que se efectuaron ki ensayos Bernoulli
y que el número de éxitos observados fue si . Ahora piense en ni ensayos
adicionales. Especifique su moda mi .
3. Encuentre los valores de a y b que minimizan

I 
X  2
(ni + 1)(a + si ) 1
mi − −
i=1
a + b + ki 2

donde k0 = s0 = 0

En lugar de una Beta


El modelo apriori Beta tiene limitaciones prácticas para representar co-
nocimiento apriori sobre la proporción. Gordy1 revisa algunos modelos y
propone otro para representar una variable continua que esté definida en un
intervalo acotado.

La Hipergeométrica Gaussiana (GH) tiene densidad


xp−1 (1 − x)q−1 (1 + λx)−r
GH (x |p, q, r, λ ) =
B(p, q) 2 F1 (r, p, p + q, −λ)
para 0 < x < 1, p > 0, q > 0 y 2 F1 es la función gaussiana hiper-
geométrica. Cuando r = 0 ó λ = 0 se tiene la beta ordinaria. Esta
distribución se ha usado en análisis bayesiano.
La beta generalizada se define por

|a| xap−1 (1 − (1 − c)(x/b)a )q−1


GB (x |a, b, c, p, q ) =
bap B(p, q) (1 + c(x/b)a )p+q
para 0 < xa < ba /(1 − c), 0 ≤ c ≤ 1, y b, p y q positivos. Cuando
a = b = 0 y c = 1 se tiene la beta prima.
Gordy propone la beta generalizada llamada hipergeométrica confluen-
te y definida por

xp−1 (1 − p)q−1 exp (−sx)


CH(x |p, q, s ) =
B(p, q) 1 F1 (p, p + q, −s)
para 0 < x < 1. La 1 F1 es la hipergeométrica confluente.
1
Gordi, B. M. (1998) A generalization of generalized beta distributions. Board of Go-
vernors of the Federal Reserve System

30
Gordy propone la hipergeométrica confluente compuesta definida por

xp−1 (1 − νx)q−1 (θ + (1 − θ)νx)−r exp(−sx)


CCH(x |p, q, r, s, ν, θ ) =
B(p, q)H(p, q, r, s, ν, θ)

para 0 < x < 1/ν, p > 0, q > 0, r ∈ R, s ∈ R, 0 ≤ ν ≤ 1 y θ > 0.


Además H está dada por

H(p, q, r, s, ν, θ) = ν −p exp (−s/ν) Φ1 (q, r, p + q, s/ν, 1 − θ)

con Φ1 es la función hipergeométrica confluyente definida por


∞ X
X ∞
(α)m+n (β)n
Φ1 (α, β, γ, x, y) = xm y n
m=0 n=0
(γ)m+n m!n!

y donde (a)k es la notación de Pochhammer, esto es, (a)0 = 1, (a)1 = a


y (a)k = (a)k−1 (a + k − 1). Para esta distribución el k-ésimo momento
se calcula como
(p)k H(p + k, q, r, s, ν, θ)
E(X k ) =
(p + q)k H(p, q, r, s, ν, θ)

4.2. Distribución Binomial Negativa


Teorema 4.2 Suponga que X1 , · · · , Xn es una muestra aleatoria de una
distribución binomial negativa con parámetros r y π, donde r tiene una
valor especı́fico (r > 0) y el valor de π es desconocido. También supongamos
que la distribución apriori de π es una beta con parámetros α(> 0) y β(> 0).
Entonces la distribución posterior de π cuando Xi = xi , para i = 1, · · · , n
P
es una beta on parámetros α + rn y β + ni=1 xi .

4.3. Distribución Geométrica


Otra distribución de conteo popular es la geométrica, la cual cuenta el
número de fracasos antes de obtener el primer éxito. Su función de proba-
bilidad está dada por

P (X = k) = (1 − π)π k k = 0, 1, 2, · · ·

Su media es π/(1 − π) y su varianza π/(1 − π)2 . El sesgo es (1 + π)/ π.

31
4.4. Distribución Multinomial
La distribución multinomial juega un papel fundamental en el trabajo
aplicado, siendo la generalización multivariable de la distribución binomial.

Definición 4.1 (Distribución Dirichlet) El vector aleatorio X = (X1 , · · · , Xk )0


se distribuye como una Dirichlet con vector de parámetros α = (α1 , · · · , αk )0
P
con αi > 0; i = 1, · · · , k, si la p.d.f. f (x|α) para x = (x1 , · · · , xk ) y ki=1 xi =
1 está dada por:
Γ(α1 + · · · + αk ) α1 −1
f (x|α) = x · · · xαk k −1
Γ(α1 ) · · · Γ(αk ) 1

La media de Xi es
αi
E(Xi ) =
α0
P
donde α0 = ki=1 α1 .
La varianza de Xi es
αi (α0 − αi )
var(Xi ) =
α02 (α0 + 1)

y la covarianza entre Xi y Xj es, (i 6= j),


αi αj
Cov(Xi , Xj ) = − 2
α0 (α0 + 1)

Teorema 4.3 Suponga que Y = (Y1 , · · · , Yk )0 tiene una distribución mul-


tinomial con parámetros n (fijo) y W = (W1 , · · · , Wk )0 , desconocidos. Su-
ponga también que la distribución apriori de W es una Dirichlet con vector
de parámetros α = (α1 , · · · , αk )0 con αi > 0; i = 1, · · · , k. Entonces la dis-
tribución posterior de W cuando Yi = yi , i = 1, · · · , k, es una distribución
Dirichlet con vector de parámetros α∗ = (α1 + y1 , · · · , αk + yk )0 .

El parámetro αk puede ser interpretado como el conteo apriori, antes de


ver los datos, que esperarı́amos ver en la celda k. Un valor grande para este
parámetro muestran un gran conocimiento previo acerca de la distribución,
mientras que valores pequeños corresponden a poco conocimiento.

Ejemplo 4.1 Tipos de sangre. La siguiente tabla presenta los datos


sobre el tipo de sangre en una muestra de personas de la región central y
oriental de Antioquia

32
Figura 4.3: Distribución posterior marginal para cada una de las proporcio-
nes del tipo de sangre.

Tipo de Sangre
O A AB B
Frecuencia 474 246 11 59

Si no tenemos un conocimiento apriori sobre las diversas proporciones,


digamos πO , πA , πAB y πAB , entonces podemos escoger como apriori una
Dirichlet(1, 1, 1, 1). Entonces la aposteriori será Dirichlet(474 + 1, 246 +
1, 11 + 1, 59 + 1).

4.5. Distribución Poisson


El modelo de conteo más utilizado es el modelo Poisson ya que su desa-
rrollo teórico es claro y muchos problemas reales pueden modelarse muy bien
de esta forma. Decimos que una variable aleatoria de conteo X se distribuye
P oisson(θ) si su función de probabilidad está dada por

θx exp(−θ)
f (x) = x = 0, 1, 2, 3, · · ·
x!

33
Figura 4.4: Distribución conjunta entre un par de los parámetros considerado
en el problema de los tipos de sangre.

Para esta distribución se tiene que E(X) = V ar(X) = θ.

Teorema 4.4 Suponga que X1 , · · · , Xn es una muestra de una distribución


Poisson con media desconocida θ. También supongamos que la distribución
apriori de θ es una gamma con parámetros α(> 0) y β(> 0). Entonces la
distribución posterior de θ cuando Xi = xi , para i = 1, · · · , n es una gamma
P
con parámetros α + ni=1 xi y β + n.

Prueba: Si X1 , · · · , Xn es una muestra de una distribución Poisson con


media desconocida θ, entonces la verosimilitud será
n
Y θXi exp(θ) Pn
Xi
L (θ |Datos ) = ∝θ i=1 exp(nθ)
i=1
xi !

Si la priori es Gamma(α, β) su densidad será

ξ(θ) ∝ θα−1 exp(βθ)


La aposteriori será entonces
Pn Pn
Xi
ξ (θ |Datos ) ∝ θα−1 exp(βθ)θ i=1 exp(nθ) = θα+ i=1
Xi
exp ((β + n)θ)
Esto muestra el resultado.

34
Ejemplo 4.2 Caso de accidentalidad. En la presentación de la alcaldı́a
de Medellı́n llamada “Georreferenciación de la accidentalidad en los princi-
pales tramos y avenidas de Medellı́n. Año 2008” se dice que el número de
accidentes de tránsito en la ciudad con muertos fue de 315 para ese año. Si
asumimos que el número de accidentes con muertes sigue una distribución
Poisson con parámetro θ y si asumimos una Gamma apriori poco informa-
tiva, digamos α0 = 0,001 y β0 = 0,001, la aposteriori será Gamma con
α1 = 315,001 y β1 = 1,001. La media aposteriori será 314.6863, la cual es
bastante parecida al valor obtenido en la muestra de tamaño 1 que tenemos.

Elicitación de la distribución apriori conjugada para el paráme-


tro de la Poisson
Suponga que deseamos estudiar el número de goles marcados por los
equipos locales en el torneo profesional colombiano. Asumimos que
el número de goles marcados por el equipo local se puede modelar
mediante la Poisson.

El parámetro λ en la Poisson es la media. Cómo escogemos la Gamma(α, β)


que represente adecuadamente nuestro conocimiento del problema?

Vamos a presentar una aproximación usando una forma predictiva.

Probabilidad 0 1 2 3 4 5 6 ó más.
λx exp(−λ)/x! π0 π1 π2 π3 π4 π5 π6+

Si miramos con cuidado el problema lo convertimos en multinomial!

Debemos determinar el vector (α0 , α1 , α2 , α3 , α4 , α5 , α6+ ). Cómo lo ha-


cemos?

Le decimos al experto que nos responda algo como esto: Si ud. obser-
vara 1000 partidos de fútbol, en cuántos esperarı́a que local no hiciera
goles? un gol? dos goles? tres? cuatro? cinco? seis ó más goles? Esto
nos da una tabla como la siguiente:

Goles 0 1 2 3 4 5 6 ó más.
Nro. de juegos n0 n1 n2 n3 n4 n5 n6+

35
X
ni = 1000
i

Resultado del experto:

Goles 0 1 2 3 4 5 6 ó más.
Nro. de juegos 170 250 300 180 60 35 5

Generamos N muestras de tamaño 1000 de una multinomial con pro-


babilidades

(170/1000, 250/1000, 300/1000, 180/1000, 60/1000; 35/1000, 5/1000)

Para cada muestra multinomial, calculamos la probabilidad de cada


celda, o sea, dividimos cada muestra por 1000. Digamos
 
π0j , π1j , π2j , · · · , π6+
j

Usando estas probabilidades, calculamos la media de la distribución


Poisson, teniendo en cuenta que la última celda corresponde a un trun-
camiento.

X 6
X
λj = i · πij ≈ i · πij
i=0 i=0

La aproximación siempre es por debajo del verdadero valor, ya que se


reemplazan todos los valores mayores que 6 por 6.

error<-NA
acumulado<-NA
media.sin<-NA
media.corr<-NA
medias<-seq(0.5,4,length=20)

for(i in medias){
proba<-dpois(0:20,i)
acumu<-1-sum(proba[1:6])
media<-sum((0:5)*proba[1:6])+6.0*(1-sum(proba[1:6]))
media.sin<-c(media.sin,media)
error<-c(error,i-media)
acumulado<-c(acumulado,acumu)
}

36
Error que se comete con el truncamiento
en la estimación de la media

0.20
0.15
0.10
Error

0.05
0.00

0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0

Figura 4.5: Observamos que el error absoluto es cuadrático con respecto a la


media de la Poisson.

acumulado<-acumulado[-1]
error<-error[-1]
media.sin<-media.sin[-1]

# Relación entre la media y el error


plot(medias,error,xlab=expression(lambda),ylab=’Error’)
title(main=’Error que se comete con el truncamiento \n
en la estimación de la media’)

# El problema es que hay que conocer la verdadera media


# pero si usamos el porcentaje de observaciones hasta el punto
# de truncamiento podemos aproximar la corrección.
plot(acumulado,error)

> summary(modelo<-lm(error~acumulado+acumulado2))

Call:
lm(formula = error ~ acumulado + acumulado2)

Residuals:
Min 1Q Median 3Q Max

37
Figura 4.6: Consideramos el porcentaje de observaciones hasta el punto
de truncamiento. Podemos aproximar esta relación mediante una función
cuadrática. Con datos reales la corrección la obtenemos calculando el por-
centanje de observaciones bajo el punto de truncamiento.

38
-0.0010180 -0.0006270 0.0001269 0.0006803 0.0008440

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.0007817 0.0002460 -3.178 0.0055 **
acumulado 0.4164908 0.0082370 50.563 <2e-16 ***
acumulado2 2.3313949 0.0427119 54.584 <2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 0.0007206 on 17 degrees of freedom


Multiple R-squared: 0.9999, Adjusted R-squared: 0.9999
F-statistic: 6.387e+04 on 2 and 17 DF, p-value: < 2.2e-16

Podemos hallar la media haciendo la corrección mediante el ajuste cuadráti-


co:

calcula.lambda<-function(proba){
acumu<-1-sum(proba[1:6])
media<-sum((0:5)*proba[1:6])+6.0*(1-sum(proba[1:6]))
media.cor<-media-0.0007817+ 0.4164908*acumu
+ 2.3313949*acumu^2
return(media.cor)
}

# Generación de la multinomial

temp<-scan()
170 250 300 180 60 35 5

res.multi<-rmultinom(2000,1000,temp)/1000
lambdas<-apply(res.multi,2,calcula.lambda)
hist(lambdas,freq=F,xlab=expression(lambda),
main=’Distribución Apriori’,ylab=’Frecuencia’)
summary(lambdas)

Min. 1st Qu. Median Mean 3rd Qu. Max.


1.701 1.809 1.837 1.837 1.865 2.005

39
require(MASS)

Loading required package: MASS

fitdistr(lambdas,’gamma’)

shape rate
1897.79902 1032.99342
( 60.05904) ( 32.69511)

Los parámetros de la gamma apriori serán:

α = 1897,79902
β = 1032,99342

xx<-seq(1.5,2.2,length=100)
yy<-dgamma(xx, 1897.79902,rate=1032.99342)
points(xx,yy,type=’l’,col=’red’)

40
4.6. Distribución Exponencial
La distribución exponencial tiene función de densidad de probabilidad
dada por

f (x) = θe−θx x ∈ (0, ∞)

Teorema 4.5 Suponga que X1 , · · · , Xn es una muestra de una distribución


exponencial con parámetro desconocido θ. También supongamos que la dis-
tribución apriori de θ es una gamma con parámetros α(> 0) y β(> 0).
Entonces la distribución posterior de θ cuando Xi = xi , para i = 1, · · · , n es
P
una gamma con parámetros α + n y β + ni=1 xi .

La prueba es directa:

ξ(λ) ∝ λα exp (−βλ)


n
!
X
n
L (λ |Datos ) ∝ λ exp −λ xi
i=1
" n
#!
X
ξ(λ |Datos ∝ λα+n exp −λ β + xi
i=1

41
4.6.1. Caso Especial: Se observa solo el primer estadı́stico de
orden
Si solo tenemos el valor del primer estadı́stico de orden, o sea el menor
valor de la muestra de tamaño n, nuestra verosimilitud será proporcional a
la densidad del primer estadı́stico de orden. Si X( 1) denota el mı́nimo valor
de la muestra de una distribución abasolutamente continua, su función de
distribución está dada por
  h  in
F1 x(1) = 1 − 1 − F x(1)

y la densidad está dada por


   h  in−1
f1 x(1) = nf x(1) 1 − F x(1)

En el caso exponencial
   
f1 x(1) = nλ exp −nλx(1)

Si la apriori de λ es una Gamma(α, β), la aposteriori serı́a

   

ξ λ x(1) , n ∝ λ exp −nλx(1) λα−1 exp (−βλ)
  
∝ λ(α+1)−1 exp −λ β + nx(1)

Esta corresponde a una Gamma(α + 1, β + nx(1) ).

4.6.2. Caso Especial: Se observa solo el n-ésimo estadı́stico


de orden
Si solo tenemos el valor del n-ésimo estadı́stico de orden, o sea el mayor
valor de la muestra de tamaño n, nuestra verosimilitud será proporcional
a la densidad del n-ésimo estadı́stico de orden. Si X( n) denota el máximo
valor de la muestra de una distribución abasolutamente continua, su función
de distribución está dada por
  h  in
Fn x(n) = F x(n)

y la densidad está dada por


   h  in−1
fn x(n) = nf x(n) F x(n)

42
En el caso exponencial
     n−1
fn x(n) = nλ exp −λx(n) 1 − exp −λx(n)

Si la apriori de λ es una Gamma(α, β), la aposteriori serı́a

     n−1

ξ λ x(n) , n ∝ λ exp −λx(n) 1 − exp −λx(n) λα−1 exp (−βλ)
     n−1
∝ λ(α+1)−1 exp −λ β + x(n) 1 − exp −λx(n)

Observe como en este caso la distribución posterior no pertenece a la


familia gamma.

4.6.3. Caso Especial: Se observan algunos datos censurados


en el punto x0
Si asumimos una apriori Gamma(α, β) y tenemos n0 observaciones que
no han fallado en el tiempo x0 , de las n observaciones que se disponen (diga-
mos que n1 sı́ se observaron completamente con mediciones x1 , x2 , · · · , xn1 ),
su verosimilitud será

n1
!
X
L (λ |Datos ) ∝ λ n1
exp −λ xi (P (X > x0 |λ ))n0
i=1
n1
!
X
n1
∝ λ exp −λ xi exp (−n0 λx0 )
i=1
n1
!!
X
n1
∝ λ exp −λ n0 x0 + xi
i=1

La aposteriori será
n1
!!
X
ξ (λ |Datos ) ∝ λα−1 exp −λ β + n0 x0 + xi
i=1
Pn 1
Esta corresponde a una Gamma (α, β + n0 x0 + i=1 xi ).

4.6.4. Caso Especial: Se observan todos los datos censurados


en el punto x0
Si asumimos una apriori Gamma(α, β) y tenemos n observaciones que
no han fallado en el tiempo x0 , su verosimilitud será

43
L (λ |Datos ) ∝ (P (X > x0 |λ ))n = exp (−nλx0 )

La aposteriori será

ξ (λ |Datos ) ∝ λα−1 exp (−λ (β + nx0 ))

Esta corresponde a una Gamma (α, β + nx0 ).

4.7. Distribución Normal


La distribución normal es la más ampliamente conocida y utilizada dis-
tribución en el trabajo estadı́stico. Hay básicamente dos razones para ello:

Muchas poblaciones pueden ser modeladas aproximadamente por esta


distribución.

Como resultados lı́mites se llega a ella en muchas situaciones.

Su función de densidad es
!
1 1 (x − µ)2
f (x) = √ exp −
2πσ 2 σ2

con soporte x ∈ (−∞, ∞). Su función de distribución acumulada se denota


Φ(x), su media es µ y su varianza σ 2 . Esta distribución posee dos parámetros,
lo cual nos lleva a considerar diferentes situaciones. La precisión es el inverso
de la varianza.

4.7.1. Precisión Conocida


Teorema 4.6 Suponga que X1 , · · · , Xn es una muestra aleatoria de una
distribución normal con un valor desconocido de la media µ y un valor es-
pecificado de la precisión r (r > 0).

Distribución Apriori: µ ∼ N (µ0 , τ0 ) donde τ0 es la precisión, tal


que −∞ < µ0 < ∞ y τ0 > 0.

Distribución Posterior:

(µ|X = x) ∼ N (µ1 , τ1 )

44
donde
τ0 µ0 + nrx̄
µ1 =
τ0 + nr
τ1 = τ0 + nr es la precisión
y x̄ es la media muestral.
Prueba: La prueba es elemental.

Observe que la media posterior se puede expresar como


τ0 µ0 + nrx̄ nr τ0
µ1 = = x̄ + µ0
τ0 + nr τ0 + nr τ0 + nr
Se ve claramente que la media posterior es una media ponderada de la media
apriori y la media muestral.

4.7.2. Precisión Desconocida


Este tipo de problema surge en control de calidad cuando lo que interesa
controlar es la variabilidad de un proceso determinado.
Teorema 4.7 Suponga que X1 , · · · , Xn es una muestra aleatoria de una
distribución normal con un valor conocido de la media m (−∞ < m < ∞)
y un valor desconocido de la precisión W (W > 0).
Distribución Apriori: W ∼ Gamma2 (α0 , β0 ) donde α0 > 0 y β0 >
0.
Distribución Posterior:
(W |X = x) ∼ Gamma (α1 , β1 )
donde
n
α1 = α0 +
2
n
1X
β1 = β0 + (xi − m)2 .
2 i=1

Prueba: La prueba es directa.

2
Asumimos una gamma de la forma
β α α−1 −βx
f (x) = x e
Γ(α)

45
4.7.3. Media y Precisión Desconocidas
Este caso, a pesar de lo simple que puede parecer, muestra la complejidad
a la que puede llegar a enfrentar el estadı́stico ante la presencia de varios
parámetros.

Teorema 4.8 Suponga que X1 , · · · , Xn es una muestra aleatoria de una


distribución normal con un valor desconocido de la media µ y un valor des-
conocido de la precisión R (R > 0).

Distribución Apriori Conjunta de µ y R:

1. La distribución condicional de µ cuando R = r es µ ∼ N (µ0 , τ0 r)


donde τ0 r es la precisión, tal que −∞ < µ0 < ∞ y τ0 > 0, y
2. la distribución marginal de R es Gamma (α0 , β0 ) donde α0 > 0
y β0 > 0.

Distribución Posterior Conjunta de µ y R cuando X = x:

1. La distribución condicional de µ cuando R = r es

(µ|X = x) ∼ N (µ1 , τ1 )

donde
τ0 µ0 + nx̄
µ1 =
τ0 + n
τ1 = (τ0 + n)r

y x̄ es la media muestral.
2. la distribución marginal de R es Gamma(α1 , β1 ) donde

n
α1 = α0 +
2
n
1X 2 τ n (x̄ − µ0 )2
β1 = β0 + (xi − x̄) +
2 i=1 2(τ + n)

Prueba:
Recuerde que
f (x, y)
f (x|y) = ⇒ f (x, y) = f (x|y) f (y)
f (y)

46
Si X1 , · · · , Xn es una muestra aleatoria de una distribución normal con
un valor desconocido de la media µ y un valor desconocido de la precisión τ
(τ > 0) la verosimilitud será:

n
Y  
τ τ 1/2
L ( µ, τ | Datos) = √ exp − (xi − µ)2
i=1 2π 2
n
!
τX
∝ τ n/2
exp − (xi − µ)2
2 i=1
Ahora

n
X n
X
(xi − µ)2 = (xi − x̄ + x̄ − µ)2
i=1 i=1
n
X
= (xi − x̄)2 + n (x̄ − µ)2
i=1
= (n − 1)S 2 + n (x̄ − µ)2

 
τ 
L ( µ, τ | Datos) ∝ τ exp − (n − 1)S 2 + n (x̄ − µ)2
n/2
2
   
n/2 τ 2 nτ 2
∝ τ exp − (n − 1)S exp − (x̄ − µ)
2 2

La apriori es
ξ (µ, τ ) = ξ ( µ| τ ) ξ (τ )
 
τ0 τ
∝ greenτ 1/2 exp − (µ − µ0 )2 blueτ α0 −1 exp (−β0 τ )
2

La aposteriori será
   
τ nτ
ξ (µ, τ ) ∝ τ exp − (n − 1)S 2 exp −
n/2
(x̄ − µ)2
2 2
 
1/2 τ0 τ 2
×τ exp − (µ − µ0 ) τ α0 −1 exp (−β0 τ )
2
 i
n/2+1/2 τh 2 2
∝ τ exp − n (x̄ − µ) + τ0 (µ − µ0 )
2
!!
(n − 1)S 2
×τ α0 −1 exp −τ + β0
2

47
hAhora i
n (x̄ − µ)2 + τ0 (µ − µ0 )2 = n (µ − x̄)2 + τ0 (µ − µ0 )2
= nµ2 − 2nµx̄ + nx̄2 + τ0 − 2τ0 µµ0 + τ0 µ20
2 2 2
h − 2µ (nx̄ + τ0 µi0 ) + nx̄ + τ0 µ0
= (n + τ0 ) µ
2 (nx̄+τ0 µ0 ) 2 2
= (n + τ0 ) µ − 2µ (n+τ0 ) + nx̄ + τ0 µ0
h i
(nx̄+τ0 µ0 )2 (nx̄+τ0 µ0 )2
= (n + τ0 ) µ2 − 2µ (nx̄+τ 0 µ0 )
(n+τ0 ) + (n+τ0 ) 2 − (n+τ0 ) + nx̄2 + τ0 µ20
 
(nx̄+τ0 µ0 ) 2 (nx̄+τ0 µ0 ) 2
= (n + τ0 ) µ − (n+τ0 ) − (n+τ0 ) + nx̄2 + τ0 µ20

Luego la aposteriori queda


ξ(µ, τ) ∝ 
 
(nx̄+τ0 µ0 ) 2 (nx̄+τ0 µ0 )2
exp − τ2 (n + τ0 ) µ − (n+τ0 ) − (n+τ0 ) + nx̄2 + τ0 µ20
  
(n−1)S 2
× τ n/2+1/2 τ α0 −1 exp −τ 2 + β0
   
(nx̄+τ0 µ0 ) 2
∝ exp − τ (n+τ
2
0)
µ− (n+τ0 )
 h 2 i
× exp − τ2 − (nx̄+τ 0 µ0 )
(n+τ0 ) + nx̄2 + τ0 µ20
  
(n−1)S 2
× τ n/2+1/2 τ α0 −1 exp −τ 2 + β0

Ahora

(nx̄ + τ0 µ0 )2
− + nx̄2 + τ0 µ20
(n + τ0 )
− (nx̄ + τ0 µ0 )2 + nx̄2 + τ0 µ20
=
(n + τ0 )
−n x̄ − 2nx̄τ0 µ0 − τ02 µ20 + nx̄2 + τ0 µ20
2 2
=
(n + τ0 )
 
(n + τ0 ) τ0 − τ02 µ20 + n (n + τ0 ) − n2 x̄2 − 2nx̄τ0 µ0
=
(n + τ0 )
2 2
nτ0 µ0 + nτ0 x̄ − 2nx̄τ0 µ0
=
(n + τ0 )

nτ0 µ0 + x̄2 − 2x̄µ0
2
=
(n + τ0 )
nτ0 (µ0 − x̄)2
=
(n + τ0 )
Entonces

48
ξ(µ, τ ) ∝ 
 
(nx̄+τ0 µ0 ) 2
exp − τ (n+τ
2
0)
µ− (n+τ0 )
 h i
nτ0 (µ0 −x̄)2
× exp − τ2 (n+τ0 )
  
n/2+1/2 α −1 (n−1)S 2
× τ τ 0 exp −τ 2 + β0
   
(nx̄+τ0 µ0 ) 2
∝ τ 1/2 exp − τ (n+τ
2
0)
µ− (n+τ0 )
  
(n−1)S 2 nτ0 (µ0 −x̄)2
× τ α0 +n/2−1 exp −τ 2 + β0 + 2(n+τ0 )

Con esto queda demostrado el resultado.

4.8. Distribución Gamma


La distribución gamma ha sido ampliamente aplicada en confiabilidad y
en pruebas de vida. Decimos que la variable aleatoria X tiene una distribu-
ción gamma con parámetros β y α si su densidad es

β α α−1
f (x|α, β) = x exp (−βx) x > 0, α > 0
Γ(α)

donde α denota el parámetro de forma y β es el recı́proco de un parámetro


de escala. Si x1 , x2 , · · · , xn es una muestra aleatoria de esta distribución,
entonces la función de densidad conjunta es
n
Y β nα
f (xi |α, β) = pα−1 exp (−sβ)
i=1
[Γ(α)]n

donde
n
X
s = xi
i=1
Yn
p = xi
i=1

Miller (1980) usa una clase conjugada muy general definida por la con-
junta
0
β ν α−1 0 α−1 
ξ(α, β) ∝ (p ) exp −s0 β
[Γ(α)]n0

49
0
donde α > 0, β > 0, n0 > 0, ν 0 > 0, s0 > 0 y p0 > 0, tal que n0 (p0 )1/n /s0 < 1.
La distribución posterior es proporcional a
00
β ν α−1 00 α−1 
ξ(α, β|x) ∝ n 00 p exp −s00 β
[Γ(α)]
donde ν 00 = ν 0 + n, p00 = p0 p, s00 = s0 + s y n00 = n0 + n.
La distribución condicional de β dado α es una Gamma (ν 00 , s00 ), y la
distibución marginal posterior de α es proporcional a
 ν 00 α
Γ (ν 00 α) r00
[Γ(α)]00 n00
donde
√ 0 0 0
r00 ν 00
p00 (p0 )1/(ν +n) (r/n)n/(ν +n) sn/(ν +n)
= =
n00 s00 s0 + s

4.9. Conjugadas en Tramos


A pesar de las ventajas que se tiene de usar distribuciones conjugadas
para realizar el proceso bayesiano, no siempre es posible hallar una distri-
bución en la familia que refleje el conocimiento previo. Una relajación a
este problema de trabajar en clases de distribuciones conjugadas es trabajar
con mezclas de distribuciones dentro de las familias conjugadas, que algunos
autores argumentan, pueden representar casi cualquier conocimiento previo
ya que ellas pueden aproximar casi cualquier distribución apriori (Meeden,
1992).
Meeden (1992) propuso el uso de distribuciones conjugadas por tramos.
Para ilustrar esto considere la proporción, π, como el parámetro de interés.
Como hemos visto, la familia conjugada en este caso es la Beta. Un ejemplo
del una conjugada en tramos tenemos
(
π α1 −1 (1 − π)β1 −1 para 0 < π ≤ λ
ξ(π) ∝
kπ α2 −1 (1 − π)β2 −1 para λ < π < 1
donde
k = λα1 −α2 (1 − λ)β1 −β2
Con esta selección de k, la densidad ξ es continua en λ.
Como el espacio parametral fue particionado en dos regiones, Meeden
ha llamado esta distribución de orden 2. Uno podrı́a ajustar splines cúbicas
restringidas también como una alternativa.

50
Capı́tulo 5
Análisis de Sensibilidad

En ingenierı́a es reconocida como una parte básica el análisis de sensibi-


lidad en la construcción de modelos. Esto, lamentablemente no es lo común
en estadı́stica, donde, por ejemplo en regresión, encontramos muchos libros
en los cuales, a pesar de darse muchas reglas para la elaboración de modelos,
no se hace énfasis en el análisis de sensibilidad. McCuen y Snyder (1986)
definen la sensibilidad como la tasa de cambio en un factor con respecto al
cambio en otro factor. “Aunque tal definición es vaga en términos de los
factores involucrados, sin embargo ella implica un cociente de dos diferen-
ciales. Estresando la nebulosidad de la definición es importante ya que, en
práctica, la sensibilidad de los parámetros de un modelo es raramente re-
conocida como un caso especial del concepto de sensibilidad. La falla para
reconocer la generalidad de la sensibilidad ha sido la responsable para su
uso limitado...”
Western y Jackman (1993) señalan:

Debido a que la selección de la apriori es subjetiva en el sen-


tido de atraer poco consenso, es importante investigar cómo las
distribuciones aposterioris dependen de las aprioris. Si las apos-
terioris son alatamente sensibles a las aprioris, esto sugiere que
los datos muestrales añaden poco a la información apriori, las
inferencias son obtenidas de las aprioris solas. Un argumento pa-
ralelo puede hacerse a la relación entre los datos muestrales y y
las aposterioris. Si un número pequeño de observaciones de los
datos muestrales son altamente influyentes para las aposterioris,
los resultados son igualmente inestables, reflejando la informa-
ción acerca de unos pocos casos en lugar del total de los datos es

51
combinación con las aprioris. En resumen, debido a la influencia
conjunta de la información apriori y los datos en el análisis, un
análisis convincente investiga la sensibilidad de la aposteriori a
las aprioiris y los datos.

5.1. Sensibilidad a la Apriori


Este análisis considera en cambios en la apriori y el efecto que se tiene
en la aposteriori ante estos cambios. Obviamente uno espera ir desde una
apriori no informativa hasta una apriori casi degenerada. Cómo se miden
estos cambios?

5.1.1. Distancias entre Aposterioris


Existen muchas medidas de la distancia entre funciones que pueden ser
aplicadas al caso de las distribuciones aposterioris. Entre ellas tenemos

Z 1/p
Lp (f, g) = |f − g|p
Z  p 1/p
1/p 1/p
Hp (f, g) = f −g

Peña y Zamar (1997) proponen estudiar el efecto que tienen cambios en


la apriori sobre la moda aposteriori. Ellos proponen usar una función de
influencia de moda posterior (PMIF), que es obtenida calculando la deriva-
da direccional de Gateaux de la distribución posterior en dirección de una
apriori contaminadora.

5.1.2. Análisis de fronteras extremas (exterme bounds analy-


sis)
Este análisis investiga la variabilidad en la distribución posterior cuando
se permite que las varianzas aprioris varı́en desde cero hasta infinito mientras
las medias aprioris están fijas en cero.

5.2. Sensibilidad a los Datos


El análisis de sensibilidad a los datos es común en la regresión clási-
ca y se puede decir que tuvo su comienzo con la aparición del trabajo de

52
Belsley, Kuh y Welch (1980). Ellos propuesieron una metodologı́a basada en
estadı́sticos construı́dos teniendo como base la eliminación de observaciones
o el cambio de la posición de una observación. Weiss (1996) propone varias
alternativas para realizar este tipo de análisis basados en el concepto de
influencia, el cual ha sido ampliamente usado en la estadı́stica tradicional.
Se utiliza el concepto de perturbación como la función de influencia, deno-
tada por h∗ (θ), sobre el modelo. Las pertubaciones estándar en el análisis
bayesiano son:

Eliminación de casos, entonces


1
h∗1i (θ) ∝
f (yi |θ, xi )

Perturbación de apriori
q(θ)
h∗2 (θ) ∝
ξ(θ)

Sensibilidad a los valores yi

f (yi + δ |θ, xi )
h∗3i (θ, δ) ∝
f (yi |θ, xi )

Sensibilidad a los valores xi


f (yi |θ, xi + δ )
h∗4i (θ, δ) ∝
f (yi |θ, xi )

53
54
Capı́tulo 6
Distribuciones Apriori No
Informativas

El uso de distribuciones apriori no informativas buscan que ellas tengan


un impacto mı́nimo sobre la distribución posterior del parámetro de interés
y que sea relativamente plana con relación a la verosimilitud. Esto busca
que sean los datos los que tengan un claro dominio en la distribución pos-
terior, y, por lo tanto, en todas las inferencias que de ellas se obtengan.
También se conocen como vagas, difusas, planas o de referencia. El área de
las distribuciones no informativas es grande y polémica. Kadane, Schervish
y Seidenfeld (1999) comentan ”Algunos estadı́sticos usan distribuciones im-
propias, especialmente distribuciones uniformes, como una representación de
nuestra ignorancia. Otros consideran esto como la pérdida de la oportuni-
dad que proporcionan las distribuciones apriori para modelar las opiniones
del cliente.´´ Existen diferentes posiciones sobre cómo reflejar ignorancia
mediante una distribución.
Estas distribuciones no informativas se reunen en dos grupos:

Propias: Cuando la distribución de probabilidad integra a una constante


finita, se dice que es propia. Por ejemplo, para el caso de la distribu-
ción binomial, su parámetro π, que denota el porcentaje de éxitos en
la población, podemos asumir como apriori la U (0, 1), lo cual refleja
nuestra ignorancia total, al asumir que cualquier valor en este intervalo
es igualmente posible como valor.

Impropias: Una distribución apriori ξ(θ) es impropia si

55
Z
ξ(θ) dθ = ∞
Θ

Winkler (1967a) dice

“Los términos difuso y no-difuso son relativos en este contex-


to, no términos absolutos. Cuando decimos que nuestra informa-
ción es difusa realmente queremos decir que es difusa relativa a la
información muestral. También queremos decir que es localmen-
te difusa (i.e., difusa solo dentro dentro de un cierto rango). Ası́,
‘difuso’ puede depender no solo de la precisión de la información
muestral sino también de los valores especı́ficos de la informa-
ción muestral. En muchos casos el uso de distribuciones apriori
difusas por parte del bayesiano puede ser sicológicamente ilumi-
nador, bien sea para otros o para él mismo, aún si su distribución
apriori no es difusa. ”

Notas:

1. Una distribución apriori impropia puede terminar en una aposteriori


impropia y por lo tanto no se podrán hacer inferencias.

2. Una distribución apriori impropia puede llevar a una aposteriori pro-


pia.

Ejemplo 6.1 Asumamos que y1 , · · · , yn |θ son variables distribuidas normal


e independientemente con media θ y con varianza conocida σ 2 . Asumamos
que ξ(θ) ∝ 1 es la distribución apriori uniforme (impropia) sobre los números
reales. La verosimilitud es
!
n (ȳ − θ)2
L (θ|y) ∝ exp −
2 σ2

y la distribución posterior es
!
σ2
θ|y ∼ N ȳ,
n

la cual es una distribución propia.

56
Yang y Berger (1998) presentan varias razones por las cuales es impor-
tante considerar las distribuciones no informativas. Tenemos entre ellas

Con frecuencia la elicitación de las distribuciones apriori es imposible,


por múltiples razones, por ejemplo, limitaciones de costo o tiempo, o
resistencia o falta de entrenamiento de los clientes.

El análisis estadı́stico debe aparecer como “objetivo”.

La elicitación subjetiva puede producir malas distribuciones subjeti-


vas, por ejemplo si la elicitación es sesgada.

En problemas de alta dimensión, lo más que se puede esperar es obte-


ner buenas distribuciones subjetivas para algunos pocos parámetros,
y a los parámetros de perturbación se les asignan distribuciones no
informativas.

El análisis bayesiano con distribuciones no informativas puede utili-


zarse para obtener procedimientos clásicos buenos.

Aún cuando un investigador tenga creencias apriori fuertes, puede ser


más convincente analizar los datos utilizando una apriori de referencia do-
minada por la verosimilitud. Además podemos automatizar el proceso de
hallar aprioris. Yang y Berger (1998) proporcionan un amplio catálogo de
distribuciones no informativas que es útil en el trabajo aplicado.
Robert (1994) señala que en muchas situaciones una distribución im-
propia es el lı́mite de distribuciones propias. Pueden interpretarse ası́ como
casos extremos donde la información apriori ha deaparecido completamente.

6.1. El Principio de la Razón Insuficiente de La-


place
Si el espacio parametral es finito se puede utilizar una distribución apriori
uniforme para reflejar ignorancia total.

ξ(θ) ∝ 1 para θ ∈ Θ

Bhattacharya (1967) dice: “Esta distribución ha causado mucha controversia


entre los estadı́sticos bayesianos ya que no puede interpretarse como una
densidad de probabilidad en el sentido tradicional. Claramente, en casos
de un espacio parametral no acotado, una densidad uniforme asigna una

57
medida infinita al espacio. Más generalmente, si ξ(θ) es cualquier función no
negativa definida en el espacio parametral Θ, tal que ξ(θ) >R 0, entonces ξ(θ)
es llamada una “cuasi densidad apriori.” Aquı́, la integral ξ(θ)dθ puede o
no converger.
Definición 6.1 Una cuasi densidad apriori ξ(θ) es llamada “admisible”
con respecto a una densidad f (x |θ ) definida para x ∈ X, si
Z
h(x) = f (x |θ ) ξ(θ)dθ < ∞
Θ
para casi todo x ∈ X.
Para cada cuasi densidad apriori ξ(θ) que sea admisible con respecto a
f (x |θ ), existe una densidad definida en Θ como sigue:
f (x |θ ) ξ(θ)
ξ ∗ (θ |x ) = .
h(x)
Si ξ(θ) es una densidad apriori propia, entonces, por el teorema
R
de Bayes,
ξ ∗ es una densidad posterior para dado x. Si, sin embargo, Θ ξ(θ)dθ = ∞,
entonces ξ(θ) es simplemente una sustitución formal en el teorema de Bayes.
Estrictamente hablando, el teorema no aplica más pero ξ ∗ es una densidad
de probabilidad propia en Θ, y ası́, un bayesiano entusiasta puede proceder
con su análisis usual tomando a ξ ∗ como su distribución posterior. Wallace
llama a ξ ∗ una densidad posterior débil.”

6.2. Apriori de Jeffreys


La distribución apriori de Jeffreys satisface la propiedad local de unifor-
midad para distribuciones apriori no informativas. Esta apriori está basada
en la matriz de información de Fisher. Jeffreys la propuso como una “regla
general” para determinar la distribución apriori (Kass y Wasserman, 1994).
Definición 6.2 Sea f (x|θ) la densidad de x dado θ. La información de
Fisher es definida como
" #
∂ 2 log (f (x|θ))
I(θ) = −E
∂θ2
Si θ es un vector de p componentes, entonces
" #
∂ 2 log (f (x|θ))
I(θ) = −E
∂θi ∂θj p×p

y entonces I(θ) será una matriz de dimensión p × p.

58
Definición 6.3 La distribución apriori de Jeffreys se define como

ξ(θ) ∝ |I(θ)|1/2

La distribución apriori de Jeffreys es localmente uniforme y por lo tanto


no informativa. Esta propiedad es importante ya que nos proporciona un
esquema automatizado para hallar distribuciones apriori no informativas
para cualquier modelo paramétrico (Ibrahim, 2002). Esta distribución es
impropia para muchos modelos, sin embargo, es propia para algunos.

Ejemplo 6.2 Asumamos que y1 , · · · , yn son variables distribuidas indepen-


dientemente Bernoulli(π). Encontremos la distribución apriori de Jeffreys
para π.
La densidad para una variable Bernoulli(π) es

p(y|π) = π y (1 − π)1−y

Entonces tenemos

log (p(y|π)) = y log(π) + (1 − y) log(1 − π)


∂ y 1−y
log (p(y|π)) = −
∂π π 1−π
∂2 y 1−y
2
log (p(y|π)) = − 2 −
∂π π (1 − π)2
" #
∂2
I(π) = −E log (p(y|π))
∂π 2
E(y) 1 − E(y) 1 1−π
= 2
+ 2
= +
π (1 − π) π (1 − π)2
1 1 1
= + = .
π 1−π π(1 − π)

Por lo tanto la distribución apriori de Jeffreys es

ξ(π) ∝ I(π)1/2
 1/2
1
=
π(1 − π)
= π −1/2 (1 − π)−1/2
= π 1/2−1 (1 − π)1/2−1

59
 
Ası́ π ∼ Beta 12 , 21 . Por lo que vemos en este caso la distribución apriori
de Jeffreys es propia.

Tuyl et al. (2008) discuten el caso donde en la muestra no se tienen éxitos


y comparan la apriori de Laplace y la de Jeffreys. Cuando este es el caso
la distribución de Jeffreys puede ser muy informativa, y selecciones de una
la familia Beta(α, β) que sea informativa también pueden ser excesivamente
informativas, por ejemplo para valores α < 1, sobrepasando la información
de la muestra.

Ejemplo 6.3 Asumamos que y1 , · · · , yn |µ son variables distribuidas normal


e independientemente con media µ y con varianza σ 2 desconocidas. Calcu-
lemos la distribución apriori de Jeffreys para (µ, σ)

 
1 1
f (x|µ, σ) = √ exp − 2 (x − µ)2
2πσ 2σ
1 1
log (f (x|µ, σ)) = − log(2π) − log(σ) − 2 (x − µ)2
2 2σ
∂ log (f (x|µ, σ)) 1
= (x − µ)
∂µ σ2
2
∂ log (f (x|µ, σ)) 1
= − 2
∂µ2 σ
∂ log (f (x|µ, σ)) 1 1
= − + 3 (x − µ)2
∂σ σ σ
2
∂ log (f (x|µ, σ)) 1 3
= − (x − µ)2
∂σ 2 σ2 σ4
∂ 2 log (f (x|µ, σ)) 2
= − 3 (x − µ)
∂µ∂σ σ

Tomando la esperanza obtenemos


!! " #
1
µ σ2
0
I = 2
σ 0 σ2

Ası́ la distribución apriori será


!! 1/2
µ

ξ(µ, σ) ∝ I
σ

60
 
1 2 1/2
= ×
σ2 σ2
1

σ2
Esta distribución apriori de Jeffreys es impropia.

La distribución apriori de Jeffreys tiene la propiedad de invarianza, ya


que para cualquier otra transformación uno a uno sigue siendo no informa-
tiva. Esto surge de la relación
 2
dψ(θ)
I(θ) = I(ψ(θ))

donde ψ(θ) es una transformación uno a uno de θ. Ası́

1/2 1/2 dψ(θ)
(I(θ)) = (I(ψ(θ)))



Note que dψ(θ)
dθ es el valor absoluto del jacobiano de la transformación de
θ a ψ(θ). Ası́

(I(θ))1/2 dθ = (I(ψ))1/2 dψ
La apriori de Jeffreys preserva la escala en parametrizaciones.

Ejemplo 6.4 Supongamos x ∼ N (µ, 1). La distribución apriori de Jeffreys


para µ es ξ(µ) ∝ 1. Sea ψ(µ) = eµ . Esta es una transformación uno a uno
en µ. La correspondiente apriori de jeffreys para ψ(µ) es


dψ(µ) −1
(I(ψ(µ)))1/2 = (I(µ))1/2

= 1 × e−µ
= e−µ
Ası́ la distribución apriori de Jeffreys para ψ(µ) = eµ es

ξ(µ) ∝ e−µ , −∞ < µ < ∞.


La propiedad de invarianza significa que si tenemos una distribución
apriori localmente uniforme en θ, y si ψ(θ) es una función uno a uno de θ,
entonces ξ (ψ(θ)) es una distribución apriori localmente uniforme para ψ(θ).

61
Ejemplo 6.5 Apriori de Jeffreys para una binomial y una binomial
negativa. Según el principio de verosimilitud no existe diferencias entre la
información proporcionada por los dos esquemas de muestreo. Sin embargo
si se escoge una distribución no informativa de Jeffreys para el caso binomial,
ésta es

ξ(θ) ∝ θ−1/2 (1 − θ)−1/2

Para el caso de la distribución binomial negativa, la distribución apriori de


Jeffreys es

ξ(θ) ∝ θ−1/2 (1 − θ)−1

Esto produce, usando esta distribución apriori, diferentes resultados infe-


renciales con la aposteriori (Berger y Wolpert, 1988). Este es un problema
que tiene esta aproximación para construir aprioris en forma automatiza-
da, donde el esquema de muestreo es el que nos determina la distribución
apriori.

6.3. Otras Alternativas


Definición 6.4 (Distribución Apriori de Máxima Entropı́a) Cuando
θ es univariable y puede tomar cualquier valor sobre la recta real, y la media
y la varianza apriori están especificadas, la distribución apriori de máxima
entropı́a es la Normal con la media y la varianza especificadas.

En caso de soporte finito la distribución de máxima es la uniforme, sin


embargo cuando existe alguna información previa, por ejemplo una media,
entonces se construye esta apriori teneindo en cuenta esta restricción. Consi-
deremos el siguiente ejemplo, donde el soporte es finito y contable, digamos
θ1 , . . . , θk , con E [θ] = C, entonces debemos entonces maximizar
k
X
H=− p (θi ) log (p (θi ))
i=1

sujeto a la restricción
k
X
θi p (θi ) = C
i=1

62
y que
k
X
p (θi ) = 1
i=1

Los p (θi ) que resuelvan este problema forman la distribución de máxima


entropı́a.
Como una ilustración consideremos el siguiente caso (McGee, 1971): El
espacio parametral es Θ = {1, 2, 3, 4, 5} con E(θ) = 2. La solución aproxi-
mada es p1 = 0,459, p2 = 0,261, p3 = 0,148, p4 = 0,084, p5 = 0,048. Esto
puede hallarse vı́a algorı́tmos genéticos.
Kass y Wasserman (1994) presentan la definición planteada por Novick
y Hall:

Definición 6.5 (Distribución Apriori Indiferente) Se define una dis-


tribución apriori indiferente si identificando una clase de conjugadas se se-
lecciona una apriori de esta clase que satisfaga:
La apriori debe ser impropia y

una “muestra mı́nima necesaria” debe inducir una posterior propia.

Un ejemplo de la anterior definición es claro en el problema binomial,


con la clase conjugada de las Betas, la distribución apriori {π(1 − π)}−1 es
una apriori indiferente. Esta distribución apriori se conoce como la apriori de
Haldane. Esta distribución es impropia. Si se trabaja con una distribución
de Laplace para el (π) = log(π/1 − π), entonces la distribución sobre π
será esta (Zhu y Lu, 2004).
Bernardo (1979) propone la distribución apriori de referencia que hace
referencia a una apriori no informativa que maximize la información muestral
de la distribución posterior. Esto se hace en términos de distancia entre
distribuciones, la apriori y la aposteriori. En muchos caso esta distribución
coincide con la no informativa de Jeffreys.
Box y Tiao (1973) proponen el uso de distribuciones apriori localmente
uniformes, las cuales consideran el comportamiento local de la apriori en
una región donde la verosimilitud es apreciable, pero la apriori no se asume
grande por fuera de esa región.

Ejemplo 6.6 Distribución Poisson y los goles del local.


Consideremos los goles del local marcados en cada torneo del fútbol
colombiano. Si se utiliza una distribución apriori no informativa tenemos
varias alternativas :

63
Apriori no informativa uniforme de Laplace

π(λ) ∝ 1

Apriori de Jeffreys
π(λ) ∝ λ−1/2

Si usamos una apriori no informativa de Laplace como apriori inicial y


si cada distribución posterior sirve como apriori del torneo siguiente y asu-
miendo que el número de goles marcados por el local sigue una distribución
Poisson con parámetro λ, la aposteriori será Gamma.

Número de Goles Número Total Promedio


Torneo 0 1 2 3 4 5 6 7 Partidos Goles de Goles α β
2000-1 28 60 51 26 6 3 2 0 176 291 1.6534 291 176
2000-2 38 55 39 33 9 2 0 0 176 278 1.5795 569 352
2001-1 35 55 53 24 5 3 1 0 176 274 1.5568 843 528
2001-2 37 57 45 27 7 2 1 0 176 272 1.5455 1115 704
2002-1 47 65 64 13 6 2 1 0 198 272 1.3737 1387 902
2002-2 38 75 45 33 7 0 0 0 198 292 1.4747 1679 1100
2003-1 28 59 53 17 4 0 1 0 162 238 1.4691 1917 1262
2003-2 31 63 40 23 5 0 0 0 162 232 1.4321 2149 1424
2004-1 31 58 46 17 8 2 0 0 162 243 1.5000 2392 1586
2004-2 34 62 38 21 5 1 1 0 162 232 1.4321 2624 1748
2005-1 36 62 39 21 2 2 0 0 162 221 1.3642 2845 1910
2005-2 31 56 45 17 10 2 0 0 161 247 1.5342 3092 2071
2006-1 38 58 42 13 8 1 2 0 162 230 1.4198 3322 2233
2006-2 26 61 39 27 8 1 0 0 162 257 1.5864 3579 2395
2007-1 27 54 56 16 7 1 1 0 162 253 1.5617 3832 2557
2007-2 35 65 34 17 7 1 1 0 160 223 1.3938 4055 2717
2008-1 30 60 38 23 8 2 0 1 162 254 1.5679 4309 2879
2008-2 35 62 40 16 7 2 0 0 162 228 1.4074 4537 3041
2009-1 34 59 41 21 6 0 1 0 162 234 1.4444 4771 3203
2009-2 22 60 43 22 12 3 0 0 162 275 1.6975 5046 3365

64
Media Varianza Perc. 0.05 Mediana perc. 0.95
1 1.6534 0.0094 1.4973 1.6515 1.8160
2 1.6165 0.0046 1.5067 1.6155 1.7295
3 1.5966 0.0030 1.5072 1.5960 1.6881
4 1.5838 0.0022 1.5066 1.5833 1.6626
5 1.5377 0.0017 1.4704 1.5373 1.6062
6 1.5264 0.0014 1.4656 1.5261 1.5881
7 1.5190 0.0012 1.4624 1.5188 1.5765
8 1.5091 0.0011 1.4560 1.5089 1.5631
9 1.5082 0.0010 1.4578 1.5080 1.5593
10 1.5011 0.0009 1.4533 1.5010 1.5497
11 1.4895 0.0008 1.4439 1.4894 1.5358
12 1.4930 0.0007 1.4491 1.4928 1.5374
13 1.4877 0.0007 1.4455 1.4875 1.5304
14 1.4944 0.0006 1.4535 1.4942 1.5357
15 1.4986 0.0006 1.4590 1.4985 1.5387
16 1.4925 0.0005 1.4541 1.4923 1.5312
17 1.4967 0.0005 1.4594 1.4966 1.5344
18 1.4919 0.0005 1.4557 1.4918 1.5286
19 1.4895 0.0005 1.4542 1.4894 1.5252
20 1.4996 0.0004 1.4650 1.4995 1.5344

65
1.8
1.7
Gol Promedio

1.6
1.5
1.4
1.3

5 10 15 20

Torneo

Figura 6.1: Distribuciones Apriori No Informativa Laplace para iniciar el


proceso. Las Aposterioris son Gamma(α, β) para el problema de los goles del
local bajo el supuesto que se distribuye Poisson con parámetro λ. Las lı́neas
correspondientes a los cı́rculos son los percentiles 0.05 y 0.95, mientras que
la lı́nea que tiene los triángulos representa la mediana de las distribuciones
aposteriori. La lı́nea en gris con las cruces corresponde a las medias mues-
trales del proceso. Observamos la gran variabilidad de las medias muestrales
comparadas con la mediana de las distribuciones aposterioris.

66
Capı́tulo 7
Marginalización

Mucho del trabajo estadı́stico aplicado se centra sobre ciertos paráme-


tros que son de interés primario por parte del investigador, por ejemplo los
parámetros de localización. Un ingeniero en contro de calidad puede tener
interés en la variabilidad de un proceso, por lo tanto los demás parámetros
pasan a ser secundarios. La marginalización es un concepto fundamental
en el trabajo bayesiano. Los parámetros de moslestia (nuisance parameters)
han recibido atención en la estadı́stica clásica durante mucho tiempo, llevan-
do a diferentes soluciones sobre las cuales no hay total acuerdo. En muchas
situaciones tenemos un vector de parámetros, pero solo estamos interesa-
dos realmente en unos pocos. Debemos por lo tanto proceder a “eliminar”
aquellos términos de molestia. Esto lo hacemos mediante la marginalización.

Suponga que x , · · · , x es una muestra aleatoria de una N µ, σ 2 , donde
 1 n
µ, σ 2 son desconocidos. Sea τ = 1/σ 2 . Suponga que especificamos una
apriori no informativa de Jeffreys
 
ξ µ, σ 2 ∝ τ

Ahora,
( n
)
n τX
ξ (µ, τ |x) ∝ τ 2
−1
exp − (xi − µ)2 .
2 i=1

Ası́, para eliminar el término nuisance τ marginalizamos


Z ( n
)
∞ n τX
ξ (µ |x) ∝ τ 2
−1
exp − (xi − µ)2 dτ.
0 2 i=1

67
No es difı́cil llegar a
Z (
n  ) 
∞ n
−1 τX 2 nτ 2
ξ (µ |x) ∝ τ 2 exp − (xi − x̄) exp − (x̄ − µ) dτ.
0 2 i=1 2

Sea
n
1 X
s2 = (xi − x̄)2
n − 1 i=1

Entonces

Z  
∞ n
−1 τ 2 2
ξ (µ |x) ∝ τ 2 exp − (n − 1)s + n(µ − x̄) dτ
0 2
 −n/2
∝ (n − 1)s2 + n(µ − x̄)2
 −(n−1+1)/2
n
∝ 1+ (µ − x̄)2
(n − 1)s2

Ası́
!
s2
µ|x ∼ t n − 1, x̄,
n

Por lo tanto
µ − x̄
√ ∼ t(n−1)
s/ n

A pesar de haber llegado a un resultado que es de uso común en la estadı́stica


clásica, la interpretación aquı́ es diferente.

Ejemplo 7.1 Eliminando otro término de molestia. En el ejemplo


anterior supongamos que el término de molestia es µ. Debemos por lo tanto
halla ξ (τ |x). procedemos de manera similar

Z  
τ
∞ n
−1

ξ (τ |x) ∝ τ exp − (n − 1)s2 + n(µ − x̄)2
2 dµ
−∞ 2
  
n−1
−1 τ 2
∝ τ 2 exp − (n − 1)s
2
Ası́

68
!
n − 1 (n − 1)s2
τ |x ∼ Gamma ,
2 2

De lo anterior obtenemos que

(n − 1)s2 τ ∼ ξn−1
2

[1] presenta conceptos tales como la distribución posterior perfilada. Si


tenemos un problema donde exista un parámetro de molestia (θ, ν) y el
parámetro de interés es θ, a ν se le conoce como un parámetro de molestia
(nuisance) y la dsitribución posterior es ξ (θ, ν |x ), si la apriori que se ha
usado es una distribución no informativa, esta posterior será proporcional
a la verosimilitud. La marginalizqación equivaldrı́a a lo que se conoce co-
mo una verosimilitud integrada. Otra alternativa es considerar la posterior
perfilada, en la cual el parámetro de molestia se elimina remplazando este
parámetro por el valor ν̂(θ) que maximiza la verosimilitud conjunta. Esta
posterior perfilada será

ξ P (θ |x ) ∝ ξ (θ, ν̂(θ) |x )

Si la apriori es una uniforme, entonces esto se conoce como la verosimilitud


perfilada. Desde el punto bayesiano es preferible trabajar marginalizando,
sin embargo en algunos casos pudiera ser mejor considerar la perfilada por
cuestiones computacionales.
Una ayuda es considerar transformaciones que produzcan una matriz
de varianzas y covarianzas entre θ y ν cercana a una matriz diagonal. El
concepto de independencia es cercano al de ortogonalidad en la estadı́stica
clásica. Si l(θ, ν) denota la log-verosmilitud de (θ, ν), entonces la matriz de
información observada se define como
" #
∂ 2 l(θ,ν) ∂ 2 l(θ,ν)
I(θ, ν) = − ∂θ 2 ∂θ∂ν
∂ 2 l(θ,ν) ∂ 2 l(θ,ν)
∂θ∂ν ∂ν 2
 
evaluada en el estimador de máxima verosimilitud θ̂, ν̂ de (θ, ν). Los
parámetros
  se dice que son ortogonales si la matriz anterior evaluada en
θ̂, ν̂ es diagonal.

69
70
Capı́tulo 8
Inferencia Bayesiana

8.1. Estimación Puntual


Dada una distribución sobre un parámetro particular, digamos θ, reque-
rimos seleccionar un mecanismo para escoger un “buen” un estimador θ̂.
Supongamos que θ0 es el verdadero parámetro, desconocido. Sea d nuestra
adivinanza de este valor. Debemos de alguna forma medir el error que co-
metemos (digamos que esto puede ser una multa o un pago) al adivinar a θ0
mediante d. Esto puede ser medido por (d − θ0 )2 o por |d − θ0 | o mediante
alguna otra función.
Un problema estadı́stico puede resumirse como (S, Ω, D, L), donde
S: Es el espacio muestral de un experimento relevante que tiene asociada
una variable aleatoria X cuya distribución de probabilidad está para-
metrizada por un elemento de Ω.
Ω: Espacio parametral (en un sentido amplio)
D: Un espacio de decisiones
L: Una función de pérdida.
Una vez un problema estadı́stico ha sido especificado, el problema de
inferencia estadı́stica es seleccionar un procedimiento (estadı́stico), a veces
llamado una función de decisión, que nos describe la forma de tomar una
decisión una vez un resultado muestral ha sido obtenido.

Definición 8.1 Una función de decisión o procedimiento estadı́stico es una


función o estadı́stico d que mapea de S a D.

71
Definición 8.2 Sea D un espacio arbitrario de decisiones. Una función no
negativa L que mapea de Ω × D a R es llamada una función de pérdida.

Definición 8.3 El valor esperado de L(θ, d(X)) cuando θ es el verdadero


valor es llamada la función de riesgo
Z
R(θ, d) = Eθ [L (θ, d(X))] = L (θ, d(x)) dPθ (x)

Función de Pérdida Cuadrática:

L(d, θ) = (d − θ)2

Miremos el riesgo para esta función de pérdida. Sea


Z
b = Eξ(θ|x) (θ) = θ ξ (θ|x) dθ

el promedio de la distribución aposteriori. Entonces

Z
E [L(d, θ)] = L(a, θ) ξ (θ|x) dθ
Z
= (a − b + b − θ)2 ξ (θ|x) dθ
Z
2
= (a − b) + (b − θ)2 ξ (θ|x) dθ
Z
≥ (b − θ)2 ξ (θ|x) dθ
,

para cualquier valor de d. La desigualdad anterior se convierte en igual-


dad cuando d = b. El estimador bayesiano bajo una función de pérdida
cuadrática es la media de la distribución posterior.
Función de Pérdida Error Absoluto:

L(d, θ) = |d − θ|

El riesgo es minimizado tomando d como la mediana de la distribución


posterior, digamos d∗ . O sea, la mediana es el estimador bayesiano
cuando la función de pérdida es el valor absoluto. Para mostrar esto
supongamos otra decisión tal que d > d∗ . Entonces

72

 ∗
 d −d si θ ≥ d,
|θ − d| − |θ − d∗ | = d + d∗ − 2θ si d∗ < θ < d,

 d − d∗ si θ ≤ d∗ .

Ya que (d + d∗ − 2θ) > (d∗ − d) cuando d∗ < θ < d, entonces el siguiente


resultado se consigue

E(|θ − d| − |θ − d∗ |) ≥ (d∗ − d)P (θ ≥ d) + (d∗ − d)P (d∗ < θ < d)

+(d − d∗ )P (θ ≤ d∗ )
= (d − d∗ ) [P (θ ≤ d∗ ) − P (θ > d∗ )] ≥ 0
Esta última desigualdad sigue del hecho que d∗ es la mediana de la distribu-
ción de θ. La primera desigualdad en este conjunto de ecuaciones será una
igualdad si, y solo si, P (d∗ < θ < d) = 0. La desigualdad final será una
igualdad si, y solo sı́,

1
P (θ ≤ d∗ ) = P (θ > d∗ ) = .
2
Estas condiciones implican que d es también una mediana. Por lo tanto,
E(|θ − d|) ≥ E(|θ − d∗ |), y la igualdad se cumple si, y solo si, d es también
mediana.
Una prueba similar puede hacerse si d < d∗ .

Función de Pérdida Error Absoluto Asimétrica:

L(d, θ) = (1 − p) |d − θ| si d < θ
= p |d − θ| si d ≥ δ

donde 0 < p < 1. Bajo esta función de pérdida el estimador bayesiano se


encuentra resolviendo la siguiente ecuación
Z d
ξ (θ |x|) dθ = p
−∞

Función de Pérdida para un Espacio Parametral Discreto:

L(d, θ) = 0 si d = θ
= 1 si d 6= θ

73
Función de Pérdida Escalonada:

L(d, θ) = 0 si |d − θ| ≤ δ
= 1 si |d − θ| > δ

donde δ es un número predeterminado, usualmente pequeño.

Z
E [L(d, θ)] = I (|d − θ| > δ) ξ (θ|x) dθ
Θ
Z
= I (1 − (|d − θ| ≤ δ)) ξ (θ|x) dθ
Θ
Z d+δ
= 1− ξ (θ|x) dθ
d−δ
≈ 1 − 2δξ (d|x)

Para minimizar el riesgo es necesario maximizar ξ (d|x) con respecto a d y el


estimador bayesiano es el maximizador. Por lo tanto, el estimador bayesiano
será el que maximiza la posterior, esto es, el valor modal. Este estimador es
llamado el estimador máximo-aposteriori (MAP).

Propiedad de Invarianza de los Estimadores de Máximo-Aposteriori


Sea θ = (θ1 , θ2 , · · · , θk ) el parámetro k-dimensional y sea Θ que denota
el espacio parametral. Se desea hallar el estimador de máximo aposteriori
de g = g (θ) = (g1 (θ) , g2 (θ) , · · · , gr (θ)), para 1 ≤ r ≤ k. Sea G que denota
el espacio parametral inducido por la transformación de Θ. G es un espacio
r-dimensional. Definamos

ξ ∗ (g |x1 , · · · , xn ) = sup ξ (θ |x1 , · · · , xn )


{θ : g(θ )=g }
ξ ∗ es algunas veces llamada la aposteriori inducida por g. Cuando estimamos
θ maximizamos la función de verosimilitud ξ (θ |x1 , , xn ) como función de θ
para valores fijos de la muestra. Cuando estimamos g(θ) = g maximizamos
la aposteriori inducida por la función g, ξ ∗ , como una función de g mante-
niendo fija la muestra. Ası́ el estimador de MAP de g(θ) = g, denotada por
ĝ, es cualquier valor que maximice la función aposteriori inducida para la
muestra fija; esto es, ĝ es tal que

ξ ∗ (ĝ |x1 , · · · , xn ) ≤ ξ ∗ (g |x1 , · · · , xn ) , ∀g ∈ G

74
 
Teorema 8.1 Propiedad de Invarianza Sea θ̂ = θ̂1 , θ̂2 , · · · , θ̂k , el esti-
mador MAP en la aposteriori ξ (θ |Datos ). Si g (θ) = (g1 (θ) , g2 (θ) , · · · , gr (θ)),
para 1 ≤ r ≤ k, es una transformación del espacio parametral Θ, entonces
un estimador MAP en la densidad inducida aposteriori es g(θ̂).

Prueba:  
Sea θ̂ = θ̂1 , θ̂2 , · · · , θ̂k el MAP. Es suficiente mostrar que
 
ξ ∗ g(θ̂) |x1 , · · · , xn ≤ ξ ∗ (g(θ) |x1 , · · · , xn )

para todo θ ∈ Θ, lo cual sigue inmediatamente de la desigualdad

ξ ∗ (g |x1 , · · · , xn ) = sup ξ (θ |x1 , · · · , xn )


{θ : g(θ )=g }
≤ sup ξ (θ |x1 , · · · , xn )
θ ∈Θ
 
= ξ θ̂ |x1 , · · · , xn
= n sup o ξ (θ |x1 , · · · , xn )
θ : g(θ )=g(θˆ )
   
= ξ ∗ g θ̂ |x1 , · · · , xn

Una estimación que puede ser utilizada en una o más dimensiones, espe-
cialmente cuando la función de pérdida no ha sido definida explı́citamente,
es el valor del parámetro en el cual se maximiza la disribución posterior.
Para cualquier observación de x, sea ψ(·|x) que denota la distribución pos-
terior de W en el espacio parametral Ω. Sea ŵ(x) el valor de w que satisface
la relación

Ejemplo 8.1 Estimación Puntual de la Media de una Población


Normal con Varianza Conocida.
Datos: y = (y1 , y2 , · · · , yn )0 . Asumimos que yi ∼ N (θ, σ 2 ), para todo
i = 1, 2, · · · , n. y la varianza es conocida.
Distribución Apriori para θ:
 
θ ∼ N µo , σo2 ,
o !
1 (θ − µo )2
ξ(θ) ∝ exp −
2 σo2

75
Verosimilitud:
!
  n
Y 1 (yi − θ)2
2
f y|θ, σ = √ exp −
i=1 2πσ 2 2σ 2
n
!
X (yi − θ)2
∝ exp −
i=1
2σ 2

Distribución Aposterior: Se aplica la regla de Bayes

ξ (θ|y) ∝ ξ(θ) · f (y|θ)


∝ ξ(θ) · L (θ|)
! n
!
1 (θ − µo )2 X (yi − θ)2
∝ exp − exp −
2 σo2 i=1
2σ 2
( n
)!
1 (θ − µo )2 X (yi − θ)2
∝ exp − +
2 σo2 i=1
σ2

La distribución posterior se puede reorganizar y mostrar que


 
θ|y ∼ N µn , σn2

donde
1
µ + σn2 ȳ
σo2 o τo µo + nrȳ
µn = 1 =
σo2
+ σn2 τo + nr
y
1 1 n
2
= 2+ 2
σn σo σ
Bajo las tres funciones de pérdida el estimador bayesiano para la media
será

θ̂ = µn .

Ejemplo 8.2 Caso Poisson.


Sea y1 , · · · yn una muestra aleatoria de una P oisson(λ). Supongamos
también que la apriori es una Gamma(1, 1). Por lo tanto la aposterior
P
será Gamma(1 + ni=1 yi , n + 1).
El estimador bayesiano para λ

76
bajo la función de pérdida cuadrática es
P
1 + ni=1 yi
λ̂ =
n+1

bajo la función de pérdida escalonada


nP
α∗ − 1 i=1 yi
λ̂ = ∗
= si α∗ ≥ 1
β n+1

La siguiente función en R calcula los tres estimadores, bajo el supuesto


de una aprori Gamma(α0 , β0 ) :

calcula.estimadores.poisson<-function(alfa0,beta0,x,n=lenght(x))
{
alfa1<-alfa0+sum(x)
beta1<-beta0+n
estimador.fpc<-alfa1/beta1
estimador.fpa<-qgamma(0.5,alfa1,beta1)
estimador.fpe<-(alfa1-1)/beta1
list(estimador.fpc=estimador.fpc,
estimador.fpa=estimador.fpa,
estimador.fpe=estimador.fpe)
}

La utilización será
> calcula.estimadores.poisson(1,1,16,n=4)

$estimador.fpc
[1] 3.4

$estimador.fpa
[1] 3.333571

$estimador.fpe
[1] 3.2

Definición 8.4 Estimador generalizado de máxima verosimilitud


Si tal valor de w existe para todo valor de x,

ξ [ŵ(x)|x] = sup ξ(w|x)


w∈Ω

77
Densidades en el Problema Poisson

0.7
0.6
Gamma(1,1)
Gamma(17,5)

0.5
Posterior
Apriori

0.4
Densidad
Verosimilitud

0.3
Verosimilitud

0.2
0.1
0.0 0 2 4 6 8 10

Figura 8.1: Distribuciones Apriori Gamma(α0 = 1, β0 = 1) y Aposteriori


Gamma(α1 = 17, β1 = 5) para un problema de conteo Poisson con paráme-
P
tro λ . La muestra n = 4 y 4i=1 yi = 16.

entonces decimos que el estimador ŵ(X) es un estimador generalizado de


máxima verosimilitud de W .

Ejemplo 8.3 Goles del equipo visitante. Consideremos el número de


goles marcados por el equipo visitante en el torneo profesional de fútbol
colombiano. Bajo el supuesto que que esta variable se distribuye Poisson
con parámetro λ y que tenemos los datos:

Goles del Visitante


Torneo 0 1 2 3 4 5
2008-I 61 63 27 9 2 0
2008-II 76 56 23 5 2 0

Si la apriori inicial se escoge no informativa de Laplace entonces

P
xi
ξ1 (λ|T orneoI − 2008) ∝ λ exp (−nλ)ξ0 (λ)
∝ λ(61×0+63×1+27×2+9×3+2×4) exp (−162λ)
∝ λ(152) exp (−162λ)

78
O sea, ξ1 es una Gamma(153, 162)
Considerando los datos del segundo torneo la aposteriori es una Gamma(153+
125, 162 + 162), o sea una Gamma(278, 324).
La media aposteriori es
278
= 0,8580247
324
La moda aposteriori es
277
= 0,8549383
324

8.2. Regiones de Credibilidad


Los intervalos de confianza clásicos frecuentemente son malinterpreta-
dos y los usuarios actúan como si “grado de confianza” fuera sinónimo de
uniformidad dentro del intervalo.

8.2.1. Región de la Densidad Posterior Más Alta (RDPMA)


Si p(θ|Y ) denota la densidad posterior entonces podemos definir un in-
tervalo de credibilidad utilizando la RDPMA.

Definición 8.5 (Box y Tiao, 1973) Una región R en un espacio parametral


Θ es llamada la región de la densidad posterior más alta (RDPMA) de
contenido α si
1. P (θ ∈ R|Y ) = α

2. Para θ1 ∈ R y θ2 6∈ R, se cumple P (θ1 ∈ R|Y ) ≥ P (θ2 ∈ R|Y ).

Para un contenido de probabilidad α, la RDPMA tiene el volumen más


pequeño en el espacio parametral. Hyndman (1996) presenta diversos gráfi-
cos para representar estas regiones.

Ejemplo 8.4 Distribución Exponencial. Elfessi y Reineke (2001) cons-


truyen intervalos de credibilidad para la media de la distribución exponencial
bajo una distribución apriori propia conjugada

ξ(θ) = θα−1 exp (−βθ)

79
para θ > 0, −∞ < α < ∞ y β ≥ 0. Note que esta distribución apriori corres-
ponde al kernel de una distribución gamma cuando α ≥ 0. La distribución
aposteriori es por lo tanto
( n
)!
X
n+α−1
ξ (θ|x1 , · · · xn ) ∝ θ exp −θ β + xi
i=1

Esta distribución posterior es propia cuando α + n > 0, y la constante de


proporcionalidad es
P
(β + ni=1 )α+n
.
Γ(α + n)

El intervalo de credilidad de probabilidad C100 % es


!
χ22(α+n),(1−(1−C)/2) χ22(α+n),((1−C)/2)
P , P
2 (β + ni=1 xi ) 2 (β + ni=1 xi )

Ejemplo 8.5 Tiempo hasta el primer gol. Del primer torneo de fútbol
del 2005 consideramos los tiempos hasta que se marcó el primer gol (en
partidos en los cuales se marcó al menos un gol). Si asumimos que el tiempo
hasta el primer gol se distribuye exponencial y que la apriori es una no
informativa de Jeffreys, entonces la aposteriori será
n
!
X
gamma n, xi
i=1

> tiempo<-scan()
1: 9 80 22 46 9 73 91 62 59 6 46
12: 27 19 77 9 29 60 75 75 16 21
22: 40 24 66 83 55 27 50 81 33 43
32: 67
33:

> s.x<-sum(tiempo)
> s.x
[1] 1480
> n<-length(tiempo)

80
> n
[1] 32
> qgamma(c(0.025,0.975),n,rate=s.x)
[1] 0.01478917 0.02973110
> 1/qgamma(c(0.025,0.975),n,rate=s.x)
[1] 67.61703 33.63482

Ejemplo 8.6 Distribución Uniforme. Rossman et al. (1998) presentan


la contrucción de la región de mayor probabilidad para el “parámetro” de la
distribución uniforme U (0, θ). La estadı́stica clásica nos presenta, asumien-
do que X1 , · · · , Xn sea una muestra aleatoria,

Estimador de Máxima Verosimilitud máx {Xi }

n+1
Estimador de Mı́nima Varianza Insesgado n máx {Xi }

Si escogemos una distribución apriori impropia o aplanada de la forma


ξ(θ) = 1 para θ > 0, la distribución posterior es proporcional a la función
de verosimilitud,
1
ξ (θ|X) ∝ para θ ≥ máx {Xi }
θn
La constante de proporcionalidad, que vuelve la distribución posterior
propia es (n − 1) (máx {Xi })n−1 . Bajo la función de pérdida cuadrática el
estimador bayesiano es igual a la media aposteriori
Z ∞ n−1
E[θ|X] = θ · ξ (θ|X) dθ = máx {Xi }
−∞ n−2

Un intervalo de probabilidad del 95 % se halla resolviendo


Z LS (n − 1) (máx {Xi })n−1

LI θn

Ejemplo 8.7 Intervalo para la Poisson. La siguiente función permite


construir un intervalo del 95 % de probabilidad de la mayor densidad para
el parámetro de la Poisson

81
intervalo.poisson <-function(a,b){

x1<-1:499/10000
x2<-0.950+x1
dif<-abs(dgamma(qgamma(x1,a,rate=b),a,rate=b)
-dgamma(qgamma(x2,a,rate=b),a,rate=b))
x3<-qgamma(x1[which.min(dif)],a,rate=b)
x4<-qgamma(x2[which.min(dif)],a,rate=b)
list(x3=x3,x4=x4)
}

En el ejemplo que tenı́amos nos da


> intervalo.poisson(17,5)
$x3
[1] 1.871629

$x4
[1] 5.045115
Mientras que el intervalo tradicional hallado con ambas colas iguales a
α/2 es
$x3
[1] 1.980625

$x4
[1] 5.1966

Selección de valores de α y β
Se seleccionaron valores de α y β tales que la media de la distribución
apriori sea pequeña
La distribución Gamma es muy sesgada a la derecha (la mayor parte
de la densidad se halla a la derecha de la media)
Se seleccionó una media igual a uno, razón para hacer α = β, lo que
controlamos es la varianza, que es la que nos da una medida del grado
de incertidumbre y entre más pequeño sea α mayor será la varianza.
En el año 1996, en el tramo La Pintada-Primavera (Tramo 2509), se
registraron 152 accidentes, y no hubo muertes. Si estamos interesados en es-
timar la tasa de muertes por accidentes tenemos la siguiente tabla aplicando
la metodologı́a anterior

82
Método Intervalo
Bayesiano (0,0.0126)
Cota Máxima (0,0.0197)
Factor de Correción (0,0.385)

8.2.2. Intervalos Aproximados


Un intervalo de verosimilitud, I (θ; β |x ), se define como
n  o
I (θ; β |x ) = θ; l (θ |x ) ≥ e−β l θ̂ |x

donde β es una constante positiva.


Hudson (1971) en el área de intervalos de confianza vı́a función de ve-
rosimilitud presenta la definición de “forma estándar” para la función de
verosimilitud como
Decimos que una función de verosimilitud tiene la forma estándar si

1. θ̂ es único,

2. l(θL ) = 0 = l(θR ) para algún θL ≤ θ̂ ≤ θR y

3. l(θ) es monotónica sobre θL ≤ θ ≤ θ̂ y monotónica decreciente sobre


θ̂ ≤ θ ≤ θR .

Los anteriores conceptos pueden generalizarse al caso de la distribución


posterior y tendrı́amos entonces las siguientes definiciones:

Definición 8.6 Intervalo verosı́mil posterior. Un intervalo de probabi-


lidad verosimilitud-posterior, I (θ; β |x ), se define como
n  o
I (θ; β |x ) = θ; ξ (θ |x ) ≥ e−β ξ θM oda |x

donde β es una constante positiva.

Definición 8.7 Aposteriori con forma estándar. Decimos que una den-
sidad posterior tiene la forma estándar si

1. θM oda es único,

2. ξ(θL ) = 0 = l(θR ) para algún θL ≤ θM oda ≤ θR y

3. ξ(θ) es monotónica sobre θL ≤ θ ≤ θM oda y monotónica decreciente


sobre θM oda ≤ θ ≤ θR .

83
Si asumimos una apriori de Laplace, los intervalos de probabilidad apos-
teriori pueden ser calculados aproximadamente mediante esta metodologı́a.
Si la distribución poblacional es N (µ, 1) y la apriori ξ (µ) ∝ k, entonces
un intervalo aproximado con probablidad 0.954 es
 
1 1
x̄ − 2 √ ; x̄ + 2 √
n n

8.3. Pruebas de Hipótesis


Ejemplo 8.8 Poderes Sobrenaturales. Bayarri y Berger en la reunión
anual que se lleva a cabo en Valencia (España) presentaron el siguiente caso
de sicokinesis: Tres investigadores (Schmidt, Jahn y Radin) en 1987 utili-
zaron un generador cuántico que recibe una fila de partı́culas y él desvı́a
cada partı́cula, independientemente de las otras, hacia una luz roja o una
luz verde con igual probabilidad. Se le pidió a un sujeto quien alegaba tener
poderes sicokinéticos que tratara de influenciar el generador de tal forma que
las partı́culas se fueran para la luz roja. Se generaron 104.490.000 partı́culas
y se contaron 52.263.470 partı́culas que se fueron hacia la luz roja. Habrá su-
ficiente evidencia que permita decir que el sujeto tiene poderes sicokinéticos?
Podemos pensar en este exprimento ası́: Cada partı́cula corresponde a
un ensayo Bernoulli(π), y un éxito será si la partı́cula se va para la luz
roja. Si X denota el número de éxitos, X ∼ Binomial (n, π). Tenemos x =
52,263,470 como la observación real. Se necesita probar

1
H0 : π = (El sujeto no tiene poderes)
2
1
H1 : π 6= (El sujeto tiene poderes)
2

El valor − p = PH0 X − n2 ≥ x − n2 ≈ 0,0003 nos lleva a concluir que
hay una fuerte evidencia contra H0 .
Si pensamos bayesianamente necesitamos una distribución apriori, pero
ahora definida sobre las hipótesis en juego:

ξ (Hi ) = probabilidad apriori de que Hi sea cierta, i = 0, 1.

Bajo H1 : π 6= 1/2, sea ξ(π) la densidad apriori sobre π. El Bayes objetivo


selecciona

84
1
P r (H0 ) = P r (H1 ) =
2
con ξ(π) = 1 (0 < π < 1)
La probabilidad posterior de la hipótesis

P r (H0 |x) = probabilidad de queH0 sea cierta dados los datos x


f (x|π = 1/2) P r (H0 )
= R
P r (H0 ) f (x|π = 1/2) + P r (H1 ) f (x|π) ξ(π) dπ

Para la apriori objetiva

P r (H0 |x = 52,263,470) ≈ 0,92

La densidad posterior en H1 : π 6= 1/2 es

ξ (π|x, H1 ) ∝ ξ(π)f (x|π) ∝ 1 × π x (1 − π)n−x ,

que es una Beta (52,263,470, 52,226,530)

“En cualquier etapa de conocimiemto es válido preguntar acerca de una


hipótesis que ha sido aceptada, ‘Cómo lo sabe?’ La respuesta usualmente
descansará en algunos datos observacionales. Si preguntamos adicionalmen-
te, ‘Qué pensaba ud. acerca de la hipótesis antes de que obtuviera los datos?’
nos pueden hablar de lagunos datos menos convincentes; pero si vamos lo
suficientemente atrás siempre llegaremos a una etapa donde la respuesta de-
be ser: ‘Yo pensé que valı́a la pena considerar el asunto, pero no tenı́a una
opinión acerca de si era cierta. ’ Cuál es la probabilidad en esta etapa? Ya
tenemos la respuesta. Si no hay razón para creer en una hipótesis en lugar de
otra, las probabilidades son iguales” (Jeffreys, 1961). La aproximación baye-
siana a las pruebas de hipótesis está basada en el cálculo de de la probabili-
dad condicional de una hipótesis Ho dada la información disponible, digamos
Io , esto es, p(H|Io ). Cuando la hipótesis nula es Ho : θ ∈ Θo y la alternativa
T
H1 : θ ∈ Θ1 , con Θo Θ1 = ∅, son formuladas, hay creencias apriori sobre
ambas, digamos ξ(Ho |Io ) y ξ(H1 |Io ), con ξ(Ho |Io ) + ξ(H1 |Io ) = 1. Por el
teorema de la probabilidad total, la distribución apriori de θ es:

ξ(θ|Io ) = ξ(θ|Ho , Io )ξ(Ho |Io ) + ξ(θ|H1 , Io )ξ(H1 |Io )

85
donde ξ(θ|Hi , Io ), son las densidades apriori de θ, condicionadas en cada
hipótesis. La información muestral es utilizada entonces para calcular de los
odds apriori:
ξ(Ho |Io )
ξ(H1 |Io )
los odds posteriores en favor de Ho :

ξ(Ho |I1 ) p(y|Ho ) ξ(Ho |Io )


=
ξ(H1 |I1 ) p(y|H1 ) ξ(H1 |Io )

de la cual se deriva la siguiente regla de decisión:

si ξ(Ho |I1 ) < ξ(H1 |I1 ) Rechace Ho


si ξ(Ho |I1 ) > ξ(H1 |I1 ) Acepte Ho
si ξ(Ho |I1 ) = ξ(H1 |I1 ) Indecisión acerca de Ho

Definición 8.8 (Factor de Bayes) La razón p(y|Ho )/p(y|H1 ) es llamado


el factor de Bayes, denotado por BF o B01 (y).

Si queremos probar

H0 : θ ∈ Θ0 versus H1 : θ ∈ Θ1

Sea f (x|θ) la verosimilitud de x dado θ. Tenemos las siguientes formas del


factor de Bayes

f (x|θ0 )
B01 (x) = (Prueba simple vs. simple)
f (x|θ1 )
f (x|θ0 )
B01 (x) = R (Prueba simple vs. compuesta)
Θ1 f (x|θ)ξ1 (θ)dθ
R
f (x|θ0 )ξ0 (θ)dθ
B01 (x) = RΘ0 (Prueba compuesta vs. compuesta)
Θ1 f (x|θ)ξ1 (θ)dθ

Jeffreys presenta los siguientes criterios sobre el factor de Bayes para


decidir cuándo optar por H0 :

86
1 < B Hipótesis Nula se sostiene
10−1/2 < B < 1 Evidencia contra H0 , pero
apenas para mencionar.
10−1 < B < 10−1/2 Evidencia sustancial contra H0 ,
10−3/2 < B < 10−1 Evidencia fuerte contra H0 ,
10−2 < B < 10−3/2 Evidencia muy fuerte contra H0 ,
B < 10−2 Evidencia decisiva contra H0 ,

Ejemplo 8.9 Continuación del ejemplo de Sicokinesia. Calculemos


el factor de Bayes para la situación del individuo con poderes.
 
1
f x π = 2
B01 = R 1 ≈ 12
0 f (x|π)ξ(π) dπ

P r(H0 |x) P r(H0 )


P r(H1 |x) = P r(H1 ) × B01
Note que
(Odds posterior) (Odds apriori) (Factor de Bayes)

Una región de credibilidad del 95 % para π bajo el supuesto de H1 es


C = (0,50008, 0,50027).

Cuando las probabilidades apriori son iguales, el factor de Bayes deter-


mina la regla de decisión. La evaluación del factor de Bayes involucra el
cálculo de
Z
p(y|Ho ) = p(y|Ho , θ)ξ(θ|Ho , Io ) dθ
Z
p(y|H1 ) = p(y|H1 , θ)ξ(θ|H1 , Io ) dθ

El factor de Bayes proporciona una indicación de cuánto cambian nues-


tras razones de probabilidad de una situación sin datos, a la luz de los
datos, para favorecer un modelo. Puede verse como una medida de la evi-
dencia proporcionada por los datos en favor de un modelo comparado con
un competidor. El logaritmo del factor de Bayes ha sido llamado el peso
de la evidencia proporcionada por los datos (De Santis y Spezzaferri, 1999;
McGee, 1971).

87
McGee (1971) presenta el factor de Bayes relacionándolo con la medida
del sonido conocida como decibeles. Él utiliza el logaritmo en base 10 para
esto. Ası́, para comparar la evidencia a favor dada por los datos hacia H0 ,
se determinarı́a ası́:
   
10 log10 PP r(H 0 |x)
r(H0 |x) = 10 log10 P r(H0 )
P r(H1 ) + 10 log10 (B01 )
ev (H0 |Datos ) = ev (H0 ) + 10 log10 (B01 )
(Evidencia posterior) = (Evidencia apriori) + (Evidencia en datos)

Por ejemplo, si tenemos dos hipótesis H1 y H2 y ξ (H1 ) = ξ (H2 ) = 0,5


y además la información muestral corresponde a un experimento Bernoulli
donde un éxito favorece H1 , y de 10 ensayos se observan 3 éxitos, entonces
la evidencia apriori a favor de H1 es
   
P r (H1 ) 0,5
10 log10 = 10 log10 =0
P r (H2 ) 0,5

Ahora, la evidencia en la muestra serı́a


   
P r (Resultado |H1 ) 0,3
10 log10 = 10 log10 = −3,679768
P r (Resultado |H2 ) 0,7

La evidencia a favor de H1 se redujo en 3.7 decibeles.

Ejemplo 8.10 La Prueba de Sabor (Sahu, 2000). Se conduce un


experimento para determinar si un individuo tiene poder discriminatorio.
El individuo debe identificar correctamente cuál de las dos marcas de un
producto ha recibido (obviamente las condiciones experimentales deben ser
óptimas). Si θ denota la probabilidad de que seleccione la correcta en el
i-ésimo ensayo, entonces la variable Bernoulli xi denota el resultado del
experimento, tomando el valor de 1 si acierta y 0 si falla. Supongamos que
en los 6 primeros ensayos los resultados son 1, 1, 1, 1, 1 y 0. Nuestro problema
es verificar
1 1
H0 : θ = versus H1 : θ > .
2 2
En este caso tenemos
 una hipótesis simple contra una compuesta donde
Θ0 = 21 y Θ1 = 21 , 1 . Asumamos una distribución apriori uniforme sobre
1
θ bajo la hipótesis alternativa. Ası́ ξ1 (θ) = 2 si 2 < θ < 1. Ahora el factor
de Bayes es

88
 6
1
2 1
B01 (x) = R 1 = .
1/2 θ5 (1 − θ)2dθ 2,86

Esto sugiere que esta persona parece tener algún poder discriminatorio, pero
no mucho.

El factor de Bayes puede verse como la versión bayesiana de la prueba


clásica de la razón de verosimilitudes (De Santis y Spezzaferri, 1999). Si se
asumen dos hipótesis simples, digamos θ 1 y θ 2 , el factor de Bayes se reduce
a la razón de verosimilitud f (y|θ 1 )/f (y|θ 2 ).

Ejemplo 8.11 Sean y1 , · · · , yn |θ variables independientes y distribuidas Pois-


son con parámtero θ. Ası́,

θyi e−θ
p (yi |θ) =
yi !

para θ > 0, yi = 0, 1, 2, · · ·. Sea H0 : θ = θ0 y H1 : θ = θ1 dos hipótesis


simples, con ξ (H0 |I0 ) = ξ (H1 |I0 ). El Factor Bayes es
 P yi
θ0 i
exp (θ1 − θ0 )
θ1

y por lo tanto, ya que la distribución apriori asigna igual probabilidad a las


hipótesis, la regla de decisión será aceptar H0 si el Factor de Bayes es mayor
que 1.

Ejemplo 8.12 Campeonato colombiano. Suponga que deseamos veri-


ficar si la hipótesis que el número promedio de goles del equipo local en el
campeonato colombiano es 1.0 ó menos es más plausible que si el promedio
es mayor que 1.0. Asumamos que el número de goles metidos por el local en
el primer tiempo se distribuye Poisson(λ). Las hipótesis serán:

H1 : λ ≤ 1

H2 : λ > 1

89
Datos observados: Campeonato 2002 I primeras 4 fechas Goles marcados
por el local el primer tiempo 0,1,0,2,1,0,2,1,1, 1,0,1,0,1,0,1,1,0, 0,0,3,0,0,0,0,1,0,
0,2,0,1,0,1,0,1,0.
P
Por suficiencia y = ni=1 xi ∼ P oisson(nλ). Suponga que apriori ξ(H1 ) =
0,4 y ξ(H2 ) = 0,6.
Bajo H1 la apriori sobre Θ1 la escogemos Beta(α0 , β0 ) y bajo H2 asu-
mimos una normal truncada con parámetros µ0 y σ02 . El factor de Bayes
es
R
p(y|H1 ) p(y|H1 , λ)ξ(λ|H1 ) dλ
=R
p(y|H2 ) p(y|H2 , λ)ξ(λ|H2 ) dλ

Ahora
Z
λy exp(−nλ)
p(y|Hi ) = ξ(λ|Hi ) dλ = Eξi [P (Y = y|λ)]
Θi y!

Para H1

Z 1 λy exp(−nλ) Γ (α0 + β0 ) α0 −1
p(y|H1 ) = λ (1 − λ)β0 −1 dλ
0 y! Γ (α0 ) Γ (β0 )

Un algoritmo que nos permite estimar este valor serı́a:

1. Genere λ1 , λ2 , · · · , λM de una Beta (α0 , β0 ).

2. Calcule pi = P (y|nλi ), i = 1, 2, · · · , M

3. Calcule

M
1 X
pi
M i=1

Para H2

Z  
∞ λy exp(−nλ) 1 1
p(y|H2 ) = √ exp − 2 (λ − µ0 )2 dλ
1 y! 2πσ0 2σ0

Un algoritmo que nos permite estimar este valor serı́a:

90
1. Calcule p∗ como P (X > 1) donde X ∼ (µ0 , σ02 )

2. Genere p∗1 , p∗2 , · · · , p∗M de una U nif orme (p∗ , 1).

3. Calcule λi tal que


Z λi  
1 1
√ exp − 2 (λ − µ0 )2 = p∗i
−∞ 2πσ0 2σ0

4. Calcule pi = P (y|nλi ), i = 1, 2, · · · , M

5. Calcule

M
1 X
pi
M i=1

# Ejemplo de Factor de Bayes


# Modelo muestral Poisson(lamb)
# H1: lam>=1
# H2: lam>1

# apriori bajo H1--> beta(a0,b0)


# apriori bajo H2--> normal tuncada(u0,s20)

# Datos observados: Campeonato 2002 I primeras 4 fechas


# Goles marcados por el local el primer tiempo

x<-c(0,1,0,2,1,0,2,1,1,
1,0,1,0,1,0,1,1,0,
0,0,3,0,0,0,0,1,0,
0,2,0,1,0,1,0,1,0)

a0<-1
b0<-1

> f.int<-function(la) la^22*exp(-36*la)/48


> integrate(f.int,0,1)
3.722885e-17 with absolute error < 1.6e-19
> f.int2<-function(la)
la^22*exp(-36*la)/48*(dnorm(la,1.5,sd=1)/(1-pnorm(1,1.5,sd=1)))
> integrate(f.int2,1,Inf)
1.661658e-19 with absolute error < 3.6e-22
> 3.722885e-17/1.661658e-19
[1] 224.0464

91
> # Cálculo del BF vı́a simulación
> # Valor de numerador
> lambdas<-matrix(rbeta(1000000,a0,b0),ncol=1)
> prob.pois<-function(lambda,x) exp(sum(dpois(x,lambda,log=T)))
> numerador<-mean(apply(lambdas,1,prob.pois,x))
>
> # Cálculo del denominador
> p.1<-pnorm(1,mean=u0,sd=sqrt(s20))
> p.s<-runif(1000000,p.1,1)
> lambdas<-matrix(qnorm(p.s,mean=u0,sd=sqrt(s20)),ncol=1)
> denominador<-mean(apply(lambdas,1,prob.pois,x))
>
> BF<-numerador/denominador
> BF
[1] 222.3040
> numerador
[1] 3.72909e-17
> denominador
[1] 1.677473e-19

> razon.apriori<-0.4/0.6
> razon.apriori
[1] 0.6666667
> 0.6666667* 120.0339
[1] 80.0226

Ejemplo 8.13 Comparación de dos proporciones. Un problema común


en estadı́stica es el de verificar que dos proporciones son iguales (H0 : π1 = π2 )
contra la alternativa H1 : π1 6= π2 . Bajo el supuesto de H0 solo tenemos
un párametro que puede tomar un valor en (0, 1) y por lo tanto necesita-
mos especificar una distribución apriori en esta situación, digamos ξH0 (π)
(podemos pensar en una Beta(α, β)), donde α y β se escogen de tal forma
que reflejen el conocimiento apriori (en caso de ignorancia podemos escoger
α = 1 y β = 1). Bajo la alternativa H1 debemos pensar en una distribu-
ción conjunta para (π1 , π2 ), digamos ξH1 (π1 , π2 ). Bajo la alternativa una
selección obvia es una uniforme en el área (0, 1) × (0, 1), con π1 6= π2 y esto
corresponde al producto de dos uniformes independientes. Además asuma-
mos que la probabilidad apriori de H0 es 0.5.
Asumamos que nuestros datos son

92
Exitos Fracasos Total
Muestra 1 2 13 15
Muestra 2 14 1 15

El factor de Bayes es 0.0000894 y la probabilidad posterior de la hipótesis


nula es 0.0000894.

8.3.1. Comparación de Modelos


Si pensamos en términos de modelos, digamos M1 , · · · , Ms , donde asu-
mimos que Mi está parametrizado por θ i ∈ Θi , de dimensión di , y con fun-
ción de densidad de probabilidad de los datos fi (y|θ i ) y distribución apriori
ξ(θ i ). Si se tienen las probabilidades apriori para los modelos p1 , · · · , ps , por
el teorema de Bayes tenemos

pi mi (y)
P r (Mi |y) = Ps
j=1 pj mj (y)

donde
Z
mi (y) = fi (y|θ i )ξ(θ i ) dθ i , para i = 1, · · · , s,
Θi
es la distribución marginal de los datos bajo el modelo Mi ( De Santis y
Spezzaferri, 1999). La razón de las probabilidades posteriores nos permiten
hacer una comparación entre modelos. Para los modelos Mj y Mk se tiene:

P r (Mj |y) pj
= Bjk (y),
P r (Mk |y) pk

donde
mj (y)
Bjk (y) =
mk (y)
es el factor de Bayes para el modelo Mj contra el modelo Mk a partir de los
datos y.

Densidad Predictiva Apriori


En la comparación de modelos se puede utilizar la densidad predictiva
apriori (PPD), la cual se define como (Tsionas, 2003)

93
Z
m (y) = L (θ |y ) ξ (θ) dθ

también se conoce como log-verosimilitud marginalizada. Este no es un nom-


bre muy adecuado ya que las verosimilitudes son funciones de los parámetros
y no de los datos.
Si tenemos I modelos candidatos en una situación particular, tendrı́amos
entonces para el i-ésimo modelo mi .
El cálculo de la PPD es difı́cil y algunos autores han sugerido aproxi-
maciones que pueden ser implmentadas más fácilmente como el de Lewis y
Raftery en 1997. Ellos aproximan el logaritmo de la PPD como
      di 1  

log (m̃i (y)) = log Li θ̃i |y + log ξ θ̃i + log (2π) + log H̃i
2 2
donde

di es la dimensión de θ i ,

θ̃i es un valor que maximice la densidad posterior,

H̃i es la matriz hessiana de la log-posteriori evaluada en θ̃i .

Ejemplo 8.14 Geométrica vs. Poisson (Sahu, 2000). Supongamos


tenemos una muestra aleatoria x1 , x2 , · · · , xn de uno de los dos modelos
hipotéticos

M0 : f (x|θ0 ) = θ0 (1 − θ0 )x , x = 0, 1, · · ·
M1 : f (x|θ1 ) = e−θ1 θ1x /x!, x = 0, 1, · · ·

Por simplicidad asumamos que θ0 y θ1 son conocidos. Cómo nos decidimos


entre los dos modelos utilizando la evidencia muestral?
Ya que los parámetros se asumieron conocidos no necesitamos asumir
ninguna distribución apriori para ellos. Por lo tanto

f (x|M0 ) = θ0n (1 − θ0 )nx̄

e−nθ1 θnx̄
f (x|M1 ) = Qn 1
i=1 xi !

94
ahora, el factor de Bayes es la razón de las dos últimas ecuaciones. Supon-
gamos, θ0 = 1/3 y θ1 = 2, o sea que las dos distribuciones tienen la misma
media. Si n = 2 y x1 = x2 = 0 entonces B01 (x) = 6,1, sin embargo, si n = 2
y x1 = x2 = 2 entonces B01 (x) = 0,3

Definición 8.9 (Modelos Encajados) Dos modelos Mk y Mj son enca-


jados (con Mk en Mj ), si θ j = (φ, η) y θ k = φ y fk (y|φ) = fj (y|φ, η 0 ),
donde η 0 es un valor especı́fico de η, y φ es un parámetro común.

Asumamos que tenemos datos x que surge de uno de los siguientes mo-
delos (hipótesis):
M1 : X tiene densidad f1 (x |θ 1 )
M2 : X tiene densidad f2 (x |θ 2 )
.. ..
. .
Mq : X tiene densidad fq (x |θ q )
Le asignamos probabilidades apriori a cada modelo ξ (Mi ). Bajo el mo-

delo Mi :

Densidad apriori de θ i : ξi (θ i )
Densidad marginal de X:
Z
mi (x) = fi (x | θ i ) ξi (θ i ) dθ i

que mide qué tan verosı́mil es x bajo Mi .


Densidad posterior:
fi (x | θ i ) ξi (θ i )
ξi (θ i |x ) =
mi (x)

El factor de Bayes de Mj con respecto a Mi :

mj (x)
Bji =
mi (x)

La probabilidad posterior de Mi :
 −1
X ξ (Mj ) q
ξ (Mi ) mi (x)
ξ (Mi |x ) = Pq = Bji 
j=1 ξ (Mj ) mj (x) j=1
ξ (Mi )

95
En el caso particular ξ (Mj ) = 1/q, entonces

mi (x) 1
ξ (Mi |x ) = m̄i (x) = Pq = Pq
m
j=1 j (x) j=1 Bji

Ejemplo 8.15 Localización-Escala. Suponga que X1 , X2 , · · · , Xn es


una muestra aleatoria con densidad
 
1 xi − µ
f (xi |µ, σ ) = g
σ σ
Podemos considerar varios modelos:

1. MN : g es N (0, 1)
2. MU : g es U nif orme(0, 1)
 
1 x−µ
3. ML : g es Exponencial a la izquierda σe , para x ≤ µ
 
1 −(x−µ)
4. MR : g es Exponencial a la derecha σe , para x ≥ µ

Observe que estos modelos no son encajados.


Normal:
 
n−1
Γ 2
m (x |MN ) = √ hP i
2 (n−1/2)
(2π)(n−1)/2 n i (xi − x̄)

Uniforme:
1
m (x |MU ) =  (n−1)
n(n − 1) x(n) − x(1)

Exponencial izquierda:
(n − 2)!
m (x |ML ) =  (n−1)
nn x(n) − x̄

Exponencial derecha:
(n − 2)!
m (x |MR ) =  (n−1)
nn x̄ − x(1)

96
8.4. Cálculo del Factor de Bayes vı́a MCMC
Hemos visto el cáculo del factor de Bayes mediante el uso de técnicas
de simulación. Esto es fácil de realizar cuando la distribución que genera
datos es discreta. Un problema que no es tan fácil de resolver es cuando
la distribución muestral es continua, ya que si aplicamos directamente la
metodologı́a usada, obtendrı́amos el valor esperado de la densidad, no la
probabilidad requerida. Han y Carlin (2001) realizan un recuento de los
métodos propuestos para el cáculo del factor de Bayes en el caso más general.

8.4.1. Método de Carlin y Chib


Si para el j-ésimo modelo la verosimilitud es

f (y |θ j , M = j )

y la apriori

ξ (θ j |M = j )

Bajo estas condiciones tenemos que y es independiente de θ j 0 6=j . El mues-
Q
treador opera sobre el espacio producto M × j∈M Θj . Se requieren distri-
buciones apriori propias. Se asume independencia apriori entre los θ j dado
M.

Z
p (y |M = j ) = f (y |θ, M = j ) ξ (θ |M = j ) dθ
Z
= f (y |θ j , M = j ) ξ (θj |M = j ) dθ j

El muestreador de Gibbs es definido sobre esl espcio producto por las dis-
tribuciones condicionales completas
(
 f (y |θ j , M = j ) ξ (θj |M = j ) si M = j
ξ θ j θ j 0 6=j , M, y ∝
ξ (θj |M 6= j ) si M 6= j

y
 
 Y 
ξ (M = j |θ, y ) ∝ f (y |θ j , M = j ) ξ θ j 0 |M = j π
  j
j 0 ∈M

97
Bajo las condiciones de regularidad corrientes este muestreador de Gibbs
produce muestras de la distribución posterior conjunta correcta. La distri-
bución posterior del modelo j puede estimarse como

1 XG  
ξˆ (M = j |y ) = I M (g) = j ,
G g=1

que puede ser usada para estimar el factor de Bayes como

ξˆ (M = j |y ) /ξˆ (M = j 0 |y )
B̂jj 0 =
ξ (M = j) /ξ (M = j 0 )

8.4.2. Método de Dellaportas, Foster y Ntzoufras


Este método es una versión metroplizada del algoritmo de Carlin y Chib.
El algoritmo es

1. Sea (j, θ j ), donde θ j es de dimesión nj .

2. Proponga un nuevo modelo j 0 con probabilidad h (j, j 0 ).



3. Genere θ j 0 de una seudoapriori ξ θ j 0 |M 6= j compo en el método de
Carlin y Chib.

4. Acepte el movimiento propuesto (de j a j 0 ) con probabilidad


(   )
f y θ j 0 , M = j 0 ξ θ j 0 |M = j 0 πj 0 h (j 0 , j)
α = mı́n 1,
f (y |θ j , M = j ) ξ (θ j |M = j ) πj h (j, j 0 )

8.5. Otras aproximaciones al factor de Bayes


Han y Carlin (2001) presentan otras aproximaciones que han sido pro-
puestas en la literatura para manejar el caso de usar distribuciones apriori
no informativas, conocidos como seudo-factores de Bayes, entre ellos

El factor de Bayes intrı́nseco de Berger y Pericchi,

El factor de Bayes fraccionado de O’Hagan.

98
8.6. La aproximación BIC
Esta sección está basada en Raftery (1994). La cantidad básica que sub-
yace en el factor Bayes es la verosimilitud integrada para el modelo, dada
por
Z
p(D|M1 ) = p(D|θ 1 , M1 )ξ(θ 1 |M1 ) dθ 1

Primero se derivará una aproximación simple para esta cantidad, y mostrar


posteriormente como lleva a aproximar los factores de Bayes al criterio BIC
para cualificar modelos. Por simplicidad la ecuación anterior se escribe como
Z
p(D) = p(D|θ)ξ(θ) dθ

Consideremos el caso donde D consiste de n observaciones i.i.d. y1 , · · · , yn ,


que pueden ser vectores.
Considere la expansión en series de Taylor de g(θ) = log (p(D|θ)ξ(θ))
alrededor de θ̄, el valor de θ que maximiza g(θ), esto es, la moda posterior.
La expansión es
T 1 T   
g(θ) = g(θ̄) + θ − θ̄ g 0 (θ̂) + θ − θ̄ g 00 (θ̄) θ − θ̄ + o ||θ − θ̄||2
2
donde  
∂g(θ )
 ∂θ1 
g 0 (θ) = 
 .. 
 .  
∂g(θ )
∂θd

y g 00 (θ) es la matriz Hessian de segundas derivadas parciales


 
∂ 2 g(θ ) ∂ 2 g(θ )
∂θ1 ∂θ1 ··· ∂θ1 ∂θd
 
 .. .. .. 
g 00 (θ) =  . . . 
 
∂ 2 g(θ ) ∂ 2 g(θ )
∂θd ∂θ1 ··· ∂θd ∂θd

Ahora, ya que g(θ̄) = 0 tenemos


1 T 
g(θ) ≈ g(θ̄) + θ − θ̄ g 00 (θ̄) θ − θ̄
2
Esta aproximación es buena si θ está cercano a θ̂. Cuando n es grande la
verosimilitud p(D|θ) está concentrada alrededor de su máxima y declina

99
rápidamente cuando
R
se aleja de θ̂, ası́ que los únicos valores de θ que con-
tribuyen a p(D) = p(D|θ)ξ(θ) dθ son los que están cercanos a θ̂. Se sigue
por lo tanto que
Z Z 
 T 
p(D) = exp (g(θ)) dθ ≈ exp g(θ̄) exp θ − θ̄ g 00 (θ̄) θ − θ̄ dθ

La integral en la ecuación anterior es proporcional a una densidad normal


multivariable, por lo tanto

p(D) ≈ exp g(θ̄) (2π)d/2 |A|−1/2
 
donde A = −g 00 θ̄ . El error en la ecuación anterior es O n−1 , ası́
  d 1  
log (p(D)) = log p(D|θ̄) + log ξ(θ̄) + log(2π) − log (|A|) + O n−1
2 2
Ahora, si la muestra es grande, θ̄ ≈ θ̂, donde θ̂ es el estimador de máxima
verosimilitud, y A ≈ nI, donde I es la matrix de Información de Fisher
d
esperada para una observación.
  Ası́ |A| ≈ n |I|. Estas dos aproximaciones
introducen un error O n−1/2 en la ecuación anterior, la cual se convierte
en
    d d 1  
log (p(D)) = log p(D|θ̂) +log ξ(θ̂) + log(2π)− log(n)− log (|I|)+O n−1/2 (∗)
2 2 2
Removiendo los términos de orden O(1) o menores queda
  d
log (p(D)) = log p(D|θ̂) − log(n) + O(1)
2
La ecuación anterior nos dice que la verosimilitud
 log-integrada,
 log(p(D)),
es igual a la logverosimilitud maximizada, log p(D|θ̂) , menos un factor de
corrección.
La ecuación anterior es la aproximación en la cual está basada el BIC,
y su error O(1) significa que, en general, el error no se deparaece aún con
una cantidad infinita de datos. Esto no es tan malo como parece, ya que
los otros términos de la derecha de la ecuación tienden a infinito cuando
n lo hace, por lo tanto ellos eventualmente dominarán. Ası́ el error en la
ecuación tenderá hacia cero como una proporción del log (p(D)), asegurando
que el error no afectará la conclusión a la cual se llegue, dado que se tengan
suficientes datos.
Suponga que la apriori ξ (θ) es normal multivariable con media π̂ y
matriz de covarianzas I −1 . Ası́, hablando aproximadamente, la distribución

100
apriori contiene la misma cantidad de información que una solo observación.
Esto parece razonable en una situación en la cual haya poca información
apriori. Entonces
  d 1
log ξ(θ̂) = − log (2π) + log (|I|)
2 2
y sustituyendo en (*) se llega a
  d
log (p(D)) = log p(D|θ̂) − log(n) + O(n−1/2 )
2
Ası́ para la distribución apriori particular seleccionada, el error en la
aproximación es O(n−1/2 ) en vez de O(n−1/2 )
Esta aproximación puede usarse para aproximar el factor de Bayes

p (D|M2 )
B12 = .
p (D|M1 )

Esto queda mejor en la escala logarı́tmica

2 log (B12 ) = 2 (log (p (D|π̂ 2 , M2 )) − log (p (D|π̂ 1 , M1 )))−(d2 − d1 ) log(n)+O(n−1/2 )

Si M1 está encajado en M2 , la ecuación anterior puede re-escribirse

2 log (B12 ) ≈ χ221 − (d2 − d1 ) log(n)

donde χ221 es el estadı́stico de la prueba de la razón de verosimilitud corriente


para probar M1 contra M2 , y d2 − d1 son los grados de libertad asociados
con la prueba.
Otro criterio es el de Akaike, el cual es bastante simple

AIC = log(Máxima Verosimilitud) − (Número de Parámetros Estimados)

Otro procedimiento usado es el criterio de Schwarz


1
B = log(Máxima Verosimilitud)− log(n)(Número de Parámetros Estimados)
2

101
102
Capı́tulo 9
Estadı́stica Bayesiana vı́a
Simulación

El análisis bayesiano requiere realizar integraciones sobre distribuciones


de probabilidad posiblemente de alta dimensión para realizar inferencias
acerca de los parámetros de un modelo o realizar predicciones. En el pa-
sado los analistas bayesianos resolvı́an este problema mediante métodos de
integración numérica. Este problema es grave cuando se trata de resolver
integraciones en alta dimensión. Algunos métodos de integración numérica
aproximados como la cuadratura gaussiana o de Laplace han sido utilizados.
La integración Monte Carlo extrae muestras de la distribución de probabi-
lidad de interés y trabaja sobre promedios que aproximen las esperanzas de
interés.

Cuando las distribuciones aposteriori son de alta dimensión, las solucio-


nes analı́ticas o las numéricas comúnes no se pueden obtener. Una solución es
considerar un procedimiento Monte Carlo iterativo o Monte Carlo por Cade-
nas de Markov. La metodologı́a MCMC es una herramienta de gran alcance
para la modelación estadı́stica y se ha vuelto muy popular en la computación
bayesiana en modelos estadı́sticos de gran complejidad. Se simula una cadena
de Markov con distribución estacionaria dada por la distribución aposteriori
ξ (θ|Datos).

103
9.1. MCMC: Monte Carlo por Cadenas de Mar-
kov
Brooks (1998) realiza una revisión de la metodologı́a MCMC. Las carac-
terı́sticas de ξ son obtenidas encontrando promedios ergódicos
R
1 X
Φ̂ = h (θ r )
R r=1

Los métodos MCMC son algoritmos iterativos que se utilizan cuando el


muestreo directo de una distribución de interés ξ no es factible. Una cadena
de Markov es generada muestreando
 
θ (t+1) ∼ p θ|θ (t)

Este p es llamado el kernel de transición de la cadena de Markov. Ası́ θ (t+1)


depende solo de θ (t) , y no de θ (0) , θ (1) , · · · , θ (t−1)
Existen dos problemas mayores que rodean la implementación e inferen-
cias de los métodos MCMC. El primero tiene que ver con la convergencia y el
segundo con la dependencia entre las muestras de la distribución posterior.
Las condiciones bajo las cuales una cadena de Markov tiene una única
distribución estacionaria son bien conocidas teóricamente:
Tiene que se aperiódica,

irreducible,

y positiva recurrente.
La forma en que construimos nuestras cadenas garantiza la existencia
de la distribución estacionaria. Sin embargo en la práctica esta convergencia
puede ser penosamente lenta y el mayor problema es saber si se ha logrado
una convergencia razonable (esto se conoce como un “burn-in”). Por lo tanto
las muestras obtenidas hasta el punto de “burn-in” son descartadas.
Un asunto relacionado con la convergencia es la tasa de mezclado. Infor-
malmente, el mezclado es la tasa con la cual la cadena de Markov se mueve
a través del soporte de la distribución estacionaria. Ası́, si una cadena tiene
un mezclado lento, puede quedarse en cierta porción del espacio de estados
por un perı́odo de tiempo muy largo, y a menos que la longitud de la cadena
sea ajustada acordemente, las inferencias serán afectadas sin ninguna duda.
Lombardi (2007) señala “Uno de los problemas más serios con los algorit-
mos MCMC es el paradigma ‘usted solo ve donde usted ha estado’, que es

104
el hecho que la cadena parece haber convergido pero ha fallado de explorar
completamente el espacio muestral. En lugar de una cadena larga, varias
cadenas paralelas empezando desde puntos ampliamente dispersos pueden
resolver este problema.”
El segundo asunto está relacionado con el hecho que los valores observa-
dos, siendo un camino muestral de una cadena de Markov, no son indepen-
dientes entre sı́. Asumiendo que se ha logrado la convergencia, los valores
observados formarán una muestra dependiente de la distribución posterior.
Esto puede ser molesto para uno pero no es necesariamente malo en MCMC.
En la mayorı́a de los problemas, la estimación tı́pica se obtiene por un pro-
medio sobre las muestras. Aunque las muestras no sean independientes, el
teorema ergódico asegura que estos promedios muestrales convergen a las
verdaderas esperanzas. Ası́ que la aproximación corriente al problema de
dependencia es ignorarla. Pero si uno, por alguna razón, necesita una mues-
tra independiente, puede resolver el problema corriendo varias cadenas de
Markov con puntos de comienzo independientes y utilizar el último punto
de cada cadena. Se sabe de la teorı́a general de los MCMC que la caminata
aleatoria del muestreador Metropolis no puede obtener convergencia unifor-
me. Para demostrar que el muestreador obtiene convergencia geométrica,
uno debe ser capaz de probar que la distribución objetivo tiene colas que
decaen exponencialmente (Lombardi,2007).
Una de las dificultades que surgen en el trabajo bayesiano aparecen cuan-
do tratamos de manipular la distribución aposteriori que usualmente aparece
de la siguiente forma

ξ (θ|Datos) ∝ L (θ|Datos) ξ (θ)

que no es una densidad de probabilidad en sı́ misma, sino que debe ajustarse
por un factor que se calcula como
Z
L (θ|Datos) ξ (θ) dθ
Θ

Solo en problemas muy sencillos es posible evaluar exactamente las ex-


presiones anteriores, lo cual limitarı́a el uso de los métodos bayesianos sino
fuera por la posibilidad de utilizar métodos computacionales como es el
Método Monte Carlo. Con esta técnica es posible:

generar muestras θ 1 , θ 2 , · · · , θ R , de una distribución de probabilidad


dada, digamos F (θ), y

105
estimar valores esperados de funciones bajo esta distribución, por ejem-
plo, Z
Φ = E [h (θ)] = h (θ) dF (θ)

Denotamos por f (θ) la densidad asociada con la distribución y la lla-


maremos densidad objetivo, ella puede ser la distribución aposteriori, que en
nuestro caso es el interés y es una distribución condicionada en los datos.
La generación de muestras es más importante ya que Φ puede ser estimada
como
R
1 X
Φ̂ = h (θ r )
R r=1

R
i si los vectores {θ r }r=1 corresponden a una muestra de F (θ),
Es clarohque
entonces E Φ̂ = Φ. También, a medida queR se incrementa la varianza de
Φ̂ disminuye ya que es σ 2 /R, donde σ 2 es la varianza de h(θ).
De lo anterior se desprende una propiedad importante del método Monte
Carlo: la exactitud de la estimación Monte Carlo no depende de la dimen-
sionalidad del espacio muestreado. La varianza de Φ̂ es siempre σ 2 /R. En
teorı́a, si tenemos una muestra aún pequeña de observaciones independien-
tes podemos obtener una estimación buena de Φ. El problema está en que
obtener muestras independientes de F puede no ser una tarea fácil.
Asumamos que la densidad de la cual deseamos obtener muestras es la
correspondiente a la distribución aposteriori de un parámetro de un experi-
mento exponencial, digamos λ para el cual la única información apriori que
disponı́amos era que λ ∼ U (0, 5). Se obtuvieron cinco muestras con resul-
tados x1 = 1, x2 = 1, x3 = 4, x4 = 2, x5 = 3. Por lo tanto la distrribución
posterior será

ξ(λ|Datos) ∝ λ5 e−11λ I(0, 5)

Si la constante de normalización fuera difı́cil de calcular (obviamente en este


problema no lo es!) entonces no serı́a fácil muestrear de ξ. Si el problema
fuera unidimensional podemos pensar en una discretización y muestrear de
esta distribución discreta como se muestra en la figura 13.1. Cada punto
discretizado en esta gráfica tiene una altura igual al valor de la densidad en
ese punto, o sea p∗i = λ5i e−11λi . Podemos calcular una constante de norma-
lización Z como X
Z= p∗i
i

106
0.00012
0.00012

0.00008
0.00008
λ5e(−11λ)

λ5e(−11λ)

0.00004
0.00004
0.00000

0.00000
0 1 2 3 4 5 0 1 2 3 4 5

λ λ

Figura 9.1: La gráfica derecha muestra el kernel de la densidad posterior


λ5 e−11λ I(0, 5). Cómo obtener muestras de esta densidad? La gráfica derecha
presenta una discretización del kernel evaluado en 50 puntos equiespaciados
en el intervalo (0, 5). Cómo podemos muestrear de esta distribución?

y
p∗
pi =
Z
y nuestreamos de la distribución de probabilidad {pi }. Cuál es el costo de
este procedimiento? Para poder calcular Z se requiere visitar cada punto en
la discretización. En nuestro caso la dimensión del espacio era uno, pero si
el espacio tuviera dimensión 100, el número de puntos a visitar serı́a 50100 .
Un número inmenso de visitas.

Ejemplo 9.1 Una proporción. Suponga que estamos interesados en


determinar la proporción de estudiantes que sufren gastritis.

Como apriori supongamos que una normal truncada con parámetros µ = 0,5
y σ 2 = 0,22 .
Se saca una muestra al azar de 10 estudiantes y se les evalúa. De éstos solo
dos tienen gastritis.

107
0.04
Apriori
Verosimilitud
Aposteriori

0.03
Densidad

0.02
0.01
0.00

0.0 0.2 0.4 0.6 0.8 1.0

Figura 9.2: Caso de los estudiantes con gastritis.

#Generación de muestra de una distribución aposteriori por medio


#del método de discretización
#
densidad.posteriori <- function(x, media.apriori,
dt.apriori, n, nro.exitos){
#n = tama~no de muestra
#vero = verosimilitud
vero <- x^nro.exitos*(1-x)^(n - nro.exitos)
apriori <- exp(-(x - media.apriori)^2/(2*dt.apriori^2))
aposteriori <- vero*apriori
list(vero = vero, apriori = apriori, aposteriori = aposteriori)
}
#Graficos de la verosimilitud, distribuciones apriori, aposteriori
pis <- seq(0.00001, 0.9999, length = 100)
res <- densidad.posteriori(pis, 0.5, 0.2, 10, 2)
res.apriori<-res$apriori/sum(res$apriori)
plot(pis, res.apriori, type =’l’, lty=1, ylab=’’,xlab=’’,,ylim=c(0,0.04))
title(ylab=’Densidad’,xlab=expression(pi))
res.vero<-res$vero/sum(res$vero)
points(pis, res.vero, type =’l’, lty=2)

res.aposteriori<-res$aposteriori/sum(res$aposteriori)

108
points(pis, res.aposteriori, type =’l’, lty=3)

legend(0.7,0.04,c(’Apriori’,’Verosimilitud’,’Aposteriori’),lty=1:3)

resu<-sample(pis,10000,prob=res.aposteriori,replace=T)
hist(resu,main=’Distribución Simulada’,xlab=expression(pi))

> mean(resu)
[1] 0.3171478
> median(resu)
[1] 0.3131069
> quantile(resu, probs=c(0.025, 0.975))
2.5% 97.5%
0.1111089 0.5555044

> require(hdrcde)
> hdr(resu)
$hdr
[,1] [,2]
99% 0.05800344 0.6060039
95% 0.10100899 0.5371268
50% 0.22220778 0.3912115

$mode

109
Figura 9.3: Regiones de más alta densidad en el caso de la gastritis.

[1] 0.317054

$falpha
1% 5% 50%
0.1858224 0.6524188 2.6730446

9.1.1. Muestreador de Gibbs


El muestrador de Gibbs involucra el muestreo de las distribuciones con-
dicionales completas. Es esencial que el el muestreo de las distribuciones con-
dicionales completas sea altamente eficiente desde el punto de vista compu-
tacional. El muestreo de rechazo es una técnica posible de muestreo inde-
pendiente de una densidad general p(θ) donde la densidad p(θ) sea analı́ti-
camente inmanejable.
El muestreo de rechazo requiere una función cobija g de p(θ) donde
g(θ) ≥ p(θ) para todo θ y un punto muestreado es aceptado con probabilidad
p(θ)/g(θ).
El muestreo de rechazo adaptativo (ARS), propuesto por Gilk y Wild
(1992), permite muestrear de densidades condicionales complejas que son
log-cóncavas, o sea d2 ln p(θ)/d θ2 < 0. Ellos mostraron que una función co-
bija (envelope function) para ln p(θ) puede construirse mediante tangentes

110
a ln p en cada abcisa para un conjunto dado de abcisas. Una cobija se cons-
truye entre dos abcisas adyacentes a partir de las tangentes en cada final
del intervalo. Secantes son dibujadas a través de del ln p(θ) en las abcisas
adyacentes. La cobija es una función exponencial a tramos, de la cual el
muestreo es más fácil.
Para obtener una muestra de la distribución conjunta p(X1 , · · · , Xd ) el
Muestreador Gibbs itera sobre este ciclo:
 
(i+1) (i),···,Xd(i)
Muestree X1
de p X1 X2
 
(i+1) (i+1) (i) (i)
Muestree X2 de p X2 X1 , X3 · · · , Xd

..
.
 
(i+1) (i+1) (i+1)
Muestree Xd de p Xd X1 , · · · , Xd−1

Ejemplo 9.2 Distribución Poisson Bivariable. El número de goles


que marcan los equipos en un partido de fútbol puede modelarse bastante
bien mediante una distribución Poisson bivariable. El número de goles de-
pende de si el equipo es local o visitante y depende también de la calidad del
mismo ası́ como de la calidad del visitante. Considere el artı́culo de Karlis
y Ntzoufras (2003) donde presenta una distribución Poisson bivariada.

λx1 λy2
P (x, y) = exp (− (λ1 + λ2 + λ3 ))
x! y!
mı́n(x,y) ! !  2
X x y λ3
k!
k k λ1 λ2
k=0
E(X) = λ1 + λ3
E(Y ) = λ2 + λ3
cov(X, Y ) = λ3

# Gibbs para una Poisson Bivariada

logVero.biPoisson<-function(l,X){
l1<-exp(l[1]);l2<-exp(l[2]);l3<-exp(l[3])

111
sumita<-function(k,xx,yy,l1,l2,l3)
choose(xx,k)*choose(yy,k)*factorial(k)*(l3/(l1*l2))^k

log.densi.un.punto<-function(x,l1,l2,l3){
min.x<-min(x)
xx<-x[1]
yy<-x[2]
if(min.x==0)suma<-1
else{
suma<-sum(sapply(0:min.x,sumita,xx,yy,l1,l2,l3))
#suma<-0
# for(k in 0:min.x)
suma<-suma+choose(xx,k)*choose(yy,k)*
factorial(k)*(l3/(l1*l2))^k
}#fin else
#print(suma)

log.densi<--l3+dpois(xx,l1,log=T)+dpois(yy,l2,log=T)
+log(suma)
return(log.densi)
} # fin log.densi.en.un.punto

res<-sum(apply(X,1,log.densi.un.punto,l1,l2,l3))
res
}

# Partidos del segundo torneo 2010 hasta la fecha 14


temp<-scan()
2 0 1 1 1 0 2 1 2 0 2 1 1 0 1 1
1 2 1 0 2 0 1 0 1 2 1 2 0 0 1 1 1 2
1 0 3 0 2 1 2 1 1 0 2 0 1 1 3 2 3 1
0 0 1 0 1 1 1 0 4 2 2 2 1 2 0 1 2 2
2 1 0 2 1 0 3 2 0 0 1 3 2 1 4 2 2 0
1 1 2 2 1 0 1 2 3 1 4 1 0 1 1 3 1 0
1 1 2 1 1 1 0 1 3 1 1 1 2 3 2 1 0 2
1 1 1 0 5 3 2 0 1 2 1 2 0 2 0 0 2 1
1 2 2 1 1 1 1 1 0 0 1 1 3 0 0 0 1 0
2 2 1 0 2 2 1 0 2 0 3 3 4 2 2 2 1 0
1 2 2 2 2 1 0 0 0 1 2 0 3 0 2 1 1 1
1 1 1 2 1 4 1 2 2 0 1 1 1 0 1 0 1 0
2 1 2 0 1 1 3 2 6 3 2 1 4 0 2 0 2 0
1 1 1 2 1 2 1 2 1 1 1 1 2 0 0 1 4 1

X<-matrix(temp,ncol=2,byrow=T)
> mean(X[,1])

112
[1] 1.536
> mean(X[,2])
[1] 1.024
> cov(X[,1],X[,2])
[1] 0.2128387
> table(X[,1],X[,2])

0 1 2 3 4
0 7 5 3 0 0
1 19 20 15 2 1
2 13 14 7 1 0
3 3 3 3 1 0
4 1 2 3 0 0
5 0 0 0 1 0
6 0 0 0 1 0

require(gibbs.met)

mc<-gibbs_met(log_f=logVero.biPoisson,no_var=3,
ini_value=c(1,1,0.2),iters=20000,iters_met=2,
stepsizes_met=c(0.2,0.2,0.1), X = X)

plot(exp(mc[,1]),type=’l’)
title(main=expression(lambda[1]))
plot(exp(mc[,2]),type=’l’)
title(main=expression(lambda[2]))

plot(exp(mc[,3]),type=’l’)
title(main=expression(lambda[3]))

media.x<-exp(mc[-c(1:10000),1])+exp(mc[-c(1:10000),3])
plot(density(media.x,from=0),
main=’Distribución Marginal de media de X’)
media.y<-exp(mc[-c(1:10000),2])+exp(mc[-c(1:10000),3])
plot(density(media.y,from=0),
main=’Distribución Marginal de media de Y’)

plot(density(media.x-media.y,from=0),
main=’Distribución Diferencia de Medias’)

> quantile(media.x,probs=c(0.025,0.05,1:9/10,0.95,0.975))
2.5% 5% 10% 20% 30% 40% 50%
1.321991 1.357945 1.395152 1.439441 1.474755 1.505350 1.533398
60% 70% 80% 90% 95% 97.5%
1.560306 1.592450 1.627962 1.678656 1.722641 1.764274

113
> quantile(media.y,probs=c(0.025,0.05,1:9/10,0.95,0.975))
2.5% 5% 10% 20% 30% 40% 50%
0.8537324 0.8786668 0.9082815 0.9444425 0.9712392 0.9964568 1.0190101
60% 70% 80% 90% 95% 97.5%
1.0435563 1.0678384 1.0994392 1.1417339 1.1763212 1.2085153
>
> quantile(media.x-media.y,probs=c(0.025,0.05,1:9/10,0.95,0.975))
2.5% 5% 10% 20% 30% 40% 50%
0.2522179 0.2938671 0.3421668 0.3998820 0.4433507 0.4784749 0.5131608
60% 70% 80% 90% 95% 97.5%
0.5454741 0.5808513 0.6229172 0.6864442 0.7346851 0.7766134

require(MASS)
f1 <- kde2d(media.x, media.y, n = 50)
image(f1)
title(xlab=expression(mu[X]))
title(ylab=expression(mu[Y]))

contour(f1)

persp(f1, phi = 45, theta = 20, d = 2)

114
Figura 9.4: Valores tomados por la cadena para el parámetro λ1 . Uno de los
problemas difı́ciles es determinar cuántos elementos de la cadena se deben
eliminar a su comienzo (burn-in).

115
Figura 9.5: Valores tomados por la cadena para el parámetro λ2 . Podemos
pensar que empieza a mostrar alguna estabilidad después del punto 15000?

Figura 9.6: Valores tomados por la cadena para el parámetro λ3 .

116
Ejemplo 9.3 La distribución Gamma generalizada. Upadhyay et al.
(2000) presentan el caso de la distribución gamma generalizada, la cual es
reconocida como un modelo flexible para problemas de confiabilidad pero
con el cual es difı́cil de trabajar desde el punto de vista clásico. La f.d.p. de
esta distribución es

117
Figura 9.7: Distribución conjunta entre µX y µY .

Figura 9.8: Distribución conjunta entre µX y µY .

118
Figura 9.9: Distribución conjunta entre µX y µY .

 β !
β x(βκ−1) x
f (x |θ, β, κ ) = exp −
Γ(κ) θβκ θ
para x > 0, θ > 0, β > 0 y κ > 0.
El parámetro θ es el parámetro de escala, mientras β y κ determinan la
forma de la distribución. Esta familia incluye modelos tales como la gamma
de dos parámetros, la Weibull y la exponencial. La lognormal surge cuando
se hace tender κ a infinito.
Ya que esta distribución es de uso en cofiabilidad, se manejan conceptos
como el MTF (tiempo medio hasta que falle) y es
 
1
Γ κ+ β
MTF = θ
Γ(κ)
Si x1 , · · · , xn es una muestra aleatoria de este modelo (o sea tiempos de
falla) y si asumimos aprioris independientes para θ, β y κ

1
ξ1 (θ) ∝
θ

119
ξ2 (β) ∝ Gamma (a1 , b1 )
ξ3 (κ) ∝ Gamma (a2 , b2 )

Las distribuciones condicionales para el muestrador de Gibbs son

n   !
1 X xi β
ξ (θ |β, κ, Datos ) ∝ exp −
θ(nβκ+1) i=1
θ
n n   " #!
β (n+a1 −1) Y βκ β X xi β
ξ (β |θ, κ, Datos ) ∝ x exp − +
θ(nβκ) i=1 i b1 i=1 θ
n  
1 κ(a2 −1) Y βκ κ
ξ (κ |θ, β, Datos ) ∝ x exp −
(Γ(κ))n θ(nβκ) i=1 i b1

Ejemplo 9.4 Distribución poli-Weibull. Berger y Sun (1993) discu-


ten la estimación bayesiana de la distribución poli-Weibull. Una variable
aleatoria X se dice que sigue esta distribución si su densidad está dada por
m m   !
X βj tβj −1 X t βk
f (t |βj , θj , j = 1, . . . , m ) = β
exp −
j=1 θj j k=1
θk

para t > 0.
Esta distribución surge en el contexto de confiablidad. Suponga que se
tienen m aparatos conectados en serie y no sabemos cuál es el elemento
que falla cuando el artı́culo falla. Por ejemplo las luces de navidad vienen en
grupos de m bombillitos y se daña cuando uno de ellos falla, pero usualmente
es molesto determinar cuál falló.
Si se prueban r aparatos iguales e independientes con distribución de
vida poli-Weibull y se registran t1 , · · · , tn tiempos de falla y t∗1 , · · · , t∗r−n
tiempos de funcionamiento de las unidades que no habı́an fallado aún. La
verosimilitud es
  ( m )
Y β −1
n X m
β j ti j  X S (βk )
L (θ, β) = β
exp − βk
 θj j 
i=1 j=1 k=1 θk

donde
n
X X
S (βk ) = tβi k + r − n (t∗l )βk
i=1 l=1

120
Si la distribución apriori se construye de la siguiente forma

m
Y
ξ1 (θ |β ) = ξ1j (θj |βj )
j=1
 
a
βj bj j −(1+βj aj ) bj
ξ1j (θj |βj ) = θj exp − βj 
Γ (aj ) θ j
m
Y
ξ (β) = ξ2j (βj ) I (βj > cj )
j=1

Cuando hay limitación de datos, las respuestas dependen fuertemente de la


selección de ξ2 . En este problema si se escogen aprioris impropias es muy
problable terminar con una aposterior impropia. El algoritmo de Gibbs es
complejo, pero aún ası́ permite resolver el problema.

Ejemplo 9.5 Distribución Exponencial generalizada. Kundu y Gup-


ta (2008) trabajan la distribución expondencial generalizada de dos paráme-
tros y con la Weibull exponenciada (Raqab y Madi (2005) también desarro-
llan el mismo problema pero hacen referencia del trabajo realizado por los
primeros nombrados). Este tipo de distribuciones son usadas en problemas
de confiabilidad. En el primer caso la f.d.p. es

f (x |αλ ) = αλ (1 − exp(−λx))α−1 exp(−λx) para x > 0

donde α > 0 y λ > 0.


Es común utilizar aprioris gamma para parámetros positivos. Denotemos
por ξ(α) y ξ(λ) las apriori de α y λ respectivamente, además asumamos
independencia. Entonces

ξ(λ) ∝ λb−1 exp(−aλ), para λ > 0


d−1
ξ(α) ∝ exp(−cα), para α > 0

donde se asumen los hiperparámetros a, b, c y d conocidos.


Si se tiene una m.a. x1 , . . . , xn , entonces la verosimilitud es
n
! n
X Y
n n
L (α, λ |Datos ) = α λ exp −λ xi (1 − exp (−λxi ))α−1
i=1 i=1

121
la posterior conjunta será por lo tanto
n
!! n
X Y
ξ (α, λ |Datos ) ∝ α n+d−1 n+b−1
λ exp −λ a + xi exp (−cα) (1 − exp (−λxi ))α−1
i=1 i=1

y las condiconales para el muestreador de Gibbs son

n
Y
ξ (α |λ, Datos ) ∝ αn+d−1 exp (−cα) (1 − exp (−λxi ))α
i=1
n
!! n
X Y
ξ (λ |α, Datos ) ∝ λ n+b−1
exp −λ a + xi exp (−cα) (1 − exp (−λxi ))α−1
i=1 i=1

Ejemplo 9.6 Distribución de Burr La fdp de la distribución Burr gene-


ralizada de cuatro parámetros está dada por
 (β−1) (  β )−(κ+1)
βκ x−µ x−µ
f (x |β, κ, λ, µ ) = 1+
λ λ λ

con x > µ; β, κ, λ, µ > 0. Los parámetros β y κ determinan la forma de la


distribución, λ es el parámetro de escala y µ es el de frontera. Si µ = 0 y
λ = 1 se conoce como la distribución Burr Tipo XII. Si µ es concido o cer,
esta es la distribución Burr de tres parámetros.
La función de riesgo (hazard rate, HZR) para el tiempo t está dada por
 (β−1) (  β )−1
βκ t−µ t−µ
HZR(t) = 1+
λ λ λ

y la función de confiabilidad
(  β )−κ
t−µ
R(t) = 1+
λ

y el tiempo medio hasta fallar (MTF) es


 
Γ β −1 + 1 Γ κ + β −1
M T F = µ + κλ
Γ (κ + 1)
La función de riesgo es monótona decreciente para β ≤ 1. Tiene curva en
forma de bañera invertida si β > 1.

122
Upadhyay et al. (2004) utilizan como apriori la siguiente distribución

ξ(β, κ, λ, µ) = ξ1 (κ |β ) ξ2 (β) ξ3 (λ) ξ4 (µ)

donde

  
β (a+1) κβ
ξ1 (κ |β ) = (a+1)
κa exp −
Γ(a + 1)b b
  
1 β
ξ2 (β) = β (d−1) exp −
Γ(d)cd c
1
ξ3 (λ) ∝
λ
ξ4 (µ) ∼ U nif orme (0, x1 )

donde a > −1, b, c, d > 0.


Para el muestreador de Gibbs se tienen las siguientes condicionales

n
(  β )−(κ+1)
Y β xi − µ
(n+a+d) −nβ
ξ (β |κ, λ, µ, Datos ) ∝ β λ (xi − µ) 1+
i=1
λ
  
κ 1
× exp −β +
b c
n
(  β )−κ   
Y xi − µ κβ
(n+a)
ξ (κ |β, λ, µ, Datos ) ∝ κ 1+ exp −
i=1
λ b
n
(  β )−(κ+1)
Y xi − µ
(nβ+1)
ξ (λ |β, κ, µ, Datos ) ∝ λ 1+
i=1
λ
n
(  β )−(κ+1)
Y β−1 xi − µ
ξ (µ |β, κ, λ, Datos ) ∝ (xi − µ) 1+
i=1
λ

9.1.2. Muestreador Griddy Gibbs


Cuando es difı́cil muestrear directamente de p(Xi |Xj , j 6= i), Ritter y
Tanner (1991) propusieron una aproximación simple a la FDA inversa ba-
sada en la evaluación de p(Xi |Xj , j 6= i) en una rejilla de puntos. Los pasos
son los siguientes:

123
1. Evalúe p(Xi |Xj , j 6= i) en Xi = x1 , x2 , · · · , xn para obtener w1 , w2 , · · · , wn .

2. Utilice w1 , w2 , · · · , wn para obtener una aproximación de la FDA in-


versa de p(Xi |Xj , j 6= i).

3. Muestree de una U (0, 1) y transforme la observación via la FDA inversa


aproximada.

9.1.3. Algoritmo Metropolis-Hastings


El muestreo de importancia y el muestreo de rechazo trabajan bien si
la densidad propuesta q(θ) es similar a p(θ). En problemas complejos puede
ser difı́cil crear una única q(θ) que tenga esta propiedad. La construcción
de una cadena de Markov no es difı́cil. Primero describimos el algoritmo
de Metropolis-Hastings. Este algoritmo es una generalización de Hastings
(1970) del método propuesto por Metropolis et al. (1953). El algoritmo Me-
tropolis utiliza una densidad propuesta q que depende del estado actual de
(t)
θ . La densidad q θ |θ 0 (t) puede ser tan simple como una normal localizada
en θ(t) y no es necesario que se parezca a p(θ).
Hitchcock (2003) presenta la historia del desarrollo del algoritmo Metropolis-
Hastings, la cual revela el poco interés que los estadı́sticos prestaron a esta
metodologı́a durante cuatro décadas. La propuesta inicial fue desarrolla-
da en el laboratorio Los Álamos, el cual contaba con el primer computador,
llamado MANIAC (Mathematical Analyzer, Numerical Integrator and Com-
puter). A Metropolis se le conoce como la persona que bautizó los métodos
desarrollados por Ulam y von Neuman como Métodos Monte Carlo.
El algoritmo se resume ası́:

1. Comience en cualquier lugar, y digamos que estamos en θ (t) = θ.

2. Genere θ ∗ de q (θ ∗ |θ). θ ∗ es llamado un punto candidato y q es llamada


una distribución propuesta.

3. Calcule  
ξ (θ ∗ ) q (θ|θ ∗ )
α (θ, θ ∗ ) = mı́n 1,
ξ (θ) q (θ ∗ |θ)

4. Acepte θ (t+1) = θ ∗ con probabilidad α (θ, θ ∗ ).

5. En otro caso θ (t+1) = θ

124
Note que la densidad objetivo ξ solo entra en al proceso a través del

ξ (θ )
cociente ξ θ y por lo tanto no hay necesidad de conocer la constante de
( )
normalización para implementar el algoritmo.
Casos especiales:

1. q (θ|θ ∗ ) = q (θ ∗ |θ): Algoritmo Metropolis.

2. q (θ|θ ∗ ) = g (θ ∗ ): Muestreador independiente.


Qk
3. q (θ|θ ∗ ) = i=1 ξ (θi |θ

< i, θ >i ) ⇒ α (θ, θ ∗ ) = 1: Muestreador de
Gibbs.

9.1.4. El Algoritmo Metropolis


Aquı́ la distribución propuesta es simétrica, esto es,

q (θ|θ ∗ ) = q (θ ∗ |θ) ,

como en el caso de una Normal centrada en el punto actual, entonces el


factor
q (θ|θ ∗ )
= 1,
q (θ ∗ |θ)
y el algoritmo Metropolis simplemente se limita a comparar el valor de la
densidad objetivo en los dos puntos.

Ejemplo 9.7 Modelo de regresión simple. Asumamos


 
Yi ∼ N β1 Xi1 + β2 Xi2 , σ 2

La formulación bayesiana del modelo consiste en



1. La función de verosimilitud f y|β1 , β2 , σ 2

2. La distribución apriori ξ β1 , β2 , σ 2

Estamos interesados en estimar las siguientes distribuciones posteriores:

La distribución posterior conjunta


     
ξ β1 , β2 , σ 2 |y ∝ f y|β1 , β2 , σ 2 × ξ β1 , β2 , σ 2

Distribuciones marginales posteriores ξ (β1 |y), ξ (β2 |y) y ξ σ 2 |y

125
1. El Muestreador de Gibbs: Este muestreador genera muestras iterativa-
mente de cada distribución posterior condicional completa.

Genere β1 de ξ (β1 |β2 , σ, y)

Genere β2 de ξ (β2 |β1 , σ, y)



Genere σ 2 de ξ σ 2 |β1 , β2 , y

2. El Algoritmo Metropolis

Genere un vector de candidatos nuevo β10 , β20 , σ 20 de una distribución
conocida y fácil de usar
 
q β1 , β2 , σ 2 |β10 , β20 , σ 20

Acepte los valores propuestos con probabilidad


(  )
ξ β10 , β20 , σ 20 |y q β10 , β20 , σ 20 |β1 , β2 , σ 2
α = mı́n 1,
ξ (β1 , β2 , σ 2 |y) q (β1 , β2 , σ 2 |β10 , β20 , σ 20 )

9.1.5. Problemas con el Muestreador de Gibbs


Determinar el número de iteraciones es un problema difı́cil de resolver.

Puede ser extremadamente demandante desde el punto de vista compu-


tacional aún para problemas estadı́sticos a escala pequeña (Raftery y
Lewis, 1991).

Puede ser muy ineficiente cuando la correlación posterior entre los


parámetros es alta.

En modelos jerárquicos tiende a “pegarse”.

9.1.6. Ventajas y Desventajas Dos Esquemas de Muestreo


El algoritmo Metropolis-Hastings tiene la ventaja de ser fácilmente im-
plementable. Prácticamente no hay restricción en la distribución posterior.
Sin embargo se debe de tener cuidado cuando se selecciona la distribución
auxiliar para asegurarse que la cadena se mezcle bien. Algunos ajustes son
requeridos para la distribución auxiliar.

126
El muestreador de Gibbs con ARS para la generación de distribuciones
condicionales tiene la ventaja de ser más automático y no requiere ajustes
extras. Tiene la ventaja adicional de poder trabajar con valores truncados o
censurados. Tiene la desventaja de generar una sola variable cada vez y por
lo tanto en modelos grandes la velocidad computacional puede ser lenta. Un
segundo problema es que la correlación serial puede ser alta.
Raftery y Lewis (1991) sugieren que el método funciona bien para la
mayorı́a de los problemas con menos de 5000 iteraciones, aunque hay im-
portantes excepciones, como se mencionó en la parte anterior.

127
128
Capı́tulo 10
Diagnósticos de los Muestreadores
MCMC

La utilización la realización de una cadena que no ha convergido aún


puede llevarnos a obtener conclusiones con relación a los parámetros de
interés o a obtener resultados completamente equivicados con respecto a
hipótesis bajo estudio. El asunto de determinar si la cadena ha llegado ya
a una etapa estacionaria es un asunto difı́cil y que solo puede realmente
resolverse mediante el desarrollo que den alguna luz si las últimas iteraciones
de la cadena están en ciert estado de estabilidad. Aún ası́ no podemos nunca
estar seguros que hemos llegado a la distribución estacionaria, ya que los
resultados teóricos son de carácter asintótico y sin importar la longitud de
la cadena, esta necesariamente es finita.
Recordando que estamos trabajando con una cadena markoviana, donde
el punto de inicio de la cadena es arbitrario y los valores que toma están
correlacionados, además se desea obtener muestras es de la distribución es-
tacionaria, los primeros valores generados deben descartarse (burning), de-
notemos este número por nB , el cual se toma por muchos como 1000 ó 5000.
Existen algunas reglas que nos permiten establecer el número a quemar pe-
ro es un tópico que no tiene una única solución. Después de descartar los
primeros valores nos queda la muestra definitiva que la llamamos muestra
a monitorear, su tamaño lo denotamos por nM . Cowles y Carlin (1996) y
Sinharay (2003) presentan revisiones extensas de los procedimientos para
realizar diagnósticos en MCMC.
Si queremos que la estimada θ̄ tenga una alta probabilidad, digamos
1 − 0,95, de no estar a más de d = 0,1, por ejemplo, del verdadero valor

129
medio µ = E(θ|y), o sea

P θ̄ − µ ≤ d = 1 − 

Bajo el supuesto de un AR1 (ρ)


 2
σ 2 (1 + ρ) Φ−1 (1 − /2)
nM =
d2 (1 − ρ)
donde σ es la desviación estándar de un θt y Φ es la función de distribución
acumulada de una N (0, 1).
Como un ejemplo de lo anterior asumamos que ρ̂ = 0,89, una cadena
que no se mezcla muy bien, σ̂ = 3,3, entonces nM ≈ 79500. Si nB = 5000
debemos generar entonces aproximadamente 85000 muestras para un solo
parámetro. Si se tienen muchos parámetros a monitorear, como es lo usual
en un problema aplicado, puede realmente ser muy restrictivo a nivel de
hardware los requerimientos de almacenamiento.
Una de las tareas más difı́ciles es establecer cuándo podemos decidir que
una cadena ha llegado a la distribución lı́mite o de equilibrio, esto puede
vislumbrarse a través de pruebas de estacionaridad de los últimos valores
generados de la serie, aunque aún teniendo estacionaridad no hay garantı́a
de estar obteniendo valores de la distribución deseada.
Una faceta indeseable en un muestreo MCMC es de no obtener valores
bien mezclados, lo cual significa que los valores consecutivos están altamente
correlacionados, lo cual podrı́a probarse mediante la correlación de primer
orden (correlación serial) de la serie. Una buena cadena tendrı́a un ρ cercano
a cero.

10.1. Monitoreo y Convergencia de una MCMC


Una cuestión importante que se relaciona con el monitoreo de una cadena
es sobre cuántos parámetros considerar, realmente la respuesta es chequear
todos, ya que si solo se considera un subconjunto de ellos se puede llegar a
aceptar una cadena que subconverja (que aparentemente converge cuando
realmente no!)(Sinharay, 2003).

10.1.1. Diagnósticos
Existen muchos diagnósticos útiles para analizar los resultados de una
cadena y ya que niniguno de ellos puede garantizar que funcione, Sinha-
ray(2004) recomienda que se utilicen varias de la múltiples técnicas disponi-

130
bles. También es necesario garantizar la convergencia de todos los prámetros
involucrados. Entre los diagnósticos tenemos:

Cuatro Gráficos MCMC


El monitoreo básico de una cadena se logra mediante gráficos que refle-
jen el comportamiento secuencial de la misma. Hay cuatro gráficos que se
realizan fácilmente y son de gran utilidad como primera aproximación. Se
recomienda como paso inicial generar cuatro gráficos para cada parámetro
considerado:
1. Un gráfico de los valores de la cadena en forma de serie tem-
poral. Estos se pueden presentar como una serie de tiempo en su
totalidad, lo cual ayuda a determinar cuántas muestras es necesario
quemar antes de recolectar los valores considerados como la muestra
de la distribución estacionaria. Algunos programas permiten observar
la evolución de la cadena mediante ventanas con una cierta cantidad
de valoes generados. Si se tienen varias cadenas, todas las cadenas del
mismo parámetro se grafican simultáneamente, de tal forma que uno
esperarı́a que en el momento de lograr convergencia todas las series se
entrecrucen.
Otro gráfico que es útil es de medias móviles. Sinharay (2003) reco-
mienda graficar medias móviles calculadas a partir de grupos de a 50
valores. Si el algoritmo logra covergencia las medias móviles deben ser
bastante similares, mostrándose gráficamente como paralelas al eje ho-
rizontal. Este gráfico solo mira el comportamiento de la media de los
datos y no nos presentan el cuadro completo de la convergencia, ya
que, recordemos, la convergencia es a toda una distribución.

2. Un gráfico de la densidad estimada a partir de estos valores.

3. Un gráfico con las autocorrelaciones. Si este gráfico muestra un


decaimiento a cero lento puede ser un indicativo de un mezclado de-
ficiente, lo cual puede sugerir una reparametrización o alguna otra
aproximación.

4. Un gráfico con las autocorrelaciones parciales.

Prueba de Geweke
Es una prueba de igualdad de medias utilizando el Z−score. Si |Z − score| >
2 se considera que los niveles son diferentes. Gewwke recomendó usar el 5 %

131
para el primer suconjunto y 10 % para el segundo subconjunto. Geweke tam-
bién implicaba que el procedimiento servı́a para determinar cuántas observa-
ciones iniciales se descartaban. Obviamente estas dos submuestras deben ser
lo suficientemente grande para garantizar la aplicación del teorema central
del lı́mite.
Un problema con esta técnica es que esencialmente univariable y además
solo es útil para una sola cadena MCMC. Otro problema está en que depende
en parte de la experiencia del usuario.

Prueba de Heidelberger y Welch


Esta prueba usa el estadı́stico Cramér-von Mises para estacionalidad.
Funciona ası́: Si falla la prueba se descarta el 10 % de las observaciones (las
primeras), y ası́ hasta descartar el 50 %.

Prueba de Raftery y Lewis


Este es un diagnóstico de la longitud de la corrida basada en el criterio
de la exactitud de la estimación del cuantil q. Pretende usar una cadena de
Markov piloto (corta). Se calcula el número de iteraciones requeridas para
estimar el cuantil q dentro de una exactitud de ±r con probabilidad p. Los
autores han proporcionado un programa implementado la librerı́a CODA
(que está disponible en R) la cual entrega el número de iteraciones a ser
realizadas, el número de muestras a ser quemadas y el número de valores k
a ser descartados en la cadena de valores aceptados. Sin embargo, algunos
autores como MacEachern y Berliner, no favorecen la práctica de descartar
resultado intermedios ya que la calidad de la estimación se degrada (Cowles
y Carlin, 1996).
Cowles y Carlin (1996) señalan que algunas crı́ticas a este método apun-
tan a que diferentes puntos de inicio de la cadena pueden resultar en di-
ferentes números de iteraciones y que la información que se obtiene es de
carácter univariable.

Prueba de Gelman y Rubin


Esta es una prueba en la que dos o más cadenas paralelas corren con
valores iniciales que son sobredispersos con respecto a la distribución pos-
terior. Cowles y Carlin (1996) recomiendan 10 cadenas cuando se tiene una
distribución aposteriori unimodal. La convergencia se diagnostica cuando las
cadenas han “olvidado” sus valores iniciales y las salidas de todas las cade-
nas son indistinguibles. La prueba está basada en una comparación de las

132
varianzas dentro y entre las cadenas y es similar al análisis de varianza clási-
co. Hay dos formas de estimar la varianza de una distribución estacionaria:
la media de la varianza empı́rica dentro de cada cadena, W , y la varianza
empı́rica de todas las cadenas combinadas, que puede expresarse como

σ̂ 2 = (n − 1)B/n + W/n
donde B es la varianza empı́rica entre las cadenas.
Si las cadenas han convergido, entonces ambas estimadas son insesgadas.
De otra manera el primer método subestima la varianza, ya que las cadenas
individuales no han tenido tiempo de llegar a la distribución estacionaria
y el segundo método sobreestima la varianza, ya que los valores iniciales
fueron seleccionados sobredispersos.
El diagnóstico de convergencia está basado en el supuesto que la dis-
tribución objetivo es normal. Un intervalo bayesiano de credibilidad puede
construirse usando una distribución t con media
µ̂ = Media muestral de todas las cadenas combinadas
y varianza

V̂ = σ̂ 2 + B/(mn)
donde m es el número de cadenas, y los grados de libertad son estimado por
el método de los momentos

d=2
V ar(V̂ )
El uso de la distribución t tiene en cuenta el hecho que la media y la
varianza de la distribución posterior son estimados.
El diagnóstico de convergencia es
q
R= (d + 3)V̂ /((d + 1)W )
Valores sustancialmente arriba de 1 indican falta de convergencia.
Una de las crı́ticas que se le hace al proceso es que 10 cadenas que generen
1000 puntos cada una no produce un mejor resultado que una sola cadena
que corra y produzaca 10000 puntos, ya que uno ewsperarı́a que esta última
cadena al final estuviera más cercana a la distribución estacionaria que las
10 cadenas iniciales. Si computacionalmente no es costoso y se tienen los
resultados de las cadenas múltiples luego del quemado, se puede implementar
un proceso de mezclado de las cadenas de tal forma que se genere una
supercadena.

133
10.2. Diagnósticos en CODA
La librerı́a del R CODA posee varios diagnósticos útiles para analizar
los resultados de una cadena.

10.2.1. Estimación Paramétrica del Tiempo Medio de Falla


Cuando Solo Es Posible Observar Un Punto en el
Tiempo
Supongamos que en un experimento para determinar la duración de un
producto se realiza una prueba para n unidades y que solo es posible observar
el resultado en un único punto del tiempo, digamos x0 . Tendremos entonces
que n0 ya fallaron y n1 quedan aún funcionando. Los datos que obtenemos
serán entonces

x− − − + + +
0 , x0 , · · · , x0 , x0 , x0 , · · · , x0

donde tenemos n0 x− 0 ’s, donde la notación indica que ya fallaron pero no


se registró el tiempo exacto, y n1 x+0 ´s, unidades que no han fallado aún.
Asumamos que el tiempo se distribuye exponencial con densidad dada por
 
1 x
f (x; λ) = exp −
λ λ

Por lo tanto la verosimilitud será


  n0   n1
x0 x0
L(λ) = 1 − exp − exp −
λ λ

Asumamos que la apriori es una distribución no informativa

ξ(λ) ∝ K

Por lo tanto la aposteriori será proporcional a la verosimilitud


  n0   n1
x0 x0
ξ(λ|Datos) ∝ 1 − exp − exp −
λ λ

Suponga que la duración de una resistencia es exponencial con parámetro


λ. Apriori asumimos una distribución no informativa constante. Se ponen
a funcionar 20 resistencias y a las 8 horas se observan. 4 de ellas habı́an
fallado y las otras continuaban funcionando.

134
# Muestreador de Metropolis
# Como muestreadora usaremos una gamma.

# Valor inicial

L0<-1
res<-L0
for(i in 1:100000){
# genera punto candidato
Lc<-rgamma(1,L0,scale=1)
cociente<-4*log(1-exp(-8/Lc))-16*8/Lc-dgamma(Lc,L0,scale=1,log=T)-
(4*log(1-exp(-8/L0))-16*8/L0-dgamma(L0,Lc,scale=1,log=T))
cociente<-exp(cociente)
if(cociente>1){
L0<-Lc
res<-c(res,Lc)
}
else{
if(runif(1)<cociente){
L0<-Lc
res<-c(res,Lc)
}
}
}

>

135
> res<-res[-(1:1000)]
> plot(res,type=’l’)
> hist(res)
>
> summary(res)
Min. 1st Qu. Median Mean 3rd Qu. Max.
12.76 37.49 57.53 80.13 90.26 3631.00
>
> quantile(res,probs=c(0.01,0.05,0.10,0.20,0.25,3:7/10,0.75,0.8,0.95,0.99))
1% 5% 10% 20% 25% 30% 40% 50%
16.66239 23.19815 27.36604 34.08504 37.49353 41.20592 48.08089 57.53452
60% 70% 75% 80% 95% 99%
67.94006 82.50258 90.25736 100.30699 196.28691 401.89871
>
> acf(res,type=’cor’)

> plot(density(res[res<1000],bw=50,from=0),main=’Densidad Posterior’)


> abline(h=0)
> abline(v=0)

136
Prueba KPSS1
library(tseries)
> kpss.test(res)

KPSS Test for Level Stationarity

data: res
KPSS Level = 0.1472, Truncation lag parameter = 12, p-value = 0.1

Warning message:
In kpss.test(res) : p-value greater than printed p-value

> resi<-acf(res,type=’cor’)
> resi

Autocorrelations of series res, by lag

0 1 2 3 4 5 6 7 8 9 10
1.000 0.676 0.426 0.307 0.174 0.108 0.065 0.016 -0.010 -0.025 -0.019
11 12 13 14 15 16 17 18 19 20 21
-0.004 -0.011 -0.019 -0.018 -0.018 -0.013 0.000 0.001 0.003 -0.006 -0.011
22 23 24 25 26 27 28 29 30 31 32
-0.005 0.001 0.000 -0.003 -0.006 -0.006 -0.009 -0.008 -0.005 -0.005 0.003
1
D. Kwiatkowski, P. C. B. Phillips, P. Schmidt, and Y. Shin (1992): Testing the Null
Hypothesis of Stationarity against the Alternative of a Unit Root. Journal of Econometrics
54, 159178.

137
33 34
0.002 -0.003
> s2<-var(res)
> s2*(1+0.676)*4/(1*(1-0.676))
[1] 284061.6
> s2*(1+0.676)*4/(2^2*(1-0.676))
[1] 71015.4
> s2*(1+0.676)*4/(3^2*(1-0.676))
[1] 31562.4
> s2*(1+0.676)*4/(4^2*(1-0.676))
[1] 17753.85
> s2*(1+0.676)*4/(5^2*(1-0.676))
[1] 11362.46
> s2*(1+0.676)*4/(10^2*(1-0.676))
[1] 2840.616

require(MCMCpack)
res.bay<-MCMCregress(Precio~A~
no)
summary(res.bay)
plot(res.bay)

> require(MCMCpack)
Loading required package: MCMCpack
Loading required package: coda
Loading required package: lattice
Loading required package: MASS
##
## Markov Chain Monte Carlo Package (MCMCpack)
## Copyright (C) 2003-2008 Andrew D. Martin, Kevin M. Quinn, and Jong Hee Park
##
## Support provided by the U.S. National Science Foundation
## (Grants SES-0350646 and SES-0350613)
##
> res.bay<-MCMCregress(Precio~A~
no)
> summary(res.bay)

Iterations = 1001:11000
Thinning interval = 1
Number of chains = 1
Sample size per chain = 10000

1. Empirical mean and standard deviation for each variable,


plus standard error of the mean:

Mean SD Naive SE Time-series SE

138
(Intercept) -82.6888 9.35477 0.0935477 0.0939296
A~
no 0.9752 0.09075 0.0009075 0.0009139
sigma2 2.1353 0.76615 0.0076615 0.0099141

2. Quantiles for each variable:

2.5% 25% 50% 75% 97.5%


(Intercept) -101.0450 -88.6263 -82.6179 -76.743 -64.137
A~
no 0.7943 0.9178 0.9744 1.033 1.154
sigma2 1.1229 1.6050 1.9824 2.482 4.019

> res.bay[1:15,]
(Intercept) A~
no sigma2
[1,] -100.75066 1.1479148 1.862622
[2,] -84.14091 0.9853853 1.790405
[3,] -93.42793 1.0783263 2.214343
[4,] -87.98343 1.0297587 1.857563
[5,] -60.41204 0.7586823 3.487881
[6,] -88.45529 1.0324655 2.841447
[7,] -70.67004 0.8607582 1.724942
[8,] -78.15466 0.9292954 1.773086
[9,] -83.50116 0.9834269 1.864375
[10,] -97.87236 1.1166745 2.987112
[11,] -87.44617 1.0212019 1.897684
[12,] -70.76430 0.8667845 3.726868
[13,] -89.75502 1.0418003 2.435048
[14,] -81.57685 0.9694492 2.832919

139
[15,] -89.03969 1.0361920 2.303039
>

> cor(res.bay)
(Intercept) A~
no sigma2
(Intercept) 1.000000000 -0.999437116 0.008256327
A~
no -0.999437116 1.000000000 -0.009172142
sigma2 0.008256327 -0.009172142 1.000000000
>

> raftery.diag(res.bay)

Quantile (q) = 0.025


Accuracy (r) = +/- 0.005
Probability (s) = 0.95

Burn-in Total Lower bound Dependence


(M) (N) (Nmin) factor (I)
(Intercept) 2 3802 3746 1.010
A~
no 2 3962 3746 1.060
sigma2 2 3680 3746 0.982

>

> library(mcgibbsit)
> #datos.mcmc<-read.mcmc(1,res.bay)
> mcgibbsit(res.bay, q=0.025, r=0.005, s=0.95,
converge.eps=0.001,correct.cor=TRUE)
Multi-Chain Gibbsit
-------------------

Call = mcgibbsit(data = res.bay, q = 0.025,


r = 0.005, s = 0.95, converge.eps = 0.001,
correct.cor = TRUE)

Number of Chains = 1
Per-Chain Length = 10000
Total Length = 10000

Quantile (q) = 0.025


Accuracy (r) = +/- 0.005
Probability (s) = 0.95

140
Burn-in Estimation Total Lower bound Auto-Corr. Between-Chain
(M) (N) (M+N) (Nmin) factor (I) Corr. factor (R)

(Intercept) 2 3801 3803 3746 1.02 NA


A~
no 2 3960 3962 3746 1.06 NA
sigma2 2 3678 3680 3746 0.982 NA
----- ----- ----- ----- ----- -----
2 3960 3962

NOTE: The values for M, N, and Total are combined numbers of iterations
based on using 1 chains.

10.3. Algoritmo E − M
Esta es una técnica para obtener los estimadores de máxima verosimili-
tud, desarrollada originalmente en el contextod edatos faltantes. Defina
  Z  
Q θ(t) , θ = ln (p (θ|Yobs , Yperd )) f Yper |Yobs , θ(t) dYperd

donde

ln (p (θ|Yobs , Yperd )) es la log-verosimilitud o la log-posterior de los da-


tos completos.
 
f Yper |Yobs , θ(t) es la densidad predictiva de Yperd , dados los datos
observados y el valor actual de los parámetros.

La integración es sobre el espacio muestral de Yperd .

PASO E: Utilice las estimadas de los parámetros en la presente ite-


ración para generar las imputaciones, lo que nos permite calcular la
esperanza de la log-verosimilitud de los datos completos.

PASO M : Maximice la función Q con respecto a θ, produciendo una


actualización de los parámetros estimados θ(t+1) , tal que
   
Q θ(t+1) , θ(t) ≥ Q θ(t) , θ(t)

141
10.3.1. Ejemplo: Distribución Birnbaum-Saunders
La función de distribución acumulada de la distribución de dos paráme-
tros de Birnbaum-Saunders de la variable aleatoria T puede escribirse como
(   1/2 )!
1/2
1 t β
FT (t; α, β) = Φ − t > 0, α, β > 0.
α β t

Este modelo fue propuesto por Birnbaum y Saunders (1969) para mo-
delar la falla de un aparato que oscila por fatiga debido a la iniciación
y crecimiento de una de una ruptura o falla dominante.

En cada oscilación esta falla crece en alguna medida que es aleatoria


debida a factores tales como variación en el material, etc.
La función de densidad de T está dada por
(   3/2 )   
1/2
1 t β 1 t β
f (t) = √ + exp − 2 + −2
2 2παβ β t 2α β t

 
1
E(T ) = β 1 + α2
2
 
5
V ar(T ) = αβ 1 + α2
4

16α2 11α2 + 6
β1 (T ) = 3
(5α2 + 4)

6α2 93α2 + 41
β2 (T ) = 3+ 2
(5α2 + 4)

Si t1 , t2 , · · · , tn es la información muestral, tenemos entonces que la verosimilitud


será
n
(   3/2 )   
Y 1/2
1 ti β 1 ti β
L (α, β|Datos) = √ − exp − 2 + −2
i=1
2 2παβ β ti 2α β ti
 n "Y n
(  1/2   3/2
)#
1 ti β
= √ −
2 2παβ i=1
β ti
n   !
1 X ti β
× exp − 2 + −2
2α i=1 β ti

x<-c(10.5,7.2,8.4,7.2)
a0<-1; a1<-1; b0<-1; b1<-1

142
# funcion de Birnhaum-Saunders
veros<-function(X,a,b){
X<-c(10.5,10.8,7)
n<-length(X);Xb<-X/b;bX<-b/X
res<-(-n*log(a*b)+sum(log(sqrt(Xb)+(bX)^(3/2)))
-(1/(2*a*a)*sum(Xb+bX-2)))
res<-exp(res)
res
}

apriori<-function(a,b,a0,b0,a1,b1) dgamma(a,a0,b0)
*dgamma(b,a1,b1)
h<-function(a,b,a0,b0,a1,b1) dgamma(a,a0,b0)
*dgamma(b,a1,b1)
aposte<-function(a,b,X,a0,b0,a1,b1) veros(X,a,b)
*apriori(a,b,a0,b0,a1,b1)

#Generar candidatos
muestreadora<-function(a0,b0,a1,b1){
a.e<-rgamma(1,a0,b0)
b.e<-rgamma(1,a1,b1)
res<-c(a.e,b.e)
res
}

# Programa Principal

teta.v<-c(1,1);res<-teta.v

for(i in 1:50000){
a.v<-teta.v[1]
b.v<-teta.v[2]
teta.n<-muestreadora(a.v,b.v,a.v,b.v)
#print(teta.n)
a.n<-teta.n[1]
b.n<-teta.n[2]
r<-aposte(a.n,b.n,X,a0,b0,a1,b1)*h(a.v,b.v,a.n,b.n,a.n,b.n)
/(aposte(a.v,b.v,X,a0,b0,a1,b1)*h(a.n,b.n,a.v,b.v,a.v,b.v))
#print(r)
if(r>1){
res<-rbind(res,teta.n)
teta.v<-teta.n
}

143
else{
if(runif(1)<r){
res<-rbind(res,teta.n)
teta.v<-teta.n
}}}

alfa<-res[,1])
beta<-res[,2])

library(hdrcde)
hdr.den(alfa, prob = c(50, 95, 99),xlab=’alfa’)

hdr.den(beta, prob = c(50, 95, 99),xlab=’beta’)


hdr.boxplot.2d(alfa,beta,,prob=c(0.001,0.01,0.50,0.80,0.90,0.95)
,h = c(5,5),xlab=’alfa’,ylab=’beta’ )
> cov(res)
[,1] [,2]
[1,] 0.41599210 -0.02482227
[2,] -0.02482227 0.24972221

> colMeans(res)
[1] 2.219080 1.175091

> dim(res)
[1] 1325 2

> colMeans(res[-(1:500),])
[1] 2.202812 1.176349

> cov(res[-(1:500),])
[,1] [,2]
[1,] 0.41217844 -0.01287802
[2,] -0.01287802 0.24297240
>

10.4. Pruebas de hipótesis usando simulación


Han y Carlin (2001) presentan una revisión de métodos MCMC desa-
rrollados para calcular el factor de Bayes en problemas donde es complejo
hallarlos vı́a integración exacta o numérica.

Ejemplo 10.1 Prueba para una Poisson. Suponga que deseamos verificar
si la hipótesis que el número promedio de goles del equipo local en el cam-

144
peonato colombiano es 1.0 ó menos es más plausible que si el promedio es
mayor que 1.0. Asumamos que el número de goles metidos por el local en el
primer tiempo se distribuye Poisson(λ). Las hipótesis serán:

H1 : λ ≤ 1
H2 : λ > 1

Datos observados: Campeonato 2002 I primeras 4 fechas Goles marcados


por el local el primer tiempo 0,1,0,2,1,0,2,1,1, 1,0,1,0,1,0,1,1,0, 0,0,3,0,0,0,0,1,0,
0,2,0,1,0,1,0,1,0.
P
Por suficiencia y = ni=1 xi ∼ P oisson(nλ)
Suponga que apriori ξ(H1 ) = 0,4 y ξ(H2 ) = 0,6.
Bajo H1 la apriori sobre Θ1 la escogemos Beta(α0 , β0 ) y bajo H2 asu-
mimos una normal truncada con parámetros µ0 y σ02 . El factor de Bayes
es
R
p(y|H1 ) p(y|H1 , λ)ξ(λ|H1 ) dλ
=R
p(y|H2 ) p(y|H2 , λ)ξ(λ|H2 ) dλ

Ahora
Z
λy exp(−nλ)
p(y|Hi ) = ξ(λ|Hi ) dλ = Eξi [P (Y = y|λ)]
Θi y!

Para H1

Z 1 λy exp(−nλ) Γ (α0 + β0 ) α0 −1
p(y|H1 ) = λ (1 − λ)β0 −1 dλ
0 y! Γ (α0 ) Γ (β0 )

Un algoritmo que nos permite estimar este valor serı́a:

1. Genere λ1 , λ2 , · · · , λM de una Beta (α0 , β0 ).


2. Calcule pi = P (y|nλi ), i = 1, 2, · · · , M
3. Calcule
M
1 X
pi
M i=1

145
Para H2
Z  
∞ λy exp(−nλ) 1 1
p(y|H2 ) = √ exp − 2 (λ − µ0 )2 dλ
1 y! 2πσ0 2σ 0

Un algoritmo que nos permite estimar este valor serı́a:

1. Calcule p∗ como P (X > 1) donde X ∼ (µ0 , σ02 )


2. Genere p∗1 , p∗2 , · · · , p∗M de una U nif orme (p∗ , 1).
3. Calcule λi tal que
Z λi  
1 1
√ exp − (λ − µ0 )2 = p∗i
−∞ 2πσ0 2σ02

4. Calcule pi = P (y|nλi ), i = 1, 2, · · · , M
5. Calcule
M
1 X
pi
M i=1

# Ejemplo de Factor de Bayes

# Modelo muestral Poisson(lamb)


# H1: lam>=1
# H2: lam>1

# apriori bajo H1--> beta(a0,b0)


# apriori bajo H2--> normal tuncada(u0,s20)

# Datos observados: Campeonato 2002 I primeras 4 fechas


# Goles marcados por el local el primer tiempo

x<-c(0,1,0,2,1,0,2,1,1,
1,0,1,0,1,0,1,1,0,
0,0,3,0,0,0,0,1,0,
0,2,0,1,0,1,0,1,0)

a0<-1
b0<-1

u0<-1.5

146
s20<-1

# Cálculo del BF

# Valor de numerador

lambdas<-matrix(rbeta(1000,a0,b0),ncol=1)

prob.pois<-function(lambda,x) ppois(sum(x),length(x)*lambda)

numerador<-mean(apply(lambdas,1,prob.pois,x))

# Cálculo del denominador

p.1<-pnorm(1,mean=u0,sd=sqrt(s20))
p.s<-runif(1000,p.1,1)
lambdas<-matrix(qnorm(p.s,mean=u0,sd=sqrt(s20)),ncol=1)
denominador<-mean(apply(lambdas,1,prob.pois,x))

BF<-numerador/denominador
> BF
[1] 2355.499
> numerador
[1] 0.6305515
> denominador
[1] 0.0002676934

> razon.apriori<-0.4/0.6
> razon.apriori
[1] 0.6666667
> BF*razon.apriori
[1] 1302.348
>

Lanzamiento de un par de dados


En un juego de parqués se registraron los resultados del lanzamiento de
un par de dados 130 veces. A partir de estos resultados quiere uno ver si los
dados son conjuntamente buenos.
Resultado 2 3 4 5 6 7 8 9 10 11 12
Frecuencia 4 8 10 11 22 14 22 18 10 5 6
Nos podemos preguntar si con los datos anteriores podrı́amos jugar tran-

147
quilamente este juego de parqués, o sea si los dados son buenos o están
cargados.
Si el par de dados fueran perfectos, entonces el modelo teórico serı́a el
que aparece en la siguiente tabla:

Resultado 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
Probabilidad 36 36 36 36 36 36 36 36 36 36 36

En los 130 lanzamientos de los dados esperarı́amos hallar


Resultado 2 3 4 5 6 7
Esperada 3.61 7.22 10.83 14.44 18.06 21.67
Resultado 8 9 10 11 12
Esperada 18.06 14.44 10.83 7.22 3.61

H0 : Los dados están buenos


Suponga las dos hipótesis Suponga que aprio-
H1 : Los dados están sesgados

ri no tenemos información que nos haga dudar sobre la calidad de los dados y
escogemos

ξ(H0 ) = 0,9
ξ(H1 ) = 0,1

La información muestral es utilizada entonces para calcular de los odds apriori:

ξ(Ho |Io )
ξ(H1 |Io )
los odds posteriores en favor de Ho :

ξ(Ho |I1 ) p(y|Ho ) ξ(Ho |Io )


=
ξ(H1 |I1 ) p(y|H1 ) ξ(H1 |Io )
n! x1 x2 xk
x1 !x2 !···xk ! π1 π2 · · · πk ξ(H0 )
= R R n! x1 x2 xk
··· x1 !x2 !···xk ! π1 π2 · · · πk ξ(π1 , π2 , · · · , πk ) dπ1 dπ2 · · · dπk ξ(H1 )

> # Cálculo del factor de Bayes


> # Juego de dados
> # H_1: Los resultados corresponden a los de dados justos
> # Los resultados son sesgados
>

148
> # Resultados muestrales
> x<-c(4 , 8 , 10 , 11 , 22 , 14 , 22 , 18 , 10 , 5 , 6)
> prob.teor<-c(1,2,3,4,5,6,5,4,3,2,1)/36
> numerador<-dmultinom(x,prob=prob.teor)
> numerador
[1] 3.668687e-11
>
> library(MCMCpack)
> temp<- rdirichlet(1000,c(1,1,1,1,1,1,1,1,1,1,1))
> densid.multi<-function(proba,x)dmultinom(x,prob=proba)
>
> denominador<-mean(apply(temp,1,densid.multi,x))
> denominador
[1] 1.280907e-17
>
> numerador/denominador
[1] 2864133

> temp<- rdirichlet(1000,c(1,2,3,4,5,6,5,4,3,2,1)*10)


> densid.multi<-function(proba,x)dmultinom(x,prob=proba)
>
> denominador<-mean(apply(temp,1,densid.multi,x))
> denominador
[1] 2.407294e-11
>
> numerador/denominador
[1] 1.523988

Ejemplo:
Sean y1 , · · · , yn |θ variables independientes y distribuidas Poisson con
parámtero θ. Ası́,
θyi e−θ
p (yi |θ) =
yi !
para θ > 0, yi = 0, 1, 2, · · ·. Sea H0 : θ = θ0 y H1 : θ = θ1 dos hipótesis
simples, con ξ (H0 |I0 ) = ξ (H1 |I0 ). El Factor Bayes es
 P yi
θ0 i
exp (θ1 − θ0 )
θ1
y por lo tanto, ya que la distribución apriori asigna igual probabilidad a las
hipótesis, la regla de decisión será aceptar H0 si el Factor de Bayes es mayor
que 1.

149
Comparación de dos proporciones
Un problema común en estadı́stica es el de verificar que dos propor-
ciones son iguales (H0 : π1 = π2 ) contra la alternativa H1 : π1 6= π2 .

Bajo el supuesto de H0 solo tenemos un párametro que puede tomar


un valor en (0, 1) y por lo tanto necesitamos especificar una distri-
bución apriori en esta situación, digamos ξH0 (π) (podemos pensar en
una Beta(α, β)), donde α y β se escogen de tal forma que reflejen el
conocimiento apriori (en caso de ignorancia podemos escoger α = 1 y
β = 1).

Bajo la alternativa H1 debemos pensar en una distribución conjunta


para (π1 , π2 ), digamos ξH1 (π1 , π2 ).

Bajo la alternativa una selección obvia es una uniforme en el área


(0, 1) × (0, 1), con π1 6= π2 y esto corresponde al producto de dos uni-
formes independientes. Además asumamos que la probabilidad apriori
de H0 es 0.5.

Asumamos que nuestros datos son

Exitos Fracasos Total


Muestra 1 2 13 15
Muestra 2 14 1 15

El factor de Bayes es 0.0000894 y la probabilidad posterior de la hipótesis


nula es 0.0000894.

150
Capı́tulo 11
Inferencia Predictiva

Muchas situaciones aplicadas implican realizar inferencias sobre una ob-


servación futura de una variable aleatoria, cuya distribución depende de
un número finito de parámetros (desconocidos), esta distribución se cono-
ce como distribución predictiva. Smith (1998) argumenta que afirmaciones
predictivas acerca de variables aleatorias no observadas tiene más sentido a
menudo que la estimación tradicional de parámetros.

11.1. Procedimiento Exacto


Asumiendo que ξ (θ) es la distribución apriori y que ξ (θ|x) es la poste-
rior, la distribución predictiva bayesiana se calcula como

p(z, x)
p (z|x) =
p(x)
R
ΘR p(z, x, θ) dθ
=
p(x, θ) θ
R Θ
ΘR p(z, x|θ)ξ(θ) dθ
=
p(x|θ)ξ(θ) θ
R Θ
Θ p(z|θ)p(x|θ)ξ(θ)
R

=
Θ p(x|θ)ξ(θ) θ
Z ( )
p(x|θ)ξ(θ)
= p(z|θ) R dθ
Θ Θ p(x|θ)ξ(θ) θ
Z
= p(z|θ)ξ (θ|x) dθ

151
Ası́

Z
p (z|x) = p(z|θ)ξ (θ|x) dθ
= Eθ|x [p(z|θ)]

La función p(z|θ) es la de verosimilitud de θ evaluada en z.

Ejemplo 11.1 Caso Bernoulli. Suponga que x1 , · · · , xn es una muestra


aleatoria de una Bernoulli(π) y suponga que la distribución apriori de π es
una Beta(α, β). Encontremos la distribución predictiva de una observación
futura z.
Tenemos
Z
p (z|x) = p(z|π)ξ (π|x) dπ

Ahora

p(z|π) = π z (1 − π)1−z , z = 0, 1,

y
P P
xi +α−1
ξ(π|x) ∝ π (1 − π)n− xi +β−1

P P
Ahora, si denotamos por α∗ = xi + α y β ∗ = n − xi + β tenemos
que

Z 1
Γ(n + α + β) z+α∗ −1 ∗
p(z|x) = ∗ )Γ(β ∗ )
π (1 − π)β +1−z−1 dπ
0 Γ(α
Γ(n + α + β) Γ(z + α∗ )Γ(1 − z + β ∗ )
=
Γ(α∗ )Γ(β ∗ ) Γ(n + α + β + 1)
Ası́

Γ(n + α + β)Γ(1 + β ∗ )
P (z = 0|x) =
Γ(β ∗ )Γ(n + α + β + 1)
β∗
=
n+α+β
β∗
=
α∗ + β ∗

152
y
α∗
P (z = 1|x) =
α∗ + β ∗
Vale la pena notar que

P (z = 1|x) = E(π|x),

la media posterior.

Ejemplo 11.2 Caso Poisson. Suponga que x1 , · · · , xn es una muestra


aleatoria de un P oisson(θ). Además supongamos que la distribución apriori
de θ es una Gamma(α, β). Encontremos la distribución predictiva p(z|x).
P
Sabemos que la distribución aposteriori es una Gamma(α∗ = α+ xi , β ∗ =
β + n). Ahora

θz e−θ
p(z|x) =
z!
Ası́

Z ∗
∞ θz e−θ (β ∗ )α −β ∗ θ
p(z|x) = e dθ
0 z! Γ (α∗ )
∗ Z
(β ∗ )α ∞ ∗ ∗
= ∗
θz+α −1 e−(β +1)θ dθ
z!Γ (α ) 0

(β ∗ )α Γ (z + α∗ )
=
z!Γ (α∗ ) (β ∗ + 1)(z+α∗ )
!  α∗  z
z + α∗ − 1 β∗ 1
=
z β∗ + 1 ∗
β +1

para z = 0, 1, 2, · · · Por lo tanto


 
1 ∗
z|x ∼ Binomial − N egativa α , ∗
β +1

Ejemplo 11.3 Caso Exponencial.


Sea x1 , · · · , xn una muestra aleatoria de una exponencial con densidad
−θx
θe , con x > 0, θ > 0. Sea Z que denota una observación futura de

153
la misma densidad. Estamos interesados en la probabilidad predictiva que
Z > z para algún nivel dado z. Cuando θ es conocido, esto está dado por
φ = φ(z|θ) = e−θz .
Si asumimos que la distribución apriori de θ es ξ(θ) ∝ θa−1 e−bθ , una
apriori Gamma con parámetros (a, b). La distribución aposteriori de θ es
también una Gamma con parámetros (a + n, b + Sn ), donde Sn = x1 + · · · +
xn , y la esperanza posterior de φ se calcula como
 a+n
b + Sn
φ̂ =
b + Sn + z
Cuando a = b = 0 se tiene una distribución apriori Jeffreys y la esperanza
se reduce a
 n
Sn
φ̂ =
Sn + z

Ejemplo 11.4 Distribución Multinomial. En el caso de la distribución


multinomial tenemos, bajo una apriori Dirichlet, la aposteriori es también
Dirichlet con parámetros ni + αi , para i = 1, . . . , k. Bajo la distribución
apriori de Jeffreys, que corresponde a una Dirichlet con αi = 1/2 para todo
i = 1, . . . , k, la distribución predictiva es
ni + 21
p (Xi = i |N ) = Pk k
j=1 nj + 2
y, bajo a apriori uniforme
ni + 1
p (Xi = i |N ) = Pk
j=1 nj + k

11.2. Distribución Predictiva vı́a MCMC


A veces es difı́cil resolver la integral para calcular la distribución pre-
dictiva

Z
p (z|x) = p(z|θ)ξ (θ|x) dθ
= Eθ|x [p(z|θ)]

Una solución es usar MCMC.

154
11.2.1. Algoritmo
(Paso 1) Genere una muestra de tamaño M , luego de haber quemado
nB muestras de ξ (θ |Datos ), puede usar un thin (botar valores inter-
medio si es necesario para controlar la autocorrelación). Esta muestra
la denotamos por comodidad como

θ1 , θ2 , · · · , θM

La distribución predictiva p (z |Datos ) podemos aproximarla ası́


Z
p (z|x) = p(z|θ)ξ (θ|x) dθ
M
1 X
= Eθ|x [p(z|θ)] ≈ p (z |θi , Datos )
M i=1

(Paso 2) Sacamos al azar un número en {1, 2, · · · , M } con probabilidad


1/M , digamos m.

(Paso 3) De p(z|θm , Datos) sacamos un número al azar, digamos z.

(Paso 4) Repetimos los pasos 2 y 3 una gran cantidad de veces, diga-


mos K. Al final obtenemos un conjunto de valores

z1 , z2 , · · · zK

(Paso 5) Construı́mos un estimador de la densidad p(z|Datos). Si z


es discreta simplemente calculamos la densidad aproximada como
# {xk = j}
p(z = j|Datos) ≈
K
Ejemplo 11.5 Distribución Discreta. Asumamos
X ∼ P oisson(λ)
ξ(λ) es U (0, 3)
x1 , x2 , · · · , xn es una m.a. de la distribución P oisson(λ)
La distribución aposteriori es
Pn
xi
λ i=1 exp(−nλ)
ξ (λ |Datos ) = Qn
i=1 xi !

para 0 < λ < 3.

155
La distribución predictiva de z dado los Datos es
Pn
Z xi
3 λz exp(−λ) λ i=1 exp(−nλ)
p(z |Datos ) = Qn dλ
0 z! i=1 xi !

Z 3 Pn
1
p(z |Datos ) = Qn exp(−λ(n + 1))λz+ i=1
xi

z! i=1 xi ! 0

Pn
1 Γ (z +x + 1)
p(z |Datos ) = Qn Pn i
i=1
z! i=1 xi ! (n + 1)z+ i=1 xi +1
Z 3 Pn
(n + 1)z+ i=1 xi +1 Pn
× Pn exp(−λ(n + 1))λz+ i=1 xi dλ
0 Γ (z + i=1 xi + 1)

Esta última integral corresponde a la función de distribución acumulada


P
de una gamma con parámetros z + ni=1 xi + 1 y n + 1 evaluada en 3.

Si observamos del proceso 0,0,2,1,2,0,0,2,2,1,1,1,3,4,4,3. Tenemos


# Cálculo de la distribución predictiva

# Distr. muestral: Poisson


# Apriori: U(0,3)

Datos<-c(0,0,2,1,2,0,0,2,2,1,1,1,3,4,4,3)

p.pred<-function(z,x){
n<-length(x)
S.x<-sum(x)
P.x<-prod(factorial(x))
a<-z+S.x+1
b<-n+1

res<-gamma(a)/(factorial(z)*b^a*P.x)*pgamma(3,a,rate=b)
return(res)
}

temp<-p.pred(0:20,Datos)

prob.poste<-temp/sum(temp)

plot(0:20,prob.poste,type=’h’)
prob.poste

156
Ejemplo 11.6 Distribución continua.

Suponga X ∼ Gamma(α, β)
Distribución apriori
ξ(α, β) ∝ 1
Distribución posterior
n
!α−1 n
!
β nα Y X
ξ (α, β |Datos ) ∝ xi exp −β xi
(Γ(α))n i=1 i=1

# Distribución predictiva para una va continua Gamma

tiempos<-c(1.2,0.5,1.6,2.0,2.1,2.0)
prod.tiempos<-prod(tiempos)
sum.tiempos<-sum(tiempos)
n<-length(tiempos)

u<-mean(tiempos)
v<-var(tiempos)
a<-u^2/v
b<-u/v

> a

157
[1] 6.347701
> b
[1] 4.051724
>

veros<-function(a,b,datos){
res<-1
for(i in 1:length(datos)) res<-res*dgamma(datos[i],a,rate=b)
return(res)
}

a1<-seq(0.01,16.0,length=50)
b1<-seq(0.01,10.0,length=50)

z<-outer(a1, b1, FUN="veros", tiempos)


contour(a1,b1,z,ylab=expression(beta),xlab=expression(alpha))

dist.a.con<-function(a,b,produ,n) exp(n*a*log(b)
-n*lgamma(a)+a*log(produ))

# dist.b.con es una gamma(n*a+1,sum.tiempos)

# Proceso de muestreo

a.viejo<-a
b.viejo<-b
result<-c(a,b)
resulta<-matrix(NA,ncol=2,nrow=10000)
for(i in 1:nrow(resulta)){

pesos<-dist.a.con(a1,b.viejo,prod.tiempos,n)
a.nuevo<- sample(a1,1,prob=pesos)
b.nuevo<-rgamma(1,n*a.nuevo+1,sum.tiempos)
resulta[i,]<-c(a.nuevo,b.nuevo)
b.viejo<-b.nuevo
}

points(resulta,col=’grey’)
par(mfrow=c(2,1))
plot(resulta[,1],type=’l’,ylab=expression(alpha))
plot(resulta[,2],type=’l’,ylab=expression(beta))
par(mfrow=c(1,1))
# Función que genera muestra de la predictiva
genera.muestra.predictiva<-function(a)rgamma(1,a[1],rate=a[2])

158
z<-apply(resulta,1,genera.muestra.predictiva)
plot(density(z,from=0),main=’Distribución Predictiva’)

En estadı́stica clásica existe el área de validación cruzada que permite


medir la calidad de un modelo utilizando los datos de una manera relati-
vamente eficiente: parte de ellos se utilizan para la estimación del modelo
y la otra parte se usan con propósitos de predicción. Esta ha sido un área

159
[] []

160
que ha estado sujeta a muchas propuestas metodológica y controversias pero
no se puede negar su utilidad. Alqallaf y Gustafson (2001) presentan una
propuesta para la utilización de métodos de validación cruzada en estadı́sti-
ca bayesiana. Argumentan ellos que se puede construir una medida que es
comparable al concepto de valor P propuesto por Gelman, Meng y Stern.
Uno de los principales problemas que tiene la utilización de validación cru-
zada en estadı́stica bayesiana es el costo computacional involucrado en este
proceso, pues la complejidad que tiene el problema original necesitarı́a ser
multiplicada por el número de subproblemas generados por la técnica.

161
162
Capı́tulo 12
Modelos Lineales

12.1. La regresión clásica


Un modelo de regresión es un medio formal para expresar los dos ingre-
dientes esenciales de una relación estadı́stica:

1. Una tendencia de la variable dependiente Y que cambia, cuando la


variable independiente cambia, en una forma sistemática.

2. Una dispersión de los puntos alrededor de la relación estadı́stica.

Estas caracterı́sticas se expresan en un modelo de regresión como:

1. Para cada nivel de X hay una distribución de probabilidad de Y .

2. Las medias de estas distribuciones de probabilidad cambian en una


forma sistemática con X.

12.1.1. Usos del Análisis de Regresión


Descripción

Control

Predicción

12.1.2. Estrategia Tı́pica en un Análisis de Regresión


1. Diseño del Experimento

163
2. Análisis Exploratorio o inicial de los datos
3. Desarrollo de uno o más modelos de regresión tentativos
4. Hay uno o más modelos adecuados en los datos? Sı́.
5. Identifique el modelo más adecuado
6. Haga todas las inferencias necesarias basado en el modelo seleccionado
7. Revise los modelos y/o desarrolle otros diferentes
8. Presentacion de resultados e interpretación.

12.1.3. Regresión simple


El modelo más sencillo, pero el más útil, es el que se conoce como modelo
de regresión simple. Si tenemos una variable, Y , en cuyo comportamiento
estamos interesados cuando la condicionamos en ciertos valores de otra va-
riable, X, el modelo de regresión simple nos dice que la media condicional
de Y dado un valor de X = x, denotada por E [Y |X] = µY |X , es una función
lineal de X, o sea,

E [Y |X = x] = µY |X=x = β0 + β1 x
donde β0 y β1 se conocen como los parámetros del modelo. Estos valores
usualmente son desconocidos y el problema es estimarlos a partir de una
muestra de individuos de la población.
Sea (Y1 , X1 ), (Y2 , X2 ), · · · , (Yn , Xn ) una muestra aleatoria extraı́da de la
población de referencia. Observe como cada individuo proporciona infor-
mación simultáneamente sobre X y sobre Y . El individuo i-ésimo puede
representarse en términos del modelos ası́:

Y i = β 0 + β 1 Xi + ei
Supuestos:

1. ei ∼ N ormal 0, σ 2 , varianza constante (homoscedasticidad)
2. Cov (ei , ej ) = 0 para todo i 6= j
Notación:

yi = Yi − Ȳ

xi = Xi − X̄
Las minúsculas denotan desviaciones de la media.

164
12.1.4. Modelo de Regresión Lineal Múltiple

Y = β 0 + β 1 X1 + β 2 X2 + . . . + β k Xk + ei

donde

Y : Respuesta o variable dependiente

X1 , X2 , · · · , Xk : k variables explicatorias o independientes (no es-


tocásticas)

β0 , β1 , · · · , βk : k + 1 parámetros (usualmente desconocidos)

e: Error aleatorio

1. E (e; ) = 0

2. V ar (e; ) = σe2

3. Adicionalmente se asume normal

 
Y ∼ N β 0 + β 1 X1 + · · · + β k Xk , σ 2

E [Y |X1 , X2 , · · · , Xk ] = β0 + β1 X1 + · · · + βk Xk
La muestra aleatoria consta de n puntos. El i-ésimo punto se denota como

(Xi1 , Xi2 , · · · , Xik , Yi ) , para i = 1, 2, · · · , n

Condicion
Cov (Yi , Yj ) = 0 para todo i 6= j
Yi = β0 + β1 Xi1 + β2 Xi2 + · · · + βk Xik + ei para i = 1, 2, · · · , n
el modelo aplicado al i-ésimo punto
Para las n observaciones tenemos

Y1 = β0 + β1 X11 + β2 X12 + · · · + βk X1k + e1


Y2 = β0 + β1 X21 + β2 X22 + · · · + βk X2k + e2
.. .. ..
. . .
Yn = β0 + β1 Xn1 + β2 Xn2 + · · · + βk Xnk + en

165
12.1.5. Notación Matricial
La notación matricial simplifica todo el trabajo

Y n×1 = Xn×(k+1) β (k+1)1 + en×1

   
yi | xi ∼ N xi β, σ 2 ó y | X ∼ N Xβ, σ 2 I

   −n/2  
1
L β, σ | y2
= 2πσ exp − 2 (y − Xβ)0 (y − Xβ)
2

 −n/2  
2 1  0 
= 2πσ exp − 2 y − Xβ̂ y − Xβ̂

 
1  0  
× exp − 2 β − β̂ X0 X β − β̂

donde β̂ = (X0 X)−1 X0 y, el estimador de mı́nimos cuadrados y utilizamos


el hecho que

 0    −1   
y − Xβ̂ X β − β̂ = y 0 I − X X0 X X0 X β − β̂
 
= y0 (X − X) β − β̂ = 0.
 0  
Por lo tanto se concluye que S = y − Xβ̂ y − Xβ̂ , X0 X y β̂ son es-
tadı́sticos suficientes para β y σ 2 .

12.2. Análisis Conjugado


La verosimilitud es de la forma normal-gamma

   −(n−k−2)/2−1  
1  0 
L β, σ 2 | y ∝ σ2 exp − y − X β̂ y − X β̂
2σ 2
 −k/2  
1  0 
× σ2 exp − β − β̂ X 0
X β − β̂
2σ 2

con β | σ 2 normal y la distribución marginal de σ 2 es una Gamma2 invertida,


denotada por IG2 con n − k − 2 grados de libertad. La distribución apriori
conjugada también es de la forma normal-gamma.

166
 
β | σ 2 ∼ N β0 , σ 2 M−1
0

σ 2 ∼ IG2 (S0 , v0 )

tenemos

   −(n−k−2)/2−1    
S 1  0 
ξ β, σ 2 | y ∝ σ2 exp exp −
− β − β̂ X 0
X β − β̂
2σ 2 2σ 2
 −v0 /2−1     
S0 −k/2 1
× σ2 exp − 2 σ2 exp − 2 (β − β0 )0 M0 (β − β0 )
2σ 2σ
 −(v0 +n)/2−1 
S1
= σ2 exp − 2

 −k/2  
1
× σ2 exp − 2 (β − β1 )0 M1 (β − β1 )

donde

M1 = M0 +X0 X 
β1 = M−1
1 M0 β0 + X0 Xβ̂
S1 = S0 + S + Sβ
 0 h −1 i−1  
Sβ = β0 − β̂ M−1 0
0 + XX β0 − β̂

El resultado sigue completando el cuadrado para β y reuniendo los otros


términos en Sβ teniendo en cuenta que

−1 h −1 i−1


M0 + X0 X = M−1 −1
0 − M0 M−1 0
0 + XX M−1
0
−1 −1 h −1 i−1 −1
= X0 X − X0 X M−1 0
0 + XX X0 X
 −1 h  −1 i−1
X0 X M0 + X0 X M0 = M−1
0 M0 + X0 X X0 X
h −1 i−1
= M−1 0
0 + XX

La distribución posterior será entonces

 
β | y, σ 2 ∼ N β1 , σ 2 M−1
1

σ 2 | y ∼ IG2 (S1 , v1 )

167
donde v1 = v0 + n.
La distribución marginal posterior para β es una t multivariable1 . Si
integramos para eliminar σ 2 de la distribución conjunta posterior obtenemos
el kernel de la marginal posterior como
h i−(v1+k)/2
ξ (β | y) ∝ S1 + (β − β1 )0 M1 (β − β1 )

Este es el kernel de la distribución t multidimensional con v1 grados de


libertad y parámetros de escala S1 y M1 , y denotado por

β | y ∼ tk (β1 , S1 , M1 , v1 )

Resultados similares se obtienen



para subconjuntos de parámetros de la
regresión. Sea β ∼ N b, σ 2 M−1 y σ 2 ∼ IG2 (S, v). Asumamos la siguiente
partición conformable

!
βa
β =
βb
!
Maa Mab
M−1 =
Mba Mbb

Ya que β es normal condicionado en σ 2 tenemos

 
β a | σ 2 ∼ N ba , σ 2 Maa
  −1     −1 
β a | β b , σ 2 ∼ N ba + Mab Mbb β b − bb , σ 2 Maa − Mab Mbb Mba .

Marginalizando con respecto a σ 2 tenemos


1
Un vector aleatorio X se dice que tiene una distribución t multivaiable con n grados
de libertad, vector dfe localización µ y matriz de precisión T , si su densidad es
 −(n+k)/2
1
f (x|n, µ, T ) = c 1 + (x − µ)0 T (x − µ)
n
donde
Γ [(n + k)/2] |T |1/2
c= con
Γ(n/2)(nπ)(k/2)
2 α + n grados de libertad, vector de localización β 1 y matriz de precisión
2α + n 
τ + X 0X
2β1

168
 
β a ∼ tka ba , S, (Maa )−1 , v
 −1 !
 −1    −1
a b a ab bb b b aa ab bb ba
β |β ∼ t ka b + M M β −b , S, M −M M M ,v .

12.2.1. Distribución Predictiva


2

Recordemosque el modelo  de interés es y = Xβ+, con  ∼ N 0, σ I .Ya
−1 −1
que β | σ 2 ∼ N β0 , σ 2 M0 , entonces Xβ | σ 2 ∼ N(Xβ0 , σ 2 XM0 X0 ). Se
sigue que
  
y | σ 2 ∼ N Xβ0 , σ 2 I + XM−1
0 X
0

ya que  es independiente de β cuando condicionamos en σ 2 . La apriori para


σ 2 es IG2 (S0 , v0 ) y marginalizando con respecto a σ 2 produce
  −1 
y ∼ tn Xβ0 , S0 , I + XM−1
0 X 0
, v0

La densidad predictiva para un vector y∗ de m componentes condicio-


nado a un conjunto de valores para las variables explicatorias X∗ es
  −1 
∗ ∗ ∗
y | X ∼ tm X β 1 , S 1 , I + X ∗
M−1
1 X ∗0
, v1

g-apriori de Zellner
La aproximación g-apriori de Zellner no requiere especifificar el cono-
cimiento previo de acerca de los parámetros del modelo. La aproximación
g-apriori asume que las covarianzaqs apriori para β son iguales a las obte-
nidas mediante los datos muestrales. O sea, la matriz de porecisión apriori
está dada por
g 0
XX
σ2
La media aposteriori será

β̂ + gβ (0)
β (1) =
1+g

donde β̂ es el estimador de máxima verosimilitud y β (0) es la media apriori.


El tamaño de g corresponde al peso que se le asigna a la apriori.

169
12.2.2. Inferencias
Intervalos de Probabilidad
Regiones de alta probabilidad para conjuntos de parámetros se encuen-
tran directamente de la distribución marginal posterior. Para un solo paráme-
tro tenemos
  −1 
βi | y ∼ t βi1 , S1 , Mii1 , v1

donde M1ii es el elemento i, i de M−1


1 . La transformación

βi − βi1
q
M1ii S1 /v1

tiene una distribución t estándar y una región de más alta probabilidad 1−α
está dada por
 q q 
βi1 − tα/2,v1 M1ii S1 /v1 , βi1 + tα/2,v1 M1ii S1 /v1

Para conjuntos de parámetros notemos que si x ∼ tm (µ, S, M , v) en-


tonces
(x − µ)0 M (x − µ) /m
∼ F(m,n)
S/v
Una región de más alta probabilidad para β está dada por
( )
(β − β1 )0 M1 (β − β1 ) /k
β: ≤ F(1−α,k,v1 )
S1 /v1

12.2.3. Pruebas de Hipótesis


Las pruebas de hipótesis puntuales son fáciles de implementar utilizando
la técnica de la región de más alta probabilidad y verificando que la hipótesis
está contenida en una región apropiada de más alta probabilidad.
Si la hipótesis tiene la forma de q restricciones lineales Bβ = r, tenemos
que la distribución posterior bajo la hipótesis es
  −1 
Rβ ∼ tq Rβ 1 , S1 , RM−1
1 R , v1

y por lo tanto

170
 −1
(δ − Rβ 1 + r)0 RM−1
1 R (δ − Rβ 1 + r) /q
∼ F(q,v1 )
S1 /v1
para δ = Rβ 1 − r. La hipótesis δ = 0 está contenida en la región de más
alta probabilidad si
 −1
(Rβ 1 − r)0 RM−1
1 R (Rβ 1 − r) /q
< F(q,v1 )
S1 /v1
Para el cálculo de las pruebas bayesianas y los factores de Bayes suponga-
mos deseamos probar H1 : Rβ = r y H2 : Rβ 6= r. H1 implica excatamente
q restricciones sobre los paámetros que pueden ser sustituidos en el modelo,
lo cual produce

y ∗ = X∗ β ∗ + 

donde β es un vector con k − q componentes.


 Especificando
 una apriori para
∗ 2 ∗ 2 ∗ 2 ∗−1 2
β y σ bajo H1 , digamos β | σ ∼ N β0 , σ M0 , σ ∼ IG1 (S0 , v0 )
obtenemos la verosimilitud marginal bajo H1 como
  −1 
∗−1
m (y∗ | H1 ) = tn X∗ β0∗ , S0 , I + X∗ M0 X∗0 , v0
 
Bajo H2 , especificamos una apriori β | σ 2 ∼ N β0 , σ 2 M−1 0 , σ 2 ∼ IG1 (S0 , v0 )
y el análisis es igual al anterior. El factor de Bayes será entonces
  −1 
∗−1
tn X∗ β0∗ , S0 , I + X∗ M0 X∗0 , v0
B12 =  
tn Xβ0 , S0 , (I + XM0 ; −1X0 )−1 , v0

Ejemplo 12.1 Precios de Oferta de Vehı́culos. Consideremos los


datos referentes a los precios de oferta de carros Chevrolet Sprint aparecidos
en el periódico El Colombiano Abril 14 del 2002 en la sección de Avisos
Clasificados.
Año Precio
(en millones)
87 7.0
88 8.0
92 10.4
94 12.5

171
Si asumimos que el modelo P recio = β0 + β1 Año nos puede representar
de una manera adecuada la relación entre el Precio de Oferta del vehı́culo y
el Año del mismo. Además asumimos que una observación particular tiene
una diferencia con el modelo teórico que se distribuye normal con media
cero y varianza σ 2 . La pendiente β0 nos indica la diferencia promedio en el
precio de dos carros Sprint de años consecutivos. Podemos entonces utilizar
un programa estadı́stico que ajuste el modelo ( aún hasta calculadoras de
bolsillo ajustan este tipo de modelos). Los resultados son

Precio Estimado = 9,475 + 0,74275Año


Error Estándar 0,17326 0,06055

Desviación Tı́pica del Modelo: 0.3465 con 2 grados de libertad


R-Cuadrado: 0.9869
Obviamente el modelo ajusta bien, pero es claro que tenemos muy pocos
datos. El intervalo de confianza del 95 % para la pendiente es ( 0.4822244,
1.003276), que es bastante amplio. Un problema con esta aproximación es
la interpretación frecuentista que hay que darle al intervalo y que se basa en
el supuesto de la extracción de infinitas muestras de tamaño 4 de la misma
población.
Los precios de oferta del mismo tipo de carro que aparecieron en El
Colombiano en Diciembre 16 del 2001, en el cual aparecieron los siguientes
datos

Año Precio
(en millones)
88 7.8
90 8.8
95 11.8
95 12.3
94 12.0
95 8.8

Si asumimos que β0 se distribuye normalmente con media 10.86 y preci-


sión de 28.08382 y β1 se distribuye normalmente con media 0.6522 y precisión
225.2477. Para la varianza del modelo asumimos un modelo poco informati-
vo Gamma(0.001,0.001). Los valores anteriores se construyeron asumiendo
inicialmente distribuciones poco informativas y actualizándolos con la in-
formación previa, excepto el de la varianza, ya que este nos refleja el nivel
de credibilidad en las predicciones de esta actualización, que puede no ser

172
muy alto. Dadas esta nuevas condiciones para nuestro problema, o sea in-
formación previa disponible y cuantificada en términos de distribuciones,
procedemos a mezclarla, utilizando el Teorema de Bayes, para obtener nues-
tra distribución actualizada o aposteriori. Esta última produce los resultados
siguientes

Parámetro media sd 2.5 % 97.5 %


β0 10.76 0.1925 10.38 11.14
β1 0.6581 0.06308 0.5339 0.7838
τ 0.5937 0.4655 0.06085 1.825

El intervalo de credibilidad (en la estadı́stica clásica lo llamamos de con-


fianza) para la pendiente del 95 % de probabilidad es (0.5339 , 0.7838 ), el
cual nos dice que el más probable valor para la diferencia promedio en el pre-
cio de oferta de dos carros Sprint de años consecutivos está entre $534.000.00
y $784.000.00. Este intervalo es mucho más preciso que el intervalo hallado
por el método clásico que era $482.200.00 y $1.003.000.00.

12.3. Estrategias en Modelación


Jefferys y Berger (1992) discuten el principio que es ahora popular entre
los modeladores conocido como la cuchilla de Ockham, y que dice Pluritas
non est ponenda sine necessitate, que traduce “La pluralidad no se debe
imponer sin necesidad”. Aunque el principio es relativamente vago, varias
interpretaciones se le han dado tales como:
“Las entidades no deben ser multiplicadas sin necesidad”

“Es vano hacer con más lo que se puede hacer con menos”

“Una explicación de los hechos no debe ser más complicada de lo ne-


cesario”

“Entre hipótesis que compiten, favorezca la más simple”


Este ha sido un principio heurı́stico, pero ellos argumentan que puede ser
justificado y aceptado bajo la escuela bayesiana. Loredo (199*) habla de la
Cuchilla de Occam Automtizada. Para probabilidades predictivas se prefie-
ren modelos simples.
El Factor de Occam:

173
Z
P (D|Mi ) = ξ (θi |M ) L(θi ) dθi
 
≈ xi θ̂i |M L(θ̂i ) δθi
δθi
≈ L(θ̂i )
∆θi
≈ Máxima Verosilitud × Factor de Occam

Los modelos con más parámetros usualmente hacen que los datos pro-
duzcan un mejor ajuste. El Factor de Occam penaliza los modelos por el
“volumen” del espacio parametral desperdiciado.
No existen reglas rı́gidas que se deban seguir en el proceso de modelación,
más bien lo que se presenta a continuación nace de la experiencia:
Comenzar con modelos pequeños y simples que han sido utilizados por
otras personas y para los cuales los análisis han sido realizados.

Desarrollar modelos más complejos paso a paso.

Cuando realice simulaciones chequee las respuestas finales comenzado


desde diferentes puntos iniciales y diferentes semillas para los genera-
dores de números aleatorios.

12.4. Librerı́a MCMCpack


Esta librerı́a del R contiene un conjunto de funciones que permiten ajus-
tar una amplia variedad de modelos bayesianos. Un problema es que solo
permite ajustar modelos conjugados, lo que en algunas aplicaciones puede
ser restrictivo.

MCMCregress()
Esta función genera muestras de la distribución posterior del modelo
lineal con errores normales usando el muestreador de Gibbs, usando una
distribución apriori normal multivariable del vector β, y una Gamma inversa
para la varianza condicional.
MCMCregress(formula, data = parent.frame(), burnin = 1000,
mcmc = 10000,thin = 1, verbose = 0, seed = NA,
beta.start = NA, b0 = 0, B0 = 0, c0 = 0.001,
d0 = 0.001,marginal.likelihood = c("none",
"Laplace", "Chib95"), ...)

174
Ejemplo 12.2 Modelación del Precio del Twingo. Para ilustrar el
uso de la función MCMCregress() vamos a modelar el precio de oferta de
carros Renault Twingo considerando el año del vehı́culo. Estos datos apare-
cieron en la sección de Avisos Clasificados del El Colombiano, Marzo 30 del
2008.

La lectura de datos es:

# Ajuste del modelo para el precio de Twingo


# A~
no (101=2001)y Precio (en millones)
datos<-scan()
101 15.2
103 16.9
106 21.4
96 12.3
96 13.0
105 19.9
107 24.5
101 16.5
105 18.9
106 20.5
105 18.7
106 19.0
101 13.8
105 19.0
105 20.0
106 21.5
102 15.5
102 17.5
99 11.0
97 12.5
107 22.5
106 21.5

datos<-matrix(datos,ncol=2,byrow=T)

Precio<-datos[,2]
A~
no<-datos[,1]
plot(A~
no,Precio)

Ajustamos el modelo clásico usando la función lm():

res.lm<-lm(Precio~A~
no)

175
summary(res.lm)
abline(res.lm)
lines(smooth.spline(A~
no,Precio),col=’red’)
title(main=’Precio de Oferta de Twingos vs. A~no’,
sub=’El Colombiano, Marzo 30 del 2008’)

> summary(res.lm)

Call:
lm(formula = Precio ~ A~
no)

Residuals:
Min 1Q Median 3Q Max
-2.8500 -0.8438 0.2416 0.7916 2.8387

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -82.81515 8.82414 -9.385 9.1e-09 ***
A~
no 0.97642 0.08559 11.409 3.3e-10 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 1.383 on 20 degrees of freedom


Multiple R-squared: 0.8668, Adjusted R-squared: 0.8601
F-statistic: 130.2 on 1 and 20 DF, p-value: 3.303e-10

Usando la función MCMCregress() y bajo el supuesto de apriori no in-


formativas obtenemos:

> require(MCMCpack)
Loading required package: MCMCpack
Loading required package: coda
Loading required package: lattice
Loading required package: MASS
##
## Markov Chain Monte Carlo Package (MCMCpack)
## Copyright (C) 2003-2008 Andrew D. Martin, Kevin M. Quinn, and Jong Hee Park
##
## Support provided by the U.S. National Science Foundation
## (Grants SES-0350646 and SES-0350613)
##
> res.bay<-MCMCregress(Precio~A~
no)
> summary(res.bay)

Iterations = 1001:11000

176
Thinning interval = 1
Number of chains = 1
Sample size per chain = 10000

1. Empirical mean and standard deviation for each variable,


plus standard error of the mean:

Mean SD Naive SE Time-series SE


(Intercept) -82.6888 9.35477 0.0935477 0.0939296
A~
no 0.9752 0.09075 0.0009075 0.0009139
sigma2 2.1353 0.76615 0.0076615 0.0099141

2. Quantiles for each variable:

2.5% 25% 50% 75% 97.5%


(Intercept) -101.0450 -88.6263 -82.6179 -76.743 -64.137
A~
no 0.7943 0.9178 0.9744 1.033 1.154
sigma2 1.1229 1.6050 1.9824 2.482 4.019

> res.bay[1:15,]
(Intercept) A~
no sigma2
[1,] -100.75066 1.1479148 1.862622
[2,] -84.14091 0.9853853 1.790405
[3,] -93.42793 1.0783263 2.214343
[4,] -87.98343 1.0297587 1.857563
[5,] -60.41204 0.7586823 3.487881
[6,] -88.45529 1.0324655 2.841447
[7,] -70.67004 0.8607582 1.724942
[8,] -78.15466 0.9292954 1.773086
[9,] -83.50116 0.9834269 1.864375
[10,] -97.87236 1.1166745 2.987112
[11,] -87.44617 1.0212019 1.897684
[12,] -70.76430 0.8667845 3.726868
[13,] -89.75502 1.0418003 2.435048
[14,] -81.57685 0.9694492 2.832919
[15,] -89.03969 1.0361920 2.303039

Ejemplo 12.3 Carros Sprint: Incorporando información previa. Es-


tamos interesados en modelar el precio de oferta del Sprint. En El Colom-
biano del domingo apareció la siguiente información:

# Precio Carros Sprint


# A~
no Precio (en millones)

177
# Oct. 10 2010

datos<-scan()
2003 11
1991 6.2
1991 5.7
1992 7.5
1995 8.3
1996 6.5
1994 8.3
1993 7.6
1993 7.6

datos<-matrix(datos,ncol=2,byrow=T)
a~
no1<-datos[,1]
precio1<-datos[,2]
plot(a~
no1,precio1)

Si tenemos información previa (y si asumimos que el proceso se ha man-


tenido estable) podemos construir la apriori a partir de ella.
# Precio Carros Sprint
# A~
no Precio (en millones)
# junio 21 2009

datos<-scan()
1988 6.0

178
1993 6.8
1996 10.0
1996 9.8
1999 10.2
1987 6.0
1993 8.0
1994 7.5
1994 8.8

datos<-matrix(datos,ncol=2,byrow=T)
a~
no2<-datos[,1]
precio2<-datos[,2]

# actualiza valores de precios-> precios corrientes

# IPC mensual desde julio 2009 hasta sept 2010 (DANE)


IPC<-c(-0.04,0.04,-0.11,-0.13,0.07,0.08,
2.0,0.69,0.83,0.25,0.46,0.10,0.11,-0.04,
0.11,-0.14)

(IPC.acum<-sum(IPC))
(precio2<-precio2*(1+IPC.acum/100))

require(MCMCpack)
res.bay<-MCMCregress(precio2~a~
no2)
summary(res.bay)

Iterations = 1001:11000
Thinning interval = 1
Number of chains = 1
Sample size per chain = 10000

1. Empirical mean and standard deviation for each variable,


plus standard error of the mean:

Mean SD Naive SE Time-series SE


(Intercept) -823.2670 164.00857 1.6400857 1.602354
a~
no2 0.4173 0.08228 0.0008228 0.000804
sigma2 0.7868 0.60859 0.0060859 0.009408

2. Quantiles for each variable:

2.5% 25% 50% 75% 97.5%


(Intercept) -1145.1565 -922.3210 -823.3099 -725.8357 -490.0331
a~
no2 0.2501 0.3684 0.4173 0.4670 0.5786

179
sigma2 0.2480 0.4327 0.6184 0.9237 2.3171

> res.bay[1:10,]
(Intercept) a~
no2 sigma2
[1,] -848.2590 0.4297464 0.4481977
[2,] -977.8810 0.4947555 0.2565116
[3,] -859.3918 0.4352304 0.7775673
[4,] -911.6296 0.4616164 0.3732648
[5,] -1184.8577 0.5983969 0.9113289
[6,] -703.8946 0.3573862 2.4943903
[7,] -873.8297 0.4425935 0.2302472
[8,] -852.9071 0.4321825 0.8055657
[9,] -640.3850 0.3255312 0.5367643
[10,] -750.3874 0.3807708 0.5411309
>
> library(MASS)
>
> fitdistr(1/res.bay[,3],’gamma’)
shape rate
3.51567358 1.98056756
(0.04754901) (0.02879434)

> (b0<-c(mean(res.bay[,1]),mean(res.bay[,2])))
[1] -823.2670280 0.4172582

> (B0<-solve(cov(res.bay[,1:2])))
(Intercept) a~
no2
(Intercept) 11.24989 22424.72
a~
no2 22424.72321 44699971.20

> B0[1,2]<-B0[2,1]

> res.bay2<-MCMCregress(precio1~a~no1,b0=b0,B0=B0,
c0=3.51567358,d0=1/1.98056756 )
> summary(res.bay2)

Iterations = 1001:11000
Thinning interval = 1
Number of chains = 1
Sample size per chain = 10000

1. Empirical mean and standard deviation for each variable,


plus standard error of the mean:

Mean SD Naive SE Time-series SE

180
(Intercept) -726.8450 118.92973 1.1892973 1.2510040
a~
no1 0.3686 0.05966 0.0005966 0.0006274
sigma2 0.9444 0.55779 0.0055779 0.0082347

2. Quantiles for each variable:

2.5% 25% 50% 75% 97.5%


(Intercept) -963.9608 -805.0377 -724.6296 -647.8292 -495.7323
a~
no1 0.2528 0.3289 0.3675 0.4078 0.4876
sigma2 0.3377
Si usáramos el modelo clásico para los datos tendrı́amos
> summary(lm(precio1~a~
no1))

Call:
lm(formula = precio1 ~ a~
no1)

Residuals:
Min 1Q Median 3Q Max
-1.7684 -0.2823 0.3888 0.4032 0.7460

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -704.70446 166.43371 -4.234 0.00387 **
a~
no1 0.35720 0.08346 4.280 0.00366 **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 0.8735 on 7 degrees of freedom


Multiple R-squared: 0.7235, Adjusted R-squared: 0.684
F-statistic: 18.32 on 1 and 7 DF, p-value: 0.003655

12.5. Detección de outliers


Peña y Guttman (1993) presentan varias aproximaciones al tema de la
detección de valores extraños (outliers) en modelos lineales.
Sea H = X (X 0 X)−1 X 0 la matriz hat. Denote por I el conjunto de k
enteros diferentes tomados
 del conjunto {1, . . . , n}. El vector y puede des-
0 0
componerse como y = yI , y(I) 0 , donde (I) significa ‘conjunto eliminado I’.
 
Similarmente la matriz X puede ser particionada como X 0 = XI0 , X(I)
0 .
Siguiendo esta notación denotamos a β̂(I) y s2(I) para los estimadores de β y
σ 2 basados en X(I) y y(I) .

181
Hay dos modelos alternos

yI = XI β + a +  I
y(I) = X(I) β + (I)

donde a es un vector

de k componentes de constantes que ajustan

la media
2 2
y I ∼ N 0, σ Ik y es independiente de (I) ∼ N 0, σ In−k .
La idea es usar la densidad predictiva
  Z  
p yI |y(I) = f (yI |θ) ξ θ|y(I) dθ

Para el modelo lineal con el supuesto de normalidad presentado arriba te-


nemos
   −k/2
p yI |y(I) = K s2(I) |I − HI |1/2 (1 + QI )−(n−p)/2

donde
 
n−p
Γ 2
K=  k  
1 n−p−k
Γ 2 Γ 2 (n − p − k)k/2

y
 0  
yI − XI β̂(I) (I − HI ) yI − XI β̂(I)
QI =
(n − p − k)s2(I)

182
Capı́tulo 13
Modelo Lineal Generalizado

El modelo lineal clásico ha sido utilizado extensivamente y con mucho


éxito en múltiples situaciones. En el análisis de regresión estamos interesados
en predecir la media de una variable, llamada la respuesta, basados en un
conjunto de variables, llamadas los predictores. La regresión clásica asume
que la respuesta es continua y distribuı́da normalmente. El modelo lineal
clásico cae en una clase mayor de modelos que se conoce como modelo lineal
generalizado, M.L.G., la cual tiene tres componentes básicas:

1. Un conjunto de variables aleatorias independientes que pertenecen a


la familia exponencial.

2. Una matriz de diseño y un vector de parámetros.

3. Una función link (enlace, conexión) que relaciona las medias del mo-
delo lineal.

Dentro de la clase de modelos lineales generalizados tenemos el modelo


lineal clásico, el modelo loglineal, la regresión Poisson, la regresión logı́stica,
etc.
En el modelo lineal generalizado clásico observamos respuestas Yi y co-
variables k-dimensionales xi , donde las respuestas condicionales (Yi |θi , φ) se
asumen son variables aleatorias independientes con una densidad que per-
tenece a la familia exponencial de un parámetro
 
yi θi − µ (θi )
f (yi |θi , φ) = exp + c (yi , φ) i = 1, · · · , n
a(φ)

183
El modelo clásico asume que la media E (Yi ) = µ0 (θi ) está relacionada al
intercepto β0 y al vector de parámetros de las covariables β a través de una
función de encadenamiento monótona y diferenciable, y el espacio parame-
tral no es vacı́o.
El modelo lineal generalizado aparece imponiendo una apriori jerárquica
sobre los parámetros (β0 , β). Una selección particularmente conveniente es
usar aprioris normales con aprioris conjugadas para los hiperparámetros
(Ishwaran, 1997)

(β0 |b0 , σ0 ) ∼ N (b0 , σ0 )


(β|b, W ) ∼ Nk (b, W )
(bo |B0 ) ∼ N (0, B0 )
(b|B) ∼ N (0, BI)
 
σ0−1 |s1 , s2 ∼ gamma (s1 , s2 )
   
W −1 |V , v ∼ W ishart V −1 , v

13.1. Modelo Logı́stico


Supongamos que observamos proporciones como respuesta y1 , · · · , yN de
poblaciones binomiales con proporciones π1 , · · · , πN y sus correspondientes
tamaños muestrales n1 , · · · , nN . Asociado con la i-ésima observación hay un
vector de covariables xi y la proporción πi es encadenada a las covariables
xi por medio del modelo logı́stico
 
πi
log = xTi β
1 − πi

La verosimilitud del vector de regresión β está dada por

N
Y
L(β) = πini yi (1 − πi )ni (1−yi )
i=1

donde
 
exp xTi β
πi = 
1 + exp xTi β

184
Si ξ(β) es la densidad apriori para β, entonces la densidad posterior para
β es proporcional a

ξ (β|y) ∝ ξ(β)L(β)

Una ventaja grande de la aproximación bayesiana es que prácticamente


se elimina el problema de separación1 . Este problema aparece con cierta
frecuencia en los ajustes clásicos de la regresión logı́stica y no tiene soluciones
satisfactorias a no ser que sea incrmentar el número de observaciones.

13.1.1. Selección de la Distribución Apriori


Para este caso es difı́cil asignar una distribución apriori directamente al
vector de parámetros de la regresión β ya que está relacionado de una forma
no lineal a las probabilidades {πi }. Puede ser más fácil especificar indirecta-
mente una apriori para β haciendo suposiciones sobre el valor promedio del
valor de la proporción E(π) para valores seleccionados de las covariables. Si
el rango de la matriz de covariables es k, entonces uno considera las propor-
ciones π1 , · · · , πk para k conjuntos diferentes de la covariable x. Las medias
condicionales apriori (MCA) asume que π1 , · · · , πk son independientes con
πi se distribuye Beta (wi mi , wi (1 − mi )), donde mi es una adivinaza apriori
de πi y wi es la precisión de esta adivinanza. La distribución sobre π1 , · · · , πk
es proporcional a

k
Y
ξ (π1 , · · · , πk ) ∝ πiwi mi −1 (1 − πi )wi (1−mi )−1
i=1

1
El conjunto de datos está completamente separado si existe un vector θ ∈ Rp tal que

xTi θ > 0 si yi = 1

xTi θ < 0 si yi = 0
para i = 1, · · · , n.El conjunto de datos está cuasicompletamente separado si existe un
vector θ ∈ Rp {0 tal que
xTi θ ≥ 0 si yi = 1
xTi θ ≤ 0 si yi = 0
para i = 1, · · · , n y si existe j ∈ 1, · · · , n tal que xTj θ = 0. Un conjunto de datos se
dice que se traslapa si no está completamente separado ni cuasicompletamente separado.
El estimador de máxima verosimilitud de θ existe si y solo si el conjunto de datos se
traslapa. Los autores miden el traslapado. Ellos definen nnotraslapado el menor número de
observaciones que necesitan removerse para que los estimadores de máxima verosimilitud
no existan. Observe que nnotraslapado ≤ ncompleto

185
Para el linkeo logı́stico, esta apriori sobre {πi } es equivalente a una apriori
sobre β que es de la misma forma que la verosimilitud con “observaciones
apriori” {(mi , wi , xi )}. Esta es llamada una apriori de datos aumentados
(ADA). Es fácil actualizar la densidad aposteriori de β utilizando esta forma
de distribución apriori. La densidad posterior es proporcional a
N
Y k
Y
ξ (β|y) ∝ πini yi (1 − πi )ni (1−yi ) πiwi mi −1 (1 − πi )wi (1−mi )−1
i=1 i=1

En otras palabras, la distribución aposteriori de β es equivalente a la ve-


rosimilitud de los datos observados {(yi , ni , xi )} aumentados con los “datos
apriori” {(mi , wi , xi )}.
Bedrick et al. (1997) presentan un resumen de diversos procedimientos
para la elicitación de la apriori en el caso de la regresión logı́stica. Entre ellas
se encuentra la elicitación de la probabilidad de éxito a diferentes nivelse de
las covariables. Al-Awadhi y Garthwaite (2006) presentan una metodologı́a
de elicitación del modelo logı́stico en el área de ecologı́a.

Ejemplo 13.1 Niñas Polacas. Consideramos la famosa base sobre la


edad de la menarquia de una niñas en Polonia en los años 60 (Milicer y
Szczotka, 1966 ). En esta base se presenta la edad de una niña y si ya ha
tenido su primera mestruación. Los datos vienen categorizados.

model
{
for( i in 1 : N ){
r[i] ~ dbin(p[i],n[i])
logit(p[i]) <- alpha.star + beta * (x[i] - mean(x[]))
rhat[i] <- n[i] * p[i]
}

alpha <- alpha.star - beta * mean(x[])


beta ~ dnorm(0.0,0.001)
alpha.star ~ dnorm(0.0,0.001)

list( x = c(10.83,11.08,11.33,11.58,11.83,12.08,
12.33,12.58,12.83,13.08,13.33,13.58,13.83,14.08,
14.33,14.58,14.83,15.08,15.33,15.58),
n = c(120,90,88,105,111,100, 93,100,108,99,106,
105,117,98,97,120, 102,122,111,94),

186
r = c(2,2,5,10,17,16, 29,39,51,47,67,
81,88,79,90,113, 95,117,107,92), N =20)

list(alpha.star=0, beta=0)

node mean sd MC error 2.5 % median 97.5 % start sample


beta 1.561 0.05498 5.717E-4 1.458 1.56 1.673 1000 10001
alfa -20.17 0.7105 0.007317 -21.61 -20.16 -18.83 1000 10001

Procedimiento Clásico en R

> edad<- c(10.83,11.08,11.33,11.58,11.83,12.08,


12.33,12.58,12.83,13.08,13.33,13.58,13.83,14.08,14.33,14.58,
14.83,15.08,15.33,15.58)
> exitos<-c(2,2,5,10,17,16, 29,39,51,47,67,
81,88,79,90,113, 95,117,107,92)
> n<-c(120,90,88,105,111,100, 93,100,108,99,106,
105,117,98,97,120, 102,122,111,94)

> summary(glm(cbind(exitos,n-exitos)~edad,family=’binomial’))

Call:
glm(formula = cbind(exitos, n - exitos) ~ edad, family = "binomial")

Deviance Residuals:
Min 1Q Median 3Q Max
-1.2267 -0.8613 -0.3124 0.7507 1.2841

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -20.46917 0.83475 -24.52 <2e-16 ***
edad 1.57545 0.06379 24.70 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1278.571 on 19 degrees of freedom
Residual deviance: 14.893 on 18 degrees of freedom
AIC: 100.35

Number of Fisher Scoring iterations: 3

187
13.2. Regresión Poisson
La distribución Poisson juega un papel de fundamental importancia en
el trabajo aplicado para modelar problemas de conteo en muchas áreas. Los
problemas de regresión donde la variable dependiente es un conteo ocurre con
bastante frecuencia. Ejemplos tenemos el número de muertos por una cierta
enfermedad extraña puede explicarse por un número grande de factores,
por ejemplo, clima, salubridad, educación, etc. El número de defectos que
aparece en cierto rollo de tela depende de la longitud del rollo, época de
elaboración. Es común asumir una respuesta poissoniana, que perteneciendo
a la familia exponencial puede resolverse con la metodologı́a que estamos
desarrollando.

Yi ∼ P oisson(λi )
e−λi λyi i
f (yi ; λi ) =
yi !
= exp (yi log λi − λi − log(yi !))
= exp (yi θi − λi − log(yi !))

donde
θi = log(λi )
el cual es el parámetro natural.

E[yi ] = λi
var[yi ] = λi

ya que g(λi ) = θi cuando g es la función logaritmo. El link canónico es


el link log
log(λi ) = xi 0 β
ya que λi = exp(ηi ) se tiene que

∂λi
= exp(ηi ) = λi
∂ηi

las ecuaciones de verosimilitud


n
X (yi − λi ) ∂λi
xij = 0 j = 1, .., p
i=1
var(yi ) ∂ηi

188
se reduce a
n
X
(yi − λi )xij = 0
i=1
ya que
 2
∂λi 1
wi = = λi
∂ηi var(yi )
 −1
la matriz de covarianza estimada de β̂ es X 0 Ŵ X c es la
donde W
matriz diagonal con elementos de λ̂ en la diagonal principal.

Defectos en una tela


El conteo de defectos o caracterı́sticas especiales en muchos materiales
depende de la longitud (duración), área o volumen. En algunos casos es
posible asumir que estos defectos urgen al azar y la distribución de estos
problemas se puede modelar mediante una Poisson. En un proceso de con-
trol el material no llega del mismo tamaño y obviamente la tasa de errores
dependerá del tamaño del material. Si recibimos 20 retazos de telas de la
misma clase y medimos su área y contamos los defectos en ellos, podemos
ajustar una regresión Poisson.

# Regresión Poisson Bayesiana

# Defectos: Número de imperfecciones halladas en un tejido


# Area: área del tejido analizado

defectos<-c(0,0,0,1,0,2,0,0,1,0,
0,2,1,0,0,0,0,1,1,0)

area<-c(
1,1,1,1,1,2,0.5,0.5,1,0.5,
1.5,1.5,2,0.5,1,1,1,1.5,2,1.5)

require(MCMCpack)

res<-MCMCpoisson(defectos~area)
summary(res)

Iterations = 1001:11000
Thinning interval = 1

189
Number of chains = 1
Sample size per chain = 10000

1. Empirical mean and standard deviation for each variable,


plus standard error of the mean:

Mean SD Naive SE Time-series SE


(Intercept) -3.780 1.3656 0.013656 0.04623
area 2.057 0.8034 0.008034 0.02589

2. Quantiles for each variable:

2.5% 25% 50% 75% 97.5%


(Intercept) -6.7468 -4.640 -3.648 -2.835 -1.480
area 0.5677 1.496 2.018 2.562 3.733

En este caso el modelo será


log(Def ectos) = −3,780 + 0,5677Area
y cuando el área sea de 1 metro cuadrado el número de defectos promedio
será 0.1785298.

13.3. Estimación del coeficiente de correlación


El coeficiente de correlación es una de las medidas estadı́sticas de más
uso en el trabajo aplicado. Algunas de sus propiedades fueron estudiadas por
Zheng y Matis (1993). Discusión sobre sus interpretaciones puede hallarse en
Falk y Well (1997). La estimación del coeficiente de correlación por medio
de intervalos es importante y para ello se disponen de diversos métodos.
El problema para el analista es la carencia de reglas sobre cuál fórmula
es preferible. Para esto hemos realizado un estudio de simulación que nos
permiten analizar el comportamiento de los niveles de confianza reales y
comparalos con los teóricos de los diversos intervalos disponibles.
Asumamos que (x1 , y1 ) , (x2 , y2 ) , , (xn , yn ) es una muestra aleatoria de
una normal bivariable con vector de medias µ y matriz de varianzas y co-
varianzas Σ. El estimador máximo verosimil de ρ es (Graybill, 1976)
Pn
1=1 (xi − x̄) (yi − ȳ)
R=  1/2
Pn Pn
1=1 (xi − x̄)2 1=1 (yi − ȳ)2

190
y el estimador UMVU (insegado y uniformemente de varianza mı́nima) de
ρ es
   
Γ n−2 Z
2
1 t−1/2 (1 − t)(n−5)/2
ρ̂ = R      p dt
Γ 21 Γ n−3 0 1 − t(1 − R2 )
2

La f.d.p. de R es
(n−1)/2  (n−4)/2 Z
(n − 2) 1 − ρ2 ∞
fR (r) = 1 − r2 (cosh w − ρ r)−(n−1) dw
π 0

donde −1 < r < 1 y −1 < ρ < 1. El único parámetro de la distribución es


ρ.
Si π(ρ) denota la distribución apriori de ρ entonces la distribución apos-
teriori será

ξ(ρ; Datos) ∝ L(ρ; Datos)ξ(ρ)

 (n−1)/2 Z ∞
ξ (ρ |Datos ) ∝ ξ(ρ) 1 − ρ 2
(cosh w − ρ r)−(n−1) dw
0

13.3.1. Distribución No Informativa de Laplace


Si escogemos una distribución apriori no informativa de Laplace, π(ρ) ∝
1, entonces la aposteriori, entonces los resultados serán equivalentes a los
resultados clásicos,ya que la aposteriori será proporcional a la función de
verosimilitud.

π(ρ; Datos) ∝ L(ρ; Datos)

13.3.2. Distribución Apriori Informativa


Debido a que es necesario plantear una distribución apriori para el paráme-
tro del cual se quiere realizar la inferencia, en este caso de ρ, se emplea una
distribución de probabilidad que esté definida en el rango de dicho paráme-
tro, es decir, entre -1 y 1.
Como distribución apriori informativa para el coeficiente de correlación
se puede trabajar con la distribución univariada propuesta por McCullagh
(1989) cuyo rango precisamente es entre -1 y 1. Una descripción de dicha
aprori se presenta a continuación:

191
Definición 13.1 Distribución de McCullagh. Sea X una variable alea-
toria definida en el intervalo (−1, 1) cuya p.d.f es de la siguiente forma:
1
(1 − x2 )v− 2
fx (x; θ, υ) =
(1 − 2θx + θ2 )υ B(υ + 21 , 21 )
Dicha densidad está relacionada con la densidad de la variable X 0 :
1
0 (1 − x02 )υ− 2 (1 − θ2 )
fx0 (x ; θ, υ) =
(1 − 2θx0 + θ2 )υ+1 B(υ + 21 , 12 )
con −1 < x0 < 1.
Ambas variables aleatorias se relacionan de la siguiente manera:
(X − θ)(θ2 − 1)
X0 − θ =
1 − 2θX + θ2
para todo −1 < θ < 1 y υ > − 21 en ambas densidades.
Por lo tanto la apriori para ρ serı́a
1
(1 − ρ2 )v− 2
ξ(ρ) ∝
(1 − 2θρ + θ2 )υ
y la aposteriori quedarı́a como
1
(1 − ρ2 )v− 2  (n−1)/2 Z ∞
ξ (ρ |r ) ∝ 1−ρ 2
(cosh w − ρ r)−(n−1) dw
(1 − 2θρ + θ2 )υ 0

13.3.3. Uso del Modelo Completo


Una aproximación que se ha presentado es considerar la distribución
conjunta de los datos normales bivariables (X1 , Y1 ) , (X2 , Y2 ) , · · · , (Xn , Yn ) ,
con parámetros µ1 , µ2 , σ12 , σ22 , ρ. La distribución posterior será
     

π µ1 , µ2 , σ12 , σ22 , ρ |Datos ∝ L Datos µ1 , µ2 , σ12 , σ22 , ρ π µ1 , µ2 , σ12 , σ22 , ρ

Una ventaja de esta aproximación es que existen resultados sobre distri-


buciiones conjugadas para el caso normal, pero el problema es que exige la
elicitación de cuatro parámetros adicionales los cuales no sn de interés del
investigador.
En este caso los parámetros µ1 , µ2 , σ12 , σ22 son considerados como paráme-
tros de perturbación (nuisance) y hay que eliminarlos vı́a marginalización,
Z Z Z Z  
π (ρ |Datos ) = π µ1 , µ2 , σ12 , σ22 , ρ |Datos dµ1 dµ2 dσ12 dσ22 .

192
Bibliografı́a

[1] Albert, J. (1989) Nuisance Parameters and the Use of Exploratory


Graphical Methods in a Bayesian Analysis. The American Statistician,
Vol. 43, No. 4, pp. 191-196

[2] Anscombe, F. J. y Aumann, R. J. (1963) A Definition of Subjective


Probability. The Annals of Mathematical Statistics, Vol. 34, No. 1, pp.
199-205

[3] Ashby, D. (2006) Bayesian Statistics in Medicine: A 25 Year Review.


Statistics in Medicine, Vol. 25, pp. 3589-3631

[4] Berger, J. O., Liseo, B. y Wolpert, R. L. (1998) Integrated Likelihood


Methods for Eliminating Nuisance Parameters. Purdue Univ. Dept. of
Statistics Technical Report No. 96-7C Revised 1998.

[5] Box, G. E. P. y Tiao, G. C. (1973) Bayesian Inference in Statistical


Analysis. John Wiley & Sons: Nueva York

[6] Cooke, R. M. (1991) Experts in Uncertainty: Opinion and Subjective


Probability in Science. Oxford University Press: Oxford

[7] De Santis, F. (2006) Power Priors and Their Use in Clinical Trials. The
American Statistician, Vol. 60, No. 2, pp. 122-129

[8] D’Agostini, G. (2000) Role and Meaning of Subjective Probability: So-


me Comments on Common Misconceptions. XX International Works-
hop on Bayesian Inference and Maximum Entropy Methods in Science
and Engineering, Gif sur Yvette, Francia.

193
[9] Draper, D., Hodges, J. S., Mallows, C. L. y Pregibon, D. (1993) Exchan-
geability and Data Analysis. Journal of the Royal Statistical Society.
Series A, Vol. 156, No. 1, pp. 9-37

[10] Fink, D. (1997) A Compdium of Conjugate Priors. Technical Report.


Dept. of Biology. Montana State University. Bozeman, MT 59717

[11] Gavasakar, U. (1988) A comparison of two elicitation methods for a


prior distribution for a binomial parameter. Managment Science, Vol.
34, No. 6, pp. 784-790

[12] Hogg, R.V. y Craig, A.T. (1978). Introduction to Mathematical Statis-


tics. Cuarta Edición. Collier MacMillan International:New York

[13] Horowitz, I. (1968) Introducción al Análisis Cuantitativo de los Nego-


cios. Ediciones del Castillo: Madrid

[14] Kadane, J. B. y Winkler, R. L. (1988) Separating Probability Elicitation


From Utilities. Journal of the American Statistical Association, Vol. 83,
No. 402, pp. 357-363

[15] Jeffreys, H. (1961) Theory of Probability. Third Edition. Clarendon


Press: Londres

[16] Koop, G. (2003). Bayesian Econometrics. Wiley: West Sussex, England.

[17] Mood , A.M, Graybill, F.A. y Boes, D.C. (1974). Introduction to the
Theory of Statistics. Third Edition. McGraw-Hill Kogasakua, Ltd: Tok-
yo.

[18] R Development Core Team (2011). R: A language and environment for


statistical computing. R Foundation for Statistical Computing, Vienna,
Austria. ISBN 3-900051-07-0, URL http://www.R-project.org/

[19] Raiffa, H. (1970). Decision Analysis: Introductory Lectures on Choice


Under Uncertainty. Addison-Wesley: Reading, Masschusetts

[20] Raiffa, H. y Schlaifer, R. (1964) Applied Statistical Decision Theory.


Harvard University Press: Boston

[21] Ramoni, M. y Sebastiani, P. (1998) Bayesian Methods for Intelligent


Data Analysis. KMi Technical Report KMi-TR-67

[22] Robert, C. P. (1994) The Bayesian Choice: A Decision-Theoretic Mo-


tivation. Springer-Verlag: New York

194
[23] Winkler, R. L. (1972) An Introduction to Bayesian Inference and De-
cision. Holt, Rinehart and Winston,Inc.: New York

195
Índice alfabético

g-apriori de Zellner, 169 distribución geométrica, 31


distribución impropia, 56
algoritmo Metropolis, 125 distribución informativa, 12
análisis de sensibilidad, 51 distribución multinomial, 32
apriori de Haldane, 63 distribución multinormal, 44
apriori indiferente, 63 distribución no informativa, 11, 12,
apriori localmente uniforme, 63 55
apriori potencia, 5 distribución Poisson, 33
apuesta, 7
apuestas, 7 elicitación, 25, 27
entropı́a, 62
Berger, 57 estimación, 71
Box, 63 estimador bayesiano, 76
contrato de referencia, 10 estimador máximo-aposteriori (MAP),
74
de Finetti, 18 etimador generalizado de máxima ve-
densidad predictiva apriori, 93 rosimilitud, 77
diagnósticos MCMC, 129 experto, 6
distribución apriori, 11
distribución beta, 25 factor de Bayes, 86
distribución beta generalizada, 30 función de pérdida, 72
distribución beta-binomial, 28
Gavasakar, 29
distribución binomial, 23
Gibbs, 110
distribución binomial negativa, 31
griddy Gibbs, 123
distribución conjugada, 11, 21
distribución Dirichlet, 32 inferencia, 71
distribución exponencial, 41 intercambiabilidad, 18
distribución gamma, 49
distribución gamma generalizada, 117 Jeffreys, 58

196
Laplace, 57
log-verosimilitud marginalizada, 94
loterı́as, 7

MCMC, 104
metanálisis, 5
Metropolis, 125
Metropolis-Hastings, 124
modelos encajados, 95
muestreador de Gibbs, 110, 126

probabilidad, 7
probabilidad personal, 5
probabilidad subjetiva, 5, 7
prueba de hipótesis, 84, 144

Raiffa, 21
región de credibilidad, 79
región de la densidad más alta, 79
regresión, 125, 163
Robert, 22

Schlaifer, 21
simulación, 103

tasa de mezclado, 104


teorema de Bayes, 13
Tiao, 63

verosimilitud, 17

Winkler, 56

Yang, 57

197

You might also like