Notas Dr. Erdely PDF

Monografa de Estadstica Bayesiana
Dr. Arturo Erdely Ruiz

1
Dr. Eduardo Gutierrez Pe na
2
1
FES Acatlan, Universidad Nacional Autonoma de Mexico
2
IIMAS, Universidad Nacional Autonoma de Mexico
2
Indice general
1. Introducci on 1
1.1. Breve rese na hist orica . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Enfoques bayesiano versus frecuentista . . . . . . . . . . . . . 3
1.3. Interpretaciones de la Probabilidad . . . . . . . . . . . . . . . 5
1.4. La Regla de Bayes . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5. La losofa bayesiana . . . . . . . . . . . . . . . . . . . . . . . 12
2. El paradigma bayesiano 15
2.1. El modelo general . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2. Un primer ejemplo . . . . . . . . . . . . . . . . . . . . . . . . 20
3. Informaci on a priori 29
3.1. Determinaci on de la distribuci on a priori . . . . . . . . . . . . 29
3.2. Familias conjugadas . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3. Distribuciones a priori no informativas . . . . . . . . . . . . . 35
3.4. Regla de Jereys . . . . . . . . . . . . . . . . . . . . . . . . . 36
4. Elementos de la teora de la decision 45
4.1. Representaci on formal . . . . . . . . . . . . . . . . . . . . . . 45
4.2. Soluci on de un problema de decisi on . . . . . . . . . . . . . . 49
4.3. Problemas de decision secuencial . . . . . . . . . . . . . . . . 58
4.4. Inferencia e informacion . . . . . . . . . . . . . . . . . . . . . 67
4.5. Acciones y utilidades generalizadas . . . . . . . . . . . . . . . 79
5. Inferencia estadstica parametrica bayesiana 89
5.1. Estimaci on puntual . . . . . . . . . . . . . . . . . . . . . . . . 89
5.2. Contraste de hipotesis . . . . . . . . . . . . . . . . . . . . . . 92
5.3. Estimaci on por regiones . . . . . . . . . . . . . . . . . . . . . 95
3
4

INDICE GENERAL
Bibliografa 99
Captulo 1
Introducci on
1.1. Breve rese na historica
Considerando el conjunto de libros de la bibliografa que se incluye al
nal de esta monografa, sin duda el libro de Press (2003) es el que mas
espacio destina a hacer una rese na hist orica sobre los orgenes y desarrollo
de la Estadstica Bayesiana, particularmente sobre Thomas Bayes, a quien
dedica parte importante del primer captulo, ademas de cuatro apendices.
Aprovecharemos ese invaluable trabajo para lograr una breve rese na, en el
entendido de que el lector interesado en mas detalles debiera, en principio,
consultar la mencionada referencia.
El trabajo de Thomas Bayes, publicado de manera p ostuma en 1763,
ha tenido una importante consecuencia en la forma de hacer inferencia es-
tadstica: provee una manera formal de combinar el conocimiento a priori (o
inicial) que se tiene sobre un fen omeno, con el nuevo conocimiento que se
adquiere a partir de nuevos datos y mediciones sobre el mismo, obteniendo
as un conocimiento a posteriori (o nal), es decir, el conocimiento a priori
se actualiza con la nueva informacion, y dicho conocimiento a posteriori se
convertira en el nuevo conocimiento a priori, a la espera, otra vez, de nueva
informaci on que lo actualice.
Sin embargo, existieron otras guras en la comunidad cientca que con-
tribuyeron de manera importante al desarrollo del enfoque bayesiano, e inclu-
so algunos de ellos precedieron a Thomas Bayes. Por ejemplo, la idea esencial
subyacente en el teorema atribuido a Bayes, el problema de la probabilidad
inversa, se encuentra en el libro de James Bernoulli (1713), y aunque su
1
2 CAP
ITULO 1. INTRODUCCI
ON
autor no le dio una estructura matem atica, abord o problemas particulares
al respecto. De hecho, el trabajo de Bayes (1763) aborda directamente el
problema de hacer inferencias sobre el par ametro de una distribuci on bino-
mial, condicional en algunas observaciones de dicha distribuci on, y es este
caso particular lo que originalmente debiera conocerse como el Teorema de
Bayes. Seg un Press (2003), parece ser que Bayes se dio cuenta de que su
resultado poda generalizarse mas alla de la distribuci on binomial, pero en lo
que de el se publico se limita a la distribuci on binomial. Fue Laplace (1774)
quien enuncio el teorema sobre probabilidad inversa en su forma general (ca-
so discreto), y seg un Stigler (1986 a,b), es muy probable que Laplace jam as
haya conocido el famoso ensayo de Bayes, y por tanto que haya descubier-
to este resultado de forma totalmente independiente, ya que Bayes llevo a
cabo su trabajo en Inglaterra, y sus resultados fueron ignorados por m as de
20 a nos, y Laplace desarroll o su trabajo en Francia. De hecho fue Jereys
(1939) quien redescubri o el trabajo de Laplace en este campo. Quizas sera
igualmente justo hacer referencia a la Estadstica Laplaciana.
Respecto al desarrollo formal de lo que hoy se conoce como Estadstica
Bayesiana, en uno de los apendices del libro de Press (2003) se presenta
la metodologa y resultados de una consulta a un panel de expertos para
seleccionar a las personalidades que debieran, a juicio de dicho panel, integrar
el Salon Bayesiano de la Fama, con los siguientes resultados:
Thomas Bayes (1701? - 1761),
Bruno De Finetti (1906 - 1985),
Morris De Groot (1931 - 1989),
Harold Jereys (1891 - 1989),
Dennis V. Lindley (1923 - ),
Leonard J. Savage (1917 - 1971).
De acuerdo a la metodologa de Press (2003), las siguientes personali-
dades lograron una Mencion Honorca: James O. Berger, George E.P.
Box, Pierre Simone de Laplace, Adrian F.M. Smith, Arnold Zellner.
Aunque la omisi on de algunos nombres podra generar una controversia
que no es objeto de la presente monografa, lo importante a destacar son jus-
tamente algunos nombres importantes y de obligada referencia para conocer
sobre el origen y cimientos de la Estadstica Bayesiana.
1.2. ENFOQUES BAYESIANO VERSUS FRECUENTISTA 3
Para completar la lista de referencias obligadas sobre el enfoque bayesiano,
se recomienda consultar la secci on 1.5 del libro de Bernardo y Smith (1994),
lista a la que sin duda habra que a nadir esta ultima.
1.2. Enfoques bayesiano versus frecuentista
El enfoque de la llamada estadstica frecuentista no permite incorporar
de manera coherente en el analisis estadstico la informacion extra-muestral
disponible, se apoya unicamente en datos muestrales observados. Si no hay
datos, la estadstica frecuentista est a imposibilitada para operar. Si hay muy
pocos datos, la estadstica frecuentista presenta fuertes problemas tambien,
pues muchos de sus metodos se apoyan en resultados asint oticos, tales como
la ley de los grandes n umeros, el teorema central del lmite, y sus consecuen-
cias, y por ello por lo general requiere de muestras grandes para que sus
resultados sean conables. En cambio, la Estadstica Bayesiana aprovecha
tanto la informacion que nos proporcionan los datos muestrales as como
la informacion extra-muestral disponible, entendiendo por esto ultimo, de
manera informal, toda aquella informaci on relevante, adem as de los datos,
que nos ayude a disminuir nuestra incertidumbre o ignorancia en torno a un
fen omeno aleatorio de interes. Esquem aticamente:
Estadstica frecuentista solo datos
Estadstica Bayesiana datos + info extra-muestral
En estadstica bayesiana, el termino com un para referirse a la informa-
ci on extra-muestral es el de informacion subjetiva, y es importante aclarar,
al menos brevemente, que se entiende en este contexto por el adjetivo sub-
jetiva, ya que en el lenguaje corriente puede tener una connotaci on distinta
a la que se requiere bajo el enfoque bayesiano. Al hablar de informacion
subjetiva nos referimos a toda aquella informacion a priori que se tiene en
relaci on al fen omento aleatorio de interes, antes de recolectar o realizar nuevas
mediciones sobre el mismo, y esto incluye: datos historicos, teoras, opiniones
y conjeturas de expertos, conclusiones basadas en estudios previos, etc. El
primer paso en la inferencia estadstica bayesiana es traducir todo lo anteri-
or en una distribucion de probabilidad a priori (o inicial). El segundo paso
consiste en recolectar o realizar nuevas mediciones, y actualizar la distribu-
ci on de probabilidad a priori, para obtener, mediante la Regla de Bayes, una
4 CAP
ITULO 1. INTRODUCCI
ON
distribucion de probabilidad a posteriori (o nal) y ser a esta ultima la mejor
descripci on posible de nuestra incertidumbre, de acuerdo a toda nuestra in-
formacion disponible, y por tanto ser a la herramienta fundamental a partir
de la cual se realiza inferencia estadstica.
De una u otra manera, la subjetividad siempre ha estado presente en la
actividad cientca, comenzando por los supuestos sobre los cuales se decide
abordar un determinado problema, tpicamente se les denomina supuestos
razonables, pero son razonables de acuerdo a la experiencia e informaci on
(subjetiva) particular de quien o quienes estudian un fenomeno en un mo-
mento dado. De acuerdo a Wolpert (1992):
[. . . ] la idea de una objetividad cientca tiene tan solo un valor
limitado, ya que el proceso mediante el cual se generan las ideas [o
hip otesis] cientcas puede ser bastante subjetivo [. . . ] Es una ilusi on
creer que los cientcos no tienen un cierto vnculo emocional con sus
convicciones cientcas [. . . ] las teoras cientcas implican una con-
tinua interacci on con otros cientcos y el conocimiento previamente
adquirido [. . . ] as como una explicaci on que tenga posibilidades de
ser aceptada [o al menos considerada seriamente] por el resto de la
comunidad cientca.
De acuerdo a Press (2003) la subjetividad es una parte inherente y requeri-
da para la inferencia estadstica, y para el metodo cientco. Sin embargo,
ha sido la manera informal y desorganizada en la que ha se ha permitido la
presencia de la subjetividad, la responsable de diversos errores y malas in-
terpretaciones en la historia de la ciencia. La estadstica bayesiana incorpora
de manera formal y fundamentada la informaci on subjetiva, y es por ello que
Press y Tanur (2001) opinan que la ciencia en general avanzara m as rapido
en la medida en que los metodos modernos del an alisis estadstico bayesiano
reemplacen varios de los metodos cl asicos del siglo XX. De hecho, en el libro
de Press y Tanur (2001) se hace un recuento historico sobre la presencia de
la subjetividad en el trabajo de relevantes cientcos como Kepler, Mendel,
Arist oteles, Galileo Galilei, Newton, Darwin, Pasteur, Freud, Einstein, entre
otros.
Un ejemplo tpico es la investigaci on cientca en medicina, en donde co-
munmente se cuenta con pocos datos, pero al mismo tiempo se cuenta con
la valiosa experiencia de medicos muy familiarizados con una enfermedad en
estudio. Otro ejemplo es el caso de los mercados nancieros, cuya din amica es
1.3. INTERPRETACIONES DE LA PROBABILIDAD 5
impulsada mucho mas por las expectativas futuras de los inversionistas par-
ticipantes (apreciaciones subjetivas de lo que creen que va a suceder) que por
lo que describen las series de tiempo hist oricas de los indicadores nancieros.
En ambos ejemplos, la estadstica bayesiana permite el aprovechamiento de
la valiosa informacion subjetiva, en contraste con lo poco que puede hacer
el enfoque frecuentista de la estadstica, con pocos datos (en el ejemplo de
medicina) o con datos hist oricos con poco poder predictivo (en el ejemplo de
mercados nancieros).
1.3. Interpretaciones de la Probabilidad
El objeto de estudio de la Teora de la Probabilidad son los fenomenos (o
experimentos) aleatorios, mismos que son representados mediante un espacio
de probabilidad, digamos (, T, P), en donde es el espacio muestral (conjun-
to cuyos elementos representan resultados posibles del fen omeno aleatorio),
T el espacio de eventos (de hecho un - algebra de subconjuntos de ), y una
medida de probabilidad P : T R
+
0, esto es, una medida que como
tal debe satisfacer P() = 0, y para cualesquiera E
1
, E
2
, . . . T disjuntos
satisface P(
n
E
n
) =
n
P(E
n
), y ademas P() = 1.
Recordemos que, en estricto sentido, un evento es una proposici on logica
que puede evaluarse como verdadera o falsa, despues de conocer el resultado
de una realizaci on (u observaci on) del fen omeno aleatorio en cuesti on, y como
consecuencia del Axioma de Comprension de la teora de conjuntos, a todo
evento puede asociarsele un subconjunto de . Normalmente no se hace esta
distinci on, y al hablar de un evento, realmente se trabaja directamente con
el conjunto que lo representa. En general, no es cierto que todo subconjunto
de representa alg un evento, solo es cierto para el caso en que sea, cuando
m as, numerable.
Si el espacio muestral es cuando m as numerable, digamos :=
1
,
2
, . . .,
basta poder denir una medida de probabilidad P sobre la clase de los even-
tos simples ( := : , ya que en este caso particular cualquier
elemento del - algebra T se puede expresar como uni on disjunta cuando
m as numerable de elementos de la clase (, y por la propiedad -aditiva de
medidas se tiene que
P(E) = P
_
_
E
_
=
E
P() , para todo evento E T.
6 CAP
ITULO 1. INTRODUCCI
ON
Si tiene al menos dos elementos, existe una innidad no numerable de
distintas medidas de probabilidad que podran denirse sobe el espacio de
probabilidad correspondiente. Cu al de todas ellas debe utilizarse? El prob-
lema de determinar una medida de probabilidad adecuada para un fenomeno
aleatorio dado, y en dado caso vericar su unicidad, depende de nuestra
informacion acerca del mismo.
Considere el experimento aleatorio de lanzar un dado una vez (no sabe-
mos si es un dado equilibrado o no). Como un dado tiene 6 caras podemos
etiquetar cada cara con un n umero y expresar su espacio muestral como
:= 1, 2, 3, 4, 5, 6. Deniremos tres funciones distintas sobre el espacio de
eventos T, esto es, P
1
, P
2
, P
3
: T [ 0, 1 ] tales que para todo evento E T :
P
1
(E) :=
[E[
6
,
P
2
(E) :=
[E[
10
+
2
5
1
E
(4) ,
P
3
(E) := 1
E
(4) .
en donde [E[ representa el n umero de elementos del conjunto E. Es f acil
vericar que las tres funciones anteriores son medidas de probabilidad para el
mismo espacio medible (, T) arriba descrito. Y de hecho existe una innidad
no numerable de medidas de probabilidad que se podran denir para este
experimento aleatorio.
En lo anterior surge la inquietud sobre cu al medida de probabilidad re-
sulta ser la m as adecuada, de entre esa innidad no numerable de medidas
de probabilidad posibles. Esto depende de la informaci on que se tenga en un
momento dado sobre el experimento aleatorio. Es un sencillo ejercicio veri-
car lo siguiente: si se tratara de un dado equilibrado (o si al menos creemos
razonable suponer que as es) entonces P
1
es la medida de probabilidad ade-
cuada; si se tratara de un dado cargado de modo que exista una probabilidad
de
1
2
de que salga un 4 y una probabilidad de
1
2
de que salga cualquier otro
n umero que no sea 4 (o si al menos creemos razonable suponer que as es),
entonces P
2
resulta ser la medida de probabilidad adecuada. Que estado de
informaci on representa P
3
? Existe otro estado de informaci on bajo el cual
P
1
podra considerarse una medida de probabilidad adecuada: si no se tiene
informaci on alguna (por que?)
Enfoque clasico. Si un experimento o fenomeno aleatorio puede ocurrir
de n maneras diferentes mutuamente excluyentes e igualmente probables, nos
1.3. INTERPRETACIONES DE LA PROBABILIDAD 7
encontramos ante el caso de un espacio muestral nito :=
1
,
2
, . . . ,
n
en donde cualquier medida de probabilidad que se dena sobre el espacio de

eventos T debe satisfacer una condicion de equiprobabilidad sobre la clase de
los eventos simples ( := : , esto es
P(
1
) = P(
2
) = = P(
n
)
Es un sencillo ejercicio de probabilidad demostrar que la unica soluci on
posible bajo la condicion anterior es
P(E) =
[E[
n
, para todo E T.
Lo anterior implica que para todos aquellos fen omenos aleatorios con
espacio muestral nito en los que, de acuerdo a nuestra informacion, resulte
razonable suponer o considerar una condici on de equiprobabilidad, el universo
de posibles medidas de probabilidad se reduce a una sola.
El caso anterior es lo que se conoce como el enfoque cl asico de la proba-
bilidad, y tiene la limitante de que relativamente pocos problemas reales de
interes pueden reducirse a lo anterior.
Enfoque frecuentista. Bajo este enfoque, normalmente se dice que la
probabilidad de un evento A est a dada por:
P(A) = lm
n
f
A
(n)
n
donde f
A
(n) es el n umero de veces que ocurre el evento A en n repeticiones
identicas e independientes del experimento o fenomeno aleatorio. Este en-
foque presume de ser objetivo porque se basa solo en datos observables pero:
Tenemos que lm
n
f
A
(n)
n
= P(A) si y solo si para todo valor > 0
existe un n umero natural k tal que si n > k entonces [
f
A
(n)
n
P(A)[ < ,
lo cual NO se puede garantizar ya que bien puede existir n
0
> k tal que
[
f
A
(n
0
)
n
0
P(A)
> (por ejemplo, alguna racha de ocurrencias sucesivas

del evento A sucientemente grande).
f
A
no es una funci on determinista como las que se utilizan en la teora
del c alculo para denir lmites, as que primero se tendra que aclarar
que denici on de lmite se est a ocupando.
8 CAP
ITULO 1. INTRODUCCI
ON
El decir que se tienen repeticiones identicas e independientes, fuera de
los juegos de azar, es una apreciaci on subjetiva.
En la pr actica n nunca se va a , as que no hay manera de comprobar
empricamente dicho lmite.
Enfoque subjetivo. La probabilidad de un evento A es una medida del
grado de creencia que tiene un individuo en la ocurrencia de A con base en
la informacion K que dicho individuo posee. Bajo este enfoque toda proba-
bilidad es condicional en la informacion de la cual se dispone.
Por ejemplo, sea A el evento de que este lloviendo en el centro de la Ciudad
de Mexico. Para un individuo que vive en el Polo Sur, totalmente aislado del
resto del mundo, tendramos que si K
1
denota la informacion (total ignorancia
en este caso) que tiene el individuo respecto a lo que sucede en la Ciudad
de Mexico, y al no haber raz on alguna para asignar mayor probabilidad al
evento A o a su complemento, s olo queda establecer P(A[ K
1
) = P(A
c
[ K
1
)
y como se debe cumplir P(A[ K
1
) +P(A
c
[ K
1
) = 1 esto inmediatamente nos
lleva a que P(A[ K
1
) =
1
2
.
Si pensamos ahora en un individuo que vive en los suburbios de la Ciudad
de Mexico es claro que posee una informacion K
2
distinta a la del individuo
en el Polo Sur y quizas podramos hablar de algo como:
P(A[ K
2
) =
_
_
_
3
4
si esta lloviendo en los suburbios
1
4
si no est a lloviendo en los suburbios
Si bien es cierto que el hecho de que este lloviendo en los suburbios de
la Ciudad de Mexico no es garanta de que este lloviendo en el centro de
la ciudad, dada la cercana es m as probable que as sea. Podemos decir,
informalmente, que K
2
representa un mayor nivel de informacion que K
1
. Y
si ahora pensamos en un individuo que vive justamente en el centro de la
Ciudad de Mexico tenemos entonces que este inidividuo posee un nivel de
informaci on K
3
que de hecho es el maximo nivel de informacion que se puede
tener respecto al evento A y por lo tanto dicho individuo esta en posicion de
reportar uno de dos resultados: P(A[ K
3
) = 1 o bien P(A[ K
3
) = 0.
Lo importante a destacar en este ejemplo es el hecho de la existencia de
distinitas medidas de probabilidad para un mismo evento, dependiendo de la
cantidad de informacion con la que se cuente.
1.4. LA REGLA DE BAYES 9
Son muy diversos los factores que incrementan nuestro nivel de infor-
maci on en relacion a un fen omeno o experimento aleatorio. Van desde la
informaci on que proveen datos hist oricos observados hasta la apreciaci on y
experiencia de especialistas en dicho fen omeno.
Este enfoque de la probabilidad es ampliamente aprovechado por la
metodologa bayesiana y es por ello que podemos decir que la estadstica
bayesiana va mas all a que la estadstica frecuentista al buscar aprovechar
toda la informaci on disponible, as se trate de datos observados o de
informaci on de otro tipo que nos ayude a disminuir de manera coherente
nuestra incertidumbre en torno a un fen omeno aleatorio de interes. Un buen
ejemplo para ilustrar que efectivamente la pura experiencia de las personas
puede contener informacion muy valiosa consiste en el siguiente ejercicio. En
un salon de clase se solicita a cada estudiante que anote en un papel tres
cosas: su estatura y las estaturas maxima y mnima que el (o ella) creen
que hay en el sal on. A un cuando no se hayan practicado mediciones de es-
tatura en el sal on es sorprendente corroborar que en general los alumnos
tendr an una idea de las estaturas m axima y mnima bastante cercana a la
realidad, lo que nos da idea de la cantidad de informaci on valiosa que puede
llegar a tener una apreciaci on subjetiva.
1.4. La Regla de Bayes
La estadstica bayesiana toma su nombre del resultado de probabilidad
conocido como la Regla de Bayes as que brevemente enunciaremos los prin-
cipales resultados al respecto.
Dado un espacio de probabilidad (, T, P), si A, B T y P(B) > 0
entonces la probabilidad condicional del evento A dado el evento B se dene
como:
P(A[ B) :=
P(A B)
P(B)
.
Cabe recordar que a un cuando se tuviera que P(B) = 0 existen resultados
de probabilidad que nos permiten calcular probabilidades condicionales en
eventos de probabilidad cero. Quiz as una notaci on m as adecuada, en vez de
P(A[ B) sera P
B
(A) para hacer enfasis en que la medida de probabilidad
condicional P
B
sustituye (o actualiza) a la medida original P, dado el hecho
de que ha ocurrido (o se desea suponer que ha ocurrido) el evento B.
10 CAP
ITULO 1. INTRODUCCI
ON
Si B
n
es una partici on del espacio muestral y para toda n tenemos
que B
n
T y P(B
n
) > 0, entonces:
P(A) =
n
P(A[ B
n
) P(B
n
) , para toda A T .
Un corolario importante del resultado anterior es:
Si B T P(A) = P(A[ B)P(B) +P(A[ B
c
) P(B
c
) .
Bajo los supuestos anteriores tenemos la Regla de Bayes:
P(B
k
[ A) =
P(A[ B
k
) P(B
k
)
n
P(A[ B
n
) P(B
n
)
, A T , P(A) > 0 .
Y como corolario importante:
P(B[ A) =
P(A[ B) P(B)
P(A[ B) P(B) +P(A[ B
c
) P(B
c
)
.
Si bien las demostraciones y ejemplos de lo anterior son propios de un cur-
so de probabilidad bien vale la pena abordar un ejemplo que nos servira m as
adelante para ilustrar el por que algunos c alculos de la estadstica frecuentista
resultan cuestionables.
Supongamos que un grupo de ingenieros biomedicos mexicanos ha dise nado
un nuevo aparato para diagnostico del SIDA (en realidad es para diagn ostico
de presencia de VIH pero coloquialmente nos referimos a esta inmunode-
ciencia simplemente como SIDA, aunque los medicos nos rega nen). Haremos
el experimento de escoger a un individuo para probar dicho aparato y con-
sideremos los eventos de interes A y B en donde A sea el evento de que el
aparato diagnostique SIDA y B el evento de tener efectivamente SIDA. Los
ingenieros que dise naron este aparato presumen de que este es muy bueno
pues nos reportan que lo probaron con un grupo de 100 portadores del virus
del SIDA y en 99 % de los casos el aparato dio positivo y que tambien lo
probaron con 100 individuos sanos y que tambien en el 99 % de los casos el
aparato dio negativo. Probabilsticamente esto se expresa:
P(A[ B) =
99
100
= P(A
c
[ B
c
)
1.4. LA REGLA DE BAYES 11
Sea p la proporci on de mexicanos con virus del SIDA (en este contexo, a
p se le conoce como prevalencia). Tenemos entonces que P(B) = p. Con la
informaci on anterior y utilizando la Regla de Bayes estamos en posicion de
calcular P(B[ A), que quedar a expresada en funci on de p :
(p) := P(B[ A) =
99
100
98
100
+
1
100p
.
Ahora tabulamos algunos valores (p, (p)):
p P(B[ A)
0.002 0.1656
0.010 0.5000
0.100 0.9167
0.500 0.9900
De lo anterior se observa que unicamente en el caso de que p =
1
2
se
cumple P(B[ A) = P(A[ B), y que conforme p 0 estas dos probabilidades
se alejan (siendo m as precisos, P(B[ A) se aleja de P(A[ B) que permanece
constante en 0.99). A primera vista pareciera que estamos discutiendo una
trivialidad, ya que es bien sabido que por lo general P(B[ A) suele ser distinta
de P(A[ B), pero si nos detenemos un poco a analizar el ejemplo anterior esto
tiene consecuencias terribles para los ingenieros que inventaron un aparato
que creen es muy efectivo y en realidad no lo es. En Mexico (2008) se estima
una tasa de prevalencia de SIDA de 0.2 % de la poblacion total, esto es, p =
0.002, lo cual signica que la probabilidad (en Mexico) de que un individuo
tenga SIDA dado que el aparato dice que lo tiene es de tan solo 0.1656 !
Que sucedi o? Sucede que el aparato fue probado con personas de las
cuales conocamos previamente su estado de salud, pero ya en la pr actica
cotidiana esto no sucede, las personas que llegan a practicarse un analisis lo
hacen porque justamente desconocen cu al es su estado de salud (es decir si
tienen o no el virus) y es por ello que el que P(A[ B) sea de 99 % no implica
necesariamente que P(B[ A) sea igualmente alta.
El ejemplo anterior nos ser a de mucha utilidad para comprender por
que algunos metodos de inferencia de la estadstica frecuentista son cuestion-
ables, en particular cuando se busca hacer inferencias sobre un parametro
y en lugar de calcular la probabilidad de que tome ciertos valores dada una
muestra, es decir P[
0
[ (x
1
, . . . , x
n
) ], la estadstica frecuentista utiliza
12 CAP
ITULO 1. INTRODUCCI
ON
la probabilidad de observar una determinada muestra bajo el supuesto de un
valor especco del parametro, es decir P[ (x
1
, . . . , x
n
) [ =
0
], mejor cono-
cida como la verosimilitud, y esto es tanto como pretender que P(B[ A) =
P(A[ B) siempre se cumple, o que P(A[ B) es siempre una buena aproxi-
maci on de P(B[ A). Para una discusi on a detalle sobre inconsistencias en
la inferencia estadstica al utilizar verosimilitud se recomienda Le Cam
(1990).
1.5. La losofa bayesiana
La teora de la probabilidad se ocupa del estudio de la incertidumbre, y del
comportamiento de los fenomenos o experimentos aleatorios. La probabilidad
depende de dos elementos: el evento incierto y las condiciones bajo las cuales
es considerado, por lo que desde este punto de vista la probabilidad es siempre
condicional. La estadstica es una herramienta para la toma de decisiones bajo
condiciones de incertidumbre.
Un enfoque cientco sobre la incertidumbre es la medici on de la mis-
ma. El celebre fsico ingles Sir William Thomson, mejor conocido como Lord
Kelvin, dijo que s olo asociando n umeros con el concepto cientco es como se
puede comprender adecuadamente dicho concepto. La raz on de querer medir
no es solo para ser m as precisos respecto a la intensidad de la incertidum-
bre sino tambien para combinar incertidumbres: En un problema tpico de
estadstica encontramos combinadas la incertidumbre de los datos y la del
par ametro.
La medici on de la incertidumbre puede realizarse por medio del c alculo de
probabilidades. En sentido inverso, las reglas de la probabilidad se reducen
de manera simple a las reglas sobre proporciones. Esto explica por que los
argumentos frecuentistas son en muchos casos utiles: La combinacion de in-
certidumbres puede ser estudiada por medio de proporciones o frecuencias. El
objetivo de recolectar datos es precisamente reducir el nivel de incertidumbre,
pero bajo la perspectiva bayesiana se aprovechan tanto los datos muestrales
como otro tipo de informaciones que de manera coherente nos ayuden tam-
bien a reducir nuestro nivel de incertidumbre en torno a los parametros de
interes.
En resumen:
La estadstica es una herramienta para la toma de decisiones bajo condi-
1.5. LA FILOSOF
IA BAYESIANA 13
ciones de incertidumbre.
La incertidumbre debe ser medida por medio de la probabilidad.
La incertidumbre sobre los datos debe ser medida condicionalmente en
los parametros.
La incertidumbre sobre los par ametros es similarmente medida por
medio de la probabilidad.
La inferencia se lleva a cabo mediante c alculo de probabilidades, ha-
ciendo uso particular de la Regla de Bayes.
Las discusiones en contra del enfoque bayesiano se centran en el punto de
medir la incertidumbre sobre el par ametro probabilsticamente, esto es, darle
tratamiento de variable aleatoria. Para la estadstica frecuentista existe algo
que llaman el verdadero valor del par ametro que consideran jo y que solo
Dios conoce pero que resulta desconocido para nosotros los mortales. Lo
anterior, adem as de que los estadsticos frecuentistas rechazan la utilizaci on
de cualquier otro tipo de informaci on que no provenga de los datos muestrales
para hacer inferencias. Para profundizar m as a detalle en las ideas anteriores
se recomienda la lectura del artculo de Lindley (2000).
14 CAP
ITULO 1. INTRODUCCI
ON
Captulo 2
El paradigma bayesiano
2.1. El modelo general
Para referirnos a un modelo probabilstico parametrico general lo denota-
mos p(x [ ) en donde la funcion p( [ ) puede ser una funcion de masa de
probabilidades de una variable (o vector) aleatoria (v.a.) discreta o bien una
funci on de densidad de una v.a. continua. El escribir dicha funcion condi-
cional en el par ametro (o vector de parametros) se debe al hecho de que
una vez dado un valor especco de la funcion de probabilidad queda total-
mente determinada. Para referirnos a una muestra aleatoria (m.a.) utilizamos
la notacion X := (X
1
, . . . , X
n
) y para referirnos a una observacion muestral
utilizamos x := (x
1
, . . . , x
n
). Por espacio parametrico entendemos el con-
junto de todos los valores que puede tomar y por familia parametrica
entendemos un conjunto T = p(x [ ) : .
Al empezar a estudiar un fen omeno o experimento aleatorio recurrimos a
la teora de la probabilidad para escoger o denir alguna familia parametri-
ca que modele razonablemente el fenomeno. Una vez hecho esto queda la
incertidumbre sobre el par ametro del modelo (no olvidemos que el par ametro
puede ser un vector) pues de entre todos los elementos de la familia
parametrica T = p(x [ ) : Cu al utilizamos para hacer inferen-
cias?
La Estadstica Bayesiana modela la incertidumbre que tenemos sobre
probabilsticamente, esto es, consideramos al valor de como una variable (o
vector) aleatoria (v.a.) con una distribucion de probabilidad a priori
(o inicial) p(). Se trata de una distribuci on basada en experiencia previa
15
16 CAP
ITULO 2. EL PARADIGMA BAYESIANO

(experiencia de especialistas, datos historicos, etc.) antes de obtener datos
muestrales nuevos.
Luego procedemos a observar los nuevos datos (obtencion de la muestra)
x := (x
1
, . . . , x
n
) y combinamos esta informaci on con la distribuci on a priori
mediante la Regla de Bayes y obtenemos una distribucion de probabili-
dad a posteriori (o nal) :
p( [ x) =
p(x, )
p(x)
=
p(x[ )p()
_
p(x[
)p(
) d
(2.1)
Tenemos que p( [ x) es tambien una distribuci on de probabilidad de
pero que a diferencia de la distribuci on a priori p() toma en cuenta tanto
la informacion contemplada en p() as como la informaci on contenida en los
datos observados x = (x
1
, . . . , x
n
). La distribuci on a posteriori de es la base
para hacer inferencias sobre .
Es importante tener presente que, por un lado, p(x[ ) y p() son dis-
tribuciones de probabilidad, y por otro:
p(x) =
_
p(x[
)p(
) d
es la probabilidad (o densidad) conjunta de la muestra

x = (x
1
, . . . , x
n
) observada a partir del vector aleatorio X = (X
1
, . . . , X
n
).
Pero lo mas importante es estar consciente de que p(x) es constante respecto
a , por lo que podemos escribir:
p( [ x) p(x[ )p() (2.2)
Respecto a p(x[ ) = p((x
1
, . . . , x
n
) [ ) tenemos que se trata de la proba-
bilidad conjunta de la muestra condicional en (usualmente llamada verosimil-
itud). En el caso particular de que los componentes del vector aleatorio
X = (X
1
, . . . , X
n
) resulten ser independientes (esto es, observaciones in-
dependientes) tenemos que:
p(x[ ) =
n
j=1
p(x
j
[ )
2.1. EL MODELO GENERAL 17
Aunque ser a hasta el captulo 5 en donde veamos a detalle la metodologa
para la inferencia bayesiana, conviene adelantar un poco al respecto para
tener una idea general. Podemos proponer como estimador puntual de a
alguna medida de tendencia central, por ejemplo la mediana o la esperanza:
:= E() =
_
p( [ x) d
Y a un en el caso de que no se cuente con infomaci on muestral se puede
calcular

utilizando p() en lugar de p( [ x).
Para hacer estimacion por regiones, por ejemplo, si deseamos calcular
la probabilidad de que el vector de par ametros pertenezca a una regi on
A :
P( A) =
_
A
p( [ x) d
o bien, dado un valor ] 0, 1 [ se busca un A tal que P( A) = . Con
frecuencia la solucion para A no es unica, y se recurre a ciertos criterios de
decisi on como los que se ver an en el captulo 4. Cabe aclarar que si dim = 1
las regiones son subconjuntos de R y que un caso particular de estas regiones
son los intervalos. En este sentido la estimaci on por regiones en estadstica
bayesiana es mas general que la estimaci on por intervalos de la estadstica
frecuentista.
Y ya que estamos dando ideas preliminares de lo que es la inferencia
bayesiana podemos introducir a un nivel muy simple c omo se hace el contraste
de k hipotesis. Supongamos que se desea contrastar las hip otesis:
H
1
:
1
H
2
:
2
.
.
.
.
.
.
H
k
:
k
Una manera de hacerlo es calcular directamente la probabilidad de cada
hip otesis y escoger aquella que tenga la m as alta probabilidad, y calcular la
probabilidad de una hip otesis H
j
puede ser tan simple como:
P(H
j
) =
_
j
p( [ x) d
18 CAP

La anterior es una manera muy simple de hacer contraste de hipotesis, en
el captulo 5 se ver a que este esquema se puede enriquecer mucho mediante
el uso de funciones de utilidad.
Muchos son los casos en los que, m as que estar interesados en el vector de
par ametros , lo que queremos es describir el comportamiento de observa-
ciones futuras del fen omeno aleatorio en cuestion, esto es, hacer prediccion.
Dado un valor de , la distribucion que describe el comportamiento de la
observacion futura X es p(x [ ). El problema es que por lo general el valor
de es desconocido. Por lo regular la estadstica frecuentista aborda este
problema estimando puntualmente a con base en la muestra observada y
dicho estimador

es sustituido en p(x [ ), es decir, utilizan p(x [
). Desde la
perspectiva bayesiana el modelo p(x [ ) junto con la distribuci on a priori p()
inducen una distribuci on conjunta para el vector aleatorio (X, ) mediante
el concepto de probabilidad condicional:
p(x, ) = p(x [ )p()
y marginalizando la distribuci on de probabilidad conjunta anterior obtene-
mos:
p(x) =
_
p(x, ) d
Combinando los dos resultados anteriores:
p(x) =
_
p(x[)p() d (2.3)
A p(x) la denominamos distribucion predictiva a priori (o inicial),
y describe nuestro conocimiento acerca de una observaci on futura X basado
unicamente en la informaci on contenida en p(). N otese que p(x) no depende
ya de .
Una vez obtenida la muestra, el modelo p(x [ ) y la distribuci on a pos-
teriori p( [ x) inducen una distribucion conjunta para (X, ) condicional en
los valores observados x = (x
1
, . . . , x
n
) :
2.1. EL MODELO GENERAL 19
p(x, [ x) =
p(x, , x)
p(x)
=
p(x [ , x)p(, x)
p(x)
= p(x [ , x)p( [ x)
= p(x [ )p( [ x)
En lo inmediato anterior p(x [ , x) = p(x [ ) se justica por la indepen-
dencia condicional de X y X = (X
1
, . . . , X
n
) dado . Marginalizando la
distribuci on conjunta condicional anterior:
p(x [ x) =
_
p(x, [ x) d
Combinando los dos resultados anteriores:
p(x [ x) =
_
p(x [ )p( [ x) d (2.4)

A p(x [ x) la denominamos distribucion predictiva a posteriori (o
nal), y describe nuestro conocimiento acerca de una observacion futura X
basado tanto en la informaci on contenida en p() como en la informacion
muestral x = (x
1
, . . . , x
n
). Notese nuevamente que p(x [ x) no depende de .
As que para hacer predicci on sobre observaciones futuras del fenomeno
aleatorio que estemos modelando usamos p(x) o bien p(x [ x), seg un sea el
caso. Y de manera an aloga a lo brevemente mencionado sobre inferencia
bayesiana, una manera simple de hacer predicci on puntual, por ejemplo, de
una observacion futura X podra ser mediante alguna medida de tendencia
central, como la mediana o la esperanza:
x := E(X) =
_
RanX
xp(x [ x) dx
donde RanX es el rango de la v.a. X. Tambien, una manera de calcular la
probabilidad de que una observacion futura caiga en un conjunto A RanX
sera:
P(X A) =
_
A
p(x [ x) dx
20 CAP

Y algo an alogo para contraste de hip otesis.
Las ecuaciones (2.1), (2.3) y (2.4) constituyen el modelo general de la
estadstica bayesiana. Cualquier problema estadstico tratado bajo el enfoque
bayesiano implica la obtencion y utilizacion de las f ormulas mencionadas.
2.2. Un primer ejemplo
El siguiente ejemplo, a pesar de ser muy simple, resulta muy ilustrati-
vo para dos cosas: primero, comenzar a entender por que es v alido modelar
nuestra incertidumbre sobre probabilsticamente; segundo, para irnos fa-
miliarizando con el enfoque bayesiano.
Ejemplo 1. Consideremos una urna que contiene dos monedas: una cargada
y la otra equilibrada. Supongamos que la moneda cargada est a cientca-
mente construida para tener una probabilidad de
3
4
de que salga aguila. Una
persona tomar a una de las dos monedas de la urna (no necesariamente al
azar) y echara un volado con apuesta de por medio. Haremos lo siguiente:
1. Proponer una familia parametrica para el experimento anterior,
2. proponer una distribucion a priori para el parametro del modelo, toman-
do especialmente en cuenta que no estamos seguros de que la moneda
fue tomada al azar,
3. obtener la distribuci on predictiva a priori,
4. obtener la distribuci on a posteriori,
5. obtener la distribuci on predictiva a posteriori.
En este sencillo ejemplo es f acil identicar que la familia parametrica
Bernoulli es la adecuada:
T = Ber(x [ ) :
donde
Ber(x [ ) =
x
(1 )
1x
1
{0,1}
(x)
2.2. UN PRIMER EJEMPLO 21
S olo que en este caso el espacio parametrico se reduce a =
3
4
,
1
2
.
Desde el enfoque bayesiano, nuestra incertidumbre sobre el parametro
la modelamos probabilsticamente, es decir, trataremos a como variable
aleatoria y en tal caso Ran = , y como en este caso es nito entonces
tenemos que es una variable aleatoria discreta que s olo toma dos valores:
3
4
o
1
2
.
Sean P( =
3
4
) = y P( =
1
2
) = 1, para alg un entre 0 y 1. Entonces
la distribucion a priori queda como sigue:
p() = 1
{
3
4
}
() + (1 )1
{
1
2
}
() ]0, 1[
La distribucion inicial propuesta permite modelar la parte de los supuestos
del problema en donde se dijo que se toma una moneda de la urna no nece-
sariamente al azar. En particular es por medio de que reejaremos en la
distribuci on a priori nuestro grado de informacion acerca de c omo fue escogi-
da la moneda de la urna. As por ejemplo si estamos o nos sentimos seguros
de que fue tomada al azar entonces =
1
2
. Haramos la misma asignacion
si carecemos totalmente de informaci on al respecto ya que no habra raz on
alguna para suponer que alguna de las dos monedas tiene mayor probabili-
dad que la otra de ser escogida. Y si por alguna raz on contamos con cierta
informaci on que nos haga pensar que alguna de las monedas tiene mayor
probabilidad de ser escogida tambien podemos reejarlo por medio de . Por
ejemplo, suponiendo que el procedimiento para elegir la moneda de la urna
es lanzando un dado y que si sale un seis entonces escogemos la moneda equi-
librada. En este caso claramente =
5
6
. Es importante destacar el hecho de
que restringimos a al intervalo abierto ] 0, 1 [ ya que si ocurriese que = 0
o bien = 1 entonces querra decir que estamos seguros del valor de y en
tal caso no tendra sentido hacer inferencias sobre .
Por medio de la f ormula (2.3) obtenemos la distribuci on predictiva a
priori:
p(x) =
p(x [ )p()
=
_
3
4
_
x
_
1
4
_
(1x)
1
{0,1}
(x) + (1 )
_
1
2
_
x
_
1
2
_
(1x)
1
{0,1}
(x)
La expresion anterior se simplica a:
p(x) =

4
_
1
{1}
(x) 1
{0}
(x)
_
+
1
2
1
{0,1}
(x)
22 CAP

es decir:
p(1) =
1
2
+

4
= probabilidad de que salga aguila
p(0) =
1
2

4
= probabilidad de que salga sol
De lo anterior cabe destacar que si 1 (lo cual se interpreta como que
nos sentimos muy seguros de que se escogi o la moneda cargada) entonces
p(1)
3
4
, tal cual se esperara.
Pensando en que se va a hacer una apuesta sobre el resultado del primer
volado, para tener un juego justo, denimos la variable aleatoria U como la
ganancia/perdida resultante de apostar en favor de que salga sol:
P[U = u] = p(0)1
{a}
(u) +p(1)1
{b}
(u) a, b > 0
es decir, U es una v.a. que toma el valor +a (ganancia) con probabilidad p(0)
o bien el valor b (perdida) con probabilidad p(1). Para tener un juego justo
se requiere que E(U) = 0 :
E(U) = 0 ap(0) bp(1) = 0
a =
p(1)
p(0)
b =
2 +
2
b
Es decir, que la cantidad justa a apostar en favor de que salga sol debe ser
igual a
p(1)
p(0)
veces la cantidad que se apueste en favor de que salga aguila. Si
bien lo inmediato anterior es m as un problema tpico de un curso elemental
de probabilidad, resultara interesante analizar como se modica el esquema
de apuestas conforme se van lanzando volados, esto es, ante la presencia de
informaci on muestral.
Supongamos ahora que ya se escogi o una de las monedas de la urna y que
se efectuaron n lanzamientos con ella y los resultados de cada lanzamiento se
registran como un vector ndimensional de unos y ceros x := (x
1
, . . . , x
n
).
La informacion contenida en la muestra observada x modica nuestra incer-
tidumbre sobre pasando de la distribuci on a priori p() a la distribuci on a
posteriori:
p( [ x) =
p(x[ )p()
p(x[
3
4
)p(
3
4
) +p(x[
1
2
)p(
1
2
)
Si resulta razonable suponer que se hacen lanzamientos independientes
entonces:
p(x[ ) =
n
j=1
p(x
j
[ )
=
n
j=1
x
j
(1 )
1x
j
1
{0,1}
(x
j
)
=
x
j
(1 )
n
x
j
n
j=1
1
{0,1}
(x
j
)
=
x
j
(1 )
n
x
j
g(x)
Por otro lado:
p(x[
3
4
)p(
3
4
) =
3
x
j
4
n
g(x) p(x[
1
2
)p(
1
2
) =
1
2
n
g(x)
De lo anterior:
p( [ x) =
[2(1 )]
n
_

1
_
x
j
[1
{
3
4
}
() + (1 )1
{
1
2
}
()]
_
3
x
j
2
n
1
_
+ 1
Si denimos:
= (, x) :=
3
x
j
2
n
_

1
_
reescribimos p( [ x) como:
p(
3
4
[ x) =
1
1 +
1
p(
1
2
[x) =
1
1 +
Supongamos que la moneda con que se lanzar an los volados es tomada de
la urna al azar. En este caso tendramos que =
1
2
. La probabilidad a priori
de que la moneda escogida sea la cargada es:
p(
3
4
) = 0.5
Se lanza un primer volado y observamos que sale aguila. En este caso n = 1,
x = (x
1
) = (1) y por lo tanto p(
3
4
[ (1)) = 0.6. Es decir, a la luz de la infor-
maci on muestral con la que se cuenta hasta el momento nos vemos obligados
a revisar o actualizar la probabilidad de que sea la moneda cargada la que
24 CAP

se esta utilizando. Cabe destacar que con la informacion muestral obtenida
ahora es m as probable que sea la moneda cargada la que se esta utilizan-
do. Se podra pensar que no es difcil que salga un aguila con una moneda
equilibrada pero el que haya salido aguila es evidencia m as a favor de que se
este usando la moneda cargada que la equilibrada.
Ahora efectuamos un segundo lanzamiento con la moneda en cuesti on y
resulta que obtenemos un sol. Ahora n = 2 , x = (x
1
, x
2
) = (1, 0) y obtene-
mos p(
3
4
[ (1, 0)) = 0.4286. Es decir, a la luz de la informaci on muestral con
la que se cuenta hasta el momento nos vemos obligados a actualizar nueva-
mente la probabilidad de que sea la moneda cargada la que se esta utilizando.
Cabe destacar que con la informacion muestral obtenida hasta ahora es m as
probable que sea la moneda equilibrada la que se est a utilizando. Se podra
pensar que no es difcil que salga un aguila y luego un sol con una moneda
cargada pero el que haya salido aguila y luego sol es evidencia m as a favor
de que se este usando la moneda equilibrada que la cargada.
Podra pensarse que nos la podemos pasar as oscilando de un valor a
otro a capricho de los resultados muestrales, pero no es as pues conforme el
tama no de la muestra n crece el valor de p(
3
4
[ x) se va estabilizando:
Si n
x
j

3
4
n o
x
j

1
2
n
o 0
p(
3
4
[ x) 1 o p(
3
4
[ x) 0
Lo anterior quiere decir que conforme el tama no de la muestra se vuelve
m as y mas grande iremos acumulando informacion que ira reduciendo nues-
tra incertidumbre respecto a (es decir, nuestra incertidumbre respecto a
que moneda se est a usando) hasta llegar a un nivel muy cercano a la certeza.
El siguiente es el resultado de una simulacion del presente ejemplo con
n = 20 y =
1
2
:
x = (0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1)
p(
3
4
[ x) = 0.9762
Y de hecho, efectivamente result o ser la moneda cargada la que se estaba
utilizando.
La informaci on contenida en la muestra observada x modica nuestra
incertidumbre sobre un siguiente lanzamiento X
n+1
pasando de la distribu-
ci on predictiva a priori p(x) a la distribuci on predictiva a posteriori:
p(x [ x) = p(x [
3
4
)p(
3
4
[ x) +p(x [
1
2
)p(
1
2
[ x)
=
3
x
+ 2
4( + 1)
1
{0,1}
(x)
Regresando al esquema de la apuesta justa, ante la presencia de infor-
maci on muestral x = (x
1
, . . . , x
n
) es necesario ir revisando o actualizando
los calculos para determinar cual sera la apuesta justa, esto es, sin tener
informaci on muestral y contando tan solo con la informaci on inicial de que
la moneda fue escogida al azar tenamos que la apuesta justa en favor de que
salga sol era:
a =
p(1)
p(0)
b
Esto es, que la apuesta en favor de que salga sol debe ser
p(1)
p(0)
veces la apuesta
a favor de que salga aguila. Despues de observar el resultado x
1
de un primer
volado la apuesta justa para el segundo volado se debe actualizar a:
a =
p(1[x
1
)
p(0[x
1
)
b
Y despues de n volados la apuesta justa para el (n+1)-esimo volado se debe
actualizar a:
a =
p(1[(x
1
, . . . , x
n
))
p(0[(x
1
, . . . , x
n
))
b
26 CAP

EJERCICIOS
1. Sea p(x [ ) el modelo parametrico Bernoulli con par ametro desconocido
y supongamos que la informaci on a priori sobre est a dada por
p() = Beta( [ , ), con y conocidos. Suponiendo observaciones
muestrales independientes, obtenga la distribuci on a posteriori de ,
as como las predictivas a priori y posteriori.
2. Sea p(x [ ) = Unif(x [ 0, ) con desconocido y con distribuci on a priori
sobre dada por:
p
1
() = 2( 1)1
[ 1,2 ]
()
Suponiendo observaciones muestrales independientes:
a) Obtener la distribuci on predictiva a priori y gracarla.
b) Obtener la distribucion a posteriori de as como la predictiva a
posteriori, en ambos casos para tama no de muestra n 3.
c) Obtener nuevamente la distribucion predictiva a priori y gracarla,
pero ahora utilizando:
p
2
() = 2(2 )1
[ 1,2 ]
()
y compara con lo obtenido en el inciso a). Compare e interprete
las gracas anteriores.
d) Utilizando lo obtenido en los incisos a), b) y c) calcula

= E()
sin y con informaci on muestral.
e) Calcula P( <
3
2
) sin y con informacion muestral.
3. Calcula la distribuci on a posteriori del par ametro en cuesti on as como
las predictivas a priori y a posteriori para los siguientes casos:
a) p(x [ ) = Poisson(x [) con desconocida, p() = Gamma([, ),
con y conocidos.
b) p(x [ ) = Unif(x [ 0, ) con desconocida, p() = Pareto( [ , ),
con y conocidos.
4. Considera una urna con bolas del mismo tama no y numeradas de la 1 a
la N, donde N es desconocido. Sea la variable aleatoria X Poisson(),
con desconocida y sea N := X + 1. Se cuenta con la informaci on a
priori (inicial) de que el valor m as probable para N es un valor k,
conocido. Obtener:
a) Una distribuci on a priori para N.
b) La distribuci on predictiva a priori.
c) La distribuci on a posteriori de N para una muestra aleatoria de
tama no 1.
d) La distribucion predictiva a posteriori para una muestra aleatoria
de tama no 1, suponiendo que las bolas de la muestra son regre-
sadas a la urna antes de hacer predicci on.
e) Suponiendo que k = 3 y que se tiene la muestra x
1
= 2 calcula
las probabilidades a priori y a posteriori de que la urna contenga
m as de 2 bolas y explique por que una es menor que la otra.
f ) Continuando con el inciso anterior, suponiendo que la bola de la
muestra se regresa a la urna, calcula las probabilidades a priori y
a posteriori de que una bola tomada al azar tenga el n umero 3.
5. Si los datos muestrales provienen de observaciones independientes uti-
lizamos p(x[ ) =
p(x
j
[ ), pero si las observaciones no son inde-
pendientes el modelo general sigue siendo v alido, pero en este caso
p(x[ ) ,=
p(x
j
[ ). Supongamos que tenemos una urna con bolas
numeradas de la 1 a la N y que lo unico que sabemos sobre N es que
es 4 o 5.
a) Prop on y justica una distribuci on a priori razonable para N.
b) Deduce la distribuci on predictiva a priori y calcula la probabilidad
de que una bola tomada al azar tenga el n umero 5.
c) Si se va a tomar una muestra de tama no 2 sin reemplazo deduce la
distribuci on a posteriori de N. Luego, suponiendo que la muestra
obtenida fueron las bolas 1 y 3 calcula la probabilidad de que haya
5 bolas en la urna sin y con informaci on muestral, explicando el
por que de la diferencia.
28 CAP

d) Supongamos ahora que las dos bolas de la muestra se regresan
a la urna. Deduce la distribucion predictiva a posteriori y con
base en toda la informaci on disponible calcula la probabilidad de
que una bola tomada al azar tenga el n umero 5 y compara este
resultado con el obtenido en el inciso b), explicando el por que de
la diferencia.
6. Sea p
i
()
k
i=1
una sucesi on de distribuciones de probabilidad sobre .
Denimos la siguiente distribuci on de probabilidad sobre :
p() :=
k
i=1
i
p
i
() ,
k
i=1
i
= 1 ,
i
> 0
Sea la familia parametrica T := p(x [ ) : . Si utilizamos como
distribuci on a priori a la p() denida anteriormente, demuestre que
la distribucion a posteriori de se puede expresar tambien como la
combinaci on lineal convexa:
p( [ x) =
k
i=1
i
p
i
( [ x)
exhibiendo la f ormula general de
i
y p
i
( [ x).
Captulo 3
Informacion a priori
3.1. Determinaci on de la distribucion a priori
Utilizamos el enfoque subjetivo de la probabilidad mencionado en el
captulo 1 para especicar la distribucion a priori p() con base en la in-
formaci on que se tiene en un momento dado, como puede ser: informacion
hist orica, la experiencia de especialistas, etc. La eleccion de una distribucion
para modelar nuestro nivel de incertidumbre (o informaci on) sobre no re-
sulta crucial, en tanto cualquiera de ellas (o ambas) tengan la capacidad de
reejar la informacion que se tiene sobre .
Ejemplo 2. Una compa na de seguros va a ser objeto de una auditora por
parte de la Comisi on Nacional de Seguros y Fianzas (CNSyF). La auditora
consistir a en revisar los expedientes de los asegurados y determinar que por-
centaje de ellos est an incompletos. En caso de que dicho porcentaje exceda
el 10 % la CNSyF proceder a a multar a la compa na de seguros. Antes de
que esto suceda, la mencionada compa na decide apoyarse en su area de au-
ditora interna para darse idea del porcentaje de expedientes incompletos.
Supongamos que la cantidad de expedientes es tal que solo dara tiempo de
revisar el 0.75 % de ellos antes de que los audite la CNSyF. Aqu podemos
intentar aprovechar la experiencia de los auditores internos de la compa na,
formulando algunas preguntas como:
1. De acuerdo a su experiencia y conocimiento de la compa na Alrededor
de que cantidad estiman se ubica el porcentaje de expedientes incom-
pletos? Respuesta: El a no pasado estimamos dicho porcentaje en 8 %;
29
30 CAP
ITULO 3. INFORMACI
ON A PRIORI
sin embargo, este a no el volumen de ventas ha superado nuestras ex-
pectativas y esto generalmente juega un poco en contra en lo que ha
eciencia administrativa se reere por lo que para este a no estimamos
que dicho porcentaje estara alrededor del 9 %.
2. Cuales seran sus escenarios optimista y pesimista para dicho por-
centaje? Respuesta: En el mejor de los casos ubicaramos dicho por-
centaje en 8 % y en el peor de los casos vemos difcil que exceda el
11 %.
3. Que cantidad de expedientes da tiempo de revisar antes de la auditora
de la CNSyF? Respuesta: 150.
Sea el porcentaje de expedientes incompletos. Podemos modelar lo anterior
mediante la familia parametrica Bernoulli, ya utilizada en el Ejemplo 1, pero
aqu el espacio parametrico =] 0, 1 [ . Las respuestas a las preguntas 1
y 2 nos dan idea de la centralidad y dispersion de . Modelaremos dicha
informaci on mediante:
p() = Beta( [ , )
Pudimos haber elegido alguna otra distribuci on, la eleccion anterior se
debe a dos razones: primero, que es una distribucion de probabilidad en el in-
tervalo ] 0, 1 [ tal cual la necesitamos; segundo, cuenta con dos
par ametros (que llamaremos hiperparametros, para distinguirlos del parametro
de interes en el modelo) que nos permiten controlar de manera amplia la cen-
tralidad y dispersion de la distribuci on. Habremos de traducir la informacion
a priori que se tiene en p(), esto es, a traves de los hiperpar ametros y
asign andoles valores que reejen la informacion que se tiene.
La respuesta a la pregunta 1 nos permite establecer la siguiente ecuaci on:
E() = 0.09 ,
y la respuesta a la pregunta 2 la podemos expresar como:
P[ 0.08 < < 0.11 ] = 0.95 ,
as que para asignar valores a y que reejen lo anterior basta resolver el
siguiente sistema de ecuaciones:
3.1. DETERMINACI
ON DE LA DISTRIBUCI
ON A PRIORI 31
+
= 0.09 ,
_
0.11
0.08
Beta( [ , ) d = 0.95 ,
y obtenemos = 193.090 y = 1952.354. Basandonos unicamente en la
informaci on a priori disponible podemos calcular la probabilidad de que el
porcentaje de expedientes incompletos rebase el 10 % :
P[ > 0.10 ] =
_
1
0.10
Beta( [ 193.09, 1952.354) d = 0.0561 .
De la pregunta 3 tenemos que solo queda tiempo para revisar 150 expe-
dientes que representan tan solo el 0.75 % de un total de veinte mil expedien-
tes que tiene la compa
na por lo que aprovecharemos esta otra fuente de informaci on (informaci on
muestral) escogiendo al azar 150 expedientes y obtendremos la informaci on
muestral x = (x
1
, . . . , x
n
), en donde x
j
0, 1 y x
j
= 1 representa un ex-
pediente incompleto. Utilizando el resultado del Ejercicio 1 del Captulo 2
obtenemos la distribucion a posteriori de :
p( [ x) = Beta( [ +r, +n r) ,
en donde
r :=
n
j=1
x
j
,
esto es, r es el n umero de expedientes incompletos de una muestra aleatoria de
tama no n = 150. Ya con toda la informaci on disponible (a priori y muestral)
actualizamos la probabilidad de que el porcentaje de expedientes incompletos
rebase el 10 % :
P[ > 0.10 [ x] =
_
1
0.10
Beta( [ 193.09 +r, 2102.354 r) d
Como comentario general, al proceso de traducir informacion a priori
en una distribuci on a priori se le conoce en ingles como to elicit a prior
distribution. Aunque una traduccion de la palabra elicit con la misma raz
32 CAP
ITULO 3. INFORMACI
ON A PRIORI
etimol ogica no existe (a un) en espa nol, en el resto del texto denimos con
este mismo sentido elicitar.
1
En el ejemplo anterior, result o relativamente sencillo elicitar una distribu-
ci on a priori para , especialmente por el hecho de que la familia parametrica
es univariada, pero trat andose de modelos multivariados elicitar una dis-
tribuci on a priori puede resultar bastante complicado. De hecho, Lindley
(2000) pronostica que uno de los temas m as importantes en la investigaci on
estadstica del nuevo milenio sera el desarrollo de metodologas adecuadas
para la asignaci on de probabilidades [subjetivas], y caso particular de esto es
el como elicitar una distribucion a priori.
Es importante destacar en el ejemplo anterior que al haber elegido una
distribuci on beta para modelar la informaci on a priori sobre bajo la familia
parametrica Bernoulli nos arrojo como resultado que la distribuci on a poste-
riori sobre es tambien una distribucion beta, aunque con hiperparametros
distintos. En ocasiones y bajo ciertas familias parametricas la elecci on de
ciertas distribuciones a priori trae como consecuencia que la distribucion a
posteriori del par ametro sea de la misma familia que la distribucion a priori
(por ejemplo, Ejercicio 3, Captulo 2), pero esto no siempre es as (Ejercicios
2, 4 y 5 del Captulo 2). De esto nos ocupamos en la siguiente secci on.
3.2. Familias conjugadas
Tanto p() como p( [ x) son distribuciones de probabilidad sobre : la
primera s olo incorpora informaci on a priori y la segunda actualiza dicha
informaci on con la informaci on muestral que se pueda obtener. Si bien dijimos
que la eleccion de una distribucion de probabilidad para modelar nuestra
incertidumbre sobre no resulta crucial en tanto sea factible elicitar con
cualquiera de ellas una distribucion a priori, resulta conveniente tanto para
el analisis como desde un punto de vista computacional el que p() y p( [ x)
pertenezcan a la misma familia.
3.1. Denicion. Sea T := p(x [ ) : una familia parametrica.
Una clase (o coleccion) de distribuciones de probabilidad T es una familia
conjugada para T si para todo p(x [ ) T y p() T se cumple que
p( [ x) T.
1
En latn elicitum quiere decir hacer salir o sacar de.
3.2. FAMILIAS CONJUGADAS 33
Como ejemplos de lo anterior est an los resultados de los Ejercicios 1 y 3
del Captulo 2. Es inmediato notar que si p() es conjugada para una familia
parametrica T entonces las distribuciones predictivas a priori y a posteriori
pertenecen a una misma familia de distribuciones T
.
A continuaci on se presentan algunos modelos parametricos univariados
con sus respectivas familias conjugadas:
Cuadro 3.1: Algunas familias conjugadas
Fam. parametrica Fam. conjugada
Bernoulli() Beta ( [ , )
Poisson () Gamma ([ , )
Geometrica () Beta ( [ , )
Exponencial () Gamma ([ , )
Uniforme (0, ) Pareto ( [ , )
Normal () Normal ([
0
,
0
)
Normal () Gamma ([ , )
Normal (, ) Normal-Gamma (, [
0
, n
0
, , )
En lo anterior, para el caso de la Normal usamos como el inverso de la
varianza y por ello la llamamos precision. Se hace este cambio para utilizar
la distribucion gamma en vez de la gamma invertida.
Ejemplo 3. Sea la familia parametrica T := Poisson(x [ ) : R
+
.
Si utilizamos como distribuci on a priori p() T := Gamma([ , ) :
, R
+
entonces para una muestra aleatoria x = (x
1
, . . . , x
n
) :
p([ x) = Gamma([ +r, +n)
en donde
r :=
n
j=1
x
j
34 CAP
ITULO 3. INFORMACI
ON A PRIORI
y ademas
p(x) = Pg(x [ , , 1)
p(x [ x) = Pg(x [ +r, +n, 1)
en donde Pg se reere a la distribucion Poisson-gamma:
Pg(x [ , , n) =

()
( +x)
x!
n
x
( +n)
+x
1
{0,1,...}
(x)
cuya esperanza y varianza est an dadas por E(X) = n
y V(X) =
n
_
1 +
n
,
respectivamente.
En el ejemplo anterior, y son los hiperpar ametros de la distribucion
a priori de , y por tanto se les debe asignar valores que reejen la informa-
ci on a priori que se tenga, como se hizo en el Ejemplo 2. La distribuci on a
posteriori p([ x) es una gamma con par ametros +r y +n, lo cual ilus-
tra como se combinan informaci on a priori e informaci on muestral. Aunque
se vera a mayor detalle mas adelante c omo hacer estimaci on puntual, en el
Captulo 2 se mencion o que una manera de hacer estimacion puntual sobre
el parametro es calculando su esperanza, aprovechando el hecho de que se
tiene una distribucion de probabilidad sobre y en este caso:
= E([ x) =
+r
+n
Respecto a lo anterior es importante la siguiente observaci on. Por simplicidad
supongamos por un momento que = . Si la magnitud de es muy
grande en comparaci on con r y n tendremos el caso en que la informaci on a
priori tendr a m as peso que la informaci on muestral en las inferencias que se
realicen con la distribuci on a posteriori. En el ejemplo anterior se tendra que
E([ x) sera aproximadamente igual a 1 y V([ x) aproximadamente igual a
1
, varianza que para valores grandes de se acercara a cero, lo cual nos
hablara de una distribuci on cuya densidad (o masa) est a muy concentrada
alrededor de un punto, En este caso diremos que la distribuci on a priori es
muy informativa. Si, por el contrario, es cercana a cero tendremos que la
distribuci on a priori tiene una varianza muy grande y en tal caso diremos
que se trata de una distribuci on a priori poco informativa. En el ejemplo
anterior se tendra que E([ x) es aproximadamente igual a la media de los
datos muestrales, que quiere decir que ante tan poca informaci on a priori las
inferencias que se hagan se apoyaran pr acticamente solo en la informaci on
que provean los datos muestrales. Esto ultimo es materia de la siguiente
secci on.
3.3. DISTRIBUCIONES A PRIORI NO INFORMATIVAS 35
3.3. Distribuciones a priori no informativas
La estadstica bayesiana proporciona una metodologa que permite combi-
nar de manera consistente informacion a priori con informaci on experimental
(i.e. muestral). Ante esto surge la pregunta de c omo realizar inferencias cuan-
do no se dispone de informaci on a priori, o bien cuando dicha informaci on
no se quiere o no se puede utilizar.
El problema quedara resuelto si pudiesemos determinar una distribu-
ci on a priori que describa la situaci on en que los datos experimentales con-
tienen toda la informaci on relevante, en lugar de proporcionar tan solo parte
de ella como sucede cuando se dispone de informacion a priori. Una forma
pragm atica (pero incompleta) de atacar este problema sera asignar arbi-
trariamente una distribucion a priori con la unica condici on de que tenga
una varianza muy grande, con todo lo relativo que esto ultimo puede re-
sultar.
Otra forma sera la siguiente. Supongamos que tenemos un n umero nito
de sucesos inciertos (o hip otesis) E
1
, . . . , E
k
. Una distribucion a priori que
describe un estado de ignorancia o carencia de informacion es la siguiente:
P(E
j
) =
1
k
1
{1,...,k}
(j)
esto es, una distribuci on uniforme discreta.
Thomas Bayes propuso esta distribucion con base en lo que el llamo el
Principio de la Razon Insuciente: Si no sabemos cosa alguna sobre
E
1
, . . . , E
k
no hay razon para asignarle a alguno de los sucesos inciertos
una probabilidad diferente que a los otros.
Sin embargo, este principio no es aplicable en situaciones donde el n umero
de sucesos inciertos no es nito. Volviendo al Ejemplo 2, supongamos ahora
que no se tiene informaci on alguna acerca de la proporcion de expedientes
incompletos. Bajo el principio de la raz on insuciente propondramos como
distribuci on a priori no informativa para :
p() = 1
] 0,1 [
()
es decir, una distribucion uniforme continua en ] 0, 1 [ . Supongamos ahora
que, m as que estar interesados en directamente, estamos interesados en
una funcion uno-a-uno de , digamos := log . Si no tenemos informa-
ci on alguna de entonces tampoco tenemos informacion sobre . Bajo el
36 CAP
ITULO 3. INFORMACI
ON A PRIORI
principio de la raz on insuciente asignaramos tambien una distribucion uni-
forme continua para , pero aqu aparece el primer problema porque toma
valores en ] 0, [. De hecho, resultado de probabilidad elemental es que si
de distribuye como uniforme continua en ] 0, 1 [ entonces se distribuye
exponencial con parametro 1, la cual, por ejemplo, asigna mayor probabili-
dad a valores de en un intervalo ] 0, 1 [ que en el intervalo ] 1, 2 [ , violando
as el principio de la raz on insuciente, por lo que dicho principio no pro-
duce distribuciones a priori consistentes en el sentido de que no resultan ser
invariantes ante reparametrizaciones uno-a-uno.
3.4. Regla de Jereys
S olo en el caso en que el espacio par ametrico sea nito el principio
de la razon insuciente provee distribuciones a priori no informativas que
son invariantes ante transformaciones uno-a-uno del par ametro (o vector de
par ametros). Sin embargo, esto es poco util ya que por lo general nos en-
frentamos a espacios parametricos innitos.
Jereys (1961) propuso una clase de distribuciones a priori no informa-
tivas para el caso de espacios parametricos innitos. En terminos generales,
la construcci on de esta clase consiste en buscar simult aneamente invariancia
ante transformaciones y proveer la menor informaci on a priori en relaci on a
la informacion muestral, va la informaci on de Fisher.
Citaremos algunos resultados de probabilidad para recordar el concepto
de la informaci on de Fisher. Las demostraciones se pueden consultar en libros
como el de Casella y Berger (2002) y el de Lehmann y Casella (1998), entre
muchos otros.
3.2. Teorema. (cota inferior de Cramer-Rao) Sean X
1
, . . . , X
n
va-
riables aleatorias con funcion de densidad conjunta p(x[ ), R. Sea
W(X) = W(X
1
, . . . , X
n
) cualquier funcion tal que E
(W(X)) sea una fun-

cion diferenciable de . Suponiendo que p(x[ ) = p(x
1
, . . . , x
n
[ ) satisface:
d
d
E
(W(X)) =
_
R
n

_
W(x)

p(x[ ) dx
1
dx
n
3.4. REGLA DE JEFFREYS 37
y ademas V
(W(X)) < , entonces se cumple que:

V
_
W(X)
_
_
d
d
E
_
W(X)
_
_
2
E
_
_

log p(X[ )
_
2
_
3.3. Corolario. Si ademas X
1
, . . . , X
n
son independientes e identicamente
distribuidas con funcion de densidad com un p(x [ ) entonces:
V
_
W(X)
_
_
d
d
E
_
W(X)
_
_
2
nE
_
_

log p(X [ )
_
2
_
El teorema de Cr amer-Rao es valido tambien para variables aleatorias
discretas siempre y cuando sea v alido intercambiar diferenciacion y sumas,
as como que la funci on de masa de probabilidades p(x [ ) sea diferenciable
respecto a .
Cuando se tiene una muestra aleatoria X = (X
1
, . . . , X
n
), a la cantidad
nE
__

log p(X [ )
_
2
_
se le conoce como la informacion de Fisher de la
muestra y a la cantidad E
__

log p(X [ )
_
2
_
se le conoce como informa-
cion de Fisher por unidad muestral y la denotamos I(). Para facilitar el
c alculo de I() se tiene el siguiente resultado:
3.4. Lema. Si ademas de lo anterior p(x [ ) satisface:
d
d
E
log p(X [ )
_
=
_
X
__

log p(x [ )
_
p(x [ )
_
dx
=
_
X
2
p(x [ ) dx
en donde A := Ran X, entonces se cumple:
E
__

log p(X [ )
_
2
_
= E
_

2
2
log p(X [ )
_
Por lo anterior es com un simplemente denir la informacion de Fisher
del modelo parametrico p(x [ ) como:
I() := E
_

2
2
log p(X [ )
_
38 CAP
ITULO 3. INFORMACI
ON A PRIORI
Con lo anterior, el Corolario 3.3 puede expresarse como:
V
_
W(X)
_
_
d
d
E
_
W(X)
_
_
2
nI()
Para el caso de muestras aleatorias, W(X) es lo que se utiliza en estadsti-
ca frecuentista para estimar o alguna funcion de . Recuerdese que bajo
el enfoque frecuentista la unica fuente de informaci on sobre es la muestra
aleatoria. En caso de que E
(W(X)) = (que en estadstica frecuentista se

dice en tal caso que W(X) es un estimador insesgado de ), la varianza de
dicho estimador satisface:
V
_
W(X)
_
1
nI()
Si se tienen varios estimadores de cuya esperanza es justamente se pre-
eren aquellos que tengan menor varianza (i.e. los que sean m as informa-
tivos), y el mejor ser a aquel o aquellos cuya varianza coincida con la cota
inferior de Cr amer-Rao ya que por dicho teorema es la mnima. Notemos
pues que si I() es grande entonces hay posibilidades de obtener un esti-
mador con menor varianza y en tal caso decimos que el modelo parametrico
p(x [ ) es muy informativo. Si I() es peque no entonces la mnima varian-
za posible de un estimador de ser a grande y en tal caso diremos que el
modelo parametrico es poco informativo. Como I() depende justamente de
entonces la varianza de los estimadores (frecuentistas) de depender a del
supuesto verdadero valor de .
La pregunta natural que surge es cuales familias parametricas satisfacen
las condiciones del teorema de Cr amer-Rao (conocidas usualmente como
condiciones de regularidad) as como la condicion del Lema 3.4. Afortunada-
mente varias de las familias conocidas satisfacen dichas condiciones, entre las
que se encuentran las pertenecientes a la Familia Exponencial, como son la
normal, gamma, beta, lognormal, binomial, Poisson, binomial negativa, en-
tre otras. Las distribuciones cuyo rango de la variable aleatoria depende del
par ametro no satisfacen dichas condiciones, como es el caso de la distribucion
uniforme o Pareto.
Ejemplo 4. Sea p(x [ ) = Binomial(x [ m, ) con m ja y =] 0, 1 [ .
Es inmediato vericar que:
I() =
m
(1 )
Observemos que I() conforme 0 o bien 1 y que alcanza un
mnimo en =
1
2
. Esto quiere decir que para valores de cercanos a 0 o a 1 un
estimador (muestral) W(X) de mnima varianza se vuelve m as informativo,
y menos informativo conforme se aproxime a
1
2
.
Todo lo anterior fue para el caso en que el espacio parametrico sea unidi-
mensional, pero para el caso multidimensional se tiene un resultado an alogo
(ver Lehmann (1998)), s olo que en este caso es un vector de parametros
y obtenemos una matriz de informacion de Fisher I() = |I
ij
()| cuyas
entradas est an dadas por:
I
ij
() = E
_

2
j
log p(X [ )
_
3.5. Denicion. Para un modelo parametrico p(x [ ) la distribucion a priori
no informativa de Jereys para est a dada por:
p()
_
I() , R
En el caso multidimensional se tiene:
p()
_
det I()
En cualquier caso la denotaremos por ().
La idea es favorecer los valores de para los cuales I(), o en su caso
det I(), es grande, lo que resta inuencia a la distribucion a priori dan-
do mayor peso a la informaci on muestral. La raz cuadrada aparece para
que resulte invariante bajo transformaciones uno-a-uno. La anterior Regla de
Jereys tiene la desventaja de que en ocasiones produce distribuciones im-
propias (i.e. no integran a 1) lo cual no es del todo grave si realmente lo que
se quiere es trabajar con una distribuci on a posteriori ( [ x) que describa
la incertidumbre sobre bas andose unicamente en la informacion muestral
x = (x
1
, . . . , x
n
) . Bastar a que se cumpla la condici on
_
p(x[
) (
) d
<
para que la distribucion a posteriori sea en efecto una distribucion de proba-
bilidad sobre :
( [ x) =
p(x[ ) ()
_
p(x[
) (
) d
.
40 CAP
ITULO 3. INFORMACI
ON A PRIORI
3.6. Lema. La distribucion a priori no informativa de Jereys
()
_
I() es invariante ante transformaciones uno-a-uno, esto es, si
= () es una transformacion uno-a-uno de entonces la distribucion a
priori no informativa de Jereys para es p()
_
I().
Demostracion. Sea = () una transformacion uno-a-uno de . Entonces:
log p(X [ )
=
log p(X [ ())
en donde = () es la inversa de la transformaci on . Para obtener la

informaci on de Fisher de calculamos:
2
log p(X [ )
2
=
log p(X [ ())
2
+

2
log p(X [ ())
2
_
_
2
Multiplicando ambos miembros por 1 y calculando esperanza respecto a
p(x [ ) :
I() = E
_
log p(X [ )
2
+I()
_
_
2
pero tenemos que:
E
_
log p(X [ )
_
= E
_

p(X [ )
p(X [ )
_
=
_

p(x [ )
p(x [ )
p(x [ ) dx
=
_

p(x [ ) dx
=
d
d
_

p(x [ ) dx (por las condiciones de regularidad)

=
d
d
(1) = 0
por lo que:
I() = I()
_
_
2
esto es:
_
I() =
_
I() [/[
pero [/[ es el valor absoluto del jacobiano de la transformacion inversa
por lo que si ()
_
I() entonces:
p()
_
I(()) [/[ =
_
I()
y por lo tanto la distribuci on a priori de Jereys es invariante ante transfor-
maciones uno-a-uno.
3.7. Teorema. El mismo resultado es valido para el caso en que tiene un
espacio parametrico multidimensional. Ver Lehmann y Casella (1998).
Ejemplo 5. Utilizando el resultado del Ejemplo 4 con m = 1 obtenemos la
distribuci on a priori de Jereys para la familia parametrica Bernoulli:
()
1/2
(1 )
1/2
esto es, el kernel de () corresponde a una distribucion beta por lo que en
este caso () = Beta( [
1
2
,
1
2
) y como la distribucion beta es conjugada de la
familia Bernoulli, del Ejercicio 1 del Captulo 2 tenemos que la distribuci on
a posteriori de es ( [ (x
1
, . . . , x
n
)) = Beta( [
1
2
+ r,
1
2
+ n r) donde
r :=
x
j
.
El siguiente es un ejemplo en el que la distribucion a priori de Jereys es
impropia; sin embargo, esto no es del todo relevante ya que lo que se busca es
que las inferencias se apoyen exclusivamente en la informaci on muestral que
se obtenga por lo que lo importante ser a que las distribuciones a posteriori
sean propias (i.e. que integren a 1):
Ejemplo 6. Consideremos la familia parametrica Poisson(x [ ), en donde
R
+
. Es inmediato vericar que la informacion de Fisher est a dada por:
I() =
1
y por lo tanto la distribucion a priori de Jereys es ()

1/2
la cual
resulta ser impropia. Sin embargo, la distribucion a posteriori de :
([ x) p(x[ ) () e
n
x
j
1/2
Lo anterior es el kernel de la distribucion gamma por lo que ([ (x
1
, . . . , x
n
)) =
Gamma([

x
j
+ 1/2, n) .
42 CAP
ITULO 3. INFORMACI
ON A PRIORI
Adem as de la Regla de Jereys existen otras propuestas para la con-
strucci on de distribuciones no informativas, entre las que destacan las dis-
tribuciones de referencia de Bernardo (1979), ver tambien Bernardo y Smith
(1994).
EJERCICIOS
1. Verique las familias conjugadas del Cuadro 3.1.
2. Un problema que interesa en riesgo de credito es la posibilidad de que
una empresa que emiti o ttulos de deuda (pagares, bonos, etc.) para
nanciarse, incumpla en el pago de dicha obligacion al vencimiento de
dichos ttulos. En primer termino, existe incertidumbre en cuanto ha
si ser a o no solvente para regresar el dinero que obtuvo en prestamo
en la fecha jada. En segundo termino y en caso de que incurra en
incumplimiento, existe tambien incertidumbre en cuanto al porcenta-
je de incumplimiento, esto es, puede ocurrir que no pueda cumplir al
100 % con el reembolso pero quiz as pueda hacer un pago parcial del
c % de la obligaci on y en tal caso diremos que el incumplimiento fue
del (100 c) %, con 0 c 100. Por lo general cada empresa tiene
un perl particular y no es comparable con otras, y de hecho ni con su
propio historial crediticio ya que las condiciones del pasado para una
misma empresa suelen ser muy diferentes a las del presente, por lo que
se pretende modelar el porcentaje de incumplimiento unicamente con
base en la informaci on a priori que proporcione un analista o grupo de
analistas de credito. Supongamos que se cuenta con la siguiente infor-
maci on a priori: los analistas de credito estiman que la probabilidad
de incumplimiento se ubica entre 5 y 15 % y que en caso de que se de
el incumplimiento el porcentaje de incumplimiento se ubica entre 60 y
100 %. Proponga los modelos adecuados, obtenga la distribuci on pre-
dictiva a priori del porcentaje de incumplimiento y calcule el porcentaje
esperado de incumplimiento.
3. Supongamos que la llegada de autos a la caseta de cobro de una au-
topista los das viernes de 5 a 8 p.m. se puede modelar mediante la
familia parametrica Poisson. Hacemos dos preguntas al encargado de
la caseta: Como cu antos autos llegan en promedio por minuto a la
caseta? A lo cual nos responde que 5. Tomando en cuenta que el dato
anterior es una apreciacion subjetiva Cu al cree usted que sera en el
mayor de los casos el n umero promedio de autos por minuto? A lo cual
nos responde que 12.
a) Utilizando una distribucion conjugada especique la distribuci on
a priori del parametro con base en la informacion que se tiene.
Calcule el valor esperado del parametro as como la probabilidad
de que dicho par ametro sea mayor a 8.
b) Supongamos ahora que procedemos a tomar una muestra aleatoria
y obtenemos x = (679, 703, 748, 739, 693). Obtenga la distribu-
ci on a posteriori del par ametro y calcule el valor esperado del
par ametro as como la probabilidad de que dicho par ametro sea
mayor a 8. Compare con el inciso a). Graque en una misma hoja
la distribucion a priori, la distribucion a posteriori con el primer
dato, con los primeros dos y as sucesivamente hasta la a posteriori
con los cinco datos.
c) Utilizando la Regla de Jereys y la informacion del inciso anterior
obtenga la distribucion a posteriori del parametro y calcule el va-
lor esperado del par ametro as como la probabilidad de que dicho
par ametro sea mayor a 8. Compare con el inciso b). Graque lo
an alogo al inciso anterior. Que se puede concluir sobre la infor-
maci on a priori proveniente del encargado de la caseta?
4. Utilizando la Regla de Jereys obtenga las distribuciones a posteriori
de las siguientes distribuciones uniparametricas univariadas:
a) Geometrica
b) Exponencial
c) Normal (con precisi on conocida)
d) Normal (con media conocida)
5. Verique si las siguientes distribuciones a priori impropias son no in-
formativas ya que producen distribuciones a posteriori que dependen
unicamente de la informaci on muestral y son invariantes ante transfor-
maciones uno a uno:
a) p()
1
para el modelo continuo Uniforme (0, ), R
+
.
44 CAP
ITULO 3. INFORMACI
ON A PRIORI
b) p() k, k una constante, para el modelo Normal con precisi on
conocida.
Captulo 4
Elementos de la teora de la
decisi on
Revisaremos algunos resultados de la teora de la decision que son utiles
para hacer inferencias pero no daremos aqu ni la construcci on axiomatica
ni la mayora de las demostraciones de los resultados que al respecto se
utilizar an. Para detalles sobre esto se recomienda ampliamemte el libro de
Bernardo y Smith (1994).
Uno de los principales objetivos de la teora de la decision es el desarrollo
de procesos l ogicos para la toma de decisiones bajo condiciones de incer-
tidumbre. La idea es plantear los problemas de inferencia estadstica como
problemas de decision, y aprovechar por tanto los resultados que ya se tienen
respecto a esto ultimo.
4.1. Representaci on formal
4.1. Denici on. Un problema de decision est a denido conjuntamente por
los elementos (c, (, /, _) en donde:
1. c es un algebra de eventos relevantes que denotaremos mediante E
j
,
2. / es un conjunto de opciones o acciones potenciales, cuyos elementos
denotaremos mediante a
i
,
45
46 CAP
ITULO 4. ELEMENTOS DE LA TEOR
IA DE LA DECISI
ON
3. ( es el conjunto de consecuencias posibles y mediante c
ij
denotaremos
la consecuencia de haber elegido la acci on a
i
/ bajo la ocurrencia de
el evento E
j
c ,
4. _ es una relaci on (binaria) de preferencia para algunos de los elementos
de /.
Ejemplo 7. Supongamos que nos enfrentamos al trivial problema de decidir
si salimos a la calle con o sin paraguas. Como conjunto de acciones posibles
tenemos entonces que / := a
1
, a
2
en donde a
1
puede representar la acci on
de llevar paraguas y a
2
la accion de no llevarlo. Son muchos los eventos que
al respecto podramos considerar, pero por el momento aceptemos la idea
intuitiva de que esencialmente tenemos dos eventos relevantes (para lo que
se pretende decidir) : llueve (E
1
) o no llueve (E
2
). Con lo anterior podemos
entonces determinar el conjunto de consecuencias posibles:
( = c
ij
= (a, E) : a /, E E
1
, E
2
As por ejemplo c
22
es la consecuencia de haber decidido no llevar paraguas
y que efectivamente no haya llovido; c
21
es la consecuencia de haber decido
no llevar paraguas y que haya llovido. Intuitivamente podramos decir que
nos gusta mas la consecuencia c
22
que la c
21
(esto en la mayora de los casos
quiz as, porque hay quienes disfutan mojarse).
Resolver un problema de decision signica determinar _ , esto es, denir
un criterio para decidir que acciones son preferibles a otras. Hay que notar
que / representa la parte del problema de decisi on que controlamos, que
est a en nuestras manos en un momento dado. c representa la parte que no
controlamos pues se reere a eventos cuya ocurrencia no depende de nosotros.
En la Denicion 4.1 se deni o a c como un algebra. En un problema de
decisi on tenemos involucrado un fen omeno o experimento aleatorio para la
parte que no controlamos. En probabilidad, se denota por el espacio mues-
tral, esto es, el conjunto de resultados posibles del fen omeno o experimento
aleatorio. Los distintos eventos relacionados a este experimento se pueden
identicar como subconjuntos de . Se dene un espacio de eventos como
un conjunto de eventos asociados a un experimento o fen omeno aleatorio,
esto es, un espacio de eventos es, en principio, un conjunto de subconjuntos
de . Sea c justamente ese espacio de eventos. Es cuesti on de analizar al-
gunos ejemplos sencillos de probabilidad para motivar algunas propiedades
que debe tener dicho espacio de eventos:
4.1. REPRESENTACI
ON FORMAL 47
4.2. Denicion. Sea un conjunto arbitrario y sea c un conjunto de sub-
conjuntos de . Se dice que c es un algebra si:
1. c ,
2. Si E c entonces E
c
c ,
3. Si E
1
, . . . , E
n
c entonces
n
j=1
E
j
c .
Es f acil vericar que consecuencia de lo anterior es que el conjunto vaco
c y que si E
1
, . . . , E
n
c entonces
n
j=1
E
j
c. Pero en probabilidad
esto no es suciente, se pide ademas que la union (innito) numerable de
eventos tambien este en el espacio de eventos, en cuyo caso se le denomina
-algebra. Sin embargo, m as adelante mencionaremos el por que se asigna a
c una estructura de algebra y no de - algebra.
En un problema de decision no trabajamos directamente con todo c sino
con algunos de sus elementos que llamamos eventos relevantes, relevantes
respecto a lo que se quiere decidir. Por el momento estableceremos que dicho
conjunto de eventos relevantes sea nito. Tambien pediremos que sea una
partici on de . Igualmente pediremos que / sea nito.
Mencionamos ya que el conjunto de eventos relevantes es la parte que
no controlamos del problema de decision, esto es, tenemos incertidumbre
respecto a cual de los eventos relevantes ocurrir a, pero esto no nos impi-
de estudiar cientcamente el fen omeno o experimento aleatorio asociado a
ellos e intentar reunir informaci on que nos de idea acerca de la posibilidad de
ocurrencia de cada uno de los eventos. Al respecto Lindley (2000) menciona
que un enfoque cientco [sobre este problema] implica la medici on de la
incertidumbre ya que, citando a Kelvin, es solo asociando n umeros a cualquier
concepto cientco como puede ser adecuadamente entendido. La razon de
medir no es s olo para ser m as precisos respecto a la noci on de que tenemos
m as incertidumbre acerca de lo que suceder a ma nana en el mercado de valo-
res en comparaci on con que salga el sol, sino tambien para poder combinar
incertidumbres. Lindley (2000) argumenta el por que la incertidumbre debe
ser medida con probabilidad y Bernardo y Smith (1994) hacen una funda-
mentaci on rigurosa de ello y de c omo tomar decisiones bajo condiciones de
incertidumbre. Esto ultimo se traduce en poder determinar una relacion de
preferencia _ sobre / y escoger la acci on optima.
48 CAP
IA DE LA DECISI
ON
Al hablar de una relaci on (binaria) de preferencia _ no estamos supo-
niendo que cualquier par de acciones (a
1
, a
2
) / / est a necesariamente
relacionado mediante _ . En caso de que dicha relaci on sea aplicable, me-
diante a
1
_ a
2
entenderemos que, bajo alg un criterio que se dena, a
1
no es
m as preferible que a
2
.
4.3. Denicion. La relaci on de preferencia _ induce las siguientes rela-
ciones binarias para elementos a
1
, a
2
/ :
1. a
1
a
2
si y s olo si a
1
_ a
2
y a
2
_ a
1
(indiferencia),
2. a
1
a
2
si y solo si a
1
_ a
2
pero no se cumple que a
2
_ a
1
(preferencia
estricta),
3. a
1
_ a
2
si y s olo si a
2
_ a
1
,
4. a
1
~ a
2
si y s olo si a
2
a
1
.
Y as como resulta necesario cuanticar la incertidumbre de alg un mo-
do, que en nuestro caso ser a por medio de probabilidad, tambien es necesario
cuanticar las consecuencias. En el Ejemplo 7 result o (quiz as) intuitivamente
claro que la consecuencia c
22
es preferible a la consecuencia c
21
pero si nos
preguntamos lo mismo respecto a c
12
y c
21
posiblemente no resulte tan con-
tundente la respuesta, o al menos no con la intensidad del otro caso. N otese
que de inicio evitamos escribir, por ejemplo, que c
22
~ c
21
porque hemos
denido las relaciones de preferencia para elementos de / y no de (. Claro
que podramos denir relaciones de preferencia analogas para ( y tener cuida-
do en utilizar una simbologa diferente, lo cual no sera pr actico, as que
utilizaremos los mismos smbolos pero conscientes de que las relaciones de
preferencia de / son distintas a las de (.
4.4. Denici on. Entenderemos por espacio de estados, y lo denotaremos
, a una partici on de en eventos relevantes.
Como la incertidumbre sobre los eventos relevantes la mediremos con
probabilidad, si se tiene una medida de probabilidad P : c [ 0, 1 ] entonces
tenemos una funci on de probabilidad P : [ 0, 1 ]. Notese adem as que
( = / .
4.5. Denici on. Una funcion de utilidad es una funci on u : ( R .
4.2. SOLUCI
ON DE UN PROBLEMA DE DECISI
ON 49
El poder cuanticar de alg un modo las distintas consecuencias nos provee
de un criterio inmediato para determinar las relaciones de preferencia en ( :
4.6. Denici on. c
ij
_ c
kl
si y s olo si u(c
ij
) u(c
kl
) .
La denicion anteior induce las siguientes relaciones binarias:
c
ij
c
kl
c
ij
_ c
kl
y c
kl
_ c
ij
,
c
ij
c
kl
c
ij
_ c
kl
pero no se cumple que c
kl
_ c
ij
.
4.2. Solucion de un problema de decision
Dijimos ya que resolver un problema de decisi on (c, (, /, _) consiste en
determinar _, es decir, denir una relacion de preferencia entre los elementos
de / y escoger la acci on optima (la mas preferible). Existen diversas formas
de hacerlo, pero aqu trataremos exclusivamente la forma que nos interesa
para hacer inferencias desde el enfoque bayesiano y para ello requerimos tener
identicado lo siguiente:
El espacio de estados ,
una funcion de probabilidad P sobre los elementos de ,
una funcion de utilidad u sobre (.
La funci on de probabilidad P : [ 0, 1 ] puede ser a priori o a pos-
teriori, en el sentido en que se trat o en el Captulo 2. El c omo establecer
o construir una funci on de utilidad depender a de cada problema particular.
Para mayor detalle acerca de algunas formas generales de funciones de utili-
dad nuevamente insistimos en consultar el libro de Bernardo y Smith (1994).
Aqu nos limitaremos a ilustrar lo anterior mediante el siguiente:
Ejemplo 8. Retomando el Ejemplo 1 en la parte referente a la apuesta,
podemos plantearlo como un problema de decisi on. El fenomeno aleatorio
involucrado es el lanzamiento de una moneda por lo que su espacio muestral
es = aguila, sol y su algebra de eventos es c = , , aguila, sol. El
espacio de estados = E
1
, E
2
donde E
1
:= aguila y E
2
:= sol. N otese
que es particion de . El conjunto de acciones es / = a
1
, a
2
donde a
1
representa la acci on de apostar en favor de que salga aguila y a
2
en favor de
50 CAP
IA DE LA DECISI
ON
sol. Si el esquema de apuesta consiste en que quien apueste a favor de aguila
arriesgue b pesos y quien lo haga en favor de sol arriesgue a pesos entonces
la funcion de utilidad queda como sigue:
u(c
11
) = a u(c
12
) = b u(c
21
) = a u(c
22
) = b
De acuerdo al Ejemplo 1 n otese que E
1
X = 1 y E
2
X = 0 por lo
que:
P(E
1
) = P(X = 1) y P(E
2
) = P(X = 0)
para lo cual podemos utilizar la distribucion predictiva a priori o a posteriori,
seg un sea el caso, es decir, P(X = x) = p(x) o bien P(X = x) = p(x [ x),
y con esto queda denida una funcion de probabilidad P sobre el espacio de
estados (relevantes) . De manera tabular podemos resumir lo anterior como
sigue:
P(E
j
) P(E
1
) P(E
2
)
u(a
i
, E
j
) E
1
E
2
a
1
a b
a
2
a b
En el Ejemplo 1 se obtuvo la relacion que debe existir entre los montos de
apuesta a y b pesos para tener una apuesta justa y dicha relaci on se obtuvo
a partir de la ecuacion:
aP(E
1
) bP(E
2
) = 0
El tener una apuesta o juego justo implica que seamos indiferentes respecto
a apostar en favor de cualquiera de las opciones disponibles, que en terminos
de este problema de decisi on lo escribimos como a
1
a
2
. Pero eso es tan
s olo un caso particular. De forma mas general podemos denir las variables
aleatorias:
U
1
:= a1
E
1
b1
E
2
U
2
:= a1
E
1
+b1
E
2
esto es, U
1
representa la ganancia/perdida que obtendr a quien decida tomar
la accion a
1
y U
2
lo analogo para la acci on a
2
. Calculando sus esperanzas:
E(U
1
) := aP(E
1
) bP(E
2
)
E(U
2
) := aP(E
1
) +bP(E
2
)
4.2. SOLUCI
ON 51
Entonces para tener un juego justo se requiere que E(U
1
) = 0 y que E(U
2
) =
0, que de hecho tienen la misma soluci on, por lo que tendremos que a
1
a
2
si E(U
1
) = E(U
2
). Si por el contrario ocurriera que E(U
1
) > E(U
2
) entonces
si nos dan a escoger preferimos la acci on a
1
, esto es, a
1
~ a
2
. E(U
i
) es lo que
se conoce como la utilidad esperada de la accion a
i
y es justamente lo que
nos servir a como criterio para denir una relacion de preferencia _ sobre /
y poder as elegir la accion optima.
4.7. Denicion. En un problema de decisi on (c, (, /, _) con espacio de
estados (relevantes) = E
1
, . . . , E
m
c, funci on de probabilidad P sobre
y funci on de utilidad u sobre (, la utilidad esperada de la accion a
i
/ =
a
1
, . . . , a
k
se denota u(a
i
) y se dene como:
u(a
i
) :=
m
j=1
u(a
i
, E
j
) P(E
j
) i = 1, . . . , k
4.8. Denici on. (Criterio general de decision). En un problema de decisi on
como el de la Denici on 4.7, la relaci on de preferencia _ sobre / queda
denida por:
a
1
_ a
2
u(a
1
) u(a
2
)
Estrictamente hablando, lo anterior no es una denici on sino una proposi-
ci on que se demuestra despues de una rigurosa axiomatizacion de lo que
hemos visto hasta el momento como lo desarrollan Bernardo y Smith (1994),
pero como aqu nos limitamos a dar la motivaci on intuitiva para establecer
dicho criterio, no qued o mas remedio que denirlo as.
A partir de la Denicion 4.8 es inmediato que:
a
1
a
2
u(a
1
) = u(a
2
)
a
1
a
2
u(a
1
) < u(a
2
)
Finalmente, el criterio que utilizaremos para elegir la acci on optima de
/, misma que denotaremos a
, sera aquella que satisfaga:

u(a
) = max
i
u(a
i
)
Puede ocurrir que a
no sea unica. En tal caso hablaramos entonces de el

conjunto de acciones optimas /
/ y en tal caso diremos que somos

52 CAP
IA DE LA DECISI
ON
indiferentes ante llevar acabo cualquiera de las acciones de /
. Es en este
punto donde podemos retomar el por que pedimos que tanto / como c sean
nitos, pues de ser as, los resultados que desarrollan Bernardo y Smith (1994)
garantizan que a
existe, de otro modo puede o no ocurrir as. Necesitamos

un par de deniciones mas para ilustrarlo.
4.9. Denicion. Una acci on a
i
1
est a dominada por otra acci on a
i
2
si para
todo j tenemos que u(a
i
1
, E
j
) u(a
i
2
, E
j
) y adem as existe un j
0
tal que
u(a
i
1
, E
j
0
) < u(a
i
2
, E
j
0
).
4.10. Denici on. Una accion es admisible si no existe otra accion que la
domine. Una acci on es inadmisible si existe al menos otra que la domine.
Lo anterior nos dice en pocas palabras que es (quizas) posible depurar el
espacio de acciones, esto es, habra que eliminar de / las acciones inadmisi-
bles, llamadas as porque, independientemente del evento que ocurra, siempre
existe una mejor opci on.
Ejemplo 9. Supongamos que una operadora de fondos de inversi on nos
ofrece cuatro tipos diferentes de sociedades de inversi on, esto es, cuatro dife-
rentes estrategias para invertir nuestro dinero. Por simplicidad supongamos
que los cuatro portafolios de inversi on de dichas sociedades invierten en dos
opciones: acciones de la empresa ABC que cotiza en bolsa y en ttulos que
pagan un rendimiento jo de 6 %. Lo que distingue a cada portafolios es el
porcentaje destinado a una y otra opcion de inversi on:
portafolios % en ABC % a tasa ja
agresivo 80 20
moderado 50 50
conservador 20 80
sin riesgo 0 100
De acuerdo a lo anterior, el rendimiento de cada portafolios se desconoce
(a excepci on del ultimo) ya que depende del rendimiento que tenga la em-
presa ABC y este resulta incierto; sin embargo, podemos modelar nuestra
incertidumbre respecto al rendimiento de ABC consultando a un analista
nanciero y pidiendole (por ejemplo) nos de los escenarios posibles acerca
del rendimiento que ABC tendr a de acuerdo a la informaci on que el maneja.
4.2. SOLUCI
ON 53
Por simplicidad supongamos que nos plantea los siguientes escenarios con sus
respectivas probabilidades:
Escenario Rendimiento Probabilidad
pesimista 5 % 0.20
realista +15 % 0.60
optimista +25 % 0.20
Las probabilidades asignadas constituyen lo que ya hemos denido como pro-
babilidad a priori. De acuerdo a lo anterior podemos pensar en una variable
aleatoria X que represente el rendimiento de ABC y por tanto Ran X =
5 %, +15 %, +25 % con las probabilidades arriba se naladas.
El problema de decision consiste justamente en elegir de entre los cuatro
portafolios el optimo de acuerdo a la informaci on con que se cuenta. Sea el
conjunto de acciones / := a
1
, a
2
, a
3
, a
4
y el espacio de estados (relevantes)
:= E
1
, E
2
, E
3
de modo que:
a
1
invertir en el portafolios agresivo
a
2
invertir en el portafolios moderado
a
3
invertir en el portafolios conservador
a
4
invertir en el portafolios sin riesgo
E
1
X = 5 %
E
2
X = +15 %
E
3
X = +25 %
Para poder resolver este problema de decision s olo nos falta especicar
una funcion de utilidad para las distintas consecuencias. Por el momento
consideremos una funci on de utilidad igual al rendimiento que puede obtener
cada portafolios bajo cada escenario:
u(a
i
, E
j
) :=
i
x
j
+ (1
i
)r
en donde
i
representa el porcentaje de inversi on bajo la acci on a
i
y x
j
representa el rendimiento de ABC bajo el escenario E
j
y r la tasa ja del
54 CAP
IA DE LA DECISI
ON
6 % en este caso. Utilizando el criterio de la utilidad esperada maxima:
P(E) 0.20 0.60 0.20
u(a, E) E
1
E
2
E
3
u(a
i
)
a
1
2.8 % 13.2 % 21.2 % 11.6 %
a
2
0.5 % 10.5 % 15.5 % 9.5 %
a
3
3.8 % 7.8 % 9.8 % 7.4 %
a
4
6.0 % 6.0 % 6.0 % 6.0 %
Claramente la accion optima es a
= a
1
. Cabe aclarar que a
1
es la acci on
optima si realmente la funci on de utilidad propuesta corresponde a nuestras
preocupaciones como inversionistas. De hecho, veremos rapidamente que, sal-
vo casos extremos, la funcion de utilidad propuesta no es una buena eleccion
para este problema especco. Suponiendo que tenemos la libertad de elegir
libremente los porcentajes de inversion en las opciones ya mencionadas ten-
dremos entonces que el conjunto de acciones es / = [ 0, 100 %], esto es, existe
una innidad no numerable de porcentajes distintos que podemos asignar a
cada opci on inversion (con la condici on de que sumen 100 %) y en tal caso
a / representa la acci on de invertir a % en ABC y el resto a tasa ja por
lo que:
u(a) = aE(X) + (1 a)r , a /
y como E(X) = 13 % entonces reescribimos:
u(a) = (7 %)a + 6 %
es decir, u(a) es la ecuacion de una recta con pendiente positiva y alcanza
su m aximo en a = 100 % por lo que la accion optima sera en este caso a
=
100 % con una utilidad (rendimiento esperado en este caso) u(a
) = 13 %.
Entonces, con la funci on de utilidad propuesta, la accion optima es tomar el
mayor riesgo posible: invertir el 100 % en ABC. Aqu es donde un inversionista
mnimamente informado protestara con semejante decision. Que sucede?
Pues que normalmente un inversionista considera, al menos, dos aspectos:
rendimiento y riesgo de la inversi on. Normalmente un inversionista busca
altos rendimientos pero con el menor riesgo posible y de hecho la decisi on de
inversi on bajo esta doble consideracion implica balancear entre el rendimiento
que quiere el inversionista y el riesgo que est a dispuesto a tomar porque las
inversiones de poco riesgo van acompa nadas de rendimientos moderados y
las inversiones que tienen la posibilidad de otorgar altos rendimientos van
4.2. SOLUCI
ON 55
acompa nadas de mayor riesgo. As que no quiere decir esto que este mal la
teora, simplemente que hay que tener cuidado con la elecci on de una funci on
de utilidad que reeje todo aquello que nos preocupe o interese sea tomado
en cuenta. La funci on de utilidad que se propuso unicamente toma en cuenta
rendimientos mas no riesgo.
Construiremos pues una funci on de utilidad (entre muchas que se podran
denir) que de alg un modo reeje preocupacion tanto en rendimientos altos
como en controlar la cantidad de riesgo que se toma. Sea u
ij
:= u(a
i
, E
j
)
como se deni o anteriormente y sea:
u
i
:=
1
m
m
j=1
u
ij
Denimos la siguiente funci on de utilidad w :
w(a
i
, E
j
) := u
ij
A(u
i
u
ij
)
2
= u
ij
2
i
A(x
x
j
)
2
en donde x
:=
1
m
m
j=1
x
j
y en donde A 0 es lo que en ocasiones se
denomina un coeciente de aversion al riesgo. N otese que si A = 0 entonces
w(a
i
, E
j
) = u(a
i
, E
j
) por lo que nos ocuparemos s olo del caso en que A > 0.
La utilidad esperada para cada acci on a
i
/ es:
w(a
i
) = u(a
i
)
2
i
A
m
j=1
(x
x
j
)
2
P(E
j
)
=
i
_
E(X) r
+r
2
i
A
_
V(X) + (x
E(X))
2
N otese como ahora la f ormula general para la utilidad esperada de una

acci on est a tanto en terminos de el valor esperado del rendimiento de ABC,
esto es E(X), como del riesgo o dispersi on de dicho rendimiento, es decir,
V(X) en este caso. Y de hecho, es inmediato a partir de lo anterior obtener
la f ormula general de la utilidad esperada por acci on para el caso en que
a / = [ 0, 100 %] :
w(a) = a
_
E(X) r
+r a
2
A
_
V(X) + (x
E(X))
2
y para encontrar el valor de a que maximiza w(a) resolvemos:

w
(a) = E(X) r 2aA

_
V(X) + (x
E(X))
2
= 0
56 CAP
IA DE LA DECISI
ON
y como w
(a) < 0 entonces el valor de a que maximiza w(a), esto es el

porcentaje optimo de inversi on en ABC (invirtiendo el resto a tasa ja):
a
=
E(X) r
2A
_
V(X) + (x
E(X))
2
Para analizar el resultado anterior denamos

X
:= E(X)r y
X
:= V(X)+
(x
E(X))
2
, y entonces:
a
=

X
2A
X
En la expresi on anterior
X
representa el rendimiento esperado de ABC
por encima de lo que se obtiene a tasa ja r. Normalmente tendremos que
X
> 0, esto quiere decir que por lo general si vamos a considerar invertir
en una opci on con riesgo pedimos que al menos su rendimiento esperado sea
mayor al de una opcion sin riesgo. Por otro lado,
X
representa una medida de
riesgo y tiene dos componentes: la varianza del rendimiento de ABC as como
una consideraci on respecto a asimetra en las probabilidades asignadas a los
escenarios ya que x
= E(X) si, por ejemplo, X tiene distribuci on uniforme

discreta. Y es aqu donde se ve que la elecci on optima est a considerando
tanto rendimiento como riesgo ya que a mayor rendimiento de ABC se ten-
dr a un mayor valor de a
y a mayor riesgo (varianza y asimetra) de ABC se

tendr a un menor valor de a
. Con la soluci on optima anterior se obtiene la

siguiente utilidad optima:
w(a
) =

2
X
4A
X
+r
Aqu es interesante notar que a un cuando
X
< 0 se tendra una utilidad
(rendimiento esperado) por encima de la tasa ja r pero el que
X
< 0 implica
que a
< 0, y a primera vista parece un sin sentido un porcentaje negativo de

inversi on, pero quienes tengan un poco de conocimientos bursatiles saben que
esto corresponde a lo que se conoce como ventas en corto, concepto que no
discutiremos aqu pero baste mencionarlo para que nos quedemos tranquilos
de que estamos obteniendo resultados coherentes. Tambien puede ocurrir que
a
> 100 % en cuyo caso tendremos un porcentaje negativo de inversi on a

tasa ja, lo cual tambien es posible pues esto quiere decir que, adem as del
dinero propio, habra que pedir prestado mas dinero (a dicha tasa ja del 6 %)
para invertirlo tambien en ABC. Con los datos especcos de este ejemplo
obtenemos:
a
=
357.95 %
A
w(a
) =
12.53 %
A
+ 6 %
4.2. SOLUCI
ON 57
Para distintos valores de A tenemos las siguientes acciones optimas:
A a
[ 0, 3.57 ] a
1
(pidiendo prestado)
3.58 a
1
(con inversi on al 100 % en ABC)
[ 3.58, 5.48 ] a
1
[ 5.49, 5.52 ] a
1
a
2
[ 5.53, 10.20 ] a
2
[ 10.21, 10.24 ] a
2
a
3
[ 10.25, 35.6 ] a
3
[ 35.7, 35.9 ] a
3
a
4
[ 36, 62.2 ] a
4
[ 62.3, 115.3 ] a
4
(con a
1
inadmisible)
[ 115.4, 403.8 ] a
4
(con a
1
, a
2
inadmisibles)
[ 403.9, [ a
4
(con a
1
, a
2
, a
3
inadmisibles)
Que valor de A se debe usar? Esto dependera de que tanto riesgo se este dis-
puesto a tomar. N otese que si no existe preocupacion alguna por el riesgo
(A = 0) entonces w(a
i
, E
j
) = u(a
i
, E
j
). En cambio una gran preocupacion
por el riesgo se reeja en valores grandes para A. El c omo traducir el nivel de
aversion al riesgo de un determinado inversionista en un valor para A es ma-
teria ya de un estudio m as profundo que, como elegantemente dicen muchos
libros, is beyond the scope of this book. Pero para no dejarlo as, una manera
simplista de averiguar el coeciente de aversion al riesgo A de un determi-
nado inversionista sera, por ejemplo, preguntandole como que rendimiento
anda buscando. Supongamos que busca 1.5 % por arriba de la tasa ja del
6 %, entonces:
u(a
) = a
[E(X) r] +r = r + 1.5 %
despejando a
e igualandola con la f ormula de la accion optima obtenemos

A = 16.7 de donde obtenemos a
= a
3
. Mas a un, si en lugar de los cuatro
portafolios que se mencionaron existe libertad para decidir los porcentajes
como se quiera, la inversion optima sera en este caso invertir 21.43 % en
ABC y el resto a tasa ja.
Volviendo a la restriccion de que / y sean nitos, si alguno de ellos
no lo fuera, el problema de encontrar la accion optima puede a un as tener
soluci on (como en el ejemplo anterior con / := [ 0, 100 %]) o bien no tenerla,
como se ilustra en el Ejercicio 3, al nal de este captulo.
58 CAP
IA DE LA DECISI
ON
4.3. Problemas de decisi on secuencial
Hasta el momento hemos hablado de problemas de decisi on en donde el
espacio de estados o eventos relevantes es el mismo bajo cualquier acci on
a
i
/, pero esto no tiene que ser necesariamente as, bien puede ocurrir
que dependiendo de la accion que se tome se tenga un conjunto de eventos
relevantes diferente, es decir, bajo una acci on a
i
/ se tiene un conjunto
particular de m
i
eventos o estados relevantes
i
:= E
i1
, E
i2
, . . . , E
im
i
dando
lugar a los conjuntos de consecuencias (
i
:= c
i1
, c
i2
, . . . , c
im
i
. Y al igual
que en la secci on anterior, si se tiene una funcion de utilidad denida para
el conjunto de consecuencias
(
i
y funciones de probabilidad P
i
para los
espacios de estados
i
entonces nuevamente la accion optima sera aquella
a
/ que satisfaga:
u(a
) = max
i
u(a
i
)
en donde:
u(a
i
) :=
m
i
j=1
u(a
i
, E
ij
) P
i
(E
ij
)
De manera esquem atica:
>
>
>
>
>
`
`
`
`
`
'
'
'
'
'
'
a
i
h
P
i
/
/
/
/
/
>
>
>
>
>
>
>
>
>
`
`
`
`
E
ij
r
u(c
ij
)
Nodo de decisi on
h
Nodo aleatorio
Aunque esta es una forma m as general de un problema de decisi on que
el inicialmente presentado sigue siendo un problema de decision simple o de
una sola etapa en el sentido de que de que se toma una sola decision, pero es
posible tener un problema de decision secuencial que es una concatenaci on
de problemas de decisi on simples, en donde algunas o todas las consecuencias
consisten en tener que resolver nuevos problemas de decisi on.
4.3. PROBLEMAS DE DECISI
ON SECUENCIAL 59
En un problema de decisi on secuencial la decisi on optima en la primera
etapa depende de las elecciones optimas en las etapas subsecuentes. En el
caso general de un problema de decisi on con n etapas, la solucion puede
obtenerse de la siguiente manera:
1. Se resuelve primero la n-esima etapa (la ultima) maximizando las uti-
lidades esperadas apropiadas,
2. se resuelve la (n 1)-esima etapa maximizando las correspondientes
utilidades esperadas condicionalmente es las elecciones optimas de la
n-esima etapa,
3. se contin ua de esta manera siempre trabajando hacia atras hasta que
se obtenga la elecci on optima en la primera etapa.
En el caso de un problema de decision secuencial de n = 2 etapas:
.
.
.
.
.
.
a
(1)
i
e
P
(1)
i
.
.
.
.
.
.
E
(1)
ij
.
.
.
.
.
.
a
(2)
k[ij]
e
P
(2)
k
.
.
.
.
.
.
E
(2)
kl
r
u(c
(2)
kl
)
[
[
[
[
[
[
[
[
etapa 1 etapa 2
Resolviendo la ultima etapa:
.
.
.
.
.
.
a
(1)
i
e
P
(1)
i
.
.
.
.
.
.
E
(1)
ij
r
u(c
(1)
ij
) = max
k
u(a
(2)
k[ij]
)
en donde:
u(a
(2)
k[ij]
) =
l
u(c
(2)
kl
) P
(2)
k
(E
(2)
kl
)
60 CAP
IA DE LA DECISI
ON
Ejemplo 10. Una empresa farmaceutica se plantea la posibilidad de lanzar al
mercado un nuevo antigripal. Un despacho de actuarios le ofrece la realizaci on
de un estudio de mercado para reducir la incertidumbre sobre la proporci on
de medicos que lo recetaran. Sean los eventos:
E
1
:= una proporci on alta de medicos lo recetar an
E
2
:= una proporci on moderada de medicos lo recetar an
E
3
:= una proporci on baja de medicos lo recetaran
A priori la compa na estima que P(E
1
) = 0.2, P(E
2
) = 0.5 y por tanto
P(E
3
) = 0.3 y las ganancias que obtendra la empresa si lanza el producto
bajo cada escenario seran +$5, +$1 y -$3 millones de pesos, respectivamente.
El estudio propuesto puede aconsejar la producci on (X = 1) o desaconsejarla
(X = 0) y las probabilidades de que el resultado del estudio sea aconsejar la
producci on dada la proporcion de medicos que recetaran el antigripal son:
P(X = 1 [ E
1
) = 0.9 P(X = 1 [ E
2
) = 0.5 P(X = 1 [ E
3
) = 0.2
Cu al es el precio maximo que la empresa farmaceutica debe pagar por el
estudio? Sea c el costo de dicho estudio. Tenemos entonces:
ON SECUENCIAL 61
4
a
e
`
`
`
`
`
`
`
`
`
a
ne
j
j
p
1
X = 1
p
2
X = 0
a
p
j
`
`
`
`
p
3
p
4
p
5
E
1
r
+5 c
E
2
r
+1 c
E
3
r
3 c
`
`
`
a
np
j

r
c
2
>
>
>
a
p
j
>
>
>
p
6
p
7
`
`
`
`
p
8
E
1
r
+5 c
E
2
r
+1 c
E
3
r
3 c
`
`
`
`
`
a
np
j

r
c
3
a
p
j
p
9
p
10
p
11
E
1
r
+5
E
2
r
+1
E
3
r
3
a
np
j

r
0
El nodo de decisi on 4 corresponde a la primera etapa y los nodos de
decisi on 1,2 y 3 corresponden a la segunda. En la primera etapa el conjunto
de acciones es /
(1)
:= a
e
, a
ne
en donde:
a
e
:= hacer el estudio
a
ne
:= no hacer el estudio
En la segunda etapa los nodos de decisi on tienen el mismo conjunto de
62 CAP
IA DE LA DECISI
ON
acciones /
(2)
:= a
p
, a
np
en donde:
a
p
:= producir el antigripal
a
np
:= no producir el antigripal
La medida de probabilidad para el espacio de estados E
1
, E
2
, E
3
vara
seg un el nodo aleatorio. Para el nodo aleatorio correspondiente al nodo de
decisi on 1 tenemos, utilizando la regla de Bayes:
p
3
= P(E
1
[ X = 1)
=
P(X = 1 [ E
1
)P(E
1
)
P(X = 1) [ E
1
)P(E
1
) +P(X = 1) [ E
c
1
)P(E
c
1
)
= 0.367
y de manera an aloga p
4
= 0.510, p
5
= 0.123, p
6
= 0.039, p
7
= 0.490, p
8
=
0.471, p
9
= 0.2, p
10
= 0.5, p
11
= 0.3, p
1
= 0.49, p
2
= 0.51. Resolviendo los
nodos de decisi on de la segunda etapa obtenemos:
4
a
e
`
`
`
`
`
`
`
`
`
a
ne
j
j
p
1
X = 1
r
+1.976 c
p
2
X = 0
r
c
r
+0.6
Resulta entonces preferible hacer el estudio a no hacerlo (a
e
~ a
ne
) siem-
pre y cuando se cumpla u(a
e
) > u(a
ne
) lo cual ocurre si y solo si c < 0.368
as que para la empresa farmaceutica resulta conveniente pagar porque se
haga el estudio siempre y cuando el costo de este no exceda $368,000.
Un problema de decision secuencial que nos interesa de manera particular
es aquel en que se tiene que decidir llevar a cabo un experimento de entre
ON SECUENCIAL 63
varios posibles, y una vez escogido el experimento este es utilizado en un
problema de decisi on subsecuente, y se desea escoger el experimento optimo.
Este problema particular se conoce como dise no experimental. Esquem atica-
mente:
j.
.
.
.
-
-
-
-
`
`
`
`
`
`
`
`
`
`
`
`
D
i
>
>
>
>
>
>
>
a
j/
/
.
.
.
\
\
\ E
j
r
u(a, e, D
i
, E
j
)
e
0
/
/
/
>
>
>
>
>
>
`
`
`
a
j
`
`
`
E
j
r
u(a, e
0
, E
j
)
Primero escogemos un experimento e y de acuerdo a los datos obtenidos
D tomamos la acci on a, despues de la cual y ante la ocurrencia del evento
E produce una consecuencia cuya utilidad denotaremos u(a, e, D, E). Entre
los posibles experimentos a escoger incluimos un experimento nulo e
0
que
representa el caso en que decidamos irnos directo a las acciones posibles sin
llevar a cabo experimento alguno.
Resolviendo primero los nodos de decisi on de la segunda etapa tendremos
que calcular la utilidad esperada de las acciones:
u(a, e, D
i
) =
j
u(a, e, D
i
, E
j
) P(E
j
[ e, D
i
, a)
Con lo anterior y para cada par (e, D
i
) podemos escoger la acci on optima
a seguir en cada caso, esto es, una accion a
i
que maximice la expresi on
anterior. De este modo, la utilidad de la consecuencia (e, D
i
) estara dada
por:
u(e, D
i
) = u(a
i
, e, D
i
) = max
a
u(a, e, D
i
)
Ahora solo queda resolver la primera etapa, es decir, determinar cual es
el experimento optimo y para ello calculamos la utilidad esperada de cada
experimento:
u(e) =
i
u(a
i
, e, D
i
) P(D
i
[ e)
64 CAP
IA DE LA DECISI
ON
En el caso particular del experimento nulo tenemos:
u(e
0
) = u(a
0
, e
0
) = max
a
j
u(a, e
0
, E
j
)P(E
j
[ e
0
, a)
por lo que vale la pena llevar a cabo un experimento e siempre y cuando
u(e) > u(e
0
) :
4.11. Proposici on. La accion optima es llevar a cabo el experimento e
si
u(e
) > u(e
0
) y u(e
) = m ax
e
u(e); de lo contrario, la accion optima es no
realizar experimento alguno.
Demostracion. Es inmediata a partir de la Denici on 4.8.
Con lo anterior tenemos forma de denir un valor para la informacion
adicional que se puede obtener en el contexto de un problema de decision
dado. Es posible calcular el valor esperado de la informaci on que nos dan los
datos como la esperanza (a posteriori) de la diferencia entre las utilidades
que corresponden a las acciones optimas despues y antes de considerar los
datos obtenidos:
4.12. Denici on.
1. El valor esperado de los datos D
i
proveniente de un experimento e
est a denido por:
v(e, D
i
) :=
j
_
u(a
i
, e, D
i
, E
j
) u(a
0
, e
0
, E
j
)
P(E
j
[ e, D
i
, a
i
)
donde a
i
y a
0
son las acciones optimas dados los datos D
i
y en ausencia
de datos, respectivamente.
2. El valor esperado de un experimento e est a dado por:
v(e) :=
i
v(e, D
i
) P(D
i
[ e)
Y para tener una idea de que tan grande es el valor v(e) de un experimento
e es posible calcularle una cota superior. Consideremos las acciones optimas
que estaran disponibles bajo informacion perfecta, esto es, suponiendo que
ON SECUENCIAL 65
sabemos de antemano que el evento E
j
va a ocurrir, y sea a
(j)
la accion
optima dado E
j
, es decir tal que:
u(a
(j)
, e
0
, E
j
) = max
a
u(a, e
0
, E
j
)
De este modo, dado E
j
, la perdida que se tiene por escoger cualquier otra
acci on a ser a:
u(a
(j)
, e
0
, E
j
) u(a, e
0
, E
j
)
Para a = a
0
(la accion optima a priori) esta diferencia proporciona, condi-
cional en E
j
, el valor de informacion perfecta y, bajo ciertas condiciones, su
valor esperado nos dara una cota superior para el incremento en utilidad que
nos proporcionaran datos adicionales acerca de los eventos E
j
:
4.13. Denicion. La perdida de oportunidad que se tiene si se toma la
acci on a y ocurre el evento E
j
est a dada por:
l(a, E
j
) := max
a
i
u(a
i
, e
0
, E
j
) u(a, e
0
, E
j
)
y el valor esperado de informacion perfecta est a dado por:
v
(e
0
) :=
j
l(a
0
, E
j
) P(E
j
[ a
0
)
Es importante no perder de vista que las funciones v(e, D
i
) y v(e) as como
el n umero v
(e
0
) dependen de las distribuciones (a priori) :
P(E
j
[ a) : a /
Existen situaciones en las que es posible separar la funci on de utilidad
u(a, e, D
i
, E
j
) en dos componentes: el costo de llevar a cabo el experimento
e para obtener los datos D
i
y la utilidad que se obtiene cuando se escoge
la acci on a y ocurre el evento E
j
. Com unmente el componente utilidad no
depende de (e, D
i
) por lo que, suponiendo aditividad de ambos componentes:
u(a, e, D
i
, E
j
) = u(a, e
0
, E
j
) c(e, D
i
) , c(e, D
i
) 0
M as a un, las distribuciones de probabilidad sobre los eventos son, por
lo general, independientes de las acciones. Bajo las condiciones anteriores es
posible calcular una cota superior para el valor esperado de un experimento:
66 CAP
IA DE LA DECISI
ON
4.14. Proposici on. Si la funcion de utilidad es de la forma:
u(a, e, D
i
, E
j
) = u(a, e
0
, E
j
) c(e, D
i
) , c(e, D
i
) 0 ,
y las distribuciones de probabilidad son tales que
P(E
j
[ e, D
i
, a) = P(E
j
[ e, D
i
) , P(E
j
[ e
0
, a) = P(E
j
[ e
0
) ,
entonces, para cualquier experimento disponible e, se tiene que
v(e) v
(e
0
) c(e) ,
en donde
c(e) :=
i
c(e, D
i
) P(D
i
[ e)
es el costo esperado del experimento e.
Demostracion. Utilizando las deniciones 4.12 y 4.13 podemos reexpresar
v(e) como:
v(e) =
i
_
j
_
u(a
i
, e
0
, E
j
) c(e, D
i
) u(a
0
, e
0
, E
j
)
_
P(E
j
[ e, D
i
)
_
P(D
i
[ e)
=
i
_
m ax
a
j
_
u(a, e
0
, E
j
) u(a
0
, e
0
, E
j
)
_
P(E
j
[ e, D
i
)
_
P(D
i
[ e) c(e)
j
_
m ax
a
u(a, e
0
, E
j
) u(a
0
, e
0
, E
j
)
_
P(E
j
D
i
[ e) c(e)
j
l(a
0
, E
j
) P(E
j
[ a
0
)
__
i
P(D
i
[ E
j
, e)
_
c(e)
j
l(a
0
, E
j
) P(E
j
[ a
0
)
_
c(e)
v
(e
0
) c(e)
Ejemplo 11. Continuando con el Ejemplo 10 tendramos como e el experi-
mento de llevar a cabo el estudio y como e
0
el no llevarlo a cabo. Para evitar
conicto de notaci on lo que en el ejemplo anterior denotamos como c ahora
lo denotaremos k. Entonces:
u(e) = 0.968 k , u(e
0
) = 0.6
4.4. INFERENCIA E INFORMACI
ON 67
por lo que vale la pena llevar a cabo el experimento e siempre y cuando
u(e) > u(e
0
), es decir, siempre que k < 0.368. Los datos D
i
que se pueden
obtener est an en este caso representados por los eventos D
1
:= X = 1 y
D
2
:= X = 0 :
v(e, D
1
) = k , v(e, D
2
) = k 1.00776
y como c(e) = k entonces:
v(e) = k 1.00776 0.9 k = v
(e
0
) c(e)
4.4. Inferencia e informacion
En las secciones previas hemos visto que para resolver un problema de
decisi on (c, (, /, _) requerimos de una funcion de utilidad u : ( R y de
una medida de probabilidad P sobre c, y aplicamos el criterio de la utili-
dad esperada m axima sobre el conjunto de acciones /. En esta seccion nos
concentraremos en algunos aspectos sobre la asignacion de dicha medida de
probabilidad.
La medida de probabilidad P se asigna de acuerdo al estado de informa-
ci on que en un momento dado tiene un individuo (o grupo de individuos).
Dado un estado inicial de informacion M
0
, las probabilidades que se asignen a
los distintos eventos de c son probabilidades condicionales en dicha informa-
ci on inicial (o probabilidades a priori) y en estricto sentido debieramos deno-
tarlas P( [ M
0
) aunque por simplicidad se suele omitir el condicionamiento
y lo denotamos simplemente P( ). Despues de ese momento inicial puede el
individuo (o grupo de individuos) recibir informaci on adicional (por ejemplo,
resultados de un nuevo experimento, encuesta, etc.) misma que denotamos
como un evento G. Esto nos lleva inmediatamente a actualizar la medida de
probabilidad P( ) a una medida de probabilidad P
1
( ) := P( [ G). Nor-
malmente dicha informacion adicional G corresponde a datos recolectados
en relacion con el fenomeno aleatorio de interes y en tal caso denotaremos
dicha informaci on como D y por tanto la medida de probabilidad inicial
quedar a actualizada a una medida de probabilidad P( [ D), que equivale a
lo que en el Captulo 2 denimos como probabilidad a posteriori.
La utilidad esperada de cada acci on (y por tanto la utilidad esperada
m axima) depende tanto de la funci on de utilidad sobre ( como de la medida
68 CAP
IA DE LA DECISI
ON
de probabilidad que se utilice y por ello analizaremos el conjunto de medi-
das de probabilidad que se pueden asignar y el problema de escoger una en
particular como un problema de decision.
4.15. Denici on. Sea el espacio de estados (relevantes) := E
j
: j J.
Denimos como la clase de distribuciones condicionales sobre :
Q := q (q
j
, j J) : q
j
0,
jJ
q
j
= 1 .
Si supieramos de antemano que el evento E
j
va a ocurrir (informacion
perfecta) la distribuci on de probabilidad ideal sobre el espacio de estados
sera q
(q
j
= 1
{j=j
}
). No siempre es posible tener informaci on perfecta
ni tampoco garanta de que una determinada distribucion de probabilidad
q que elijamos sea la m as adecuada. Supongamos por un momento que la
distribuci on de probabilidad correcta sobre la denotamos por:
p
_
p
j
= P(E
j
[ D) : j J, p
j
> 0,
jJ
p
j
= 1
_
N otese que en la denicion de p tenemos la condicion estricta p
j
> 0.
Esto es, pediremos que los elementos del espacio de eventos relevantes tengan
medida de probabilidad distinta de cero.
Consideremos el problema de decisi on (c, (, /, _) en donde / := Q y el
espacio de estados relevantes es := E
j
: j J y por tanto el conjunto de
consecuencias esta dado por ( = Q. S olo nos falta denir una funci on de
utilidad u sobre ( que describa el valor u(q, E
j
) de utilizar la distribucion
de probabilidad q bajo la ocurrencia del evento E
j
. De c omo denir tal
funci on de utilidad nos ocuparemos a continuacion, y a este tipo particular
de funciones se les conoce como funciones de puntaje (score functions, en
ingles).
4.16. Denicion. Una funcion de puntaje para una familia de distribu-
ciones de probabilidad Q := q = (q
j
: j J) denidas sobre una partici on
:= E
j
, j J es una funci on u : Q R. Se dice que esta funcion es
suave si es continuamente diferenciable como funci on de cada q
j
.
Esta condicion de suavidad resulta deseable en tanto que esperaramos
que cambios peque nos en alg un q
j
produzca cambios peque nos en el puntaje
asignado por u.
ON 69
Y nuevamente la elecci on optima de entre los elementos de Q ser a aquella
q
tal que:
u(q
) = max
qQ
u(q)
en donde
u(q) =
jJ
u(q, E
j
) P(E
j
[ D)
Una caracterstica razonable que debe tener una funcion de puntaje u es
que q
= p en donde, recordemos, p (p
j
: j J) tal que p
j
:= P(E
j
[ D) :
4.17. Denicion. Una funci on de puntaje u es propia si para cada dis-
tribuci on de probabilidad p (p
j
: j J) denida sobre una partici on
:= E
j
: j J se cumple:
sup
qQ
_
jJ
u(q, E
j
)p
j
_
=
jJ
u(p, E
j
)p
j
en donde el supremo se alcanza s olo si q = p.
Entre las aplicaciones que tienen las funciones de puntaje propias se en-
cuentra el pago de premios justos a meteor ologos o analistas nancieros
por sus predicciones, en donde sus predicciones suelen ser asignaciones de
probabilidades para distintos escenarios posibles, mas que una predicci on de
que escenario va a ocurrir exactamente. Tambien est a el caso de ex amenes
de opcion m ultiple. El metodo tradicional de evaluaci on de estos examenes
suele ser binario (acert o o no acerto); sin embargo, ante un acierto existe la
posibilidad de que le haya atinado a pesar de desconcer la respuesta correcta,
y tambien el que no haya acertado no implica que el conocimiento respecto
a dicha pregunta sea completamente nulo. Utilizando funciones de puntaje
se puede solicitar a quien responde el examen que, en vez de escoger una de
las opciones, asigne una distribuci on de probabilidad para cada una de las
opciones. Si est a completamente seguro acerca de la respuesta puede asignar
probabilidad 1 a la misma y cero al resto de las opciones; si esta indeciso
entre dos de las opciones puede asignar toda la masa de probabilidades en
ellas para expresarlo. Esto nos da un panorama mas amplio acerca de lo que
sabe quien presenta un examen de opcion m ultiple. La funci on de puntaje
se dise na de modo que quien no tenga idea de la respuesta le resulte m as
conveniente confesarlo va la asignacion de una distribucion de probabilidad
uniforme discreta que intentar simular que sabe. Un ejemplo de funcion de
puntaje propia es el siguiente:
70 CAP
IA DE LA DECISI
ON
4.18. Denicion. Una funcion de puntaje cuadratica para las distribuciones
q (q
j
: j J) denidas sobre una particion E
j
: j J es cualquier
funci on de la forma
u(q, E
j
) = A
_
2q
j
iJ
q
2
i
_
+B
j
, A > 0
o alternativamente
u(q, E
j
) = A
_
1
iJ
(q
i
1
{i=j}
)
2
+B
j
_
, A > 0
en donde (q
i
1
{i=j}
)
2
representa una penalizacion. Es inmediato vericar
que ambas expresiones son equivalentes.
4.19. Proposicion. Una funcion de puntaje cuadratica es propia.
Demostracion. Sea la funci on:
f(q) f(q
1
, . . . , q
m
) :=
jJ
u(q, E
j
)p
j
Como u es funcion de puntaje cuadr atica entonces
f(q) =
jJ
_
A
_
2q
j
iJ
q
2
i
_
+B
j
_
p
j
, A > 0
Calculando las parciales de f :
q
k
f(q) =

q
k
_
_
A
_
2q
k
iJ
q
2
i
_
+B
k
_
p
k
+
jJ,j=k
_
A
_
2q
j
iJ
q
2
i
_
+B
j
_
p
j
_
=
_
A(2 2q
k
)
_
p
k
+
jJ,j=k
_
A(2q
k
)
_
p
j
= 2A(1 q
k
)p
k
2Aq
k
jJ,j=k
p
j
= 2Ap
k
2Aq
k
p
k
2Aq
k
jJ,j=k
p
j
= 2Ap
k
2Aq
k
jJ
p
j
= 2A(p
k
q
k
)
ON 71
Por lo que
q
k
f(q) = 0 p
k
= q
k
, k = 1, . . . , m
Adem as
2
q
2
k
f(q) = 2A < 0
lo que implica que f(q) alcanza un maximo si y s olo si q = p y por lo tanto
la funcion de puntaje cuadr atica es propia.
Ejemplo 12. Mencionamos ya que una de las aplicaciones de las funciones de
puntaje es el caso de ex amenes de opcion m ultiple. En la forma tradicional de
evaluar las respuestas de este tipo de ex amenes (correcta o incorrecta) no se
puede evitar dos problemas: primero, la deshonestidad de un estudiante que
sin saber la respuesta escoge una al azar y le atina; segundo, una respuesta
incorrecta no implica ausencia total de conocimiento (por ejemplo, de entre
5 respuestas posibles quizas le quedaba claro que tres de ellas no eran la
respuesta correcta). Las funciones de puntaje propias nos permiten forzar al
estudiante a ser honesto as como reconocer grados parciales de conocimiento.
Una forma de resolver este problema es pedirle al estudiante que pro-
porcione una distribuci on de probabilidad sobre las posibles respuestas que
describa lo que piensa acerca de la respuesta correcta. Desde el punto de
vista del estudiante, contestar la pregunta es un problema de decisi on donde
el conjunto de acciones es ahora la clase:
Q := q (q
1
, . . . , q
m
) : q
j
0,
q
j
= 1
de distribuciones de probabilidad sobre el conjunto E
1
, . . . , E
m
de respues-
tas posibles. En este caso la utilidad esperada puede ser denida de acuerdo
a la calicaci on que se espera obtener:
u(q) =
m
j=1
u(q, E
j
) p
j
en donde u(q, E
j
) es la calicaci on otorgada a un estudiante que reporta
la distribucion q cuando la respuesta correcta es E
j
y p
j
es la probabilidad
personal que el estudiante asigna al evento de que la respuesta correcta sea E
j
.
Notemos que, en principio, no hay razon para suponer que la distribuci on q
72 CAP
IA DE LA DECISI
ON
reportada por el estudiante como su respuesta es la misma que la distribuci on
p que describe en realidad su conocimiento (es decir, el estudiante puede ser
tambien deshonesto al contestar bajo este esquema).
Por su parte, el maestro esta interesado en garantizar la honestidad del
estudiante y para ello escoge una funcion de utilidad propia de modo que la
utilidad esperada del estudiante se maximice si y s olo si q = p, y con ello
el estudiante se autoperjudica si es deshonesto. Como ya vimos, la funcion
de utilidad cuadratica es propia, y para determinar las constantes A y B
j
establecemos condiciones adicionales. Por ejemplo, supongamos que se decide
otorgar un punto si la distribuci on q asigna probabilidad 1 a la respuesta
correcta, y cero puntos a la distribuci on uniforme q
j
=
1
m
(la cual describe
ausencia de conocimiento). Esto nos lleva al sistema de ecuaciones:
A +B
j
= 1
A
m
+B
j
= 0
de donde A =
m
m1
y B
j
=
1
m1
y por lo tanto:
u(q, E
j
) =
m
m1
_
2q
j
i=1
q
2
i
_
1
m1
Notemos adem as que esta funci on asigna valores negativos a distribuciones
que asignen probabilidades altas a respuestas incorrectas. En particular, un
estudiante que asigne probabilidad 1 a una respuesta incorrecta tendra un
descuento de
m+1
m1
puntos en su calicaci on, lo que implica que le resulte
mejor, en promedio, en caso de desconocer por completo la respuesta correcta,
admitir honestamente su ignorancia que intentar atinarle. Y por otro lado,
si tenemos un estudiante que a pesar de no estar seguro de la respuesta
correcta le queda claro que m2 de las opciones deben descartarse y asigna
probabilidad
1
2
a dos opciones, una de las cuales es la correcta, entonces
obtiene al menos
m2
2(m1)
puntos, cantidad menor a uno pero positiva en caso
de que m > 2 .
Para otro tipo de aplicaciones, un conjunto particularmente importante
de funciones de puntaje son aquellas que dependen unicamente del evento
que nalmente ocurre, esto es, de la probabilidad que la distribucion q haya
asignado a dicho evento, y de ah el adjetivo de local :
ON 73
4.20. Denicion. Una funci on de puntaje u es local si para cada q Q
denida sobre la particion E
j
: j J existen funciones u
j
( ) : j J
tales que u(q, E
j
) = u
j
(q
j
) .
Este caso particular de funciones de puntaje es importante ya que una
vez que se observe el evento que ocurre es respecto a este que se comparan las
inferencias o predicciones acerca de lo que iba a ocurrir, y por ello resultan
adecuadas para la inferencia estadstica. Lo que sigue es caracterizar este tipo
de funciones:
4.21. Proposici on. Si u es una funcion de puntaje suave, propia y local
para una clase de distribuciones q Q denidas sobre una particion E
j
:
j J que contiene mas de dos elementos, entonces tiene que ser de la
forma u(q, E
j
) = Alog q
j
+ B
j
en donde A > 0 y donde B
j
: j J son
constantes arbitrarias.
Demostracion. Como u( ) es local y propia, entonces para algunas u
j
( ) :
j J se tiene que
sup
q
jJ
u(q, E
j
)p
j
= sup
q
u
j
(q
j
)p
j
=
jJ
u
j
(p
j
)p
j
,
en donde p
j
> 0,
j
p
j
= 1, y el supremo se toma sobre la clase de distribu-
ciones q (q
j
: j J) tales que q
j
0 y
j
q
j
= 1 .
Denotando p (p
1
, p
2
, . . .) y q (q
1
, q
2
, . . .) en donde
p
1
= 1
j>1
p
j
, q
1
= 1
j>1
q
j
,
caracterizamos las funciones u
j
( ) : j J buscando un punto extremo de:
F(q
2
, q
3
, . . .) :=
_
1
j>1
p
j
_
u
1
_
1
j>1
q
j
_
+
j>1
p
j
u
j
(q
j
)
Para que F sea estacionaria en alg un punto (q
2
, q
3
, . . .) es necesario (ver
Jereys y Jereys (1946), p.315) que
F(q
2
+
2
, q
3
+
3
, . . .)
=0
= 0
74 CAP
IA DE LA DECISI
ON
para cualquier := (
2
,
3
, . . .) tal que las
j
son sucientemente peque nas.
Calculando dicha derivada obtenemos:
j>1
_
_
1
i>1
p
i
_
u
1
_
1
j>1
q
j
_
_
j
= 0
para
j
sucientemente peque nas y en donde u
es la derivada de u. Como u
es propia entonces (p
2
, p
3
, . . .) debe ser un punto extremo de F y obtenemos
as el sistema de ecuaciones:
p
1
u
1
(p
1
) = p
j
u
j
(p
j
) , j = 1, 2, . . .
para todos los valores p
2
, p
3
, . . . lo que implica que, para una constante A:
p u
j
(p) = A, 0 < p 1 , j = 1, 2, . . .
de donde u
j
(p) = Alog p +B
j
. La condici on de que A > 0 es suciente para
garantizar que tal punto extremo es, en efecto, un maximo.
4.22. Denici on. Una funcion de puntaje logartmica para distribuciones
de probabilidad estrictamente positivas q (q
j
: j J) denidas sobre una
partici on E
j
: j J es cualquier funcion de la forma:
u(q, E
j
) = Alog q
j
+B
j
, A > 0 .
A continuaci on veremos la aplicacion de este tipo de funciones de puntaje
para aproximar, por ejemplo, una distribucion de probabilidad p por medio
de otra q, o bien medir de alg un modo que tanto se aproxima una a la otra:
4.23. Proposici on. Si nuestras preferencias estan descritas por una fun-
cion de puntaje logartimica, la perdida esperada de utilidad al usar una dis-
tribucion de probabilidad q (q
j
: j J) denida sobre una particion
E
j
: j J en lugar de la distribucion p (p
j
: j J) que representa lo
que realmente creemos, esta dada por:
(q[ p) = A
jJ
p
j
log
p
j
q
j
, A > 0 .
Mas a un, (q[ p) 0 con igualdad si y solo si q = p.
ON 75
Demostracion. Utilizando la Denici on 4.22 tenemos que la utilidad esperada
de usar la distribuci on q cuando p es la correcta es:
u =
jJ
_
Alog p
j
+b
j
_
p
j
por lo que
(q[ p) = u(p) u(q)
=
jJ
_
_
Alog p
j
+B
j
_
_
Alog q
j
+B
j
_
_
p
j
= A
jJ
p
j
log
p
j
q
j
Como la funcion de puntaje es logartmica y por tanto propia entonces por
la Proposici on 4.21 tenemos que u(p) u(q) con igualdad si y s olo si p = q.
O bien, utilizando el hecho de que 1 + x e
x
de donde x e
x1
y si x > 0
entonces log x x 1 con igualdad si x = 1 :
(q[ p) =
jJ
p
j
log
q
j
p
j
jJ
p
j
_
q
j
p
j
1
_
=
j
q
j
j
p
j
= 1 1 = 0
con igualdad si y solo si q
j
= p
j
para todo j .
Una aplicaci on inmediata de lo anterior es en el caso de que se desee
aproximar una distribucion por medio de otra:
4.24. Denicion. La discrepancia logartmica entre una distribuci on de
probabilidad estrictamente positiva p (p
j
: j J) sobre una partici on
E
j
: j J y una aproximacion p ( p
j
: j J) esta denida por:
( p[ p) :=
jJ
p
j
log
p
j
p
j
.
Es inmediato notar que la discrepancia logartmica no es una metrica,
comenzando por que no es simetrica. Se puede hacer simetrica mediante:
q, p := (q[ p) +(p[ q)
pero a un as no es metrica ya que no cumple la desigualdad del triangulo.
76 CAP
IA DE LA DECISI
ON
Ejemplo 13. Conocido resultado de probabilidad es que, bajo ciertas condi-
ciones, se puede obtener una buena aproximaci on del modelo binomial por
medio del modelo Poisson:
p
j
=
_
n
j
_
j
(1 )
nj
1
{0,1,...,n}
(j)
p
j
= exp(n)
(n)
j
j!
1
{0,1,...}
(j)
de donde
( p[ p) =
n
k=2
log k +n
_
(1 ) log(1 ) +(1 log n)
(n, )
en donde
(n, ) := E
p
_
log
_
(n X) !
_
, X p
=
n
n
k=2
log(k !)
_
n
k
_
_
1
1
_
k
Tenemos que 0 conforme n y/o 0, es decir, la aproximaci on
es buena para valores grandes de n y/o valores de cercanos a cero.
Y en general, sea p una distribuci on de probabilidad y sea Q una fa-
milia de distribuciones de probabilidad para aproximar p. Bajo discrepancia
logartmica, la mejor aproximacion de p ser a aquella q
Q tal que:
(q
[ p) = mn
{ qQ}
(q[ p) .
En el Captulo 2 y en el presente hemos visto que la probabilidad a priori
P( ) sobre un espacio de estados relevantes se actualiza con la recolecci on de
datos D va la regla de Bayes a una medida de probabilidad P( [ D). Tambien
hemos visto que en un contexto de inferencia estadstica, por ejemplo, la
funci on de puntaje logartmica resulta adecuada. Esto permitir a calcular la
utilidad esperada de recolectar los datos D:
ON 77
4.25. Proposici on. Si nuestras preferencias estan descritas en terminos
de una funcion de puntaje logartmica sobre la clase de distribuciones de
probabilidad denidas en una particion E
j
: j J, entonces el incremento
esperado en utilidad proveniente de los datos D, cuando la distribucion de
probabilidad a priori P(E
j
) : j J es estrictamente positiva, esta dado
por
A
jJ
P(E
j
[ D) log
P(E
j
[ D)
P(E
j
)
en donde A > 0 es arbitraria y P(E
j
[ D) : j J es la probabilidad a
posteriori dados los datos D. Mas a un, este incremento esperado en utilidad
es no negativo, y es cero si y solo si P(E
j
[ D) = P(E
j
) para todo j .
Demostracion. Por la Denici on 4.22 tenemos que la utilidad de reportar las
distribuciones de probabilidad P( ) y P( [ D), bajo el supuesto de que ocurra
el evento E
j
, est an dadas por Alog P(E
j
) +B
j
y Alog P(E
j
[ D) +B
j
, respec-
tivamente. De este modo, el incremento esperado en utilidad proveniente de
los datos D est a dado por
jJ
_
_
Alog P(E
j
[ D) +B
j
_
_
Alog P(E
j
) +B
j
_
_
P(E
j
[ D)
= A
jJ
P(E
j
[ D) log
P(E
j
[ D)
P(E
j
)
,
cantidad que, por la Proposici on 4.23, es no negativa, y cero si y solo si
P(E
j
[ D) = P(E
j
) para todo j .
Lo anterior motiva la siguiente denici on:
4.26. Denicion. La cantidad de informacion de los datos acerca de una
partici on E
j
: j J proveniente de los datos D cuando la distribucion a
priori sobre dicha partici on es p
0
:= P(E
j
) : j J se dene como:
I(D[ p
0
) :=
jJ
P(E
j
[ D) log
P(E
j
[ D)
P(E
j
)
en donde P(E
j
[ D) : j J es la distribucion de probabilidad condicional
dados los datos D.
78 CAP
IA DE LA DECISI
ON
Equivalentemente y de acuerdo a la Denicion 4.24 la cantidad de in-
formaci on de los datos D es (p
0
[ p
D
), esto es la discrepancia logartmica
considerando a p
0
como una aproximaci on de la distribuci on de probabilidad
p
D
:=
_
P(E
j
[ D) : j J
_
.
Lo anterior nos permite calcular la cantidad esperada de informaci on de
un experimento e antes de que los resultados del mismo sean conocidos:
4.27. Denici on. La informacion esperada de un experimento e sobre una
partici on E
j
: j J con distribuci on a priori p
0
:= P(E
j
) : j J
est a dada por:
I(e [ p
0
) :=
i
I(D
i
[ p
0
) P(D
i
)
en donde los posibles resultados del experimento e, denotados por D
i
,
ocurren con probabilidades P(D
i
).
Ejemplo 14. Retomando el Ejemplo 1, tenemos como espacio de estados
relevantes E
0
, E
1
en donde E
0
representa el evento de que salga sol y E
1
el
evento de que salga aguila. Suponiendo que la moneda fue escogida al azar
(i.e. = 1) y de acuerdo a lo obtenido en el Ejemplo 1 tenemos que
P(E
j
) =
1
2
+

4
(1)
j+1
1
{0,1}
(j)
P(E
j
[ D) =
3
j
+ 2
4( + 1)
1
{0,1}
(j) =
1
4
_
3
j
+
1
+ 1
(1)
j
_
1
{0,1}
(j)
en donde
=
3
n
k=1
x
k
2
n
y con lo anterior obtenemos
I(D[ p
0
) =
1
4
_
_
1 +
1
+ 1
__
log 2 log 3 + log
_
1 +
1
+ 1
_
_
+
_
3
1
+ 1
__
log 2 log 5 + log
_
3
1
+ 1
_
_
_
En el Ejemplo 1 se vio que si el tama no de muestra n entonces ocurre
una de dos cosas: (lo cual implicara que =
3
4
) o bien 0 (lo
cual implicara que =
1
2
). En el primer caso obtenemos lm
n
I(D[ p
0
)
4.5. ACCIONES Y UTILIDADES GENERALIZADAS 79
es aproximadamente igual a 0.03537489 y en el segundo caso aproximada-
mente igual a 0.03226926. Resulta muy ilustrativo analizar gracamente el
comportamiento de I(D[ p
0
) para distintos valores de n y compararlo con el
comportamiento de p(x = 1 [ x), bajo ambos escenarios de comportamiento
asint otico de . (Sugerencia: simule muestras de tama no n 100). Ante la
pregunta de por que el supremo de I(D[ p
0
) es mayor cuando =
3
4
que con
=
1
2
, en este caso podemos contestar moment anea y parcialmente que la
informaci on de Fisher alcanza su mnimo justamente en =
1
2
(ver Ejemplo
4, Captulo 3). Por ultimo, para calcular la informaci on esperada de este ex-
perimento I(e [ p
0
) s olo falta calcular P(D
i
), que viene a ser en este caso la
distribuci on predictiva a priori conjunta de n observaciones:
p(x
1
, . . . , x
n
) =
_
p(x
1
, . . . , x
n
[ ) p() d
=
+ 1
2
n+1
No procederemos en este caso a calcular explcitamente I(e [ p
0
) porque s olo
estamos considerando un s olo tipo de experimento, y tendra sentido en tanto
se tuvieran distintos experimentos a realizar para la obtencion de datos, se
calculan sus informaciones esperadas respectivas y se selecciona aquel que
tenga la informacion esperada mayor.
4.5. Acciones y utilidades generalizadas
Para la aplicaci on de los resultados de teora de la decision a la inferencia
estadstica resulta necesario considerar conjuntos de acciones y espacios de
estados innito no numerables (como puede ser un subconjunto de R, por
ejemplo) as como permitir que c sea un - algebra. Para ello son necesarias
una serie de justicaciones formales que no analizaremos a detalle (para ello
ver Bernardo y Smith (1994)).
Consideremos un problema de decisi on (c, (, /, _) en donde / y el es-
pacio de estados son innito no numerables, c un - algebra. Tenemos en-
tonces que el conjunto de consecuencias ( es tambien innito no numerable.
Sea la funci on de utilidad u : ( R. Sea p() una funci on de densidad de
probabilidades sobre . Tenemos entonces que la acci on optima sera aquella
80 CAP
IA DE LA DECISI
ON
a
/ tal que:
u(a
) = max
aA
u(a) ,
en donde
u(a) :=
_
u(a, ) p() d .
Cabe aclarar que p() es una distribuci on de probabilidad condicional en
la informaci on que se tiene en un momento dado, esto es, puede tratarse
de una distribucion a priori o a posteriori, por ejemplo. Retomaremos los
conceptos de la secci on anterior pero para el caso que ahora nos ocupa.
4.28. Denicion. Sea un espacio de estados. Denimos como la clase de
distribuciones condicionales sobre :
Q := q() : q() 0,
_
q() d = 1
4.29. Denici on. Una funcion de puntaje para una familia de distribuciones
de probabilidad Q denidas sobre un espacio de estados es una funcion
u : Q R. Se dice que esta funcion es suave si es continuamente
diferenciable como funcion de .
4.30. Denici on. Una funci on de puntaje u es propia si para cada distribu-
ci on de probabilidad p() denida sobre se cumple:
sup
qQ
_
u(q, ) p() d =
_
u(p, ) p() d ,
en donde el supremo se alcanza si y solo si q = p casi seguramente, esto es,
excepto posiblemente sobre conjuntos de medida cero.
4.31. Denicion. Una funcion de puntaje cuadratica para la familia de
distribuciones de probabilidad Q denidas sobre es cualquier funci on de
la forma
u(q, ) = A
_
2 q()
_
q
2
(
) d
_
+B() , A > 0 ,
en donde la funci on B( ) es cualquiera mientras se garantice la existencia de
u(q) =
_
u(q, ) p() d .
4.32. Proposicion. Una funcion de puntaje cuadratica es propia.
Demostracion. Escogemos q Q de modo que se maximice
u(q) =
_
u(q, ) p() d
=
_
_
A
_
2q()
_
q
2
(
) d
_
+B()
_
p() d
=
_
_
2Ap()q() Ap()
_
q
2
(
) d
+B()p()
_
d ,
pero maximizar la expresi on anterior (respecto a q Q) equivale a maximizar
_
p() q()
2
d
ya que, como p y B son jas, entonces
_
p() q()
2
d =
_
_
p
2
() 2p()q() +q
2
()
d
=
1
A
_
_
2Ap()q() Ap
2
()
d
_
p()
_
q
2
(
) d
d
=
1
A
_
_
2Ap()q() Ap()
_
q
2
(
) d
Ap
2
()
d
y por lo tanto u(q) se maximiza sobre Q siempre y cuando q = p casi segu-
ramente.
4.33. Denicion. Una funci on de puntaje u es local si para cada q Q
existen funciones u
: tales que u(q, ) = u
_
q()
_
.
An alogamente al caso discreto, caracterizaremos las funciones de puntaje
local:
4.34. Proposicion. Si u : Q R es una funcion de puntaje local,
suave y propia, entonces debe ser de la forma
u(q, ) = Alog q() +B() ,
en donde A > 0 es una constante arbitraria y B( ) es cualquier funcion
siempre y cuando se garantice la existencia de u(q) .
82 CAP
IA DE LA DECISI
ON
Demostracion. Maximizamos respecto a q Q la utilidad esperada
u(q) =
_
u(q, ) p() d
sujeto a la condicion
_
q() d = 1 . Como u es local, lo anterior se reduce a

encontrar un punto extremo de
F(q) :=
_
_
q()
_
p() d A
_
_
q() d 1
_
.
Para que F sea estacionaria en alguna q Q es necesario que
F
_
q() +()
_

=0
= 0
para cualquier funcion : R con norma sucientemente peque na (ver
Jereys y Jereys (1946), Captulo 10). Esta condicion se reduce a la ecuaci on
diferencial
Du
_
q()
_
p() A = 0 ,
en donde Du
denota la primera derivada de u
. Como u
es propia entonces
el m aximo de F(q) debe alcanzarse cuando q = p por lo que una funcion de
puntaje local, suave y propia debe satisfacer la ecuacion diferencial
Du
_
p()
_
p() A = 0 ,
de donde se obtiene que u
_
p()
_
= Alog p() +B() .
4.35. Denicion. Una funcion de puntaje logartmica para las distribu-
ciones de probabilidad q Q denidas sobre es una funci on u : Q R
de la forma
u(q, ) = Alog q() +B() ,
En donde A > 0 es una constante arbitraria y B( ) es cualquier funci on que
garantice la existencia de u(q) para todo q Q.
4.36. Proposici on. Si nuestras preferencias estan descritas por una funcion
de puntaje logartmica, la perdida esperada de utilidad al usar una densidad
de probabilidades q en vez de p esta dada por:
(q [ p) = A
_
p() log
p()
q()
d .
Mas a un, (q [ p) 0 con igualdad si y solo si q = p casi seguramente.
Demostracion. An aloga a la del caso discreto.
4.37. Denici on. La discrepancia logartmica de una densidad de proba-
bilidades p estrictamente positiva sobre respecto a una aproximaci on p
est a denida por:
(p [ p) := A
_
p() log
p()
p()
d .
Ejemplo 15. Utilizando discrepancia logartmica, la mejor aproximacion
normal N(x [ , ) para cualquier variable aleatoria absolutamente continua
X que toma valores en todo R con funci on de densidad f
X
y con primeros
dos momentos nitos tales que E(X) = m y V(X) =
1
es aquella que
utiliza = m y = . (Recuerde que es la precision, que es el inverso de
la varianza). Los detalles se dejan como ejercicio.
4.38. Proposici on. Si nuestras preferencias estan descritas por una funcion
de puntaje logartmica para la clase de densidades de probabilidad p( [ x)
denidas sobre , entonces el incremento esperado en utilidad proveniente de
los datos x, cuando la densidad de probabilidades a priori es p(), esta dado
por
A
_
p( [ x) log
p( [ x)
p()
d ,
en donde p( [ x) es la densidad a posteriori de dado x, cantidad que resulta
ser no negativa, y cero si y solo si p( [ x) = p() .
Demostracion. An aloga a la del caso discreto.
4.39. Denici on. La cantidad de informacion de los datos acerca de
proveniente de los datos x cuando la distribuci on a priori es p() se dene
como:
I(x[ p()) :=
_
p( [ x) log
p( [ x)
p()
d ,
en donde p( [ x) es la distribuci on a posteriori correspondiente. Es decir,
I(x[ p()) := (p() [ p( [ x))
84 CAP
IA DE LA DECISI
ON
4.40. Denici on. La informacion esperada de un experimento e acerca de
cuando la distribuci on a priori es p() esta denida por:
I(e [ p()) :=
_
X
I(x[ p()) p(x[ e) dx
en donde p(x[ e) es la distribuci on de probabilidad sobre el conjunto A de
los resultados posibles del experimento.
EJERCICIOS
1. Una compa na debe decidir si acepta o rechaza un lote de artculos
(considere estas acciones como a
1
y a
2
, respectivamente). Los lotes
pueden ser de tres tipos: E
1
(muy bueno), E
2
(aceptable) y E
3
(malo).
La funcion de utilidad se presenta en la siguiente tabla:
u(a
i
,
j
) E
1
E
2
E
3
a
1
3 2 0
a
2
0 1 3
La compa na supone que los eventos E
1
, E
2
y E
3
son equiprobables.
a) Describe la estructura del problema de decision.
b) Determina las acciones admisibles.
c) Resuelve el problema de decisi on utilizando el criterio de la utili-
dad esperada m axima (Denicion 4.8).
d) Determina todas las distribuciones de probabilidad sobre el espa-
cio de estados tales que se obtiene la misma soluci on del inciso
anterior.
2. Un alumno tiene que presentar examen nal de un curso y le queda
poco tiempo para estudiar. Supongamos que / := a
1
, a
2
, a
3
donde:
a
1
:= Estudiar con detalle la primera parte del curso y nada de la segunda
a
2
:= Estudiar con detalle la segunda parte y nada de la primera
a
3
:= Estudiar con poco detalle todo el curso
Y supongamos que el espacio de estados es := E
1
, E
2
, E
3
donde:
E
1
:= El examen est a m as cargado hacia la primera parte
E
2
:= El examen est a m as cargado hacia la segunda parte
E
3
:= El examen est a equilibrado
Aunque no se se tiene una funci on de probabilidad sobre supongamos
que resulta razonable suponer que P(E
2
) > P(E
1
) y que P(E
2
) > P(E
3
).
86 CAP
IA DE LA DECISI
ON
Denimos ahora una funci on de utilidad sobre el conjunto de conse-
cuencias ( que de hecho ser a la calicaci on que podra el estudiante
obtener:
u(a
i
, E
j
) E
1
E
2
E
3
a
1
9 2 5
a
2
2 9 5
a
3
6 6 7
Verique que de acuerdo a las restricciones del problema la accion a
1
nunca tiene la posibilidad de ser la acci on optima y determine los con-
juntos de valores de P(E
1
), P(E
2
) y P(E
3
) para los cuales a
2
~ a
3
,
a
2
a
3
y a
2
a
3
.
3. Considere un problema de decisi on en donde el conjunto de acciones
/ y el espacio de estados tienen un n umero innito numerable de
elementos. Supongamos que / := a
0
, a
1
, a
2
, . . . y := E
1
, E
2
, . . .
y que la funci on de utilidad esta dada por la siguiente tabla:
u(a
i
, E
j
) E
1
E
2
E
3
E
4
E
5
. . .
a
0
1
2
1
2
1
2
1
2
1
2
. . .
a
1
1 0 0 0 0 . . .
a
2
1 1 0 0 0 . . .
a
3
1 1 1 0 0 . . .
a
4
1 1 1 1 0 . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Demuestre que la unica accion admisible es a
0
y que a
0
no satisface el
criterio de la utilidad esperada m axima, sea cual sea la distribucion de
probabilidad sobre .
4. Considere el siguiente problema de decisi on. En un juego, se tiene un
conjunto de 9 cartas que contiene: 2 Ases, 3 Reyes y 4 Sotas. Al jugador,
quien paga $150 por el derecho de jugar, se le entrega una carta al azar
y, una vez con esta carta en su poder, puede optar por pedir otra carta
o bien pasar. Si decide pasar, simplemente pierde su pago inicial. Si,
por el contrario, pide otra carta, las recompensas se pagan de acuerdo
a la siguiente tabla:
Cartas Recompensa
2 Ases o 2 Reyes +$2000
2 Sotas o 1 As y 1 Sota +$1000
otra combinaci on $1000
a) Describa la estructura del problema y obtenga la decisi on optima
para un jugador que ya pago su derecho de juego...
a.1) ... si resuelve decidir sin mirar la primera carta;
a.2) ... si resuelve decidir solo despues de observar la primera carta;
b) Es preferible mirar la primera carta antes de decidir si se pide
una segunda carta o resulta indiferente?
5. Verique los resultados del Ejemplo 13.
6. Del Ejemplo 14 simule y graque I(D[ p
0
) para distintos valores de
n y compare su comportamiento con el de p(x = 1 [ x) bajo los dos
escenarios posibles.
7. Demuestre que, utilizando discrepancia logartmica, la mejor aproxi-
maci on normal N(x [ , ) para cualquier variable aleatoria absoluta-
mente continua X que toma valores en todo R con funci on de densi-
dad f
X
y con primeros dos momentos nitos tales que E(X) = m y
V(X) =
1
es aquella que utiliza = m y = . (Recuerde que es
la precision, que es el inverso de la varianza.)
88 CAP
IA DE LA DECISI
ON
Captulo 5
Inferencia estadstica
parametrica bayesiana
El objetivo de haber revisado en el captulo anterior algunos conceptos
y resultados importantes de teora de la decisi on es justamente resolver pro-
blemas de inferencia estadstica como problemas de decisi on. En cada caso
supondremos que se tiene un fen omeno aleatorio de interes que se modela
mediante un vector (o variable) aleatorio X cuya distribuci on de probabi-
lidad pertenece a una familia parametrica T := p(x [ ) : y que
se cuenta con una distribuci on de probabilidad sobre el espacio parametrico
, ya sea a priori o a posteriori, denotadas p() o p( [ x), respectivamente.
Utilizaremos p() en el entendido de que puede tratarse de cualquiera de las
dos anteriores, salvo especicacion en contrario. De igual modo utilizaremos
indistintamente la distribuciones predictiva a priori p(x) y la distribuci on
predictiva a posteriori p(x [ x) .
5.1. Estimaci on puntual
El problema de la estimacion puntual se plantea como un problema de
decisi on (c, (, /, _) en donde el espacio de estados es justamente el espacio
parametrico y el conjunto de acciones es tambien / = , en el sentido
de que habremos de tomar la accion de escoger un valor particular para .
Para evitar confusi on, a los elementos de / los denotaremos mediante

. La
funci on de utilidad sera entonces una funcion u : R.
89
90CAP
ITULO5. INFERENCIAESTAD
ISTICAPARAM
ETRICABAYESIANA
5.1. Denici on. La estimacion puntual de respecto a la funci on de utilidad
u(
, ) y a una distribucion de probabilidad p() sobre es la acci on optima
/ = tal que
u(
) = max
u(
) ,
en donde
u(
) =
_
u(
, ) p() d =: E
_
u(
, )
.
Ejemplo 16. Supongamos que R y que escogemos la funci on de utilidad
cuadr atica u(
, ) := (
)
2
. Entonces
u(
) = E
_
u(
, )
= E
_
(
)
2
= E
_
(
() +E
() )
2
= E
_
(
())
2
2 E
_
(
())(E
() )
_
( E
())
2
en donde el segundo termino es cero y el tercero es la varianza de por lo

que
u(
) =
_
_
()
2
+V
()
_
.
El estimador puntual de es

/ = tal que
u(
) = m ax
_
_
()
2
+V
()
_
_
= mn

_
_
()
2
+V
()
_
de donde se obtiene que
= E
() =
_
p() d ,
siempre y cuando dicha esperanza exista, por supuesto.
Generalizando el ejemplo anterior al caso en que R
k
, si se tiene como
funci on de utilidad la forma cuadr atica
u(
, ) = (
)
T
H(
)
5.1. ESTIMACI
ON PUNTUAL 91
entonces
u(
) =
_
)
T
H(
) p() d .
Derivando u(
) respecto a

e igualando a cero obtenemos
2H
_
) p() d = 0
de donde H
= H E
() . Si H
1
existe entonces
= E
() =
_
p() d ,
siempre y cuando dicha esperanza exista, por supuesto. Notese que lo ante-
rior, mas que un ejemplo, es un resultado de caracter general.
El resultado es an alogo si lo que se desea es estimar puntualmente una
observacion futura de X , misma que denotaremos x
. En este caso el espacio

de estados es RanX (el conjunto de todos los valores posibles de X) y por
lo tanto la estimaci on puntual de una observaci on futura de X respecto a la
funci on de utilidad u( x, x) y a una distribucion predictiva p(x) es la accion
optima x
RanX tal que

u( x
) = m ax
x RanX
u( x) ,
en donde
u( x) =
_
RanX
u( x, x) p(x) dx =: E
p(x)
_
u( x, x)
.
Y nuevamente, si la funci on de utilidad es la de el ejemplo anterior en-
tonces:
x
=
_
RanX
x p(x) dx .
Ejemplo 17. Nos remitimos al Ejercicio 3 del Captulo 3, pero aqu supon-
dremos que de acuerdo al responsable de la caseta en el mayor de los casos
el n umero promedio de autos por minuto es 8 (y no 12). De acuerdo a un
procedimiento similar al que se utiliza para resolver dicho ejercicio se obtiene
como distribuci on a priori para una distribuci on Gamma con hiperpara-
metros = 9.108 y = 0.01012 y por tanto la distribuci on a posteriori de
es Gamma tambien:
p([ x) = Ga([ 9.108 +
x
j
, 0.01012 +n) .
92CAP
ISTICAPARAM
ETRICABAYESIANA
Suponiendo que como informaci on muestral tenemos x = (679 , 703) en-
tonces
p([ x) = Ga([ 1391.108 , 2.01012) .
Utilizando la funci on de utilidad del Ejemplo 16 obtenemos como estimaci on
puntual de :
=
1391.108
2.01012
= 692.05 .
5.2. Contraste de hip otesis
Supongamos que se tienen m hip otesis acerca del parametro (o vector de
par ametros) :
H
1
:
1
, H
2
:
2
, . . . , H
m
:
m
,
en donde los conjuntos
j
son subconjuntos del espacio parametrico . Pode-
mos suponer que los subconjuntos
j
son disjuntos. En caso de que no lo
fueren, los redinimos de modo que s lo sean. Por ejemplo, si
i

k
,=
denimos un nuevo subconjunto
j
:=
i
k
y redenimos
i
como
i
j
y a
k
como
k

j
, adem as de agregar la hip otesis H
j
:
j
.
En caso de que
m
j =1
j
,= denimos el subconjunto
m+1
:=
m
j =1
j
de modo que
j
: j = 1, . . . , m + 1 sea partici on de , adem as de agregar
la hipotesis H
m+1
:
m+1
.
Con base en lo anterior, supongamos entonces que los subconjuntos
1
, . . . ,
m
constituyen una partici on del espacio parametrico . El contraste de las
hip otesis H
1
, . . . , H
m
se plantea como un problema de decisi on que consiste
en escoger una de estas hip otesis. Denimos como espacio de estados
:= H
1
, . . . , H
m
,
y como medida de probabilidad P sobre utilizamos la distribucion a priori
o a posteriori (seg un sea el caso) de ya que
P(H
j
) = P(
j
) =
_
j
p( [ x) d .
5.2. CONTRASTE DE HIP
OTESIS 93
Consideremos el conjunto de acciones / := a
1
, . . . , a
m
en donde a
j
representa la acci on de actuar como si la hip otesis H
j
fuese a ocurrir. Si se
dene adem as una funcion de utilidad u : / R podemos entonces
resolver el problema de elegir una de las hipotesis como un problema de
decisi on simple: se elige aquella a
/ tal que
u(a
) = m ax
a
i
A
u(a
i
)
en donde
u(a
i
) =
m
j =1
u(a
i
, H
j
)P(H
j
) .
En caso de que se tengan hipotesis pero en relaci on a una observaci on
futura de la variable o vector aleatorio X p(x [ ) el procedimiento es
an alogo:
H
1
: X A
1
, . . . , H
m
: X A
m
,
en donde A = RanX y A
1
, . . . , A
m
es particion de A . Como medida
de probabilidad P sobre el espacio de estados utilizamos la distribucion
predictiva a priori o a posteriori (seg un sea el caso) ya que
P(H
j
) = P(X A
j
) =
_
X
j
p(x [ x) d .
Pero. . . que funci on de utilidad ocupar? Depender a de las caractersticas
de cada problema y de todo aquello que se desee sea tomado en consideraci on.
Por ejemplo, si utilizamos una funcion de utilidad muy simple como
u(a
i
, H
j
) := 1
{i =j}
obtenemos
u(a
i
) =
m
j =1
1
{i =j}
P(H
j
) = P(H
i
) =
_
i
p( [ x) d
y por lo tanto la soluci on optima ser a aquella a
/ tal que
u(a
) = max
j =1,...,m
P(H
j
) ,
94CAP
ISTICAPARAM
ETRICABAYESIANA
es decir, bajo esta funci on de utilidad la decisi on optima es escoger aquella
hip otesis que tenga la probabilidad mas alta de ocurrir. Dijimos que esta
funci on de utilidad es demasiado simple porque s olo toma en consideraci on la
probabilidad de cada hipotesis, sin tomar en cuenta aspectos de otra ndole
que pudiera ser de interes tomar tambien en consideraci on (por ejemplo,
consideraciones de tipo econ omico) como se ilustrara en el siguiente:
Ejemplo 18. Continuando con el Ejemplo 17 supongamos, de manera sim-
plicada, que de acuerdo a normas de la Secretara de Comunicaciones y
Transportes el n umero de cobradores que se deben de tener en dicha caseta
va de acuerdo al n umero de autos que llegan, y que en el caso particular de
los viernes de 5 a 8 p.m. resulta como sigue:
N um. de autos N um. de cobradores
0 a 690 5
691 a 750 10
m as de 750 15
El responsable de la caseta est a en libertad de contratar con anticipaci on al
n umero cobradores que considere pertinentes para cada viernes de acuerdo a
sus expectativas de aforo vehicular. Pero si sus expectativas se ven rebasadas
tendr a que contratar cobradores emergentes. Supongamos que un cobrador
contratado con anticipacion cuesta $300 pesos pero uno contratado de ulti-
ma hora (emergente) cuesta $700. De acuerdo a la informaci on que se tiene
(Ejemplo 17) el responsable de la caseta desea tomar una decision optima en
cuanto al n umero de cobradores a contratar con anticipaci on (5, 10 o 15).
Lo anterior se puede plantear como un contraste de hip otesis:
H
1
: X 0, 1, . . . , 690 , H
2
: X 691, . . . , 750 , H
3
: X 751, 752, . . . ,
en donde, recordemos, X representa el n umero de autos que llegan a la caseta.
Con la informaci on del Ejemplo 17 as como del Ejemplo 3 tenemos que la
distribuci on predictiva a posteriori es Poisson-Gamma:
p(x [ x) = Pg(x [ 1391.108, 2.01012, 1)
con lo que
P(H
1
) = 0.4849 , P(H
2
) = 0.4786 , P(H
3
) = 0.0365 .
5.3. ESTIMACI
ON POR REGIONES 95
S olo nos falta la funci on de utilidad, que en este caso est a implcita en las
condiciones mismas del problema:
P(H
j
) 0.4849 0.4786 0.0365
u(a
i
, H
j
) H
1
H
2
H
3
u(a
i
)
a
1
$1500 $5000 $8500 $3, 430.60
a
2
$3000 $3000 $6500 $3, 127.75
a
3
$4500 $4500 $4500 $4, 500.00
Por ejemplo u(a
2
, H
3
) = $6500 porque en este caso la acci on a
2
implica
contratar 10 cobradores con anticipaci on y si el escenario que ocurre nal-
mente es H
3
entonces esto implica contratar 5 cobradores emergentes y por
ello el desembolso total es de 10 $300 + 5 $700 = $6500 .
De acuerdo a lo anterior tenemos que la solucion optima es a
2
por tener la
m axima utilidad esperada. N otese que a
2
implica actuar como si H
2
fuese a
ocurrir, y H
2
no es precisamente la hipotesis que tiene la mayor probabilidad
de cumplirse. Esto es porque en este caso la funci on de utilidad tomo en
cuenta no solo las probabilidades de los escenarios sino tambien la intensidad
de sus consecuencias econ omicas.
5.3. Estimaci on por regiones
En ocasiones, la descripcion de la informaci on sobre (o bien sobre una
observacion futura de X) a traves de p( [ x) (o bien p(x [ x)) no resulta
accesible para cierto tipo de usuarios de la estadstica, a quienes resulta
preferible obtener regiones (subconjuntos) C (o bien C A = RanX)
que tengan una probabilidad dada de contener al valor correcto de (o de una
observacion futura de X). De la construcci on de estas regiones nos ocupamos
en esta secci on.
5.2. Denici on. Una region (o subconjunto) C tal que
_
C
p( [ x) d =
en donde 0 1 es llamada region de probabilidad para con respecto
a p( [ x) .
96CAP
ISTICAPARAM
ETRICABAYESIANA
N otese que C no es necesariamente un intervalo. La solucion para C en
la ecuacion
_
C
p( [ x) d = no es unica y por tanto podemos hablar del
conjunto de soluciones
/ := C :
_
C
p( [ x) d = ,
lo cual implica la necesidad de denir un criterio adicional para elegir una
regi on C adecuada. Esto se puede resolver como un problema de decisi on en
donde el conjunto / que acabamos de denir es el conjunto de acciones (es
decir, cada acci on es una de las distintas regiones que podemos elegir), el
espacio de estados es el espacio parametrico cuya medida de probabilidad
queda denida mediante p( [ x) . S olo nos hace falta una funci on de utilidad
que contenga ese criterio adicional, que puede ser, por ejemplo, el preferir
regiones C que tengan el menor tama no posible, mismo que denotaremos
|C|, pero que contengan al valor correcto de :
u(C, ) = k|C| +1
C
() , k > 0 .
Mediante esta funcion de utilidad obtenemos la utilidad esperada para cada
C / mediante
u(C) =
_
u(C, )p( [ x) d = k|C| +,

de donde es claro entonces que la region optima ser a aquella C
/ tal que
su tama no |C
| sea mnimo. A tal C
se le denomina region de probabilidad

de maxima densidad.
Ejemplo 19. Utilizaremos la informaci on del Ejemplo 17. Aunque ya dijimos
que las regiones que se pueden construir no son necesariamente intervalos,
supongamos en este caso que deseamos construir un intervalo de probabilidad
0.95 de m axima densidad para . Representemos dicho intervalo mediante
[
1
,
2
] . Entonces el problema consiste en encontrar los valores para
1
y
2
tal que P( [
1
,
2
]) = 0.95 y que la longitud del intervalo [
1
,
2
] sea
mnima. Esto es
minimizar: h(
1
,
2
) =
2
1
sujeto a:
_

2
1
Ga([ 1391.108 , 2.01012) d = 0.95 .
Resolviendo numericamente lo anterior obtenemos como solucion optima
el intervalo [ 655.88 , 728.6 ] .
5.3. ESTIMACI
ON POR REGIONES 97
EJERCICIOS
1. Obtenga el estimador puntual

R bajo las siguientes funciones

de utilidad:
a) u(
, ) = k[
[ con k < 0 una constante.

b) u(
, ) =
_
_
2
.
2. Respecto al Ejemplo 2 supongamos que de los 150 expedientes revisados
17 resultan incompletos. Obtenga estimaciones puntuales de bajo las
siguientes funciones de utilidad:
a) u(
, ) = (
)
2
.
b) u(
, ) = [
[ .
c) u(
, ) =
_
_
2
.
3. Una m aquina produce cierto componente que debe tener una longitud
especicada. Sea la variable aletoria X igual al margen de error en
dicha longitud y supongamos que se distribuye Normal con media cero
y precision > 0 desconocida. Suponga que no cuenta con informacion
a priori y que obtiene una muestra
x = (0.033, 0.002, 0.019, 0.013, 0.008, 0.0211, 0.009, 0.021, 0.015) .
Construya un intervalo de probabilidad 0.95 de maxima densidad para
el margen de error en la longitud de dicha componente.
98CAP
ISTICAPARAM
ETRICABAYESIANA
Bibliografa
Albert, J. (2007). Bayesian Computation with R, Springer.
Bayes, T. (1763). An Essay Towards Solving a Problem in the Doctrine of
Chances. Philos. Trans. Royal Soc. London 61.53, 370-418.
Bernardo, J.M. (1979). Reference posterior distributions for bayesian inference.
Journal of the Royal Statistical Society, Serie B 41, 113-147.
Bernardo, J.M. y Smith, A.F.M (1994). Bayesian Theory, Wiley.
Bernoulli, J. (1713). Ars Conjectandi, Baseae, Impensis Thurnisiorum.
Casella, G. y Berger, R.L. (2002). Statistical Inference, Duxbury.
Chen, M-H., Shao, Q-M., Ibrahim, J.G. (2000). Monte Carlo Methods in Bayesian
Computation, Springer.
Congdon, P. (2005). Bayesian Models for Categorical Data, Wiley.
Datta, G.S., Mukerjee, R. (2004). Probability Matching Priors: Higher Order
Asymptotics, Springer.
Gelman, A., Carlin, J.B., Stern, H.S., Rubin, D.B. (1995). Bayesian Data Anal-
ysis, Chapman & Hall.
Ghosh, J.K., Ramamoorthi, R.V. (2003). Bayesian Nonparametrics, Springer.
Gutierrez Pe na, E.A. (1995). Bayesian Topics Relating to the Exponential Fam-
ily, tesis doctoral, University of London.
Gutierrez Pe na, E.A. (1998). Analisis bayesiano de modelos jer arquicos lineales.
Monografas IIMAS-UNAM 7, N um. 16.
Jereys, H. (1939/1961). Theory of Probability, Oxford University Press.
Jereys, H. y Jereys, B.S (1946/1972). Methods of Mathematical Physics, Cam-
bridge University Press.
Kahneman, D., Tversky, A. (1979). Prospect Theory: An Analysis of Decision
under Risk. Econometrica 47, 263-292.
99
100 BIBLIOGRAF
IA
Laplace, P.S. (1774). Essai Philosophique sur les Probabilites, Dover (a partir
de la 6a edici on, 1951).
Le Cam, L. (1990). Maximum Likelihood: An Introduction. International Sta-
tistical Review 58, 153-171.
Lehmann, E.L. y Casella, G. (1998). Theory of Point Estimation, Springer.
Lindley, D.V. (2000). The Philosophy of Statistics. The Statistician 49, 293-337.
Lynch, S.M. (2007). Introduction to Applied Bayesian Statistics and Estimation
for Social Scientists, Springer.
Marin, J.M., Robert, C.P. (2007). Bayesian Core, Springer.
Migon, H.S y Gammerman, D. (1999). Statistical inference: an integrated ap-
proach, Oxford University Press.
Press, S.J. (2003). Subjective and Objective Bayesian Statistics: Principles, mod-
els, and applications, Wiley.
Press, S.J., Tanur, J.M. (2001). The Subjectivity of Scientists and the Bayesian
Approach, Wiley.
Rachev, S.T., Hsu, J.S.J., Bagasheva, B.S., Fabozzi, F.J. (2008). Bayesian meth-
ods in nance, Wiley.
Robert, C.P. (2007). The Bayesian Choice, 2nd edition, Springer.
Robert, C.P., Casella, G. (2004). Monte Carlo Statistical Methods, Springer.
Rossi, P.E., Allenby, G.M., McCulloch, R. (2005). Bayesian Statisics and Mar-
keting, Wiley.
Stigler, S.M. (1986a). The History of Statistics, Harvard University Press (Cam-
bridge).
Stigler, S.M. (1986b). Laplaces 1774 memoir on inverse probability. Statist. Sci.
1, 359-378.
West, M., Harrison, J. (1997). Bayesian Forecasting and Dynamic Models, Springer.
Wolpert, L. (1992). The Unnatural Nature of Science, Harvard University Press.

Notas Dr. Erdely PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Notas Dr. Erdely PDF

Uploaded by

Copyright:

Available Formats

Monografa de Estadstica Bayesiana

Dr. Arturo Erdely Ruiz

en donde cualquier medida de probabilidad que se dena sobre el espacio de

> (por ejemplo, alguna racha de ocurrencias sucesivas

ITULO 2. EL PARADIGMA BAYESIANO

es la probabilidad (o densidad) conjunta de la muestra

ITULO 2. EL PARADIGMA BAYESIANO

p(x [ )p( [ x) d (2.4)

ITULO 2. EL PARADIGMA BAYESIANO

ITULO 2. EL PARADIGMA BAYESIANO

ITULO 2. EL PARADIGMA BAYESIANO

ITULO 2. EL PARADIGMA BAYESIANO

ITULO 2. EL PARADIGMA BAYESIANO

(W(X)) sea una fun-

(W(X)) < , entonces se cumple que:

(W(X)) = (que en estadstica frecuentista se

en donde = () es la inversa de la transformaci on . Para obtener la

p(x [ ) dx (por las condiciones de regularidad)

y por lo tanto la distribucion a priori de Jereys es ()

ITULO 4. ELEMENTOS DE LA TEOR

ITULO 4. ELEMENTOS DE LA TEOR

ITULO 4. ELEMENTOS DE LA TEOR

, sera aquella que satisfaga:

no sea unica. En tal caso hablaramos entonces de el

/ y en tal caso diremos que somos

ITULO 4. ELEMENTOS DE LA TEOR

existe, de otro modo puede o no ocurrir as. Necesitamos

ITULO 4. ELEMENTOS DE LA TEOR

N otese como ahora la f ormula general para la utilidad esperada de una

y para encontrar el valor de a que maximiza w(a) resolvemos:

(a) = E(X) r 2aA

ITULO 4. ELEMENTOS DE LA TEOR

(a) < 0 entonces el valor de a que maximiza w(a), esto es el

Para analizar el resultado anterior denamos

= E(X) si, por ejemplo, X tiene distribuci on uniforme

y a mayor riesgo (varianza y asimetra) de ABC se

. Con la soluci on optima anterior se obtiene la

< 0, y a primera vista parece un sin sentido un porcentaje negativo de

> 100 % en cuyo caso tendremos un porcentaje negativo de inversi on a

e igualandola con la f ormula de la accion optima obtenemos

ITULO 4. ELEMENTOS DE LA TEOR

ITULO 4. ELEMENTOS DE LA TEOR

ITULO 4. ELEMENTOS DE LA TEOR

ITULO 4. ELEMENTOS DE LA TEOR

ITULO 4. ELEMENTOS DE LA TEOR

ITULO 4. ELEMENTOS DE LA TEOR

ITULO 4. ELEMENTOS DE LA TEOR

ITULO 4. ELEMENTOS DE LA TEOR

ITULO 4. ELEMENTOS DE LA TEOR

ITULO 4. ELEMENTOS DE LA TEOR

ITULO 4. ELEMENTOS DE LA TEOR

ITULO 4. ELEMENTOS DE LA TEOR

: tales que u(q, ) = u

ITULO 4. ELEMENTOS DE LA TEOR

q() d = 1 . Como u es local, lo anterior se reduce a

denota la primera derivada de u

ITULO 4. ELEMENTOS DE LA TEOR

ITULO 4. ELEMENTOS DE LA TEOR

ITULO 4. ELEMENTOS DE LA TEOR

, ) y a una distribucion de probabilidad p() sobre es la acci on optima

en donde el segundo termino es cero y el tercero es la varianza de por lo

. En este caso el espacio

RanX tal que