Professional Documents
Culture Documents
Resumen.
Con el apoyo en diversos libros en la materia que se enumeran al final de este trabajo
as como de referencias de pginas de internet, se desarrolla el tema de la Unidad 4.
Procesos Markovianos de Decisin de la asignatura Procesos Estocsticos que
forma parte del plan de estudios vigente de la Licenciatura en Matemticas Aplicadas y
Computacin de la Facultad de Estudios Superiores Acatln de la UNAM. El presente
documento supone que el lector est familiarizado con tpicos bsicos de programacin
lineal, as como conocimientos de las cadenas de Markov y sus propiedades
fundamentales temas que son abordados en los primeros unidades del temario de la
materia Procesos Estocsticos.
Contenido
pg.
Contenido
Introduccin
II
1
13
20
26
7 Conclusiones.
29
Fuentes de consulta
29
Mahil Herrera M
Procesos Markovianos de Decisin
1
________________________________________________________________________________
INTRODUCCIN
algoritmo de
Este material inicia con un ejemplo que nos servir para aplicar cada uno de los mtodos que
se vern y de esta manera explicar cada uno de ellos, esto para facilitar su comprensin.
Despus se irn explicando la aplicacin de algunos mtodos para la resolucin del problema,
para despus finalizar con aplicaciones del tema.
A continuacin tenemos un ejemplo para ver como se lleva a cabo el desarrollo de un proceso
de Markov.
Un fabricante tiene mquina clave en el ncleo de uno de sus procesos. Debido a que tiene un
uso pesado, la mquina se deteriora con rapidez tanto en calidad como en la cantidad de
produccin que obtienen. Por lo tanto, al final de cada mes, se realiza una inspeccin
exhaustiva cuyo resultado es la clasificacin de las condiciones de la mquina en uno de cuatro
estados posibles:
Tabla 1.1 Clasificacin de los estados
Estado
Condicin
0
1
2
3
Despus de recolectar datos histricos sobre los resultados de estas inspecciones, se hace un
anlisis estadstico de la evolucin del estado de la mquina de un mes a otro. La siguiente
matriz muestra la frecuencia relativa (probabilidad) de cada transicin posible del estado en el
que se encuentra en un mes (un rengln de la matriz) al estado en el que se encuentra al
siguiente mes (una columna de la matriz).
Estado
0
0
0
7
8
3
4
1
16
1
8
1
2
1
16
1
8
1
2
Mahil Herrera M
Procesos Markovianos de Decisin
3
________________________________________________________________________________
el proceso de produccin, por lo que la mquina debe reemplazarse. (La reparacin no es
factible en este estado). La nueva mquina comenzara entonces en el estado 0.
El proceso de reemplazo toma 1 mes de manera que la produccin se pierde durante este
periodo. El costo de la produccin perdida (ganancia perdida) es de $2.000 y el costo de
reemplazar la mquina es de $4.000, de manera que el costo total en el que se incurre siempre
que la mquina actual entra al estado 3 es de $6.000.
An antes de que la mquina llegue al estado 3, puede incurrirse en costos por producir
artculos defectuosos. Los costos esperados por mes por este concepto son:
Tabla 1.2 Costo esperado
por artculo defectuoso
Estado
0
1
2
Costo esperado
debido a artculos
defectuosos, $
0
1000
3000
Si incluimos el reemplazar la mquina, la evolucin del estado del sistema (la sucesin de
mquinas) todava es una cadena de Markov, pero ahora con la matriz de transicin siguiente:
Estado
0
0
0
7
8
3
4
1
16
1
8
1
2
1
16
1
8
1
2
Para evaluar esta poltica de mantenimiento, deben considerarse tanto los costos inmediatos en
que se incurre en el mes que sigue (descritos antes). Como los costos subsecuentes que
resultan cuando el sistema evoluciona de este modo.
Una medida de desempeo usada ampliamente para cadenas de Markov es el costo promedio
esperado por unidad de tiempo (a la larga). Para calcular esta medida, primero se derivan las
probabilidades de estado estable 0 , 1 , 2 y 3 para esta cadena de Markov con la solucin
del siguiente sistema de ecuaciones:
= P y con la condicin
( j ) = 1
j E
1 = 0 + 1,
0 =
2
7
2
2
, 1 = , 2 =
3 =
13
13
13
13
El costo promedio esperado (a la larga) por mes para esta poltica de mantenimiento es
25000
= 1923.07
13
Sin embargo, existen otras polticas de mantenimiento que deben considerarse y compararse
con est. Por ejemplo, quiz la mquina debiera reemplazarse antes de llegar al estado 3. Otra
alternativa es realizar una reparacin general a un costo de $2000. Esta opcin no es factible en
el estado 3 y no mejora la mquina si est en el estado 0 o el 1, y slo es de inters en el
estado 2. En este estado, una reparacin general regresara a la mquina al estado 1. Se
requiere un mes para ello, por lo que otra consecuencia sera un gasto de $2000 por las
ganancias perdidas al no producir.
Para facilitar la consulta, se resumen los costos relevantes de cada decisin para cada estado
en el que la decisin puede ser de inters.
Tabla 1.3 Datos de costos
Decisin
Estado
1. No hacer nada
0
1
Costo esperado
por
producir
artculos
defectuosos, $
0
1000
2
2
3000
0
0
2000
0
2000
3000
4000
1, 2, 3
4000
2000
6000
2. Reparacin general
Costo
de
mantenimiento,
$
Costo (ganancia
perdida)
por
produccin
perdida, $
0
0
0
0
Costo
total
por
mes, $
0
1000
3. Reemplazar
En resumen, las decisiones posibles despus de cada inspeccin son las siguientes:
Mahil Herrera M
Procesos Markovianos de Decisin
5
________________________________________________________________________________
Tabla 1.4 Clasificacin de decisiones
Decisin
1
2
Accin
No hacer nada
Reparacin general (el sistema regresa al estado 1)
Estados relevantes
0,1,2
2
1,2,3
Despus de cada inspeccin de la mquina, se elige entre tres decisiones posibles (no hacer
nada, reparacin general o reemplazo). El costo esperado inmediato que resulta se muestra en
la columna de la derecha de la tabla para cada combinacin relevante de estados y decisiones.
Con las cadenas de Markov se analiz una poltica especfica (d 0 , d1 , d 2 , d 3 ) = (1,1,1,3) , donde la
decisin 1 (no hacer nada) se toma en los estados 0, 1 y 2 y la decisin 3 (reemplazo) se toma
en el estado 3.
Estamos interesados en contestar la siguiente pregunta, Cul es la poltica de mantenimiento
ptima?, dicha pregunta se contestar por medio de los diversos mtodos que aqu se
proponen.
El modelo general califica como un proceso de decisin de Markov por que posee la propiedad
markoviana que caracteriza a estos procesos. En particular, dados el estado y la decisin
actuales, cualquier afirmacin probabilstica sobre el futuro del proceso es por completo
independiente de cualquier informacin proporcionada sobre la historia del proceso. Esta
propiedad se cumple aqu ya que:
1) Se trata de una cadena de Markov.
2) Las nuevas probabilidades de transicin dependen slo del estado y la decisin actuales.
3) El costo esperado inmediato tambin depende slo del estado y la decisin actuales.
La notacin que utilizaremos se puede resumir como sigue:
1. Se observa el estado i de una cadena de Markov de tiempo discreto despus de cada
transicin (i = 0,1,..., M )
5. Una especificacin de las decisiones para los estados respectivos (d 0 , d1 ,..., d M ) prescribe
una poltica para el proceso de decisin markoviano.
6. El objetivo es encontrar una poltica ptima de acuerdo con algn criterio de costo que
considere tanto los costos inmediatos como los subsecuentes que resulten de la evolucin
futura del proceso. Un criterio comn es minimizar el costo promedio esperado por unidad de
tiempo (a la larga).
La descripcin de una poltica implica dos propiedades convenientes (pero innecesarias) que se
supondrn:
1) Una propiedad es que una poltica es estacionaria; es decir, siempre que el sistema se
encuentre en el estado i . La regla para tomar la decisin siempre es la misma sin
importar el valor del tiempo actual t .
2) La segunda es que una poltica es determinstica; esto es, siempre que el sistema se
encuentre en el estado i , la regla para tomar la decisin es una decisin especfica.
Con este marco de referencia general en mente ahora se regresa al ejemplo para encontrar una
poltica ptima con la enumeracin y comparacin de todas las polticas relevantes.
Al hacer esto, se denotar por:
R a la poltica especfica
d i (R ) a la decisin correspondiente que debe tomarse en el estado i .
d 0 (R )
d1 ( R )
d 2 (R )
d 3 (R )
Ra
Reemplazo en el estado 3
Rb
Rc
Rd
Reemplazo en el estado 1, 2, 3
Poltica
Mahil Herrera M
Procesos Markovianos de Decisin
7
________________________________________________________________________________
Estado
Ra
0
0
7
8
3
4
1
16
1
8
1
2
1
16
1
8
1
2
Rc
Estado
0
0
0
2
3
1
1
Rb
Estado
7
8
3
4
1
16
1
8
1
16
1
8
Rd
Estado
7
8
3
4
1
16
1
8
1
16
1
8
0
0
0
0
0
0
7
8
1
16
1
16
2
3
1
1
0
0
0
0
0
0
A partir de la ltima columna de la tabla de los datos de costos, los valores de Cik son los
siguientes
Decisin
Estado
0
1
2
3
0
1
3
6
6
6
Se puede calcular el costo promedio esperado (a largo plazo) por unidad de tiempo, E (C ) , a
partir de la expresin
M
E (C ) = C ik i
i =0
segn cada una de las cuatro polticas el clculo de E (C ) se resume en la siguiente tabla.
Poltica
Ra
Rb
Rc
Rd
( 0 , 1 , 2 , 3 )
E (C ) en miles de dlares
2 7 2 2
, , ,
13 13 13 13
2 5 2 2
, , ,
21 7 21 21
1
25
= 1.923
2 ( 0 ) + 7 (1) + 2 ( 3 ) + 2 ( 6 ) =
13
13
2 7 1 1
, , ,
11 11 11 11
1 7 1 1
, , ,
2 16 32 32
1
19
2 ( 0 ) + 7 (1) + 1 ( 6 ) + 1 ( 6 ) = = 1.727
11
11
1
35
= 1.667
2 ( 0 ) + 15 (1) + 2 ( 4 ) + 2 ( 6 ) =
21
21
min
1
96
= 3.0
16 ( 0 ) + 14 ( 6 ) + 1 ( 6 ) + 1 ( 6 ) =
32
32
Decision k
1
0 D01
1 D11
Estado
......
M DM 1
2
D02
D12
......
DM 2
D0 k
D1k
,
....
DMk
Mahil Herrera M
Procesos Markovianos de Decisin
9
________________________________________________________________________________
Donde cada Dik ( i = 0,1,..., M
1
Dik =
0
Por lo tanto, cada rengln de la matriz debe contener un solo 1 y el resto de los elementos
deben ser 0. Por ejemplo, la poltica ptima Rb para el ejemplo prototipo se puede caracterizar
por la matriz.
Poltica ptima Rb
Decision k
1 2 3
0 1
1 1
Estado
2 0
3 0
0 0
0 0
,
1 0
0 1
Es decir, no hacer nada (decisin 1) cuando la mquina est en el estado 0 o 1, hacer una
reparacin general (decisin 2) en el estado 2 y reemplazar (decisin 3) en el estado 3.
La introduccin de Dik , proporciona una motivacin para formular un modelo de programacin
lineal. Se piensa que el costo esperado de una poltica se puede expresar como una funcin
lineal de la Dik o de alguna variable relacionada, sujeta a restricciones lineales.
Desafortunadamente., los valores de Dik . son enteros (0 o 1) y se requieren variables continuas
para la formulacin de programacin lineal. Este requisito se puede manejar si se ampla la
interpretacin de una poltica. La definicin previa dice que se tome la misma decisin cada vez
que el sistema se encuentre en el estado i . La nueva interpretacin de una poltica pedir la
determinacin de una distribucin de probabilidad para tomar la decisin cuando el sistema se
encuentre en el estado i .
Con esta nueva interpretacin, ahora necesitan redefinirse las Dik como
En otras palabras, dado que el sistema est en el estado i , la variable Dik es la probabilidad de
elegir la decisin k como la que debe tomarse. Entonces ( Di 1 , Di 2 ,...., DiK ) es la distribucin
de probabilidad para la decisin que deber tomarse en el estado i .
Este tipo de poltica que usa distribuciones de probabilidad se llama una poltica aleatorizada,
mientras que la poltica que dice que Dik = 0 o 1 recibe el nombre de poltica determinstica.
Las polticas aleatorizadas se pueden caracterizar de nuevo por la matriz
10
D01
D
11
......
DM 1
D02
D12
......
DM 2
D0 k
D1k
,
....
DMk
0 Dik 1
A manera de ilustracin, considere una poltica aleatorizada para el ejemplo prototipo dado por
la matriz
Decision k
1 2 3
1
0 1
1
Estado 12
2
3 4
0
0
0
1
4
0
0
1
2 ,
1
2
1
Esta poltica expresa que siempre se tome la decisin 1 (no hacer nada) cuando la mquina
est en el estado 0. Si se encuentra en el estado 1, se deja como est con probabilidad
1
y se
2
1
, de manera que puede lanzarse una moneda para elegir. Si se
2
1
encuentra en el estado 2, existe una probabilidad de
de que se deje como est, una
4
1
1
probabilidad de
de que se le haga una reparacin general y una de
de que se reemplace.
4
2
reemplaza con probabilidad
Mahil Herrera M
Procesos Markovianos de Decisin
11
________________________________________________________________________________
Para cada i = 0,1,... M
y ik = P {estado = i y decision = k}
Cada yik tiene una relacin cercana con la Dik correspondiente ya que, de las reglas de
probabilidad condicional, se tiene
yik = i Dik ,
Donde i , es la probabilidad de estado estable de que la cadena de Markov se encuentre en el
estado i . Lo que es ms
K
i = yik ,
k =1
de manera que
Dik =
yik
yik
K
y
k =1
ik
1)
i = 1 de manera que
i =0
ik
i = 0 k =1
=1
j = i pij
i =0
De manera que
K
k =1
3)
y k = 1, 2, ..., K
i = 0 k =1
12
Z = Cik yik ,
Minimizar
i = 0 k =1
(1)
y
i = 0 k =1
K
(2)
ik
=1
M
i = 0 k =1
y k = 1, 2,..., K
Dik =
yik
K
y
k =1
ik
La solucin ptima obtenida con el mtodo simplex tiene algunas propiedades interesantes.
Contendr M + 1 variables bsicas yik 0 . Se puede demostrar que yik > 0 al menos para
k = 1,2,..., K De donde se sigue que yik > 0 para slo una k por cada i = 0,1,..., M . . En
consecuencia, Dik = 0 o 1
La conclusin clave es que la poltica ptima encontrada con el mtodo smplex es
determinstica, y no aleatorizada. As, cuando se permite aleatorizar las polticas no se obtienen
ventajas en cuanto a mejorar la poltica final. Sin embargo, tiene un papel en extremo
importante en esta formulacin ya que convierte variables enteras (las Dik ) en variables
continuas para poder usar programacin lineal (PL).
yik de las combinaciones irrelevantes de estados y decisiones, de manera que estas yik = 0 en
una solucin ptima y es lo mismo si se eliminan desde el principio.)
Mahil Herrera M
Procesos Markovianos de Decisin
13
________________________________________________________________________________
La columna de la derecha de la tabla 1.3 da los coeficientes de estas variables en la funcin
objetivo. Las probabilidades de transicin pij (k ) para cada combinacin relevante del estado i
y la decisin k tambin se describen en la seccin anterior.
El modelo de programacin lineal que resulta es
Minimizar Z = 1000 y11 + 6000 y13 + 3000 y21 + 4000 y22 + 6000 y23 + 6000 y33 ,
Sujeta a
3
7
1
1
1
y21 + y22 + y23 y01 + y11 + y21 = 0
8
2
16
1
1
1
y33 y01 + y11 + y21 = 0
8
2
16
Todas las yik 0
Al aplicar el mtodo smplex se obtiene la solucin ptima:
2
,
21
( y11, y13 ) = 5 ,0
D01 = 1,
y01 =
De manera que
2
,0 ,
21
y33 =
2
,
21
D33 = 1,
Esta poltica dice que debe dejarse la mquina como est (decisin 1) cuando se encuentre en
el estado 0 o 1, debe hacerse una reparacin general (decisin 2) cuando est en el estado 2 y
debe reemplazarse (decisin 3) si est en el estado 3. sta es la misma poltica ptima
encontrada mediante la enumeracin exhaustiva.
14
Se dar ahora una justificacin heurstica de estas relaciones y una interpretacin para estos
valores.
Denote por vin (R ) costo total esperado de un sistema que inicia en el estado i (en el primer
periodo de observacin) y opera durante n periodos. Entonces, vin (R ) consiste en dos
componentes: Cik , el costo en el que se incurre durante el primer periodo de observacin y
M
ij
n
j
g ( R ) = i C ik
i =0
que es independiente del estado inicial i. Entonces, vin (R ) se comporta aproximadamente como
vin (R ) ng (R ) + vi (R )
Mahil Herrera M
Procesos Markovianos de Decisin
15
________________________________________________________________________________
donde la primera componente es independiente del estado inicial y la segunda depende de ese
estado. Entonces, vin (R ) se puede interpretar como el efecto sobre el costo total esperado
debido a que el proceso inicia en el estado i . En consecuencia,
vin (R ) v nj (R ) vi (R ) v j (R )
de manera que vin (R ) v j (R ) es una medida del efecto de comenzar en el estado i y no en el
estado j .
Cuando n crece suficiente, se puede sustituir
vin (R ) = ng (R ) + vi (R ) y v nj 1 (R ) = (n 1)g (R ) + v j (R )
en la ecuacin recursiva. Esto lleva al sistema de ecuaciones dado en el primer prrafo de esta
seccin.
Observe que este sistema tiene M + 1 ecuaciones con M + 2 incgnitas, por lo que se puede
seleccionar una de estas variables de manera arbitraria. Por convencin, se elegir v M (R ) igual
a cero. Por lo tanto, al resolver el sistema de ecuaciones lineales se puede obtener g (R ) el
costo promedio esperado a largo plazo, por unidad de tiempo si se sigue la poltica R . En
principio, se pueden enumerar todas las polticas y encontrar aquella que minimiza g (R ) . Sin
embargo, aun para un nmero moderado de estados y decisiones, esta tcnica es tediosa. Por
fortuna, existe un algoritmo que se puede usar para evaluar las polticas y encontrar la ptima
sin tener que hacer la enumeracin completa, que se describe a continuacin.
Algoritmo de mejoramiento de la poltica
El primer paso del algoritmo es elegir una poltica arbitraria R1 . Despus resuelve el sistema de
ecuaciones para encontrar los valores g ( R1 ) , v 0 ( R ) ,..., v M 1 ( R ) y con v M ( R ) = 0 . Este paso se
16
y vM (Rn ) = 0 para
j =0
para todos los M + 1 valores desconocidos de g (Rn ), v0 (Rn ), v1 (Rn ),..., vM 1 (Rn )
Paso 2, mejoramiento de la poltica: con los valores actuales de vi (Rn ) calculados para la
poltica Rn , se encuentra la poltica alternativa Rn +1 tal que para cada estado i , di (Rn +1 ) = k es
la decisin que minimiza
M
Minimizar
k = 1, 2, ..., K
C ik + pij ( k ) v j ( Rn ) v i ( Rn )
j =0
para n = 1,2,...
Paso inicial. Para la poltica inicial de prueba se elige, de manera arbitraria, la poltica que dice
que se reemplace la mquina (decisin 3) cuando se encuentra en el estado 3, pero que no se
haga nada (decisin 1) en otros estados. La matriz de transicin y los costos de esta poltica se
resumen como sigue.
Mahil Herrera M
Procesos Markovianos de Decisin
17
________________________________________________________________________________
Poltica
R1
Matriz de Transicin
Costos
Estado
Decisin
Estado
Estado
Cik
1000
1
16
1
8
1
2
1
16
1
8
1
2
7
8
3
4
3000
6000
Con esta poltica, el paso de determinacin del valor requiere resolver el siguiente sistema de
cuatro ecuaciones simultaneas para g (R1 ), v0 (R1 ), v1 (R1 ) y v2 (R1 ) y con v3 (R1 ) = 0 .
g (R1 ) =
7
1
+ v1 (R1 ) + v2 (R1 ) v0 (R1 )
8
16
3
1
g (R1 ) = 1000
+ v1 (R1 ) + v2 (R1 ) v1 (R1 )
4
8
1
g (R1 ) = 3000
+ v2 (R1 ) v2 (R1 )
2
g (R1 ) = 6000 + v0 (R1 )
g (R1 ) =
25000
= 1923
13
53000
v0 (R1 ) =
= 4077
13
34000
v1 (R1 ) =
= 2615
13
28000
v2 (R1 ) =
= 2154
13
Ahora se puede aplicar el paso 2 (mejorar la poltica). Es necesario encontrar una poltica
mejorada R2 , tal que la decisin k en el estado i minimiza la expresin correspondiente:
En realidad, en el estado 0, la nica decisin permitida es la decisin 1 (no hacer nada), as que
no se necesitan clculos. De manera similar, se sabe que la decisin 3 (reemplazar) debe
18
tomarse en el estado3. Entonces, solo los estados 1 y 2 requieren el clculo de los valores de
estas expresiones para diferentes decisiones.
Para el estado 1, las decisiones posibles son 1 y 3. Para cada una se muestran los valores de
Cik , p1 j , (k ) y el valor resultante de la expresin
Estado 1
Decisin
Cik
p10 (k )
p11 (k )
p12 (k )
p13 (k )
1000
3
4
1
8
1
8
6000
Valor de
expresin
1923
la
mnimo
4538
Como la decisin 1 minimiza la expresin, se elige como la decisin que debe tomarse en el
estado 1 para la poltica R2 (igual que para la poltica R1 ).
Los resultados correspondientes para el estado 2 se muestran enseguida
Estado 2
Decisin
Cik
p10 (k )
p11 (k )
p12 (k )
p13 (k )
3000
1
2
1
2
2
3
4000
6000
0
1
1
0
0
0
0
0
Valor de
expresin
1923
la
mnimo
-769
-231
Por lo tanto se elige la decisin 2 como la que se debe tomar en el estado 2 para la poltica R2 .
Observe que esto es diferente de la poltica R1 .
Se resumen ahora los resultados de la nueva poltica, su matriz de transicin y sus costos.
Poltica
R2
Matriz de Transicin
Costos
Estado
Decisin
Estado
Estado
Cik
1
16
1
8
1
16
1
8
7
8
3
4
1000
2
3
2
3
2
3
0
1
1
0
0
0
0
0
2
3
4000
6000
Como esta poltica difiere de la poltica R1 , la prueba de optimalidad dice que se realice otra
iteracin
Mahil Herrera M
Procesos Markovianos de Decisin
19
________________________________________________________________________________
Paso 1 (determinacin del valor), las ecuaciones a resolver para esta poltica son las siguientes
g (R2 ) =
g (R2 ) = 1000
g (R2 ) = 4000
7
1
+ v1 (R2 ) + v2 (R2 ) v0 (R2 )
8
16
3
1
+ v1 (R2 ) + v2 (R2 ) v1 (R2 )
4
8
+ v1 (R2 )
v2 (R2 )
g (R2 ) =
5000
= 1667
3
13000
v0 (R2 ) =
= 4333
3
v1 (R2 ) = 3000
v2 (R2 ) =
2000
= 667
3
Ahora se puede aplicar el paso 2 (mejorar la poltica). Para los dos estados con ms de una
decisin posible, las expresiones que se quieren minimizar son:
Valor para el
estado 1
1667
--4667
Valor para el
estado 2
3333
1667
2334
Decisin
1
1
2
3
20
1
, donde i es la tasa de inters actual por periodo. As, a es el
1+ i
valor presente de una unidad de costo un periodo en el futuro. En forma similar, a m es el valor
interpretar como igual a
periodo de observacin, y a
ij
n 1
j
recursiva
M
Mahil Herrera M
Procesos Markovianos de Decisin
21
________________________________________________________________________________
donde Vi1 (R ) = Cik , que se parece mucho a las relaciones recursivas de programacin dinmica
probabilstica.
Conforme n se aproxima a infinito, esta relacin recursiva converge a
M
Vi ( R ) = C ik + a pij ( k )V j ( R )
para i = 0.1,...M
j =0
en donde Vi (R ) se puede interpretar ahora como el costo descontado total esperado cuando el
proceso comienza en el estado i y contina operando indefinidamente. Se tienen M+1
ecuaciones y M+1 incgnitas, de manera que la solucin simultnea de este sistema de
ecuaciones proporciona el valor de Vi (R )
Para ilustrar, consideremos de nuevo el ejemplo de la seccin 1. Segn el criterio del costo
promedio, en las secciones 2, 3 y 4 se encontr que la poltica ptima es no hacer nada si el
proceso se encuentra en los estados 0 y 1, hacer una reparacin general en el estado 2 y
reemplazar en el estado 3.
Segn el criterio del mejoramiento de una poltica con descuento (costo descontado), con
a = 0.9 , esta poltica da el siguiente sistema de ecuaciones:
1
1
7
V0 ( R ) = 0.9 V1 ( R ) + V2 ( R ) + V3 ( R )
16
16
8
1
1
3
V1 ( R ) = 1000 + 0.9 V1 ( R ) + V2 ( R ) + V3 ( R )
8
8
4
V2 ( R ) = 4000 + 0.9 V1 ( R )
V3 ( R ) = 6000 + 0.9 V0 ( R )
La solucin simultnea es:
V0 ( R ) = 14949
V1 ( R ) = 16262
V2 ( R ) = 18636
V3 ( R ) = 19454
Entonces si se supone que el sistema comienza en el estado 0, el costo descontado total
esperado es $14949
Este sistema de ecuaciones proporciona las expresiones necesarias para el algoritmo de
mejoramiento de una poltica. Despus de resumir este algoritmo en trminos generales se
usara para verificar si esta poltica, en particular, todava es ptima bajo el criterio del costo
descontado.
22
Resumen del algoritmo de mejoramiento de una poltica con descuento (Criterio del
costo descontado).
Paso inicial se elige una poltica de prueba inicial arbitraria R1 . Se establece n = 1
Iteracin n:
Paso 1, determinacin del valor: para poltica Rn se utilizan pij (k ) y Cik para resolver el
sistema de M + 1 ecuaciones
M
Minimizar C ik + a pij ( k )V j ( Rn )
k =1,2,..., K
j =0
Y despus se establece d i (Rn+1 ) igual al valor de k que minimiza. Este procedimiento define
una nueva poltica ptima Rn+1
Prueba de optimizacin: la poltica actual Rn +1 es ptima si es idntica a la poltica Rn . Si lo
es, el algoritmo se detiene. De otra manera se establece n = n + 1 y se realiza otra iteracin.
Las tres propiedades clave de este algoritmo son las siguientes
1) . Vi (Rn+1 ) Vi (Rn ), para i = 0,1,..., M y n = 1,2,...
2) .El algoritmo termina con una poltica ptima en un nmero finito de interacciones
3) . El algoritmo es valido son la suposicin (usada en el caso del costo esperado) de que
la cadena de Markov asociada con toda matriz de transicin es irreducible
Regresando a nuestro ejemplo en donde se qued antes de resumir este algoritmo
Ya se seleccion la poltica ptima segn el criterio del costo promedio con la poltica inicial de
prueba R1 . Esta poltica, su matriz de transicin y sus costos se resumen a continuacin:
Mahil Herrera M
Procesos Markovianos de Decisin
23
________________________________________________________________________________
Poltica
R1
Matriz de Transicin
Costos
Estado
Decisin
Estado
Estado
Cik
1
16
1
8
1
16
1
8
7
8
3
4
1000
2
3
2
3
2
3
0
1
1
0
0
0
0
0
2
3
4000
6000
Adems, ya se llevo a cabo el paso 1 (determinacin del valor) la iteracin 1 esta matriz de
transicin y estos costos llevaron a las ecuaciones empleados para encontrar:
Para comenzar el paso 2 (mejorar la poltica) solo es necesario construir la expresin que debe
minimizarse para los dos estados (1 y 2) con una decisin seleccionada
Estado 1 : C 1k + 0.9 p10 ( k )(14949 ) + p11 ( k )(16262 ) + p12 ( k )(18636 ) + p13 ( k )(19454 )
Estado 2 : C 2 k + 0.9 p20 ( k )(14949 ) + p21 ( k )(16262 ) + p22 ( k )(18636 ) + p23 ( k )(19454 )
Para cada uno de estos estados y sus decisiones posibles, se muestras las C ik , y las pij ( k ) y
los valores que resultan para las expresiones correspondientes
Estado 1
Decisin
Cik
p10 (k )
p11 (k )
p12 (k )
p13 (k )
1000
3
4
1
8
1
8
6000
Valor de
expresin
16262
la
mnimo
19454
Estado 2
Decisin
Cik
p10 (k )
p11 (k )
p12 (k )
p13 (k )
3000
1
2
1
2
2
3
4000
6000
0
1
1
0
0
0
0
0
Valor de
expresin
20140
18636
19454
la
mnimo
24
Poltica
Estado
0
1
2
3
R2
Decisin
1
1
2
3
Como esta poltica es idntica a la poltica R1 la prueba de optimalidad indica que esta poltica
es ptima. Entonces, la poltica ptima segn el criterio del mejoramiento de una poltica con
descuento es igual a la obtenida anteriormente. (Esto ocurre con frecuencia perno no siempre)
Formulacin de programacin lineal
La formulacin de programacin lineal para el caso del costo descontado es similar a la del
costo esperado dada en la seccin 3; pero ahora, no se necesita la primera restriccin dada en
esa seccin; las otras restricciones funcionales si deben incluir el factor de descuento a . Otra
diferencia es que el modelo ahora contiene constantes j para j = 0,1,..., M estas constantes
deben satisfacer las condiciones
M
j =0
= 1,
j >0
para
j = 0,1,...., M
Excepto por esto, se pueden elegir de manera arbitraria sin afectar la poltica ptima que se
obtiene del modelo
El modelo que resulta refiere a elegir los valores de las variables de decisin continuas yik
para
Minimizar Z =
C
i =0 k =1
ik
yik ,
(1)
i 00 k =1
Dik = P {decision = k
y estado = i } =
y ik
K
y
k =1
ik
Ahora, las y ik se pueden interpretar como un tiempo esperado descontado por estar en el
estado i y tomar la decisin k, cuando la distribucin de probabilidad del estado inicial (cuando
comienzan las observaciones) es P{X 0 = j} = j para j = 0,1,..., M En otras palabras, si
Mahil Herrera M
Procesos Markovianos de Decisin
25
________________________________________________________________________________
y desicion = k}
Entonces
1
4
3
7
1
y11 + y13 0.9 y01 + y11 + y22 =
4
8
4
1
1
1
1
y21 + y22 + y23 0.9 y01 + y11 + y21 =
8
2
16
4
1
1
1
1
y33 0.9 y01 + y11 + y21 =
8
2 4
16
Toda yik o
Donde 0 , 1 , 2 y 3 seleccionan de manera arbitraria como
1
. El mtodo simplex da la
4
solucin ptima
y01 = 1.210,
y33 = 1.067,
26
De manera que
D01 = 1
D33 = 1
Esta poltica ptima es la misma que la obtenida antes en esta seccin por el algoritmo de
mejoramiento de la poltica.
El valor de la funcin objetivo para la solucin ptima es Z = 17325 Este valor est muy
relacionado con los valores de las Vi (R ) para esta poltica ptima encontradas por el algoritmo
descontado total esperado dado que el sistema inicia en el estado i y i , se interpreta como la
probabilidad de comenzar en el estado i. Como cada i se eligi igual a
1
.
4
1
V0 ( R ) + V1 ( R ) + V2 ( R ) + V3 ( R )
4
1
= (14949 + 16262 + 18636 + 19454 )
4
17325 =
Vi n = Costo descontado total esperado por seguir una poltica ptima, dado que el proceso
comienza en el .estado i y le quedan slo n periodos de operacin
Mahil Herrera M
Procesos Markovianos de Decisin
27
________________________________________________________________________________
Las Vi n se obtienen de la relacin recursiva (por el principio de optimalidad)
M
El valor de k que minimiza proporciona la decisin ptima que se debe tomar en el primer
periodo cuando el proceso inicia en el estado i.
Para comenzar con n =1, todas las de manera que
V01 = Min {C 0k } = 0,
k =1
( k = 1)
( k = 1)
( k = 1)
k =1,3
k =1,2,3
( k = 3)
As, la primera aproximacin dice que se tome la decisin 1 (no hacer nada) cuando el sistema
est en el estado 0,1 o 2. Cuando el sistema se encuentra en el estado 3, se toma la decisin 3.
28
1
1
7
1
1
V12 = min 1000 + 0.9 (1000 ) + ( 3000 ) + ( 6000 ) , 6000 + 0.9 1( 0 ) = 2688
8
8
4
( k = 1)
V22 = min 3000 + 0.9 ( 3000 ) + ( 6000 ) , 4000 + 0.9 1(1000 ) , 6000 + 0.9 1( 0 ) = 4900 ( k = 2 )
2
2
2
V3 =
6000 + 0.9 1( 0 ) = 6000
(k = 3)
donde el operador mnimo se elimin en la primera y cuarta expresiones por haber slo una
alternativa. La segunda aproximacin indica que se deje la mquina como est cuando se
encuentra en los estados 0 o 1, se haga una reparacin general si est en el estado 2 y se
reemplace cuando est en el estado 3. Observe que esta poltica es la ptima para el problema
con nmero infinito de periodos, como se encontr en esta seccin con el algoritmo de
mejoramiento de la poltica y con programacin lineal. Sin embargo, los valores de las Vi 2
(costo descontado total esperado cuando se comienza en el estado i para el problema de dos
periodos) an no son cercanos al de Vi (el costo correspondiente al problema de nmero
infinito de periodos).
1
1
7
1
1
V13 = min 1000 ( 2688 ) + ( 4900 ) + ( 6000 ) + 0.9 , 6000 + 0.9 (1(1294 ) ) = 4041 ( k = 2 )
8
8
4
V23 = min 3000 + 0.9 ( 4900 ) + ( 6000 ) , 4000 + 0.9 1( 2688 ) , 6000 + 0.9[1(1294 ) ] = 6419 ( k = 2 )
2
2
V33 =
( k = 3)
De nuevo se obtiene la poltica ptima para el problema de periodos infinitos y los costos se
acercan a los de la poltica ptima para ese problema. Este procedimiento puede continuar y
Mahil Herrera M
Procesos Markovianos de Decisin
29
________________________________________________________________________________
CONCLUSIONES
Los procesos de decisin de Markov son una herramienta poderosa para optimizar el
desempeo de los procesos estocsticos que se pueden modelar como una cadena de
Markov discreta.
Las dos medidas principales de desempeo que se usan son el costo promedio
esperado por unidad de tiempo y el costo descontado total esperado (a la larga).
Los dos mtodos ms importantes para derivar polticas ptimas para los procesos de
decisin markovianos son los algoritmos de mejoramiento de una poltica y
programacin lineal.
Fuentes de consulta.