Professional Documents
Culture Documents
Tema:
Presentado por:
Presentado a:
Ingeniería Industrial
VII semestre
Universidad de Córdoba
Montería – Córdoba
2017-2
INTRODUCCION
Las cadenas de Markov son una herramienta que sirve para analizar el comportamiento de
determinados tipos de procesos estocásticos, esto es, procesos que evolucionan de forma no
determinística a lo largo del tiempo en torno a un conjunto de estados. En estos procesos cada
muchos modelos de interés. Por lo anterior, se hizo necesario extender los conceptos de los
modelos de Markov para incluir los casos en los que la observación es una función
probabilística del estado, esto es, en muchas ocasiones existen procesos markovianos los cuales
se conocen como continuos los cuales sus cambios de estados se pueden dar en cualquier
instante, Por otra parte, el modelo resultante al cual se le denomina Modelo Oculto de Markov
que no se encuentra directamente observable (es decir, oculto) pero puede ser observado
solamente por medio de otro conjunto de procesos estocásticos que producen las secuencias de
observaciones.
OBJETIVOS
OBJETIVO GENERAL:
Investigar el concepto de los modelos continuos de Markov y modelos ocultos con el fin
conocer, identificar y analizar su importancia en los diversos contextos en donde es posible su
aplicación.
OBJETIVOS ESPECIFICOS
Si en lugar de considerar una secuencia discreta 𝑋1, 𝑋2, . . . , 𝑋𝑖, … con 𝑖 indexado en el
conjunto Ν de números naturales, se consideran las variables aleatorias 𝑋𝑡 con 𝑡 que varía en
un intervalo continuo del conjunto ℝ de números reales, tendremos una cadena en tiempo
continuo. Para este tipo de cadenas en tiempo continuo la propiedad de Márkov se expresa de
la siguiente manera:
Para una cadena de Márkov continua con un número finito de estados puede definirse una
matriz estocástica dada por:
𝑃(ℎ) − 𝐼
𝑄 = lim+
ℎ→0 ℎ
Ejemplo 1:
El estado del sistema viene descrito por el número de trabajos en cada uno de los procesadores,
𝑆 = {(0, 0), (1, 0), (0, 1), (1, 1)}, designados por {0, 1, 2, 3}. Teniendo en cuenta las
propiedades de la distribución exponencial, la distribución de los tiempos de permanencia en
cada estado será:
𝑃(𝑇0 ≤ 𝑡) = 1 − 𝑒 −𝜆𝑡
𝑇0 ∼ 𝐸𝑥𝑝(𝜆)
𝑃(𝑇1 ≤ 𝑡) = 1 − 𝑒 −𝑢1 𝑡
𝑇1 ∼ 𝐸𝑥𝑝(𝑢1 )
𝑃(𝑇2 > 𝑡) = 𝑃 (No llegue ningún trabajo en (0, 𝑡) y tampoco se acabe de procesar el trabajo
en el subsistema 2 en (0, 𝑡)) = 𝑒 −𝜆𝑡 𝑒 −𝑢2 𝑡 = 𝑒 −(𝜆+𝑢2 )𝑡
𝑃(𝑇2 ≤ 𝑡) = 1 − 𝑒 −(𝜆+𝑢2 )𝑡
𝑇2 ∼ 𝐸𝑥𝑝(𝜆 + 𝑢2 )
𝑃(𝑇3 > 𝑡) = 𝑃 (No acabe ningún trabajo en (0, 𝑡)) = 𝑒 −𝑢1 𝑡 𝑒 −𝑢2𝑡 = 𝑒 −(𝑢1 +𝑢2 )𝑡
𝑇3 ∼ 𝐸𝑥𝑝(𝑢1 + 𝑢2 )
𝑝01 = 1 𝑝12 = 1
𝑢2 𝜆
𝑝20 = 𝑝23 =
𝜆 + 𝑢2 𝜆 + 𝑢2
𝑢2 𝑢1
𝑝31 = 𝑝32 =
𝑢1 + 𝑢2 𝑢1 + 𝑢2
Ejemplo 2:
A la boletería de un cine llegan personas de acuerdo a un proceso de Poisson con tasa 𝜆> 0
(personas/minuto). El cine dispone de tres cajas y la atención se realiza por orden de llegada
de la siguiente forma: si al momento de llegar una persona hay al menos una caja disponible,
entonces es atendida de inmediato, si no, entonces se sitúa al final de la cola. Si no hay clientes
en el sistema (cola+caja), el cine mantiene abierta una sola caja. A medida que van llegando
espectadores, es posible que se forme cola. Así, en el instante en que la cola alcanza a 10
personas, se abre una segunda caja (si es que solo había una caja abierta) que atiende en
paralelo a la primera. Además, si la cola sigue creciendo, cuando llega a tener 20 personas se
abre una tercera caja (si es que solo habían dos cajas abiertas) que atiende en paralelo a las
otras dos. (Nunca puede ocurrir que haya personas en la cola y alguna caja desocupada). Ahora
bien, si están las tres cajas abiertas y un cajero observa que al terminar de atender un cliente el
número de personas en la cola es menor que 20, dicha caja se cierra hasta que sea requerida
nuevamente y las dos cajas restantes siguen atendiendo en paralelo. Adicionalmente, si hay
dos cajeros atendiendo y cualquiera de ellos observa que al ter-minar de atender a un cliente el
sistema queda completamente vacío (no hay clientes en la cola ni en atención), dicha caja
cierra, quedando solo una caja abierta. Suponga que las aperturas y cierres de caja no toman
tiempo. Suponga que cada cajero demora un tiempo aleatorio con distribución exponencial con
tasa 𝜇 (𝑐𝑜𝑛 2𝜇 > 𝜆) en atender a una persona y que todas las atenciones son independientes.
se va (0 < p < 1). Esta probabilidad es la misma e independiente para cada cliente. Finalmente,
dado el desagrado que resulta la espera por la atención, cuando hay 25 o más personas en la
cola, cualquier cliente que estas en la cola puede aburrir de esperar, abandonando el sistema
luego de un tiempo aleatorio con distribución exponencial con tasa 𝑚𝛼, donde m es el número
para cada cliente. (Si hay menos de 25 personas en la cola, nadie la abandona).
Suponga que los tiempos de atención, la entrada de clientes y los tiempos de aburrimiento son
todos independientes entre sí e independientes del proceso de llegada. Se desea modular este
sistema como una CMTC y obtener expresiones para algunas medidas de desempeño en el
largo plazo.
a) Defina las variables de estado del proceso y especifique los estados posibles.
c) Si en un instante x > 0 dado que hay dos cajas atendiendo, calcule la probabilidad de que el
cliente que lleva mayor tiempo de atención, termine de comprar su entrada primero.
d) Escriba las ecuaciones de equilibrio en el largo plazo para todos los casos posibles.
e) Obtenga expresiones en función de las probabilidades límites (suponga que existen y que las
Solución
a) Cuando hay entre 1 y 10 personas en el sistema (cola+cajas) debemos ocupar variables de
estado bidimensionales (i,j) para especificar los estados, donde: i = número de personas en el
Para el resto de los estados, basta ocupar una variable de estado: i = número de personas en el
c) La distribución exponencial carece de memoria, de modo que no importa el tiempo que los
clientes llevan siendo atendidos. Por tanto, el cliente que lleva mayor tiempo de atención saldrá
1
primero con probabilidad 2 .
Ejemplo 3:
Supongamos una cadena con dos estados: 0 y 1. Asumimos que q (0, 1) = 1 y que q (1, 0) = 2,
entonces
Ya que la suma es 0 por filas, por construcción de Q. Para calcular eQt se diagonaliza la matriz,
calculando previamente los autovectores y autovalores de Q. Los autovalores son 0 y −3 y los
autovectores forman la matriz
Se tiene que
De este modo
Ya que
De este modo
Se puede observar entonces que cuanto t → ∞
Donde
Dicho de otra forma un modelo oculto de Markov es un modelo donde se asume que el sistema
que se modela es una cadena de Markov, pero los estados son desconocidos (están escondidos)
(Roux, 2015).
El trabajo seminal que introdujo el uso de modelos ocultos de Markov a las ciencias de la
computación, fue el de leonar & Baum, donde exploraba la aplicación de estos en el
reconocimiento del habla. En ese trabajo de Rabiner, recordó que el funcionamiento de las
cadenas de Markov, le es conocido a los matemáticos, desde el final de la década de los años
60 y principio de la década de los 70, pero que no habían sido ampliamente utilizados por dos
razones: la mayor parte de los trabajos publicados acerca del tema estaban en publicaciones
editadas por la comunidad científica matemática ( y los ingenieros dedicados a la computación
no las leían) y por otro lado no se habían encontrado algoritmos para optimizar las soluciones
a los problemas de los MOM (Macas & Padilla, 2012). En este trabajo se explicó que los
modelos ocultos de Markov son un:
“doble proceso estocástico con un proceso subyacente que no es observable (oculto) pero
que puede ser observado a través de otro conjunto de procesos estocásticos que generan
la secuencia de observaciones. ‘‘ (Mejia & Nieto, 2015)
Según (Balcazar & Godoy, 2012) otros autores definieron a los modelos ocultos de Markov
se pueden definir como:
(Morgan, 1991): “Los MOM describen un proceso de probabilidad el cual produce una
secuencia de eventos o símbolos observables. Son llamados ocultos porque hay un proceso de
probabilidad subyacente que no es observable, pero afecta la secuencia de eventos
observados”.
Xuang, Acero y Hon (2001): “ Los MOM son una extensión de las cadenas de Markov, en
donde la salida del sistema puede tomar varios valores para cada estado, con lo que nace una
nueva variable aleatoria (discreta o continua), conocida como vector de variables aleatorias.
Este tipo de sistemas se implanta como un doble proceso estocástico: el de las transiciones
entre estados y el de la salida para cada estado”.
A través de esta explicación, es posible distinguir los elementos que definen a un MOM, así:
1. Los modelos ocultos de Markov son una función de densidad de probabilidad. Esto
significa, que los MOM son una herramienta que se utiliza para representar distribuciones de
probabilidad sobre secuencias de observaciones.
2. Los modelos ocultos de Markov, siempre están en algún estado. En intervalos de tiempo
discretos, se asume que el proceso modelado está en algún estado y que generará un valor para
𝑿 que es observable y dependiente de la función aleatoria asociada al estado actual.
3. Los modelos ocultos de Markov cambian de estado de acuerdo a una matriz de
transiciones. Cada que avanza el tiempo, el modelo puede cambiar de estado (a otro o quedarse
en el mismo) siguiendo siempre los valores de una matriz de probabilidades de transición de
estados.
4. El observador de un modelo oculto de Markov, sólo ve el resultado de las funciones
aleatorias. Cada cambio de estado, se genera un valor nuevo para `` 𝑿 '' que será observable.
Según (Robayo Santana, 2009) los elementos de los modelos ocultos de Markov son los
siguientes:
Aunque los estados en los que se encuentra el sistema modelado se consideran ocultos, para
muchas aplicaciones prácticas existe alguna significación física asociada a los estados del
sistema. Generalmente los estados están interconectados de tal manera que cualquier estado
puede ser alcanzado desde cualquier otro, sin embargo existen otras posibilidades. Los estados
serán denotados como 𝑆 = {𝑆1 , 𝑆2 , . . . , 𝑆𝑁 }, y el estado en el instante como qt.
Para el caso especial en el que cada estado puede llevar a cualquier otro estado en una sola
transición, 𝒂𝒊𝒋 > 0 para todo 𝑖, 𝑗. En otros tipos de MOM, se tiene que 𝒂𝒊𝒋 = 𝟎para uno o más
pares (𝑖, 𝑗).
𝜋𝑖 = 𝑃(𝑞1 = 𝑆𝑖 ), 1 ≤ 𝑖 ≤ 𝑁
Dados valores apropiados para 𝑁, 𝑀, 𝐴, 𝐵 𝑦 𝜋, el MOM puede ser utilizado como el generador
de una secuencia de observaciones
𝑂 = 𝑂1 𝑂2 … 𝑂𝑇
𝜆 = (𝐴, 𝐵, 𝜋)
Se puede pensar en los modelos ocultos de Markov como autómatas finitos donde las
transiciones son determinadas por las matrices A y B, los estados por el conjunto S y el alfabeto
por el conjunto V.
Tabla 1
SÍMBOLO SIGNIFICADO
π {𝜋} = 𝑃(𝑞1 = 𝑆𝑖 )
notación compacta de un
𝜆 = (𝐴, 𝐵, 𝜋)
modelo completo
Tipos de Mom
De acuerdo con (Macas & Padilla, 2012) los tipos de modelos ocultos de Markov son los
siguientes:
1. Ergódicos
Cuando un MOM tiene una matriz de probabilidad de transición de estados completa (es decir,
que no es cero para ningún 𝑎𝑖𝑗 ) se dice que el MOM es ergódico. En este tipo de MOM
cualquier estado puede ser visitado nuevamente con probabilidad 1 y estas visitas no deben
tomar necesariamente lugar en intervalos de tiempo periódicos. La siguiente figura muestra un
ejemplo de este tipo de MOM.
2. No Ergódicos
En los casos en los que las matrices de transición del MOM pueden tener algunos valores “0”,
se dice que no son ergódicos. Por ejemplo, si se tiene una matriz triangular superior, se tendría
un MOM como el de la siguiente figura.
A estos modelos se les conoce también como modelos “izquierda-derecha”, pues la secuencia
de estados producida por la secuencia de observaciones siempre deberá proceder desde el
estado más a la izquierda, hasta el que esté más a la derecha. Estos MOM imponen un orden
temporal al MOM, pues los estados con número menor, generan observaciones que ocurrieron
antes que las generadas por los estados con índices mayores.
3. Autoregresivos
Los MOM autoregresivos, tienen casos especiales del parámetro “B”. Cuando los símbolos
observables de un MOM son vectores continuos (no son un conjunto discreto como un
alfabeto), la función de distribución de probabilidad 𝑏𝑗 (𝑘), es remplazada por la función
continua 𝑏𝑗 (𝑥), 1 ≤ 𝑗 ≤ 𝑁 donde 𝑏𝑗 (𝑥)𝑑𝑥 es igual a la probabilidad de que el vector de
observación O se encuentre entre x y x+dx. Las siguientes son las formas especiales de 𝑏𝑗 (𝑥):
Donde 𝐶𝑗𝑘 es el peso de la mezcla, Nes la distribución normal y µ𝑗𝑘 , 𝑈𝑗𝑘 son los vectores de
medias y covarianzas asociados con el estado j y la mezcla k.
Dónde:
𝑒 𝛿(𝑥;𝑎𝑗𝑘 )/2
𝑏𝑗𝑘 =
(2𝜋)𝑘/2
Según (Robayo Santana, 2009) existen tres problemas básicos relacionados con los Modelos
ocultos de Markov:
FIGURA: Modelo de urnas y bolas de N estados que ilustra el caso general de un HMM con
símbolos discretos.
Los siguientes son ejemplos de posibles secuencias de observación del modelo de las urnas y
las bolas:
𝑶𝟏
= (𝑎𝑚𝑎𝑟𝑖𝑙𝑙𝑜, 𝑣𝑒𝑟𝑑𝑒, 𝑎𝑧𝑢𝑙, 𝑣𝑒𝑟𝑑𝑒, 𝑟𝑜𝑗𝑜, 𝑎𝑚𝑎𝑟𝑖𝑙𝑙𝑜, 𝑛𝑎𝑟𝑎𝑛𝑗𝑎, 𝑟𝑜𝑗𝑜, 𝑣𝑒𝑟𝑑𝑒, 𝑎𝑧𝑢𝑙, 𝑎𝑚𝑎𝑟𝑖𝑙𝑙𝑜)
𝑶𝟐
= (𝑎𝑚𝑎𝑟𝑖𝑙𝑙𝑜, 𝑟𝑜𝑗𝑜, 𝑣𝑒𝑟𝑑𝑒, 𝑟𝑜𝑗𝑜, 𝑎𝑧𝑢𝑙, 𝑛𝑎𝑟𝑎𝑛𝑗𝑎, 𝑣𝑒𝑟𝑑𝑒, 𝑟𝑜𝑗𝑜, 𝑎𝑧𝑢𝑙, 𝑎𝑚𝑎𝑟𝑖𝑙𝑙𝑜, 𝑟𝑜𝑗𝑜, 𝑣𝑒𝑟𝑑𝑒)
𝑶𝟑
= (𝑟𝑜𝑗𝑜, 𝑎𝑧𝑢𝑙, 𝑎𝑚𝑎𝑟𝑖𝑙𝑙𝑜, 𝑟𝑜𝑗𝑜, 𝑎𝑧𝑢𝑙, 𝑣𝑒𝑑𝑒, 𝑟𝑜𝑗𝑜, 𝑎𝑚𝑎𝑟𝑖𝑙𝑙𝑜, 𝑛𝑎𝑟𝑎𝑛𝑗𝑎, 𝑛𝑎𝑟𝑎𝑛𝑗𝑎, 𝑣𝑒𝑟𝑑𝑒, 𝑟𝑜𝑗𝑜)
𝑶𝟒 = (𝑟𝑜𝑗𝑜, 𝑣𝑒𝑟𝑑𝑒, 𝑛𝑎𝑟𝑎𝑛𝑗𝑎, 𝑟𝑜𝑗𝑜, 𝑟𝑜𝑗𝑜, 𝑎𝑧𝑢𝑙, 𝑣𝑒𝑟𝑑𝑒, 𝑎𝑚𝑎𝑟𝑖𝑙𝑙𝑜, 𝑎𝑧𝑢𝑙, 𝑟𝑜𝑗𝑜, 𝑣𝑒𝑟𝑑𝑒, 𝑟𝑜𝑗𝑜)
El alfabeto es:
𝑄 = {1,2, … , 𝑁}
… … … …
… … … … …
El primer problema consiste en decidir cuál proceso es representado por los estados y después
decidir cuantos estados pueden estar en el modelo.
Como se ilustró antes, el MOM más simple que corresponda al comportamiento de este proceso
es aquel en el cual cada estado representa una urna específica y cada color representa un posible
símbolo de observación. Por cada estado se define una probabilidad de extraer una bola (color)
y una probabilidad de pasar a la siguiente urna. Los colores de las bolas dentro de cada urna
pueden o no ser los mismos y pueden existir números diferentes de bolas de cada color en cada
urna. Por lo tanto, una observación aislada de un color en particular no dice inmediatamente
de cuál urna procede.
FIGURA: Grafo del modelo de urnas y bolas.
EJEMPLO:
Dado una sola moneda al aire, es decir, P (Cara) = P (Sello) = 0,5, que se tira una vez y observar
las Caras.
Solución:
110
𝑃 (𝐶𝐶𝑆𝐶𝑆𝑆𝐶𝑆𝑆𝐶) =
2
10
10 1 10
𝐸 (𝑆 𝑒𝑛 10 𝑙𝑎𝑛𝑧𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠) = ∑ 𝑑 ( ) ( ) = 5
𝑑 2
𝑑=0
Los modelos ocultos de Markov han tenido un amplio uso en la detección de anomalías. A
continuación se mencionan algunas de sus aplicaciones, divididas por área de aplicación:
Tratamiento digital del habla. Las cadenas ocultas de Markov, le deben su fama a esta
aplicación. La mayor parte de los sistemas comerciales de tratamiento del habla incluyen algún
tipo de MOM.
Biociencias
Epidemiología y biométrica
Tratamiento de imágenes
Clasificación de texturas.
Técnicas de representación de formas.
Clasificación de vehículos militares en secuencias de video.
Reconocimiento automático de palabras clave en documentos pobremente impresos.
Clasificación de imágenes.
Análisis de imágenes.
Reconocimiento de objetos en tercera dimensión.
Reconocimiento de gestos.
Extracción de información importante de partidos de béisbol.
Análisis de la estructura de un video de fútbol soccer.
Reconocimiento dinámico de expresiones faciales.
Clasificación automática de huellas dactilares.
profunda de la NASA.
Monitoreo de la evolución del desgaste de herramientas mecánicas.
Inspección y mantenimiento de sistemas en deterioro.
Detección de fallas en redes de comunicación tolerantes a fallas.
Comunicación
Informática
Detección de intrusos.
Modelado de interacción humano / computadora.
Clasificación del tráfico de red.
Detección de ataques de red en varias etapas.
Tratamiento de la pérdida de paquetes para voz sobre IP.
Codificación.
Modelado del retraso en Internet.
Control y Optimización
Climatología
Otros
Conclusión
Muchos de los problemas de la vida cotidiana se pueden predecir con cierta fiabilidad si se
usan los modelos matemáticos para determinar sus futuros estados. Unos más complejos que
otros, pero que igualmente brindan información que permite la toma de decisiones de la manera
más acertada para prever el mejor futuro en cada situación; este es el caso de las Cadenas de
Markov de tiempo continuo
BIBLIOGRAFÍA
Ríos Insua Sixto, Jiménez Antonio, Fernández, Ángel Joaquín, Investigación Operativa:
Ejercicios y Aplicaciones, Fundación General de la Universidad Politécnica de Madrid,
Madrid, 2006.
Visser, I., Raijmakers, M.E.J. y Molenaar, Fitting hidden Markov models to psychological
data. Scientific Programming, 2002.
Balcazar, P., & Godoy, V. (2012). Identificacion de patrones utilizando modelos ocultos de
makov. Cariamanga, Ecuador.
Macas , D., & Padilla, W. (2012). Estudio de los modelos ocultos de markov y desarrollo de
un prototipo para el reconocimiento automatico del habla. España.
Mejia, G., & Nieto, J. (2015). Modelo estocástico del horno de arco eléctrico basado en un
modelo oculto de markov. Pereira.