Professional Documents
Culture Documents
Bauma–Welcha.
5 stycznia 2005
Streszczenie
4 Zakończenie 41
1 Ukryte modele Markowa
1.1 Wprowadzenie
Ukryte modele Markowa (ang. Hidden Markov Models, HMM) to pojęcie do-
skonale znane w zastosowaniach inżynieryjnych od prawie pół wieku. Pierw-
sze poważne zastosowanie znalazły one w 1967 roku w laboratoriach IBM,
gdzie wykorzystano je do rozpoznawanie znaków. Jak dotąd najszerzej ko-
rzysta się z nich tworząc modele akustyczne w rozpoznawaniu mowy[26].
Istnieją znaczące publikacje zbiorcze traktujące o metodologii i zastosowa-
niu ukrytych modeli Markowa. Za dobry przykład może służyć niedawna
publikacja autorstwa R. Elliota, L. Aggouna oraz J. Moore[16], artykuł Y.
Ephraima i N. Merhava[17] oraz liczne publikacje w takich czasopismach na-
ukowych jak IEEE Transactions on Signal Processing, IEEE Transactions
on Speech and Audio Processing oraz Biometrics.
Z biegiem lat zaczęto odkrywać, że te same modele sprawdzają się tak-
że do opisu innych zjawisk w przyrodzie. Podobne rozwiązania teoretyczne
wykorzystywano w genetyce i biochemii, patrz na przykład prace Thompso-
na1 . Churchilla23 , Baldiego[4]. Zucchini i Guthorp4 używali ukrytych modeli
Markowa do modelowania sekwencji dni suchych i wilgotnych w niektórych
miejscach naszego globu. Albert[1] oraz Le, Leroux i Puterman[25][24] sto-
sowali natomiast w swoich publikacjach ukryte modele Markowa do mode-
lowania szeregów czasowych liczby ataków epilepsji. Hamilton[18] stworzył
szeroko upowszechniony w ekonomii model cykli koniunkturalnych.
To najbardziej istotne obszary wykorzystania tych metod w modelowa-
niu procesów w otaczającej nas rzeczywistości. Lista zastosowań jest jednak
jeszcze daleka od wyczerpania. Istnieje wiele dość egzotycznych prób mode-
lowania z użyciem ukrytych modeli Markowa, jak na przykład szacowanie
czasu między kolejnymi erupcjami gejzera Old Faithful czy systemy rozpo-
znawania twarzy. Ukryte modele Markowa znalazły również zastosowanie w
naukach społecznych. Pojawili się naukowcy, którzy próbowali przy ich po-
1
[30] cyt. w:[27]
2
[13] cyt. w:[27]
3
[14] cyt. w:[27]
4
[32] cyt. w:[27]
1 UKRYTE MODELE MARKOWA 4
Z
(n)
ln p(X (n) ; φ) Pφ0 (dx(n) ).
Eφ0 ln p(X ; φ) = (1)
1
v(i) = . (4)
1 − pii
(ii) Stany i oraz j nazywamy wzajemnie komunikującymi się jeśli stan i jest
osiągalny ze stanu j oraz j jest osiągalny ze stanu i.
δ = δP
1
(iii) rozkład stacjonarny jest jedyny i δj = µj , gdzie µj jest średnim czasem
powrotu łańcucha do stanu j.
1
δ= [p21 , p12 ]. (6)
p12 + p21
Poprzez diagonalizację macierzy przejścia dla ŁM, łatwo uzyskujemy
wzór na P k :
δ1 δ2 δ2 −δ2
Pk = + (1 − p12 − p21 )k , (7)
δ1 δ2 −δ1 δ1
Formuła ta pozwala badać graniczne własności ŁM, a w szczególności
szacować szybkość zbieżności do rozkładu stacjonarnego.
6
Wykorzystując fakt zgodności rozkładów skończeniewymiarowych, dostaniemy tezę
jako prosty wniosek z twierdzenia Kołmogorowa o istnieniu procesu. Sposób dowodzenia
podobnych zagadnień można znaleźć w [31].
1 UKRYTE MODELE MARKOWA 8
Niech (Xt )∞
t=1 będzie łańcuchem Markowa o wartościach z N-elementowej
przestrzeni stanów SX = {1, 2, . . . , N }. Niech xt ∈ SX oznacza wartość, ja-
ką może przyjąć Xt . Niech δi = P (X1 = i) oznacza prawdopodobieństwo,
że stanem początkowym jest i. Wtedy δ = [δi ] jest wektorem (1 × N ) re-
prezentującym rozkład początkowy. Zauważmy, że wprowadziliśmy to samo
oznaczenie dla rozkładu stacjonarnego. Wynika to z tradycji modelowania
za pomocą HMM, gdzie zakłada się, że rozkład początkowy procesu jest
również jego rozkładem stacjonarnym. Takie założenie w wielu przypadkach
jest zasadne zarówno na gruncie merytorycznym (gdy proces rzeczywiście
zachowuje się od początku stacjonarnie) i numerycznym (w oszacowaniach,
wartość rozkładu początkowego nie ma znaczenia dla dostatecznie dużej licz-
by obserwacji).
Będziemy dalej zakładać, że rozpatrywany ŁM jest jednorodny. Macierzą
przejścia będzie macierz P = [pij ], gdzie i, j = 1, . . . , N oraz pij = P (Xt =
j|Xt−1 = i).
Rozważmy złożony proces (Xt , Yt )∞ ∞
t=1 taki, że (Xt )t=1 jest łańcuchem
Markowa, a (Yt )∞
t=1 jest ciągiem zmiennych losowych przyjmujących wartości
ze zbioru SY . Niech yt ∈ SY oznacza wartość, jaką może przyjąć Yt . W
każdej chwili t i dla każdego i ∈ SX na zbiorze SY zdefiniowaną mamy
gęstość prawdopodobieństwa fi (y), która określa rozkład zmiennej losowej Yt
względem pewnej σ–skończonej miary µ. W pracy tej będą nas interesować
tylko dwa przypadki — miara Lebesgue’a i miara licząca.. Gęstości takiej
postaci będziemy nazywali gęstościami emisji.
Tak zdefiniowany proces (Xt , Yt )∞
t=1 nazywamy ukrytym procesem Mar-
kowa. „Ukrytość” polega na założeniu, że obserwujemy jedynie realizacje
procesu (Yt ), podczas gdy realizacje (Xt ) wpływając na realizacje (Yt ) pozo-
stają niewidoczne. W związku z tym o (Xt ) będziemy mówić jako o ukrytym
ŁM. Zbiór jego wartości będziemy nazywać przestrzenią stanów ukrytego
procesu Markowa. Wartości procesu (Yt ) będziemy natomiast nazywać zna-
kami emitowanymi przez HMM lub po prostu obserwacjami.
W przypadku skończonego zbioru znaków SY = 1, 2, . . . , M ukrytego
procesu Markowa, SY będziemy nazywać alfabetem, a prawdopodobieństwa
1 UKRYTE MODELE MARKOWA 9
P (Y1 , Y2 , . . . , YT |X1 , X2 , . . . , XT ) =
P (X1 )P (Y1 |X1 ) · P (X2 |X1 ) · P (Y2 |X2 ) · . . . · P (XT |XT −1 ) · P (YT |XT )
=
P (X1 ) · P (X2 |X1 ) · . . . · P (XT |XT −1 )
= P (Y1 |X1 ) · P (Y2 |X2 ) · . . . · P (YT |XT ) (8)
Rysunek 1: Węzły grafu reprezentują zmienne losowe. Zacienione zostały zmienne ukryte. Strzałki
między węzłami mówią o bezpośredniej zależności stochastycznej. Brak strzałki między węzłami
oznacza niezależność losową pod warunkiem węzłów–rodziców.
P (y (T ) |θ̂)
l(θ̂) − l(θn ) = ln
P (y (T ) |θn )
P (X (T ) , y (T ) |θ̂) (T )
= ln Eθn y
P (X (T ) , y (T ) |θn )
P (X (T ) , y (T ) |θ̂) (T )
Eθn ln y
P (X (T ) , y (T ) |θn )
= Q(θ̂, θn ) − Q(θn , θn ).
oraz
βt (i) = P (Yt+1 = yt+1 , . . . , YT = yT |Xt = i, θ). (15)
oraz
βT (i) = 1. (17)
oraz
N
X
βt (i) = πjyt+1 βt+1 (j)pij . (19)
j=1
αt (i)βt (i) =
= P (Xt = i)P (Y1 = y1 , . . . , Yt = yt |Xt = i)P (Yt+1 = yt+1 , . . . , YT = yT |Xt = i)
= P (Xt = i)P (Y1 = y1 , . . . , YT = yT |Xt = i)
= P (Y1 = y1 , . . . , YT = yT , Xt = i) (21)
zatem:
N
αt (i)βt (i) = P (Y1 = y1 , . . . , YT = yT ) = L (θ)
X
(22)
i=1
oraz
0
βt = βt+1 Bt+1 . (25)
oraz
φt (i, j) = P (Xt = i, Xt+1 = j|y (T ) , θ). (27)
2.1.1 Wprowadzenie
1. N0 = 0
N N
λi δi = δλ0
X X
E(Yt ) = E(Yt |Xt = i)δi = (37)
i=1 i=1
N
X N
X
E(Yt2 ) = E(Yt2 |Xt = i)δi = (λ2i + λi )δi , (38)
i=1 i=1
N N
2
= λDλ0 + δλ0 − (δλ0 )2 ,
X X
2
D (Yt ) = (λ2i − λi )δi − δ i λi (39)
i=1 i=1
Tabela 2: Zaobserwowane i oczekiwane liczby ataków epilepsji. Porównanie wyników modelu dwu-
stanowego i standardowego rozkładu Poissona. Źródło: Albert[1, s. 1375].
Y obserwacje Poisson dwa stany
Pacjent I
0 263 219,8 260,2
1 90 138 93,2
2 32 48,5 35,1
3 23 12,2 18,1
4 9 2,7 9,2
5 3 0,67 3,8
6 2 0,17 1,3
Pacjent II
0 126 91,9 125,5
1 80 110,9 79,7
2 59 75,1 57,3
3 42 39 42,6
4 24 18,5 25,9
5 8 8,3 12,8
6 5 3,8 5,3
7 4 1,7 1,9
8 3 0,86 0,6
2.2.1 Wprowadzenie
N
X
p(t) = pi1 {Xt =i} , (44)
i=1
N
(npi )δi = nδp0 ,
X
E(Yt ) = (47)
i=1
N
npi (1 − pi ) + n2 p2i δi = nδp0 + n(n − 1)pDp0 ,
X
E(Yt2 ) =
(48)
i=1
2
D2 (Yt ) = n2 δΦp0 − (δp0 ) + n(δp0 − δΦp0 ), (49)
gdzieś około punktu 3 minut. Jak zatem widać, analiza histogramu może stać
się kolejną ważną przesłanką za stosowaniem modeli podobnych do HMM.
Rysunek 3: Histogram długości erupcji gejzera Old Faithful (Źródło: opracowanie własne na pod-
stawie danych z bazy programu statystycznego R)
0.000 1.000
P̂ = .
0.827 0.173
oraz
p̂ = [0.225, 1.000],
3.1.1 Wprowadzenie
1 n −(y − µ )2 o
t j
f (yt |xt = j, θ) = p exp (52)
2πσj 2σj2
chwili t, tzn. ξt|t (j) = P (xt = j|y (t) ; θ). Dodatkowo niech ξt|t−1 = [ξt|t−1 (j)]
będzie wektorem (N × 1) warunkowego prawdopodobieństwa przebywania w
ukrytym stanie xt pod warunkiem informacji do chwili t − 1, tzn. ξt|t−1 (j) =
P (xt = j|y (t−1) ; θ).
Niech ηt będzie wektorem, którego kolejnymi elementami będą prawdo-
podobieństwa warunkowe postaci 52. Estymatory wartości ξt|t przy zadanym
ξˆ1|0 19 i zadanych parametrach modelu θ mogą być wyliczone w bardzo efek-
tywny sposób dla każdego t = 1, 2, . . . , T (patrz: [20]):
ξˆt|t−1 ηt
ξˆt|t = (53)
10 (ξˆt|t−1 ηt )
gdzie
f (yt , y (t−1) ; θ) = 10 (ξˆt|t−1 ηt ). (56)
3.2.1 Wprowadzenie
modele Markowa (ang. Markov switching models, MSM). Model ten zostanie
pokrótce przedstawiony w następnym podrozdziale, po czym powrócimy do
naszych rozważań dotyczących dwustanowych HMM, proponując w podroz-
dziale 3.2.3 model wychwytywania zwrotów koniunktury.
Hamilton załozył, że istnieją dwa stany xt ∈ {1, 2}, dla których parametry
modelu opisującego zachowanie się gospodarki, istotnie się różnią. Jeżeli
jako It oznaczymy wartość pewnego indykatora aktywności gospodarczej to
model, może przybrać poniższą postać:
It −µxt = φ1 (It−1 −µxt−1 )+φ2 (It−2 −µxt−2 )+φ3 (It−3 −µxt−3 )+φ4 (It−4 −µxt−4 )+t .
(61)
Po zastosowaniu modelu oraz jego numerycznej maksymalizacji okazało
się, że optymalne wartości parametrów były równe:
µ1 = 1.16, µ2 = −0.36, φ1 = 0.01, φ2 = −0.06, φ3 = −0.25, φ4 = −0.21,
σ2 = 0.59.
Macierz przejść między stanami gospodarki przedstawiała się natomiast
tak:
3 UKRYTE MODELE MARKOWA ROZKŁADÓW CIĄGŁYCH 36
0.90 0.1
.
0.25 0.75
Oznacza to, że średnia stopa wzrostu PNB w stanie xt = 1 jest równa
około 1,16% na kwartał, a w xt = 2 średnia stopa spadku PNB jest równa
0,36%. Zauważmy, że zarówno prawdopodobieństwo pozostania w pierwszym
jak i w drugim stanie są stosunkowo wysokie. Oznacza to, że oba stany są
stosunkowo trwałe. Średni czas pozostawania gospodarki w pierwszym sta-
1
nie jest równy 1−p11 = 10 kwartałów, drugi stan natomiast trwa średnio
1
1−p22 = 4 kwartały. Potwierdza to powszechnie przyjmowany fakt mówiący
o bardzo wyraźnej asymetrii między fazą ekspansji gospodarczej a recesją.
Do tego z tych oszacowań wynika, że pełny cykl (na który składają się obie
fazy) trwa przeciętnie 14 kwartałów. Co również znajduje swoje potwierdze-
nie w teorii cykli koniunkturalnych. Zatem wynik modelu Hamiltona dosko-
nale się z tym komponuje, co wskazuje na możliwość interpretowania stanów
MSM, jako okresów recesji i ekspansji. Potwierdzają to dodatkowo bardzo
zbieżne oszacowania wygładzonych prawdopodobieństw przebywania w sta-
nie drugim, z oficjalnymi datami recesji ogłoszonymi przez NBER22 .
Hamilton zaproponował by za recesję uznawać, każdy okres, który cha-
rakteryzuje się wygładzonym prawdopodobieństwem w stanie xt = 2 więk-
szym niż z góry zadana liczba. Najbardziej naturalne jest przyjmować, że
recesja wystąpiła w okresie t dla P (xt = 2|YT ) > 0.5. Postępując właśnie w
ten sposób Hamilton wykazał, że jego metoda wyznacza szczyty i dna cyklu
praktycznie tak samo jak NBER (dane ogłaszane przez NBER przedstawio-
no w tabeli 4).
Tabela 4: Szczegółowe zestawianie cykli zaproponowane przez NBER w interesującym nas okresie
(Źródło: Opracowanie własne na podstawie danych NBER http://www.nber.org/cycles.html/).
Szczyt Dno Recesja Ekspansja
Szczyt do Dno do Dno do dna Szczyt do
dna szczytu szczytu
Lipiec 1953(II) Maj 1954 (II) 10 45 55 56
Sierpień 1957(III) Kwiecień 1958 (II) 8 39 47 49
Kwiecień 1960(II) Luty 1961 (I) 10 24 34 32
Grudzień 1969(IV) Listopad 1970 (IV) 11 106 117 116
Listopad 1973(IV) Marzec 1975 (I) 16 36 52 47
Styczeń 1980(I) Lipiec 1980 (III) 6 58 64 74
Lipiec 1981(III) Listopad 1982 (IV) 16 12 28 18
Lipiec 1990(III) Marzec 1991(I) 8 92 100 108
Marzec 2001(I) — — 120 — 128
Poza drugim i trzecim kwartałem 1991 roku błędne decyzje HMM mo-
gą wynikać z tego, że prawdopodobieństwa przebywania w drugim stanie
są stosunkowo blisko połowy. Jak już wcześniej zostało wspomniane, jest to
sytuacja niepożądana z punktu widzenia skuteczności modelu. Jedynie dla
tych dwóch kwartałów 1991 roku można powiedzieć, że wyniki estymacji są
zdecydowanie błędne. Kolejnym ważnym wnioskiem z tabeli 5 jest, że HMM
w przypadku błędów, znacznie bardziej preferuje fazę ekspansji. Tylko raz w
przypadku recesji model stwierdził, że jest faza ekspansji (na podstawie kry-
terium P (xt = 2|Yt ) < 0, 5), a w pozostałych przypadkach było na odwrót.
Tabela 5: Zestawienie błędów między stanami gospodarki datowanymi przez NBER a tymi gene-
rowanymi przez MSM dla wychwytywania zwrotów koniunktury.
okres P (xt = 2|Yt ) NBER
1970:3 0, 38 recesja
1975:2 0, 573 ekspansja
1981:2 0, 532 ekspansja
1991:2 0, 717 ekspansja
1991:3 0, 7 ekspansja
1991:4 0, 525 ekspansja
4 ZAKOŃCZENIE 41
4 Zakończenie
W pracy tej osiągnęliśmy dwa ważne cele. Opisaliśmy mianowicie w skrócie
ogólną teorię ukrytych modeli Markowa. Prezentując ponadto ogólne metody
estymacyjne. Po drugie przedstawiliśmy niektóre szczególnie ważne podkla-
sy ukrytych modeli Markowa, których wykorzystanie w modelowaniu stało
się w ostatnich latach szczególnie popularne. Przedstawione zastosowania
szybko zdobyły popularność w swoich dziedzinach. Dzięki opisowi szerokie-
go wachlarza zastosowań, zdołaliśmy pokazać elastyczność ukrytych modeli
Markowa w analizie najprzeróżniejszych zjawisk zachodzących w przyrodzie.
Skupiliśmy się w tej pracy na dwustanowych HMM. Modele tego ty-
pu szczególnie często pojawiają się w najróżniejszych zastosowaniach. Jak
staraliśmy się pokazać, mają one często głęboką interpretację na gruncie teo-
retycznym, zawsze jednak dobrze sprawdzały się na gruncie empirycznym.
Ponadto dwustanowe ŁM można łatwo badać pod kontem ich najprzeróż-
niejszych własności granicznych i dla skończonej ilości obserwacji skończenie.
Jest to bardzo ważne, gdyż HMM dziedziczy własności takie jak stacjonar-
ność i ergodyczność właśnie po swoim ukrytym procesie.
Literatura
[1] P.S. Albert. A two–state markov mixture model for a time series of
epileptic seizure counts. Biometrics, 47:1371–1381, 1991.
LITERATURA 42
[3] A. Azzalini, A.W. Bowman. A loook at some data on the old faithful
geyser. Appl. Statist., 39:357–365, 1990.
[8] L.E. Baum, G.R. Sell. Growth transformations for functions on mani-
folds. Pacific J. Math, 27:211–227, 1968.
[11] A.F. Burns, W.C. Mitchell. Measuring business cycles. NBER, New
York, 1946.
[13] G.A. Churchill. Stochastic models for heterogeneus dna sequences. Bull.
Math. Biol., 51:79–94, 1989.
[14] G.A. Churchill. Hidden markov chains and the analysis of genome
structure. Computers Chem., 16:107–115, 1992.
[16] R.J. Elliot, L. Aggoun, J.B. Moore. Hidden Markov Models: Estimation
and control. Springer, New York, 1995.
[20] J.D. Hamilton. Time series analysis. Princeton University Press, Prin-
ceton, New Jersey, 1994.
[23] C.-J. Kim. Dynamic linear models with markov switching. Journal of
Econometrics, 60:1–22, 1994.
[24] N.D. Le, B.G. Leroux, M.L. Puterman. Reading reaction: Exact like-
lihood evaluationin a markov mixture model for time series of seizure
counts. Biometrics, 48:317–323, 1992.
LITERATURA 44
[26] S.E. Levison, L.R. Rabiner, M.M. Sondhi. An introduction to the ap-
plication of the theory of probabilistic functions of markov process to
automatic speech recognition. Bell System Tech. J., 62:1035–1074, 1983.
[27] I.L. MacDonald, L.B. Lerer. A time series analysis of trends in firearm–
related homicide and suicide. Int. J. Epidemiol., 23:66–72, 1994.
[28] P.A. Schrodt. Forecasting conflict in the balkans using hidden markov
models. Paper presented at the American Political Science Association
meetings Washington, DC, 1, 2000.