You are on page 1of 103

POLITECHNIKA POZNASKA WYDZIA ELEKTRONIKI I TELEKOMUNIKACJI KATEDRA TELEKOMUNIKACJI MULTIMEDIALNEJ

I MIKROELEKTRONIKI

Semantyczne kodowanie mowy przy bardzo maych prdkociach transmisji.

Damian Modrzyk Promotor: dr in. Maciej Bartkowiak

Pozna 2008

Prac dedykuj: Rodzicom, w podzikowaniu za wieloletni trud woony w wychowanie oraz za wsparcie w cigym deniu do zdobywania wiedzy. Kochanej Annie, za cierpliwo i obecno przy mnie przez ostatni rok. Bardzo dzikuj Panu dr in. Maciejowi Bartkowiakowi, za fachow pomoc, jak okaza mi w trakcie pisania pracy.

Spis treci

Spis treci
Spis oznacze6 1. Wstp. Cel i zakres pracy......8 2. Struktura sygnau mowy.11 2.1 Cechy zwizane z pobudzeniem11 2.2 Cechy zalene od traktu gosowego..12 2.3 Fonemy14 2.3.1 Samogoski..15 2.3.2 Spgoski szczelinowe...17 2.3.3 Spgoski zwarte...19 2.3.4 Spgoski nosowe..20 2.3.5 Spgoski zwarto-szczelinowe......21 2.3.6 Spgoski potwarte23 2.4 Model wytwarzania mowy.....25 3. Przegld technik kodowania mowy dla bardzo maych prdkoci transmisji...28 3.1 Wokoder segmentowy....28 3.2 Wokoder sylabowy.....31 3.3 Wokoder fonetyczny..34 4. Koncepcja semantycznego kodeka mowy..40 4.1 Struktura systemu..41 4.2 Model kodera..44 4.2.1 Ekstrakcja czstotliwoci podstawowej44 4.2.2 Analiza i reprezentacja widma w postaci wspczynnikw MFCC...50 4.2.3 Modelowanie fonemw przy pomocy ukrytych modeli Markowa.56 4.2.4 Rozpoznawanie fonemw...65 4.2.5 Kodowanie binarne strumienia.70 4.3 Model dekodera..72 4.3.1 Wytwarzanie sygnau pobudzenia........73 4.3.2 Rekonstrukcja cech widmowych sygnau........79 4.3.3 Synteza sygnau mowy...83 5. Wyniki symulacji modelu kodeka...91 5.1 Otrzymany strumie.....91

-4-

Spis treci

5.2 Ocena zrozumiaoci otrzymanej mowy...92 5.3 Subiektywna ocena jakoci sygnau zrekonstruowanego...95 6. Zakoczenie..98 Bibliografia100 Dodatek. Prototyp modelu HMM...102

-5-

Spis oznacze

Spis oznacze
ADPCM (ang. Adaptive Differential Pulse Code Modulation) adaptacyjna rnicowa modulacja kodowo-impulsowa CD-HMM (ang. Continous Density Hidden Markov Model) ukryty model Markowa z cigym rozkadem prawdopodobiestw wyjciowych CELP (ang. Code Excited Linear Prediction) predykcja liniowa z wymuszeniem kodowym DC (ang. Direct Current) prd stay, skadowa staa sygnau DCT (ang. Discrete Cosine Transform) dyskretna transformacja kosinusowa DD-HMM (ang. Discrete Density Hidden Markov Model) ukryty model Markowa z dyskretnym rozkadem prawdopodobiestw wyjciowych DFT (ang. Discrete Fourier Transform) dyskretna transformacja Fouriera DMOS (ang. Degradation Mean Opinion Score) test redniej oceny degradacji mowy zdekodowanej DRT (ang. Diagnostic Rhyme Test) diagnostyczny test rymowy, uywany do oceny zrozumiaoci mowy EM (ang. Expectation Maximization) algorytm maksymalizacji wartoci oczekiwanej FFT (ang. Fast Fourier Transform) szybka transformacja Fouriera FSM (ang. Finite State Machine) maszyna stanw o skoczonej sekwencji stanw HMM (ang. Hidden Markov Model) ukryty (niejawny) model Markowa HTK (ang. Hidden Markov Models Toolkit) biblioteka w jzyku C uywana do rozpoznawania mowy, wykorzystujca ukryte modele Markowa IFFT (ang. Inverse Fast Fourier Transform) odwrotna szybka transformacja Fouriera LPC (ang. Linear Predictive Coding) kodowanie oparte na predykcji liniowej MAP (ang. Maximum APosteriori Probability) zasada maksymalnego prawdopodbiestwa po zdarzeniu MELP (ang. Mixed Excitation Linear Prediction) liniowe kodowanie predykcyjne z mieszanym pobudzeniem MFCC (ang. Mel-Frequency Cepstral Coefficients) wspczynniki cepstralne w melowej skali czstotliwoci ML (ang. Maximum Likelihood) regua najwikszej wiarogodnoci

-6-

Spis oznacze

MLSA (ang. Mel Log Spectrum Aproximation) filtr aproksymujcy logarytm widma amplitudowego w skali melowej MOS (ang. Mean Opinion Score) test redniej oceny jakoci mowy zdekodowanej PSOLA (ang. Pitch Synchronous Overlap Adding) technika syntezy sygnau mowy polegajca na zakadkowym skadaniu segmentw w sposb synchroniczny, z okresem podstawowym SPTK (ang. Speech Signal Processing Toolkit) biblioteka w jzyku C++ uywana do przetwarzania sygnau mowy SRSB (ang. Speech Recognition Synthesis Based) technika kodowania mowy oparta na rozpoznawaniu i syntezie mowy STFT (ang. Short Time Fourier Transform) krtkookresowa transformacja Fouriera TTS (ang. Text-To-Speech) konwersja tekstu na mow WGN (ang. White Gaussian Noise) szum biay gaussowski

-7-

1. Wstp. Cel i zakres pracy

1. Wstp. Cel i zakres pracy


Ze wzgldu na powszechno komunikacji midzyludzkiej przy pomocy gosu, analiza, modelowanie oraz kodowanie mowy odgrywaj bardzo wan rol w dziedzinie cyfrowego przetwarzania sygnaw. Kompresj mowy definiujemy jako metod zmiany reprezentacji sygnau cyfrowego, ktra skutkuje relatywnie mniejsz potrzebn prdkoci transmisji sygnau, w odniesieniu do reprezentacji bez kodowania. Techniki kodowania mowy znajduj powszechne zastosowanie w przesyaniu sygnau na dalekie odlegoci telekomunikacji konwencjonalnej, radiokomunikacji. Innymi obszarami wykorzystania kompresji s efektywne przechowywanie sygnau oraz szyfrowanie danych. Wspczesne techniki przetwarzania sygnaw akustycznych dwikw muzyki i mowy charakteryzuj si siln zalenoci doboru metody od spodziewanego zastosowania. Projektant podejmujc prb realizacji systemu kodowania sygnau musi wzi pod uwag szereg czynnikw, ktre decyduj o wyborze danego algorytmu. Jednymi z najwaniejszych s dostpna prdko transmisji oraz wymagany poziom jakoci sygnau. Ze wzgldu na obszar zastosowa kompresji sygnau, obecnie wykorzystywane techniki moemy podzieli na trzy kategorie: kodowanie sygnau wysokiej jakoci, gdzie mowa zrekonstruowana praktycznie nie rni si od mowy oryginalnej; kodowanie sygnau w telefonii, wymagany jest tutaj odpowiednio niski strumie binarny, aby zapewni ekonomiczn transmisj mowy, jednak przy zachowaniu odpowiedniego poziomu naturalnoci sygnau; silna kompresja mowy, gdzie zasadniczym celem jest bardzo dua redukcja danych, a degradacja naturalnoci jest tolerowana. W literaturze czsto spotykany jest te podzia koderw mowy ze wzgldu na otrzymywan prdko transmisji. Wyrniamy: kodery o duej przepywnoci powyej 2,4 kbit/s, gdzie nacisk w procesie kodowania pooony jest na otrzymanie sygnau o zadowalajcej jakoci; kodery o maej przepywnoci poniej 2,4 kbit/s, gdzie nacisk kadzie si na stopie kompresji sygnau. W przypadku strumienia poniej 1000 kbit/s mwimy ju o koderze bardzo maej prdkoci transmisji;

-8-

1. Wstp. Cel i zakres pracy

W tej pracy skupiamy si nad implementacj modelu kodeka mowy cechujcego si ekstremalnie niskim strumieniem. Umown granic podziau koderw ze wzgldu na przepywno jest wielko strumienia rwna 2,4 kbit/s, ktr otrzymujemy przez zastosowanie technik z rodziny liniowego kodowania predykcyjnego LPC (ang. Linear Predicitive Coding). Polegaj one na podziale cyfrowego sygnau mowy na krtkie segmenty, ktre s parametryzowane. Kompresja polega na reprezentacji i transmisji sygnau oryginalnego w postaci wspczynnikw filtru analizy. Rekonstrukcja sygnau wykonywana jest przy pomocy filtru syntezy mowy o charakterystyce odwrotnej do filtru analizy. W literaturze algorytm LPC czsto okrela si mianem parametrycznej reprezentacji mowy, gdzie filtr modeluje waciwoci narzdu mowy, ktry jest pobudzany prostym sygnaem syntetycznym. Rozpoznawanie charakterystycznych cech mowy, realizowane w koderze oraz rekonstrukcja sygnau na podstawie przesanych parametrw, dokonywana w dekoderze wyznaczaj pewien paradygmat kodowania, ktry powszechnie przyj si w klasie tzw. wokoderw pozwalajcych otrzyma bardzo mae prdkoci transmisji. Okrelenie kodowania sygnau terminem semantyczne sugeruje cis zaleno algorytmu od znaczenia strumienia danych zawartoci informacyjnej sygnau. W zwizku z tym gwn ide kodowania jest analiza i rozrnianie znaczcych jednostek mowy (akustycznych lub fonetycznych) w postaci sw, sylab czy fonemw. Projektujc model kodeka mowy naley uwzgldni fakt, e transmisja akustycznych jednostek informacji jest granic kompresji sygnau mowy. Przesyanie z kodera do dekodera jakichkolwiek informacji prozodycznych mowy automatycznie zmniejsza efektywno kodowania w sensie otrzymywanego strumienia binarnego. Implementowany algorytm polega na dekompozycji sygnau, na zestaw jednostek fonetycznych o dugoci kilkudziesiciu milisekund, ktrych cechy charakterystyczne s reprezentowane przy pomocy parametrw statystycznych ukrytych modeli Markowa HMM (ang. Hidden Markov Model). W tym przypadku, zamiast wspczynnikw filtru analizy dla danego segmentu mowy transmitowane s indeksy rozpoznanych modeli tzw. fonemw sygnau wejciowego, co skutkuje silniejsz kompresj sygnau, w odniesieniu do kodera LPC. Podczas rekonstrukcji sygnau z rozpoznanych jednostek fonetycznych tracona jest informacja o fazie sygnau oryginalnego, co jest cech charakterystyczn wokoderw o bardzo maej prdkoci transmisji. Jednak przy tak silnej kompresji otrzymanie sygnau o zadowalajcym poziomie naturalnoci jest bardzo trudne i wikszy

-9-

1. Wstp. Cel i zakres pracy

nacisk kadzie si tutaj na zapewnienie podanego poziomu zrozumiaoci mowy zrekonstruowanej. Celem tej pracy dyplomowej jest analiza, porwnanie obecnych metod kodowania mowy przy bardzo maych prdkociach transmisji oraz opracowanie modelu kodeka, ktry pozwoli zweryfikowa wyniki przeprowadzonych bada. Parametrem krytycznym, podczas implementacji algorytmu, ma by przede wszystkim wielko strumienia binarnego, generowanego przez koder. W dalszej czci dysertacji, modele kodera i dekodera maj umoliwi przeprowadzenie serii bada symulacyjnych, pozwalajcych oszacowa efektywno zaimplementowanego algorytmu, a wic wielkoci otrzymanego strumienia, poziomu zrozumiaoci oraz jakoci mowy zrekonstruowanej. W rozdziale drugim pracy magisterskiej zawarty jest opis podstawowych cech sygnau mowy, w kontekcie jego analizy i syntezy. Bardzo istotna jest charakterystyka jednostek akustycznych fonemw. Kolejny rozdzia prezentuje obecnie najpopularniejsze algorytmy kodowania mowy przy bardzo maej prdkoci transmisji. Oglny algorytm kodowania fonetycznego mowy zosta tutaj przedstawiony najobszerniej gdy na podstawie tej techniki, po uwzgldnieniu wad i zalet zosta opracowany model kodeka dla bardzo maych prdkoci transmisji, ktry prezentowany jest w tej pracy dyplomowej. W rozdziale czwartym znajduje si szczegowy opis zastosowanego algorytmu analizy, transmisji oraz syntezy sygnau mowy. Dokadniej, omwiono tutaj metody ekstrakcji czstotliwoci podstawowej, rozpoznawania fonemw, wyjaniono cechy zastosowanego kodera binarnego oraz zaprezentowano sposb wytwarzania sygnau pobudzenia w dekoderze, a nastpnie jego ksztatowania filtrem syntezy. Rozdzia pity prezentuje otrzymane wyniki symulacji zaimplementowanego kodeka mowy, na ktre skadaj si wielkoci strumieni dla poszczeglnych sygnaw testowych oraz subiektywna ocena jakoci i zrozumiaoci mowy zrekonstruowanej. W rozdziale szstym zawarte jest podsumowanie zrealizowanych zada szczegowych pracy dyplomowej oraz otrzymanych wynikw symulacji.

- 10 -

2. Struktura sygnau mowy

2. Struktura sygnau mowy


W rozdziale tym zawarta jest charakterystyka elementw sygnau mowy. Ze wzgldu na natur jego wytwarzania, wprowadzono podzia na cechy zwizane z pobudzeniem oraz cechy zalene od traktu gosowego. Dwiki mowy powstaj w wyniku zmian cinienia powietrza w pucach, ktre powoduj powstanie fali akustycznej wydostajcej si ustami oraz otworem nosowym czowieka. Ta czna cieka, jak pokonuje drgajcy sup powietrza przez ludzkie organy nazywana jest traktem gosowym. Podczas propagacji fali mog by pobudzane struny gosowe, ktre wchodz w stan rezonansu dla czstotliwoci zalenych od ich stanu naprenia. Zachowanie drgajcego strumienia powietrza opisuje si rwnaniem falowym, ktrego charakterystycznymi parametrami s prdko oraz cinienie powietrza [1].

2.1 Cechy zwizane z pobudzeniem


Pierwotny sygna pobudzajcy trakt gosowy to sygna o zrnicowanym rozkadzie energii w dziedzinie czstotliwoci rezonansowych traktu. Pobudzenie moe mie charakter dwiczny lub bezdwiczny, zalenie od mechanizmu jego wytworzenia [2, rozdz.2]: skadniki dwiczne (tony krtaniowe) otrzymywane s w wyniku nagych zmian cinienia, rwnomiernie przepywajcego powietrza z puc, spowodowanych przez periodyczne drgania strun gosowych; energia sygnau mowy jest tutaj przesyana w postaci impulsw; skadniki bezdwiczne (szumy) produkowane s przez turbulencje podczas przepywu powietrza z puc, wystpujce w rnych miejscach traktu gosowego ze wzgldu na zwenie gardowo przeykowe. Wikszo samogosek i niektre spgoski zarwno w jzyku angielskim jak i polskim nale do klasy skadnikw dwicznych mowy np., a, b, d, o, podczas gdy skadniki bezdwiczne to spgoski typu f, s, t, h. Ze wzgldu na rne mechanizmy i miejsca produkcji dwicznych i bezdwicznych elementw mowy w trakcie gosowym, mona take wyrni tzw. skadniki mieszane mowy. Cechuj si one jednoczenie wystpujcymi quasi-periodycznymi drganiami oraz szumowymi turbulencjami strumienia powietrza. Przykadem takiej jednostki akustycznej

- 11 -

2. Struktura sygnau mowy

jest spgoska z. W sensie fonetycznym jest ona sygnaem dwicznym, gdy charakteryzuje si periodycznym pobudzeniem, lecz w kontekcie budowy kodera mowy, jej uzyskanie moliwe jest tylko przy uwzgldnieniu skadnika szumowego. Czstotliwo periodycznych lub quasi-periodycznych drga skadajcych si na fragmenty dwiczne sygnau mowy okrela si mianem czstotliwoci podstawowej (ang. pitch frequency). cilej, jest ona definiowana jako odwrotno odstpw w czasie, pomidzy kolejnymi momentami otwarcia strun gosowych (ang. pitch period). W przypadku mowy ludzkiej czstotliwo podstawowa F0, przyjmuje wartoci z zakresu 50 300 Hz, co odpowiada okresowi podstawowemu z przedziau 3 20 ms [2]. Dla mskiego aparatu mowy typowe s wartoci z dolnej czci tego zakresu, podczas gdy kobiety i dzieci zazwyczaj maj czstotliwo podstawow mowy blisk grnej wartoci granicznej 300 Hz. Rnica ta wynika z odmiennych fizycznych waciwoci strun gosowych oraz aparatu mowy obu pci. Wahania czstotliwoci F0 w trakcie wypowiedzi reprezentuj bardzo istotn informacj prozodyczn mowy, jak jest intonacja. Ludzkie ucho jest bardzo czue na zmiany okresu podstawowego, w porwnaniu z innymi parametrami sygnau mowy. Z tego wzgldu, podczas procesu kodowania mowy, kontur czstotliwoci F0 powinien by wiernie odtworzony w sygnale zrekonstruowanym.

2.2 Cechy zalene od traktu gosowego


Decydujcy wpyw na brzmienie sygnau mowy ma struktura traktu gosowego oraz charakter jego zmian w czasie. Trakt gosowy bardzo czsto modeluje si w postaci szeregu tub o rnej rednicy, przez ktre przepywa strumie powietrza, generowany w pucach. Tuby reprezentuj organy czowieka: krta, przestrze gardow, jzyk, jam ustn oraz otwr nosowy, ktre znajduj si na drodze propagacji (rys.1). Dugo traktu gosowego wynosi u dorosego mczyzny ok. 17 cm na odcinku gonia jama ustna, oraz ok.13 cm na odcinku mikkie podniebienie otwr nosowy. Przewenia w rnych miejscach toru powoduj powstawanie rezonansw, ktrych skutkiem s lokalne maksima obwiedni widma amplitudowego nazywane formantami. Odpowiadajce im czstotliwoci okrelamy mianem formantowych. Wyrniamy trzy gwne czstotliwoci formantowe, ktre pooone s w okolicach 400 Hz (F1), 900 Hz (F2) i 2600 Hz (F3) [2]. Lokalizacja rezonansw cile zaley caej jego dugoci. od mwcy i jest ona nierwnomierna, gdy przekrj traktu gosowego nie jest jednakowy na

- 12 -

2. Struktura sygnau mowy

MIKKIE PODNIEBIENIE

OTWR NOSOWY

MOWA JAMA USTNA

GARDO JZYK
STRUNY GOSOWE

PUCA

SIA MINI

Rys.1. Schemat blokowy ludzkiego aparatu mowy wg [3].

Rys.2. Logarytm krtkookresowego widma amplitudowego sygnau mowy oraz jego obwiednia ujawniajca czstotliwoci formantowe.

- 13 -

2. Struktura sygnau mowy

Najwiksze odchylenia wartoci czstotliwoci wystpuj dla formantu F2 nawet do 1500 Hz. Przykadowy rozkad rezonansw formantowych pokazany jest na rys.2. Przedstawiony wykres pozwala wyodrbni pasma rezonansowe danego sygnau mowy dla wartoci czstotliwoci rwnych w przyblieniu F1 = 300 Hz, F2 = 1400 Hz oraz F3 = 2700 Hz. Wyranie widoczne jest take tzw. czwarte pasmo formantowe F4 = 3400 Hz. Dodatkowo mona zauway, e regularne prki harmonicznych oddalone s od siebie o warto czstotliwoci podstawowej okoo 100 Hz. Sposb przepywu strumienia powietrza przez trakt gosowy, oraz liczba i miejsce ogranicze wystpujcych na jego drodze maj wpyw na artykulacj. Aby wyprodukowa rne rodzaje dwiku ludzki aparat mowy przyjmuje wiele konfiguracji, ktre modyfikuj generowany sygna pobudzenia. Technika artykulacji poszczeglnych fonemw jest jednym z kryteriw ich klasyfikacji. Czsto wprowadza si oglny podzia fonemw na goski otwarte, w ktrych moliwy jest swobodny przepyw powietrza przez trakt gosowy, oraz goski zamknite (zwarte), gdzie w ciece propagacji sygnau pobudzenia znajduj si zapory powietrza. Sposoby artykulacji poszczeglnych gosek s cile zwizane z pooeniem narzdw mowy podczas produkcji dwiku oraz typem sygnau pobudzenia. Szerzej jest to opisane w rozdziale 2.3.

2.3 Fonemy
Fonem definiujemy jako podstawow jednostk akustyczn mowy. Do klasyfikacji fonemw mowy wykorzystuje si cechy odpowiadajcego im sygnau pobudzenia oraz sposb i miejsce artykulacji. Bogata charakterystyka sygnau mowy, wynika wanie z rnorodnoci skadnikw fonetycznych. Moliwe kombinacje fonemw, w rnych kontekstach i dla rnych mwcw, nazywa si alofonami. Fonemy zazwyczaj oznaczane s przy pomocy standardowych znakw alfabetu danego jzyka, gdy reprezentuj brzmienie poszczeglnych gosek w mowie. Dla uwypuklenia fonetycznego charakteru tych symboli w literaturze tematu stosuje si notacj /*/ w odniesieniu do poszczeglnych gosek, np. /a/, /p/, /iy/. Poniej zawarty jest podzia fonemw na klasy, ktry zosta sporzdzony przy uwzgldnieniu kryterium akustycznego oraz kryterium artykulacyjnego klasyfikacji. Przedstawione w tym rozdziale cechy fonemw, zarwno z punktu widzenia akustycznego jak i artykulacyjnego s niezwykle istotne w kontekcie implementacji kodeka mowy dla

- 14 -

2. Struktura sygnau mowy

bardzo maej prdkoci transmisji, ktrego dziaanie ma si opiera na rozpoznawaniu i syntezie mowy.

2.3.1 Samogoski
Samogoski (ang. vowels) to dwiczne skadniki mowy (tony krtaniowe), ktre produkowane s przez periodyczne lub quasi-periodyczne drgania strun gosowych. Podczas generacji samogoski w trakcie gosowym podniebienie mikkie jest uniesione do gry blokujc przepyw drgajcego strumienia powietrza przez odcinek nosowy. Samogoski mog podlega dalszym podziaom ze wzgldu na nastpujce kryteria: pooenie jzyka podczas artykulacji: o samogoski przednie, np. /e/, /i/, /y/; o samogoski rodkowe, np. /a/, /u/; o samogoski tylne, np. /o/; sia oporu powietrza podczas artykulacji: o samogoski wysokie, np. /i/, /u/; o samogoski rednie, np. /e/, /o/; o samogoski niskie, np. /a/; Wykresy na rys.3 i rys.4 zawieraj przebiegi czasowe oraz logarytm widma amplitudowego odpowiednio dla samogoski /a/ oraz samogoski /i/. W obydwu przypadkach czstotliwo prbkowania wynosi 16 kHz. Cech wspln fonemw tej klasy, jest wyranie widoczny dwiczny charakter sygnau. Drgania s periodyczne (samogoska /a/) lub quasi-periodyczne (samogoska /i/). Na wykresach logarytmu widma, wyranie zarysowane s pasma formantowe analizowanych fragmentw mowy. Ze wzgldu na impulsowy charakter pobudzenia, widmo amplitudowe posiada wiele skadowych wysokoczstotliwociowych o znaczcych wartociach amplitudy. Zazwyczaj samogoski cechuj si stosunkowo dugim czasem trwania. Przykadowo dla samogoski rodkowej ten czas wynosi ok. 140 ms, natomiast dla samogoski przedniej rwny jest ok. 75 ms. Rnica pomidzy samogosk /a/ oraz /i/ polega na tym, e dla tej pierwszej charakter pobudzenia jest wyranie rezonansowy. Obserwujemy to w postaci bardziej regularnego przebiegu czasowego, co ma take odzwierciedlenie w wikszej amplitudzie skadowych wysokoczstotliwociowych widma amplitudowego.

- 15 -

2. Struktura sygnau mowy

Rys.3. Przebieg czasowy oraz logarytm widma amplitudowego fonemu /a/.

Rys.4. Przebieg czasowy oraz logarytm widma amplitudowego fonemu /i/.

- 16 -

2. Struktura sygnau mowy

Samogoska wysoka /i/ cechuje si nieregularnymi drganiami, dla ktrych mona dostrzec powolny spadek amplitudy o charakterze wykadniczym stan ustalony. W wielu jzykach spotykane s fonemy skadajce si z dwch samogosek, tzw. dyftongi (ang. diphthongs). Ich waciwoci czasowe oraz czstotliwociowe s bardzo podobne do fonemw jednogoskowych z tej grupy. Przykadem dyftongw s dwiki /ai/, /ou/, /ei/ czsto spotykane w amerykaskiej odmianie jzyka angielskiego. Powstaj one, gdy podczas artykulacji struktura traktu gosowego zmienia si z konfiguracji odpowiadajcej pierwszej samogosce, do konfiguracji powodujcej powstanie drugiej samogoski, wchodzcej w skad dyftongu. Fonemy z tej grupy czsto definiuje si rwnie jako pojedyncze samogoski, o dugim czasie trwania i zmiennym przebiegu artykulacji, co powoduje, e s one syszane przez ludzkie ucho w postaci dwch dwikw.

2.3.2 Spgoski szczelinowe


Spgoski szczelinowe, nazywane take frykatywnymi (ang. fricatives) powstaj w wyniku turbulencji, tar oraz szumw strumienia powietrza, przepywajcego przez wskie szczeliny midzy czciami narzdu mowy. Brzmienie tych spgosek jest zdeterminowane przez pooenie ust oraz jzyka. W ramach tej klasy wystpuj zarwno goski dwiczne jak i bezdwiczne. Przykadem fonemw nalecych do tej grupy s goski /f/ oraz /v/. W klasie spgosek szczelinowych czsto dokonuje si dalszych podziaw ze wzgldu na rodzaj narzdu mowy, ktry bierze bezporedni udzia w produkcji dwiku. Wyrnia si m.in. spgoski szczelinowe wargowo zbowe, jzyczkowe, gardowe, dwuwargowe itd. Na rys.5 i rys.6 przedstawione s przebiegi czasowe oraz widma amplitudowe odpowiednio dla fonemu /f/ oraz /v/ (czstotliwo prbkowania rwna 16 kHz). Spgoska /f/ cechuje si typowymi waciwociami szumowymi. Jej przebieg czasowy jest aperiodyczny i posiada ma amplitud waha. Widmo amplitudowe rwnie charakteryzuje si bezdwiczn natur. Nie zawiera adnych regularnie oddalonych od siebie prkw rezonansowych. Fonem /v/ jest dwicznym odpowiednikiem spgoski /f/. Pooenie narzdw artykulacji w trakcie jej generacji jest identyczne, zmienia si natomiast charakter pobudzenia. Przebieg czasowy jest krtki, periodyczny oraz wyranie widoczny jest na nim stan ustalony. Amplituda drga maleje wg krzywej wykadniczej.

- 17 -

2. Struktura sygnau mowy

Rys.5. Przebieg czasowy oraz logarytm widma amplitudowego fonemu /f/.

Rys.6. Przebieg czasowy oraz logarytm widma amplitudowego fonemu /v/.

- 18 -

2. Struktura sygnau mowy

Widmo amplitudowe ma charakterystyk bardzo zblion do filtru dolnoprzepustowego. Zawarto wyszych skadowych harmonicznych w spgoskach szczelinowych dwicznych jest bardzo maa, gdy s one silnie tumione przez trakt gosowy.

2.3.3 Spgoski zwarte


Spgoski zwarte (ang. stop consonants, plosives), zwane take zwarto-wybuchowymi powstaj, gdy podczas artykulacji nastpuje cakowita blokada przepywu powietrza przez trakt gosowy, a dokadniej jam ustn i nosow, po ktrej nastpuje nage zwolnienie zgromadzonego strumienia powietrza. Pierwszy etap artykulacji nazywany jest faz zwarcia implozji, po ktrej nastpuje faza eksplozji. Dwiki mowy w ten sposb produkowane s krtkie i maj charakter transientw. Fonemy z tej klasy mog by zarwno dwiczne jak i bezdwiczne, zalenie od charakteru pobudzenia. Dodatkowo wyrnia si kilka podtypw spgosek zwartych, ktre rni si miejscem realizacji fazy zwarcia. Przykadem spgoski zwarto-wybuchowej jest fonem /t/, ktrego przebieg czasowy oraz widmo amplitudowe przedstawione s na rys.7.

Rys.7. Przebieg czasowy oraz logarytm widma amplitudowego fonemu /t/. Czstotliwo prbkowania Fs = 16 kHz.

- 19 -

2. Struktura sygnau mowy

Jak wida na zamieszczonych wykresach, fonemy tej klasy wystpuj w sygnale mowy w postaci pojedynczych impulsw o ujemnej wartoci amplitudy, co odpowiada fazie implozji, po ktrych pojawia si pojedynczy dodatni impuls reprezentujcy faz eksplozji. Ze wzgldu na transientowy charakter tych spgosek, s one cile uzalenione od fragmentw mowy wystpujcych, na krtko przed i po spgoskach zwartowybuchowych. Ich kontekst fonetyczny moe spowodowa jeszcze wiksz redukcj czasu trwania tych gosek oraz ich energii. Widmo amplitudowe fonemw zwartych cechuje si typowymi waciwociami sygnau o skadnikach mieszanych (dwiczno-szumowych). Wyrany prek widma dla niskich czstotliwoci reprezentuje generowany impuls, natomiast losowy rozkad energii dla wysokich czstotliwoci jest zwizany z szumowym charakterem sygnau, jaki otrzymywany jest w wyniku nagego zwolnienia powietrza w fazie eksplozji.

2.3.4 Spgoski nosowe


Spgoski nosowe (ang. nasals) s to fonemy dwiczne produkowane podczas przepywu strumienia powietrza przez trakt gosowy, w ktrym odcinek ustny jest zwarty w wyniku opuszczenia podniebienia mikkiego i fala akustyczna propaguje si przez odcinek nosowy. Ze wzgldu na specyficzne waciwoci aparatu mowy, spgoski nosowe charakteryzuj si najmniejsz energi spord wszystkich spgosek dwicznych. Odmienny sposb propagacji fali wzdu traktu gosowego jest take widoczny w postaci nietypowego ksztatu widma generowanego dwiku. Specyficzna konfiguracja traktu gosowego w przypadku spgosek nosowych powoduje powstawanie tzw. zer w charakterystyce czstotliwociowej. Ta cecha jest powszechnie wykorzystywana w modelowaniu i kodowaniu dwikw tej klasy. Przykadem fonemu nosowego jest spgoska /m/, ktrej przebieg czasowy i widmo amplitudowe znajduj si na rys.8. Przedstawione wykresy ilustruj dwiczny charakter spgosek nosowych. Ich przebieg czasowy jest krtki i skada si z regularnych drga, ktre zawieraj jedynie harmoniczne niskiego rzdu. Na wykresie logarytmu widma amplitudowego jest to widoczne w postaci prkw, wystpujcych dla maych wartoci czstotliwoci. Specyficzne dla fonemw nosowych minimum lokalne w charakterystyce czstotliwociowej sygnau wystpuje w okolicach 2500 Hz.

- 20 -

2. Struktura sygnau mowy

Rys.8. Przebieg czasowy oraz logarytm widma amplitudowego fonemu /m/. Czstotliwo prbkowania Fs = 16 kHz.

2.3.5 Spgoski zwarto-szczelinowe


Spgoski zwarto-szczelinowe (ang. affricates) powstaj w wyniku poczenia fonemw zwarto-wybuchowych i szczelinowych. Podczas artykulacji we wstpnej fazie dochodzi do cakowitej blokady przepywu fali akustycznej w trakcie gosowym, po czym narzdy mowy tworz dostatecznie wsk szczelin, by podczas propagacji zwolnionego strumienia powietrza wytworzy si szum i tarcie. Element szczelinowy zastpuje tutaj faz eksplozji. Przykadem fonemu z omawianej grupy jest spgoska /ch/ - kombinacja spgosek /t/, /sh/. Jej przebieg czasowy oraz charakterystyka czstotliwociowa przedstawione s na rys.9. Na obydwu zamieszczonych wykresach wyranie widoczne s faza implozji (zwarcia) strumienia powietrza oraz faza szumu (tarcia) podczas przejcia fali akustycznej przez szczelin. Pierwszy etap charakteryzuje si pobudzeniem impulsowym o duych wahaniach amplitudy, podczas gdy w dalszej czci sygna jest bezdwiczny o maej amplitudzie.

- 21 -

2. Struktura sygnau mowy

Rys.9. Przebieg czasowy oraz logarytm widma amplitudowego fonemu /ch/. Czstotliwo prbkowania Fs = 16 kHz.

Widmo amplitudowe rwnie reprezentuje mieszany charakter sygnau. Dla czstotliwoci w dolnym zakresie skali (poniej 500 Hz) mona wyrni rwno oddalone prki, ktre odzwierciedlaj rezonansowy skadnik fonemu. W dalszej czci widma wyranie widoczny jest szumowy charakter sygnau w postaci losowych waha amplitudy, atwo obserwowalnych w wskich przedziaach czstotliwoci.

- 22 -

2. Struktura sygnau mowy

2.3.6 Spgoski potwarte


Spgoski potwarte, nazywane czsto psamogoskami (ang. semivowels) s wytwarzane, gdy jednoczenie w pewnym miejscu traktu gosowego powstaje zwarcie, natomiast w innym miejscu moliwy jest swobodny przepyw powietrza. Z artykulacyjnego punktu widzenia fonemy te le na granicy spgosek i samogosek. Reprezentatywnymi fonemami z tej grupy s /r/, /l/, /w/, /y/ czy /j/. Dynamika tych dwikw oraz ich brzmienie s bardzo zrnicowane. Co wicej, cile zaley to od ich kontekstu fonetycznego w sygnale mowy. Przykadowo fonemy /r/ i /l/ s produkowane w wyniku stabilnych drga supa powietrza, podczas gdy fonemy /w/, /y/ s bardzo dynamicznymi dwikami, powstajcymi przez zmian konfiguracji traktu gosowego w trakcie ich trwania. Ze wzgldu na powysze cechy przedstawianej grupy fonemw, najlepsz informacj o ich widmie amplitudowym daje reprezentacja czasowo-czstotliwociowa, otrzymana przez obliczenie krtkookresowej transformacji Fouriera STFT (ang. Short Time Fourier Transform) w krtkich blokach przesuwanych wzdu sygnau. Przykadowe rezultaty takiego przeksztacenia dla sekwencji fonemw /iy/-/r/-/ae/ oraz /ae/-/r/-/iy/ s widoczne w postaci spektrogramw, odpowiednio na rys.10 i rys.11. Na podstawie przedstawionych spektrogramw moliwe jest wyrnienie czstotliwoci podstawowej wypowiadanego fragmentu mowy, ktry widoczny jest w postaci pierwszego, poziomego prka na wykresie. Jednak najbardziej istotn cech w kontekcie rozpoznawania spgosek potwartych, jest rozkad pasm rezonansowych. Formanty s reprezentowane na spektrogramie w formie grup skadowych harmonicznych o najwikszej energii (ciemne smugi). Trajektoria formantu F1 jest najbardziej stabilna widoczna jako pozioma smuga o duej energii dla czstotliwoci ok. 500 Hz. Najwikszym wahaniom wartoci ulega natomiast formant F2 grupa skadowych z zakresu 1000 2000 Hz o duej energii, ktrej kontur znacznie rni si w obydwu spektrogramach. Szczeglnie jest to zauwaalne dla chwil czasowych poniej 100 ms. Mona to uzasadni wystpowaniem w tym fragmencie mowy innych fonemw kontekstowych dla spgoski /r/. ledzenie trajektorii rezonansw formantowych oraz ekstrakcja innych cech sygnau mowy ze spektrogramw bardzo uatwia analiz widmow oraz rozpoznawanie poszczeglnych jednostek fonetycznych.

- 23 -

2. Struktura sygnau mowy

Rys.10. Spektrogram krtkookresowy sekwencji fonemw /iy/-/r/-/ae/.

Rys.11. Spektrogram krtkookresowy sekwencji fonemw /ae/-/r/-/iy/.

- 24 -

2. Struktura sygnau mowy

2.4

Model wytwarzania mowy

Zakadajc chwilow stacjonarno sygnau w ramkach analizy wytwarzanie mowy mona zamodelowa jako proces pobudzania filtru syntezy okresowym cigiem impulsw lub szumem [1]. Schemat blokowy modelu wytwarzania mowy przedstawiony jest na rys.12.
POBUDZENIE DWICZNE WSPCZYNNIKI FILTRU

F0 WZMOCNIENIE

MOWA UKAD DECYZYJNY FILTR SYNTEZY

POBUDZENIE BEZDWICZNE

Rys. 12. Model wytwarzania sygnau mowy.

Filtr syntezy jest ukadem liniowym, o parametrach zmiennych w czasie, ktry modeluje czn wypadkow charakterystyk goni, traktu gosowego oraz charakterystyk emisyjn. rdem energii dla filtru jest generator pobudzenia, ktry modeluje zarwno tony krtaniowe jak i skadniki szumowe wytwarzane w naturalnym procesie produkcji mowy. Fragmenty dwiczne modelowane s przez okresowy lub quasi-okresowy cig impulsw, natomiast fragmenty bezdwiczne reprezentuje si zazwyczaj przez aperiodyczny sygna losowy. Informacja o charakterze dwicznym, bezdwicznym lub mieszanym pobudzenia wyznaczana jest na podstawie czstotliwoci podstawowej (F0) oraz poziomu gonoci poszczeglnych blokw kodowanego sygnau mowy. Na tej podstawie nastpuje przeczenia typu pobudzenia generowanego w rdle. Prostym przykadem zastosowania tego modelu wytwarzania mowy jest technika kodowania liniowo-predykcyjnego LPC, naleca do rodziny technik wokoderowych. Filtr syntezujcy jest tutaj ukadem liniowym, o transmitancji odwrotnej do charakterystyki czstotliwociowej filtru analizy (1):

- 25 -

2. Struktura sygnau mowy

H ( z) =

G 1 ak z
k =1 P k

1 1 A( z )

(1)

gdzie:
G wzmocnienie syntetycznego pobudzenia

a k wspczynniki filtru analizy

P rzd predykatora
Transmitancja ukadu syntezy posiada jedynie bieguny w dziedzinie zmiennej , podczas gdy dla ukadu analizy okrelone s tylko zera transmitancji. Std atwo mona otrzyma charakterystyk filtru dekodera przez odwrotno charakterystyki filtru analizy. Zadaniem kodera jest odpowiednia adaptacja filtru analizujcego do zmieniajcych si waciwoci traktu gosowego, aby po podaniu na jego wejcie sygnau mowy otrzyma bd predykcji o najmniejszej energii (2):

e 2 (n) = [ s (n) a k s (n k )]2


k =1

(2)

gdzie:

s (n) bieca prbka mowy s (n k ) prbka mowy wystpujca k chwil wczeniej

Do rekonstrukcji sygnau w dekoderze konieczne jest przesanie informacji o okresie drga cigu impulsw pobudzenia, wartoci wzmocnienia sygnau oraz wspczynnikw filtru a k . W zalenoci od wartoci przyjtych parametrw analizy LPC, jak dugo okna, czy rzd predykatora, technika ta umoliwia otrzymanie wielkoci strumienia wyjciowego, w zakresie od kilku do kilkunastu kbit/s. W wielu odmianach wokoderw blok syntezy sygnau wzorowany jest na modelu wytwarzania mowy zaczerpnitym z algorytmu LPC. Podobne podejcie zastosowano rwnie podczas budowy systemu kodowania, ktry jest tematem tej pracy. W opracowanym modelu kodeka ukad generacji sygnau pobudzenia oraz filtr syntezy s kluczowymi elementami dekodera mowy. Metoda analizy sygnau, transmisja parametrw midzy koderem, a dekoderem oraz typ parametrw odbiegaj natomiast do znacznie od idei kodowania predykcyjnego LPC. Jest to zwizane z ograniczon prdkoci transmisji.

- 26 -

2. Struktura sygnau mowy

Chcc otrzyma strumie mniejszy ni 2,4 kbit/s (standard LPC-10), nie moemy przesya parametrw analizy mowy w standardowej postaci, tak jak odbywa si to w kodowaniu liniowo-predykcyjnym. Rozwizanie tego problemu jest tematem pracy magisterskiej, natomiast cechy kodera LPC i jego efektywno stanowi bardzo wany kontekst dla oceny zaimplementowanego systemu.

- 27 -

3. Przegld technik kodowania mowy dla bardzo maych prdkoci transmisji

3. Przegld technik kodowania mowy dla bardzo maych prdkoci transmisji


Za zakres strumieni koderw dla bardzo maych prdkoci transmisji przyjmuje si wartoci poniej 1000 bit/s. W literaturze spotyka si trzy gwne techniki kodowania sygnau mowy, ktre pozwalaj na otrzymanie takiej przepywnoci. Rozdzia ten zawiera charakterystyk tych metod, z uwzgldnieniem wad i zalet danego rozwizania. Wysoka kompresja sygnau wymusza stosowanie innych technik kodowania ni te powszechnie spotykane w kodekach MELP (ang. Mixed Excitation Linear Prediction), CELP (ang. Code Excited Linear Prediction) czy ADCPM (ang. Adaptive Differential Pulse Code Modulation). Jest to spowodowane faktem, e uycie klasycznych algorytmw przy mocno ograniczonej prdkoci transmisji, wymusza ekstremalnie siln kwantyzacj, co nie pozwala na prawidowe przesanie wszystkich parametrw sygnau niezbdnych do jego rekonstrukcji. Obecnie stosowane techniki kodowania mowy przy bardzo maych prdkociach transmisji oparte s na analizie i syntezie sygnau SRSB (ang. Speech Recognition Synthesis Based). Takie podejcie pozwala na uzyskanie bardzo maych strumieni przy zachowaniu zadowalajcego poziomu zrozumiaoci oraz naturalnoci.

3.1 Wokoder segmentowy


Gwn ide kodowania segmentowego mowy jest podzia sygnau na spjne fragmenty o zmiennej dugoci, ktre uprzednio kwantowane, przechowywane s w specjalnej bazie danych. Dla nieznanej wypowiedzi dokonuje si wyszukiwania i rozpoznawania fragmentw sygnau, ktre najlepiej pasuj do wzorcw przechowywanych w bazie segmentw. Zawarto takiej bazy moe by rna w zalenoci od zastosowanego podejcia, tzn. za jednostk segmentacji przyjmuje si cae ramki sygnau lub segmenty odpowiadajce poszczeglnym fonemom, czy sylabom. Im duszy segment stanowi jednostk, tym wyjciowy strumie jest mniejszy, ale jednoczenie ronie zoono obliczeniowa zwizana z jego rozpoznaniem. Kryterium dopasowania moe by np. energia segmentu, jego czstotliwo podstawowa, bd inna cecha. Koder segmentowy dokonuje rozpoznania jednostek mowy, ktre wchodz w skad oryginalnego sygnau i przesya t informacj do dekodera.

- 28 -

3. Przegld technik kodowania mowy dla bardzo maych prdkoci transmisji

Synteza mowy polega na pobraniu z bazy danych rozpoznanych fragmentw sygnau oraz ich poczeniu. Niezbdna jest do tego tekstowa transkrypcja zakodowanego sygnau, gdy umoliwia ona wybr odpowiednich jednostek z bazy oraz odtworzenie struktury czasowej sygnau. Jeden z najbardziej popularnych algorytmw kodowania segmentowego mowy zosta zaproponowany przez Ki-Seung Lee i Richarda Coxa w [4]. Wedug nich koder segmentowy powinien by wykorzystywany w aplikacjach gdzie parametrem krytycznym nie jest zoono obliczeniowa, oraz ilo pamici potrzebna na przechowywanie bardzo duej bazy fragmentw mowy. Efektywno kodowania algorytmu przedstawionego przez Lee i Coxa kryje si wanie w liczbie zgromadzonych fragmentw wypowiedzi, ktre uywa si do syntezy sygnau. Prezentowany w cytowanej pracy kodek segmentowy pozwala na uzyskanie strumienia ok. 800 bit/s. Jego zasada dziaania opiera si na rozpoznawaniu mowy i konwersji tekstu do mowy TTS (ang. Text-To-Speech). Technika ta polega na czeniu rozpoznanych segmentw sygnau, reprezentowanych w postaci jednostek (indeksw, znakw itp.), branych z obszernych baz danych. W wyniku takiego zoenia jednostek otrzymujemy przebieg, ktry dodatkowo wzbogacany jest informacj o prozodii sygnau, a wic uwzgldniane s: dugoci trwania segmentw mowy; gono segmentw; okres drga goni (ang. pitch period); czstotliwoci formantowe.

Koder segmentowy mona atwo przedstawi w postaci systemu zawierajcego bardzo bogat ksik kodow (baz wypowiedzi), oraz mechanizmy wyznaczajce dodatkowe parametry prozodyczne sygnau, ktre su do zminimalizowania residuum pomidzy sygnaem oryginalnym a odtworzonym. Schemat takiego kodeka, na podstawie pracy [4], pokazany jest na rys.13. W ramach ekstrakcji cech wykonywana jest estymacja czstotliwoci podstawowej traktu gosowego, estymacja amplitudy oraz reprezentacja cech widma w postaci wspczynnikw cepstrum, w melowej skali czstotliwoci MFCC (ang. Mel-Frequency Cepstral Coefficients). Reprezentacja cech sygnau w postaci wspczynnikw MFCC jest powszechnie spotykan technik stosowan w kodowaniu mowy dla bardzo maych prdkoci transmisji.

- 29 -

3. Przegld technik kodowania mowy dla bardzo maych prdkoci transmisji

Czstotliwo

podstawow

sygnau

wyznacza

si przy

wykorzystaniu

jednego

z algorytmw prezentowanych w rozdziale 4.2.1. Wokoder segmentowy zawiera dwie bazy danych. Pierwsza suy do rozpoznawania segmentw (jednostek) wspczynnikw MFCC, w odniesieniu do wzorcw przechowywanych w systemie. Te wzorce parametrw mel-cepstrum musz by wyznaczane z sygnaw przechowywanych w bazie, z zachowaniem tych samych parametrw, ktre s wykorzystywane do analizy sygnau wejciowego.
SYGNA WEJCIOWY

EKSTRAKCJA CECH SYGNAU

CZSTOTLIWO F0 AMPLITUDA

SELEKCJA JEDNOSTEK

BAZA CECH SYGNAU

KODER DEKODER
DOBR SEGMENTW BAZA FRAGMENTW SYGNAU

MODYFIKACJA CZSTOTLIWOCI I AMPLITUDY

KONKATENACJA

SYGNA WYJCIOWY

Rys. 13. Schemat kodeka segmentowego.

- 30 -

3. Przegld technik kodowania mowy dla bardzo maych prdkoci transmisji

Dekoder segmentowy mowy posiada drug baz danych, w ktrej pod odpowiednimi indeksami umieszczone s oryginalne fragmenty mowy, wzite z duej liczby wypowiedzi konkretnego mwcy. Ten fakt wskazuje na cis zaleno cech sygnau wyjciowego od mwcy, ktry generuje wypowiedzi skadajce si na baz segmentw. Jak wida na rys.13, kodowana jest jedynie informacja o rozpoznanych jednostkach parametrw oraz informacja o czstotliwoci i obwiedni sygnau. Te waciwoci przetwarzania decyduj o bardzo maym strumieniu binarnym. Cech charakterystyczn wokoderw segmentowych jest rekonstrukcja sygnau bez wykorzystania filtrw syntezy. Sygna jest odtwarzany przez proste zestawienie segmentw mowy, wzitych z bazy, ktre zostay uprzednio zmodyfikowane przez zdekodowan informacj o czstotliwoci F0 dla danego segmentu, oraz jego wzmocnienie. Sygna zrekonstruowany otrzymywany z wokodera segmentowego ma jako porwnywaln z konwencjonalnymi koderami mowy dla maych przepywnoci, np. MELP 2,4 kbit/s, przy czym otrzymywany strumie waha si w zakresie 400 1000 bit/s. Poziom naturalnoci i zrozumiaoci jest zadowalajcy, co jest okupione du zoonoci obliczeniow algorytmu, oraz rozmiarami baz danych kodera i dekodera.

3.2 Wokoder sylabowy


Kodowanie sylabowe polega na analizie wejciowego strumienia i rozpoznawaniu jednostek sygnau mowy, ktrymi s w tym przypadku sylaby. Rozrnianie jednostek na poziomie fonetycznym jest jedn z podstawowych cech, ktre odrniaj koder sylabowy od przedstawionego w rozdziale 3.1 kodera segmentowego. Zastosowanie sylab jako jednostek mowy, ktre poddaje si analizie i rozpoznawaniu wynika z faktu, i bardzo czsto, dla konkretnego jzyka, wystpuj one niezalenie od siebie w wypowiedziach. Kechu Yi i pozostali w [5] wskazuj, e ta niezaleno ma wpyw na pogorszenie poziomu zrozumiaoci i naturalnoci zrekonstruowanej mowy. W swojej pracy sugeruj konieczno kodowania informacji o podziale sowa na sylaby jako bardzo istotnego skadnika prozodycznego sygnau. Nie jest to jedyna informacja dodatkowa, jak przesya si do dekodera. W celu odtworzenia sygnau o zadowalajcej jakoci naley, podobnie jak dla wokodera segmentowego, kodowa kontur czstotliwoci podstawowej, amplitud segmentw odpowiadajcych danej sylabie, a take czas trwania skadowych dwicznych, czy kontekst sylab.

- 31 -

3. Przegld technik kodowania mowy dla bardzo maych prdkoci transmisji

Kodowanie sylabowe, co mona take wnioskowa z [5], jest silnie zalene od skadni jzyka. Schemat blokowy kodera i dekodera segmentowego znajduje si odpowiednio na rys.14 i rys.15.

BAZA MODELI HMM DLA SYLAB

TABLICA INDEKSW SYLAB

SYGNA WEJCIOWY

STRUMIE WYJCIOWY ROZPOZNAWANIE SYLAB KODER PARAMETRYCZNY

ANALIZA PROZODYCZNA

Rys. 14. Struktura kodera sylabowego.

TABLICA INDEKSW SYLAB

BAZA FRAGMENTW MOWY

STRUMIE WEJCIOWY DEKODER PARAMETRYCZNY SYNTEZA MOWY

SYGNA WYJCIOWY

MODYFIKACJA PROZODII SYGNAU

Rys. 15. Struktura dekodera sylabowego.

- 32 -

3. Przegld technik kodowania mowy dla bardzo maych prdkoci transmisji

Jak przedstawiono to na schematach, w koderze nastpuje rozpoznawanie sylab zalene od mwcy. W tym procesie korzysta si ze wzorcw sylab reprezentowanych w postaci ukrytych modeli Markowa HMM (ang. Hidden Markov Model). Na tych strukturach opiera si wikszo algorytmw rozpoznawania mowy. Ze wzgldu na podejcie analizy przez resyntez znalazy one rwnie szerokie zastosowanie w kodowaniu mowy dla bardzo niskich prdkoci transmisji. acuchy Markowa przedstawiane w postaci sekwencji stanw, prawdopodobiestw przej midzy tymi stanami oraz prawdopodobiestw wyj z poszczeglnych stanw bardzo dobrze sprawdzaj si w modelowaniu charakterystycznych cech sygnau mowy sylab, fonemw. Dokadna analiza tego zastosowania modelu Markowa zawarta jest w rozdziale 4.2.3. Kechu Yi i pozostali [5] stosuj w swoim modelu kodeka wzorce sylab skadajce si z dwch dwustanowych modeli HMM dla kadej psylaby oraz korzystaj z algorytmu Viterbiego do wyznaczania prawdopodobiestw wyjciowych rozkadw Gaussa dla poszczeglnych stanw modeli. Dodatkowo w koderze z fragmentw sygnau odpowiadajcym poszczeglnym sylabom ekstrahowane s informacje prozodyczne, jak kontur czstotliwoci podstawowej, czas trwania skadowej dwicznej sylaby, czy znaczniki pocze midzy sylabami (stanowi istotn informacj o podziale sowa). Rozpoznane sylaby reprezentowane s w postaci indeksw tablicy skojarzonej z baz modeli. Ta informacja wraz z cechami prozodycznymi sygnau wejciowego kodowana jest parametrycznie, tzn. poszczeglne skadniki strumienia maj przydzielon inn dugo sowa kodowego. Dekoder sylabowy dokonuje rekonstrukcji sygnau poprzez zestawienie rozpoznanych sylab, ktrych przebiegi czasowe przechowywane s w bazie danych. Do syntezy sygnau stosuje si tutaj dobrze znany w przetwarzaniu mowy algorytm PSOLA (ang. Pitch Synchronous Overlap Adding) [6]. Jest to technika, ktra polega na odtwarzaniu sygnau cigego poprzez czenie nakadajcych si fragmentw sygnau, ktrych dugo zaley od zmieniajcego si okresu podstawowego sygnau. Czstotliwo generowania takich fragmentw czasowych sygnau, oraz poziom ich wzajemnego nakadania si (wielko przesunicia okresu podstawowego) jest regulowana przez odtworzon w dekoderze czstotliwo podstawow. Rekonstrukcja czstotliwoci F0 oraz pozostaych cech sygnau skada si na modyfikacj prozodii syntezowanego sygnau.

- 33 -

3. Przegld technik kodowania mowy dla bardzo maych prdkoci transmisji

Wokoder sylabowy umoliwia otrzymanie mniejszego strumienia ni koder segmentowy. Typowe wartoci wahaj si w zakresie 100 200 bit/s. Kodowanie to daje jednak gorszy poziom zrozumiaoci i naturalnoci sygnau zrekonstruowanego, co stanowi jego podstawow wad. Kolejnym problemem jest tutaj konieczno przechowywania duej liczby fragmentw sygnau o rnej intonacji, najlepiej branych z duej grupy mwcw. Ten fakt, oraz bardzo cisa zaleno metody od skadni jzyka powoduje, e wokodery sylabowe nie ciesz si tak popularnoci jak wokodery segmentowe, czy fonetyczne.

3.3 Wokoder fonetyczny


Gwn ide kodowania fonetycznego jest rozpoznawanie mowy wykonywane na poziomie fonemw. To rozpoznawanie polega na porwnywaniu cech widma sygnau ze wzorcami przechowywanymi w postaci wektorw cech skojarzonych ze stanami ukrytych modeli Markowa (HMM). Zastosowanie modelowania wystpowania fonemw oraz odpowiadajcego im charakteru sygnau przy pomocy HMM oferuje bardzo duy wzrost efektywno kodowania. Bardzo istotn cech wokodera fonetycznego jest fakt, e umoliwia on realizacj kodowania mowy zarwno zalenego jak i niezalenego od mwcy. Jest to moliwe dziki efektywnym technikom adaptacji modeli fonemw przechowywanych w bazie danych do konkretnego mwcy. W literaturze zwizanej z tematem spotyka si czsto okrelenie, e kodowanie fonetyczne mowy jest odporne na bdy rekonstrukcji sygnau. Wynika to z faktu, e dla przecitnego odbiorcy bdy w rozpoznaniu fonemw nalecych do jednej klasy nie s zauwaalne. Znaczce s jedynie bdy, ktre s spowodowane przynalenoci fonemu oryginalnego i zrekonstruowanego do innych grup. Pod synonimem klasy (grupy) fonemw kryje si tutaj typ goski, np. dwiczna bezdwiczna. Joseph Picone i George R. Doddington w jednej z pierwszych prac [7] na temat kodowania fonetycznego mowy wskazuj, e przedstawione tutaj cechy wokodera decyduj o maych rozmiarach zbiorw fonemw, koniecznych do prawidowej syntezy sygnau. Pilone i Doddington dowodz take, e otrzymywany strumie zaley od typu zastosowanych modeli HMM fonemw. W oglnoci kodowanie fonetyczne zakada rozpoznawanie mowy z wykorzystaniem ukrytych modeli Markowa, ktrych przykadowe grafy przej przedstawione s na rys.16 i rys.17.

- 34 -

3. Przegld technik kodowania mowy dla bardzo maych prdkoci transmisji

W schematach tych wspczynniki a reprezentuj prawdopodobiestwa przej midzy stanami, natomiast wspczynniki b to prawdopodobiestwa wektorw obserwacji, przechowywanych w modelu HMM. Wektory cech cznie stanowi wzorzec konkretnej goski w sygnale mowy.

a22

a 33

a44

a23

a34

a 45

b2 (o)

b3 (o)

b4 (o)

Rys. 16. Graf przej progresywnego modelu HMM.

a22

a33

a44

a23

a34

a 45
a35

a13
b2 (o)

a24
b3 (o)
b4 (o)

Rys. 17. Graf przej modelu HMM uwzgldniajcy skoki pomidzy stanami.

Modele uwzgldniajce przeskoki pomidzy stanami pozwalaj na bardziej wierne odwzorowanie parametrw widma poszczeglnych fonemw, gdy zakadaj wiksz zmienno wektorw cech, ale implikuj jednoczenie nieco wikszy strumie ni proste modele progresywne (ang. left-to-right). Bazy modeli fonemw zawieraj inny charakter sygnau w porwnaniu do poprzednio omawianych technik kodowania mowy przy bardzo maych prdkociach transmisji. Rnica polega na tym, e baza nie zawiera wielu segmentw (fragmentw) sygnau odpowiadajcych poszczeglnym sylabom, wzitych z duej liczby wypowiedzi.

- 35 -

3. Przegld technik kodowania mowy dla bardzo maych prdkoci transmisji

W przypadku wokodera fonetycznego ta baza zawiera cile okrelon i niezmienn liczb wytrenowanych zestaww wspczynnikw widmowych odpowiadajcych poszczeglnym goskom w mowie. Ekstrakcja cech sygnau wykonywana jest najczciej poprzez analiz LPC mowy, czy analiz cepstraln (mel-cepstraln). Trening modeli polega na urednianiu wspczynnikw widmowych, po najwikszej dostpnej liczbie wystpie danego fonemu, dla rnych mwcw i zmiennej intonacji. Z procesem treningu wie si jeden z elementw ograniczajcych efektywno tej techniki kodowania. Czstotliwo wystpowania poszczeglnych fonemw w mowie jest bardzo zmienna. Nawet posiadanie bardzo duej liczby prbek treningowych nie powoduje, e wszystkie modele fonemw estymowane s na takim samym poziomie. Jest to jedna z niewielu wad koderw fonetycznych. Przykadowy histogram wystpowania pewnej grupy fonemw dla jzyka angielskiego przedstawiony jest na rys.18. Baza danych treningowych skada si z 452 wypowiedzi. Na podstawie takiego histogramu mona na przykad stwierdzi, e fonemy /ax/, /ih/ bd bardzo dobrze reprezentoway cechy sygnau mowy, w odrnieniu do fonemw /oy/ czy /uh/. Skadnik mowy oznaczony symbolem /sil/ odzwierciedla fragmenty ciszy w sygnale. Jego liczba wystpie w sygnaach treningowych jest dua, gdy pojawia si on zawsze na pocztku i kocu nagrania.

1400 1200
Liczba wystpie

1000 800 600 400 200 0


/ax / /ay / /eh / /er / /ey / /hh / /ih / /iy / /jh / /ng / /ow / /oy / /sh / /th / /uh / /sil/

Indeks fonemu

Rys. 18. Histogram wystpowania pewnej grupy fonemw w bazie treningowej.

- 36 -

3. Przegld technik kodowania mowy dla bardzo maych prdkoci transmisji

Problem odpowiedniego pokrycia bazy fonemw przez sygnay treningowe ronie znacznie, gdy w rozpoznawaniu mowy bior udzia nie pojedyncze modele, lecz np. pary modeli lub zestawy trjfonemowe. Stosowanie takich modeli kontekstowych znacznie polepsza efektywno algorytmw rozpoznawania, lecz czsto wystpowania poszczeglnych par czy trjek fonemw w wypowiedziach treningowych, jest o wiele mniejsza ni w przypadku pojedynczych fonemw. Pilone i Doddington w swojej pracy [7] prezentuj przykadowe statystyki dla bazy treningowej TIMIT jest to najczciej uywany zbir wypowiedzi oraz ich transkrypcji, wykorzystywany w rozpoznawaniu fonetycznym mowy. Wskazuj oni, e w bazie tej skadajcej si z 2792 wypowiedzi, wystpuje 75% moliwych par fonemw oraz jedynie 9,25% moliwych trjek fonemw. Na podstawie tych wartoci mona wysun wniosek, e wzrost efektywnoci kodera niesie ze sob konieczno zastosowania modeli zoonych, dziki ktrym otrzymuje si mniejszy strumie oraz wikszy poziom zrozumiaoci sygnau zrekonstruowanego, jednak kosztem znacznie wikszej bazy danych treningowych i czasochonnoci jej przygotowania. Do rozwoju technik kodowania fonetycznego mowy, bardzo przyczyniy si badania i prace Keiichi Tokudy. Jego model kodera i dekodera przedstawiony w [8] ilustruje ide kodowania mowy dla bardzo maej prdkoci transmisji, opart na rozpoznawaniu fonemw i resyntezie sygnau. Ten kodek korzysta z bazy wytrenowanych modeli HMM fonemw, ktra tutaj uywana jest zarwno do rozpoznawania mowy w koderze, jak i do syntezy sygnau w dekoderze. Strumie binarny przesyany do dekodera oprcz indeksw rozpoznanych modeli niesie informacj o czasie trwania poszczeglnych stanw rozpoznanych modeli oraz ekstrahowany kontur czstotliwoci podstawowej sygnau wejciowego. Schemat blokowy wokodera fonetycznego przedstawionego w [8] znajduje si na rys.19. Modele HMM przechowuj w kadym stanie wzorce widma sygnau, odpowiadajce poszczeglnym fonemom, reprezentowane w postaci wspczynnikw cepstrum, w melowej skali czstotliwoci MFCC. Przyporzdkowanie rozpoznanych jednostek mowy do tych wzorcw dokonywane jest przy wykorzystaniu algorytmu Viterbiego. Natomiast generacja parametrw w dekoderze odbywa si wg reguy najwikszej wiarogodnoci ML (ang. Maximum Likelihood) stosowanej do sekwencji parametrw otrzymanych w wyniku zestawienia modeli, odpowiadajcych zdekodowanym indeksom fonemw. Sekwencja wystpie poszczeglnych stanw odtwarzana jest na podstawie przesanej informacji o czasie trwania modeli.

- 37 -

3. Przegld technik kodowania mowy dla bardzo maych prdkoci transmisji

Tak otrzymane wspczynniki widma sygnau s nastpnie przeliczane na wspczynniki filtru aproksymujcego logarytm widma amplitudowego MLSA (ang. Mel Log Spectrum Aproximation filter).
SYGNA WEJCIOWY

EKSTRAKCJA CZSTOTLIWOCI F0

ANALIZA MEL-CEPSTRALNA

ROZPOZNAWANIE FONEMW CZASY TRWANIA STANW INDEKSY MODELI

KODER

BAZA MODELI HMM FONEMW

GENERACJA WSPCZYNNIKW CEPSTRUM

FILTR MLSA

DEKODER
SYGNA WYJCIOWY

Rys. 19. Koder i dekoder dla bardzo niskich prdkoci transmisji wg K. Tokudy.

- 38 -

3. Przegld technik kodowania mowy dla bardzo maych prdkoci transmisji

Aby dokona syntezy sygnau, filtr ten musi by pobudzony cigiem impulsw dla fonemw dwicznych lub szumem biaym dla fonemw bezdwicznych. Odstp pomidzy impulsami wyznaczany jest na podstawie konturu czstotliwoci podstawowej przesanego do dekodera Wad kodera fonetycznego prezentowanego w [8] jest konieczno zdefiniowania gramatyki wypowiedzi w celu prawidowego rozpoznania fonemw. Ten problem jest szczegowo opisany w dokumentacji systemu HTK (ang. Hidden Markov Models Toolkit) [9], ktry stanowi bardzo rozbudowane rodowisko do tworzenia modeli HMM, ich trenowania oraz rozpoznawania mowy. W skrcie, gramatyk wypowiedzi stanowi wszystkie moliwe kombinacje sekwencji fonemw, wchodzcych w skad wejciowego sygnau mowy. Ta informacja musi by znana apriori. Na jej podstawie buduje si grafy, ktrych cieki przej odpowiadaj wystpieniom moliwych sekwencji fonemw. Taka informacja znacznie usprawnia algorytm Viterbiego, wyznaczajcy najbardziej prawdopodobn ciek w grafie. Opisany tutaj wokoder fonetyczny pozwala uzyska strumie na poziomie ok. 150 bit/s. Otrzymujemy podobny stopie kompresji jak przy zastosowaniu kodowania sylabowego, jednak poziom zrozumiaoci sygnau zdekodowanego jest w tym rozwizaniu wyszy. Wokodery fonetyczne uwaa si za najbardziej sprawne narzdzia stosowane do silnej kompresji sygnau mowy, przy zachowaniu zadowalajcej stopy zrozumiaoci sygnau zrekonstruowanego. Wspieranie kodowania nieznanego sygnau mowy, jego gramatyk, ktra wczeniej musi by znana, stanowi jednak bardzo znaczce ograniczenie tej techniki.

- 39 -

4. Koncepcja semantycznego kodeka mowy

4. Koncepcja semantycznego kodeka mowy


Implementacja modelu kodera i dekodera mowy dla bardzo maych prdkoci poprzedzona bya analiz wielu wspczesnych technik. Najwaniejsze i najczciej spotykane algorytmy kodowania umoliwiajce otrzymanie niskich przepywnoci zostay omwione w poprzednim rozdziale. Gwnymi zaoeniami tej pracy dyplomowej byo opracowanie modelu kodeka wg jednej z poznanych metod, weryfikacja otrzymanego strumienia oraz subiektywna ocena jakoci i zrozumiaoci sygnau zrekonstruowanego. Ustalono nastpujce wymagania stawiane przed projektowanym modelem kodeka: 1. otrzymany strumie powinien by mniejszy ni 500 bit/s; 2. sygna odtworzony ma by zrozumiay dla przecitnego suchacza; 3. model kodera i dekodera powinien by jak najprostszy. Kierujc si tymi trzema zaoeniami, po uprzednich studiach literaturowych, wybrano implementacj kodeka z klasy wokoderw fonetycznych. Opracowana koncepcja semantycznego kodeka mowy dla maych przepywnoci prezentowana jest w tym rozdziale. Naley zaznaczy, i ostateczna wersja proponowanego rozwizania bardzo dugo ewoluowaa, zanim przyja ostateczn form. Projektujc kodek, ktry jest tematem tej pracy, przeprowadzono wiele pobocznych bada zwizanych z technikami przetwarzania mowy. Opracowany koder i dekoder mowy skadaj si z kilku blokw realizujcych etapy przetwarzania mowy. W rozdziale 4.1 zawarty jest opis oglnej struktury zaimplementowanego kodeka mowy, z uwzgldnieniem wymiany danych pomidzy blokami analizy i syntezy mowy. Szczegowa charakterystyka moduu kodera zawarta jest w rozdziale 4.2, natomiast opis projektu dekodera mowy znajduje si w rozdziale 4.3.

- 40 -

4. Koncepcja semantycznego kodeka mowy

4.1 Struktura systemu


Schemat blokowy zaprojektowanego modelu semantycznego kodeka mowy z klasy wokoderw fonetycznych przedstawiony jest na rys.20. Struktura systemu bardzo przypomina schemat blokowy wokodera fonetycznego. Podobnie jak na rys.19, mamy tutaj blok odpowiedzialny ze ekstrakcj czstotliwoci podstawowej oraz wyznaczanie reprezentacji widma sygnau w postaci wspczynnikw cepstrum w melowej skali czstotliwoci MFCC. Zaprojektowany model kodera i dekodera rni si od wokodera zaproponowanego przez Tokud [8] tym, e zawiera dwie bazy modeli HMM fonemw. Pierwsza baza modeli znajduje si w koderze i zawiera wzorce wspczynnikw MFCC, ktre su do rozpoznawania fonemw. Baza modeli dekodera skada si ze wspczynnikw mel-cepstrum, ktre uwzgldniaj energi sygnau i stosowana jest do syntezy mowy. Na schemacie kodera widoczne jest, e analiza mel-cepstralna oraz rozpoznawanie fonemw, realizowane przez algorytm Viterbiego, s wykonywane po przetwarzaniu wstpnym sygnau wejciowego. W wyniku tego przetwarzania zostaje usunita skadowa staa wejciowego sygnau mowy oraz dokonuje si jego korekty, przy pomocy filtru preemfazy. Sygna wejciowy musi by wstpnie przetworzony, aby parametry analizy sygnau wejciowego, oraz sygnaw treningowych byy identyczne. Parametry modeli HMM wyznaczane s przy pomocy systemu HTK v.3.4 [9], natomiast cay proces kodowania wejciowego sygnau mowy wykonywany jest w rodowisku Matlab 6.5. Ekstrakcja czstotliwoci podstawowej to bardzo wany blok systemu kodera mowy dla bardzo maej prdkoci transmisji. Ta informacja prozodyczna musi by bardzo wiernie odtworzona aby zachowa naturaln intonacj mwcy. Z tego powodu czstotliwo F0 ekstrahuje si bezporednio z sygnau wejciowego. Przy wyborze metody wyznaczania czstotliwoci podstawowej kierowano si przede wszystkim jej dokadnoci. Spord szerokiej gamy technik ekstrakcji czstotliwoci F0 [10] wybrano metod wykorzystujc cepstrum sygnau. Wyznaczone wspczynniki MFCC, oraz wzorce pobrane z bazy danych modeli HMM dla kodera umoliwiaj rozpoczcie procesu rozpoznawania fonemw, ktry w gwnej mierze opiera si na algorytmie Viterbiego. Poszukiwanie najbardziej prawdopodobnej cieki w grafie modelu HMM wykonuje si rwnolegle dla wszystkich modeli fonemw i jest to poprzedzone wyznaczaniem prawdopodobiestw wyjciowych z modeli, wg rozkadu Gaussa.

- 41 -

4. Koncepcja semantycznego kodeka mowy

SYGNA WEJCIOWY

EKSTRAKCJA CZSTOTLIWOCI F0

PRZETWARZANIE WSTPNE

ANALIZA MELCEPSTRALNA

BAZA MODELI HMM KODERA

ROZPOZNAWANIE FONEMW (ALGORYTM VITERBIEGO) F0


CZASY TRWANIA MODELI INDEKSY MODELI

3 a

3 dh

KODER BINARNY

KODER
ZAKODOWANY STRUMIE

DEKODER BINARNY F0
CZASY TRWANIA MODELI INDEKSY MODELI

BAZA MODELI HMM DEKODERA

ODTWARZANIE WIDMA SYGNAU

3 a

GENERATOR SYGNAU POBUDZENIA

3 dh

SYNTEZA MOWY

DEKODER
SYGNA WYJCIOWY

Rys.20. Struktura opracowanego semantycznego kodeka mowy.

- 42 -

4. Koncepcja semantycznego kodeka mowy

Dla danego fragmentu sygnau poszukuje si modelu fonemu, ktry pierwszy osignie stan kocowy wg reguy MAP (ang. Maximum APosteriori Probability), tj. za rozpoznany fonem przyjmuje si ten, ktrego prawdopodobiestwo przejcia przez graf modelu jest najwiksze. W wyniku zastosowania algorytmu Viterbiego do rozpoznawania fonemw otrzymujemy nie tylko indeksy rozpoznanych modeli HMM, ale rwnie informacj o ich czasie trwania. W tej implementacji kodera mowy, struktura czasowa sygnau syntezowanego nie jest odtwarzana wprost jak to jest zazwyczaj robione w wokoderach fonetycznych. Zaprojektowany kodek zakada bezporedni transmisj informacji o czasie trwania modeli z kodera do dekodera i jest ona wyraona w postaci liczby wystpujcych kolejno po sobie modeli HMM danego fonemu. Szerzej jest to opisane w rozdziale 4.2.4. Trzy strumienie danych konieczne do syntezy mowy s kodowane binarnie przy zastosowaniu kodu Huffmana. Taka metoda skutkuje efektywnie zakodowanym strumieniem bitw, ktry przesyany jest do dekodera. W ukadzie rekonstrukcji mowy, na podstawie odtworzonej informacji o czstotliwoci podstawowej F0 generowany jest sygna pobudzenia. Idea konstrukcji tego sygnau zaczerpnita jest z kodera MELP, gdzie fragmenty dwiczne mowy reprezentuje si w postaci cigu impulsw (ang. impulse train), natomiast fragmenty bezdwiczne s generowane przy pomocy szumu biaego gaussowskiego WGN (ang. White Gaussian Noise). Oprcz sygnau pobudzenia, w dekoderze odtwarza si take charakterystyk czstotliwociow toru przetwarzania sygnau mowy. Ten proces realizowany jest na podstawie otrzymanych z dekodera binarnego indeksw rozpoznanych modeli fonemw oraz czasw ich trwania. W efekcie otrzymujemy aproksymacj widma amplitudowego traktu gosowego, ktra suy do odpowiedniej filtracji sygnau pobudzenia. Filtracja ta jest realizowana w dziedzinie czstotliwoci za pomoc przeksztacenia FFT. Szczegowe opisy poszczeglnych moduw proponowanego semantycznego kodeka mowy zawarte s w kolejnych podrozdziaach.

- 43 -

4. Koncepcja semantycznego kodeka mowy

4.2 Model kodera


Prezentowany tutaj projekt zosta utworzony w rodowisku Matlab 6.5, przy wykorzystaniu systemu HTK v3.4 do treningu modeli fonemw. Takie rozwizanie umoliwio znaczne przyspieszenie prac nad koderem, oraz wyeliminowao konieczno implementacji skomplikowanych funkcji do estymacji parametrw modeli HMM, co wykraczaoby poza ramy tej pracy magisterskiej. Opracowany koder realizuje algorytm rozpoznawania fonemw w wejciowym sygnale mowy oraz dokonuje ekstrakcji czstotliwoci podstawowej sygnau w poszczeglnych segmentach analizy. Oprcz tych parametrw wyznaczane s take czasy trwania poszczeglnych fonemw. Te trzy rodzaje informacji, po uprzednim kodowaniu entropijnym, przesyane s do dekodera.

4.2.1. Ekstrakcja czstotliwoci podstawowej


Efektywne obliczeniowo i dokadne techniki estymacji czstotliwoci podstawowej s tematem poszukiwa od wielu lat. Problem z efektywnoci ekstrakcji czstotliwoci podstawowej pojawia si szczeglnie w przypadku sygnaw zaszumionych, lub skadajcych si z kilku szeregw harmonicznych o rnych F0. W literaturze [10], [11] czsto wprowadza si podzia metod wyznaczania czstotliwoci podstawowej na trzy gwne klasy: 1. algorytmy w dziedzinie czasu o niskiej zoonoci obliczeniowej, oparte na obserwacjach przebiegw czasowych ilustrujcych zmiany pewnych cech sygnau jak np. liczba przej przez zero, liczba wystpie wartoci szczytowych; zalet tych technik jest dua dokadno dla maych czstotliwoci, gdy wtedy dusze okresy wyznaczane s z du precyzj; 2. algorytmy w dziedzinie czstotliwoci o wikszej zoonoci obliczeniowej, czstotliwo F0 wyznacza si na podstawie poszczeglnych skadowych harmonicznych sygnau; zalet tych technik jest dua dokadno dla dwikw o wysokiej czstotliwoci podstawowej, poniewa wtedy odlegoci pomidzy prkami harmonicznymi mog by wyznaczone z du precyzj; 3. algorytmy statystyczne polegaj na klasyfikowaniu poszczeglnych ramek sygnau do pewnych grup, dla ktrych utworzone s estymatory czstotliwoci F0.

- 44 -

4. Koncepcja semantycznego kodeka mowy

zaimplementowanym

modelu

kodera

zastosowano

ekstrakcj

czstotliwoci

podstawowej opart na analizie cepstralnej. Jest to metoda z klasy algorytmw w dziedzinie czstotliwoci. Dla sygnau mowy oferuje ona zadowalajce wyniki i jest prosta w implementacji. Widmo krtkookresowe sygnau periodycznego charakteryzujcego si czstotliwoci F0 wykazuje zafalowania, ze wzgldu na harmoniczn struktur tego sygnau. Wedug teorii Nolla [11] s one najbardziej widoczne dla logarytmu widma mocy sygnau, gdy przyjmuj wtedy ksztat kosinusoidy. W dziedzinie pseudoczstotliwoci sygnau jest to widoczne w postaci prka o duej amplitudzie, ktry pojawia si na skali w momencie odpowiadajcym okresowi podstawowemu 1/F0. Cepstrum rzeczywiste sygnau definiujemy w postaci odwrotnej dyskretnej transformaty Fouriera z logarytmu amplitudy dyskretnej transformaty Fouriera sygnau. Mona to wyrazi w postaci wzoru (3):
C x (d ) = idft (log | dft ( x(n)) |)

(3)

gdzie:

x(n) n-ta prbka sygnau wejciowego

W wyniku takiego przeksztacenia otrzymujemy prbki cepstrum w dziedzinie pseudoczasu indeks d. Czstotliwo podstawow (okres podstawowy) efektywnie wyznacza si zakadajc chwilow stacjonarno sygnau w ramkach analizy, ktrych dugo waha si midzy 40 80 ms. Dusze okno skutkuje wiksz korelacj prbek w czasie, co z kolei wpywa na bardziej wierne odwzorowanie intonacji. Zastosowanie krtszych okien analizy, np. 20 ms powoduje gorsze efekty dziaania algorytmu. Widmo sygnau oryginalnego x(n) posiada drobn struktur pobudzenia splecion z rezonansow odpowiedzi traktu gosowego. Wykonujc przeksztacenie DFT (ang. Discrete Fourier Transform) ujawniamy poszczeglne harmoniczne sygnau zmodyfikowane o charakterystyk filtru toru przetwarzania. Jest to pokazane na rys.21, ktry przedstawia widmo amplitudowe dla pojedynczej dwicznej ramki sygnau trwajcej 60 ms. Skadowe harmoniczne s widoczne na wykresie w postaci prkw widma pojawiajcych si dla okrelonych wartoci na skali czstotliwoci. Na zrnicowanie amplitudy zafalowa wpywa charakterystyka toru przetwarzania traktu gosowego w przypadku sygnau mowy.

- 45 -

4. Koncepcja semantycznego kodeka mowy

Rys.21. DFT wyznaczone dla pojedynczej, dwicznej ramki sygnau mowy, czstotliwo prbkowania w 16 kHz, dugo okna 960 prbek.

Rys.22. Wygadzone widmo DFT dla dwicznej ramki sygnau, czstotliwo prbkowania w 16 kHz, dugo okna 960 prbek.

- 46 -

4. Koncepcja semantycznego kodeka mowy

Zastosowanie logarytmu na tak otrzymanym przebiegu skutkuje wygadzeniem widma, co jest widoczne na rys.22, w postaci wyranego trendu zmian amplitudy prkw. Na tym wykresie wolnozmienny przebieg reprezentuje podbicia rezonansowe, natomiast szybkozmienne skadowe s odwzorowaniem prkw pobudzenia. Ostatecznie cepstrum sygnau oryginalnego wyznacza si przez zastosowanie odwrotnej transformacji DFT z logarytmu widma, co powoduje rozdzielenie skadowej wolnozmiennej od skadowej szybkozmiennej. Na rys.23 podbicia rezonansowe widoczne s w postaci prkw dla maej wartoci pseudoczasu (w okolicach zera), natomiast pobudzenie reprezentowane jest w postaci pojedynczego maksimum, pooonego dalej na osi pseudoczasu. Odlego tego maksimum cepstrum od pocztku skali definiuje okres podstawowy sygnau. Wyrnienie prka cepstrum zwizanego z pobudzeniem w przypadku skadnikw bezdwicznych mowy nie udaje si (rys.24). W zaimplementowanym algorytmie poszukiwania czstotliwoci F0 najpierw wyszukuje si prka cepstrum o maksymalnej amplitudzie, a nastpnie podejmowana jest decyzja o jego dwicznym lub bezdwicznym charakterze, przez porwnanie z wartoci progow. Ten prg dobiera si dowiadczalnie. Jeli jest on zbyt may wtedy pewne fragmenty sygnau zostaj bdnie zakwalifikowane jako dwiczne. Natomiast, gdy jego warto jest dua, wtedy niektre fragmenty dwiczne mog by rozpoznane jako skadniki szumowe sygnau. Przykad ekstrakcji czstotliwoci podstawowej z sygnau mowy kdt_001.wav, wzitego z bazy treningowej kdt US English TIMIT [12] przedstawiony jest na rys.25. Innym parametrem, ktry podlega regulacji przy estymacji czstotliwoci podstawowej, jest zakres, w ktrym poszukiwana jest warto F0. W tej implementacji za przedzia moliwych wartoci czstotliwoci przyjto 70 300 Hz. Gdy maksymalny prek cepstrum znajduje si poza tym zakresem jako warto czstotliwoci podstawowej przyjmuje si zero. W wyniku wielu eksperymentw, w ktrych dokonywano zmian tego zakresu, otrzymano lepsze lub gorsze wyniki estymacji konturu czstotliwoci F0, w zalenoci od charakteru sygnau. Jednak w wikszoci przypadkw przyjty zakres 70 300 Hz skutkowa dobrymi wyniki dziaania algorytmu. Czstotliwo podstawowa jako naturalna cecha mowy, ktra jest rozpoznawalna w postaci intonacji, charakteryzuje si pynnymi zmianami w trakcie wypowiadania kolejnych fragmentw sygnau. Ten efekt cigoci uzyskuje si w zaimplementowanym algorytmie przez filtracj medianow otrzymanego konturu F0. Stosujemy filtr jednowymiarowy o dugoci maski rwnej 3.

- 47 -

4. Koncepcja semantycznego kodeka mowy

Rys.23. Cepstrum dwicznej ramki sygnau.

Rys.24. Cepstrum bezdwicznej ramki sygnau.

- 48 -

4. Koncepcja semantycznego kodeka mowy

Rys.25. Kontur czstotliwoci podstawowej sygnau kdt_001.wav. Czstotliwo prbkowania rwna 16 kHz.

Maska ta nie moe by zbyt duga, gdy powoduje to deformacj konturu F0. Zbyt silna filtracja wpywa na wygadzenie przebiegu, co skutkuje strat informacji o przejciach midzy fragmentami dwicznymi i bezdwicznymi mowy. Kontur czstotliwoci podstawowej wyznacza si w koderze bezporednio z sygnau wejciowego, nie stosujc wstpnej filtracji. Takie podejcie owocuje wiernym odtworzeniem intonacji mwcy, co jest bardzo istotne dla poprawnej syntezy sygnau w dekoderze.

- 49 -

4. Koncepcja semantycznego kodeka mowy

4.2.2 Analiza i reprezentacja widma w postaci wspczynnikw MFCC


Jedn z najczciej spotykanych technik ekstrakcji cech widmowych sygnau mowy jest analiza cepstralna w melowej skali czstotliwoci. Wspczynniki otrzymane w wyniku takiego przeksztacenia sygnau okrela si skrtem MFCC (ang. Mel Frequency Cepstral Coefficients). W porwnaniu do innych metod analizy widmowej sygnau jak np. LPC, ta technika pozwala na lepsze odwzorowanie ludzkiego systemu syszenia, ktry opisany jest nieliniow krzyw. Rozdzielczo ludzkiego ucha spada ze wzrostem czstotliwoci, dla tego samego poziomu natenia sygnau. Wyniki wielu bada empirycznych potwierdzaj fakt, e zastosowanie percepcyjnej skali czstotliwoci do analizy widma sygnau znacznie polepsza proces rozpoznawania charakterystycznych skadnikw mowy. Transformacja czstotliwoci ze skali liniowej do skali melowej wyraona jest w postaci wzoru (4):
f mel = 2595 log10 (1 + f Hz ) 700

(4)

To nieliniowe odwzorowanie pokazane jest na rys.26.

Rys.26. Transformacja liniowej skali czstotliwoci do skali melowej.

- 50 -

4. Koncepcja semantycznego kodeka mowy

W celu polepszenia warunkw analizy wejciowego sygnau mowy, dokonuje si jego wstpnego przetwarzania przy pomocy filtru preemfazy o transmitancji dyskretnej (5): H ( z ) = 1 z 1 gdzie:
wspczynnik nieliniowoci charakterystyki transmitancji (zazwyczaj rwny 0.97)

(5)

W wyniku takiej filtracji otrzymujemy spaszczenie widma sygnau tzn., eksponowane s skadniki wysokoczstotliwociowe, kosztem zmniejszenia amplitudy skadnikw widma odpowiadajcych niskim czstotliwociom. W dziedzinie czasu efektem ubocznym jest obnienie dynamiki sygnau. Po zastosowaniu preemfazy do wejciowego sygnau mowy wykonywana jest analiza cepstralna w skali melowej (6). Na wstpie oblicza si dyskretn transformacj Fouriera z sygnau wejciowego, stosuj algorytm FFT. Bardzo wanym parametrem stosowanego przeksztacenia FFT jest odpowiedni dobr okna analizy. Najczciej stosuje si okna Hamminga o dugoci 20 30 ms, z zakadk [8], [13]. Dugoci zakadki wynosi zazwyczaj p dugoci okna analizy. Kolejnym etapem analizy jest filtracja widma przy pomocy zespou filtrw pasmowoprzepustowych, ktrych czstotliwoci rodkowe s rozmieszczone w rwnych odstpach na melowej skali czstotliwoci. Filtry najczciej maj trjktn charakterystyk, ale spotyka si te charakterystyki prostoktne, lub o ksztacie krzywej Gaussa. Liczba filtrw wchodzcych w skad zespou decyduje o rzdzie analizy MFCC. Zwikszanie liczby wspczynnikw powyej kilkunastu nie wnosi znaczcego zysku w proces ekstrakcji cech sygnau.

ci =
gdzie:

2 N i m j cos( (2 j 1)) N j =0 2N

(6)

ci otrzymany wspczynnik MFCC N rzd przeksztacenia

m j logarytm cznej mocy sygnau, otrzymanej dla j-tego filtru z zespou filtrw

Przed transformacj do melowej skali czstotliwoci szeroko pasma przepustowego kadego z filtrw okrela si korzystajc z rwnania (7):

- 51 -

4. Koncepcja semantycznego kodeka mowy

fw = gdzie:

f max f min N

(7)

f w otrzymana szeroko pasma przepustowego filtru f max czstotliwo maksymalna zazwyczaj poowa czstotliwoci prbkowania
f min czstotliwo minimalna zazwyczaj 0 Hz N liczba filtrw wchodzcych w skad zespou

Przykadowe rozmieszczenie zespou filtrw analizy na skali czstotliwoci pokazane jest na rys.27.

Rys.27. Przykad zestawu filtrw dla analizy MFCC. Liczba filtrw wynosi 12, czstotliwo prbkowanie 16kHz.

Powyej czstotliwoci 1 kHz szeroko pasma filtrw wzrasta w miar zwikszania czstotliwoci. Natomiast ze wzgldu na logarytmiczn transformacj skali, dla czstotliwoci poniej 1 kHz filtry s oddalone od siebie w rwnych odlegociach. Najwiksza selektywno widoczna jest dla skadowych o maych czstotliwociach, gdy tutaj rozdzielczo ludzkiego systemu syszenia jest bardzo dobra. Wspczynniki wysokoczstotliwociowe, aby niosy znaczc informacj musz by wyznaczone dla wikszego zakresu czstotliwoci (rys.27).

- 52 -

4. Koncepcja semantycznego kodeka mowy

Skadniki widma mocy sygnau, zawarte w pasmach przepustowych poszczeglnych filtrw s sumowane, a nastpnie z tych sum wyznaczane s logarytmy. Ostatecznie wykonujc dyskretn transformacj kosinusow DCT (ang. Discrete Cosine Transform) otrzymujemy wartoci MFCC. Wspczynniki o indeksach zerowych c o nios informacj o logarytmie energii sygnau w danej ramce analizy. Zazwyczaj nie bior one udziau w procesie rozpoznawania mowy, gdy energia sygnau jest cech cile zalen od mwcy, w odrnieniu od reprezentacji widmowej poszczeglnych jednostek mowy fonemw. Wspczynniki energii s jednak w tym projekcie wykorzystywane jako informacja prozodyczna do odtworzenia obwiedni natenia sygnau syntezowanego. Aby zwikszy efektywno algorytmu rozpoznawania mowy opartego na analizie mel-cepstralnej czsto oprcz wspczynnikw statycznych wyznacza si take ich pochodne czasowe. Wspczynniki dynamiczne, zwane wspczynnikami delta otrzymuje si stosujc nastpujcy wzr (8):

c i =

n (c
n =1

i+n N

ci n )

2n
n =1

(8)
2

gdzie:
ci otrzymany wspczynnik dynamiczny MFCC w ramce czasowej i

N tzw. szeroko okna delta

Formua (8) jest take uywana do wyznaczania wyszych pochodnych MFCC, jak np. wspczynniki akceleracji tzw. delta-delta, ktre reprezentuj drug pochodn po czasie wspczynnikw statycznych MFCC. W opracowanym modelu kodeka cechy dynamiczne widma sygnau nie s uwzgldniane podczas rozpoznawania fonemw, gdy znacznie upraszcza to algorytm syntezy sygnau. Eliminujemy w ten sposb konieczno implementacji skomplikowanych, numerycznych metod estymacji wspczynnikw wypadkowych MFCC. Wartoci mel-cepstrum, uywane w procesie rozpoznawania mowy bardzo czsto poddaje si procesowi wygadzania widma, zwanego liftracj, ktrego celem jest wyeliminowanie wpywu pobudzenia na wartoci wspczynnikw. Przeksztacenie to jest opisane wzorem (9):

- 53 -

4. Koncepcja semantycznego kodeka mowy

li = (1 +
gdzie:

L i sin( )) ci 2 L

(9)

li otrzymany w wyniku liftracji i-ty wspczynnik mel-cepstrum ci warto i-tego wspczynnika mel-cepstrum przed liftracj

L rzd przeksztacenia
Na rys.28 i rys.29 przedstawione s otrzymane wartoci wspczynnikw analizy melcepstralnej dla wybranego fragmentu mowy z bazy treningowej. Ju na podstawie takich obrazw mona rozrni charakterystyczne cechy sygnau, np. synchroniczne zmiany pasm formantowych. Rnica pomidzy tymi dwoma wykresami polega na tym, e na pierwszym z nich widoczna jest analiz wykonano bez przeprowadzania liftracji wspczynnikw, natomiast podczas drugiej zastosowano przeksztacenie rzdu 22. Na prezentowanych rysunkach kolor reprezentuje amplitud wspczynnikw MFCC. Wykonanie liftracji powoduje, e wykres staje si bardziej czytelny. Ekstrakcja cech jest atwiejsza, gdy wartoci wspczynnikw odpowiadajce poszczeglnym jednostkom mowy fonemom, s zrnicowane. Co wicej przedstawione tutaj obrazy potwierdzaj, e najwiksza informacja o cechach fragmentw mowy zawarta jest w kilku pierwszych wspczynnikach MFCC. Analiza spektrogramw pozwala te atwo wyodrbni fragmenty dwiczne i bezdwiczne sygnau. Przykadowo cech charakterystyczn fonemw szumowych s bardzo zblione wartoci wspczynnikw MFCC o indeksach 2 12.

- 54 -

4. Koncepcja semantycznego kodeka mowy

Rys.28. Wynik analizy mel-cepstralnej dla sygnau kdt_003.wav, wykonanej bez zastosowania liftracji. Liczba wspczynnikw MFCC 12, okno analizy 20 ms (320 prbek).

Rys.29. Wynik analizy mel-cepstralnej dla sygnau kdt_003.wav, przy zastosowanej liftracji 22-go rzdu. Liczba wspczynnikw MFCC 12, okno analizy 20 ms (320 prbek).

- 55 -

4. Koncepcja semantycznego kodeka mowy

4.2.3 Modelowanie fonemw przy pomocy ukrytych modeli Markowa


Ukryty (niejawny) model Markowa HMM to standardowe narzdzie analizy statystycznej, uywane do modelowania parametrw procesw losowych. Struktury te s powszechnie wykorzystywane w kodekach mowy dla bardzo maych prdkoci transmisji, a dokadnie w algorytmach rozpoznawania i syntezy mowy. W tej klasie wokoderw, przy ich pomocy tworzy si wzorce jednostek akustycznych, jakimi s fonemy. Niejawny model Markowa definiuje si jako skoczon maszyn stanw FSM (ang. Finite State Machine), ktra generuje sekwencj obserwacji dyskretnych w czasie. W danej jednostce czasu, np. ramce sygnau, maszyna zmienia stan zgodnie z prawdopodobiestwem przej midzy stanami, a nastpnie generuje wektor obserwacji wg rozkadu prawdopodobiestwa wyjciowego w danym stanie. Dla kadego modelu HMM, o liczbie stanw rwnej
N

moemy

okreli

nastpujc

przestrze

probabilistyczn (10):

= {A, B, )

(10)

gdzie:
A = {ai , j }iN , j =1 rozkad prawdopodobiestwa przej midzy stanami modelu HMM B = {b j (o)} N j =1 rozkad prawdopodobiestwa wektorw obserwacji

= { i }iN =1 rozkad prawdopodobiestwa wej do poszczeglnych stanw modelu


czna notacja prezentowana we wzorze (10) jest stosowana do opisu parametrw modeli HMM. Ze wzgldu na charakter przej midzy stanami definiuje si rne typy modeli. Dla celw rozpoznawania i syntezy mowy istotny jest tzw. model progresywny, ktrego graf przedstawiony jest na rys.30. Ukryte modele Markowa czsto w literaturze [14], [15] okrela si mianem procesw podwjnie stochastycznych (11):

( At , Bt ) T t =1

(11)

gdzie dziedzin procesw losowych At i Bt jest zbir chwil t T , natomiast przeciwdziedzin zbir stanw modelu. Te dwa procesy losowe opisane s wtedy przez rozkady prawdopodobiestwa (10).

- 56 -

4. Koncepcja semantycznego kodeka mowy

a22

a 33

a44

a23

a34

a 45

b2 (o)

b3 (o)

b4 (o)

Rys.30. Piciostanowy progresywny (ang. left-to-right) model HMM.

Niejawno modeli HMM polega na tym, e obserwujemy jedynie realizacje procesu stochastycznego Bt , podczas gdy realizacje procesu At wpywajce na realizacje Bt pozostaj niewidoczne. Wyjciowy rozkad prawdopodobiestwa b j (o) moe by dyskretny lub cigy,

w zalenoci od charakteru obserwacji. Ze wzgldu na typ rozkadu prawdopodobiestwa wyjciowego rozrniamy klas modeli HMM o rozkadach cigych CD-HMM (ang. Continous Density Hidden Markov Model) lub dyskretnych DD-HMM (ang. Discrete Density Hidden Markov Model). Najczciej w implementacjach algorytmw rozpoznawania mowy stosuje si modele z rozkadem cigym, gdzie prawdopodobiestwa wyjciowe modelu HMM s mieszanin wielowymiarowych rozkadw Gaussa wg wzoru (12):

b j (o) = w jm N (o | jm , U jm )
m =1

(12)

gdzie:

M liczba rozkadw Gaussa wchodzcych w skad mieszaniny w jm waga skadnika m w stanie j


jm wektor (o dugoci d ) wartoci redniej skadnika m w stanie j U jm macierz (o rozmiarze d
x d ) kowariancji skadnika m w stanie j

- 57 -

4. Koncepcja semantycznego kodeka mowy

W opracowanym projekcie kodeka zastosowany jest uproszczony model HMM, w ktrym prawdopodobiestwa wektorw obserwacji w poszczeglnych stanach modelu wyraone s w postaci pojedynczego, wielowymiarowego rozkadu Gaussa, a wic (13):

b j (o) = N (o | j , U j )
gdzie:

(13)

j wektor wartoci rednich obserwacji w stanie j (o dugoci d ) U jm macierz kowariancji wektora obserwacji w stanie j (o rozmiarze d
x d)

We wzorach (12) i (13) gaussowski, wielowymiarowy rozkad prawdopodobiestwa okrela si jako (14):
N (o | j , U j ) = 1 1 exp( (o j ) T U j (o j )) d 2 (2) | U | 1

(14)

gdzie: d wymiar wektora obserwacji o Podstawowym zagadnieniem w teorii HMM jest estymacja parametrw modeli w postaci prawdopodobiestw pewnej sekwencji przej obserwacji midzy na stanami wyjciu. oraz To prawdopodobiestw wyj z poszczeglnych stanw, ktre daj maksymalne prawdopodobiestwo otrzymania cakowite prawdopodobiestwo wygenerowania sekwencji wyjciowej O = [o1 , o 2 ,..., o T ] , z modelu HMM o parametrach

= [ A, B, ] jest wyraone w postaci wzoru (15):

P(O | ) = a qt 1qt bqt (o t )


Q t =1

(15)

gdzie:

bqt (o t ) prawdopodobiestwo otrzymania wektora obserwacji o w chwili t , przebywajc


w stanie q modelu HMM

a qt 1qt prawdopodobiestwo przejcia ze stanu poprzedniego w chwili t 1 , do stanu


aktualnego w chwili t Sumowanie iloczynu prawdopodobiestw a qt 1qt i bqt (o t ) odbywa si po wszystkich moliwych sekwencjach stanw q .

- 58 -

4. Koncepcja semantycznego kodeka mowy

Estymacja parametrw modeli HMM jest zagadnieniem trudnym. Nie istniej analityczne metody ich wyznaczania, bazujce na kryterium najwikszej wiarogodnoci ML (ang. Maximum Likelihood). Rozwizaniem s metody iteracyjne, ktre pozwalaj otrzyma zestaw parametrw , lokalnie maksymalizujc prawdopodobiestwo cakowite P(O| ). Przykadem jest metoda EM (ang. Expectation Maximization), nazywana czsto algorytmem Bauma-Welcha, w ktrej wykorzystuje si take algorytm prefiksowosufiksowy do modyfikacji wartoci parametrw rozkadw [14]. W przypadku cigego sygnau mowy, sekwencje parametrw poszczeglnych jednostek mowy mog si rni, w zalenoci od kontekstu zarwno lingwistycznego, jak i fonetycznego. Aby uwzgldni to zjawisko, czsto wykorzystuje si wzorce zalene od kontekstu nazywane modelami trjfonemowymi HMM. Polepszaj one efektywno procesu rozpoznawania mowy, jednak bardzo powanym problemem w takim rozwizaniu jest przygotowanie odpowiednio duej bazy danych treningowych, aby zapewni pokrycie wszystkich moliwych permutacji trjek fonemw. Poza tym, wad jest take duy rozrzut czstotliwoci wystpowania poszczeglnych jednostek kontekstowych w sygnaach treningowych, co skutkuje bardzo zrnicowanym stopniem wytrenowania tych modeli. Aby zmniejszy skal tego problemu stosuje si techniki gromadzenia stanw modeli HMM w grupy, w ktrych nastpuje wymiana parametrw modeli midzy stanami. Przykadem takiej metody jest grupowanie wykorzystujce drzewa decyzyjne (ang. decision tree-based context clustering) [15]. Ze wzgldu na stosunkowo niewielkie rozmiary wykorzystywanej w projekcie bazy danych treningowych oraz opisane powyej wady stosowania modeli trjfonemowych, w opracowanej koncepcji kodera wybrano modele pojedynczych fonemw, tworzc tzw. monofony HMM. W projekcie wykorzystywana jest biblioteka HTK v.3.4 [9], przy pomocy ktrej dokonuje si inicjalizacji i reestymacji parametrw modeli. Baza danych treningowych skada si z 452 wypowiedzi, pochodzcych od jednego mwcy, zebranych w tzw. korpusie CMU/CSTR kdt US English TIMIT database [12]. Ten zbir zawiera nie tylko fragmenty mowy w formacie WAV, ale rwnie pliki z etykietami fonemw, a take transkrypcje tekstowe wypowiedzi. Dla sygnaw z tej bazy wykonuje si analiz melcepstraln otrzymujc wspczynniki MFCC, ktre s pniej wykorzystywane w estymacji parametrw modeli fonemw. Sygnay treningowe wchodzce w skad bazy zawieraj cznie 41 typw fonemw, uwzgldniajc jednostk ciszy /sil/ (tab.1).

- 59 -

4. Koncepcja semantycznego kodeka mowy

Tab.1. Typy fonemw dostpne w bazie CMU/CSTR kdt US English TIMIT. Fonemy dwiczne
/d/, /dh/, /eh/, /er/, /ey/, /g/, /ih/, /iy/, /jh/, /l/, /m/, /n/, /ng/, /ow/, /oy/, /r/, /uh/, /uw/, /v/, /w/, /y/, /z/, /zh/ Aby zdefiniowa topologi modeli HMM uywanych w projekcie, system HTK okrela sposb tworzenia w plikach tekstowych specjalnych struktur, ktre m.in. definiuj liczb stanw modelu, moliwe przejcia midzy nimi oraz rodzaj parametrw generowanych w postaci wektorw obserwacji. Definicje modeli s nastpnie uaktualniane podczas reestymacji parametrw. Po zakoczeniu procesu treningu HMM zmodyfikowane rozkady poszczeglnych modeli s wczytywane do rodowiska Matlab 6.5, gdzie odbywa si gwne kodowanie sygnau mowy. Przykadowy prototyp modelu HMM uywany w projekcie umieszczony jest w dodatku pracy. Definicja modelu zawsze rozpoczyna si nagwkiem ~o, ktry zawiera informacj o oglnych parametrach modelu:

Fonemy bezdwiczne

/aa/, /ae/, /ah/, /ao/, /aw/, /ax/, /ay/, /b/, /ch/, /f/, /hh/, /k/, /p/, /s/ , /sh/, /sil/, /t/, /th/

<VECSIZE> ten symbol definiuje dugo wektora wartoci rednich parametrw przechowywanych w modelu; <NULLD> informacja, e czasy trwania stanw nie s reprezentowane w modelu; <MFCC_0> typ parametrw, ktre s przechowywane w modelu, w tym przypadku s to wspczynniki MFCC. System HTK [9] pozwala definiowa modele HMM take dla innych typw parametrw reprezentujcych cechy sygnau mowy jak np. wspczynniki LPC;

<FullC> ten symbol wskazuje, e w strukturze modeli HMM macierze kowariancji dla wielowymiarowych rozkadw wyjciowych s przechowywane w postaci grnej pmacierzy. Inn opcj jest reprezentacja tej macierzy w postaci gwnej przektnej <DiagC>.

Po tych informacjach w prototypie modelu wystpuje nagwek ~h, ktry definiuje nazw modelu HMM. Dalej umieszczamy znaczniki pocztku modelu <BeginHMM>, za ktrym wystpuje znacznik liczby stanw <NumStates>. Kolejnymi elementami struktury modelu

- 60 -

4. Koncepcja semantycznego kodeka mowy

s wektory wartoci rednich obserwacji <MEAN>, oraz odwrotne macierze kowariancji <InvCovar> dla stanw emitujcych modelu. W projekcie kodera korzystamy wanie z odwrotnej macierzy kowariancji gdy upraszcza to obliczenia wyjciowych prawdopodobiestw modeli wg rozkadu Gaussa (wzr 13). Wspczynniki wektora wartoci rednich i odwrotnej macierzy kowariancji s inicjowane zerami, ale nie ma to wikszego znaczenia, gdy sensowne wartoci s tam wpisywane dopiero podczas reestymacji modeli. Na kocu definicji modelu HMM, za znacznikiem <TRANSP> znajduje si kwadratowa macierz zawierajca prawdopodobiestwa przej midzy stanami, ktrej wymiar rwny jest liczbie stanw modelu. Z macierzy tej zawsze mona wywnioskowa typ modelu, ktry w tym przypadku jest prostym modelem progresywnym, z prawdopodobiestwem przejcia ze stanu 1 do stanu 2 rwnym 1.0. Definicj struktury modelu koczy znacznik <EndHMM>. Po utworzeniu prototypw modeli dla wszystkich fonemw zawartych w tab.1 wykonywane s nastpujce kroki przetwarzania:

1. Inicjalizacja modeli przy pomocy narzdzia HCompV.


Algorytm ten nie wymaga przechowywania w bazie plikw etykiet dla poszczeglnych fonemw. Kady sygna treningowy poddawany jest segmentacji na jednostki mowy o tej samej dugoci, a parametry prototypw tych jednostek wektor wartoci rednich obserwacji i macierz kowariancji obserwacji, przyjmuj wartoci globalne wyznaczone dla caego fragmentu mowy. Ten proces inicjalizacji nazywany jest czsto paskim startem (ang. flat-start). Przykadowa komenda wywoujca realizujca opisane tutaj przetwarzanie jest przedstawiona poniej:

HCompV -f 0.01 -m -S trainlist -M hmm0 proto

2. Pierwsza reestymacja modeli przy pomocy narzdzia HERest.


Majc zainicjowane modele dla wszystkich fonemw mona przystpi do reestymacji ich parametrw. W systemie HTK ten proces moe zosta wykonany przez dwa narzdzia: HRest i HERest. W przypadku HRest najpierw wyznacza si prawdopodobiestwo przebywania w danym stanie modelu, w aktualnej ramce sygnau, korzystajc z algorytmu wprzd-wstecz (ang. forward-backward), a nastpnie metod Bauma-Welcha dokonuje reestymacji parametrw modelu. Takie uaktualnianie parametrw modeli HMM okrela si mianem estymacji izolowanej

- 61 -

4. Koncepcja semantycznego kodeka mowy

jednostki (ang. isolated unit reestimation). Uycie tego narzdzia musi by poprzedzone wywoaniem funkcji HInit do inicjalizacji modeli HMM. Alternatyw dla reestymacji izolowanych modeli jest wykorzystanie narzdzia HERest, ktre realizuje algorytm tzw. reestymacji wbudowanej (ang. embedded training). Tutaj modyfikacja parametrw dokonywana jest jednoczenie dla wszystkich modeli fonemw, jakie wystpuj w danej wypowiedzi treningowej. Dla kadego takiego fragmentu mowy z bazy danych, przy wykorzystaniu dostpnych plikw etykiet fonemw tworzy si transkrypcj modeli wystpujcych w sygnale treningowym. Na tej podstawie buduje si zoone struktury HMM, czc pojedyncze modele fonemw, ktre wystpuj w utworzonej transkrypcji dla aktualnie przetwarzanego fragmentu mowy. Nastpnie, na tak przygotowanym modelu zoonym HMM realizuje si algorytm prefiksowo-sufiksowy, a otrzymane w ten sposb wagi modyfikuj wartoci parametrw modelu. Algorytm treningu wbudowanego przedstawiony jest w postaci schematu blokowego na rys.31, natomiast przykadowa komenda realizujca opisane tutaj przetwarzanie ma form:

HERest -L labs -S trainlist -H hmm_models\hmacs.mmf -M hmm_out monophone_list

Aby wykona proces reestymacji naley najpierw utworzy plik zawierajcy prototypy wszystkich modeli HMM wystpujcych w bazie. W systemie HTK v3.4 taki plik nazywany jest MMF (ang. Master Macro File). Parametrem wejciowym dla narzdzia HERest jest take lista modeli fonemw, lista sygnaw treningowych przy uyciu, ktry wykonana zostanie reestymacja parametrw, oraz zbir plikw etykiet dla wszystkich sygnaw treningowych. Gdy te dane zostan zaadowane, funkcja HERest przetwarza, kady plik z danymi treningowymi wspczynnikmai MFCC, uaktualniajc w ten sposb parametry statystyczne zoonego modelu HMM.

- 62 -

4. Koncepcja semantycznego kodeka mowy

kdt_001.lab PROTOTYPY MODELI HMM FONEMW kdt_002.lab kdt_003.lab

...
kdt_452.lab

ETYKIETY FONEMW TWORZENIE ZOONYCH MODELI HMM kdt_001.mfcc ALGORYTM PREFIKSOWO SUFIKSOWY kdt_002.mfcc kdt_003.mfcc

kdt_004.mfcc DANE TRENINGOWE MODYFIKACJA PARAMETRW MODELI

...

UAKTUALNIONY ZESTAW MODELI HMM

Rys.31. Algorytm reestymacji wbudowanej dla modeli HMM.

3. Kolejne iteracje reestymacji wbudowanej modeli.


Aby dobrze wytrenowa modele HMM fonemw naley powtrzy proces reestymacji wbudowanej kilkakrotnie, podajc za kadym razem na wejcie uaktualnione w ostatnim kroku parametry modeli. Na podstawie przeprowadzonych symulacji mona powiedzie, e najlepiej wytrenowane parametry otrzymuje si po dwukrotnej lub trzykrotnej reestymacji modeli. Gdy liczba iteracji algorytmu jest wiksza, wtedy wystpuje zjawisko przetrenowania modeli HMM. W takim przypadku wartoci parametrw s zbyt bliskie danym treningowym, a proces rozpoznawania fonemw staje si mniej efektywny dla sygnaw testowych spoza bazy treningowej. Po wykonaniu treningu modeli HMM dla wszystkich fonemw znajdujcych si w bazie, plik zawierajcy uaktualnione parametry zostaje wczytany do programu w rodowisku

- 63 -

4. Koncepcja semantycznego kodeka mowy

Matlab, gdzie nastpuje integracja innych algorytmw przetwarzania w ramach zaimplementowanego kodeka mowy. Wart uwagi jest fakt, e biblioteka HTK jest bardzo uytecznym systemem do treningu modeli HMM i rozpoznawania mowy. Przedstawione tutaj przykady definicji modeli i estymacji parametrw to jedne z najbardziej podstawowych funkcjonalnoci tego systemu. Mona powiedzie, e ostateczna forma tej pracy powstaa dziki wnioskom i dowiadczeniom zdobytym podczas pracy z systemem HTK. Dziki wielu narzdziom do edycji i rozbudowy modeli HMM, oraz rozpoznawania mowy z tej biblioteki zostay przeprowadzone dowiadczenia dotyczce tematu tej pracy. Na podstawie bada wysunito m.in. wniosek, e nie opaca si budowa modeli trjfonemowych zalenych od kontekstu, dla baz danych treningowych skadajcych si z maej liczby wypowiedzi. Okazao si take, e dla takich baz nieefektywne jest realizowanie grupowania stanw fonemw (ang. tying). Znaczcej poprawy w proces rozpoznawania nie wnosi take tworzenie modeli dla krtkich fragmentw ciszy pauz midzy poszczeglnymi fonemami. Podczas pracy z narzdziem HVite badano skuteczno algorytmu rozpoznawania mowy dla rnych sygnaw testowych. Bardzo znaczc wad systemu HTK jest fakt, e zastosowany tutaj algorytm rozpoznawania mowy wymaga tworzenia tzw. sieci sw, ktre budowane s na podstawie gramatyki wejciowej wypowiedzi. Te grafy moliwych sekwencji sw, s nastpnie zamieniane na moliwe kombinacje stanw modeli HMM, ktrych prawdopodobiestwa s wyznaczane podczas procesu rozpoznawania. Przykad sieci sw dla wypowiedzi z pliku kdt_005.wav, pochodzcego z bazy kdt US English TIMIT przedstawiony jest na rys.32. W sieci tej zawsze na pocztku i kocu wypowiedzi znajduje si fragment ciszy, natomiast pozostae cigi sw mog by tworzone dowolnie na podstawie dostpnej gramatyki. Stosowanie tego typu grafw znacznie zawa obszar poszukiwania fonemw w przetwarzanym fragmencie mowy, co wpywa na wiksz efektywno rozpoznawania. Algorytmy, ktre wymuszaj posiadanie pewnych informacji apriori o sygnale wejciowym znajduj zastosowanie w systemach biometrycznych, gdzie rozpoznawaniu podlega mowa oparta na z gry okrelonym sowniku. W przypadku tradycyjnych technik kodowania mowy zdefiniowanie gramatyki nieznanego sygnau wejciowego przed procesem przetwarzania jest w wikszoci przypadkw niemoliwe.

- 64 -

4. Koncepcja semantycznego kodeka mowy

([SIL] < SHE | IS | TINNER | THAN | I | AM > [SIL])


SHE

IS

TINNER SIL THAN SIL

AM

Rys.32. Przykad gramatyki i sieci sw utworzonej dla fragmentu mowy kdt_005.wav z bazy danych treningowych kdt US English TIMIT.

4.2.4 Rozpoznawanie fonemw


Podczas budowy modelu kodera w rodowisku Matlab zaistniaa konieczno implementacji nieco innego algorytmu rozpoznawania fonemw ni ten, ktry zastosowany jest w systemie HTK v.3.4. Celem prac nad nowym algorytmem byo m.in. wyeliminowanie koniecznoci tworzenia sieci sw na podstawie gramatyki sygnau wejciowego. Opracowana technika bazuje na algorytmie Viterbiego, ktry jest wykonywany rwnolegle dla wszystkich modeli HMM fonemw z bazy treningowej. Pierwszym etapem prezentowanej metody jest wyznaczenie wyjciowych prawdopodobiestw aposteriori rozkadu Gaussa wg wzoru (14). Wektory obserwacji w tym przypadku to wartoci wspczynnikw MFCC otrzymane w wyniku analizy melcepstralnej sygnau wejciowego, gdzie d okrela rzd analizy. Prawdopodobiestwa wyjciowe wyznaczane s jedynie dla stanw emitujcych (o indeksach 2, 3, 4) modelu.

- 65 -

4. Koncepcja semantycznego kodeka mowy

Obliczenia konieczne do otrzymania wyniku s proste, gdy wikszo potrzebnych danych jest pobierana bezporednio z wytrenowanych modeli HMM fonemw. Do oblicze wykorzystujemy wektory wartoci rednich wspczynnikw MFCC dla konkretnych stanw modelu fonemu, odwrotne macierze kowariancji wielowymiarowego rozkadu Gaussa, a take wartoci stae, w postaci wyznacznika macierzy kowariancji. Wyjciowe prawdopodobiestwa wyznaczane s dla trzech stanw emitujcych jednoczenie. Przetwarzane s zawsze trzy kolejne wektory obserwacji w postaci wspczynnikw MFCC wejciowego sygnau mowy. Otrzymane prawdopodobiestwa zapisywane s w macierzy o wymiarach Q

x (T 2) x

N , gdzie Q oznacza liczb

stanw w prototypie modelu HMM, T okrela liczb ramek czasowych wejciowej mowy, natomiast N to liczba modeli fonemw znajdujcych si w bazie. Naley tutaj zaznaczy, e prawdopodobiestwa stanw nieemitujcych maj na stae przypisan warto 1 dla kadej chwili czasowej. Po obliczeniu prawdopodobiestw wyjciowych wg wielowymiarowego rozkadu Gaussa, rwnolegle dla wszystkich modeli HMM realizowany jest algorytm Viterbiego. Dla kadego fonemu szukamy najbardziej prawdopodobnej sekwencji stanw wg nastpujcej rekurencji (16):

j (t ) = max{ i (t 1)aij }b j (o t )
i

(16)

gdzie:

j (t ) wypadkowe prawdopodobiestwo najbardziej prawdopodobnej sekwencji stanw,


koczcej si w stanie j. Inaczej, jest to maksymalne prawdopodobiestwo otrzymania wektorw obserwacji o1 , o 2 ...o t , przebywajc w stanie j, w chwili t;

aij prawdopodobiestwo przejcia ze stanu poprzedzajcego i do stanu aktualnego j; b j (o t ) prawdopodobiestwo wyjciowe wektora obserwacji o , podczas przebywania w
stanie j, w chwili t. Powyszy wzr wykorzystuje regu MAP. Inicjalizacja algorytmu opisana jest wzorem (17):

j (1) = a1 j b j (o1 )

(17)

- 66 -

4. Koncepcja semantycznego kodeka mowy

Algorytm Viterbiego umoliwia znalezienie najbardziej prawdopodobnej cieki w kracie, ktra na osi odcitych zawiera kolejne ramki sygnau mowy, natomiast na osi rzdnych wystpuj stany modelu HMM fonemu. Przykad takiej kraty stanw znajduje si na rys.33. W danej chwili t wyznaczane s czciowe prawdopodobiestwa cieek w grafie prowadzcych do wszystkich stanw modelu wg wzoru (16). Prawdopodobiestwa te wyraone s w skali logarytmicznej, aby unikn zaokrglania do zera bardzo maych wartoci. Graf przej przez krat rozrasta si od lewej do prawej strony osi odcitych. W oryginalnym algorytmie Viterbiego zakoczenie oblicze rwnoznaczne jest z osigniciem koca sekwencji zdarze w chwili T , podczas gdy w tym rozwizaniu obliczenia przerywane s w momencie osignicia stanu kocowego (o numerze 5) modelu HMM.

STAN

a 45
4

a34
3

b4(o6)

a23 b3(o6)
2

a22 b2(o6)
1 2 3 4 5 6

RAMKA CZASOWA
najbardziej

Rys.33.

Krata

stanw

wykorzystywana

podczas

poszukiwania

prawdopodobnej cieki w modelu HMM wg algorytmu Viterbiego.

Jak wspomniano wczeniej, poszukiwanie najbardziej prawdopodobnej cieki w grafie rozpoczyna si rwnoczenie dla wszystkich modeli fonemw. W pierwszym kroku do oblicze brana jest caa macierz wyznaczonych wczeniej prawdopodobiestw wyjciowych rozkadu Gaussa. Po osigniciu stanw kocowych przez kolejne modele

- 67 -

4. Koncepcja semantycznego kodeka mowy

fonemw, spord otrzymanych kocowych wartoci prawdopodobiestw przej wybierane jest maksimum. Model, dla ktrego realizacja algorytmu Viterbiego daa najwiksze prawdopodobiestwo kocowe uwaa si za rozpoznany fonem w aktualnie rozwaanym zakresie czasu. Wraz z najbardziej prawdopodobn ciek przej przez stany modelu HMM otrzymujemy take, kocow warto czasu, w postaci liczby ramek, jaka potrzebna bya na osignicie stanu kocowego. O t liczb kolumn pomniejszana jest macierz prawdopodobiestw wyjciowych rozkadu Gaussa, przed kolejn iteracj algorytmu. W ten sposb rozpoznawane s fonemy w kolejnych fragmentach analizowanego sygnau wejciowego. Indeksy rozpoznanych fonemw zapisywane s w wyjciowej tablicy. Informacja o czasie trwania poszczeglnych jednostek akustycznych jest tutaj wyznaczana bardzo zgrubnie w postaci liczby modeli HMM wystpujcych kolejno po sobie. Przykadowo gdy danemu indeksowi odpowiada dugo trwania rwna 4, oznacza to, e podczas analizy sygnau, rozpoznano czterokrotne, kolejne wystpowanie fonemu o danym indeksie. Jest to rwnoznaczne z trwaniem tego fonemu przez 20 ramek czasowych sygnau. Wywoania omwionego tutaj algorytmu powtarzane s do momentu osignicia ostatniej ramki kodowanego sygnau mowy. Opracowan technik rozpoznawania fonemw testowano dla wielu sygnaw z bazy kdt US English TIMIT [12]. Na podstawie przeprowadzonych symulacji mona powiedzie, e czsto spotykane s bdy leksykalne w ramach konkretnej grupy fonemw, ktrych informacja akustyczna jest bardzo podobna. Jest to dobrze widoczne na poniszych transkrypcjach fonemw, otrzymanych w wyniku kodowania przykadowych sygnaw mowy z bazy:

Sygna kdt_003.wav This was easy for me.


Transkrypcja oryginalna:

sil dh ih s w aa z iy z iy f ao r m iy sil
Transkrypcja otrzymana przy zastosowaniu opracowanego algorytmu:

sil th ih z s z w l z iy z iy jh f r ng m y ng hh ao sil Sygna kdt_431.wav The fifth jar contains big juicy peaches.
Transkrypcja oryginalna:

sil dh ax f ih f th jh aa r sil k ax n t ey n z b ih g jh uw s iy p iy ch ax z sil

- 68 -

4. Koncepcja semantycznego kodeka mowy

Transkrypcja otrzymana przy zastosowaniu opracowanego algorytmu:

sil dh ih sil f ih ey th s sil ch sh ey eh aa ey k n p hh ey n d z b ey iy g b p ch zh iy y z s iy p jh y iy y t sh zh jh z s sil


Typowe bdy w otrzymanych transkrypcjach to rozpoznanie fonemu /th/ zamiast /dh/ lub fonemu /y/ zamiast /iy/. Zdarzaj si take przypadki, w ktrych poszczeglne fonemy skadajce si na sygna oryginalny, s rozpoznawane w postaci zbioru innych fonemw, o cznej podobnej informacji akustycznej, np. /ch/ /t/, /sh/. Bdy tego typu s uzasadnione sabo wytrenowanymi modelami HMM fonemw, na co ma wpyw wielko stosowanej bazy danych sygnaw treningowych. cis zaleno efektywnoci rozpoznawania fonemw od stopnia wytrenowania modeli HMM potwierdza przypadek jednostki ciszy /sil/, ktra wystpuje w kadym sygnale treningowym z bazy, przez co jej parametry statystyczne s bardzo dokadnie estymowane i jest ona bezbdnie rozpoznawana. Typy otrzymywanych bdw podczas procesu rozpoznawania sugeruj, e algorytm dobrze radzi sobie z rozrnianiem fonemw nalecych do rnych klas, np. dwicznybezdwiczny, a zawodzi przy analizie fonemw bardzo zblionych akustycznie, np. samogosek i dyftongw. Jednak w kontekcie pniejszej syntezy sygnau mowy, takie przekamania jednostek leksykalnych o bardzo podobnej informacji akustycznej s nieistotne i niemal niezauwaalne. Na pogorszenie subiektywnej jakoci sygnau odtworzonego maj wpyw jedynie te bdy, ktre skutkuj syntez goski dwicznej w miejsce szumowej, lub odwrotnie. Najwiksz zalet opracowanego algorytmu jest fakt, i do jego realizacji nie wykorzystuje si sieci sw, w odrnieniu do techniki z systemu HTK. Gwn wad przedstawionego rozwizania s liczne bdy podczas procesu rozpoznawania, ktre jednak nie powoduj zakcenia istotnej informacji akustycznej kodowanej mowy. W rezultacie efektywno opracowanego algorytmu mona uzna za zadowalajc.

- 69 -

4. Koncepcja semantycznego kodeka mowy

4.2.5 Kodowanie binarne strumienia


Ostatnim etapem przetwarzania sygnau mowy w modelu kodera dla bardzo maej prdkoci transmisji, przedstawionym na rys.20, jest kodowanie binarne entropijne wyjciowego strumienia danych. Kodowaniu poddaje si wszystkie informacje przesyane do ukadu dekodera, a wic:

otrzymane wartoci czstotliwoci podstawowej (F0) dla kolejnych ramek analizy sygnau; czasy trwania rozpoznanych fonemw w postaci liczby kolejnych wystpie odpowiadajcych modeli HMM; indeksy rozpoznanych modeli HMM fonemw.

W projekcie stosowany jest koder Huffmana, na wyjciu ktrego otrzymujemy kody o zmiennej dugoci sowa, dla danych wejciowych w postaci liczb cakowitych, nieujemnych. Elementem kluczowym wpywajcym na sprawno kodowania jest tutaj zakadana maksymalna dugo sowa kodowego. W przeprowadzonych symulacjach zastosowano 8-bitowe sowo, co daje dozwolone wartoci parametrw wyjciowych kodera w zakresie od 0 do 255. Indeksy fonemw rni si w zakresie od 1 do 41, natomiast czasy trwania modeli HMM to zazwyczaj wartoci mniejsze od 15. Zatem wspczynniki przesyane w tych dwch strumieniach z powodzeniem mog by kodowane z wykorzystaniem 8-bitowej reprezentacji. Jedyn moliwo przekroczenia zakresu wartoci otrzymujemy w przypadku kodowania czstotliwoci podstawowej sygnau. Zakres zmian F0 jest cile zaleny od pci mwcy. Na podstawie przeprowadzonych symulacji mona jednak powiedzie, e najczciej ta warto czstotliwoci zawiera si pomidzy 100, a 200 Hz, co pozwala stosowa zakadan dugo sowa kodowego dla kodera Huffmana. Wejciowe strumienie danych, ktre podlegaj kodowaniu binarnemu na tym etapie przetwarzania charakteryzuj si rn entropi rda, a co za tym idzie efektywno kompresji jest inna dla kadego z trzech strumieni danych. Pogldowa informacja o sprawnoci kodowania strumieni danych otrzymywanych w zaimplementowanym koderze przedstawiona jest na rys.34, w postaci krzywych kompresji. Przebiegi sporzdzono na podstawie dziesiciu sygnaw testowych z bazy kdt US English TIMIT. Otrzymane wyniki pokazuj, e najwikszy rozrzut wartoci uzyskiwany jest dla strumienia indeksw modeli HMM fonemw.

- 70 -

4. Koncepcja semantycznego kodeka mowy

3,5 3
Stopie kompresji

Indeksy modeli Czasy trwania modeli Cz stotliwo podstawowa

2,5 2 1,5 1 0,5 0 1 2 3 4 5 6 7 8 9 10


Numer wejciowego sygnau testowego

Rys.34. Krzywe kompresji dla strumieni wyjciowych kodera.

Mimo pewnych odchyle, np. w przypadku jednostki ciszy, ktrej czsto wystpowania w strumieniu jest najwiksza, mona powiedzie, e prawdopodobiestwa otrzymania poszczeglnych indeksw s do zrwnowaone. rdo, ktre generuje rwnoprawdopodobne symbole charakteryzuje si najwiksz entropi, co w konsekwencji wpywa na najniszy stopie kompresji strumienia binarnego indeksw fonemw. Wektor czstotliwoci podstawowych sygnau zawiera stosunkowo duo wartoci zerowych, ktre sygnalizuj bezdwiczne fragmenty sygnau. Wpywa to na zmniejszenie entropii rda. Pozostae przesyane wartoci F0 odpowiadajce fragmentom dwicznym mowy s do siebie zblione, co rwnie powoduje zmniejszenie entropii. W efekcie stopie kompresji otrzymany dla strumienia czstotliwoci podstawowych jest wikszy ni dla strumienia indeksw. Najlepszy stopie kompresji otrzymujemy kodujc czasy trwania rozpoznanych fonemw. Tutaj rozrzut wartoci jest bardzo may. Typowy czas trwania modelu, wyraony w liczbie jego kolejnych wystpie wynosi zazwyczaj 1 2. Powoduje to najmniejsz entropi rda spord trzech generowanych strumieni i co za tym idzie najlepsz efektywno kodowania strumienia binarnego.

- 71 -

4. Koncepcja semantycznego kodeka mowy

rednie wartoci stopnia kompresji uzyskane dla kodowanych strumieni zale rwnie od dugoci wektorw danych poddawanych kodowaniu. Najwysz efektywno kodowania otrzymujemy dla dugich sygnaw testowych, gdzie statystyka wystpie poszczeglnych symboli (indeksw, wartoci czstotliwoci, wartoci czasw trwania) charakterzuje si mniejszym rozrzutem, ni w przypadku przetwarzania krtkich sygnaw testowych.

4.3 Model dekodera


W ramach niniejszej pracy magisterskiej, oprcz przedstawionego w rozdziale 4.2 ukadu kodera mowy, zaimplementowano take model dekodera w celu weryfikacji poprawnoci dziaania systemu oraz oceny jego efektywnoci. Modu ten realizuje popularn technik rekonstrukcji sygnau, ktra wzorowana jest na syntezie LPC. Tor przetwarzania (trakt gosowy) reprezentowany jest w postaci filtru o skoczonej odpowiedzi impulsowej i wspczynnikach zmiennych w czasie. Wartoci parametrw filtru s odtwarzane dla kolejnych ramek sygnau, przy pomocy wspczynnikw melcepstralnych przechowywanych w modelach HMM fonemw. Wybr odpowiednich modeli z bazy znajdujcej si w dekoderze, dokonywany jest na podstawie indeksw fonemw przesyanych w strumieniu binarnym z kodera. Wykorzystany algorytm odtwarzania widma sygnau przedstawiony jest w rozdziale 4.3.2. rdem energii dla filtru syntezy jest generowany w dekoderze sygna pobudzenia, ktry modeluje skadniki dwiczne i bezdwiczne mowy. W tej implementacji dwiczny charakter pobudzenia odtwarzany jest przez cig impulsw o zmiennym okresie podstawowym, natomiast fragmenty bezdwiczne sygnau pobudzane s szumem. Dokadny opis uytej tutaj metody znajduje si w rozdziale 4.3.1. Pierwszym blokiem przetwarzania w opracowanym modelu jest dekoder binarny. W wyniku jego dziaania otrzymujemy wektor czstotliwoci podstawowych zakodowanego sygnau mowy, wektor indeksw rozpoznanych fonemw oraz wektor zawierajcy liczb wystpie poszczeglnych fonemw. Zdekodowane parametry s danymi wejciowymi dla kolejnych moduw wchodzcych w skad dekodera, ktrych opis jest tematem tego rozdziau.

- 72 -

4. Koncepcja semantycznego kodeka mowy

4.3.1 Wytwarzanie sygnau pobudzenia


W modelu wytwarzania mowy przedstawionym na rys.12 istotne jest zapewnienie prawidowego pobudzenia, ktre pozwoli dobrze reprezentowa fragmenty dwiczne oraz bezdwiczne mowy. Przeprowadzone eksperymenty pokazay, e wytwarzanie pobudzenia jest kluczowym etapem fonetycznego dekodowania mowy, majcym ogromny wpyw na subiektywn ocen jakoci sygnau zrekonstruowanego. W literaturze spotyka si wiele rozwiza wytwarzania sygnau pobudzenia dla filtru syntezy. Ich cech wspln jest fakt, e tony krtaniowe, o duej energii modelowane s w postaci okresowego cigu impulsw, natomiast skadniki szumowe o znacznie mniejszej energii i aperiodycznym przebiegu odtwarza si w postaci sygnau losowego, jakim jest szum biay gaussowski. Oprcz algorytmw twardo-decyzyjnych, ktre produkuj jedynie fonemy dwiczne i bezdwiczne, spotykane s take bardziej wyrafinowane i efektywne metody, ktre umoliwiaj wytwarzanie dwikw o charakterze porednim tonalnoszumowym. Za najbardziej efektywn technik generacji sygnau pobudzenia dla filtru syntezy mowy uwaa si algorytm mieszanego pobudzenia, zastosowany w standardzie kodowania MELP [2, rozdz.11]. Model pobudzenia wg tego standardu jest mieszanin skadnikw dwicznych i bezdwicznych, ktrych zawarto procentowa w generowanym fragmencie sygnau zaley od energii harmonicznych w okrelonych pasmach widma. Takie podejcie, w ktrym regulowany jest poziom gonoci sygnau szczeglnie dobrze sprawdza si w przypadku modelowania dwicznych fonemw szczelinowych np. /z/. Technik mieszanego pobudzenia (ang. mixed excitation) stworzono w celu eliminacji najczstszego artefaktu w syntezowanej mowie, jakim jest nienaturalne brzmienie fragmentw dwicznych, charakterystyczne dla technik LPC. Jest ono spowodowane zbyt zgrubnym modelowaniem drga fali akustycznej w postaci cigu impulsw. Mieszane pobudzenie w koderze MELP uzyskiwane jest przy zastosowaniu nastpujcych rozwiza:

filtr ksztatujcy impuls, skadajcy si z zestawu filtrw pasmowo-przepustowych, liczba pasm zazwyczaj wynosi 4 10 i jest staa dla kadej ramki kodowanego sygnau;

filtr ksztatujcy szum, o charakterystyce odwrotnej do filtru ksztatujcego impuls;

- 73 -

4. Koncepcja semantycznego kodeka mowy

wzmocnienie w kadym pamie dobierane na podstawie kryterium gonoci sygnau; wykorzystywana jest tutaj metoda autokorelacji obwiedni filtrowanego sygnau mowy w kadym z pasm;

paskie widmo pobudzenia ze wzgldu na sum odpowiedzi obu filtrw; nieokresowy cig impulsw; odlegoci midzy impulsami podlegaj fluktuacjom; filtr dyspersji impulsu powoduje rozmycie impulsw wystpujcych w odstpach rwnych okresowi podstawowemu; powoduje to lepsze dopasowanie sygnau syntezowanego do oryginalnego w pasmach pomidzy formantami.

Naturalno oraz wysoka jako mowy zrekonstruowanej technik MELP okupiona jest stosunkowo du zoonoci bloku generacji pobudzenia oraz wielkoci strumienia 2,4 kbit/s. Gwnie ze wzgldu na ten fakt, nie da si wprost zastosowa algorytmu mieszanego pobudzenia w koderze dla bardzo maej prdkoci transmisji. Aby omin ten problem w wokoderach fonetycznych wykorzystujcych modele HMM czsto stosuje si inne podejcie. Oprcz wektorw cech, ktre su do odtwarzania charakterystyki traktu gosowego, stany modeli fonemw przechowuj take informacje o waciwociach pobudzenia w analizowanej ramce sygnau, dla ktrej wyznaczono wektor cech. Takimi informacjami mog by np. poziomy gonoci dla filtrw pasmoprzepustowych ksztatujcych impulsy [16], czy modele transmitancji filtrw dla skadowej dwicznej i bezdwicznej w analizowanej ramce [17]. Metody te na og umoliwiaj wyeliminowanie dokuczliwych artefaktw w sygnale zrekonstruowanym, kosztem budowy bardzo zoonych modeli HMM fonemw. Na podstawie przeprowadzonych symulacji dostpnych rozwiza opracowano uproszczon technik generacji pobudzenia, ktrej model pokazany jest na rys.35. Idea budowy tego modelu pobudzenia zaczerpnita jest z algorytmu kodera MELP, jednak wykorzystane algorytmy przetwarzania s bardzo proste ze wzgldu na ograniczon prdko transmisji. Zaimplementowany model wytwarzania sygnau nieco rni si od tego przedstawionego na rys.12. Jedyn informacj potrzebn do rekonstrukcji sygnau pobudzenia dla potrzeb syntezy, jest czstotliwo podstawowa wyznaczona dla poszczeglnych ramek czasowych przetwarzanego sygnau. Poniewa warto tej czstotliwoci jest niezerowa dla fragmentw dwicznych oraz jest nieokrelona w przypadku skadnikw szumowych, na jej podstawie podejmowana jest decyzja o charakterze generowanego pobudzenia.

- 74 -

4. Koncepcja semantycznego kodeka mowy

POBUDZENIE DWICZNE

F0 > 0 SYGNA WYJCIOWY

F0

UKAD DECYZYJNY

F0 = 0

POBUDZENIE BEZDWICZNE

Rys.35. Blok produkcji sygnau pobudzenia w ukadzie dekodera mowy dla bardzo maej prdkoci transmisji.

Nie wykorzystuje si tutaj adnej informacji o poziomie gonoci poszczeglnych ramek sygnau. Tony krtaniowe odtwarza si w postaci quasi-okresowego cigu impulsw, ktrego okres w danej ramce sygnau jest rwny odwrotnoci czstotliwoci podstawowej, estymowanej w koderze. Wahania czstotliwoci podstawowej podczas wypowiedzi s tutaj reprezentowane w postaci zmian odstpu midzy generowanymi impulsami cigu. Naturalne pobudzenie produkowane przez puca oprcz quasi-okresowego przebiegu, charakteryzuje si take zmienn amplitud impulsw. Aby zamodelowa to zjawisko, do amplitudy prkw mona wprowadzi pewn losow nieregularno. Skadnik bezdwiczny jest uzyskiwany z ukadu generatora pseudolosowego wytwarzajcego szum biay. Wariancja szumu powinna by odpowiednio dobrana w stosunku do amplitudy impulsw. W zaimplementowanym rozwizaniu dobre efekty otrzymano dla stosunku tych wartoci rwnego 1:10. Podczas rekonstrukcji pobudzenia dekodowane s wartoci czstotliwoci podstawowej, wyznaczone dla kolejnych okien analizy. Odwrotno F0, czyli okres podstawowy sygnau mowy, wyznacza odstpy impulsw w danej ramce czasowej. Dla analizowanego okna otrzymujemy fragment sygnau pobudzenia, ktry jest sum impulsw poprzesuwanych o wielokrotno okresu podstawowego (rys.36).

- 75 -

4. Koncepcja semantycznego kodeka mowy

Rys.36. Fragment sygnau pobudzenia otrzymany na podstawie analizy sygnau kdt_001.wav z bazy TIMIT.

W naturalnym sygnale mowy zmiany konturu F0 przebiegaj w sposb cigy, w efekcie odstpy midzy impulsami pobudzenia rwnie powinny zmienia si pynnie. Ze wzgldu na kwantyzacj wartoci F0 moliwa jest jedynie pewna aproksymacja naturalnych zmian czstotliwoci podstawowej w czasie. W algorytmie zastosowano technik wyznaczania odstpw impulsw we fragmentach dwicznych pobudzenia, na podstawie zmian fazy. Wyznaczamy j z wektora czstotliwoci podstawowej, przesanego z kodera do dekodera, korzystajc z zalenoci definicyjnej (18):

(t ) = f ()d + 0
0

(18)

gdzie:

f () zakumulowana warto czstotliwoci sygnau w chwili

Poniewa warto czstotliwoci F0 wyznaczana jest w koderze raz na okno analizy N, konieczna jest interpolacja jej zmian pomidzy oknami. Kontur F0 w takiej formie moe posuy do obliczenia fazy sygnau wg (18). Otrzymany przebieg ma charakter monotonicznie rosncy ze wzgldu na akumulacj fazy dla kolejnych prbek sygnau. W rezultacie operacji modulo 1 otrzymujemy skokowe zmiany wartoci w przebiegu fazy.

- 76 -

4. Koncepcja semantycznego kodeka mowy

Zadaniem algorytmu produkcji pobudzenia jest lokalizacja tych skokw oraz wstawienie w tych miejscach impulsw, modelujcych skadowe dwiczne. Takie podejcie skutkuje otrzymaniem sygnau zsyntezowanego, ktry pozbawiony jest charakterystycznych schodkw zwizanych ze skokow zmian czstotliwoci chwilowej. Naturalne zmiany intonacji s rwnie dobrze odwzorowane. Istotnym elementem konstrukcji sygnau pobudzenia jest take odpowiedni dobr ksztatu impulsw w generowanym cigu. W wielu prostych implementacjach wokoderw stosowany jest cig impulsw prostoktnych. Otrzymany w ten sposb sygna widoczny jest na rys.36. Bardzo powanym problemem takiej postaci pobudzenia jest moliwo wystpienia aliasingu w zrekonstruowanej mowie. Wynika on z faktu, e widmo amplitudowe impulsu prostoktnego jest nieograniczone. Podczas splotu okresowego sygnau pobudzenia z odpowiedzi impulsow modelu traktu gosowego otrzymujemy sygna wyjciowy, ktrego widmo jest dyskretne i posiada skadowe aliasowe, ktre bardzo negatywnie wpywaj na subiektywn ocen jakoci zrekonstruowanej mowy. Sytuacja ta wystpi zawsze gdy filtr syntezy bdzie pobudzany syntetycznym cigiem impulsw prostoktnych bez zaokrglania ich pooenia z dokadnoci do pojedynczej prbki. W celu eliminacji aliasingu zastosowano technik skadania sekwencji pobudzajcej z impulsw o ksztacie krzywej sinc, ktrych widmo amplitudowe jest cile ograniczone i wyraa si wzorem (19):

F {Sa (t f 0 )} = 2 (
gdzie: f 0 szeroko pasma impulsu

f ) 2 f0

(19)

Dodatkow zalet takiego rozwizania jest fakt, e ograniczony pasmowo sygna, w formie cigu impulsw sinc, nie pobudza fragmentu charakterystyki filtru modelujcego, ktry jest znieksztacony podczas procesu rekonstrukcji widma ze wspczynnikw MFCC. Analiza mel-cepstralna jest mniej dokadna dla skadowych wysokoczstotliwociowych, dlatego te ich stratna kompresja, a nastpnie rekonstrukcja skutkuje syszalnymi artefaktami w zdekodowanej mowie. Stosujc impulsy sinc mona ten efekt wyeliminowa.

- 77 -

4. Koncepcja semantycznego kodeka mowy

Rys.37. Przykad dwicznej ramki sygnau pobudzenia o dugoci 60 ms, szeroko impulsu 0,33 ms, czstotliwo F0 rwna 80 Hz.

Rys.38. Widmo amplitudowe fragmentu sygnau pobudzenia. Szeroko pasma impulsu sinc rwna 3 kHz, czstotliwo F0 rwna 200 Hz, czstotliwo prbkowania 16 kHz. Do analizy zastosowano okno Hamminga.

- 78 -

4. Koncepcja semantycznego kodeka mowy

Podczas produkcji sygnau pobudzenia wany jest dobr odpowiedniej szerokoci impulsu. Naley wzi pod uwag fakt, e w pamie sygnau powinny znale si czstotliwoci, ktrych wystpuj w widmie typowej mowy. Przebieg czasowy sygnau pobudzenia, otrzymany przy zastosowaniu impulsw sinc, widoczny jest na rys.37, natomiast rys.38 ilustruje przykadowe widmo amplitudowe takiego sygnau. Ze wzgldu na quasi-okresow natur pobudzenia jego widmo jest dyskretne. Powyej 3 kHz obserwujemy zanik prkw widma wynikajcy z szerokoci impulsw Spadek ten nie jest jednak gwatowny, ze wzgldu na niedokadn aproksymacj wysokich czstotliwoci sygnau. Efekt ten naley uwzgldni przy wyborze szerokoci impulsu, aby wyeliminowa wystpowanie aliasingu w zrekonstruowanej mowie.

4.3.2 Rekonstrukcja cech widmowych sygnau


Aby wykona proces syntezy sygnau niezbdne jest odtworzenie charakterystyki czstotliwociowej traktu gosowego. W opracowanym systemie widmo mocy reprezentowane jest w postaci wspczynnikw MFCC, ktre s przechowywane w dekoderze jako wektory cech, stowarzyszone ze stanami modeli HMM fonemw. W literaturze najczciej spotykanym algorytmem rekonstrukcji widma z modeli HMM jest metoda przedstawiona w pracy Junichi Yamagishi [15]. Demonstruje on rozwizanie problemu produkcji optymalnej sekwencji wektorw parametrw O = [o1 , o 2 ,..., o t ] , ktra maksymalizuje prawdopodobiestwo jej otrzymania P(O | , T ) wzgldem rozkadu modelu HMM i dugoci sekwencji parametrw T (20):
O opt = arg max P(O | , T )
O

(20)

Yamagishi wskazuje, e nie istnieje proste rozwizanie analityczne tego rwnania. Z tego wzgldu czsto stosuje si aproksymacj w formie sekwencji wektorw obserwacji dla najbardziej prawdopodobnej sekwencji stanw q (21):
O opt arg max max P(O, q | , T )
O q

(21)

Uywajc wzoru Bayesa czne prawdopodobiestwo O i q mona przedstawi jako (22):

- 79 -

4. Koncepcja semantycznego kodeka mowy

O opt arg max max P(O | q, , T ) P(q | , T )


O q

(22)

Zatem problem znalezienia optymalnej sekwencji wektorw obserwacji moe by rozoony na dwa podrzdne problemy [15]: 1. Znalezienie optymalnej sekwencji stanw q opt modelu HMM (23):
q opt = arg max P(q | , T )
q

(23)

2. Znalezienie optymalnej sekwencji parametrw Oopt, dla okrelonej sekwencji stanw modelu HMM (24): O opt = arg max P (O | q opt , , T )
O

(24)

Pierwszy krok realizowany jest w postaci rozpoznawania fonemw, w koderze. Tam, przy pomocy algorytmu przedstawionego w rozdziale 4.2.4, wyznaczana jest najbardziej prawdopodobna kombinacja stanw modeli fonemw, ktra jest przesyana do dekodera w formie transkrypcji indeksw tych modeli. Rozwizanie drugiego etapu procesu optymalizacji jest skomplikowane w przypadku, gdy wektory cech oprcz wspczynnikw statycznych MFCC, zawieraj take wspczynniki dynamiczne (delta, delta-delta). Skadowe dynamiczne, wyznaczone podczas analizy umoliwiaj odtworzenie cigoci w generowanej mowie, gdy podczas ich estymacji uwzgldniane s informacje o ramkach poprzedzajcych i ramkach nastpujcych mowy. Zastosowanie wspczynnikw dynamicznych wymaga uycia metod numerycznych do znalezienia optymalnego rozwizania rwnania ze wzoru (24), jak np. dekompozycja Choleskyego, czy dekompozycja QR dla rwna macierzowych. Poniewa zadaniem szczegowym pracy magisterskiej byo opracowanie uproszczonego modelu kodeka mowy, nie zdecydowano si na implementacj wymienionych metod i zastosowano jedynie wspczynniki statyczne MFCC do modelowania cech widmowych fonemw. W takim przypadku, rozwizaniem rwnania (24) jest sekwencja wektorw wartoci rednich wspczynnikw, odczytanych z kolejnych stanw modeli HMM, dla optymalnej sekwencji q opt . Uniknicie skomplikowanych oblicze numerycznych dla macierzy parametrw okupione jest tutaj gorsz jakoci odtworzonej mowy, wynikajc z braku pynnoci w zmianach krtko-okresowej charakterystyki czstotliwociowej. Baza modeli HMM fonemw uywana w dekoderze mowy rni si nieco od tej zawartej w koderze. Tutaj dodatkowo wektory cech zawieraj wspczynnik zerowy

- 80 -

4. Koncepcja semantycznego kodeka mowy

MFCC. Jest on niezbdny do rekonstrukcji obwiedni widma sygnau, gdy zawiera informacj o jego energii. Ten parametr nie odzwierciedla cech intonacji mwcy sygnau oryginalnego, lecz reprezentuje urednion energi mwcy treningowego, estymowan na podstawie wypowiedzi z bazy danych. Jest to znaczca wada tego rozwizania, jednak wspczynniki energii, odczytane z modeli, umoliwiaj zgrubne odtworzenie rozkadu energii dla poszczeglnych harmonicznych sygnau. Rekonstrukcja sygnau bez informacji o jego obwiedni skutkuje otrzymaniem mowy o bardzo zej jakoci. Inn moliwoci w takim przypadku mogoby by przesyanie informacji o obwiedni sygnau z kodera, w postaci dodatkowych parametrw strumienia. Pozostaje to w perspektywie dalszej rozbudowy systemu. W typowych implementacjach koderw fonetycznych odtwarzanie cech widmowych sygnau ze wspczynnikw MFCC, zawartych w stanach modelu HMM jest wykonane przy uwzgldnieniu informacji o rozkadzie prawdopodobiestwa czasu trwania poszczeglnych stanw. Funkcja gstoci rozkadu prawdopodobiestwa jest wtedy estymowana jako kolejny parametr modelu HMM. W prezentowanym rozwizaniu nie tworzy si rozkadw czasu trwania stanw. Przyjto zaoenie, e najwiksza informacja o cechach danej goski skupiona jest w rodkowym stanie emitujcym modelu 3. Stany 2 i 4 reprezentuj informacj o cechach danej goski odpowiednio na pocztku i na kocu czasu jej trwania. Odtwarzanie wspczynnikw MFCC w module rekonstrukcji mowy przebiega wg nastpujcego schematu: 1. Odbir zdekodowanego indeksu modelu HMM fonemu oraz czasu jego trwania, w postaci liczby kolejnych wystpie fonemu N. 2. Wczytanie parametrw statystycznych modelu z bazy, na podstawie odebranego indeksu. 3. Powikszenie macierzy wspczynnikw MFCC o kolumn, zawierajc wektor wartoci rednich wspczynnikw MFCC wyczytany ze stanu 2 modelu HMM. 4. Powikszenie macierzy wspczynnikw MFCC o N 2 kolumn, zawierajcych wektor wartoci rednich wspczynnikw MFCC wyczytany ze stanu 3 modelu HMM. 5. Powikszenie macierzy wspczynnikw MFCC o kolumn, zawierajc wektor wartoci rednich wspczynnikw MFCC wyczytany ze stanu 4 modelu HMM. 6. Powtrzenie krokw 3 5 tyle razy, ile wynosi warto zdekodowanego czasu trwania fonemu N.

- 81 -

4. Koncepcja semantycznego kodeka mowy

Opracowany schemat jest prosty, ale aproksymacja widma traktu gosowego otrzymana w ten sposb jest zadowalajca, czego efektem s wyniki oceny jakoci mowy zrekonstruowanej przedstawione w rozdziale 5. Po odczytaniu wszystkich indeksw przesanych z kodera, otrzymujemy macierz wspczynnikw mel-cepstrum, o wymiarach M x T, gdzie M to liczba wspczynnikw (uwzgldniajca logarytm energii), a T oznacza otrzyman liczb ramek czasowych sygnau okno analizy jest dwukrotnie wiksze, ze wzgldu na zakadk. Przykadowy rezultat generacji wspczynnikw MFCC z modeli HMM, w odniesieniu do oryginalnych wartoci analizy mel-cepstralnej pokazany jest na rys.43. Rnice zauwaalne s dla wspczynnikw niskiego rzdu, gdy zawieraj one najwicej informacji o cechach sygnau. Wspczynniki wysokiego rzdu maj zazwyczaj mniejsze wartoci, co przekada si rwnie na mniejsz warto rnicy.

Rys.39. Przykadowy obraz rnicowy pomidzy oryginalnymi wspczynnikami MFCC, a wartociami otrzymanymi z modeli HMM.

Prezentowany obraz dobrze ilustruje bdnie rozpoznane wektory cech. Objawia si to wikszymi wartociami rnic midzy wspczynnikami, dla ramki odpowiadajcej danemu wektorowi cech. Bdy wynikaj ze zbyt sabego wytrenowania modeli fonemw. Wyjtkiem jest jednostka ciszy /sil/, dla ktrej obserwujemy najmniejszy poziom bdu ramki sygnau 0 45 i 270 290.

- 82 -

4. Koncepcja semantycznego kodeka mowy

Wektory cech jego modelu HMM s najdokadniej estymowane, gdy pojawia si on w prawie kadej wypowiedzi treningowej. W przypadku pozostaych fonemw ta estymacja nie jest ju tak dokadna, co jest widoczne na przedstawionym rysunku dla ramek sygnau 45 270.

4.3.3 Synteza sygnau mowy


Ostatnim charakterystyki etapem przetwarzania danych traktu w dekoderze jest synteza przy mowy. pomocy Wykorzystujemy do tego wygenerowany wczeniej sygna pobudzenia oraz aproksymacj czstotliwociowej gosowego, otrzyman wspczynnikw MFCC. Jedn z moliwych technik rekonstrukcji mowy w dekoderze jest rozwizanie prezentowane przez Chazana i pozostaych w pracy [18]. Ich algorytm opiera si na modelu sinusoidalnym, gdzie krtko-okresowy sygna jest reprezentowany w postaci sumy sinusoid. Wartoci amplitudy oraz fazy przebiegu, odtwarzane s z wektorw cech sygnau wspczynnikw MFCC, a nastpnie rekonstruowane jest widmo krtkookresowe STFT. Najpopularniejszym rozwizaniem spotykanym w literaturze [8], [15], jest synteza sygnau przy pomocy filtru aproksymujcego logarytm widma amplitudowego MLSA. Jest to typowa metoda rekonstrukcji sygnau dla klasy wokoderw fonetycznych, ktr zaimplementowano w pierwszej kolejnoci, korzystajc z biblioteki SPTK (ang. Speech Signal Processing Toolkit) [19]. Dyskretna funkcja transmitancji filtru MLSA ma charakter wykadniczy, a jej bardzo dokadna aproksymacja, wykorzystywana podczas implementacji wyraa si wzorem (25):

H ( z ) = exp b(m) m ( z )
m =0

(25)

gdzie:

M rzd analizy mel-cepstralnej b(m) m-ty wspczynnik filtru MLSA, otrzymywany przy pomocy formuy (26):
c (m), m=M b( m) = c (m) b(m + 1), 0 m < M (26)

- 83 -

4. Koncepcja semantycznego kodeka mowy

Wspczynniki c (m) w tym wzorze to wartoci cepstrum sygnau w melowej skali czstotliwoci. m ( z ) funkcja zmiennej Z, zalena od wspczynnika kompresji skali czstotliwoci (27):
1, m=0 m ( z ) = (1 2 ) z 1 z ( m 1) , m0 1 z 1 1 z ( m 1)

(27)

Charakterystyka fazowa powyszej transmitancji jest uzaleniona od zmiennej , ktrej warto reprezentuje odpowiedni transformacj skali czstotliwoci np., przyjcie wspczynnika rwnego 0,41 dla czstotliwoci prbkowania 16 kHz umoliwia przyblienie charakterystyki ludzkiego systemu syszenia w postaci skali melowej. Transmitancj filtru MLSA zapisuje si czsto w formie iloczynu (28):

H ( z ) = K D( z )
gdzie:

(28)

K = exp b(0) - informacja o obwiedni funkcji transmitancji D( z ) = exp b(m) m ( z ) - transmitancja filtru syntezy
m =1 M

Podczas prb wczenia filtru do modelu dekodera mowy wykryto powan wad wykorzystywanej metody. Okazao si, e wspczynniki MFCC uywane do rozpoznawania fonemw w koderze, nie nadaj si do rekonstrukcji widma sygnau. W efekcie, generowane przy ich pomocy wspczynniki filtru MLSA s nieprawidowe. Problem polega na tym, e wartoci b(m) we wzorze (26), wyznaczane s na podstawie cepstrum sygnau, ktre uprzednio transformowane jest do melowej skali czstotliwoci. Cepstrum to obliczane jest wg wzoru (3), co odbiega od definicji wspczynnikw MFCC (6). Podczas estymacji wektorw cech, dla celw rozpoznawania mowy, znaczca ilo informacji o widmie sygnau jest zatem bezpowrotnie tracona. Na przykad w trakcie analizy odrzucane s wspczynniki MFCC wyszego rzdu, reprezentujce skadowe wysokoczstotliwociowe widma.

- 84 -

4. Koncepcja semantycznego kodeka mowy

MACIERZ WSPCZYNNIKW MFCC

ODWROTNA LIFTRACJA

REKONSTRUKCJA SUMY AMPLITUD W PASMACH ANALIZY


MACIERZ SUM AMPLITUD WIDMA W PASMACH

REKONSTRUKCJA ZESPOU FILTRW ANALIZY

MACIERZ ODWROTNOCI WAG AMPLITUD FFT

REKONSTRUKCJA WIDMA MOCY TRAKTU GOSOWEGO


WIDMO MOCY TORU SYGNAU

SYGNA POBUDZENIA

FFT
WIDMO SYGNAU MOWY

IFFT

ZSYNTEZOWANA MOWA

Rys.40. Schemat blokowy algorytmu syntezy mowy w dekoderze.

- 85 -

4. Koncepcja semantycznego kodeka mowy

W trakcie pracy nad projektem kodeka podjto szereg prb konwersji wspczynnikw MFCC do postaci dogodnej do wyznaczenia gabarytw filtru MLSA, jednak nie uzyskano zadowalajcego efektu. Nieodpowiednie wartoci wspczynnikw wykorzystywane do budowy filtru powodoway jego niestabilno. W wyniku napotkanych trudnoci podjto decyzj o zastosowania innej metody syntezy sygnau mowy. Rozwizaniem okaza si algorytm rekonstrukcji widma amplitudowego sygnau ze wspczynnikw MFCC zaproponowany przez Dana Ellisa i pozostaych z grupy LabROSA, Uniwersytetu Columbii [20]. Wykorzystana technika skada si z etapw rekonstrukcji mowy, zaprezentowanych w formie schematu blokowego na rys.40. Pierwszym krokiem jest odwrotna Podczas liftracja, tej ktr wykonujemy na wektorze wspczynnikw skompensowa MFCC. efekt operacji otrzymujemy dla zmodyfikowane efektywnego

wspczynniki mel-cepstrum (9). Zastosowanie tego typu przeksztacenia pozwala wygadzania widma, wykonany celw rozpoznawania cech mowy. Kolejnym etapem przetwarzania jest rekonstrukcja sum skadnikw widma mocy, otrzymanych w wyniku wymnoenia energii kolejnych prbek w pasmach przepustowych filtrw analizy, przez ich trjktne charakterystyki. W celu wyznaczenia wartoci sum przeprowadza si odwrotn transformacj kosinusow IDCT. Oglnie proces otrzymywania sum skadnikw widma w poszczeglnych segmentach mona przedstawi w postaci nastpujcego rwnania macierzowego (29):

S_SUM = exp(IDCT MFCC)


gdzie:

(29)

S _ SUM otrzymana macierz sum skadnikw widma mocy w poszczeglnych pasmach


widma, wymiar FB T , gdzie FB oznacza liczb filtrw analizy skadajcych si na zesp filtrw analizy, natomiast T reprezentuje liczb ramek czasowych sygnau zrekonstruowanego. IDCT odwrotna macierz transformacji DCT. MFCC macierz wspczynnikw MFCC. Funkcja wykadnicza kompensuje tutaj operacj logarytmowania wartoci sum, wykonywan w trakcie analizy mel-cepstralnej.

- 86 -

4. Koncepcja semantycznego kodeka mowy

W kolejnej fazie syntezy sygnau mowy nastpuje rekonstrukcja zespou filtrw analizy, przy pomocy ktrego wyznaczono wspczynniki MFCC. Proces ten polega na wyznaczeniu czstotliwoci rodkowych pasm przepustowych, ktre s pooone w rwnych odlegociach, w melowej skali czstotliwoci. Wie si to z uprzedni konwersj skali. Oprcz odpowiedniego rozmieszczenia zespou filtrw, przywracane s take wagi amplitud, ktre skadaj si na trjktne charakterystyki tumienia w poszczeglnych pasmach. Wymienione tutaj operacje, w ramach rekonstrukcji zespou filtrw wykonywane s dla kadego ramki sygnau, ktrej dugo zdefiniowana jest w module dekodera mowy. Ostatecznie otrzymywana jest macierz o rozmiarze FB N/2+1, gdzie N okrela dugo okna analizy FFT, zawierajca wartoci wag amplitudy widma w danym pamie zespou filtrw. Nastpnie wyznaczana jest macierz odwrotnoci tych wag o rozmiarze N/2+1 FB, ktr wymnaa si z macierz wartoci sum skadnikw widma mocy, wg wzoru (30):

S_POW = IWTS S_SUM


gdzie:

(30)

S_POW otrzymane widmo mocy traktu gosowego, o rozmiarze

N +1 T . 2

IWTS macierz odwrotnych wag, skadajcych si na trjktne charakterystyki tumienia zespou filtrw, rozmiar

N + 1 FB . 2

S_SUM macierz sum skadnikw widma mocy w poszczeglnych pasmach zespou


filtrw, rozmiar FB T .

W efekcie przeprowadzonych transformacji i przeksztace dysponujemy aproksymacj widma mocy traktu gosowego, z ktrej wyznaczamy widmo amplitudowe. Przykadowa charakterystyka czstotliwociowa tak otrzymanego filtru syntezy dla pojedynczej, dwicznej ramki sygnau przedstawiona jest na rys.1. Na wykresie dobrze wyranie widoczne s pasma formantowe, w ktrych sygna pobudzenia jest wzmacniany w najwikszym stopniu. Charakterystyczne zafalowania transmitancji wpywaj na ksztatowanie impulsu pobudzenia. Rozkad pasm formantowych zmienia si z ramki na ramk w czasie trwania sygnau.

- 87 -

4. Koncepcja semantycznego kodeka mowy

Syntez sygnau mowy przeprowadzamy wg modelu rdowo-filtrowego (rozdzia 2.4). W dziedzinie czasu proces filtracji realizowany jest w postaci splotu liniowego odpowiedzi impulsowej traktu gosowego oraz sygnau pobudzenia. Operacj dualn jest iloczyn transformat Fouriera tych skadnikw. Pomijajc informacj o fazie, ktra nie jest syntezowana, realizujemy jedynie iloczyn widm amplitudowych toru oraz pobudzenia. Konieczne jest wyznaczenie transformacji Fouriera sygnau pobudzenia, ktry uprzednio dzieli si na segmenty o dugoci ramek analizy mel-cepstralnej.

Rys.41. Charakterystyka czstotliwociowa filtru modelujcego mow otrzymana poprzez rekonstrukcj widma amplitudowego ze wspczynnikw MFCC.

Nastpnie na kocu kadego segmentu dodawany jest wektor zerowych prbek (ang. zero padding). Skutkuje to prawidow realizacj splotu liniowego sygnaw dyskretnych. Przebieg czasowy sygnau w kadym segmencie jest rekonstruowany przez odwrotn transformacj Fouriera z iloczynu widm amplitudowych. Ostatecznie mowa jest syntezowana w wyniku skadania otrzymanych segmentw czasowych, przy uwzgldnieniu dugoci zakadki ramki. Kocowym etapem przetwarzania sygnau w ukadzie dekodera jest zastosowanie filtru deemfazy do zrekonstruowanej mowy, ktrego dziaanie jest dokadnie odwrotne do filtru

- 88 -

4. Koncepcja semantycznego kodeka mowy

preemfazy przedstawionego w rozdziale 4.2.2. Przykadowe wyniki syntezy mowy w dekoderze widoczne s na rys.42 w postaci przebiegu czasowego oraz na rys.43 w postaci spektrogramu sygnau oryginalnego oraz zrekonstruowanego. Spogldajc na wykres czasowy mona zauway, e oglna struktura sygnau fragmenty dwiczne i bezdwiczne zostaa wiernie odtworzona. Sabo zrekonstruowane s transienty. Wynika to z faktu, e te nieharmoniczne, wybuchowe skadniki mowy nie s modelowane w koderze. Nios one gwnie informacj o zmianie fazy sygnau, podczas gdy rozpoznawanie cech w koderze fonetycznym opiera si jedynie na waciwociach widma amplitudowego. Niedokadnie odwzorowana warto obwiedni sygnau nie stanowi wikszego problemu, natomiast wynika z licznych transformacji wykonywanych podczas syntezy sygnau. Niecigoci w przebiegu czasowym spowodowane s nie uwzgldnieniem waciwoci dynamicznych sygnau podczas jego kodowania oraz bdami w rozpoznawaniu fonemw. Podobne wnioski mona wysun analizujc spektrogram sygnau zsyntezowanego. Pokazuje on, e najlepiej odtworzone s skadniki dwiczne o duej energii, a take fragmenty o charakterze szumowym. Sabe efekty otrzymujemy w przypadku skadnikw mieszanych mowy. Czstotliwo podstawowa sygnau jest rozrnialna, w przeciwiestwie do sabo zarysowanych pasm formantowych. W otrzymanym spektrogramie widoczne s typowe cechy sygnaw syntetycznych bardzo regularny odstp prkw widma, nagy spadek amplitudy widma powyej granicy widma impulsu, przy pomocy ktrego wygenerowano sygna pobudzenia. Co wicej, ograniczone pasmo impulsu w modelu generacji pobudzenia oraz ograniczony rzd analizy mel-cepstralnej w koderze maj wpyw na niedokadne odwzorowanie skadnikw wysokoczstotliwociowych widma. Przedstawione tutaj cechy sygnau zrekonstruowanego maj swoje odzwierciedlenie w percepcyjnie postrzeganym poziomie jakoci i zrozumiaoci otrzymanej mowy. Wyniki subiektywnych ocen tych miar przedstawione s w nastpnym rozdziale pracy.

- 89 -

4. Koncepcja semantycznego kodeka mowy

Rys.42. Przebieg czasowy sygnau oryginalnego oraz sygnau zrekonstruowanego.

Rys.43. Spektrogram sygnau oryginalnego i sygnau zrekonstruowanego.

- 90 -

5. Wyniki symulacji modelu kodeka

5. Wyniki symulacji modelu kodeka


Najwaniejszym parametrem, ktry naley oszacowa przy ocenie efektywnoci, jest wielko otrzymanego strumienia binarnego na wyjciu kodera. Ocena ta powinna by poparta rezultatami bada w zakresie poziomu zrozumiaoci i jakoci sygnau zrekonstruowanego. Aby otrzymane wyniki testw miay praktyczne odniesienie s one przedstawione w porwnaniu z popularn technik kodowania mowy, jak jest LPC.

5.3.1 Otrzymany strumie


Do oszacowania typowych wielkoci strumienia binarnego na wyjciu kodera wykorzystujemy grup dziesiciu fragmentw mowy, pochodzcych z bazy treningowej kdt US English TIMIT [12]. Na poziom kompresji poszczeglnych sygnaw testowych, wpyw ma przede wszystkim poziom trudnoci danej wypowiedzi w sensie leksykalnym, zrnicowanie fonemw wchodzcych w jej skad oraz poziom wytrenowania modeli HMM skadajcych si na dany fragment mowy. Szacowana prdko transmisji wyznaczana jest przez zsumowanie przepywnoci potrzebnych do zakodowania wektora czstotliwoci F0, indeksw fonemw oraz czasu ich trwania w postaci liczby kolejnych wystpie, w kodowanej frazie. Wyniki symulacji przedstawione s w tab.2. Dla reprezentatywnej grupy dziesiciu sygnaw testowych otrzymano strumie 302,17 23,91 bit/s. Odchylenia od tej wartoci s stosunkowo niewielkie. O niskiej wartoci przepywnoci decyduje w gwnej mierze poprawny wynik algorytmu rozpoznawania fonemw. Zmniejsza si wtedy liczba przesyanych indeksw modeli HMM, co powoduje wzrost kompresji sygnau. Bdy w algorytmie rozpoznawania mowy skutkuj duszym wektorem tych indeksw, a take wzrostem wielkoci strumienia.

- 91 -

5. Wyniki symulacji modelu kodeka

Tab.2. Otrzymane wielkoci strumieni binarnych dla sygnaw testowych. Fragment mowy kdt_001.wav kdt_002.wav kdt_006.wav kdt_028.wav kdt_081.wav kdt_098.wav kdt_146.wav kdt_210.wav kdt_280.wav kdt_431.wav rednia odchylenie stand. Przepywno [bit/s]. 320,72 339,29 320,70 322,10 303,37 282,24 274,99 308,73 274,18 275,35 302,17 23,91

5.3.2 Ocena zrozumiaoci otrzymanej mowy


W badaniu zrozumiaoci sygnau mowy mierzymy poziom znieksztacenia jego zawartoci informacyjnej. Najpopularniejszym testem zrozumiaoci dla koderw mowy jest tzw. diagnostyczny test rymowy DRT (ang. Diagnostic Rhyme Test) [2, rozdz.8]. Polega ona na pytaniu suchacza o rozpoznanie par wypowiadanych sw, ktre rni si pierwsz sylab. Wynik testu okrela si jako stosunek odpowiedzi prawidowych do cakowitej liczby par sw. Przeprowadzenie testu DRT wymusza posiadanie odpowiedniej grupy fragmentw mowy, ktre rni si jedn sylab. Baza sygnaw treningowych wykorzystywana w tym projekcie skada si z 452 wypowiedzi, przy czym s to cae zdania. Przeprowadzanie testu DRT w takim przypadku jest niemoliwe, ze wzgldu na brak odpowiednich danych wejciowych. Co wicej, opracowany kodek jest systemem zalenym od mwcy treningowego i uycie sygnaw spoza bazy powoduje spadek efektywnoci zarwno analizy jak i rekonstrukcji.

- 92 -

5. Wyniki symulacji modelu kodeka

Ze wzgldu na powysze przyczyny zaistniaa konieczno przeprowadzenia badania zrozumiaoci inn metod. Aby zgrubnie oceni poziom zrozumiaoci zdekodowanych sekwencji sw poproszono suchaczy o wystawienie oceny wg nastpujcej skali: 1 2 3 - mowa cakowicie niezrozumiaa - mowa czciowo zrozumiaa - mowa cakowicie zrozumiaa

Test wykonano w grupie omiu suchaczy, przy wykorzystaniu tych samych fragmentw mowy, co w rozdziale 5.3.1. Subiektywna ocena zrozumiaoci oraz jakoci sygnau zrekonstruowanego zostaa wykonana dla opracowanego systemu kodowania oraz referencyjnego kodeka LPC. Zosta on skonfigurowany do pracy przy parametrach analizy, umoliwiajcych otrzymanie bardzo niskiego strumienia binarnego: rzd predyktora = 4 okno analizy = 640 prbek wspczynniki LPC w formie PARCOR przydzia bitw: wspczynniki filtru = 2 bity/ramk wzmocnienie = 0 bitw/ramk Jak wida rzd predykatora jest bardzo niski, dugoci ramki analizy znacznie dusza ni typowe 160 prbek, a kwantyzacja wspczynnikw filtru bardzo silna. Informacja o wzmocnieniu w ogle nie jest kodowana. Tylko takie nastawy umoliwiaj zmniejszenie generowanej przepywnoci kodeka LPC z 2,4 kbit/s do ok. 600 bit/s. Dodatkowo podczas syntezy sygnau wykorzystuje si algorytm generacji pobudzenia zaczerpnity z opracowanego systemu kodowania mowy. Otrzymana warto przepywnoci dla referencyjnego kodeka LPC uwzgldnia liczb bitw konieczn do transmisji wektora czstotliwoci F0, ktry jest wykorzystywany do produkcji sygnau pobudzenia. Wyniki subiektywnej oceny zrozumiaoci mowy zrekonstruowanej zawarte s w tab.3. Dla opracowanego modelu kodeka mowy otrzyman redni ocen poziomu zrozumiaoci rwn 1,7, co oznacza, e suchacze uznali wypowiadane sekwencje za czciowo zrozumiae.

- 93 -

5. Wyniki symulacji modelu kodeka

- 94 -

5. Wyniki symulacji modelu kodeka

W przypadku kodeka LPC redni poziom zrozumiaoci dla dziesiciu sygnaw testowych okrelono na 1,15. Mona zatem uzna, e fragmenty mowy zakodowane przy pomocy wykorzystanego kodeka LPC dla 600 bit/s, s cakowicie niezrozumiae dla suchacza.

5.3.3 Subiektywna ocena jakoci sygnau zrekonstruowanego


Celem badania jakoci mowy zsyntezowanej jest ocena stopnia znieksztace, otrzymanych w wyniku stratnej kompresji sygnau. Podobnie jak w badaniu zrozumiaoci otrzymane wyniki s cakowicie zalene od suchacza i dlatego mog si znacznie rni. W literaturze [2, rozdz.8] mona spotka kilka metod pomiaru jakoci zdekodowanej mowy. Najczciej wykorzystuje si tzw. test redniej oceny jakoci MOS (ang. Mean Opinion Score), w ktrym suchacz uywa picio-punktowej skali do okrelenia jakoci sygnau mowy. Wad tej techniki jest duy rozrzut otrzymanych wynikw ze wzgldu na rn percepcj suchaczy, ich samopoczucia itp. Bardzo subiektywny charakter rezultatw testu MOS nie pozwala na wiarygodne ich porwnanie z wynikami otrzymanymi przy pomocy innych metod. Lepszym badaniem w takiej sytuacji okazuje si test redniej oceny degradacji sygnau DMOS (ang. Degradation Mean Opinion Score). Podczas jego realizacji suchacz otrzymuje referencj dla analizowanego fragmentu, w postaci oryginalnej wypowiedzi. Jego zadaniem jest ocena stopnia degradacji mowy wg nastpujcej skali [21]: 5 degradacja jest niesyszalna 4 degradacja jest syszalna, ale niedokuczliwa 3 degradacja jest w maym stopniu dokuczliwa 2 degradacja jest dokuczliwa 1 degradacja jest bardzo dokuczliwa Dziki porwnywaniu sygnau zdekodowanego z sygnaem oryginalnym moliwe jest otrzymanie bardziej zblionych wynikw, pochodzcych od wielu suchaczy. Ten fakt zadecydowa o wykorzystaniu testu DMOS do zbadania jakoci fragmentw mowy otrzymanych na wyjciu zaimplementowanego kodeka. W celu porwnania, zbadano take jako sygnau na wyjciu kodeka LPC, ktrego parametry dobrano jak w rozdziale 5.3.2. Podobnie jak w ocenie zrozumiaoci, reprezentatywna grupa suchaczy skadaa si z omiu osb, ktre analizoway dziesi testowych sygnaw mowy. Otrzymane wyniki badania przedstawione s w tab.4.

- 95 -

5. Wyniki symulacji modelu kodeka

- 96 -

5. Wyniki symulacji modelu kodeka

rednia ocena jakoci fragmentw kodowanych przy uyciu systemu, bdcego tematem pracy wyniosa 2,61. Suchacze uznali, e degradacja sygnau wystpuje, ale jest ona umiarkowanie dokuczliwa. Gorsz ocen jakoci uzyskano dla kodeka LPC (przy strumieniu 600 bit/s). Tutaj redni stopie degradacji sygnau osign warto 1,19. Mona uzna, e mowa otrzymana na wyjciu kodeka LPC jest bardzo silnie zdegradowana. Podczas bada jakoci oraz zrozumiaoci mowy zrekonstruowanej najwiksze bdy, a co za tym idzie najgorsze oceny, wystawiano w przypadku fragmentw bardzo zrnicowanych leksykalnie oraz cechujcych si du zawartoci skadnikw dwicznych. Wynika to z bdw w rozpoznawaniu odpowiednich jednostek akustycznych, realizowanym w koderze. Wpywa na to take mocno uproszczony model syntezy pobudzenia w module rekonstrukcji sygnau. Percepcja fragmentw, zawierajcych stosunkowo duo skadnikw bezdwicznych jest lepsza, gdy szum mona atwo zamodelowa. Bardzo wanym wnioskiem pyncym z wynikw bada jest znaczca przewaga efektywnoci kodowania opracowanego systemu w stosunku do kodera LPC dla strumienia 600 bit/s. Suchacze ocenili, e kodowanie mowy przy uyciu zaprojektowanego systemu daje mow o wiele lepszej jakoci (rnica rzdu ptora punktu skali). Badanie zrozumiaoci rwnie wypado tutaj lepiej (ok. p punktu skali). Naley take zaznaczy, e redni strumie binarny generowany przez opracowany koder waha si na poziomie 300 bit/s. Moemy zatem powiedzie, e algorytm kodowania mowy, ktry jest tematem pracy, daje dwukrotnie wikszy stopie kompresji sygnau, ni kodek LPC pracujcy przy podobnych parametrach analizy oraz pozwala otrzyma mow zrekonstruowan o wiele lepszej jakoci.

- 97 -

6. Zakoczenie

6. Zakoczenie
Celem niniejszej pracy magisterskiej bya weryfikacja moliwoci implementacji systemu kodowania mowy przy ekstremalnie maych prdkociach transmisji. W tym rozdziale zawarte jest podsumowanie zrealizowanych zada szczegowych, ktre sformuowano przed rozpoczciem prac badawczych i projektowych. Na wstpie zweryfikowano uyteczno wspczesnych technik kodowania mowy dla bardzo maych przepywnoci, pod ktem wielkoci otrzymywanego strumienia, poziomu zoonoci algorytmu, wielkoci potrzebnych baz danych mowy itp. Spord trzech podstawowych technik budowy koderw mowy wokodera segmentowego, wokodera sylabowego oraz wokodera fonetycznego zdecydowano si na implementacj tego ostatniego. Budowa sprawnego systemu kodowania wymusia konieczno gbszego zrozumienia wielu procesw, ktre zachodz podczas produkcji sygnau mowy. Wytwarzanie sygnau pobudzenia, reprezentowanie traktu gosowego w postaci ukadu liniowego o parametrach zmiennych oraz charakterystyka podstawowych jednostek akustycznych mowy, jakimi s fonemy, stanowi istotny kontekst merytoryczny dla implementacji kodeka mowy opartego na algorytmach analizy i resyntezy sygnau. Podczas prac nad koderem konieczne byo przeprowadzenie wielu bada w zakresie rozpoznawania mowy przy wykorzystaniu ukrytych modeli Markowa HMM. Analiz zagadnie budowy takich struktur oraz reprezentacji przy ich pomocy cech widmowych fonemw wykonano przy wykorzystaniu popularnego narzdzia do treningu modeli HMM i rozpoznawania mowy, jakim jest biblioteka HTK [9]. Przy jej pomocy opracowano ostateczn form modelu HMM, ktry wykorzystano podczas realizacji algorytmu kodowania mowy, bdcego tematem pracy. W projekcie wykorzystano take dostpne narzdzia inicjalizacji i treningu modeli HMM zawarte w systemie HTK. Do rozpoznawania fonemw przy pomocy HMM opracowano autorski algorytm, ktry pozwoli na efektywne przeprowadzenie analizy wejciowego sygnau mowy, bez koniecznoci posiadania informacji o jego gramatyce. W dalszych etapach pracy nad koderem zaimplementowano algorytm analizy melcepstralnej sygnau mowy oraz metod ekstrakcji czstotliwoci podstawowej, wykorzystujc cepstrum sygnau.

- 98 -

6. Zakoczenie

Stopie kompresji strumienia binarnego otrzymywanego na wyjciu ukadu, polepszono stosujc koder entropijny. W celu zapewnienia spjnego systemu kodeka konieczne byo opracowanie moduu rekonstrukcji mowy. Kluczow spraw okaza si wybr odpowiedniej metody filtracji syntetycznie wygenerowanego sygnau pobudzenia. Zagadnieniu temu powicono wiele bada eksperymentalnych. W rezultacie wykorzystano znany algorytm rekonstrukcji widma amplitudowego ze wspczynnikw MFCC, otrzymanych z modeli HMM. Dowiadczenia zdobyte podczas prac nad syntez sygnau mowy pokazay, e znaczcym elementem w tego typu systemie jest odpowiednio generowany sygnau pobudzenia. Jego rekonstrukcja musi by wierna, gdy znaczco wpywa on na ocen subiektywn odtwarzanej mowy. W opracowanym modelu dekodera przy pomocy techniki cigej interpolacji czstotliwoci F0 oraz doboru odpowiedniego ograniczonego pasmowo cigu impulsw otrzymano zadowalajcy efekt. Model kodera i dekodera mowy, skadajcy si na cz implementacyjna pracy, pozwoli na przeprowadzenie symulacji opracowanego rozwizania. Badano wielko otrzymanego strumienia oraz poziom jakoci i zrozumiaoci sygnau zrekonstruowanego. Wyniki testw pokazay, e osignito zaoony, gwny cel projektu, w postaci bardzo silnej kompresji sygnau na poziomie 300 bit/s. Jako odniesienie dla zaimplementowanego systemu kodowania wybrano kodek LPC, skonfigurowany do pracy przy bardzo maej prdkoci transmisji rzdu 600 bit/s. Przy pomocy fragmentw mowy z bazy danych treningowych przeprowadzono take zgrubne badania poziomu zrozumiaoci oraz dokonano subiektywnej oceny jakoci sygnau zrekonstruowanego. Otrzymane rezultaty pokazay wyszo opracowanego schematu kodowania w stosunku do technik LPC przy prdkoci 600 bit/s. Niniejsza praca magisterska zawiera opis architektury i rozwiza szczegowych sprawnie dziaajcego kodeka mowy, oferujcego bardzo siln kompresj sygnau. Efektywno jego dziaania zaley przede wszystkim od jakoci i wielkoci bazy danych treningowych uywanych do estymacji parametrw modeli HMM w koderze. Drugim elementem krytycznym przedstawionego tutaj modelu jest algorytm produkcji pobudzenia w ukadzie rekonstrukcji, ktry bezporednio wpywa na posta zrekonstruowanej mowy. W perspektywie dalszych prac nad kodekiem zostaje reprezentacja cech dynamicznych widma amplitudowego sygnau, analiza i transmisja informacji o jego obwiedni, czy modyfikacja algorytmu otrzymywania wspczynnikw MFCC z modeli fonemw.

- 99 -

Bibliografia

Bibliografia
[1] Bartkowiak M., Materiay z wykadu Przetwarzanie Dwiku i Mowy, Politechnika Poznaska 2006 [2] Goldberg R., Riek L., A Practical Handbook of Speech Coders, CRC Press LLC, 2000 [3] Al-Akaidi M., Fractal Speech Processing, Cambridge University Press New York, 2004 [4] Lee K., Cox R., A very low bitrate speech coder based on a recognition/synthesis paradigm, IEEE Transactions On Speech and Audio Processing, 2001, vol.9, no. 5 [5] Yi K., Cheng J., Wang A., Zhang P., Liu F., Li W., Yang B., Du S., Gong J., A vocoder based on speech recognition and synthesis, Global Telecommunications Conference, GLOBECOM95, IEEE, 1995 [6] Bastien P., Voice Specific Signal Processing Tools, 23rd International Conference on Signal Processing in Audio Recording and Reproduction, TC Helicon, 2003 [7] Picone J., Doddington G., A phonetic vocoder, International Conference on Acoustics, Speech, and Signal Processing, ICASSP-89, 1989 [8] Tokuda K., Masuko T., Hiroi J., Kobayashi T., Kitamura T., A very low bit rate speech coder using HMM-based speech recognition/synthesis techniques, Proceedings of the International Conference on Acoustics, Speech and Signal Processing, IEEE, vol. 2, 1998 [9] Young S., EvermannG., Gales M., Hain T., Kershaw D., Liu X., Moore G., Odell J., Ollason D., Povey D., Valtchev V., Woodland P., The HTK Book (for HTK Version 3.4), Cambridge University Engineering Department, 2006 [10] Gerhard D., Pitch Extraction and Fundamental Frequency: History and Current Techniques, Technical Report TR-CS 2003-06, University of Regina, Canada, 2003 [11] Noll A.M., Cepstrum pitch determination, The Journal of the Acoustical Society of America, vol.44, no.6, str.1585 1591, 1968 [12] The CMU/CSTR kdt US English TIMIT database for speech synthesis, http://festvox.org/dbs/dbs_kdt.html, stan na dzie 16.07.2008 [13] Niewiadomy D., Pelikant A., Digital Speech Signal Parametrization by Mel Frequency Cepstral Ceofficients and Word Boundaries, 33 Journal of Applied Computer Science

- 100 -

Bibliografia

[14] Zwiernik P., Wstp do ukrytych modeli Markowa i metody Bauma-Welcha, Uniwersytet Warszawski, 2005 [15] Yamagishi J., An Introduction to HMM-Based Speech Synthesis, https://wiki.inf.ed.ac.uk/pub/CSTR/TrajectoryModelling/HTS-Introduction.pdf, 2006 [16] Yoshimura T., Tokuda K., Masuko T., Kobayashi T., Kitamura T., Mixed Excitation for HMM-based Speech Synthesis, 7th European Conference on Speech Communication and Technology, EUROSPEECH 2001 [17] Maia R., A Novel Excitation Approach for HMM-based Speech Synthesis, Report IV, http://www.sp.nitech.ac.jp/~tokuda/tips/excitation8.pdf , 2007 [18] Chazan D., Hoory Ron., Cohen G., Zibulski M., Speech Reconstruction from Mel Frequency Cepstral Coefficients and Pitch Frequency, Proceedings of the International Conference on Acoustics, Speech and Signal Processing, IEEE, vol.3, 2000 [19] Tokuda K., Zen H., Sako S., Yamagishi Y., Masuko T., Nankaku Y., Reference Manual for Speech Signal Processing Toolkit Ver. 3.0, SPTK Working Group, 2003 [20] RASTA/PLP/MFCC feature calculation and inversion, http://labrosa.ee.columbia.edu/matlab, stan na dzie 18.08.2008. [21] Keagy S., Integrating Voice and Data Networks, Cisco Press, 2000

- 101 -

Dodatek. Prototyp modelu HMM

Dodatek. Prototyp modelu HMM


~o <VECSIZE> 13<NULLD><MFCC_0><FullC> ~h "proto" <BEGINHMM> <NUMSTATES> 5 <STATE> 2 <MEAN> 13 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 <InvCovar> 13 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 1.0 0.0 0.0 1.0 0.0 1.0 <STATE> 3 <MEAN> 13 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 <InvCovar> 13 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0

- 102 -

Dodatek. Prototyp modelu HMM

1.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 1.0 0.0 0.0 1.0 0.0 1.0 <STATE> 4 <MEAN> 13 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 <InvCovar> 13 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 1.0 0.0 0.0 1.0 0.0 1.0 <TRANSP> 5 0.0 1.0 0.0 0.0 0.0 0.0 0.6 0.4 0.0 0.0 0.0 0.0 0.6 0.4 0.0 0.0 0.0 0.0 0.7 0.3 0.0 0.0 0.0 0.0 0.0 <ENDHMM>

- 103 -

You might also like