Prezentacja PDF

MODELOWANIE
INFORMACJI
NIEPRECYZYJNEJ
Zastosowania w akustyce i przetwarzaniu
sygnaw
FUZZY LOGIC, CZYLI LOGIKA
ROZMYTA
Autorem koncepcji logiki rozmytej jest Lotfi Zadeh
Stworzona w celu umoliwienia czciowej przynalenoci obiektu
do danego zbioru, w miejsce ostrego rozrnienia naley/nie
naley
Od lat 70 stopniowo implementowana jako mechanizm
sterowania w wielu urzdzeniach
SKD TEN POMYS?
Profesor Zadeh stwierdzi, e ludzie nie potrzebuj precyzyjnych,
wyraonych liczbowo informacji, aby by zdolnymi do wysoce
elastycznej kontroli danego procesu.
Zatem jeli moliwe byoby zaprogramowanie komputera w taki
sposb, aby radzi sobie z tego typu nieprecyzyjnymi danymi
wejciowymi, by moe udaoby si stworzy efektywne i proste
w implementacji systemy sterowania.
JAK TO DZIAA?
Systemy logiki rozmytej dziaaj na prostym systemie, opartym na
reguach typu JELI x I y TO z.
Warunki te jednak nie wygldaj tak jak w klasycznych
systemach, tzn. JELI temperatura < 273 K TO podgrzej o 100K
Instrukcja rozmyta wyglda np tak: JEELI proces jest zbyt
chodny I proces si ochadza TO podgrzewaj
Zauwamy, e operujemy tutaj pojciami z jzyka naturalnego!
Dziki temu system zachowuje si podobnie jak czowiek
JAK TO DZIAA?
Aby system mg dziaa naley przede wszystkim zdefiniowa
zbir regu podobnych do wczeniej pokazanej
Reguy te musz opisywa zachowanie systemu w najczciej
wystpujcych sytuacjach
Kolejnym krokiem jest zdefiniowanie funkcji przynalenoci
(membership functions), ktre pozwalaj na przechodzenie z
poj jzyka naturalnego na wartoci liczbowe i odwrotnie w
procesach fuzyfikacji i defuzyfikacji.
FUNKCJA PRZYNALENOCI
Jest to graficzna reprezentacja stopnia przynalenoci konretnej
danej do zbioru rozmytego
Mog mie rne ksztaty, najczsciej spotykane to:
1. trjktna
2. dzwonowata
3. trapezoidalna
4. inne (eksponencjalna, haversine)
FUNKCJE PRZYNALENOCI
PRZYKAD- ZNAJD FILMY NOWE I
NIEDUGIE
A JAK TO SI MA DO
AKUSTYKI?
ROZPOZNAWANIE
PODNIESIONEGO GOSU
ORAZ KRZYKU
ROZPOZNAWANIE PODNIESIONEGO
GOSU I KRZYKU
Wikszo modeli sucych do rozpoznawania mowy przypisuj
sygna jednej z predefiniowanych klas. Stopie przynalenoci do
danej klasy jest dyskretny.
W przypadku krzyku takie podejcie jest niewystarczajce,
poniewa dla czowieka gos moe w niektrych wypadkach by
odbierany jak co pomidzy krzykiemI zwykymgosem.
Taki stan mona nazwa podniesionymgosem.
ROZPOZNAWANIE PODNIESIONEGO
GOSU I KRZYKU
Mona zatemzaproponowa podejcie rozmyte.
Kademu zdarzeniu dwikowemu przypisuje si stopie
przynalenoci do zbiorw reprezentujcych normalny gos,
podniesiony gos I krzyk.
Tego typu system znajdzie zastosowanie w urzdzeniach do
monitoring- alarmujcymsygnaemw niektrych wypadkach
mgby by podniesiony gos, natomiast na pewno bdzie nim
krzyk.
WYBR ANALIZOWANYCH CECH
DWIKU
W celu uzyskania dobrych rezultatw, konieczny jest wybr takich
cech, ktre bd mogy imitowa ludzk zdolno do
rozpoznawania interesujcych nas klas dwiku.
Wybrane cechy to (nazwy angielskie): crest factor, fundamental
frequency, equivalent sound level of the acoustic event, time-
domain kurtosis of the signal, periodicity, peak-valley difference,
audio spectrum centroid, spectral flatness measure, speech
band energy, voiced frames ratio, zero crossing rate
CREST FACTOR
Okrela jak bardzo peaki sygnau wybijaj si ponad jego redni
PEAK-VALLEY DIFFERENCE
Gdzie
X(k) to widmo mocy ramki sygnau (N prbek)
P(k) ma warto 1, gdy k jest miejscemwystpienia
peaku w widmie, 0 gdy nie
SPECTRAL FLATNESS MEASURE
Stosunek redniej geometrycznej i arytmetycznej widma mocy
sygnau
Odzwierciedla harmoniczn natur sygnau
Tutaj liczony w granicach (k1;k2) odpowiadajcych zakresowi
czstotliwoci ludzkiego gosu (300 Hz; 4000Hz)
SPEECH BAND ENERGY
Uyteczne do odrniania gosu ludziego od innego typu
sygnaw
Wspczynnik koncentracji energii w pamie czstotliwoci
odpowiadajcymmowie (300 Hz do 4000Hz)
VOICED FRAMES RATIO
Maksimumfunkcji autokorelacji sygnau (nazywane
okresowoci) uwaa si za dobry parameter do odrniania
gosu ludzkiego od innych dwikw
Mona zatemzdefiniowa voiced frames ratio jako cz ramek
sygnau, w ktrych maksimumfunkcji autokorelacji podzielone
przez energi sygnau przekracza okrelony prg T.
ZERO CROSSING RATE
s- sygna o dugoci T
Funkcja po sumie przyjmuje warto 1, jeli warunek jest
prawdziwy, 0 jeli nie
Szybko zmian znaku sygnau
PRZYKADOWA WEJCIOWA
FUNKCJA PRZYNALENOCI
SCHEMAT SYSTEMU
DEFUZYFIKACJA
W systemie uyto dwch wyjciowych zmiennych lingwistycznych
1. Sound (dwik) okrela czy mamy do czynienia z sygnaem mowy
czy innym
2. Voice (gos) wprowadza rozrnienie midzy gosemnormalnym,
podniesionymI krzykiem
Defuzyfikacja jest uzyskiwana przez obliczenie rodka cikoci
funkcji przynalenoci powyszych wielkoci
WYJCIOWE FUNKCJE
PRZYNALENOCI
SKUTECZNO SYSTEMU
DZIAANIE W OBECNOCI SZUMU
KLASYFIKACJA DWIKW
NA PODSTAWIE
ZAWARTOI
WYSZUKIWARKA AUDIO
Przyjcie podejcia rozmytego jest sensowne poniewa
1. Zarwno zapytanie jak i wynik s przyblieniemtego, co uytkownik
pamita i tego co chce uzyska
2. Idealne dopasowanie jest czasemniemoliwe a nawet
niepraktyczne
Podstaw klasyfikacji bdzie specjalne drzewo, ktre pozwoli na
klasyfikacj metod kolejnych przyblie
ANALIZA PROBLEMU
Oglnie, sygnay z ktrymtaka wyszukiwarka si bdzie musiaa
zmierzy to:
1. Mowa
2. Muzyka
3. Innego typu dwiki
Najdokadniej zbadane s sygnay mowy, ze wzgldu na
dynamiczny rozwj systemw jej rozpoznawania
TESTOWA BAZA DANYCH
ANALIZOWANE CECHY DWIKW
W celu klasyfikacji naley najpierw wydoby z dwikw
okrelone cechy, ktre mona podda dalszej analizie
Cechy te mona podzieli ze wzgldu na dziedziny
1. W dziedzinie czasu: RMS, zero crossing ratio, VDR, silence ratio
2. W dziedzinie czstotliwoci: frequency centroid, bandwidth, sub-
band energy ratio, pitch, salience of pitch, formants
3. W dziedzinie wspczynnikw: MFCC, LPC
VDR
SILENCE RATIO
Stosunek cichych ramek sygnau do cakowitej liczby ramek
Ramka jest uznawana za cich, jeli jej RMS wynosi mniej ni 10%
redniej RMS wszystkich plikw
FREQUENCY CENTROID (BRIGHTNESS)
Reprezentuje punkt rwnowagi widma
|
|
2
jest widmemmocy sygnau x

0
- poowa czstotliwoci prbkowania
SALIENCE OF PITCH
Stosunek maksimumfunkcji autokorelacji do jej wartoci w
punkcie 0
wydatno
MEL-FREQUENCY CEPSTRAL
COEFFICIENTS
Zoona procedura obliczania, oparta na transformacie fouriera,
skali melowej i dyskretnej transformacie cosinusw
W analizowanymbadaniu branych jest pod uwag pierwsze 13
rzdw wspczynnikw
LINEAR PREDICTION COEFFICIENTS
Wspczynniki LPC s reprezentacj sygnau mowy w bardzo
krtkimodcinku czasu.
Opisuj sygna jako wyjcie flitru IIR
HIERARCHIA KLASYFIKACJI
CECHY UYWANE DO KLASYFIKACJI
PRZYKADOWE REGUY
SKUTECZNOS ROZPOZNAWANIA
WYSZUKIWANIE DWIKW
Uytkownik podaje plik dwikowy i chce znale podobne utwory.
Zarwno wejcie, jak i wszystkie dwiki zgromadzone w bazie s
reprezentowane przez wektory cech.
Naley obliczy podobiestwo tych wektorw i na tej podstawie
stworzy list plikw, ktre mog interesowa uytkownika.
Struktura hierarchiczna (wczeniej pokazane drzewo) moe pomc,
gdy zanim zaczniemy wyszukiwanie w bazie moemy wstpnie
zakwalifikowa dany dwik do ktrej z kategorii.
Dziki temu zwiksza si precyzja oraz skraca czas wyszukiwania
W miar rozrostu bazy nowe klasy mog by w prosty sposb
dodawane do drzewa- wystarczy stworzy powizanie midzy now
klas a jej bezporednim przodkiem
INNE ZASTOSOWANIA
Automatyczna adaptacja gonoci w telefonach komrkowych
Rozpoznawanie fonemw
Usuwanie szumw z nagra
Linearyzacja charakterystyki przeniesienia pomieszcze dla wielu
punktw
RDA
http://www.seattlerobotics.org/encoder/mar98/fuz/flindex.html
Automatic regular voice, raised voice and scream recognition
employing fuzzy logic, Kuba Lopatka, Andrzej Czyzewski
A Fuzzy Logic Approach for Content-Based Audio Classication
and Boolean Retrieval, Mingchun Liu, Chunru Wan, and Lipo
Wang

Prezentacja PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Prezentacja PDF

Uploaded by

Copyright:

Available Formats

MODELOWANIE

You might also like