You are on page 1of 50

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

Rozdzia III Przegld wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci 1. Podstawy statystycznej teorii rozpoznawania obrazw a proces prognozowania upadoci przedsibiorstwa Proces przewidywania zagroenia upadoci opiera si na rozpoznaniu obecnej sytuacji przedsibiorstwa i jej ocenie poprzez zakwalifikowanie badanej jednostki do grupy przedsibiorstw zagroonych bd te niezagroonych bankructwem. Wykorzystane wyej pojcia rozpoznanie, klasyfikacja nie s jednak przypadkowe. Wskazuj one bowiem na zakres metod stosowanych w prognozowaniu bankructwa, ktre to metody okrelane s mianem statystycznej teorii rozpoznawania obrazw. Oglnie rzecz traktujc, zagadnienie rozpoznawania sprowadza si do problemu klasyfikacji rozpatrywanych obiektw. Naley bowiem dokona podziau zbioru rozpatrywanych obiektw tzn. dla kadego obiektu naley rozpozna klas, do ktrej ten obiekt naley 1 . Rozpoznawaniem obrazw nazywamy zatem podjcie decyzji, ktra polega na ustaleniu przynalenoci nowego, dotychczas nie rozpatrywanego obiektu, do danej klasy obiektw (obrazu) przez porwnywanie waciwoci danego obiektu z cechami znanymi i zbadanymi. Przez pojcie klasy rozumie si zbiorowo obiektw lub zjawisk, ktre charakteryzuj si pewnymi wsplnymi waciwociami (bliskimi ze wzgldu na zbir pewnych cech) 2 . Mona zatem stwierdzi, e dziedzina wiedzy okrelana rozpoznawaniem obrazw wyrasta z pojcia klasyfikacji, ktre to w sensie teorio mnogociowym oznacza podzia danego zbioru na pewn liczb rozcznych podzbiorw. Podziau takiego dokonuje si na podstawie relacji rwnowanoci (w przypadku zastosowa praktycznych czsto zwanej relacj podobiestwa), a otrzymane podzbiory nazywa si klasami abstrakcji (klasami podobiestw, do okrelonej klasy podobiestwa klasami si jednorodnoci, itp.). Czynno polegajc na przyporzdkowaniu jakiego indywidualnego obiektu nazywa

1 K. Jajuga: Statystyczna teoria rozpoznawania obrazw. Warszawa: PWN. 1990. s. 30. 2 BB. Rozin: Teoria rozpoznawania obrazw w badaniach ekonomicznych. Warszawa: PWN. 1979. s. 39.

76

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

rozpoznaniem tego obiektu 3 . Jeli natomiast klasy rwnowanoci (podobiestwa) stanowi obiekty nie abstrakcyjne, lecz konkretne, poznawalne przez narzdy zmysu lub podlegajce pomiarom, to klas tak nazywa si obrazem, rozpoznawanie obiektw rozpoznawaniem obrazw 4 . Kade zadanie okrelane nazw rozpoznawania obrazw mona okreli za pomoc czterech podstawowych poj, czy te inaczej mwic, kade takie zadanie, w tym rwnie zadanie rozpoznawania zagroenia bankructwem, wymaga okrelenia czterech elementw, podjcia czterech nastpujcych decyzji 5 : 1. Ustalenie elementw zbioru obrazw, wzorcw, obszarw, ktre z pewnego punktu widzenia uznajemy za jednorodne oraz wskazanie co stanowi przedmiot rozpoznawania. W przypadku procesu prognozowania zagroenia bankructwem etap ten polega na odseparowaniu przedsibiorstw zagroonych i niezagroonych upadoci ze wzgldu na zrnicowan sytuacj finansow oraz na wskazaniu, i przedmiotem rozpoznania bdzie wanie kondycja finansowa przedsibiorstw. 2. Dokonanie wyboru wasnoci obiektw, ktre bd badane, tj. wyboru cech, zmiennych charakteryzujcych pojedyncz realizacj obrazu. Zmiennymi charakteryzujcymi obiekty s w rozpatrywanym zagadnieniu wskaniki finansowe. Na tym etapie koniecznym jest rwnie dokonanie selekcji wskanikw pod ktem ich zdolnoci do obrazowania przedmiotu rozpoznawania. 3. Przyjcie reguy decyzyjnej, zasady, zgodnie z ktr podejmowane bd decyzje, do jakiego obrazu naley zaliczy wybran w przestrzeni realizacj. Przez regu decyzyjn naley rozumie metod umoliwiajc oszacowanie modelu stanowicego narzdzie rozpoznawania kondycji przedsibiorstw. Regua ta, bdc funkcj okrelonych w etapie wczeniejszym zmiennych umoliwi generowanie wartoci dyskretnej zmiennej objanianej o charakterze binarnym.

3 W. Ostasiewicz: Dyskryminacja, klasyfikacja, rozpoznawanie. Prace Naukowe Akademii Ekonomicznej we Wrocawiu. Nr 165(187). 1980. s. 95. 4 J. L. Kulikowski: Cybernetyczne ukady rozpoznajce. Warszawa: PWN. 1972. s. 11. 5 J. Kolonko: Analiza dyskryminacyjna i jej zastosowania w ekonomii. Warszawa: PWN. 1980. s. 14.

77

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

4. Ustalenie wielkoci strat spowodowanych bdami klasyfikacji. W tym miejscu naley rwnie wybra sposb pomiaru strat oraz dopuszczaln ich wielko. Odsetek bdw generowanych przez model szacuje si jako stosunek bdnych klasyfikacji do cznej liczby rozpoznawanych obiektw. W wietle powyszego, koniecznym jest powizanie procesu wnioskowania o moliwoci bankructwa z oglnymi zaoeniami teorii rozpoznawania obrazw. W tym celu wygodnie jest posuy si rysunkiem 10. Kady punkt ograniczonego obszaru na rysunku 10 obrazuje przedsibiorstwa rne pod wzgldem ich sytuacji finansowej. Krzywa I dzieli zaznaczony obszar zgodnie ze stanem faktycznym na klasy przedsibiorstw A1 i A2, ktrych sytuacja finansowa wskazuje, na podstawie przeprowadzonych wczeniej analiz 6 , na zagroenie bankructwem i przedsibiorstw o dobrej sytuacji finansowej, natomiast krzywa II dzieli ten sam obszar na klasy o analogicznym znaczeniu z tym, e ich podzia nastpi na podstawie sygnaw decyzyjnych wygenerowanych przez model klasyfikujcy. Obszary oznaczone na rysunku przez B1 oraz B2 reprezentuj zbiory bdnych decyzji. Obszar B1 przedstawia zbir bdnych decyzji typu I, czyli zakwalifikowanie przedsibiorstwa bankruta jako przedsibiorstwa o dobrej kondycji finansowej(zaklasyfikowanie do grupy A2). Obszar B2 to zbir bdnych decyzji typu II, czyli zakwalifikowanie przedsibiorstwa o dobrej kondycji finansowej jako potencjalnego bankruta. Idealn procedur klasyfikujc stanowi bdzie oczywicie taki model, ktry nie wygeneruje bdnych decyzji (w takim przypadku krzywe I i II winny si pokrywa), dziki czemu umoliwia bdzie przeprowadzenie doskonaej dyskryminacji badanej grupy przedsibiorstw. Pod pojciem dyskryminacji rozumie si znalezienie reguy, za pomoc ktrej mona rozdzieli obiekty nalece do rnych klas. Jeeli obiekty dwch klas traktowane s jako punkty w przestrzeni wielowymiarowej 7 , to regu tak moe by np. przeksztacenie liniowe tej przestrzeni na prost tak, aby punkty lece na lewo od pewnego ustalonego punktu prostej zaliczay si do jednej klasy, a punkty lece na prawo do drugiej klasy 8 . Podstawowymi warunkami stosowania metod
6 Proces uczenia dla rnych metod ilociowych zosta szczegowo opisany w dalszej czci niniejszego rozdziau. 7 Naley podkreli, e problematyka prognozowania bankructw w swym metodologicznym zakresie skupia si wanie na dokonywaniu dychotomicznego podziau wielowymiarowych obiektw (przedsibiorstw opisywanych za pomoc szeregu wskanikw finansowych). 8 W. Ostasiewicz: Dyskryminacja op. cit. .s. 96.

78

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

dyskryminacyjnych s zatem posiadanie informacji o iloci klas oraz o przynalenoci elementw prbkowych do tych klas, a take wystpowanie teorii stanowicej podstaw dyskryminacji zbiorw, mierzalno oraz posiadanie odpowiedniego zbioru danych statystycznych. Rysunek 10. Zwizek midzy rzeczywist struktur przedsibiorstw a klasami wytypowanymi przez funkcj klasyfikujc
podzia faktyczny
I II

decyzje

B1 A1 A2

B2
xA1 D1={xA1} D2={xA2} xA2

rdo: opracowanie wasne na podstawie: J. Kolonko: Analiza dyskryminacyjna i jej zastosowania w ekonomii. Warszawa: PWN. 1980. s. 54. Mwic o informacji a priori dotyczcej przynalenoci okrelonych elementw do klas w celu zbudowania reguy klasyfikujcej koniecznym wydaje si by wskazanie na powizanie algorytmicznego uczenia modeli umoliwiajcych rozpoznawanie wielowymiarowych obiektw z procesem uczenia si czowieka. Oglnie mona wskaza dwa sposoby uczenia ludzi rozpoznawania obrazw. Sposb pierwszy jest zwizany z tym, e nauczyciel nie tylko potrafi rozpoznawa obiekt, ale przemyla, jak naley to robi w kadym konkretnym przypadku. Wiedzc jakie obiekty bdzie ucze klasyfikowa, nauczyciel wyjania mu, jak to naley robi, czyli zadaje algorytm klasyfikacji. W drugim sposobie proces uczenia jest oparty na nieznanych dotychczas mechanizmach mzgowych. Jeeli przedstawi uczniowi wiele przykadw liter a i b, napisanych rnymi charakterami pisma, i pokazywa je uczniowi nie znajcemu liter, mwic tylko to jest a i to jest b, nie podajc przy tym adnej informacji, w jaki sposb naley rozrnia litery, to po pewnym czasie bdzie on w stanie odrnia a od b, i to

79

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

nie tylko spord elementw pokazywanego zbioru 9 . Gwny problem w rozpoznawaniu obrazw ley wanie na paszczynie okrelania zasady, na podstawie ktrej pewne obiekty mog by uznane za podobne do siebie 10 . Trudnoci w wykrywaniu regu umoliwiajcych rozpoznawanie i klasyfikacj obiektw wielowymiarowych z szerokiego zakresu dziedzin nauki (jak medycyna, antropologia, ekonomia, itp.) sprawiy, i koniecznym stao si wypracowanie metod, umoliwiajcych rozwizywanie tego typu problemw przy cakowitym lub jedynie niewielkim udziale czowieka. I tak, nawizujc do wczeniejszych rozwaa dotyczcych procesu uczenia si czowieka wyrniono dwa oglne przypadki rozpoznawania: rozpoznawanie z nauczycielem i rozpoznawanie bez nauczyciela. Pierwszy proces rozpoznawanie z nauczycielem realizowany jest w dwch etapach: na etapie uczenia i rozpoznawania. Na etapie uczenia wystpuje sklasyfikowana prba uczca, nazywana tak dlatego, e oprcz wartoci m wymiarowego wektora cech poszczeglnych obiektw tej prby, posiadana jest rwnie informacja dotyczca przynalenoci obserwacji do okrelonej klasy. Na etapie uczenia, na podstawie informacji zawartych w prbie uczcej okrelane s charakterystyki wszystkich klas. Z kolei na etapie rozpoznawania dokonywana jest klasyfikacja prby rozpoznawanej, tzn. dla kadego obiektu prby okrelana jest klasa, do ktrej on naley 11 . W przypadku rozpoznawania bez nauczyciela, kiedy wystpuje jedynie prba rozpoznawana, przeprowadzany jest proces uczenia za pomoc odpowiedniej dla tego zadania metody. Gdy brakuje informacji a priori okrelajcej przynaleno obiektw do klas, wwczas algorytmy rozpoznawania obiektw wykorzystuj zasad samouczenia, ktra z kolei w wikszoci przypadkw opiera si na zasadach tzw. analizy skupie. Dlatego te czsto metody samouczenia si algorytmw rozpoznawania utosamiane s z metodami wyodrbniania skupie jednorodnych. Spord rnych metod wyodrbniania skupie najczciej stosuje si metody bazujce na pojciu najkrtszej sieci pocze, zwanej dendrytem. Metody te okrelane s mianem metod taksonomicznych. W takim wypadku na

9 M .A. Ajzerman, E. M. Brawerman i L. I. Rozonoer: Rozpoznawanie obrazw. Metoda funkcji potencjaowych. Warszawa: WNT. 1976. s. 14. 10 B. B. Rozin: Teoria . op. cit. s. 22. 11 K. Jajuga: Statystyczna . op. cit. s. 32.

80

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

podstawie posiadanej prby wyodrbniane s klasy bdce podzbiorami (podprzestrzeniami) punktw w jakim sensie jednorodnych i na tej podstawie aproksymowana jest funkcja f. 12 Specyfika prognozowania upadoci przedsibiorstwa, a take charakter wykorzystywanych do tego celu danych ilociowych sprawiaj, e w procesie takim wykorzystywane s metody rozpoznawania z nauczycielem. 2. Dobr zmiennych i redukcja wymiarw 13 Obiekty majce podlega klasyfikacji charakteryzowane s zwykle za pomoc duej liczby cech. Interpretacja geometryczna obiektw i odpowiadajcych im cech rozpatruje te elementy jako punkty wielowymiarowych przestrzeni, ktrych wymiar zaleny jest od iloci cech opisujcych obiekt. Zadanie rozpoznawania w takich warunkach sprowadza si do aproksymacji powierzchni rozdzielajcej skupiska jednorodnych pod wzgldem danego kryterium wielowymiarowych obiektw. Takie podejcie jest wystarczajce jeli obrazy s do proste, tj. obszary, ktre naley rozdzieli s wewntrznie dostatecznie zwarte, a jednoczenie rozrzucone w przestrzeni i kiedy powierzchnie rozdzielajce nie s zbyt wymylne 14 . W przypadkach bardziej zoonych zachodzi zwykle konieczno wstpnego uproszczenia zadania rozpoznawania poprzez obnienie (redukcj) wymiaru pierwotnej przestrzeni. Redukcja taka winna posiada jednak minimalny wpyw na oglny potencja informacyjny zawarty w cechach opisujcych badane obiekty. Naley zwrci rwnie uwag na inny aspekt tego zagadnienia. Tam gdzie stosuje si metody rozpoznawania obrazw, dana jest zwykle skoczona liczba cech (wymiarw) charakteryzujcych kady obiekt. Jednak niektre z cech, z punktu widzenia rozpoznawania, zawieraj wicej informacji ni pozostae 15 . Mona rwnie stwierdzi, i niektre cechy mog posiada tak wysokie zrnicowanie swoich wartoci pomidzy homogenicznymi grupami, e ich
12 W. Ostasiewicz: Dyskryminacja . op. cit. s. 97. 13 Niniejszy punkt stanowi nawizanie do punktu 5.1. rozdziau 2 rozprawy, w zakresie ilociowych metod doboru wskanikw finansowych do modeli przewidujcych zagroenie upadoci. 14 M. A. Ajzerman, E. M Brawerman, L. I. Rozonoer: Rozpoznawanie obrazw. Metoda funkcji potencjaowych. Warszawa: WNT. 1976. s. 25. 15 B. B. Rozin: Teoria rozpoznawania obrazw w badaniach ekonomicznych. Warszawa: PWN. 1979. s. 47.

81

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

wystpowanie utrudniao bdzie proces klasyfikacji obiektw, a co za tym idzie ich wystpowanie w zbiorze cech opisujcych obiekty jest zbdne. Dlatego te minimalizacj opisu mona sformuowa jako przeksztacenie pierwotnej przestrzeni cech w pewn inn przestrze nie doprowadzajc jednak do istotnego zwikszenia wartoci funkcji straty (wielkoci bdnych klasyfikacji), dziki czemu nowy wymiar przestrzeni jest znacznie mniejszy ni przestrzeni pierwotnej. Moliwo redukcji wymiarw niesie za sob rwnie korzyci kosztowe. Zbieranie szeregu danych tworzcych charakterystyki obiektw jest czsto wysoce pracochonne, czasochonne jak i kapitaochonne. W zwizku z tym ograniczenie liczby zmiennych umoliwiajcych rozpoznawanie obiektw wie si ze znacznymi oszczdnociami powyszych trzech parametrw, co wystpuje jednak w procesie rozpoznawania obiektw dla ktrych to posiadana jest ju regua rozpoznajca wraz z charakteryzujcymi j zmiennymi. W procesie uczenia jednak niezbdnym jest posiadanie maksymalnie szerokiego spektrum poprawnych merytorycznie i odpowiadajcych nadrzdnemu kryterium klasyfikacji danych, ktre dziki odpowiednio przeprowadzonym procesom ich weryfikacji umoliwi wyselekcjonowanie optymalnego zbioru cech. 16 Wrd metod redukcji wymiarw naley wymieni takie jak analiza gwnych skadowych, analiza czynnikowa, analiza zgodnoci 17 oraz metody nowsze jak algorytmy genetyczne 18 i metody bazujce na wspczynniku lambda Wilksa zwane metodami krokowymi. Szczeglnie te ostatnie, umoliwiajce testowanie wpywu poszczeglnych cech na zdolno okrelonego ich zestawu do dyskryminowania populacji 19 znajduj zastosowanie w zagadnieniach zwizanych z klasyfikacj wielowymiarowych obiektw. Metody te, jak analiza krokowa w przd (ang. stepforward analysis) oraz analiza krokowa w ty (ang. stepbackward analysis)

16 Por. Application of Classification Techniques in Business, Banking and Finance. Greenwich, Connecticut: 1981. s. 145. 17 Obszerny opis tych metod zawarty jest w: W. Sobczak, W. Malina: Metody selekcji i redukcji informacji. Warszawa: WNT. 1985.; T. Grabiski, S. Wydmus, A. Zelia: Metody doboru zmiennych w modelach ekonometrycznych. Warszawa: PWN. 1982, E. Nowak: Problemy doboru zmiennych do modelu ekonometrycznego. Warszawa: PWN. s. 1984. 18 O wykorzystaniu algorytmw genetycznych do redukcji iloci informacji pisz: T. D. Gwiazda: Algorytmy genetyczne. Zastosowania w finansach. Warszawa: Wydawnictwo Wyszej Szkoy Przedsibiorczoci. 1998, oraz D. Rutkowaska, M. Piliski, L. Rutkowski: Sieci neuronowe, algorytmy genetyczne i systemy rozmyte. Warszawa: PWN 1997. 19 Baz dla tych metod by wspomniany ju wczeniej test F.

82

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

umoliwiaj

wskazanie

optymalnego

zestawu

cech

dyskryminujcych

rozpatrywane obiekty. Punktem wyjcia tych metod jest obliczenie statystyki lambda Wilksa o postaci 20 :

=
gdzie: det (T) det (W)

det(W ) , det(T )

wyznacznik macierzy oglnogrupowej wariancji-kowariancji, wyznacznik macierzy wewntrzgrupowej wariancji-kowariancji, Posiadajc zatem dwie macierze obserwacji P1, P2 (zmienna objaniana

jest skokowa i zero - jedynkowa), charakteryzujce si N (i=1,2, , N) obserwacjami o M (j=1,2, , M) cechach, otrzymujemy:
N M ( X ijP1 X P1 )2 T = N M i =1 j =1 ( X X P1 )( X ijP2 X P2 ) ijP1 i =1 j =1

( X
i =1

X P1 )( X ijP2 X P2 ) j =1 , N M 2 ( X ijP2 X P2 ) i =1 j =1
M ijP1

N M ( X ijP1 X jP1 )2 W = N M i =1 j =1 ( X X jP1 )( X ijP2 X jP2 ) ijP1 i =1 j =1

( X
i =1

X P1 )( X ijP2 X jP2 ) j =1 N M 2 ( X ijP2 X jP2 ) i =1 j =1


M ijP1

gdzie: XijP1,2 okrela warto poszczeglnej cechy w danej macierzy. Oszacowana za pomoc wyznacznikw statystyka przyjmuje wartoci z przedziau <0,1>. Im wiksza cz oglnej zmiennoci wyjaniana jest przez zmienno midzygrupow (macierz wariancji-kowariancji midzygrupowej B, mona obliczy: B=T-W) tym wielko statystyki jest blisza zeru i wiadczy o duej zdolnoci dyskryminacyjnej modelu opartego na danych cechach. Warto statystyki bliska 1 oznacza zupeny brak dyskryminacji, innymi sowy nie ma istotnego zrnicowania zmiennych w rozwaanych populacjach, a prawie caa ich

20 Zastosowanie analiz krokowych i wykorzystanie w nich statystyki lambdy Wilksa przedstawione zostao szczegowo przez: C. R. Rao: Advanced Biometrics Methods in Biometric Reaserch. New York: Wileys. 1952. s. 372-373

83

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

zmienno wyjaniona jest przez zmienno wewntrzgrupow 21 . W przypadku gdy warto jest bliska 1, wtedy zdecydowanie przewysza wariancja wewntrzgrupowa, co oznacza take, e rednie w populacjach niewiele si rni od redniej oglnej, co z kolei mona interpretowa mwic, e rozpatrywane populacje, przy uwzgldnieniu danych cech, nie s rozrnialne 22 . W celu przeprowadzenia wymienionych wyej procedur koniecznym jest rwnie oszacowanie czstkowej wartoci lambdy Wilksa bdcej stosunkiem lambdy Wilksa po dodaniu nowej cechy (lub jej odjciu) do lambdy Wilksa przed dodaniem (lub odjciem) teje zmiennej, co mona zapisa jako:
' j = 1 , 0

Lambda czstkowa jest zatem multiplikatywnym przyrostem lambdy, ktry wynika z dodania lub odjcia odpowiedniej cechy Xj. Dla obliczonych wyej wartoci obliczana jest odpowiadajca im statystyka F o postaci 23 : F =( gdzie: N P M liczba obiektw, liczba grup, liczba cech. Wymienione na wstpie krokowe metody doboru zmiennych do modeli jak analiza krokowa w przd oraz analiza krokowa w ty, pozwalaj okreli zdolno dyskryminacyjn poszczeglnych zmiennych wystpujcych w modelu. Wychodzi
21 Dobr aproksymacj zoonego rozkadu statystyki lambda Wilksa, wykorzystywan do testowania jest transformacja w statystyk F. 22 Por. D. Hadasik: Upado . op. cit. s. 117. 23 Prezentowana posta statystki F jest jedn z najprostszych, wrd innych zaproponowanych przez C. R. Rao (C. R. Rao: Advancedop. cit. s. 264-266) na podkrelenie zasuguje statystyka, czsto wykorzystywana w badaniach empirycznych, o postaci:
1

N P M 1 ' j )( ), P 1 ' j

F[ M ( P 1);msv ]
gdzie:

1 s ms v = [ 1 ] [ ] M ( P 1) s

m=
s =[

2 PN M P 2 2
M 2 ( P 1) 2 4 2 ] M 2 + ( P + 1) 2 5
1

v=

M (P 1) 2 2

84

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

si tu z dwch zaoe: w pierwszym (analiza krokowa w ty) proces rozpoczyna si od przyjcia penego zbioru M cech opisujcych obiekty O. Dla penego zbioru cech szacowana jest warto cakowitej macierzy wariancji-kowariancji oraz macierz wewntrzgrupowej wariancji-kowariancji oraz odpowiadajca im warto statystyki i statystyki F. Nastpnie szacowane s wartoci czstkowe powstajce po usuniciu poszczeglnych cech ze zbioru pierwotnego. Efektem tego jest usunicie zmiennej o najmniejszej wartoci F, tj. mniejszej od wartoci krytycznej statystyki F przyjtej jako warto usunicia. Im mniejsz liczb zmiennych chcemy zatem posiada w modelu tym wiksza warto statystyki F ustalana jest jako warunek usunicia zmiennej z modelu. Oznacza to, e eliminowane s zmienne, ktrych istotno statystyczna do dyskryminowania grup jest najmniejsza. W nastpnym kroku proces jest powtarzany i usuwana jest zmienna o najmniejszej wartoci dyskryminacyjnej. Proces ten zatrzymuje si w momencie, kiedy istotno wszystkich zmiennych pozostaych w modelu bdzie wiksza ni istotno okrelona w momencie rozpoczcia procedury jako wystarczajca 24 . W przypadku analizy krokowej w przd proces przebiega odwrotnie. W pierwszym kroku wybierana jest zmienna ktra posiada najwiksz zdolno do dyskryminowania rozpatrywanych obiektw. W dalszych krokach dobierane s nastpne zmienne, ktre posiadaj najwiksz warto statystyki F, tj. wiksz ni przyjta na wstpie warto F wprowadzenia. Do modelu zostan zatem dobrane wszystkie zmienne, ktrych wartoci statystyki F oka si by wyszymi od zadanej wartoci progowej. 3. Ilociowe metody rozpoznawania z nauczycielem wykorzystywane do przewidywania zagroenia upadoci firm Okrelenie efektywnoci metod ilociowych w procesie prognozowania upadoci przedsibiorstwa nie jest moliwe bez przeprowadzenia empirycznego badania metod na zadanym zbiorze danych. Aczkolwiek kada z metod umoliwia dokonywanie klasyfikacji obiektw (metody te su temu samemu celowi), to jednak ze wzgldu na zaoenia towarzyszce generowaniu modelu klasyfikujcego ich efektywno moe znacznie si rni. Dlatego te wydaje si
24 Proces ten zosta szczegowo omwiony w: N. R. Draper, H. Smith: Analiza regresji stosowana. Warszawa: PWN. 1973. s. 197-207.

85

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

uzasadnione dokonanie analizy najistotniejszych rozpoznawania z nauczycielem, ktre byy skutecznie wykorzystywane w rozwizaniu problemw empirycznych, w tym w szczeglnoci byy ju stosowane do tworzenia modeli umoliwiajcych prognozowanie bankructwa. Pomimo faktu, e wikszo metod ilociowych moe z powodzeniem by wykorzystywana rwnie do rozwizywania problemu klasyfikacji w przypadku wystpowania wicej ni dwch klas, to jednak zwaywszy na istot rozpatrywanego zagadnienia ich prezentacja zostanie ograniczona do problemu rozpoznawania dwuklasowego (zero jedynkowego). Przewidywanie zagroenia bankructwem skupia si bowiem na wskazaniu, bd wyeliminowaniu moliwoci upadku przedsibiorstwa, a wic zaklasyfikowaniu wielowymiarowego obiektu jakim jest firma, opisanego przez zestaw wyselekcjonowanych cech, jakimi s wartoci wskanikw finansowych, do jednej z dwch klas, przedsibiorstw zagroonych bd niezagroonych upadkiem. Ze wzgldu na niewtpliwie utylitarny charakter tworzonych modeli w badaniach nad prognozowaniem bankructw wykorzystuje si metody, ktre w najlepszy sposb umoliwiaj dychotomiczny podzia danych finansowych. Najczciej wykorzystywanymi metodami s: analiza dyskryminacyjna, dyskryminacja typu logit i typu probit, sztuczne sieci neuronowe. 3.1. Analiza dyskryminacyjna Problem odszukiwania reguy dychotomicznego, moe by (modelu) umoliwiajcej dokonywanie przy wykorzystaniu szeregu

dyskryminacji danego zbioru danych wielowymiarowych, w tym rwnie podziau rozpatrywany zrnicowanych metod ilociowych. Bez wzgldu jednak na metod generujc narzdzie pozwalajce na dokonywanie klasyfikacji badanych obiektw, istota zagadnienia rozpoznawania z nauczycielem jest niezmienna i sprowadza si do przeprowadzenia nastpujcego zadania decyzyjnego: Danych jest K rozcznych populacji: 1, 2, , K. W kadej populacji k wystpuje N elementowy zbir obiektw O = {O1, O2, , ON} nazywany prb. Obiekty opisane s za pomoc M wymiarowego wektora zmiennych X = [X1, X2,

86

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

, XM], ktry dla rnych populacji k moe mie rne rozkady. W kadej prbie wyrnia si I podprb, pochodzcych z poszczeglnych populacji, z ktrych przynajmniej jedna, nazwijmy j U, stanowi prb uczc. W rozpatrywanym zagadnieniu decyzyjnym gwnym problemem jest moliwo wskazania ktej populacji do ktrej nalee ma M wymiarowy obiekt O pochodzcy spoza dowolnej podprby U. Istota zagadnienia skupia si zatem na skonstruowaniu, przy wykorzystaniu podprb uczcych U i obiektw w nich zawartych ON, nalecych do danych populacji k, modelu (funkcji) pozwalajcego na zaklasyfikowanie do rozwaanych populacji dowolnych obiektw opisanych za pomoc zmiennych tworzcych wektor X. Z punktu widzenia obiektw zawartych w wielowymiarowych przestrzeniach zadaniem jest znalezienie takiej funkcji, ktra odseparuje obserwacje nalece do rnych klas. Zgodnie z wczeniejszym stwierdzeniem, taki rodzaj postpowania nazywany jest rozpoznawaniem z nauczycielem, gdy oprcz wartoci M wymiarowego wektora dla poszczeglnych obiektw, dane s rwnie numery klas, do ktrych obiekty te nale, a co za tym idzie posiadana jest informacja a priori okrelajca przynaleno poszczeglnych elementw do grup. Procedury wykorzystywane do tego celu umoliwiaj sprowadzenie obiektw z przestrzeni wielowymiarowych, w ktrych kady wymiar odpowiada poszczeglnym zmiennym na Xj opisujcym Moliwo obiekty taka Oi, do przestrzeni dziki jednowymiarowej, co niekiedy nazywa si rzutowaniem obiektw z przestrzeni wielowymiarowych prost. wystpuje wanie oszacowaniu wartoci jednowymiarowej funkcji wektora obserwacji obiektw, ktra nazywana jest funkcj dyskryminujc, w znaczeniu rozdzielajc. Funkcja taka, oznaczona symbolem f, pozwala na przyporzdkowanie kadej M wymiarowej obserwacji (kademu obiektowi) liczby rzeczywistej, przeto moemy mwi o odwzorowaniu M wymiarowej przestrzeni w jednowymiarowy zbir f: RK RL Zagadnienie skupia si zatem na okreleniu L przedziaw Rl wartoci funkcji f i przyporzdkowaniu im odpowiednich grup obiektw nalecych do zrnicowanych populacji k . Dziki temu zamiast wyodrbniania w liczb rzeczywistych, co zapisuje si jako:

87

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

wielowymiarowej przestrzeni RK obszarw Rk ustala si na prostej przedziay Rl odpowiadajce odpowiednim obszarom Rk. Posugujc si zapisem formalnym mona to przedstawi w nastpujcy sposb: jeeli: (Xn Rk f(Xn) Rl), to obiekt O opisany wektorem Xn zostaje przypisany do populacji k. Problem dokonywania dyskryminacji obiektw w przypadku wystpowania jedynie dwch klas skupia si zatem do znalezienia takiego przeksztacenia liniowego przestrzeni na prost, e punkty lece na lewo od pewnego ustalonego punktu prostej zalicza si do jednej klasy, a punkty lece na prawo do drugiej klasy. Powysze twierdzenie wystpuje, jeeli spenione s nastpujce warunki: wystpuje funkcja f : RK RL, moliwe jest dokonanie takiego podziau zbioru RL, bdcego zbiorem wartoci tej funkcji, na przedziay Rl, e spenione bd nastpujce warunki: Rl RL, Rl Rl n = , URl = R .
l =0,...,L1

Podsumowujc powysze rozwaania naley stwierdzi, i wyodrbnienie w przestrzeni RK obszarw Rk nazywane jest dokonaniem dyskryminacji, a wic dokonaniem podziau przestrzeni na homogeniczne obszary (podprzestrzenie), natomiast okrelenie na podstawie posiadanej funkcji do ktrej populacji naley rozpatrywany obiekt nazywane jest klasyfikacj. Metoda okrelania parametrw funkcji dyskryminacyjnej Analiza dyskryminacyjna jest technik numeryczn umoliwiajc dokonywanie dyskryminacji wielowymiarowych obiektw, wykorzystywan w zagadnieniach, w ktrych zmienna objaniana ma charakter dyskretny. Istota analizy sprowadza si do sprowadzenia wielowymiarowych obserwacji, nalecych do dwch grup obiektw bdcych czciami rnych populacji, do przestrzeni jednowymiarowej, tak aby moliwe byo dokonanie ich maksymalnie dokadnego odseparowania zgodnie z rzeczywist przynalenoci do populacji. Zagadnienie to przedstawia poniszy rysunek.

88

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

Rysunek 11 Ilustracja istoty liniowej analizy dyskryminacyjnej

o b ie k t n a le c y d o g r u p y p 1 , o b ie k t n a le c y d o g r u p y p 2 , o p t ym a ln a h ip er p a sz c z yz n a (lin ia p r o s ta w p r z e strz e n i d w u w ym ia r o w e j), p u n k t k r yt y c z n y (w a r to o d s e p a r o w u j c a b a d a n e g r u p y, m in im a liz u j c a b d k la s y fik a c ji).

rdo: Z. H. Yang, H. James, A. Packer: The Fialure Prediction of Private Construction Companies. University of Portsmouth. Departamet of Land & Construction Management. s. 6. Moliwo wielowymiarowych rozdzielajcej, rozpoznawaniu przy dokonania obiektw ktrej danych liniowego pozwala obiektw. na przeksztacenia znalezienie bdzie bd rozpatrywanych wartoci przy funkcji powstajcy wartoci

optymalnej

minimalizowany

Oszacowywanie

dyskryminacyjnej dla poszczeglnych obiektw oraz porwnywanie jej z wartoci rozdzielajc (nazywan wczeniej punktem krytycznym) stanowi o istocie procesu dyskryminacji. Liniow funkcj dyskryminacyjn przedstawia si najczciej wyraeniem 25 :

1 D( x) = ( 0 1 )T 1 x ( 0 1 )T 1 ( 0 + 1 ) . 2
gdzie: 0 , 1 oznaczaj wektory rednich wartoci zmiennych w poszczeglnych grupach,
x

jest macierz wariancji kowariancji zmiennych, jest losow obserwacj.

Przy czym obserwacja X zostanie zaklasyfikowana do populacji 0, jeeli:

D ( x ) > c,

25 Discriminant Analysis and Clustering. Committe on Applied and Theoretical Statistics. Board on Matehemtaical Sciences. National Academy Press. Washington. 1998. s. 10.

89

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

gdzie:

c = ln

p1 . p0

dla p0 oraz p1 oznaczajcych odpowiednio prawdopodobiestwa a priori tego, e dany obiekt pochodzi z populacji 0 lub te 1. Przyjmujc nastpujce oznaczenia:

a = 1 ( 0 1 ) ,
oraz

1 a0 = (0 1 )T 1 (0 1 ) , 2
otrzymujemy nastpujc posta funkcji dyskryminacyjnej:

D( x) = aT x + a0 .
Na podstawie powyszego zapisu funkcji wida, e funkcja ta jest liniow kombinacj obserwacji zmiennych tworzcych losowy wektor X okrelajcy poddawany klasyfikacji obiekt. Poszczeglne wspczynniki tej kombinacji tworzy bd wektor kolumnowy a, ktrego elementy obliczane s na podstawie parametrw rozkadw wektora losowego X w populacjach 0, 1. Poszczeglne elementy wektora a s zatem wagami przypisanymi zmiennym tworzcym wektor X, co mona obliczy w nastpujcy sposb:
L L L L a = 1 ( 0 1 ) = k1 k 2 L L L L L L L L L M L 01 11 M L 02 12 K ki ( 0i 1i ) , = M kK i =1 M L M 0 K 1K L M

gdzie:

kK

okrela Na

wielko

oglnogrupowej jednak

wariancji

kowariancji liniowej

dla

poszczeglnych zmiennych, uwag zasuguje geneza powstania funkcji dyskryminacyjnej. U podstaw stworzenia reguy umoliwiajcej dokonanie liniowej klasyfikacji obiektw ley bayesowska regua klasyfikacyjna. Liniowa funkcja dyskryminacyjna wykorzystuje te same oglne zaoenia statystyczne, ktre umoliwiaj podejmowanie decyzji w warunkach probabilistycznych. Zaoenia te dotycz w szczeglnoci znajomoci prawdopodobiestw przynalenoci

90

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

badanych obiektw do rozpatrywanych populacji. W analizach empirycznych, przy braku dodatkowych wskazwek, zaoenie to jest trudnym do wyegzekwowania, dlatego te zakada si, e prawdopodobiestwo to jest takie samo dla kadej grupy i wynosi
1 2

(gdzie I oznacza liczb populacji), co dla przypadku dwch


1

populacji wynosi oczywicie 1. Ponadto funkcja dyskryminacyjna wymaga I znajomoci funkcji gstoci wektora losowego X w poszczeglnych populacjach (tzn. fi(x) (i=0,1)). Poniewa decyzja okrelajca do ktrej populacji naley dana obserwacja jest podejmowana po zaobserwowaniu wektora x Mwic o prawdopodobiestwie ( i ).
x

dlatego te na myli

prawdopodobiestwo to nazywane jest prawdopodobiestwem a posteriori. a posteriori mamy zatem prawdopodobiestwo warunkowe, zalene od wektora opisujcego dany obiekt, co mona zapisa jako Korzystajc zatem z twierdzenia Bayesa,

prawdopodobiestwo

posteriori

mona

zapisa

wykorzystujc

prawdopodobiestwa a priori pi oraz funkcje gstoci fi(x), co dane jest wzorem:


(

pi f i ( x) i )= x p0 f 0 ( x) + p1 f1 ( x)

dla i = 0, 1.

O przynalenoci do okrelonej populacji danego obiektu decyduje maksymalizacja wartoci prawdopodobiestwa a posteriori dla danej populacji. Regu decyzyjn w tym przypadku mona zapisa w sposb nastpujcy: jeeli dla danego wektora x zachodzi ( 0 ) > ( 1 ), to dany obiekt X naley do
x x

populacji 0, jeeli natomiast danego wektora x zachodzi ( 0 ) ( 1 ), to dany obiekt X


x x

naley do populacji 1. Nadajc posta analityczn powyszej regule klasyfikacyjnej, zgodnie ze znanym lematem NeymanaPearsona przyjmowanym w statystycznej teorii klasyfikacji, otrzymujemy iloraz prawdopodobiestw a posteriori, dziki czemu moliwe bdzie zastosowanie przeksztace umoliwiajcych otrzymanie liniowej funkcji dyskryminacyjnej 26 . Oznaczajc przez Z(x) iloraz tyche prawdopodobiestw otrzymuje si:

26 Por. S. Ostasiewicz: Metody dyskryminacyjne w prognozowaniu dyskretnym. Warszawa: Wydawnictwo Polskiej Akademii Nauk. 1989. s . 67. Autorka wskazuje dalej, i w przypadku szerokiej klasy rozkadw istnieje pewna monotonicznie rosnca funkcja h:RR taka, e h(z(x)) jest funkcj liniow wzgldem X. Wasno ta jest bardzo wana nie tylko z tego wzgldu, e znajc funkcj liniow

91

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

p0 f 0 ( x) p f ( x) + p1 f1 ( x) p0 f 0 ( x) . Z ( x) = 0 0 = p1 f1 ( x) p1 f1 ( x) p0 f 0 ( x) + p1 f1 ( x)

Zgodnie zatem z bayesowsk regu klasyfikujc otrzymujemy: jeeli dla dowolnego obiektu opisanego przez wektor x zachodzi: Z(x)>1, to obiekt zaklasyfikowany zostaje do populacji 0, jeeli dla dowolnego obiektu opisanego przez wektor x zachodzi: Z(x) 1, to obiekt zaklasyfikowany zostaje do populacji 1. Posta funkcji Z(x) zaley zatem w bezporedni sposb od postaci funkcji gstoci wektorw X w obu populacjach, przy czym klasyczna funkcja dyskryminacyjna opiera si na zaoeniu, e funkcje te maj wielowymiarowy (K wymiarowy) rozkad normalny. Funkcje te oznaczane N(i, ) charakteryzuj si rnymi wartociami wektorw wartoci oczekiwanych w kadej populacji oraz jednakow macierz wariancji kowariancji. Wykorzystujc powysze zaoenia otrzymujemy 27 :
0 , 5 K exp[0,5( x 0 )T 1 ( x 0 )] p f ( x) N ( 0 , ) (2) = = Z ( x) = 0 0 , 0 , 5 p1 f1 ( x) N (1 , ) (2) 0,5 K exp[0,5( x )T 1 ( x )] 1 1
0 , 5

Dokonujc nastpujcych przeksztace:

Z ( x) =

(2) 0,5 K (2) 0,5 K

0 , 5

exp[0,5( x 0 )T 1 ( x 0 )] exp[0,5( x 1 )T 1 ( x 1 )]
1

0 , 5

= exp[0,5( x 0 )T ( x 0 ) + 0,5( x 1 )T ( x 1 )] = = exp(0,5)[ T x


1

T x + xT 0 + T x T 0 + xT x xT 1 1 x + xT 1 ] = 0 0 T T = exp(0,5)[(2T x 21 x ) (T 0 + 1 1 ] = 0 0
1 1 1 1

= exp(0,5)[(2( 0 1 )T x ( 0 1 )T ( 0 + 1 )] =
1 1 1 = exp[(0 1 )T x (0 1 )T (0 + 1 )] . 2

oraz zwracajc uwag na fakt, i Z(x) jest funkcj wykadnicz, ktrej warto dla danego wektora x zaley od tego, jak warto przyjmie wyraenie znajdujce si
atwo jest oblicza wartoci potrzebne do formuowania prognoz (dokonywania klasyfikacji obiektw), ale gwnie dlatego, e w przypadku nieznajomoci tej funkcji mona j efektywnie aproksymowa (S. Ostasiewicz: ibidem). 27 Naley zauway, e takie przeksztacenie moliwe jest jedynie, kiedy prawdopodobiestwa a priori tego, e obserwacje pochodz z rozpatrywanych klas s sobie rwnie (i wynosz 0,5).

92

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

w wykadniku tej funkcji, otrzymywana jest ostateczna posta funkcji Z(x), ktra jest tosama z postaci przedstawion na pocztku niniejszego podpunktu. A zatem:

1 Z ( x) = D( x) = ( 0 1 )T 1 x ( 0 1 )T 1 ( 0 + 1 ) . 2
atwo wykaza, e badany obiekt zostanie zaklasyfikowany do 0 dla D(x)>0 lub do 1 dla D(x)<0. W takim przypadku wartoci rozdzielajc populacje jest 0, co jest zgodne z przedstawionym wczeniej warunkiem:

c = ln
Taka sytuacja wystpuje a

p1 0,5 = ln = ln(1) = 0 . p0 0,5


o czym sobie powiedziano rwnie. W wczeniej, przypadku, gdy gdy s

wtedy, priori

prawdopodobiestwa

prawdopodobiestwa te nie s sobie rwne tj. p0 p1 otrzymujemy:


Z ( x) = p0 f 0 ( x) p0 1 exp[( 0 1 )T 1 x ( 0 1 )T 1 ( 0 + 1 )] . = 2 p1 f1 ( x) p1

Aby speniony by zatem warunek Z(x)>1 musi zachodzi:

p0 1 exp[( 0 1 )T 1 x ( 0 1 )T 1 ( 0 + 1 )] > 1. p1 2
Przeksztacajc powyszy wzr i obustronnie go logarytmujc otrzymujemy, e punktem krytycznym dla rnych prawdopodobiestw jest przedstawione na wstpie wyraenie:
c = ln p1 . p0

Przedstawione wyej rozwaania pozwoliy na ustalenie postaci liniowej funkcji dyskryminacyjnej. Naley jednak jeszcze raz zaznaczy, e jednym z podstawowych warunkw umoliwiajcych okrelenie tej funkcji byo wystpowanie znanych parametrw rozkadw warunkowych zmiennych w populacjach. Taka sytuacja wystpuje jednake niezmiernie rzadko w badaniach empirycznych, dlatego te w przypadku braku informacji o parametrach wielowymiarowych rozkadw normalnych koniecznym jest ich oszacowanie z posiadanej prby. Proces okrelania parametrw funkcji dyskryminacyjnej obejmowa bdzie zatem dwa etapy, tj. szacowania parametrw rozkadw wektora losowego X w obu badanych populacjach oraz okrelanie

93

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

wspczynnikw oznaczenia: Ni

liniowej

funkcji

dyskryminacyjnej.

Przyjmujc

nastpujce

liczebno prby odpowiadajcej danej populacji, oszacowana z prby warto przecitna zmiennej Xk. K wymiarowy wektor rednich wartoci zmiennych opisujcych obiekty, oszacowana na podstawie prby K K wymiarowa ocena macierzy wariancji, kowariancji dla zmiennych opisujcych dane obiekty, warto zmiennej Xk dla obiektu O nalecego do populacji i.

xik
xi
S

xijk

oraz dla poniszych formu:


xi1 xi = M , xiK

gdzie xik =

x
j =1

Ni

ijk

Ni

, i= 0, 1.

a take dla:

S=
gdzie:

1 1 Ni ( xijk xik )( xijk xik )T , n i = 0 j =1

n = Ni 2 ,
i =0

otrzymujemy:

1 D ' ( x ) = [( x 0 x1 )T S 1 x ( x 0 x1 )T S 1 ( x 0 + x1 )]. 2
Powysza formua, ktrej parametry zostay oszacowane z prby jest zatem odpowiednikiem Analiza oryginalnej postaci a funkcji dyskryminacyjnej metoda dla danych parametrw rozkadw 28 . dyskryminacyjna, waciwie wsprzdnych dyskryminacyjnych, ktra zostaa zaprezentowana powyej, bya przez szereg lat jedn z najczciej wykorzystywanych metod klasyfikacji zero jedynkowej stosowan w badaniach ekonomicznych. Niewtpliw zalet tej metody jest prostota oblicze oraz moliwo interpretacji wag odpowiadajcych poszczeglnym zmiennym modelu. Wady metody le natomiast w zakresie
28 D. Hadasik: op. cit. s. 104 115

94

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

zaoe jej towarzyszcych. Sama liniowa posta modelu jest czsto krytykowana, jako e stwierdza si, i rzutowane na prost wielowymiarowe obiekty nie musz w rzeczywistoci by liniowo separowalne. Poza tym, trudnym warunkiem jest wystpowanie rozkadu normalnego, ktremu maj podlega obserwacje nalece do poszczeglnych klas. 3.2. Model logitowy i probitowy O ile przedstawiona w powyszym podpunkcie metoda analizy

dyskryminacyjnej jest technik umoliwiajc dokonanie dyskryminacji danego zbioru danych (jej istot jest zatem znalezienie punktu rozdzielajcego wartoci funkcji obliczonych dla obiektw nalecych do dwch rnych populacji), o tyle prezentowane w niniejszym czci pracy metody modelu logitowego oraz probitowego s technikami umoliwiajcymi dokonanie klasyfikacji tyche obiektw. Oznacza to, i w przypadku wystpowania dwch klas, do ktrych maj by zaklasyfikowane obiekty xn opisane za pomoc wektora zmiennych Xm, warto funkcji yn winna osign jedn z dwch wartoci, tj.:

1 jeeli xn 1 . yn = 0 jeeli xn 0
Mona zatem stwierdzi, e zmienna y jest zmienn binarn, ktrej prawdopodobiestwo a priori zaklasyfikowania do populacji 1 wynosi p1, natomiast prawdopodobiestwo zaklasyfikowania do populacji 0 rwnie jest p0 (p0 = 1 p1). W modelach logitowym i probitowym zakada si, e o zaklasyfikowaniu obiektu decyduje oszacowane prawdopodobiestwo przynalenoci do rozpatrywanych klas. Jeeli zatem prawdopodobiestwo to wynosi 1 (lub jest bliskie 1), to uznaje si, e dany obiekt naley do klasy 1, w przypadku, gdy prawdopodobiestwo to wynosi 0 (lub jest bliskie 0) uznaje si, e obiekt naley do klasy 0. Podobne podejcie wykorzystywane jest w tzw. liniowych modelach prawdopodobiestwa dychotomiczna znanych z ekonometrii, w ktrych to dyskretna i zmienna objaniana okrela prawdopodobiestwo

95

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

zaklasyfikowania poszczeglnych obiektw do rozpatrywanych klas. Funkcja ta jest oczywicie liniow funkcj regresji zero jedynkowej o postaci 29 :
' yn = + X n + n ,

gdzie: Xn wektor zmiennych opisujcych obiekty, wektor wspczynnikw wag, wyraz wolny, czynnik losowy. Zgodnie z tym co stwierdzono na wstpie celem jest okrelenie populacji, z ktrej pochodzi badany obiekt. Jako, e zmienna yn moe przyjmowa tylko dwie wartoci, cakowite prawdopodobiestwo tych zdarze mona opisa w sposb nastpujcy:

1 dla prawdopodobiestwa P1 yn = 0 dla prawdopodobiestwa 1 - P1


co odpowiada zapisowi:

E ( yn / X n) = 1 ( Pn ) + 0 (1 Pn ) = Pn
Jak zatem wida Pn moe by rwnie interpretowane jako warto oczekiwana yn przy danych parametrach Xn. Mona zatem zapisa, e:
' E ( y n / X n ) = + X n + E ( n / X n ) .

Zgodnie z zaoeniami towarzyszcymi estymacji klasycznego modelu ekonometrycznego 30 warto oczekiwana skadnika losowego wynosi zero:

E ( n / X n) = 0 ,
a zatem:
' E ( y n / X n ) = + X n ,

lub:
' Pn = + X n .

Istota wykorzystywania liniowych modeli prawdopodobiestwa sprowadza si do dokonywania klasyfikacji obiektw dziki obliczeniu prawdopodobiestwa ich przynalenoci do danych klas. Jednake ze wzgldu na wasnoci liniowych
29 Do oszacowania parametrw liniowej funkcji prawdopodobiestwa wykorzystywana jest klasyczna metoda najmniejszych kwadratw. 30 Por. S. Bartosiewicz: Metody ekonometryczne. Warszawa: PWN. 1974. s. 50.

96

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

funkcji prawdopodobiestwa 31 ich warto moe by <0 lub >1, a wic moe wykracza poza przedzia [0;1], co jest sprzeczne z definicj prawdopodobiestwa 32 . Prawdopodobiestwo ujemne, jak rwnie wiksze od jednoci nie ma sensu z punktu widzenia podstaw rachunku prawdopodobiestwa, co sprawia, e w przypadku szeregu obiektw nie bdzie moliwe podjcie decyzji dotyczcej ich zaklasyfikowania do jednej z rozpatrywanych klas. Opisana wyej niedogodno zmusza do zastosowania monotonicznych przeksztace prawdopodobiestw z przedziau [0; 1] na przedzia (- , ), dziki czemu uniknie si wystpowania skoczonego przedziau zmiennej objanianej 33 . Przeksztaceniami takimi s wanie model logitowy i probitowy. W tym miejscu wprowadzone zostanie jedno z najpopularniejszych przeksztace, tzw. przeksztacenie logitowe, odwzorowujce skal parametru P z przedziau [0;1] na przedzia (- , ), na bazie ktrego buduje si modele dla danych dwumianowych. Przeksztacenie logitowe prawdopodobiestwa tego, e obiekt xi zostanie zaklasyfikowany do klasy k jest oznaczane i definiowane nastpujco:

p ). logit ( p) = log( 1 p
Taka transformacja ma nastpujce wasnoci:

p [0;1] logit( p) (,+), p 0 logit ( p) , p 1 logit( p) +,


Wykres funkcji logit jest symetryczny wzgldem punktu (0,5; 0), a dla
p (0,2; 0 ,8) funkcja ta jest prawie liniowa 34 . Zakadajc, e n obserwacji pochodzi z

rozkadu dwumianowego, logitowy model liniowy dla Pn zalenego od m zmiennych objaniajcych (cech obiektw) xj (j=1,2, , m) zwizanych z i t obserwacj ma posta:

p logit ( pn ) = log( n ) = 0 + 1 x1i + ... + m xmi , 1 pn


31 Liniowe funkcje prawdopodobiestwa i ich zastosowanie w klasyfikacji obiektw szczegowo przedstawiaj: E. Altman, R. Avery, R. Eisenbeis, J. Sinkey Jr.: Application of Classification Techniqes in Busienss, Banking and Finance: Connecticut.. JAI Press. 1981. s. 3-10. 32 E. Nowak: Prognozowanie gospodarcze. Warszawa: Placet. 1998. s. 141. 33 Ibidem. s. 142. 34 W. Ostasiewicz: Statystyczne analizy metody danych. Wrocaw. Wydawnictwo Akademii Ekonomicznej we Wrocawiu. 1998. s. 325

97

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

skd po przeksztaceniach otrzymujemy:

pi = p(1 / x) =

exp( + 1 x1i + ... + m xmi ) . 1 + exp( + 1 x1i + ... + m xmi )

Powysza formua okrela zatem prawdopodobiestwo zaklasyfikowania obiektu x do klasy i, przy czym i = [0, 1]. Prawdopodobiestwo, e tej samej obserwacji odpowiada klasa 0 wynosi 1-pi, a zatem:

pi = p(0 / x) =

1 . 1 + exp( + 1 x1i + ... + m xmi )

Taka posta funkcji wystpuje jednak wtedy, gdy warto wspczynnika wolnego wynosi:

= 0 + ln p' ,
gdzie:

p' =

p0 . p1

Wychodzc bowiem od zaoenia o liniowoci logarytmu naturalnego ilorazu najwikszej wiarygodnoci o postaci:
ln

f ( x / 1 ) = 0 + T x , f ( x / 0 )

co pozwala na uwolnienie si od zaoe dotyczcych znajomoci postaci rozkadw w obu klasach, moemy wyznaczy prawdopodobiestwo a posteriori umoliwiajce dokonywanie klasyfikacji obserwacji (za pomoc oszacowanego prawdopodobiestwa) przy wykorzystaniu wzoru Bayesa o postaci:
P ( i / x ) = pi f i ( x / i )

p f (x / )
i =1 i i i

Dokonujc nastpnie przeksztace dwch powyszych formu dochodzimy do postaci prawdopodobiestw a posteriori okrelonych jako:

P ( 0 / x ) =
oraz:

exp( + T x + ln p' ) , 1 + exp( + T x + ln p' )

P(1 / x) =

1 . 1 + exp( + T x + ln p' )

98

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

Jeeli natomiast prawdopodobiestwa a priori p0 oraz p1 s sobie rwne, to podobnie jak miao to miejsce w analizie dyskryminacyjnej, ln p = 0, co skutkuje wyeliminowaniem tego elementu z kombinacji czynnikw, ktrych suma stanowi wykadnik potgi w powyszych wzorach, dziki czemu otrzymujemy: = 0. Jak si zatem okazuje prawdopodobiestwo a posteriori p(i, x) okrelajce zaklasyfikowanie obiektu x do jednej z klas moe by traktowane jako warto dystrybuanty rozkadu logistycznego, a zatem 35 :
p( i , x ) =
0 +T x

f ( L)dz ,

gdzie: L f(L) dystrybuanta rozkadu logistycznego, funkcja gstoci standardowego rozkadu logistycznego. Ponadto, jeeli w wektorze Xm zmiennych (cech) opisujcych obiekty wystpuje zmienna, ktra jest zawsze rwna jednoci, to wektor wag (parametrw strukturalnych modelu) moe zawiera wyraz wolny 0, w innym przypadku tak liniowa posta funkcji wiarygodnoci, jak i prawdopodobiestwo a posteriori przyjmuje posta 36 :

p( xi ) =
Powyszy W celu wzr mona atwo

exp(T xi ) 1 + exp(T xi )
przeksztaci otrzymujc okrelamy a tosamoci funkcji

wykorzystywane w nastpnych przeksztaceniach 37 . oszacowania dla n parametrw

modelu prby,

posta

wiarygodnoci 38

elementowej
n

nastpnie

dokonujemy

maksymalizacji funkcji o postaci 39 :


L = Pi i (1 Pi i )1 y i ,
y y i =1

Obliczajc logarytm powyszej funkcji otrzymujemy:

35 Por. K. Jajuga: Statystyczna teoria . op. cit. s. 126; oraz : E. Altman, R. Avery, R. Eisenbeis, J. Sinkey Jr.: Application of Classification Techniqes . op. cit. s. 16. 36 E. Altman, R. Avery, R. Eisenbeis, J. Sinkey Jr.: Application of Classification . op. cit. s. 18. 37 Por. G.C. Chow: Ekonometria. Warszawa: PWN. 1995. s. 310. 38 Metoda najwikszej wiarogodnoci stanowi ogln metod estymacji parametrw populacji przy pomocy wartoci, ktre maksymalizuj wiarogodno prby. Wiarygodno prby skadajcej si z n obserwacji xi, i=1,,n, jest funkcj cznego prawdopodobiestwa p(x1, x2,..., xn) gdy x1, x2, ..., xn s zmiennymi losowymi skokowymi. Niech L bdzie wiarogodnoci prby, gdzie L jest funkcj parametrw q1, q2,... qk, wwczas estymatory najwikszej wiarogodnoci parametrw q1, q2,... qk s wartociami, ktre maksymalizuj L. 39 Metod najwikszej wiarygodnoci szeroko omawia S. Brandt: Analiza danych. Warszawa: PWN. 1999. s. 230.

99

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

log L = [ yi log Pi + (1 yi ) log(1 P i )] =


i =1

{ y [log P log(1 P )] + log(1 P )} =


i i i i i =1

= yiT xi (1 + e xi ) ,
T

i =1

i =1

co byo moliwe do otrzymania dziki okrelonym wczeniej przeksztaceniom. Do otrzymania estymatora wektora parametrw metod najwikszej wiarygodnoci, koniecznym jest okrelenie postaci pochodnej log L wzgldem oraz przyrwnanie pierwszej pochodnej do zera:
n n n T T log L = f 1i xi (1 + e xi ) 1 e xi xi = ( f1i P1i ) xi = 0 . i =1 i =1 i =1

W przypadku gdy liczba obserwacji n jest wiksza (lub rwna) liczbie cech tworzcych wektor xi (co zwykle ma miejsce) i jeeli wektory xi nie s liniowo zalene, to macierz o postaci:
n n P1i 2 log L e xi ( e xi ) 2 T = xi T = xi [ T x xi + T x ] xiT = T 2 i i e +1 + 1) (e i =1 i =1
T T

= xi P1i (1 P1i ) xiT ,


i =1

jest ujemnie okrelona. Dla tak okrelonego rwnania w celu oszacowania parametrw wektora koniecznym jest wykorzystanie ktrej z metod rozwizywania rwna

nieliniowych. W dalszej czci pracy zastosowany zostanie iteracyjny algorytm quasi Newtonowski 40 . Podobnym do modelu logitowego jest model probitowy, w ktrym prawdopodobiestwo Pi okrelajce zaklasyfikowanie obiektu x do jednej z populacji jest okrelane przez dystrybuant rozkadu normalnego o postaci:
p ( 0 , x ) = (2 ) e ds = (' xi ) .
' x 1 2 s 2

40 O metodach rozwizywania rwna nieliniowych, w tym rwnie o metodzie quasi Newtona szeroko pisze: W. Milo: Nieliniowe modele ekonometryczne. Warszawa: PWN. 1990. s. 57.

100

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

Zakadajc, e prba zawiera n1 jednostek takich, e klas im odpowiadajc jest 1 oraz n2 takich jednostek, dla ktrych klas im odpowiadajc jest 0. Funkcja wiarygodnoci tej prby ma posta:
n1 n2

L = (' xi ) [1 (' xi )].


i =1 i =1

Logarytm powyszej funkcji ma posta:

log L = log (' xi ) + log[1 (' xi )] .


i =1 i =1

n1

n2

Podobnie jak miao to miejsce w analizie logit do oszacowania wektora metod najwikszej wiarygodnoci koniecznym jest zrniczkowanie powyszej funkcji wzgldem i przyrwnanie pochodnej do zera:
n2 log L n1 = [ (' xi )]1 (' xi ) xi [1 (' xi )]1 (' xi ) xi = 0 , i =1 i =1

gdzie: funkcja gstoci standaryzowanego rozkad normalnego o postaci:


z2 2

( z ) = (2) e

1 2

d ( z ) . dz

Rwnie w tym przypadku do rozwizania ukadu rwna i oszacowania wartoci parametrw wektora niezbdnym jest zastosowanie jednej z

numerycznych metod rozwizywania rwna. Tak jak miao to miejsce w modelu logit do tego celu zastosowany zostanie algorytm quasi Newtonowski. Ponisze rysunki (nr 12 oraz nr 13) przedstawiaj rnice pomidzy rozkadami logistycznym i normalnym. Rysunek 12 Dystrybuanty skumulowanego rozkadu normalnego i logistycznego
1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 -3 -2 -1 0 1 2 3

skumulowany rozkad normalny

skumulowany rozkad logistyczny

rdo: opracowanie wasne

101

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

Rysunek 13 Krzywe standaryzowanego rozkadu normalnego i logistycznego


0,4

rozkad normalny

0,3

rozkad logistyczny
0,2

0,1

-3

-2

-1

rdo: opracowanie wasne Oprcz oczywistego zrnicowania w podstawowych parametrach tych rozkadw (w rozkadzie normalnym mamy wariancj oraz odchylenie standardowe rwne 1, w przeciwiestwie do rozkadu logistycznego w ktrym elementy te przyjmuj wartoci odpowiednio 3,29 i 1,71), pomidzy rozkadami zachodzi ta rnica, e skumulowana posta rozkadu logistycznego ma zamknit form co czyni t metod duo atwiejsz z punktu widzenia koniecznoci dokonywania niezbdnych oblicze 41 . Przedstawione wyej metody logit i probit s ciekaw alternatywn dla analizy dyskryminacyjnej. W metodach tych nastpuje uwolnienie od sztywnego wymogu wystpowania rozkadu normalnego, ktremu podlega maj obserwacje nalece do poszczeglnych klas. Poza tym sama klasyfikacja nie nastpuje poprzez przyporzdkowanie obiektu do jednej z grup, lecz poprzez okrelenie prawdopodobiestwa wystpienia jednego z dwch rozpatrywanych stanw. Sama procedura oszacowania parametrw takiego modelu (wykorzystujca metody rozwizywania ukadw rwna nieliniowych) jest jednak bardziej zoona ni ma to miejsce w przypadku analizy dyskryminacyjnej.

41 E. Altman, R. Avery, R. Eisenbeis, J. Sinkey Jr.: Application of Classification . op. cit. s. 17

102

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

3.3.

Sztuczne sieci neuronowe Sztuczne sieci neuronowe (SSN) stanowi jedn z najbardziej dynamicznie

rozwijajcych si gazi sztucznej inteligencji. Rozlegy obszar zastosowa SSN obejmuje rwnie zagadnienia z zakresu nauk ekonomicznych, ktre do tej pory badano gwnie za pomoc modeli statystycznych, ekonometrycznych czy optymalizacyjnych 42 . Aczkolwiek wykorzystanie SSN jest moliwe niemal we wszystkich dziedzinach nauki i techniki, wszdzie tam, gdzie koniecznym jest wykorzystanie ukadw wspomagajcych podejmowanie decyzji w warunkach wystpowania szumw informacyjnych, to wanie w ekonomii zastosowanie SSN pozwala na efektywne prognozowanie, rozpoznawanie i analiz zjawisk, ktre do tej pory sprawiay trudnoci poznawcze. W zagadnieniu prognozowania bankructw wykorzystywany jest tylko jeden z obszarw zastosowa SSN, a mianowicie ich moliwo dokonywania klasyfikacji, w tym przypadku klasyfikacji dwuwartociowej. O moliwoci szerokich zastosowa SSN decyduj podstawy dziaania tego typu algorytmw. Inspiracj do stworzenia tej klasy systemw bya budowa mzgu ludzkiego, ktry jak dotd jest najdoskonalszym ukadem gromadzcym i przetwarzajcym informacje. Koncepcja dziaania sztucznych sieci neuronowych zostaa oparta na sposobie przetwarzania informacji w ludzkim mzgu 43 . SSN jest bowiem uproszczonym modelem pocze wystpujcych pomidzy komrkami ludzkiego mzgu 44 , dziki czemu stanowi struktur, ktra swym dziaaniem przypomina zasad funkcjonowania systemu nerwowego. Naley jednak zauway, e inspiracje biologiczne, aczkolwiek istotne, dotycz jedynie oglnych zasad funkcjonowania SSN. W rzeczywistoci dziaanie wikszoci modeli sieci neuronowych opiera si na czysto pragmatycznych koncepcjach matematycznych, dostosowanych do rozwizywanych zada i majcych niewiele wsplnego ze swymi neurofizjologicznymi podstawami. Sie neuronowa jest systemem wzajemnie poczonych prostych elementw przetwarzajcych informacje, zwanych neuronami. Kady neuron

42 J. S. Zieliski: Inteligentne systemy w zarzdzaniu. Teoria i praktyka. Warszawa: PWN. 1999. s. 141. 43 P. D. Wasserman i T. Schwartz: Neural Networks. Part 1. IEEE Expert. Spring. 1998. s. 1015. 44 R. E. Dorosey, R. O. Edmister, J. D. Johnson: Bankruptcy Prediction Using Artificial Neurlal Systems. The University of Mississipi. School of Business. The Reaserch Fundation of The Institute of Chartered Financial Analysts. 1997. s. 6.

103

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

posiada ciao komrkowe (som), z ktrego wyrasta pojedynczy akson. Kiedy soma zostanie dostatecznie silnie pobudzona przez nadchodzce impulsy, przekazuje je wzdu aksonu do innych neuronw. Impulsy takie neuron odbiera za pomoc receptorw zwanych dendrytami. Obszar na ktrym odbierane s impulsy, okrelany jest mianem synapsy. To wanie za ich porednictwem impulsy nerwowe przekazywane s z jednego neuronu na drugi 45 . Schemat neuronu biologicznego pokazany zosta na rysunku 5. Rysunek 14 Schematyczny obraz komrki nerwowej, pokazujcy jej zasadnicze elementy.

rdo: R. Tadeusiewicz: Problemy biocybernetyki. PWN. Warszawa: 1994. s. 32. Sztuczna sie neuronowa skada si zatem z szeregu poczonych ze sob neuronw tworzcych pewn struktur. Poszczeglne neurony s w strukturze grupowane w wiksze zespoy, zwane warstwami. W najprostszych SSN wystpuje jedynie warstwa wejciowa neuronw, ktr zgodnie z analogi do biologicznego neuronu moemy nazwa warstw receptorw i warstwa wyjciowa, dziki ktrej odbierany jest wygenerowany sygna. Struktura wewntrzna sieci tworzy tzw. architektur sieci, ktra okrela rwnie sposb propagacji sygnau midzy neuronami. Caa wiedza sieci o sposobie rozwizywania danego problemu przechowywana jest w jej wewntrznych odwzorowaniach, definiowanych przez wartoci wag wystpujcych pomidzy poszczeglnymi neuronami. Najprostszy pojedynczy neuron liniowy posiada zatem j wej, po ktrych przejciu sygnay
45 E. Gately: Prognozowanie finansowe i projektowanie systemw transakcyjnych. Warszawa. WIG Press. 1999. s. 5. Struktury neuronu dziaaj na zasadzie elektrochemicznej. Oznacza to, e dziaanie mzgu opiera si na przepywie impulsw elektrycznych wyzwolonych na skutek reakcji chemicznych. Kiedy wskutek poczonego oddziaywania wielu nadchodzcych impulsw zostanie osignity odpowiedni poziom pobudzenia (czyli zgromadzony adunek elektryczny okrelany mianem adunku progowego), ciao komrkowe wyzwala swj adunek (ulega depolaryzacji) i wysya go wzdu aksonu do innych komrek nerwowych i ich dendrytw.

104

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

wejciowe xj s mnoone przez wagi wij i przekazywane do sumatora , ktry oblicza potencja i i tego neuronu. Potencja ten moe by rwnie korygowany o dodatkowy skadnik tzw. bias, ktry peni rol wartoci progowej; jest nim staa warto bi. Skorygowany o bi potencja i oznacza si jako ui. Taki model sztucznego neuronu nazywany jest neuronem liniowym, a sie zbudowana z takich neuronw nosi nazw sieci liniowej. Sieci takie maj ograniczone zastosowanie, gdy nadaj si jedynie do realizacji odwzorowa liniowych 46 . Realizacja neuronu nieliniowego, ktry, co zrozumiae, posiada bdzie moliwo odwzorowywania rwnie problemw nieliniowych, polega na dodaniu bloku aktywacji i przetworzeniu dziki niemu wyjciowego sygnau ui danego neuronu, dziki czemu otrzymuje si sygna wyjcia y bdcy wynikiem funkcji aktywacji F(ui). Rysunek 15 Model pojedynczego neuronu liniowego
x1 bi wi1 wij

x2

ui

x3

wiN

rdo: opracowanie wasne Blok nieliniowej funkcji aktywacji F(ui) w zalenoci od konkretnego celu jakiemu suy neuron, moe przyjmowa rne postacie. Poczynajc od funkcji typu unipolarnego, przyjmujcej warto 0 lub 1, poprzez funkcje bipolarne o wartoci 1 lub 1, skoczywszy na cigych funkcjach sigmoidalnych takich jak funkcja logistyczna (rys. 16), tangens hiperboliczny. Naley rwnie podkreli, e SSN posiadajce funkcje aktywacji skokowe, a wic funkcj unipolarn lub bipolarn, maj charakterystyki niecige, co znacznie utrudnia proces ich

46 R Tadeusiewicz.: Sieci neuronowe. Warszawa. Akademicka Oficyna Wydawnicza. 1993. s. 23.

105

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

uczenia 47 , w zwizku z czym, dla zwikszenia efektywnoci wynikw, w dalszej czci pracy zostan wykorzystane jedynie funkcje sigmoidalne, a konkretnie funkcja logistyczna. Rysunek 16 Przykadowe funkcje aktywacji neuronu wraz z ich postaci analityczn
F(u) 1 -0,5 0
F (u ) = 1 1 + e u

>0

-1

rdo: opracowanie wasne Zastosowanie funkcji logistycznej jako staego bloku nieliniowego dla wszystkich neuronw sieci ma rwnie t zalet, e zamiast uczenia sieci wytwarzania jedynie dwch wartoci (zagadnieniem jest klasyfikacja dwuwartociowa), co jest czsto trudne do osignicia gdy sie moe realizowa wartoci wyjciowe wiksze lub mniejsze od wartoci progowych uznanych za klasyfikatory wskazujce na przynaleno obiektu do rozpatrywanych grup, sie uczona jest realizowa okrelony poziom aktywacji, a nie wartoci ekstremalne, ktre s trudne bd niemoliwe do osignicia. W przypadku zastosowania funkcji logistycznej nigdy nie otrzymujemy zatem penego poziomu aktywacji o wartoci 1, ani penego poziomu aktywacji o wartoci 0. Jeeli bowiem sie miaa by by uczona osiga te wartoci, to wagi synaptyczne musiay by by podcigane do tak duych wartoci, e pojawi si numeryczna niestabilno zwizana z ograniczeniem zakresu liczbowego 48 . Najlepszym rozwizaniem jest zatem uczenie sieci osigania umiarkowanych wartoci. W przypadku funkcji

47 S. Osowski: Sieci neuronowe w ujciu algorytmicznym. Warszawa. WNT. 1996. s. 38. Autor stwierdza rwnie, e sieci o skokowych funkcjach aktywacji nie mog by wykorzystywane jeeli do uczenia sieci stosuje si algorytmy gradientowe (np. algorytm wstecznej propagacji bdw). 48 Inn cech funkcji logistycznej jest to, e jej pochodna dy do zera dla wartoci ekstremalnych przez co optymalizacja SSN metod gradientow posuwa si wolno, co stanowi argument krytyczny w stosunku do metody wstecznej propagacji bdw.

106

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

logistycznej wartoci miar aktywacji wybiera si zwykle na poziomie 0,1 dla jednej decyzji i 0,9 dla drugiej 49 . Rysunek 17 Model neuronu nieliniowego
x1 bi wi1 wij ui

x2

F(ui)

yi

M
xN

wiN

rdo: opracowanie wasne Powysza sie jest sieci jednowarstwow, w ktrej nie wystpuj warstwy ukryte. Taka architektura sieci sprawia, i przy jej zastosowaniu moliwe jest rozwizywanie jedynie prostych problemw. Naley podkreli, e rozwizywanie przez sztuczn sie neuronow problemw o wysokim stopniu komplikacji wymaga rozszerzenia architektury sieci. Uzyskuje si to poprzez dodawanie warstw ukrytych neuronw, w ktrych poczeniach wagowych oraz funkcjach aktywacji zapisany zostaje sposb rozwizywania takich problemw. Schemat sieci wielowarstwowej prezentuje rysunek 18. Rysunek 18 Schemat sieci jednokierunkowej wielowarstwowej
x1 x2 x3 xN

y1

M
yk

rdo: opracowanie wasne Kady neuron, przedstawiony na rysunku 18 jako kko, dziaa w sposb opisany wczeniej, czego schemat przedstawia rys. 17 (schemat neuronu

49 T. Masters: op. cit. s. 29.

107

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

nieliniowego). Sygnay wejciowe pochodz z warstwy poprzedniej, a wyjciowe pyn do warstwy nastpnej. Przystpujc do rozwizania jakiegokolwiek problemu przy wykorzystaniu sieci neuronowej wielowarstwowej naley zatem, oprcz zebrania i dostosowania danych uczcych, zaprojektowa struktur sieci, dopasowan do danego zadania. Oznacza to zatem wybr liczby warstw sieci i neuronw w nich zawartych, a take okrelenie powiza midzy poszczeglnymi warstwami oraz przyjcie konkretnej funkcji aktywacji. Dobr liczby neuronw w warstwie wejciowej jest uwarunkowany wymiarem wektora danych x. Podobnie jest w warstwie wyjciowej, w ktrej liczba neuronw rwna si wymiarowi wektora zadanego. Tu jednak naley zaznaczy, i dla zadania klasyfikacji dwuwartociowej moliwe jest przyjcie dwch rozwiza: w pierwszym SSN posiada bdzie dwa neurony wyjciowe, po jednym na kady rodzaj podejmowanej decyzji, w drugim SSN posiada bdzie tylko jeden neuron wyjciowy. W pierwszym z podej przedstawiony sieci obiekt generuje na wyjciu sygna charakteryzujcy si wczonym pierwszym neuronem wyjciowym i wyczonym drugim (pod pojciem wczony wyczony naley rozumie warto neuronu wyjciowego rwn 1 lub 0), co oznacza zaklasyfikowanie rozpatrywanego obiektu do I z analizowanych klas lub pierwszym neuronem wyczonym i drugim wczonym, co z kolei oznacza zaklasyfikowanie rozpoznawanego obiektu do II klasy. Taka metoda jednak nie daje adnej korzyci w znaczeniu jakoci przetwarzania, a podnosi koszt pamici i czasu uczenia oraz wprowadza niejednoznaczno do procesu decyzyjnego 50 , powstaje bowiem problem jak decyzj podj w przypadku gdy oba neurony bd w stanie wczonym lub wyczonym. Rozwizaniem tego problemu jest zastosowanie jednego neuronu wyjciowego. W takim przypadku sie winna by uczona, a co za tym idzie winna rozwizywa stawiany jej problem, tak aby wytwarza du warto sygnau wyjciowego dla jednej decyzji i ma dla drugiej. W dalszej czci pracy przyjto zatem, e badane SSN posiada bd tylko jeden neuron wyjciowy. Ilo warstw ukrytych oraz liczba neuronw w nich zawartych jest natomiast uzaleniona od postawionego sieci zadania, przy czym okrelenie tak liczby

50 T. Masters. op. cit. s. 28.

108

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

warstw jak i neuronw pozostawia si zazwyczaj dowiadczeniom 51 . Przyjmuje si, e sie z jedn warstw ukryt powinna nauczy si rozwizywania wikszoci postawionych problemw. Nie s znane problemy wymagajce do rozwizania sieci z wicej ni trzema warstwami ukrytymi. Nie ma natomiast dobrej recepty na dobr waciwej iloci neuronw w warstwie ukrytej. Okrelenie architektury sieci jest pierwszym krokiem do stworzenia sieci neuronowej. Naley zauway, e prawidowo zbudowana sie neuronowa posiada zdolno do uoglniania, a wic generowania waciwego rozwizania dla danych, ktre nie pojawiy si w zestawie danych uczcych. Rysunek 19 stanowi ilustracj umiejtnoci generalizacji sieci neuronowych. Rysunek 19 Podzia przestrzeni danych na dane uczce L, testujce T oraz sprawdzajce (weryfikujce) V.
R T V

rdo: S. Osowski: op. cit. s. 32. Jak stwierdzono wczeniej inspiracj do stworzenia SSN by neuron, a wic pojedyncza komrka nerwowa speniajca okrelone funkcje w ludzkim mzgu. Istota dziaania SSN opiera si rwnie na zaoeniu, e poszczeglne neurony nabywaj wiedz w procesie uczenia podobnie jak dzieje si to w systemie nerwowym czowieka. O efektywnoci SSN decyduje zatem ich zdolnoci do rozpoznawania zadanego problemu poprzez uczenie si prawidowych

51 S. Osowski (S. Osowski: op. cit. s. 93) stwierdza: Problemem pozostaje dobr warstw ukrytych i liczby neuronw w kadej warstwie. Rozwizanie tego problemu zostao podane (w sensie istnienia rozwizania) przez matematykw zajmujcych si aproksymacj funkcji wielu zmiennych. Okrelenie minimalnej liczby warstw ukrytych sieci opiera si na waciwociach funkcji aproksymujcych.

109

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

rozwiza 52 . W procesie uczenia sieci zostaje przedstawiony zbir danych wejciowych, do ktrych stosuje si regu R. Zbir ten zostaje nastpnie rozdzielony na 2 podzbiory: zbir testujcy T oraz zbir uczcy L, z ktrego dodatkowo wydzielono podzbir V uywany w trakcie uczenia do sprawdzania stopnia nauczenia sieci (zbir ten nazywany jest czsto grup walidacyjn). Sie zostaje poddana uczeniu na zbiorze V. Zdolno odtworzenia zbioru L przez sie jest miar zdolnoci zapamitania danych uczcych, natomiast zdolno do generowania waciwych rozwiza dla danych nalecych do zbioru T, na ktrych sie nigdy nie bya trenowania, jest miar zdolnoci uoglniania. Zakada si przy tym, e zarwno dane tworzce zbir L, jak i zbir T s typowymi reprezentantami zbiorw tworzcych regu R. W procesie uczenia sieci wystpuj jednak zagroenia ktrych nie wyeliminowanie moe ograniczy zdolno sieci do generalizacji uzyskanej wiedzy. Naley bowiem mie na uwadze, e nadrzdnym kryterium uczenia sieci jest minimalizacja bdw otrzymywanych w procesie uczenia, przy czym chodzi tu o ograniczenie bdw dla cigu testowego. Zagroenia te przedstawia rysunek 20. Rysunek 20 Charakter bdw mogcych wystpi w procesie uczenia SSN
bd dla cigu testowego

wysoki

przeuczenie sieci dobre dopasowanie do cigu uczcego i brak zdolnoci do generalizacji

sabe dopasowanie do cigu uczcego i brak zdolnoci do generalizacji

niski

dobre dopasowanie do cigu uczcego i zdolno do generalizacji

bd dla cigu uczcego niski wysoki

rdo: P. Lula: Metody projektowania struktur sieci neuronowych stosowanych w procesie modelowania. Taksonomia. Zeszyt 4. 1997. s. 189.

52 Podobnie jak miao to miejsce w przypadku metod rozpoznawania obrazw, rwnie w procesie uczenia SSN wystpuj dwa rne procesy uczenia: uczenie z nauczycielem oraz uczenie bez nauczyciela. W niniejszej pracy rozpatrywane bd jedynie metody uczenia

110

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

Ciekawym zjawiskiem jest wystpienie wysokiego odsetka bdw w grupie testujcej T przy jednoczesnych niskich wartociach bdu dla grupy uczcej L, co oznacza tzw. przeuczenie sieci. W takim wypadku sie potrafi dobrze odtworzy dane bdce nauczycielem, nie ma jednak zdolnoci generalizacji nabytej wiedzy, a co za tym idzie praktyczne moliwoci zastosowania takiej sieci s znikome. Celem uczenia sieci jest zatem minimalizacja bdu dla grupy T. Omawiany powyej bd w swej istocie ma charakter bdu statystycznego zblionego do znanej z ekonometrii miary bdu dopasowania funkcji regresji, czyli sumy kwadratw reszt. Funkcja celu, ktrej minimum jest poszukiwanym rozwizaniem eksploruje si poprzez takie modyfikowanie wag synaptycznych sieci, aby osign warto funkcji znajdujc si w jej minimum cakowitym. Najczciej przyjmowanymi miarami bdw s redni kwadrat bdu (MSE mean square error) oraz bd redniokwadratowy (RMS root mean square). W dalszej czci rozprawy wykorzystany zostanie wanie bd typu RMS, ktry umoliwia atw interpretacj otrzymanych wynikw o postaci 53 :

RMS =
gdzie: ti yi n docelowa (rzeczywista)

1 n 1 (ti y i ) 2 . n i =1
warto odpowiadajca rozpatrywanemu

obiektowi, warto otrzymana na wyjciu sieci, ilo obiektw znajdujcych si w prbie. Istota uczenia aby si SSN polega wartoci na takim dopasowywaniu celu stanowicej wag bd

synaptycznych

otrzymywane

funkcji

odwzorowywania rzeczywistoci przez sie byy minimalne. Pierwsz czynnoci w procesie uczenia jest przygotowanie dwch cigw danych: uczcego i weryfikujcego (walidacyjnego). Cig uczcy jest to zbir takich danych, ktre w miar dokadnie charakteryzuj dany problem. Jednorazowa porcja danych nazywana jest wektorem uczcym. W jego skad wchodzi wektor wejciowy czyli te dane wejciowe, ktre podawane s na wejcia sieci i wektor wyjciowy czyli

sieci z nauczycielem, co jest podyktowane charakterem przedmiotu niniejszej dysertacji. 53 T. Masters. op. cit. s. 70.

111

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

takie dane oczekiwane, jakie sie powinna wygenerowa na swoich wyjciach. Po przetworzeniu wektora wejciowego, nauczyciel porwnuje wartoci otrzymane z wartociami oczekiwanymi i informuje sie czy odpowied jest poprawna, a jeeli nie, to jaki powsta bd odpowiedzi. Bd ten jest nastpnie propagowany przez sie ale w odwrotnej ni wektor wejciowy kolejnoci (od warstwy wyjciowej do wejciowej) i na jego podstawie nastpuje taka korekcja wag w kadym neuronie, aby ponowne przetworzenie tego samego wektora wejciowego spowodowao zmniejszenie bdu odpowiedzi. Procedur tak powtarza si do momentu wygenerowania przez sie bdu mniejszego ni zaoony. Wtedy na wejcie sieci podaje si kolejny wektor wejciowy i powtarza te czynnoci. Po przetworzeniu caego cigu uczcego (proces ten nazywany jest epok) oblicza si bd dla epoki i cay cykl powtarzany jest do momentu, a bd ten spadnie poniej dopuszczalnego poziomu bdu akceptowanego przez badacza. Jak to ju byo zasygnalizowane wczeniej, SSN wykazuj tolerancj na niecigoci, przypadkowe zaburzenia lub niewielkie braki w zbiorze uczcym. Jest to wynikiem wanie zdolnoci do uoglniania wiedzy. Jednym z najczciej wykorzystywanych algorytmw w procesie uczenia sici rozpoznawania obrazw jest algorytm wstecznej propagacji bdw. Metoda ta zostaa po raz pierwszy opublikowana przez D. Rumelharta i J. McClellanda w 1986 roku 54 , a jej nazwa pochodzi od propagowania bdw (modyfikacji wartoci wag) w kierunku od neuronw wyjciowych, poprzez warstwy ukryte do wag neuronw wejciowych. W swojej najbardziej podstawowej formie propagacja wsteczna polega na zastosowaniu algorytmu spadku gradientu. Gradient funkcji wielu zmiennych jest kierunkiem najbardziej stromego wspinania si po powierzchni bdu (rysunek 21) a wic deniem do maksimum funkcji. May krok w tym kierunku daje w rezultacie maksymalny przyrost funkcji w porwnaniu z jakimkolwiek innym kierunkiem. Ten sam krok w przeciwnym kierunku da maksymalny moliwy spadek wartoci funkcji, czyli w tym przypadku, spadek wartoci funkcji bdu generowanej przez sie. Obliczenie gradientu funkcji bdu umoliwia zatem wykonywanie krokw w stron minimum funkcji. Przedstawiona poniej przykadowa posta funkcji bdu w swym przekroju, ukazuje moliwo
54 D. Rumelhart, J. McClelland: Parallel Distributed Processing. Cambridge MIT Press. 1986.

112

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

utknicia w minimum lokalnym. Stosujc SSN naley pamita, i podczas ich uczenia koniecznym jest przeprowadzanie szeregu prb reinicjalizujcych wartoci wag pocztkowych tak, aby rozwizanie zawarte w oszacowanych wagach synaptycznych nie pozostawao w punkcie minimum lokalnego, ktre nie stanowi rozwizania najlepszego z punktu widzenia rozwizania oglnego postawionego problemu. Rysunek 21 Przykadowy przekrj funkcji bdu w przestrzeni dwuwymiarowej

rdo: opracowanie wasne Szczegy wykorzystania algorytmu wstecznej propagacji bdw

przedstawiaj si nastpujco 55 . Zamy, e przedmiotem uczenia bdzie SSN skadajca si z L warstw. W kadej warstwie znajduje si Nk elementw, k = 1, , L oznaczonych jako ADik , i = 1, , Nk , przy czym kady element AD jest neuronem nieliniowym na swym wyjciu. Sie posiada rwnie N0 wej, na ktre podawane s sygnay u1(n), , u N 0 (n ) zapisane w postaci wektora:
u = [u1 ( n ),..., u N 0 ( n )]T n = 1,2,...

Sygna wyjciowy i tego neuronu w k tej warstwie jest oznaczony jako yi(k)(n), i = 1, , Nk, k = 1,..., L. Neuron ADik ma Nk wej tworzcych wektor:
( ( x ( k ) ( n ) = [ x 0k ) ( n ),..., x Nkk)1 ( n )]T ,

przy czym xi(k)(n) = +1 dla i = 0 oraz k = 1, , L. Sygna wejciowy neuronu ADik jest powizany z sygnaem wyjciowym warstwy k 1 w sposb nastpujcy:
x
(k ) i

ui (n ) dla k = 1 ( k 1) (n) = yi ( n ) dla k = 2,..., L + 1 dla i = 0, k = 1,..., L .

55 D. Rutkowska, M. Piliski, L. Rutkowski: Sieci neuronowe, algorytmy genetyczne i systemy rozmyte. Warszawa: PWN. 1997. s. 34 38

113

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

Wag i tego neuronu, i = 1, , Nk, w warstwie k czc ten neuron z j tym sygnaem wejciowym xj(k)(n), j = 0, 1, ,Nk-1 oznaczamy jako wij(k)(n). Wektor wag neuronu ADik oznacza si jako:
wi( k ) ( n ) = [ wi(,k0) ( n ),..., wi(,kN)k 1 ( n )]T k = 1,..., L i = 1,... N k

Sygna wyjciowy neuronu ADik w chwili n - tej, n = 1,2,, jest okrelony jako:
i y k ( n ) = f ( si( k ) ( n )) ,

przy czym

si( k ) (n ) =

N k 1 j =0

(k ) ij

( n ) x (jk ) ( n ) .

Mona zauway, e sygnay wyjciowe neuronw w warstwie L tej:


L L y1L ( n ), y 2 ( n ),..., y N L ( n ) ,

s jednoczenie sygnaami wyjciowymi caej sieci. S one porwnywane z tzw. sygnaami wzorcowymi sieci:
L d 1L ( n ), d 2L ( n ),..., d N L ( n ) ,

w wyniku czego mona sformuowa posta bdw:

iL (n ) = d i( L ) (n ) yi( L ) (n ) i = 1,..., N L .
Dziki temu moliwym jest okrelenie funkcji bdw, w rozpatrywanym przypadku bdu typu MSE, o postaci:

1 N L ( L)2 1 N L ( L) MSE = Q (n ) = i ( n ) = ( d i ( n ) yi( L ) ( n )) 2 n i =1 n i =1


Z poprzednich formu wynika zatem, e miara bdu jest funkcj wag sieci. Uczenie sieci polega na adaptacyjnej korekcji wszystkich wag wij(k)(n) w taki sposb, aby miar t zminimalizowa. Do korekcji dowolnej wagi moemy zastosowa regu najszybszego spadku, ktra przyjmuje posta:
( ( wijk ) (n + 1) = wijk ) (n )

Q (n ) , ( wijk ) (n )

gdzie staa > 0 okrela wielko kroku korekcji. Zauwaajc, e:


Q ( n ) Q ( n ) si( k ) ( n ) Q ( n ) ( k ) = (k ) (k ) = (k ) x j (n) (k ) wij ( n ) si ( n ) wij ( n ) si ( n )

114

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

Oznaczajc nastpnie:

i( k ) =
otrzymujemy rwno:

1 Q ( n ) 2 sik ( n )

Q (n ) = 2 ik (n ) x (jk ) (n ) (k ) wij (n )
a zatem zapisana wczeniej regua najszybszego spadku przyjmuje posta:
( ( wijk ) ( n + 1) = wijk ) ( n ) + 2 i( k ) ( n ) x (jk ) ( n )

Sposb obliczenia wartoci wyraenia i(k)(n) zaley od warstwy. Dla warstwy ostatniej jest to:
NL

i( L ) ( n ) =
2

1 Q ( n ) 1 = ( L) 2 s i ( n ) 2

( mL ) ( n )
2

m =1

si( L ) (n )

1 i( L ) ( n ) 1 ( d i( L ) ( n ) y i( L ) ( n )) 2 = = = si( L ) ( n ) 2 i( L ) ( n ) 2

( L) i

y i( L ) ( n ) = i( L ) ( n ) f ' ( si( L ) ( n )) . (n) ( L ) si ( n )

Dla dowolnej warstwy k L otrzymujemy:

i( L ) (n ) =
=

( 1 Q ( n ) 1 N k +1 Q (n ) s mk +1) (n ) = ( k +1) = 2 si( L ) ( n ) 2 m =1 s m ( n ) si( k ) ( n )

N k +1

m =1

( k +1) m

(k (n )wmi +1) (n ) f ' ( si( k ) (n )) =

( (k = f ' ( si( k ) ( n )) mk +1) ( n )wmi +1) ( n ) . m =1

N k +1

Definiujc bd dla i tego neuronu w k tej warstwie (za wyjtkiem warstwy ostatniej) jako:
( i( k ) (n ) = mk +1) (n ) wmi (n ), k = 1,..., L 1 , m =1 N k +1

a nastpnie podstawiajc powysz formu do wzoru na i(k)(n) otrzymujemy:

i( k ) (n ) = i( k ) (n ) f ' ( si( k ) (n )) .
Ostatecznie nastpujco: algorytm wstecznej propagacji bdw mona sformuowa

115

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci
i y k ( n ) = f ( si( k ) ( n )) ,

s (n ) =
(k ) i

N k 1 j =0

(k ) ij

( n ) x (jk ) ( n ) ,

d i( L ) (n ) y i( L ) (n ) dla k = L i( k ) (n ) = N k +1 ( k +1) ( k +1) m ( n ) wmi ( n ) dla k = 1,..., L 1 m =1

i( k ) = i( k ) (n ) f ' ( si( k ) (n )) ,
( ( wijk ) ( n + 1) = wijk ) ( n ) + 2 i( k ) ( n ) x (jk ) ( n ) .

Dla duych sieci i cigw uczcych skadajcych si z wielu tysicy wektorw uczcych ilo oblicze wykonywanych podczas caego cyklu uczenia jest gigantyczna a wic i czasochonna. Nie zdarza si take aby sie zostaa dobrze zbudowana od razu. Zawsze jest ona efektem wielu prb i bdw. Ponadto nigdy nie mamy gwarancji, e nawet prawidowa sie nie utknie w minimum lokalnym podczas gdy interesuje nas znalezienie minimum globalnego. Dlatego algorytmy realizujce SSN wyposaa si mechanizmy dajce nauczycielowi moliwo regulacji szybkoci i jakoci uczenia. S to tzw. wspczynniki: uczenia i momentum. Wpywaj one na stromo funkcji aktywacji i reguluj szybko wpywu zmiany wag na proces uczenia. Krok korekcji ,nazywany wspczynnikiem uczenia powinien przyjmowa wartoci wiksze (blisze jednoci) na pocztku procesu uczenia sieci, a nastpnie naley go zmniejsza wraz z dochodzeniem do minimalizacji bdw 56 . Dokadna dugo kroku, ma bardzo due znaczenie dla szybkoci procesu uczenia. Jeeli dugo ta jest za maa, to zbieno bdzie powolna, jeeli natomiast dugo kroku bdzie za dua, to wartoci funkcji bdu bd wykonywa gwatowne skoki i nigdy nie osign minimum cakowitego (problem minimw lokalnych i minimw globalnych ilustruje prezentowany wczeniej rys. 21) 57 .

56 Szeroki przegld wspczynnikw uczenia i moliwoci ich zastosowania przedstawia: S. Osowski: op. cit. s. 61-68. 57 T. Masters: op. cit. s. 100.

116

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

Po drugie wyrnia si modyfikacj metody wstecznej propagacji bdw, w


( ktrej do rekursji wijk ) ( n + 1) dodawany jest dodatkowy czon nazywany momentum,

otrzymuje si zatem:
( ( ( ( wijk ) ( n + 1) = wijk ) ( n ) + 2 i( k ) ( n ) f ' ( si( k ) ( n )) x (jk ) ( n ) + [ wijk ) ( n ) wijk ) ( n 1)]

Wprowadzenie wykonywania

czonu

momentu

umoliwia w

niedopuszczanie poszukiwane

do s

ywioowych

zmian

kierunkw

ktrych

rozwizania minimalizujce wartoci bdw. Kady nowy kierunek oblicza si jako waon sum biecego gradientu i poprzednio znalezionego kierunku. Ide tej modyfikacji jest to, i odfiltrowujc szybkie lokalne fluktuacje otrzymuje si trend w kierunku bardziej globalnego minimum, dziki czemu znacznie przyspiesza si proces uczenia. Podsumowujc rozwaania dotyczce algorytmu wstecznej propagacji bdw naley podkreli, e pierwsze wartoci pocztkowe wag tworzcych sie s wybierane losowo i s na og bliskie zeru. Po nauczeniu sieci zawsze warto dla sprawdzenia otrzymanych wynikw powtrzy ca procedur od wygenerowania wag pocztkowych Jeeli mamy ju nauczon sie, musimy zweryfikowa jej dziaanie. W tym momencie wane jest podanie na wejcie sieci wzorcw spoza zbioru treningowego w celu zbadania czy sie moe efektywnie generalizowa zadanie, ktrego si nauczya. Do tego uywamy cigu weryfikujcego testujcego, ktry ma te same cechy co cig uczcy tzn. dane dokadnie charakteryzuj problem i znamy dokadne odpowiedzi. Wane jest jednak, aby dane te nie byy uywane uprzednio do uczenia. Dokonujemy zatem prezentacji cigu weryfikujcego z t rnic, e w tym procesie nie rzutujemy bdw wstecz a jedynie rejestrujemy ilo odpowiedzi poprawnych i na tej podstawie orzekamy, czy sie spenia nasze wymagania czyli jak zostaa nauczona. Sztuczne sieci neuronowe s szczeglnie mocno wykorzystywan metod rozpoznawania w ostatnich latach. Dzieje si tak dlatego, i istota ich dziaania pozwala na osignicie wynikw przewyszajcych wyniki otrzymywane w metodach opisanych wczeniej. Sztuczne sieci neuronowe w swej budowie oraz procesie uczenia nie bazuj bowiem na zaoeniach statystycznych dotyczcych danych ilociowych bdcych przedmiotem klasyfikacji. Poza tym algorytmy te maj moliwo optymalnego dostosowania si do zadanego problemu osigajc
117

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

zadany z gry niewielki poziom bdw. Krytyka SSN skupia si gwnie na ogromnej liczbie oblicze wykonywanych w procesie uczenia oraz na niemonoci zinterpretowania wartoci wag synaptycznych, jednake wady te przestaj by uciliwymi dziki zastosowaniu sprztu komputerowego wspomaganego odpowiednim oprogramowaniem. 4. Empiryczna ocena jakoci klasyfikacji dychotomicznej Zagadnienie przewidywania moliwoci bankructwa przedsibiorstwa ze swojej metodologicznej strony skupia si na zastosowaniu metod ilociowych umoliwiajcych dokonywanie klasyfikacji zoonych, wielowymiarowych obiektw. Celem wykorzystania tych metod jest zatem rozpoznanie obiektu, ktrego obraz tworzony jest przez wektor charakterystyk, bdcych wartociami wskanikw finansowych, funkcji a ktry to wektor do okrela sytuacj finansow spki, i zaklasyfikowanie firmy, przy wykorzystaniu okrelonej na podstawie prby uczcej dyskryminujcej, grupy przedsibiorstw zagroonych bd niezagroonych upadoci. Jednake ze wzgldu na fakt, e okrelenie parametrw przyjtej funkcji dyskryminujcej nastpio na drodze estymacji bazujcej na obiektach wystpujcych w prbie uczcej, ktrych to charakterystyki mog odbiega od charakterystyk wystpujcych w caej populacji, dlatego te klasyfikacja 58 obiektw spoza prby uczcej moe by obarczona bdem. W tym przypadku bd ten bdzie przyjmowa form zaklasyfikowania niezgodnego ze stanem faktycznym, co oznacza, e przedsibiorstwo, ktre w rzeczywistoci upado zostanie zaklasyfikowane do grupy przedsibiorstw nie zagroonych bankructwem, natomiast przedsibiorstwo o dobrej kondycji finansowej zostanie zaklasyfikowane do grupy przedsibiorstw zagroonych upadoci. Procedura empirycznej oceny jakoci reguy dyskryminujcej przebiega w nastpujcych etapach 59 : obliczenie wartoci funkcji dyskryminujcej dla obiektw o znanym pochodzeniu,

58 W przypadku prognozowania bankructwa wystpuje konieczno dokonywania klasyfikacji dychotomicznej 59 D. Hadasik: Upado . op. cit. s. 121.

118

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

okrelenie

na

podstawie

oszacowanej

wartoci

funkcji

przynalenoci

badanych obiektw do rozwaanych populacji, konstrukcja tzw. macierzy trafnoci klasyfikacji, oszacowanie na podstawie macierzy klasyfikacji empirycznych wskanikw jakoci klasyfikacji, weryfikacja otrzymanych wartoci. Przeprowadzajc powyszy proces naley mie na uwadze nastpujce zjawiska: Po pierwsze wane jest, aby weryfikacja otrzymanego modelu klasyfikujcego bya przeprowadzana przy wykorzystaniu obiektw, ktre nie stanowiy prby uczcej, a ktrych przynaleno do grup musi by znana a priori. Grupa ta nazywana jest czsto grup walidacyjn, przez co prezentowany proces weryfikacji jakoci otrzymanej reguy dyskryminujcej nazywany jest rwnie procesem walidacyjnym. Wykorzystywanie specjalnej grupy walidacyjnej jest podyktowane koniecznoci dokonania obiektywnej oceny jakoci oszacowanego modelu. Z zaoenia bowiem funkcja rozdzielajca dwie rozpatrywane populacje, ktrej parametry zostay okrelone na podstawie grupy uczcej tworzonej przez obiekty wchodzce w skad tyche populacji, winna doskonale rozdziela obiekty bdce nauczycielami modelu. Ze wzgldu jednak na uniwersalny charakter modelu, ktry winien rozpoznawa obiekty spoza podpopulacji bdcych nauczycielem, naley rzeczywist efektywno modelu diagnozowa na podstawie danych wykraczajcych poza grup uczc. Po drugie, dokonanie analizy modelu klasyfikujcego z wykorzystaniem grupy walidacyjnej zwizane jest z koniecznoci posiadania odpowiednio duej liczby obiektw w obu populacjach, tak aby model okrelany z wykorzystaniem danych bdcych nauczycielem posiada zdolno do rozpoznania wszystkich cech charakteryzujcych przynaleno obiektw do obu populacji. Liczba tyche obiektw musi by rwnie na tyle dua, aby wystpowaa w nim grupa obiektw bdcych grup walidacyjn, co umoliwi wnioskowanie o efektywnoci praktycznego zastosowania wypracowanego modelu. W praktyce czsto wystpujcym problemem jest maa liczba zaklasyfikowanych obiektw, co sprawia e tak do budowy modelu jak i jego weryfikacji stosowane s te same obiekty. Prba analityczna i prba walidacyjna s w tym przypadku identyczne, co

119

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

sprawia, e ocena modelu jest zawyona i nie gwarantuje wysokiej efektywnoci w przypadku weryfikacji obiektw zewntrznych. Konieczno (ang. accurancy w empirycznej matrix) 60 , procesie oceny efektywnoci wykorzystania odsetka modeli bdw jest klasyfikujcych doprowadzia do wyksztacenia tzw. macierzy trafnoci klasyfikacji ktra umoliwia W okrelenie miejscu powstajcych klasyfikacji. tym koniecznym

wprowadzenie pojcia bdu typu I oraz typu II powstajcych w klasyfikacji obiektw nalecych do dwch populacji. Bd typu I okrela zakwalifikowanie obiektu nalecego do populacji p1 do populacji p2, natomiast bd typu II to zaklasyfikowanie obiektu z populacji p2 do populacji p1. Macierz trafnoci klasyfikacji ma w rozpatrywanym przypadku nastpujc posta:
Rzeczywista przynaleno obiektu do populacji p1 p2 Przynaleno obiektu do populacji na podstawie przeprowadzonej klasyfikacji p2 P1 n11 n12 n21 n22

Liczebno prby w danej populacji N1 N2

W powyszej macierzy poprzez p1 oraz p2 zostay oznaczone dwie populacje do ktrych zaklasyfikowane maj zosta rozpoznawane obiekty, natomiast poprzez nmn oznaczono liczb obiektw zaliczonych do poszczeglnych pozycji macierzy. I tak poprzez n11 oznaczono liczb obiektw pochodzcych z populacji p1, ktre na podstawie oszacowanej wartoci funkcji dyskryminujcej zostay zaklasyfikowane rwnie do populacji p1. Przez n22 oznaczono natomiast liczb obiektw pochodzcych z populacji p2, ktre rwnie na podstawie oszacowanej wartoci funkcji dyskryminujcej zostay zaklasyfikowane do populacji p2. Oznacza to, i liczebno obiektw na gwnej przektnej macierzy trafnoci klasyfikacji okrela ilo poprawnych klasyfikacji obiektw. Inaczej przedstawia si sytuacja w przypadku liczebnoci n12 oraz n21. Pierwsza z tych wartoci okrela liczb popenionych bdw typu I, druga natomiast to liczebno obserwacji, przy ktrych klasyfikacji popeniony zosta bd typu II. Powysze wartoci umoliwiaj okrelenie empirycznej poprawnoci posiadanej reguy klasyfikacyjnej. I tak, ogln trafno przeprowadzonej klasyfikacji obliczymy za pomoc nastpujcej formuy:
60 E. Altman: Corporate Bankruptcy Prediction. A Discriminant Analysis. New York&London: Gerland Publishing 1988. s. 66.

120

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

=
gdzie:

n11 + n22 , N

N = nnm oznacza czn liczb obiektw stanowicych grup walidacyjn.


n =1 m =1

Cakowity odsetek bdnych klasyfikacji mona obliczy wykorzystujc proste przeksztacenie:


'B = 1 .

Otrzymana warto pozwoli na okrelenie jak duy poziom bdw generuje oszacowana formua klasyfikujca. Czsto wykorzystywanymi do porwna rnych metod klasyfikacji obiektw s wspczynniki okrelajce odsetek popenionych bdw typu I i II. Ich warto obliczymy za pomoc wzoru:

'I =
oraz
'II =

n12 , N1
n21 , N2

gdzie: N1 , N2 oznaczaj liczebnoci obiektw w populacjach p1 oraz p2 nalecych do grupy walidacyjnej. Wystpowanie bdw w klasyfikacji obiektw sprawia, i moliwym staje si okrelenie tzw. sfery niepewnoci, czy te szarej strefy. Strefa ta ograniczona jest przedziaem (Zpfmin , Zpumax), ktrego skrajnymi wartociami s z jednej strony minimalne wartoci funkcji rozdzielajcej dla przedsibiorstw funkcjonujcych i maksymalne wartoci teje funkcji dla przedsibiorstw bankrutw (rysunek 1).

121

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

Rysunek 22 Problem szarej strefy tj. wystpowania bdw klasyfikacji generowanych przez
Szara strefa

Przedsibiorstwa upade

Przedsibiorstwa funkcjonujce

pf Z min

pu Z max

Zd

otrzyman regu klasyfikujc rdo: opracowanie wasne na podstawie: W. Tarczyski: Analiza dyskryminacyjna na giedzie papierw wartociowych. Przegld Statystyczny 1996. nr 1- 2. s. 63.

Okrelenie przedziau strefy niepewnoci moliwe jest po dokonaniu oceny jakoci klasyfikacji funkcji dyskryminujcej za pomoc prby walidacyjnej. Znajomo rzeczywistej przynalenoci obiektw skadajcych si na t grup umoliwia bowiem wskazanie przedziau wartoci funkcji, w ktrych decyzje co do przynalenoci obiektu do grupy nie mog by podjte. Dziki wartociom przedziau tworzcego szar stref moliwe jest uniknicie podjcia bdnych decyzji okrelajcych przynaleno do rozpatrywanych populacji obiektw jeszcze niesklasyfikowanych. W takim wypadku decyzja co do zaklasyfikowania obiektu nie jest podejmowana w celu uniknicia ewentualnych bdw klasyfikacji 61 . Problem wystpowania strefy niepewnoci oraz niemono podejmowania decyzji w okrelonym przedziale wartoci funkcji dyskryminujcej (rozdzielajcej) doprowadzi do wyksztacenia metod pozwalajcych na oszacowanie tzw. punktu

61 Naley zwrci uwag na problem kosztw zwizanych z bdn klasyfikacj obiektw. W przypadku problemu prognozowania upadoci przedsibiorstw koszty bdnej klasyfikacji zale od wykorzystania narzdzia jakim jest model klasyfikujcy firmy ze wzgldu na moliwo ich upadku. Jednym z najbardziej znanych zastosowa jest zatem wykorzystanie modeli jako narzdzi okrelajcych zdolno przedsibiorstwa do zacigania kredytw inwestycyjnych. W tym przypadku bdna decyzja typu I (podjcie decyzji obcionej bdem typu I) oznacza moliwo wystpienia strat zwizanych z niespaceniem zacignitego kredytu, koszty takiej decyzji s zatem wysokie. Podjcie bdnej decyzji typu II to nie udzielenie kredytu przedsibiorstwu dobrze funkcjonujcemu i zaklasyfikowanie go do grupy przedsibiorstw bankrutw. W tym przypadku moemy mwi o kosztach utraconych korzyci, gdy bank lub inna instytucja finansujca nie osignie dochodw z tytuu paconych przez kredytobiorc odsetek, jednake rzeczywiste koszty bdnej decyzji wydaj si by mniejszymi ni w pierwszym przypadku.

122

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

krytycznego 62 (ang. cutoff point). Oszacowanie tego punktu jest jednak zwizane z przyjciem szeregu zaoe dotyczcych np. wystpowania rozkadu normalnego wartoci funkcji dyskryminujcej dla populacji firm funkcjonujcych jak i bankrutujcych. Poza tym w literaturze z krytyk spotykaj si nastpujce czynniki: fakt okrelania punktu krytycznego ex post, okrelanie jego wartoci na podstawie testu wielkoci bdw otrzymanych z prby bez posugiwania si modelami statystycznymi oraz fakt wystpowania niejednorodnych prawdopodobiestw upadku w posiadanej prbie i w caej populacji 63 . Niekiedy do okrelenia wielkoci bdu wykorzystywane s takie parametry jak koszt podjcia bdnych decyzji 64 . W takich warunkach problem ten sprowadza si do zastosowania szczeglnego przypadku bayesowskiej teorii minimalizacji redniego ryzyka bdu, a konkretnie do minimalizacji rednich kosztw podjtych decyzji, w przypadku kiedy ustalone s straty powstajce w wyniku popenienia okrelonych bdw oraz koszty poprawnego postpowania po podjciu prawidowej decyzji 65 . Jednak i tu wad jest konieczno wystpowania rozkadu normalnego wartoci funkcji dyskryminujcej jak rwnie konieczno znajomoci wielkoci kosztw odpowiadajcych konkretnym decyzj. Na uwag zasuguje rwnie fakt, i nie we wszystkich metodach klasyfikacji moliwe jest oszacowanie tej wartoci. Znajomo wartoci przedziau szarej strefy jest niezbdna szczeglnie w praktycznych zastosowaniach rozpatrywanych modeli, kiedy to obiektami klasyfikowanymi s przedsibiorstwa, dla ktrych warto funkcji dyskryminujcej stanowi moe diagnoz ich obecnej kondycji finansowej i form antycypowania o zagroeniu upadoci. W takim przypadku konsekwencje bdw w dokonywanej klasyfikacji przedsibiorstwa mog odbi si na dalszym funkcjonowaniu podmiotu. W niniejszym opracowaniu wyniki klasyfikacji

62 Szerzej o problemach zwizanych z wyznaczaniem punktu krytycznego: E. I. Altman: Corporate Financial Distress and Bankruptcy. New York: Wiley 1993. s. 254-264; jak rwnie: R.A. Eisenbies, R.B Avery: Discriminant Analysis and Classification Procedures. Theory and Applications. Toronto&London: Lexington Books. 1972. s. 21-25. 63 S.J. Hsieh: A Note on the Optimal Cutoff Point in Bankruptcy Prediction Models. Journal of Business Finance & Accounting. 20(3), April 1993. S 457-463. 64 Szczegowe badania przeprowadzone przez H. C. Koh(H. C. Koh: The Sensitivity of Optimal Cuttoff Points to Misclassification Coast of Type I and Type II Errors in the Going-Concern Prediction Context. Journal of Business Finance & Accunting. 19(2). January 1992. S. 187-198.) pozwoliy wykaza, i aczkolwiek na optymaln warto punktu krytycznego wpyw maj koszty bdnych klasyfikacji (ang. misclassification coasts) to jednak wpyw ten jest niewielki. Optymalny punkt krytyczny jest raczej nieczuy, jak wskazuje H. C. Koh, na zmiany stosunku kosztw zwizanych z popenieniem bdu I typu, do kosztw zwizanych z popenieniem bdu typu II. Wyniki przeprowadzonych bada wskazay, e optymalna warto punktu krytycznego nie zmieniaa si dla stosunku kosztw I typu do kosztw II typu w zakresie od 1:1 a do 1:71. Oznacza to, e nawet wysokie dysproporcje w stosunku wartoci obu rodzajw kosztw posiadaj znikomy wpyw na zmiany wartoci punktu krytycznego. 65 R. Tadeusiewicz, C. Kulik: Elementy cybernetyki ekonomicznej. Krakw: Wydawnictwo Akademii Ekonomicznej w Krakowie. 1974. s. 1984.

123

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

przedstawiane bd wraz z wartociami przedziau okrelanego mianem strefy niepewnoci. Do klasyfikacji testowej obiektw przyjte zostanie wyznaczenie punktu krytycznego jako poowy wielkoci pomidzy wartociami granicznymi.

5. Porwnawcza analiza metod rozpoznawania z nauczycielem Omwione wyej metody charakteryzuj si zrnicowanym podejciem do problemu rozpoznawania z nauczycielem. Rnice te wynikaj tak z idei dziaania samych algorytmw, jak rwnie ze statystycznych zaoe, ktrych przyjcie stanowio podstaw ich zbudowania. Rnice te prezentuje tabela 7. Zrnicowanie omwionych niej metod jest przyczyn dla ktrej koniecznym wydaje si by okrelenie efektywnoci ich zastosowania w zagadnieniu jakim jest przewidywanie zagroenia upadoci w polskich warunkach gospodarczych. Jak bowiem wykazay badania przeprowadzone na wiecie, ktrych podsumowanie zawarte jest w punkcie nastpnym, efektywno tyche modeli obok jakoci danych ilociowych jest rwnie uzaleniona od samej metody obliczeniowej.

124

Prognozowanie upadoci przedsibiorstwa Rozdzia 3: Przegld i ocena wybranych metod ilociowych wykorzystywanych w rozpoznawaniu zagroenia upadoci

Tabela 7 Porwnawcza analiza ilociowych metod przewidywania zagroenia bankructwem


Opis Analiza dyskryminacyjna (LDA) Budowa funkcji, ktrej wartoci umoliwiaj, na podstawie dokonanych porwna z wartociami rzeczywistymi, okrelenie przedziaw klasyfikujcych obiekty Logit, Probit Budowa algorytmu okrelajcego prawdopodobiestwo zajcia okrelonego zdarzenia zaklasyfikowania obiektw do rozpatrywanych populacji Sztuczne sieci neuronowe (SSN) Uczenie si rozpoznawania obiektw na podstawie informacji zawartych w prbie bdcej nauczycielem

Idea dziaania algorytmu Przyjte zaoenia statystyczne: dane badawcze,

dla obiektw z obu populacji rozkady wektorw losowych X maj dane funkcje gstoci o wielowymiarowym rozkadzie normalnym, funkcja liniowa,

posta analityczna modelu sygnay wyjciowe

nie s unormowane i mog przybiera dowolne wartoci,

zaoenie wystpowania brak zaoe co do liniowoci logarytmu postaci rozkadw danych, naturalnego ilorazu wiarygodnoci pozwala na uwolnienie si od zaoe dotyczcych postaci rozkadw w obu klasach, okrelenia wymaga funkcja jedynie architektura sieci, prawdopodobiestwa wykorzystuje dystrybuant rozkadu logistycznego (Logit) lub rozkadu unormowane w normalnego (Probit), przedziale [0, 1], unormowane w przedziale [0, 1],

Znajomo postaci funkcji (powierzchni) rozdzielajcej badane grupy Wystpowanie w brakw danych opisujcych obiekty Sposb nabywania wiedzy przez model

Zakada si wystpowanie liniowej postaci funkcji Brak zaoe co postaci funkcji Brak zaoe co postaci rozdzielajcej obiekty nalece rozdzielajcej funkcji rozdzielajcej do dwch grup Wystpienie brakw w danych opisujcych obiekty uniemoliwia dokonania prawidowe klasyfikacji obiektu Wystpienie brakw w danych opisujcych obiekty uniemoliwia dokonania prawidowej klasyfikacji obiektu Braki w danych opisujcych obiekty nie stanowi przeszkody w dokonaniu klasyfikacji obiektu Nabywanie wiedzy poprzez uczenie si i zapamitywanie poprawnych wynikw

Moliwoci modyfikacji algorytmw

Uczenie si poprzez Uczenie si poprzez znalezienie ekstremum funkcji dostosowanie parametrw pozwalajcej na okrelenie funkcji do danych tworzcych prawdopodobiestw klasyfikacji grup bdc nauczycielem obiektw W zakresie postaci przyjtych dystrybuant: rozkadu logistycznego, normalnego; w W zakresie postaci analitycznej zakresie przyjtych metod funkcji dyskryminacyjnej (np. rozwizywania rwna funkcja kwadratowa). nieliniowych (met. Newtona, quasi Newtona, Marquardta itp.).

W zakresie architektury sieci, funkcji aktywacji, funkcji bdu, algorytmy uczcego.

rdo: opracowanie wasne

125

You might also like