Professional Documents
Culture Documents
Krzysztof Dul˛eba
Nr albumu: 209203
Sierpień 2006
Oświadczenie kierujacego
˛ praca˛
Potwierdzam, że niniejsza praca została przygotowana pod moim kierunkiem i kwalifi-
kuje si˛e do przedstawienia jej w post˛epowaniu o nadanie tytułu zawodowego.
Słowa kluczowe
11.1 Matematyka
Klasyfikacja tematyczna
Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4. Eksperymenty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.1. Opis eksperymentów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.2. Wyniki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.3. Wnioski . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3
Wst˛ep
Reguły decyzyjne, podstawa wielu metod automatycznego odkrywania wiedzy, sa˛ metoda˛ reprezen-
towania obserwacji postaci „jeżeli-to”, gdzie poprzednikiem jest koniunkcja wszystkich warunków
koniecznych do zajścia nast˛epnika. Oczywiście siła wyrazu pojedynczej reguły decyzyjnej jest zni-
koma, ale przy pomocy ich zbioru (cz˛esto o strukturze drzewa) można już aproksymować dowolnie
złożone poj˛ecia.
Przybliżenie poj˛ecia konstruuje si˛e na podstawie zbioru treningowego (majacego
˛ postać tabeli,
której kolumny reprezentuja˛ atrybuty, a wiersze to obiekty), z jednej strony starajac
˛ si˛e dobrze opisać
go wynikowymi regułami, a z drugiej strony uniknajac ˛ nadmiernego dopasowania, które utrudnia
późniejsze stosowanie reguł dla nowych przypadków.
W praktyce dane, na których operuja˛ klasyfikatory, cz˛esto sa˛ niekompletne. Typowe algorytmy
konstrukcji zbioru reguł wymagaja˛ jednak kompletnych danych i przy prostych schematach radzenia
sobie z brakami zwracaja˛ wyniki o jakości poniżej oczekiwań.
W pracy zostana˛ omówione i sprawdzone eksperymentalnie rozmaite podejścia stosowane do
rozwiazania
˛ tego problemu.
5
Rozdział 1
Definicja 1 System informacyjny jest to para A = (U, A), gdzie U jest skończonym, niepustym
zbiorem zwanym uniwersum (jego elementy nazywamy obiektami), zaś A jest skończonym, niepustym
zbiorem atrybutów (cech), gdzie atrybutem nazywamy funkcj˛e a : U → VAa przyporzadkowuj
˛ ac
˛ a˛
a
obiektom z uniwersum U wartości ze zbioru (dziedziny) VA .
Relacja nierozróżnialności to po prostu relacja równoważności, która utożsamia obiekty o tych sa-
mych wartościach atrybutów na zbiorze B. Jeśli dla uniwersum obiektów znamy tylko wartości atry-
butów ze zbioru B, to obiekty, do których rozróżnienia potrzeba cechy spoza B, staja˛ si˛e nierozróż-
nialne.
Teoria zbiorów przybliżonych idzie znacznie dalej (patrz np. [2]), lecz nam wystarcza˛ tylko po-
wyższe definicje, przytoczone w charakterze ilustracji.
Do systemu informacyjnego (U, A) dodamy specjalny atrybut o skończonej dziedzinie d : U →
D zwany decyzja.˛ Decyzja wyznacza nam naturalny podział uniwersum na klasy decyzyjne (zbiory
obiektów o tej samej wartości decyzji).
1.2. Hipotezy
Definicja 3 Hipoteza˛ nazywamy funkcj˛e decyzyjna˛ h : X → D, gdzie X to skończony zbiór obiektów.
Celem klasyfikacji jest znalezienie na podstawie skończonego zbioru przykładów (obiektów wraz ze
znana˛ wartościa˛ decyzji) hipotezy h możliwie dobrze klasyfikujacej
˛ obiekty.
7
czyli jest to relatywna wielkość zbioru przypadków poprawnie sklasyfikowanych w stosunku do wiel-
kości zbioru wszystkich przypadków.
Definicja 5 Bład
˛ hipotezy to relatywna wielkość zbioru przypadków bł˛ednie sklasyfikowanych:
Formuła atomowa pozwala nam ograniczyć si˛e do zbioru obiektów o ustalonej wartości wybranego
atrybutu.
Definicja 7 Formuła jest to napis postaci α, ¬α, (α ∨ β), (α ∧ β), gdzie α, β to formuły lub formuły
atomowe.
W szczególności formuła (¬α ∨ β), czyli po prostu (α → β), pozwala nam wyrażać obserwacje o
zależnościach mi˛edzy atrybutami (wliczajac
˛ w to atrybut decyzyjny).
Poj˛ecie reguły decyzyjnej zaw˛ezimy w dalszej cz˛eści rozważań do przypadku, gdy cz˛eść warunkowa
(α) zawiera formuły atomowe zbudowane wyłacznie
˛ z atrybutów warunkowych, zaś wniosek (β) jest
formuła˛ atomowa˛ atrybutu decyzyjnego.
Definicja 9 Wsparciem reguły decyzyjnej r nazywamy stosunek |V|V|| wielkości zbioru przypadków
r
pasujacych
˛ do cz˛eści warunkowej reguły do wielkości zbioru wszystkich przypadków.
Definicja 10 Testem atrybutów nazywamy dowolna˛ funkcj˛e t(x) : Va1 × Va2 × . . . × Vai → E z
podzbioru zbioru atrybutów w zbiór skończony.
Definicja 11 Drzewo decyzyjne jest to ukorzeniona struktura drzewiasta, w której każdy wierzcho-
łek wewn˛etrzny zawiera test atrybutów o wartościach w poddrzewach tego wierzchołka, zaś liście
zawieraja˛ wartości decyzji.
Istota˛ działania drzewa decyzyjnego jest dzielenie obiektów na coraz drobniejsze klasy na podsta-
wie testów atrybutów – tak długo, aż b˛edzie możliwe przypisanie wszystkim rozdrobnionym kla-
som obiektów wspólnej decyzji. Klasyfikowanie obiektu sprowadza si˛e do przechodzenia drzewa, w
każdym kroku wybierajac ˛ gałaź,
˛ która˛ wyznacza wynik testu atrybutu w danym wierzchołku, aż do
osiagni˛
˛ ecia decyzji w liściu.
8
Przy budowie drzewa decyzyjnego kluczowym parametrem jest jego rozmiar. Z jednej strony małe
drzewa, choć efektywne pami˛eciowo i dajace
˛ szybka˛ odpowiedź, nie uwzgl˛edniaja˛ całego bogactwa
analizowanych danych. Skrajnym przypadkiem jest puste drzewo, które nic nie wnosi.
Z drugiej strony duże drzewa, nawet jeśli bardzo dokładnie opisuja˛ zbiór treningowy, na którego
podstawie zostały zbudowane, to jednak moga˛ sobie źle radzić na nowych przypadkach testowych,
z uwagi na nadmierne dopasowanie do danych treningowych. Skrajnym przypadkiem jest wypisa-
nie wszystkich obiektów treningowych jako testów, co nie pozwoli sklasyfikować żadnego nowego
obiektu.
1.5. Brakujace
˛ wartości atrybutów
Drzewa decyzyjne, z uwagi na konstrukcj˛e i zasad˛e działania wymagaja,˛ by atrybuty były w peł-
ni określonymi funkcjami. Dla wielu zagadnień zgromadzenie kompletnych danych jest trudne lub
nawet niemożliwe. Przykładowe przyczyny wyst˛epowania brakujacych
˛ wartości to:
• bł˛edy ludzkie;
• brak stosowalności atrybutu (numer PESEL pacjenta gdy jest on obcokrajowcem, zwierzchnik
prezesa);
Standardowe metody tworzenia reguł i drzew decyzyjnych nie przewiduja˛ możliwości wykorzystywa-
nia brakujacych
˛ wartości. Brakujaca
˛ wartość zostaje zastapiona
˛ wartościa˛ spoza dziedziny (NULL).
Jeśli liczba wystapień
˛ NULL-i stanie si˛e znaczaca,
˛ reguły i drzewa zaczna˛ intensywnie wykorzysty-
wać t˛e wartość w cz˛eści warunkowej. W takiej sytuacji bardzo różne obiekty staja˛ si˛e sobie bliższe
poprzez wspólny brak wartości pewnego atrybutu, a obiekty bliskie oddalaja˛ si˛e od siebie, gdy war-
tość jednego z atrybutów jednego z nich zostanie zastapiona
˛ NULL-em. Prowadzi to zazwyczaj do
znacznego spadku jakości reguł.
W niniejszej pracy zostana˛ omówione metody budowy drzew decyzyjnych w sytuacji, gdy z uwa-
gi na duża˛ liczb˛e brakujacych
˛ wartości standardowe algorytmy budowy drzew przestaja˛ być skutecz-
ne.
9
Rozdział 2
Uzupełnianie brakujacych
˛ atrybutów
11
tych, które według wybranej statystyki i tak już dominowały), osłabienia różnorodności danych i do
nadmiernego dopasowania do nich budowanych reguł (ang. „over-fitting”).
12
2.5. Metoda najbliższych sasiadów
˛
Szczególna˛ postacia˛ wnioskowania z pełnych danych zawartych w tabeli jest metoda najbliższych sa- ˛
siadów. Zamiast operować na kolumnach (atrybutach), operować b˛edziemy na wierszach (obiektach).
Dla każdego obiektu o niekompletnym opisie szukamy pewnej liczby obiektów leżacych ˛ jak najbli-
żej (wzgl˛edem pewnej funkcji odległości), o znanej wartości uzupełnianego atrybutu. Brak zostanie
uzupełniony wartościa˛ otrzymana˛ jako wynik głosowania wyróżnionych sasiadów
˛ (których liczba
głosów może zależeć od odległości).
Wybór funkcji odległości jest bardzo istotny. Obserwacje, którymi można si˛e kierować, to:
2. jeśli NULL 6= ai (x) 6= ai (y) 6= NULL, to obiekty x i y dość znacznie różnia˛ si˛e na atrybucie
ai , choć zależy to od konkretnych wartości ai (x) i ai (y).
3. jeśli ai (x) 6= ai (y) = NULL, to obiekty x i y stosunkowo nieznacznie różnia˛ si˛e na atrybucie
ai ;
4. jeśli ai (x) = ai (y) = NULL, to obiekty x i y stosunkowo nieznacznie różnia˛ si˛e na atrybucie
ai ;
Zauważmy, że z uwagi na punkt (4) stosowana funkcja nie b˛edzie prawdziwa˛ odległościa,˛ jednak
praktyczne wzgl˛edy przeważaja˛ i obiektów o nieznanych wartościach atrybutów nie należy utożsa-
miać.
Każdorazowe znajdywanie najbliższych sasiadów,
˛ w przypadku znacznej ilości danych, może
być zbyt kosztowne. Można to rozwiazać
˛ rozpatrujac,
˛ zamiast pełnej tabeli, tylko jej niezbyt duży,
reprezentatywny podzbiór.
Innym pomysłem jest zbudowanie struktury najbliższych sasiadów
˛ w pierwszym kroku i wyko-
rzystywanie jej za każdym razem. Jest to jednak technicznie trudne, a sasiedzi
˛ znajdowani w ten
sposób cz˛esto b˛eda˛ mieli braki w tych samych miejscach, co rozpatrywany obiekt, przez co b˛eda˛
bezużyteczni.
Mimo tych zastrzeżeń metoda najbliższych sasiadów
˛ jest dość obiecujaca
˛ i skuteczna, o ile czas
przetwarzania danych nie jest krytycznym ograniczeniem.
13
Rozdział 3
15
Majac˛ zadany podzbiór obiektów możemy wyznaczyć ich schemat wypełniania, czyli maksymalny
wzorzec, spełniany przez wszystkie obiekty ze zbioru. Podobnie znajac ˛ wzorzec możemy wyznaczyć
wszystkie obiekty ze zbioru treningowego, które go spełniaja.˛ Liczba tych obiektów to wysokość
wzorca, a liczba deskryptorów wchodzacych
˛ w skład wzorca to jego szerokość.
Zamiast mówić o podtabelach, możemy mówić o wzorcach rozumiejac, ˛ że odpowiada mu podta-
bela wszystkich obiektów, które go spełniaja,˛ obci˛eta do jego deskryptorów.
3.1.3. Podział
Podział polega na wybraniu takich wzorców, by ich podtabele miały odpowiednie własności zgodnie
z pewnym kryterium (które powinno mierzyć, czy dla podtabeli da si˛e zbudować skuteczne regu-
ły decyzyjne). Wymaga si˛e ponadto, by podtabele odpowiadajace ˛ wzorcom pokrywały razem cała˛
poczatkow
˛ a˛ tabel˛e, z wyjatkiem
˛ brakujacych
˛ wartości.
Dla wi˛ekszości kryteriów jest to problem trudny. W praktyce rozwiazuje
˛ si˛e go poprzez zachłanny
wybieranie najlepszego wzorca aż do pokrycia całej tabeli, przy czym komórki tabeli raz pokryte
przez pewien wzorzec nie wpływaja˛ już na przebieg kolejnych iteracji.
Niech t b˛edzie wzorcem. Przez w(t) rozumieć b˛edziemy szerokość wzorca, a przez h(t) jego
wysokość.
1. Kryterium w(t) + h(t): jest to przykład prostego kryterium, które wybiera zupełnie złe podta-
bele. Uzasadnienie jest takie, że trudno jest skonstruować dobre reguły decyzyjne dla podtabeli
z jednym atrybutem i wieloma przykładami, podobnie jak dla podtabeli z wieloma atrybutami
i jednym przykładem, co nie jest uwzgl˛edniane przez kryterium.
Okazuje si˛e, że inne szybko optymalizowalne kryteria również słabo sobie radza.˛
2. Kryterium w(t)·h(t): jest to inne proste kryterium, które lepiej przybliża ilość informacji, która
b˛edzie dost˛epna przy budowaniu reguł decyzyjnych. Kryterium szczególnie promuje kwadrato-
we podtabele, które oczywiście maksymalizuja˛ wartość kryterium spośród wszystkich podtabel
o tym samym obwodzie.
Mimo prostoty kryterium, znalezienie wzorca który je maksymalizuje jest problemem PTIME-
zupełnym. W praktyce stosuje si˛e algorytmy genetyczne.
4. Dalsze uogólnienia wynikaja˛ z teorii zbiorów przybliżonych i uwzgl˛edniaja˛ np. średnia˛ zawar-
tość informacji w klasach nierozróżnialności.
Znajac
˛ wzorce, reguły decyzyjne generuje si˛e dla każdego z nich z osobna, stosujac
˛ jeden z wielu
dobrze znanych algorytmów (np. CN2).
3.1.4. Synteza
Pierwszym krokiem łaczenia
˛ reguł pochodzacych
˛ z różnych podtablic w jeden zbiór jest ich skracanie.
Skracanie polega na usuwaniu zb˛ednych lub niewiele wnoszacych ˛ deskryptorów z warunkowej cz˛eści
reguły. Dzi˛eki temu reguły zyskuja˛ na ogólności, choć traca˛ na dokładności. To, jak bardzo można
zmniejszyć jakość reguł, zależy od progów przyj˛etych dla rozważanego typu problemu. Na pierwszy
rzut oka skracanie zwi˛eksza liczb˛e reguł: z reguły (a1 (x) = 3 ∧ a2 (x) = 1 ∧ a4 (x) = 1, poprzez
16
usuwanie deskryptorów a1 (x) = 3, a2 (x) = 1 i a4 (x) = 1 otrzymamy trzy nowe reguły: (a2 (x) =
1 ∧ a4 (x) = 1), (a1 (x) = 3 ∧ a4 (x) = 1) oraz (a1 (x) = 3 ∧ a2 (x) = 1).
Z drugiej strony wiele reguł można otrzymać na wiele sposobów (na przykład reguła (a1 (x) =
3 ∧ a2 (x) = 1) mogła powstać jako skrócenie reguły (a1 (x) = 3 ∧ a2 (x) = 1 ∧ a3 (x) = 4)
o deskryptor a3 (x) = 4). W praktyce obserwuje si˛e, że liczba reguł maleje liniowo z przyj˛etym
progiem dokładności reguł.
Scalanie reguł odbywa si˛e na sumie zbiorów otrzymanych do tej pory reguł. Przyjmuje si˛e, że
dwie łaczone
˛ reguły powinny należeć do tej samej klasy decyzyjnej. Ponadto wynikiem nie musza˛
być reguły, dopuszczamy również reguły uogólnione. Reguła uogólniona to reguła, której cz˛eść wa-
runkowa składa si˛e z koniunkcji alternatyw selektorów.
Na przykład reguła (a1 (x) = 3∧(a2 (x) = 1∨a2 (x) = 2)) jest wynikiem scalenia reguł (a1 (x) =
3∧a2 (x) = 1) oraz (a1 (x) = 3∧a2 (x) = 2). W tym przykładzie reguła uogólniona wyraża to samo,
co obie reguły decyzyjne razem wzi˛ete. Możliwe sa˛ jednak scalenia postaci (a1 (x) = 3 ∧ a2 (x) =
1), (a1 (x) = 2 ∧ a2 (x) = 7) → ((a1 (x) = 3 ∨ a2 (x) = 2) ∧ (a2 (x) = 1 ∨ a2 (x) = 7)). W tej
sytuacji cz˛eść warunkowa reguły uogólnionej pasuje do wi˛ekszej liczby obiektów, niżby pasowały
obie reguły proste wzi˛ete jako zbiór. Prowadzi to do zwi˛ekszenia ogólności, być może również do
spadku dokładności. Należy scalać tylko reguły o bardzo podobnej budowie, nie bardziej odległe
strukturalnie niż wynosi wartość ustalonego progu.
3.2. Metoda EM
Metoda EM (ang. „Expectation-Maximization”) służy do wyznaczania najbardziej prawdopodobnych
parametrów modelu probabilistycznego. Dwa kroki, E i M, wykonywane sa˛ naprzemiennie w p˛etli.
W kroku E parametry za parametry ukryte modelu przyjmuje si˛e ich zaobserwowane wartości (np.
zamiast prawdopodobieństw – cz˛estości). W kroku M oblicza si˛e najbardziej prawdopodobne warto-
ści parametrów modelu używajac ˛ wartości parametrów ukrytych wyznaczonych w poprzedzajacym ˛
kroku E. W kolejnym kroku E parametry ukryte wylicza si˛e na nowo, wykorzystujac ˛ poprawione
wartości parametrów modelu.
W pracy [7] zaproponowano interesujace˛ i bardzo naturalne rozszerzenie do tej metody. Brakujace˛
wartości atrybutów zostaja˛ właczone
˛ do ukrytej cz˛eści modelu. Dzi˛eki takiemu podejściu w każdym
kroku za brakujace
˛ wartości zostaja˛ niejawnie podstawione ich najlepsze przybliżenia.
17
Rozdział 4
Eksperymenty
19
4.2. Wyniki
Poniższa tabela prezentuje uzyskane dokładność dla każdej z metod na poszczególnych zestawach
danych:
NULL MF MFD DIST NGH D3 RJ
att 0.561 0.543 0.548 0.552 0.556 0.595
edu 0.437 0.412 0.474 0.424 0.424 0.542
hco 0.791 0.802 0.797 0.776 0.812 0.839
hyp 0.984 0.978 0.971 0.981 0.978 0.953
smo2 0.529 0.530 0.524 0.550 0.537 0.687
avg 0.660 0.653 0.663 0.657 0.661 0.723
4.3. Wnioski
Z przeprowadzonych eksperymentów płynie kilka ciekawych wniosków.
Współczesne systemy generowania reguł osiagn˛ ˛ eły bardzo wysoka˛ sprawność w radzeniu sobie
z brakujacymi
˛ wartościami. Uwagi z cz˛eści teoretycznej, odnoszace˛ si˛e do standardowych algoryt-
mów typu CN2, wydaja˛ si˛e już nie stosować. Reguły generowane przez RSES sa˛ bardzo ogólne i
dobrze sprawdzaja˛ si˛e na nowych przypadkach, również takich z brakujacymi˛ wartościami. Co cieka-
we, RSES „rozumie” wartość NULL i traktuje ja˛ specjalnie, a nie jak jeszcze jeden element dziedziny.
Osobne testy, które omijały t˛e funkcjonalność RSESa (NULL został zastapiony˛ innym ciagiem
˛ zna-
ków), pokazały spadek jakości generowanych reguł o 1-2%. Pokazuje to, o ile gorsze mogłyby być
starsze systemy. Szczegółowe dane nie zostały umieszczone w powyższej tabeli, gdyż interesuja˛ nas
sposoby poprawiania jakości reguł, a nie celowego jej pogarszania.
Poszczególne metody prostego uzupełniania braków niewiele różnia˛ si˛e od siebie. Uzupełnianie
globalne najcz˛eściej wyst˛epujac
˛ a˛ wartościa˛ prowadzi do nieznacznego, choć zauważalnego obniżenia
jakości, pozostałe podejścia nie daja˛ zaś poprawy. Wbrew oczekiwaniom, metoda najbliższych sasia-˛
dów nie prowadzi do istotnej poprawy dokładności, jest za to niezwykle kosztowna obliczeniowo.
Na tym tle wyjatkowo
˛ dobrze prezentuja˛ si˛e rezultaty metody D3 RJ, zwłaszcza na zestawach
att, edu i smo2. Dla zestawów hco i hyp D3 RJ bardzo wydłuża czas obliczeń, nie daje zaś żadnych
profitów pod wzgl˛edem jakości. Dla wszystkich zestawów danych metoda D3 RJ generuje krótsze,
ogólniejsze i mniej liczne reguły. Jeśli jest to istotnym czynnikiem (gdy klasyfikowana b˛edzie bardzo
duża liczba nowych obiektów), zawsze warto jest rozważyć stosowanie tej metody.
Ogólny wniosek dla generowania reguł decyzyjnych dla danych z brakujacymi ˛ wartościami jest
taki, że przy stosowaniu nowoczesnych narz˛edzi typu RSES metody dużo bardziej kosztowne obli-
czeniowo wcale nie musza˛ sobie radzić lepiej. Zawsze warto wykonać kilka eksperymentów również
na surowych danych oraz na danych uzupełnionych najcz˛estsza˛ wartościa˛ atrybutu według decyzji (co
w RSESie można osiagn ˛ ać
˛ kilkoma klikni˛eciami), gdyż w zależności od natury obiektów, o których
chcemy wnioskować, możemy nawet nie zauważyć różnicy w jakości generowanych reguł.
20
Bibliografia
[1] T.M. Mitchell. Machine Learning. The McGraw-Hill Companies, Inc., New York, NY, 1997.
[2] Jan G. Bazan. Metody wnioskowań aproksymacyjnych dla syntezy algorytmów decyzyjnych. Praca
doktorska, Uniwersytet Warszawski, Wydział Matematyki, Informatyki i Mechaniki, 1998.
[3] Stuart Russell and Peter Norvig. Artificial Intelligence: A Modern Approach, 2nd edition. Prentice
Hall, Upper Saddle River, NJ, 2003.
[4] Rafał Latkowski. Metody wnioskowania w oparciu o niekompletny opis obiektów. Praca magi-
sterska, Uniwersytet Warszawski, Wydział Matematyki, Informatyki i Mechaniki, 2001.
[5] Rafał Latkowski and Mikołaj Mikołajczyk. Data Decomposition and Decision Rule Joining for
Classification of Data with Missing Values. In J.F. Peters et al., editors, Transactions on Rough
Sets I, LNCS 3100, pages 299-320. Springer-Verlag, Berlin Heidelberg, 2004.
[6] P. Clark and T. Nibblet. The CN2 Induction Algorithm. In Machine Learning 3, pages 261-283.
Springer-Verlag, 1989.
[7] Zoubin Ghahramani and Michael I. Jordan. Supervised learning from incomplete data via an EM
approach. In J.D. Cowan, G. Tesauro, J. Alspector (editors), Advances in Neural Information
Processing Systems, Volume 6. Morgan Kaufmann, 1994.
[8] Sholom M. Weiss and Nitin Indurkhya. Lightweight Rule Induction. In Proceedings of the Inter-
national Conference on Machine Learning ICML 2000, 2000.
[9] Jan Bazan and Marcin Szczuka. RSES and RSESlib – a collection of tools for rough set computa-
tions. In Wojciech Ziarko and Yiyu Yao, editors, Second International Conference on Rough Sets
and Current Trends in Computing RSCTC, volume 2005 of Lecture Notes in Artificial Intelligence,
pages 106-113, Banff, Canada, 2001. Springer-Verlag.
21