You are on page 1of 23

Uniwersytet Warszawski

Wydział Matematyki, Informatyki i Mechaniki

Krzysztof Dul˛eba
Nr albumu: 209203

Wybrane metody generowania zbiorów


reguł decyzyjnych dla obiektów z
niekompletnym opisem.
Praca licencjacka
na kierunku MATEMATYKA
w zakresie MATEMATYKA

Praca wykonana pod kierunkiem


dr Hung Son Nguyen
Instytut Matematyki

Sierpień 2006
Oświadczenie kierujacego
˛ praca˛

Potwierdzam, że niniejsza praca została przygotowana pod moim kierunkiem i kwalifi-
kuje si˛e do przedstawienia jej w post˛epowaniu o nadanie tytułu zawodowego.

Data Podpis kierujacego


˛ praca˛

Oświadczenie autora (autorów) pracy

Świadom odpowiedzialności prawnej oświadczam, że niniejsza praca dyplomowa została


napisana przeze mnie samodzielnie i nie zawiera treści uzyskanych w sposób niezgodny z
obowiazuj
˛ acymi
˛ przepisami.
Oświadczam również, że przedstawiona praca nie była wcześniej przedmiotem procedur
zwiazanych
˛ z uzyskaniem tytułu zawodowego w wyższej uczelni.
Oświadczam ponadto, że niniejsza wersja pracy jest identyczna z załaczon
˛ a˛ wersja˛ elek-
troniczna.˛

Data Podpis autora (autorów) pracy


Streszczenie

W niniejszej pracy omawiamy problem wnioskowania z niekompletnych danych. Szczególnie b˛eda˛


nas interesowały algorytmy budowy zbiorów reguł decyzyjnych.

Słowa kluczowe

Systemy decyzyjne, reguły decyzyjne, brakujace


˛ wartości atrybutów

Dziedzina pracy (kody wg programu Socrates-Erasmus)

11.1 Matematyka

Klasyfikacja tematyczna

68. Computer science.


68T. Artificial intelligence.
68T37. Reasoning under uncertainty.

Tytuł pracy w j˛ezyku angielskim

Selected methods of generating decision rules from incomplete data.


Spis treści

Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1. Podstawowe poj˛ecia i definicje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7


1.1. Zbiory przybliżone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2. Hipotezy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3. Reguły decyzyjne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4. Drzewa decyzyjne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5. Brakujace
˛ wartości atrybutów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2. Uzupełnianie brakujacych˛ atrybutów . . . . . . . . . . . . . . . . . . . . . . . . . . . 11


2.1. Wartość NULL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2. Średnia wartość . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3. Uzupełnianie z rozkładu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4. Wnioskowanie z pozostałych atrybutów . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5. Metoda najbliższych sasiadów
˛ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3. Wnioskowanie bez uzupełniania brakujacych˛ atrybutów . . . . . . . . . . . . . . . . 15


3.1. Metoda podziału (D3 RJ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.1. Ogólny opis metody . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.2. Wzorce wypełniania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.3. Podział . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.1.4. Synteza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2. Metoda EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3. Lightweight Rule Induction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4. Eksperymenty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.1. Opis eksperymentów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.2. Wyniki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.3. Wnioski . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3
Wst˛ep

Reguły decyzyjne, podstawa wielu metod automatycznego odkrywania wiedzy, sa˛ metoda˛ reprezen-
towania obserwacji postaci „jeżeli-to”, gdzie poprzednikiem jest koniunkcja wszystkich warunków
koniecznych do zajścia nast˛epnika. Oczywiście siła wyrazu pojedynczej reguły decyzyjnej jest zni-
koma, ale przy pomocy ich zbioru (cz˛esto o strukturze drzewa) można już aproksymować dowolnie
złożone poj˛ecia.
Przybliżenie poj˛ecia konstruuje si˛e na podstawie zbioru treningowego (majacego
˛ postać tabeli,
której kolumny reprezentuja˛ atrybuty, a wiersze to obiekty), z jednej strony starajac
˛ si˛e dobrze opisać
go wynikowymi regułami, a z drugiej strony uniknajac ˛ nadmiernego dopasowania, które utrudnia
późniejsze stosowanie reguł dla nowych przypadków.
W praktyce dane, na których operuja˛ klasyfikatory, cz˛esto sa˛ niekompletne. Typowe algorytmy
konstrukcji zbioru reguł wymagaja˛ jednak kompletnych danych i przy prostych schematach radzenia
sobie z brakami zwracaja˛ wyniki o jakości poniżej oczekiwań.
W pracy zostana˛ omówione i sprawdzone eksperymentalnie rozmaite podejścia stosowane do
rozwiazania
˛ tego problemu.

5
Rozdział 1

Podstawowe poj˛ecia i definicje

1.1. Zbiory przybliżone


Teoretyczna˛ podstawa˛ naszych rozważań jest teoria zbiorów przybliżonych, zaproponowana w latach
80-tych przez profesora Zdzisława Pawlaka.

Definicja 1 System informacyjny jest to para A = (U, A), gdzie U jest skończonym, niepustym
zbiorem zwanym uniwersum (jego elementy nazywamy obiektami), zaś A jest skończonym, niepustym
zbiorem atrybutów (cech), gdzie atrybutem nazywamy funkcj˛e a : U → VAa przyporzadkowuj
˛ ac
˛ a˛
a
obiektom z uniwersum U wartości ze zbioru (dziedziny) VA .

Systemy informacyjne wygodnie jest reprezentować graficznie w postaci tabel.

Definicja 2 Relacja nierozróżnialności INDA (B) ⊂ U × U generowana przez zbiór atrybutów B ⊂


A na systemie informacyjnym A = (U, A), zdefiniowana jest nast˛epujaco:
˛
INDA (B) = {(x, y) ∈ U × U : ∀a ∈ B : a(x) = a(y)} . (1.1)

Relacja nierozróżnialności to po prostu relacja równoważności, która utożsamia obiekty o tych sa-
mych wartościach atrybutów na zbiorze B. Jeśli dla uniwersum obiektów znamy tylko wartości atry-
butów ze zbioru B, to obiekty, do których rozróżnienia potrzeba cechy spoza B, staja˛ si˛e nierozróż-
nialne.
Teoria zbiorów przybliżonych idzie znacznie dalej (patrz np. [2]), lecz nam wystarcza˛ tylko po-
wyższe definicje, przytoczone w charakterze ilustracji.
Do systemu informacyjnego (U, A) dodamy specjalny atrybut o skończonej dziedzinie d : U →
D zwany decyzja.˛ Decyzja wyznacza nam naturalny podział uniwersum na klasy decyzyjne (zbiory
obiektów o tej samej wartości decyzji).

1.2. Hipotezy
Definicja 3 Hipoteza˛ nazywamy funkcj˛e decyzyjna˛ h : X → D, gdzie X to skończony zbiór obiektów.

Celem klasyfikacji jest znalezienie na podstawie skończonego zbioru przykładów (obiektów wraz ze
znana˛ wartościa˛ decyzji) hipotezy h możliwie dobrze klasyfikujacej
˛ obiekty.

Definicja 4 Dokładność hipotezy h na zbiorze przykładów V to


|{v ∈ V : h(v) = d(v)}|
acc(h, V) = (1.2)
|V|

7
czyli jest to relatywna wielkość zbioru przypadków poprawnie sklasyfikowanych w stosunku do wiel-
kości zbioru wszystkich przypadków.

Definicja 5 Bład
˛ hipotezy to relatywna wielkość zbioru przypadków bł˛ednie sklasyfikowanych:

|{v ∈ V : h(v) 6= d(v)}|


err(h, V) = (1.3)
|V|

1.3. Reguły decyzyjne


Definicja 6 Formuła atomowa(selektor) jest to napis postaci (a, v), gdzie a ∈ A i v ∈ Va . Obiekt x
spełnia formuł˛e (a, v), gdy a(x) = v.

Formuła atomowa pozwala nam ograniczyć si˛e do zbioru obiektów o ustalonej wartości wybranego
atrybutu.

Definicja 7 Formuła jest to napis postaci α, ¬α, (α ∨ β), (α ∧ β), gdzie α, β to formuły lub formuły
atomowe.

W szczególności formuła (¬α ∨ β), czyli po prostu (α → β), pozwala nam wyrażać obserwacje o
zależnościach mi˛edzy atrybutami (wliczajac
˛ w to atrybut decyzyjny).

Definicja 8 Reguła decyzyjna jest to dowolna formuła postaci (α → β).

Poj˛ecie reguły decyzyjnej zaw˛ezimy w dalszej cz˛eści rozważań do przypadku, gdy cz˛eść warunkowa
(α) zawiera formuły atomowe zbudowane wyłacznie
˛ z atrybutów warunkowych, zaś wniosek (β) jest
formuła˛ atomowa˛ atrybutu decyzyjnego.

Definicja 9 Wsparciem reguły decyzyjnej r nazywamy stosunek |V|V|| wielkości zbioru przypadków
r

pasujacych
˛ do cz˛eści warunkowej reguły do wielkości zbioru wszystkich przypadków.

1.4. Drzewa decyzyjne


Drzewa reguł decyzyjnych to jedna z podstawowych struktur używanych do rozwiazywania
˛ proble-
mów klasyfikacyjnych.

Definicja 10 Testem atrybutów nazywamy dowolna˛ funkcj˛e t(x) : Va1 × Va2 × . . . × Vai → E z
podzbioru zbioru atrybutów w zbiór skończony.

Test pozwala podzielić obiekty na |E| klas na podstawie wyników testu.

Definicja 11 Drzewo decyzyjne jest to ukorzeniona struktura drzewiasta, w której każdy wierzcho-
łek wewn˛etrzny zawiera test atrybutów o wartościach w poddrzewach tego wierzchołka, zaś liście
zawieraja˛ wartości decyzji.

Istota˛ działania drzewa decyzyjnego jest dzielenie obiektów na coraz drobniejsze klasy na podsta-
wie testów atrybutów – tak długo, aż b˛edzie możliwe przypisanie wszystkim rozdrobnionym kla-
som obiektów wspólnej decyzji. Klasyfikowanie obiektu sprowadza si˛e do przechodzenia drzewa, w
każdym kroku wybierajac ˛ gałaź,
˛ która˛ wyznacza wynik testu atrybutu w danym wierzchołku, aż do
osiagni˛
˛ ecia decyzji w liściu.

8
Przy budowie drzewa decyzyjnego kluczowym parametrem jest jego rozmiar. Z jednej strony małe
drzewa, choć efektywne pami˛eciowo i dajace
˛ szybka˛ odpowiedź, nie uwzgl˛edniaja˛ całego bogactwa
analizowanych danych. Skrajnym przypadkiem jest puste drzewo, które nic nie wnosi.
Z drugiej strony duże drzewa, nawet jeśli bardzo dokładnie opisuja˛ zbiór treningowy, na którego
podstawie zostały zbudowane, to jednak moga˛ sobie źle radzić na nowych przypadkach testowych,
z uwagi na nadmierne dopasowanie do danych treningowych. Skrajnym przypadkiem jest wypisa-
nie wszystkich obiektów treningowych jako testów, co nie pozwoli sklasyfikować żadnego nowego
obiektu.

1.5. Brakujace
˛ wartości atrybutów
Drzewa decyzyjne, z uwagi na konstrukcj˛e i zasad˛e działania wymagaja,˛ by atrybuty były w peł-
ni określonymi funkcjami. Dla wielu zagadnień zgromadzenie kompletnych danych jest trudne lub
nawet niemożliwe. Przykładowe przyczyny wyst˛epowania brakujacych
˛ wartości to:

• bł˛edy ludzkie;

• scalanie danych pochodzacych


˛ z różnych źródeł i zbieranych różnymi metodami;

• brak stosowalności atrybutu (numer PESEL pacjenta gdy jest on obcokrajowcem, zwierzchnik
prezesa);

• fizyczna niepoznawalność (zasada nieoznaczoności Heisenberga);

• praktyczna niepoznawalność (zbyt kosztowne badania, pacjent nietolerujacy


˛ danego typu te-
stów);

• niedoskonałość aparatury pomiarowej (ograniczony zakres mierzonych wartości, bł˛edy pomia-


ru);

• możliwości prostego wywnioskowania przybliżonej, dostatecznie dokładnej wartości atrybutu.

Standardowe metody tworzenia reguł i drzew decyzyjnych nie przewiduja˛ możliwości wykorzystywa-
nia brakujacych
˛ wartości. Brakujaca
˛ wartość zostaje zastapiona
˛ wartościa˛ spoza dziedziny (NULL).
Jeśli liczba wystapień
˛ NULL-i stanie si˛e znaczaca,
˛ reguły i drzewa zaczna˛ intensywnie wykorzysty-
wać t˛e wartość w cz˛eści warunkowej. W takiej sytuacji bardzo różne obiekty staja˛ si˛e sobie bliższe
poprzez wspólny brak wartości pewnego atrybutu, a obiekty bliskie oddalaja˛ si˛e od siebie, gdy war-
tość jednego z atrybutów jednego z nich zostanie zastapiona
˛ NULL-em. Prowadzi to zazwyczaj do
znacznego spadku jakości reguł.
W niniejszej pracy zostana˛ omówione metody budowy drzew decyzyjnych w sytuacji, gdy z uwa-
gi na duża˛ liczb˛e brakujacych
˛ wartości standardowe algorytmy budowy drzew przestaja˛ być skutecz-
ne.

9
Rozdział 2

Uzupełnianie brakujacych
˛ atrybutów

Uzupełnianie jest naturalnym sposobem radzenia sobie z brakujacymi


˛ wartościami. Należy zauważyć,
że uzupełnianie nie zwi˛eksza zawartości informacji w danych, gdyż wartości wstawiane na miejsce
braków zawsze sa˛ sztuczne i wynikaja˛ z danych już posiadanych. Uzupełnianie pozwala jednak lepiej
wykorzystać algorytmy tworzenia reguł decyzyjnych, które nie potrafia˛ stwierdzić „nie wiem, co tam
jest”, a zamiast tego traktuja˛ brak wartości (NULL) jako jeszcze jedna˛ wartość z dziedziny.

2.1. Wartość NULL


Używanie symbolu NULL na oznaczenie brakujacej ˛ wartości atrybutu pochodzi z teorii baz danych.
Jest to najprostsza możliwa technika radzenia sobie z brakiem wartości: niezdefiniowana wielkość
zostaje dodana do dziedziny jako specjalny, wyróżniony element.
W przypadku, gdy braków jest niewiele, jakość wnioskowania nie powinna ulec znacznemu po-
gorszeniu. Cz˛esto jednak niezb˛edne jest zachowanie wiedzy o tym, że brakujace
˛ wartości różnia˛ si˛e
znacznie od innych elementów dziedziny.
Standardowe algorytmy budowania drzew i reguł decyzyjnych używaja˛ tej techniki automatycznie
w razie napotkania niekompletnych obiektów.

2.2. Średnia wartość


Średnia wartość jest przykładem uzupełniania globalnego. Uzupełnianie globalne polega na wybraniu
pewnej statystyki i obliczeniu jej wartości na posiadanym zbiorze danych, a nast˛epnie wypełnieniu
braków ta˛ wartościa.˛ Stosowane statystyki to właśnie wartość średnia i mediana dla atrybutów upo-
rzadkowanych
˛ lub liczbowych oraz najcz˛eściej wyst˛epujaca
˛ wartość dla pozostałych.
Metoda ta jest szybka i wymaga tylko jednokrotnego przegladni˛ ˛ ecia danych (choć zależy to oczy-
wiście od wybranej statystyki). Wyniki otrzymane w ten sposób sa˛ przyzwoite, choć wyraźnie słabsze
od tych uzyskanych w bardziej wyrafinowany sposób. Podstawowym problemem jest znaczne zabu-
rzenie rozkładu wartości atrybutu na korzyść pojedynczego elementu.
Inna˛ słabościa˛ jest operowanie na pojedynczym atrybucie, bez uwzgl˛ednienia jego zwiazku˛ z po-
zostałymi. Najważniejszym z pozostałych atrybutów, jeśli wyst˛epuje, jest atrybut decyzyjny. Wtedy
uzupełnianie globalne może być zastapione
˛ uzupełnianiem lokalnym wzgl˛edem decyzji, które spro-
wadza si˛e do podziału danych na klasy o wspólnej wartości decyzji i rozpatrywania ich oddzielnie.
Dla każdej z klas wylicza si˛e wybrana˛ statystyk˛e i uzupełnia si˛e nia˛ braki.
Ta prosta zmiana nie wpływa znaczaco ˛ na czas przetwarzania danych, a pozwala wyraźnie po-
prawić wyniki. W dalszym ciagu ˛ prowadzi niestety to wzmocnienia już posiadanych informacji (i to

11
tych, które według wybranej statystyki i tak już dominowały), osłabienia różnorodności danych i do
nadmiernego dopasowania do nich budowanych reguł (ang. „over-fitting”).

2.3. Uzupełnianie z rozkładu


Metoda uzupełniania z rozkładu jest odpowiedzia˛ na zarzuty wobec uzupełniania wobec statystyki,
które zaburzało rozkład wartości atrybutu. Opiera si˛e ona na spostrzeżeniu, że znajac
˛ opisy dostatecz-
nie wielu obiektów potrafimy dobrze aproksymować oryginalny rozkład atrybutu (a ściślej rzecz bio-
rac,
˛ parametry tego rozkładu, gdyż typ rozkładu musimy zazwyczaj wcześniej założyć). Na przykład
dla atrybutów symbolicznych możemy po prostu zliczyć jak cz˛esto poszczególne wartości wyst˛epuja,˛
a nast˛epnie założyć, że oryginalne prawdopodobieństwa ich wyst˛epowania sa˛ równe zaobserwowa-
nym cz˛estościom.
Nast˛epnie brakujace
˛ wartości uzupełniamy z rozkładu, dzi˛eki czemu nie doprowadzimy do domi-
nacji jednej wartości.
Naturalnym rozszerzeniem tej metody jest podział zbioru przykładów na klasy decyzyjne i od-
dzielne uzupełnianie z rozkładu w każdej z klas.
Można też, zamiast atrybutu decyzyjnego, zastosować inny atrybut, najbardziej skorelowany z ak-
tualnie uzupełnianym. Oba powinny być tego samego typu (numeryczne, symboliczne), gdyż inaczej
trudno jest mierzyć poziom korelacji. Jeśli tak jest, to możemy zastosować jeden z wielu znanych te-
stów statystycznych do mierzenia korelacji mi˛edzy zbiorami danych, porównujac ˛ uzupełniany atrybut
z wszystkimi pozostałymi tego samego typu, po czym wybierzemy najlepszy.
Metody uzupełniania z rozkładu radza˛ sobie bardzo dobrze w praktyce i sa˛ stosunkowo szybkie
(o ile nie musimy szukać najbardziej skorelowanego atrybutu, co prowadzi do przegladania ˛ tabeli dla
każdego z wypełnianych kolumn).

2.4. Wnioskowanie z pozostałych atrybutów


Zauważmy, że metody uzupełniania wobec statystyki (globalna i lokalna wobec decyzji) sa˛ niczym
innym, jak bardzo prostymi systemami decyzyjnymi, gdzie rol˛e atrybutu decyzyjnego gra uzupełniana
kolumna. Przypadkami treningowymi sa˛ te, dla których znamy atrybut, a testowymi sa˛ pozostałe.
Uzupełnianie globalne rozpatruje tylko uzupełniana˛ kolumn˛e (system decyzyjny wybierze najbardziej
prawdopodobna˛ wartość i przypisze ja˛ wszystkim obiektom testowym, maksymalizujac ˛ szanse na
poprawna˛ decyzj˛e), a lokalne wobec decyzji dwie.
Można to uogólnić, wziać ˛ pod uwag˛e wi˛eksza˛ liczb˛e atrybutów i zbudować bardziej wyrafino-
wany system decyzyjny, który uzupełni braki. Naturalnym kandydatem na podzbiór zbioru cech sa˛
kolumny, które nie maja˛ braków. Możemy nast˛epnie stworzyć reguły decyzyjne dla nowego problemu
i uzupełnić brakujace
˛ wartości.
Jeśli jednak wi˛ekszość kolumn ma braki, to trudno jest zadecydować, którego podzbióru atrybu-
tów należałoby użyć. Możliwych kombinacji jest wykładniczo wiele, wi˛ec pomóc może tylko r˛ecz-
na analiza zależności mi˛edzy atrybutami przez człowieka, który zdecyduje si˛e na konkretny wybór,
ewentualnie stosowanie heurystyk typu „n najbardziej skorelowanych kolumn”.
Nawet gdy podzbiór kolumn zostanie juz ustalony, koszt tej metody może być zbyt wielki, gdyż
ostateczny koszt budowy drzewa zostaje zwielokrotniony o czynnik równy liczbie uzupełnianych
kolumn. Przy wielu zagadnieniach praktycznych jest to niemożliwe do zaakceptowania, zaś zysk
jakości reguł w stosunku to prostszych i szybszych metod jest nieznaczny.

12
2.5. Metoda najbliższych sasiadów
˛
Szczególna˛ postacia˛ wnioskowania z pełnych danych zawartych w tabeli jest metoda najbliższych sa- ˛
siadów. Zamiast operować na kolumnach (atrybutach), operować b˛edziemy na wierszach (obiektach).
Dla każdego obiektu o niekompletnym opisie szukamy pewnej liczby obiektów leżacych ˛ jak najbli-
żej (wzgl˛edem pewnej funkcji odległości), o znanej wartości uzupełnianego atrybutu. Brak zostanie
uzupełniony wartościa˛ otrzymana˛ jako wynik głosowania wyróżnionych sasiadów
˛ (których liczba
głosów może zależeć od odległości).
Wybór funkcji odległości jest bardzo istotny. Obserwacje, którymi można si˛e kierować, to:

1. jeśli ai (x) = ai (y), to obiekty x i y nie różnia˛ si˛e na atrybucie ai ;

2. jeśli NULL 6= ai (x) 6= ai (y) 6= NULL, to obiekty x i y dość znacznie różnia˛ si˛e na atrybucie
ai , choć zależy to od konkretnych wartości ai (x) i ai (y).

3. jeśli ai (x) 6= ai (y) = NULL, to obiekty x i y stosunkowo nieznacznie różnia˛ si˛e na atrybucie
ai ;

4. jeśli ai (x) = ai (y) = NULL, to obiekty x i y stosunkowo nieznacznie różnia˛ si˛e na atrybucie
ai ;

5. nierówność na atrybucie decyzyjnym jest szczególnie istotna.

Zauważmy, że z uwagi na punkt (4) stosowana funkcja nie b˛edzie prawdziwa˛ odległościa,˛ jednak
praktyczne wzgl˛edy przeważaja˛ i obiektów o nieznanych wartościach atrybutów nie należy utożsa-
miać.
Każdorazowe znajdywanie najbliższych sasiadów,
˛ w przypadku znacznej ilości danych, może
być zbyt kosztowne. Można to rozwiazać
˛ rozpatrujac,
˛ zamiast pełnej tabeli, tylko jej niezbyt duży,
reprezentatywny podzbiór.
Innym pomysłem jest zbudowanie struktury najbliższych sasiadów
˛ w pierwszym kroku i wyko-
rzystywanie jej za każdym razem. Jest to jednak technicznie trudne, a sasiedzi
˛ znajdowani w ten
sposób cz˛esto b˛eda˛ mieli braki w tych samych miejscach, co rozpatrywany obiekt, przez co b˛eda˛
bezużyteczni.
Mimo tych zastrzeżeń metoda najbliższych sasiadów
˛ jest dość obiecujaca
˛ i skuteczna, o ile czas
przetwarzania danych nie jest krytycznym ograniczeniem.

13
Rozdział 3

Wnioskowanie bez uzupełniania


brakujacych
˛ atrybutów

3.1. Metoda podziału (D3 RJ)


Metoda podziału jest naturalna˛ odpowiedzia˛ na przyj˛ecie założenia, że nie można budować drzew
decyzyjnych w przypadku brakujacych
˛ atrybutów, gdy odrzuca si˛e wszelkie metody ich uzupełniania
(wartość NULL i metody bardziej zaawansowane) czy to z powodu jakości, czy ograniczeń na czas
przetwarzania. Zamiast operować na pełnej tabeli, czego robić nie możemy, zbudujemy klasyfika-
tory działajace
˛ na danych cz˛eściowych (na podtabeli), a nast˛epnie w pewien sposób uwzgl˛ednimy
rezultaty ich działania do wygenerowania ostatecznej odpowiedzi. Przez podtabel˛e rozumiemy przy
tym pewien podzbiór wierszy i kolumn oryginalnej tabeli (zarówno wiersze, jak i kolumny nie musza˛
tworzyć spójnego wycinka).

3.1.1. Ogólny opis metody


Metoda podziału zakłada wykonanie nast˛epujacych
˛ kroków: podziału i łaczenia.
˛ Skupimy si˛e tu na
3
wariancie D RJ, który jest konkretna˛ implementacja˛ ogólnego pomysłu, zaproponowanym w pracach
[4] i [5].
1. Podział.
(a) Wyznaczenie podtabel.
(b) Wygenerowanie reguł decyzyjnych dla każdej z podtabel.
2. Synteza.
(a) Modyfikacj˛e otrzymanych wcześniej reguł, by zwi˛ekszyć ich ogólność (skracanie).
(b) Łaczenie
˛ reguł w jeden zbiór, który stosuje si˛e już do pełnej tabeli.

3.1.2. Wzorce wypełniania


Definicja 12 Deskryptorem wypełniania nazywamy napis postaci a 6= ?, gdzie a ∈ A jest atry-
butem. Obiekt spełnia deskryptor, gdy a(x) 6= ?, czyli gdy obiekt ma określona˛ niepusta˛ wartość
atrybutu a.
Definicja 13 Wzorcem wypełniania nazywamy koniunkcj˛e pewnej liczby deskryptorów wypełniania.
Obiekt spełnia wzorzec wypełniania, gdy spełnia wszystkie deskryptory (czyli gdy ma określone nie-
puste wartości wszystkich atrybutów wyst˛epujacych
˛ we wzorcu).

15
Majac˛ zadany podzbiór obiektów możemy wyznaczyć ich schemat wypełniania, czyli maksymalny
wzorzec, spełniany przez wszystkie obiekty ze zbioru. Podobnie znajac ˛ wzorzec możemy wyznaczyć
wszystkie obiekty ze zbioru treningowego, które go spełniaja.˛ Liczba tych obiektów to wysokość
wzorca, a liczba deskryptorów wchodzacych
˛ w skład wzorca to jego szerokość.
Zamiast mówić o podtabelach, możemy mówić o wzorcach rozumiejac, ˛ że odpowiada mu podta-
bela wszystkich obiektów, które go spełniaja,˛ obci˛eta do jego deskryptorów.

3.1.3. Podział
Podział polega na wybraniu takich wzorców, by ich podtabele miały odpowiednie własności zgodnie
z pewnym kryterium (które powinno mierzyć, czy dla podtabeli da si˛e zbudować skuteczne regu-
ły decyzyjne). Wymaga si˛e ponadto, by podtabele odpowiadajace ˛ wzorcom pokrywały razem cała˛
poczatkow
˛ a˛ tabel˛e, z wyjatkiem
˛ brakujacych
˛ wartości.
Dla wi˛ekszości kryteriów jest to problem trudny. W praktyce rozwiazuje
˛ si˛e go poprzez zachłanny
wybieranie najlepszego wzorca aż do pokrycia całej tabeli, przy czym komórki tabeli raz pokryte
przez pewien wzorzec nie wpływaja˛ już na przebieg kolejnych iteracji.
Niech t b˛edzie wzorcem. Przez w(t) rozumieć b˛edziemy szerokość wzorca, a przez h(t) jego
wysokość.

1. Kryterium w(t) + h(t): jest to przykład prostego kryterium, które wybiera zupełnie złe podta-
bele. Uzasadnienie jest takie, że trudno jest skonstruować dobre reguły decyzyjne dla podtabeli
z jednym atrybutem i wieloma przykładami, podobnie jak dla podtabeli z wieloma atrybutami
i jednym przykładem, co nie jest uwzgl˛edniane przez kryterium.
Okazuje si˛e, że inne szybko optymalizowalne kryteria również słabo sobie radza.˛

2. Kryterium w(t)·h(t): jest to inne proste kryterium, które lepiej przybliża ilość informacji, która
b˛edzie dost˛epna przy budowaniu reguł decyzyjnych. Kryterium szczególnie promuje kwadrato-
we podtabele, które oczywiście maksymalizuja˛ wartość kryterium spośród wszystkich podtabel
o tym samym obwodzie.
Mimo prostoty kryterium, znalezienie wzorca który je maksymalizuje jest problemem PTIME-
zupełnym. W praktyce stosuje si˛e algorytmy genetyczne.

3. Kryterium w(t)β · h(t): jest to uogólnienie poprzedniego kryterium, pozwalajace ˛ parametry-


˛ ecie w poziomie dla β > 1 lub w pionie dla
zować preferowany kształt podtabeli (rozciagni˛
0 < β < 1). Zazwyczaj najlepsze reguły decyzyjne otrzymuje si˛e przy przewadze liczby przy-
kładów nad liczba˛ cech, wi˛ec najcz˛eściej spotykane wartości β sa˛ mniejsze od 1.

4. Dalsze uogólnienia wynikaja˛ z teorii zbiorów przybliżonych i uwzgl˛edniaja˛ np. średnia˛ zawar-
tość informacji w klasach nierozróżnialności.

Znajac
˛ wzorce, reguły decyzyjne generuje si˛e dla każdego z nich z osobna, stosujac
˛ jeden z wielu
dobrze znanych algorytmów (np. CN2).

3.1.4. Synteza
Pierwszym krokiem łaczenia
˛ reguł pochodzacych
˛ z różnych podtablic w jeden zbiór jest ich skracanie.
Skracanie polega na usuwaniu zb˛ednych lub niewiele wnoszacych ˛ deskryptorów z warunkowej cz˛eści
reguły. Dzi˛eki temu reguły zyskuja˛ na ogólności, choć traca˛ na dokładności. To, jak bardzo można
zmniejszyć jakość reguł, zależy od progów przyj˛etych dla rozważanego typu problemu. Na pierwszy
rzut oka skracanie zwi˛eksza liczb˛e reguł: z reguły (a1 (x) = 3 ∧ a2 (x) = 1 ∧ a4 (x) = 1, poprzez

16
usuwanie deskryptorów a1 (x) = 3, a2 (x) = 1 i a4 (x) = 1 otrzymamy trzy nowe reguły: (a2 (x) =
1 ∧ a4 (x) = 1), (a1 (x) = 3 ∧ a4 (x) = 1) oraz (a1 (x) = 3 ∧ a2 (x) = 1).
Z drugiej strony wiele reguł można otrzymać na wiele sposobów (na przykład reguła (a1 (x) =
3 ∧ a2 (x) = 1) mogła powstać jako skrócenie reguły (a1 (x) = 3 ∧ a2 (x) = 1 ∧ a3 (x) = 4)
o deskryptor a3 (x) = 4). W praktyce obserwuje si˛e, że liczba reguł maleje liniowo z przyj˛etym
progiem dokładności reguł.
Scalanie reguł odbywa si˛e na sumie zbiorów otrzymanych do tej pory reguł. Przyjmuje si˛e, że
dwie łaczone
˛ reguły powinny należeć do tej samej klasy decyzyjnej. Ponadto wynikiem nie musza˛
być reguły, dopuszczamy również reguły uogólnione. Reguła uogólniona to reguła, której cz˛eść wa-
runkowa składa si˛e z koniunkcji alternatyw selektorów.
Na przykład reguła (a1 (x) = 3∧(a2 (x) = 1∨a2 (x) = 2)) jest wynikiem scalenia reguł (a1 (x) =
3∧a2 (x) = 1) oraz (a1 (x) = 3∧a2 (x) = 2). W tym przykładzie reguła uogólniona wyraża to samo,
co obie reguły decyzyjne razem wzi˛ete. Możliwe sa˛ jednak scalenia postaci (a1 (x) = 3 ∧ a2 (x) =
1), (a1 (x) = 2 ∧ a2 (x) = 7) → ((a1 (x) = 3 ∨ a2 (x) = 2) ∧ (a2 (x) = 1 ∨ a2 (x) = 7)). W tej
sytuacji cz˛eść warunkowa reguły uogólnionej pasuje do wi˛ekszej liczby obiektów, niżby pasowały
obie reguły proste wzi˛ete jako zbiór. Prowadzi to do zwi˛ekszenia ogólności, być może również do
spadku dokładności. Należy scalać tylko reguły o bardzo podobnej budowie, nie bardziej odległe
strukturalnie niż wynosi wartość ustalonego progu.

3.2. Metoda EM
Metoda EM (ang. „Expectation-Maximization”) służy do wyznaczania najbardziej prawdopodobnych
parametrów modelu probabilistycznego. Dwa kroki, E i M, wykonywane sa˛ naprzemiennie w p˛etli.
W kroku E parametry za parametry ukryte modelu przyjmuje si˛e ich zaobserwowane wartości (np.
zamiast prawdopodobieństw – cz˛estości). W kroku M oblicza si˛e najbardziej prawdopodobne warto-
ści parametrów modelu używajac ˛ wartości parametrów ukrytych wyznaczonych w poprzedzajacym ˛
kroku E. W kolejnym kroku E parametry ukryte wylicza si˛e na nowo, wykorzystujac ˛ poprawione
wartości parametrów modelu.
W pracy [7] zaproponowano interesujace˛ i bardzo naturalne rozszerzenie do tej metody. Brakujace˛
wartości atrybutów zostaja˛ właczone
˛ do ukrytej cz˛eści modelu. Dzi˛eki takiemu podejściu w każdym
kroku za brakujace
˛ wartości zostaja˛ niejawnie podstawione ich najlepsze przybliżenia.

3.3. Lightweight Rule Induction


Metoda zaproponowana przez Weissa i Indurkhya w pracy [8] polega na tworzeniu zbioru klas reguł,
każdy o tej samej mocy. Reguły nie maja˛ wag, a klasyfikowanie nowego przypadku sprowadza si˛e do
wybrania klasy z najwi˛eksza˛ liczba˛ głosów. Sam proces konstrukcji reguł opiera si˛e na szczególnej
trosce o niepoprawnie sklasyfikowane przypadki, co w bardziej rozbudowanej wersji leży u podstaw
boostingu.
Podstawowa˛ różnica˛ w stosunku do klasycznych algorytmów jest brak wag dla poszczególnych
reguł czy klas. Podczas indukcji algorytm zwraca uwag˛e na przypadki bł˛ednie rozpoznane przez
najwi˛eksza˛ liczb˛e reguł.
Autorzy twierdza,˛ że z uwagi na prostot˛e i nadmiarowość zbioru reguł, algorytm b˛edzie dobrze
klasyfikował również przypadki z nieokreślonymi atrybutami. W samym procesie tworzenia reguł
przetwarzane sa˛ jednak wyłacznie
˛ przypadki w pełni określone na wszystkich atrybutach, a wszystkie
pozostałe sa˛ opuszczane.

17
Rozdział 4

Eksperymenty

4.1. Opis eksperymentów


Nast˛epujace
˛ metody wnioskowania z niekompletnych danych zostały przetestowane eksperymental-
nie:
1. podejście naiwne (NULL);
2. uzupełnianie globalne najcz˛eściej wyst˛epujacym
˛ elementem (MF);
3. uzupełnianie najcz˛eściej wyst˛epujacym
˛ elementem według decyzji (MFD);
4. uzupełnianie z rozkładu według decyzji (DIST);
5. metoda najbliższych sasiadów
˛ (NGH).
Ponadto dla porównania podamy wyniki działania metody podziału D3 RJ, które pochodza˛ z pracy
[5], dla współczynnika skracania dajacego
˛ najlepsza˛ dokładność na nowych przypadkach.
Każda z tych metod była testowana metoda˛ kroswalidacji (CV10). Do generowania reguł decy-
zyjnych na przetworzonych danych użyto systemu RSES pracujacego˛ pod kontrola˛ systemu operacyj-
nego Linuks na stacjach roboczych HP XW4300. Reguły były generowane metoda˛ przeszukiwania
wyczerpujacego.
˛ Testowane były również rozmaite algorytmy genetyczne, lecz nie dawały one lep-
szych wyników, miały zaś wyraźnie gorszy czas działania.

Wykorzystane zostały nast˛epujace


˛ zestawy danych, pochodzace
˛ z Recursivepartitioning.com:
1. att — dane telemarketingowe AT&T, 2 klasy decyzyjne, 5 atrybutów numerycznych, 4 atrybuty
symboliczne, 1000 obiektów (24.4% niekompletnych), 4.1% brakujacych
˛ wartości;
2. edu — dane edukacyjne, 4 klasy decyzyjne, 9 atrybutów numerycznych, 3 atrybuty symbolicz-
ne, 1000 obiektów (100% niekompletnych), 22.6% brakujacych
˛ wartości;
3. hco — dane weterynaryjne, 2 klasy decyzyjne, 5 atrybutów numerycznych, 14 atrybutów sym-
bolicznych, 368 obiektów (89.4% niekompletnych), 19.9% brakujacych
˛ wartości;
4. hyp — dane medyczne, 2 klasy decyzyjne, 6 atrybutów numerycznych, 9 atrybutów symbo-
licznych, 3163 obiektów (36.8% niekompletnych), 5.1% brakujacych
˛ wartości;
5. smo2 — dane socjologiczne, 3 klasy decyzyjne, 4 atrybuty numeryczne, 4 atrybuty symbolicz-
ne, 2855 obiektów (18.7% niekompletnych), 2.5% brakujacych
˛ wartości.
Zestawy te zostały wybrane ze wzgl˛edu na zróżnicowana˛ liczb˛e przypadków, atrybutów oraz procen-
towa˛ zawartość brakujacych
˛ wartości.

19
4.2. Wyniki
Poniższa tabela prezentuje uzyskane dokładność dla każdej z metod na poszczególnych zestawach
danych:
NULL MF MFD DIST NGH D3 RJ
att 0.561 0.543 0.548 0.552 0.556 0.595
edu 0.437 0.412 0.474 0.424 0.424 0.542
hco 0.791 0.802 0.797 0.776 0.812 0.839
hyp 0.984 0.978 0.971 0.981 0.978 0.953
smo2 0.529 0.530 0.524 0.550 0.537 0.687
avg 0.660 0.653 0.663 0.657 0.661 0.723

4.3. Wnioski
Z przeprowadzonych eksperymentów płynie kilka ciekawych wniosków.
Współczesne systemy generowania reguł osiagn˛ ˛ eły bardzo wysoka˛ sprawność w radzeniu sobie
z brakujacymi
˛ wartościami. Uwagi z cz˛eści teoretycznej, odnoszace˛ si˛e do standardowych algoryt-
mów typu CN2, wydaja˛ si˛e już nie stosować. Reguły generowane przez RSES sa˛ bardzo ogólne i
dobrze sprawdzaja˛ si˛e na nowych przypadkach, również takich z brakujacymi˛ wartościami. Co cieka-
we, RSES „rozumie” wartość NULL i traktuje ja˛ specjalnie, a nie jak jeszcze jeden element dziedziny.
Osobne testy, które omijały t˛e funkcjonalność RSESa (NULL został zastapiony˛ innym ciagiem
˛ zna-
ków), pokazały spadek jakości generowanych reguł o 1-2%. Pokazuje to, o ile gorsze mogłyby być
starsze systemy. Szczegółowe dane nie zostały umieszczone w powyższej tabeli, gdyż interesuja˛ nas
sposoby poprawiania jakości reguł, a nie celowego jej pogarszania.
Poszczególne metody prostego uzupełniania braków niewiele różnia˛ si˛e od siebie. Uzupełnianie
globalne najcz˛eściej wyst˛epujac
˛ a˛ wartościa˛ prowadzi do nieznacznego, choć zauważalnego obniżenia
jakości, pozostałe podejścia nie daja˛ zaś poprawy. Wbrew oczekiwaniom, metoda najbliższych sasia-˛
dów nie prowadzi do istotnej poprawy dokładności, jest za to niezwykle kosztowna obliczeniowo.
Na tym tle wyjatkowo
˛ dobrze prezentuja˛ si˛e rezultaty metody D3 RJ, zwłaszcza na zestawach
att, edu i smo2. Dla zestawów hco i hyp D3 RJ bardzo wydłuża czas obliczeń, nie daje zaś żadnych
profitów pod wzgl˛edem jakości. Dla wszystkich zestawów danych metoda D3 RJ generuje krótsze,
ogólniejsze i mniej liczne reguły. Jeśli jest to istotnym czynnikiem (gdy klasyfikowana b˛edzie bardzo
duża liczba nowych obiektów), zawsze warto jest rozważyć stosowanie tej metody.
Ogólny wniosek dla generowania reguł decyzyjnych dla danych z brakujacymi ˛ wartościami jest
taki, że przy stosowaniu nowoczesnych narz˛edzi typu RSES metody dużo bardziej kosztowne obli-
czeniowo wcale nie musza˛ sobie radzić lepiej. Zawsze warto wykonać kilka eksperymentów również
na surowych danych oraz na danych uzupełnionych najcz˛estsza˛ wartościa˛ atrybutu według decyzji (co
w RSESie można osiagn ˛ ać
˛ kilkoma klikni˛eciami), gdyż w zależności od natury obiektów, o których
chcemy wnioskować, możemy nawet nie zauważyć różnicy w jakości generowanych reguł.

20
Bibliografia

[1] T.M. Mitchell. Machine Learning. The McGraw-Hill Companies, Inc., New York, NY, 1997.

[2] Jan G. Bazan. Metody wnioskowań aproksymacyjnych dla syntezy algorytmów decyzyjnych. Praca
doktorska, Uniwersytet Warszawski, Wydział Matematyki, Informatyki i Mechaniki, 1998.

[3] Stuart Russell and Peter Norvig. Artificial Intelligence: A Modern Approach, 2nd edition. Prentice
Hall, Upper Saddle River, NJ, 2003.

[4] Rafał Latkowski. Metody wnioskowania w oparciu o niekompletny opis obiektów. Praca magi-
sterska, Uniwersytet Warszawski, Wydział Matematyki, Informatyki i Mechaniki, 2001.

[5] Rafał Latkowski and Mikołaj Mikołajczyk. Data Decomposition and Decision Rule Joining for
Classification of Data with Missing Values. In J.F. Peters et al., editors, Transactions on Rough
Sets I, LNCS 3100, pages 299-320. Springer-Verlag, Berlin Heidelberg, 2004.

[6] P. Clark and T. Nibblet. The CN2 Induction Algorithm. In Machine Learning 3, pages 261-283.
Springer-Verlag, 1989.

[7] Zoubin Ghahramani and Michael I. Jordan. Supervised learning from incomplete data via an EM
approach. In J.D. Cowan, G. Tesauro, J. Alspector (editors), Advances in Neural Information
Processing Systems, Volume 6. Morgan Kaufmann, 1994.

[8] Sholom M. Weiss and Nitin Indurkhya. Lightweight Rule Induction. In Proceedings of the Inter-
national Conference on Machine Learning ICML 2000, 2000.

[9] Jan Bazan and Marcin Szczuka. RSES and RSESlib – a collection of tools for rough set computa-
tions. In Wojciech Ziarko and Yiyu Yao, editors, Second International Conference on Rough Sets
and Current Trends in Computing RSCTC, volume 2005 of Lecture Notes in Artificial Intelligence,
pages 106-113, Banff, Canada, 2001. Springer-Verlag.

21

You might also like