KD Licencjat

Uniwersytet Warszawski
Wydział Matematyki, Informatyki i Mechaniki
Krzysztof Dul˛eba
Nr albumu: 209203
Wybrane metody generowania zbiorów

reguł decyzyjnych dla obiektów z
niekompletnym opisem.
Praca licencjacka
na kierunku MATEMATYKA
w zakresie MATEMATYKA
Praca wykonana pod kierunkiem

dr Hung Son Nguyen
Instytut Matematyki
Sierpień 2006
Oświadczenie kierujacego
˛ praca˛
Potwierdzam, że niniejsza praca została przygotowana pod moim kierunkiem i kwalifi-
kuje si˛e do przedstawienia jej w post˛epowaniu o nadanie tytułu zawodowego.
Data Podpis kierujacego

˛ praca˛
Oświadczenie autora (autorów) pracy
Świadom odpowiedzialności prawnej oświadczam, że niniejsza praca dyplomowa została

napisana przeze mnie samodzielnie i nie zawiera treści uzyskanych w sposób niezgodny z
obowiazuj
˛ acymi
˛ przepisami.
Oświadczam również, że przedstawiona praca nie była wcześniej przedmiotem procedur
zwiazanych
˛ z uzyskaniem tytułu zawodowego w wyższej uczelni.
Oświadczam ponadto, że niniejsza wersja pracy jest identyczna z załaczon
˛ a˛ wersja˛ elek-
troniczna.˛
Data Podpis autora (autorów) pracy

Streszczenie
W niniejszej pracy omawiamy problem wnioskowania z niekompletnych danych. Szczególnie b˛eda˛

nas interesowały algorytmy budowy zbiorów reguł decyzyjnych.
Słowa kluczowe
Systemy decyzyjne, reguły decyzyjne, brakujace

˛ wartości atrybutów
Dziedzina pracy (kody wg programu Socrates-Erasmus)
11.1 Matematyka
Klasyfikacja tematyczna
68. Computer science.

68T. Artificial intelligence.
68T37. Reasoning under uncertainty.
Tytuł pracy w j˛ezyku angielskim
Selected methods of generating decision rules from incomplete data.

Spis treści
Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1. Podstawowe poj˛ecia i definicje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1. Zbiory przybliżone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2. Hipotezy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3. Reguły decyzyjne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4. Drzewa decyzyjne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5. Brakujace
˛ wartości atrybutów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2. Uzupełnianie brakujacych˛ atrybutów . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.1. Wartość NULL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2. Średnia wartość . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3. Uzupełnianie z rozkładu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4. Wnioskowanie z pozostałych atrybutów . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5. Metoda najbliższych sasiadów
˛ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3. Wnioskowanie bez uzupełniania brakujacych˛ atrybutów . . . . . . . . . . . . . . . . 15

3.1. Metoda podziału (D3 RJ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.1. Ogólny opis metody . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.2. Wzorce wypełniania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.3. Podział . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.1.4. Synteza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2. Metoda EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3. Lightweight Rule Induction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4. Eksperymenty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.1. Opis eksperymentów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.2. Wyniki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.3. Wnioski . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3
Wst˛ep
Reguły decyzyjne, podstawa wielu metod automatycznego odkrywania wiedzy, sa˛ metoda˛ reprezen-
towania obserwacji postaci „jeżeli-to”, gdzie poprzednikiem jest koniunkcja wszystkich warunków
koniecznych do zajścia nast˛epnika. Oczywiście siła wyrazu pojedynczej reguły decyzyjnej jest zni-
koma, ale przy pomocy ich zbioru (cz˛esto o strukturze drzewa) można już aproksymować dowolnie
złożone poj˛ecia.
Przybliżenie poj˛ecia konstruuje si˛e na podstawie zbioru treningowego (majacego
˛ postać tabeli,
której kolumny reprezentuja˛ atrybuty, a wiersze to obiekty), z jednej strony starajac
˛ si˛e dobrze opisać
go wynikowymi regułami, a z drugiej strony uniknajac ˛ nadmiernego dopasowania, które utrudnia
późniejsze stosowanie reguł dla nowych przypadków.
W praktyce dane, na których operuja˛ klasyfikatory, cz˛esto sa˛ niekompletne. Typowe algorytmy
konstrukcji zbioru reguł wymagaja˛ jednak kompletnych danych i przy prostych schematach radzenia
sobie z brakami zwracaja˛ wyniki o jakości poniżej oczekiwań.
W pracy zostana˛ omówione i sprawdzone eksperymentalnie rozmaite podejścia stosowane do
rozwiazania
˛ tego problemu.
5
Rozdział 1
Podstawowe poj˛ecia i definicje
1.1. Zbiory przybliżone

Teoretyczna˛ podstawa˛ naszych rozważań jest teoria zbiorów przybliżonych, zaproponowana w latach
80-tych przez profesora Zdzisława Pawlaka.
Definicja 1 System informacyjny jest to para A = (U, A), gdzie U jest skończonym, niepustym
zbiorem zwanym uniwersum (jego elementy nazywamy obiektami), zaś A jest skończonym, niepustym
zbiorem atrybutów (cech), gdzie atrybutem nazywamy funkcj˛e a : U → VAa przyporzadkowuj
˛ ac
˛ a˛
a
obiektom z uniwersum U wartości ze zbioru (dziedziny) VA .
Systemy informacyjne wygodnie jest reprezentować graficznie w postaci tabel.
Definicja 2 Relacja nierozróżnialności INDA (B) ⊂ U × U generowana przez zbiór atrybutów B ⊂

A na systemie informacyjnym A = (U, A), zdefiniowana jest nast˛epujaco:
˛
INDA (B) = {(x, y) ∈ U × U : ∀a ∈ B : a(x) = a(y)} . (1.1)
Relacja nierozróżnialności to po prostu relacja równoważności, która utożsamia obiekty o tych sa-
mych wartościach atrybutów na zbiorze B. Jeśli dla uniwersum obiektów znamy tylko wartości atry-
butów ze zbioru B, to obiekty, do których rozróżnienia potrzeba cechy spoza B, staja˛ si˛e nierozróż-
nialne.
Teoria zbiorów przybliżonych idzie znacznie dalej (patrz np. [2]), lecz nam wystarcza˛ tylko po-
wyższe definicje, przytoczone w charakterze ilustracji.
Do systemu informacyjnego (U, A) dodamy specjalny atrybut o skończonej dziedzinie d : U →
D zwany decyzja.˛ Decyzja wyznacza nam naturalny podział uniwersum na klasy decyzyjne (zbiory
obiektów o tej samej wartości decyzji).
1.2. Hipotezy
Definicja 3 Hipoteza˛ nazywamy funkcj˛e decyzyjna˛ h : X → D, gdzie X to skończony zbiór obiektów.
Celem klasyfikacji jest znalezienie na podstawie skończonego zbioru przykładów (obiektów wraz ze
znana˛ wartościa˛ decyzji) hipotezy h możliwie dobrze klasyfikujacej
˛ obiekty.
Definicja 4 Dokładność hipotezy h na zbiorze przykładów V to

|{v ∈ V : h(v) = d(v)}|
acc(h, V) = (1.2)
|V|
7
czyli jest to relatywna wielkość zbioru przypadków poprawnie sklasyfikowanych w stosunku do wiel-
kości zbioru wszystkich przypadków.
Definicja 5 Bład
˛ hipotezy to relatywna wielkość zbioru przypadków bł˛ednie sklasyfikowanych:
|{v ∈ V : h(v) 6= d(v)}|

err(h, V) = (1.3)
|V|
1.3. Reguły decyzyjne

Definicja 6 Formuła atomowa(selektor) jest to napis postaci (a, v), gdzie a ∈ A i v ∈ Va . Obiekt x
spełnia formuł˛e (a, v), gdy a(x) = v.
Formuła atomowa pozwala nam ograniczyć si˛e do zbioru obiektów o ustalonej wartości wybranego
atrybutu.
Definicja 7 Formuła jest to napis postaci α, ¬α, (α ∨ β), (α ∧ β), gdzie α, β to formuły lub formuły
atomowe.
W szczególności formuła (¬α ∨ β), czyli po prostu (α → β), pozwala nam wyrażać obserwacje o
zależnościach mi˛edzy atrybutami (wliczajac
˛ w to atrybut decyzyjny).
Definicja 8 Reguła decyzyjna jest to dowolna formuła postaci (α → β).
Poj˛ecie reguły decyzyjnej zaw˛ezimy w dalszej cz˛eści rozważań do przypadku, gdy cz˛eść warunkowa
(α) zawiera formuły atomowe zbudowane wyłacznie
˛ z atrybutów warunkowych, zaś wniosek (β) jest
formuła˛ atomowa˛ atrybutu decyzyjnego.
Definicja 9 Wsparciem reguły decyzyjnej r nazywamy stosunek |V|V|| wielkości zbioru przypadków
r
pasujacych
˛ do cz˛eści warunkowej reguły do wielkości zbioru wszystkich przypadków.
1.4. Drzewa decyzyjne

Drzewa reguł decyzyjnych to jedna z podstawowych struktur używanych do rozwiazywania
˛ proble-
mów klasyfikacyjnych.
Definicja 10 Testem atrybutów nazywamy dowolna˛ funkcj˛e t(x) : Va1 × Va2 × . . . × Vai → E z
podzbioru zbioru atrybutów w zbiór skończony.
Test pozwala podzielić obiekty na |E| klas na podstawie wyników testu.
Definicja 11 Drzewo decyzyjne jest to ukorzeniona struktura drzewiasta, w której każdy wierzcho-
łek wewn˛etrzny zawiera test atrybutów o wartościach w poddrzewach tego wierzchołka, zaś liście
zawieraja˛ wartości decyzji.
Istota˛ działania drzewa decyzyjnego jest dzielenie obiektów na coraz drobniejsze klasy na podsta-
wie testów atrybutów – tak długo, aż b˛edzie możliwe przypisanie wszystkim rozdrobnionym kla-
som obiektów wspólnej decyzji. Klasyfikowanie obiektu sprowadza si˛e do przechodzenia drzewa, w
każdym kroku wybierajac ˛ gałaź,
˛ która˛ wyznacza wynik testu atrybutu w danym wierzchołku, aż do
osiagni˛
˛ ecia decyzji w liściu.
8
Przy budowie drzewa decyzyjnego kluczowym parametrem jest jego rozmiar. Z jednej strony małe
drzewa, choć efektywne pami˛eciowo i dajace
˛ szybka˛ odpowiedź, nie uwzgl˛edniaja˛ całego bogactwa
analizowanych danych. Skrajnym przypadkiem jest puste drzewo, które nic nie wnosi.
Z drugiej strony duże drzewa, nawet jeśli bardzo dokładnie opisuja˛ zbiór treningowy, na którego
podstawie zostały zbudowane, to jednak moga˛ sobie źle radzić na nowych przypadkach testowych,
z uwagi na nadmierne dopasowanie do danych treningowych. Skrajnym przypadkiem jest wypisa-
nie wszystkich obiektów treningowych jako testów, co nie pozwoli sklasyfikować żadnego nowego
obiektu.
1.5. Brakujace
˛ wartości atrybutów
Drzewa decyzyjne, z uwagi na konstrukcj˛e i zasad˛e działania wymagaja,˛ by atrybuty były w peł-
ni określonymi funkcjami. Dla wielu zagadnień zgromadzenie kompletnych danych jest trudne lub
nawet niemożliwe. Przykładowe przyczyny wyst˛epowania brakujacych
˛ wartości to:
• bł˛edy ludzkie;
• scalanie danych pochodzacych

˛ z różnych źródeł i zbieranych różnymi metodami;
• brak stosowalności atrybutu (numer PESEL pacjenta gdy jest on obcokrajowcem, zwierzchnik
prezesa);
• fizyczna niepoznawalność (zasada nieoznaczoności Heisenberga);
• praktyczna niepoznawalność (zbyt kosztowne badania, pacjent nietolerujacy

˛ danego typu te-
stów);
• niedoskonałość aparatury pomiarowej (ograniczony zakres mierzonych wartości, bł˛edy pomia-

ru);
• możliwości prostego wywnioskowania przybliżonej, dostatecznie dokładnej wartości atrybutu.
Standardowe metody tworzenia reguł i drzew decyzyjnych nie przewiduja˛ możliwości wykorzystywa-
nia brakujacych
˛ wartości. Brakujaca
˛ wartość zostaje zastapiona
˛ wartościa˛ spoza dziedziny (NULL).
Jeśli liczba wystapień
˛ NULL-i stanie si˛e znaczaca,
˛ reguły i drzewa zaczna˛ intensywnie wykorzysty-
wać t˛e wartość w cz˛eści warunkowej. W takiej sytuacji bardzo różne obiekty staja˛ si˛e sobie bliższe
poprzez wspólny brak wartości pewnego atrybutu, a obiekty bliskie oddalaja˛ si˛e od siebie, gdy war-
tość jednego z atrybutów jednego z nich zostanie zastapiona
˛ NULL-em. Prowadzi to zazwyczaj do
znacznego spadku jakości reguł.
W niniejszej pracy zostana˛ omówione metody budowy drzew decyzyjnych w sytuacji, gdy z uwa-
gi na duża˛ liczb˛e brakujacych
˛ wartości standardowe algorytmy budowy drzew przestaja˛ być skutecz-
ne.
9
Rozdział 2
Uzupełnianie brakujacych
˛ atrybutów
Uzupełnianie jest naturalnym sposobem radzenia sobie z brakujacymi

˛ wartościami. Należy zauważyć,
że uzupełnianie nie zwi˛eksza zawartości informacji w danych, gdyż wartości wstawiane na miejsce
braków zawsze sa˛ sztuczne i wynikaja˛ z danych już posiadanych. Uzupełnianie pozwala jednak lepiej
wykorzystać algorytmy tworzenia reguł decyzyjnych, które nie potrafia˛ stwierdzić „nie wiem, co tam
jest”, a zamiast tego traktuja˛ brak wartości (NULL) jako jeszcze jedna˛ wartość z dziedziny.
2.1. Wartość NULL

Używanie symbolu NULL na oznaczenie brakujacej ˛ wartości atrybutu pochodzi z teorii baz danych.
Jest to najprostsza możliwa technika radzenia sobie z brakiem wartości: niezdefiniowana wielkość
zostaje dodana do dziedziny jako specjalny, wyróżniony element.
W przypadku, gdy braków jest niewiele, jakość wnioskowania nie powinna ulec znacznemu po-
gorszeniu. Cz˛esto jednak niezb˛edne jest zachowanie wiedzy o tym, że brakujace
˛ wartości różnia˛ si˛e
znacznie od innych elementów dziedziny.
Standardowe algorytmy budowania drzew i reguł decyzyjnych używaja˛ tej techniki automatycznie
w razie napotkania niekompletnych obiektów.
2.2. Średnia wartość

Średnia wartość jest przykładem uzupełniania globalnego. Uzupełnianie globalne polega na wybraniu
pewnej statystyki i obliczeniu jej wartości na posiadanym zbiorze danych, a nast˛epnie wypełnieniu
braków ta˛ wartościa.˛ Stosowane statystyki to właśnie wartość średnia i mediana dla atrybutów upo-
rzadkowanych
˛ lub liczbowych oraz najcz˛eściej wyst˛epujaca
˛ wartość dla pozostałych.
Metoda ta jest szybka i wymaga tylko jednokrotnego przegladni˛ ˛ ecia danych (choć zależy to oczy-
wiście od wybranej statystyki). Wyniki otrzymane w ten sposób sa˛ przyzwoite, choć wyraźnie słabsze
od tych uzyskanych w bardziej wyrafinowany sposób. Podstawowym problemem jest znaczne zabu-
rzenie rozkładu wartości atrybutu na korzyść pojedynczego elementu.
Inna˛ słabościa˛ jest operowanie na pojedynczym atrybucie, bez uwzgl˛ednienia jego zwiazku˛ z po-
zostałymi. Najważniejszym z pozostałych atrybutów, jeśli wyst˛epuje, jest atrybut decyzyjny. Wtedy
uzupełnianie globalne może być zastapione
˛ uzupełnianiem lokalnym wzgl˛edem decyzji, które spro-
wadza si˛e do podziału danych na klasy o wspólnej wartości decyzji i rozpatrywania ich oddzielnie.
Dla każdej z klas wylicza si˛e wybrana˛ statystyk˛e i uzupełnia si˛e nia˛ braki.
Ta prosta zmiana nie wpływa znaczaco ˛ na czas przetwarzania danych, a pozwala wyraźnie po-
prawić wyniki. W dalszym ciagu ˛ prowadzi niestety to wzmocnienia już posiadanych informacji (i to
11
tych, które według wybranej statystyki i tak już dominowały), osłabienia różnorodności danych i do
nadmiernego dopasowania do nich budowanych reguł (ang. „over-fitting”).
2.3. Uzupełnianie z rozkładu

Metoda uzupełniania z rozkładu jest odpowiedzia˛ na zarzuty wobec uzupełniania wobec statystyki,
które zaburzało rozkład wartości atrybutu. Opiera si˛e ona na spostrzeżeniu, że znajac
˛ opisy dostatecz-
nie wielu obiektów potrafimy dobrze aproksymować oryginalny rozkład atrybutu (a ściślej rzecz bio-
rac,
˛ parametry tego rozkładu, gdyż typ rozkładu musimy zazwyczaj wcześniej założyć). Na przykład
dla atrybutów symbolicznych możemy po prostu zliczyć jak cz˛esto poszczególne wartości wyst˛epuja,˛
a nast˛epnie założyć, że oryginalne prawdopodobieństwa ich wyst˛epowania sa˛ równe zaobserwowa-
nym cz˛estościom.
Nast˛epnie brakujace
˛ wartości uzupełniamy z rozkładu, dzi˛eki czemu nie doprowadzimy do domi-
nacji jednej wartości.
Naturalnym rozszerzeniem tej metody jest podział zbioru przykładów na klasy decyzyjne i od-
dzielne uzupełnianie z rozkładu w każdej z klas.
Można też, zamiast atrybutu decyzyjnego, zastosować inny atrybut, najbardziej skorelowany z ak-
tualnie uzupełnianym. Oba powinny być tego samego typu (numeryczne, symboliczne), gdyż inaczej
trudno jest mierzyć poziom korelacji. Jeśli tak jest, to możemy zastosować jeden z wielu znanych te-
stów statystycznych do mierzenia korelacji mi˛edzy zbiorami danych, porównujac ˛ uzupełniany atrybut
z wszystkimi pozostałymi tego samego typu, po czym wybierzemy najlepszy.
Metody uzupełniania z rozkładu radza˛ sobie bardzo dobrze w praktyce i sa˛ stosunkowo szybkie
(o ile nie musimy szukać najbardziej skorelowanego atrybutu, co prowadzi do przegladania ˛ tabeli dla
każdego z wypełnianych kolumn).
2.4. Wnioskowanie z pozostałych atrybutów

Zauważmy, że metody uzupełniania wobec statystyki (globalna i lokalna wobec decyzji) sa˛ niczym
innym, jak bardzo prostymi systemami decyzyjnymi, gdzie rol˛e atrybutu decyzyjnego gra uzupełniana
kolumna. Przypadkami treningowymi sa˛ te, dla których znamy atrybut, a testowymi sa˛ pozostałe.
Uzupełnianie globalne rozpatruje tylko uzupełniana˛ kolumn˛e (system decyzyjny wybierze najbardziej
prawdopodobna˛ wartość i przypisze ja˛ wszystkim obiektom testowym, maksymalizujac ˛ szanse na
poprawna˛ decyzj˛e), a lokalne wobec decyzji dwie.
Można to uogólnić, wziać ˛ pod uwag˛e wi˛eksza˛ liczb˛e atrybutów i zbudować bardziej wyrafino-
wany system decyzyjny, który uzupełni braki. Naturalnym kandydatem na podzbiór zbioru cech sa˛
kolumny, które nie maja˛ braków. Możemy nast˛epnie stworzyć reguły decyzyjne dla nowego problemu
i uzupełnić brakujace
˛ wartości.
Jeśli jednak wi˛ekszość kolumn ma braki, to trudno jest zadecydować, którego podzbióru atrybu-
tów należałoby użyć. Możliwych kombinacji jest wykładniczo wiele, wi˛ec pomóc może tylko r˛ecz-
na analiza zależności mi˛edzy atrybutami przez człowieka, który zdecyduje si˛e na konkretny wybór,
ewentualnie stosowanie heurystyk typu „n najbardziej skorelowanych kolumn”.
Nawet gdy podzbiór kolumn zostanie juz ustalony, koszt tej metody może być zbyt wielki, gdyż
ostateczny koszt budowy drzewa zostaje zwielokrotniony o czynnik równy liczbie uzupełnianych
kolumn. Przy wielu zagadnieniach praktycznych jest to niemożliwe do zaakceptowania, zaś zysk
jakości reguł w stosunku to prostszych i szybszych metod jest nieznaczny.
12
2.5. Metoda najbliższych sasiadów
˛
Szczególna˛ postacia˛ wnioskowania z pełnych danych zawartych w tabeli jest metoda najbliższych sa- ˛
siadów. Zamiast operować na kolumnach (atrybutach), operować b˛edziemy na wierszach (obiektach).
Dla każdego obiektu o niekompletnym opisie szukamy pewnej liczby obiektów leżacych ˛ jak najbli-
żej (wzgl˛edem pewnej funkcji odległości), o znanej wartości uzupełnianego atrybutu. Brak zostanie
uzupełniony wartościa˛ otrzymana˛ jako wynik głosowania wyróżnionych sasiadów
˛ (których liczba
głosów może zależeć od odległości).
Wybór funkcji odległości jest bardzo istotny. Obserwacje, którymi można si˛e kierować, to:
1. jeśli ai (x) = ai (y), to obiekty x i y nie różnia˛ si˛e na atrybucie ai ;
2. jeśli NULL 6= ai (x) 6= ai (y) 6= NULL, to obiekty x i y dość znacznie różnia˛ si˛e na atrybucie
ai , choć zależy to od konkretnych wartości ai (x) i ai (y).
3. jeśli ai (x) 6= ai (y) = NULL, to obiekty x i y stosunkowo nieznacznie różnia˛ si˛e na atrybucie
ai ;
4. jeśli ai (x) = ai (y) = NULL, to obiekty x i y stosunkowo nieznacznie różnia˛ si˛e na atrybucie
ai ;
5. nierówność na atrybucie decyzyjnym jest szczególnie istotna.
Zauważmy, że z uwagi na punkt (4) stosowana funkcja nie b˛edzie prawdziwa˛ odległościa,˛ jednak
praktyczne wzgl˛edy przeważaja˛ i obiektów o nieznanych wartościach atrybutów nie należy utożsa-
miać.
Każdorazowe znajdywanie najbliższych sasiadów,
˛ w przypadku znacznej ilości danych, może
być zbyt kosztowne. Można to rozwiazać
˛ rozpatrujac,
˛ zamiast pełnej tabeli, tylko jej niezbyt duży,
reprezentatywny podzbiór.
Innym pomysłem jest zbudowanie struktury najbliższych sasiadów
˛ w pierwszym kroku i wyko-
rzystywanie jej za każdym razem. Jest to jednak technicznie trudne, a sasiedzi
˛ znajdowani w ten
sposób cz˛esto b˛eda˛ mieli braki w tych samych miejscach, co rozpatrywany obiekt, przez co b˛eda˛
bezużyteczni.
Mimo tych zastrzeżeń metoda najbliższych sasiadów
˛ jest dość obiecujaca
˛ i skuteczna, o ile czas
przetwarzania danych nie jest krytycznym ograniczeniem.
13
Rozdział 3
Wnioskowanie bez uzupełniania

brakujacych
˛ atrybutów
3.1. Metoda podziału (D3 RJ)

Metoda podziału jest naturalna˛ odpowiedzia˛ na przyj˛ecie założenia, że nie można budować drzew
decyzyjnych w przypadku brakujacych
˛ atrybutów, gdy odrzuca si˛e wszelkie metody ich uzupełniania
(wartość NULL i metody bardziej zaawansowane) czy to z powodu jakości, czy ograniczeń na czas
przetwarzania. Zamiast operować na pełnej tabeli, czego robić nie możemy, zbudujemy klasyfika-
tory działajace
˛ na danych cz˛eściowych (na podtabeli), a nast˛epnie w pewien sposób uwzgl˛ednimy
rezultaty ich działania do wygenerowania ostatecznej odpowiedzi. Przez podtabel˛e rozumiemy przy
tym pewien podzbiór wierszy i kolumn oryginalnej tabeli (zarówno wiersze, jak i kolumny nie musza˛
tworzyć spójnego wycinka).
3.1.1. Ogólny opis metody

Metoda podziału zakłada wykonanie nast˛epujacych
˛ kroków: podziału i łaczenia.
˛ Skupimy si˛e tu na
3
wariancie D RJ, który jest konkretna˛ implementacja˛ ogólnego pomysłu, zaproponowanym w pracach
[4] i [5].
1. Podział.
(a) Wyznaczenie podtabel.
(b) Wygenerowanie reguł decyzyjnych dla każdej z podtabel.
2. Synteza.
(a) Modyfikacj˛e otrzymanych wcześniej reguł, by zwi˛ekszyć ich ogólność (skracanie).
(b) Łaczenie
˛ reguł w jeden zbiór, który stosuje si˛e już do pełnej tabeli.
3.1.2. Wzorce wypełniania

Definicja 12 Deskryptorem wypełniania nazywamy napis postaci a 6= ?, gdzie a ∈ A jest atry-
butem. Obiekt spełnia deskryptor, gdy a(x) 6= ?, czyli gdy obiekt ma określona˛ niepusta˛ wartość
atrybutu a.
Definicja 13 Wzorcem wypełniania nazywamy koniunkcj˛e pewnej liczby deskryptorów wypełniania.
Obiekt spełnia wzorzec wypełniania, gdy spełnia wszystkie deskryptory (czyli gdy ma określone nie-
puste wartości wszystkich atrybutów wyst˛epujacych
˛ we wzorcu).
15
Majac˛ zadany podzbiór obiektów możemy wyznaczyć ich schemat wypełniania, czyli maksymalny
wzorzec, spełniany przez wszystkie obiekty ze zbioru. Podobnie znajac ˛ wzorzec możemy wyznaczyć
wszystkie obiekty ze zbioru treningowego, które go spełniaja.˛ Liczba tych obiektów to wysokość
wzorca, a liczba deskryptorów wchodzacych
˛ w skład wzorca to jego szerokość.
Zamiast mówić o podtabelach, możemy mówić o wzorcach rozumiejac, ˛ że odpowiada mu podta-
bela wszystkich obiektów, które go spełniaja,˛ obci˛eta do jego deskryptorów.
3.1.3. Podział
Podział polega na wybraniu takich wzorców, by ich podtabele miały odpowiednie własności zgodnie
z pewnym kryterium (które powinno mierzyć, czy dla podtabeli da si˛e zbudować skuteczne regu-
ły decyzyjne). Wymaga si˛e ponadto, by podtabele odpowiadajace ˛ wzorcom pokrywały razem cała˛
poczatkow
˛ a˛ tabel˛e, z wyjatkiem
˛ brakujacych
˛ wartości.
Dla wi˛ekszości kryteriów jest to problem trudny. W praktyce rozwiazuje
˛ si˛e go poprzez zachłanny
wybieranie najlepszego wzorca aż do pokrycia całej tabeli, przy czym komórki tabeli raz pokryte
przez pewien wzorzec nie wpływaja˛ już na przebieg kolejnych iteracji.
Niech t b˛edzie wzorcem. Przez w(t) rozumieć b˛edziemy szerokość wzorca, a przez h(t) jego
wysokość.
1. Kryterium w(t) + h(t): jest to przykład prostego kryterium, które wybiera zupełnie złe podta-
bele. Uzasadnienie jest takie, że trudno jest skonstruować dobre reguły decyzyjne dla podtabeli
z jednym atrybutem i wieloma przykładami, podobnie jak dla podtabeli z wieloma atrybutami
i jednym przykładem, co nie jest uwzgl˛edniane przez kryterium.
Okazuje si˛e, że inne szybko optymalizowalne kryteria również słabo sobie radza.˛
2. Kryterium w(t)·h(t): jest to inne proste kryterium, które lepiej przybliża ilość informacji, która
b˛edzie dost˛epna przy budowaniu reguł decyzyjnych. Kryterium szczególnie promuje kwadrato-
we podtabele, które oczywiście maksymalizuja˛ wartość kryterium spośród wszystkich podtabel
o tym samym obwodzie.
Mimo prostoty kryterium, znalezienie wzorca który je maksymalizuje jest problemem PTIME-
zupełnym. W praktyce stosuje si˛e algorytmy genetyczne.
3. Kryterium w(t)β · h(t): jest to uogólnienie poprzedniego kryterium, pozwalajace ˛ parametry-

˛ ecie w poziomie dla β > 1 lub w pionie dla
zować preferowany kształt podtabeli (rozciagni˛
0 < β < 1). Zazwyczaj najlepsze reguły decyzyjne otrzymuje si˛e przy przewadze liczby przy-
kładów nad liczba˛ cech, wi˛ec najcz˛eściej spotykane wartości β sa˛ mniejsze od 1.
4. Dalsze uogólnienia wynikaja˛ z teorii zbiorów przybliżonych i uwzgl˛edniaja˛ np. średnia˛ zawar-
tość informacji w klasach nierozróżnialności.
Znajac
˛ wzorce, reguły decyzyjne generuje si˛e dla każdego z nich z osobna, stosujac
˛ jeden z wielu
dobrze znanych algorytmów (np. CN2).
3.1.4. Synteza
Pierwszym krokiem łaczenia
˛ reguł pochodzacych
˛ z różnych podtablic w jeden zbiór jest ich skracanie.
Skracanie polega na usuwaniu zb˛ednych lub niewiele wnoszacych ˛ deskryptorów z warunkowej cz˛eści
reguły. Dzi˛eki temu reguły zyskuja˛ na ogólności, choć traca˛ na dokładności. To, jak bardzo można
zmniejszyć jakość reguł, zależy od progów przyj˛etych dla rozważanego typu problemu. Na pierwszy
rzut oka skracanie zwi˛eksza liczb˛e reguł: z reguły (a1 (x) = 3 ∧ a2 (x) = 1 ∧ a4 (x) = 1, poprzez
16
usuwanie deskryptorów a1 (x) = 3, a2 (x) = 1 i a4 (x) = 1 otrzymamy trzy nowe reguły: (a2 (x) =
1 ∧ a4 (x) = 1), (a1 (x) = 3 ∧ a4 (x) = 1) oraz (a1 (x) = 3 ∧ a2 (x) = 1).
Z drugiej strony wiele reguł można otrzymać na wiele sposobów (na przykład reguła (a1 (x) =
3 ∧ a2 (x) = 1) mogła powstać jako skrócenie reguły (a1 (x) = 3 ∧ a2 (x) = 1 ∧ a3 (x) = 4)
o deskryptor a3 (x) = 4). W praktyce obserwuje si˛e, że liczba reguł maleje liniowo z przyj˛etym
progiem dokładności reguł.
Scalanie reguł odbywa si˛e na sumie zbiorów otrzymanych do tej pory reguł. Przyjmuje si˛e, że
dwie łaczone
˛ reguły powinny należeć do tej samej klasy decyzyjnej. Ponadto wynikiem nie musza˛
być reguły, dopuszczamy również reguły uogólnione. Reguła uogólniona to reguła, której cz˛eść wa-
runkowa składa si˛e z koniunkcji alternatyw selektorów.
Na przykład reguła (a1 (x) = 3∧(a2 (x) = 1∨a2 (x) = 2)) jest wynikiem scalenia reguł (a1 (x) =
3∧a2 (x) = 1) oraz (a1 (x) = 3∧a2 (x) = 2). W tym przykładzie reguła uogólniona wyraża to samo,
co obie reguły decyzyjne razem wzi˛ete. Możliwe sa˛ jednak scalenia postaci (a1 (x) = 3 ∧ a2 (x) =
1), (a1 (x) = 2 ∧ a2 (x) = 7) → ((a1 (x) = 3 ∨ a2 (x) = 2) ∧ (a2 (x) = 1 ∨ a2 (x) = 7)). W tej
sytuacji cz˛eść warunkowa reguły uogólnionej pasuje do wi˛ekszej liczby obiektów, niżby pasowały
obie reguły proste wzi˛ete jako zbiór. Prowadzi to do zwi˛ekszenia ogólności, być może również do
spadku dokładności. Należy scalać tylko reguły o bardzo podobnej budowie, nie bardziej odległe
strukturalnie niż wynosi wartość ustalonego progu.
3.2. Metoda EM
Metoda EM (ang. „Expectation-Maximization”) służy do wyznaczania najbardziej prawdopodobnych
parametrów modelu probabilistycznego. Dwa kroki, E i M, wykonywane sa˛ naprzemiennie w p˛etli.
W kroku E parametry za parametry ukryte modelu przyjmuje si˛e ich zaobserwowane wartości (np.
zamiast prawdopodobieństw – cz˛estości). W kroku M oblicza si˛e najbardziej prawdopodobne warto-
ści parametrów modelu używajac ˛ wartości parametrów ukrytych wyznaczonych w poprzedzajacym ˛
kroku E. W kolejnym kroku E parametry ukryte wylicza si˛e na nowo, wykorzystujac ˛ poprawione
wartości parametrów modelu.
W pracy [7] zaproponowano interesujace˛ i bardzo naturalne rozszerzenie do tej metody. Brakujace˛
wartości atrybutów zostaja˛ właczone
˛ do ukrytej cz˛eści modelu. Dzi˛eki takiemu podejściu w każdym
kroku za brakujace
˛ wartości zostaja˛ niejawnie podstawione ich najlepsze przybliżenia.
3.3. Lightweight Rule Induction

Metoda zaproponowana przez Weissa i Indurkhya w pracy [8] polega na tworzeniu zbioru klas reguł,
każdy o tej samej mocy. Reguły nie maja˛ wag, a klasyfikowanie nowego przypadku sprowadza si˛e do
wybrania klasy z najwi˛eksza˛ liczba˛ głosów. Sam proces konstrukcji reguł opiera si˛e na szczególnej
trosce o niepoprawnie sklasyfikowane przypadki, co w bardziej rozbudowanej wersji leży u podstaw
boostingu.
Podstawowa˛ różnica˛ w stosunku do klasycznych algorytmów jest brak wag dla poszczególnych
reguł czy klas. Podczas indukcji algorytm zwraca uwag˛e na przypadki bł˛ednie rozpoznane przez
najwi˛eksza˛ liczb˛e reguł.
Autorzy twierdza,˛ że z uwagi na prostot˛e i nadmiarowość zbioru reguł, algorytm b˛edzie dobrze
klasyfikował również przypadki z nieokreślonymi atrybutami. W samym procesie tworzenia reguł
przetwarzane sa˛ jednak wyłacznie
˛ przypadki w pełni określone na wszystkich atrybutach, a wszystkie
pozostałe sa˛ opuszczane.
17
Rozdział 4
Eksperymenty
4.1. Opis eksperymentów

Nast˛epujace
˛ metody wnioskowania z niekompletnych danych zostały przetestowane eksperymental-
nie:
1. podejście naiwne (NULL);
2. uzupełnianie globalne najcz˛eściej wyst˛epujacym
˛ elementem (MF);
3. uzupełnianie najcz˛eściej wyst˛epujacym
˛ elementem według decyzji (MFD);
4. uzupełnianie z rozkładu według decyzji (DIST);
5. metoda najbliższych sasiadów
˛ (NGH).
Ponadto dla porównania podamy wyniki działania metody podziału D3 RJ, które pochodza˛ z pracy
[5], dla współczynnika skracania dajacego
˛ najlepsza˛ dokładność na nowych przypadkach.
Każda z tych metod była testowana metoda˛ kroswalidacji (CV10). Do generowania reguł decy-
zyjnych na przetworzonych danych użyto systemu RSES pracujacego˛ pod kontrola˛ systemu operacyj-
nego Linuks na stacjach roboczych HP XW4300. Reguły były generowane metoda˛ przeszukiwania
wyczerpujacego.
˛ Testowane były również rozmaite algorytmy genetyczne, lecz nie dawały one lep-
szych wyników, miały zaś wyraźnie gorszy czas działania.
Wykorzystane zostały nast˛epujace

˛ zestawy danych, pochodzace
˛ z Recursivepartitioning.com:
1. att — dane telemarketingowe AT&T, 2 klasy decyzyjne, 5 atrybutów numerycznych, 4 atrybuty
symboliczne, 1000 obiektów (24.4% niekompletnych), 4.1% brakujacych
˛ wartości;
2. edu — dane edukacyjne, 4 klasy decyzyjne, 9 atrybutów numerycznych, 3 atrybuty symbolicz-
ne, 1000 obiektów (100% niekompletnych), 22.6% brakujacych
˛ wartości;
3. hco — dane weterynaryjne, 2 klasy decyzyjne, 5 atrybutów numerycznych, 14 atrybutów sym-
bolicznych, 368 obiektów (89.4% niekompletnych), 19.9% brakujacych
˛ wartości;
4. hyp — dane medyczne, 2 klasy decyzyjne, 6 atrybutów numerycznych, 9 atrybutów symbo-
licznych, 3163 obiektów (36.8% niekompletnych), 5.1% brakujacych
˛ wartości;
5. smo2 — dane socjologiczne, 3 klasy decyzyjne, 4 atrybuty numeryczne, 4 atrybuty symbolicz-
ne, 2855 obiektów (18.7% niekompletnych), 2.5% brakujacych
˛ wartości.
Zestawy te zostały wybrane ze wzgl˛edu na zróżnicowana˛ liczb˛e przypadków, atrybutów oraz procen-
towa˛ zawartość brakujacych
˛ wartości.
19
4.2. Wyniki
Poniższa tabela prezentuje uzyskane dokładność dla każdej z metod na poszczególnych zestawach
danych:
NULL MF MFD DIST NGH D3 RJ
att 0.561 0.543 0.548 0.552 0.556 0.595
edu 0.437 0.412 0.474 0.424 0.424 0.542
hco 0.791 0.802 0.797 0.776 0.812 0.839
hyp 0.984 0.978 0.971 0.981 0.978 0.953
smo2 0.529 0.530 0.524 0.550 0.537 0.687
avg 0.660 0.653 0.663 0.657 0.661 0.723
4.3. Wnioski
Z przeprowadzonych eksperymentów płynie kilka ciekawych wniosków.
Współczesne systemy generowania reguł osiagn˛ ˛ eły bardzo wysoka˛ sprawność w radzeniu sobie
z brakujacymi
˛ wartościami. Uwagi z cz˛eści teoretycznej, odnoszace˛ si˛e do standardowych algoryt-
mów typu CN2, wydaja˛ si˛e już nie stosować. Reguły generowane przez RSES sa˛ bardzo ogólne i
dobrze sprawdzaja˛ si˛e na nowych przypadkach, również takich z brakujacymi˛ wartościami. Co cieka-
we, RSES „rozumie” wartość NULL i traktuje ja˛ specjalnie, a nie jak jeszcze jeden element dziedziny.
Osobne testy, które omijały t˛e funkcjonalność RSESa (NULL został zastapiony˛ innym ciagiem
˛ zna-
ków), pokazały spadek jakości generowanych reguł o 1-2%. Pokazuje to, o ile gorsze mogłyby być
starsze systemy. Szczegółowe dane nie zostały umieszczone w powyższej tabeli, gdyż interesuja˛ nas
sposoby poprawiania jakości reguł, a nie celowego jej pogarszania.
Poszczególne metody prostego uzupełniania braków niewiele różnia˛ si˛e od siebie. Uzupełnianie
globalne najcz˛eściej wyst˛epujac
˛ a˛ wartościa˛ prowadzi do nieznacznego, choć zauważalnego obniżenia
jakości, pozostałe podejścia nie daja˛ zaś poprawy. Wbrew oczekiwaniom, metoda najbliższych sasia-˛
dów nie prowadzi do istotnej poprawy dokładności, jest za to niezwykle kosztowna obliczeniowo.
Na tym tle wyjatkowo
˛ dobrze prezentuja˛ si˛e rezultaty metody D3 RJ, zwłaszcza na zestawach
att, edu i smo2. Dla zestawów hco i hyp D3 RJ bardzo wydłuża czas obliczeń, nie daje zaś żadnych
profitów pod wzgl˛edem jakości. Dla wszystkich zestawów danych metoda D3 RJ generuje krótsze,
ogólniejsze i mniej liczne reguły. Jeśli jest to istotnym czynnikiem (gdy klasyfikowana b˛edzie bardzo
duża liczba nowych obiektów), zawsze warto jest rozważyć stosowanie tej metody.
Ogólny wniosek dla generowania reguł decyzyjnych dla danych z brakujacymi ˛ wartościami jest
taki, że przy stosowaniu nowoczesnych narz˛edzi typu RSES metody dużo bardziej kosztowne obli-
czeniowo wcale nie musza˛ sobie radzić lepiej. Zawsze warto wykonać kilka eksperymentów również
na surowych danych oraz na danych uzupełnionych najcz˛estsza˛ wartościa˛ atrybutu według decyzji (co
w RSESie można osiagn ˛ ać
˛ kilkoma klikni˛eciami), gdyż w zależności od natury obiektów, o których
chcemy wnioskować, możemy nawet nie zauważyć różnicy w jakości generowanych reguł.
20
Bibliografia
[1] T.M. Mitchell. Machine Learning. The McGraw-Hill Companies, Inc., New York, NY, 1997.
[2] Jan G. Bazan. Metody wnioskowań aproksymacyjnych dla syntezy algorytmów decyzyjnych. Praca
doktorska, Uniwersytet Warszawski, Wydział Matematyki, Informatyki i Mechaniki, 1998.
[3] Stuart Russell and Peter Norvig. Artificial Intelligence: A Modern Approach, 2nd edition. Prentice
Hall, Upper Saddle River, NJ, 2003.
[4] Rafał Latkowski. Metody wnioskowania w oparciu o niekompletny opis obiektów. Praca magi-
sterska, Uniwersytet Warszawski, Wydział Matematyki, Informatyki i Mechaniki, 2001.
[5] Rafał Latkowski and Mikołaj Mikołajczyk. Data Decomposition and Decision Rule Joining for
Classification of Data with Missing Values. In J.F. Peters et al., editors, Transactions on Rough
Sets I, LNCS 3100, pages 299-320. Springer-Verlag, Berlin Heidelberg, 2004.
[6] P. Clark and T. Nibblet. The CN2 Induction Algorithm. In Machine Learning 3, pages 261-283.
Springer-Verlag, 1989.
[7] Zoubin Ghahramani and Michael I. Jordan. Supervised learning from incomplete data via an EM
approach. In J.D. Cowan, G. Tesauro, J. Alspector (editors), Advances in Neural Information
Processing Systems, Volume 6. Morgan Kaufmann, 1994.
[8] Sholom M. Weiss and Nitin Indurkhya. Lightweight Rule Induction. In Proceedings of the Inter-
national Conference on Machine Learning ICML 2000, 2000.
[9] Jan Bazan and Marcin Szczuka. RSES and RSESlib – a collection of tools for rough set computa-
tions. In Wojciech Ziarko and Yiyu Yao, editors, Second International Conference on Rough Sets
and Current Trends in Computing RSCTC, volume 2005 of Lecture Notes in Artificial Intelligence,
pages 106-113, Banff, Canada, 2001. Springer-Verlag.
21

KD Licencjat

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

KD Licencjat

Uploaded by

Copyright:

Available Formats

Uniwersytet Warszawski

Wydział Matematyki, Informatyki i Mechaniki

Wybrane metody generowania zbiorów

Praca wykonana pod kierunkiem

Data Podpis kierujacego

Oświadczenie autora (autorów) pracy

Świadom odpowiedzialności prawnej oświadczam, że niniejsza praca dyplomowa została

Data Podpis autora (autorów) pracy

W niniejszej pracy omawiamy problem wnioskowania z niekompletnych danych. Szczególnie b˛eda˛

Systemy decyzyjne, reguły decyzyjne, brakujace

Dziedzina pracy (kody wg programu Socrates-Erasmus)

68. Computer science.

Tytuł pracy w j˛ezyku angielskim

Selected methods of generating decision rules from incomplete data.

1. Podstawowe poj˛ecia i definicje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2. Uzupełnianie brakujacych˛ atrybutów . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3. Wnioskowanie bez uzupełniania brakujacych˛ atrybutów . . . . . . . . . . . . . . . . 15

Podstawowe poj˛ecia i definicje

1.1. Zbiory przybliżone

Systemy informacyjne wygodnie jest reprezentować graficznie w postaci tabel.

Definicja 2 Relacja nierozróżnialności INDA (B) ⊂ U × U generowana przez zbiór atrybutów B ⊂

Definicja 4 Dokładność hipotezy h na zbiorze przykładów V to

|{v ∈ V : h(v) 6= d(v)}|

1.3. Reguły decyzyjne

Definicja 8 Reguła decyzyjna jest to dowolna formuła postaci (α → β).

1.4. Drzewa decyzyjne

Test pozwala podzielić obiekty na |E| klas na podstawie wyników testu.

• scalanie danych pochodzacych

• fizyczna niepoznawalność (zasada nieoznaczoności Heisenberga);

• praktyczna niepoznawalność (zbyt kosztowne badania, pacjent nietolerujacy

• niedoskonałość aparatury pomiarowej (ograniczony zakres mierzonych wartości, bł˛edy pomia-

• możliwości prostego wywnioskowania przybliżonej, dostatecznie dokładnej wartości atrybutu.

Uzupełnianie jest naturalnym sposobem radzenia sobie z brakujacymi

2.1. Wartość NULL

2.2. Średnia wartość

2.3. Uzupełnianie z rozkładu

2.4. Wnioskowanie z pozostałych atrybutów

1. jeśli ai (x) = ai (y), to obiekty x i y nie różnia˛ si˛e na atrybucie ai ;

5. nierówność na atrybucie decyzyjnym jest szczególnie istotna.

Wnioskowanie bez uzupełniania

3.1. Metoda podziału (D3 RJ)

3.1.1. Ogólny opis metody

3.1.2. Wzorce wypełniania

3. Kryterium w(t)β · h(t): jest to uogólnienie poprzedniego kryterium, pozwalajace ˛ parametry-

3.3. Lightweight Rule Induction

4.1. Opis eksperymentów

Wykorzystane zostały nast˛epujace

You might also like