KDD 2009

KDD 2009
Wizualizacja i analiza danych
Arkadiusz Beer
6/10/2010
arekbee@gmail.com
Table of Contents
1. Wstp ................................................................................................................................................. 2
a. Konkurs .......................................................................................................................................... 2
b. Naiwny Klasyfikator Bayesowski................................................................................................ 4
c. Challenge Learning Object Package ......................................................................................... 5
d. Parametry komputera obliczajcego ......................................................................................... 5
2. Analiza danych statycznych ........................................................................................................... 5
a. Obliczenie parametrw statystycznych ..................................................................................... 5
b. Obliczenie macierzy kowariancji oraz wspczynnikw korelacji .......................................... 9
c. Obliczenie innych parametrw ................................................................................................. 10
3. Wizualizacja danych ...................................................................................................................... 11
a. Wykresy rozproszenia( plot, scatter) ....................................................................................... 11
b. Histogram (hist) .......................................................................................................................... 15
c. Wykresy pudekowe (boxplot) ................................................................................................... 20
d. Wykres supkowy ( Bar char) .................................................................................................... 22
e. Pareto ........................................................................................................................................... 24
4. Analiza za pomoc specjalnych metod....................................................................................... 24
a.
Analiza i wizualizacja za pomoc metody PCA ................................................................. 24
b.
Analiza i wizualizacja za pomoc metody k-nn .................................................................. 25
c.
Analiza i wizualizacja za pomoca SubModeli ..................................................................... 25
d.
Analiza i wizualizacja za pomoc modelu MLP ................................................................. 25
5. Model zwycizcy konkursu ........................................................................................................... 26

6. Podsumowanie i wnioski kocowe .............................................................................................. 27
7. Bibliografia ....................................................................................................................................... 27
1. Wstp
a. Konkurs
KDD 2009 jest konkursem nastawionym na modelowanie danymi oraz
pozyskiwaniem wiedzy z tych danych. Skrt pochodzi od Knowledge Discovery and
Data Mining. Tematyka konkursu jest powicona zagadnieniom Customer
Relationship Management (CRM), czyli zarzdzanie relacjami z klientami. S to nie
tylko narzdzia, ale cz strategii i filozofii biznesu, gdzie stay kontakt i
zadowolenie klienta jest kluczow wartoci. Dane do konkursu dostarczone s
przez firm Orange. Orange jest jednym ze wiatowych operatorw komrkowych,
ktry posiada ponad 170 milionw klientw. Poza Francj firma posiada 11
laboratoriw, a na obszarze pastwa znajduj si 7 laboratoriw.
Konkurs przebiega w dwch ciekach: szybkiej i wolnej. W ramach szybkiej
cieki naley zbudowa model w oparciu o peny zbir danych (15000 zmiennych
duy dataset). W ramach wolnej cieki organizatorzy dostarczaj znacznie mniejszy
zbir danych (230 zmiennych- may dataset).
Dane uczce i testujce (dla maego i duego dataset) skadaj si z 50 tys.
przykadw. Dla duego dataset, pierwsza cz (14 740 zmiennych) jest typem
numerycznym, a pozostaa(260 zmiennych) cz skada si z kategorii. Dla maego
dataset odpowiednio 190 i 60 zmiennych. Duy zbir danych w formacie plikw
.mat jest bardzo pamicioerne, gdy wielko na dysku wynosi ponad 384MB.
Natomiast may zbir danych potrzebuje ponad 12MB pamici. Do projektu ze
wzgldu na moc obliczeniow maszyny liczcej dane, bdzie si stosowao may
zbir danych.
Podstawowe zadania zwizane z prezentowanym zbiorem danych obejmuj klasyfikacja do

klas:
churn: typowanie klientw, ktrzy s skonni porzuci aktualnego operatora.
Moment churn jest wtedy, kiedy klient koczy wspprac z firm. Jeeli klient
posiada produkt lub usug w czasie tn to w czasie tn+1 ju nie posiada. Jeeli
nadal klient posiada produkt w czasie tn+1 nie churn
appetency: identyfikacja klientw, ktrzy s skonni skorzysta z nowych ofert
lub naby nowy produkt
up-selling: identyfikacja klientw, ktrzy s skonni wybra dodatkowe opcje,
wyposaenie, lub kosztowniejszy abonament.
Na opracowanie wyniku skada si:
Binarna warto {-1, +1} wskazujca przynaleno do klasy
Warto dyskryminacji (pozytywna dla klasy pozytywnej, negatywna dla klasy
negatywnej)
2
Warto z przedziau (0, 1) okrelajca prawdopodobiestwa przynalenoci do

pozytywnej klasy
Ranking, najmniejsza warto przedstawiajca klasyfikacj danego przykadu, ktry
ma najwysze prawdopodobiestwo przynalenoci do negatywnej klasy
Tab. nr1
Dla podanych wartoci stosuje si wraliwo (Sensitivity) oraz specyfikacje(Specificity)
wyznaczone ze wzoru:
Sensitivity = tp/pos
Specificity = tn/neg
gdzie:
pos=tp+fn (cakowita liczba pozytywnych przykadw)
neg=tn+fp (cakowita liczba negatywnych przykadw).
Ocena jest wyznaczana na postawie metody Area Under Curve (AUC)
Rys. nr 1
3
b. Naiwny Klasyfikator Bayesowski

Jednym z podstawowych modeli klasyfikacji klientw zastosowany w ramach
konkursu jest Naiwny Klasyfikator Bayesowski. Model ten jest oparty na zaoeniu o
wzajemnej niezalenoci predykatw (zmiennych niezalenych). Nazwa naiwny pochodzi z
powodu braku zwizku z rzeczywistoci. Model mona wyprowadzi korzystajc z
twierdzenia Bayesa.
Model prawdopodobiestwa dla klasyfikatora z twierdzenia Bayesa
Interesuje nas tylko licznik uamka, bo mianownik nie zaley

od C i wartoci cechy Fi s dane. Mianownik jest, wic stay.
Model prawdopodobiestwa mona zapisa, wykorzystujc prawdopodobiestwo
warunkowe:
Niech cecha Fi jest warunkowo niezalena od kadej innej cechy
Wic model:
Gdzie Z jest wspczynnikiem skalowania zalenym wycznie od
Naiwny klasyfikator bayerowski czy model prawdopodobiestwa z regu decyzyjn.

Jedna, oglna regua ma wydoby hipotez najbardziej prawdopodobn. Jest to funkcja
classify zdefiniowana wzorem:
c. Challenge Learning Object Package

Do analizy danych zostao stworzone specjalne narzdzie zwane CLOP (Challenge
Learning Object Package). Jest to obiektowy pakiet nauczania maszynowego wzorowany na
pakiecie Spider z Instytutu Max Plancka nad zagadnieniami Biologii Cybernetycznej.
CLOP jest zbudowany na dwch abstrakcjach (data i algorytm).
CLOP jest w wersji 1.6 (Kwiecie 2009) do zastosowa problemw z KDD.
Aby uywa modu CLOP wystarczy wystartowa skrypt use_spider_clop.m ktry si
znajduje w katalogu gownym pakietu CLOP.
Komendy CLOP:
whoisclop wywietla list dostpnych obiektw uczcych
data stats(X) wywietla statystyk obiektu X
isclop(X) sprawdza czy obiekt X jest obiektem CLOP
default(X) wywietla hiperparamtry, ktre s publiczne z obiektu X
d. Parametry komputera obliczajcego

Komputer Acer z systemem Windows 7 Ultimate Beta,
Procesor Intel Celeron M 1.5 GHz
Pami RAM 2GB
Pami wirtualna 3GB
Architektura komputera 32bit
Matlab 2009a
Poprzez komend feature('memstats') Matlab wywietla statystyk pamicici.
2. Analiza danych statycznych

a. Obliczenie parametrw statystycznych
Legenda:
NUM- numer w penej statystyce
MEAN - rednia arytmetyczna
MAX maksymalna warto w kolumnie
MIN minimalna warto w kolumnie
MEADINA mediana
NAN warto w Matlabie okrelajca, e podany element nie jest liczb
VAR wariancja
STAN DEV (Standard deviation) odchylenie standardowe
Unique- ilo unikatowych wartoci
Count ilo wartoci
Harmonic rednia harmoniczna, okrelona wzorem:
Winsorow rednia winsorowska ( przesortowaniu
argumentw, brzegowe elementy zostaj zastpione
5
elementami bardziej wewntrznymi) .W projekcie parametr okrelajcy ile elementw maj

by zmienionych jest ustwiony na 10%. Warto wyliczona wg. wzoru:
Truncated rednia ucinana (przesortowaniu argumentw, brzegowe elementy zostaj

usunite ze zbioru licz do obliczenia redniej) wg. wzoru:
max-min liczba okrelajca rozpito (max X min X)
Mode najczciej wystpujca warto
ModeCount- ilo najczciej wystpujcej wartoci
MAX( X_i - X_i-1 ) maksymalna rnica midzy elementem obecnym a wczeniejszym
Expected warto oczekiwana
Sum suma wszystkich wartoci w kolumnie
Negative iloc elementw w wartoci ujemn
(Min+Max)/2 rednia z minimalnej oraz maksymalnej wartoci w kolumnach
Absolute Deviation - odchylenie bezwzgldne
Variation Coefficient - Wspczynnik zmiennoci wg. Wzoru:
VAR 1, VAR 2 okrelenie nazwy zmiennej odpowiednio nr 1 i nr 2

W miejscu gdzie nie ma wartoci jest matlabowska warto NaN
Z powodu zbyt duych iloci danych (190 parametrw) przedstawiam tylko statystyk dla
DATAS
FUN
VAR 1
VAR 2
VAR 3
VAR 4
MAX
D+0+NAN
680
5
130668
27
>0
D+0+NAN
322
1
244
18
D+0+NAN COUNT 0
380
1240
996
1561
D+0+NAN NAN COUNT 49298
48759
48760
48421
min
D+0
0
0
0
0
unique
D+0
18
2
146
4
count
D+0
702
1241
1240
1579
mean
D+0
11,48718 0,004029 425,2984 0,125396
meadian
D+0
0
0
0
0
harmonic
D+0
0
0
0
0
geometric 2,213364 2,213364 2,213364 2,213364
D+0
max-min
D+0
680
5
130668
27
(max-min)
D+0
1
1
1
1
/max
min/max
D+0
0
0
0
0
winsorow 7,589744
D+0
0
42,97984
0
truncated 6,647709
D+0
0
19,57117
0
mode
D+0
0
0
0
0
modeCount
D+0
380
1240
996
1561
var
D+0
1657,3 0,020145 18234553 1,626851
pierwszych 8 parametrw.
6
VAR 5
VAR 6
VAR 7
VAR 8
6048550 131761
140
589
43495
31371
0
898
976
13090
0
48513
5529
5539
50000
0
0
0
0
571
1486
8
1
1487
44471
44461
0
238793,5 1326,437 6,809496
0
0
861
7
0
0
0
0
0
2,213364 2,213364 2,213364 2,213364
6048550 131761
140
0
1
0
0
0
176410,6 1117,817 6,613167
119247,1 1038,977 6,181153
0
0
7
898
976
23530
4,15E+11 7212950 40,01895
0
0
0
1
0
D+0
D+0
D+0
D+0
D+0
D+0
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
stand odch 40,70995 0,141933 4270,194 1,275481 644126,4 2685,694 6,326053

0
MAX( X_i 208
5
88080
9
947850
16716
98
0
X_i-1 )
expected
11,48718 0,004029 425,2984 0,125396 238793,5 1326,437 6,809496
0
(Min+Max)/2;
340
2,5
65334
13,5
3024275 65880,5
70
0
Absolute
13,80729 0,008052 773,3378 0,247933 350566,3 975,7924 4,00964
0
Deviation
Variation
3,543947 35,22783 10,04046 10,17164 2,69742 2,024743 0,929005
Coefficient
unique
17
1
145
3
570
1485
7
1
count
322
1
244
18
589
43495
31371
0
mean
25,04348
5
2161,352
11
602862,3 1356,202 9,650856
0
min
8
5
3
9
15
7
7
0
meadian
16
5
141
9
240545
868
7
0
harmonic 12,61696
5
32,58897 9,918367 5204,501 317,2508 8,166129
0
geometric 2,213364 2,213364 2,213364 2,213364 2,213364 2,213364 2,213364 2,213364
max-min
672
0
130665
18
6048535 131754
133
0
(max-min)
0,988235
0
0,999977 0,666667 0,999998 0,999947
0,95
/max
min/max
0,011765
1
2,3E-05 0,333333 2,48E-06 5,31E-05
0,05
winsorow 18,43478
5
1284,332
11
560075,3 1145,357 9,372605
0
truncated 16,90722
0
841,2081 10,05882 468676,7 1064,917 8,858221
0
mode
8
5
3
9
432000
777
7
0
modeCount
138
1
9
15
9
364
23530
1
var
3278,659
0
89206041 24,35294 8,29E+11 7334441 29,29553
0
stand odch 57,25957
0
9444,895 4,93487 910318,6 2708,217 5,412535
0
MAX( X_i 208
5
88080
9
947850
16716
98
0
X_i-1 )
sum
8064
5
527370
198
3,55E+08 58987985 302757
0
negative
0
0
0
0
0
0
0
0
expected
25,04348
5
2161,352
11
602862,3 1356,202 9,650856
0
(Min+Max)/2;
344
5
65335,5
18
3024283
65884
73,5
0
Absolute
19,45666
0
3306,904 3,333333 614412,5 981,0404 3,97658
0
Deviation
Variation
2,286407
0
4,3699 0,448625 1,509994 1,996914 0,560835
Coefficient
Tab. Nr 1 Statystyka danych uczcych dla parametrw.
Wnioski: Cz parametrw dla danych uczcych s wypenione samymi pustymi danymi
(VAR 8) lub maja mao zapisanych danych (macierz rzadka). Wszystkie dane s liczbami
cakowitymi. Wikszo danych s wartociami nie ujemnymi (wyjtek stanowi parametr VAR
28, VAR 113 i VAR 188). Rozpito danych dla rnych parametrw jest bardzo dua.
Najczciej spotykan wartoci numeryczn jest 0.
DATAS
D+0+NAN
D+0+NAN
D+0+NAN
D+0+
NAN +
SORT
D+0+NAN
D+0+NAN
D+0+NAN
D+0+NAN
D+0+NAN
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D
D
D
D
D
D
FUN
MAX
mean
meadian
VAR 1
VAR 2
VAR 3
1
399
54
0,02166 193,1303 22,0819
0
182
26
VAR 4
VAR 5
3
23
0,51406 22,50848
0
23
VAR 6
4
1,0263
1
VAR 7
VAR 8
249
5795
113,717 2989,424
120
3285
meadian
182
26
23
120
3285
>0
COUNT 0
NAN COUNT
var
stand odch
min
unique
count
mean
meadian
harmonic
geometric
max-min
(max-min)
/max
min/max
winsorow
truncated
mode
modeCount
var
stand odch
MAX( X_i X_i-1 )
expected
(Min+Max)/2;
absolute
Deviation
(odchylenie
bezwzgldne)
Variation
Coefficient
(Wspczynnik
zmiennoci)
unique
count
mean
min
meadian
harmonic
1083
48917
0
0,021191
0,145572
0
2
50000
0,02166
0
46,16805
2,213364
1
49631
369
0
13979,03
118,2329
0
362
50000
193,1303
182
71,20658
2,213364
399
50000
0
0
110,4029
10,50728
1
51
50000
22,0819
26
5,427484
2,213364
53
12784
37216
0
0,773618
0,879555
0
4
50000
0,51406
0
7,833103
2,213364
3
50000
0
0
6,702222
2,588865
1
23
50000
22,50848
23
21,38691
2,213364
22
50000
0
0
0,07749
0,27837
1
4
50000
1,0263
1
1,006708
2,213364
3
49857
143
0
6389,674
79,93544
0
226
50000
113,717
120
19,24155
2,213364
249
50000
0
0
2622952
1619,553
1
4291
50000
2989,424
3285
966,0066
2,213364
5794
0,981481
0,956522
0,75
0,999827
0
0
0
0
48917
0,021191
0,145572
0
192,8973
192,493
348
385
13979,03
118,2329
0,018519
21,7158
22,18375
26
35964
110,4029
10,50728
0
0,043478
0,25
0
0,51054
23
1
113,4565
0,456145
23
1
112,7271
0
23
1
3
37216
47958
49550
4629
0,773618 6,702222 0,07749 6389,674
0,879555 2,588865 0,27837 79,93544
1
0,02166 193,1303 22,0819

0,5
199,5
27,5
0,51406 22,50848
1,5
12
1
1,0263
2,5
0,000173
2988,706
3001,336
4018
4441
2622952
1619,553
9
113,717 2989,424
124,5
2898
0,042382 102,595 7,859375 0,76525 0,942893 0,052127 69,61109 1401,514
6,720785 0,612193 0,475832 1,710998 0,115017 0,271236 0,702933 0,541761

1
1083
1
1
1
1
361
51
3
23
4
225
4291
49631
50000
12784
50000
50000
49857
50000
194,5662 22,0819 2,01056 22,50848 1,0263 114,0432 2989,424
1
1
1
1
1
1
1
183
26
2
23
1
120
3285
70,68108 5,427484 2,002768 21,38691 1,006708 19,18652 966,0066
8
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
geometric
2,213364 2,213364 2,213364 2,213364
max-min
0
398
53
2
(max-min)
0
0,997494 0,981481 0,666667
/max
min/max
1
0,002506 0,018519 0,333333
winsorow
1
194,2712 21,7158
2
truncated
1
193,9639 22,18375
2
mode
1
348
26
2
modeCount
1083
385
35964
12567
var
0
13803,58 110,4029 0,016864
stand odch
0
117,4886 10,50728 0,129862
MAX( X_i 1
4
2
1
X_i-1 )
sum
1083
9656516 1104095 25703
negative
0
0
0
0
expected
1
194,5662 22,0819 2,01056
(Min+Max)/2;
1
200
27,5
2
absolute
Deviation
0
101,9933 7,859375 0,027244
(odchylenie
bezwzgldne)
Variation
Coefficient
0
0,603849 0,475832 0,06459
(Wspczynnik
zmiennoci)
Tab. Nr 2: Statystyka danych uczcych dla kategorii.
2,213364 2,213364 2,213364 2,213364

22
3
248
5794
0,956522
0,75
0,995984 0,999827
0,043478
0,25
0,004016
23
1
113,7734
23
1
113,079
23
1
3
47958
49550
4629
6,702222 0,07749 6370,804
2,588865 0,27837 79,81731
1
1125424
0
22,50848
12
51315
0
1,0263
2,5
5685851 1,49E+08
0
0
114,0432 2989,424
125
2898
0,942893 0,052127 69,47996 1401,514
0,115017 0,271236 0,699887 0,541761
Wnioski: Dane nie maj wartoci pustych (NaN). Wszystkie dane s liczbami cakowitymi.
Kada kategoria jest charakterystycznie inna (rna liczba unikatowych wartoci, rozpito
danych jest bardzo dua oraz liczba najczciej powtarzanych wartoci jest rna)
Pene statystyki w pliku Stats_Variable.xlsx i Stats_categorial.xlsx
b. Obliczenie macierzy kowariancji oraz wspczynnikw korelacji

Do obliczenia macierzy kowariancji naleao zastosowa kilka operacji
1) Wyznaczenie, ktre kolumny w macierz z danymi do uczenia s najwaniejsze
a. Na podstawie najwikszej liczby wartoci
b. Na podstawie najwikszej liczby unikatowych wartoci
Oby dwie metody zwracaj prawie te same kategorie. Zastosowaem pkt.a.
2) Zmniejszenie rozmiaru macierzy do 50%
Macierz przyjmuje 50000 elementw i liczba parametrw jest zmniejszona z 190 do
95 parametrw
3) Moliwoci wypenienie wartoci pustych (NaN) wartociami specjalnymi
a. redni arytmetyczna z kolumny
b. Zerami
Dane puste (NaN) wypeniem rednia arytmetyczna kolumny
0,000173
2988,706
3001,336
4018
4441
2622952
1619,553
4) Wyznaczenie specjalnych macierzy

a. Macierz kowariancji
b. Wyznaczanie wspczynnikw korelacji
Z powodu zbyt duych macierzy, dane zawarte s w pliku macierz_cov_corr.xslx.

Z powodu zbyt duej i rzadkich danych uczcych dla zbioru licz zmiennych,
ilo danych zmiennych (kolumny macierzy) zostan zmniejszone do 20 najwicej
wypenionych zmiennych.
c. Obliczenie innych parametrw

i.
Ranking
Wpyw DHonta. Jest to metoda wykorzystywana do wyliczenia iloci
mandatw (punktw) po ordynacji wyborczej. Wyznaczona liczba punktw to liczba
parametrw (kategorii). Kategorie z wartoci 0 nie wpywaj na wynik Zgodnie z
metoda DHonta kolumny, ktre maj najwikszy wpyw to kolumny nr:6; 21; 22; 25;
28; 35; 38; 44; 57; 73; 76; 78; 83; 85; 112; 113; 123; 132; 133; 134; 143; 153; 160;
163; 173; 181
Obserwacje odstajce
Ciko zaobserwowa dane odstajce, gdy nie ma gwarancji i jest tylko
jedna dana odstajca. Dane statystyczne takie jak odchylenie bezwzgldne,
Max(X_i X_i-1) oraz rozkad danych modalnych wskazuje i obserwacji odstajcych
jest wiele.
ii.
iii.
Duplikacja danych
Sprawdzajc dzielnie dane uczce dla zbioru zmiennych i kategoii mona
stwierdzi, e nie ma 2 takich samych danych nie wystpuje adna duplikacja
danych.
10
3. Wizualizacja danych
a. Wykresy rozproszenia( plot, scatter)
Rys. Nr 2: Rozproszenie danych uczcych dla zbioru kategorii.
Z powodu zbyt duej rozbienoci w wielkoci danych zawartych w danych uczcych w

zbierze zmiennych, wizualizacja jest na 3 zdjciach ( a- wielko danych do 3 rzdy, bwielko danych od 3 do 6 rzdu, c- wielko danych powyej 6 rzdy).
11
Rys. Nr 3a. Rozproszenie danych uczcych dla zbioru zmiennych.

.
12
Rys. Nr 3b. Rozproszenie danych uczcych dla zbioru zmiennych.
13
Rys. Nr 3c. Rozproszenie danych uczcych dla zbioru zmiennych.
Rys. Nr 4: Rozproszenie wartoci rednich dla danych uczcych zbioru zmiennych.

14
b. Histogram (hist)
Rys. Nr 5: Histogram danych uczcych dla zbioru kategorii
15
Rys. Nr 6: Histogram danych uczcych dla zbioru zmiennych.
16
Rys. Nr 7: Histogram danych uczcych dla zbioru zmiennych (zbir danych ograniczony do
20 zmiennych)
Rys. Nr 8: Histogram reprezentujcy wartoci maksymalne dla danych uczcych zbioru

zmiennych.
Wniosek: Tylko niewielka ilo danych posiada maksymaln warto.
17
Rys. Nr 9: Histogram danych uczcych zbioru zmiennych z wartociami modalnymi

(najczciej spotykanych)
Wniosek: Najwicej danych jest z maego zakresu.
18
Rys. Nr 10: Histogram z iloci pustych danych (NaN) w danych uczcych zbioru zmiennych.
19
Rys. Nr11: Histogram z danymi unikalnymi dla danych uczcych zbioru zmiennych.
uczcych
c. Wykresy pudekowe (boxplot)
Rys. Nr 13: Wykres pudekowy dla danych uczcych dla zbioru kategorii.
20
Rys. Nr 14: Wykres pudekowy dla danych uczcych dla zbioru zmiennych. Wykres
przedstawia tylko 95 zmiennych, gdy z powodu maej iloci pamici nie byo moliwoci
zwizualizowa190 zmiennych.
Rys. Nr 15: Wykres pudekowy dla danych uczcych dla zbioru zmiennych (dane zostay
skrcone do 20 pierwszych zmiennych)
21
d. Wykres supkowy ( Bar char)
Rys. Nr 16: Przedstawia ilo danych unikatowych dla 190 zmiennych danych uczcych.
Odcite reprezentuj kolejn zmienn w danych
22
Rys. Nr 17:Przedstawia ilo danych unikatowych dla 190 zmiennych danych uczcych. S
to dane w kolejnoci rosncej.
23
e. Pareto
Rys Nr 18:Wizualizacja iloci danych dla 10 zmiennych w danych uczcych.

Wniosek: 10 najbardziej zapenionych zmiennych stanowi okoo 30% wszystkich danych.
20% danych stanowi 8 zmiennych
4. Analiza za pomoc specjalnych metod

Do poszczeglnych analiz, dane s przeksztacone poprzez dziaanie preprocessingu.
Zadaniem preprocesingu jest:
- Wypenia puste dane median
- Usunicie staych wartoci
- Standaryzacja danych
Preprocessing dziaa zarwno na dane uczce jak i na dane testujce.
Wyniki dla danych testujcych oraz parametr score jest obliczany na stronie
internetowej www.kddcup-orange.com przy wysyaniu modelu.
a. Analiza i wizualizacja za pomoc metody PCA

Churn
f_max
Train
Test
50
0. 6551
0.6546
100
0.6717
0.6703
1000
0.6823
0.6834
10000
0.6823
0.6834
Tab. Nr 3: Wyniki dla modelu PCA
AUC
Appetency
Train
Test
0.7805
0.7603
0.8006
0.7641
0.8144
0.7835
0.8144
0.7835
24
Score
Upselling
Train
Test
0.6623
0.6528
0.7093
0.6966
0.7841
0.7743
0.7841
0.7743
0.6893
0.7103
0.7471
0.7471
b. Analiza i wizualizacja za pomoc metody k-nn

AUC
Churn
Appetency
k
Train
Test
Train
Test
5
0.5957
0.5916
0.7938
0.7781
15
0.6035
0.6022
0.7918
0.7734
25
0.6285
0.6295
0.7887
0.7711
30
0.6272
0.6281
0.7871
0.7678
35
0.6272
0.6281
0.7868
0.7678
45
0.6264
0.6277
0.7871
0.7680
Tab. Nr 4: Wyniki dla modelu k-najbliszych ssiadw
Score
Upselling
Train
Test
0.7509
0.7414
0.7457
0.7353
0.7406
0.7307
0.7320
0.7235
0.7249
0.7172
0.7242
0.7167
0.7037
0.7036
0.7104
0.7065
0.7043
0.7041
c. Analiza i wizualizacja za pomoca SubModeli

AUC
Churn
Appetency
Num
Train
Test
Train
Test
100
0.4991
0.5018
0.5058
0.4925
1000
0.4991
0.4983
0.5008
0.5014
10000
0.5000
0.4999
0.5000
0.4996
100000
0.6428
0.6419
0.7872
0.7648
Tab. Nr 5: Wyniki dla modelu SubModel
Score
Upselling
Train
Test
0.5004
0.5022
0.4997
0.4992
0.5000
0.4998
0.7125
0.7061
0.4989
0.4996
0.4998
0.7043
Analiza polega na podzieleniu wszystkich danych wejciowych na p czci.

Dla kadych p-czci dokonuje si analizy poprzez Naiwny Klasyfikator Bayesowski
d. Analiza i wizualizacja za pomoc modelu MLP

CLOP standardowo nie ma implementacji sieci neuronowych. Dlatego mona skorzysta z
NETLAB TOOLBOX.
Churn
Train
Test
Neutrony Max iteracji

ukryte
200
200
0.9902
100
2000
0.9902
100
200
0.9902
10
200
0.9902
10
100
0.9902
5
200
0.9902
5
100
0.9902
5
50
0.9902
5
10
0.9902
2
200
0.9902
1
200
0.9902
Tab. Nr 4: Wyniki dla modelu MLP
0.5690
0.5690
0.5690
0.5690
0.5690
0.5690
0.5690
0.5690
0.5690
0.5690
0.5690
25
AUC
Appetency
Train
Test
0.9571
0.9995
0.9557
0.8712
0.8237
0.8466
0.8288
0.8205
0.7297
0.8138
0.8085
0.6665
0.6093
0.6660
0.7241
0.7693
0.7543
0.7891
0.7809
0.6806
0.7741
0.7699
Score
Upselling
Train
Test
0.9225
0.9916
0.9047
0.8317
0.8391
0.8279
0.8254
0.8082
0.7793
0.8235
0.6935
0.7616
0.7555
0.7690
0.8051
0.7948
0.8053
0.8029
0.7978
0.7680
0.8032
0.6870
0.6657
0.6446
0.6680
0.6994
0.7110
0.7095
0.7203
0.7159
0.6725
0.7154
0.6753
Wnioski:
Model MLP ma bardzo dobre wyniki dla danych uczcych, ale dla danych testujcych s
nieefektywne. Dla cechy Churn model MLP nie wpywa. Dla 200 iteracji nastpuje
przeuczenie sieci. Optymalna sie posiada 5 neuronw ukrytych i 100 iteracji.
Dla sieci posiadajcej wicej ni 200 neurony ukryte nastpuje brak wolnej pamici.
5. Model zwycizcy konkursu

Zwycizc konkursu zosta IBM Research w IBM T.J. Watson Research Center z modelem
Submission.
Do preprocesu Submission naley:
-Normalizacja przez zasig
-Zamiana pustych danych za pomoc redniej danego parametru
-Dyskretyzacja
-PCA
Wczeniejsza selekcja poprzez ranking cech. Proces klasyfikacji jest zoony i skada si
m.in. z takich modeli jak:
-Naiwny Klasyfikator Bayesa
-K-Najbliszych Ssiadw
-Drzewo decyzyjne
-SVM
Wg. IBM Research nie ma uniwersalnego modelu. Dla poszczeglnych zada model jest
rny:
-churn- logiczna regresja (logistic regression)
-appetancy-Lasy Losowe (random forests)
-upselling- boosted trees
Obliczenia byy wykonywane rwnolegle na rnych maszynach o rnych parametrach,
gdzie m.in. cakowita pami tych maszyn nie przekraczaa 8GB.
Do zespou IBM Research naleao 12 ludzi, co oznaczao, e IBM wyda bardzo duo
zasobw, aby przeanalizowa dane. Mimo i wyniki dla danych uczcych uzyskali na
maksymalnym poziomie (AUC dla Train jest rwny 1.0 dla kadego zadania) to i tak wyniki
dla danych testujcych (ktre s przeprowadzane po przesaniu na stron) s na poziomie
0.76 0.90.
Dane
Metoda
Churn
Train
Small
Test
Appetency
Train
Test
Upselling
Train
Score
Test
Submission 1.0000 0.7651 1.0000 0.8819 1.0000 0.9092 0.8521
Large (slow track) Submission 1.0000 0.7651 1.0000 0.8816 1.0000 0.9091 0.8519
Large (fast track)
Final
1.0000 0.7611 1.0000 0.8830 1.0000 0.9038 0.8493
Submission
Tab. Nr 5: Wyniki dla rnych modeli uzyskanych przez IBM Research
26
6. Podsumowanie i wnioski kocowe

Dane przygotowane do konkursu KDD s bardzo due. Przy obliczeniach oraz
wizualizacji danych najczstszym komunikatorem w Matlabie bya informacja o pamici (Out
of memory. Type HELP MEMORY for your options). Do projektu wybraem dane z
mniejszego zbioru( may dataset skadajcy si z 50tys przykadw i 230 danych), gdy na
przecitnym komputerze nie jest si w stanie obliczy takich danych.
Zwycizca konkursu (IBM Research) powici duo czasu, aby przeprowadzi gruntown
analiz danych przesanych przez Orange. Dla rnych zada s rne modele
obliczeniowe.
7. Bibliografia
Internet:
http://www.sigkdd.org/kdd2009/
http://www.kddcup-orange.com/index.php
http://www.afia-france.org/tiki-index.php?page=GroupeDeLecture090313VL
http://dataminingalapolonaise.wordpress.com/2009/03/20/kdd-cup-2009/
http://en.wikipedia.org/wiki/Churn_rate
http://en.wikipedia.org/wiki/Naive_Bayes
http://pl.wikipedia.org/wiki/Zarz%C4%85dzanie_relacjami_z_klientami
http://pl.wikipedia.org/wiki/Data_mining
http://wazniak.mimuw.edu.pl/
http://clopinet.com/CLOP/
http://clopinet.com/isabelle/Projects/Vilanova/
http://clopinet.com/isabelle/Projects/modelselect/MFAQ.html
http://clopinet.com/isabelle/Projects/agnostic/MFAQ.html
http://www.statsoft.pl/textbook/glosfra_stat.html?http%3A%2F%2Fwww.statsoft.pl%2Ftextbo
k%2Fglosa.html
http://www.kddcup-orange.com/factsheet.php?id=66
PDFs:
http://www.ifi.uzh.ch/pax/uploads/pdf/publication/832/TM-fextract-class.pdf
http://www.clopinet.com/CLOP/QuickStart.pdf
http://u.math.biu.ac.il/~louzouy/courses/seminar/kmeans1.pdf
Ksiki:
Uczenie maszynowe i sieci neuronowe Krzysztof Krawiec, Jerzy Stefanowski,2003
27

KDD 2009

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

KDD 2009

Uploaded by

Copyright:

Available Formats

KDD 2009

Wizualizacja i analiza danych

Analiza i wizualizacja za pomoc metody PCA ................................................................. 24

Analiza i wizualizacja za pomoc metody k-nn .................................................................. 25

Analiza i wizualizacja za pomoca SubModeli ..................................................................... 25

Analiza i wizualizacja za pomoc modelu MLP ................................................................. 25

5. Model zwycizcy konkursu ........................................................................................................... 26

Podstawowe zadania zwizane z prezentowanym zbiorem danych obejmuj klasyfikacja do

Warto z przedziau (0, 1) okrelajca prawdopodobiestwa przynalenoci do

b. Naiwny Klasyfikator Bayesowski

Model prawdopodobiestwa dla klasyfikatora z twierdzenia Bayesa

Interesuje nas tylko licznik uamka, bo mianownik nie zaley

Niech cecha Fi jest warunkowo niezalena od kadej innej cechy

Gdzie Z jest wspczynnikiem skalowania zalenym wycznie od

Naiwny klasyfikator bayerowski czy model prawdopodobiestwa z regu decyzyjn.

c. Challenge Learning Object Package

d. Parametry komputera obliczajcego

2. Analiza danych statycznych

elementami bardziej wewntrznymi) .W projekcie parametr okrelajcy ile elementw maj

Truncated rednia ucinana (przesortowaniu argumentw, brzegowe elementy zostaj

VAR 1, VAR 2 okrelenie nazwy zmiennej odpowiednio nr 1 i nr 2

stand odch 40,70995 0,141933 4270,194 1,275481 644126,4 2685,694 6,326053

0,02166 193,1303 22,0819

0,042382 102,595 7,859375 0,76525 0,942893 0,052127 69,61109 1401,514

6,720785 0,612193 0,475832 1,710998 0,115017 0,271236 0,702933 0,541761

2,213364 2,213364 2,213364 2,213364

0,942893 0,052127 69,47996 1401,514

0,115017 0,271236 0,699887 0,541761

b. Obliczenie macierzy kowariancji oraz wspczynnikw korelacji

4) Wyznaczenie specjalnych macierzy

Z powodu zbyt duych macierzy, dane zawarte s w pliku macierz_cov_corr.xslx.

c. Obliczenie innych parametrw

Rys. Nr 2: Rozproszenie danych uczcych dla zbioru kategorii.

Z powodu zbyt duej rozbienoci w wielkoci danych zawartych w danych uczcych w

Rys. Nr 3a. Rozproszenie danych uczcych dla zbioru zmiennych.

Rys. Nr 3b. Rozproszenie danych uczcych dla zbioru zmiennych.

Rys. Nr 3c. Rozproszenie danych uczcych dla zbioru zmiennych.

Rys. Nr 4: Rozproszenie wartoci rednich dla danych uczcych zbioru zmiennych.

Rys. Nr 5: Histogram danych uczcych dla zbioru kategorii

Rys. Nr 6: Histogram danych uczcych dla zbioru zmiennych.

Rys. Nr 8: Histogram reprezentujcy wartoci maksymalne dla danych uczcych zbioru

Rys. Nr 9: Histogram danych uczcych zbioru zmiennych z wartociami modalnymi

c. Wykresy pudekowe (boxplot)

d. Wykres supkowy ( Bar char)

Rys Nr 18:Wizualizacja iloci danych dla 10 zmiennych w danych uczcych.

4. Analiza za pomoc specjalnych metod

a. Analiza i wizualizacja za pomoc metody PCA

b. Analiza i wizualizacja za pomoc metody k-nn

c. Analiza i wizualizacja za pomoca SubModeli

Analiza polega na podzieleniu wszystkich danych wejciowych na p czci.

d. Analiza i wizualizacja za pomoc modelu MLP

Neutrony Max iteracji

5. Model zwycizcy konkursu

Submission 1.0000 0.7651 1.0000 0.8819 1.0000 0.9092 0.8521

Tab. Nr 5: Wyniki dla rnych modeli uzyskanych przez IBM Research

6. Podsumowanie i wnioski kocowe

You might also like