Professional Documents
Culture Documents
Arkadiusz Beer
6/10/2010
arekbee@gmail.com
Table of Contents
1. Wstp ................................................................................................................................................. 2
a. Konkurs .......................................................................................................................................... 2
b. Naiwny Klasyfikator Bayesowski................................................................................................ 4
c. Challenge Learning Object Package ......................................................................................... 5
d. Parametry komputera obliczajcego ......................................................................................... 5
2. Analiza danych statycznych ........................................................................................................... 5
a. Obliczenie parametrw statystycznych ..................................................................................... 5
b. Obliczenie macierzy kowariancji oraz wspczynnikw korelacji .......................................... 9
c. Obliczenie innych parametrw ................................................................................................. 10
3. Wizualizacja danych ...................................................................................................................... 11
a. Wykresy rozproszenia( plot, scatter) ....................................................................................... 11
b. Histogram (hist) .......................................................................................................................... 15
c. Wykresy pudekowe (boxplot) ................................................................................................... 20
d. Wykres supkowy ( Bar char) .................................................................................................... 22
e. Pareto ........................................................................................................................................... 24
4. Analiza za pomoc specjalnych metod....................................................................................... 24
a.
b.
c.
d.
1. Wstp
a. Konkurs
KDD 2009 jest konkursem nastawionym na modelowanie danymi oraz
pozyskiwaniem wiedzy z tych danych. Skrt pochodzi od Knowledge Discovery and
Data Mining. Tematyka konkursu jest powicona zagadnieniom Customer
Relationship Management (CRM), czyli zarzdzanie relacjami z klientami. S to nie
tylko narzdzia, ale cz strategii i filozofii biznesu, gdzie stay kontakt i
zadowolenie klienta jest kluczow wartoci. Dane do konkursu dostarczone s
przez firm Orange. Orange jest jednym ze wiatowych operatorw komrkowych,
ktry posiada ponad 170 milionw klientw. Poza Francj firma posiada 11
laboratoriw, a na obszarze pastwa znajduj si 7 laboratoriw.
Konkurs przebiega w dwch ciekach: szybkiej i wolnej. W ramach szybkiej
cieki naley zbudowa model w oparciu o peny zbir danych (15000 zmiennych
duy dataset). W ramach wolnej cieki organizatorzy dostarczaj znacznie mniejszy
zbir danych (230 zmiennych- may dataset).
Dane uczce i testujce (dla maego i duego dataset) skadaj si z 50 tys.
przykadw. Dla duego dataset, pierwsza cz (14 740 zmiennych) jest typem
numerycznym, a pozostaa(260 zmiennych) cz skada si z kategorii. Dla maego
dataset odpowiednio 190 i 60 zmiennych. Duy zbir danych w formacie plikw
.mat jest bardzo pamicioerne, gdy wielko na dysku wynosi ponad 384MB.
Natomiast may zbir danych potrzebuje ponad 12MB pamici. Do projektu ze
wzgldu na moc obliczeniow maszyny liczcej dane, bdzie si stosowao may
zbir danych.
Tab. nr1
Dla podanych wartoci stosuje si wraliwo (Sensitivity) oraz specyfikacje(Specificity)
wyznaczone ze wzoru:
Sensitivity = tp/pos
Specificity = tn/neg
gdzie:
pos=tp+fn (cakowita liczba pozytywnych przykadw)
neg=tn+fp (cakowita liczba negatywnych przykadw).
Ocena jest wyznaczana na postawie metody Area Under Curve (AUC)
Rys. nr 1
3
Wic model:
VAR 5
VAR 6
VAR 7
VAR 8
6048550 131761
140
589
43495
31371
0
898
976
13090
0
48513
5529
5539
50000
0
0
0
0
571
1486
8
1
1487
44471
44461
0
238793,5 1326,437 6,809496
0
0
861
7
0
0
0
0
0
2,213364 2,213364 2,213364 2,213364
6048550 131761
140
0
1
0
0
0
176410,6 1117,817 6,613167
119247,1 1038,977 6,181153
0
0
7
898
976
23530
4,15E+11 7212950 40,01895
0
0
0
1
0
D+0
D+0
D+0
D+0
D+0
D+0
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
DATAS
D+0+NAN
D+0+NAN
D+0+NAN
D+0+
NAN +
SORT
D+0+NAN
D+0+NAN
D+0+NAN
D+0+NAN
D+0+NAN
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D+0
D
D
D
D
D
D
FUN
MAX
mean
meadian
VAR 1
VAR 2
VAR 3
1
399
54
0,02166 193,1303 22,0819
0
182
26
VAR 4
VAR 5
3
23
0,51406 22,50848
0
23
VAR 6
4
1,0263
1
VAR 7
VAR 8
249
5795
113,717 2989,424
120
3285
meadian
182
26
23
120
3285
>0
COUNT 0
NAN COUNT
var
stand odch
min
unique
count
mean
meadian
harmonic
geometric
max-min
(max-min)
/max
min/max
winsorow
truncated
mode
modeCount
var
stand odch
MAX( X_i X_i-1 )
expected
(Min+Max)/2;
absolute
Deviation
(odchylenie
bezwzgldne)
Variation
Coefficient
(Wspczynnik
zmiennoci)
unique
count
mean
min
meadian
harmonic
1083
48917
0
0,021191
0,145572
0
2
50000
0,02166
0
46,16805
2,213364
1
49631
369
0
13979,03
118,2329
0
362
50000
193,1303
182
71,20658
2,213364
399
50000
0
0
110,4029
10,50728
1
51
50000
22,0819
26
5,427484
2,213364
53
12784
37216
0
0,773618
0,879555
0
4
50000
0,51406
0
7,833103
2,213364
3
50000
0
0
6,702222
2,588865
1
23
50000
22,50848
23
21,38691
2,213364
22
50000
0
0
0,07749
0,27837
1
4
50000
1,0263
1
1,006708
2,213364
3
49857
143
0
6389,674
79,93544
0
226
50000
113,717
120
19,24155
2,213364
249
50000
0
0
2622952
1619,553
1
4291
50000
2989,424
3285
966,0066
2,213364
5794
0,981481
0,956522
0,75
0,999827
0
0
0
0
48917
0,021191
0,145572
0
192,8973
192,493
348
385
13979,03
118,2329
0,018519
21,7158
22,18375
26
35964
110,4029
10,50728
0
0,043478
0,25
0
0,51054
23
1
113,4565
0,456145
23
1
112,7271
0
23
1
3
37216
47958
49550
4629
0,773618 6,702222 0,07749 6389,674
0,879555 2,588865 0,27837 79,93544
1
0,51406 22,50848
1,5
12
1
1,0263
2,5
0,000173
2988,706
3001,336
4018
4441
2622952
1619,553
9
113,717 2989,424
124,5
2898
361
51
3
23
4
225
4291
49631
50000
12784
50000
50000
49857
50000
194,5662 22,0819 2,01056 22,50848 1,0263 114,0432 2989,424
1
1
1
1
1
1
1
183
26
2
23
1
120
3285
70,68108 5,427484 2,002768 21,38691 1,006708 19,18652 966,0066
8
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
geometric
2,213364 2,213364 2,213364 2,213364
max-min
0
398
53
2
(max-min)
0
0,997494 0,981481 0,666667
/max
min/max
1
0,002506 0,018519 0,333333
winsorow
1
194,2712 21,7158
2
truncated
1
193,9639 22,18375
2
mode
1
348
26
2
modeCount
1083
385
35964
12567
var
0
13803,58 110,4029 0,016864
stand odch
0
117,4886 10,50728 0,129862
MAX( X_i 1
4
2
1
X_i-1 )
sum
1083
9656516 1104095 25703
negative
0
0
0
0
expected
1
194,5662 22,0819 2,01056
(Min+Max)/2;
1
200
27,5
2
absolute
Deviation
0
101,9933 7,859375 0,027244
(odchylenie
bezwzgldne)
Variation
Coefficient
0
0,603849 0,475832 0,06459
(Wspczynnik
zmiennoci)
Tab. Nr 2: Statystyka danych uczcych dla kategorii.
0,75
0,995984 0,999827
0,043478
0,25
0,004016
23
1
113,7734
23
1
113,079
23
1
3
47958
49550
4629
6,702222 0,07749 6370,804
2,588865 0,27837 79,81731
1
1125424
0
22,50848
12
51315
0
1,0263
2,5
5685851 1,49E+08
0
0
114,0432 2989,424
125
2898
Wnioski: Dane nie maj wartoci pustych (NaN). Wszystkie dane s liczbami cakowitymi.
Kada kategoria jest charakterystycznie inna (rna liczba unikatowych wartoci, rozpito
danych jest bardzo dua oraz liczba najczciej powtarzanych wartoci jest rna)
Pene statystyki w pliku Stats_Variable.xlsx i Stats_categorial.xlsx
0,000173
2988,706
3001,336
4018
4441
2622952
1619,553
Ranking
Wpyw DHonta. Jest to metoda wykorzystywana do wyliczenia iloci
mandatw (punktw) po ordynacji wyborczej. Wyznaczona liczba punktw to liczba
parametrw (kategorii). Kategorie z wartoci 0 nie wpywaj na wynik Zgodnie z
metoda DHonta kolumny, ktre maj najwikszy wpyw to kolumny nr:6; 21; 22; 25;
28; 35; 38; 44; 57; 73; 76; 78; 83; 85; 112; 113; 123; 132; 133; 134; 143; 153; 160;
163; 173; 181
Obserwacje odstajce
Ciko zaobserwowa dane odstajce, gdy nie ma gwarancji i jest tylko
jedna dana odstajca. Dane statystyczne takie jak odchylenie bezwzgldne,
Max(X_i X_i-1) oraz rozkad danych modalnych wskazuje i obserwacji odstajcych
jest wiele.
ii.
iii.
Duplikacja danych
Sprawdzajc dzielnie dane uczce dla zbioru zmiennych i kategoii mona
stwierdzi, e nie ma 2 takich samych danych nie wystpuje adna duplikacja
danych.
10
3. Wizualizacja danych
a. Wykresy rozproszenia( plot, scatter)
11
12
13
b. Histogram (hist)
15
16
Rys. Nr 7: Histogram danych uczcych dla zbioru zmiennych (zbir danych ograniczony do
20 zmiennych)
17
18
Rys. Nr 10: Histogram z iloci pustych danych (NaN) w danych uczcych zbioru zmiennych.
19
Rys. Nr11: Histogram z danymi unikalnymi dla danych uczcych zbioru zmiennych.
uczcych
Rys. Nr 13: Wykres pudekowy dla danych uczcych dla zbioru kategorii.
20
Rys. Nr 14: Wykres pudekowy dla danych uczcych dla zbioru zmiennych. Wykres
przedstawia tylko 95 zmiennych, gdy z powodu maej iloci pamici nie byo moliwoci
zwizualizowa190 zmiennych.
Rys. Nr 15: Wykres pudekowy dla danych uczcych dla zbioru zmiennych (dane zostay
skrcone do 20 pierwszych zmiennych)
21
Rys. Nr 16: Przedstawia ilo danych unikatowych dla 190 zmiennych danych uczcych.
Odcite reprezentuj kolejn zmienn w danych
22
Rys. Nr 17:Przedstawia ilo danych unikatowych dla 190 zmiennych danych uczcych. S
to dane w kolejnoci rosncej.
23
e. Pareto
AUC
Appetency
Train
Test
0.7805
0.7603
0.8006
0.7641
0.8144
0.7835
0.8144
0.7835
24
Score
Upselling
Train
Test
0.6623
0.6528
0.7093
0.6966
0.7841
0.7743
0.7841
0.7743
0.6893
0.7103
0.7471
0.7471
Score
Upselling
Train
Test
0.7509
0.7414
0.7457
0.7353
0.7406
0.7307
0.7320
0.7235
0.7249
0.7172
0.7242
0.7167
0.7037
0.7036
0.7104
0.7065
0.7043
0.7041
Score
Upselling
Train
Test
0.5004
0.5022
0.4997
0.4992
0.5000
0.4998
0.7125
0.7061
0.4989
0.4996
0.4998
0.7043
Churn
Train
Test
0.5690
0.5690
0.5690
0.5690
0.5690
0.5690
0.5690
0.5690
0.5690
0.5690
0.5690
25
AUC
Appetency
Train
Test
0.9571
0.9995
0.9557
0.8712
0.8237
0.8466
0.8288
0.8205
0.7297
0.8138
0.8085
0.6665
0.6093
0.6660
0.7241
0.7693
0.7543
0.7891
0.7809
0.6806
0.7741
0.7699
Score
Upselling
Train
Test
0.9225
0.9916
0.9047
0.8317
0.8391
0.8279
0.8254
0.8082
0.7793
0.8235
0.6935
0.7616
0.7555
0.7690
0.8051
0.7948
0.8053
0.8029
0.7978
0.7680
0.8032
0.6870
0.6657
0.6446
0.6680
0.6994
0.7110
0.7095
0.7203
0.7159
0.6725
0.7154
0.6753
Wnioski:
Model MLP ma bardzo dobre wyniki dla danych uczcych, ale dla danych testujcych s
nieefektywne. Dla cechy Churn model MLP nie wpywa. Dla 200 iteracji nastpuje
przeuczenie sieci. Optymalna sie posiada 5 neuronw ukrytych i 100 iteracji.
Dla sieci posiadajcej wicej ni 200 neurony ukryte nastpuje brak wolnej pamici.
Dane
Metoda
Churn
Train
Small
Test
Appetency
Train
Test
Upselling
Train
Score
Test
Large (slow track) Submission 1.0000 0.7651 1.0000 0.8816 1.0000 0.9091 0.8519
Large (fast track)
Final
1.0000 0.7611 1.0000 0.8830 1.0000 0.9038 0.8493
Submission
26
7. Bibliografia
Internet:
http://www.sigkdd.org/kdd2009/
http://www.kddcup-orange.com/index.php
http://www.afia-france.org/tiki-index.php?page=GroupeDeLecture090313VL
http://dataminingalapolonaise.wordpress.com/2009/03/20/kdd-cup-2009/
http://en.wikipedia.org/wiki/Churn_rate
http://en.wikipedia.org/wiki/Naive_Bayes
http://pl.wikipedia.org/wiki/Zarz%C4%85dzanie_relacjami_z_klientami
http://pl.wikipedia.org/wiki/Data_mining
http://wazniak.mimuw.edu.pl/
http://clopinet.com/CLOP/
http://clopinet.com/isabelle/Projects/Vilanova/
http://clopinet.com/isabelle/Projects/modelselect/MFAQ.html
http://clopinet.com/isabelle/Projects/agnostic/MFAQ.html
http://www.statsoft.pl/textbook/glosfra_stat.html?http%3A%2F%2Fwww.statsoft.pl%2Ftextbo
k%2Fglosa.html
http://www.kddcup-orange.com/factsheet.php?id=66
PDFs:
http://www.ifi.uzh.ch/pax/uploads/pdf/publication/832/TM-fextract-class.pdf
http://www.clopinet.com/CLOP/QuickStart.pdf
http://u.math.biu.ac.il/~louzouy/courses/seminar/kmeans1.pdf
Ksiki:
Uczenie maszynowe i sieci neuronowe Krzysztof Krawiec, Jerzy Stefanowski,2003
27