1 Wprowadzenie

Eksploracja danych
Wprowadzenie w
problematykę
Przemówienie Billa Clintona 6.11.2002:

o niedługo po wydarzeniach z 11 września 2001 agenci FBI
przeanalizowali olbrzymie ilości danych o konsumentach i
odkryli, że dane o 5 sprawcach zamachu były przechowywane w
bazie:
• jeden z terrorystów miał 30 kart kredytowych z łącznym saldem
równym 250 000$ i był w USA krócej niż 2 lata
• Mohamed Atta miał 12 różnych adresów, 2 prawdziwe domy i 10
kryjówek
• „powinniśmy aktywnie wyszukiwać dane tego typu i jeżeli ktoś jest
tutaj kilka lat albo krócej i ma 12 domów, to jest albo naprawdę
bogaty albo coś kombinuje – nie powinno być trudno to sprawdzić”
Zalew danych
„Toniemy w danych, ale cierpimy na brak wiedzy”, John
Naisbitt, Megatrends, Warner Bross, 1986
o nasze możliwości analizowania i rozumienia tak dużych wolumenów
danych – dużo mniejsze od możliwości ich gromadzenia i
przechowywania
• data tombs – rzadko odwiedzane archiwa
Wielkie wolumeny danych są trudne do analizowania
o brak wystarczającej liczby analityków wykwalifikowanych w
przetwarzaniu danych w wiedzę
o brak odpowiednich technologii
o systemy ekspertowe – wiedza wprowadzana ręcznie (ryzyko
błędów, czasochłonne)
o wiedza taka (o działalności przedsiębiorstwa, poziomie i strukturze
sprzedaży oraz cechach klienta) może posłużyć do wspomagania
podejmowania decyzji
• obecnie – decyzje podejmowane intuicyjnie
• -> źródło rozwoju nowej technologii eksploracji danych
Wg internetowego magazynu ZDNET News (2001) „eksploracja
danych będzie jednym z najbardziej rewolucyjnych osiągnięć
następnej dekady”
o MIT Technology Review wybrało eksplorację danych jako jedną z 10 nowych
technologii, które zmienią świat”
3
Skąd się biorą dane?
Trwający wzrost w dziedzinie eksploracji danych napędzany jest

przez sprzyjające nałożenie się różnych czynników:
o gwałtowny wzrost zbiorów danych - stare dane nieusuwane
• spadek cen mediów do składowania informacji cyfrowych o wiele
większy niż spadek cen pamięci RAM, czy procesorów
• upowszechnianie się technologii służących do automatycznego
pobierania danych: czytniki kodów kreskowych, digitalizacja
dokumentów w urzędach publicznych, firmach ubezpieczeniowych,
bankach
• => pozyskiwanie i gromadzenie danych staje się łatwiejsze, a technologie
tańsze i powszechniejsze
o przechowywanie danych w hurtowniach, tak aby całe przedsiębiorstwo
miało dostęp do wiarygodnej, używanej bazy danych
o możliwość zwiększonego dostępu do danych z Internetu i intranetu
o rozwój pakietów gotowego komercyjnego oprogramowania do eksploracji
danych
Rozmiary współczesnych baz danych

Wg raportu Winter Corporation rozmiar:
o największej operacyjnej bazy danych w 2005: 23 TB (Land
Registry for England and Wales)
o rozmiar największej hurtowni przekroczył 155TB (Sybase + Sun
Microsystems)
Akcelerator wiązek protonowych LHC
o zaprojektowana baza danych umożliwia składowanie eksabajta
danych (1EB=1024PB=10^18B)
• szacuje się, że akcelerator będzie generował 15 petabajtów danych
rocznie ze średnią prędkością 1,5GB/sek
• eksperymenty zaplanowane na 15 najbliższych lat
Podwajanie ilości przechowywanych danych co 18 miesięcy
Wielkie bazy danych - przykłady

AT&T obsługuje miliardy połączeń dziennie
o danych jest tyle, że nie można ich wszystkich zapamiętać –
analiza tych danych jest wykonywana „w locie” (tzw. strumienie
danych)
sieć sprzedaży Wal-Mart gromadzi dziennie dane dotyczące ponad
20 milionów transakcji
Koncern Mobil Oil rozwija magazyn danych pozwalający na
przechowywanie ponad 100 terabajtów danych o wydobyciu ropy
naftowej
system satelitarnej obserwacji EOS zbudowany przez NASA
generuje w każdej godzinie dziesiątki gigabajtów danych
pochodzących ze zdjęć satelitarnych
niewielkie supermarkety rejestrują codziennie sprzedaż tysięcy
produktów
6
Ewolucja technologii bazodanowej
lata 1960’te:
o przetwarzanie plików, początki baz, hierarchiczne i sieciowe DBMS
lata 1970’te:
o Relacyjny model danych, implementacje relacyjnych DBMS
lata 1980’te:
o RDBMS, zaawansowane modele danych (rozszerzony relacyjny,
obiektowy, obiektowo-relacyjny, dedukcyjny, etc.)
o DBMS zorientowane na zastosowanie (przestrzenne, naukowe,
inżynierskie, etc.)
lata 1990’te:
o Data mining, hurtownie danych, multimedialne bazy danych i webowe
lata 2000:
o Strumienie danych – zarządzanie i eksploracja
o Upowszechnienie data mining i jego zastosowania
o Technologia Web (XML, integracja danych) i systemy globalnej
informacji
Czym jest eksploracja danych?

Eksploracja danych (odkrywanie wiedzy w bazach danych):
o Proces znajdowania nietrywialnych, dotychczas
nieznanych, potencjalnie użytecznych reguł, zależności,
wzorców schematów, podobieństw lub trendów w dużych
repozytoriach danych (bazach danych, hurtowniach
danych, itp.)
• odkrywane wzorce mają najczęściej postać reguł logicznych,
klasyfikatorów (np. drzew decyzyjnych), zbiorów skupień,
wykresów, itp.
Cel eksploracji danych:
o Analiza danych i procesów w celu lepszego ich
zrozumienia
• eksploracja danych otwiera nowe możliwości w zakresie
interakcji użytkownika z systemem bazy danych i
magazynem danych:
umożliwia sformułowanie zapytań na znacznie wyższym
poziomie abstrakcji aniżeli pozwala na to standard SQL
Zależności w bazach – przykład 1
wiek lat prawo kolor poj. moc razem

kierowcy jazdy pojazdu silnika szkody
----------------------------------------------------------------------------------------------------------------------------
42 24 biały 1610 100 0
19 1 czerwony 650 24 2500
28 4 czerwony 1100 40 0
41 20 czarny 1800 130 0
21 3 czerwony 650 24 1300
20 1 niebieski 650 24 0
•Kierowcy, którzy jeżdżą czerwonymi samochodami o pojemności 650 ccm powodują

wypadki drogowe
•Kierowcy w wieku powyżej 40 lat jeżdżą samochodami o pojemności większej niż 1600 ccm
•Kierowcy, którzy posiadają prawo jazdy dłużej niż 3 lata, nie powodują wypadków
•Kierowcy w wieku poniżej 30 lat jeżdżą samochodami koloru czerwonego
9
Zależności w bazach – przykład 2
transakcja produkt dzień cena

----------------------------------------------------------------------------------------------------------------------------
1 pizza sobota 48,40
1 mleko sobota 2,80
1 chleb sobota 1,50
2 piwo wtorek 16,20
2 orzeszki wtorek 8,50
3 chleb sobota 1,50
3 orzeszki sobota 25,50
3 piwo sobota 32,40
• piwo i orzeszki są zawsze kupowane wspólnie

• chleb uczestniczy w transakcjach na kwotę większą niż 50 złotych
10
Typy pytań do repozytoriów danych

Można wyróżnić 3 typy zapytań do repozytoriów danych:
o Zapytania operacyjne do bazy danych:
• Ile butelek wina sprzedano w I kwartale 2006 w sklepie
Auchan w Poznaniu
o Zapytanie analityczne oparte o model OLAP:
• Ile sprzedano butelek wina w sieci Auchan na terenie kraju z
podziałem na województwa, gatunki win oraz kwartały, w
ciągu ostatnich 5 lat?
• zapytania sterowane przez użytkownika
• analiza porównawcza zagregowanych danych operuje na
zbyt szczegółowym poziomie abstrakcji i nie pozwala na
formułowanie bardziej ogólnych zapytań
o Eksploracja danych = złożone zapytania
• znacznie bardziej ogólne i znacznie bardziej abstrakcyjne
11
Zapytania eksploracyjne (1)

Przykłady zapytań eksploracyjnych:
o Jakie jeszcze inne produkty, najczęściej kupują klienci, którzy
kupują wino?
o Czym różnią się koszyki klientów kupujących wino i piwo?
o W jaki sposób można scharakteryzować klientów kupujących
wino?
o W jaki sposób pogrupować klientów kupujących wino?
o Czy można dokonać predykcji, że danych klient kupi wino?
Zapytań takich nie można zrealizować przy pomocy SQL czy
OLAP
Dany jest zbiór danych opisujących pacjentów szpitala. Czy
potrafimy w oparciu o ten zbiór danych:
o Poprawnie zdiagnozować pacjenta (określić chorobę)?
o Przewidzieć poprawnie wynik terapii?
o Zaproponować najlepszą terapię?
12
Przykłady zapytań
Baza danych Data mining

o Znajdź
Znajdź wszystkich o Znajdź
Znajdź wszystkich
kredytobiorcó
kredytobiorców o nazwisku kredytobiorcó
kredytobiorców, któ
którzy są
są
Smith. obarczeni duż
dużym ryzykiem
kredytowym. (klasyfikacja)
klasyfikacja)
o Zidentyfikuj klientó
klientów, któ
którzy o Zidentyfikuje klientó
klientów z
wydali wię
więcej niż
niż $10,000 w podobnymi
cią
cią gu ostatniego miesią
miesi ca
ą przyzwyczajeniami
zakupowymi.
zakupowymi. (klastrowanie)
klastrowanie)
o Znajdź
Znajdź wszystkie towary,
o Znajdź
Znajdź wszystkich klientó
klientów,
któ któ
które są
są czę
często kupowane
którzy kupili mleko
z mlekiem. (reguł
reguły
asocjacyjne)
asocjacyjne)
13
Eksploracja danych a
odkrywanie wiedzy w bazach danych
Raczej ustalona terminologia:

terminologia:
o Data mining (eksploracja danych)
• Zazwyczaj DM traktowane jest jako część procesu KDD
o Knowledge discovery in databases (KDD - odkrywanie wiedzy w
bazach danych)
• Ogólny termin obejmujący wstępne przetwarzanie danych, DM oraz
późne przetwarzanie wyników
Ekstrakcja wiedzy, inteligencja biznesowa, pozyskiwanie wiedzy
„Ciekawe okreś
określenia”
lenia”:
o Archeologia danych, kopanie danych, eksploatacja złóż danych
Czym nie jest eksploracja danych:
o Systemy ekspertowe
o OLAP
• OLAP zakłada, że użytkownik posiada pełną wiedzę o przedmiocie
analizy i potrafi sterować tym procesem
• DM umożliwia analizę danych dla problemów, które ze względu na swój
rozmiar są trudne do przeprowadzenia oraz tych problemów, dla
których nie dysponujemy pełną wiedzą o przedmiocie analizy, co
uniemożliwia sterowanie procesem analizy danych
14
Proces KDD
Data mining jądro procesu

odkrywania wiedzy Ocena wzorców
i prezentacja
Data Mining
Dane przygotowane
do analizy
Hurtownia Selekcja
danych i transformacja
Czyszczenie danych
Integracja danych
Bazy danych 15
Architektura typowego systemu DM -
komponenty
Graficzny Interfejs
Ocena Wzorców
Baza
Motor Data Mining Wiedzy
Serwer Bazy Danych lub

Hurtowni
czyszczenie danych, integracja i selekcja
Baza Hurtownia World-Wide Inne

danych Danych Web Repozytoria
16
Data Mining a Business Intelligence
Business Intelligence (1958) - proces przekształcania danych w informacje, a informacji w wiedzę,

która może być wykorzystana do zwiększenia konkurencyjności przedsiębiorstwa
Wzrastający potencjał
Końcowy
do wspomagania
użytkownik
decyzji biznesowych
Podejmowanie
decyzji
Prezentacja danych Analityk

biznesowy
Techniki wizualizacji
Data Mining Analityk
Odkrywanie wiedzy danych
Eksploatacja danych
Analiza statystyczna, Zapytania i raportowania
Hurtownie danych/Składnice danych
OLAP, MDA
DBA
Źródła danych
Papier, Pliki, Dokumenty Web, Systemy baz danych, OLTP
17
Mieszanka wielu dyscyplin

Technologia bazodanowa
Statystyka
Uczenie maszynowe
o Sieci neuronowe, algorytmy drzew decyzyjnych
Techniki wizualizacji danych
Teoria informacji
o Miary podobieństwa,
Wyszukiwanie informacji
Inne dyscypliny:
o Modelowanie matematyczne, rozpoznawanie obrazów,
technologie internetowe, etc.
Różnorodność i wielość metod DM wywodzących się często z
różnych dyscyplin badawczych, utrudnia potencjalnym
użytkownikom identyfikację metod, które są
najodpowiedniejsze z punktu widzenia ich potrzeb w zakresie
analizy danych
18
Dziedziny zastosowań (1)
Handel i marketing
o identyfikacja „profilu klienta” dla przewidywania, którzy
klienci odpowiedzą na marketing korespondencyjny
o segmentacja klientów w celu opracowania strategii
promocji
o wykrywanie schematów zakupów i planowania lokalizacji
artykułów
Finanse i bankowość
o identyfikacja schematów wykorzystania kradzionych kart
kredytowych
o przewidywanie ryzyka udzielenia kredytu lub pożyczki
o przewidywanie dochodowości portfela akcji, znajdowanie
korelacji wśród wskaźników finansowych
19
Dziedziny zastosowań (2)

Nauka i technologia
o wykrywanie powiązań między skutecznością leczenia a
zastosowaną terapią medyczną
o przewidywanie wzrostów obszarów leśnych
o wykrywanie schematów alarmowych w sieciach
telekomunikacyjnych
Internet (Web Mining)
o grupowanie i określanie ważności dokumentów znajdowanych
przez wyszukiwarki internetowe
o automatyczne dostosowywanie struktury i zawartości serwisu
internetowego do przewidywanych oczekiwać użytkownika
20
Interaktywność procesu KDD

Niektóre wczesne definicje eksploracji skupiały się na
automatyzacji:
o np. definicja Berry’ego i Linoff’a z 1997:
• „Eksploracja danych jest procesem badania i analizy, za pomocą
zautomatyzowanych lub wpół zautomatyzowanych środków dużych ilości
danych, aby odkryć znaczące wzorce i reguły”
o ale w 2000: „jeśli mamy czegoś żałować, to jest to wyrażenie…
gdyż za dużo uwagi zostało poświęcone technice automatyzacji, a
za mało badaniom i analizom – było to mylące i wiele osób
uwierzyło, że eksploracja jest produktem, który można kupić, a nie
dyscypliną, którą trzeba opanować
Automatyzacja nie zastąpi udziału człowieka
Podejmuje decyzję w zakresie np.
o wyboru podzbioru danych, reprezentacji wiedzy, algorytmów
eksploracji
Rola użytkownika w interpretacji i ocenie wiedzy
Proces odkrywania wiedzy wymaga intensywnego
współdziałania człowieka z systemem
Proces ten jest z definicji interaktywny i interakcyjny
21
Dlaczego należy wstępnie obrabiać dane?
Większość surowych danych przechowywanych w bazach

jest nieobrobiona, niekompletna, zaszumiona.
Przykładowo baza danych może zawierać:
o pola, które są przestarzałe lub zbędne
o rekordy z brakującymi wartościami
o punkty oddalone (ang. outliers)
o dane znajdujące się w formacie nieodpowiednim dla modeli
eksploracji danych
o wartości niezgodne z zasadami zdrowego rozsądku
Aby baza była przydatna do celów eksploracji danych, musi
przejść przez wstępną obróbkę danych w formie czyszczenia
danych i przekształcania danych
Nadrzędnym celem jest GIGO:
o minimalizacja „śmieci”, które dostają się do modelu, tak aby model
minimalizował liczbę otrzymanych błędnych wyników
Dorian Pyle („Data Preparation for Data Mining”):
o sama wstępna obróbka danych zajmuje 60% czasu i wysiłku
poświęconego na cały proces eksploracji danych
22
Przykład
dziwny kod pocztowy błąd? błąd wprowadzania?

St.Hyancinthe w Quebec Kody pocztowe Nowej Anglii C, 0, jak uaktualniać
zaczynają się od ‘0’
ID Kod Płeć Dochód Wiek Stan Kwota

klienta pocztowy cywiln transakcji
y
1001 10048 M 75 000 C M 5 000
1002 J2S7K7 K -40 000 40 W 4 000
1003 90210 10 000 000 45 S 7 000
1004 6269 M 50 000 0 S 1 000
1005 55101 K 99 999 30 R 3 000
punkt oddalony kod braku danych?

brak wartości
23
Główne zadania we
wstępnym przetwarzaniu danych
Czyszczenie danych
o Uzupełnianie brakujących wartości, wygładzanie zakłóconych danych,
identyfikacja lub usuwanie szumów i rozwiązywanie niezgodności
• ignorowanie, zastąpienie brakującej wartości stałą, średnią, średnią
dla klasy, wartością wygenerowaną losowo z obserwowanego
rozkładu zmiennej , wykorzystanie najbardziej prawdopodobnej
wartości do uzupełnienia brakującej (sieci bayes’a, drzewa
decyzyjne)
Integracja danych
o Integracja z wielu baz danych, kostek danych lub plików
• problem identyfikacji jednostek logicznych: identyfikacja
rzeczywistych jednostek z wielu źródeł danych, niespójność w
nazwach -> nadmiarowość, konflikty wartości -> różne
reprezentacje, skale, kodowania
Transformacja danych
o Przekształcanie danych do postaci odpowiedniej do DM
o Normalizacja (aby zmienne z większym zakresem nie miały
nadmiernego wpływu na wyniki) i agregacja
Redukcja danych
o Uzyskiwanie zredukowanej reprezentacji w objętości ale tych samych
lub podobnych wyników analitycznych
Dyskretyzacja danych
o Część redukcji, głównie dla danych numerycznych (dzielenie na zakresy
ciągłego atrybutu)
24
Jakie dane można eksplorować?
Zbiory i aplikacje zorientowane na bazy danych
o Relacyjne bazy danych
o Hurtownie danych
o Transakcyjne bazy danych
Zaawansowane zbiory danych i aplikacje
o Strumienie danych i dane z czujników
o Temporalne, sekwencyjne i czasowe bazy danych
o Dane grafowe, sieci społeczne
o Obiektowo-relacyjne bazy danych
o Heterogeniczne i spadkowe (legacy) bazy danych
o Dane przestrzenne i czasowo-przestrzenne
o Multimedialne bazy
o Tekstowe bazy
o World-Wide Web
25
Klasyfikacje metod DM
Ze względu na sposób wykorzystania odkrytego modelu
o deskrypcyjne:
• automatyczne formułowanie uogólnień dotyczących danych, w celu
uchwycenia ogólnych cech opisywanych obiektów
o predykcyjne:
• na podstawie wzorców odkrytych w dużych wolumenach danych
przewidywanie cech, wartości i zachowań obiektów
Ze względu na charakter wykorzystywanych danych
źródłowych:
o uczenie nadzorowane:
• każdy obiekt posiada etykietę przypisującą obiekt do jednej z
predefiniowanych klas
o uczenie bez nadzoru
• żadne etykiety obiektów nie są znane
formułowanie modelu wiedzy maksymalnie zgodny z obserwowanymi
danymi
26
Metody eksploracji danych

Odkrywanie charakterystyk
Klasyfikacja/regresja
Grupowanie
Odkrywanie asocjacji
Odkrywanie sekwencji
Wykrywanie zmian i odchyleń
Znajdowanie obiektów odległych (samotników)
Web mining
Text mining
27
Metody eksploracji: klasyfikacja
Zbudowanie modelu przypisującego nowy, wcześniej
niewidziany obiekt do jednej ze zbioru predefiniowanych klas
o przypisanie następuje na podstawie doświadczenia
nabytego przez model w fazie uczenia na zbiorze
uczącym
o technika rozwijana równolegle w sztucznej inteligencji,
uczeniu maszynowym, wspomaganiu decyzji – setki
algorytmów klasyfikacji
• najpopularniejsze: klasyfikacja bayesowska, drzewa
decyzyjne, sieci neuronowe, sieci bayesowskie, techniki
bazujące na k najbliższych sąsiadach
• zastosowania:
diagnostyka medyczna
rozpoznawanie trendów na rynkach finansowych
automatyczne rozpoznawanie obrazów
przydział kredytów bankowych
28
Przykład klasyfikacji
Dlaczego licealiści idą na studia?
29
Analiza drzewa decyzyjnego

Wszyscy studenci
Idą na studia:
33% Yes
67% No
Zachęta rodziców = Yes Zachęta Zachęta rodziców = No

rodziców ?
Idą na studia: Idą na studia:
57% Yes 6% Yes
43% No 94% No
IQ Wysokie IQ IQ
Idą na studia:
18% Yes Niskie IQ
82% No
Idą na studia:
Wysokie IQ Niskie IQ Średnie IQ 4% Yes
Idą na studia: Idą na studia: Idą na studia: 96% No
74% Yes 29% Yes 9% Yes
26% No 71% No 91% No
30
Przewidywanie ryzyka wystąpienia zakażenia
Po przeprowadzeniu operacji, lekarze chcą wiedzieć, jakie jest

ryzyko wystąpienia zakażenia miejsca operowanego u pacjenta.
Dla pacjentów o podwyższonym ryzyku można podjąć dodatkowe
środki ostrożności i monitorować ich stan częściej, niż pozostałych
Do tej pory lekarze decyzję o klasyfikacji pacjenta do grupy
wysokiego ryzyka podejmowali samodzielnie na podstawie:
o grupy wiekowej (osoby po 60 r.ż. bardziej narażone na
zakażenia)
o stan według ASA (im gorszy stan według ASA, tym większe
prawdopodobieństwo wystąpienia zakażenia)
o czas i rodzaj zabiegu (każdy zabieg ma określony pewien
maksymalny czas, po którego przekroczeniu znacznie wzrasta
ryzyko zakażenia )
o metodologia zabiegu (wideochirurgia powoduje znacznie
mniej zakażeń niż metody klasyczne )
o czystość pola operowanego
31
Budowa drzewa decyzyjnego
32
Wykorzystanie drzewa
33
Metody eksploracji: regresja
Podobna do klasyfikacji
o różnica:
• w klasyfikacji zadanie polega na przewidywaniu wartości atrybutu
dyskretnego
• technik regresji próbują, na podstawie doświadczenia zdobytego na
zbiorze uczącym przewidzieć nieznaną wartość atrybutu
numerycznego
• zastosowania:
analiza danych finansowych
systemy logistyczne (np. podczas przewidywania przyszłego poboru
energii elektrycznej)
34
Metody eksploracji: grupowanie

Polega na podziale zbioru obiektów na partycje w taki
sposób, aby jednocześnie maksymalizować podobieństwo
między obiektami przypisanymi do tej samej grupy i
minimalizować podobieństwo między obiektami przypisanymi
do różnych grup zgodnie z zadaną miarą podobieństwa
między obiektami
o dziesiątki algorytmów: k-średnich, k-medoids, algorytmy CURE,
PAM, CLARA, CLARANS,...
o zastosowania:
• grupowanie dokumentów,
• grupowanie klientów,
• segmentacja rynku
35
Metody eksploracji: odkrywanie asocjacji

Znajdowanie związków między współwystępowaniem grup
elementów w zbiorach danych
o najczęściej stosowane do analizy koszyka zakupów
• badana kolekcja: zbiór transakcji klientów
• znalezione podzbiory: produkty których sprzedaż jest ze
sobą powiązana
{makaron,anchois} => {kapary} (0.5%,65%}
• zastosowanie:
analiza koszyka zakupów, rozkład półek i towarów na półkach,
konstruowanie wiązanych ofert sprzedaży, marketing bezpośredni
diagnozy lekarskie
telekomunikacja
analiza dostępu do serwisów WWW
automatyczna personalizacja serwisów WWW
36
Metody eksploracji: wzorce sekwencji
Rozwinięcie modelu reguł asocjacyjnych o element następstwa
zdarzeń
o reprezentują podsekwencje zdarzeń elementarnych
występujących często w bazie sekwencji
{Ojciec chrzestny}=>{Kasyno}=>{Człowiek z blizną} (1.5%)
• kolejne wystąpienia elementów wzorca mogą być ograniczone przez
szerokość okna czasowego wewnątrz którego muszą się znaleźć,
aby utworzyć wzorzec sekwencji
o zastosowanie:
• odkrywanie częstych sekwencji w historii połączeń
telekomunikacyjnych
• znajdowanie sekwencji świadczących o grożącej awarii sieci
komputerowej
• planowanie inwestycji giełdowych, przewidywanie sprzedaży,
analiza zachować użytkowników WWW
kurs akcji KGHM, który podczas ostatnich trzech sesji wzrósł o
0,5%, 0,9%, 0,1% na następnej sesji spadnie o 0,5%
5% użytkowników serwisu WWW odwiedziło w ciągu jednej sesji najpierw
stronę wakacje.html, później promocje.html, a następnie dojazd_wlasny.html
37
Przewidywanie zmian oporności czynników

etiologicznych na antybiotyki (1)
Do ochrony przed bakteriami pacjentom podaje się

antybiotyki
o zbyt długie stosowanie pojedynczego antybiotyku w tym
samym szpitalu powoduje jednak, że bakterie uodparniają się
na niego, i jego dalsze użycie staje się bezcelowe.
Po wystąpieniu zakażenia u operowanego pacjenta, badana
jest bakteria, która to zakażenie spowodowała, oraz jej
oporność na użyty antybiotyk.
Zbierając dane przez kilka lat, lekarze chcieliby móc określić,
w którym momencie na antybiotyk uodpornił się zbyt duży
procent bakterii i należy go zmienić.
Przydatne mogą być także informacje, jak oporność bakterii
zmienia się w ciągu roku.
38
Przewidywanie zmian oporności czynników

etiologicznych na antybiotyki (2)
39
Zmiana roli eksperta
Ekspert Inż
Inżynier Moduł System
wiedzy akwizycji ekspertowy
wiedzy
Baza
danych
Hurtownia Eksploracja Użytkownik
danych danych ekspertyza
Baza
Wiedza nieuś
nieuświadomiona
danych przez eksperta
40
Metodyki eksploracji danych

Realizacja złożonych projektów DM wymaga skoordynowanego
wysiłku:
o ekspertów
o zarządu
o właścicieli
o różnych działów organizacji
Stąd konieczność stosowania usystematyzowanego podejścia –
metodyki wykorzystywane w ramach projektów DM1
o scenariusze, w jaki sposób należy zorganizować proces zbierania i analizy danych,
rozpowszechniania wyników i sprawdzania korzyści z wdrażania modelu
Najbardziej popularne:
o Virtuous Cycle od Data Mining (Właściwy Cykl Data Mining)
o CRISP-DM
o SEMMA
o Six-Sigma
1 ustandaryzowane dla wybranego obszaru podejście do rozwiązywania problemów – metodyka
abstrahuje od merytorycznego kontekstu danego obszaru, a skupia się na metodach realizacji zadania,
szczególnie metodach zarządzania (metodyka bardziej ciąży ku praktyce wykonawczej, a
metodologia ku teorii zazwyczaj sprawnego działania)
41
Virtuous Cycle of Data Mining

(Właściwy cykl data mining)
Eksploracja traktowana w sposób zbliżony do procesu

biznesowego (niezależnie od aspektów technicznych)
Virtous Cycle of Data Mining 42

Identyfikacja problemów
Analiza działalności podmiotu i znalezienie tych aspektów,
które potencjalnie mogą zostać zoptymalizowane:
o Czy projekt DM jest istotnie potrzebny?
o Czy wśród badanych obiektów da się wyróżnić szczególnie
ważną i interesującą grupę?
o Jakie są ogólne zasady prowadzenia działalności wpływające na
dostępność danych i możliwość podejmowania działań?
o Jakie są właściwości danych? Jaka jest wiarygodność danych?
Gdzie, kiedy i jak można uzyskać dane?
o Jaka jest wiedza o problemie wynikająca z doświadczenia i
intuicji praktyków?
Określenie działań, które będą podjęte po uzyskaniu modelu
o ale: czasem w czasie eksploracji uzyskamy dodatkową wiedzę
Eksploracja danych
Transformacja danych w informacje pozwalające podjąć
odpowiednie działania:
o Identyfikacja i pozyskanie danych
o Sprawdzenie, zbadanie i oczyszczenie danych
o Uzyskanie właściwego układu danych
o Dodanie zmiennych wyliczonych na podstawie wartości cech
o Wybranie próby uczącej
o Wybranie metody modelowania
o Sprawdzenie dobroci dopasowania
Podjęcie działań
Cel projektu DM: podjąć takie działania, które poprawią jakość
funkcjonowania organizacji
Na podstawie informacji uzyskanych w poprzednim kroku –
właściwy cel przeprowadzenia całego procesu eksploracji
o Upowszechnienie wiedzy
o Jednorazowy wynik (np. kampania promocyjna)
o Zapamiętanie wyników
• zyskowność klientów z poszczególnych segmentów – można zapamiętać
i upowszechnić przez system BI firmy
o Regularne przewidywania
• np. co miesiąc przewidywanie prawdopodobieństwa, że dany kredyt
przestanie być terminowo spłacany
o Bieżące oceny
• model może zostać wbudowany w system informatyczny
(prawdopodobieństwo, że klient będzie bezproblemowo spłacał kredyt,
monitorowanie wszystkich transakcji kartami w celu wykrycia
potencjalnych nadużyć)
o Poprawa jakości danych
• błędne dane wykryte w czasie DM

Ewaluacja wyników
Prognoza skuteczności modelu
Wydzielenie grupy kontrolnej w stosunku do której nie
podejmujemy działań sugerowanych przez wyniki DM
o wysłać ofertę cross-sellingową do klientów wskazanych przez
model i do losowo wybranej grupy klientów
• porównać stopę pozytywnych odpowiedzi w obu grupach
Porównanie z sytuacją przed podjętym działaniem
Techniczna realizacja „Virtuous…”

Proces DM posiada swój porządek
Ale: dla osiągnięcia zadowalających
rezultatów niemal zawsze
konieczne jest powtarzanie
poszczególnych faz – nie zawsze w
liniowym porządku
O procesie DM należy myśleć w

kategoriach zagnieżdżonych pętli
Kroki mają swoją kolejność:

ale nie jest konieczne
wykonanie wszystkich
czynności w danym kroku
przed przejściem do
kolejnego
czasem: niepożądane
Cross-Industry Standard Process:

CRISP-DM
SPSS, NCR, DaimlerChrysler

o od 1996, w 2000 specyfikacja 1.0
o 6 faz
CRISP-DM 48
Poziomy abstrakcji
Crisp-DM – hierarchiczny model procesowy DM
Różne grupy zadań przedstawione na 4 poziomach abstrakcji
(od najbardziej ogólnego do szczegółowego) :
o Phase – Faza
o Generic task – zadanie ogólne
o Specialized task – zadanie specjalizowane
o Process instance – instancja procesu
CRISP-DM 49
Phase – Faza
Termin na określenie wysokopoziomowych etapów modelu
procesowego
Składa się z zadań (tasks)
Przykład: „Zrozumienie uwarunkowań biznesowych”
Fazy organizują cały proces eksploracji danych w dobrze
określone etapy
CRISP-DM 50
Generic task – zadanie ogólne

Ogólny opis zadań wykonywanych w każdej z faz – np.
czyszczenie danych
o biorą nazwę z ogólnikowego charakteru
• powinny być możliwie niezmienne, bez względu na charakter
projektu powinny pozostać takie samo
nawet przy wdrażaniu nowych technik (np. modelowania)
• powinny pokrywać cały proces
nie powinna mieć miejsca sytuacja, w której niemożliwe jest
przyporządkowanie wykonywanej czynności do odpowiedniego zadania
ogólnego
CRISP-DM 51
Specialized task – zadanie specjalizowane
Specyfikacja, w jaki sposób zadania ogólne powinny zostać

wykonane w określonych warunkach
o np. zadanie ogólne czyszczenie danych może składać się z
zadań specjalizowanych:
• czyszczenie danych numerycznych
• czyszczenie danych kategorycznych
o rola zadań specjalizowanych: umiejscowienie i opisanie
sposobu wykonania zadań ogólnych w kontekście konkretnego
projektu
CRISP-DM 52
Process instance – instancja procesu

Konkretny projekt opisany w kontekście modelu
procesowego
Instancje procesów, to zapis przedsięwziętych akcji,
podjętych decyzji i otrzymanych rezultatów
o pojedyncza instancja opisuje wyniki faktycznego działania
CRISP-DM 53
SEMMA - SAS
Raczej forma logicznej organizacji narzędzi programu SAS Enterprise Miner
Sample – wybór danych wejściowych (ew. próbki) i ich podział na dane
treningowe, walidujące, testowe
Explore – odkrycie związków w danych
o zaleca się zilustrowanie danych liczbowych dla wykrycia ewidentnych
prawidłowości oraz wykorzystanie metod statystycznych (analiza czynnikowa,
analiza korespondencji, klasteryzacja danych)
Modify – przygotowanie i doskonalenie danych wejściowych
o przygotowanie obejmuje zidentyfikowanie obserwacji odstających,
usunięcie/uzupełnienie brakujących wartości, standaryzacja/normalizacja
o doskonalenie danych wejściowych to tworzenie nowych zmiennych, selekcja lub
transformacja istniejących, grupowanie danych w struktury hierarchiczne
Model – dopasowanie modelu predykcyjnego (sieci neuronowe, drzewa
decyzyjne, modele statystyczne, zdefiniowane przez użytkownika), który w
sposób stabilny generuje możliwie najlepsze prognozy
Assess – ocena otrzymanych wyników, ich użyteczności i wiarygodności
Wyniki uzyskane w każdym kroku powinny stanowić punkt wyjścia dla
kolejnych iteracji i do ciągłego doskonalenia ostatecznych rezultatów aż do
osiągnięcia ich satysfakcjonującego poziomu
Badanie Eksploracja Modyfikacja Model Sprawdzenie
SEMMA 54
Six-Sigma
Skuteczna metodyka eliminacji defektów, strat i wszelkich
problemów związanych z jakością
o zbiór dobrych praktyk dla doskonalenia procesów, stosowanych
przy zarządzaniu jakością – Motorola, poł. lat 80
• sigma – odchylenie standardowe zmiennej
• 6 sigma – 6-krotna wartość odchylenia standardowego
zgodnie z wykresem rozkładu normalnego, tylko 2 miliardowe wykresu
wychodzą poza zakres (średnia–6sigma, średnia+6sigma)
na miliard przypadków, 2 są poza tym zakresem
• w praktyce celem wdrażania Six-Sigma jest zmniejszenie liczby
defektów do 3,4 defektów na milion okazji
Duży nacisk na zbieranie, gromadzenie i analizowanie
danych
5 podstawowych faz Sześć Sigma można potraktować jako
model procesu data mining
Definiowanie Pomiar Analiza Udoskonalenie Kontrola
Six-Sigma 55
DMAIC
Define – zdefiniowanie celów związanych z procesami, które
mają być udoskonalane, uwzględniając wymagania klienta
oraz strategię przedsiębiorstwa
Measure – „pomiar” wyników działania aktualnie istniejących
rozwiązań oraz gromadzenia danych dla dokonania
porównań w przyszłości
Analyze – ma na celu znaleźć związki pomiędzy różnymi
czynnikami wpływającymi na dany proces
Improve – wprowadzenie udoskonaleń, poprawek
usuwających wcześniej wykryte problemy
Control – kontrola lub monitorowanie wyników działania
zastosowanych udoskonaleń
Six-Sigma 56
Systemy dla eksploracji danych

Zorientowane na bazy danych
o IBM: Intelligent Miner
o DBMiner (OLAP i magazyny danych)
o Silicon Graphics: MineSet (wizualizacja danych)
o MS SQL Server
Statystyczne
o SAS Institute: enterprise Miner (dobra integracja danych)
o Także – SPSS Clementine, Statistica
Uczenie maszynowe
o C5.0, MLC++, COBWEB, INLEN, 49ner
Dla prostych zadań można także używać bardziej
typowych rozwiązań
57
Wymagania wobec systemów DM
Minimalne kryterium:
o Wydajny dostęp do danych w różnych formatach
o Przygotowanie danych dla potrzeb właściwej analizy
o Przeprowadzenie analizy data mining (nawet dla ogromnych
zbiorów danych)
o Przygotowanie raportu i wdrożenie uzyskanych wyników
Pożądane:
o Łatwa praca z bardzo dużymi projektami
o Otwarta architektura
o Możliwość współpracy z systemem informatycznym
przedsiębiorstwa
o Skalowalność
o Możliwość dostosowania do konkretnych potrzeb i upodobań
użytkownika
o Możliwość automatyzacji rutynowych zadań
o Bogactwo narzędzi analizy i wizualizacji danych
58
Architektura typowego systemu DM -

komponenty
Graficzny Interfejs
Ocena Wzorców
Baza
Data Mining Engine Wiedzy
Serwer Bazy danych lub

Hurtowni
czyszczenie danych, integracja i selekcja
Hurtownia World-Wide Inne

Baza
Danych Web Repozytoria
danych
59
Sposoby integracji z BD/DW (1)

Brak integracji
o system DM nie wykorzystuje żadnej funkcji systemu BD/DW
• dane pobierane z płaskich plików, wyniki przechowywane w plikach
• proste ale wiele wad, bo BD/DW
efektywne przechowywanie, dostęp, przetwarzanie i zarządzanie danymi
po stronie systemu DM znajdowanie, gromadzenie, transformacja danych
dane dobrze zorganizowane, indeksowane, wyczyszczone, zintegrowane
proste wyszukiwanie odpowiednich danych
skalowalne algorytmy i struktury danych – realnie efektywne i skalowalne
implementacje
większość danych przechowywana w DB/DW – DM musi używać inne narzędzia
do ekstrakcji danych, co powoduje trudności z integracją takiego systemu ze
środowiskiem przetwarzania
Luźna integracja
o system DM wykorzystuje pewne funkcje oferowane przez DB/DW
• dane pobierane z DB/DW a wyniki DM zapisywane do pliku lub do
DB/DW
dane z DB/DW pobierane przy pomocy mechanizmu przetwarzania zapytań,
indeksowania, etc oferowanego przez DB/DW
ale: większość w pamięci głównej
DM nie wykorzystując żadnych struktur danych i metod optymalizacyjnych
DB/DW - trudno jest uzyskać wysoką skalowalność i dobrą wydajność dla
dużych zbiorów danych
60
Sposoby integracji z BD/DW (2)
Współpraca z BD/DW (półścisła integracja)
o system DB/DW dostarcza efektywnej implementacji kilku podstawowych
operacji
• np. sortowanie, indeksowanie, agregacja, analiza histogramów, wstępne
przeliczenie podstawowych statystycznych miar (sum, count, maz, min, etc)
• często używane pośrednie wyniki eksploracji – efektywnie wcześniej
wyliczane i przechowywane w DB/DW
Ścisła integracja
o system DM naturalnie włączony do systemu DB/DW
o podsystem DM traktowany jako jeden z komponentów funkcjonalnych
systemu informatycznego
• zapytania i funkcje DM są zoptymalizowane w oparciu o metody DB/DW
(struktury danych, analizę zapytań, schematy indeksowania, przetwarzanie
zapytań
o trudna i wymaga jeszcze wielu badań
o docelowo: systemy DM, DB i DW będą jednym systemem z różnorodną
funkcjonalnością – jednolite środowisko przetwarzania informacji
Półścisła integracja – kompromis
o wymaga identyfikacji powszechnie używanych w DM jednostek
elementarnych i efektywnej ich implementacji w systemach DB/DW
61
Przykład ścisłej integracji
SZBD Oracle 9i to pierwsza baza danych włączająca

funkcjonalność eksploracji danych do jądra SZBD
o pierwsza edycja Oracle Data Mining (niezbyt udana)
Oracle 10g – moduł ODM przepisano i rozwinięto
potem: SQL Server 2005, IBM DB2 Data Warehouse Edition
o oferują silniki do eksploracji danych jako części składowe
jądra systemu bazy danych
o dostarczają interfejsów programistycznych dla Java,
PL/SQL, MDX i DMX
o umożliwiają uruchamianie algorytmów eksploracji i
przeglądanie znalezionych wzorców z poziomu SQL
• zazwyczaj przez niestandardowe rozszerzenia i funkcje SQL
(prawdopodobnie niedługo standaryzacja)
62
(Krótka) historia społeczności DM

1989 IJCAI Workshop on Knowledge Discovery in Databases
o Knowledge Discovery in Databases (G. Piatetsky-Shapiro and
W. Frawley, 1991)
1991-1994 Workshops on Knowledge Discovery in Databases
o Advances in Knowledge Discovery and Data Mining (U. Fayyad,
G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)
1995-1998 International Conferences on Knowledge Discovery in
Databases and Data Mining (KDD’95-98)
o Journal of Data Mining and Knowledge Discovery (1997)
Konferencje ACM SIGKDD od 1998 i SIGKDD Explorations
Inne konferencje data mining
o PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE)
ICDM (2001), etc.
ACM Transactions on KDD – początek w 2007
63
Główne wyzwania w DM
Metody i interakcja z uż
użytkownikiem
o Obsługa szumów, niepewności i niekompletności danych
o Język zadawania zapytań
zapytań DM - standard
o Włączanie ograniczeń, wiedzy eksperckiej i dziedzinowej do DM
o Ocena wzorcó
wzorców – problem atrakcyjnoś
atrakcyjności
o Niewidoczne DM (wbudowane w inne funkcjonalne moduły)
o Ochrona prywatnoś
prywatności
Wydajność
Wydajność
o Efektywne i skalowalne algorytmy eksploracji danych
o Opracowanie równoległych, rozproszonych i przyrostowych
metod DM
Różnorodność
norodność typó
typów danych
o Eksploracja różnorodnych i heterogenicznych danych
o Zorientowane na zastosowanie i dziedzinę DM
64
Przyszłość eksploracji danych

Eksploracja danych z nowej dziedziny naukowej staje się
dziedziną dojrzałą
Przyszłość dziedziny zależy od jej upowszechnienia się i
praktycznej przydatności
Problemy upowszechniania się eksploracji danych:
o ciągle wysoki koszt narzędzi eksploracji danych
o złożoność problemów eksploracji danych
o wiele instytucji dopiero wdraża hurtownie danych i „jest
na etapie” analiz OLAP
Sygnały pozytywne:
o powstawanie standardów regulujących sposoby
wykorzystania eksploracji danych
o dostęp wielu narzędzi komercyjnych, w tym przede
wszystkim tych związanych z serwerami baz danych
o pozytywne doświadczenia wielu przedsiębiorstw i
instytucji
65
KONIEC
Eksploracja danych
Wprowadzenie w
problematykę
66

1 Wprowadzenie

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

1 Wprowadzenie

Uploaded by

Copyright:

Available Formats

Eksploracja danych

Przemówienie Billa Clintona 6.11.2002:

Trwający wzrost w dziedzinie eksploracji danych napędzany jest

Rozmiary współczesnych baz danych

Podwajanie ilości przechowywanych danych co 18 miesięcy

Wielkie bazy danych - przykłady

Czym jest eksploracja danych?

Zależności w bazach – przykład 1

wiek lat prawo kolor poj. moc razem

19 1 czerwony 650 24 2500

41 20 czarny 1800 130 0

21 3 czerwony 650 24 1300

•Kierowcy, którzy jeżdżą czerwonymi samochodami o pojemności 650 ccm powodują

transakcja produkt dzień cena

• piwo i orzeszki są zawsze kupowane wspólnie

Typy pytań do repozytoriów danych

Zapytania eksploracyjne (1)

Baza danych Data mining

Raczej ustalona terminologia:

Data mining jądro procesu

Serwer Bazy Danych lub

czyszczenie danych, integracja i selekcja

Baza Hurtownia World-Wide Inne

Data Mining a Business Intelligence

Business Intelligence (1958) - proces przekształcania danych w informacje, a informacji w wiedzę,

Prezentacja danych Analityk

Mieszanka wielu dyscyplin

Dziedziny zastosowań (2)

Interaktywność procesu KDD

Większość surowych danych przechowywanych w bazach

dziwny kod pocztowy błąd? błąd wprowadzania?

ID Kod Płeć Dochód Wiek Stan Kwota

1002 J2S7K7 K -40 000 40 W 4 000

1003 90210 10 000 000 45 S 7 000

1004 6269 M 50 000 0 S 1 000

1005 55101 K 99 999 30 R 3 000

punkt oddalony kod braku danych?

Metody eksploracji danych

Analiza drzewa decyzyjnego

Zachęta rodziców = Yes Zachęta Zachęta rodziców = No

Po przeprowadzeniu operacji, lekarze chcą wiedzieć, jakie jest

Budowa drzewa decyzyjnego

Metody eksploracji: grupowanie

Metody eksploracji: odkrywanie asocjacji

Przewidywanie zmian oporności czynników

Do ochrony przed bakteriami pacjentom podaje się

Przewidywanie zmian oporności czynników

Metodyki eksploracji danych

Virtuous Cycle of Data Mining

Eksploracja traktowana w sposób zbliżony do procesu

Virtous Cycle of Data Mining 42

Virtous Cycle of Data Mining 43

Virtous Cycle of Data Mining 44

Virtous Cycle of Data Mining 45

Virtous Cycle of Data Mining 46

Techniczna realizacja „Virtuous…”

O procesie DM należy myśleć w

Kroki mają swoją kolejność:

Virtous Cycle of Data Mining 47

Cross-Industry Standard Process:

SPSS, NCR, DaimlerChrysler

Generic task – zadanie ogólne

Specyfikacja, w jaki sposób zadania ogólne powinny zostać