You are on page 1of 22

Eksploracja danych

Wprowadzenie w
problematykę

 Przemówienie Billa Clintona 6.11.2002:


o niedługo po wydarzeniach z 11 września 2001 agenci FBI
przeanalizowali olbrzymie ilości danych o konsumentach i
odkryli, że dane o 5 sprawcach zamachu były przechowywane w
bazie:
• jeden z terrorystów miał 30 kart kredytowych z łącznym saldem
równym 250 000$ i był w USA krócej niż 2 lata
• Mohamed Atta miał 12 różnych adresów, 2 prawdziwe domy i 10
kryjówek
• „powinniśmy aktywnie wyszukiwać dane tego typu i jeżeli ktoś jest
tutaj kilka lat albo krócej i ma 12 domów, to jest albo naprawdę
bogaty albo coś kombinuje – nie powinno być trudno to sprawdzić”

Zalew danych
 „Toniemy w danych, ale cierpimy na brak wiedzy”, John
Naisbitt, Megatrends, Warner Bross, 1986
o nasze możliwości analizowania i rozumienia tak dużych wolumenów
danych – dużo mniejsze od możliwości ich gromadzenia i
przechowywania
• data tombs – rzadko odwiedzane archiwa
 Wielkie wolumeny danych są trudne do analizowania
o brak wystarczającej liczby analityków wykwalifikowanych w
przetwarzaniu danych w wiedzę
o brak odpowiednich technologii
o systemy ekspertowe – wiedza wprowadzana ręcznie (ryzyko
błędów, czasochłonne)
o wiedza taka (o działalności przedsiębiorstwa, poziomie i strukturze
sprzedaży oraz cechach klienta) może posłużyć do wspomagania
podejmowania decyzji
• obecnie – decyzje podejmowane intuicyjnie
• -> źródło rozwoju nowej technologii eksploracji danych
 Wg internetowego magazynu ZDNET News (2001) „eksploracja
danych będzie jednym z najbardziej rewolucyjnych osiągnięć
następnej dekady”
o MIT Technology Review wybrało eksplorację danych jako jedną z 10 nowych
technologii, które zmienią świat”

3
Skąd się biorą dane?

 Trwający wzrost w dziedzinie eksploracji danych napędzany jest


przez sprzyjające nałożenie się różnych czynników:
o gwałtowny wzrost zbiorów danych - stare dane nieusuwane
• spadek cen mediów do składowania informacji cyfrowych o wiele
większy niż spadek cen pamięci RAM, czy procesorów
• upowszechnianie się technologii służących do automatycznego
pobierania danych: czytniki kodów kreskowych, digitalizacja
dokumentów w urzędach publicznych, firmach ubezpieczeniowych,
bankach
• => pozyskiwanie i gromadzenie danych staje się łatwiejsze, a technologie
tańsze i powszechniejsze
o przechowywanie danych w hurtowniach, tak aby całe przedsiębiorstwo
miało dostęp do wiarygodnej, używanej bazy danych
o możliwość zwiększonego dostępu do danych z Internetu i intranetu
o rozwój pakietów gotowego komercyjnego oprogramowania do eksploracji
danych

Rozmiary współczesnych baz danych


 Wg raportu Winter Corporation rozmiar:
o największej operacyjnej bazy danych w 2005: 23 TB (Land
Registry for England and Wales)
o rozmiar największej hurtowni przekroczył 155TB (Sybase + Sun
Microsystems)
 Akcelerator wiązek protonowych LHC
o zaprojektowana baza danych umożliwia składowanie eksabajta
danych (1EB=1024PB=10^18B)
• szacuje się, że akcelerator będzie generował 15 petabajtów danych
rocznie ze średnią prędkością 1,5GB/sek
• eksperymenty zaplanowane na 15 najbliższych lat

 Podwajanie ilości przechowywanych danych co 18 miesięcy

Wielkie bazy danych - przykłady


 AT&T obsługuje miliardy połączeń dziennie
o danych jest tyle, że nie można ich wszystkich zapamiętać –
analiza tych danych jest wykonywana „w locie” (tzw. strumienie
danych)
 sieć sprzedaży Wal-Mart gromadzi dziennie dane dotyczące ponad
20 milionów transakcji
 Koncern Mobil Oil rozwija magazyn danych pozwalający na
przechowywanie ponad 100 terabajtów danych o wydobyciu ropy
naftowej
 system satelitarnej obserwacji EOS zbudowany przez NASA
generuje w każdej godzinie dziesiątki gigabajtów danych
pochodzących ze zdjęć satelitarnych
 niewielkie supermarkety rejestrują codziennie sprzedaż tysięcy
produktów

6
Ewolucja technologii bazodanowej
 lata 1960’te:
o przetwarzanie plików, początki baz, hierarchiczne i sieciowe DBMS
 lata 1970’te:
o Relacyjny model danych, implementacje relacyjnych DBMS
 lata 1980’te:
o RDBMS, zaawansowane modele danych (rozszerzony relacyjny,
obiektowy, obiektowo-relacyjny, dedukcyjny, etc.)
o DBMS zorientowane na zastosowanie (przestrzenne, naukowe,
inżynierskie, etc.)
 lata 1990’te:
o Data mining, hurtownie danych, multimedialne bazy danych i webowe
 lata 2000:
o Strumienie danych – zarządzanie i eksploracja
o Upowszechnienie data mining i jego zastosowania
o Technologia Web (XML, integracja danych) i systemy globalnej
informacji

Czym jest eksploracja danych?


 Eksploracja danych (odkrywanie wiedzy w bazach danych):
o Proces znajdowania nietrywialnych, dotychczas
nieznanych, potencjalnie użytecznych reguł, zależności,
wzorców schematów, podobieństw lub trendów w dużych
repozytoriach danych (bazach danych, hurtowniach
danych, itp.)
• odkrywane wzorce mają najczęściej postać reguł logicznych,
klasyfikatorów (np. drzew decyzyjnych), zbiorów skupień,
wykresów, itp.
 Cel eksploracji danych:
o Analiza danych i procesów w celu lepszego ich
zrozumienia
• eksploracja danych otwiera nowe możliwości w zakresie
interakcji użytkownika z systemem bazy danych i
magazynem danych:
 umożliwia sformułowanie zapytań na znacznie wyższym
poziomie abstrakcji aniżeli pozwala na to standard SQL

Zależności w bazach – przykład 1

wiek lat prawo kolor poj. moc razem


kierowcy jazdy pojazdu silnika szkody
----------------------------------------------------------------------------------------------------------------------------
42 24 biały 1610 100 0

19 1 czerwony 650 24 2500

28 4 czerwony 1100 40 0

41 20 czarny 1800 130 0

21 3 czerwony 650 24 1300

20 1 niebieski 650 24 0

•Kierowcy, którzy jeżdżą czerwonymi samochodami o pojemności 650 ccm powodują


wypadki drogowe
•Kierowcy w wieku powyżej 40 lat jeżdżą samochodami o pojemności większej niż 1600 ccm
•Kierowcy, którzy posiadają prawo jazdy dłużej niż 3 lata, nie powodują wypadków
•Kierowcy w wieku poniżej 30 lat jeżdżą samochodami koloru czerwonego

9
Zależności w bazach – przykład 2

transakcja produkt dzień cena


----------------------------------------------------------------------------------------------------------------------------
1 pizza sobota 48,40
1 mleko sobota 2,80
1 chleb sobota 1,50
2 piwo wtorek 16,20
2 orzeszki wtorek 8,50
3 chleb sobota 1,50
3 orzeszki sobota 25,50
3 piwo sobota 32,40

• piwo i orzeszki są zawsze kupowane wspólnie


• chleb uczestniczy w transakcjach na kwotę większą niż 50 złotych

10

Typy pytań do repozytoriów danych


 Można wyróżnić 3 typy zapytań do repozytoriów danych:
o Zapytania operacyjne do bazy danych:
• Ile butelek wina sprzedano w I kwartale 2006 w sklepie
Auchan w Poznaniu
o Zapytanie analityczne oparte o model OLAP:
• Ile sprzedano butelek wina w sieci Auchan na terenie kraju z
podziałem na województwa, gatunki win oraz kwartały, w
ciągu ostatnich 5 lat?
• zapytania sterowane przez użytkownika
• analiza porównawcza zagregowanych danych operuje na
zbyt szczegółowym poziomie abstrakcji i nie pozwala na
formułowanie bardziej ogólnych zapytań
o Eksploracja danych = złożone zapytania
• znacznie bardziej ogólne i znacznie bardziej abstrakcyjne

11

Zapytania eksploracyjne (1)


 Przykłady zapytań eksploracyjnych:
o Jakie jeszcze inne produkty, najczęściej kupują klienci, którzy
kupują wino?
o Czym różnią się koszyki klientów kupujących wino i piwo?
o W jaki sposób można scharakteryzować klientów kupujących
wino?
o W jaki sposób pogrupować klientów kupujących wino?
o Czy można dokonać predykcji, że danych klient kupi wino?
 Zapytań takich nie można zrealizować przy pomocy SQL czy
OLAP
 Dany jest zbiór danych opisujących pacjentów szpitala. Czy
potrafimy w oparciu o ten zbiór danych:
o Poprawnie zdiagnozować pacjenta (określić chorobę)?
o Przewidzieć poprawnie wynik terapii?
o Zaproponować najlepszą terapię?

12
Przykłady zapytań

 Baza danych  Data mining


o Znajdź
Znajdź wszystkich o Znajdź
Znajdź wszystkich
kredytobiorcó
kredytobiorców o nazwisku kredytobiorcó
kredytobiorców, któ
którzy są

Smith. obarczeni duż
dużym ryzykiem
kredytowym. (klasyfikacja)
klasyfikacja)

o Zidentyfikuj klientó
klientów, któ
którzy o Zidentyfikuje klientó
klientów z
wydali wię
więcej niż
niż $10,000 w podobnymi
cią
cią gu ostatniego miesią
miesi ca
ą przyzwyczajeniami
zakupowymi.
zakupowymi. (klastrowanie)
klastrowanie)

o Znajdź
Znajdź wszystkie towary,
o Znajdź
Znajdź wszystkich klientó
klientów,
któ któ
które są
są czę
często kupowane
którzy kupili mleko
z mlekiem. (reguł
reguły
asocjacyjne)
asocjacyjne)

13

Eksploracja danych a
odkrywanie wiedzy w bazach danych

 Raczej ustalona terminologia:


terminologia:
o Data mining (eksploracja danych)
• Zazwyczaj DM traktowane jest jako część procesu KDD
o Knowledge discovery in databases (KDD - odkrywanie wiedzy w
bazach danych)
• Ogólny termin obejmujący wstępne przetwarzanie danych, DM oraz
późne przetwarzanie wyników
 Ekstrakcja wiedzy, inteligencja biznesowa, pozyskiwanie wiedzy
 „Ciekawe okreś
określenia”
lenia”:
o Archeologia danych, kopanie danych, eksploatacja złóż danych
 Czym nie jest eksploracja danych:
o Systemy ekspertowe
o OLAP
• OLAP zakłada, że użytkownik posiada pełną wiedzę o przedmiocie
analizy i potrafi sterować tym procesem
• DM umożliwia analizę danych dla problemów, które ze względu na swój
rozmiar są trudne do przeprowadzenia oraz tych problemów, dla
których nie dysponujemy pełną wiedzą o przedmiocie analizy, co
uniemożliwia sterowanie procesem analizy danych

14

Proces KDD

 Data mining jądro procesu


odkrywania wiedzy Ocena wzorców
i prezentacja

Data Mining

Dane przygotowane
do analizy

Hurtownia Selekcja
danych i transformacja
Czyszczenie danych

Integracja danych

Bazy danych 15
Architektura typowego systemu DM -
komponenty

Graficzny Interfejs

Ocena Wzorców

Baza
Motor Data Mining Wiedzy

Serwer Bazy Danych lub


Hurtowni

czyszczenie danych, integracja i selekcja

Baza Hurtownia World-Wide Inne


danych Danych Web Repozytoria

16

Data Mining a Business Intelligence

Business Intelligence (1958) - proces przekształcania danych w informacje, a informacji w wiedzę,


która może być wykorzystana do zwiększenia konkurencyjności przedsiębiorstwa

Wzrastający potencjał
Końcowy
do wspomagania
użytkownik
decyzji biznesowych
Podejmowanie
decyzji

Prezentacja danych Analityk


biznesowy
Techniki wizualizacji
Data Mining Analityk
Odkrywanie wiedzy danych

Eksploatacja danych
Analiza statystyczna, Zapytania i raportowania
Hurtownie danych/Składnice danych
OLAP, MDA
DBA
Źródła danych
Papier, Pliki, Dokumenty Web, Systemy baz danych, OLTP
17

Mieszanka wielu dyscyplin


 Technologia bazodanowa
 Statystyka
 Uczenie maszynowe
o Sieci neuronowe, algorytmy drzew decyzyjnych
 Techniki wizualizacji danych
 Teoria informacji
o Miary podobieństwa,
 Wyszukiwanie informacji
 Inne dyscypliny:
o Modelowanie matematyczne, rozpoznawanie obrazów,
technologie internetowe, etc.
 Różnorodność i wielość metod DM wywodzących się często z
różnych dyscyplin badawczych, utrudnia potencjalnym
użytkownikom identyfikację metod, które są
najodpowiedniejsze z punktu widzenia ich potrzeb w zakresie
analizy danych

18
Dziedziny zastosowań (1)
 Handel i marketing
o identyfikacja „profilu klienta” dla przewidywania, którzy
klienci odpowiedzą na marketing korespondencyjny
o segmentacja klientów w celu opracowania strategii
promocji
o wykrywanie schematów zakupów i planowania lokalizacji
artykułów
 Finanse i bankowość
o identyfikacja schematów wykorzystania kradzionych kart
kredytowych
o przewidywanie ryzyka udzielenia kredytu lub pożyczki
o przewidywanie dochodowości portfela akcji, znajdowanie
korelacji wśród wskaźników finansowych

19

Dziedziny zastosowań (2)


 Nauka i technologia
o wykrywanie powiązań między skutecznością leczenia a
zastosowaną terapią medyczną
o przewidywanie wzrostów obszarów leśnych
o wykrywanie schematów alarmowych w sieciach
telekomunikacyjnych
 Internet (Web Mining)
o grupowanie i określanie ważności dokumentów znajdowanych
przez wyszukiwarki internetowe
o automatyczne dostosowywanie struktury i zawartości serwisu
internetowego do przewidywanych oczekiwać użytkownika

20

Interaktywność procesu KDD


 Niektóre wczesne definicje eksploracji skupiały się na
automatyzacji:
o np. definicja Berry’ego i Linoff’a z 1997:
• „Eksploracja danych jest procesem badania i analizy, za pomocą
zautomatyzowanych lub wpół zautomatyzowanych środków dużych ilości
danych, aby odkryć znaczące wzorce i reguły”
o ale w 2000: „jeśli mamy czegoś żałować, to jest to wyrażenie…
gdyż za dużo uwagi zostało poświęcone technice automatyzacji, a
za mało badaniom i analizom – było to mylące i wiele osób
uwierzyło, że eksploracja jest produktem, który można kupić, a nie
dyscypliną, którą trzeba opanować
 Automatyzacja nie zastąpi udziału człowieka
 Podejmuje decyzję w zakresie np.
o wyboru podzbioru danych, reprezentacji wiedzy, algorytmów
eksploracji
 Rola użytkownika w interpretacji i ocenie wiedzy
 Proces odkrywania wiedzy wymaga intensywnego
współdziałania człowieka z systemem
 Proces ten jest z definicji interaktywny i interakcyjny

21
Dlaczego należy wstępnie obrabiać dane?

 Większość surowych danych przechowywanych w bazach


jest nieobrobiona, niekompletna, zaszumiona.
 Przykładowo baza danych może zawierać:
o pola, które są przestarzałe lub zbędne
o rekordy z brakującymi wartościami
o punkty oddalone (ang. outliers)
o dane znajdujące się w formacie nieodpowiednim dla modeli
eksploracji danych
o wartości niezgodne z zasadami zdrowego rozsądku
 Aby baza była przydatna do celów eksploracji danych, musi
przejść przez wstępną obróbkę danych w formie czyszczenia
danych i przekształcania danych
 Nadrzędnym celem jest GIGO:
o minimalizacja „śmieci”, które dostają się do modelu, tak aby model
minimalizował liczbę otrzymanych błędnych wyników
 Dorian Pyle („Data Preparation for Data Mining”):
o sama wstępna obróbka danych zajmuje 60% czasu i wysiłku
poświęconego na cały proces eksploracji danych

22

Przykład

dziwny kod pocztowy błąd? błąd wprowadzania?


St.Hyancinthe w Quebec Kody pocztowe Nowej Anglii C, 0, jak uaktualniać
zaczynają się od ‘0’

ID Kod Płeć Dochód Wiek Stan Kwota


klienta pocztowy cywiln transakcji
y
1001 10048 M 75 000 C M 5 000

1002 J2S7K7 K -40 000 40 W 4 000

1003 90210 10 000 000 45 S 7 000

1004 6269 M 50 000 0 S 1 000

1005 55101 K 99 999 30 R 3 000

punkt oddalony kod braku danych?


brak wartości
23

Główne zadania we
wstępnym przetwarzaniu danych
 Czyszczenie danych
o Uzupełnianie brakujących wartości, wygładzanie zakłóconych danych,
identyfikacja lub usuwanie szumów i rozwiązywanie niezgodności
• ignorowanie, zastąpienie brakującej wartości stałą, średnią, średnią
dla klasy, wartością wygenerowaną losowo z obserwowanego
rozkładu zmiennej , wykorzystanie najbardziej prawdopodobnej
wartości do uzupełnienia brakującej (sieci bayes’a, drzewa
decyzyjne)
 Integracja danych
o Integracja z wielu baz danych, kostek danych lub plików
• problem identyfikacji jednostek logicznych: identyfikacja
rzeczywistych jednostek z wielu źródeł danych, niespójność w
nazwach -> nadmiarowość, konflikty wartości -> różne
reprezentacje, skale, kodowania
 Transformacja danych
o Przekształcanie danych do postaci odpowiedniej do DM
o Normalizacja (aby zmienne z większym zakresem nie miały
nadmiernego wpływu na wyniki) i agregacja
 Redukcja danych
o Uzyskiwanie zredukowanej reprezentacji w objętości ale tych samych
lub podobnych wyników analitycznych
 Dyskretyzacja danych
o Część redukcji, głównie dla danych numerycznych (dzielenie na zakresy
ciągłego atrybutu)

24
Jakie dane można eksplorować?
 Zbiory i aplikacje zorientowane na bazy danych
o Relacyjne bazy danych
o Hurtownie danych
o Transakcyjne bazy danych
 Zaawansowane zbiory danych i aplikacje
o Strumienie danych i dane z czujników
o Temporalne, sekwencyjne i czasowe bazy danych
o Dane grafowe, sieci społeczne
o Obiektowo-relacyjne bazy danych
o Heterogeniczne i spadkowe (legacy) bazy danych
o Dane przestrzenne i czasowo-przestrzenne
o Multimedialne bazy
o Tekstowe bazy
o World-Wide Web

25

Klasyfikacje metod DM
 Ze względu na sposób wykorzystania odkrytego modelu
o deskrypcyjne:
• automatyczne formułowanie uogólnień dotyczących danych, w celu
uchwycenia ogólnych cech opisywanych obiektów
o predykcyjne:
• na podstawie wzorców odkrytych w dużych wolumenach danych
przewidywanie cech, wartości i zachowań obiektów
 Ze względu na charakter wykorzystywanych danych
źródłowych:
o uczenie nadzorowane:
• każdy obiekt posiada etykietę przypisującą obiekt do jednej z
predefiniowanych klas
o uczenie bez nadzoru
• żadne etykiety obiektów nie są znane
 formułowanie modelu wiedzy maksymalnie zgodny z obserwowanymi
danymi

26

Metody eksploracji danych


 Odkrywanie charakterystyk
 Klasyfikacja/regresja
 Grupowanie
 Odkrywanie asocjacji
 Odkrywanie sekwencji
 Wykrywanie zmian i odchyleń
 Znajdowanie obiektów odległych (samotników)
 Web mining
 Text mining

27
Metody eksploracji: klasyfikacja
 Zbudowanie modelu przypisującego nowy, wcześniej
niewidziany obiekt do jednej ze zbioru predefiniowanych klas
o przypisanie następuje na podstawie doświadczenia
nabytego przez model w fazie uczenia na zbiorze
uczącym
o technika rozwijana równolegle w sztucznej inteligencji,
uczeniu maszynowym, wspomaganiu decyzji – setki
algorytmów klasyfikacji
• najpopularniejsze: klasyfikacja bayesowska, drzewa
decyzyjne, sieci neuronowe, sieci bayesowskie, techniki
bazujące na k najbliższych sąsiadach
• zastosowania:
 diagnostyka medyczna
 rozpoznawanie trendów na rynkach finansowych
 automatyczne rozpoznawanie obrazów
 przydział kredytów bankowych

28

Przykład klasyfikacji
Dlaczego licealiści idą na studia?

29

Analiza drzewa decyzyjnego


Wszyscy studenci
Idą na studia:
33% Yes
67% No

Zachęta rodziców = Yes Zachęta Zachęta rodziców = No


rodziców ?
Idą na studia: Idą na studia:
57% Yes 6% Yes
43% No 94% No
IQ Wysokie IQ IQ
Idą na studia:
18% Yes Niskie IQ
82% No
Idą na studia:
Wysokie IQ Niskie IQ Średnie IQ 4% Yes
Idą na studia: Idą na studia: Idą na studia: 96% No
74% Yes 29% Yes 9% Yes
26% No 71% No 91% No

30
Przewidywanie ryzyka wystąpienia zakażenia

 Po przeprowadzeniu operacji, lekarze chcą wiedzieć, jakie jest


ryzyko wystąpienia zakażenia miejsca operowanego u pacjenta.
 Dla pacjentów o podwyższonym ryzyku można podjąć dodatkowe
środki ostrożności i monitorować ich stan częściej, niż pozostałych
 Do tej pory lekarze decyzję o klasyfikacji pacjenta do grupy
wysokiego ryzyka podejmowali samodzielnie na podstawie:
o grupy wiekowej (osoby po 60 r.ż. bardziej narażone na
zakażenia)
o stan według ASA (im gorszy stan według ASA, tym większe
prawdopodobieństwo wystąpienia zakażenia)
o czas i rodzaj zabiegu (każdy zabieg ma określony pewien
maksymalny czas, po którego przekroczeniu znacznie wzrasta
ryzyko zakażenia )
o metodologia zabiegu (wideochirurgia powoduje znacznie
mniej zakażeń niż metody klasyczne )
o czystość pola operowanego

31

Budowa drzewa decyzyjnego

32

Wykorzystanie drzewa

33
Metody eksploracji: regresja
 Podobna do klasyfikacji
o różnica:
• w klasyfikacji zadanie polega na przewidywaniu wartości atrybutu
dyskretnego
• technik regresji próbują, na podstawie doświadczenia zdobytego na
zbiorze uczącym przewidzieć nieznaną wartość atrybutu
numerycznego
• zastosowania:
 analiza danych finansowych
 systemy logistyczne (np. podczas przewidywania przyszłego poboru
energii elektrycznej)

34

Metody eksploracji: grupowanie


 Polega na podziale zbioru obiektów na partycje w taki
sposób, aby jednocześnie maksymalizować podobieństwo
między obiektami przypisanymi do tej samej grupy i
minimalizować podobieństwo między obiektami przypisanymi
do różnych grup zgodnie z zadaną miarą podobieństwa
między obiektami
o dziesiątki algorytmów: k-średnich, k-medoids, algorytmy CURE,
PAM, CLARA, CLARANS,...
o zastosowania:
• grupowanie dokumentów,
• grupowanie klientów,
• segmentacja rynku

35

Metody eksploracji: odkrywanie asocjacji


 Znajdowanie związków między współwystępowaniem grup
elementów w zbiorach danych
o najczęściej stosowane do analizy koszyka zakupów
• badana kolekcja: zbiór transakcji klientów
• znalezione podzbiory: produkty których sprzedaż jest ze
sobą powiązana
{makaron,anchois} => {kapary} (0.5%,65%}
• zastosowanie:
 analiza koszyka zakupów, rozkład półek i towarów na półkach,
konstruowanie wiązanych ofert sprzedaży, marketing bezpośredni
 diagnozy lekarskie
 telekomunikacja
 analiza dostępu do serwisów WWW
 automatyczna personalizacja serwisów WWW

36
Metody eksploracji: wzorce sekwencji
 Rozwinięcie modelu reguł asocjacyjnych o element następstwa
zdarzeń
o reprezentują podsekwencje zdarzeń elementarnych
występujących często w bazie sekwencji
{Ojciec chrzestny}=>{Kasyno}=>{Człowiek z blizną} (1.5%)
• kolejne wystąpienia elementów wzorca mogą być ograniczone przez
szerokość okna czasowego wewnątrz którego muszą się znaleźć,
aby utworzyć wzorzec sekwencji
o zastosowanie:
• odkrywanie częstych sekwencji w historii połączeń
telekomunikacyjnych
• znajdowanie sekwencji świadczących o grożącej awarii sieci
komputerowej
• planowanie inwestycji giełdowych, przewidywanie sprzedaży,
analiza zachować użytkowników WWW
 kurs akcji KGHM, który podczas ostatnich trzech sesji wzrósł o
0,5%, 0,9%, 0,1% na następnej sesji spadnie o 0,5%
 5% użytkowników serwisu WWW odwiedziło w ciągu jednej sesji najpierw
stronę wakacje.html, później promocje.html, a następnie dojazd_wlasny.html

37

Przewidywanie zmian oporności czynników


etiologicznych na antybiotyki (1)

 Do ochrony przed bakteriami pacjentom podaje się


antybiotyki
o zbyt długie stosowanie pojedynczego antybiotyku w tym
samym szpitalu powoduje jednak, że bakterie uodparniają się
na niego, i jego dalsze użycie staje się bezcelowe.
 Po wystąpieniu zakażenia u operowanego pacjenta, badana
jest bakteria, która to zakażenie spowodowała, oraz jej
oporność na użyty antybiotyk.
 Zbierając dane przez kilka lat, lekarze chcieliby móc określić,
w którym momencie na antybiotyk uodpornił się zbyt duży
procent bakterii i należy go zmienić.
 Przydatne mogą być także informacje, jak oporność bakterii
zmienia się w ciągu roku.

38

Przewidywanie zmian oporności czynników


etiologicznych na antybiotyki (2)

39
Zmiana roli eksperta

Ekspert Inż
Inżynier Moduł System
wiedzy akwizycji ekspertowy
wiedzy

Baza
danych
Hurtownia Eksploracja Użytkownik
danych danych ekspertyza
Baza
Wiedza nieuś
nieuświadomiona
danych przez eksperta

40

Metodyki eksploracji danych


 Realizacja złożonych projektów DM wymaga skoordynowanego
wysiłku:
o ekspertów
o zarządu
o właścicieli
o różnych działów organizacji
 Stąd konieczność stosowania usystematyzowanego podejścia –
metodyki wykorzystywane w ramach projektów DM1
o scenariusze, w jaki sposób należy zorganizować proces zbierania i analizy danych,
rozpowszechniania wyników i sprawdzania korzyści z wdrażania modelu
 Najbardziej popularne:
o Virtuous Cycle od Data Mining (Właściwy Cykl Data Mining)
o CRISP-DM
o SEMMA
o Six-Sigma
1 ustandaryzowane dla wybranego obszaru podejście do rozwiązywania problemów – metodyka
abstrahuje od merytorycznego kontekstu danego obszaru, a skupia się na metodach realizacji zadania,
szczególnie metodach zarządzania (metodyka bardziej ciąży ku praktyce wykonawczej, a
metodologia ku teorii zazwyczaj sprawnego działania)

41

Virtuous Cycle of Data Mining


(Właściwy cykl data mining)

 Eksploracja traktowana w sposób zbliżony do procesu


biznesowego (niezależnie od aspektów technicznych)

Virtous Cycle of Data Mining 42


Identyfikacja problemów
 Analiza działalności podmiotu i znalezienie tych aspektów,
które potencjalnie mogą zostać zoptymalizowane:
o Czy projekt DM jest istotnie potrzebny?
o Czy wśród badanych obiektów da się wyróżnić szczególnie
ważną i interesującą grupę?
o Jakie są ogólne zasady prowadzenia działalności wpływające na
dostępność danych i możliwość podejmowania działań?
o Jakie są właściwości danych? Jaka jest wiarygodność danych?
Gdzie, kiedy i jak można uzyskać dane?
o Jaka jest wiedza o problemie wynikająca z doświadczenia i
intuicji praktyków?
 Określenie działań, które będą podjęte po uzyskaniu modelu
o ale: czasem w czasie eksploracji uzyskamy dodatkową wiedzę

Virtous Cycle of Data Mining 43

Eksploracja danych
 Transformacja danych w informacje pozwalające podjąć
odpowiednie działania:
o Identyfikacja i pozyskanie danych
o Sprawdzenie, zbadanie i oczyszczenie danych
o Uzyskanie właściwego układu danych
o Dodanie zmiennych wyliczonych na podstawie wartości cech
o Wybranie próby uczącej
o Wybranie metody modelowania
o Sprawdzenie dobroci dopasowania

Virtous Cycle of Data Mining 44

Podjęcie działań
 Cel projektu DM: podjąć takie działania, które poprawią jakość
funkcjonowania organizacji
 Na podstawie informacji uzyskanych w poprzednim kroku –
właściwy cel przeprowadzenia całego procesu eksploracji
o Upowszechnienie wiedzy
o Jednorazowy wynik (np. kampania promocyjna)
o Zapamiętanie wyników
• zyskowność klientów z poszczególnych segmentów – można zapamiętać
i upowszechnić przez system BI firmy
o Regularne przewidywania
• np. co miesiąc przewidywanie prawdopodobieństwa, że dany kredyt
przestanie być terminowo spłacany
o Bieżące oceny
• model może zostać wbudowany w system informatyczny
(prawdopodobieństwo, że klient będzie bezproblemowo spłacał kredyt,
monitorowanie wszystkich transakcji kartami w celu wykrycia
potencjalnych nadużyć)
o Poprawa jakości danych
• błędne dane wykryte w czasie DM

Virtous Cycle of Data Mining 45


Ewaluacja wyników
 Prognoza skuteczności modelu
 Wydzielenie grupy kontrolnej w stosunku do której nie
podejmujemy działań sugerowanych przez wyniki DM
o wysłać ofertę cross-sellingową do klientów wskazanych przez
model i do losowo wybranej grupy klientów
• porównać stopę pozytywnych odpowiedzi w obu grupach
 Porównanie z sytuacją przed podjętym działaniem

Virtous Cycle of Data Mining 46

Techniczna realizacja „Virtuous…”


Proces DM posiada swój porządek
Ale: dla osiągnięcia zadowalających
rezultatów niemal zawsze
konieczne jest powtarzanie
poszczególnych faz – nie zawsze w
liniowym porządku

O procesie DM należy myśleć w


kategoriach zagnieżdżonych pętli

Kroki mają swoją kolejność:


ale nie jest konieczne
wykonanie wszystkich
czynności w danym kroku
przed przejściem do
kolejnego
czasem: niepożądane

Virtous Cycle of Data Mining 47

Cross-Industry Standard Process:


CRISP-DM

 SPSS, NCR, DaimlerChrysler


o od 1996, w 2000 specyfikacja 1.0
o 6 faz

CRISP-DM 48
Poziomy abstrakcji
 Crisp-DM – hierarchiczny model procesowy DM
 Różne grupy zadań przedstawione na 4 poziomach abstrakcji
(od najbardziej ogólnego do szczegółowego) :
o Phase – Faza
o Generic task – zadanie ogólne
o Specialized task – zadanie specjalizowane
o Process instance – instancja procesu

CRISP-DM 49

Phase – Faza
 Termin na określenie wysokopoziomowych etapów modelu
procesowego
 Składa się z zadań (tasks)
 Przykład: „Zrozumienie uwarunkowań biznesowych”
 Fazy organizują cały proces eksploracji danych w dobrze
określone etapy

CRISP-DM 50

Generic task – zadanie ogólne


 Ogólny opis zadań wykonywanych w każdej z faz – np.
czyszczenie danych
o biorą nazwę z ogólnikowego charakteru
• powinny być możliwie niezmienne, bez względu na charakter
projektu powinny pozostać takie samo
 nawet przy wdrażaniu nowych technik (np. modelowania)
• powinny pokrywać cały proces
 nie powinna mieć miejsca sytuacja, w której niemożliwe jest
przyporządkowanie wykonywanej czynności do odpowiedniego zadania
ogólnego

CRISP-DM 51
Specialized task – zadanie specjalizowane

 Specyfikacja, w jaki sposób zadania ogólne powinny zostać


wykonane w określonych warunkach
o np. zadanie ogólne czyszczenie danych może składać się z
zadań specjalizowanych:
• czyszczenie danych numerycznych
• czyszczenie danych kategorycznych
o rola zadań specjalizowanych: umiejscowienie i opisanie
sposobu wykonania zadań ogólnych w kontekście konkretnego
projektu

CRISP-DM 52

Process instance – instancja procesu


 Konkretny projekt opisany w kontekście modelu
procesowego
 Instancje procesów, to zapis przedsięwziętych akcji,
podjętych decyzji i otrzymanych rezultatów
o pojedyncza instancja opisuje wyniki faktycznego działania

CRISP-DM 53

SEMMA - SAS
 Raczej forma logicznej organizacji narzędzi programu SAS Enterprise Miner
 Sample – wybór danych wejściowych (ew. próbki) i ich podział na dane
treningowe, walidujące, testowe
 Explore – odkrycie związków w danych
o zaleca się zilustrowanie danych liczbowych dla wykrycia ewidentnych
prawidłowości oraz wykorzystanie metod statystycznych (analiza czynnikowa,
analiza korespondencji, klasteryzacja danych)
 Modify – przygotowanie i doskonalenie danych wejściowych
o przygotowanie obejmuje zidentyfikowanie obserwacji odstających,
usunięcie/uzupełnienie brakujących wartości, standaryzacja/normalizacja
o doskonalenie danych wejściowych to tworzenie nowych zmiennych, selekcja lub
transformacja istniejących, grupowanie danych w struktury hierarchiczne
 Model – dopasowanie modelu predykcyjnego (sieci neuronowe, drzewa
decyzyjne, modele statystyczne, zdefiniowane przez użytkownika), który w
sposób stabilny generuje możliwie najlepsze prognozy
 Assess – ocena otrzymanych wyników, ich użyteczności i wiarygodności
 Wyniki uzyskane w każdym kroku powinny stanowić punkt wyjścia dla
kolejnych iteracji i do ciągłego doskonalenia ostatecznych rezultatów aż do
osiągnięcia ich satysfakcjonującego poziomu

Badanie Eksploracja Modyfikacja Model Sprawdzenie

SEMMA 54
Six-Sigma
 Skuteczna metodyka eliminacji defektów, strat i wszelkich
problemów związanych z jakością
o zbiór dobrych praktyk dla doskonalenia procesów, stosowanych
przy zarządzaniu jakością – Motorola, poł. lat 80
• sigma – odchylenie standardowe zmiennej
• 6 sigma – 6-krotna wartość odchylenia standardowego
 zgodnie z wykresem rozkładu normalnego, tylko 2 miliardowe wykresu
wychodzą poza zakres (średnia–6sigma, średnia+6sigma)
 na miliard przypadków, 2 są poza tym zakresem
• w praktyce celem wdrażania Six-Sigma jest zmniejszenie liczby
defektów do 3,4 defektów na milion okazji
 Duży nacisk na zbieranie, gromadzenie i analizowanie
danych
 5 podstawowych faz Sześć Sigma można potraktować jako
model procesu data mining

Definiowanie Pomiar Analiza Udoskonalenie Kontrola

Six-Sigma 55

DMAIC
 Define – zdefiniowanie celów związanych z procesami, które
mają być udoskonalane, uwzględniając wymagania klienta
oraz strategię przedsiębiorstwa
 Measure – „pomiar” wyników działania aktualnie istniejących
rozwiązań oraz gromadzenia danych dla dokonania
porównań w przyszłości
 Analyze – ma na celu znaleźć związki pomiędzy różnymi
czynnikami wpływającymi na dany proces
 Improve – wprowadzenie udoskonaleń, poprawek
usuwających wcześniej wykryte problemy
 Control – kontrola lub monitorowanie wyników działania
zastosowanych udoskonaleń

Six-Sigma 56

Systemy dla eksploracji danych


 Zorientowane na bazy danych
o IBM: Intelligent Miner
o DBMiner (OLAP i magazyny danych)
o Silicon Graphics: MineSet (wizualizacja danych)
o MS SQL Server
 Statystyczne
o SAS Institute: enterprise Miner (dobra integracja danych)
o Także – SPSS Clementine, Statistica
 Uczenie maszynowe
o C5.0, MLC++, COBWEB, INLEN, 49ner
Dla prostych zadań można także używać bardziej
typowych rozwiązań

57
Wymagania wobec systemów DM
 Minimalne kryterium:
o Wydajny dostęp do danych w różnych formatach
o Przygotowanie danych dla potrzeb właściwej analizy
o Przeprowadzenie analizy data mining (nawet dla ogromnych
zbiorów danych)
o Przygotowanie raportu i wdrożenie uzyskanych wyników
 Pożądane:
o Łatwa praca z bardzo dużymi projektami
o Otwarta architektura
o Możliwość współpracy z systemem informatycznym
przedsiębiorstwa
o Skalowalność
o Możliwość dostosowania do konkretnych potrzeb i upodobań
użytkownika
o Możliwość automatyzacji rutynowych zadań
o Bogactwo narzędzi analizy i wizualizacji danych
58

Architektura typowego systemu DM -


komponenty

Graficzny Interfejs

Ocena Wzorców

Baza
Data Mining Engine Wiedzy

Serwer Bazy danych lub


Hurtowni

czyszczenie danych, integracja i selekcja

Hurtownia World-Wide Inne


Baza
Danych Web Repozytoria
danych

59

Sposoby integracji z BD/DW (1)


 Brak integracji
o system DM nie wykorzystuje żadnej funkcji systemu BD/DW
• dane pobierane z płaskich plików, wyniki przechowywane w plikach
• proste ale wiele wad, bo BD/DW
 efektywne przechowywanie, dostęp, przetwarzanie i zarządzanie danymi
 po stronie systemu DM znajdowanie, gromadzenie, transformacja danych
 dane dobrze zorganizowane, indeksowane, wyczyszczone, zintegrowane
 proste wyszukiwanie odpowiednich danych
 skalowalne algorytmy i struktury danych – realnie efektywne i skalowalne
implementacje
 większość danych przechowywana w DB/DW – DM musi używać inne narzędzia
do ekstrakcji danych, co powoduje trudności z integracją takiego systemu ze
środowiskiem przetwarzania
 Luźna integracja
o system DM wykorzystuje pewne funkcje oferowane przez DB/DW
• dane pobierane z DB/DW a wyniki DM zapisywane do pliku lub do
DB/DW
 dane z DB/DW pobierane przy pomocy mechanizmu przetwarzania zapytań,
indeksowania, etc oferowanego przez DB/DW
 ale: większość w pamięci głównej
 DM nie wykorzystując żadnych struktur danych i metod optymalizacyjnych
DB/DW - trudno jest uzyskać wysoką skalowalność i dobrą wydajność dla
dużych zbiorów danych

60
Sposoby integracji z BD/DW (2)
 Współpraca z BD/DW (półścisła integracja)
o system DB/DW dostarcza efektywnej implementacji kilku podstawowych
operacji
• np. sortowanie, indeksowanie, agregacja, analiza histogramów, wstępne
przeliczenie podstawowych statystycznych miar (sum, count, maz, min, etc)
• często używane pośrednie wyniki eksploracji – efektywnie wcześniej
wyliczane i przechowywane w DB/DW
 Ścisła integracja
o system DM naturalnie włączony do systemu DB/DW
o podsystem DM traktowany jako jeden z komponentów funkcjonalnych
systemu informatycznego
• zapytania i funkcje DM są zoptymalizowane w oparciu o metody DB/DW
(struktury danych, analizę zapytań, schematy indeksowania, przetwarzanie
zapytań
o trudna i wymaga jeszcze wielu badań
o docelowo: systemy DM, DB i DW będą jednym systemem z różnorodną
funkcjonalnością – jednolite środowisko przetwarzania informacji
 Półścisła integracja – kompromis
o wymaga identyfikacji powszechnie używanych w DM jednostek
elementarnych i efektywnej ich implementacji w systemach DB/DW

61

Przykład ścisłej integracji

 SZBD Oracle 9i to pierwsza baza danych włączająca


funkcjonalność eksploracji danych do jądra SZBD
o pierwsza edycja Oracle Data Mining (niezbyt udana)
 Oracle 10g – moduł ODM przepisano i rozwinięto
 potem: SQL Server 2005, IBM DB2 Data Warehouse Edition
o oferują silniki do eksploracji danych jako części składowe
jądra systemu bazy danych
o dostarczają interfejsów programistycznych dla Java,
PL/SQL, MDX i DMX
o umożliwiają uruchamianie algorytmów eksploracji i
przeglądanie znalezionych wzorców z poziomu SQL
• zazwyczaj przez niestandardowe rozszerzenia i funkcje SQL
(prawdopodobnie niedługo standaryzacja)

62

(Krótka) historia społeczności DM


 1989 IJCAI Workshop on Knowledge Discovery in Databases
o Knowledge Discovery in Databases (G. Piatetsky-Shapiro and
W. Frawley, 1991)
 1991-1994 Workshops on Knowledge Discovery in Databases
o Advances in Knowledge Discovery and Data Mining (U. Fayyad,
G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)
 1995-1998 International Conferences on Knowledge Discovery in
Databases and Data Mining (KDD’95-98)
o Journal of Data Mining and Knowledge Discovery (1997)
 Konferencje ACM SIGKDD od 1998 i SIGKDD Explorations
 Inne konferencje data mining
o PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE)
ICDM (2001), etc.
 ACM Transactions on KDD – początek w 2007

63
Główne wyzwania w DM
 Metody i interakcja z uż
użytkownikiem
o Obsługa szumów, niepewności i niekompletności danych
o Język zadawania zapytań
zapytań DM - standard
o Włączanie ograniczeń, wiedzy eksperckiej i dziedzinowej do DM
o Ocena wzorcó
wzorców – problem atrakcyjnoś
atrakcyjności
o Niewidoczne DM (wbudowane w inne funkcjonalne moduły)
o Ochrona prywatnoś
prywatności
 Wydajność
Wydajność
o Efektywne i skalowalne algorytmy eksploracji danych
o Opracowanie równoległych, rozproszonych i przyrostowych
metod DM
 Różnorodność
norodność typó
typów danych
o Eksploracja różnorodnych i heterogenicznych danych
o Zorientowane na zastosowanie i dziedzinę DM

64

Przyszłość eksploracji danych


 Eksploracja danych z nowej dziedziny naukowej staje się
dziedziną dojrzałą
 Przyszłość dziedziny zależy od jej upowszechnienia się i
praktycznej przydatności
 Problemy upowszechniania się eksploracji danych:
o ciągle wysoki koszt narzędzi eksploracji danych
o złożoność problemów eksploracji danych
o wiele instytucji dopiero wdraża hurtownie danych i „jest
na etapie” analiz OLAP
 Sygnały pozytywne:
o powstawanie standardów regulujących sposoby
wykorzystania eksploracji danych
o dostęp wielu narzędzi komercyjnych, w tym przede
wszystkim tych związanych z serwerami baz danych
o pozytywne doświadczenia wielu przedsiębiorstw i
instytucji

65

KONIEC

Eksploracja danych
Wprowadzenie w
problematykę

66

You might also like