Professional Documents
Culture Documents
Wprowadzenie w
problematykę
Zalew danych
„Toniemy w danych, ale cierpimy na brak wiedzy”, John
Naisbitt, Megatrends, Warner Bross, 1986
o nasze możliwości analizowania i rozumienia tak dużych wolumenów
danych – dużo mniejsze od możliwości ich gromadzenia i
przechowywania
• data tombs – rzadko odwiedzane archiwa
Wielkie wolumeny danych są trudne do analizowania
o brak wystarczającej liczby analityków wykwalifikowanych w
przetwarzaniu danych w wiedzę
o brak odpowiednich technologii
o systemy ekspertowe – wiedza wprowadzana ręcznie (ryzyko
błędów, czasochłonne)
o wiedza taka (o działalności przedsiębiorstwa, poziomie i strukturze
sprzedaży oraz cechach klienta) może posłużyć do wspomagania
podejmowania decyzji
• obecnie – decyzje podejmowane intuicyjnie
• -> źródło rozwoju nowej technologii eksploracji danych
Wg internetowego magazynu ZDNET News (2001) „eksploracja
danych będzie jednym z najbardziej rewolucyjnych osiągnięć
następnej dekady”
o MIT Technology Review wybrało eksplorację danych jako jedną z 10 nowych
technologii, które zmienią świat”
3
Skąd się biorą dane?
6
Ewolucja technologii bazodanowej
lata 1960’te:
o przetwarzanie plików, początki baz, hierarchiczne i sieciowe DBMS
lata 1970’te:
o Relacyjny model danych, implementacje relacyjnych DBMS
lata 1980’te:
o RDBMS, zaawansowane modele danych (rozszerzony relacyjny,
obiektowy, obiektowo-relacyjny, dedukcyjny, etc.)
o DBMS zorientowane na zastosowanie (przestrzenne, naukowe,
inżynierskie, etc.)
lata 1990’te:
o Data mining, hurtownie danych, multimedialne bazy danych i webowe
lata 2000:
o Strumienie danych – zarządzanie i eksploracja
o Upowszechnienie data mining i jego zastosowania
o Technologia Web (XML, integracja danych) i systemy globalnej
informacji
28 4 czerwony 1100 40 0
20 1 niebieski 650 24 0
9
Zależności w bazach – przykład 2
10
11
12
Przykłady zapytań
o Zidentyfikuj klientó
klientów, któ
którzy o Zidentyfikuje klientó
klientów z
wydali wię
więcej niż
niż $10,000 w podobnymi
cią
cią gu ostatniego miesią
miesi ca
ą przyzwyczajeniami
zakupowymi.
zakupowymi. (klastrowanie)
klastrowanie)
o Znajdź
Znajdź wszystkie towary,
o Znajdź
Znajdź wszystkich klientó
klientów,
któ któ
które są
są czę
często kupowane
którzy kupili mleko
z mlekiem. (reguł
reguły
asocjacyjne)
asocjacyjne)
13
Eksploracja danych a
odkrywanie wiedzy w bazach danych
14
Proces KDD
Data Mining
Dane przygotowane
do analizy
Hurtownia Selekcja
danych i transformacja
Czyszczenie danych
Integracja danych
Bazy danych 15
Architektura typowego systemu DM -
komponenty
Graficzny Interfejs
Ocena Wzorców
Baza
Motor Data Mining Wiedzy
16
Wzrastający potencjał
Końcowy
do wspomagania
użytkownik
decyzji biznesowych
Podejmowanie
decyzji
Eksploatacja danych
Analiza statystyczna, Zapytania i raportowania
Hurtownie danych/Składnice danych
OLAP, MDA
DBA
Źródła danych
Papier, Pliki, Dokumenty Web, Systemy baz danych, OLTP
17
18
Dziedziny zastosowań (1)
Handel i marketing
o identyfikacja „profilu klienta” dla przewidywania, którzy
klienci odpowiedzą na marketing korespondencyjny
o segmentacja klientów w celu opracowania strategii
promocji
o wykrywanie schematów zakupów i planowania lokalizacji
artykułów
Finanse i bankowość
o identyfikacja schematów wykorzystania kradzionych kart
kredytowych
o przewidywanie ryzyka udzielenia kredytu lub pożyczki
o przewidywanie dochodowości portfela akcji, znajdowanie
korelacji wśród wskaźników finansowych
19
20
21
Dlaczego należy wstępnie obrabiać dane?
22
Przykład
Główne zadania we
wstępnym przetwarzaniu danych
Czyszczenie danych
o Uzupełnianie brakujących wartości, wygładzanie zakłóconych danych,
identyfikacja lub usuwanie szumów i rozwiązywanie niezgodności
• ignorowanie, zastąpienie brakującej wartości stałą, średnią, średnią
dla klasy, wartością wygenerowaną losowo z obserwowanego
rozkładu zmiennej , wykorzystanie najbardziej prawdopodobnej
wartości do uzupełnienia brakującej (sieci bayes’a, drzewa
decyzyjne)
Integracja danych
o Integracja z wielu baz danych, kostek danych lub plików
• problem identyfikacji jednostek logicznych: identyfikacja
rzeczywistych jednostek z wielu źródeł danych, niespójność w
nazwach -> nadmiarowość, konflikty wartości -> różne
reprezentacje, skale, kodowania
Transformacja danych
o Przekształcanie danych do postaci odpowiedniej do DM
o Normalizacja (aby zmienne z większym zakresem nie miały
nadmiernego wpływu na wyniki) i agregacja
Redukcja danych
o Uzyskiwanie zredukowanej reprezentacji w objętości ale tych samych
lub podobnych wyników analitycznych
Dyskretyzacja danych
o Część redukcji, głównie dla danych numerycznych (dzielenie na zakresy
ciągłego atrybutu)
24
Jakie dane można eksplorować?
Zbiory i aplikacje zorientowane na bazy danych
o Relacyjne bazy danych
o Hurtownie danych
o Transakcyjne bazy danych
Zaawansowane zbiory danych i aplikacje
o Strumienie danych i dane z czujników
o Temporalne, sekwencyjne i czasowe bazy danych
o Dane grafowe, sieci społeczne
o Obiektowo-relacyjne bazy danych
o Heterogeniczne i spadkowe (legacy) bazy danych
o Dane przestrzenne i czasowo-przestrzenne
o Multimedialne bazy
o Tekstowe bazy
o World-Wide Web
25
Klasyfikacje metod DM
Ze względu na sposób wykorzystania odkrytego modelu
o deskrypcyjne:
• automatyczne formułowanie uogólnień dotyczących danych, w celu
uchwycenia ogólnych cech opisywanych obiektów
o predykcyjne:
• na podstawie wzorców odkrytych w dużych wolumenach danych
przewidywanie cech, wartości i zachowań obiektów
Ze względu na charakter wykorzystywanych danych
źródłowych:
o uczenie nadzorowane:
• każdy obiekt posiada etykietę przypisującą obiekt do jednej z
predefiniowanych klas
o uczenie bez nadzoru
• żadne etykiety obiektów nie są znane
formułowanie modelu wiedzy maksymalnie zgodny z obserwowanymi
danymi
26
27
Metody eksploracji: klasyfikacja
Zbudowanie modelu przypisującego nowy, wcześniej
niewidziany obiekt do jednej ze zbioru predefiniowanych klas
o przypisanie następuje na podstawie doświadczenia
nabytego przez model w fazie uczenia na zbiorze
uczącym
o technika rozwijana równolegle w sztucznej inteligencji,
uczeniu maszynowym, wspomaganiu decyzji – setki
algorytmów klasyfikacji
• najpopularniejsze: klasyfikacja bayesowska, drzewa
decyzyjne, sieci neuronowe, sieci bayesowskie, techniki
bazujące na k najbliższych sąsiadach
• zastosowania:
diagnostyka medyczna
rozpoznawanie trendów na rynkach finansowych
automatyczne rozpoznawanie obrazów
przydział kredytów bankowych
28
Przykład klasyfikacji
Dlaczego licealiści idą na studia?
29
30
Przewidywanie ryzyka wystąpienia zakażenia
31
32
Wykorzystanie drzewa
33
Metody eksploracji: regresja
Podobna do klasyfikacji
o różnica:
• w klasyfikacji zadanie polega na przewidywaniu wartości atrybutu
dyskretnego
• technik regresji próbują, na podstawie doświadczenia zdobytego na
zbiorze uczącym przewidzieć nieznaną wartość atrybutu
numerycznego
• zastosowania:
analiza danych finansowych
systemy logistyczne (np. podczas przewidywania przyszłego poboru
energii elektrycznej)
34
35
36
Metody eksploracji: wzorce sekwencji
Rozwinięcie modelu reguł asocjacyjnych o element następstwa
zdarzeń
o reprezentują podsekwencje zdarzeń elementarnych
występujących często w bazie sekwencji
{Ojciec chrzestny}=>{Kasyno}=>{Człowiek z blizną} (1.5%)
• kolejne wystąpienia elementów wzorca mogą być ograniczone przez
szerokość okna czasowego wewnątrz którego muszą się znaleźć,
aby utworzyć wzorzec sekwencji
o zastosowanie:
• odkrywanie częstych sekwencji w historii połączeń
telekomunikacyjnych
• znajdowanie sekwencji świadczących o grożącej awarii sieci
komputerowej
• planowanie inwestycji giełdowych, przewidywanie sprzedaży,
analiza zachować użytkowników WWW
kurs akcji KGHM, który podczas ostatnich trzech sesji wzrósł o
0,5%, 0,9%, 0,1% na następnej sesji spadnie o 0,5%
5% użytkowników serwisu WWW odwiedziło w ciągu jednej sesji najpierw
stronę wakacje.html, później promocje.html, a następnie dojazd_wlasny.html
37
38
39
Zmiana roli eksperta
Ekspert Inż
Inżynier Moduł System
wiedzy akwizycji ekspertowy
wiedzy
Baza
danych
Hurtownia Eksploracja Użytkownik
danych danych ekspertyza
Baza
Wiedza nieuś
nieuświadomiona
danych przez eksperta
40
41
Eksploracja danych
Transformacja danych w informacje pozwalające podjąć
odpowiednie działania:
o Identyfikacja i pozyskanie danych
o Sprawdzenie, zbadanie i oczyszczenie danych
o Uzyskanie właściwego układu danych
o Dodanie zmiennych wyliczonych na podstawie wartości cech
o Wybranie próby uczącej
o Wybranie metody modelowania
o Sprawdzenie dobroci dopasowania
Podjęcie działań
Cel projektu DM: podjąć takie działania, które poprawią jakość
funkcjonowania organizacji
Na podstawie informacji uzyskanych w poprzednim kroku –
właściwy cel przeprowadzenia całego procesu eksploracji
o Upowszechnienie wiedzy
o Jednorazowy wynik (np. kampania promocyjna)
o Zapamiętanie wyników
• zyskowność klientów z poszczególnych segmentów – można zapamiętać
i upowszechnić przez system BI firmy
o Regularne przewidywania
• np. co miesiąc przewidywanie prawdopodobieństwa, że dany kredyt
przestanie być terminowo spłacany
o Bieżące oceny
• model może zostać wbudowany w system informatyczny
(prawdopodobieństwo, że klient będzie bezproblemowo spłacał kredyt,
monitorowanie wszystkich transakcji kartami w celu wykrycia
potencjalnych nadużyć)
o Poprawa jakości danych
• błędne dane wykryte w czasie DM
CRISP-DM 48
Poziomy abstrakcji
Crisp-DM – hierarchiczny model procesowy DM
Różne grupy zadań przedstawione na 4 poziomach abstrakcji
(od najbardziej ogólnego do szczegółowego) :
o Phase – Faza
o Generic task – zadanie ogólne
o Specialized task – zadanie specjalizowane
o Process instance – instancja procesu
CRISP-DM 49
Phase – Faza
Termin na określenie wysokopoziomowych etapów modelu
procesowego
Składa się z zadań (tasks)
Przykład: „Zrozumienie uwarunkowań biznesowych”
Fazy organizują cały proces eksploracji danych w dobrze
określone etapy
CRISP-DM 50
CRISP-DM 51
Specialized task – zadanie specjalizowane
CRISP-DM 52
CRISP-DM 53
SEMMA - SAS
Raczej forma logicznej organizacji narzędzi programu SAS Enterprise Miner
Sample – wybór danych wejściowych (ew. próbki) i ich podział na dane
treningowe, walidujące, testowe
Explore – odkrycie związków w danych
o zaleca się zilustrowanie danych liczbowych dla wykrycia ewidentnych
prawidłowości oraz wykorzystanie metod statystycznych (analiza czynnikowa,
analiza korespondencji, klasteryzacja danych)
Modify – przygotowanie i doskonalenie danych wejściowych
o przygotowanie obejmuje zidentyfikowanie obserwacji odstających,
usunięcie/uzupełnienie brakujących wartości, standaryzacja/normalizacja
o doskonalenie danych wejściowych to tworzenie nowych zmiennych, selekcja lub
transformacja istniejących, grupowanie danych w struktury hierarchiczne
Model – dopasowanie modelu predykcyjnego (sieci neuronowe, drzewa
decyzyjne, modele statystyczne, zdefiniowane przez użytkownika), który w
sposób stabilny generuje możliwie najlepsze prognozy
Assess – ocena otrzymanych wyników, ich użyteczności i wiarygodności
Wyniki uzyskane w każdym kroku powinny stanowić punkt wyjścia dla
kolejnych iteracji i do ciągłego doskonalenia ostatecznych rezultatów aż do
osiągnięcia ich satysfakcjonującego poziomu
SEMMA 54
Six-Sigma
Skuteczna metodyka eliminacji defektów, strat i wszelkich
problemów związanych z jakością
o zbiór dobrych praktyk dla doskonalenia procesów, stosowanych
przy zarządzaniu jakością – Motorola, poł. lat 80
• sigma – odchylenie standardowe zmiennej
• 6 sigma – 6-krotna wartość odchylenia standardowego
zgodnie z wykresem rozkładu normalnego, tylko 2 miliardowe wykresu
wychodzą poza zakres (średnia–6sigma, średnia+6sigma)
na miliard przypadków, 2 są poza tym zakresem
• w praktyce celem wdrażania Six-Sigma jest zmniejszenie liczby
defektów do 3,4 defektów na milion okazji
Duży nacisk na zbieranie, gromadzenie i analizowanie
danych
5 podstawowych faz Sześć Sigma można potraktować jako
model procesu data mining
Six-Sigma 55
DMAIC
Define – zdefiniowanie celów związanych z procesami, które
mają być udoskonalane, uwzględniając wymagania klienta
oraz strategię przedsiębiorstwa
Measure – „pomiar” wyników działania aktualnie istniejących
rozwiązań oraz gromadzenia danych dla dokonania
porównań w przyszłości
Analyze – ma na celu znaleźć związki pomiędzy różnymi
czynnikami wpływającymi na dany proces
Improve – wprowadzenie udoskonaleń, poprawek
usuwających wcześniej wykryte problemy
Control – kontrola lub monitorowanie wyników działania
zastosowanych udoskonaleń
Six-Sigma 56
57
Wymagania wobec systemów DM
Minimalne kryterium:
o Wydajny dostęp do danych w różnych formatach
o Przygotowanie danych dla potrzeb właściwej analizy
o Przeprowadzenie analizy data mining (nawet dla ogromnych
zbiorów danych)
o Przygotowanie raportu i wdrożenie uzyskanych wyników
Pożądane:
o Łatwa praca z bardzo dużymi projektami
o Otwarta architektura
o Możliwość współpracy z systemem informatycznym
przedsiębiorstwa
o Skalowalność
o Możliwość dostosowania do konkretnych potrzeb i upodobań
użytkownika
o Możliwość automatyzacji rutynowych zadań
o Bogactwo narzędzi analizy i wizualizacji danych
58
Graficzny Interfejs
Ocena Wzorców
Baza
Data Mining Engine Wiedzy
59
60
Sposoby integracji z BD/DW (2)
Współpraca z BD/DW (półścisła integracja)
o system DB/DW dostarcza efektywnej implementacji kilku podstawowych
operacji
• np. sortowanie, indeksowanie, agregacja, analiza histogramów, wstępne
przeliczenie podstawowych statystycznych miar (sum, count, maz, min, etc)
• często używane pośrednie wyniki eksploracji – efektywnie wcześniej
wyliczane i przechowywane w DB/DW
Ścisła integracja
o system DM naturalnie włączony do systemu DB/DW
o podsystem DM traktowany jako jeden z komponentów funkcjonalnych
systemu informatycznego
• zapytania i funkcje DM są zoptymalizowane w oparciu o metody DB/DW
(struktury danych, analizę zapytań, schematy indeksowania, przetwarzanie
zapytań
o trudna i wymaga jeszcze wielu badań
o docelowo: systemy DM, DB i DW będą jednym systemem z różnorodną
funkcjonalnością – jednolite środowisko przetwarzania informacji
Półścisła integracja – kompromis
o wymaga identyfikacji powszechnie używanych w DM jednostek
elementarnych i efektywnej ich implementacji w systemach DB/DW
61
62
63
Główne wyzwania w DM
Metody i interakcja z uż
użytkownikiem
o Obsługa szumów, niepewności i niekompletności danych
o Język zadawania zapytań
zapytań DM - standard
o Włączanie ograniczeń, wiedzy eksperckiej i dziedzinowej do DM
o Ocena wzorcó
wzorców – problem atrakcyjnoś
atrakcyjności
o Niewidoczne DM (wbudowane w inne funkcjonalne moduły)
o Ochrona prywatnoś
prywatności
Wydajność
Wydajność
o Efektywne i skalowalne algorytmy eksploracji danych
o Opracowanie równoległych, rozproszonych i przyrostowych
metod DM
Różnorodność
norodność typó
typów danych
o Eksploracja różnorodnych i heterogenicznych danych
o Zorientowane na zastosowanie i dziedzinę DM
64
65
KONIEC
Eksploracja danych
Wprowadzenie w
problematykę
66