You are on page 1of 32

Eksploracja danych

Eksploracja Danych

Wprowadzenie Co to jest eksploracja danych? Metody Zastosowania

Wprowadzenie

Celem wykadu jest wprowadzenie do tematyki eksploracji danych. Odpowiemy sobie na pytanie Czym jest eksploracja danych? Krtko scharakteryzujemy proces odkrywania wiedzy i przybliymy jakie miejsce zajmuje w nim eksploracja danych. Zaznajomimy si pokrtce z metodami jakimi posuguje si eksploracji danych. Na koniec pokaemy gdzie eksploracja danych znalaza najwiksze zainteresowanie i zastosowanie.

Eksploracja danych

Zalew danych
rda danych
Rozwj technologii baz danych, hurtowni danych, automatycznych narzdzi do gromadzenia danych Upowszechnienie systemw informatycznych i wzrost wiadomoci uytkownikw systemw IT Spadek cen sprztu komputerowego

Wprowadzenie (2)

Rozwj technologii systemw baz danych, magazynw danych, sieci komputerowych, automatycznych narzdzi do gromadzenia danych, z jednej strony, z drugiej, upowszechnienie systemw informatycznych zwizane ze wzrostem wiadomoci uytkownikw i znaczcym spadkiem cen sprztu komputerowego, zaowocoway nagromadzeniem olbrzymich wolumenw danych przechowywanych w bazach danych, hurtowniach danych i rnego rodzaju repozytoriach danych. Postp technologiczny w zakresie cyfrowego generowania i gromadzenia informacji doprowadzi do przeksztacenia si baz danych wielu przedsibiorstw, urzdw i placwek badawczych w zbiorniki ogromnych iloci danych.

Eksploracja danych

Dane cd.
Toniemy w danych, a brakuje nam wiedzy jaka jest w tych danych zawarta

Wprowadzenie (3)

Z kadym dniem przybywa danych, co powoduje, e s magazynowane i przechowywane w olbrzymich ilociach. Nasze moliwoci analizowania i rozumienia tak duych wolumenw danych s duo mniejsze od moliwoci ich gromadzenia i przechowywania. Zaczynamy ton w danych, ale brakuje nam wiedzy, ktra tkwi w nagromadzonych danych. Wiele firm, przedsibiorstw, instytucji administracji publicznej, orodkw naukowych, dysponujcych bardzo duymi zasobami danych przechowywanych w zakadowych bazach i magazynach danych, stano przed problemem, w jaki sposb efektywnie i racjonalnie wykorzysta nagromadzon w tych danych wiedz dla celw wspomagania swojej dziaalnoci biznesowej. To okazao si by rdem rozwoju nowej technologii, ktr nazwano technologi eksploracji danych, ktra potrafiaby wydoby wiedz ze zgromadzonych danych.

Eksploracja danych

Skd si bior dane?


Dane s generowane przez:
banki, ubezpieczalnie, firmy, sieci handlowe, szpitale, etc. dane eksperymentalne: fizyka, astronomia, biologia, etc. Web, tekst, i e-handel

Wprowadzenie (4)

Odpowied na pytanie Skd bior si takie olbrzymie iloci danych? jest bardzo prosta, codziennie w bankach, ubezpieczalniach, firmach, szpitalach, sieciach handlowych (nawet niewielkie supermarkety rejestruj codziennie sprzeda tysicy artykuw), wykonuje si tysice operacji handlowych (transakcje bankowe), raportw (sprzeday) i opisw (np. opis zabiegu medycznego). Innym dostawc danych s np. orodki naukowe, gdzie generuje si ogromne iloci danych eksperymentalnych w niemale kadej dziedzinie naukowej np. fizyka, astronomia, biologia, bioinformatyka itd. W ostatnich latach rozwj sieci Web zaowocowa powstaniem miliardw stron internetowych, rozwojem e-handlu i rozprzestrzenianiem si olbrzymich iloci informacji w postaci tekstowej.

Eksploracja danych

Przykady (1)
Very Long Baseline Interferometry (VLBI) posiada 16 teleskopw, z ktrych kady produkuje 1 Gigabit/second danych astronomicznych w czasie 25-dniowej sesji obserwacyjnej AT&T obsuguje miliardy pocze dziennie Danych jest tyle, e nie mona ich wszystkich zapamita analiza tych danych jest wykonywana on the fly ( w locie) (tzw. strumienie danych) sie sprzeday Wal-Mart gromadzi dziennie dane dotyczce ponad 20 milionw transakcji
Wprowadzenie (5)

Mona poda wiele przykadw, ktre przedstawiaj masow produkcj danych. Przykadowo Very Long Baseline Interferometry (VLBI) posiada 16 teleskopw, z ktrych kady produkuje 1 Gigabit/second danych astronomicznych w czasie 25-dniowej sesji obserwacyjnej. Firma telekomunikacyjna AT&T obsuguje miliardy pocze dziennie. Okazao si, e danych jest tyle, e nie mona ich wszystkich zapamita analiza tych danych jest wykonywana on the fly (w locie) (tzw. strumienie danych). Innym przykadem moe by sie sprzeday Wal-Mart, ktra gromadzi dziennie dane dotyczce ponad 20 milionw transakcji.

Eksploracja danych

Przykady (2)

koncern Mobil Oil rozwija magazyn danych pozwalajcy na przechowywanie ponad 100 terabajtw danych o wydobyciu ropy naftowej system satelitarnej obserwacji EOS generuje w kadej godzinie dziesitki gigabajtw danych niewielkie supermarkety rejestruj codziennie sprzeda tysicy artykuw

Wprowadzenie (6)

Koncern Mobil Oil rozwija magazyn danych pozwalajcy na przechowywanie ponad 100 terabajtw danych o wydobyciu ropy naftowej. System satelitarnej obserwacji EOS generuje w kadej godzinie dziesitki gigabajtw danych pochodzcych ze zdj satelitarnych. Nawet niewielkie sklepy czy supermarkety rejestruj codziennie sprzeda tysicy artykuw, a co si z tym wie setki i tysice transakcji do zapamitania.

Eksploracja danych

Najwiksze systemy baz danych


Komercyjne bazy danych:
France Telecom posiada baz danych, ~30TB; AT&T ~ 26 TB

Web
Alexa internet archiwum: 7-letnie dane, 500 TB Google - 8 miliardw stron Yahoo - 20 miliardw stron IBM WebFountain, 160 TB (2003) Internet archiwum (www.archive.org),~ 300 TB

Wprowadzenie (7)

Zgromadzone dane musz zosta odpowiednio przechowane, std rozwj systemw ktre umoliwi na nich prac oraz odpowiednie zarzdzanie. Istnieje wiele komercyjnych baz danych np. francuska sie telefoniczna France Telecom posiada baz danych, ktra osiga rozmiar ~30TB; Inn olbrzymi komercyjna baz danych jest baza, ktrej rozmiar osiga ~ 26 TB i gromadzi dane firmy AT&T. Rozwj sieci Web spowodowa, i sta si on olbrzymi baz danych przechowujc tera bajty danych. Przykadowo, Alexa internet archiwum: 7-letnie dane, 500 TB, Google - 8 miliardw stron, Yahoo - 20 miliardw stron , IBM WebFountain, 160 TB (2003), Internet archiwum (www.archive.org),~ 300 TB;

Eksploracja danych

5 milionw TB wygenerowanych w 2002

UC Berkeley 2003 szacuje:


5 exabytes (5 million terabytes) nowych danych wygenerowanych w 2002
www.sims.berkeley.edu/research/projects/how-much-info-2003/

Najwikszy producent danych - USA


produkuje ~40% danych wiatowych

Wprowadzenie (8)

Uniwersytet Berkeley 2003 szacuje 5 exabytes (czyli okoo 5 milionw terabajtw) nowych danych wygenerowanych w samym roku 2002. Niewtpliwie najwikszym producentem danych w skali wiatowej s Stany Zjednoczone, szacuje si i produkuj a 40% danych wiatowych.

Eksploracja danych

Przyrost danych
Podwojenie danych w stosunku do roku 1999 (~30% przyrost roczny)
Tylko niewielka cz danych jest analizowana, a efekty tej analizy wykorzystywane w praktyce!!! Niezbdna jest analiza przechowywanych danych inaczej przechowywanie takich wolumenw danych nie ma najmniejszego sensu Dziedzin, ktra zajmuje si analiz i odkrywaniem zalenoci, regu, wzorcw w BD i DW jest EKSPLORACJA DANYCH (ang. data mining)
Wprowadzenie (9)

Cigy przyrost danych spowodowa podwojenie danych w stosunku do roku 1999. Szacuje si i rocznie przybywa 30% danych. Niestety tylko niewielka ich cz jest analizowana w praktyce. Niezbdna jest analiza przechowywanych danych, dziki ktrej mona otrzyma informacje (ukryt wiedz) w nich zawartych. Inaczej przechowywanie ogromnych iloci danych i samo ich magazynowanie nie ma najmniejszego sensu. Odpowiedzi na potrzeb bardziej zaawansowanej i automatycznej analizy danych przechowywanych w bazach i hutrowniach danych jest technologia Eksploracji Danych (ang. Data Mining).

Eksploracja danych

Czym jest eksploracja danych?


Eksploracja danych:
proces automatycznego odkrywania nietrywialnych, dotychczas nieznanych, potencjalnie uytecznych regu, zalenoci, wzorcw schematw, podobiestw lub trendw w duych repozytoriach danych (bazach danych, hurtowniach danych, itp.)

Cel eksploracji danych:


analiza danych i procesw w celu lepszego ich rozumienia

Wprowadzenie (10)

Mona postawi pytanie: Czym jest eksploracja danych?. Zadaniem metod eksploracji danych, nazywanej rwnie odkrywaniem wiedzy w bazach danych (ang. knowledge discovery in databases, database mining), jest automatyczne odkrywanie nietrywialnych, dotychczas nieznanych, zalenoci, zwizkw, podobiestw lub trendw -- oglnie nazywanych wzorcami (ang. patterns) -- w duych repozytoriach danych. Odkrywane w procesie eksploracji danych wzorce maj, najczciej, posta regu logicznych, klasyfikatorw (np. drzew decyzyjnych), zbiorw skupie, wykresw, itp. Celem eksploracji najoglniej mwic jest analiza danych i procesw w celu lepszego ich poznania i zrozumienia. Automatyczna eksploracja danych otwiera nowe moliwoci w zakresie interakcji uytkownika z systemem bazy i magazynem danych. Przede wszystkim umoliwia formuowanie zapyta na znacznie wyszym poziomie abstrakcji anieli pozwala na to standard SQL.

10

Eksploracja danych

Typy zapyta do repozytoriw danych


Eksploracja danych = zoone zapytania Zapytanie operacyjne do bazy danych:
Ile butelek wina sprzedano w I kwartale 2006 w sklepie Auchan w Poznaniu?

Zapytanie analityczne do hurtowni danych:


Ile sprzedano butelek wina w sieci Auchan na terenie kraju z podziaem na wojewdztwa, gatunki win oraz kwartay, w cigu ostatnich 5 lat?

Wprowadzenie (11)

Moemy wyrni trzy typy zapyta do repozytoriw danych w szczeglnoci do systemw baz danych. S to zapytania operacyjne, zapytania analityczne oparte o model OLAP oraz zapytania eksploracyjne. Typowym zapytaniem operacyjnym do bazy danych bdzie: Ile butelek wina sprzedano w I kwartale 2006 w sklepie Auchan w Poznaniu? Bardziej zaawansowanym zapytaniem bdzie zapytanie analityczne postaci: Ile sprzedano butelek wina w sieci Auchan na terenie kraju z podziaem na wojewdztwa, gatunki win oraz kwartay, w cigu ostatnich 5 lat? Analiza danych w magazynie danych, zgodnie z modelem OLAP, jest sterowana cakowicie przez uytkownika. Uytkownik formuuje zapytania i dokonuje analizy danych zawartych w magazynie. Z tego punktu widzenia, OLAP mona interpretowa jako rozszerzenie standardu SQL o moliwo efektywnego przetwarzania zoonych zapyta zawierajcych agregaty. Niestety, analiza porwnawcza zagregowanych danych, ktra jest podstaw modelu OLAP, operuje na zbyt szczegowym poziomie abstrakcji i nie pozwala na formuowanie bardziej oglnych zapyta.

11

Eksploracja danych

Zapytania eksploracyjne (1)


Przykady zapyta eksploracyjnych:
Jakie inne jeszcze produkty, najczciej, kupuj klienci, ktrzy kupuj wino? Czym rni si koszyki klientw kupujcych wino i piwo? W jaki sposb mona scharakteryzowa klientw kupujcych wino? W jaki sposb pogrupowa klientw kupujcych wino? Czy mona dokona predykcji, e dany klient kupi wino?
Wprowadzenie (12)

Jak ju wspomnielimy zapytania eksploracyjne maj charakter znacznie bardziej oglny i znacznie bardziej abstrakcyjny. Oto kilka przykadw zapyta eksploracyjnych: Jakie inne jeszcze produkty, najczciej, kupuj klienci, ktrzy kupuj wino? Czym rni si koszyki klientw kupujcych wino i piwo? W jaki sposb mona scharakteryzowa klientw kupujcych wino? Czy mona dokona predykcji, e dany klient kupi wino? Jakie produkty kupuj klienci supermarketu najczciej wraz z winem? Jakie oddziay supermarketu miay 'anormaln' sprzeda w pierwszym kwartale 2004 r.? Czy mona przewidzie przysze zachowania klientw? Czy istnieje korelacja pomidzy lokalizacj oddziau supermarketu a asortymentem produktw, ktrych sprzeda jest wysza od redniej sprzeday produktw? Zapyta takich nie moglibymy zrealizowa przy pomocy SQL czy nawet jego rozszerze w postaci zapyta analitycznych.

12

Eksploracja danych

Zapytania eksploracyjne (2)


Dany jest zbir danych opisujcych pacjentw szpitala. Czy potrafimy w oparciu o ten zbir danych:
Poprawnie zdiagnozowa pacjenta (okreli chorob)? Przewidzie poprawnie wynik terapii? Zaproponowa najlepsz terapi?

Wprowadzenie (13)

Zapytania eksploracyjne moemy definiowa nie tylko w odniesieniu do danych pochodzcych ze sprzeday, ale niemale w kadej dziedzinie ycia. Wemy pod uwag zbir danych opisujcych pacjentw szpitala. W oparciu o ten zbir danych moemy sformuowa szereg zapyta eksploracyjnych np.: Czy bdziemy potrafili poprawnie zdiagnozowa pacjenta?, Czy na podstawie okrelonych przesanek (symptomw choroby) bdziemy potrafili okreli wystpienie choroby?, Przewidzie poprawnie wynik terapii, okreli jakie czynniki mog wpyn na powikania w procesie leczenia? czy te zaproponowa najlepsz z moliwych terapi.

13

Eksploracja danych

Czym jest eksploracja danych? (1)


Alternatywne okrelenia technologii eksploracji danych:
Odkrywanie wiedzy w bazach danych KDD (Knowledge Discovery in Databases) SIGKDD (Special Interest Group On Knowledge Discovery and Data Mining) ekstrakcja wiedzy, inteligencja biznesowa, pozyskiwanie wiedzy

Wprowadzenie (14)

Kontynuujc rozwaania nad tym czym jest eksploracja danych?, moemy poda alternatywne okrelenia technologii eksploracji danych. Najpopularniejsz alternatywn definicj jest definicja, e eksploracja danych to odkrywanie wiedzy w bazach danych KDD (Knowledge Discovery in Databases). Powstaa rwnie specjalna sekcja w ramach stowarzyszenia ACM powicona temu zagadnieniu - SIGKDD (Special Interest Group On Knowledge Discovery and Data Mining).

14

Eksploracja danych

Czym jest eksploracja danych? (2)

Ciekawe okrelenia:
archeologia danych, kopanie w danych, eksploatacja z danych

Czym nie jest eksploracja danych:


Systemy eksperckie OLAP

Wprowadzenie (15)

W pocztkowym okresie rozwoju eksploracji danych (data mining) powstao wiele alternatywnych ciekawych okrele np. archeologia danych, kopanie czy te drenie w danych, eksploatacja z danych i wiele innych. Rozwaajc czym jest eksploracja danych naley si rwnie zastanowi czym ona nie jest. Czasami jest bdnie utosamiana z systemami eksperckimi czy te analiz OLAP (Online Analytical Processing). Analiza danych sterowana zapytaniami (OLAP) zakada, e uytkownik, po pierwsze, posiada pen wiedz o przedmiocie analizy, i, po drugie, potrafi sterowa tym procesem. Eksploracja danych umoliwia analiz danych dla problemw, ktre, ze wzgldu na swj rozmiar, s trudne do przeprowadzenia przez uytkownika, oraz tych problemw, dla ktrych nie dysponujemy pen wiedz o przedmiocie analizy, co uniemoliwia sterowanie procesem analizy danych.

15

Eksploracja danych

Czym jest eksploracja danych? (3)

Eksploracja danych (ang. Data Mining): zbir technik automatycznego odkrywania nietrywialnych zalenoci, schematw, wzorcw, regu (ang.patterns) w duych zbiorach danych (bazach danych, hurtowniach danych)

DANE

DATA MINING

SCHEMATY

Wprowadzenie (16)

Powtrzmy definicj eksploracji danych, najoglniej mwic Eksploracja danych (ang. Data Mining) jest to zbir technik automatycznego odkrywania nietrywialnych zalenoci, schematw, wzorcw, regu (ang.patterns) w duych zbiorach danych (bazach danych, hurtowniach danych).

16

Eksploracja danych

Proces odkrywania wiedzy (1)


Odkrywanie wiedzy a eksploracja danych Eksploracja danych stanowi jeden z etapw procesu odkrywania wiedzy Etapy procesu odkrywania wiedzy (ang. KDD process):
Zapoznanie si z wiedz dziedzinow aplikacji aktualna wiedza i cele aplikacji Integracja danych Selekcja danych
Wprowadzenie (17)

Termin 'eksploracja danych' jest czsto uywany jako synonim terminu 'odkrywanie wiedzy' w bazach i magazynach danych. W istocie naley rozrni dwa pojcia: odkrywanie wiedzy i eksploracja danych. Zgodnie z definicj, termin 'odkrywanie wiedzy' ma charakter oglniejszy i odnosi si do caego procesu odkrywania wiedzy, ktry stanowi zbir krokw transformujcych zbir danych 'surowych' w zbir wzorcw, ktre mog by, nastpnie, wykorzystane w procesie wspomagania podejmowania decyzji. W procesie odkrywania wiedzy wyrniamy nastpujce etapy: etap pierwszy to etap zapoznania si z wiedz dziedzinow aplikacji (aktualna wiedza i cele aplikacji); Integracja danych (ang. data integration) -- celem etapu jest integracja danych z rnych heterogenicznych i rozproszonych rde danych w jeden zintegrowany zbir danych; Etapem trzecim jest etap selekcji danych (ang. data selection) -- celem etapu jest selekcja danych istotnych z punktu widzenia procesu analizy danych;

17

Eksploracja danych

Proces odkrywania wiedzy (2)


Czyszczenie danych: (okoo 60% czasu) Konsolidacja i transformacja danych Wybr metody (metod) eksploracji danych Wybr algorytmw eksploracji danych Eksploracja danych Interpretacja, analiza i ocena wynikw wizualizacja, transformacja, usuwanie redundantnych wzorcw, etc. Wykorzystanie pozyskanej wiedzy

Wprowadzenie (18)

Kolejnym etapem procesu odkrywania wiedzy jest etap czyszczenia danych (ang. data cleaning) - celem etapu jest usunicie niepenych, niepoprawnych lub nieistotnych danych ze zbioru eksplorowanych danych; Kolejny etap to etap konsolidacja i transformacja danych (ang. data transformation, data consolidation) - celem etapu jest transformacja wyselekcjonowanych danych do postaci wymaganej przez metody eksploracji danych; Nastpny krok to wybr metody lub metod eksploracji danych, ktra zostanie wykorzystana w procesie pozyskiwania wiedzy; Wybr algorytmw wybr konkretnych algorytmw rozwizujcych dany problem; Etap Eksploracji danych (ang. data mining) odkrywa potencjalnie uytecznych wzorcw ze zbioru wyselekcjonowanych danych. Ocena wzorcw (ang. pattern evaluation - celem etapu jest ocena i identyfikacja interesujcych wzorcw. Wizualizacja wzorcw (ang. knowledge representation) - celem etapu jest wizualizacja otrzymanych interesujcych wzorcw w taki sposb, aby umoliwi uytkownikowi interpretacj i zrozumienie otrzymanych w wyniku eksploracji wzorcw, regu, skupie itp. Wykorzystanie pozyskanej wiedzy i wdroenie jej w ycie. Najczciej, niektre etapy procesu odkrywania wiedzy s wykonywane cznie. Przykadowo, etapy czyszczenia danych oraz integracji danych stanowi integraln cz budowy hurtowni danych, natomiast etapy selekcji danych oraz transformacji i konsolidacji danych mog by zrealizowane poprzez zbir zapyta. Wzorce odkryte na etapie eksploracji danych s prezentowane uytkownikowi, ale mog by zapamitane w bazie danych lub hurtowni danych dla dalszej eksploracji.

18

Eksploracja danych

Mieszanka wielu dyscyplin


Systemy baz danych, hurtownie danych, OLAP Statystyka Uczenie maszynowe i odkrywanie wiedzy Techniki wizualizacji danych Teoria informacji Wyszukiwanie informacji Inne dyscypliny: Sieci neuronowe, modelowanie matematyczne, rozpoznawanie obrazw, technologie internetowe, systemy reputacyjne, etc.

Wprowadzenie (19)

Eksploracja danych jest dziedzin informatyki, ktra integruje szereg dyscyplin badawczych, takich jak: systemy baz danych i hurtownie danych, statystyka, sztuczna inteligencja, obliczenia rwnolege, optymalizacja i wizualizacja oblicze. Powysza lista dyscyplin nie jest pena. Eksploracja danych wykorzystuje rwnie szeroko techniki i metody opracowane na gruncie systemw wyszukiwania informacji, analizy danych przestrzennych, rozpoznawania obrazw, przetwarzania sygnaw, technologii Web, grafiki komputerowej, bioinformatyki. Rnorodno i wielo metod eksploracji danych, wywodzcych si czsto z rnych dyscyplin badawczych, utrudnia potencjalnym uytkownikom identyfikacj metod, ktre s najodpowiedniejsze z punktu widzenia ich potrzeb w zakresie analizy danych.

19

Eksploracja danych

Co mona eksplorowa?
Relacyjne bazy danych Hurtownie danych Repozytoria danych Zaawansowane systemy informatyczne Obiektowe i obiektowo-relacyjne bazy danych Przestrzenne bazy danych Przebiegi czasowe i temporalne bazy danych Tekstowe i multimedialne bazy danych WWW etc.
Wprowadzenie (20)

Mona postawi trywialne pytanie Co mona eksplorowa?. Odpowied jest rwnie trywialna jak pytanie, eksplorowa moemy dowolny zbir danych w postaci relacyjnych baz danych, hurtowni danych, repozytorium danych czy innych zaawansowanych systemw informatycznych w postaci obiektowych czy obiektowo-relacyjnych baz danych, przestrzennych baz danych, przebiegw czasowych i temporalnych baz danych, WWW, i innych. Najwaniejszy jest odpowiedni dobr metody eksploracji do analizowanego zbioru informacji.

20

Eksploracja danych

Metody eksploracji danych


klasyfikacja/regresja grupowanie odkrywanie sekwencji odkrywanie charakterystyk analiza przebiegw czasowych odkrywanie asocjacji wykrywanie zmian i odchyle eksploracja WWW eksploracja tekstw

Wprowadzenie (21)

Metody eksploracji danych, ze wzgldu na cel eksploracji i typy wzorcw odkrywanych w procesie eksploracji danych, mona podzieli, bardzo oglnie, na 7 zasadniczych klas: Odkrywanie asocjacji - najszersza klasa metod obejmujca, najoglniej, metody odkrywania interesujcych zalenoci lub korelacji, nazywanych oglnie asocjacjami, pomidzy danymi w duych zbiorach danych. Wynikiem dziaania metod odkrywania asocjacji s zbiory regu asocjacyjnych lub wzorcw sekwencji opisujcych znalezione zalenoci i/lub korelacje. Klasyfikacja i predykcja - obejmuje metody odkrywania modeli (tak zwanych klasyfikatorw) lub funkcji opisujcych zalenoci pomidzy zadan klasyfikacj obiektw a ich charakterystyk. Odkryte modele klasyfikacji s, nastpnie, wykorzystywane do klasyfikacji nowych obiektw o nieznanej klasyfikacji. Grupowanie (analiza skupie, klastrowanie) - obejmuje metody analizy danych i znajdowania skoczonych zbiorw klas obiektw posiadajcych podobne cechy. Wykrywanie punktw osobliwych - obejmuje metody wykrywania (znajdowania) obiektw osobliwych, ktre odbiegaj od oglnego modelu danych (klasyfikacja i predykcja) lub modeli klas (analiza skupie). Czsto, metody wykrywania punktw osobliwych stanowi integraln cz innych metod eksploracji danych, na przykad, metod grupowania. Analiza przebiegw czasowych - obejmuje metody analizy przebiegw czasowych w celu znalezienia: trendw, podobiestw, anomalii oraz cykli. Opisy koncepcji/klas obejmuje metody znajdowania zwizych opisw lub podsumowa oglnych wasnoci klas obiektw. Znajdowane opisy mog mie posta regu charakteryzujcych lub regu dyskryminacyjnych. W tym drugim przypadku, opisuj rnice pomidzy oglnymi wasnociami tak zwanej klasy docelowej (klasy analizowanej) a wasnociami tak zwanej klasy (zbioru klas) kontrastujcej (klasy porwnywanej). Analiza trendw i odchyle obejmuje metody analizy danych zmiennych w czasie w celu znalezienia rnic pomidzy aktualnymi a oczekiwanymi wartociami danych, anomalnych zmian wartoci danych w czasie, itp. Eksploracj tekstu oraz Eksploracj WWW.

21

Eksploracja danych

Metody eksploracji: klasyfikacja


Metoda analizy danych, ktrej celem jest predykcja wartoci okrelonego atrybutu w oparciu o pewien zbir danych treningowych Wiele technik: statystyka, drzewa decyzyjne, sieci neuronowe, ...

???

Wprowadzenie (22)

Przejdziemy obecnie do omwienia niektrych wybranych metod eksploracji danych. Rozpoczniemy od krtkiego omwienia metody klasyfikacji. Klasyfikacja jest metod analizy danych, ktrej celem jest predykcja wartoci okrelonego atrybutu w oparciu o pewien zbir danych treningowych. Obejmuje metody odkrywania modeli (tak zwanych klasyfikatorw) lub funkcji opisujcych zalenoci pomidzy zadan klasyfikacj obiektw a ich charakterystyk. Odkryte modele klasyfikacji s, nastpnie, wykorzystywane do klasyfikacji nowych obiektw o nieznanej klasyfikacji.

22

Eksploracja danych

Metody eksploracji: grupowanie


Znajd naturalne pogrupowanie obiektw w oparciu o ich wartoci

zastosowania grupowania: - grupowanie dokumentw - grupowanie klientw - segmentacja rynku

Wprowadzenie (23)

Kolejn metod jest grupowanie (klastrowanie) - obejmuje metody analizy danych i znajdowania skoczonych zbiorw klas obiektw posiadajcych podobne cechy. W przeciwiestwie do metod klasyfikacji i predykcji, klasyfikacja obiektw (podzia na klasy) nie jest znana a-priori, lecz jest celem metod grupowania. Metody te grupuj obiekty w klasy w taki sposb, aby maksymalizowa podobiestwo wewntrzklasowe obiektw i minimalizowa podobiestwo pomidzy klasami obiektw. Grupowanie znalazo szereg zastosowa w rnych dziedzinach ycia np. grupowanie dokumentw, grupowanie klientw czy okrelenia segmentacji rynku.

23

Eksploracja danych

Metody eksploracji: odkrywanie asocjacji (1)


odkrywanie asocjacji:
znajdowanie zwizkw pomidzy wystpowaniem grup elementw w zbiorach danych

przykady asocjacji:
klienci, ktrzy kupuj pieluszki, kupuj rwnie piwo klienci, ktrzy kupuj chleb, maso i ser, kupuj rwnie wod mineraln i ketchup

Wprowadzenie (24)

Kolejn metoda eksploracji danych jest odkrywanie asocjacji. Odkrywanie asocjacji jest jedn z najciekawszych i najbardziej popularnych technik eksploracji danych. Celem procesu odkrywania asocjacji jest znalezienie interesujcych zalenoci lub korelacji, nazywanych oglnie asocjacjami, pomidzy danymi w duych zbiorach danych. Wynikiem procesu odkrywania asocjacji jest zbir regu asocjacyjnych opisujcych znalezione zalenoci lub korelacje midzy danymi. Sztandarowym przykadem reguy asocjacyjnej jest regua wygenerowana w odniesieniu do bazy danych supermarketu: klienci, ktrzy kupuj pieluszki, kupuj rwnie piwo. Celem tej analizy jest znalezienie naturalnych wzorcw zachowa konsumenckich klientw poprzez analiz produktw, ktre s przez klientw supermarketu kupowane najczciej wsplnie np.: klienci, ktrzy kupuj chleb, maso i ser, kupuj rwnie wod mineraln i ketchup.

24

Eksploracja danych

Metody eksploracji: odkrywanie asocjacji (2)


zastosowania odkrytych asocjacji: planowanie kampanii promocyjnych planowanie rozmieszczenia stoisk sprzeday w supermarketach

Wprowadzenie (25)

W odniesieniu do regu asocjacyjnych znalezionych w bazie supermarketu reguy te mona wykorzysta przykadowo do opracowania akcji promocyjnych, programw lojalnociowych, planowaniu kampanii promocyjnych, planowanie rozmieszcze stoisk sprzeday w supermarketach, opracowania koncepcji katalogu oferowanych produktw i wiele innych.

25

Eksploracja danych

Metody eksploracji: odkrywanie wzorcw sekwencji (1)


odkrywanie wzorcw sekwencji:
Znajdowanie najczciej wystpujcych sekwencji elementw

przykad odkrywania wzorcw sekwencji:


kurs akcji BPH, ktry podczas ostatnich trzech sesji wzrs o 0.5%, 0.9%, 0.1%, na nastpnej sesji spadnie o 0.5% klienci, ktrzy kupili farb emulsyjn, kupi w najbliszym czasie pdzel paski

Wprowadzenie (26)

Kolejn metod eksploracji danych jest problem odkrywania wzorcw sekwencji polega, najoglniej mwic, na analizie bazy danych zawierajcej informacje o zdarzeniach, ktre wystpiy w okrelonym przedziale czasu, w celu znalezienia zalenoci pomidzy wystpowaniem okrelonych zdarze w czasie. Przykadem wzorca sekwencji, ktry mona znale w bazie danych wypoyczalni filmw video, jest nastpujcy wzorzec zachowania klientw wypoyczalni: Klient, ktry wypoyczy tydzie temu film pod tytuem Gwiezdne wojny, w cigu tygodnia wypoyczy film pt.Imperium kontratakuje, a nastpnie, w cigu kolejnego tygodnia, wypoyczy film pt. Powrt Jedi'. Zauwamy, e zdarzenia wchodzce w skad wzorca sekwencji nie musz wystpowa bezporednio jedno po drugim - mog by przedzielone wystpieniem innych zdarze. W odniesieniu do przedstawionego powyej wzorca sekwencji, oznacza to, e klient, pomidzy wypoyczeniem filmu pt. Imperium kontratakuje a Powrt Jedi, wypoycza zwykle jeszcze inny film, ale podana sekwencja opisuje typowe zachowanie wikszoci klientw wypoyczalni. Innym przykadem moe by kurs akcji BPH, ktry podczas ostatnich trzech sesji wzrs o 0.5%, 0.9%, 0.1%, na nastpnej sesji spadnie o 0.5%. Rwnie w nawizaniu do koszyka zakupw, jeeli do wspwystpowania produktw dooymy element czasowy bdziemy mieli do czynienia z problemem odkrywania wzorcw sekwencji nastpujcej postaci. klienci, ktrzy kupili farb emulsyjn, kupi w najbliszym czasie pdzel paski, a jeszcze pniej rozpuszczalnik.

26

Eksploracja danych

Metody eksploracji: odkrywanie wzorcw sekwencji (2)


zastosowania odkrytych wzorcw sekwencji:
planowanie inwestycji giedowych przewidywanie sprzeday Znajdowanie skutecznej terapii

Wprowadzenie (27)

Metoda odkrywania wzorcw sekwencji znalaza zastosowanie w wielu dziedzinach: analiza koszyka zakupw, telekomunikacja, medycyna (znajdowanie skutecznej terapii), ubezpieczenia i bankowo, planowanie inwestycji giedowych, przewidywanie sprzeday, WWW, itd. W przypadku analizy koszyka zakupw, metod odkrywania wzorcw sekwencji stosuje si w celu znalezienia typowych wzorcw zachowa klientw w czasie. Dotyczy to handlu hurtowego lub phurtowego, gdy potrafimy zidentyfikowa pojedynczego klienta i jego koszyk zakupw. W takim przypadku, z kadym rekordem opisujcym zakupy pojedynczego klienta jest zwizana, dodatkowo, informacja o kliencie (identyfikator klienta) i o dacie zakupw (etykieta czasowa rekordu). Na podstawie danych opisujcych zakupy danego klienta, uporzdkowanych zgodnie z wartociami etykiet czasowych mona uzyska profil klienta i prbowa przewidzie jego zachowanie w czasie.

27

Eksploracja danych

Metody eksploracji: odkrywanie charakterystyk (1)


odkrywanie charakterystyk:
Znajdowanie zwizych opisw (charakterystyk) podanego zbioru danych

przykad odkrywania charakterystyk: opis pacjentw chorujcych na angin


pacjenci chorujcy na angin cechuj si temperatur ciaa wiksz ni 37.5 C, blem garda, osabieniem organizmu
Wprowadzenie (28)

Kolejn metod eksploracji danych jest odkrywanie charakterystyk. Metoda ta polega na znajdowaniu zwizych opisw (charakterystyk) podanego zbioru danych, czy te znajdowaniu zalenoci funkcyjnych pomidzy zmiennymi opisujcymi zbir danych. Przykadem wykorzystania odkrywania charakterystyk moe by opis pacjentw chorujcych na angin. Celem jest okrelanie powszechnych symptomw wskazanej choroby, czyli w przypadku anginy moemy poda nastpujc charakterystyk pacjenci chorujcy na angin cechuj si temperatur ciaa wiksz ni 37.5C, blem garda i osabieniem organizmu.

28

Eksploracja danych

Metody eksploracji: odkrywanie charakterystyk (2)


zastosowania odkrywania charakterystyk:
znajdowanie zalenoci funkcyjnych pomidzy zmiennymi okrelanie profilu klienta - zbioru cech charakterystycznych

Wprowadzenie (29)

Podobnie jak inne metody, odkrywanie charakterystyk znalazo zastosowanie w rnych dziedzinach ycia. Przykadowo moe to by znajdowanie zalenoci funkcyjnych pomidzy zmiennymi, okrelanie profilu klienta, czyli jego zbir cech charakterystycznych, czy te znajdowanie charakterystyki pacjenta zwizanego z odpowiedni terapi itd.

29

Eksploracja danych

Problemy odkrywania wiedzy


Problemy odkrywania wiedzy:
w duych bazach danych mog zosta odkryte tysice regu czowiek nie potrafi rozumie i przeanalizowa bardzo duych zbiorw informacji rni uytkownicy systemu bazy danych s zainteresowani rnymi typami regu z rnych relacji odkrywanie regu jest procesem bardzo zoonym obliczeniowo
Wprowadzenie (30)

Z odkrywaniem wiedzy wi si niestety rwnie problemy. W duych bazach danych czy te hurtowniach danych mog zosta odkryte tysice regu, a ich analiza jest bardzo czasochonna czsto niemoliwa do realizacji w rozsdnym czasie. Dochodzi do tego czynnik ludzki, czowiek nie potrafi zrozumie i przeanalizowa duych zbiorw informacji. Specyficzne wymagania uytkownikw, rni uytkownicy systemu bazy danych s zainteresowani rnymi typami regu z rnych relacji. Wreszcie problemy efektywnociowe - odkrywanie regu jest procesem bardzo zoonym obliczeniowo i wymaga duego nakadu pracy.

30

Eksploracja danych

Dziedziny zastosowa
Eksploracja danych i zastosowania:
Nauka Biznes Web Handel i Marketing Finanse i Bankowo Medycyna Administracja Inne
Wprowadzenie (31)

Telekomunikacja

Eksploracja znalaza zastosowanie niemale w kadej dziedzinie ycia. W wiecie nauki: odkrywanie nowych obiektw (astronomia), bioinformatyka, przemys farmaceutyczny, W wiecie biznesu: reklama, CRM (Customer Relationship Management), inwestycje, finanse, ubezpieczenia, telekomunikacja, Web: Przegldarki (Google), handel elektroniczny Amazon, eBay, Allegro Administracja: wykrywanie przestpstw, wykrywanie naduy podatkowych, etc. Handel i marketing: identyfikacja profilu klienta dla przewidywania, ktrzy klienci odpowiedz na marketing korespondencyjny, wykrywanie schematw zakupw i planowanie lokalizacji artykuw. Finanse i bankowo: identyfikacja schematw wykorzystywania np. kradzionych kart kredytowych przewidywanie dochodowoci portfela akcji, znajdowanie korelacji wrd wskanikw finansowych. Telekomunikacja: wykrywanie schematw alarmowych w sieciach telekomunikacyjnych. Medycy do oceny tarapii itd

31

Eksploracja danych

Uwagi kocowe

Systemy baz danych narzdzie do przechowywania danych Hurtownie danych narzdzie do wspomagania podejmowania decyzji Eksploracja danych narzdzie do analizy zgromadzonych danych

Wprowadzenie (32)

Na zakoczenie moemy usystematyzowa pojcia - narzdzia przechowywania i przetwarzania danych. Podstawowym narzdziem do przechowywania i wyszukiwania danych s Systemy baz danych. Nastpnym poziomem abstrakcji s systemy Hurtowni danych s to zarwno narzdzia do przechowywania danych, ale rwnie do analizy danych w szczeglnoci analizy porwnawczej s to gwnie narzdzie do budowy aplikacji wspomagania podejmowania decyzji. Wreszcie Eksploracja danych, ktra jest zbiorem narzdzi do analizy zgromadzonych danych, jej celem jest rwnie opracowanie zalece sucych wspomaganiu podejmowania decyzji.

32

You might also like