You are on page 1of 63

HURTOWNIE DANYCH (HD)

WYKADY 15 godz LABORATORIA 15 godz


Zaliczenie wykadu sprawdzian na ostatnich zajciach Zaliczenie laboratoriw - przygotowanie i prezentacja wasnej minihurtowni w oparciu o rodowisko Oracle

Literatura

Inmon W. H.: Building the Data Warehouse, Wiley&Sons, 2002 Kimball R., Ross M.: The Data Warehouse Toolkit. The Complete Guide to Dimensional Modeling, Wiley&Sons, 2002 Rasmussen N., Goldy P.S., Soli P.O.: Financial Business Intelligence, Wiley&Sons, 2002 Almeida M.S.,Ishikawa M.,Reischmidt J.,Roeber T.: Getting Started with Data Warehouse and Business Intelligence, IBM International Technical Support Organization, August 1999 Oracle Warehouse Builder 10g, Users Guide, Release 2, wyd. Oracle, 2006 Nycz M. (red.): Generowanie wiedzy dla przedsibiorstwa. Metody i Techniki, Wydawnictwo Akademii Ekonomicznej we Wrocawiu, Wrocaw, 2004 Oracle Business Intelligence, Concepts Guide, Oracle 2005 Nycz M.: Pozyskiwanie wiedzy menederskiej. Podejcie technologiczne, Wyd. AE, Wrocaw 2007 Smok B.(red.): rodowisko ORACLE w odkrywaniu wiedzy z baz danych, Wyd. UE, Wrocaw 2008 Januszewski A.: Funkcjonalno informatycznych systemw zarzdzania. Systemy Business Intelligence, PWN, Warszawa 2008 Pelikant A.: Hurtownie danych, Helion 2011 Todman C.: Projektowanie hurtowni danych, Prentice Hall, Helion, 2011

Definicje hurtowni danych (HD)


Hurtownia danych to:

Uporzdkowany tematycznie, Zintegrowany, Zawierajcy wymiar czasowy, Nieulotny

zbir danych wspomagajcych podejmowanie decyzji (klasyczna definicja - W.H.Inmon)

Definicje hurtowni danych (HD)

Hurtownia danych to zmiana sposobu mylenia o dostpie do danych w obrbie firmy - to odstpienie od "guru od danych", "zamwie na raporty" na rzecz samodzielnego dokonywania analiz, zgodnie z potrzeb chwili Hurtownia danych to zazwyczaj tematycznie zdefiniowana, zintegrowana, czasowo zmienna a jednoczenie trwaa kolekcja danych, stanowica podstaw procesw podejmowania decyzji. Hurtowni danych mona wic traktowa jako specyficzn baz danych, ktra przechowuje i udostpnia dane o przebiegu procesw w firmie. Dane te pochodz z baz danych transakcyjnych zastosowa informatycznych uytkowanych w firmie

Definicje hurtowni danych (HD)

Hurtownia danych to taka dua baza danych mdrze nazwana


Baza danych" System Zarzdzania Przedsibiorstwem (system informatyczny sucy do automatyzacji codziennej pracy). S to systemy wspomagajce np. obsug klienta, dystrybucj towaru, zarzdzanie zapasami, systemy finansowo ksigowe etc.

Cecha takich systemw - moliwo bardzo wydajnego przetwarzania duej liczby operacji jednoczenie, przy czym kada operacja wymaga maej iloci danych.

HD taka dua baza danych mdrze nazwana


Systemy te ukierunkowane s na wspieranie procesw gospodarczych zachodzcych w danej firmie. Jednak samo przechowywanie danych, chocia niezbdne w codziennej pracy, nie stanowi wartoci samej w sobie. Jednym z czynnikw pozwalajcych osign znaczc przewag konkurencyjn s informacje, ktre mona uzyska dziki danym przechowywanym w systemach eksploatowanych w caej organizacji i wykorzystanie tych informacji do podejmowania decyzji taktycznych i strategicznych. Oczywicie mona powiedzie, e informacje takie s w raportach generowanych z wykorzystywanych ww systemw.

HD taka dua baza danych mdrze nazwana


Systemy Zarzdzania Przedsibiorstwem nie nadaj si do prowadzenia tego typu analiz (projektowane dla wydajnego przetwarzania maych porcji danych-rejestracja zamwienia, wystawienie faktury, przygotowanie cennika itp.- nie do przekrojowych analiz duych porcji danych)

Zazwyczaj w Systemach Zarzdzania Przedsibiorstwem utrzymywane s tylko aktualne informacje o wikszoci obiektw (np. o kliencie) bez przechowywania historii zmian w jego danych. Moe to prowadzi do wielu nieporozumie (np. w sytuacji kiedy klient zmieni nazw, adres lub kana dystrybucji). Co gorsza: czsto mamy do czynienia nie z jednym systemem, tylko z wieloma systemami wykorzystywanymi przez rne fragmenty organizacji, co moe prowadzi do nieco odmiennego rozumienia pewnych poj przez rne grupy ludzi, za produkt moe by czym troch innym w dziale produkcji, a troch czym innym w dziale finansw.

HD taka dua baza danych mdrze nazwana


Czsto rwnie pojawia si konieczno porwnywania biecych wskanikw z wartociami z lat ubiegych. Systemy Zarzdzania Przedsibiorstwem nie musz na bieco udostpnia historycznych danych (zazwyczaj skaduje si je na oddzielnych nonikach). Poza tym, wcale nie musi by prawd, e kiedy organizacja uywaa tego samego systemu, ktrego uywa dzi. Moe si wic zdarzy, e dane historyczne nie s moliwe do uzyskania w "obecnym" systemie w aden sposb.

Krtko mwic - dane wykorzystywane w procesie podejmowania decyzji to nie tylko biece dane operacyjne, to rwnie dane historyczne, przy czym jedne i drugie nierzadko pochodz z rnych rde.

HD taka dua baza danych mdrze nazwana

Systemem zaprojektowanym do prowadzenia zaawansowanych analiz jest Hurtownia Danych. Hurtownia danych gromadzi dane ze wszystkich systemw dziaajcych w obrbie organizacji, stanowi wic rdo analiz w kontekcie caej dziaalnoci. Dane zorganizowane s pod ktem dostarczania w jak najkrtszym czasie rzetelnych informacji o aktualnym stanie firmy, a to dziki temu, e s uspjnione w ramach caej organizacji

HD taka dua baza danych mdrze nazwana

Hurtownia danych nie jest wic systemem, ktry mona kupi "z pki". Skoro ma wspomaga realizacj strategicznych i taktycznych celw organizacji - musi by zaprojektowana ze szczeglnym pooeniem nacisku na strategi firmy. Gwnym beneficjentem HD jest kadra zarzdzajca oraz kierownictwo redniego szczebla, analitycy. To przede wszystkim ich potrzeby powinna zaspokaja hurtownia danych. Tu znajduje si czynnik odrniajcy hurtownie danych od innych przedsiwzi: zasadniczym motywatorem projektu hurtowni danych jest moliwo ledzenia najistotniejszych z punktu widzenia organizacji wskanikw (rentowno produktw czy klientw, ryzyko kredytowe, poziom zadowolenia klienta, rotacja klientw, jako procesu produkcyjnego itd.), nie za objcie zakresem systemu zada wynikajcych z realizacji w przedsibiorstwie pewnych konkretnych procesw gospodarczych.
Z drugiej strony, najistotniejszym atrybutem jakoci hurtowni danych jest wiarygodno pozyskiwanych dziki niej informacji. Zatem jako danych oraz sposb ich umieszczenia w hurtowni danych jest jednym z najpowaniejszych wyzwa, a zarazem obszarem najczciej i najmocniej niedoszacowanym

Hurtownia danych

Jest elektronicznym magazynem danych (storehouse), ktry oczyszcza i transformuje dane z wielu rde i wielu form. Jest modelem opartym na systemie zarzdzania wieloma heterogenicznymi bazami danych, ktry:

odwzorowuje wiat realny za pomoc bardzo zoonych narzdzi technologicznych udostpnia oprogramowanie uytkowe dajce uytkownikowi kocowemu moliwo posugiwania si najbardziej zoon baz danych bez pomocy profesjonalistw operuje nieograniczon wielkoci zbiorw umoliwia dostp do narzdzi i oprogramowania.

Hurtownia danych

Hurtownia danych to tematyczna baza danych, ktra trwale przechowuje zintegrowane dane opisane wymiarem czasu Tematyczna baza danych dane dotycz gwnych obszarw dziaalnoci przedsibiorstwa trwale przechowuje dane nie s zmieniane ani usuwane; hurtownia danych ma charakter przyrostowy zintegrowane dane dane dotyczce tego samego podmiotu stanowi cao opisane wymiarem czasu dane opisuj zdarzenia historyczne, a nie tylko stan aktualny

Hurtownia danych

To celowe i kompletne repozytorium danych, ktre stworzono na bazie istniejcych systemw transakcyjnych przedsibiorstwa oraz danych pozyskanych z zewntrz - z natychmiastowym dostpem do kadej informacji danej przez uytkownika. Jest to dedykowane repozytorium spjnych, sprawdzonych, zintegrowanych i zagregowanych danych oraz zestaw narzdzi i aplikacji raportujcych, analizujcych i publikujcych. Jest systemem centralnym, dostpnym dla caego przedsibiorstwa. Jest wiele definicji hurtowni danych i tylko cztery cechy charakteryzujce je, ktre powinny by spenione niezalenie od rodzajw danych w nich zwartych i ich zastosowa.

Cechy Hurtowni Danych

podmiotowo struktura danych w HD jest zorganizowana odpowiednio do podstawowego obszaru dziaalnoci przedsibiorstwa integralno HD musi zawiera peny zbir danych, ktre s najczciej rozproszone, a wic niezbdna jest integracja danych z wielu heterogenicznych rde do odczytu danych nie mona ich zmienia; s aktualizowane regularnie, a po dezaktualizacji archiwowane zmienno w czasie HD przechowuje dane na przestrzeni czasu (histori danych); czas jest jednym z podstawowych elementw skadowych HD.

rodowisko hurtowni danych Model podstawowy

Model hurtowni danych

Hurtownia danych

Jest dynamiczn infrastruktur czc bazy danych, sprzt i oprogramowanie w zintegrowan cao, ktra moe si zmienia wraz z dynamik rozwoju przedsibiorstwa. W przeciwiestwie do tradycyjnych baz danych, naley na ni patrze w kategoriach procesu. Jej konstrukcja skada si z trzech obszarw: a) perspektywa operacyjna, b) jdro systemu, c) perspektywa menederska.

Konstrukcja HD
Perspektywa operacyjna Jdro systemu Perspektywa uytkownika

Systemy transakcyjne

Procesy ETL
Inne bazy danych i HD

Skadnica danych

Ekstrakcja Transformacja adowanie danych


Relacyjna baza danych

Narzdzia OLAP

Zasoby Internetu

Narzdzia data mining

Pliki z danymi

Wielowymiarowa baza danych Agragaty Narzdzia zarzdzania wiedz

Repozytorium metadanych

Perspektywa operacyjna

Ekstrakcja

Dopasowywanie cienianie

Czyszczenie Utrzymanie

adowanie

Filtrowanie

Transformacja danych

wydobywanie danych (extract), filtrowanie danych (filter), dopasowywania danych (condition), cienianie danych (condense), czyszczenie danych (scrub),

utrzymanie danych (household),


adowanie danych (load).

Transformacja danych cd.

Ekstrakcja danych pobieranie danych ze rde danych (standardowe interfejsy, procedury wasne, mechanizm replikacji) Konwersja danych transformowanie danych z formatu wykorzystywanego w rdach do formatu wykorzystywanego w HD

Transformacja danych cd

Czyszczenie danych ma na celu zapewnienie jakoci i poprawnoci danych w HD Metody czyszczenia danych - migracja danych (proste reguy transformacji danych) - czyszczenie specjalne (wykorzystywanie wiedzy przedmiotowej- np. kody pocztowe) - ledzenie danych - wykorzystanie technik eksploracji danych do czyszczenia danych (detect outliers)

Transformacja danych cd

adowanie danych wymaga dodatkowego przetwarzania: sprawdzania ogranicze integralnociowych, sortowanie, podsumowanie itp. Metody adowania: wsadowe i inkrementalne Problemy: - monitorowanie stanu adowania - restart po awarii - wsadowe/inkrementalne

Jdro systemu (zasilanie)

Jdro systemu

Tu odbywa si: przetwarzanie danych, ich czyszczenie, standaryzacja, przygotowywanie, "sklejanie" z kilku rde itp. Oczyszczone dane wdruj do "waciwej" hurtowni, gdzie podlegaj dalszej obrbce. Na tym poziomie generowane s agregaty (podsumowania) danych, wykonywane stae raporty i nastpuje kocowe "szlifowanie" danych przed ich udostpnieniem

Data Marts (skadnice danych)

Samodzielne (independent) - zasilane bezporednio z jednego lub kilku systemw produkcyjnych, lokalnych lub zewntrznych rde Niesamodzielne (dependent) - zasilane bezporednio z jednego centralnego systemu -pewien roboczy obszar (TSA-Temporary Staging Area lub ISAIntermediary Staging Area), w ktrym dokonywane jest wstpne czyszczenie i grupowanie danych

Data Marts

Data Marts jest blisza "konsumentowi" informacji, bdc jakby sklepem detalicznym z danymi. Ma za zadanie przyspieszy dostp do najczciej wykorzystywanych informacji. Zadaniem skadnicy danych jest przechwycenie najczciej obsugiwanych kwerend - w tym sensie mona okreli j mianem cache'a. Skadnice najczciej obsuguj potrzeby poszczeglnych dziaw przedsibiorstwa

Data Marts

Cechy skadnicy danych: w odrnieniu od hurtowni zaprojektowana jest pod ktem szybkoci a nie elastycznoci, jest oddzielona od systemw operacyjnych przedsibiorstwa, obsuguje standardowe zapytania, gromadzi informacje strategiczne lub taktyczne, ktrych struktura jest wysoce wyspecjalizowana, zawiera niewielk liczb danych, czsto s to agregaty.

Data Marts

S specyficzne dla zastosowa (baza danych do przeprowadzania analiz, moe by rna dla kadego wydziau), Dla okrelonych uytkownikw, Dane w rnych HD mog si powtarza, chocia mog by rne, Dane mog by silnie zagregowane, zdenormalizowane.

Operacyjny magazyn danych (ODS)

ODS (Operational Data Store) -otwiera moliwo wykorzystania danych, ktre ju zostay zebrane i zintegrowane, dla potrzeb operacyjnych. Na przykad mona poprzez ODS udostpni wydziaowi kontakty z klientami, dane o kontrahentach (albo ich szczegowe "profile"), pracowicie poczone z kilkudziesiciu rnych rde danych.

ODS

Cechy charakterystyczne operacyjnego magazynu danych (ODS): jest rdem informacji operacyjnych, integrujcym dane pochodzce z rnych aplikacji; zawiera ma liczb danych, gwnie biecych; jego zadaniem jest odpowiada na palce pytania dotyczce aktualnych danych; moe by obszarem czyszczenia, integrowania i przygotowywania danych dla hurtowni (tzn. funkcj ODS peni moe nieco przystosowany TSA).

Metadane

Metadane - dane o danych. Metadane umoliwiaj uytkownikom poruszanie si po hurtowni, tumaczc nieprzyjazne dla nich pojcia informatyczne na sownik biznesu oraz informujc ich, jakie dane s aktualnie dostpne. W skrcie, metadane s katalogiem dostpnych informacji.

Metadane

Dane o danych Stanowi integraln cz HD Okrelaj znaczenie i kontekst informacji zawartej w HD Informuj - jakie dane s dostpne, gdzie s lokalizowane oraz w jaki sposb s dostpne S przechowywane w rnej postaci: arkusze kalkulacyjne, CASE, dokumenty tekstowe

Metadane

Metadane opisujce struktur (definiuj tabele i relacje pomidzy nimi; posiadaj informacj o roli poszczeglnych tabel, ich rozrnieniu na tabele zawierajce dane faktw i wymiarw, uatwia tworzenie wydajniejszych zapyta); Metadane mona traktowa jako sposb dostarczania danych, ktry wymusza konieczno przechowywania informacji o procedurach ekstrakcji i czyszczenia danych. Metadane o ekstrakcjach i transformacjach zawieraj logiczny model informacji, opis rda danych (mapowania) oraz wszystkie reguy ekstrakcji, czyszczenia i transportu danych do hurtowni danych; Metadane opisujce dane - su bezporednio uytkownikowi kocowemu. Opisuj i definiuj przechowywane dane tak, aby uytkownik mia pewno, co one przedstawiaj i jakie jest ich rdo biznesowe.

Metadane

Metadane powinny zawiera nastpujce informacje:


opis danych zawartych w hurtowni; opis dostpnoci danych, np. "dane o fakturach aktualnie dostpne s za okres 2004-01-01 do 2005-07-30"; nazw systemu rdowego, z ktrego pochodz dane, opis operacji poczynionych na danych podczas zasilania hurtowni, np. czy kwoty zostay zsumowane i w jaki sposb, czy odfiltrowano wszystkie anulowane faktury, itd. wersj metadanych, np.: kiedy zmienio si rdo danych o klientach; dane za pewien okres mog rni si od pniejszych danych, aby wic waciwie je odczyta, niezbdna jest moliwo okrelenia, jakie metadane obowizyway w danym momencie; metryki dotyczce danych (np. liczby wierszy w tablicach), pozwalajce uytkownikowi oceni, czy odpowied na jego pytanie pojawi si szybko czy po duszym czasie.

Repozytorium metadanych

Metadane fizyczne: lista rdowych baz danych i opis ich zawartoci, opisy i charakterystyki bramek midzy bazami rdowymi a HD, schemat HD, definicje perspektyw i danych wyliczanych, opisy wymiarw i hierarchii, zbir predefiniowanych zapyta i raportw, lokalizacja tematycznych HD, indeksy i reguy partycjonowania danych Metadane logiczne: reguy biznesowe, podstawowe pojcia i definicje, procedury postpowania, logiczne definicje tablic i atrybutw HD, odwzorowanie danych operacyjnych na struktury HD

Repozytorium metadanych

Metadane operacyjne (reguy ekstrakcji, czyszczenia, transformacji, korekcja danych rdowych, dane szczegowe i wyprowadzane) Metadane historyczne (zmiany zachodzce w HD, informacje dotyczce aliasw) Metadane administracyjne (bezpieczestwo HD, autoryzacja uytkownikw, prawa dostpu do HD) Metadane personalizacyjne (reguy obliczenia pewnych agregatw dla okrelonych uytkownikw lub grup uytkownikw)

Perspektywa menederska

Ostatni warstw (jedyn widoczn przez uytkownika) jest warstwa udostpniania danych, czyli tak zwany front-end perspektywa menederska. Znajduj si tu rne narzdzia analityczne, dostpu do danych, generatory zapyta, specjalizowane aplikacje - wszystko to, do czego dostp ma uytkownik hurtowni. Ostatnio czsto pojawiaj si tu serwery intranetowe, umoliwiajce dostp do danych, raportw i analiz poprzez przegldark WWW.

Perspektywa menederska

Ryzyko projektu budowy HD


HD obejmuje ca dziaalno firmy; jest systemem bardzo zoonym. Wzrost ryzyka niepowodzenia przedsiwzicia wraz ze zoonoci systemu Jak minimalizowa ryzyko projektu HD:

cisa wsppraca z uytkownikiem (kadra zarzdcza): identyfikacja zasadniczych strategii dziaania i wynikajcych z nich potrzeb informacyjnych. Podjciu decyzji o budowie HD musi towarzyszy przekonanie o koniecznoci powicenia wasnego czasu na rozmowy z twrcami systemu Precyzyjne zdefiniowanie architektury HD na samym pocztku prac waciwe odniesienie caego zakresu funkcjonalnego do strategii dziaania oraz zaplanowanie architektury technicznej dla caego systemu

Ryzyko projektu budowy HD

Waciwe zaplanowanie architektury pozwala te osign znaczn popraw wydajnoci w realizacji kolejnych etapw hurtowni danych, poniewa stanowi fundament, na ktrym budowane s kolejne fragmenty systemu, uwalniajc projektantw i programistw od koniecznoci zastanawiania si nad poszczeglnymi komponentami technologicznymi, ktre powinny zosta zastosowane. Z punktu widzenia procesu inwestycyjnego architektura pozwala utrzyma w ryzach koszty przedsiwzicia Hurtownia danych jest systemem zoonym, obejmuje szeroki zakres potrzeb informacyjnych. Dodatkowym kopotem jest fakt, e z zakresem nie da si "walczy" ani go "unika. Podejcie przyrostowe pozwala skutecznie zarzdza tym elementem ryzyka. Polega ono na podzieleniu systemu na kilka mniejszych "kawakw" i budowie ich po kolei. Dziki temu ju po kilku miesicach uytkownik moe mie korzyci z budowanego systemu. Przyrosty funkcjonalnoci systemu powinny by tak zdefiniowane, by mona kady z nich zaprojektowa, zaimplementowa i wdroy w czasie +- 3 miesicy

Czynniki sukcesu czyli kiedy warto myle o budowie HD:

Warunkiem koniecznym jest istnienie systemu (lub systemw) stanowicych rdo danych dla hurtowni danych, czyli Systemw Zarzdzania Przedsibiorstwem. Czynniki pozwalajcych oceni poziom przygotowania organizacji do uruchomienia projektu budowy hurtowni danych:

Dostpno rde danych rnorodno rde danych wiadomo odbiorcw systemu co do informacji, ktre chc z niego otrzymywa i jasne powizanie tych informacji z potencjalnymi korzyciami gospodarczymi dla organizacji. Bez takiego powizania moemy zbudowa "fantastyczny" system, ale nie wnoszcy adnej wartoci dodanej. Zakres - mona zakresem zarzdza i tak go dzieli na kolejne fragmenty systemu aby byy one wykonalne w czasie 3-4 miesicy oraz byy cile powizane z korzyciami dla organizacji. Umocowanie projektu - budowa hurtowni danych jest w gruncie rzeczy przedsiwziciem biznesowym i do tego sterowanym potrzebami informacyjnymi o strategicznym znaczeniu. W zwizku z tym bez zaangaowania ze strony kierownictwa organizacji trudno bdzie mwi o powodzeniu projektu.

Czynniki sukcesu

Analiza organizacji pod ktem powyszych czynnikw jest sposobem zwrcenia uwagi na istotne problemy, mogce wystpi podczas budowy hurtowni danych. Dodatkowym problemem jest niska jako danych (z "bylejakich" danych mona wygenerowa tylko "bylejakie" raporty). Jeli dane organizacji s w znacznym stopniu zamiecone (zawieraj duo nieaktualnych lub bdnych danych), nie naley oczekiwa, e hurtownia danych "jakim cudem" dostarczy waciwych informacji. Jako informacji uzyskiwanych z hurtowni danych zawsze bdzie adekwatna do jakoci danych rdowych. Nie oznacza to, e "wyczyszczenie" danych rdowych nie jest moliwe i w wikszoci przypadkw daje si to zrobi, czsto jednak wymaga to dodatkowej pracy uytkownikw, jak rwnie zespou realizujcego hurtowni danych.

Architektura HD

Hurtowni danych na og realizuje si jako system wielowarstwowy, kada z warstw spenia cile okrelone zadania. Dane pochodz z systemw rdowych, czyli rodowiska informatycznego przedsibiorstwa, jego baz danych, a take zewntrz, np. od specjalistycznych firm badajcych udziay w rynku, z internetu i innych sieci komputerowych.

Architektura HD

Architektura HD

rdowe dane przejmuje warstwa zasilania hurtowni. Tu odbywa si przetwarzanie danych, ich czyszczenie, standaryzacja, przygotowywanie, "sklejanie" z kilku rde itp. Na og potrzebny jest tutaj pewien roboczy obszar do wykonania wszystkich tych transformacji; oznaczony jest on skrtem TSA (Temporary Staging Area), spotykany jest rwnie termin ISA (od "intermediary). Oczyszczone dane wdruj do "waciwej" hurtowni, gdzie podlegaj dalszej obrbce. Na tym poziomie generowane s agregaty (podsumowania) danych, wykonywane stae raporty i nastpuje kocowe "szlifowanie" danych przed ich udostpnieniem. Tu pojawiaj si dwa nowe obiekty, mianowicie skadnica danych (Data Mart) oraz operacyjny magazyn danych ODS (Operational Data Store). Skadnica danych jest blisza "konsumentowi" informacji, bdc jakby sklepem detalicznym z danymi. Ma za zadanie przyspieszy dostp do najczciej wykorzystywanych informacji.

Architektura HD

Cechy skadnicy danych:


w odrnieniu od hurtowni zaprojektowana jest pod ktem szybkoci a nie elastycznoci, jest oddzielona od systemw operacyjnych przedsibiorstwa, obsuguje standardowe zapytania, gromadzi informacje strategiczne lub taktyczne, ktrych struktura jest wysoce wyspecjalizowana, zawiera niewielk liczb danych, czsto s to agregaty.

Pewne potrzeby informacyjne (zwaszcza bardziej zoone pytania analityczne) uytkownik bdzie i tak musia skierowa bezporednio do hurtowni, jednak zadaniem skadnicy danych jest przechwycenie najczciej obsugiwanych kwerend - w tym sensie mona okreli skadnic mianem cache'a. Skadnice najczciej obsuguj potrzeby poszczeglnych dziaw przedsibiorstwa.

Architektura HD

ODS (Operational Data Store), czyli operacyjny magazyn danych. ODS otwiera moliwo wykorzystania danych, ktre ju zebralimy i zintegrowalimy, dla potrzeb operacyjnych. Na przykad moemy poprzez ODS udostpni wydziaowi kontakty z klientami, dane o kontrahentach (albo ich szczegowe "profile"), pracowicie poczone z kilkudziesiciu rnych rde danych. Cechy charakterystyczne operacyjnego magazynu danych (ODS):

jest rdem informacji operacyjnych, integrujcym dane pochodzce z rnych aplikacji; zawiera ma liczb danych, gwnie biecych; jego zadaniem jest odpowiada na palce pytania dotyczce aktualnych danych; moe by obszarem czyszczenia, integrowania i przygotowywania danych dla hurtowni (tzn. funkcj ODS peni moe nieco przystosowany TSA).

Architektura HD

Metadane - dane o danych. Metadane umoliwiaj uytkownikom poruszanie si po hurtowni, tumaczc nieprzyjazne dla nich pojcia informatyczne na sownik biznesu oraz informujc ich, jakie dane s aktualnie dostpne. W skrcie, metadane s katalogiem dostpnych informacji. Metadane powinny zawiera nastpujce informacje:

opis danych zawartych w hurtowni;

opis dostpnoci danych, np. "dane o fakturach aktualnie dostpne s za okres 2004-01-01 do 2005-07-30"; nazw systemu rdowego, z ktrego pochodz dane, opis operacji poczynionych na danych podczas zasilania hurtowni, np. czy kwoty zostay zsumowane i w jaki sposb, czy odfiltrowano wszystkie anulowane faktury, itd. wersj metadanych, np.: kiedy zmienio si rdo danych o klientach; dane za pewien okres mog rni si od pniejszych danych, aby wic waciwie je odczyta, niezbdna jest moliwo okrelenia, jakie metadane obowizyway w danym momencie; metryki dotyczce danych (np. liczby wierszy w tablicach), pozwalajce uytkownikowi oceni, czy odpowied na jego pytanie pojawi si szybko czy po duszym czasie.

Architektura HD

Ostatni warstw, a zarazem jedyn widoczn przez uytkownika, jest warstwa udostpniania danych, czyli tak zwany front-end. S to wszelkiej maci narzdzia analityczne, dostpu do danych, generatory zapyta, specjalizowane aplikacje - wszystko to, do czego dostp ma uytkownik hurtowni. Czsto pojawiaj si tu serwery intranetowe, umoliwiajce dostp do danych, raportw i analiz poprzez przegldark WWW.

Podzia danych na warstwy

Najwicej miejsca w hurtowni zajmuj dane detaliczne. Istotne jest waciwe dobranie stopnia ich "ziarnistoci" i struktury do potrzeb informacyjnych przedsibiorstwa - dane detaliczne z kadej transakcji (np. z faktury lub paragonu), zawierajce zbyt duo informacji, mog w cigu kilku miesicy nabra objtoci kilkuset gigabajtw. Czsto odbiorcw informacji zadowalaj np. dane detaliczne na poziomie sumarycznych wartoci, dziennych czy cogodzinnych. Z danych detalicznych generowane s agregaty (podsumowania), odpowiadajce na najczciej zadawane przez uytkownikw hurtowni pytania. Z reguy robi si to rwnie kilkuwarstwowo - najpierw generowane s proste podsumowania, ktre potem poddawane s dalszej agregacji. Jeli, np. dane detaliczne zawieraj poszczeglne pozycje ze skanerw kasowych supermarketu, mona wyobrazi sobie wstpn agregacj wedug produktw i dni (zsumowanie sprzeday poszczeglnych produktw w cigu okrelonych dni), a dalsz na przykad wedug miesicy lub tygodni, albo wedug grup produktw.

Podzia danych na warstwy


Aby umoliwi analiz danych, agregaty najczciej generuje si w wielu rnych przekrojach rwnoczenie, cho czsto nie da si przewidzie ani zrealizowa wszystkich moliwych "permutacji" analiz. Czasem trzeba sign do danych detalicznych, co moe trwa dugo i wymaga zaangaowania duej czci zasobw. Jeli tego typu dania pojawiaj si sporadycznie, nie trzeba wprowadza zmian w sposobie funkcjonowania hurtowni. Jeli wystpuj periodycznie np. co miesic - naley rozway moliwo przygotowania nowego typu agregatu. Hurtownia nie jest z gumy. W miar upywu czasu cz starszych danych przenosi na wolniejsze i tasze noniki (np. tamy) zwalniajc miejsce na nowe fakty. Szczegowe dane o funkcjonowaniu duej firmy zajmuj ogromne przestrzenie, nawet do 500 GB. Mniejsz objto maj dane wstpnie zagregowane i mocno zagregowane, mog wic by przechowywane przez duszy okres.

Podzia danych na warstwy

Podzia danych na warstwy

Jeli analitycy zapragn nagle nowego sposobu analizy danych, ktrego nie umoliwiaj im istniejce agregaty, a przy tym zechc zbada w ten sposb dane od pocztku funkcjonowania firmy, trzeba bdzie upora si z kopotliwym zadaniem wczytania i przetworzenia wszystkich tam

Narzdzia programowe do tworzenia i eksploatacji HD

Hurtownia danych jest zoonym systemem informatycznym, co wida midzy innymi po rozmaitoci narzdzi programowych, jakie potrzebne s przy jej budowie i eksploatacji. Oprogramowanie to mona podzieli na kilka kategorii:

Narzdzia wspomagajce projektowanie i modelowanie systemw Sowniki (repozytoria) metadanych Oprogramowanie typu middleware Systemy obsugi baz danych Narzdzia analityczne Inne

Narzdzia programowe do tworzenia i eksploatacji HD

Narzdzia wspomagajce projektowanie i modelowanie systemw


Jest to kluczowa kategoria narzdzi, ktre powinny by uywane we wszystkich fazach budowy i eksploatacji hurtowni. Z ich pomoc powinno zbiera si wymagania uytkownikw (przechowywane nastpnie w repozytorium), analizowa je i realizowa kolejne etapy projektu. Posugujc si nimi, wygodnie jest wykonywa operacje reverse engineering (rekonstrukcji struktury danych) w istniejcych systemach informatycznych przedsibiorstwa. Dobre narzdzia powinny take uatwia dokumentowanie prac, na przykad przez automatyczne, konfigurowalne generatory dokumentacji. Do tej kategorii mona zaliczy wszystkie powaniejsze systemy CASE, na przykad Select Enterprise, LBMS Systems Engineer.

Narzdzia programowe do tworzenia i eksploatacji HD

Sowniki (repozytoria) metadanych


Ta kategoria narzdzi jest cile powizana z poprzedni. Ich zadaniem jest przechowywanie i zarzdzanie metadanymi. Metadane nie musz ogranicza si jedynie do hurtowni danych - mog by zintegrowane z innymi danymi przedsibiorstwa. Repozytoria powinny atwo wsppracowa z pozostaym oprogramowaniem - zwaszcza za z narzdziami do projektowania i narzdziami analitycznymi. Dobrze jest, jeli uatwiaj prac grupow przy budowie hurtowni. Niedocignionym ideaem jest sterowanie caoci pracy hurtowni poprzez metadane (tzn. zmiana w metadanych powoduje automatyczn zmian procesw zasilania hurtowni).

Narzdzia programowe do tworzenia i eksploatacji HD

Narzdzia wspomagajce zasilanie HD


Narzdzia takie su do pozyskiwania danych, ich czyszczenia (wykrywanie bdnych czy pustych wartoci), transferu danych poprzez sie komputerow i adowania do hurtowni. Dobrze jeli potrafi ujednolici sposb kodowania atrybutw pochodzcych z rnych systemw, cz w cao dane zebrane z rnych rde i dopasowuj rozmiary pl. Przy ich uyciu mamy szans zgromadzi w hurtowni spjne dane, realizujc w praktyce drugi punkt jej definicji (integracja); czsto bowiem w wyniku prostego "wrzucenia" danych z kilku systemw otrzymujemy wysypisko mieci. Trzeba tu wspomnie take o systemach sterowania (schedulerach), ktre bardzo przydaj si w procesie zasilania hurtowni.

Narzdzia programowe do tworzenia i eksploatacji HD

Oprogramowanie typu middleware


Potrzebne jest do czenia (na og) heterogenicznych platform sprztowych, systemw operacyjnych i systemw obsugi baz danych wystpujcych w przedsibiorstwie. Mona do niego zaliczy rnego rodzaju gateway'e (np. do rnych protokow sieciowych), sterowniki ODBC (Open Database Connectivity - do rnych typw baz danych), sterowniki ISAM (do odczytywania rnych typw plikw), a take wszelkiej maci translatory, konwertery, generatory skryptw.

Narzdzia programowe do tworzenia i eksploatacji HD

Systemy obsugi baz danych


Architektura hurtowni danych nie jest powizana z konkretnym typem narzdzia do ich przechowywania; mona wyobrazi sobie hurtowni magazynujc informacje w zwykych plikach. Jednak najczciej stosuje si do tego celu relacyjne, SQL-owe bazy danych: Oracle, Informix, DB2 czy Sybase. Niektrzy producenci serwerw SQL nawet umieszczaj w nich specjalne narzdzia zwikszajce wydajno obsugi hurtowni. Przykadem moe by modu wspomagajcy indeksowanie w Sybase IQ, czy te moliwo zarzdzania gwiadzist struktur danych ju w Oracle 7. Z drugiej strony wielu producentw oferuje tzw. wielowymiarowe bazy danych, ktre przechowuj dane w postaci tzw. hiperszecianu i z atwoci przeprowadzaj analizy oraz sporzdzaj przekroje przez atrybuty, a wic s jakby "dedykowane" dla hurtowni. Przykadem mog by bazy danych RedBrick czy Arbor Essbase. Wad tych produktw jest brak otwartoci (w przeciwiestwie do relacyjnych baz danych, zwaszcza SQL-owych, z ktrymi mona poczy wiele rnych narzdzi) oraz wzgldna "nowo" technologii, co powoduje, e stosowane w nich rozwizania nie mog by jeszcze uznane za dojrzae

Narzdzia programowe do tworzenia i eksploatacji HD

Narzdzia analityczne
Przeznaczone s dla kocowego uytkownika - analityka biznesowego. Cay szereg narzdzi nadaje si do prowadzenia analiz danych; najpopularniejszym z nich jest Microsoft Excel, arkusz kalkulacyjny pozwalajcy przeprowadza do powane analizy, jeli otrzyma specjalnie przygotowane dane o niewielkiej objtoci. Jego powan zalet jest dua popularno i intuicyjno. Mona zaoy, i niemal wszyscy analitycy bdcy uytkownikami hurtowni umiej korzysta z arkusza kalkulacyjnego

Narzdzia programowe do tworzenia i eksploatacji HD

Inne
Jest rwnie wiele narzdzi wyspecjalizowanych w analizie i prezentacji danych; wrd nich du popularno zyskuje system Business Objects; jego producent, francuska firma o tej samej nazwie, zalicza si do pierwszej dziesitki najszybciej rosncych firm europejskich. Uytkownicy, korzystajcy z zaawansowanych narzdzi statystycznych czy modelowania matematycznego, sign mog po statystyczne komponenty pakietu SAS czy te narzdzia w rodzaju Mathematica, Statgraphics. Do wykonywania analiz danych geograficznych i prezentowania ich w postaci map czy siatek geograficznych uywa si czsto systemw GIS (Geographical Information Systems), na przykad MapCAD czy MapInfo. Oprcz tych podstawowych typw narzdzi, mona wyrni jeszcze np. programy wspomagajce zarzdzanie hurtowni czy generatory.

You might also like