Professional Documents
Culture Documents
Literatura
Inmon W. H.: Building the Data Warehouse, Wiley&Sons, 2002 Kimball R., Ross M.: The Data Warehouse Toolkit. The Complete Guide to Dimensional Modeling, Wiley&Sons, 2002 Rasmussen N., Goldy P.S., Soli P.O.: Financial Business Intelligence, Wiley&Sons, 2002 Almeida M.S.,Ishikawa M.,Reischmidt J.,Roeber T.: Getting Started with Data Warehouse and Business Intelligence, IBM International Technical Support Organization, August 1999 Oracle Warehouse Builder 10g, Users Guide, Release 2, wyd. Oracle, 2006 Nycz M. (red.): Generowanie wiedzy dla przedsibiorstwa. Metody i Techniki, Wydawnictwo Akademii Ekonomicznej we Wrocawiu, Wrocaw, 2004 Oracle Business Intelligence, Concepts Guide, Oracle 2005 Nycz M.: Pozyskiwanie wiedzy menederskiej. Podejcie technologiczne, Wyd. AE, Wrocaw 2007 Smok B.(red.): rodowisko ORACLE w odkrywaniu wiedzy z baz danych, Wyd. UE, Wrocaw 2008 Januszewski A.: Funkcjonalno informatycznych systemw zarzdzania. Systemy Business Intelligence, PWN, Warszawa 2008 Pelikant A.: Hurtownie danych, Helion 2011 Todman C.: Projektowanie hurtowni danych, Prentice Hall, Helion, 2011
Hurtownia danych to zmiana sposobu mylenia o dostpie do danych w obrbie firmy - to odstpienie od "guru od danych", "zamwie na raporty" na rzecz samodzielnego dokonywania analiz, zgodnie z potrzeb chwili Hurtownia danych to zazwyczaj tematycznie zdefiniowana, zintegrowana, czasowo zmienna a jednoczenie trwaa kolekcja danych, stanowica podstaw procesw podejmowania decyzji. Hurtowni danych mona wic traktowa jako specyficzn baz danych, ktra przechowuje i udostpnia dane o przebiegu procesw w firmie. Dane te pochodz z baz danych transakcyjnych zastosowa informatycznych uytkowanych w firmie
Cecha takich systemw - moliwo bardzo wydajnego przetwarzania duej liczby operacji jednoczenie, przy czym kada operacja wymaga maej iloci danych.
Zazwyczaj w Systemach Zarzdzania Przedsibiorstwem utrzymywane s tylko aktualne informacje o wikszoci obiektw (np. o kliencie) bez przechowywania historii zmian w jego danych. Moe to prowadzi do wielu nieporozumie (np. w sytuacji kiedy klient zmieni nazw, adres lub kana dystrybucji). Co gorsza: czsto mamy do czynienia nie z jednym systemem, tylko z wieloma systemami wykorzystywanymi przez rne fragmenty organizacji, co moe prowadzi do nieco odmiennego rozumienia pewnych poj przez rne grupy ludzi, za produkt moe by czym troch innym w dziale produkcji, a troch czym innym w dziale finansw.
Krtko mwic - dane wykorzystywane w procesie podejmowania decyzji to nie tylko biece dane operacyjne, to rwnie dane historyczne, przy czym jedne i drugie nierzadko pochodz z rnych rde.
Systemem zaprojektowanym do prowadzenia zaawansowanych analiz jest Hurtownia Danych. Hurtownia danych gromadzi dane ze wszystkich systemw dziaajcych w obrbie organizacji, stanowi wic rdo analiz w kontekcie caej dziaalnoci. Dane zorganizowane s pod ktem dostarczania w jak najkrtszym czasie rzetelnych informacji o aktualnym stanie firmy, a to dziki temu, e s uspjnione w ramach caej organizacji
Hurtownia danych nie jest wic systemem, ktry mona kupi "z pki". Skoro ma wspomaga realizacj strategicznych i taktycznych celw organizacji - musi by zaprojektowana ze szczeglnym pooeniem nacisku na strategi firmy. Gwnym beneficjentem HD jest kadra zarzdzajca oraz kierownictwo redniego szczebla, analitycy. To przede wszystkim ich potrzeby powinna zaspokaja hurtownia danych. Tu znajduje si czynnik odrniajcy hurtownie danych od innych przedsiwzi: zasadniczym motywatorem projektu hurtowni danych jest moliwo ledzenia najistotniejszych z punktu widzenia organizacji wskanikw (rentowno produktw czy klientw, ryzyko kredytowe, poziom zadowolenia klienta, rotacja klientw, jako procesu produkcyjnego itd.), nie za objcie zakresem systemu zada wynikajcych z realizacji w przedsibiorstwie pewnych konkretnych procesw gospodarczych.
Z drugiej strony, najistotniejszym atrybutem jakoci hurtowni danych jest wiarygodno pozyskiwanych dziki niej informacji. Zatem jako danych oraz sposb ich umieszczenia w hurtowni danych jest jednym z najpowaniejszych wyzwa, a zarazem obszarem najczciej i najmocniej niedoszacowanym
Hurtownia danych
Jest elektronicznym magazynem danych (storehouse), ktry oczyszcza i transformuje dane z wielu rde i wielu form. Jest modelem opartym na systemie zarzdzania wieloma heterogenicznymi bazami danych, ktry:
odwzorowuje wiat realny za pomoc bardzo zoonych narzdzi technologicznych udostpnia oprogramowanie uytkowe dajce uytkownikowi kocowemu moliwo posugiwania si najbardziej zoon baz danych bez pomocy profesjonalistw operuje nieograniczon wielkoci zbiorw umoliwia dostp do narzdzi i oprogramowania.
Hurtownia danych
Hurtownia danych to tematyczna baza danych, ktra trwale przechowuje zintegrowane dane opisane wymiarem czasu Tematyczna baza danych dane dotycz gwnych obszarw dziaalnoci przedsibiorstwa trwale przechowuje dane nie s zmieniane ani usuwane; hurtownia danych ma charakter przyrostowy zintegrowane dane dane dotyczce tego samego podmiotu stanowi cao opisane wymiarem czasu dane opisuj zdarzenia historyczne, a nie tylko stan aktualny
Hurtownia danych
To celowe i kompletne repozytorium danych, ktre stworzono na bazie istniejcych systemw transakcyjnych przedsibiorstwa oraz danych pozyskanych z zewntrz - z natychmiastowym dostpem do kadej informacji danej przez uytkownika. Jest to dedykowane repozytorium spjnych, sprawdzonych, zintegrowanych i zagregowanych danych oraz zestaw narzdzi i aplikacji raportujcych, analizujcych i publikujcych. Jest systemem centralnym, dostpnym dla caego przedsibiorstwa. Jest wiele definicji hurtowni danych i tylko cztery cechy charakteryzujce je, ktre powinny by spenione niezalenie od rodzajw danych w nich zwartych i ich zastosowa.
podmiotowo struktura danych w HD jest zorganizowana odpowiednio do podstawowego obszaru dziaalnoci przedsibiorstwa integralno HD musi zawiera peny zbir danych, ktre s najczciej rozproszone, a wic niezbdna jest integracja danych z wielu heterogenicznych rde do odczytu danych nie mona ich zmienia; s aktualizowane regularnie, a po dezaktualizacji archiwowane zmienno w czasie HD przechowuje dane na przestrzeni czasu (histori danych); czas jest jednym z podstawowych elementw skadowych HD.
Hurtownia danych
Jest dynamiczn infrastruktur czc bazy danych, sprzt i oprogramowanie w zintegrowan cao, ktra moe si zmienia wraz z dynamik rozwoju przedsibiorstwa. W przeciwiestwie do tradycyjnych baz danych, naley na ni patrze w kategoriach procesu. Jej konstrukcja skada si z trzech obszarw: a) perspektywa operacyjna, b) jdro systemu, c) perspektywa menederska.
Konstrukcja HD
Perspektywa operacyjna Jdro systemu Perspektywa uytkownika
Systemy transakcyjne
Procesy ETL
Inne bazy danych i HD
Skadnica danych
Narzdzia OLAP
Zasoby Internetu
Pliki z danymi
Repozytorium metadanych
Perspektywa operacyjna
Ekstrakcja
Dopasowywanie cienianie
Czyszczenie Utrzymanie
adowanie
Filtrowanie
Transformacja danych
wydobywanie danych (extract), filtrowanie danych (filter), dopasowywania danych (condition), cienianie danych (condense), czyszczenie danych (scrub),
Ekstrakcja danych pobieranie danych ze rde danych (standardowe interfejsy, procedury wasne, mechanizm replikacji) Konwersja danych transformowanie danych z formatu wykorzystywanego w rdach do formatu wykorzystywanego w HD
Transformacja danych cd
Czyszczenie danych ma na celu zapewnienie jakoci i poprawnoci danych w HD Metody czyszczenia danych - migracja danych (proste reguy transformacji danych) - czyszczenie specjalne (wykorzystywanie wiedzy przedmiotowej- np. kody pocztowe) - ledzenie danych - wykorzystanie technik eksploracji danych do czyszczenia danych (detect outliers)
Transformacja danych cd
adowanie danych wymaga dodatkowego przetwarzania: sprawdzania ogranicze integralnociowych, sortowanie, podsumowanie itp. Metody adowania: wsadowe i inkrementalne Problemy: - monitorowanie stanu adowania - restart po awarii - wsadowe/inkrementalne
Jdro systemu
Tu odbywa si: przetwarzanie danych, ich czyszczenie, standaryzacja, przygotowywanie, "sklejanie" z kilku rde itp. Oczyszczone dane wdruj do "waciwej" hurtowni, gdzie podlegaj dalszej obrbce. Na tym poziomie generowane s agregaty (podsumowania) danych, wykonywane stae raporty i nastpuje kocowe "szlifowanie" danych przed ich udostpnieniem
Samodzielne (independent) - zasilane bezporednio z jednego lub kilku systemw produkcyjnych, lokalnych lub zewntrznych rde Niesamodzielne (dependent) - zasilane bezporednio z jednego centralnego systemu -pewien roboczy obszar (TSA-Temporary Staging Area lub ISAIntermediary Staging Area), w ktrym dokonywane jest wstpne czyszczenie i grupowanie danych
Data Marts
Data Marts jest blisza "konsumentowi" informacji, bdc jakby sklepem detalicznym z danymi. Ma za zadanie przyspieszy dostp do najczciej wykorzystywanych informacji. Zadaniem skadnicy danych jest przechwycenie najczciej obsugiwanych kwerend - w tym sensie mona okreli j mianem cache'a. Skadnice najczciej obsuguj potrzeby poszczeglnych dziaw przedsibiorstwa
Data Marts
Cechy skadnicy danych: w odrnieniu od hurtowni zaprojektowana jest pod ktem szybkoci a nie elastycznoci, jest oddzielona od systemw operacyjnych przedsibiorstwa, obsuguje standardowe zapytania, gromadzi informacje strategiczne lub taktyczne, ktrych struktura jest wysoce wyspecjalizowana, zawiera niewielk liczb danych, czsto s to agregaty.
Data Marts
S specyficzne dla zastosowa (baza danych do przeprowadzania analiz, moe by rna dla kadego wydziau), Dla okrelonych uytkownikw, Dane w rnych HD mog si powtarza, chocia mog by rne, Dane mog by silnie zagregowane, zdenormalizowane.
ODS (Operational Data Store) -otwiera moliwo wykorzystania danych, ktre ju zostay zebrane i zintegrowane, dla potrzeb operacyjnych. Na przykad mona poprzez ODS udostpni wydziaowi kontakty z klientami, dane o kontrahentach (albo ich szczegowe "profile"), pracowicie poczone z kilkudziesiciu rnych rde danych.
ODS
Cechy charakterystyczne operacyjnego magazynu danych (ODS): jest rdem informacji operacyjnych, integrujcym dane pochodzce z rnych aplikacji; zawiera ma liczb danych, gwnie biecych; jego zadaniem jest odpowiada na palce pytania dotyczce aktualnych danych; moe by obszarem czyszczenia, integrowania i przygotowywania danych dla hurtowni (tzn. funkcj ODS peni moe nieco przystosowany TSA).
Metadane
Metadane - dane o danych. Metadane umoliwiaj uytkownikom poruszanie si po hurtowni, tumaczc nieprzyjazne dla nich pojcia informatyczne na sownik biznesu oraz informujc ich, jakie dane s aktualnie dostpne. W skrcie, metadane s katalogiem dostpnych informacji.
Metadane
Dane o danych Stanowi integraln cz HD Okrelaj znaczenie i kontekst informacji zawartej w HD Informuj - jakie dane s dostpne, gdzie s lokalizowane oraz w jaki sposb s dostpne S przechowywane w rnej postaci: arkusze kalkulacyjne, CASE, dokumenty tekstowe
Metadane
Metadane opisujce struktur (definiuj tabele i relacje pomidzy nimi; posiadaj informacj o roli poszczeglnych tabel, ich rozrnieniu na tabele zawierajce dane faktw i wymiarw, uatwia tworzenie wydajniejszych zapyta); Metadane mona traktowa jako sposb dostarczania danych, ktry wymusza konieczno przechowywania informacji o procedurach ekstrakcji i czyszczenia danych. Metadane o ekstrakcjach i transformacjach zawieraj logiczny model informacji, opis rda danych (mapowania) oraz wszystkie reguy ekstrakcji, czyszczenia i transportu danych do hurtowni danych; Metadane opisujce dane - su bezporednio uytkownikowi kocowemu. Opisuj i definiuj przechowywane dane tak, aby uytkownik mia pewno, co one przedstawiaj i jakie jest ich rdo biznesowe.
Metadane
opis danych zawartych w hurtowni; opis dostpnoci danych, np. "dane o fakturach aktualnie dostpne s za okres 2004-01-01 do 2005-07-30"; nazw systemu rdowego, z ktrego pochodz dane, opis operacji poczynionych na danych podczas zasilania hurtowni, np. czy kwoty zostay zsumowane i w jaki sposb, czy odfiltrowano wszystkie anulowane faktury, itd. wersj metadanych, np.: kiedy zmienio si rdo danych o klientach; dane za pewien okres mog rni si od pniejszych danych, aby wic waciwie je odczyta, niezbdna jest moliwo okrelenia, jakie metadane obowizyway w danym momencie; metryki dotyczce danych (np. liczby wierszy w tablicach), pozwalajce uytkownikowi oceni, czy odpowied na jego pytanie pojawi si szybko czy po duszym czasie.
Repozytorium metadanych
Metadane fizyczne: lista rdowych baz danych i opis ich zawartoci, opisy i charakterystyki bramek midzy bazami rdowymi a HD, schemat HD, definicje perspektyw i danych wyliczanych, opisy wymiarw i hierarchii, zbir predefiniowanych zapyta i raportw, lokalizacja tematycznych HD, indeksy i reguy partycjonowania danych Metadane logiczne: reguy biznesowe, podstawowe pojcia i definicje, procedury postpowania, logiczne definicje tablic i atrybutw HD, odwzorowanie danych operacyjnych na struktury HD
Repozytorium metadanych
Metadane operacyjne (reguy ekstrakcji, czyszczenia, transformacji, korekcja danych rdowych, dane szczegowe i wyprowadzane) Metadane historyczne (zmiany zachodzce w HD, informacje dotyczce aliasw) Metadane administracyjne (bezpieczestwo HD, autoryzacja uytkownikw, prawa dostpu do HD) Metadane personalizacyjne (reguy obliczenia pewnych agregatw dla okrelonych uytkownikw lub grup uytkownikw)
Perspektywa menederska
Ostatni warstw (jedyn widoczn przez uytkownika) jest warstwa udostpniania danych, czyli tak zwany front-end perspektywa menederska. Znajduj si tu rne narzdzia analityczne, dostpu do danych, generatory zapyta, specjalizowane aplikacje - wszystko to, do czego dostp ma uytkownik hurtowni. Ostatnio czsto pojawiaj si tu serwery intranetowe, umoliwiajce dostp do danych, raportw i analiz poprzez przegldark WWW.
Perspektywa menederska
HD obejmuje ca dziaalno firmy; jest systemem bardzo zoonym. Wzrost ryzyka niepowodzenia przedsiwzicia wraz ze zoonoci systemu Jak minimalizowa ryzyko projektu HD:
cisa wsppraca z uytkownikiem (kadra zarzdcza): identyfikacja zasadniczych strategii dziaania i wynikajcych z nich potrzeb informacyjnych. Podjciu decyzji o budowie HD musi towarzyszy przekonanie o koniecznoci powicenia wasnego czasu na rozmowy z twrcami systemu Precyzyjne zdefiniowanie architektury HD na samym pocztku prac waciwe odniesienie caego zakresu funkcjonalnego do strategii dziaania oraz zaplanowanie architektury technicznej dla caego systemu
Waciwe zaplanowanie architektury pozwala te osign znaczn popraw wydajnoci w realizacji kolejnych etapw hurtowni danych, poniewa stanowi fundament, na ktrym budowane s kolejne fragmenty systemu, uwalniajc projektantw i programistw od koniecznoci zastanawiania si nad poszczeglnymi komponentami technologicznymi, ktre powinny zosta zastosowane. Z punktu widzenia procesu inwestycyjnego architektura pozwala utrzyma w ryzach koszty przedsiwzicia Hurtownia danych jest systemem zoonym, obejmuje szeroki zakres potrzeb informacyjnych. Dodatkowym kopotem jest fakt, e z zakresem nie da si "walczy" ani go "unika. Podejcie przyrostowe pozwala skutecznie zarzdza tym elementem ryzyka. Polega ono na podzieleniu systemu na kilka mniejszych "kawakw" i budowie ich po kolei. Dziki temu ju po kilku miesicach uytkownik moe mie korzyci z budowanego systemu. Przyrosty funkcjonalnoci systemu powinny by tak zdefiniowane, by mona kady z nich zaprojektowa, zaimplementowa i wdroy w czasie +- 3 miesicy
Warunkiem koniecznym jest istnienie systemu (lub systemw) stanowicych rdo danych dla hurtowni danych, czyli Systemw Zarzdzania Przedsibiorstwem. Czynniki pozwalajcych oceni poziom przygotowania organizacji do uruchomienia projektu budowy hurtowni danych:
Dostpno rde danych rnorodno rde danych wiadomo odbiorcw systemu co do informacji, ktre chc z niego otrzymywa i jasne powizanie tych informacji z potencjalnymi korzyciami gospodarczymi dla organizacji. Bez takiego powizania moemy zbudowa "fantastyczny" system, ale nie wnoszcy adnej wartoci dodanej. Zakres - mona zakresem zarzdza i tak go dzieli na kolejne fragmenty systemu aby byy one wykonalne w czasie 3-4 miesicy oraz byy cile powizane z korzyciami dla organizacji. Umocowanie projektu - budowa hurtowni danych jest w gruncie rzeczy przedsiwziciem biznesowym i do tego sterowanym potrzebami informacyjnymi o strategicznym znaczeniu. W zwizku z tym bez zaangaowania ze strony kierownictwa organizacji trudno bdzie mwi o powodzeniu projektu.
Czynniki sukcesu
Analiza organizacji pod ktem powyszych czynnikw jest sposobem zwrcenia uwagi na istotne problemy, mogce wystpi podczas budowy hurtowni danych. Dodatkowym problemem jest niska jako danych (z "bylejakich" danych mona wygenerowa tylko "bylejakie" raporty). Jeli dane organizacji s w znacznym stopniu zamiecone (zawieraj duo nieaktualnych lub bdnych danych), nie naley oczekiwa, e hurtownia danych "jakim cudem" dostarczy waciwych informacji. Jako informacji uzyskiwanych z hurtowni danych zawsze bdzie adekwatna do jakoci danych rdowych. Nie oznacza to, e "wyczyszczenie" danych rdowych nie jest moliwe i w wikszoci przypadkw daje si to zrobi, czsto jednak wymaga to dodatkowej pracy uytkownikw, jak rwnie zespou realizujcego hurtowni danych.
Architektura HD
Hurtowni danych na og realizuje si jako system wielowarstwowy, kada z warstw spenia cile okrelone zadania. Dane pochodz z systemw rdowych, czyli rodowiska informatycznego przedsibiorstwa, jego baz danych, a take zewntrz, np. od specjalistycznych firm badajcych udziay w rynku, z internetu i innych sieci komputerowych.
Architektura HD
Architektura HD
rdowe dane przejmuje warstwa zasilania hurtowni. Tu odbywa si przetwarzanie danych, ich czyszczenie, standaryzacja, przygotowywanie, "sklejanie" z kilku rde itp. Na og potrzebny jest tutaj pewien roboczy obszar do wykonania wszystkich tych transformacji; oznaczony jest on skrtem TSA (Temporary Staging Area), spotykany jest rwnie termin ISA (od "intermediary). Oczyszczone dane wdruj do "waciwej" hurtowni, gdzie podlegaj dalszej obrbce. Na tym poziomie generowane s agregaty (podsumowania) danych, wykonywane stae raporty i nastpuje kocowe "szlifowanie" danych przed ich udostpnieniem. Tu pojawiaj si dwa nowe obiekty, mianowicie skadnica danych (Data Mart) oraz operacyjny magazyn danych ODS (Operational Data Store). Skadnica danych jest blisza "konsumentowi" informacji, bdc jakby sklepem detalicznym z danymi. Ma za zadanie przyspieszy dostp do najczciej wykorzystywanych informacji.
Architektura HD
w odrnieniu od hurtowni zaprojektowana jest pod ktem szybkoci a nie elastycznoci, jest oddzielona od systemw operacyjnych przedsibiorstwa, obsuguje standardowe zapytania, gromadzi informacje strategiczne lub taktyczne, ktrych struktura jest wysoce wyspecjalizowana, zawiera niewielk liczb danych, czsto s to agregaty.
Pewne potrzeby informacyjne (zwaszcza bardziej zoone pytania analityczne) uytkownik bdzie i tak musia skierowa bezporednio do hurtowni, jednak zadaniem skadnicy danych jest przechwycenie najczciej obsugiwanych kwerend - w tym sensie mona okreli skadnic mianem cache'a. Skadnice najczciej obsuguj potrzeby poszczeglnych dziaw przedsibiorstwa.
Architektura HD
ODS (Operational Data Store), czyli operacyjny magazyn danych. ODS otwiera moliwo wykorzystania danych, ktre ju zebralimy i zintegrowalimy, dla potrzeb operacyjnych. Na przykad moemy poprzez ODS udostpni wydziaowi kontakty z klientami, dane o kontrahentach (albo ich szczegowe "profile"), pracowicie poczone z kilkudziesiciu rnych rde danych. Cechy charakterystyczne operacyjnego magazynu danych (ODS):
jest rdem informacji operacyjnych, integrujcym dane pochodzce z rnych aplikacji; zawiera ma liczb danych, gwnie biecych; jego zadaniem jest odpowiada na palce pytania dotyczce aktualnych danych; moe by obszarem czyszczenia, integrowania i przygotowywania danych dla hurtowni (tzn. funkcj ODS peni moe nieco przystosowany TSA).
Architektura HD
Metadane - dane o danych. Metadane umoliwiaj uytkownikom poruszanie si po hurtowni, tumaczc nieprzyjazne dla nich pojcia informatyczne na sownik biznesu oraz informujc ich, jakie dane s aktualnie dostpne. W skrcie, metadane s katalogiem dostpnych informacji. Metadane powinny zawiera nastpujce informacje:
opis dostpnoci danych, np. "dane o fakturach aktualnie dostpne s za okres 2004-01-01 do 2005-07-30"; nazw systemu rdowego, z ktrego pochodz dane, opis operacji poczynionych na danych podczas zasilania hurtowni, np. czy kwoty zostay zsumowane i w jaki sposb, czy odfiltrowano wszystkie anulowane faktury, itd. wersj metadanych, np.: kiedy zmienio si rdo danych o klientach; dane za pewien okres mog rni si od pniejszych danych, aby wic waciwie je odczyta, niezbdna jest moliwo okrelenia, jakie metadane obowizyway w danym momencie; metryki dotyczce danych (np. liczby wierszy w tablicach), pozwalajce uytkownikowi oceni, czy odpowied na jego pytanie pojawi si szybko czy po duszym czasie.
Architektura HD
Ostatni warstw, a zarazem jedyn widoczn przez uytkownika, jest warstwa udostpniania danych, czyli tak zwany front-end. S to wszelkiej maci narzdzia analityczne, dostpu do danych, generatory zapyta, specjalizowane aplikacje - wszystko to, do czego dostp ma uytkownik hurtowni. Czsto pojawiaj si tu serwery intranetowe, umoliwiajce dostp do danych, raportw i analiz poprzez przegldark WWW.
Najwicej miejsca w hurtowni zajmuj dane detaliczne. Istotne jest waciwe dobranie stopnia ich "ziarnistoci" i struktury do potrzeb informacyjnych przedsibiorstwa - dane detaliczne z kadej transakcji (np. z faktury lub paragonu), zawierajce zbyt duo informacji, mog w cigu kilku miesicy nabra objtoci kilkuset gigabajtw. Czsto odbiorcw informacji zadowalaj np. dane detaliczne na poziomie sumarycznych wartoci, dziennych czy cogodzinnych. Z danych detalicznych generowane s agregaty (podsumowania), odpowiadajce na najczciej zadawane przez uytkownikw hurtowni pytania. Z reguy robi si to rwnie kilkuwarstwowo - najpierw generowane s proste podsumowania, ktre potem poddawane s dalszej agregacji. Jeli, np. dane detaliczne zawieraj poszczeglne pozycje ze skanerw kasowych supermarketu, mona wyobrazi sobie wstpn agregacj wedug produktw i dni (zsumowanie sprzeday poszczeglnych produktw w cigu okrelonych dni), a dalsz na przykad wedug miesicy lub tygodni, albo wedug grup produktw.
Jeli analitycy zapragn nagle nowego sposobu analizy danych, ktrego nie umoliwiaj im istniejce agregaty, a przy tym zechc zbada w ten sposb dane od pocztku funkcjonowania firmy, trzeba bdzie upora si z kopotliwym zadaniem wczytania i przetworzenia wszystkich tam
Hurtownia danych jest zoonym systemem informatycznym, co wida midzy innymi po rozmaitoci narzdzi programowych, jakie potrzebne s przy jej budowie i eksploatacji. Oprogramowanie to mona podzieli na kilka kategorii:
Narzdzia wspomagajce projektowanie i modelowanie systemw Sowniki (repozytoria) metadanych Oprogramowanie typu middleware Systemy obsugi baz danych Narzdzia analityczne Inne
Narzdzia analityczne
Przeznaczone s dla kocowego uytkownika - analityka biznesowego. Cay szereg narzdzi nadaje si do prowadzenia analiz danych; najpopularniejszym z nich jest Microsoft Excel, arkusz kalkulacyjny pozwalajcy przeprowadza do powane analizy, jeli otrzyma specjalnie przygotowane dane o niewielkiej objtoci. Jego powan zalet jest dua popularno i intuicyjno. Mona zaoy, i niemal wszyscy analitycy bdcy uytkownikami hurtowni umiej korzysta z arkusza kalkulacyjnego
Inne
Jest rwnie wiele narzdzi wyspecjalizowanych w analizie i prezentacji danych; wrd nich du popularno zyskuje system Business Objects; jego producent, francuska firma o tej samej nazwie, zalicza si do pierwszej dziesitki najszybciej rosncych firm europejskich. Uytkownicy, korzystajcy z zaawansowanych narzdzi statystycznych czy modelowania matematycznego, sign mog po statystyczne komponenty pakietu SAS czy te narzdzia w rodzaju Mathematica, Statgraphics. Do wykonywania analiz danych geograficznych i prezentowania ich w postaci map czy siatek geograficznych uywa si czsto systemw GIS (Geographical Information Systems), na przykad MapCAD czy MapInfo. Oprcz tych podstawowych typw narzdzi, mona wyrni jeszcze np. programy wspomagajce zarzdzanie hurtowni czy generatory.