Professional Documents
Culture Documents
Wprowadzenie
Systemy BI s budowane z wykorzystaniem hurtowni danych (ang. data warehouse).
uzasadnienia powodw budowania hurtowni danych. Mona wyrni co najmniej cztery takie
przyczyny. Hurtownia danych umoliwia:
Caociowy wgld w dane firmy, tzn. moliwo integracji danych ze z rnych rde
umoliwiajcy peniejszy obraz zdarze gospodarczych zachodzcych w
przedsibiorstwie. Na przykad w firmie telekomunikacyjnej moe to by ustalenie
cakowitej sprzeday do klienta nie tylko na podstawie zarejestrowanych rozmw w
systemie bilingowym ale rwnie zakupionych przez klienta akcesoriw (te dane s
zarejestrowane w systemie sprzedaowym) w sklepach firmowych.
gdzie:
nieulotny, dane raz umieszczone w hurtowni zostaj zapamitane i nie podlegaj usuniciu.
Po zaadowaniu jedyn, przynajmniej formalnie, operacj jak mona na nich wykona jest
operacja odczytu.
Koszty [z]
Rentowno [%]
komputer ABC
1000000
700000
30
komputer XYZ
2000000
1800000
10
komputer QWE
2000000
1500000
25
PODSUMOWANIE:
5000000
4000000
20
Aby poprawnie okreli dane wygenerowania takiego raportu naley zdefiniowa trzy tabele:
ID_Produkt
ID_Data
Sprzeda_ilociowo
Cena
Koszty
P1
C5
500
2000
700000
P2
C5
400
5000
1800000
P3
C5
1000
2000
1500000
P1
C6
400
2500
800000
Tablica faktw ma charakter czysto ilustracyjny, fakt Koszty reprezentuje bazy wysoki stopie agregacji, ktry
w praktyce nie wystpowaby na poziomie tablicy faktw.
Nazwa
Producent
Procesor
P1
komputer ABC
Beta
Gamma
P2
komputer XYZ
Delta
Gamma
P3
komputer QWE
Beta
Teta
Miesic
Kwarta
Rok
C4
Kwiecie
Q2
2008
C5
Maj
Q2
2008
C6
Czerwiec
Q2
2008
Istotne jest zrozumienie powiza pomidzy tablicami: Sprzeda, Produkt i Data tak aby moliwe byo
utworzenia raportu przedstawionego w tabeli 2.1. Naley zwrci uwag, e nie wszystkie dane z
trzech tablic zostay wykorzystane do zbudowania raportu oraz e obliczenie sprzeday wartociowo
wymaga odwoania si do tablicy Sprzeda (atrybut: sprzeda_ilociowo oraz atrybut: cena). Kady
wiersz w kadej z tablic ma jednoznaczny identyfikator, tzw. klucz wasny 4. W tablicy Produkt jest to
ID_Produkt, w tablicy Data jest to ID_Data, natomiast w tablicy Sprzeda jest to para (ID_Produkt,
ID_Data), czyli tzw. klucz zoony. Powizanie w tablicy Sprzeda z tablica Produkt jest wanie
poprzez ID_Produkt (ID_Produkt w Tablicy Sprzeda jest nazywany kluczem obcym5). I podobnie
powizanie tablicy Sprzeda z tablica Data jest poprzez ID_Data, gdzie ID_Data w tablicy Sprzeda jest
rwnie kluczem obcym. Warto zauway, e jednemu wierszowi w tablicy Produkt, moe
odpowiada dokadnie zero, jeden lub wiele wierszy w tablicy Sprzeda, w druga stron jednemu
wierszowi w tablicy Sprzeda moe odpowiada dokadnie jeden wiersz w tablicy Produkt. Dokadnie
taka sama relacja zachodzi pomidzy tablic Sprzeda i Data. Ten typ zwizku jest okrelany mianem
1:N (jeden do wielu) i podstaw modelowania danych na potrzeby hurtowni danych w ramach tzw.
schemat gwiazdy patrz rysunek 2.3. Kady prostokt reprezentuje odpowiednio tablic z danymi.
Tablica wymiaru Data ma charakter czysto ilustracyjny, najniszy poziom reprezentacji okresu czasu na
poziomie miesica nie wystpuje w praktyce
4
Formalna definicja klucza wasnego: (Ullman & Widom, 2001)
5
Formalna definicja klucza obcego: (Ullman & Widom, 2001)
Data
Sprzeda
Produkt
Diagram z rysunku 2.3 nazywany modelem wielowymiarowym albo potocznie gwiazd z tego
powodu, e wok tablicy faktw s powizane wok zwizkiem 1:N tablice wymiarw, co przy
odrobinie wyobrani przypomina wygldem ksztat gwiazdy. Formalnie schemat z rysunku 2.3
powinien by opisany:
gdzie: Sprzeda, Produkt i Data s nazywane zbiorami encji. Pojedycza encja w zbiorze
reprezentowanym w tablicy jest po prostu wierszem w tej tablicy. Wyraenia w nawiasach s opisami
atrybutw charakteryzujcych dany zbir encji. Atrybuty podkrelone reprezentuj klucz
(identyfikator) encji w zbiorze encji. Odwoujc si do tej konwencji diagram z rysunku 2.3 jest
nazywany diagramem zwizkw encji6 (ang. entity relationship diagram) i jest klasycznym sposobem
modelowania baz danych. W zasadzie wystarczy ju tylko okreli formaty danych dla
wyspecyfikowanych atrybutw i moliwe jest ju wygenerowanie odpowiednich struktur danych w
wybranym systemie zarzdzania baza danych. Model wyspecyfikowany w postaci diagramu zwizkw
encji nazywany jest modelem logicznym (konceptualnym), jego realizacja w konkretnej bazie danych
nazywana jest modelem fizycznym.
rda danych
Nawizujc do przykadu raportu z tabeli 2.1 kluczowe jest zrozumienie w jaki sposb zostaa
wypeniona danymi tablica faktw (patrz tabela 2.2) oraz pozostae tablice. Na przykad obliczenie
sprzeday ilociowo dla wybranego produktu wymaga:
1. Ustalenie w jakim systemie z danymi transakcyjnymi s skadowane dane rdowe tj.
faktury sprzedaowe lub zamwienia, na podstawie ktrych mona okreli poziom
sprzeday
http://en.wikipedia.org/wiki/Entity_relationship_diagram
Pliki z danymi - mog to by zarwno zwyke pliki tekstowe jaki i np. pliki excelowe.
Zasoby Internetu mog to by dane pobierane ze stron WWW jaki i np. poczenie z
serwisami internetowymi automatycznie przekazujcymi odpowiednie informacje w formie
subskrypcji.
Istotne jest podkrelenie, e rda danych mog pochodzi z wntrza firmy (najbardziej znaczce
rdo informacji w wikszoci przypadkw) jak i z otoczenia zewntrznego.
Dane pochodzce ze rde danych s adowane do hurtowni. Ten pozornie trywialny proces zwykle
dzielony jest na trzy chronologicznie powizane fazy7:
http://en.wikipedia.org/wiki/Extract,_transform,_load
Rekomendowana literatura
Hurtownie danych:
o Inmon W.H., Building the Data Warehouse (4th Edition), John Wiley and Sons, 2005
o Todman Ch., Projektowanie hurtowni danych. Zarzdzanie kontaktami z klientami
(CRM) WNT, 2003
o Jarke M., Lenzerini M., Vassiliou Y., Vassiliadis P., Hurtownie Danych Podstawy
organizacji i funkcjonowania, WSiP, Warszawa, 2003
3. www.tdwi.org
4. http://en.wikipedia.org/wiki/Data_warehouse
5. www.ralphkimball.com
6. www.billinmon.com
7. www.dmreview.com
8. http://en.wikipedia.org/wiki/Common_Warehouse_Metamodel
STUDIUM PRZYPADKU
Wdroenie systemu BI rozpoczto od analizy wymaga biznesowych. W obszarze sprzeda rozpoczto
analiz wymaga kontekcie nastpujcych analiz:
Obszar
Sprzeda
Sprzeda wartociowo:
i sprzeda procentowo:
Data: 1 dzie
Data:
Produkt:
i przykadowe dane:
Sklep:
i przykadowe dane:
Podczas caociowej analizy wymaga biznesowych okrelono ponadto nastpujce rda danych:
Pliki:
o sprzeda planowana (raz na miesic)
o dane lokalizacyjne: pooenie, najblisza konkurencja, itp.