Professional Documents
Culture Documents
No part of this publication may be reproduced, stored in a retrieval system or transmitted in any form or by
any means, electronic, mechanical, photocopying, recording, scanning or otherwise, without either the prior
written permission of the Publisher.
Wiley and the Wiley logo are trademarks or registered trademarks of John Wiley & Sons, Inc. and/or its
affiliates, in the United States and other countries, and may not be used without written permission. All
other trademarks are the property of their respective owners. John Wiley & Sons, Inc. is not associated with
any product or vendor mentioned in this book.
Autor oraz Wydawnictwo HELION dooyli wszelkich stara, by zawarte w tej ksice informacje byy
kompletne i rzetelne. Nie bior jednak adnej odpowiedzialnoci ani za ich wykorzystanie, ani za zwizane
z tym ewentualne naruszenie praw patentowych lub autorskich. Autor oraz Wydawnictwo HELION nie
ponosz rwnie adnej odpowiedzialnoci za ewentualne szkody wynike z wykorzystania informacji
zawartych w ksice.
Wydawnictwo HELION
ul. Kociuszki 1c, 44-100 GLIWICE
tel. 32 231 22 19, 32 230 98 63
e-mail: helion@helion.pl
WWW: http://helion.pl (ksigarnia internetowa, katalog ksiek)
Drogi Czytelniku!
Jeeli chcesz oceni t ksik, zajrzyj pod adres
http://helion.pl/user/opinie/mianda
Moesz tam wpisa swoje uwagi, spostrzeenia, recenzj.
Printed in Poland.
O autorze 11
O korektorach merytorycznych 11
Podzikowania 12
Wstp 13
Co ja tutaj robi? 13
Praktyczna definicja analizy danych 14
Chwila, chwila. A co z big data? 15
Kim jestem? 16
Kim jeste? 16
Na szczcie bdziesz pracowa tylko w arkuszu kalkulacyjnym 17
Ale arkusze kalkulacyjne s takie staromodne! 18
Korzystaj z programu Excel lub pakietu LibreOffice 18
Konwencje typograficzne przyjte w tej ksice 19
Zaczynamy 20
Wnioski 427
Gdzie ja jestem? Co si stao? 427
Zanim odoysz t ksik 428
Poznaj problem 428
Potrzebujemy wicej tumaczy 429
Uwaaj na trjgowe monstrum: narzdzia, wydajno i perfekcjonizm 430
Nie jeste najwaniejsz osob w firmie 432
Bd kreatywny 433
Skorowidz 435
2 zastosowanie
algorytmu centroidw
do segmentowania
bazy klientw
Ten pocztkowy podzia nie jest najlepszy, prawda? Przestrze zostaa podzielona
w dziwny sposb lewa dolna grupa jest pusta i bardzo duo osb znalazo si na granicy
grup rodkowej i grnej.
Algorytm centroidw dokonujcy analizy skupie bdzie dzieli parkiet na trzy czci,
a uzyska najlepszy podzia.
Czym charakteryzuje si najlepszy podzia? Kady z uczestnikw imprezy znajduje
si w jakiej odlegoci od rodka skupienia. Za najlepszy podzia mona uzna taki,
przy ktrym rednia odlego uczestnika od przypisanego do niego rodka skupienia
jest najmniejsza.
Zgodnie z tym, co napisaem w rozdziale 1., sowo minimalizacja oznacza konieczno
zastosowania modelu optymalizacji w celu uzyskania optymalnego rozmieszczenia
rodkw skupie, a wic w tym rozdziale bdziesz korzysta z narzdzia Solver w celu
przesuwania rodkw skupie. Solver znajduje waciwe pozycje rodkw skupie,
przesuwajc je w sposb uporzdkowany i inteligentny dokonujc tych operacji,
rejestruje liczb dobrych przyporzdkowa i znajduje najlepsze pozycje, czc dane
uzyskane w wyniku tych operacji.
Diagram widoczny na rysunku 2.4 wyglda nieszczeglnie, ale Solver mgby przestawi
rodki skupie tak, aby uzyska diagram pokazany na rysunku 2.5. Na tym rysunku
zmniejszono nieco rednie odlegoci rodkw skupie od przyporzdkowanych do nich
tancerzy.
Super! Tak wanie powinien wyglda idealny efekt analizy skupie. Poszczeglne rodki
skupie znajduj si w rodku poszczeglnych grup tancerzy, dziki czemu zminimalizowano
redni odlego tancerza od rodka skupienia, do ktrego jest przypisany. Po uzyskaniu
podziau na grupy czas przej do najciekawszego etapu pracy sprbuj zrozumie,
co oznacza kade skupienie.
Gdyby analizowa kolor wosw taczcych, ich pogldy polityczne czy prdko,
z jak potrafi biega, to uzyskane przed chwil skupienia nie miayby sensu, ale gdyby
zwrci uwag na pe i wiek uczestnikw przyporzdkowanych do poszczeglnych grup,
zauwayby pewne prawidowoci. Maa grupa znajdujca si w dolnej czci parkietu
to osoby starsze prawdopodobnie s to opiekunowie osb bawicych si na dyskotece.
Grupa po lewej stronie to sami modzi mczyni, a grupa po prawej to same mode
kobiety. Wszyscy boj si taczy z osobami o przeciwnej pci.
No dobrze. Algorytm centroidw umoliwi podzia osb znajdujcych si na parkiecie
na grupy, a take zrozumienie przyczyn takiego podziau.
By moe mylisz sobie: To gupie, rozwizanie zaprezentowanego problemu znaem
od pocztku. Masz racj. Tak byo w tym przypadku. To tylko przykadowe zagadnienie,
ktre mona zrozumie, patrzc na rysunek. Wszystko jest przedstawione w przestrzeni
dwuwymiarowej, ktr da si z atwoci ogarn wzrokiem.
A teraz wyobra sobie, e prowadzisz sklep majcy w ofercie kilka tysicy produktw.
Niektrzy z Twoich klientw kupili w cigu kilku ostatnich lat jedn lub dwie rzeczy,
a inni zakupili w tym czasie kilkadziesit artykuw. Co zrobi w sytuacji, w ktrej klienci
kupowali rne towary?
Jak rozplanowa je na sklepowym parkiecie? Przestrze, w ktrej musiaby dokona
takiej analizy, nie jest dwu- ani trjwymiarowa. Skada si ona z tysicy wymiarw
utworzonych przez produkty, ktre mogy by kupione lub nie przez kadego z klientw.
Zapewne widzisz ju problem zwizany z tym przykadem nie da si go rozwiza na oko.
Handel winem
Wyobra sobie, e mieszkasz w New Jersey i pracujesz w firmie Joey Bag O Donuts
Wholesale Wine Emporium zajmujcej si importem win i dostarczaniem ich do
wybranych sklepw na terytorium USA. Biznes opiera si na tym, e Joey Bag podruje
po wiecie, szukajc niezwykle opacalnych ofert sprzeday duych iloci wina. Joey
dostarcza je do New Jersey, a Ty masz za zadanie sprzeda je sklepom, uzyskujc jak
najwikszy dochd.
Docierasz do klientw na rne sposoby: korzystasz z serwisw Facebook i Twitter,
a nawet wysyasz oferty bezporednio za porednictwem poczty elektronicznej. Z ostatniego
rozwizania korzysta wikszo firm. W ubiegym roku wysyae do swoich klientw
comiesiczny newsletter. Kada taka wiadomo przedstawia dwie lub trzy oferty zwizane
ze sprzeda wina jedna z nich moe dotyczy np. szampana, a druga francuskiego
wina malbec. Niektre z ofert s naprawd korzystne: umoliwiaj osignicie zysku
ze sprzeday na poziomie 80%. W sumie w tym roku zaproponowae 32 oferty.
Wszystkie spotkay si z zainteresowaniem klientw.
To, e interes idzie dobrze, nie oznacza, e nie moe i lepiej. Warto byoby pozna
nieco bliej swoich klientw. Oczywicie analizujc dane dotyczce okrelonej transakcji,
moesz si dowiedzie, e osoba o nazwisku Adams kupia w lipcu pewn ilo wina
espumante ze znik 50%, ale nie wiesz, czy zakup zosta dokonany, poniewa kupujcemu
spodobao si to, e mg kupi tylko jedno pudeko z szecioma butelkami, czy moe
uzna, e cena jest atrakcyjna, czy te doszed do wniosku, e cena tego produktu ma
tendencj wzrostow.
Warto byoby podzieli klientw na grupy skupiajce podmioty dokonujce podobnych
transakcji. Mgby wtedy wysya do kadej grupy newsletter zoptymalizowany pod
ktem danego segmentu rynku. Taki newsletter mgby prezentowa w pierwszej
kolejnoci te oferty, ktre potencjalnie bardziej interesuj dan grup odbiorcw,
co mogoby zwikszy sprzeda.
Jak podzieli list klientw na segmenty? Od czego zacz?
Podziau listy mona dokona za pomoc komputera. Analiza skupie umoliwia
uzyskanie optymalnego podziau klientw na grupy, a wtedy bdziesz mg odkry
przyczyn takiego podziau i wybra najlepsze grupy docelowe dla przygotowanych ofert.
UWAGA
W tym rozdziale bd korzysta ze skoroszytu programu Excel o nazwie Wina.xlsx. Moesz
go pobra ze strony: ftp://ftp.helion.pl/przyklady/mianda.zip. Plik zawiera dane, ktre
bd przetwarza w tym rozdziale (moesz na nich pracowa podczas lektury), a take ar-
kusze z przetworzonymi danymi prezentujce wyniki opisanych przeze mnie operacji (mo-
esz je przeglda bez koniecznoci samodzielnego wprowadzania formu).
UWAGA
Podstawowe informacje dotyczce tabel przestawnych znajdziesz w rozdziale 1.
Rysunek 2.10. Tabela, ktra powstaa w wyniku poczenia danych ofert oraz transakcji
STANDARYZACJA DANYCH
W tym rozdziale kady wymiar danych jest typu binarnego, ale nie jest to regua dotyczca
kadego problemu rozwizywanego za pomoc analizy skupie. Wyobra sobie sytuacj,
w ktrej ludzie s dzieleni na grupy na podstawie wzrostu, wagi i zarobkw. Wzrost moe
waha si od 150 do 200 centymetrw, a waga od 45 do 140 kilogramw.
W takim przypadku pomiar odlegoci pomidzy klientami staje si o wiele bardziej
skomplikowany od pomiaru odlegoci pomidzy uczestnikami dyskoteki. W zwizku z tym
dane s bardzo czsto standaryzowane obliczana jest rednia danych znajdujcych si
w kadej kolumnie, a take wykonywana jest operacja dzielenia przez warto charaktery-
zujc rozkad danych, czyli odchylenie standardowe (parametr ten opisz w rozdziale 4.).
Taki zabieg umoliwia przeskalowanie danych znajdujcych si w kadej kolumnie tak, aby
wartoci oscyloway w granicach zera.
Dane, ktre przetwarzamy w rozdziale 2., nie wymagaj standaryzacji. Praktyczne za-
stosowanie standaryzacji do wykrywania elementw odstajcych przedstawi w rozdziale 9.
Rysunek 2.14. Odlego pomidzy klientem o nazwisku Adams a rodkiem pierwszego klastra
Teraz trzeba okreli klaster, ktrego rodek odpowiada tej minimalnej wartoci.
Moesz to zrobi za pomoc formuy PODAJ.POZYCJ (opisaem j w rozdziale 1.).
Umieszczajc j w komrce L39, moesz okreli indeks komrki z zakresu od L34 do L37,
ktrej zawarto pokrywa si z wartoci minimalnej odlegoci:
=PODAJ.POZYCJ(L38,L34:L37,0)
UWAGA
Zagadnienia zwizane z optymalizacj opisaem szerzej w rozdziale 4.
Otwrz okno narzdzia Solver i umie w nim powysze parametry. Skonfiguruj Solver
tak, aby zminimalizowa warto zapisan w komrce A36, modyfikujc komrki H2:K33
i biorc pod uwag ograniczenie wartoci wpisywanych do tych komrek (musz by one,
podobnie jak dane, mniejsze lub rwne 1). Zaznacz opcj Ustaw wartoci nieujemne dla
zmiennych bez ogranicze i wybierz metod rozwizania o nazwie Ewolucyjna (rysunek 2.17).
Zadanie to wcale nie jest dla Solvera takie proste, jak by si mogo wydawa, a wic
zajrzyj do opcji metody ewolucyjnej (kliknij przycisk Opcje i przejd do karty Ewolucyjna).
Warto zmodyfikowa parametr Maksymalny czas bez poprawy wybierz czas ok. 30 sekund
(zalenie od tego, ile czasu moesz powici na czekanie na rozwizanie problemu).
Ustawiem czas 600 sekund (10 minut) rysunek 2.18. Dziki temu po uruchomieniu
Solvera bd mg pj na kaw. Jeeli chciaby zatrzyma dziaanie Solvera, to wcinij
klawisz Escape i zamknij go, zachowujc najlepsze znalezione dotychczas rozwizanie.
Twoja wersja Excela moga wygenerowa inne wartoci rodkw klastrw. Mogo tak
si sta, poniewa algorytm ewolucyjny pracuje z wartociami losowymi i nie zawsze
generuje takie same wyniki. Twoje klastry mog by zupenie inne, mog nieco przypomina
moje lub ich rodki mog by uoone w rnej kolejnoci (rodek mojego klastra 1.
moe znajdowa si bardzo blisko rodka Twojego klastra 4. itd.).
W kolumnach B G umiecie informacje o ofertach, a wic teraz moesz z atwoci
z nich korzysta, poniewa dane te mog by bardzo wane z punktu widzenia rodkw
klastrw (rysunek 2.19).
W przypadku klastra 1. znajdujcego si w kolumnie H formatowanie warunkowe
wyrnia oferty 24., 26., 17. i w mniejszym stopniu ofert 2. Jeeli zagbisz si w szczegy
tych ofert, to maj one jedn rzecz wspln wszystkie s zwizane z winem pinot noir.
Jeeli przyjrzysz si kolumnie I, to zauwaysz w niej pola wyrnione na zielono s
to oferty, ktre czy niska minimalna ilo kupowanego wina. W klastrze tym znajduj
si nabywcy, ktrzy nie chc kupowa duych iloci trunku.
Bd szczery: interpretacja dwch ostatnich klastrw jest trudna. Moe zamiast
interpretowa pooenie rodka klastra, lepiej przyjrze si preferencjom przyporzdkowanych
do niego klientw? By moe w ten sposb wysnujesz jakie sensowniejsze wnioski?
Zgodnie z tym, co zauwayem wczeniej, wszystkie oferty w tym klastrze dotycz wina
pinot. Ci klienci chyba za duo naogldali si filmu Bezdroa. Po posortowaniu kolumny
klastra 2. okazuje si, e znajduj si w nim klienci, ktrzy preferuj zakup maej iloci
wina (rysunek 2.23).
Niestety, w wyniku sortowania klastra 3. nie da si wycign tak oczywistych wnioskw.
W tym klastrze jest wiele bardzo popularnych ofert i nie wida wyranej granicy pomidzy
nimi a ofertami, z ktrych nikt nie skorzysta. Najpopularniejsze oferty w tej grupie
wydaj si mie co wsplnego wszystkie charakteryzuj si du znik. Pi z szeciu
Rysunek 2.25. Sortowanie klastra 4. czy ta grupa klientw po prostu lubi pi szampana w sierpniu?
Rysunek 2.26. Odlegoci, ktre naley wzi pod uwag w przypadku okrelania wpywu
przyporzdkowania osoby pilnujcej na warto okrelajc sylwetk podziau
Aby ledzi pooenia klientw w tej duej tabeli, ponumeruj ich (przypisz im numery
od 0 do 99 w obu kierunkach). Numery te umie w kolumnie A i wierszu 1. W tym celu
wstaw pusty wiersz i pust kolumn od gry i na lewo od wiersza i kolumny, do ktrych
wkleie nazwiska (kliknij kolumn A i wiersz 1. prawym przyciskiem myszy, a nastpnie
wybierz opcj wstawiania nowej kolumny i nowego wiersza).
UWAGA
Kolejne liczby z zakresu 0 99 moesz wstawi na wiele rnych sposobw. Na przykad
zacznij od wpisania cyfr 0, 1, 2, 3 w pierwsze komrki. Nastpnie zaznacz je i przecignij
dolny rg zaznaczonego obszaru na pozostae komrki. Excel powinien zrozumie Twj
zamiar i automatycznie dokoczy sekwencj. Na rysunku 2.27 przedstawiono tabel goto-
w do zapenienia danymi.
W ten sposb okrelimy odlego pomidzy klientem o nazwisku Adams a nim samym.
Zauwa, e Odlegoci!C$1 definiuje przesunicie kolumny w pierwszym wektorze transakcji,
a Odlegoci!$A3 definiuje przesunicie kolumny w drugim wektorze transakcji.
Dziki temu po przecigniciu tej formuy na cay arkusz wszystko bdzie zakotwiczone
na wektorze transakcji klienta o nazwisku Adams, ale formua PRZESUNICIE bdzie
przesuwaa wektor we waciwe miejsca wskazywane przez indeksy umieszczone
w kolumnie A i wierszu 1. W ten sposb bdziemy przetwarza waciwe wektory
transakcji klientw. Na rysunku 2.28 pokazano tabel wypenion wartociami odlegoci.
W kolumnie H za pomoc formuy MIN.K moesz obliczy wartoci dla drugiej najbliszej
grupy klientw (w podanym przykadzie zastosowalimy parametr 2, poniewa formua
ma okrela drugie najblisze miejsce):
=MIN.K(C2:F2,2)
Rysunek 2.30. rednie odlegoci pomidzy klientami przyporzdkowanymi do tej samej grupy
a klientami przyporzdkowanymi do najbliszej grupy, w ktrej dany klient si nie znajduje
Teraz moesz obliczy redni tych wartoci, ktra bdzie rwna oglnemu
wspczynnikowi sylwetki podziau. W moim przypadku (rysunek 2.31) wynosi on 0,1492.
Warto ta jest wyranie bardziej zbliona do 0 ni 1. To smutne, ale wcale nie zaskakujce.
W kocu dwa z czterech klastrw byy trudne do jednoznacznego zinterpretowania
i opisania za pomoc preferowanych ofert.
No dobrze, co dalej?
Wspczynnik sylwetki podziau wynosi 0,1492. Co to znaczy? Jak mona z tego
skorzysta? Wyprbuj podzia na inn liczb grup. Pniej bdziesz mg porwna
wspczynniki sylwetki tych podziaw i dowiedzie si, czy dzielc klientw na wiksz
liczb klastrw, poprawiasz jako podziau.
W moim przypadku Solver zakoczy prac, uzyskujc cakowit odlego rwn 135,1
(rysunek 2.33).
UWAGA
Pamitaj, e wyniki widoczne w Twoim arkuszu mog rni si od tych uzyskanych przeze
mnie z powodu zastosowania algorytmu ewolucyjnego.
Rysunek 2.35. W wyniku posortowania klastra 1. ponownie wida preferencje do zakupu wina
pinot noir
Klaster 2. ponownie zawiera osoby kupujce mae iloci wina (rysunek 2.36).
Klaster 3. przyprawia mnie o bl gowy. Z jakiego powodu znajdujcy si w nim
klienci preferuj wino espumante pochodzce z RPA (rysunek 2.37).
Rysunek 2.36. Sortowanie klastra 2. osoby kupujce tylko mae iloci wina
Rysunek 2.37. Sortowanie klastra 3. czy wino espumante jest naprawd tak wane?
Osoby zakwalifikowane do klastra 4. preferuj zakup duych iloci win, ktre pochodz
gwnie z Francji, a ich ceny charakteryzuj si duym rabatem. Zauwaalna jest rwnie
pewna preferencja win musujcych. Trudno odczyta informacje zawarte w tym klastrze
jest ich tak wiele (rysunek 2.38).
Sortowanie klastra 5. daje podobne rezultaty do sortowania klastra 4., ale tym razem
gwne preferencje wydaj si zwizane z du iloci i duymi rabatami (rysunek 2.39).
Czy nie uwaasz, e to smutne? Sylwetka podziau niemal wcale si nie zmienia.
Warto 0,134 wskazuje, e podzia na pi grup jest nawet nieco gorszy! Nie jest to nic
dziwnego. W obu przypadkach uzyskano trzy sensowne klastry, a pozostae byy zaszumione.
Moe obralimy zy kierunek i trzeba sprawdzi podzia na trzy klastry? Jeeli chcesz
wyprbowa ten podzia, potraktuj to jako wiczenie i zrb to samodzielnie.
W kolejnym podrozdziale chciabym zwrci uwag na co, co by moe powoduje
generowanie zaszumionych i kopotliwych klastrw.
W przypadku danych binarnych, takich jak np. dane transakcji, odlego mierzona
w metryce miejskiej jest odlegoci pomidzy rodkiem klastra a wektorem zakupw
klienta bdc sum rozbienoci. Jeeli rodek klastra przyj warto 0 i zakupy klienta
rwnie przyjy warto 0, to odlego w danym kierunku jest rwna 0. W przypadku
rozbienych wartoci (0 i 1) odlego w danym kierunku wynosi 1. Po zsumowaniu
odlegoci w poszczeglnych kierunkach otrzymamy odlego cakowit, ktra jest
w zasadzie liczb rozbienoci. Odlego miejsk implementowan podczas pracy
z danymi binarnymi okrela si czsto mianem odlegoci Hamminga.
Rysunek 2.41. Podobiestwo kosinusowe dwch wektorw binarnych zawierajcych dane transakcji
W przypadku wektorw (1,1) i (1,0) jeden zakup jest identyczny, a wic warto 1 jest
dzielona przez pierwiastek kwadratowy z 2 (wykonano dwie transakcje) pomnoony przez
pierwiastek kwadratowy z 1 (zrealizowano jedn transakcj). Wykonujc to dziaanie,
uzyskasz wynik 0,707 (rysunek 2.41).
Dlaczego ten wynik jest tak interesujcy?
UWAGA
Dzielenie na grupy za pomoc odlegoci kosinusowej jest okrelane rwnie mianem
sferycznego algorytmu k-rednich. W rozdziale 10. przyjrzysz si implementacji tego
algorytmu w jzyku R.
Klaster 5. ponownie zrzesza osoby kupujce wino pinot noir (rysunek 2.48).
Tym razem uzyskae bardziej czytelne wyniki. Stao si tak, poniewa zastosowae
algorytm k-medioidw i mierzye odlego w sposb asymetryczny obliczae
odlego kosinusow. Dziki tym rozwizaniom posegregowae klientw na podstawie
ich zainteresowa, a nie tego, co ich nie interesuje, i o to wanie nam chodzio.
Metoda obliczania odlegoci ma duy wpyw na uzyskane klastry.
Teraz moesz dokona importu podziau klientw do serwisu MailChimp.com
i stworzy spersonalizowane wersje newslettera skierowane do klientw przyporzdkowanych
do okrelonych klastrw. Powinno to pomc w lepszym dotarciu do kupujcych
i doprowadzi do zwikszenia sprzeday.
Podsumowanie
W tym rozdziale opisaem wiele praktycznych rzeczy. Przyjrzae si:
odlegoci euklidesowej;
optymalizacji centroidw za pomoc algorytmu k-rednich i narzdzia Solver;
procesowi analizy uzyskanych klastrw;
obliczaniu sylwetki podziau na dan liczb klastrw;
dzieleniu na klastry za pomoc algorytmu k-medioidw;
Jeeli przebrne przez ten rozdzia, to powiniene umie dzieli dane na klastry,
a take okrela problemy biznesowe, ktre mona rozwiza za pomoc grupowania.
Dodatkowo nauczye si przygotowywa dane do dzielenia na klastry.
Dzielenie na klastry za pomoc algorytmu centroidw (k-rednich) jest uywane od
kilku dziesicioleci. Analiz danych klientw warto zacz od segmentacji za pomoc tej
metody. Niestety, nie jest to najbardziej wspczesna metoda grupowania. W rozdziale 5.
opisz zastosowanie teorii grafw do znajdowania podobiestw klientw w tym samym
zbiorze danych. Ponadto wyjd na chwil poza Excela i dokonam wizualizacji danych.
Jeeli chcesz rozwija swoj umiejtno korzystania z algorytmu k-rednich, to
pamitaj, e narzdzie Solver dostpne w Excelu moe pracowa tylko z 200 zmiennymi
decyzyjnymi, a wic warto, eby zacz uywa lepszego nieliniowego narzdzia Solver
(np. z wersji Premium Solver oferowanej przez serwis www.solver.com). Moesz rwnie
zacz pracowa w nieliniowej wersji Solvera, dostpnej w pakiecie LibreOffice, ktra
umoliwia dzielenie wielowymiarowych danych na du liczb grup.
Wikszo narzdzi statystycznych umoliwia analiz skupie. W jzyku R jest to
funkcja skmeans(), aczkolwiek moliwoci pakietu fastcluster (zawiera on m.in. algorytm
k-medioidw i zestaw rnych funkcji przeznaczonych do obliczania odlegoci) sprawiaj,
e korzysta si z niego czciej. W rozdziale 10. opisz zastosowanie pakietu skmeans
do wykonania sferycznego algorytmu k-rednich.
miara
O partycjonowanie hierarchiczne,
niespjnoci wza, 281 208, 209, 212, 216, 220
skali, 374 obrazu rozpoznawanie, 50 pieniek decyzyjny, 277, 280
rodkowoci, 374 odchylenie tworzenie, 288
miernik lokalny stopnia bezwzgldne rednie, 374 Pinterest, 49
oddalenia obserwacji, Patrz: LOF wiartkowe, 374 pot Tukeya, 368, 422
minimax, 154 standardowe, 60, 169, 322 podobiestwo kosinusowe, 89, 195
model obliczanie, 171 eliminowanie danych, 198, 199
Holta, Patrz: metoda Holta odkrywanie wiedzy z baz portal randkowy, 279
Holta-Wintersa, 342, 343, 344, danych, Patrz: KDD poziomica, 128, 129
345, 420 odlego prawdopodobiestwo, 100
liczba wspczynnikw, 247 euklidesowa, 61, 66, 87, 376 cakowite, 100
liniowy, 238, 279, 410, 411 obliczanie, 62 czci wsplnej, 101
trenowanie, 240 Hamminga, 88 logarytm, 270
losowego lasu, 277, 298, 412, kosinusowa, 88, 89, 90 mnoenie, Patrz: regua
416 obliczanie asymetryczne, 88 mnoenia
mnonika Holta-Wintersa, 343 odpowied prawdopodobiestwa
naiwnego klasyfikatora negatywna rozkad, Patrz: rozkad
bayesowskiego, Patrz: faszywie, 257 warunkowe, 100
klasyfikator bayesowski prawdziwie, 257 precyzja, 258
naiwny pozytywna prognoza, 356, 362
optymalizacji, 40, 54, 123, 124, faszywie, 232, 257, 261, nieobciona, 322
Patrz te: optymalizacja 262, 264 niepewno, Patrz: interwa
poziomica, 128, 129 prawdziwie, 232, 257, 258, tworzenie, 349
predykcyjny, 257
262, 264 w jzyku R, 417
czuo, 262
OpenSolver, 46, 66, 141, 161, prognozowanie, 313, 314, 417
precyzja, 258
170, 213, 244 program liniowy, 126
specyficzno, 259
OPL, 141 programowanie liniowe, 124, 127
warto progowa, 257
optymalizacja, 40, 66, 125 narzdzia, 141
regresji, 114, 229
liniowa, 44, 161 przetwarzanie jzyka
logistycznej, 265, 267, 272
matematyczna, 124 naturalnego, Patrz: NLP
sztucznej inteligencji, Patrz:
modularnoci grafu, 202, 205,
sztuczna inteligencja
worka sw, 99, 103, 108, 121
206, 208, 209, 212, 216, 220
nieliniowa, 44, 66, 137, 154,
R
zbir testowy, 255
zespoowy, 277, 312 161, 241 rachunek prawdopodobiestwa,
modelowanie zespolone, 277, 299 odchyleniamaksymalnego, 154 99, Patrz te:
ograniczenia wielkiego M, 179 prawdopodobiestwo
random forest, Patrz: model
N
P losowego lasu
nadprbkowanie, 232 Receiver Operating
neuro-linguistic programming, parametr Characteristic, Patrz: krzywa
Patrz: NLP alfa, 304, 318, 319, 320, 321, ROC
niedomiar 328, 343 regresja, 229
zmiennoprzecinkowy, 106 delta, 343 dopasowanie, Patrz:
NLP, 108, 112 gamma, 328, 343 dopasowanie
NodeXL, 182 k-odlego, 383 liniowa, 236, 272, 274, 325
normalizacja, 373 wygadzajcy, 354 element odstajcy, 244
wykres
Z binarna, 157, 161, 284
wachlarza, 360, 420 ograniczenia, 96, 141
warstwowy, 361 zmienna kategoryczna, Patrz: dane
wzmacnianie, 277, 299, 312 decyzyjna, 67, 81, 126, 130, kategoryczne
132, 139, 146, 147, 148, 151, liczba stopni swobody, 234
167, 209, 210, 212, 214 niezalena, 230, 237, 284, 325
zalena, 230, 251, 325