You are on page 1of 8

EKONOMETRIA ECONOMETRICS 2(40) 2013

ISSN 1507-3866

Marcin Peka

Uniwersytet Ekonomiczny we Wrocawiu

PODEJCIE WIELOMODELOWE
ANALIZY DANYCH SYMBOLICZNYCH
WOCENIE POZYCJI PRODUKTW NA RYNKU
Streszczenie: Pozycjonowanie produktw to szeroka gama dziaa przedsibiorstwa, ktre maj na celu projektowanie oferty i wizerunku firmy. Celem tych dziaa jest zajcie
wyrniajcego si na tle konkurencji miejsca w wiadomoci rynku docelowego. Celem
artykuu jest zaprezentowanie i zastosowanie podejcia wielomodelowego analizy danych
symbolicznych wzagadnieniu klasyfikacji na potrzeby oceny pozycji produktw na rynku.
W czci empirycznej przedstawiono zastosowanie podejcia wielomodelowego danych
symbolicznych bazujcego na macierzy wspwystpie oraz metodzie bagging wanalizie
danych z rynku motoryzacyjnego. Obydwa podejcia day porwnywalne wyniki w sensie
skorygowanego indeksu Randa.
Sowa kluczowe: klasyfikacja wielomodelowa, analiza skupie danych symbolicznych, pozycjonowanie produktw.

1. Wstp
Przedsibiorstwa iusugodawcy prowadz szerok gam dziaa, ktre maj na celu
projektowanie oferty iwizerunku firmy. Celem tych dziaa jest zajcie wyrniajcego si na tle konkurencji miejsca wwiadomoci rynku docelowego. Dziaania
te nazywa si pozycjonowaniem produktw. Wynikiem pozycjonowania jest kreowanie zorientowanej na klienta propozycji wartoci, powodw, dla ktrych dany
produkt czy usuga powinna by wybrana przez konsumenta (por. np. [Kotler 2005,
s. 308-309; Kotler iin. 2002, s. 139]).
Pozycjonowanie obejmuje take metody okrelania, jak dany produkt czy usuga
oferowane przez przedsibiorstwo plasuje si na tle produktw czy usug przedsibiorstw konkurencyjnych. Dy si wic do wskazania tych cech produktw czy
usug, ktre je wyrniaj (odrniaj) na tle konkurencji. Takimi cechami mog by
np. nowoczesno, ekologia, bezpieczestwo, presti itp.
Pozycjonowanie moe odbywa si z wykorzystaniem wielu rnych kryteriw, ktre charakteryzuj produkt czy usug. Mog one dotyczy samego produktu, ale take producenta, uytkownikw, cech czy wizerunku (por. [Stanimir
(red.) 2006, s. 232]).

Ekonometria 2(40)_CZ 1.indb 95

2013-10-08 12:45:27

96

Marcin Peka

Wpozycjonowaniu produktw czy usug zastosowanie znajduje wiele rnych


metod statystycznej analizy wielowymiarowej, wrd ktrych szczeglne miejsce
zajmuj metody regresji logistycznej, analizy czynnikowej, analizy skupie czy skalowania wielowymiarowego (zob. np. [Stanimir (red.) 2006, s. 236-255; Walesiak 1993,
s. 20-22; Zaborski 2001, s.30]).
W badaniach marketingowych coraz czciej oprcz danych klasycznych
(oczterech skalach pomiaru nominalnej, porzdkowej, przedziaowej, ilorazowej)
stosuje si take dane symboliczne (zob. np. [Peka, Jefmaski 2008]). Dane symboliczne pozwalaj na dokadniejszy opis zjawisk marketingowych iekonomicznych.
Niemniej jednak wymagaj one zastosowania odpowiednich technik, ktre pozwalaj na wykorzystanie caoci informacji, ktrych dostarczaj zmienne symboliczne.
Podejcie wielomodelowe byo dotychczas zpowodzeniem stosowane zzagadnieniach dyskryminacyjnych iregresyjnych (zob. np. [Gatnar 2008]). Niemniej jednak idea podejcia wielomodelowego, tj. czenia wynikw wielu modeli, moe by
zpowodzeniem zastosowana take wzagadnieniu klasyfikacji danych symbolicznych (zob. np. [Peka 2012]). Podejcie wielomodelowe wklasyfikacji to nic innego
jak czenie (czyli agregacja) N klasyfikacji (modeli) bazowych wjedn klasyfikacj
zoon ok klasach (por. [Fred, Jain 2005; Gatnar 2008]).
Podstawowym celem artykuu jest zaprezentowanie propozycji zastosowania
podejcia wielomodelowego analizy danych symbolicznych bazujcego na macierzy
wspwystpie oraz wykorzystujcego ide metody bagging (propozycji Hornika
[2005]) na potrzeby pozycjonowania produktw na przykadzie danych rzeczywistych pochodzcych zrynku samochodw osobowych.

2. Dane symboliczne
Wanalizie danych symbolicznych obiekty mog by opisywane przez nastpujce
rodzaje (typy) zmiennych (zob. np. [Bock, Diday (red.) 2000, s. 2-3; Billard, Diday
(red.) 2006, s. 7-30]):
1) ilorazowe, przedziaowe, porzdkowe, nominalne,
2) interwaowe, czyli przedziay liczbowe np. preferowana cena wz = [20;
50]; czas dojazdu do pracy wminutach [15; 45],
3) wielowariantowe np. preferowany kolor samochodu = {czarny, czerwony,
zielony},
4) wielowariantowe zwagami np. preferowana marka samochodu = {Toyota
(0,8), Skoda (0,2)} co oznacza, e 80% swojego czasu, dochodw respondent jest
gotw powici na kupno Toyoty, ajedynie 20% na zakup Skody,
5) interwaowe zwagami np. czas oczekiwania na produkt wminutach {[0; 15]
(0,5), [15; 20] (0,3), [20; 30] (0,2)} co oznacza, e 50% osb czeka do 15 minut,
30% od 15 do 20 minut, a20% od 20 do 30 minut.
Oprcz tego zmienne symboliczne mog by take zmiennymi strukturalnymi
(por. [Bock, Diday (red.) 2000, s. 2-3, 33-37; Billard, Diday (red.) 2006, s.30-34]).

Ekonometria 2(40)_CZ 1.indb 96

2013-10-08 12:45:27

Podejcie wielomodelowe analizy danych symbolicznych w ocenie pozycji produktw...

97

Zmienne tego typu pozwalaj zdefiniowa zalenoci funkcyjne lub logiczne (decydujce orealizacji zmiennej); warunki, od jakich zaley, czy dana zmienna opisuje
dany obiekt czy nie; atake systematyk realizacji zmiennej symbolicznej.
Szerzej ozmiennych symbolicznych, obiektach symbolicznych oraz ornicach
pomidzy danymi klasycznymi i symbolicznymi pisz m.in.: [Noirhomme-Fraiture, Brito 2011; Bock, Diday (red.) 2000, s. 2-8, 24-53; Billard, Diday (red.) 2006,
s. 7-66; Diday, Noirhomme-Fraiture 2008, s. 3-30; Dudek 2013, s. 35-43].
Wanalizie danych symbolicznych wyrnia si dwa podstawowe rodzaje obiektw symbolicznych (por. np. [Bock, Diday (red.) 2000, s. 5-6, 18-19, 39-53; Noirhomme-Fraiture, Brito 2011; Dudek 2013, s. 39-41]):
1) obiekty symboliczne Irzdu s to obiekty elementarne, np. konsument, produkt, przedsibiorstwo. Od obiektw wrozumieniu klasycznym odrnia je fakt, e
s one opisywane przez zmienne symboliczne;
2) obiekty symboliczne II rzdu obiekty utworzone wwyniku agregacji zbioru obiektw symbolicznych Irzdu lub agregacji obiektw wsensie klasycznym
np. grupa produktw jednego przedsibiorstwa, konsumenci preferujcy jedn
mark. Wprzykadzie empirycznym zamiast konkretnego modelu Skody Fabii (majcego jedn cen, konkretne wyposaenie standardowe, zuycie paliwa) mamy do
czynienia zobiektem zagregowanym, ktry opisuje wszystkie (wdanym momencie
dostpne na rynku) modele Skody Fabii (kady znich ma inn cen, inne opcje standardowe, zuycie paliwa itd.).

3. Podejcie wielomodelowe
wanalizie skupie danych symbolicznych
Wanalizie danych symbolicznych wpodejciu wielomodelowym wanalizie skupie
wyrnia si dwa rozwizania (por. [Peka 2012; de Carvalho iin. 2012; Fred, Jain
2005]):
1) czenie wielu macierzy odlegoci kada znich postrzegana jest jako osobny punkt widzenia (spojrzenia) na zbir danych,
2) czenie wynikw wielu klasyfikacji bazowych.
Wramach czenia wynikw wielu klasyfikacji bazowych szczeglne miejsce
zajmuj propozycje bazujce na macierzy wspwystpie oraz adaptujce metod
bagging (por. [Hornik 2005; Fred, Jain 2005; Peka 2012]).
Pierwsz propozycj adaptacji metody bagging jest propozycja Leischa [1999],
ktra czy w sobie metody iteracyjno-optymalizacyjne i hierarchiczne. Najpierw
losowane s kolejne podprby bootstrapowe, nastpnie na podstawie kadej podprby okrelane s rezultaty klasyfikacji zzastosowaniem bazowej iteracyjno-optymalizacyjnej metody klasyfikacji. Centra skupie ze wszystkich podziaw s przeksztacane wnowy zbir danych, ktry jest poddawany podziaowi zzastosowaniem
metod hierarchicznych. Uzyskany dendrogram jest city na poziomie okrelonym
przez badacza. Kada obserwacja zpierwotnego zbioru danych jest przydzielana do
grupy, ktrej zalek znajduje si najbliej.

Ekonometria 2(40)_CZ 1.indb 97

2013-10-08 12:45:27

98

Marcin Peka

Kolejn propozycj wzakresie adaptacji metody bagging jest propozycja Dudoit


iFridlyand [2003]. Polega ona na utworzeniu prb bootstrapowych (np. przez losowanie ze zwracaniem). Nastpnie dla oryginalnego (penego) zbioru danych oraz
prb bootstrapowych stosowany jest jeden (wybrany) algorytm iteracyjno-optymalizacyjny. Wdalszej kolejnoci dokonuje si permutacji etykiet klas wposzczeglnych prbach bootstrapowych tak, aby zachodzia jak najwiksza zbieno zetykietami przypisanymi obiektom zoryginalnego zbioru danych.
Ostatni zpropozycji jest propozycja Hornika [2006], ktra zakada utworzenie
B prb bootstrapowych, anastpnie zastosowanie klasycznego algorytmu klasyfikacji (np. pam czy k-rednich) dla kadej znich. Uzyskanie ostatecznego podziau
dokonywane jest przez optymalizacj funkcji (zob. [Hornik 2006, s. 9]):
B

dist (c, c )

b =1

gdzie: C
dist
cb ( c1 , , cB )

min cC ,

(1)

zbir wszystkich moliwych klasyfikacji zagregowanych,


miara odlegoci euklidesowej,
elementy klasyfikacji zagregowanej.

Macierz wspwystpie jest wynikiem czenia wielu wynikw klasyfikacji


(modeli bazowych). Wiele rnorodnych wynikw klasyfikacji mona otrzyma
m.in. przez zastosowanie jednej metody klasyfikacji, ale z rnymi parametrami,
wykorzystanie podzbiorw obiektw lub wykorzystanie rnych metod klasyfikacji.
Wspwystpowanie pary obiektw wtych samych klasach (grupach) stanowi
wskazwk istnienia zwizku midzy nimi. Elementy macierzy wspwystpie,
ktra ma wymiary n n , s zdefiniowane w nastpujcy sposb (por. np. [Fred
iJain 2006, s. 44]):

C ( i, j ) =

nij
N

(2)

gdzie: i, j numery obiektw,


nij wskazuje, ile razy obiekty i, j znajduj si w tej samej klasie we
wszystkich N klasyfikacjach bazowych,
N liczba klasyfikacji bazowych.
Ostateczny podzia uzyskuje si przez wykorzystanie macierzy wspwystpie
jako macierzy danych wdowolnej metodzie klasyfikacji (np. hierarchiczn czy iteracyjno-optymalizacyjn) (zob. np. [Fred iJain 2005]). Ostateczn liczb klas wklasyfikacji wielomodelowej mona otrzyma, wykorzystujc znane indeksy jakoci
klasyfikacji. W przypadku klasyfikacji hierarchicznych mona wykorzysta take
kryterium najduszego wizania (lifetime value) (zob. [Fred iJain 2005, s. 46-47]).

Ekonometria 2(40)_CZ 1.indb 98

2013-10-08 12:45:27

Podejcie wielomodelowe analizy danych symbolicznych w ocenie pozycji produktw...

99

4. Przykad empiryczny
Wcelu dokonania pozycjonowania produktw zzastosowaniem podejcia wielomodelowego wklasyfikacji obiektw symbolicznych bazujcego na macierzy wspwystpie iadaptacji metody bagging zaproponowanej przez Hornika [2005] zebrano dane pochodzce zrynku samochodw osobowych.
Zbir danych zawiera 28 marek samochodw osobowych (obiekty symboliczne
II rzdu1) (zob. tab. 1) opisywanych przez dziesi zmiennych symbolicznych interwaowych:
x1 cena katalogowa wz,
x2 rozstaw osi wmm,
x3 dugo nadwozia wmm,
x4 szeroko nadwozia wmm,
x5 wysoko nadwozia wmm,
x6 moc silnika wKM,
x8 przyspieszenie do 100 km/h ws,
x7 prdko maksymalna wkm/h,
x9 spalanie wcyklu miejskim wl,
x10 pojemno baganika wl.
Tabela 1. Wybrane marki imodele samochodw osobowych
Lp.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
*

Marka
Skoda
Skoda
Fiat
Fiat
Fiat
Peugeot
Citroen
Citroen
Citroen
Toyota
Toyota
Toyota
Toyota
Opel

Model
Nowa Fabia
Nowa Octavia
Panda
Grande Punto*
Bravo
308
C1
Nowy C3
C4
Aygo
Yaris
Corolla
Avensis
Corsa

Segment
A
C
A
B
C
C
A
B
C
A
B
C
D
B

Lp.
15
16
17
18
19
20
21
22
23
24
25
26
27
28

Marka
Opel
Volkswagen
Volkswagen
Volkswagen
Chevrolett
Chevrolett
Seat
Seat
Seat
Honda
Honda
Honda
Nissan
Nissan

Model
Astra
Nowe Polo
Golf
Passat Limousine
Nowy Spark
Aveo
Ibiza
Leon
Exeo
Jazz
Civic*
Accord Sedan
Micra
Tiida

Segment
C
B
C
D
A
B
B
C
D
B
C
D
A
B

Wersja 5-drzwiowa.

rdo: opracowanie wasne na podstawie danych zoficjalnych witryn producentw (listopad 2011).
Obiekty symboliczne II rzdu powstay wwyniku agregacji obiektw klasycznych. Na przykad
obiekt Skoda Fabia powsta wwyniku poczenia (agregacji) informacji owszystkich modelach Skody
Fabii, rnicych si pojemnoci silnika, cen, wyposaeniem itd.
1

Ekonometria 2(40)_CZ 1.indb 99

2013-10-08 12:45:27

100

Marcin Peka

W klasyfikacji wielomodelowej z zastosowaniem macierzy wspwystpie


przygotowano 11 modeli (klasyfikacji) bazowych zzastosowaniem rnych metod
klasyfikacji (hierarchicznych oraz iteracyjno-optymalizacyjnych). Liczba klas bya
wybierana losowo zprzedziau [2; 20]. Na podstawie wynikw klasyfikacji bazowych zbudowana zostaa macierz wspwystpie (owymiarach 28 28), ktr wykorzystano jako macierz danych wmetodzie kompletnego poczenia. Do wyboru
ostatecznej liczby klas zastosowano indeks sylwetkowy (zob. np. [Gatnar, Walesiak
(red.) 2004, s. 342-343]). Ocen stabilnoci klasyfikacji przeprowadzono zzastosowaniem skorygowanego indeksu Randa.
Najwysza warto indeksu sylwetkowego zostaa osignita dla dwch klas
(0,6199443). Skorygowany indeks Randa dla tej klasyfikacji wynis 0,7099146.
wiadczy to orelatywnie stabilnym podziale 28 obiektw na dwie klasy. Wklasie 1
znalazy si marki samochodw zsegmentw A, B oraz C. Wklasie 2 znalazy si
marki samochodw zsegmentu D oraz dwie marki zsegmentu C.
Wklasyfikacji wielomodelowej danych symbolicznych zwykorzystaniem idei
metody bagging (propozycja Hornika [2005]) zbudowano 20 prb bootstrapowych
przez losowanie ze zwracaniem. Jako algorytm bazowy wykorzystano metod
k-medoidw (pam). Najwysz warto indeksu sylwetkowego otrzymano dla 2 klas
(0,8763210). Skorygowany indeks Randa dla tej klasyfikacji wynis 0,6266216.
Wklasie 1 znalazy si marki samochodw zsegmentw A, B oraz C. Wklasie 2
znalazy si wycznie marki samochodw zsegmentu D.
Samochody z segmentu A to auta miejskie (mini) o niewielkich wymiarach
oraz kosztach eksploatacji. Przykadami samochodw ztego segmentu s m.in. Fiat
Panda, Citroen C1, Toyota Aygo. Samochody zsegmentu B to rwnie samochody
mae, ktre jednake oferuj wicej miejsca dla pasaerw oraz bagaowego ni
samochody zsegmentu A. Samochody tego segmentu s czsto oferowane wdwch
wersjach nadwozia hatchback oraz sedan. Przykadami samochodw ztego segmentu s m.in. Fiat Grande Punto (wersja 5-drzwiowa), Toyota Yaris, Skoda Fabia. Samochody z segmentu C (kompaktowe, klasa nisza-rednia) to samochody
rednich wymiarw, oferujce odpowiednie miejsce dla piciu dorosych pasaerw
wraz z bagaem oraz w miar wygodne warunki podry. Do aut tego segmentu
zalicza si m.in. Fiata Bravo, Citroena C4. Samochody segmentu D (klasa rednia,
samochody rodzinne) to samochody oferujce miejsce dla piciu dorosych osb
wraz zbagaem, pozwalajce na komfortowe podrowanie na dalekich trasach
najczciej dostpne s w wersji nadwozia sedan. Przykadowymi samochodami
ztego segmentu s m.in. Toyota Avensis czy Volkswagen Passat.

5. Podsumowanie
Wybr jednej, odpowiedniej, metody analizy skupie jest zadaniem trudnym, poniewa nieznana jest struktura iliczba klas, ktr naley odkry. Podejcie wielomodelowe zmniejsza ryzyko wyboru niewaciwej metody. Dodatkowo uniezalenienie

Ekonometria 2(40)_CZ 1.indb 100

2013-10-08 12:45:27

Podejcie wielomodelowe analizy danych symbolicznych w ocenie pozycji produktw... 101

si od wyboru metody powoduje, e mamy do czynienia ze zwikszeniem stabilnoci klasyfikacji.


Wyniki empiryczne wskazuj, e podejcie wielomodelowe analizy skupie
danych symbolicznych moe znale zastosowanie wpozycjonowaniu produktw.
W badanym zbiorze danych podejcie to pozwolio na odkrycie struktury dwch
klas. Porwnujc wyniki podejcia opartego na macierzy wspwystpie oraz wykorzystujcego metod bagging, mona powiedzie, e daj one zblione wyniki
(pod wzgldem stabilnoci klasyfikacji mierzonej skorygowanym indeksem Randa).
Niemniej jednak konieczne s dalsze badania symulacyjne pozwalajce dokadniej
oceni obydwa podejcia.
Dotychczasowe badania symulacyjne wskazuj, e podejcie wielomodelowe
analizy danych symbolicznych jest mniej wraliwe na obecno zmiennych zakcajcych czy obserwacji odstajcych wzbiorze danych (zob. np. [Peka 2012]).

Literatura
Bock H.-H., Diday E. (red.), Analysis of Symbolic Data. Explanatory Methods for Extracting Statistical
Information from Complex Data, Springer Verlag, Berlin-Heidelberg 2000.
Billard L., Diday E. (red.), Symbolic Data Analysis. Conceptual Statistics and Data Mining, John Wiley
& Sons, Chichester 2006, s.7-30.
De Carvalho F.A.T., Lechevallier, De Melo F.M., Partitioning hard clustering algorithms based on
multiple dissimilarity matrices, Pattern Recognition 2012, no. 45(1), s. 447-464.
Diday E., Noihomme-Fraiture M., Symbolic Data Analysis and the SODAS Software, Wiley, Chichester
2008.
Dudek A., Metody analizy danych symbolicznych wbadaniach ekonomicznych, Wyd. UE we Wrocawiu, Wrocaw 2013.
Dudoit S., Fridlyand J., Bagging to improve the accuracy of aclustering procedure, Bioinformatics
2003, vol. 19, no. 9, s. 1090-1099.
Fred A.L.N., Jain A.K., Combining multiple clustering using evidence accumulation, IEEE Transactions on Pattern Analysis and Machine Intelligence 2005, vol. 27, s. 835-850.
Gatnar E., Podejcie wielomodelowe w zagadnieniach dyskryminacji i regresji, Wydawnictwo Naukowe PWN, Warszawa 2008.
Gatnar E., Walesiak M. (red.), Metody statystycznej analizy wielowymiarowej wbadaniach marketingowych, Wyd. AE we Wrocawiu, Wrocaw 2004.
Hornik K., ACLUE for CLUster ensembles, Journal of Statistical Software 2005, vol. 14, s. 65-72.
Kotler P., Marketing, Rebis, Pozna 2005.
Kotler P., Armstrong G., Saunders J., Wong V., Marketing. Podrcznik europejski, PWE, Warszawa
2002.
Leisch F., Bagged clustering, Adaptive Information Systems and Modeling in Economics and Management Science, Working Papers 1999, SFB, 51.
Norihomme-Fraiture M., Brito P., Far beyond the classical data models: symbolic data analysis, Statistical Analysis and Data Mining 2011, vol. 4, Issue 2, s. 157-170.
Peka M., Ensemble approach for clustering of interval-valued symbolic data, Statistics in Transition
2012, vol. 13, no. 2, s. 335-342.
Peka M., Jefmaski B., Zmienne symboliczne w badaniach marketingowych, Marketing i Rynek
2008, nr 2, s. 22-25.

Ekonometria 2(40)_CZ 1.indb 101

2013-10-08 12:45:27

102

Marcin Peka

Stanimir A. (red.), Analiza danych marketingowych. Problemy, metody, przykady. Wyd. AE we


Wrocawiu, Wrocaw 2006.
Walesiak M., Statystyczna analiza wielowymiarowa w badaniach marketingowych, Wyd. AE we
Wrocawiu, Wrocaw 1993.
Zaborski A., Skalowanie wielowymiarowe w badaniach marketingowych, Wyd. AE we Wrocawiu,
Wrocaw 2001.

ENSEMBLE LEARNING FOR SYMBOLIC DATA


IN PRODUCT POSITIONING
Summary: Product positioning is awide range of business activities. Positioning is the process by which marketers try to create an image or identity in the minds of their target market
for its product, brand, or organization. The main aim of the paper is to preset and apply ensemble learning for symbolic data in cluster analysis in order to evaluate aproduct position.
Empirical part of the paper presents the application of co-occurrence matrix and bagging
algorithm in ensemble learning for symbolic data (car market data was used). These two approaches reached almost the same results when considering adjusted Rand index.
Keywords: ensemble clustering, cluster analysis of symbolic data, product positioning.

Ekonometria 2(40)_CZ 1.indb 102

2013-10-08 12:45:27

You might also like