You are on page 1of 28

1

Podrcznik akademicki wspfinansowany ze rodkw Unii Europejskiej w ramach Europejskiego Funduszu Spoecznego, Program Operacyjny Kapita Ludzki, nr umowy UDA-POKL 04.01.02.-00-033/09-00 Zwikszenie liczby absolwentw kierunkw o kluczowym znaczeniu dla gospodarki opartej na wiedzy.

Korekta jzykowa: ...........................

Wprowadzenie
Niniejszy skrypt jest przeznaczony gwnie dla studentw Wydziau Chemicznego Politechniki Gdaskiej, ktrzy podjli wysiek i ryzyko zaliczania przedmiotu "Podstawy chemometrii". Zachcamy do korzystania z niego rwnie wszystkich tych, ktrzy chcieliby zastosowa metody chemometryczne do opracowania uzyskanych przez siebie wynikw dowiadcze i pomiarw. Jest to w pewnym sensie kontynuacja zagadnie omawianych przez jednego z nas w opracowaniu pt. "Statystyczna analiza wynikw dowiadczalnych". Skrypt ten powsta jako odpowied na zapotrzebowanie zgaszane przez studentw poprzednich kursw tego przedmiotu. O ile od roku 2000 dysponowali oni podrcznikiem chemometrii1, o tyle odczuwali wyrany brak zestawu instrukcji do wicze laboratoryjnych. Liczymy, e niniejsze opracowanie w znacznym stopniu wypeni t luk. Naley jednak z ca moc podkreli, e niniejszy skrypt nie jest w adnym znaczeniu ani podrcznikiem chemometrii (brakuje w nim szczegowego opisu podstaw teoretycznych stosowanych metod), ani prb popularyzacji tej dziedziny wiedzy (zawiera zbyt wiele szczegw technicznych). Jest to zbir instrukcji do okrelonego zestawu wicze laboratoryjnych z chemometrii, realizowanych na naszym Wydziale. W trakcie pisania niniejszego skryptu kierowao nami przekonanie, e majc do niego dostp Student bdzie przychodzi na zajcia przygotowany. Dlatego na pocztku kadego spotkania Prowadzcy wiczenie bdzie podawa wycznie informacje niezbdne do rozpoczcia zaj. Oczywicie bdzie rwnie odpowiada na indywidualne pytania i wyjania wtpliwoci. *** Podczas wicze bdziemy posugiwali si programem Microsoft Excel2 powszechnie znanym i popularnym arkuszem kalkulacyjnym. Jedynie w kilku przypadkach niezbdne bdzie skorzystanie z bardziej specjalistycznego oprogramowania, ktre udostpni Prowadzcy zajcia. Oczywicie, profesjonalne zastosowanie metod chemometrycznych wymaga korzystania z odpowiednich, komercyjnych pakietw oprogramowania - wiadomie jednak zrezygnowalimy z ich uywania podczas zaj laboratoryjnych. Zastosowanie oprogramowania tego typu opiera si bowiem na podejciu "wybierz z menu"; tj. uytkownik wybiera, mniej lub bardziej wiadomie, jedn z moliwoci proponowanych przez program i otrzymuje jaki wynik. Nie da si ukry, i jest to doskonaa zabawa - chcielibymy jednak, aby podczas wykonywania wicze Student zrozumia, na czym polega dana metoda chemometryczna i jak powstaje wynik. Aby to osign, nie ma lepszego sposobu ni obliczenia "na piechot", wspomagane co najwyej niewielk pomoc typowego arkusza kalkulacyjnego.

Jego nowa, poszerzona wersja ukazaa si w roku 2009 nakadem Wydawnictwa Malamut pod tytuem: "Chemometria praktyczna zinterpretuj wyniki swoich pomiarw". 2 Warto zatem zapozna si z ksik "Excel dla chemikw... I nie tylko", autorstwa W. Ufnalskiego i K. Mdrego (WNT, Warszawa 2000).
3

Zestaw wicze zosta zaplanowany w taki sposb, aby nauczy Studenta systematycznoci w pracy z danymi - w wikszoci wicze bd bowiem wykorzystywane wyniki uzyskane w jednym z wicze wczeniejszych. W zwizku z powyszym, kade wiczenie powinno zosta starannie i poprawnie wykonane - aby to uatwi, Prowadzcy bdzie oczekiwa od Studenta przygotowania z kadego wiczenia odpowiedniego sprawozdania. Sprawozdania te bd na bieco sprawdzane, co umoliwi popraw pomyek i uniknicie propagacji bdw. Sugerujemy rwnie, aby gromadzi wszystkie dane i wyniki porednie w jednym pliku programu Excel, przeznaczajc na kade wiczenie oddzielny arkusz. Uatwia to wykorzystywanie wynikw jednego wiczenia jako danych do kolejnego. Uywajc odpowiednich odwoa pomidzy arkuszami mona ponadto stworzy ukad, w ktrym poprawa bdu w jednym miejscu zostanie automatycznie uwzgldniona we wszystkich kolejnych arkuszach. Jest to jednak bro obosieczna: kady niewykryty bd rwnie bdzie si przenosi do kolejnych arkuszy. Dlatego, w ukadzie wicze przewidziane s odpowiednie "punkty kontrolne" - stwarza to moliwo porwnania wynikw uzyskanych rnymi metodami. Gromadzenie wszystkich danych i wynikw porednich w jednym pliku jest bardzo wygodne, wymaga jednak zastosowania dodatkowych rodkw bezpieczestwa. Oto najwaniejsze z nich: Zawsze naley posiada co najmniej dwie kopie swojego pliku bazowego. Zalecamy, aby jedn z nich przechowywa na swoim komputerze, za drug na mobilnym noniku danych (pendrive). Wykonywanie wiczenia warto rozpocz od utworzenia nowej kopii pliku bazowego pliku tymczasowego. Biece obliczenia najlepiej wykonywa tylko w pliku tymczasowym. Po zakoczeniu wiczenia warto najpierw utworzy kopi pliku tymczasowego, a dopiero potem ewentualnie usun poprzedni wersj pliku bazowego. Po powrocie do domu koniecznie naley utworzy kopi nowego pliku bazowego na swoim komputerze. Postpowanie takie moe wydawa si przesadnie ostrone (lub oczywiste), ale chroni przed cakowit utrat danych i wynikw. Nawet w przypadku awarii komputera w laboratorium lub utraty nonika danych, poprzednia wersja pliku bazowego bdzie do dyspozycji na komputerze Studenta, co umoliwi szybkie odtworzenie uzyskanych wynikw. *** Drogi Czytelniku - trzymasz w rku ksik kucharsk, ktra umoliwi Ci przygotowanie wspaniaych potraw dla ducha i umysu; zoonych z liczb i subtelnych zalenoci pomidzy nimi - nie wyjani ona jednak w peni "metafizyki" ich powstawania. Lektura skryptu powinna obudzi (lub pogbi) w Tobie ciekawo charakterystyczn dla inyniera: "Patrzcie Pastwo, TO dziaa. Ja si pytam: w jaki sposb?". Po odpowied na to pytanie zapraszamy na wykad.

Oddajc w Twoje rce niniejsze opracowanie mamy nadziej, e korzystaniu z niego bdzie towarzyszya satysfakcja z poznania nowego, bardzo silnego narzdzia do wydobywania uytecznych informacji ze zbioru danych liczbowych. Gdybymy bowiem podeszli do sprawy filozoficznie i zacytowali Ksig Mdroci: "() ale Ty wszystko [Panie] urzdzi wedug miary i liczby, i wagi!"3, moglibymy wysnu wniosek, i metody chemometryczne mog okaza si przydatne nie tylko w trakcie studiowania danych chemicznych. Wniosek, ktry jako poka kolejne wiczenia wcale nie jest mocno przesadzony. Na koniec mamy jeszcze gorc prob: jeeli zauwaysz w instrukcjach jakiekolwiek bdy (edytorskie lub merytoryczne), zgo to koniecznie do Prowadzcego wiczenie lub bezporednio do Autorw. Errare humanum est.4

3 4

Ks. Mdroci 11:20 (Biblia Tysiclecia). "Bdzi jest rzecz ludzk" - Seneka Starszy.
5

wiczenie nr 1:

ZEBRANIE DANYCH
W cigu wielu lat zaj laboratoryjnych z chemometrii kolejne roczniki Studentw przygotoway wiele spektakularnych zestaww danych, poczwszy od danych czysto chemicznych, a skoczywszy na parametrach i osigach strongmanw oraz szczegowych wymiarach staroytnych amfiteatrw greckich. Nie chcemy w tym miejscu wylicza wszystkich, ciekawych problemw postawionych przez modych adeptw chemometrii, aby nie prezentowa utartych szlakw i nie odbiera nastpnym rocznikom szansy wykazania si pomysowoci. Chcemy jedynie powiedzie, e charakter danych, ktre naley przygotowa, moe by zasadniczo dowolny. Istniej jednak pewne wymagania, ktre zebrane dane powinny spenia, aby zaproponowany problem by moliwy do rozwizania. Wymagania te zostay zaprezentowane poniej.

I. WYMAGANIA DOTYCZCE DANYCH. Aby kade kolejne wiczenie laboratoryjne dostarczao satysfakcji, prowadzio przy tym do rozwizania postawionego problemu (o ktrym za chwil), a jednoczenie uatwiao opanowanie podstaw chemometrii, zebrane dane powinny spenia nastpujce warunki: 1) 2) Dane powinny skada si z 20-30 obiektw o dowolnym charakterze, opisywanych przez 6-10 cech. Cechy, opisujce obiekty, powinny by moliwe do przedstawienia, w sposb jednoznaczny, w postaci liczb. W zwizku z powyszym, cechy takie jak: kolor farby, smak owocu, przystojno aktora i funkcjonalno telefonu bd eliminowane na starcie przez Prowadzcego. Moliwe jest, co prawda, uwzgldnienie zmiennych o charakterze zero-jedynkowym (0 = telefon nie posiada Bluetooth, 1 = telefon posiada Bluetooth), nie polecamy ich jednak z uwagi na potencjalnie niekorzystny wpyw na wyniki pniejszych analiz. Wartoci wszystkich cech, opisujcych obiekty, musz by sprecyzowane dla kadego obiektu. Oznacza to, i niedopuszczalna jest nieznajomo nawet jednej wartoci cechy dla pojedynczego obiektu.

3)

Jak wspomnielimy wyej, zebranym danym powinien towarzyszy przeznaczony do rozwizania problem, ktry przedstawimy w sekcji drugiej.

II. SFORMUOWANIE PROBLEMU. Problem, ktrego prba rozwizania zostanie podjta w trakcie zaj laboratoryjnych, a ktry dotyczy przygotowanych danych, moe zosta wybrany spord nastpujcych propozycji:

1. 2. 3.

Modelowanie zalenoci wybranej cechy od pozostaych zmiennych (nazywanych wwczas zmiennymi objaniajcymi). Analiza podobiestwa zmiennych i obiektw (poznanie wewntrznej struktury zbioru danych). Analiza skupie, pozwalajca na obiektywny podzia niejednorodnego zbioru obiektw na jednorodne podgrupy.

Poszczeglne propozycje oferuj przedstawione poniej moliwoci. Ad. 1. Rozwizanie problemu tego rodzaju sprowadza si do odpowiedzi na pytanie, czy istnieje matematyczna zaleno jednej, wybranej cechy (opisujcej obiekty) od pozostaych cech, oraz czy moliwe jest wyraenie tej zalenoci w postaci modelu liniowego. Na przykad: czy istnieje zaleno wagi trzydziestu ssiadw z bloku od iloci zjadanych w cigu roku warzyw, owocw, czekolad, kebabw, lodw oraz wypitej coli i kawy, czy te nie ma takiej zalenoci? (Jeeli zaleno zostanie wykryta, bdzie rwnie moliwe ustalenie, ktre smakoyki i w jaki sposb maj wpyw na wag ssiadw.) Ad. 2. Rozwizanie problemu tego rodzaju rozpoczyna si od ustalenia, czy zaproponowany zbir danych jest jednorodny. Ustalenie takie sprowadza si do odpowiedzi na pytania: i) czy poszczeglne zmienne pochodz z tej samej populacji generalnej?; oraz: ii) czy wszystkie obiekty pochodz z tej samej populacji generalnej?. Uzyskanie odpowiedzi pozytywnej na obydwa pytania koczy analiz chemometryczn, w zwizku z czym istnieje niebezpieczestwo, i po kilku wiczeniach Student zostanie bezrobotny do koca semestru. Duo ciekawsza sytuacja zaistnieje wwczas, gdy chocia na jedno z powyszych pyta odpowied bdzie negatywna. Naley wtedy wykaza, jaki jest charakter obserwowanej niejednorodnoci zbioru, czyli okreli wewntrzn struktur danych. Ad. 3. Poczynione zostaje zaoenie (lub istnieje uzasadnione przypuszczenie), e zbir obiektw nie jest jednorodny. W takiej sytuacji, celem Studenta jest moliwie obiektywne (ze wzgldu na wartoci wybranych zmiennych) podzielenie go na wewntrznie jednorodne podzbiory. Do tego typu analizy mona podej dwojako: i) z uprzedni znajomoci liczby i rodzaju podzbiorw oraz z wiedz dotyczc przynalenoci poszczeglnych obiektw do tych podzbiorw (wtedy mona uzyska (lub nie) potwierdzenie, ze wybrane zmienne zawieraj informacj niezbdn do podziau obiektw na takie wanie podzbiory); lub: ii) bez znajomoci struktury wewntrznej zbioru obiektw. Wykazanie istnienia wewntrznie jednorodnych podzbiorw bdzie wtedy "wartoci dodan" analizy i nagrod za dociekliwo naukow. Na przykad: zmierzono: dugo cakowit; dugo ogona; dugo tylnej, prawej apy; redni dugo wsw; prdko maksymaln w biegu do miski na odcinku 50 metrw po dniu postu; rozstaw oczu oraz zwaono 11 kotw i 12 kotek w wieku 2 lat5. Postawiono nastpujcy problem: czy te zmienne pozwalaj na odrnienie samcw i samic w grupie

Pomiary takie nie zostay przeprowadzone (przynajmniej przez Autorw).


7

dwuletnich kotw, czy te naley poszuka innych cech ilociowych, ktre s zalene od pci tych zwierzt? W trakcie wiczenia nr 2 Prowadzcy indywidualnie przedyskutuje ze Studentem zaproponowany przez Niego problem i sprbuje okreli, czy moliwe jest jego rozwizanie na podstawie zgromadzonych danych. Dopiero po tej rozmowie naley podj ostateczn decyzj w kwestii wyboru problemu.

III. SPRAWOZDANIE z tego wiczenia sprowadza si do zebrania danych zgodnych z podanymi wymaganiami oraz zaproponowania problemu do rozwizania.

wiczenie nr 2:

PRZYGOTOWANIE DANYCH DO ANALIZY


W trakcie pierwszych zaj laboratoryjnych Student zosta poproszony o zebranie danych, na ktrych, w trakcie caego semestru, bdzie dokonywa najrozmaitszych operacji matematycznych w celu wyekstrahowania informacji niewidocznych goym (czytaj: w chemometryczne narzdzia nieuzbrojonym) okiem. Charakter tych danych mg by zasadniczo dowolny, z zastrzeeniem koniecznoci wyboru takich cech (dalej nazywanych zmiennymi), ktre da si jednoznacznie przedstawi w postaci liczb. Celem niniejszego wiczenia jest przygotowanie takiej formy zebranych danych, ktra sprawi, e operacje matematyczne i statystyczne, ktre bd na nich przeprowadzane w trakcie kolejnych wicze, dostarczay moliwie duo informacji. Dla przejrzystoci dalszych wyjanie, wszystkie omawiane w kolejnych instrukcjach operacje (numeryczne, statystyczne i graficzne) bd przeprowadzane - w charakterze przykadu - na konkretnym, przecitnym i nietendencyjnie dobranym zestawie danych. Zestaw ten zostanie zaprezentowany poniej. Jego prezentacja bdzie jednoczenie stanowia instrukcj, jak poprawnie przygotowa tabel danych do dalszej analizy.

I. PREZENTACJA PRZYKADOWYCH DANYCH.


W sklepie internetowym, ktry w rwnie tajemniczych okolicznociach rozpocz jak i zakoczy swoj dziaalno, oferowano swego czasu repliki broni biaej. Dla celw niniejszego opracowania, wybralimy z nich dwadziecia obiektw nalecych do klasy mieczy, ktrym nadalimy, moliwie adekwatnie do rozmiarw, wyjtkowo legendarne nazwy zaczerpnite z historii i literatury. Kady z mieczy zosta opisany przez siedem cech: dugo cakowita, DC, [cm]; dugo gowni, DG, [cm]; dugo rkojeci, DR, [cm]; masa, M, [g]; odlego rodka masy od rkojeci, SM, [cm]; typ miecza6, T; oraz cena repliki, CR, [PLN].

Cecha przedstawiona jako typ miecza nie jest typem zmiennej rekomendowanym do uwzgldniania w trakcie proponowanych analiz, poniewa przyjmuje tylko trzy rne wartoci. Takie zmienne czsto odgrywaj du rol w analizie podobiestwa obiektw oraz w analizie skupie. Jeeli jednak zostanie podjta decyzja o uwzgldnieniu zmiennych tego rodzaju w analizowanych danych, warto pamita, i nie powinno by ich wicej, ni jedna.
Zgodziwszy si zatem na uwzgldnienie typu miecza jako zmiennej, prezentujemy poniej tabel danych wejciowych zestawu MIECZE:

Mamy tu na myli typ: jednorczny, ptorarczny oraz dwurczny. Cecha ta powinna by silnie skorelowana zarwno z rozmiarami broni, jak i jej mas. Czy tak bdzie rzeczywicie, poka dalsze analizy.
9

Obiekt\Zmienna AER AND AZU BAL DUR EXC GLA GOL GRA GUR GWY HER HUR JOY LOD ORK SIH UMB URI ZAD

DC 119 152 88 95 102 120 120 100 106 104 103 85 90 100 92 130 123 180 160 68

DG 92 100 71 75 81 90 95 69 83 81 81 60 65 80 80 97 95 125 120 54

DR 15 32 14 13 14 18 12 26 15 15 15 14 16 14 10 18 14 40 25 13

M 1900 2500 1200 1400 1400 1800 1900 1100 1600 1800 1450 1500 1600 1500 1800 1800 2200 3200 2700 800

SM 5 12 7 7 8 10 10 6 10 10 5 8 7 8 10 10 8 15 12 5

T 1,5 2 1 1 1 1,5 1,5 1 1 1,5 1 1 1 1 1 1,5 1,5 2 2 1

CR 500 260 380 320 342 450 419 600 350 406 400 340 380 320 375 450 390 600 650 375

Naley teraz zwrci uwag na kilka wanych elementw skadowych tabeli danych. Powinna ona zawiera: 1. moliwie krtkie nazwy obiektw (optymalnie: 3-4 literowe) kojarzce si z rzeczywistymi nazwami obiektw (np. skrt EXC reprezentuje miecz nazwany Excalibur); 2. moliwie krtkie nazwy zmiennych, rwnie kojarzce si z rzeczywistymi nazwami cech (np. skrt DG dla zmiennej dugo gowni); 3. wartoci liczbowe odpowiednich cech dla WSZYSTKICH obiektw. Niedopuszczalne s braki w tabeli! Ponadto, w bezporedniej bliskoci tabeli powinny znajdowa si nastpujce informacje: objanienia krtkich nazw obiektw i zmiennych; odsyacz do rda danych; imi i nazwisko autora; data utworzenia i ostatniej modyfikacji tabeli; sformuowany problem, dotyczcy przygotowanych danych.

II. SPRECYZOWANIE PROBLEMU Prowadzcym.

odbdzie si w trakcie dyskusji

III. SPRAWOZDANIE stanowi prawidowo przygotowana tabela danych w arkuszu kalkulacyjnym Excel, gotowa do dalszych analiz.

10

wiczenie nr 3:

KONTROLA POJEDYNCZYCH ZMIENNYCH


Celem wiczenia jest kontrola przygotowanych danych liczbowych za pomoc zestawu testw statystycznych. Kontrola ta pomoe w uzyskaniu odpowiedzi na nastpujce pytania: jaki jest charakter rozkadu poszczeglnych zmiennych?; czy istniej przesanki o koniecznoci dokonania transformacji zmiennych?; czy wrd zestawu obiektw znajduj si punkty odbiegajce?.

I. WYZNACZANIE ROZKADU.

WARTOCI

LICZBOWYCH

CHARAKTERYSTYK

Kontrol zestawu danych rozpoczyna si od obliczenia wartoci liczbowych kilku charakterystyk rozkadu zmiennych. Najwygodniej jest uczyni to w formie tabeli, znajdujcej si bezporednio pod tabel danych wejciowych. I tak, pod kad z kolumn z wartociami zmiennych powinny znajdowa si wiersze zawierajce: warto najmniejsz w obrbie zmiennej (MIN) - funkcja w Excelu: =MIN(zakres_komrek_z_wartociami_zmiennej); np. =MIN(A05:A30) warto najwiksz w obrbie zmiennej (MAX) - funkcja w Excelu: =MAX(zakres_komrek_z_wartociami_zmiennej) stosunek MIN/MAX rozstp rozkadu zmiennej (r = MAX-MIN) rodek rozkadu zmiennej (d = (MAX+MIN)/2) warto rednia zmiennej (m) - funkcja w Excelu: =REDNIA(zakres_komrek_z_wartociami_zmiennej) odchylenie standardowe zmiennej (s) - funkcja w Excelu: =ODCH.STANDARDOWE.POPUL(zakres_komrek_z_wartociami_zmiennej) indeks skonoci rozkadu zmiennej (q) - funkcja w Excelu: =SKONO(zakres_komrek_z_wartociami_zmiennej)

UWAGA! Jeeli jedna ze zmiennych ma charakter zero-jedynkowy, bd przyjmuje tylko dwie-trzy rne wartoci - nie trzeba wyznacza dla niej powyszych charakterystyk rozkadu ani nie naley jej transformowa. Ma ona, z definicji, rozkad odbiegajcy od rozkadu normalnego i nic na to nie mona poradzi. Otrzymane dla kadej zmiennej charakterystyki naley teraz podda nastpujcym testom: 1) czy warto MIN/MAX > 0,1 ? 2) czy |d-m| < s ? 3) czy warto r/s naley do przedziau <3;5> ? 4) czy |q| < 2 ?
11

Jeeli dla danej zmiennej odpowiedzi na cztery powysze pytania brzmi TAK, zmienna ma prawdopodobnie rozkad zbliony do normalnego i - przynajmniej do czasu nastpnego wiczenia - przestaje by "interesujca". Jeeli za, dla danej zmiennej, odpowied na przynajmniej jedno powysze pytanie brzmi NIE, zmienna staje si "podejrzana". Przyczyny takiego stanu rzeczy mog by dwie: i) wrd wartoci zmiennej wystpuje punkt lub punkty odbiegajce; ii) rozkad zmiennej jest silnie asymetryczny lub wielomodalny. Aby ustali, dlaczego rozkad danej zmiennej odbiega od rozkadu normalnego, naley wykona histogram wartoci tej zmiennej7.

II. CHARAKTER ROZKADU POSZCZEGLNYCH ZMIENNYCH. Po wykonaniu histogramw rozkadu wszystkich "podejrzanych" zmiennych, naley przyjrze im si i odpowiedzie na nastpujce pytania (dla kadej ze zmiennych): 1) czy rozkad zmiennej jest wielomodalny?; 2) jeeli rozkad zmiennej jest jednomodalny - czy jest symetryczny lub zbliony do symetrycznego?; 3) jeeli rozkad zmiennej jest jednomodalny - czy jest silnie lewo- lub prawoskony?; 4) czy na histogramie widoczny jest punkt odbiegajcy? Jeeli odpowied na pytanie 1) brzmi TAK - naley zostawi zmienn w spokoju. Zmienna taka moe odegra du rol w analizie podobiestwa obiektw lub w analizie skupie. Jeeli odpowied na pytanie 2) brzmi TAK - naley zostawi zmienn w spokoju. Pomimo, i jej rozkad nie jest normalny, mon j z powodzeniem stosowa praktycznie we wszystkich metodach chemometrycznych. Jeeli odpowied na pytanie 4) brzmi TAK - naley przej do sekcji III. Jeeli odpowied na pytanie 3) brzmi TAK (rozkad jest silnie lewo- lub prawoskony) - naley dokona transformacji zmiennej. Transformacja zmiennej polega na przeksztaceniu wszystkich wartoci danej zmiennej za pomoc odpowiedniej funkcji matematycznej. Po dokonaniu transformacji naley ponownie wykona histogram z otrzymanych wartoci danej zmiennej i oceni, czy jej rozkad sta si przynajmniej symetryczny. Ponisza tabela zawiera przykady funkcji transformujcych, znajdujcych zastosowanie w najczciej wystpujcych sytuacjach:

"Rczne" wykonywanie histogramw rozkadu zmiennych nie jest zajciem szybkim, atwym, ani przyjemnym. Aby uatwi Studentowi ycie, zapraszamy do lektury Dodatku A, znajdujcego si na kocu niniejszej instrukcji.
12

Charakter zmiennej stosunek MIN/MAX<0,1; jest prawoskona zmienna jest silnie lewoskona zmienna ma posta % i x < 15% zmienna ma posta % i x > 85% inne

Przykady funkcji transformujcych silnie x* = log10(x), x* = log10(x+a); x+a > 0 x* x* x* x* = = = = log10(a-x); a > xMAX log10(x) log10(a-x), a = 100 log10(x/(a-x)), x* = 1/x, inne

Funkcje transformujce mona oczywicie dobiera dosy swobodnie. Warto liczbow parametru a naley dobiera metod prb i bdw. Na przykad: jeeli zmienna jest silnie lewoskona, lecz dla funkcji transformujcej x*= log(a-x) zostanie dobrana zbyt dua warto a, zmienna po transformacji stanie si prawoskona - naley zatem sprbowa wartoci mniejszej. Naley rwnie pamita, aby wartoci zmiennej transformowanej, otrzymane po zastosowaniu odpowiedniej funkcji, przedstawi w naleytym formacie. Na przykad: niewaciwe jest podawanie wartoci liczbowych transformowanej zmiennej z dokadnoci do szeciu miejsc po przecinku. Zwykle stosuje si nastpujcy format komrek: liczbowy, z trzema miejscami po przecinku (oczywicie Excel zapamituje te wartoci z pen dokadnoci). Nieuzasadnione podanie zbyt szczegowych wartoci bdzie traktowane jako bd w sztuce. Po dokonaniu transformacji zmiennych naley przygotowa now tabel danych, w ktrej wartoci zmiennych transformowanych zastpi wartoci "oryginalne". Naley rwnie zaznaczy, ktre zmienne zostay poddane transformacji (najczciej czyni si to poprzez dodanie * do etykiet zmiennych), a take odnotowa - blisko tabeli - postaci funkcji transformujcych.

Przykad:
Wemy na warsztat dwie zmienne z omawianego zbioru danych MIECZE, np. DC oraz DR. Wartoci liczbowe charakterystyk rozkadu dla tych zmiennych prezentuj si nastpujco:
Obiekt\Zmienna AER AND AZU BAL DUR EXC GLA GOL GRA GUR GWY HER HUR JOY LOD ORK SIH UMB URI DC 119 152 88 95 102 120 120 100 106 104 103 85 90 100 92 130 123 180 160 DR 15 32 14 13 14 18 12 26 15 15 15 14 16 14 10 18 14 40 25 13

ZAD MIN MAX MIN/MAX r d m s q r/s |d-m| |q|

68 68 180 0,38 112 124 111,85 26,58 1,03 4,21 12,15 1,03

13 10 40 0,25 30 25 17,65 7,28 1,96 4,12 7,35 1,96

Przyjrzyjmy si najpierw zmiennej DC. Stosunek MIN/MAX wynosi w jej przypadku 0,38, jest wic zdecydowanie wikszy ni warto krytyczna, rwna 0,1. Rwnie odlego redniej arytmetycznej od rodka przedziau zmiennoci jest mniejsza ni odchylenie standardowe. Jedynie wzgldnie duy indeks skonoci, wynoszcy 1,03, moe budzi pewne wtpliwoci. Poniewa w wiecie chemometrii panuje pogld: "jeeli masz wtpliwoci - zrb wykres", wykonalimy histogram rozkadu zmiennej DC. Wyglda on w sposb nastpujcy:

Histogram zmiennej ujawnia wyran skono rozkadu. Postanowilimy sprawdzi (chocia nie ma takiego wymogu), czy nie mona poprawi symetrii rozkadu tej zmiennej na drodze prostej transformacji. Poniewa mamy do czynienia ze zmienn prawoskon, zastosowalimy funkcj transformujc x* = log10(x+a). Po kilku prbach okazao si, e optymalna warto parametru a = 15, i tym samym funkcja transformujca ma posta: DC* = log10(DC+15). Histogram wykonany z wartoci zmiennej DC* zacz przypomina rozkad normalny:

14

Per analogiam i z podobnych przyczyn transformowane zmienne DG oraz CR przy pomocy nastpujcych funkcji: DG* = log10(DG) CR* = log10(CR200)

zostay

Dokonajmy teraz kontroli zmiennej DR. Nasz uwag natychmiast przykuwaj wartoci dwch charakterystyk: i) odlego redniej arytmetycznej od rodka przedziau zmiennoci (|d-m| = 7,35) jest porwnywalna z wartoci odchylenia standardowego (s = 7,28); ii) indeks skonoci q ma do du, w zasadzie krytyczn, warto i wynosi 1,96. Nie ma wtpliwoci, e zmienna ta ma rozkad zdecydowanie odbiegajcy od rozkadu normalnego. Wykonanie histogramu w peni potwierdza nasze przypuszczenia:

15

Z pozoru mamy do czynienia z rozkadem silnie prawoskonym, podobnym do rozkadu zmiennych DC, DG oraz CR. Prosta transformacja DR* = log10(DR) ujawnia jednak interesujc wasno zmiennej DR:

Po transformacji rozkad zmiennej sta si dwumodalny. W zwizku z powyszym, porzucamy projekt transformacji zmiennej DR.

Tabela danych dla zestawu MIECZE, po dokonaniu omwionych powyej transformacji, prezentuje si nastpujco:
Obiekt\Zmienna AER AND AZU BAL DUR EXC GLA GOL GRA GUR GWY HER HUR JOY LOD ORK SIH UMB URI ZAD DC* 2,127 2,223 2,013 2,041 2,068 2,130 2,130 2,061 2,083 2,076 2,072 2,000 2,021 2,061 2,029 2,161 2,140 2,290 2,243 1,919 DG* 1,964 2,000 1,851 1,875 1,908 1,954 1,978 1,839 1,919 1,908 1,908 1,778 1,813 1,903 1,903 1,987 1,978 2,097 2,079 1,732 DR 15 32 14 13 14 18 12 26 15 15 15 14 16 14 10 18 14 40 25 13 M 1900 2500 1200 1400 1400 1800 1900 1100 1600 1800 1450 1500 1600 1500 1800 1800 2200 3200 2700 800 SM 5 12 7 7 8 10 10 6 10 10 5 8 7 8 10 10 8 15 12 5 T 1,5 2 1 1 1 1,5 1,5 1 1 1,5 1 1 1 1 1 1,5 1,5 2 2 1 CR* 2,477 1,778 2,255 2,079 2,152 2,398 2,340 2,602 2,176 2,314 2,301 2,146 2,255 2,079 2,243 2,398 2,279 2,602 2,653 2,243

16

III. PUNKTY ODBIEGAJCE. Po wykonaniu histogramu dla "podejrzanej" zmiennej moe si okaza, i z lewej bd prawej strony rozkadu znajduje si punkt odbiegajcy. Punkt odbiegajcy moe si pojawi, gdy: 1. podczas wykonywania pomiarw lub przygotowywania danych doszo do pomyki. Mamy wtedy do czynienia z tzw. "bdem grubym" i naley go, w miar moliwoci, poprawi; jeeli jednak jest to niemoliwe - obiekt, dla ktrego wystpi, naley permanentnie usun z tabeli danych. 2. obiekt, opisywany przez warto odbiegajc, pochodzi z innej ni pozostae obiekty populacji generalnej (np. jeden chomik w populacji myszy). Warto odbiegajca nie jest, w takim przypadku, wynikiem bdu; tym niemniej obiekt, dla ktrego wystpuje, naley usun z tabeli danych. 3. silnie asymetryczny charakter rozkadu w poczeniu z ma liczebnoci zestawu danych wywouje zudzenie punktu odbiegajcego. W takim przypadku, po odpowiedniej transformacji zmiennej warto odbiegajca powinna utraci swj wyjtkowy status. Naley teraz podj decyzj, czy obiekt, ktry jest charakteryzowany przez odbiegajc warto danej zmiennej, powinien pozosta w tabeli danych, czy te naley go usun. Jeeli nie wiadomo, z ktr z opisanych powyej sytuacji mamy do czynienia, decyzj o ewentualnym usuniciu obiektu naley podj w oparciu o podany poniej algorytm postpowania: 1) Naley tymczasowo usun warto odbiegajc zmiennej i wykona nowy histogram tej zmiennej. 2) Jeeli rozkad zmiennej (po usuniciu wartoci odbiegajcej) sta si zbliony do normalnego bd przynajmniej symetryczny, metod przedziau ufnoci (o niej za chwil) naley oceni, czy obiekt opisywany przez t warto usun z tabeli, czy te nie. 3) Jeeli po usuniciu wartoci odbiegajcej rozkad zmiennej nie uleg "poprawie", naley przywrci usunit warto i dokona transformacji zmiennej. 4) Jeeli po dokonaniu transformacji zmiennej jej rozkad sta si symetryczny, nie naley usuwa "podejrzanego" obiektu z tabeli. 5) Jeeli po dokonaniu transformacji zmiennej na histogramie w dalszym cigu widoczny jest punkt odbiegajcy, naley tymczasowo usun warto odbiegajc transformowanej zmiennej i wykona nowy histogram transformowanej zmiennej. 6) Jeeli rozkad transformowanej zmiennej (po usuniciu wartoci odbiegajcej) sta si symetryczny, metod przedziau ufnoci naley oceni, czy usun "podejrzany" obiekt, czy te nie.

17

IV. METODA PRZEDZIAU UFNOCI. Aby uatwi Czytelnikowi poprawne zastosowanie metody przedziau ufnoci, jej zaoenia zaprezentujemy odwoujc si do konkretnej liczby obiektw. Zamy, i nasza "podejrzana" zmienna przyjmuje 25 wartoci, przy czym jedna z nich jawi si na histogramie jako warto odbiegajca. Tymczasowo usuwamy j z zestawu danych pozostan 24 wartoci. Dla tych 24 wartoci obliczamy warto redni (m) i odchylenie standardowe redniej (s), oraz odczytujemy z tabeli8 warto testu t Studenta dla poziomu istotnoci 0,05 oraz n-1 stopni swobody (w tym przypadku n = 24 - jest to liczba wartoci po odrzuceniu "podejrzanego" obiektu; zatem n-1 = 23). Nastpnie, obliczamy krace przedziau ufnoci: xmin = m-ts; xmax = m+ts. Jeeli "podejrzana" warto mieci si w przedziale wyznaczonym przez te granice - nie naley usuwa z tabeli obiektu przez ni opisywanego; jeeli za nie mieci si obiekt ten mona usun z zestawu danych.

Przykad: Poniewa kontrola zmiennych przeprowadzona dla zestawu MIECZE nie wykazaa istnienia punktw odbiegajcych, w celu zilustrowania tego zjawiska posuymy si wartociami wybranej zmiennej pochodzcymi z innego zbioru danych.
Zestaw 20 telefonw komrkowych zosta opisany 6 zmiennymi, w tym zmienn odpowiadajc pojemnoci akumulatora (AK), wyraon w [mAh]. Wartoci tej zmiennej, wraz z obliczonymi wartociami liczbowymi charakterystyk rozkadu, prezentuj si nastpujco:
Model: N6810 N6260 N7710 N7380 N2652 N7600 N7260 N6680 N6610 N6270 N7280 N5100 N3100 N2600 AK 1000 760 1300 700 760 850 760 900 720 900 700 720 850 820

Warto krytyczn testu t Studenta mona rwnie uzyska w Excelu, korzystajc z funkcji =ROZKAD.T.ODW(;stopnie_swobody); gdzie: =0,05 dla testu dwustronnego (np. dla przedziau ufnoci) lub 0,10 dla testu jednostronnego (np. w wersji statystyki t).
18

NN90 N2610 N3120 N6103 N6630 N5070 MIN MAX MIN/MAX r d m s q r/s |d-m| |q|

760 970 820 820 900 820 700 1300 0,54 600 1000 841,5 137,7 2,05 4,35 158,5 2,05

Otrzymujemy negatywn odpowied na dwa z czterech postawionych w sekcji I pyta. Warto bezwzgldna indeksu skonoci rozkadu |q| jest wiksza ni 2; a ponadto |d-m| > s. Jestemy zatem zmuszeni do wykonania histogramu rozkadu badanej zmiennej:

Histogram rozkadu zmiennej AK wyranie sugeruje istnienie punktu odbiegajcego w postaci modelu N7710. Zgodnie z algorytmem postpowania, podanym w sekcji III, tymczasowo usuwamy obiekt N7710 z tabeli danych i wykonujemy nowy histogram zmiennej AK:

19

Histogram zmiennej AK zacz wyglda na tyle przyzwoicie, i dalsze modyfikacje tej zmiennej nie s konieczne. Pozostaje zatem oceni, np. metod przedziau ufnoci, czy wolno nam z czystym sumieniem usun obiekt N7710 z tabeli danych. Po tymczasowym usuniciu modelu N7710, pozostao n = 19 obiektw. Za pomoc Excela obliczamy warto testu t Studenta dla omawianego przypadku (poziom istotnoci 0,05 i n-1 = 18 stopni swobody): =ROZKAD.T.ODW(0,05;18) otrzymujc warto t = 2,101. Nastpnie, obliczamy now warto redni zmiennej AK (m = 817) i jej nowe odchylenie standardowe (s = 88). Na koniec, okrelamy granice przedziau ufnoci:

xmin = m-ts = 633 xmax = m+ts = 1002


Warto zmiennej AK dla obiektu N7710 wynosi 1300. Warto ta nie mieci si w obliczonym przedziale ufnoci, dlatego obiekt ten wolno nam, z czystym sumieniem, permanentnie usun z tabeli danych.

V. SPRAWOZDANIE. W sprawozdaniu Student powinien wykona wszystkie, wyej opisane, a konieczne dla Jego danych operacje oraz doczy komentarz dotyczcy ewentualnych "podejrzanych" zmiennych i postpowania z nimi. Mile widziany bdzie zwizy, acz treciwy komentarz, na przykad: "zmienna jest podejrzana, albowiem warto bezwzgldna indeksu skonoci jest wiksza od 2, wic dokonuj transformacji funkcj: ...; przyjmujc za optymaln warto a rwn ...; po wykonaniu histogramu transformowanej zmiennej jej rozkad sta si symetryczny".

20

Dodatek A:
Automatyzacja tworzenia histogramw w Excelu. W przypadku posiadania cho jednej "podejrzanej" zmiennej, konieczne jest wykonanie histogramu rozkadu tej zmiennej. Jeeli zmienna ta wymaga transformacji, w celu dobrania optymalnej funkcji transformujcej naley (niestety) wykona kolejne histogramy (patrz: wiczenie nr 3, sekcja II). Podobna sytuacja ma miejsce w trakcie podejmowania decyzji o usuniciu punktw odbiegajcych (patrz: wiczenie nr 3, sekcja III). Powiedzmy wprost, e tworzenie histogramw per pedes jest zajciem czasochonnym, uciliwym i nudnym. W zwizku z powyszym, proponujemy Czytelnikowi zapoznanie si z autorskim przykadem automatyzacji tworzenia histogramw. Oto podstawowe zaoenia tworzenia histogramw: 1. Liczba przedziaw histogramu nie powinna by wiksza, ni 1/4 liczby wartoci danej zmiennej. Zatem: dla 20 zmiennych idealn liczb przedziaw jest 5, dla 25 6, etc. 2. Przedziay histogramu powinny mie jednakow szeroko. 3. Skrajne wartoci danej zmiennej powinny znajdowa si w rodkach skrajnych przedziaw histogramu. Na bazie powyszych zaoe stworzylimy prosty automat do tworzenia histogramw. Zosta on zbudowany dla 20 wartoci danej zmiennej oraz 5 przedziaw histogramu.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 A Zmienna: wart. 1 wart. 2 wart. 3 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... wart. 19 wart. 20 B Zmienna trans.: wart. I wart. II wart. III ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... wart. XIX wart. XX D Okrelenie przedziaw: MIN =MIN(B2:B21) MAX =MAX(B2:B21) MAX-MIN =(D3-D2) c =D4/8 g1=MIN-c =D2-D5 g2=g1+2c =D6+2*D5 g3=g1+4c =D6+4*D5 g4=g1+6c =D6+6*D5 g5=g1+8c =D6+8*D5 g6=g1+10c =D6+10*D5 Granice (gn): =ZAOKR.DO.TEKST(D6;3;FASZ) =ZAOKR.DO.TEKST(D7;3;FASZ) =ZAOKR.DO.TEKST(D8;3;FASZ) =ZAOKR.DO.TEKST(D9;3;FASZ) =ZAOKR.DO.TEKST(D10;3;FASZ) =ZAOKR.DO.TEKST(D11;3;FASZ) Przedziay: =ZCZ.TEKSTY(C14;C20;C15) =ZCZ.TEKSTY(C15;C20;C16) =ZCZ.TEKSTY(C16;C20;C17) =ZCZ.TEKSTY(C17;C20;C18) =ZCZ.TEKSTY(C18;C20;C19) Wart. > (gn) =LICZ.JEELI(B2:B21;">"&C14) =LICZ.JEELI(B2:B21;">"&C15) =LICZ.JEELI(B2:B21;">"&C16) =LICZ.JEELI(B2:B21;">"&C17) =LICZ.JEELI(B2:B21;">"&C18) =LICZ.JEELI(B2:B21;">"&C19) Liczba wart. w przedziaach: =D14-D15 =D15-D16 =D16-D17 =D17-D18 =D18-D19 C

21

Jak to dziaa? Kursyw oznaczone s elementy opisowe w tabeli. W kolumnach A i B znajduj si, odpowiednio: wartoci "oryginalnej" zmiennej i jej ewentualne wartoci po transformacji. Jeeli wykonujemy histogram zmiennej bez transformacji, rol kolumny B gra kolumna A. Moemy rwnie przekopiowa kolumn A w miejsce kolumny B. W komrkach D2:D11 znajduj si formuy obliczajce graniczne wartoci przedziaw. Poniewa zaoylimy 5 rwnych przedziaw, a wartoci MIN i MAX maj znajdowa si w rodku przedziaw I oraz V, to midzy wartoci MIN i MAX powinno znajdowa si 8 rwnych odcinkw9, ktrych dugo oznaczylimy jako c. Ponadto, jeden odcinek o dugoci c bdzie znajdowa si po lewej od wartoci MIN oraz po prawej od wartoci MAX; sumarycznie otrzymamy zatem - dla 5 przedziaw - 10 odcinkw. W grupach po dwa tworz kolejno odpowiednie przedziay. Mona to przedstawi w sposb nastpujcy:
przedzia przedzia przedzia przedzia przedzia I: g1 --c-- MIN --c-- g2 II: g2 --c-- --c-- g3 III: g3 --c-- --c-- g4 IV: g4 --c-- --c-- g5 V: g5 --c-- MAX --c-- g6

W komrkach C14:C19 znajduj si funkcje transformujce wartoci graniczne przedziaw do postaci tekstu, aby mogy posuy do opisu wykresu. Drugi argument funkcji =ZAOKR.DO.TEKST() (w omawianym przykadzie jest to warto 3) reguluje dugo rozwinicia dziesitnego granic przedziaw histogramu. Naley dobra jego warto wg wasnych potrzeb. W komrkach D14:D19 znajduj si funkcje obliczajce liczby wartoci zmiennej, ktre s wiksze od danej granicy przedziau w histogramie. W naszym przypadku: w D14 powinno wyj 20, poniewa wszystkie wartoci musz by wiksze od granicy g1, za w D19 musi wyj 0 - poniewa wszystkie wartoci zmiennej musz by mniejsze od granicy g6. W komrce C20 znajduje si mylnik. Stanowi on, wbrew wszelkim przypuszczeniom, istotny element caej ukadanki. W komrkach C22:C26 znajduj si funkcje czce odpowiednie teksty. Komrki te stanowi gotowy opis przedziaw histogramu. W komrkach D22:D26 znajduj si funkcje obliczajce liczby wartoci zmiennej w danych przedziaach dziki odejmowaniu elementw zawartych w komrkach D14:D19, np.: w przedziale I znajduje si tyle wartoci, ile zostaje po odjciu wartoci wikszych od g2 (D15) od wartoci wikszych od g1 (D14). Wykres kolumnowy, ktrego opisami serii s komrki C22:C26, wartociami za komrki D22:D26, tworzy najwyszej elegancji histogram rozkadu danej zmiennej. Operacje modyfikacji, transformacji oraz kasowania danych w kolumnach A i B s
9

Gdyby przedziaw byo 6 - odcinkw pomidzy MIN i MAX powinno by 10, std w D5 figurowaoby =D4/10. Nieodzowne byoby rwnie dodanie po jednym nowym wierszu do oblicze w komrkach C14:C19, D14:D19, C22:C26 oraz D22:D26.
22

natychmiast widoczne na histogramie, poniewa wszystkie dane wejciowe do wykresu s automatycznie przeliczane na nowo.

23

wiczenie nr 4:

KORELACJE POMIDZY ZMIENNYMI


Celem wiczenia jest sprawdzenie, czy pomidzy zaproponowanymi i skontrolowanymi w trakcie poprzedniego wiczenia zmiennymi nie wystpuj wyrane korelacje, to znaczy: czy poszczeglne zmienne nie nios jakiej wsplnej informacji. Mona tego dokona na dwa, uzupeniajce si sposoby: 1) obliczajc wspczynniki korelacji liniowej (r) i determinacji (d) dla poszczeglnych par zmiennych; 2) wykonujc wykresy korelacyjne dla wszystkich, moliwych par zmiennych. Dodatkowo, wykresy korelacyjne wstpnie pomog wychwyci tendencj obiektw do formowania grup (na razie w ukadzie wsprzdnych jedynie dwch zmiennych) oraz ewentualne punkty odbiegajce we wszystkich moliwych ukadach wsprzdnych.

I. OBLICZENIE WSPCZYNNIKW KORELACJI LINIOWEJ ORAZ DETERMINACJI.

I.1. Wspczynnik korelacji liniowej (r). Matematyczny wzr na wspczynnik korelacji liniowej (r) jest skrajnie przeraajcy i znajduje si w literaturze. Aby wyznaczy r dla wybranej pary zmiennych, warto skorzysta z funkcji Excela:
=WSP.KORELACJI(zakres_wartoci_pierwszej_zmiennej; zakres_wartoci_drugiej_zmiennej)

Poniewa wymagane jest obliczenie wartoci r dla wszystkich moliwych par zmiennych, najwygodniejsze bdzie zbudowanie tzw. macierzy wspczynnikw korelacji liniowej. Wyglda ona nastpujco:
W X Y Z W rW,W = 1 rW,X rW,Y rW,Z X rX,W rX,X = 1 rX,Y rX,Z Y rY,W rY,X rY,Y = 1 rY,Z Z rZ,W rZ,X rZ,Y rZ,Z = 1

Skoro rI,J = rJ,I, oczywiste jest, e grny trjkt macierzy powtarza informacj zawart w trjkcie dolnym (i vice versa). W zwizku z powyszym, wystarczy obliczy dowoln poow macierzy (grny lub dolny trjkt) oraz przektn. Przektna zawsze skada si z samych jedynek, naley j jednak obliczy dla porzdku i spokoju sumienia.

Przykad:
24

Dla analizowanego zestawu MIECZE, macierz wspczynnikw korelacji prezentuje si nastpujco:


DC* 1,000 0,959 0,737 0,916 0,754 0,899 0,319 DG* 0,959 1,000 0,563 0,886 0,730 0,838 0,333 DR 0,737 0,563 1,000 0,679 0,620 0,693 0,275 M 0,916 0,886 0,679 1,000 0,821 0,886 0,250 SM 0,754 0,730 0,620 0,821 1,000 0,724 0,105 T 0,899 0,838 0,693 0,886 0,724 1,000 0,276 CR* 0,319 0,333 0,275 0,250 0,105 0,276 1,000

DC* DG* DR M SM T CR*

II.2. Wspczynnik determinacji (d). Wspczynnik determinacji (d) dla pary zmiennych dany jest mao skomplikowanym wzorem: dI,J = (rI,J)2 Zbudowanie macierzy wspczynnikw determinacji sprowadza si zatem do podniesienia do kwadratu wartoci zawartych w macierzy wspczynnikw korelacji liniowej.
W X Y Z W dW,W = 1 dW,X dW,Y dW,Z X dX,W dX,X = 1 dX,Y dX,Z Y dY,W dY,X dY,Y = 1 dY,Z Z dZ,W dZ,X dZ,Y dZ,Z = 1

Przykad, c.d.:
Dla analizowanego zestawu MIECZE, determinacji prezentuje si nastpujco:
DC* 1,000 0,920 0,543 0,840 0,569 0,808 0,101 DG* 0,920 1,000 0,317 0,786 0,533 0,702 0,111 DR 0,543 0,317 1,000 0,461 0,384 0,481 0,075 M 0,840 0,786 0,461 1,000 0,675 0,786 0,062 SM 0,569 0,533 0,384 0,675 1,000 0,525 0,011

macierz

wspczynnikw

DC* DG* DR M SM T CR*

T 0,808 0,702 0,481 0,786 0,525 1,000 0,076

CR* 0,101 0,111 0,075 0,062 0,011 0,076 1,000

II. WYKRESY KORELACYJNE DLA PAR ZMIENNYCH. Dla n zmiennych, moliwe jest stworzenie n nad 2 ich par, a co za tym idzie tyle samo wykresw korelacyjnych. Ich wykonanie oraz interpretacj zaprezentujemy na przykadzie.

25

Przykad:
Wybierzmy zmienne opisujce parametry miecza dugo (DG*) oraz mas cakowit (M). Zmienne te przyjmuj wartoci:
Obiekt\Zmienna AER AND AZU BAL DUR EXC GLA GOL GRA GUR GWY HER HUR JOY LOD ORK SIH UMB URI ZAD DG* 1,964 2,000 1,851 1,875 1,908 1,954 1,978 1,839 1,919 1,908 1,908 1,778 1,813 1,903 1,903 1,987 1,978 2,097 2,079 1,732 M 1900 2500 1200 1400 1400 1800 1900 1100 1600 1800 1450 1500 1600 1500 1800 1800 2200 3200 2700 800

gowni

Dysponujemy zatem dwudziestoma punktami o wsprzdnych odpowiadajcych wartociom wybranych zmiennych. Wartoci te naley nanie na zwyczajny wykres punktowy (X,Y), skonfrontowa z wartociami r i d dla danej pary cech, a nastpnie dokona interpretacji uzyskanego obrazu.

Przykad, c.d.:

26

Poprawnie wykonany wykres korelacyjny powinien by zbudowany na planie kwadratu i nie zawiera pustych przedziaw na osiach. Zastosowanie si do wymogu pierwszego (wykres na planie kwadratu) uatwia wychwycenie nawet niewielkich tendencji analizowanych zmiennych do wspliniowoci. Poszukiwana linia trendu ukada si wtedy pod ktem ok. 45, a taki trend - zgodnie z wynikami bada psychologicznych - jest dla badacza najatwiejszy do wychwycenia. Spenienie wymogu drugiego (brak pustych przedziaw na osiach) prowadzi do optymalnego wykorzystania caej, dostpnej przestrzeni wykresu. Naley zwrci na to szczegln uwag w przypadku wykonywania wykresw korelacyjnych w Excelu, gdy program ten ma tendencj do automatycznego nadawania osiom wykresu wartoci minimalnych (lub maksymalnych) rwnych 0. W efekcie, czsto nawet wicej ni poowa obszaru wykresu nad osi moe nie zawiera ani jednego punktu.

Przykad, c.d.:
Poniej prezentujemy wykres korelacyjny dla pary zmiennych DG* i M, wykonany absolutnie nieprawidowo:

O tempora, o mores!10

III. SPRAWOZDANIE. W sprawozdaniu Student powinien umieci: macierz wspczynnikw korelacji liniowej; macierz wspczynnikw determinacji;
10

"Co za czasy! Co za obyczaje!" - Cyceron.


27

wszystkie moliwe wykresy korelacyjne dla par zmiennych, zawierajce dodatkowo: wartoci r oraz d, a take krtki komentarz dotyczcy informacji, jak niesie wykres. Oto pytania pomocnicze: czy widoczna jest liniowa zaleno pomidzy zmiennymi? czy widoczna jest zaleno nieliniowa? czy wysoka warto wspczynnika korelacji/determinacji rzeczywicie odpowiada liniowej zalenoci? czy obiekty maj tendencj do tworzenia grup? czy widoczne s wyrane punkty odbiegajce?

28

You might also like