You are on page 1of 8

10.03.

2012

Anali a korelacji

Medycyna Praktyczna - portal dla lekarzy

Analiza korelacji
Podstawy statystyki dla prowadzcych badania naukowe Odcinek 21: Analiza korelacji mgr Andrzej Stanisz z Zakadu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakadu: prof. dr hab. med. Andrzej arnecki) Data utworzenia: 04.07.2001 Ostatnia modyfikacja: 30.04.2007 Opublikowano w Medycyna Praktyczna 2000/10

Podstawy statystyki dla prowadzcych badania naukowe Wikszo zjawisk w otaczajcym nas wiecie wystpuje w r norodnych zwizkach. Odnosi si to rwnie do zjawisk biologiczno-medycznych. O powizaniach midzy nimi mwi prawa botaniki, zoologii, fizjologii, biochemii i innych nauk. Statystyka dostarcza narzdzi, ktre pozwalaj te powizania zweryfikowa. Statystyczny opis umo liwia lepsze ich zrozumienie i modyfikowanie. Czsto syszymy stwierdzenie: "rak puc jest powizany z paleniem papierosw". Oznacza to, e im wicej papierosw si pali, tym bardziej prawdopodobne jest zachorowanie na raka. Mwimy, e im wicej jednego, tym wicej drugiego. Zamiast u ywa nieprecyzyjnych sw (wicej, mao itp.) statystycy wol w ocenie u ywa liczb. Dlatego powstaa matematyczna teoria korelacji i regresji, stanowica narzdzie dokadnego okrelania stopnia powizania zmiennych ze sob. Podstawowym problemem statystyki jest stwierdzenie, czy midzy zmiennymi zachodzi jaki zwizek i czy jest on bardziej czy mniej cisy. Analiza regresji i korelacji to jedna z najwa niejszych i najszerzej stosowanych metod statystycznych. Powicimy im wic kilka najbli szych odcinkw, a zaczniemy od korelacji. Dwie zmienne mog by powizane zale noci funkcyjn lub zale noci statystyczn (korelacyjn). Zwizek funkcyjny odznacza si tym, e ka dej wartoci jednej zmiennej niezale nej (bdziemy j oznacza jako X) odpowiada tylko jedna, jednoznacznie okrelona warto zmiennej zale nej (Y). Wiadomo na przykad, e obwd kwadratu jest funkcj jego boku (O = 4a). Zwizek statystyczny polega na tym, e okrelonym wartociom jednej zmiennej odpowiadaj cile okrelone rednie wartoci drugiej zmiennej. Mo na zatem obliczy, jak si zmieni (rednio biorc) warto zmiennej zale nej Y w zale noci od wartoci zmiennej niezale nej X. Oczywicie najpierw na podstawie analizy merytorycznej nale y logicznie uzasadni wystpowanie zwizku, a dopiero potem przystpi do okrelenia siy i kierunku zale noci. Znane s bowiem w literaturze badania zale noci (nawet istotnej statystycznie) midzy liczb zajtych gniazd bocianich a liczb urodze na danym obszarze czy midzy liczb zarejestrowanych odbiornikw TV a liczb chorych umysowo. Zwrmy te uwag, e liczbowe stwierdzenie wystpowania zale noci nie zawsze oznacza wystpowanie zwizku przyczynowo-skutkowego midzy badanymi zmiennymi. Wspwystpowanie dwch zjawisk mo e rwnie wynika z bezporedniego oddziaywania na nie jeszcze innego, trzeciego zjawiska. W analizie korelacji badacz jednakowo traktuje obie zmienne - nie wyr niamy zmiennej zale nej i niezale nej. Korelacja midzy X i Y jest taka sama, jak midzy Y i X. Mwi nam ona, na ile obie zmienne zmieniaj si rwnoczenie w sposb liniowy. Precyzyjna definicja za brzmi: Korelacja midzy zmiennymi i jest miar siy liniowego zwizku midzy tymi zmiennymi.

Analiz zwizku korelacyjnego midzy badanymi cechami rozpoczynamy zawsze od sporzdzenia wykresu. Wykresy, ktre reprezentuj obrazowo zwizek pomidzy zmiennymi, nazywane s wykresami rozrzutu (scatterplot). Wzrokowa ocena uatwia okrelenie siy i rodzaju zale noci. Przyjmijmy, e zbiorowo jest badana ze wzgldu na dwie zmienne X i Y, a wartoci tych zmiennych w populacji lub prbie n-elementowej s zestawione w postaci dwch szeregw szczegowych lub rozdzielczych. W prostoktnym ukadzie wsprzdnych na osi odcitych zaznaczamy wartoci jednej zmiennej, a na osi rzdnych - wartoci drugiej zmiennej. Punkty odpowiadajce poszczeglnym wartociom cech tworz korelacyjny wykres rozrzutu. Rzadko si zdarza, e zaznaczone punkty le dokadnie na linii prostej (pena korelacja); czciej spotykana konfiguracja skada si z wielu zaznaczonych punktw le cych mniej wicej wzdu konkretnej krzywej (najczciej linii prostej). Taka sytuacja przedstawiona jest jako przypadek 1. i 2. na rysunku 1. Przy silnie skorelowanych zmiennych odnosimy wra enie, jakby te punkty rwnoczenie si poruszay. Gdy korelacja staje si coraz sabsza, wwczas punkty zaczynaj si rozprasza i
.mp.pl/art kul /inde .php?aid=10898&_tc=B3EB6D183AB84A4A320B514261C4CCE7&print=1 1/8

10.03.2012

Anali a korelacji

przesuwa, tworzc w pewnym momencie bezksztatn chmur punktw (brak korelacji). Taka sytuacja ma miejsce w przypadku 3. na rysunku 1. Korelacja dodatnia wystpuje wtedy, gdy wzrostowi wartoci jednej zmiennej odpowiada wzrost rednich wartoci drugiej zmiennej (przypadek 1. na rys. 1). Korelacja ujemna wystpuje wtedy, gdy wzrostowi wartoci jednej zmiennej odpowiada spadek rednich wartoci drugiej zmiennej (przypadek 2. na rys. 1).

Rys. 1. Korelacyjne wykresy rozrzutu; 1 - korelacja liniowa dodatnia, 2 - korelacja liniowa ujemna, 3 - brak korelacji, 4 - korelacja krzywoliniowa Si wspzale noci dwch zmiennych mo na wyrazi liczbowo za pomoc wielu miernikw. Najbardziej popularny jest wspczynnik korelacji liniowej Pearsona, oznaczony symbolem rXY i przyjmujcy wartoci z przedziau [-1, 1]. Nale y zwrci uwag, e wspczynnik korelacji Pearsona wyliczamy wwczas, gdy obie zmienne s mierzalne i maj rozkad zbli ony do normalnego, a zale no jest prostoliniowa (std nazwa). Przy interpretacji wspczynnika korelacji liniowej Pearsona nale y wic pamita, e warto wspczynnika bliska zeru nie zawsze oznacza brak zale noci, a jedynie brak zale noci liniowej. Znak wspczynnika korelacji informuje nas o kierunku korelacji, natomiast jego bezwzgldna warto - o sile zwizku. Oczywicie rXY jest rwne rYX. Jeli rXY = 0, oznacza to zupeny brak zwizku korelacyjnego midzy badanymi zmiennymi X i Y (przypadek 3. na rys. 1). Im warto bezwzgldna wspczynnika korelacji jest bli sza jednoci, tym zale no korelacyjna midzy zmiennymi jest silniejsza. Gdy rXY = I1I, to zale no korelacyjna przechodzi w zale no funkcyjn (funkcja liniowa). W analizie statystycznej zwykle przyjmuje si nastpujc skal: rXY = 0 zmienne nie s skorelowane 0 <r XY <0,1 korelacja nika 0,1 = <r <0,3 korelacja slab

0,3 =<rXY <0,5 korelacja przecitna 0,5 =<rXY <0,7 korelacja wysoka 0,7 =<rXY <0,9 korelacja bardzo wysoka 0,9 =<rXY <1 korelacja prawie pena. Przedstawiona skala jest oczywicie umowna; w literaturze mo na spotka rwnie inne okrelenia. Tak jak warto innych parametrw populacji wspczynnik korelacji (w populacji) nie jest znany i musimy go
.mp.pl/art kul /inde .php?aid=10898&_tc=B3EB6D183AB84A4A320B514261C4CCE7&print=1 2/8

10.03.2012

Anali a korelacji

oszacowa na podstawie znajomoci losowej prby par wynikw obserwacji zmiennych X i Y. Tak wyliczony z prby wspczynnik rXY jest estymatorem wspczynnika korelacji <M>r w populacji generalnej, a jego warto liczbowa stanowi ocen punktow siy powizania w caej populacji. Std konieczno testowania istotnoci wspczynnika korelacji wyliczonego w oparciu o prb losow. Najpowszechniej stosowany test polega na sprawdzeniu, czy zmienne X i Y s w ogle skorelowane. Weryfikujemy wic nastpujcy ukad hipotez: H0: H1: =0 OD r ne 0

Weryfikacja tej hipotezy zerowej pomo e nam w ocenie, czy istniejca zale no midzy X i Y w prbie jest tylko przypadkowa, czy te jest prawidowoci w populacji. Dlatego test istotnoci wspczynnika korelacji Pearsona spotykamy we wszystkich pakietach statystycznych. W programie STATISTICA do analizy korelacji su y opcja Macierze korelacji w module PODSTAWOWE STATYSTYKI I TABELE. Po wybraniu tej opcji i naciniciu OK (lub po dwukrotnym klikniciu na nazwie opcji) otwiera si okno Wspczynnik korelacji liniowej Pearsona, przedstawione na rysunku 2.

Rys. 2. Okno dialogowe Wspczynnik korelacji liniowej Pearsona Przycisk Korelacje wywouje arkusz wynikw. Jego posta zale y od wyboru dokonanego w grupie opcji Wyniki. Do wyboru mamy: Macierz kor. (podwietl p) - wywietlana jest tylko macierz korelacji Macierz kor. (poka p i N) - wywietlane s wspczynniki korelacji wraz z odpowiednimi poziomami istotnoci. Przykad takiego okna wynikw wida na rysunku 3.

.mp.pl/art kul /inde .php?aid=10898&_tc=B3EB6D183AB84A4A320B514261C4CCE7&print=1

3/8

10.03.2012

Anali a korelacji

Rys. 3. Okno z wynikami Dokadna tabela wynikw - wywietlona jest pena informacja o przeprowadzonej analizie. Rysunek 4. pokazuje przykadow tabel wynikw dla dwch zmiennych wraz z objanieniami poszczeglnych jej pl.

Rys. 4. Okno z wynikami - opcja Dokadna tabela wynikw [1] rednie arytmetyczne wybranych zmiennych [2] odchylenia standardowe [3] wspczynnik korelacji Pearsona [4] wspczynnik determinacji (R2 - kwadrat wspczynnika korelacji). Jest to opisowa miara dokadnoci dopasowania regresji do danych empirycznych. Przyjmuje wartoci z przedziau <0, 1> lub w ujciu procentowym <0, 100%> i informuje (zgodnie z zapisem), jaka cz zaobserwowanej w prbie cakowitej zmiennoci Y zostaa wyjaniona (zdeterminowana) regresj wzgldem X. Im wiksze R2 , tym powizanie jest lepsze, i mo na mie wiksze zaufanie do ewentualnej linii regresji. [5] warto statystyki t badajcej istotno wspczynnika korelacji [6] poziom istotnoci [7] liczebno grupy [8] wyraz wolny regresji liniowej Y wzgldem X [9] wspczynnik regresji liniowej zmiennej Y wzgldem zmiennej X [10] wyraz wolny regresji liniowej X wzgldem Y [11] wspczynnik regresji liniowej zmiennej X wzgldem zmiennej Y.
.mp.pl/art kul /inde .php?aid=10898&_tc=B3EB6D183AB84A4A320B514261C4CCE7&print=1 4/8

10.03.2012

Anali a korelacji

Punkty [8] i [9] umo liwiaj wyliczenie funkcji regresji zmiennej Y wzgldem X i funkcji regresji zmiennej X wzgldem Y, opisujcych analityczn posta zale noci pomidzy zmiennymi. Pojcie regresji zostanie omwione dokadniej w kolejnym odcinku. Powy sze rozwa ania teoretyczne zilustrujemy dwoma przykadami. W pierwszym analizujemy 16-osobow grup wybran losowo z populacji dzieci i modzie y. W grupie tej dokonujemy pomiaru wieku (w latach) i wzrostu (w cm). Otrzymane wyniki przedstawia tabela 1. Tabela 1 Wiek 7 8 9 10 11 11 5 12 13 14 14 15 16 17 18 18 5 19

Wzrost 122 123 125 131 136 140 141 146 145 150 155 160 158 164 168 170 Chcemy zbada si i kierunek zale noci midzy wiekiem a wzrostem. Po wprowadzeniu danych i wykonaniu analizy korelacji (wywoanej przyciskiem Korelacje) otrzymujemy arkusz wynikw (rys. 5).

Rys. 5. Arkusz wynikw dla danych z przykadu pierwszego Jak wida, pomidzy wiekiem i wzrostem zachodzi prawie pena, wysoce istotna korelacja. Warto wspczynnika korelacji wynosi a 0,988. Ponadto, jak mwi o tym wspczynnik determinacji, zmienno jednej cechy (np. wzrostu) jest prawie w 98% wyjaniona zmiennoci drugiej (czyli wieku). T idealn sytuacj pokazuje wykres rozrzutu (rys. 6).

Rys. 6. Wykres rozrzutu danych z przykadu pierwszego Jest to wykres prostej regresji wzrostu osoby badanej wzgldem wieku; na rysunku zaznaczono te 95% przedzia ufnoci linii regresji (obszar zaznaczony przerywanymi liniami). Drugi przykad pokazuje sytuacj nieco bardziej zo on. Wysunito hipotez, e istnieje zwizek midzy czasem leczenia chorych na chorob ukadu kr enia a aktywnoci pewnego enzymu w ich organizmie. Losowa prba daa wyniki przedstawione w tabeli 2 (czas leczenia w dniach). Tabela 2
.mp.pl/art kul /inde .php?aid=10898&_tc=B3EB6D183AB84A4A320B514261C4CCE7&print=1 5/8

10.03.2012

Anali a korelacji

Kobiety Czas leczenia (dni) 1 2 3 4 5 8 10 Aktywno enzymu 41 44 35 43 35 43 36

M czy ni Czas leczenia (dni) 1 2 3 4 5 7 10 14 18 20 24 26 Aktywno enzymu 42 40 37 39 36 35 30 26 22 20 42 41

Czy korelacja aktywnoci enzymu wzgldem czasu leczenia jest istotna (na poziomie istotnoci 0,05)? Jak wyglda ewentualna linia regresji? Po wprowadzeniu danych do programu STATISTICA i wykonaniu analizy korelacji otrzymujemy wynik jak na rysunku 7.

Rys. 7. Okno z wynikami - przykad drugi Tabela wskazuje na brak istotnej korelacji (w prbie wynosia ona r = -0,404). Sprbujmy znale przyczyn braku istotnoci korelacji. Wykorzystamy w tym celu wykres rozrzutu (rys. 8).

.mp.pl/art kul /inde .php?aid=10898&_tc=B3EB6D183AB84A4A320B514261C4CCE7&print=1

6/8

10.03.2012

Anali a korelacji

Rys. 8. Wykres rozrzutu - przykad drugi Notabene powinnimy od niego zacz analiz korelacji. Wykres ten wskazuje na istnienie dwch skrajnych wartoci, ktrych odrzucenie zmienia cakiem wynik oblicze. Na rysunku s one zaznaczone kkiem. Usuwamy wic podejrzane punkty z analizy. Wynik ponownej analizy po odrzuceniu skrajnych wartoci przedstawia rysunek 9.

Rys. 9. Okno z wynikami - po usuniciu dwch punktw Mamy cakowicie odmienn sytuacj. Tym razem stwierdzamy, e midzy aktywnoci enzymu a czasem leczenia istnieje wysoka wspzale no (r = -0,9). Zale no ta jest istotnie statystyczna nawet na poziomie istotnoci wynoszcym p = 0,000001. Rwnanie regresji przyjmuje posta AKTYWNO_ENZYMU = -1,114 x CZAS LECZENIA + 43,1374. Wspczynnik determinacji (0,81) wiadczy o dobrym dopasowaniu funkcji regresji do danych empirycznych. Tylko niecae 19% informacji o aktywnoci enzymu nie zostao wyjanione przez zmienn "Czas leczenia". Przykad ten zwraca uwag na mo liwo wystpienia tzw. punktw odstajcych, ktre mog cakowicie zaburzy wyniki analizy korelacji i regresji. Dlatego punktom tym przyjrzymy si dokadnie w nastpnych odcinkach. Wykorzystujc fakt, e podano pe pacjentw, mo emy sporzdzi tzw. skategoryzowany wykres rozrzutu (rys. 10).

.mp.pl/art kul /inde .php?aid=10898&_tc=B3EB6D183AB84A4A320B514261C4CCE7&print=1

7/8

10.03.2012

Anali a korelacji

Rys. 10. Skategoryzowany wykres rozrzutu Otrzymamy go po klikniciu przycisku Skategoryzowany wykres rozrzutu (p. rys. 2). Jako zmienn grupujc wybieramy pe (kobiety, m czy ni). Otrzymany rysunek znw nas zaskakuje, widzimy bowiem inny rodzaj zale noci w tych podgrupach ni dla caej rozwa anej prby. Dla m czyzn mamy prawie doskona korelacj, podczas gdy dla kobiet prawdopodobnie korelacji nie ma. By mo e przyczyn takiej sytuacji jest maa liczebno prby. W takim przypadku zalecane jest powtrzenie badania w wikszej grupie osb.
Wicej informacji znajd Pastwo na stronie http://www.mp.pl Copyright 1996 - 2011 Medycyna Praktyczna

.mp.pl/art kul /inde .php?aid=10898&_tc=B3EB6D183AB84A4A320B514261C4CCE7&print=1

8/8

You might also like