You are on page 1of 5

PRZEGL EPIDEMIOL 2009; 63: 333 - 337

Zdrowie publiczne

Jan E. Zejda

ZJAWISKO WSPLINIOWOCI W ANALIZIE WIELU ZMIENNYCH: PRZYCZYNY, ROZPOZNANIE I MOLIWOCI ELIMINACJI PROBLEMU* COLLINEARITY IN MULTIVARIABLE ANALYSIS: CAUSES, DETECTION AND CONTROL MEASURES
Katedra Epidemiologii lski Uniwersytet Medyczny w Katowicach
STRESZCZENIE Artyku przedstawia definicj, przyczyny i moliwoci rozpoznania oraz korygowania zjawiska wspliniowoci, znieksztacajcego wyniki analizy wielu zmiennych (analizy wielowymiarowej). Poza omwieniem danych literaturowych opisujcych podstawowe metody postpowania w odniesieniu do wymienionych kwestii w artykule przytoczony jest wasny przykad, odwoujcy si do wynikw analizy zalenoci pomidzy wystpowaniem blu ramion u pracownikw biurowych regularnie stosujcych komputery podczas pracy a ich wiekiem, staem pracy oraz przecitnym dziennym czasem pracy na stanowisku komputerowym. Przykad wykorzystuje wyniki analizy regresji liniowej i demonstruje obecno zjawiska wspliniowoci (korelacja pomidzy dwiema zmiennymi niezalenymi: wiekiem i staem pracy) oraz jego znieksztacajcy wpyw na oszacowanie wspczynnikw regresji. Wyniki analizy modelu kompletnego (wiek i sta pracy w modelu) s konfrontowane z wynikami analizy modelu zredukowanego (albo wiek, albo sta pracy w modelu). Ponadto, w odniesieniu do omawianego przykadu, w artykule zaproponowane s praktyczne sposoby identyfikacji zjawiska wspliniowoci, w tym znaczenie analizy korelacji liniowej oraz tzw. analizy tolerancji. ABSTRACT The paper reviews principal effects of collinearity on the results of multivariate regression analysis. The discussion focuses on the definition of the problem and on practical means of its recognition, as well as on preventive measures aiming at control of collinearity. In addition to the literature-based review the paper includes the presentation of a case study involving assessment of the relationship between pain in arms and age, years of work, daily duration of work in men and women regularly using personal computers at work. Case-study data were used to show the effect of collinearity (interdependence of two independent variables: age and years of work) on the coefficients of regression in a saturated model, followed by demonstration of the changes resulting from restriction measures (either age or years of work in the model). In addition, in relation to the case-study, the paper shows the results of practical means of detection of collinearity, including analysis of linear correlation and tolerance diagnostics.

Sowa kluczowe: wspliniowo, regresja liniowa, Key words: collinearity, linear regression analysis, rozpoznanie i kontrola wspliniowoci detection and control of collinearity

Rozpowszechnienie statystycznych programw komputerowych umoliwiajcych szybkie przeprowadzenie analizy wielu zmiennych (analizy wielowymiarowej) jest niezwykym uatwieniem pracy epidemiologa. Analizy tego typu umoliwiaj ilociow i jakociow ocen efektu objtego badaniem (zaleno Y od X) po uwzgldnieniu wpywu innych czynnikw, co ma

istotne znaczenie w przypadku bada nad zoonymi uwarunkowaniami zjawisk zdrowotnych. Ten walor analizy wielu zmiennych jest powszechnie wykorzystywany w analizach ukierunkowanych zarwno na stworzenie tzw. modelu objaniajcego, jak i w analizach ukierunkowanych na stworzenie tzw. modelu predyktywnego (1).

* - W artykule wykorzystano dane zgromadzone w ramach projektu pt. Ocena stanu zdrowia i podstawowych wskanikw kosztu zjologicznego pracy u osb zatrudnionych na stanowiskach zwizanych z obsug komputera (Program Wieloletni Poprawa Bezpieczestwa i Warunkw Pracy)

334

Jan E. Zejda

Nr 2

Powszechnie dostpne pakiety statystycznej analizy danych oferuj liczne wersje procedur reprezentujcych modele analizy regresji liniowej i regresji logistycznej. Korzystanie z literatury, take tej, ktra towarzyszy pakietom statystycznym nie wyklucza moliwoci potkni metodologicznych w trakcie prowadzenia analiz i interpretacji ich wynikw. Wrd wielu moliwych przyczyn takich potkni do powszechn wydaje si droga na skrty. Zrozumiae denie do weryfikacji hipotez przy uyciu metod oferujcych statystyczne opracowanie efektw zalenych od wielu czynnikw sprawia, e analizy wielu zmiennych s prowadzone chtnie i do wczenie w fazie opracowania wynikw bada. Niekiedy s one prowadzone z pominiciem kanonu systematycznej, stopniowej analizy danych, obejmujcego w logicznej kolejnoci - po opisie i diagnostyce rozkadw zmiennych - analizy proste, analizy stratyfikacyjne i analizy wielu zmiennych. Te ostatnie su weryfikacji wczeniej uzyskanych wynikw i nie zastpuj prostszych metod. Poza weryfikacj hipotez (analizy konfirmatywne) analizy wielu zmiennych znajduj bodaje jeszcze bardziej powszechne zastosowanie w prbie identyfikacji godnych uwagi efektw w zgromadzonym zbiorze danych (analizy eksploratywne). W porwnaniu z pierwszym zastosowaniem (analizy konfirmatywne) drugi obszar docieka (analizy eksploratywne) generuje wyranie wiksze ryzyko popenienia bdu metodologicznego. Wrd moliwych pomyek i bdw znajduj si takie, ktre wynikaj z konstrukcji modelu (rwnania) analizy wielu zmiennych. Procedury powszechnie dostpne w programach komputerowych umoliwiaj testowanie duej liczby rnorodnych zmiennych niezalenych w jednym modelu. Dodatkowo moliwo skorzystania z funkcji automatycznej selekcji zmiennych niezalenych odznaczajcych si statystyczn znamiennoci moe powodowa zmniejszenie troski o wprowadzenie do modelu tylko tych zmiennych, wobec ktrych istniej silne przesanki natury biologicznej lub statystycznej. Postpowanie to, jak wspomniano bardziej popularne przy prowadzeniu analiz eksploratywnych, moe prowadzi do znieksztacenia wynikw analizy wielu zmiennych wskutek tzw. zjawiska wspliniowoci (w jzyku angielskim: collinearity) (2-4). Wspliniowo jest znieksztaceniem wyniku analizy wielu zmiennych wynikajcym z wzajemnego powizania dwch ilociowych zmiennych niezalenych (X1 i X2) wczonych do jednego modelu regresji (Y = b0 + b1 X1 + b2 X2 + + bk Xk). Powizanie to moe mie charakter naturalny (wynikajcy z natury zmiennych, a raczej z natury zjawisk przez te zmienne opisywanych) lub przypadkowy (wystpujcy przypadkowo w analizowanym zbiorze danych). Przykadem zmiennych odznaczajcych si naturalnym powizaniem jest masa i wysoko ciaa lub stenie mocznika

i kreatyniny w surowicy krwi w obu przypadkach dwie zmienne s silnie skorelowane. Przykadem innego powizania (mona tu zidentyfikowa wpyw procesw spoecznych) jest zwizek pomidzy wyksztaceniem matki (liczba lat nauki) i wyksztaceniem ojca (liczba lat nauki). Wreszcie takie powizanie moe mie czysto przypadkowy wymiar na przykad w analizowanym zbiorze danych cinienie skurczowe krwi moe okaza si dodatnio skorelowane z przecitnym czasem trwania snu. Niekorzystnym skutkiem wspliniowoci jest uzyskanie znieksztaconych wartoci wspczynnikw regresji (b1, b2) i wartoci p charakteryzujcych statystyczn znamienno tych wspczynnikw (duy bd standardowy wspczynnikw regresji). Najskuteczniejszym sposobem postpowania wobec zjawiska wspliniowoci jest profilaktyka. Przede wszystkim naley unika wczania do jednego modelu tych zmiennych niezalenych, o ktrych wiadomo, e w sposb naturalny s skorelowane. Na przykad, analizujc zaleno czasu hospitalizacji od stanu czynnociowego nerek naley zrezygnowa z wczenia do modelu regresji zmiennych naturalnie skorelowanych, zostawiajc w modelu tylko jedn z nich (np. albo mocznik, albo kreatynina). Wpyw kadego ze wskanikw na czas hospitalizacji mona oszacowa porwnujc wyniki modelu z mocznikiem z wynikami modelu z kreatynin. Innym sposobem jest manipulacja zmiennymi. Na przykad analizujc zaleno wystpowania astmy dziecicej od tzw. czynnikw rodowiska rodzinnego mona zamiast zmiennej wyksztacenie matki i zmiennej wyksztacenie ojca skonstruowa jedn, kombinowan zmienn wyksztacenie rodzicw (wyraone jako rednia liczba lat nauki). Mona wreszcie prbowa transformacji jednej ze zmiennych, na przykad zmienn wyksztacenie matki mona pozostawi w oryginalnej skali, a zmienn wyksztacenie ojca przeksztaci w dwupoziomow zmienn jakociow. Niezalenie od przedstawionych moliwoci logiczn alternatyw jest radykalne rozwizanie, polegajce na pozostawieniu w testowanym modelu tylko jednej z dwch skorelowanych zmiennych niezalenych. Wielko znieksztacenia zwizanego ze wspliniowoci dwch niezalenych zmiennych ilociowych zaley od wartoci wspczynnika korelacji pomidzy tymi zmiennymi. W zwizku z tym zalecan, prost metod identyfikacji zagroenia wspliniowoci (take przypadkow) jest wczesne przeprowadzenie analizy korelacji obejmujcej wszystkie ilociowe zmienne, typowane jako zmienne niezalene w modelu regresji (2-5). Analiza korelacji zmiennych metod kada z kad umoliwi ponadto identyfikacj zagroenia wielowspliniowoci (zaleno wzajemna trzech lub wicej zmiennych; w jzyku angielskim: multicollinearity). Spotyka si akceptowan do powszechnie

Nr 2

Zjawisko wspliniowoci w analizie wielu zmiennych

335

praktyk eliminacji z modelu takiej zmiennej, ktra pozostaje w korelacji z inn zmienn na poziomie co najmniej r = 0,5 , ale postpowanie to nie wynika z opublikowanych zalece. W przypadku niezalenych zmiennych jakociowych o ich wzajemnym powizaniu informuj wyniki testw niezalenoci (np. testu chi-kwadrat). Poniszy przykad ilustruje obecno wspliniowoci i jej wpyw na wyniki analizy wielu zmiennych, a take efekt manipulacji zastosowanych w celu wykluczenia wspzmiennoci. Przykad opracowany zosta z wykorzystaniem wasnej bazy danych i procedur dostpnych w oprogramowaniu statystycznym SAS wykorzystano funkcje proc univariate i proc ttest, w analizie korelacji liniowej funkcj proc corr w modyfikacji Spearmana, a w analizie regresji liniowej funkcj proc reg (6). W grupie 175 osb zatrudnionych na stanowiskach zwizanych ze staym stosowaniem komputera (138 kobiet i 37 mczyzn) okrelono nasilenie dolegliwoci blowych ze strony ramion, przy pomocy tzw. skali wizualnej (zakres od 0 do 10 jednostek - U). Zgodnie z protokoem badawczym wrd potencjalnych czynnikw wpywajcych na obecno i nasilenie blu ramion uwzgldniono wiek badanych (w latach), ich sta pracy na stanowisku komputerowym (w latach) oraz przecitny dzienny czas pracy na tym stanowisku (w godzinach). Wyniki pomiaru wymienionych okolicznoci przedstawia tabela I.
Tabela I. Nasilenie blu w obrbie ramion, wiek, sta pracy i przecitny dzienny czas pracy z komputerem w grupie 175 osb zatrudnionych na stanowiskach komputerowych Table I. Intensity of pain in the arms, mean age, years of work and average daily time of computer use in 175 persons working at computer stations Warto Zmienna Odchylenie standardowe Zakres rednia Bl ramion (U) 2,4 2,4 0 10 Wiek (lata) 37,3 11,9 19 65 Sta pracy (lata) 10,9 6,8 1 36 Dzienna praca (min.) 416 82 120 720

denta) statystycznie znamiennego wpywu stosowania podprki koczyn grnych podczas pracy (p = 0,3) lub pci (p = 0,4). Wszystkie wymienione potencjalne determinanty blu ramion zostay wczone do kompletnego modelu regresji, obejmujcego nastpujce zmienne: Bl (U) = pe (0/1) + podprka (0/1) + wiek (lata) + sta pracy (lata) + dzienny czas pracy (min.). Wyniki analizy przedstawia tabela II.
Tabela II. Zaleno nasilenia blu ramion od pci, stosowania podprki przedramion, wieku, stau i dziennego czasu pracy u 175 osb zatrudnionych na stanowiskach komputerowych wyniki analizy regresji wielu zmiennych w modelu kompletnym. Table II. Association of intensity of pain in the arms with gender, use of forearm suport, age, years of work and duration of daily computer use in 175 persons working at computer stations results of a saturated model of multivariate regression analysis Pe Podprka Wiek Sta pracy Dzienny czas Parametr (0/1) (0/1) (lata) (lata) pracy (minuty) 0,393 0,409 0,040 0,025 0,004 b* (0,445) (0,383) (0,024) (0,040) (0,002) p** 0,3 0,2 0,09 0,5 0,04 Objanienia: * - wspczynniki regresji z ich bdami standardowymi (w nawiasie); ** - statystyczna znamienno wspczynnikw regresji Legend: * - coefficients of regression and their standard errors (in the brackets); ** - statistical significance of coefficients of regression

Wrd okolicznoci mogcych take wpywa na nasilenie dolegliwoci blowych lub modyfikowa wpyw czasu pracy i wieku na te dolegliwoci uwzgldniono dodatkowo pe badanych i stosowanie podprki koczyn grnych podczas pracy z komputerem (tak=113, nie=62). Wyniki analiz prostych wykazay obecno statystycznie znamiennej korelacji liniowej pomidzy nasileniem blu ramion i wiekiem (r = 0,17; p = 0,01) oraz staem pracy (r = 0,17; p = 0,02), przy braku statystycznie znamiennego wpywu dziennego czasu pracy (r = 0,04; p = 0,5). Ponadto, w odniesieniu do nasilenia blu ramion nie stwierdzono (test t-Stu-

Wyniki analizy wielu zmiennych wykazay, e spord potencjalnych zmiennych objaniajcych jedynie wpyw dziennego czasu pracy odznacza si statystyczn znamiennoci (p = 0,04). Biorc pod uwag konstrukcj kompletnego modelu mona podejrzewa, e wyniki obarczone s znieksztaceniem wskutek wspliniowoci. Podejrzenie to wynika z faktu, e wiek i sta pracy s z reguy silnie skorelowane. To podejrzenie zostao zweryfikowane poprzez wykonanie analizy korelacji. Jej wyniki potwierdziy zwizek pomidzy wiekiem i staem pracy (r = 0,75; p < 0,0001) i sabiej wyraony zwizek pomidzy wiekiem i dziennym czasem pracy (r = -0,31; p<0,0001) oraz staem pracy i dziennym czasem pracy (r = -0,25; p = 0,0007). Ze wzgldu na siln korelacj pomidzy wiekiem i staem pracy postanowiono wykluczy jedn z tych dwch zmiennych. Z kolei nie przekraczajce poziomu 0,5 wartoci wspczynnikw r pomidzy wiekiem i dziennym czasem pracy oraz staem pracy i dziennym czasem pracy uzasadniay pozostawienie zmiennej dzienny czas pracy w modelu. Analiz wielu zmiennych ponowiono dla modeli zredukowanych: (Model I bez stau pracy): Bl (U) = pe (0/1) + podprka (0/1) + wiek (lata) + dzienny czas pracy (min.); (Model II bez wieku): Bl (U) = pe (0/1) +

336

Jan E. Zejda

Nr 2

podprka (0/1) + sta pracy (lata) + dzienny czas pracy (min.). Wyniki analiz przedstawia tabela III.
Tabela III. Zaleno nasilenia blu ramion od pci, stosowania podprki przedramion, wieku albo stau i dziennego czasu pracy u 175 osb zatrudnionych na stanowiskach komputerowych wyniki analizy regresji wielu zmiennych w modelu zredukowanym Table III. Association of intensity of pain in the arms with gender, use of forearm support, age, years of work and duration of daily computer use in 175 persons working at computer stations results of a reduced model of multivariate regression analysis Model Zredukowany I: brak zmiennej sta pracy w modelu Pe Podprka Wiek Sta pracy Dzienny czas Parametr (0/1) (0/1) (lata) (lata) pracy (minuty) 0,378 0,431 0,045 Zmienna 0,003 b* (0,448) (0,386) (0,016) Usunita (0,002) Zmienna p** 0,4 0,2 0,005 0,1 Usunita Model Zredukowany II: brak zmiennej wiek w modelu Pe Podprka Wiek Sta pracy Dzienny czas Parametr (0/1) (0/1) (lata) (lata) pracy (minuty) 0,331 0,402 Zmienna 0,074 0,003 b* (0,446) (0,386) usunita (0,027) (0,002) Zmienna p** 0,4 0,2 0,007 0,09 usunita Objanienia: * - wspczynniki regresji z ich bdami standardowymi (w nawiasie); ** - statystyczna znamienno wspczynnikw regresji Legend: * - coefficients of regression and their standard errors (in the brackets); ** - statistical significance of coefficients of regression

Tabela IV. Diagnostyka wspliniowoci przy uyciu analizy tolerancji w odniesieniu do kompletnego i zredukowanego modelu regresji, przedstawionego w tekcie (w tabeli zawarte s wartoci wskanikw tolerancji dla poszczeglnych zmiennych). Table IV. Tolerance analysis in diagnostics of collinearity in saturated and reduced models described in the text (the table shows tolerance measures of independent variables) Sta Dzienny Model analizy Pe Podprka Wiek pracy czas pracy regresji (0/1) (0/1) (lata) (lata) (minuty) Model kompletny 0,98 0,99 0,40 0,43 0,87 Zmienna Model zredukowany 0,99 0,99 0,93 0,93 Usunita

Wyniki analiz z wykorzystaniem alternatywnych, zredukowanych modeli wykazay, e zarwno wiek (Model I), jak i sta pracy (Model II) maj statystycznie znamienne znaczenie dla nasilenia dolegliwoci blowych ramion. Ponadto okazao si, e w przypadku zredukowanych modeli wyniki analiz nie potwierdzay ju widocznego w modelu kompletnym wpywu dziennego czasu pracy na nasilenie blu ramion. Porwnujc warto wspczynnikw regresji (b) dla wieku (b = 0,045) i stau (b = 0,074) mona nawet przypuszcza, e wpyw wieku jest w tym przypadku mniejszy ni wpyw stau, ale nie to jest sednem docieka w omawianym przykadzie. Poza tym interpretacja tego typu musi by ostrona ze wzgldu na wyrane zrnicowanie wspczynnikw zmiennoci obu zmiennych (wiek, sta). Uzasadnione podejrzenie obecnoci wspliniowoci, potwierdzone wynikami analiz korelacyjnych, usprawiedliwiao przeprowadzenie prostej manipulacji polegajcej na eliminacji wspliniowoci poprzez pozostawienie w modelu regresji tylko jednej ze skorelowanych zmiennych niezalenych. Ta procedura okazaa si skuteczna

w analizach wykorzystujcych zredukowane modele potwierdzono zaleno blu ramion i od wieku i od stau pracy na stanowiskach komputerowych. Przytoczony przykad ilustruje konsekwencje wspliniowoci i praktyczny sposb wyeliminowania zwizanego ze wspliniowoci znieksztacenia wynikw analizy wielu zmiennych. Na gruncie statystycznej interpretacji wynikw za podejrzeniem omawianego znieksztacenia przemawia obecno duych bdw standardowych wspczynnikw regresji dotyczcych zmiennych objtych wspliniowoci, a take dua zmiana wspczynnikw regresji, gdy do modelu wprowadza si lub gdy z modelu eliminuje si jedn ze zmiennych biorcych udzia w ksztatowaniu wspliniowoci. Warto przy tym odnotowa, e zjawisko wspliniowoci w wikszym stopniu obcia oszacowanie wspczynnikw regresji ni ogln zdolno modelu regresji do wyjanienia analizowanych zalenoci, okrelan na podstawie wartoci wspczynnika dopasowania modelu statystyki R2 informujcej w jakim stopniu zestaw zmiennych niezalenych w danym modelu wyjania zmienno w zakresie zmiennej zalenej w tym modelu. Wspczesne programy statystyczne oferuj automatyczn detekcj skutkw wspliniowoci. Tego typu metody s szczeglnie przydatne, gdy wystpuje zagroenie ze strony wielowspliniowoci, zwaszcza przy analizie eksploratywnej. Automatyczne techniki detekcji wspliniowoci funkcjonuj w oparciu o oszacowanie jak dalece zmienno w zakresie jednej zmiennej niezalenej moe by wizana ze zmiennoci w zakresie innej zmiennej niezalenej (co jest sednem wspliniowoci). Oszacowanie to jest prowadzone dla kadej zmiennej w modelu i jest ono moliwe w odniesieniu do zmiennych ilociowych i jakociowych. Wrd stosowanych metod do powszechnie siga si do techniki znanej jako analiza tolerancji (3,6). Jej wynikiem jest statystyka znana jako wskanik tolerancji, obliczony dla kadej zmiennej. Przydatno wskanika tolerancji wynika z do prostej inter-

Nr 2

Zjawisko wspliniowoci w analizie wielu zmiennych

337

pretacji jego wartoci: po pierwsze - zakres wartoci tej statystyki ksztatuje si w zakresie od 0 do 1; po drugie - gdy warto tej statystyki jest wiksza od 0,5 wwczas odznaczajca si t wartoci zmienna wnosi mae zagroenie (wielo)wspliniowoci (zmienna moe by tolerowana w modelu). Trzeba jednake uprzedzi, e podana jako decyzyjna warto 0,5 ma charakter umowny i nie znajduje pokrycia w oglnie obowizujcych rekomendacjach, a omawiana i analogiczne metody detekcji problemu bywaj kontestowane na gruncie rozwaa metodycznych (4,7). Praktyczne znaczenie analizy tolerancji ilustruje wynik tej procedury, zastosowanej w odniesieniu do wczeniej przedstawionego kompletnego modelu regresji wielu zmiennych: Bl (U) = pe (0/1) + podprka (0/1) + wiek (lata) + sta pracy (lata) + dzienny czas pracy (min.). Wyniki analizy tolerancji przedstawia tabela IV. Wrd zmiennych niezalenych dwie charakteryzuj si wskanikiem tolerancji nie przekraczajcym wartoci 0,5 s nimi wiek (0,40) i sta pracy (0,43). Mona zatem przyj, e kada z tych zmiennych jest objta (wielo)wspliniowoci ze strony pozostaych zmiennych niezalenych. Najprostszym rozwizaniem w tym przypadku jest korekta konstrukcji modelu polegajca na usuniciu tej zmiennej niezalenej, ktra odznacza si najmniejsz wartoci wskanika tolerancji tu zmiennej wiek. Jej rezultatem jest zredukowany model: Bl (U) = pe (0/1) + podprka (0/1) + sta pracy (lata) + dzienny czas pracy (min.). W modelu zredukowanym, w przypadku kadej zmiennej niezalenej, wskanik tolerancji siga maksymalnej wartoci, co upowania do stwierdzenia, e wyniki przeprowadzonej ingerencji s satysfakcjonujce. Przedstawione powyej znaczenie, konsekwencja i podstawowe (nie wszystkie) metody kontroli zjawiska wspliniowoci w analizie wielu zmiennych nie maj wycznie wymiaru teoretycznego. atwo (techniczna) prowadzenia analiz wielu zmiennych i eksploracja rozbudowanych zbiorw danych sprawiaj, e problem ma duy wymiar praktyczny. Co wicej, potencjalne skutki wspliniowoci rzadko stanowi przedmiot rozwaa towarzyszcych decyzji o podjciu analizy wielu zmiennych i rzadko uzupeniaj rutynowy kanon postpowania, obejmujcy przede wszystkim weryfikacj zaoe odnonie normalnoci, liniowoci, niezalenoci, stabilnoci wariancji. Podan metod kontroli zjawiska wspliniowoci jest przede wszystkim rozwaga przy konstrukcji

modelu regresji. Epidemiologia reprezentuje nauki medyczne, a zatem kierunki docieka musz poda za szeroko rozumianym biologicznym prawdopodobiestwem analizowanych zjawisk. Ten kanon dotyczy take modelowania zalenoci przyczynowo-skutkowej, ktre jest wielce uproszczon prb zapisu zoonych zjawisk biologicznych. Wiedza na temat mechanizmw biologicznych badanych zjawisk uatwia dostrzeenie zagroenia wspliniowoci, ale nie wyklucza ujawnienia si tego problemu w trakcie analizy danych. W zwizku z tym przedstawione powyej metody identyfikacji i kontroli niekorzystnych skutkw wspliniowoci powinny stanowi integralny element analizy wielu zmiennych.

PIMIENNICTWO
1. Greenland S. Modeling and variable selection in epidemiologic analysis. Am J Public Health 1989; 79: 340349 2. Kleinbaum D G, Kupper L L, Muller K E, Applied Regression Analysis and Other Multivariate Methods. Boston: PWS-KENT Publishing Company, 1988: 206217 3. Chan Y H: Biostatistics 201: Linear regression analysis. Singapore Med J 2004; 45: 55-61 4. Tu Y K, Clerehugh V, Gilthrope M S. Collinearity in linear regression is a serious problem in oral health research. Eur J Oral Sci 2004; 112: 389-397 5. Szklo M, Nieto F J. Epidemiology: Beyond the Basics. Geithersburg: Aspen Publishers, Inc., 2000: 187-190 6. SAS Institute Inc. 2004. SAS OnlineDoc 9.1.3. Cary, NC, USA 7. OBrien R.M. A caution regarding rules of thumb for Variance Inflation Factors. Quality and Quantity 2007; 41: 673-690

Otrzymano: 23.03.2009 r. Zakwalifikowano do druku: 14.05.2009 r. Adres do korespondencji: Prof. dr hab. med. Jan E. Zejda Katedra Epidemiologii - lski Uniwersytet Medyczny Ul. Medykw 18 40-752 Katowice Tel.: 032 252 3734 E-mail: jzejda@sum.edu.pl

You might also like