Professional Documents
Culture Documents
pl
Inspiracj do przygotowania tego opracowania bya ksika Phillipa I. Gooda i Jamesa W. Hardina pt. Common Errors in Statistics (and How to Avoid Them) wydana przez wydawnictwo John Wiley & Sons w 2003 roku, sama rwnie nie wolna od bdw. Zwrcimy uwag na szereg niecisoci i bdw spotykanych w stosowaniu metod statystycznych wykorzystywanych w badaniach naukowych i rozwizywaniu problemw praktycznych. Porzdek prezentacji bdzie odpowiada typowemu kursowi ze statystyki, jakkolwiek nie bdziemy si tu zajmowali bdami popenianymi przez studentw, o ktrych mona by napisa osobn ksik w konwencji humoru z zeszytw szkolnych. Cz pierwsza ksiki Gooda i Hardina ma prowokujce motto Dont think use the computer (Nie myl uywaj komputera). Wspczesne programy komputerowe przygotowane dla potrzeb stosowania metod statystycznych pozwalaj wykonywa obliczenia, przy ktrych dawniej trzeba byo spdzi wiele pracowitych godzin lub w ogle ich nie podejmowano. Niestety jednoczenie pojawio si niebezpieczestwo bezmylnego stosowania metod w sytuacji, gdy prawie wszystko daje si obliczy.
Copyright StatSoft Polska, 2004 Kopiowanie lub powielanie w jakikolwiek sposb bez zgody StatSoft Polska Sp. z o.o. zabronione
Wydaje si oczywiste, e statystyk nigdy nie moe pracowa sam. On ma zna metody, ich uwarunkowania, zaoenia, sposb dziaania, zakres wynikw, ale to wszystko to s tylko narzdzia. Bez znajomoci merytorycznej strony zagadnienia mona uzyska wyniki atwe do obalenia i wymiania przez fachowcw z danej dziedziny. Statystyka jest nauk suebn, a ostateczna weryfikacja wynikw jej metod nastpuje w dziedzinie, w ktrej metody te zastosowano. Oczywicie nie mwimy tu o statystykach teoretycznych, ktrzy proponuj nowe metody, wykorzystujc dowody matematyczne lub badania symulacyjne, ale o statystykach praktycznych, ktrzy stosuj metody statystyczne w rnych dziedzinach nauk empirycznych. Praktyczne zastosowanie statystyki ma sens, jeeli na podstawie czci populacji zwanej prb, wnioskujemy o populacji. To dwupoziomowe widzenie problemu jest niezbdne. Warto dba o rozczno oznacze (due litery mae litery), rozczno poj (np. warto przecitna rednia arytmetyczna) i precyzyjne definiowanie. Zarwno populacja, jak i prba powinny by jednorodne. Wikszo badaczy dobrze rozumie pojcie jednorodnoci, traktujc je jednak raczej intuicyjnie. Precyzyjnie mona definiowa, e zbiorowo jest jednorodna wtedy, gdy wszystkie jej elementy pozostaj pod wpywem dziaania tych samych przyczyn gwnych. Na og jednorodno ocenia si merytorycznie, ale warto pamita, e statystyka dostarcza w ramach metod taksonomicznych wielu procedur umoliwiajcych kontrol jednorodnoci, lub podzia zbiorowoci na jednorodne czci.
Cechy statystyczne
Cechy statystyczne to waciwoci jednostek statystycznych. Denerwujce jest nazywanie ich atrybutami bo to w jzyku angielskim funkcjonuje nazwa attributes. Tradycyjnie cechy statystyczne dzielono na jakociowe i ilociowe. Formalnie tylko cechy ilociowe powinny by nazywane zmiennymi, ale przyjmuje si te okrelenie zmienne jakociowe. Dla porzdku warto pamita, e cechy ilociowe maj wartoci, natomiast cechy jakociowe warianty. Podstawowe znaczenie dla pniejszego wyboru metod ma precyzyjne zdefiniowanie cech statystycznych oraz okrelenie skal pomiaru. Szeroko akceptowane jest rozrnienie czterech skal pomiaru: nominalnej, porzdkowej, przedziaowej i ilorazowej. Skala pomiaru determinuje na przykad wybr metody przy analizie wspzalenoci zjawisk. Trzeba pamita, e rangi, ktre s efektem pomiaru w skali porzdkowej, nie pozwalaj na liczenie odlegoci (a wic rwnie rnic) i rednich. Przykadem amania tej zasady jest rangowa metoda porzdkowania obiektw wielocechowych (stosowana w jednym ze znanych rankingw szk wyszych) oraz (o zgrozo)... wspczynnik korelacji rangowej Spearmana. Bd terminologiczny, ktry prawdopodobnie jest nie do wyplenienia - przykadowo ze rodowiska medycznego - to nazywanie cech statystycznych parametrami. Mwi si wic o takich parametrach chorego jak: wiek, poziom hemoglobiny itp. A to wszystko to s
6 Copyright StatSoft Polska, 2004 Kopiowanie lub powielanie w jakikolwiek sposb bez zgody StatSoft Polska Sp. z o.o. zabronione
cechy statystyczne. Parametry to niektre charakterystyki liczbowe zmiennych losowych, ktre s modelami opisujcymi ksztatowanie si cech statystycznych w zbiorowoci obiektw. Parametry w tym sensie to warto przecitna, wariancja, mediana itp.
Szeregi statystyczne
Za spraw tragicznego sposobu spolszczenia MS Excela upowszechnia si wadliwa nazwa szeregu statystycznego jako serii (??). Tymczasem angielski wyraz series powinien by w tym kontekcie zdecydowanie tumaczony jako szereg. Seria w statystyce (jest ni na przykad cig odchyle o tym samym znaku w tecie serii) w jzyku angielskim nazywa si run. Pewne nieporozumienia napotka mona przy budowie szeregw rozdzielczych dla cigych cech ilociowych. Klasycznym przykadem jest tu rozkad populacji wedug wieku. Wielu badaczy uparcie lansuje klasy szeregu w stylu: 0-4, 5-9, 10-14, 15-19 itd., zawierajce dziury. Przecie wiek jest cech jak najbardziej cig i sposb podawania go z dokadnoci do caych lat nie zmienia charakteru cechy. Przy przejciu na poprawne klasy: 0-5, 5-10, 10-15 itd. pojawiaj si pytania, co robi z osobami, ktre maj wiek rwny dokadnie granicy klasy. Niepisana umowa (wynikajca wszake ze wschodnioeuropejskiej definicji dystrybuanty) powiada, e przedziay klasowe s lewostronnie domknite, a prawostronnie otwarte. Tak wanie budowany jest szereg rozdzielczy w programie STATISTICA.
Copyright StatSoft Polska, 2004 Kopiowanie lub powielanie w jakikolwiek sposb bez zgody StatSoft Polska Sp. z o.o. zabronione
wiksza ni do wnioskowania o poziomie zjawiska), jaka jest zmienno zjawiska i wreszcie jaki poziom ufnoci zakada badacz. Czsto wystpuje strach przed ma prb; obawa o negatywn ocen recenzentw. Jednak przy bardzo kosztownych eksperymentach badawczych, krtkich szeregach czasowych lub rzadkich chorobach, alternatyw wnioskowania na podstawie maych prb jest zaniechanie analiz w ogle. Trzeba tylko zdawa sobie spraw z wpywu liczebnoci prby na wyniki wnioskowania. Przy maej prbie trudno jest udowodni hipotezy badawcze, natomiast przy bardzo duej prbie mona wrcz wykaza istotno kadej rnicy. Wikszo statystyk testowych da si przeksztaci w ten sposb, e po lewej stronie znajdzie si n, a wynik powie, ile potrzeba obserwacji, aby wykaza, e rnica, ktr obserwujemy, jest istotna statystycznie.
Prawdopodobiestwo
Aksjomatyczna definicja prawdopodobiestwa sformuowana przez Andrieja Komogorowa powiada (w uproszczeniu), e prawdopodobiestwo to liczba z przedziau [0,1] przyporzdkowana kademu zdarzeniu losowemu. W wielu dziedzinach pozamatematycznych uwaa si, e prawdopodobiestwo to liczba z przedziau [0,100], wyraona w procentach, co z jednej strony jest pokosiem czstociowej definicji prawdopodobiestwa, a z drugiej jest bardziej intuicyjne. Formalnie ta maniera jest bardzo denerwujca dla statystykw, lecz trudno jest skutecznie walczy z wieloletnimi przyzwyczajeniami caych rodowisk.
Zmienne losowe
Popularna definicja zmiennej losowej powiada, e jest to taka wielko, ktra w wyniku dowiadczenia moe przyjmowa rne wartoci, przy czym przed dowiadczeniem nie mona z absolutn pewnoci przewidzie, jaka warto wanie si zrealizuje. Bdne rozumienie zmiennej losowej zasadza si na sdzie, jakoby w zmiennej losowej wystpoway tylko przyczyny losowe. Uwaa si, e co jest losowe, jeeli jest czysto losowe czyli wyniki gier liczbowych, rzutu kostk, monet, karty, jakie otrzymujemy na rce, wynik losowania kul z urny. Tymczasem wystarczy tylko troch tej losowoci, aby absolutnie pewne prognozowanie zjawiska byo niemoliwe i ju mamy zmienn losow. Niestarannoci, ktra utrudnia lektur wielu prac, jest niestosowanie si do raczej powszechnej konwencji, ktra przewiduje, e nazwy zmiennych losowych piszemy wielkimi literami (najczciej kocowymi alfabetu), natomiast realizacje, czyli wartoci zmiennych losowych odpowiednimi literami maymi. Nieodrnianie zmiennej losowej od jej realizacji to niestety do czsty bd. Ze zmiennymi losowymi wie si jeszcze jeden do czsty bd. Parametrem pooenia jest warto przecitna czyli przecitny wynik danej zmiennej losowej. W jzyku angielskim parametr ten nazywa si expected value, wic polskie tumaczenie warto oczekiwana jest jak najbardziej poprawne jzykowo, podobnie jak pikny polski odpowiednik nadzieja matematyczna. Niestety pojcia te prowadz do bdnego
Copyright StatSoft Polska, 2004 Kopiowanie lub powielanie w jakikolwiek sposb bez zgody StatSoft Polska Sp. z o.o. zabronione 9
mniemania, jakoby warto oczekiwana to bya warto najbardziej prawdopodobna, najczstszy rezultat zmiennej losowej (taka warto to modalna). Niejednokrotnie zaskoczenie budzi proste wyliczenie pokazujce, e wartoci oczekiwan przy pojedynczym rzucie kostk jest liczba 3,5 jak to moliwe, skoro nigdy takiej wartoci nie da si otrzyma. Tymczasem rozwaanie tej liczby jako przecitnej z niemal nieskoczonej liczby rzutw jest bardziej zrozumiae.
Estymacja
Z pewnym wahaniem stawiam kontrowersyjne pytanie czy statystyka opisowa ma sens? Czy jest to tylko arytmetyka na zbiorach danych? Uwaam, e niemal nigdy nie chodzi nam tylko o analiz tych danych, ktre mamy (tych 70 pacjentw, 16 wojewdztw, 130 przedsibiorstw itp.), a tak naprawd chcemy pozna mechanizm, ktry te dane wygenerowa. Chcemy wic wnioskowa o populacji na podstawie prby. Musimy zatem stosowa metody statystyki matematycznej estymacj i weryfikacj hipotez statystycznych. W estymacji konieczne jest precyzyjne odrnianie trzech rnych (!) elementw: parametr estymator ocena. Tylko ten drugi jest zmienn losow i tylko jego waciwoci statystyczne (zgodno, nieobciono, efektywno odporno) mona rozwaa. Liczc redni arytmetyczn czy odchylenie standardowe w prbie, zapominamy, e zachowuj si one zgodnie z precyzyjnymi prawami rachunku prawdopodobiestwa. Jednym z najbardziej pechowych problemw estymacji jest szacowanie modalnej (czyli wartoci najczstszej). W sytuacji gdy prba zawiera ma liczb wartoci, z ktrych kada jest inna, wielu statystykw twierdzi, e modalnej nie ma. Na uwag, e prb wylosowano z rozkadu, ktry ma modaln, powiadaj, e prba jest zbyt maa, aby zbudowa szereg rozdzielczy i zastosowa znany wzr interpolacyjny. Niemal nieznane s proste procedury umoliwiajce szacowanie (a nie wyliczanie) modalnej z prby o dowolnej liczebnoci.
jest ono nazywane poziomem istotnoci i oznaczane przez . Jak wiadomo najczciej przyjmowan wartoci jest 0,05. Bd drugiego rodzaju polega na przyjciu hipotezy faszywej i oznaczany jest . Naley z naciskiem podkreli, e prawdopodobiestwa dotycz bdw w procesie decyzyjnym i nie maj nic wsplnego z prawdopodobiestwami prawdziwoci hipotez zerowej i alternatywnej. Powiada si artobliwie, e bd czwartego rodzaju polega na zastosowaniu niewaciwego testu. Niestety zdarza si to czsto. Stosuje si testy parametryczne bez sprawdzenia (lub choby zastanowienia si nad tym) zaoenia o typie rozkadu wymaganego przez dany test. Niektre testy wymagaj prb o odpowiedniej liczebnoci i przy prbach zbyt maych odpowiednie statystyki testowe maj rozkad inny, ni si spodziewa badacz, bo tak wyczyta w podrczniku. Przy badaniu wspzalenoci zdarza si wykorzystywanie metod niewaciwych dla danej skali. Nieco zamieszania wprowadzaj tu obiegowe, nieprecyzyjne nazwy testw jak test Studenta (dla jednej wartoci przecitnej, dla dwch rednich, istotnoci wspczynnika korelacji, istotnoci wspczynnika regresji wszystkie one wykorzystuj statystyk podlegajc rozkadowi Studenta) czy test chi-kwadrat (zgodnoci, niezalenoci, dla jednej wariancji, istotnoci zmiennej dodanej w modelu regresji itp.). Warto tu wspomnie o zasyszanym od lekarzy bdzie pitego rodzaju polegajcym na wyborze niewaciwego statystyka do wykonania oblicze do pracy doktorskiej lub habilitacyjnej. Przy stosowaniu testw istotnoci mona podj jedn z dwch decyzji: odrzuci hipotez zerow, przyj hipotez alternatywn, nie ma podstaw do odrzucenia hipotezy alternatywnej. Jak wida, nie jest moliwe przyjcie hipotezy zerowej, a wic nie mona przykadowo udowodni rwnoci rednich, braku korelacji czy (niestety) normalnoci rozkadu. Nieodrzucenie hipotezy zerowej oznacza w praktyce, e dalej nie wiemy nic konkretnego (w sensie naukowym). Ze zdziwieniem znajdujemy w wielu podrcznikach amerykaskich (gwnie z zakresu statystyki dla ekonomistw) rysunki, na ktrych cz osi wartoci statystyki testowej nie bdca zbiorem krytycznym okrelana jest mianem acceptance region, czyli przyjcia hipotezy zerowej. Takiej decyzji w ogle nie przewiduj testy istotnoci i takie podejcie umoliwioby atwe przeprowadzanie absurdalnych dowodw w rodzaju 4,0=4,1. Problem niedostrzegany przez wielu to tzw. testowanie wielokrotne. Jeeli zakadamy prawdopodobiestwo bdnego odrzucenia hipotezy zerowej rwne 0,05, to zgadzamy si, e przecitnie raz na 20 decyzji popeniamy bd. Ten poziom istotnoci dotyczy wszake tylko pojedyczego testowania. Jeeli stosujemy test niezalenie 20 razy, to prawdopodobiestwo, e przynajmniej raz popenimy bd nie wynosi co prawda (jak si niektrym wydaje) 1, ale nieco ponad 2/3. Zagadnienia, w ktrych mamy do czynienia z tego typu problemami, to porwnywanie rednich parami (testy post-hoc w ANOVA), testowanie istotnoci elementw macierzy korelacji, budowa modeli regresji o duej liczbie zmiennych objaniajcych. W tych sytuacjach trzeba oceni rozmiar niebezpieczestwa
Copyright StatSoft Polska, 2004 Kopiowanie lub powielanie w jakikolwiek sposb bez zgody StatSoft Polska Sp. z o.o. zabronione 11
powodowanego przez testowanie wielokrotnie (prosto wynikajce z liczby jednoczenie rozpatrywanych zmiennych lub grup), a nastpnie zastosowa metody umoliwiajce korekt poziomu istotnoci bd wartoci p.
Warto p
Jest to element weryfikacji hipotez, ale wyrniamy go w osobnym podpunkcie, gdy nagromadzenie bdw jest tu wyjtkowo due. Rozpoczynajc ju od samej nazwy. W jzyku angielskim jest to p value (niekiedy pisane przez due P). Usiowaem z rnym skutkiem wylansowa kiedy nazw prawdopodobiestwo testowe, w analogii do statystyki testowej. Ta wanie analogia jest prawdziwa, nie za analogia do poziomu istotnoci. Warto p bywa czsto nazywana zaobserwowanym poziomem istotnoci lub komputerowym poziomem istotnoci. Nie jest oczywicie adnym z nich. Czym wic jest? Podajmy tu trzy definicje: 1. Pole pod funkcj gstoci rozkadu prawdopodobiestwa statystyki testowej obliczone od empirycznej wartoci tej statystyki w kierunku wskazanym przez hipotez alternatywn. Pole to moe by jednoczciowe (przy jednostronnej hipotezie alternatywnej) lub dwuczciowe (przy hipotezie dwustronnej). 2. Prawdopodobiestwo uzyskania wyniku bardziej przeczcego hipotezie zerowej ni ten wynik, ktry wanie uzyskalimy. 3. Najostrzejszy poziom istotnoci, przy ktrym moemy odrzuci testowan hipotez na podstawie danych empirycznych, ktre posiadamy. W klasycznym testowaniu decyzj o ewentualnym odrzuceniu hipotezy zerowej podejmujemy na podstawie wyniku porwnania empirycznej wartoci statystyki testowej z wartoci krytyczn odczytan z tablic rozkadu statystyki testowej. Identyczn decyzj moemy podj, porwnujc warto p z poziomem istotnoci . Ta regua odrzucenia (p) jest prawdziwa dla wszystkich testw statystycznych (nawet tych jeszcze nie wymylonych) i nie wymaga wykorzystywania tablic statystycznych. Jej powszechne stosowanie jest moliwe dziki programom komputerowym, ktre dla obliczenia pola nie musz analitycznie wyznacza caki z funkcji gstoci. Teraz badacz nie ma problemw obliczeniowych i powinien skoncentrowa si na wanych sprawach podstawowych: formuowanie hipotez, wybr testu, realno zaoe, jako danych statystycznych, interpretacja wynikw. Gwna niewaciwa interpretacja wartoci p to uznawanie jej za prawdopodobiestwo prawdziwoci hipotezy zerowej. Wiele jest te niewaciwoci (lub przynajmniej braku elegancji) w prezentowaniu wartoci p w publikacjach. Pole jest konkretn liczb i zapis w postaci nierwnoci jest tu nie na miejscu. Przecie p<0,2756 nic nie oznacza, bo w kocu nie wiadomo, czy to p jest mniejsze od =0,05 czy nie. Nie naley obawia si zapisu p=0,0000. Przeciwnicy tego zapisu zapominaj, e w statystyce w wikszoci sytuacji zero nie oznacza nic (waciwym oznaczeniem jest tu kreska) tylko bardzo mao. Niemal powszechna w literaturze
12 Copyright StatSoft Polska, 2004 Kopiowanie lub powielanie w jakikolwiek sposb bez zgody StatSoft Polska Sp. z o.o. zabronione
wiatowej konwencja prezentowania wartoci p z dokadnoci do czwartego miejsca po przecinku uniemoliwia przedstawienia pola powiedzmy 0,00003, inaczej ni 0,0000. Maniera stosowania zapisu NS (nonsignificant nieistotny) zamiast podawania wartoci p jest niezrozumiaym ograniczeniem wanej informacji. Przecie p=0,8767 (prawdopodobnie hipoteza zerowa jest prawdziwa) oznacza co innego ni p=0,1245 (przy wikszej prbie jest szansa na udowodnienie istotnoci warto szuka dalej), mimo e formalnie obydwie liczby podpadaj pod kategori NS.
Copyright StatSoft Polska, 2004 Kopiowanie lub powielanie w jakikolwiek sposb bez zgody StatSoft Polska Sp. z o.o. zabronione
13
7. Znaj zaoenia wystpujce w testach z ktrych korzystasz. Uywaj testw o ograniczonej liczbie zaoe, ale mocnych (szczeglnie wzgldem alternatyw, ktre testujesz). 8. W sprawozdaniu z bada okrel dokadnie badan populacj oraz sposb pobierania prby. Napisz, ktre elementy prby nie weszy do ostatecznego pliku danych i dlaczego.
Literatura
1. Good P.I., Hardin J.W., Common Errors in Statistics (and How to Avoid Them), John Wiley & Sons, 2003. 2. Huffa D., How To Lie With Statistics, W.W. Norton & Company, 1954, 1982, 1993.
14
Copyright StatSoft Polska, 2004 Kopiowanie lub powielanie w jakikolwiek sposb bez zgody StatSoft Polska Sp. z o.o. zabronione