Błędy W Statystyce

StatSoft Polska, tel. (12) 4284300, (601) 414151, info@statsoft.pl, www.statsoft.
pl
O NIEWACIWYM STOSOWANIU METOD STATYSTYCZNYCH

Andrzej Sokoowski
Akademia Ekonomiczna w Krakowie, Katedra Statystyki; StatSoft Polska Sp. z o.o.
Inspiracj do przygotowania tego opracowania bya ksika Phillipa I. Gooda i Jamesa W. Hardina pt. Common Errors in Statistics (and How to Avoid Them) wydana przez wydawnictwo John Wiley & Sons w 2003 roku, sama rwnie nie wolna od bdw. Zwrcimy uwag na szereg niecisoci i bdw spotykanych w stosowaniu metod statystycznych wykorzystywanych w badaniach naukowych i rozwizywaniu problemw praktycznych. Porzdek prezentacji bdzie odpowiada typowemu kursowi ze statystyki, jakkolwiek nie bdziemy si tu zajmowali bdami popenianymi przez studentw, o ktrych mona by napisa osobn ksik w konwencji humoru z zeszytw szkolnych. Cz pierwsza ksiki Gooda i Hardina ma prowokujce motto Dont think use the computer (Nie myl uywaj komputera). Wspczesne programy komputerowe przygotowane dla potrzeb stosowania metod statystycznych pozwalaj wykonywa obliczenia, przy ktrych dawniej trzeba byo spdzi wiele pracowitych godzin lub w ogle ich nie podejmowano. Niestety jednoczenie pojawio si niebezpieczestwo bezmylnego stosowania metod w sytuacji, gdy prawie wszystko daje si obliczy.
Podstawowe pojcia statystyczne

Statystyka to nauka o metodach badania prawidowoci wystpujcych w zjawiskach masowych. Wikszo uczonych w swych poszukiwaniach stara si odkry prawidowoci. Warto wic najpierw uwiadomi sobie, dlaczego one wystpuj. Na kade zjawisko oddziauj dwa rodzaje przyczyn: gwne i uboczne. Te pierwsze wynikaj z istoty zjawiska, dziaaj w sposb trway i ukierunkowany, jednakowo na wszystkie elementy badanej zbiorowoci i one wanie powoduj powstawanie prawidowoci, nazywanych niekiedy skadnikiem systematycznym. Przyczyny uboczne (czyli losowe) oddziauj rnie na poszczeglne elementy zbiorowoci, dziaaj rnokierunkowo i w sposb nietrway. One powoduj odchylenia od prawidowoci, s rdem skadnika losowego. Naley koniecznie przed wykorzystywaniem metod statystycznych dobrze zrozumie problem badawczy, pozna jego teori i prbowa zidentyfikowa przyczyny gwne oraz przyczyny uboczne.
Copyright StatSoft Polska, 2004 Kopiowanie lub powielanie w jakikolwiek sposb bez zgody StatSoft Polska Sp. z o.o. zabronione
StatSoft Polska, tel. (12) 4284300, (601) 414151, info@statsoft.pl, www.statsoft.pl
Wydaje si oczywiste, e statystyk nigdy nie moe pracowa sam. On ma zna metody, ich uwarunkowania, zaoenia, sposb dziaania, zakres wynikw, ale to wszystko to s tylko narzdzia. Bez znajomoci merytorycznej strony zagadnienia mona uzyska wyniki atwe do obalenia i wymiania przez fachowcw z danej dziedziny. Statystyka jest nauk suebn, a ostateczna weryfikacja wynikw jej metod nastpuje w dziedzinie, w ktrej metody te zastosowano. Oczywicie nie mwimy tu o statystykach teoretycznych, ktrzy proponuj nowe metody, wykorzystujc dowody matematyczne lub badania symulacyjne, ale o statystykach praktycznych, ktrzy stosuj metody statystyczne w rnych dziedzinach nauk empirycznych. Praktyczne zastosowanie statystyki ma sens, jeeli na podstawie czci populacji zwanej prb, wnioskujemy o populacji. To dwupoziomowe widzenie problemu jest niezbdne. Warto dba o rozczno oznacze (due litery mae litery), rozczno poj (np. warto przecitna rednia arytmetyczna) i precyzyjne definiowanie. Zarwno populacja, jak i prba powinny by jednorodne. Wikszo badaczy dobrze rozumie pojcie jednorodnoci, traktujc je jednak raczej intuicyjnie. Precyzyjnie mona definiowa, e zbiorowo jest jednorodna wtedy, gdy wszystkie jej elementy pozostaj pod wpywem dziaania tych samych przyczyn gwnych. Na og jednorodno ocenia si merytorycznie, ale warto pamita, e statystyka dostarcza w ramach metod taksonomicznych wielu procedur umoliwiajcych kontrol jednorodnoci, lub podzia zbiorowoci na jednorodne czci.
Cechy statystyczne
Cechy statystyczne to waciwoci jednostek statystycznych. Denerwujce jest nazywanie ich atrybutami bo to w jzyku angielskim funkcjonuje nazwa attributes. Tradycyjnie cechy statystyczne dzielono na jakociowe i ilociowe. Formalnie tylko cechy ilociowe powinny by nazywane zmiennymi, ale przyjmuje si te okrelenie zmienne jakociowe. Dla porzdku warto pamita, e cechy ilociowe maj wartoci, natomiast cechy jakociowe warianty. Podstawowe znaczenie dla pniejszego wyboru metod ma precyzyjne zdefiniowanie cech statystycznych oraz okrelenie skal pomiaru. Szeroko akceptowane jest rozrnienie czterech skal pomiaru: nominalnej, porzdkowej, przedziaowej i ilorazowej. Skala pomiaru determinuje na przykad wybr metody przy analizie wspzalenoci zjawisk. Trzeba pamita, e rangi, ktre s efektem pomiaru w skali porzdkowej, nie pozwalaj na liczenie odlegoci (a wic rwnie rnic) i rednich. Przykadem amania tej zasady jest rangowa metoda porzdkowania obiektw wielocechowych (stosowana w jednym ze znanych rankingw szk wyszych) oraz (o zgrozo)... wspczynnik korelacji rangowej Spearmana. Bd terminologiczny, ktry prawdopodobnie jest nie do wyplenienia - przykadowo ze rodowiska medycznego - to nazywanie cech statystycznych parametrami. Mwi si wic o takich parametrach chorego jak: wiek, poziom hemoglobiny itp. A to wszystko to s
6 Copyright StatSoft Polska, 2004 Kopiowanie lub powielanie w jakikolwiek sposb bez zgody StatSoft Polska Sp. z o.o. zabronione
cechy statystyczne. Parametry to niektre charakterystyki liczbowe zmiennych losowych, ktre s modelami opisujcymi ksztatowanie si cech statystycznych w zbiorowoci obiektw. Parametry w tym sensie to warto przecitna, wariancja, mediana itp.
Szeregi statystyczne
Za spraw tragicznego sposobu spolszczenia MS Excela upowszechnia si wadliwa nazwa szeregu statystycznego jako serii (??). Tymczasem angielski wyraz series powinien by w tym kontekcie zdecydowanie tumaczony jako szereg. Seria w statystyce (jest ni na przykad cig odchyle o tym samym znaku w tecie serii) w jzyku angielskim nazywa si run. Pewne nieporozumienia napotka mona przy budowie szeregw rozdzielczych dla cigych cech ilociowych. Klasycznym przykadem jest tu rozkad populacji wedug wieku. Wielu badaczy uparcie lansuje klasy szeregu w stylu: 0-4, 5-9, 10-14, 15-19 itd., zawierajce dziury. Przecie wiek jest cech jak najbardziej cig i sposb podawania go z dokadnoci do caych lat nie zmienia charakteru cechy. Przy przejciu na poprawne klasy: 0-5, 5-10, 10-15 itd. pojawiaj si pytania, co robi z osobami, ktre maj wiek rwny dokadnie granicy klasy. Niepisana umowa (wynikajca wszake ze wschodnioeuropejskiej definicji dystrybuanty) powiada, e przedziay klasowe s lewostronnie domknite, a prawostronnie otwarte. Tak wanie budowany jest szereg rozdzielczy w programie STATISTICA.
Graficzna prezentacja danych statystycznych

To zagadnienie w zasadzie pomijamy odsyajc czytelnika do maej, ale znakomitej i sawnej ksieczki Darrella Huffa (z zabawnymi ilustracjami Irvinga Geisa) How To Lie With Statistics (Jak kama przy pomocy statystyki), wydanej trzykrotnie (1954, 1982 i 1993) przez wydawnictwo W.W. Norton & Company. Pokazano tam sposoby manipulowania wykresami dla wywoania bdnego wraenia czytelnika na przykad o znaczeniu trendu. Typowe bdy spotykane dzisiaj to brak rozrnienia pomidzy wykresem supkowym (dotyczy cechy jakociowej i jego supki s oddzielone od siebie) a histogramem (dotyczy cechy ilociowej i supki przylegaj do siebie), czenie punktw na diagramie korelacyjnym oraz rozpoczynanie osi pionowej w wykresie przey od liczby wikszej od zera (to wietny przykad manipulowania wraeniem czsto niewiadomego), a koczenie na liczbie wikszej od 1 (co, jak w znanym dowcipie o Studium Wojskowym dopuszcza, e w warunkach bojowych prawdopodobiestwo moe by wiksze od jednoci).
Losowy dobr prby

W kadym podrczniku statystyki znajdujemy na poczesnym miejscu wymg losowoci i reprezentatywnoci prby. Prba jest reprezentatywna, jeeli jej struktura jest identyczna lub bardzo zbliona do struktury zbiorowoci oglnej. Dziki dziaaniu prawa wielkich liczb ta reprezentatywno zapewni si sama, jeeli prba zostaa dobrze wylosowana. Warunek dobrego losowania jest teoretycznie prosty kady element zbiorowoci oglnej powinien mie takie samo prawdopodobiestwo wejcia do prby. Praktyczne zapewnienie realizacji tej zasady jest niekiedy bardzo trudne. Wielu badaczy wydaje si nie dostrzega istnienia dyscypliny zwanej metod reprezentacyjn, w ramach ktrej opublikowano wiele podrcznikw. W wielu badaniach losowanie prby powierzane jest wyspecjalizowanym instytutom badawczym, podobnie jak proces ankietowania. Na og zadania te wykowywane s poprawnie, cho nie zawadzi przeprowadzenie kontroli losowoci prby ju po jej pobraniu. Przy losowaniu prby bardzo atwo jest popeni bdy prowadzce do niereprezentatywnoci. Przykadem mog tu by ankiety telefoniczne i internetowe, ktrych wyniki nie mog by uoglniane na cae spoeczestwo, a tylko odpowiednio na posiadaczy telefonw lub osoby posiadajce dostpu do Internetu. Szczegowe problemy reprezentatywnoci prby s rozwaane w wielu tekstach z zakresu metodologii bada spoecznych, socjologicznych i psychologicznych. Specyficzne kopoty z losowoci prby maj lekarze i ekonomici. Czy pacjenci leczeni w naszym szpitalu na konkretn chorob mog by uwaani za prb losow? To bardzo czsto zadawane pytanie. Na og odpowied jest twierdzca. Trzeba tylko rozway, czy populacja zamieszkujca teren, z ktrego mamy pacjentw mniej wicej odpowiada tzw. ogowi, oraz czy na tym terenie nie ma zewntrznych czynnikw mogcych zakca przecitn zachorowalno i przebieg leczenia danego schorzenia. Odmienna od przecitnej struktura wieku nie stanowi tu problemu, gdy istnieje moliwo wykorzystywania tzw. standaryzacji wedug wieku (to samo dotyczy bada demograficznych). O wiele wiksze kopoty teoretyczne sprawiaj ilociowe badania makroekonomiczne lub regionalne. W wielu badaniach ekonomicznych trudno jest zapewni spenienie losowoci prby. Analizujc dane statystyczne dotyczce wojewdztw Polski, bierzemy przecie pod uwag wszystkie wojewdztwa, a nie ich prb. W tej sytuacji niektrzy neguj wrcz istnienie tutaj relacji populacja prba. Warto wic, obok poj zbiorowo, populacja, wprowadzi jeszcze mechanizm ekonomiczny jako cel bada statystycznych i ekonometrycznych. Badajc ksztatowanie si bezrobocia i jego czynnikw w Polsce, na podstawie danych wojewdzkich, w danych statystycznych mamy obecny wspomniany efekt dziaania przyczyn gwnych (efekt systematyczny, strukturalny) oraz efekt oddziaywania przyczyn ubocznych (efekt losowy, przypadkowy, zakcenia). Wymagana liczebno prby to kolejne czste pytanie zadawane statystykom. Dla udzielenia precyzyjnej odpowiedzi statystyk musi odbi pieczk, zadajc wasne pytania: do czego ta prba ma suy (estymacja, testowanie), o jakim parametrze mamy wnioskowa (prba do wnioskowaniu o strukturze musi by zazwyczaj wielokrotnie
wiksza ni do wnioskowania o poziomie zjawiska), jaka jest zmienno zjawiska i wreszcie jaki poziom ufnoci zakada badacz. Czsto wystpuje strach przed ma prb; obawa o negatywn ocen recenzentw. Jednak przy bardzo kosztownych eksperymentach badawczych, krtkich szeregach czasowych lub rzadkich chorobach, alternatyw wnioskowania na podstawie maych prb jest zaniechanie analiz w ogle. Trzeba tylko zdawa sobie spraw z wpywu liczebnoci prby na wyniki wnioskowania. Przy maej prbie trudno jest udowodni hipotezy badawcze, natomiast przy bardzo duej prbie mona wrcz wykaza istotno kadej rnicy. Wikszo statystyk testowych da si przeksztaci w ten sposb, e po lewej stronie znajdzie si n, a wynik powie, ile potrzeba obserwacji, aby wykaza, e rnica, ktr obserwujemy, jest istotna statystycznie.
Prawdopodobiestwo
Aksjomatyczna definicja prawdopodobiestwa sformuowana przez Andrieja Komogorowa powiada (w uproszczeniu), e prawdopodobiestwo to liczba z przedziau [0,1] przyporzdkowana kademu zdarzeniu losowemu. W wielu dziedzinach pozamatematycznych uwaa si, e prawdopodobiestwo to liczba z przedziau [0,100], wyraona w procentach, co z jednej strony jest pokosiem czstociowej definicji prawdopodobiestwa, a z drugiej jest bardziej intuicyjne. Formalnie ta maniera jest bardzo denerwujca dla statystykw, lecz trudno jest skutecznie walczy z wieloletnimi przyzwyczajeniami caych rodowisk.
Zmienne losowe
Popularna definicja zmiennej losowej powiada, e jest to taka wielko, ktra w wyniku dowiadczenia moe przyjmowa rne wartoci, przy czym przed dowiadczeniem nie mona z absolutn pewnoci przewidzie, jaka warto wanie si zrealizuje. Bdne rozumienie zmiennej losowej zasadza si na sdzie, jakoby w zmiennej losowej wystpoway tylko przyczyny losowe. Uwaa si, e co jest losowe, jeeli jest czysto losowe czyli wyniki gier liczbowych, rzutu kostk, monet, karty, jakie otrzymujemy na rce, wynik losowania kul z urny. Tymczasem wystarczy tylko troch tej losowoci, aby absolutnie pewne prognozowanie zjawiska byo niemoliwe i ju mamy zmienn losow. Niestarannoci, ktra utrudnia lektur wielu prac, jest niestosowanie si do raczej powszechnej konwencji, ktra przewiduje, e nazwy zmiennych losowych piszemy wielkimi literami (najczciej kocowymi alfabetu), natomiast realizacje, czyli wartoci zmiennych losowych odpowiednimi literami maymi. Nieodrnianie zmiennej losowej od jej realizacji to niestety do czsty bd. Ze zmiennymi losowymi wie si jeszcze jeden do czsty bd. Parametrem pooenia jest warto przecitna czyli przecitny wynik danej zmiennej losowej. W jzyku angielskim parametr ten nazywa si expected value, wic polskie tumaczenie warto oczekiwana jest jak najbardziej poprawne jzykowo, podobnie jak pikny polski odpowiednik nadzieja matematyczna. Niestety pojcia te prowadz do bdnego
Copyright StatSoft Polska, 2004 Kopiowanie lub powielanie w jakikolwiek sposb bez zgody StatSoft Polska Sp. z o.o. zabronione 9
mniemania, jakoby warto oczekiwana to bya warto najbardziej prawdopodobna, najczstszy rezultat zmiennej losowej (taka warto to modalna). Niejednokrotnie zaskoczenie budzi proste wyliczenie pokazujce, e wartoci oczekiwan przy pojedynczym rzucie kostk jest liczba 3,5 jak to moliwe, skoro nigdy takiej wartoci nie da si otrzyma. Tymczasem rozwaanie tej liczby jako przecitnej z niemal nieskoczonej liczby rzutw jest bardziej zrozumiae.
Estymacja
Z pewnym wahaniem stawiam kontrowersyjne pytanie czy statystyka opisowa ma sens? Czy jest to tylko arytmetyka na zbiorach danych? Uwaam, e niemal nigdy nie chodzi nam tylko o analiz tych danych, ktre mamy (tych 70 pacjentw, 16 wojewdztw, 130 przedsibiorstw itp.), a tak naprawd chcemy pozna mechanizm, ktry te dane wygenerowa. Chcemy wic wnioskowa o populacji na podstawie prby. Musimy zatem stosowa metody statystyki matematycznej estymacj i weryfikacj hipotez statystycznych. W estymacji konieczne jest precyzyjne odrnianie trzech rnych (!) elementw: parametr estymator ocena. Tylko ten drugi jest zmienn losow i tylko jego waciwoci statystyczne (zgodno, nieobciono, efektywno odporno) mona rozwaa. Liczc redni arytmetyczn czy odchylenie standardowe w prbie, zapominamy, e zachowuj si one zgodnie z precyzyjnymi prawami rachunku prawdopodobiestwa. Jednym z najbardziej pechowych problemw estymacji jest szacowanie modalnej (czyli wartoci najczstszej). W sytuacji gdy prba zawiera ma liczb wartoci, z ktrych kada jest inna, wielu statystykw twierdzi, e modalnej nie ma. Na uwag, e prb wylosowano z rozkadu, ktry ma modaln, powiadaj, e prba jest zbyt maa, aby zbudowa szereg rozdzielczy i zastosowa znany wzr interpolacyjny. Niemal nieznane s proste procedury umoliwiajce szacowanie (a nie wyliczanie) modalnej z prby o dowolnej liczebnoci.
Testowanie hipotez statystycznych

Tu chyba spotyka si najwicej bdw, niedoskonaoci i niewaciwego stosowania metod statystycznych. Hipoteza statystyczna to sd o populacji (zjawisku) sformuowany bez penej znajomoci tej zbiorowoci. Hipotez naley sformuowa przed badaniem (a jak niektrzy dobitnie podkrelaj przed wczeniem komputera). Najczciej hipoteza badawcza wyraona jest jako tzw. hipoteza alternatywna, a nie jako nie pozostawiajca wyboru hipoteza zerowa. Przed badaniem trzeba te zdecydowa si, czy hipoteza alternatywna jest jednostronna (kierunkowa) czy dwustronna (bezkierunkowa). Na przykad przed policzeniem wspczynnika korelacji trzeba wiedzie, czy hipoteza badawcza brzmi: zmienne s istotnie skorelowane, czy te zmienne s dodatnio skorelowane. Przy weryfikacji hipotez rozwaa si dwa bdy. Bd pierwszego rodzaju polega na odrzuceniu hipotezy prawdziwej. Prawdopodobiestwo jego popenienia zakada sam badacz,
jest ono nazywane poziomem istotnoci i oznaczane przez . Jak wiadomo najczciej przyjmowan wartoci jest 0,05. Bd drugiego rodzaju polega na przyjciu hipotezy faszywej i oznaczany jest . Naley z naciskiem podkreli, e prawdopodobiestwa dotycz bdw w procesie decyzyjnym i nie maj nic wsplnego z prawdopodobiestwami prawdziwoci hipotez zerowej i alternatywnej. Powiada si artobliwie, e bd czwartego rodzaju polega na zastosowaniu niewaciwego testu. Niestety zdarza si to czsto. Stosuje si testy parametryczne bez sprawdzenia (lub choby zastanowienia si nad tym) zaoenia o typie rozkadu wymaganego przez dany test. Niektre testy wymagaj prb o odpowiedniej liczebnoci i przy prbach zbyt maych odpowiednie statystyki testowe maj rozkad inny, ni si spodziewa badacz, bo tak wyczyta w podrczniku. Przy badaniu wspzalenoci zdarza si wykorzystywanie metod niewaciwych dla danej skali. Nieco zamieszania wprowadzaj tu obiegowe, nieprecyzyjne nazwy testw jak test Studenta (dla jednej wartoci przecitnej, dla dwch rednich, istotnoci wspczynnika korelacji, istotnoci wspczynnika regresji wszystkie one wykorzystuj statystyk podlegajc rozkadowi Studenta) czy test chi-kwadrat (zgodnoci, niezalenoci, dla jednej wariancji, istotnoci zmiennej dodanej w modelu regresji itp.). Warto tu wspomnie o zasyszanym od lekarzy bdzie pitego rodzaju polegajcym na wyborze niewaciwego statystyka do wykonania oblicze do pracy doktorskiej lub habilitacyjnej. Przy stosowaniu testw istotnoci mona podj jedn z dwch decyzji: odrzuci hipotez zerow, przyj hipotez alternatywn, nie ma podstaw do odrzucenia hipotezy alternatywnej. Jak wida, nie jest moliwe przyjcie hipotezy zerowej, a wic nie mona przykadowo udowodni rwnoci rednich, braku korelacji czy (niestety) normalnoci rozkadu. Nieodrzucenie hipotezy zerowej oznacza w praktyce, e dalej nie wiemy nic konkretnego (w sensie naukowym). Ze zdziwieniem znajdujemy w wielu podrcznikach amerykaskich (gwnie z zakresu statystyki dla ekonomistw) rysunki, na ktrych cz osi wartoci statystyki testowej nie bdca zbiorem krytycznym okrelana jest mianem acceptance region, czyli przyjcia hipotezy zerowej. Takiej decyzji w ogle nie przewiduj testy istotnoci i takie podejcie umoliwioby atwe przeprowadzanie absurdalnych dowodw w rodzaju 4,0=4,1. Problem niedostrzegany przez wielu to tzw. testowanie wielokrotne. Jeeli zakadamy prawdopodobiestwo bdnego odrzucenia hipotezy zerowej rwne 0,05, to zgadzamy si, e przecitnie raz na 20 decyzji popeniamy bd. Ten poziom istotnoci dotyczy wszake tylko pojedyczego testowania. Jeeli stosujemy test niezalenie 20 razy, to prawdopodobiestwo, e przynajmniej raz popenimy bd nie wynosi co prawda (jak si niektrym wydaje) 1, ale nieco ponad 2/3. Zagadnienia, w ktrych mamy do czynienia z tego typu problemami, to porwnywanie rednich parami (testy post-hoc w ANOVA), testowanie istotnoci elementw macierzy korelacji, budowa modeli regresji o duej liczbie zmiennych objaniajcych. W tych sytuacjach trzeba oceni rozmiar niebezpieczestwa
Copyright StatSoft Polska, 2004 Kopiowanie lub powielanie w jakikolwiek sposb bez zgody StatSoft Polska Sp. z o.o. zabronione 11
powodowanego przez testowanie wielokrotnie (prosto wynikajce z liczby jednoczenie rozpatrywanych zmiennych lub grup), a nastpnie zastosowa metody umoliwiajce korekt poziomu istotnoci bd wartoci p.
Warto p
Jest to element weryfikacji hipotez, ale wyrniamy go w osobnym podpunkcie, gdy nagromadzenie bdw jest tu wyjtkowo due. Rozpoczynajc ju od samej nazwy. W jzyku angielskim jest to p value (niekiedy pisane przez due P). Usiowaem z rnym skutkiem wylansowa kiedy nazw prawdopodobiestwo testowe, w analogii do statystyki testowej. Ta wanie analogia jest prawdziwa, nie za analogia do poziomu istotnoci. Warto p bywa czsto nazywana zaobserwowanym poziomem istotnoci lub komputerowym poziomem istotnoci. Nie jest oczywicie adnym z nich. Czym wic jest? Podajmy tu trzy definicje: 1. Pole pod funkcj gstoci rozkadu prawdopodobiestwa statystyki testowej obliczone od empirycznej wartoci tej statystyki w kierunku wskazanym przez hipotez alternatywn. Pole to moe by jednoczciowe (przy jednostronnej hipotezie alternatywnej) lub dwuczciowe (przy hipotezie dwustronnej). 2. Prawdopodobiestwo uzyskania wyniku bardziej przeczcego hipotezie zerowej ni ten wynik, ktry wanie uzyskalimy. 3. Najostrzejszy poziom istotnoci, przy ktrym moemy odrzuci testowan hipotez na podstawie danych empirycznych, ktre posiadamy. W klasycznym testowaniu decyzj o ewentualnym odrzuceniu hipotezy zerowej podejmujemy na podstawie wyniku porwnania empirycznej wartoci statystyki testowej z wartoci krytyczn odczytan z tablic rozkadu statystyki testowej. Identyczn decyzj moemy podj, porwnujc warto p z poziomem istotnoci . Ta regua odrzucenia (p) jest prawdziwa dla wszystkich testw statystycznych (nawet tych jeszcze nie wymylonych) i nie wymaga wykorzystywania tablic statystycznych. Jej powszechne stosowanie jest moliwe dziki programom komputerowym, ktre dla obliczenia pola nie musz analitycznie wyznacza caki z funkcji gstoci. Teraz badacz nie ma problemw obliczeniowych i powinien skoncentrowa si na wanych sprawach podstawowych: formuowanie hipotez, wybr testu, realno zaoe, jako danych statystycznych, interpretacja wynikw. Gwna niewaciwa interpretacja wartoci p to uznawanie jej za prawdopodobiestwo prawdziwoci hipotezy zerowej. Wiele jest te niewaciwoci (lub przynajmniej braku elegancji) w prezentowaniu wartoci p w publikacjach. Pole jest konkretn liczb i zapis w postaci nierwnoci jest tu nie na miejscu. Przecie p<0,2756 nic nie oznacza, bo w kocu nie wiadomo, czy to p jest mniejsze od =0,05 czy nie. Nie naley obawia si zapisu p=0,0000. Przeciwnicy tego zapisu zapominaj, e w statystyce w wikszoci sytuacji zero nie oznacza nic (waciwym oznaczeniem jest tu kreska) tylko bardzo mao. Niemal powszechna w literaturze
wiatowej konwencja prezentowania wartoci p z dokadnoci do czwartego miejsca po przecinku uniemoliwia przedstawienia pola powiedzmy 0,00003, inaczej ni 0,0000. Maniera stosowania zapisu NS (nonsignificant nieistotny) zamiast podawania wartoci p jest niezrozumiaym ograniczeniem wanej informacji. Przecie p=0,8767 (prawdopodobnie hipoteza zerowa jest prawdziwa) oznacza co innego ni p=0,1245 (przy wikszej prbie jest szansa na udowodnienie istotnoci warto szuka dalej), mimo e formalnie obydwie liczby podpadaj pod kategori NS.
Jak unikn bdw?

Przysowie powiada, e naley uczy si nie na bdach, tylko na uniwersytetach. Te uniwersytety moemy uoglni na autorytety i dobre ksiki. To tam trzeba szuka porad i wskazwek. Good i Hardin [1] wskazuj na nastpujce rda bdw popenianych przy stosowaniu metod statystycznych: Uywanie tego samego zbioru danych do formuowania i testowania hipotezy, Pobieranie prby z niewaciwej populacji lub brak jej okrelenia przed badaniem, Prby, ktre s nielosowe lub niereprezentatywne, Pomiar zych zmiennych lub mierzenie nie tego, co chcielimy mierzy, Uycie niewaciwych metod statystycznych, Brak weryfikacji uzyskanych modeli, Pozwolenie na to, aby statystyczne procedury podejmoway decyzje za badacza. Formuuj oni czciow recept na zastosowania statystyki wolne od bdw: 1. Sformuuj cele bada i sposb wykorzystania wynikw, zanim rozpoczniesz eksperyment laboratoryjny, badanie kliniczne lub przygotowanie ankiety oraz zanim przeanalizujesz swj zbir danych. 2. Okrel populacj, ktrej maj dotyczy wyniki Twoich bada. 3. Okrel list wszystkich moliwych rde wariancji. Kontroluj je lub mierz, aby omin ich zwizek z relacjami pomidzy tymi zagadnieniami, ktre s gwnym przedmiotem naszego zainteresowania. 4. Sformuuj hipotezy i wszystkie zwizane z nimi alternatywy. Okrel moliwe wyniki eksperymentw, ich znaczenie i potencjalne wnioski. Zrb to, zanim zbierzesz jakiekolwiek dane oraz zanim wczysz komputer. 5. Szczegowo okrel sposb pobierania prby. 6. Uywaj waciwych estymatorw zgodnych, efektywnych, wystarczajcych, przedziaowych i odpornych.
13
7. Znaj zaoenia wystpujce w testach z ktrych korzystasz. Uywaj testw o ograniczonej liczbie zaoe, ale mocnych (szczeglnie wzgldem alternatyw, ktre testujesz). 8. W sprawozdaniu z bada okrel dokadnie badan populacj oraz sposb pobierania prby. Napisz, ktre elementy prby nie weszy do ostatecznego pliku danych i dlaczego.
Literatura
1. Good P.I., Hardin J.W., Common Errors in Statistics (and How to Avoid Them), John Wiley & Sons, 2003. 2. Huffa D., How To Lie With Statistics, W.W. Norton & Company, 1954, 1982, 1993.
14

Błędy W Statystyce

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Błędy W Statystyce

Uploaded by

Copyright:

Available Formats

StatSoft Polska, tel. (12) 4284300, (601) 414151, info@statsoft.pl, www.statsoft.

O NIEWACIWYM STOSOWANIU METOD STATYSTYCZNYCH

Podstawowe pojcia statystyczne

StatSoft Polska, tel. (12) 4284300, (601) 414151, info@statsoft.pl, www.statsoft.pl

StatSoft Polska, tel. (12) 4284300, (601) 414151, info@statsoft.pl, www.statsoft.pl

Graficzna prezentacja danych statystycznych

StatSoft Polska, tel. (12) 4284300, (601) 414151, info@statsoft.pl, www.statsoft.pl

Losowy dobr prby

StatSoft Polska, tel. (12) 4284300, (601) 414151, info@statsoft.pl, www.statsoft.pl

StatSoft Polska, tel. (12) 4284300, (601) 414151, info@statsoft.pl, www.statsoft.pl

Testowanie hipotez statystycznych

StatSoft Polska, tel. (12) 4284300, (601) 414151, info@statsoft.pl, www.statsoft.pl

StatSoft Polska, tel. (12) 4284300, (601) 414151, info@statsoft.pl, www.statsoft.pl

StatSoft Polska, tel. (12) 4284300, (601) 414151, info@statsoft.pl, www.statsoft.pl

Jak unikn bdw?

StatSoft Polska, tel. (12) 4284300, (601) 414151, info@statsoft.pl, www.statsoft.pl

You might also like