You are on page 1of 193

Agnieszka Nowak - Brzeziska

Gdy zbir zdarze elementarnych jest


skoczony, odwzorowywanie go w zbir liczb
(czyli tworzenie zmiennej losowej) moe by
mniej uyteczne ni w przypadku zmiennej
losowej cigej.

Jeli zbir zdarze elementarnych nie


wykazuje naturalnego uporzdkowania,
mwimy o skali nominalnej
Przykady: grupa krwi (0,A,B,AB), rozpoznanie,
czynnik etiologiczny, sympatie polityczne
(PO,PiS,PSL,...), wyznanie, narodowo, rasa...

Gdy w zbiorze zdarze istnieje naturalne


uporzdkowanie, ale wprowadzanie
odlegoci nie ma sensu, mamy do
czynienia ze skal porzdkow.
Przykady: wynik leczenia (pogorszenie,b.z.,
poprawa), wyksztacenie (brak, podst., rednie,
wysze), WBC (poniej, w normie, powyej)

Gdy w skoczonym zbiorze zdarze


elementarnych istnieje odlego, prezentacja wynikw w postaci zmiennej
losowej jest w peni uzasadniona.
Przykady: ttno, WBC (tys./mm3), liczba dzieci

Gdy liczba moliwych wartoci jest dua,


traktujemy tak zmienn jako cig.

Pojcie skali pomiarowej ma zastosowanie nie


tylko do zmiennych losowych (wynikw
pomiarw), ale take w odniesieniu do
wielkoci kontrolowanych w eksperymencie
(czynnikw).

Pojecie hipotezy statystycznej ewoluowao przez setki lat. Pierwsze


zachowane
wzmianki o koncepcie hipotezy mona znale w pracy Teoria Matematyki
greckiego filozofa Geminusa (pierwsze dziesiciolecia naszej ery).
Termin hipoteza by przez wieki uywany w astrologii oraz fizyce.
Przykadami sa prace Gottfrieda Wilhelma Leibniza (Nowe hipotezy
fizyczne, 1671) oraz Isaaca Newtona (Hipotezy o wietle, 1675).
Wzmianki
o pierwszej hipotezie zweryfikowanej na gruncie analizy
statystycznej dotycz pracy medyka Johna Arbuthnota (1667 1735), ktry w
roku 1710 opublikowa w Royal Society prac An argument for Divine
Providence, taken from the constant regularity observd in the births of both
sexes. W pracy tej przedstawi roczne liczby urodze chopcw oraz
dziewczt w Londynie z lat 1625-1710 oraz zauway, e w kadym roku
rodzio sie wicej chopcw ni dziewczt. Obliczajc stosowne
prawdopodobiestwa na ich podstawie stwierdzi, e czsto urodzin
chopcw jest statystycznie istotnie wiksza ni czsto urodzin dziewczt.

Przez kolejny wiek uczeni stawiajc i


weryfikujc hipotezy statystyczne kierowali
si intuicj.
Dopiero w latach dwudziestych XX wieku
aksjomatyczne podstawy dla zagadnienia
testowania opracowali Jerzy Spawa-Neyman
(matematyk polskiego pochodzenia) i Egon
Pearson (syn znakomitego statystyka Karla
Pearsona).

hipotezy proste
hipotezy zoone
hipotezy parametryczne
hipotezy nieparametryczne

Hipoteza statystyczna: kady

sd
o
populacji
generalnej wydany na podstawie bada czciowych,
dajcy si zweryfikowa metodami statystycznymi,
czyli na podstawie wynikw bada prby.
Hipoteza parametryczna:
hipoteza
dotyczca
parametrw rozkadu statystycznego.
Hipotezy
weryfikujemy
za
pomoc
testw
statystycznych.
Test statystyczny:
metoda postpowania, ktra
kadej prbce x1, x2, ...,xn przyporzdkowuje z
ustalonym
prawdopodobiestwem
decyzje
odrzucenia lub przyjcia sprawdzanej hipotezy.

Test statystyczny to procedura pozwalajca


oszacowa prawdopodobiestwo spenienia
pewnej hipotezy statystycznej w populacji na
podstawie danych pochodzcych z prby
losowej

Testy parametryczne weryfikuj hipotezy dotyczce


wartoci
parametrw
rozkadu
badanej
populacji
(najczciej rednie, wariancje, odsetki). W wikszoci
przypadkw statystyki testowe obliczane s przy
wykorzystaniu bezporednich danych pochodzcych z
prby, a ich rozkad zaley od rozkadu analizowanych
zmiennych.
Testy nieparametryczne su do weryfikacji rnorakich
hipotez, lecz nie s one bezporednio powizane z
parametrami rozkadu (bywaj wyjtki). Dotycz one raczej
samej postaci rozkadu (ksztatu), podobiestwa pomidzy
rozkadami, losowoci. Testy te operuj na danych
przeksztaconych najczciej rang, wobec czego
rozkad statystyki z prby nie zaley bezporednio od
rozkadu danych.

wartoci badanych zmiennych: rednia wzrost


mczyzn w wieku 30 lat wynosi 179 cm
rnicy midzy grupami osobnikw w
zakresie rozpatrywanej cechy: lek A skuteczniej
zwiksza krzepliwo krwi ni lek B
zalenoci midzy badanymi cechami: istnieje
silna zaleno pomidzy iloci wypalanych papierosw a
zachorowalnoci na nowotwr puc
porwnania rozkadu zmiennych: zmienna masa
ciaa ma rozkad normalny

Weryfikacja hipotez statystycznych


polega na zastosowaniu okrelonego
schematu
postpowania
zwanego
testem
statystycznym,
ktry
rozstrzyga, przy jakich wynikach z
prby sprawdzon hipotez naley
odrzuci, a przy jakich nie ma
podstaw do jej odrzucenia.

parametryczne (su do weryfikacji hipotez


parametrycznych) i
testy nieparametryczne weryfikacja hipotez
nieparametrycznych.
Hipoteza, ktra podlega sprawdzeniu zwana
jest hipotez zerow (H0). Konkurencyjn dla
niej hipotez jest hipoteza alternatywna (HA).
Hipoteza zerowa - ma najczciej miejsce
wwczas, gdy domniemamy, e pomidzy
rozpatrywanymi parametrami lub rozkadami
dwch czy te kilku populacji nie ma rnic.

1.
2.
3.

4.

5.

Sformuowanie tezy rzeczowej i ustaleniu hipotez H0 i Ha;


Wyboru waciwej funkcji testowej (statystyki z prby);
Przyjciu stosownego poziomu istotnoci ;
Odczytaniu wartoci krytycznych w tablicach dystrybuanty
waciwego rozkadu i ustaleniu obszaru krytycznego;
Odrzuceniu hipotezy zerowej na korzy hipotezy
alternatywnej, gdy funkcja testowa obliczona z prby
znajduje si w obszarze krytycznym i nie odrzucenie jej,
gdy funkcja testowa jest poza obszarem krytycznym.

Najpierw trzeba dysponowad modelami, ktre mog


opisywad badan zbiorowod. Takim bardzo oglnym
modelem, ktry moe byd zastosowany do opisu
zachowania si cechy w populacji, jest tzw. Zmienna
losowa. Jest to wielkod, ktra w wyniku dowiadczenia
przyjmuje rne wartoci, przy czym przed dowiadczeniem
nie jestemy w stanie okrelid z absolutn pewnoci, jaka
wartod wanie si pojawi (zrealizuje).
Co najwyej potrafimy okrelid zbir moliwych wartoci,
jakie mog pojawid si, oraz odpowiadajce im
prawdopodobieostwa.

Prawdopodobieostwa te musz sumowad si do jednoci.


Funkcja, ktra opisuje sposb przyporzdkowania
prawdopodobieostw poszczeglnym wartociom zmiennej
losowej, nazywa si rozkadem prawdopodobieostwa.
Zmienne losowe dziel si na skokowe i cige.
Rozkad prawdopodobieostwa moe byd przedstawiany
przy uyciu rnych funkcji. Najbardziej uniwersalna jest
dystrybuanta, ktra podaje prawdopodobieostwo tego, e
zmienna losowa przyjmie wartoci mniejsz od zadanej
liczby.
Przy zmiennych skokowych korzystamy z funkcji rozkadu
prawdopodobieostwa,
ktra
przyporzdkowuje
prawdopodobieostwo konkretnym wartociom.

Przy zmiennych losowych cigych stosujemy funkcj


gstoci prawdopodobieostwa. Pokazuje ona jak
prawdopodobieostwo rozkada si w przedziale zmiennoci
danej zmiennej losowej.
Wrd rozkadw prawdopodobieostwa zmiennej cigej
najczciej mwi si o rozkadzie normalnym. Funkcja
gstoci tego rozkadu ma ksztat dzwonowaty,
symetryczny.
Wikszod zjawisk ksztatowanych przez natur czy
zakceo czysto losowych rozkada si wg tej funkcji.
Dodatkowo wiele zmiennych losowych po prostych
przeksztaceniach da si sprowadzid do rozkadu
normalnego.

f(x)

f ( x)dx
a

f(x)

krzywa Gaussa

1
f x
e
2
Parametry:
warto oczekiwana
odchylenie standardowe

x 2

2 2

0.1

0.2

30 st. swob.
3 st. swob.
1 st. swob
normalny

0.0

f(t)

0.3

0.4

Rozklad t-Studenta

-4

-2

0
t

0.4

Rozklad chi-kwadrat

0.2
0.1
0.0

f(chi^2)

0.3

10 st. swob.
3 st. swob.
1 st. swob
normalny

10
chi^2

15

20

0.15
0.00

0.05

f(x)

0.10

eksponencjalny
log-normalny
logistyczny
normalny

10
x

15

20

Zmienna losowa moe byd rwnie opisana przy


pomocy pewnych charakterystyk liczbowych, z ktrych
wiele jest jednoczenie parametrami funkcji
opisujcych rozkad prawdopodobieostwa.
Najczciej mowa tu o miarach pooenia (wartod
przecitna, modalna, mediana, kwantyle) oraz miarach
zmiennoci (wariancja, odchylenie standardowe,
wspczynnik zmiennoci, odchylenie dwiartkowe).
Ksztat rozkadu jest charakteryzowany przez miary
asymetrii, spaszczenia i koncentracji.

O wiele czciej jest jednak tak, ze nie znamy typu rozkadu


ani wartoci parametrw. I wtedy przychodzi z pomoc
wspomniane wczeniej wnioskowanie statystyczne.
Wnioskujemy o zbiorowoci (populacji) na podstawie
prby.
Poprawnod wnioskowania zaley przede wszystkim od
tego, czy prba dobrze reprezentuje analizowan
populacj, czy struktura prby jest jak najbardziej zbliona
do struktury populacji.
Reprezentatywnod prby jest zapewniona, gdy prba jest
losowa.
Jednak losowod nie zawsze jest oczywista.

Obejmuje 2 grupy metod:

Estymacj
oraz

Weryfikacj

hipotez
statystycznych.

Szacowanie, odgadywanie rozkadu lub


wartoci
parametrw w populacji na podstawie prby.
Estymacja rozkadu to estymacja nieparametryczna.
Najprostsz metod jest tu obliczanie czstoci oraz
rysowanie histogramu, ktry pozwala wstpnie okrelid
typ rozkadu.
Estymacja parametryczna wykorzystuje pewne
charakterystyki liczbowe wyliczane z prby.

Poniewa prba jest losowa, to i estymator jest


zmienn losow posiadajc wasny rozkad
prawdopodobieostwa.
Wymaga si, aby estymatory byy zgodne (czyli w miar
wzrostu liczebnoci prby coraz precyzyjniej
odgadyway szacowany parametr), nieobcione
(rednio trafiajce w nieznany parametr), efektywne
(zapewniajce may bd estymacji) oraz odporne
(mao wraliwe na bdy w danych).

Jeeli przyjmujemy, ze nieznana wartod parametru jest


rwna ocenie (wartoci estymatora) otrzymanej w
prbie, to mamy do czynienia z estymacj punktow.
Mona te wykorzystywad informacje o rozkadzie
estymatora i konstruowad tzw. Przedziay ufnoci, czyli
przedziay liczbowe, o ktrych z du ufnoci
(zazwyczaj 95 %) moemy powiedzied, e zawieraj w
sobie nieznan, szukan wartod parametru.

Pozwala przy pomocy testw statystycznych


(TS) zweryfikowa hipotez (sd) o rozkadzie
lub parametrze populacji.
TS to procedura pozwalajca odrzuci badan
hipotez z maym ryzykiem popenienia bdu
polegajcego
na
odrzuceniu
hipotezy
prawdziwej.
Ryzyko to mierzone jest tzw. poziomem
istotnoci, ktry przez wikszo badaczy
przyjmowany jest na poziomie 0,05.

Przy korzystaniu z TS badacz musi sformuowad


hipotez zerow (rozkad jest okrelonego typu,
parametr jest rwny konkretnej liczbie, parametry w
dwch populacjach s rwne, itp.) oraz hipotez
alternatyw.

Niezmiernie wanym jest wybr waciwego testu


statystycznego i sprawdzenie zaoeo przez niego
wymaganych.
Testy parametryczne wymagaj, aby rozkad badanej cechy
by okrelonego typu (zazwyczaj normalny), a testy
nieparametryczne wolne s od takich zaoeo.
Dawniej oceniao si to poprzez odczytywanie z tablic tzw.
Wartoci krytycznych i porwnywanie z nimi empirycznej
wartoci statystyki testowej.
Obecnie wszystkie statystyczne pakiety komputerowe
podaj wartod p, ktra jest prawdopodobieostwem
otrzymania wyniku bardziej przeczc hipotezie zerowej ni
ten rezultat, ktry wanie otrzymalimy.

Hipotez zerow naley odrzucid, gdy wartod p jest


mniejsza od przyjtego poziomu istotnoci.
Jeeli natomiast wartod p jest wiksza od poziomu
istotnoci, nie oznacza to udowodnienia prawdziwoci
hipotezy zerowej.
Mwimy wtedy po prostu, ze nie ma podstaw do
odrzucenia tej hipotezy, a wic potwierdzamy hipotez
alternatywn i tylko tyle, i a tyle.

Przy weryfikacji hipotez statystycznych mona podjd


poprawn decyzj lub mona popenid jeden z dwch
bdw:
bd I rodzaju polegajcy na odrzuceniu testowanej
hipotezy H0, gdy jest ona prawdziwa;
bd II rodzaju polegajcy na przyjciu hipotezy H0,
gdy jest ona faszywa (tzn. prawdziwa jest hipoteza
alternatywna HA).

Decyzja
Przyj H0

Odrzuci H0

H0 jest
prawdziwa
Decyzja
poprawna

H0 jest
faszywa
Decyzja
bdna (bd II
rodzaju)

Decyzja
bdna (bd I
rodzaju)

Decyzja
poprawna

Aby skonstruowad test statystyczny pozwalajcy weryfikowad


hipotez H0, naley okrelid nastpujce elementy:
wybrad statystyk testow stosownie do treci postawionej
hipotezy H0;
ustalid
dopuszczalne prawdopodobieostwo
bdu
pierwszego rodzaju, tzn. ustalid poziom istotnoci testu;
okrelid hipotez alternatywn;
wyznaczyd zbir krytyczny tak, aby przy danym poziomie
istotnoci zminimalizowad prawdopodobieostwo bdu
drugiego rodzaju.

Testem istotnoci nazywamy test, ktrego celem jest


jedynie zweryfikowanie jednej wysunitej hipotezy pod
ktem jej faszywoci z pominiciem innych hipotez.
Testy
istotnoci
uwzgldniaj
jedynie
prawdopodobieostwo popenienia bdu I rodzaju.
Naley pamitad, e nieodrzucenie weryfikowanej
hipotezy H0 nie oznacza jej przyjcia.

W badaniach medycznych najczciej spotykanym


problemem statystycznym jest porwnanie dwch
populacji pod wzgldem jednej cechy lub dwch cech.
Metody takich porwnao mona podzielid na dwie grupy:

porwnywanie pewnych parametrw populacji (rednie,


odchylenia standardowe) - wwczas stosuje si najczciej
testy
parametryczne;

porwnanie pewnych cech, ktre nie s parametrami (np.


ksztat rozkadu) - w takich przypadkach zwykle stosuje si
testy nieparametryczne.

Wprawdzie parametr jest bardziej poszukiwan i


waniejsz charakterystyk, zarwno populacji, jak i
pojedynczego czowieka, jednake jego brak nie
zmusza do rezygnacji z badao statystycznych.
W medycynie i biologii bardzo czsto przeprowadza si
badania porwnujce wartoci dwch lub kilku
rednich.

Naley zapamita, e w procesie weryfikacji hipotez


przez
bd
nie
rozumie
si
typowego
bdu
obliczeniowego, lecz tzw. bd wnioskowania
Wyrnia si dwa podstawowe rodzaje bdw w testach
statystycznych
Bd I rodzaju (poziom istotnoci ) polega na tym, e
odrzucamy badan hipotez H0 podczas gdy jest ona
prawdziwa
Bd II rodzaju () polega na tym, e przyjmujemy badan
hipotez H0 podczas gdy jest ona faszywa
Podane jest aby oba te bdy byy jak najmniejsze,
jednake w praktyce jest tak, e obnienie jednego z nich
powoduje wzrost drugiego
Jedynym wyjciem jest minimalizowanie bdu II rodzaju,
przy ustalonej wielkoci bdu I rodzaju (poziomu
istotnoci).

Przez
pojcie
mocy
testu
rozumie
si
prawdopodobiestwo odrzucenia hipotezy zerowej
kiedy jest ona faszywa.
Innymi sowy moc testu = 1 (1-prawdop.bdu II
rodzaju) .
Test statystyczny moe by mocny gdy w wikszoci
przypadkw jest w stanie odrzuci faszyw H0.
Test statystyczny moe by saby gdy istnieje due
prawdopodobiestwo przyjcia H0 pomimo jej
faszywoci.
W badaniach klinicznych, badaniach nad nowymi
lekami, etc. minimalna moc testu powinna wynosi
0,8.

Testy normalnoci rozkadu s specyficznymi testami


badajcymi zgodno danego rozkadu z rozkadem
normalnym
Rozkad
normalny jest najczciej wykorzystywanym
rozkadem w statystyce, gdy wiele cech ma wanie
rozkad zbliony do niego
Ma specyficzne wasnoci (m.in.):
Jest symetryczny (obserwacje rozkadaj si rwnomiernie
wok redniej: rednia=mediana=dominanta)
68,27 % wynikw jest w przedziale (m -, m + )
95,45 % wynikw jest w przedziale (m -2, m +2)
99,73 % wynikw jest w przedziale (m -3, m + 3)
Zaoenie o normalnoci rozkadu wymagane jest czsto w
przypadku testw parametrycznych

Wrd
licznych
rozkadw
cigych
najwiksze znaczenie w statystyce posiada
rozkad normalny. W przyrodzie bowiem
istnieje silna tendencja rozkadania zbiorw
wok rednich w pewien charakterystyczny
sposb,
zwany
rozkadem
normalnym
(Gaussa).
Ksztat krzywej rozkadu normalnego (krzywa
o
ksztacie
dzwonu,
biegnca
do
nieskoczonoci w obu kierunkach) zaley od
2 parametrw: oraz .

Parametr to warto rednia populacji,


wzgldem ktrej rozkad jest symetryczny.
Parametr

to
odchylenie
standardowe
stanowice miar rozrzutu, zmienno wok
redniej . Najczciej nie znamy prawdziwej
wartoci , lecz oceniamy (szacujemy j) na
podstawie redniej obliczonej z prby x
Podobnie jeli nie znamy , estymujemy
odchylenie populacji na podstawie odchylenia w
prbie (s).
W rozkadzie normalnym: rednia, mediana i
moda s sobie rwne.

O zmiennej losowej X mwimy, e ma rozkad


normalny, jeeli jej gsto
prawdopodobiestwa okrela rwnanie:

1
f ( xi )
e
2

1 x 2
( i
)
2

f(xi)- gsto
=3.14159 (stosunek obwodu koa do rednicy
e=2,71828
xi - wartoci z przedziau (- ,+)

Rwnanie to pozwala m.in. okreli pole


obszaru pod krzyw pomidzy dwoma
punktami (x1 i x2) na osi poziomej, jeeli
znane s: rednia i odchylenie standardowe.
Pole to rwna si prawdopodobiestwu (P)
tego, e zmienna losowa X posiadajca taki
rozkad cigy przyjmie warto okrelonego
przedziau w granicach wyznaczonych przez
te wartoci (x1,x2).
Powierzchnia ta rwna si:
x2

1
P( x1 X x2 )
e
2 x1

( x ) 2

dx
2
2

f(x)

f ( x)dx
a

Mona dokona transformacji dowolnego


rozkadu normalnego do standaryzowanego
rozkadu normalnego ze redni rwn 0 i
odchyleniem standardowym 1.
Standaryzacji dokonujemy odejmujc ( x )
od wartoci xi i dzielc rnic przez (s).
Jeeli zmienna X ma rozkad normalny ze
redni i wariancj 2, wwczas zmienna X
ma rwnie rozkad normalny ze redni 0 i
odchyleniem standardowym 1.

Prawdopodobiestwo pod krzyw normaln


odpowiadajce cakowitej liczbie obserwacji
(N) jest rwne jednoci. Przyjmujc krzyw
standaryzowan, gdzie N=100, moemy w
okrelaniu powierzchni pod krzyw operowa
procentami.

ok. 68% wszystkich wartoci zmiennej odbiega od redniej


oczekiwanej nie bardziej ni o jedno odchylenie
standardowe,
ok. 95 % wszystkich wartoci nie bardziej ni o dwa
odchylenia,
a w zasadzie wszystkie wartoci (99.8%) zmiennej nie
odbiegaj od oczekiwanej wartoci redniej bardziej ni o
trzy odchylenia standardowe.
Tak wic w przedziale (-,) i (,+ ) znajduje si ~34%
pomiarw (razem ~68%). Na powierzchni rodkow
krzywej ( ) przypada 2/3 caej powierzchni, tj. 68%
(p=0,68).
W przedziale (-2,) i (,+ 2) powierzchnia pod krzyw
stanowi 47,72% (razem ~95,5%).
Poza dwoma odchyleniami od redniej pozostaje po
~2,25% pola pod krzyw normaln.

Kiedy cecha X ma rozkad normalny,


wspomniane
95,5%
odpowiada
prawdopodobiestwu, e 95,5% wynikw
losowo wybranych zawiera si w przedziale o
kocach 2.
W granicach 3 powinno si znale
99,74% obserwacji.

Wynik z przedziau x 1s i x 2s
x 1s
x 2s
Oraz
i
nazywamy w
medycynie
wynikiem
klinicznodiagnostycznie ostrzegawczym.
Wynik pomidzy x 2s i x 3s jest diagnostycznie
wtpliwy. Wynik powyej wartoci x 3s lub
poniej x 3s wskazuje na stan patologiczny.

Zmiana
wartoci
redniej
powoduje
przesunicie krzywej rozkadu w lewo lub w
prawo, podczas gdy zmiana odchylenia std.
Zmienia wysoko lub szeroko krzywej, a
wic wpywa na ksztat rozkadu.
Parametrami ksztatu rozkadu s: skono i
kurtoza

Charakteryzuje odchylenie rozkadu od symetrii.


Jeli warto standaryzowana skonoci po standaryzacji
jest wyranie rna od zera, wwczas dany rozkad jest
asymetryczny,
odstaje
od
charakterystyki
rozkadu
normalnego, ktry jest doskonale symetryczny.
Dla rozkadu lewoskonego: 1 < 0
Dla rozkadu prawoskonego: 1 > 0

( K3 )

3
(
x

)
i

K3

Dla rozkadu normalnego: rednia, mediana i


moda s identyczne
Dla rozkadu lewoskonego: rednia <
mediana < moda
Dla rozkadu prawoskonego: rednia >
mediana > moda

A normalny
B dwumodalny
C prawoskony
D - lewoskony

Wyliczana jest z wzoru:


(K4 )

4
(
x

)
i

K4

Po standaryzacji:
Kurtoza mierzy spiczasto rozkadu.

Jeeli
kurtoza
jest
wyranie < 0, wwczas
rozkad jest albo bardziej
spaszczony
od
normalnego albo bardziej
wysmuky.
Dla rozkadu normalnego
kurtoza wynosi dokadnie
0.
Wartoci
2>
0
charakteryzuj
rozkad
leptokurtyczny
(wysmuky).
Wartoci
2<
0
charakteryzuj
rozkad
platykurtyczny
(spaszczony).
a)
b)

c)
d)

Rozkad mezokurtyczny (normalny)


Zoony rozkad 2 populacji, dla ktrych rednie s w przyblieniu
rwne, ale wariancje jednej s sporo wiksze od drugiej.
Rozkad leptokurtyczny (wysmuky)
Rozkad platykurtyczny (spaszczony) szczegolny przypadek
dwumodalnego.

Najczciej wiadczy o wystpowaniu dwch


niezalenych subpopulacji normalnych o
zblionych rednich i rnych wariancjach.

Jest szczeglnym przypadkiem rozkadu


dwumodalnego, czyli takiego, ktry posiada 2
maksima.
Taki objaw wskazuje, e prba nie jest
jednorodna i jej obserwacje pochodz z 2
rnych populacji, z ktrych kada ma
rozkad normalny.
Takie prby powinno si rozdzieli i osobno
analizowa kad.

Wnioski statystyczne, u podstawy ktrych ley


pewno wynoszca co najmniej 95% (p<0,05),
nazywamy istotnymi.
Kiedy podstaw odrzucenia hipotezy jest
prawdopodobiestwo bdu mniejsze ni 0,1%
(np. przy =0,001), to wnioski takie okrelamy
jako wysoce (bardzo) istotne (p<0,001).
Kiedy otrzymane w wyniku dowiadczenia
wartoci zmiennej X mieszcz si w przedziale
ustalonym na poziomie istotnoci , wwczas
hipotez zerow odrzucamy. Z tego powodu
przedzia
ten
nazywa
si
przedziaem
krytycznym.

Gdy mamy standardowy rozkad normalny


N(0,1) to kada warto cechy xi oddalona
jest od redniej 0 o okrelon liczb odchyle
standardowych (z).
Prawdopodobiestwo
(skumulowane
czstoci powierzchnia) dla wartoci z
mniejszych ni z=-1.96 wynosi 0,025 (2,5%).
Dla wartoci mniejszych ni z=-2.58 to
prawdopodobiestwo wynosi 0,005,
a prawdopodobiestwu 0,0005 odpowiada
warto z = -3.29.

Pobierajc losowo z rozkadu normalnego pojedynczy element,


mamy szans 2.5% ze pierwszym wylosowanym elementem
bdzie liczba mniejsza od wartoci redniej o wicej ni 1.96
odchyle standardowych oraz szans 2.5% ze bdzie to warto
wiksza od wartoci redniej o wicej ni 1.96 odchyle
standardowych.
Kiedy dla pojedynczego pomiaru a warto |z|>1.96, czyli z<1.96 lub z>1.96 to hipotez H0, i nasz pojedynczy pomiar
pobrano losowo z rozkadu normalnego odrzucamy (p<0,05,
wnioskowanie ze susznoci wiksz od 95%).
Kiedy dla pojedynczego pomiaru a warto |z|>2.58 to hipotez
H0 odrzucamy z jeszcze wiksz pewnoci, tzn. na poziomie
istotnoci =0,01 (p<0,01, wnioskowanie ze susznoci
wiksz od 99%).
Kiedy dla pojedynczego pomiaru a warto |z|>3.29 to hipotez
H0 odrzucamy z jeszcze wiksz pewnoci, tzn. na poziomie
istotnoci =0,001 (p<0,001, wnioskowanie ze susznoci
wiksz od 99,9%).

W wybranej losowo grupie studentw oznaczono zawarto hemoglobiny Hb


we krwi (g/100ml), otrzymujc nastpujce dane: 14.0, 15.4, 13.7, 15.8,
15.2, 15.7. Zweryfikowa hipotez, e rednia zawarto Hb w populacji
majcej rozkad normalny, o nieznanej wariancji rwna si 15g/100ml, do
alternatywnej.
Rozwizanie: inaczej testujemy, czy losow prb o licznoci n=6, pobrano
z populacji o rozkadzie normalnym ze redni =15g/100 ml. Poniewa nie
znamy wariancji z populacji 2 i mamy ma prb a wic do testowania
powyszej hipotezy uy moemy tylko rozkadu t. Wobec tego:
H0:=15
Ha:15
Obliczone wartoci redniej, odchylenia standardowego, i wariancji wynosz
odpowiednio rednia =14.97, wariancja S2 = 0,804, odchylenie
standardowe s=0,36.
15 14.97
td
0,08
Wyliczamy warto dowiadczaln td:
0.36
Dla testu dwustronnego przy =0,05 odczytana warto tabelaryczna t
t/2(n-1)=t(0,025;5) = 2,57. Poniewa td=0,08 < tt< 2.57, nie ma podstaw
do odrzucenia hipotezy zerowej, e = 15g/100 ml (p>0,05).

rozkad populacji nie rni si istotnie od


rozkadu normalnego,
warto oczekiwana (rednia) badanej cechy
nie rni si istotnie od 20,
wartoci oczekiwane (rednie) badanej cechy
w dwch grupach nie rni si istotnie,
nie ma istotnej zalenoci pomidzy dwoma
badanymi cechami.

rozkad populacji rni si istotnie od


rozkadu normalnego,
Warto oczekiwana (rednia) badanej cechy
jest istotnie wiksza od 20,
wartoci oczekiwane (rednie) badanej cechy
w dwch grupach rni si istotnie,
istnieje istotna zaleno pomidzy dwoma
badanymi cechami.

1.

2.

Prby
niezalene
obserwacje
w
poszczeglnych grupach dokonywane s na
rnych obiektach.
Prby zalene - obserwacje dokonywane s
dwukrotnie na tych samych obiektach.

Porwnanie poziomw parametrw medycznych dla dwch grup


sprowadza si z reguy do porwnania przecitnych poziomw
zmiennych lub te porwnania rozkadw analizowanego parametru
2.
Naley ustali czy prby s niezalene czy te zalene
3.
Czy znane s rozkady cech w populacji, w prbkach ?
4.
Jeeli spenione s wszystkie zaoenia (gwnie normalno,
ewentualnie rwno wariancji, liczebno prb) naley wykona test
parametryczny:
Test t dla prb niezalenych
Test t dla prb zalenych (zaoenie: rozkad rnic ma by zbliony do
normalnego)
5. W przypadku naruszenia jakiegokolwiek z zaoe (np. jedna z grup
ma rozkad cechy istotnie rny od normalnego lub jest bardzo maa)
wwczas wykonuje si test nieparametryczny:
Dla prb niezalenych: test Manna-Whitneya-Wilcoxona
Dla prb zalenych: test kolejnoci par Wilcoxona (rangowanych znakw)
Alternatywa: normalizacja danych, wykonywanie testw parametrycznych
na danych rangowanych.
1.

Liczba grup do porwnania nie powinna by za dua (teoretycznie


kilkanacie, praktycznie najlepiej kilka).
Jeeli porwnanie ma by reprezentatywne to prby powinny by
raczej liczne oraz mie zblione licznoci (nie powinna
wystpowa sytuacja, w ktrej np. dwie grupy licz po 40
obserwacji, a trzecie 8).
Wikszo medycznych porwna wielu grup dotyczy poziomw
analizowanych parametrw medycznych (gwnie rednie).
W przypadku zmiennych jakociowych porwnuje si po prostu
odsetki w kilku grupach (k>2).
Najczciej mamy te do czynienia z analiz jednoczynnikow
(jeden czynnik grupujcy/efekt/zmienna zalena).
W przypadku wielu czynnikw mona bada interakcje pomidzy
czynnikami (jeeli jest to uzasadnione).

Wczeniejsze procedury testowe wykrywaj tylko czy


istnieje rnica w poziomach/rozkadach przynajmniej
jednej z grup, tj. czy przynajmniej jedna z grup si rni
od pozostaych.
Nie podaj ile grup si rni i ktre z nich.
W celu wykrycia rnic wykonuje si tzw. testy porwna
wielokrotnych (testy post-hoc/testy po fakcie).
Testy post-hoc pokazuj, ktre z grup mog rni si
istotnie pomidzy sob.
Ich konstrukcja jest podobna do testu t dla dwch grup,
jednake co wane bior one pod uwag poprawk na
ilo wykonywanych porwna na tych samych danych
(korekcja poziomu p) .
Nieuzasadnione jest stosowanie testu t lub MannaWhitneya dla porwna wielokrotnych (s wyjtki).

pwarto jest najmniejszym poziomem


istotnoci testu, przy ktrym odrzucamy
hipotez zerow, zatem
jeeli pwarto , to odrzucamy H0,
jeeli pwarto>, to nie ma podstaw do
odrzucenia H0.

prawostronny obszar krytyczny:


P0(T T(x)),
lewostronny obszar krytyczny:
P0(T T(x)),
dwustronny obszar krytyczny:
2 min{ P0(T T(x)), P0(T

T(x)) }.

Wynikiem testowania hipotez statystycznych


jest jedna z dwch decyzji:
1. "odrzucamy hipotez zerow" tzn. Stwierdzamy
wystpowanie istotnych statystycznie rnic
(zalenoci), na poziomie istotnoci ,
2. "nie ma podstaw do odrzucenia hipotezy zerowej", tzn.
stwierdzamy brak istotnych statystycznie
rnic (zalenoci), na poziomie istotnoci .

Testy

najmocniejsze

testy
minimalizujce
prawdopodobiestwo popenienia bdu II rodzaju
przy
ustalonym z gry poziomie prawdopodobiestwa popenienia
bdu I rodzaju .

Moc testu M (w) prawdopodobiestwo odrzucenia faszywej


hipotezy H0 i przyjcia w to miejsce prawdziwej hipotezy
alternatywnej:

M w PWn w / H1

Zwizek midzy moc testu i prawdopodobiestwem bdu II


rodzaju:

w 1 M w

1.
2.

Su one do weryfikacji hipotez parametrycznych,


odnoszcych si do parametrw rozkadu badanej cechy w
populacji generalnej.
Najczciej weryfikuj sdy o takich parametrach populacji
jak rednia arytmetyczna, wskanik struktury i wariancja.
Testy te konstruowane s przy zaoeniu znajomoci postaci
dystrybuanty w populacji generalnej.
Biorc pod uwag zakres ich zastosowa, testy te mona
podzieli na dwie grupy:

Testy parametryczne suce do weryfikacji wasnoci


populacji jednowymiarowych,
Testy parametryczne suce do porwnania wasnoci
dwch populacji.

Testy parametryczne suce do weryfikacji wasnoci populacji


jednowymiarowych, a wrd nich wyrnia si:
testy dla redniej
test dla proporcji (wskanika struktury)
test dla wariancji
W testach tych oceny parametrw uzyskane z prby losowej s porwnywane
z hipotetycznymi wielkociami parametrw, traktowanymi jako pewien
wzorzec.
Testy parametryczne suce do porwnania wasnoci dwch populacji, do
ktrych nale:
test dla dwch rednich
test dla dwch proporcji
test dla dwch wariancji
Testy te porwnuj oceny parametrw, uzyskane z dwch prb losowych.

1.
2.

Su do weryfikacji rnorodnych hipotez,


dotyczcych m.in. zgodnoci rozkadu cechy w
populacji z okrelonym rozkadem teoretycznym,
zgodnoci rozkadw w dwch populacjach, a
take losowoci doboru prby. Biorc pod uwag
zakres ich zastosowa, testy te mona podzieli
na dwie grupy:

Testy nieparametryczne suce do porwnania


wasnoci dwch populacji,
Testy nieparametryczne suce do weryfikacji
wasnoci populacji jednowymiarowych

test
test
test
test

zgodnoci chi-kwadrat
zgodnoci Komogorowa
normalnoci Shapiro-Wilka
serii
Dwa pierwsze testy zgodnoci oceniaj
zgodno rozkadu empirycznego z
teoretycznym, natomiast test serii
(losowoci) weryfikuje hipotez o
losowym
pochodzeniu
obserwacji
badanej cechy w prbie.

test
test
test
test
test

Komogorowa-Smirnowa
jednorodnoci chi-kwadrat
mediany
serii
znakw

Budowa tych testw sprowadza si do


oceny zgodnoci dwch rozkadw
empirycznych, otrzymanych z prb
niezalenych
(test
Komogorowa-

Smirnowa, jednorodnoci chi-kwadrat,


test mediany, test serii), a take
zgodnoci rozkadw w
poczonych (test znakw).

prbach

Test na wykrycie wyniku obarczonego bdem grubym.


Przed
wykonaniem
testu
zbir
wynikw
eksperymentalnych
(prbka
statystyczna)
zostaje
uszeregowany wedug wzrastajcych wartoci. Bdem
grubym moe by obarczona najwiksza lub najmniejsza
warto wyniku w prbce. Dla tych wynikw obliczane s
odpowiednio
parametry
Tmax
i
Tmin.
Parametr o wikszej wartoci porwnywany jest nastpnie
z parametrem krytycznym testu Grubbsa, odpowiadajcym
rozmiarowi prbki statystycznej i wybranemu poziomowi
ufnoci. Warto krytyczna statystyki tego testu obliczana
jest na podstawie paramtetru t rozkadu Studenta dla
zadanego poziomu ufnoci i liczby stopni swobody (n - 2,
n
liczba
pomiarw
w
serii).
Jeli
warto
eksperymentalna jest wiksza od wartoci krytycznej,
wwczas podejrzany wynik obarczony jest bdem grubym
i mona go odrzuci z zadanym poziomem ufnoci.

Dla sprawdzenia, czy dwa pomiary rni si


midzy sob stosujemy:
test znakw lub test Wilcoxona.
Pierwszy z nich wybieramy, gdy dane maj
rozkad normalny, drugi, gdy nie.
Oba te testy dotycz zmiennych zalenych,
najczciej s to pomiary pochodzce od tych
samych osb.
Hipoteza zerowa mwi, e wyniki obu prbek
s jednakowe.

Test znakw oparty jest na znakach rnic


pomidzy parami wynikw.
Liczba plusw i minusw jest zliczana i
porwnywana
z
wartoci
teoretyczn
umieszczon w odpowiednich tabelach.
Tracimy informacj niesion przez liczbowe
wartoci rnic.

Test kolejnoci par Wilcoxona uwzgldnia


zarwno znak rnic, ich wielko, jak i
kolejno.
Po uporzdkowaniu rnic w sposb rosncy
s im przypisywane rangi, a nastpnie
sumowane osobno rangi rnic dodatnich i
ujemnych.
Ich suma po porwnaniu z tabel wartoci
teoretycznych decyduje o przyjciu lub nie
hipotezy zerowej.

1.

2.

Pierwsz rzecz, jak musimy zrobi, jest


sprawdzenie, czy dane maj rozkad
normalny, wykonujc testy normalnoci
rozkadu.
Nastpnie wybieramy Analiza / Testy
nieparameryczne / Dwie prby zalene... i w
oknie dialogowym zaznaczamy Wilcoxon
lub Test znakw oraz przerzucamy
zmienne, ktre chcemy podda analizie.

Wiele testw parametrycznych wymaga, by dane


pochodziy
z
rozkadu
zblionego
do
normalnego. Dlatego testy badajce normalno
rozkadw s tak istotne.
W testach tych zawsze przyjmuje si H0 - rozkad
zmiennej jest normalny. Odrzucenie H0 jest wiec
rwnoznaczne z przyjciem hipotezy, e rozkad
zmiennej nie jest normalny. Brak podstaw do
odrzucenia nie oznacza przyjcia hipotezy o
normalnoci rozkadu.
Musimy to jeszcze sprawdzi i w tym celu
sporzdzane s wykresy prawdopodobiestwo prawdopodobiestwo.

W pakiecie SPSS testy badajce normalno rozkadu


dostpne s w Analiza / Opis statystyczny / Eksploracja i
tam wybierajc opcj Wykresy... naley zaznaczy Wykresy
normalnoci z testami.
SPSS dla maych prbek wykonuje dwa testy:
Test Komogorowa - Smirnowa z poprawk Lilleforsa,
ktra jest obliczana, gdy nie znamy redniej lub
odchylenia standardowego caej populacji.
Test Shapiro - Wilka - najbardziej polecany, ale moe
dawa bdne wyniki dla prbek wikszych ni 2 tys.
Jeeli
komputer
wskae
istotno
mniejsz
ni
zadeklarowany poziom istotnoci, to hipotez o
normalnoci rozkadu odrzucamy, jeeli wiksz - nie
mamy podstaw do odrzucenia. Naley wwczas oceni
normalno na podstawie wykresw prawdopodobiestwo
- prawdopodobiestwo.

Test chi-kwadrat (2) - kady test statystyczny, w


ktrym statystyka testowa ma rozkad chikwadrat, jeli teoretyczna zaleno jest
prawdziwa.
Test chi kwadrat suy sprawdzaniu hipotez.
Innymi sowy warto testu oceniana jest przy
pomocy rozkadu chi kwadrat.
Test najczciej wykorzystywany w praktyce.
Moemy go wykorzystywa do badania zgodnoci
zarwno cech mierzalnych, jak i niemierzalnych.
Jest to jedyny test do badania zgodnoci cech
niemierzalnych.

W oglnoci zachodzi:
gdzie:
Oi - warto mierzona,
Ei - odpowiadajca warto teoretyczna (oczekiwana), wynikajca z
hipotezy
i - odchylenie standardowe,
n - liczba pomiarw.
Zliczenia
W szczeglnoci gdy wartociami s zliczenia wtedy ich odchylenie
standardowe wynosi i rwnanie przechodzi na:
Uwagi:
przyjmuje si e warto Ei powinna by wiksza lub rwna 5 (spotyka
si te 10 - nie ma cisego wyprowadzenia, minimalnej wielkoci).

czasem z tego powodu przy pomiarach wartoci dyskretnych czy si te wartoci w


jeden przedzia (patrz przykad).

przy pomiarze wartoci cigej warto teoretyczna to caka z rozkadu


prawdopodobiestwa po odpowiednim przedziale z ktrego zliczane
byy wyniki.

test nieparametryczny uywany do porwnywania rozkadw


jednowymiarowych cech statystycznych. Istniej dwie gwne
wersje tego testu dla jednej prby i dla dwch prb.
Test dla jednej prby (zwany te testem zgodnoci
Komogorowa) sprawdza, czy rozkad w populacji dla pewnej
zmiennej losowej, rni si od zaoonego rozkadu
teoretycznego, gdy znana jest jedynie pewna skoczona liczba
obserwacji
tej
zmiennej
(prba
statystyczna).
Czsto
wykorzystywany jest on w celu sprawdzenia, czy zmienna ma
rozkad normalny. Dla celw testowania normalnoci zostay
dokonane w tecie drobne usprawnienia, znane jako test
Lillieforsa.
Istnieje te wersja testu dla dwch prb, pozwalajca na
porwnanie rozkadw dwch zmiennych losowych. Jego zalet
jest wraliwo zarwno na rnice w pooeniu, jak i w ksztacie
dystrybuanty empirycznej porwnywanych prbek.

Testy dla redniej to grupa testw statystycznych, sucych do


wnioskowania o wartoci redniej w populacji, z ktrej pochodzi prba
losowa.
Hipotez zerow i alternatywn oznaczamy w nastpujcy sposb:
H0: = 0
Zakada ona, e nieznana rednia w populacji jest rwna redniej
hipotetycznej 0 H1: 0 lub H1: > 0 lub H1: < 0
Jest ona zaprzeczeniem H0, wystpuje w trzech wersjach w zalenoci od
sformuowania badanego problemu. Sprawdzianem hipotezy jest
statystyka testowa, ktra jest funkcj wynikw prby losowej. Posta
funkcji testowej (tzw. statystyki) zaley od trzech okolicznoci:
rozkadu cechy w populacji
znajomoci wartoci odchylenia standardowego w populacji
liczebnoci prby
Biorc pod uwag powysze okolicznoci, zaoon przez nas hipotez
moemy sprawdzi za pomoc trzech testw:

Jeeli populacja ma rozkad normalny N(,) o nieznanej


redniej i znanym odchyleniu standardowym ,
natomiast liczebno prby n jest dowolna, wtedy
statystyka ma posta:
gdzie: m - rednia z prby
Jeeli H0 jest prawdziwa, to statystyka testowa Z ma
rozkad asymptotycznie normalny.
Warto statystyki, ktr obliczymy korzystajc z
powyszego wzoru, oznaczamy jako z. Nastpnie
porwnujemy j z wartoci krytyczn testu z , ktr
moemy odczyta z tablic standaryzowanego rozkadu
normalnego, uwzgldniajc poziom istotnoci . Decyzj o
odrzuceniu H0 podejmujemy, jeeli warto statystyki
znajduje si w obszarze krytycznym. Jeeli natomiast
warto ta znajdzie si poza obszarem krytycznym, nie ma
wtedy podstaw do odrzucenia H0.

Znane odchylenie
Jeeli populacja ma rozkad normalny N(,) o nieznanej redniej
i znanym odchyleniu standardowym , natomiast liczebno
prby n jest dowolna, wtedy statystyka ma posta:
gdzie: m - rednia z prby
Jeeli H0 jest prawdziwa, to statystyka testowa Z ma rozkad
asymptotycznie normalny.
Warto statystyki, ktr obliczymy korzystajc z powyszego
wzoru, oznaczamy jako z. Nastpnie porwnujemy j z wartoci
krytyczn testu z , ktr moemy odczyta z tablic
standaryzowanego rozkadu normalnego, uwzgldniajc poziom
istotnoci . Decyzj o odrzuceniu H0 podejmujemy, jeeli
warto statystyki znajduje si w obszarze krytycznym. Jeeli
natomiast warto ta znajdzie si poza obszarem krytycznym,
nie ma wtedy podstaw do odrzucenia H0.

Jeeli rozkad populacji jest normalny N(,), o nieznanej


redniej i nieznanym odchyleniu standardowym ,
natomiast liczebno prby jest maa (np. n<30), wtedy
statystyka ma posta:
Jeeli H0 jest prawdziwa, to statystyka testowa ma rozkad
t-Studenta o liczbie stopni swobody = n-1.
Warto statystyki, ktr obliczymy korzystajc z
powyszego wzoru, oznaczamy jako t. Nastpnie
porwnujemy j z wartoci krytyczn testu t, ktr
odczytujemy z tablic rozkadu t-Studenta przy zaoonym
poziomie istotnoci oraz liczbie stopni swobody = n1. Decyzj o odrzuceniu H0 podejmujemy, jeeli warto
statystyki znajduje si w obszarze krytycznym. Jeeli
natomiast warto ta znajdzie si poza obszarem
krytycznym, nie ma wtedy podstaw do odrzucenia H0.

Obszar krytyczny to obszar odrzucenia


hipotezy zerowej.
Pooenie
(posta
obszaru
krytycznego)
wyznacza posta hipotezy alternatywnej.
Wielko obszaru krytycznego
poziomowi istotnoci.

jest

rwna

Z tablic rozkadu statystyki odczytujemy


warto krytyczn (graniczn warto
obszaru krytycznego oddzielajc go od
reszty rozkadu)

Obliczamy warto statystyki z prby w

1.
2.
3.

4.

5.

6.

Test chi-kwadrat
Test Komogorowa - Smirnowa dla jednej prbki
Test Kuipera (opracowana przez Kuipera jest modyfikacj testu
Komogorowa Smirnowa poprawiajc jego waciwoci w
kracowych obszarach rozkadu)
Test Cramera-von Misesa - Statystyka Cramera-von Misesa
porwnuje obserwacje w prbce (traktowane jako prba losowa) z
prb losow pobran z hipotetycznego rozkadu.
Test Watsona - Jest to kolejna modyfikowana statystyka
Cramera-von Misesa.
Test Andersona-Darlinga - Ocena stopnia dopasowania
dystrybuanty testowanego rozkadu z obliczon na podstawie
prby dystrybuant empiryczn. Test ten moe by stosowany
tylko dla kompletnych danych (bez w jakikolwiek sposb
brakujcych obserwacji).

1.

2.

Test normalnoci Lillieforsa. Jeeli parametry rozkadu


hipotetycznego s nieznane, to jak ju wspomniano test KS moe dawa bdne wyniki. Jednak w przypadku rozkadu
normalnego mona w takiej sytuacji zastosowa t sam
statystyk zmodyfikowan przez Lilleforsa. Dlatego te test
ten stosowany jest najczciej do weryfikacji normalnoci
rozkadu.
Test normalnoci Shapiro-Wilka. W odrnieniu od
wczeniej opisanych testw zgodnoci w tym przypadku
wzrost wartoci statystyki oznacza wiksz zgodno
wynikw z rozkadem normalnym. Jednak poziom
prawdopodobiestwa odpowiadajcy tej statystyce testowej
podawany jest w programach statystycznych w ten sam
sposb, jak w innych testach tzn., jeeli warto spadnie
poniej ustalonego poziomu istotnoci testu, to hipotez o
zgodnoci z rozkadem normalnym odrzucamy.

1.
2.
3.
4.
5.

Komogorowa-Smirnowa (tzw. test K-S2),


Mann-Whitneya,
Walda Wolfowitza,
test znakw,
Wilkoxona.

Testy K-S2, Mann-Whitneya, Walda Wolfowitza stosowane s w


przypadku zmiennych niezalenych. Pozostae dwa testy s
alternatyw testu t dla zmiennych zalenych (parowanych).
Test Komogorowa-Smirnowa (dla dwch prbek)
Test Komogorowa-Smirnowa (K-S2) pozwala okreli, czy dwie prbki
(niezalene) pochodz z populacji o takim samym rozkadzie. W
odrnieniu od testw parametrycznych test K-S2 jest nie tylko
czuy na pooenie rodka rozkadu czy jego szeroko, ale rwnie
na ksztat rozkadu.

Do
najczciej
stosowanych
testw
statystycznych operujcych na jednym zbiorze
danych nale:
test t-Studenta dla jednej redniej (sprawdzajcy,
czy wyniki pochodz z populacji o danej
redniej),
test
Shapiro-Wilka
na
rozkad
normalny
(sprawdzajcy, czy prba pochodzi z populacji o
rozkadzie normalnym) oraz test z (sprawdzajcy,
czy prba pochodzi z populacji o rozkadzie
normalnym, gdy znane jest _ tej populacji).
Przy wnioskowaniu dla jednej redniej, w razie
stwierdzenia rozkadu innego ni normalny,
zamiast testu t stosuje sie test rang Wilcoxona.

Rozwamy
np. wyniki
np. 6
analiz
chemicznych test posuy do sprawdzenia,
czy mog pochodzi z populacji o redniej
rwnej 100:

96.19
98.07
103.53
99.81
101.60
103.44

> dane = c(96.19,98.07,103.53,99.81,101.60,103.44)


> shapiro.test(dane) # czy rozkad jest normalny?
Shapiro-Wilk normality test
data: dane
W = 0.9271, p-value = 0.5581
> t.test(dane,mu=100) # tak, a zatem sprawdzamy testem Studenta
One Sample t-test
data: dane
t = 0.3634, df = 5, p-value = 0.7311
alternative hypothesis: true mean is not equal to 100
95 percent confidence interval:
97.32793 103.55207
sample estimates:
mean of x
100.44
wilcox.test(dane,mu=100) # tak bymy sprawdzali, gdyby nie by
Wilcoxon signed rank test
data: dane
V = 11, p-value = 1
alternative hypothesis: true mu is not equal to 100

przedzia ufnoci mona bardzo prosto obliczy rcznie dla


dowolnego . Zamy, e = 3, zas = 0.05:

> ci = qnorm(1-0.05/2)
> ci
[1] 1.959964
> s = 3/sqrt(length(dane))
>s
[1] 1.224745
> mean(dane) + c(-s*ci,s*ci)
[1] 98.03954 102.84046

Podstawowymi testami dla dwch zbiorw danych


s:
test
F-Snedecora na jednorodno wariancji
(sprawdzajcy, czy wariancje obu prb rni si
istotnie midzy sob),
test
t-Studenta
dla
dwch
rednich
(porwnujcy, czy prby pochodz z tej samej
populacji; wykonywany w razie jednorodnej
wariancji)
oraz test U-Manna-Whitneya, bdcy odmian
testu Wilcoxona, sucy do stwierdzenia
rwnoci rednich w razie uprzedniego wykrycia
niejednorodnoci wariancji.

Do poprzedniego zbioru
danych dodamy drugi zbir
dane2 i przeprowadzimy te
testy:

> dane2 = c(99.70,99.79,101.14,99.32,99.27,101.29)


> var.test(dane,dane2) # czy jest jednorodno wariancji?
F test to compare two variances
data: dane and dane2
F = 10.8575, num df = 5, denom df = 5, p-value = 0.02045
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
1.519295 77.591557
sample estimates: ratio of variances
10.85746
> wilcox.test(dane,dane2) # jednak rnice wariancji, wiec test Wilcoxona
Wilcoxon rank sum test
data: dane and dane2
W = 22, p-value = 0.5887 # dane sie istotnie nie rni
alternative hypothesis: true mu is not equal to 0
> t.test(dane,dane2) # a tak bymy zrobili, gdyby rnic nie byo
Welch Two Sample t-test
data: dane and dane2
t = 0.2806, df = 5.913, p-value = 0.7886
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.751801 3.461801
sample estimates:
mean of x mean of y
100.440 100.085

> dane2 = c(99.70,99.79,101.14,99.32,99.27,101.29)


> var.test(dane,dane2) # czy jest jednorodno wariancji?
F test to compare two variances
data: dane and dane2
F = 10.8575, num df = 5, denom df = 5, p-value = 0.02045
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
1.519295 77.591557
sample estimates: ratio of variances
10.85746

> wilcox.test(dane,dane2) # jednak rnice wariancji, wiec test Wilcoxona


Wilcoxon rank sum test
data: dane and dane2
W = 22, p-value = 0.5887 # dane sie istotnie nie rni
alternative hypothesis: true mu is not equal to 0
> t.test(dane,dane2) # a tak bymy zrobili, gdyby rnic nie byo
Welch Two Sample t-test
data: dane and dane2
t = 0.2806, df = 5.913, p-value = 0.7886
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.751801 3.461801
sample estimates:
mean of x mean of y
100.440 100.085

Jeli zachodzi potrzeba wykonania testu z


innym ni 0.05, korzystamy z opcji
conf.level kadego testu (standardowo jest to
0.95).
W funkcji t.test mona rwnie ustawi
paired=TRUE i w ten sposb policzy test dla
danych powizanych parami.
Warto te zwrci uwag na parametr conf.int
w funkcji wilcox.test, ktry pozwala na
obliczenie przedziau ufnoci dla mediany.

W przypadku analizy statystycznej wikszej


grupy
danych,
np.
wynikw
analizy
chemicznej wykonanej trzema metodami,
konieczne jest umieszczenie wszystkich
danych w jednej ramce (dataframe).

Domy jeszcze kolejne 6 wynikw do wektora dane3 i umiemy wszystko


w ramce:
> dane3 = c(91.50,96.74,108.17,94.22,99.18,105.48)
> danex = data.frame(wyniki=c(dane,dane2,dane3),metoda=rep(1:3,each=6))
> danex

wyniki metoda
1 96.19 1
2 98.07 1
3 103.53 1
4 99.81 1
5 101.60 1
6 103.44 1
7 99.70 2
8 99.79 2
9 101.14 2
10 99.32 2
11 99.27 2
12 101.29 2
13 91.50 3
14 96.74 3
15 108.17 3
16 94.22 3
17 99.18 3
18 105.48 3

Na tak wykonanej ramce moemy wykona ju


poszczeglne testy.
Do porwnania jednorodnoci wariancji suy
tutaj test Bartletta, ktry jest rozwiniciem testu
F-Snedecora na wiksz liczb prb.
W razie stwierdzenia istotnych rnic w wariancji
badamy istotne rnice pomidzy grupami
wynikw testem Kruskala-Wallisa.
Jeli nie ma podstaw do odrzucenia hipotezy o
jednorodnoci
wariancji,
rekomendowanym
testem jest najprostszy wariant ANOVA.

> bartlett.test(wyniki ~ metoda,danex) # czy jest niejednorodno?


Bartlett test for homogeneity of variances
data: wyniki by metoda
Bartletts K-squared = 13.0145, df = 2, p-value = 0.001493
> kruskal.test(wyniki~metoda,danex) # jest, wiec Kruskar-Wallis
Kruskal-Wallis rank sum test
data: wyniki by metoda
Kruskal-Wallis chi-squared = 0.7836, df = 2, p-value = 0.6758
> anova(aov(wyniki~metoda,danex)) # a tak, gdyby nie byo
Analysis of Variance Table
Response: wyniki
Df Sum Sq Mean Sq F value Pr(>F)
metoda 1 4.502 4.502 0.2788 0.6047
Residuals 16 258.325 16.145

Zamy, ze oznaczylimy w 4 prbkach


zawarto jakiej substancji, kada prbk
badalimy 4 metodami (w sumie 16 wynikw).
Stosujc dwuczynnikowy test ANOVA mona
sprawdzi, czy wyniki rni sie istotnie
miedzy prbkami i miedzy metodami.
W tym celu znw tworzymy ramk
zawierajc wyniki oraz odpowiadajce im
prbki i metody:

> dane
wynik probka metoda
1 46.37278 1 1
2 48.49733 1 2
3 46.30928 1 3
4 43.56900 1 4
5 46.57548 2 1
6 42.92014 2 2
7 47.22845 2 3
8 42.46036 2 4
9 43.71306 3 1
10 47.35283 3 2
11 44.87579 3 3
12 46.06378 3 4
13 47.29096 4 1
14 44.50382 4 2
15 44.26496 4 3
16 45.35748 4 4

> anova(aov(wynik ~ probka + metoda,dane)) # test bez interakcji


Analysis of Variance Table
Response: wynik
Df Sum Sq Mean Sq F value Pr(>F)
probka 1 0.643 0.643 0.2013 0.6611
metoda 1 5.050 5.050 1.5810 0.2307
Residuals 13 41.528 3.194
> anova(aov(wynik ~ probka * metoda,dane)) # test z~interakcjami
Analysis of Variance Table
Response: wynik
Df Sum Sq Mean Sq F value Pr(>F)
probka 1 0.643 0.643 0.1939 0.6675
metoda 1 5.050 5.050 1.5227 0.2408
probka:metoda 1 1.728 1.728 0.5211 0.4842
Residuals 12 39.800 3.317

Podany powyej test z interakcjami nie


ma sensu merytorycznego w tym
przypadku, pokazano go tylko
przykadowo

Zamy np. ze wrd 300 ankietowanych osb odpowiedz tak


pada w 30 przypadkach. Daje to 10% ankietowanych. Czy mona
powiedzie, e wrd ogu populacji tylko 7% tak odpowiada?
Jaki jest przedzia ufnoci dla tego prawdopodobiestwa?

> prop.test(30,300,p=0.07)
1-sample proportions test with continuity correction
data: 30 out of 300, null probability 0.07
X-squared = 3.6994, df = 1, p-value = 0.05443
alternative hypothesis: true p is not equal to 0.07
95 percent confidence interval:
0.0695477 0.1410547
sample estimates:
p
0.1

Jak wida, przedzia ufnoci zawiera sie w granicy 6.9 14.1%, zatem
7% zawiera sie w nim (p nieznacznie wiksze ni 0.05).
Innym przykadem jest porwnanie kilku takich wynikw. Zamy, ze w
innej 200-osobowej grupie odpowiedz pada u 25 osb, a w trzeciej,
500-osobowej, u 40 osb. Czy prby te pochodz z tej samej populacji?

> prop.test(c(30,25,40),c(300,200,500))
3-sample test for equality of proportions without continuity
correction
data: c(30, 25, 40) out of c(300, 200, 500)
X-squared = 3.4894, df = 2, p-value = 0.1747
alternative hypothesis: two.sided
sample estimates:
prop 1 prop 2 prop 3
0.100 0.125 0.080
Jak wida, test nie wykaza istotnych rnic. Jeli chcielibymy wprowadzi do testu poprawk
Yatesa, dodajemy parametr cont=TRUE.

Test 2 na zgodno rozkadu jest wbudowany w R pod funkcja


chisq.test. W przypadku wnioskowania zgodnoci rozkadu
pierwszy wektor zawiera dane, a drugi prawdopodobiestwa ich
wystpienia w testowanym rozkadzie. Zamy, e w wyniku 60
rzutw kostka otrzymalimy nastpujce iloci poszczeglnych
wynikw 1 6: 6,12,9,11,15,7. Czy rnice pomidzy wynikami
wiadcz o tym, ze kostka jest nieprawidowo skonstruowana,
czy s przypadkowe?

> kostka=c(6,12,9,11,15,7)
> pr=rep(1/6,6) # prawdopodobiestwo kadego rzutu wynosi 1/6
> pr
[1] 0.1666667 0.1666667 0.1666667 0.1666667 0.1666667 0.1666667
> chisq.test(kostka,p=pr)
Chi-squared test for given probabilities
data: kostka
X-squared = 5.6, df = 5, p-value = 0.3471

Jeli parametrem funkcji chisq.test jest ramka, funkcja


przeprowadza test 2 na niezaleno.
Zamy, ze w grupie pacjentw badanych nowym lekiem 19
pozostao bez poprawy, 41 odnotowao wyran popraw, 60
osb cakowicie wyzdrowiao. W grupie kontrolnej (leczonej
dotychczasowymi lekami) wartoci te wynosiy odpowiednio
46,19,15. Czy nowy lek faktycznie jest lepszy? Jeli tak, dane
powinny by zalene, i tak tez jest:

> lek=c(19,41,60)
> ctl=c(46,19,15)
> chisq.test(cbind(lek,ctl)) # cbind tworzy ramke !
Pearsons Chi-squared test
data: cbind(lek, ctl)
X-squared = 39.8771, df = 2, p-value = 2.192e-09

Pakiet R posiada wbudowane algorytmy pozwalajce na


obliczanie gstoci, dystrybuanty i kwantyli najczciej
stosowanych rozkadw. Moe rwnie pracowa jako precyzyjny
generator liczb losowych.
Standardowo dostpne s nastpujce rozkady: beta, binom,
cauchy, chisq, exp, f, gamma, geom, hyper, lnorm, logis, nbinom, norm,
pois, t, unif, weibull, wilcox.
Poprzedzajc nazw rozkadu liter d uzyskujemy funkcj
gstoci rozkadu. Analogicznie poprzedzajc nazw liter p
uzyskujemy wartoci dystrybuanty.
Funkcja kwantylowa (poprzedzona q) podaje taki kwantyl, ktry
po lewej stronie wykresu gstoci zawiera okrelone
prawdopodobiestwo.
Generator liczb losowych dostpny jest przy poprzedzeniu
nazwy litera r.
Funkcje te pozwalaj na traktowanie pakietu R jako zestawu
bardzo dokadnych tablic statystycznych.

> dnorm(0) # gsto rozkadu normalnego w zerze


[1] 0.3989423
> pnorm(1)-pnorm(-1) # ile wartoci mieci sie w N(0,1) w przedziale (0,1) ?
[1] 0.6826895
> qt(0.995,5) # warto krytyczna t-Studenta dla 99% i 5 stopni swobody
[1] 4.032143
> qchisq(0.01,5) # warto krytyczna chi-kwadrat dla 5 st. swobody i 99%
[1] 0.5542981
> dpois(0,0.1) # warto prawdop. Poissona dla lambda 0.1 i n=0
[1] 0.9048374
> qf(0.99,5,6) # warto krytyczna testu F dla n1=5, n2=6
[1] 8.745895

Kilku sw wymaga warto 0.995 (nie 0.99) w


wywoaniu funkcji rozkadu t-Studenta.
Rozkad ten jest zwykle stosowany w kontekcie
dwustronnym, dlatego obszar krytyczny dzielimy
rwnomiernie na obu kocach rozkadu.
99% ufnoci oznacza, ze krytyczny 1% jest
podzielony na 2 koce i zawiera sie w
przedziaach (0, 0.05) oraz (0.995, 1).
Warto tablicowa jest kwantylem obliczonym dla
takiego wanie prawdopodobiestwa.
Analogicznie np. dla 95% bdzie to 0.975, a dla
99.9% 0.9995.

Korzystajc z funkcji generatora losowego mona generowa


dowolne cigi danych do pniejszej analizy. Wygenerujmy
przykadowy zestaw 30 liczb o redniej 50 i odchyleniu
standardowym 5, posiadajcych rozkad normalny:

> rnorm(30,50,5)
[1] 53.43194 58.74333 53.27320 46.42251 53.93869 44.80035 55.57112
43.65090
[9] 46.78265 55.88207 49.68947 52.65945 55.72740 48.75954 48.16239
50.89369
[17] 51.23270 47.14778 57.83292 45.67989 45.98016 50.45368 44.41436
44.24023
[25] 50.98059 48.69967 53.32837 48.09720 52.57135 49.64967

Oczywicie funkcja ta wygeneruje za kadym


razem cakowicie inne wartoci, dlatego te
prowadzc analizy naley je zapamita w
zmiennej, a potem uywa tej zmiennej w
dalszych operacjach.
Warto przy okazji wspomnie o funkcji sample,
generujcej wektor danych wylosowanych z
innego
wektora.
Np.
funkcja
sample(1:6,10,replace=T) symuluje 10 rzutw
kostka (losowanie ze zbioru 1:6), a dane mog
sie powtarza. Jeli nie jest podana liczba
losowanych danych (np. sample(1:6)), funkcja
generuje losowa permutacje wektora podanego
jako parametr.

cudowne lekarstwo na wolne rodniki

rozstp zmiennej

http://www.mini.pw.edu.pl/~mwojtys/
sar/dane/coagulation.txt

Szukamy:
- obserwacji odstajcych,
- skonoci rozkadw (niesymetryczne
skrzynki)
- nierwnoci wariancji (nierwne wielkoci
skrzynek)
Dla zbioru coagulation nieregularnoci na
wykresie skrzynkowym wynikaj raczej z
malej liczby obserwacji.

Test rwnoci wariancji w grupach


(Uywamy poziomu istotnoci 0.01, bo procedury
zwizane z ANOVA s w miar odporne na
odstpstwo od zaoenia o rwnych wariancjach w
grupach)
# TEST BARTLETTA (nie jest najlepszy, bo
nieodporny na odstpstwo od zaoenia o
normalnoci rozkadu w grupach)
bartlett.test(coag~diet)

TEST LEVENE'A (odporny na odstpstwo od


zaoenia
o normalnoci rozkadu w
grupach)
# Liczymy wartoci bezwzgldne rezyduw i
uywamy ich jako zmiennej odpowiedzi w
analizie wariancji:

Na podstawie wyniku testu F stwierdzamy, ze


istniej rnice w rednich miedzy grupami

Zatem dietA jest poziomem odniesienia.


rednia na poziomie dietA: 61
rednia na poziomie dietB: 61+5
rednia na poziomie dietC: 61+7
rednia na poziomie dietD: 61-0

za poziom istotnoci pojedynczego testu przyjmujemy


alfa/k*, gdzie k* to liczba par, ktre porwnujemy. UWAGA:
Tak dobrany poziom istotnoci jest mniejszy od zadanego
alfa; ponadto dla duych k* procedura ta jest bezuyteczna,
bo praktycznie nigdy nie odrzuca hipotezy zerowej.
Tutaj k*=6, zatem wyznaczamy kwantyl rozkadu t-Studenta
o N-k=24-4=20 stopniach swobody rzdu 1-alfa/(2*6)
Warto krytyczna:

poziom istotnoci oparty jest na rozkadzie


maksymalnej rnicy pomidzy rednimi (tak
zwanym
"studentyzowanym
rozkadzie
rozstpu" dla prby z rozkadu normalnego).
Warto krytyczna:

zalecana, gdy analizuje sie kontrasty


pomidzy wicej ni dwiema rednimi.
PRZYKLAD: Czy redni czas krzepnicia krwi
dla kur karmionych zgodnie z diet A i B
rni si istotnie od redniego czasu dla kur
karmionych zgodnie z dieta C i D?

You might also like