You are on page 1of 120

1

Agata Boratyńska

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

Warszawa 2009
Agata Boratyńska Wykłady ze statystyki matematycznej 2

Literatura
W. Niemiro Rachunek prawdopodobieństwa i statystyka mate-
matyczna, SNS 1999
J. Koronacki i J. Mielniczuk Statystyka WNT 2004
J. Jóźwiak i J. Podgórski, Statystyka od podstaw, PWE 1994
H. Kassyk-Rokicka, Statystyka, zbiór zadań, 2005 lub inne wyda-
nia
W. Krysicki Rachunek prawdopodobieństwa i statystyka mate-
matyczna w zadaniach, cz. 2. PWN 1998
D. Silvey Wnioskowanie statystyczne, PWN
R. Zieliński Siedem wykładów wprowadzających do statystyki
matematycznej, PWN www.impan.gov.pl/ rziel/7ALL.pdf
A. Boratyńska Zadania ze statystyki matematycznej, ksero WNE
J. Ciecieląg i K. Marek Statystyka matematyczna, zbiór zadań,
WNE
A. Jokiel-Rokita i R. Magiera, Modele i metody statystyki ma-
tematycznej w zadaniach, Oficyna Wydawnicza GiS, Wrocław
2005
A.D. Aczel, Statystyka w zarządzaniu, Wydawnictwo Naukowe
PWN
W. Zieliński Tablice statystyczne.
C.R. Rao Statystyka i prawda, PWN 1994
Agata Boratyńska Wykłady ze statystyki matematycznej 3

Statystyka jest bardziej sposobem myślenia lub wnioskowania


niż pęczkiem recept na młócenie danych w celu odsłonięcia od-
powiedzi
C. R. Rao
... statystyka jest nauką o tym, jak wykorzystywać informacje
do analizy i wytyczania kierunków działania w warunkach nie-
pewności.
V. Barnett Comparative Statistical Inference
Nauka nie stara się wyjaśniać, a nawet niemal nie stara się
interpretować, zajmuje się ona głównie budową modeli. Mo-
del rozumiany jest jako matematyczny twór, który, po doda-
niu słownej interpretacji, opisuje badane zjawiska. Jedynym i
właściwym uzasadnieniem takiego tworu matematycznego jest
oczekiwanie, że sprawdzi się on w działaniu.
John von Neumann
Kłamstwo, wierutne kłamstwo, statystyka
Liczby nie kłamią ale kłamcy liczą
Ch. H. Grosvenor
Prawa naukowe nie są formułowane na mocy autorytetów ani
uzasadniane przez wiarę czy średniowieczną filozofię. Jedynym
sądem odwoławczym dla nowej wiedzy jest statystyka
P.C. Mahanalobis
Agata Boratyńska Wykłady ze statystyki matematycznej 4

STATYSTYKA - nauka poświęcona metodom badania i anali-


zowania zjawisk masowych; polega na systematyzowaniu obserwo-
wanych cech ilościowych i jakościowych oraz przedstawianiu wy-
ników w postaci zestawień tabelarycznych, wykresów, diagramów
itp. Zajmuje się zbieraniem, przetwarzanie, przedstawianiem da-
nych oraz wniskowaniem na ich podstawie.
STATYSTYKA MATEMATYCZNA - dział matematyki
stosowanej oparty na rachunku prawdopodobieństwa, zajmuje się
badaniem zbiorów i wnioskowaniem o pewnych charakterystykach
cech (zmiennych losowych) na podstawie znajomości podzbiorów i
obserwacji wartości zmiennej losowej w postaci próby losowej.
Agata Boratyńska Wykłady ze statystyki matematycznej 5

STATYSTYKA OPISOWA, WSTĘPNA ANALIZA DANYCH.


populacja - zbiór obiektów z wyróżnioną cechą, zbiorowość pod-
dawana badaniu.
cecha - wielkość losowa charakteryzująca obiekty danej populacji
lub interesująca badacza zmienna losowa, cecha ilościowa (np waga,
ocena, wiek, zarobki) i jakościowa (kolor oczu, płeć, wykształcenie)
jednostka badania - element populacji poddany badaniu
próba - wybrana część populacji poddana badaniu, zbiór jedno-
stek badania

jednostka cecha X cecha Y cecha Z ...


1 x1 y1 z1 ...
2 x2 y2 z2 ...
3 x3 y3 z3 ...
... ... ... ... ...

badanie pełne - obejmuje całą populację (np. spis powszechny)


badanie reprezentacyjne - obejmuje część populacji
Wnioskowanie o całej populacji na podstawie próby losowej wy-
maga metod rachunku prawdopodobieństwa.
Agata Boratyńska Wykłady ze statystyki matematycznej 6

PREZENTACJA DANYCH
Szereg rozdzielczy punktowy (tablica kontyngencji)

wartości cechy liczności (liczba jednostek)


x1 n1
x2 n2
... ...
xk nk

PRZYKŁAD 1. W grupie 20 studentów oceny z egzaminu ze sta-


tystyki były następujące:
2 3 3.5 4 4.5 4 5 3 3 4
3.5 3 3 3.5 3 2 4 5 3.5 3.5
Dane w szeregu

ocena liczba studentów


2 2
3 6
3.5 5
4 4
4.5 1
5 2
Razem 20

Przejrzystym sposobem prezentacji jest wykres słupkowy


Agata Boratyńska Wykłady ze statystyki matematycznej 7

Szereg rozdzielczy przedziałowy

przedział środek przedziału liczności częstości


(c0, c1] c̄1 n1 f1 = nn1
(c1, c2] c̄2 n2 f2 = nn2
... ... ... ...
(ck−1, ck ] c̄k nk fk = nnk

Uwagi:
ci−1 +ci
• c̄i = 2

• Najczęściej klasy o jednakowej szerokości lub o zbliżonej liczności


√ √
• Liczba klas k spełnia 34 n ¬ k ¬ n
• liczbę klas można też dobierać ustalając szerokość, jedna z reguł
to
1
b ' 2, 64 · IQR · n− 3
gdzie IQR - rozstęp międzykwartylowy
• Jeżeli liczba klas jest równa k i klasy są jednakowej długości, to
długość b spełnia
Xn:n − X1:n
b'
k
gdzie
X1:n - najmniejsza obserwacja
Xn:n - największa obserwacja
Agata Boratyńska Wykłady ze statystyki matematycznej 8

PRZYKŁAD 2. Powierzchnię mieszkań w pewnym osiedlu podaje


tabela

32,45 33,21 34,36 35,78 37,79 38,54 38,91 38,96 39,50 39,67
39,80 41,45 41,55 42,27 42,40 42,45 44,25 44,50 44,70 44,83
44,90 45,10 45,90 46,52 47,65 48,10 48,55 48,90 49,00 49,24
49,55 49,65 49,70 49,90 50,90 51,40 51,50 51,65 51,70 51,80
51,98 52,00 52,10 52,30 53,65 53,89 53,90 54,00 54,10 55,20
55,30 55,56 55,62 56,00 56,70 56,80 56,90 56,95 57,13 57,45
57,70 57,90 58,00 58,50 58,67 58,80 59,23 63,40 63,70 64,20
64,30 64,60 65,00 66,29 66,78 67,80 68,90 69,00 69,50 73,20
76,80 77,10 77,80 78,90 79,50 82,70 83,40 84,50 84,90 85,00
86,00 89,10 89,60 93,00 96,70 98,78 103,00 107,90 112,70 118,90

przedział środek liczba mieszkań częstości


30 − 40 35 11 0.11
40 − 50 45 23 0.23
50 − 60 55 33 0.33
60 − 70 65 12 0.12
70 − 80 75 6 0.06
80 − 90 85 8 0.08
90 − 100 95 3 0.03
100 − 110 105 2 0.02
110 − 120 115 2 0.02
razem 100 1
Agata Boratyńska Wykłady ze statystyki matematycznej 9

Histogram - jest to wykres słupkowy, którego podstawę stano-


wią przedziały klasowe, a wysokości słupków sa proporcjonalne do
liczności ni poszczególnych klas.
Jeżeli wysokości są równe licznościom klas to mamy histogram
liczności, jeżeli są równe częstościom to histogram częstości.
W sytuacji, gdy klasy nie mają równej długości wysokość słupków
określa się wg wzoru
fi
hi =
bi
gdzie fi - to częstość, a bi - szerokość klasy.
(porównaj histogramy - przykład 1,2,3)
Łącząc punkty o współrzędnych (c̄i, ni) otrzymujemy łamaną
liczności, a łącząc punkty o współrzędnych (c̄i, fi) albo (c̄i, hi)
łamaną częstości.
W szeregu rozdzielczym możemy również podawać liczności i czę-
stości skumulowane.

przedział liczności częstości


skumulowane cni skumulowane cfi
(c0, c1] n1 f1 = nn1
(c1, c2] n1 + n2 f1 + f2
... ... ...
(ck−1, ck ] n1 + n2 + . . . + nk = n f1 + f2 + . . . + fk = 1
Agata Boratyńska Wykłady ze statystyki matematycznej 10

Jeżeli wysokości słupków histogramu są równe licznościom (czę-


stościom) skumulowanym to otrzymujemy histogram liczności
(częstości) skumulowanych. Łącząc punkty o współrzędnych
(ci, cni) otrzymujemy łamaną liczności skumulowanych, a
łącząc punkty o współrzędnych (ci, cfi) otrzymujemy łamaną
częstości skumulowanych.
Agata Boratyńska Wykłady ze statystyki matematycznej 11

CHARAKTERYSTYKI PRÓBKOWE
MIARY POŁOŻENIA
Średnia arytmetyczna X̄
• z próby losowej X1, X2, . . . , Xn (dane surowe)
X1 + X2 + . . . + Xn
X̄ =
n
• dane z szeregu rozdzielczego punktowego
1 Xk
X̄ = xi ni
n i=1
• dane z szeregu rozdzielczego przedziałowego
1 Xk
X̄ ' c̄ini
n i=1
PRZYKŁAD 1 cd.
2 · 2 + 6 · 3 + 5 · 3.5 + 4 · 4 + 1 · 4.5 + 2 · 5
X̄ = = 3.5
20
PRZYKŁAD 2 cd. dla danych z szeregu rozdzielczego
X̄ =
1
(11·35+23·45+33·55+12·65+6·75+8·85+3·95+2·105+2·115) = 58.70
100
Uwaga: jeżeli dostępne są dane surowe zaleca się korzystanie ze
wzoru pierwszego.
Agata Boratyńska Wykłady ze statystyki matematycznej 12

Mediana M ed z próby losowej jest to liczba, taka że co najmniej


50% obserwacji przyjmuje wartość nie większą od niej i co najmniej
50% obserwacji wartość nie mniejszą od niej.
Wyliczamy ją w następujący sposób:
• dane surowe: ustawiamy rosnąco,
i-tą obserwację w ciągu ustawionym rosnąco oznaczamy symbolem
Xi:n i nazywamy i-tą statystyką pozycyjną
 X n+1 :n gdy n nieparzyste


2
M ed =  1
 (X n :n + X n+2 )
2 2 :n gdy n parzyste
2

• dane z szeregu rozdzielczego przedziałowego


b  n MX−1 
 

M ed ' cL + − ni
nM 2 i=1
gdzie
cL - dolna granica klasy mediany
b - szerokość klasy mediany
nM - liczność klasy mediany
M - numer klasy
X10:20 +X11:20 3,5+3,5
PRZYKŁAD 1 cd. M ed = 2 = 2 = 3, 5
PRZYKŁAD 2 cd. dla danych z szeregu rozdzielczego
M = 3, n3 = 33, cL = 50, b = 10
10
M ed ' 50 + (50 − 34) = 54, 85
33
Agata Boratyńska Wykłady ze statystyki matematycznej 13

Moda (dominanta) M o - wartość najczęściej powtarzająca się


w próbie (często zakłada się, że nie może być to wartość największa
ani najmniejsza)
Przy danych z szeregu rozdzielczego
nM o − nM o−1
M o ' cL + ·b
(nM o − nM o−1) + (nM o − nM o+1)
gdzie
nM o - liczność najliczniejszej klasy zwanej klasą mody,
cL - lewy koniec klasy mody
PRZYKŁAD 1 cd. M o = 3
PRZYKŁAD 2 cd.
33 − 23
M o ' 50 + · 10 = 53, 2
33 − 23 + 33 − 12

PRZYKŁAD 3 cd.
0, 0006771 − 0, 0004583
M o ' 250+ ·200 = 354, 56
2 · 0, 0006771 − 0, 0004583 − 0, 0004774
Agata Boratyńska Wykłady ze statystyki matematycznej 14

PRZYKŁAD 4. Miesięczne zarobki zasadnicze pracowników z wyż-


szym wykształceniem w pewnej firmie

zarobki liczba osób


2500 6
3000 8
3100 7
3500 4
4000 3
5000 2
12000 1
Razem 31

X̄ = 3506
M ed = X16:31 = 3100
M o = 3000
Uwaga: średnia jest nieodporna na obserwacje odstające
Agata Boratyńska Wykłady ze statystyki matematycznej 15

Kwartyle
Pierwszy kwartyl (dolny kwartyl) Q1- to taka wartość ce-
chy, że co najmniej 25% obserwacji przyjmuje wartość nie większą
od niej i co najmniej 75% obserwacji wartość nie mniejszą od niej.
Drugi kwartyl = Mediana
Trzeci kwartyl (kwartyl górny) Q3- to taka wartość cechy,
że co najmniej 75% obserwacji przyjmuje wartość nie większą od
niej i co najmniej 25% obserwacji wartość nie mniejszą od niej.
W praktyce dolny kwartyl wyznacza się jako medianę podpróby
złożonej z obserwacji o wartościach mniejszych od mediany, a górny
kwartyl jako medianę z podpróby złożonej z obserwacji większych
od mediany.
PRZYKŁAD 1 cd.
X5:20 + X6:20
Q1 = =3
2
X15:20 + X16:20
Q3 = =4
2
Agata Boratyńska Wykłady ze statystyki matematycznej 16

Przy danych z szeregu rozdzielczego


 
MX
b 1 −1
n
Q1 ' cL +  − ni 

n M1 4 i=1

gdzie
cL - dolna granica klasy kwartyla
b - szerokość klasy kwartyla
nM1 - liczność klasy kwartyla
M1 - numer klasy
 
bMX3 −1
 3n
Q3 ' cL +  − ni 

n M3 4 i=1

gdzie
cL - dolna granica klasy kwartyla
b - szerokość klasy kwartyla
nM3 - liczność klasy kwartyla
M3 - numer klasy
PRZYKŁAD 2 cd. Za Q1 odpowiada obserwacja o numerze n4 = 25,
stąd klasa kwartyla jest klasa druga M = 2
10
Q1 ' 40 + (25 − 11) = 46.09
23

Za Q3 odpowiada obserwacja o numerze 34 n = 75, stąd klasą kwar-


tyla jest klasa czwarta M = 4
10
Q3 ' 60 + (75 − 65) = 66.67
12
Agata Boratyńska Wykłady ze statystyki matematycznej 17

Kwartyle dzielą próbę na cztery równe części (ze względu na licz-


ność), w każdej jest w przybliżeniu 25% obserwacji.
Porównanie wskaźników dla danych surowych i szeregu rozdziel-
czego

miara dane surowe szereg rozdzielczy


średnia 56,58 58,70
mediana 55,25 54,85
Q1 48,33 46,09
Q3 67,29 66,67

Kwantyl próbkowy rzędu p


X +Xnp+1:n

 np:n

gdy np ∈ Z
Qp =  2 lub Qp = X[np]+1:n
 X[np]+1:n w pp
Agata Boratyńska Wykłady ze statystyki matematycznej 18

MIARY ROZPROSZENIA
Rozstęp czyli odległość między największą i najmniejszą obser-
wacją
r = Xn:n − X1:n

Rozstęp międzykwartylowy
IQR = Q3 − Q1
podaje długość odcinka, na którym leży 50% środkowych wartości
w uporządkowanej niemalejąco próbie.
Uwaga:
rozstęp jest funkcją tylko krańcowych obserwacji, jest nieodporny
na obserwacje odstające, tej wady pozbawiony jest rozstęp między-
kwartylowy
Wariancją z próby losowej X1, X2, . . . , Xn (dane surowe)
nazywamy liczbę
2 1 Xn
Ŝ = (Xi − X̄)2
n i=1
1 X n
 

= Xi2 − nX̄ 2
n i=1
Dla danych pogrupowanych w szeregu rozdzielczym otrzymujemy
1 Xk
Ŝ 2 ' ni(c̄i − X̄)2
n i=1
Agata Boratyńska Wykłady ze statystyki matematycznej 19

Przy danych pogrupowanych w szeregu rozdzielczym stosuje się


jeszcze poprawkę związaną z założeniem rozkładu równomiernego
danych na poszczególnych przedziałach
1 Xk
2 2 1 X k
S̄ = ni(c̄i − X̄) + ni(ci − ci−1)2
n i=1 12n i=1
√ √
Odchylenie standardowe Ŝ = Ŝ lub S̄ = S̄ 2
2

1 Pn
Odchylenie przeciętne d = n i=1 |Xi − X̄|
W sytuacji gdy chcemy porównać rozrzut dwóch lub więcej prób
korzystamy ze współczynnika zmienności

V = 100%

PRZYKŁAD 1 cd.
r =5−2=3
IQR = 4 − 3 = 1
2 1 
Ŝ = 2(2 − 3, 5)2 + 6(3 − 3, 5)2 + 5(3, 5 − 3, 5)2
20 
2 2 2
+4(4 − 3, 5) + 1(4, 5 − 3, 5) + 2(5 − 3, 5) = 0, 63

Ŝ = 0, 658 = 0, 79
1
d= {2|2 − 3, 5| + 6|3 − 3, 5| + 5|3, 5 − 3, 5|
20
+4|4 − 3, 5| + 1|4, 5 − 3, 5| + 2|5 − 3, 5|} = 0, 6
Agata Boratyńska Wykłady ze statystyki matematycznej 20

PRZYKŁAD 2 cd. Dla danych z szeregu rozdzielczego


r ' 120 − 30 = 90
IQR ' 66, 67 − 46, 09 = 20, 58
Ŝ 2 ' 331, 31
Ŝ ' 18, 20
S̄ 2 = 339, 64 S̄ = 18, 43
d ' 13, 96
Agata Boratyńska Wykłady ze statystyki matematycznej 21

WYKRES RAMKOWY, PUDEŁKO Z WĄSAMI


Pozwala na jednym rysunku przedstawić wiadomości dotyczące po-
łożenia, rozproszenia i kształtu rozkładu empirycznego badanej ce-
chy. Na wykresie zaznacza się kwartyle, średnią, medianę, najwięk-
szą i najmniejszą obserwację, obserwacje odstające.
Obserwacje odstające są to obserwacje o wartościach
x < x∗ lub x > x∗
gdzie
3
x∗ = min{Xi : Xi ∈ [Q1 − IQR, Q1]}
2
3
x∗ = max{Xi : Xi ∈ [Q3, Q3 + IQR]}
2
Agata Boratyńska Wykłady ze statystyki matematycznej 22

WSKAŹNIKI ASYMETRII
Współczynnik asymetrii (klasyczny)
M3
A= 3
S
gdzie M3 jest trzecim momentem centralnym równym dla danych
surowych
1 X
n
M3 = (Xi − X̄)3,
n i=1
dla danych pogrupowanych w szeregu rozdzielczym otrzymujemy
1 Xk
M3 ' ni(c̄i − X̄)3
n i=1
Pozycyjny miernik asymetrii
Q3 − 2M ed + Q1
A2 =
Q3 − Q1
Współczynnik skośności
X̄ − M o
A1 =
S
Asymetria dodatnia (prawostronna) - wskaźniki asymetrii dodatnie
Asymetria ujemna (lewostronna) - wskaźniki asymetrii ujemne
3,5−3,5
PRZYKŁAD 1 cd. A = 0, 08, A1 = 0,79 =0
58,70−50,10
PRZYKŁAD 2cd. A = 1, 10 A1 = 18,20 = 0, 47
3506−3000
PRZYKŁAD 3cd. A1 = 1671,57 = 0, 3
Agata Boratyńska Wykłady ze statystyki matematycznej 23

INDEKSY STATYSTYCZNE
Zbiór wartości danej cechy lub wartości określonego zjawiska za-
obserwowany w różnych (ale chronologicznych) momentach czasu
nazywamy szeregiem czasowym.
PRZYKŁAD. cena akcji w kolejnych dniach stycznia, zarobki w
pewnej gałęzi przemysłu w kolejnych latach, wielkość produkcji w
kolejnych miesiącach
Indeksy statystyczne służą do badania dynamiki zjawiska na
podstawie danych z kolejnych okresów czasowych (na podstawie
szeregu czasowego).
yt - poziom zjawiska (wartość cechy) w chwili (okresie) t, t ∈
{0, 1, 2, . . . , n}
∆t = yt − yt−1 - przyrost absolutny
yt −yt∗
δt = y t∗ - przyrost względny względem wartości w chwili t∗.
INDEKSY PROSTE - mierniki tempa zmian zjawiska
yt
Indeks łańcuchowy dynamiki it|t−1 = yt−1

Tempo zmian wartości zjawiska w okresie t w stosunku do okresu


t − 1 jest równe (it|t−1 − 1)100%
yt
Indeks jednopodstawowy dynamiki it|t∗ = y t∗ , gdzie t∗ jest
ustaloną chwilą (ustalonym okresem) czasu.
Agata Boratyńska Wykłady ze statystyki matematycznej 24

Tempo zmian wartości zjawiska w okresie t w stosunku do okresu


t∗ jest równe (it|t∗ − 1)100%
Związki między indeksami:
it|t∗
it|t−1 = ,
it−1|t∗
jeśli t0 > t∗ to
t0
it0|t∗ = it|t−1,
Y

t=t∗ +1
jeśli t0 < t∗ to
t∗ 1
it0|t∗ = .
Y

t=t0 +1 it|t−1

Średnie tempo zmian wartości zjawiska


1 1
n y 1
 
n n n 
r = īg − 1 =  it|t−1 − 1 =   − 1 = in|0 n − 1
Y

t=1 y0

Średnie tempo zmian wartości zjawiska określa tempo zmian zjawi-


ska jakie powinno występować przez cały okres (0, n), aby przyrost
z okresu (0, n) rozłożyć równomiernie w czasie.
Zatem yn = y0(r + 1)n.
Agata Boratyńska Wykłady ze statystyki matematycznej 25

AGREGATOWE INDEKSY WARTOŚCI, ILOŚCI I CEN.


Indeksy agragatowe oceniają dynamikę zjawiska w niejedno-
rodnej zbiorowości (np. dynamika cen różnych artykułów, dyna-
mika spożycia różnych produktów, dynamika sprzedaży, produkcji
kilku dóbr).
Dane z dwóch okresów (momentów) czasowych: t = 0 - okres pod-
stawowy i t = 1 okres badany

produkt cena jednostki ilość wartość


t=0 t=1 t=0 t=1 t=0 t=1
1 p10 p11 q10 q11 w10 = p10q10 w11 = p11q11
2 p20 p21 q20 q21 w20 = p20q20 w21 = p21q21
... ... ... ... ... ... ...
j pj0 pj1 qj0 qj1 wj0 = pj0qj0 wj1 = pj1qj1
... ... ... ... ... ... ...
k pk0 pk1 qk0 qk1 wk0 = pk0qk0 wk1 = pk1qk1

Agregatowy indeks wartości


Pk
j=1 wj1
Iw = Pk
j=1 wj0

informuje o łącznej zmianie wartości wszystkich produktów w mo-


mencie badanym do momentu podstawowego
Agata Boratyńska Wykłady ze statystyki matematycznej 26

Agregatowy indeks cen określa wpływ zmian cen na dyna-


mikę wartości (gdyby ilości w obu momentach czasu były niezmie-
nione), mówi o przeciętnych zmianach cen wszystkich rozważanych
produktów
Agregatowy indeks cen Laspeyresa
Pk pj1
j=1 pj0 pj0 qj0
Pk
j=1 pj1 qj0
L Ip = Pk = Pk
j=1 pj0 qj0 j=1 pj0 qj0
Agregatowy indeks cen Paaschego
Pk
j=1 pj1 qj1
P Ip = Pk
j=1 pj0 qj1
Agregatowy indeks cen Fishera
r
F Ip = L IpP Ip

Agregatowy indeks ilości określa wpływ zmian ilości na dyna-


mikę wartości (gdyby w obu momentach ceny były niezmienione),
informuje o przeciętnych zmianach ilości poszczególnych produk-
tów w obu porównywanych momentach czasu
Agregatowy indeks ilości Laspeyresa
Pk qj1
j=1 qj0 pj0 qj0
Pk
j=1 pj0 qj1
I
L q = Pk = Pk
p q
j=1 j0 j0 j=1 pj0 qj0
Agregatowy indeks ilości Paaschego
Pk
j=1 pj1 qj1
P Iq = Pk
j=1 pj1 qj0
Agata Boratyńska Wykłady ze statystyki matematycznej 27

Agregatowy indeks ilości Fishera


r
F Iq = L IqP Iq

Związki między indeksami


Iw = LIpP Iq = LIqP Ip = F IpF Iq
Agata Boratyńska Wykłady ze statystyki matematycznej 28

MODEL STATYSTYCZNY, PODSTAWOWE ZADANIA


STATYSTYKI MATEMATYCZNEJ
ZADANIE z rachunku prawdopodobieństwa
Rzucamy niezależnie 100 razy symetryczną monetą.
Oblicz:
prawdopodobieństwo wyrzucenia 60 orłów
wartość oczekiwaną liczby wyrzuconych orłów
Rozwiązanie:
Model probabilistyczny:
X - liczba wyrzuconych orłów, zmienna losowa o rozkładzie dwu-
mianowym
100
  
100 1
P (X = 60) =  

60 2
EX = nθ = 50
Agata Boratyńska Wykłady ze statystyki matematycznej 29

ZADANIE ze statystyki matematycznej


Rzucono niezależnie 100 razy pewna monetą uzyskując 60 orłów.
Polecenia:
1. oszacuj prawdopodobieństwo uzyskania orła w pojedynczym
rzucie;
2. czy moneta jest symetryczna
Co znamy?
Model probabilistyczny z dokładnością do parametru
X - liczba wyrzuconych orłów, obserwowana zmienna losowa o
rozkładzie dwumianowym
 
100 x 100−x
Pθ (X = x) = 
  (θ) (1 − θ)
x
θ ∈ (0, 1) - nieznany parametr
Wynik obserwacji X = 60, na jego podstawie chcemy wnioskować
o nieznanym parametrze θ.
Agata Boratyńska Wykłady ze statystyki matematycznej 30

Zagadnienie estymacji - szacowanie nieznanego parametru na


podstawie wyniku obserwacji;
estymacja punktowa - podanie oszacowania w postaci liczbowej;
estymacja przedziałowa - podanie oszacowania w postaci przedzia-
łu nazywanego przedziałem ufności
Testowanie hipotez statystycznych - weryfikacja hipotezy
dotyczącej nieznanej wielkości rozkładu obserwowanej zmiennej lo-
sowej na podstawie wyniku obserwacji
Polecenia:
wyznacz estymator lub przedział ufności parametru θ
zweryfikuj hipotezę H : θ = 12
Agata Boratyńska Wykłady ze statystyki matematycznej 31

MODEL STATYSTYCZNY

(X , FX , P)

X - przestrzeń wartości obserwowanej zmiennej losowej X


FX - σ-ciało podzbiorów
P - rodzina rozkładów prawdopodobieństwa indeksowanych pew-
nym parametrem θ
P = {Pθ : θ ∈ Θ}

Statystyką nazywamy zmienną losową T będącą funkcją obser-


wowanej zmiennej losowej X. Rozkład statystyki zależy od rozkła-
du zmienne X
Wnioskowanie statystyczne:
• estymacja nieznanych parametrów: punktowa i przedziałowa
• testowanie hipotez statystycznych
• predykcja (przewidywanie) - przewidywanie wartości zmiennej
losowej nieobserwowanej Y za pomocą obserwowanej zmiennej X,
rozkłady zmiennej Y i X zależą od tego samego parametru.
Agata Boratyńska Wykłady ze statystyki matematycznej 32

PEWNE WAŻNE ROZKŁADY


Rozkład χ2
Niech Zi ∼ N (0, 1), i = 1 . . . k, Zi niezależne
Rozkładem χ2 z k stopniami swobody nazywamy rozkład prawdo-
podobieństwa zmiennej losowej
k
Y = Zi2
X

i=1

i oznaczamy
Y ∼ χ2k

gęstość
1 1
 
k −1
pk (x) = k x 2 exp − x 1(0,∞)(x)
2 2 Γ( k2 ) 2
EY = k i V arY = 2k
kwantyl rzędu p - Fχ−1
2 (p) - jest to liczba taka, że P {Y ¬
k
Fχ−1
2 (p)} =p
k

wartość krytyczna rzędu α


χ2(α, k) = Fχ−1
2 (1 − α)
k

- jest to liczba, taka że prawdopodobieństwo zdarzenia Y > χ2(α, k)


jest równe α.
Agata Boratyńska Wykłady ze statystyki matematycznej 33

Rozkład t-Studenta
Niech Z ∼ N (0, 1) i Y ∼ χ2k oraz Z i Y niezależne, wtedy rozkład
zmiennej losowej
Z
T = rY
k
nazywamy rozkładem t-Studenta z k stopniami swobody i ozna-
czamy
T ∼ tk
gęstość
 k+1
2 − 2
 
k+1 
1 Γ x
fk (x) = √ · 2  1 + 

Γ k2

kπ 2
ET = 0 gdy k > 1
k
V arT = k−2 gdy k > 2
kwantyl rzędu p - Ft−1
k
(p) - jest to liczba taka, że P {T ¬
Ft−1
k
(p)} = p
wartość krytyczna dwustronna rzędu α
−1 α!
t(α, k) = Ftk 1 −
2
- jest to liczba, taka że prawdopodobieństwo zdarzenia |T | >
t(α, k) jest równe α.
Agata Boratyńska Wykłady ze statystyki matematycznej 34

Rozkład F (Fishera-Snedecora)
Niech Y ∼ χ2k i V ∼ χ2r oraz zmienne Y i V są niezależne, wtedy
rozkład zmiennej losowej
Y /k
F =
V /r
nazywamy rozkładem F z k i r stopniami swobody i oznaczamy
F ∼ Fk,r

gęstość
 
k
Γ k+r r ! 2r x 2 −1
pk,r (x) =   2   1(0,∞)(x)
Γ k2 Γ 2r k x + r  k+r2
k

gdy x > 0
kwantyl rzędu p - FF−1
k,r
(p)
wartość krytyczna rzędu α
F (α, k, r) = FF−1
k,r
(1 − α)
- jest to liczba, taka że prawdopodobieństwo zdarzenia F > F (α, k, r)
jest równe α.
Agata Boratyńska Wykłady ze statystyki matematycznej 35

Rozkłady pewnych statystyk w modelu normalnym


X1, X2, . . . , Xn i.i.d. N (µ, σ 2), µ ∈ R, σ > 0

1 Xn
X̄ = Xi
n i=1
1 Xn
S2 = i=1 (Xi − X̄)
2
n−1
Własności
• X̄ i S 2 są niezależne;
2
• X̄ ∼ N (µ, σn )
E X̄ = n1 E = n1 nEX1 = µ
Pn
i=1 Xi
σ2
V arX̄ = n1 V ar 1
Pn
i=1 Xi = n2
nV arX1 = n
Pn (Xi −µ)2
• Zmienna i=1 σ2
ma rozkład χ2n
(n−1)S 2 Pn (Xi −X̄)2
• σ2
= i=1 σ2
∼ χ2n−1
2 2
• E (n−1)S
σ 2 = n − 1 i V ar (n−1)S
σ2
= 2(n − 1) stąd

2 2 2 2σ 4
ES = σ i V arS =
n−1
Agata Boratyńska Wykłady ze statystyki matematycznej 36

X̄−µ √ (n−1)S 2
• σ n ∼ N (0, 1) i σ2
∼ χ2n−1 zatem
X̄−µ √
n X̄ − µ √
T = sσ = n ∼ tn−1
(n−1)S 2 S
σ 2 (n−1)

• Niech X1, X2, . . . , Xn i.i.d. N (µ1, σ 2) i Y1, Y2, . . . , Ym i.i.d. N (µ2, σ 2)


Niech
2 1 Xn 2
SX = i=1 (Xi − X̄)
n−1
i
1 Xm
SY2 = i=1 (Yi − Ȳ )
2
m−1
Wtedy
2
(n − 1)SX 2 (m − 1)SY2 2
∼ χ n−1 ∼ χ m−1
σ2 σ2
i zmienne sa niezależne, stąd
(n−1)SX 2
2
σ 2 (n−1) SX
(m−1)SY2
= 2 ∼ Fn−1,m−1
SY
σ 2 (m−1)
Agata Boratyńska Wykłady ze statystyki matematycznej 37

ZAGADNIENIE ESTYMACJI
Zagadnienie estymacji - szacowanie nieznanego parametru lub
funkcji na podstawie wyników obserwacji;
X1, X2, . . . , Xn - niezależne zmienne losowe o tym samym rozkła-
dzie (i.i.d.) Pθ - próba losowa
θ ∈ Θ - nieznany parametr, Θ ⊆ R(Rk )
Estymatorem parametru θ nazywamy dowolną funkcję
θ̂(X1, X2, . . . , Xn), której wartości należą do przestrzeni Θ, i której
celem jest oszacowanie parametru θ.
CHARAKTERYSTYKI PRÓBKOWE - estymatory w oparciu o
dystrybuantę empiryczną
Model:
(R, F)n, gdzie F rodzina dystrybuant na prostej rzeczywistej
x = (x1, x2, ..., xn) - próbka losowa z rozkładu o dystrybuancie F
k-ta statystyka pozycyjna z próby losowej x1, x2, ..., xn jest
równa k-tej wartości, gdy obserwacje ustawimy w ciąg rosnący.
Oznaczenie: Xk:n
W szczególności
x1:n = min{x1, x2, ..., xn}
xn:n = max{x1, x2, ..., xn}
Agata Boratyńska Wykłady ze statystyki matematycznej 38

Dystrybuanta empiryczna
liczba xi, takich że xi ¬ t
Fn(x, t) = Fn(t) =
n
1 1
Fn(t) = Σ1(−∞,t](xi) = Σ1[xi:n,∞)(t)
n n
gdzie
1 gdy Xi ∈ (−∞, t]


1(−∞,t](Xi) = 
0 w przeciwnym przypadku
jest zmienną losową dwupunktową,
PF (1(−∞,t](Xi) = 1) = F (t)

Dystrybuanta empiryczna jest statystyką jako funkcja próby lo-


sowej i jest dystrybuantą rozkładu jednostajnego skupionego w
punktach x1, x2, ..., xn jako funkcja zmiennej t.
Własności Fn jako statystyki:
1.
1
EF Fn(t) = EF Σ1(−∞,t](Xi)
n
1
= · nEF 1(−∞,t](Xi) = F (t)
n
2. V arFn(t) = n1 F (t)(1 − F (t))
Agata Boratyńska Wykłady ze statystyki matematycznej 39

3. CTG
Fn(t) − F (t) √
r n −→ N (0, 1)
F (t)(1 − F (t))
 


 Fn(t) − F (t) √ 


Px: r n ¬ z −→ Φ(z)
  F (t)(1 − F (t)) 

dla każdego z.
4. Twierdzenie Gliwenki Cantellego
Dla prawie wszystkich x
sup |Fn(t) − F (t)| −→ 0,
t

gdy n −→ ∞
Charakterystyki próbkowe:
średnia - estymator wartości oczekiwanej
mediana próbkowa - estymator mediany
kwantyl próbkowy - estymator kwantyla rozkładu
wariancja z próby - estymator wariancji
itd
Agata Boratyńska Wykłady ze statystyki matematycznej 40

Przykład 4: Dane - 40 strat spowodowanych wichurami:

wartość liczebność
2 12
3 4
4 3
5 4
6 4
8 2
9 1
15 1
17 1
22 1
23 1
24 2
25 1
27 1
32 1
43 1
Agata Boratyńska Wykłady ze statystyki matematycznej 41

METODY WYZNACZANIA ESTYMATORÓW


EMM (estymacja metodą momentów)
X1, X2, . . . , Xn i.i.d z rozkładu Pθ , θ- nieznany parametr
1. θ ∈ R (jednowymiarowa przestrzeń parametrów), rozwiąż (nie-
wiadomą jest θ):
Eθ X = X̄

2. θ = (θ1, θ2) ∈ R2, rozwiąż układ (niewiadomą jest θ):



 Eθ X = X̄

V arθ X = Ŝ 2

3. θ = (θ1, θ2, . . . , θk ) (k-wymiarowa przestrzeń parametrów), roz-


wiąż układ (niewiadomą jest θ):






Eθ X = X̄
V arθ X = Ŝ 2







1P
Eθ (X − µ)3 = − X̄)3


 n (Xi
......







 E (X − µ)k = 1P
− X̄)k

n (Xi


θ

gdzie µ = Eθ X.
Agata Boratyńska Wykłady ze statystyki matematycznej 42

Przykład 1.
X = (X1, X2, . . . , Xn), Xi ∼ Ex(θ) i są niezależne, θ > 0
EM M (θ) =?

Z +∞ 1
Eθ Xi = 0
xθe−θxdx =
θ
Rozwiązujemy równanie:
1
= X̄
θ
stąd
1
EM M (θ) = θ̂ =

Przykład 2.
X = (X1, X2, . . . , Xn), Xi ∼ Gamma(α, β) i są niezależne,
α, β > 0
EM M (α) =? i EM M (β) =?.

β α α−1 −βx
pα,β (x) = x e gdy x > 0
Γ(α)

α
Eα,β Xi =
β
α
V arα,β Xi = 2
β
Agata Boratyńska Wykłady ze statystyki matematycznej 43

Otrzymujemy układ:
α



 β = X̄
α 2
 2 = Ŝ


β
Stąd:
X̄ X̄ 2
β̂ = 2 i α̂ = 2
Ŝ Ŝ
Przykład 3.
Wyznaczyć EMM parametrów w rozkładzie P areto(θ, λ), θ > 2,
λ > 0.
Rozwiązanie:
X = (X1, X2, . . . , Xn), Xi ∼ P areto(θ, λ) i są niezależne

θλθ
pθ,λ(x) = , x>0
(λ + x)θ+1
Otrzymujemy układ:

λ
= X̄
θ−1
λ2 θ 2
= S
(θ − 1)2(θ − 2)
Stąd:
2S 2
θ̂ = 2 λ̂ = X̄(θ̂ − 1).
S − X̄ 2
Agata Boratyńska Wykłady ze statystyki matematycznej 44

EMK (estymacja metodą kwantyli)


X1, X2, . . . , Xn i.i.d z rozkładu Pθ , θ- nieznany parametr
1. θ ∈ R (jednowymiarowa przestrzeń parametrów), rozwiąż (nie-
wiadomą jest θ):
1
q 1 (θ) = Q 1 ⇐⇒ Fθ (Q 1 ) =
2 2 2 2

2. θ = (θ1, θ2), rozwiąż układ (niewiadomą jest θ):


q 1 (θ) = Q 1 i q 3 (θ) = Q 3
4 4 4 4

lub układ równoważny:


1 3
Fθ (Q 1 ) = i Fθ (Q 3 ) =
4 4 4 4

3. θ = (θ1, θ2, θ3). Otrzymujemy układ:


1 1 3
Fθ (Q 1 ) = i Fθ (Q 1 ) = i Fθ (Q 3 ) =
4 4 2 2 4 4

4. θ = (θ1, θ2, θ3, θ4). Rozważamy kwantyle rzędu 18 , 38 , 5


8 i 78 .
Agata Boratyńska Wykłady ze statystyki matematycznej 45

Przykład 1.
X1, X2, . . . , Xn i.i.d, Xi ∼ Ex(θ), θ > 0
EM K(θ) =?

! !
1 1 1
Fθ q 1 = 1 − exp −θq 1 = ⇐⇒ q 1 = − ln
2 2 2 2 θ 2
Rozwiązujemy równanie:
1 1
− ln = Q 1
θ 2 2

stąd
1 1
EM K(θ) = θ̂(X) = − ln
Q1 2
2
Agata Boratyńska Wykłady ze statystyki matematycznej 46

Przykład 2.
Niech X1, X2, . . . , Xn i.i.d z rozkładu W eibull(c, τ ),
EM K(c) =? i EM K(τ ) =?
Dystrybuanta w rozkładzie Weibulla ma postać:
Fc,τ (x) = 1 − exp (−cxτ ) x>0
Otrzymujemy układ:
−cQτ1

1
1−e



 4 = 4
τ
−cQ 3 .
3

1−e =

4


4

Stąd
− ln 0.75 = cQτ1



4
τ
 − ln 0.25 = cQ 3

4
 τ
Q1  ln 0.75
4
=


Q ln 0.25
 
3
4
Estymatory mają postać:
ln 0.75 
 

τ̂ = log Q 1 
4
Q3
ln 0.25
4

ln 0.75
ĉ = −
Qτ̂1
4
Agata Boratyńska Wykłady ze statystyki matematycznej 47

ENW (estymacja metodą największej wiarogodności)


Niech X1, X2, . . . , Xn i.i.d. z rozkładu o gęstości fθ (x), gdzie θ jest
nieznanym parametrem.
Funkcją wiarogodności nazywamy funkcję zmiennej θ równą
L(θ, x) = fθ (x1)fθ (x2) . . . fθ (xn)
gdzie x = (x1, x2, . . . , xn) jest próbką zaobserwowanych wartości
zmiennych X1, X2, . . . , Xn
Estymatorem największej wiarogodności parametru θ
(EN W (θ)) nazywamy argument maksimum funkcji L
EN W (θ) = arg max L(θ, x).
θ

Zachodzi: arg maxθ L(θ, x) = arg maxθ ln L(θ, x).


EN W (g(θ)) = g(EN W (θ))
Jeżeli θ = (θ1, . . . , θk ) jest parametrem ciągłym i L jest funkcją
różniczkowalną, to ENW wyznaczamy rozwiązując układ równań:
∂L(θ, x)
= 0, j = 1, 2, . . . , k
∂θj
lub równoważny układ:
∂ ln L(θ, x)
= 0, j = 1, 2, . . . , k.
∂θj
Agata Boratyńska Wykłady ze statystyki matematycznej 48

PRZYKŁAD 1.
X ∼ bin(n, θ)  
n x n−x
 θ (1 − θ)
L(θ, x) = 
x
 
∂L(θ, x) n x−1
=  θ (1 − θ)n−x−1(x − nθ) = 0
∂θ x
X
EN W (θ) =
n
Agata Boratyńska Wykłady ze statystyki matematycznej 49

PRZYKŁAD 2.
X1, X2, . . . , Xn i.i.d Ex(θ), θ > 0
Funkcja wiarogodności
n
 
n
L(θ, x) = θ exp −θ xi 
X

i=1
n
ln L = n ln θ − θ xi
X

i=1
∂ ln L(θ,x) n Pn
Pochodna ∂θ = θ − i=1 xi Rozwiązujemy równanie
n X n
− xi = 0
θ i=1
1
EN W (θ) =

PRZYKŁAD 3.
X1, X2, . . . , Xn i.i.d N (µ, σ), niech v = σ 2
n
1 2 1 Xn
  

L(µ, v) =  exp −  (xi − µ)2


2πv 2v i=1
n n 1 X n
ln L = − ln(2π) − ln v − (xi − µ)2
2 2 2v i=1
Po obliczeniu pochodnych cząstkowych otrzymujemy układ
2 1
 Pn
2v i=1 (xi − µ) = 0

−n + 1
Pn 2
i=1 (xi − µ) = 0

2v 2v 2

2 2 1 X
n  2
EN W (µ) = X̄ EN W (σ ) = Ŝ = Xi − X̄ .
n i=1
Agata Boratyńska Wykłady ze statystyki matematycznej 50

WŁASNOŚCI ESTYMATORÓW,
PORÓWNYWANIE ESTYMATORÓW
X = (X1, X2, . . . , Xn) - obserwowana zmienna losowa
Pθ - rozkład zmiennej X, θ -nieznany parametr
θ̂ - estymator θ, ĝ - estymator funkcji g(θ)
1. Obciążenie estymatora
Obciążenie estymatora parametru θ:
Bθ (θ̂) = Eθ θ̂(X) − θ

Obciążenie estymatora funkcji g(θ):


Bθ (ĝ) = Eθ ĝ(X) − g(θ)

Estymator θ̂ ( ĝ) jest estymatorem nieobciążonym


⇐⇒ ∀θ ∈ Θ Eθ θ̂(X) = θ (Eθ ĝ(X) = g(θ))

PRZYKŁADY:
X1, X2, . . . , Xn i.i.d z rozkładu o nieznanej dystrybuancie F i nie-
znanych EXi = µ i V arXi = σ 2
Fn - dystrybuanta empiryczna (estymator F )
X̄ - estymator µ
S 2, Ŝ 2 - estymatory σ 2
Agata Boratyńska Wykłady ze statystyki matematycznej 51

EFn(t) = F (t)
=⇒ Fn(t) estymator nieobciążony dystrybuanty F (t)

1 X n 1
E X̄ =
E Xi = nEX1 = µ
n i=1 n
=⇒ X̄ - estymator nieobciążony wartości oczekiwanej

1 n
 
2
ES = E  (Xi − X̄)2
X

n−1 i=1
1 n n n
 

= E  Xi2 − nX̄ 2 = EX12 − E X̄ 2


X

n−1 i=1 n−1 n−1


2
  
2 n  2 2 σ
ES = σ + µ −  + µ2 
 = σ
 2
n−1 n
=⇒ S 2 jest estymatorem nieobciążonym wariancji

n − 1 2 n − 1 2
 

E Ŝ 2 = E  S = σ
n n
n−1 2 1
B(Ŝ 2) = σ − σ2 = − σ2
n n
Ŝ 2 - estymator obciążony

1
B(Ŝ 2) = − σ 2 −→ 0 gdy n −→ +∞
n
Agata Boratyńska Wykłady ze statystyki matematycznej 52

Mówimy, że estymator jest asymptotycznie nieobciążony gdy


∀θ∈Θ lim Bθ (θ̂) = 0
n→+∞

2. Ryzyko estymatora (błąd średniokwadratowy)


Funkcję
R(θ, ĝ) = Eθ (ĝ(X) − g(θ))2
nazywamy ryzykiem estymatora ĝ przy kwadratowej funkcji
straty lub błędem średniokwadratowym.

R(θ, ĝ) = Eθ (ĝ(X) − g(θ))2 = Bθ2(ĝ) + V arθ (ĝ)

Mówimy, że estymator ĝ1 jest lepszy niż ĝ2 ⇐⇒


∀θ R(θ, ĝ1) ¬ R(θ, ĝ2)
i
∃θ0 R(θ0, ĝ1) < R(θ0, ĝ2).

Jeżeli ĝ jest estymatorem nieobciążonym funkcji g(θ), tzn.


Eθ (ĝ) = g(θ) dla każdego θ ∈ Θ, to
R(θ, ĝ) = V arθ (ĝ).

WNIOSEK: Przy estymatorach nieobciażonych miernikiem jakości


estymatora jest jego wariancja.
Agata Boratyńska Wykłady ze statystyki matematycznej 53

PRZYKŁAD 1.
X1, X2, . . . , Xn i.i.d P oiss(θ), θ > 0
EN W (θ) =?
P
xi
−nθ θ
L(θ, x) = e
xi !
Q

ln L(θ, x) = −nθ + xi ln θ − ln xi!


YX

∂ ln L(θ, x) xi
P

= −n +
∂θ θ
Xi
P

EN W (θ) = θ̂ = = X̄
n
Eθ X̄ = θ =⇒ θ̂ estymator nieobciążony
θ
R(θ, θ̂) = V arθ θ̂ =
n
Agata Boratyńska Wykłady ze statystyki matematycznej 54

PRZYKŁAD 2.
X1, X2, . . . , Xn i.i.d N (µ, σ 2), oba parametry nieznane
Porównamy ryzyka estymatorów wariancji S 2 i Ŝ 2

R(µ, σ, S 2) = V arµ,σ S 2
n
σ4 X̄)2 
P 
i=1 (Xi −
= V ar µ,σ

(n − 1)2 σ2
 

σ4 2σ 4
= 2(n − 1) =
(n − 1)2 (n − 1)

R(µ, σ, Ŝ 2) = V arµ,σ Ŝ 2 + Bµ,σ


2
(Ŝ 2)
n − 1 2  −1 22
   

= V arµ,σ  S + σ
n n
2
n − 1 2σ 4 σ 4 2n − 1 4

=   + = σ
n (n − 1) n2 n2
Zatem
∀ µ, σ R(µ, σ, Ŝ 2) < R(µ, σ, S 2)
Agata Boratyńska Wykłady ze statystyki matematycznej 55

X = (X1, X2, . . . , Xn),


pθ (x) - gęstość rozkładu zmiennej X
Informacją Fishera nazywamy funkcję
 2
∂ ln pθ (X) 
In(θ) = Eθ 
 
∂θ
∂pθ (x) 2
  


 ∂θ  p (x)dx dla zmiennej ciągłej

 R
 X θ

pθ (x)


In(θ) = 


∂Pθ (x) 2


 ∂θ  P (x) dla zmiennej dyskretnej

 P
 x θ

Pθ (x)

Jeżeli pθ (x) jest dwukrotnie różniczkowalną funkcją zmiennej θ, to


2
 
 ∂ ln pθ (X) 
In(θ) = −Eθ  .
∂θ2

Jeżeli X1, X2, . . . , Xn i.i.d. z rozkładu o gęstości fθ (x), to


In(θ) = nI1(θ),
gdzie I1(θ) jest informacją Fishera w oparciu o zmienną X1.
Agata Boratyńska Wykłady ze statystyki matematycznej 56

NIERÓWNOŚĆ INFORMACYJNA
Przy pewnych warunkach regularności, jeżeli ĝ jest estymato-
rem nieobciążonym funkcji różniczkowalnej g(θ), to
(g 0(θ))2
∀θ∈Θ V arθ ĝ ­ .
In(θ)

Efektywność estymatora niobciążonego


ĝ(X1, X2, . . . , Xn) funkcji różniczkowalnej g(θ):
(g 0(θ))2
ef fθ (ĝ(X1, X2, . . . , Xn) =
In(θ)V arθ (ĝ)
2
(g0(θ))
Wielkość In (θ) nazywamy dolnym ograniczeniem Cramera-Rao
Agata Boratyńska Wykłady ze statystyki matematycznej 57

PRZYKŁAD 1 cd.
X1, X2, . . . , Xn i.i.d P oiss(θ), θ > 0
θ
EN W (θ) = X̄ i V arθ X̄ = n

Wyznaczymy dolne ograniczenie Cramera Rao


x
Pθ (x) = e−θ θx!
ln Pθ (x) = −θ + x ln θ − ln x!
∂ ln Pθ (X) 2
 
In(θ) = nI1(θ) = nEθ ∂θ
∂ ln Pθ (X)
∂θ = −1 + xθ

X − θ 2 1 n
 

In(θ) = nEθ  = n 2 Eθ (X − θ)2 =


θ θ θ
Dolne ograniczenie Cramera Rao
(g 0(θ))2 1 θ
= =
In(θ) In(θ) n
Agata Boratyńska Wykłady ze statystyki matematycznej 58

3. Zgodność estymatora ĝ(X1, X2, . . . , Xn) = ĝn funkcji g(θ)


dla każdego ε > 0 i θ ∈ Θ
lim Pθ (|ĝn − g(θ)| > ε) = 0
n→+∞

4. Asymptotyczna normalność ĝ(X1, X2, . . . , Xn)


istnieje σ(θ) > 0 takie, że dla każdego z

 
 ĝn − g(θ)
lim P θ  n < z  = Φ(z)

n→+∞ σ(θ)
gdzie Φ jest dystrybuantą rozkładu normalnego N (0, 1)
σ 2(θ) 
 

ĝn ∼ N g(θ),

 przy dużym n
n
ĝn − g(θ) √
n −→ N (0, 1) przy n −→ +∞
σ(θ)

Wielkość σ 2(θ) nazywamy wariancją asymptotyczną.


Agata Boratyńska Wykłady ze statystyki matematycznej 59

PRZYKŁADY
X1, X2, . . . , Xn i.i.d z rozkładu dystrybuancie F
i EXi = µ i V arXi = σ 2
1. Z praw wielkich liczb wynika
X̄ −→ µ przy n −→ +∞
S 2 −→ σ 2 przy n −→ +∞
Fn(t) −→ F (t) przy n −→ +∞
2. Z CTG wynika
X̄ − µ √
n −→ N (0, 1) przy n −→ +∞
σ
Fn(t) − F (t) √
r n −→ N (0, 1) przy n −→ +∞
F (t)(1 − F (t))

3. Niech Q̂p = X[np]:n. Jeżeli funkcja gęstosci fθ jest ciągła i spełnia


fθ (qp) 6= 0, to

 
p(1 − p) 
(Q̂p − qp) n −→ N 
0, przy n −→ +∞
fθ2(qp)

Agata Boratyńska Wykłady ze statystyki matematycznej 60

Lemat DELTA
Jeżeli ciąg Zn rzeczywistych zmiennych losowych spełnia

(Zn − θ) n −→ N (0, σ 2)
dla pewnego σ 2 i g(θ) jest różniczkowalną funkcją θ i g 0(θ) 6= 0,
to

(g(Zn) − g(θ)) n −→ N (0, [g 0(θ)]2σ 2).

PRZYKŁAD 1.
X1, X2, . . . , Xn i.i.d., EXi = µ i V arXi = σ 2
X̄ 2 - estymator parametru µ2
Z CTG

(X̄ − µ) n −→ N (0, σ 2) przy n −→ +∞
Niech
g(µ) = µ2
Z lematu DELTA
2 2
√ 
2 2

(X̄ − µ ) n −→ N 0, 4σ µ
Agata Boratyńska Wykłady ze statystyki matematycznej 61

PRZYKŁAD 2.
X1, X2, . . . , Xn i.i.d. Ex(θ), θ > 0, Eθ X = 1θ , V arθ X = 1
θ2
1
EN W (θ) = X̄

Z CTG
1 √ 1
 

(X̄ − ) n −→ N 0, 2  przy n −→ +∞


θ θ
Niech
1
g(t) =
t
wtedy
1 1 1 1
 

g 0(t) = − 2 =⇒ g(X̄) = , g( ) = θ, g 0   = −θ2


t X̄ θ θ
Z lematu DELTA
1 √ 1
   
 − θ n −→ N 0, 2 · θ4
X̄ θ
Agata Boratyńska Wykłady ze statystyki matematycznej 62

ASYMPTOTYCZNA ZGODNOŚĆ I NORMALNOŚĆ ENW


1. Niech X1, X2, . . . , Xn, . . . będą i.i.d z rozkładu o gęstości fθ ,
gdzie θ jest nieznanym parametrem. Niech gęstości fθ mają
wspólny nośnik i przestrzeń Θ będzie przedziałem otwartym.
Jeżeli układ równań
∂ ln L(θ, Xi)
Σni=1 =0
∂θ
ma dokładnie jedno rozwiązanie, to jest ono EN W (θ) i jest to
estymator zgodny.
3
2. Jeżeli dodatkowo istnieje ∂ ln L(θ,x
∂θ3
1 ,...,xn )
, i spełnione są zało-
żenia umożliwiające zamianę kolejności operacji różniczkowa-
∂ ∂2
nia po ∂θ lub ∂θ 2 i całkowania . . . dx i I(θ) > 0 jest określona,
R

to θ̂n = θ̂(X1, X2, . . . , Xn) = EN W (θ) jest asymptotycznie


normalny i

 
1 
(θ̂n − θ) n −→ N 
0,  przy n −→ +∞.
I1(θ)

3. (Z Lematu DELTA) Przy powyższych założeniach jeżeli g jest


różniczkowalna i g 0(θ) 6= 0 i θ̂n = EN W (θ), to

(g(θ̂n) − g(θ)) n −→ N (0, [g 0(θ)]2I −1(θ)).
Agata Boratyńska Wykłady ze statystyki matematycznej 63

Mówimy, że estymator ĝn jest estymatorem asymptotycznie


efektywnym parametru g(θ) jeżeli jest estymatorem asympto-
tycznie normalnym o wariancji asymptotycznej
σ 2(θ) = [g 0(θ)]2I −1(θ)

Jeśli ĝ1 i ĝ2 są dwoma estymatorami asymptotycznie normalnymi


funkcji g(θ) o wariancjach asymptotycznych odpowiednio równych
σ12(θ) i σ22(θ), to asymptotyczną efektywnością względną
nazywamy stosunek
σ22(θ)
as.ef(ĝ1, ĝ2) = 2 .
σ1 (θ)
Agata Boratyńska Wykłady ze statystyki matematycznej 64

PRZYKŁAD.
X1, X2, . . . , Xn i.i.d P oiss(θ), θ > 0
Znamy: EN W (θ) = X̄, V arθ X̄ = nθ , I1(θ) = 1
θ

(X̄ − θ) n −→ N (0, θ)

Chcemy estymować funkcję


g(θ) = e−θ = Pθ (X1 = 0)

Rozważamy dwa estymatory:


ĝ1 = e−X̄
liczba Xi, takich że Xi = 0 1 X n
ĝ2 = = 1(Xi = 0)
n n i=1
Rozkłady asymptotyczne
Niech h(t) = e−t, wtedy h0(t) = −e−t i z lematu DELTA
 √  
−X̄ −θ −2θ
e −e n −→ N 0, θe

Niech
1 gdy Xi = 0


Yi = 
0 w pp
Wtedy
Eθ Yi = e−θ i V arθ Yi = e−θ (1 − e−θ )
Agata Boratyńska Wykłady ze statystyki matematycznej 65

oraz
1 Xn
ĝ2 = Yi
n i=1
Z CTG 
−θ
 √ 
−θ −θ

ĝ2 − e n −→ N 0, e (1 − e )
Porównujemy wariancje asymptotyczne
∀θ>0 e−θ (1 − e−θ ) > θe−2θ =⇒ as.ef(ĝ1, ĝ2) > 1
Estymator ĝ1 jest bardziej efektywny niż estymator ĝ2.
Agata Boratyńska Wykłady ze statystyki matematycznej 66

ESTYMACJA PRZEDZIAŁOWA, PRZEDZIAŁY UFNOŚCI


X1, X2, . . . , Xn - próbka losowa z rozkładu z nieznanym parame-
trem θ
Przedziałem ufności dla parametru θ na poziomie ufności 1−α
nazywamy przedział
[θ(X1, X2, . . . , Xn), θ̄(X1, X2, . . . , Xn)],
którego końce są statystykami (funkcjami obserwowanej zmiennej
losowej) i który spełnia warunek
 
∀θ Pθ θ(X1, X2, . . . , Xn) ¬ θ ¬ θ̄(X1, X2, . . . , Xn) ­ 1−α.

α - mała liczba np. 0,1, 0,05, 0,01.


Warunek Pθ (θ ∈ [θ, θ̄]) = 1 − α należy rozumieć tak:
losowy przedział [θ, θ̄] pokrywa nieznaną liczbę θ z dużym
prawdopodobieństwem.
Pojęcie przedziału ufności precyzuje ideę estymacji z określoną do-
kładnością. Zamiast pojedynczego oszacowania nieznanego para-
metru, podajemy dolną i górną granicę oszacowania. Nie możemy
gwarantować, że parametr leży na pewno między tymi granicami,
ale możemy wymagać by tak było z odpowiednio dużym prawdo-
podobieństwem.
Agata Boratyńska Wykłady ze statystyki matematycznej 67

Model I.
X1, X2, . . . , Xn i.i.d. z rozkładu N (µ, σ 2), µ ∈ R nieznane, σ > 0
znane.
EN W (µ) = EM M (µ) = X̄ - estymator punktowy
2
X̄ ∼ N (µ, σn )

U = X̄−µ
σ n ∼ N (0, 1), U - funkcja centralna
szukamy z, tak aby
X̄ − µ √
 


P 
 n ¬ z

 = 1−α

σ

z = u1− α2 - kwantyl rzędu 1 − α2 w rozkładzie normalnym N (0, 1)


Rozwiążmy nierówność (wyznaczamy µ)
X̄ − µ √




n ¬ u1− α2

σ

Otrzymujemy
σ σ
X̄ − u1− α2 √ ¬ µ ¬ X̄ + u1− α2 √
n n
Zatem
 
σ σ 
X̄ − u1− α √
P ¬ µ ¬ X̄ + u 1− α√  = 1 − α
2 n 2 n
Agata Boratyńska Wykłady ze statystyki matematycznej 68

Przedział  
σ σ
X̄ − u1− α2 √ , X̄ + u1− α2 √ 


n n
jest przedziałem ufności dla parametru µ na poziomie
ufności 1 − α.
2d - długość przedziału ufności
σ
2d = 2u1− α2 √
n
d nazywamy błędem oszacowania
1 − α rośnie =⇒ 2d rośnie
n rośnie =⇒ 2d maleje

Aby otrzymać przedział z maksymalnym błędem d0 na zadanym


poziomie ufności 1 − α należy wziąć próbę losową o liczebności
σ 2
 

n ­ u1− α2

d0
Agata Boratyńska Wykłady ze statystyki matematycznej 69

Model II.
X1, X2, . . . , Xn i.i.d. z rozkładu N (µ, σ 2), µ ∈ R nieznane, σ > 0
nieznane.
X̄ - estymator punktowy parametru µ
1 Pn
S2 = n−1 i=1 (Xi − X̄)2 - estymator punktowy parametru σ 2
2
X̄ ∼ N (µ, σn )
X̄−µ √
σ n ∼ N (0, 1)

T = X̄−µ
S n ∼ tn−1, T - funkcja centralna,
tn−1 - rozkład t-Studenta z n − 1 stopniami swobody
Analogicznie, jak poprzednio szukamy liczby z tak aby
X̄ − µ √
 


P 
 n ¬ z 
 = 1−α

S

z = t(α, n − 1) - wartość krytyczna rzędu α, lub równoważnie


kwantyl rzędu 1 − α2 w rozkładzie t-Studenta z n − 1 stopniami
swobody
Rozwiązujemy nierówność (wyznaczamy µ)
X̄ − µ √




n ¬ t(α, n − 1)

S
Agata Boratyńska Wykłady ze statystyki matematycznej 70

Przedział
 
S S

 X̄ − t(α, n − 1) √ , X̄ + t(α, n − 1) √ 
n n
jest przedziałem ufności dla parametru µ na poziomie
ufności 1 − α.
Aby wyznaczyć liczebność próbki potrzebną do uzyskania przedzia-
łu o danej długości postępujemy zgodnie z dwuetapową procedurą
Steina.

Przedział ufności dla wariancji


(n−1)S 2 2
σ 2 ∼ χ n−1 - funkcja centralna
χ2n−1 - rozkład chi kwadrat z n − 1 stopniami swobody
Szukamy liczb a, b tak, aby
(n − 1)S 2
 

P a ¬

2
¬ b
 = 1−α
σ

a = χ2(1 − α2 , n − 1) - wartość krytyczna rzędu 1 − α2 lub równo-


ważnie kwantyl rzędu α2 w rozkładzie chi kwadrat z n−1 stopniami
swobody
b = χ2( α2 , n − 1) - wartość krytyczna rzędu α2 lub równoważnie
kwantyl rzędu 1 − α2 w rozkładzie chi kwadrat z n − 1 stopniami
swobody
Agata Boratyńska Wykłady ze statystyki matematycznej 71

Rozwiązujemy nierówności (wyznaczamy σ 2)

2 α (n − 1)S 2 2 α
χ (1 − , n − 1) ¬ ¬ χ ( , n − 1)
2 σ2 2
Przedział
2
(n − 1)S 2 
 
 (n − 1)S
,
χ2( α2 , n − 1) χ2(1 − α2 , n − 1)
 

jest przedziałem ufności dla parametru σ 2 na poziomie


ufności 1 − α.
Agata Boratyńska Wykłady ze statystyki matematycznej 72

ASYMPTOTYCZNE PRZEDZIAŁY UFNOŚCI


Model III.
X1, X2, . . . , Xn i.i.d. z dowolnego rozkładu o skończonej wartości
oczekiwanej i wariancji, zakładamy, że n duże (n > 50)
Cel: przedział ufności dla wartości oczekiwanej EXi = µ.
Korzystamy z Centralnego twierdzenia granicznego
przy n −→ +∞
X̄ − µ √
n ∼ N (0, 1)
S
Postępujemy analogicznie jak w modelu I
Przedział  
S S 
X̄ − u1− α √ , X̄ + u1− α √ 

2 n 2 n
jest przybliżonym przedziałem ufności dla parametru
µ na poziomie ufności 1 − α.
Agata Boratyńska Wykłady ze statystyki matematycznej 73

Niech X1, X2, . . . , Xn i.i.d. z rozkładu o gęstości fθ (x), θ - nieznany


parametr
Niech θ̂ = EN W (θ) i θ̂ ma asymptotyczny rozkład normalny z
wariancją asymptotyczną I −1(θ). Wtedy
θ̂ ∼ N (θ, (nI(θ))−1) dla dużych n.
Jeśli dodatkowo I(θ̂) jest estymatorem zgodnym funkcji I(θ), to
 r
θ̂ − θ nI(θ̂) −→ N (0, 1).
Otrzymujemy asymptotyczny przedział ufności dla θ na poziomie
ufności 1 − α postaci
 
1 1 
θ̂ − u1− α2 r , θ̂ + u1− α2 r .



nI(θ̂) nI(θ̂)

Model IV.
Wykonujemy n niezależnych doświadczeń typu sukces - porażka
(np. sondaż opinii publicznej - pytanie o preferowanie pewnej
wielkości lub nie, kontrola jakości - pojawienie się braku lub
nie), n duże.
Obserwowana zmienna losowa Y ma rozkład dwupunktowy
P (Y = 1) = p P (Y = 0) = 1 − p
p ∈ (0, 1) - prawdopodobieństwo sukcesu w pojedynczym doświad-
czeniu, nieznany parametr nazywany też wskaźnikiem struktury
Agata Boratyńska Wykłady ze statystyki matematycznej 74

Niech X oznacza liczbę sukcesów w n próbach


X ∼ bin(n, p)
X
p̂ = EN W (p) = n


(p̂ − p) n −→ N (0, p(1 − p))

przy n −→ +∞
p̂ − p √
r n ∼ N (0, 1)
p̂(1 − p̂)

Zatem  
p̂ − p √


P  ≈ 1−α
n ¬ u1− α2 
 
 r

p̂(1 − p̂)


Rozwiązujemy nierówność

p̂ − p √


n ¬ u1− α2 ,

r


p̂(1 − p̂)

wyznaczamy p.
Przedział
 r r 
p̂(1 − p̂) p̂(1 − p̂) 
p̂ − u1− α2 √ , p̂ + u1− α2 √


n n
 

jest przybliżonym przedziałem ufności dla parametru


p na poziomie ufności 1 − α.
Agata Boratyńska Wykłady ze statystyki matematycznej 75


p̂(1−p̂)
2d = 2u1− α2 √
n - długość przedziału ufności
Zauważmy, że dla każdego p̂ ∈ (0, 1) zachodzi
1 1 1
 

p̂(1 − p̂) ¬ 1 −  =
2 2 4
Zatem dla każdego p̂
1
d ¬ u1− α2 √
2 n
Aby otrzymać przedział z maksymalnym błędem d0 na zadanym
poziomie ufności 1 − α należy wziąć próbę losową o liczebności
1 2
 

n ­ u1− α2

2d0
Agata Boratyńska Wykłady ze statystyki matematycznej 76

TESTOWANIE HIPOTEZ STATYSTYCZNYCH


Piękna teoria zniszczona przez złośliwy wstrętny fakcik
T. H. Huxley
Hipotezą statystyczną nazywamy dowolne przypuszczenie do-
tyczące rozkładu prawdopodobieństwa obserwowanej zmiennej lo-
sowej lub charakterystyki tegoż rozkładu, o prawdziwości którego
wnioskujemy na podstawie zaobserwowanych wartości tej zmiennej
losowej.
PRZYKŁADY:
1) Przypuśćmy, że czas życia pewnego elementu X jest zmienną
losowa o rozkładzie wykładniczym Ex(θ), θ > 0 - nieznane
Obserwujemy X1, X2, . . . , Xn i.i.d. Ex(θ)
1
H0 : EX = θ = 100
2) Pomiary i ich dokładność
obserwujemy X1, X2, . . . , Xn i.i.d. N (µ, σ 2), oba parametry nie-
znane
H0 : σ ¬ 1
3) θ - prawdopodobieństwo spłaty kredytu przez klienta w pewnej
grupie ryzyka, nieznane
obserwujemy X1, X2, . . . , Xn i.i.d. bin(1, θ)
H0 : θ ­ 0.8
Agata Boratyńska Wykłady ze statystyki matematycznej 77

4) µ1 - średni plon z ha przy I metodzie nawożenia


µ2 - średni plon z ha przy II metodzie nawożenia
Obie wielkości nieznane
Obserwujemy:
X1, X2, . . . , Xn i.i.d. z rozkładu o EX = µ1 (plony przy I metodzie
nawożenia)
Y1, Y2, . . . , Ym i.i.d. z rozkładu o EX = µ2 (plony przy II metodzie
nawożenia)
H 0 : µ1 = µ2
5) Interesuje nas wielkość roszczenia X w pewnej grupie klientów
towarzystwa ubezpieczeniowego
Obserwujemy: X1, X2, . . . , Xn wielkości roszczeń dla losowo wy-
branych klientów
H0 : X ∼ Wykładniczy
Agata Boratyńska Wykłady ze statystyki matematycznej 78

Hipoteza prosta - wyznacza dokładnie jeden rozkład (1)


Hipoteza złożona - wyznacza rodzinę rozkładów (2,3,4,5)
Hipoteza parametryczna - dotyczy parametrów rozkładu (1,2,3,4)
Hipoteza nieparametryczna - dotyczy postaci rozkładu (5)
Z hipotezą H0 często wiążemy jeszcze drugą hipotezę nazywaną
hipotezą alternatywną (kontr hipotezą) H1, jest to hipo-
teza, którą jesteśmy skłonni akceptować po odrzuceniu hipotezy
H0. Hipotezę H0 nazywamy też hipotezą zerową.
Testem statystycznym nazywamy metodę postępowania, któ-
ra każdej wartości obserwowanej zmiennej losowej przyporządko-
wuje jedna z dwóch decyzji:
odrzucić hipotezę H0 (na korzyść H1),
nie ma podstaw do odrzucenia hipotezy H0.
Agata Boratyńska Wykłady ze statystyki matematycznej 79

X ∼ Pθ , θ ∈ Θ,
H0 : θ ∈ Θ0 H1 : θ ∈ Θ1
gdzie Θ0, Θ1 ⊂ Θ i Θ0 ∩ Θ1 = ∅
X =K ∪A
K - zbiór krytyczny, zbiór wyników obserwacji przy których od-
rzucamy H0;
A - zbiór afirmacji, zbiór wyników, przy których nie odrzucamy
H0 .
Jeśli mamy podany zbiór K to mamy podany test statystyczny
Najczęściej test ma postać:
K = {T (x) > c}
co oznacza odrzuć H0, gdy obliczona wartość funkcji T (x) jest
większa niż c.
Funkcję T nazywamy statystyką testową, a stałą c wartością
krytyczną.
Agata Boratyńska Wykłady ze statystyki matematycznej 80

PRZYKŁAD 1.
Chcemy sprawdzić, czy moneta jest symetryczna. W tym celu rzu-
camy monetą 400 razy. Niech X oznacza liczbę orłów,
X ∼ bin(400, p) p - nieznane

1 1
H0 : p = H1 : p 6=
2 2
test:
K = {|X − 200| > 19, 6}

T = |X − 200| - statystyka testowa;


19,6 - wartość krytyczna
Agata Boratyńska Wykłady ze statystyki matematycznej 81

BŁĄD PIERWSZEGO I DRUGIEGO RODZAJU

decyzja H0 prawdziwa H0 - fałszywa


odrzucić H0 błąd decyzja
I rodzaju poprawna
nie odrzucać H0 decyzja błąd
poprawna II rodzaju

Pθ (K), θ ∈ Θ0 - prawdopodobieństwo błędu I rodzaju


Pθ (A) = 1 − Pθ (K), θ ∈ Θ1 - prawdopodobieństwo błędu II ro-
dzaju
Najlepszym testem byłby test, który minimalizuje prawdopodo-
bieństwa popełnienia obu błędów jednocześnie. Taki test nie istnie-
je, przy ustalonej liczebności próby losowej zmniejszanie prawdopo-
dobieństwa błędu I rodzaju powoduje wzrost prawdopodobieństwa
błędu II rodzaju i na odwrót.
Test jest na poziomie istotności α , jeśli
∀ θ ∈ Θ0 Pθ (K) ¬ α

Poziom istotności α ustala statystyk, zabezpiecza się przed zbyt


dużym prawdopodobieństwem błędu I rodzaju.
Agata Boratyńska Wykłady ze statystyki matematycznej 82

PRZYKŁAD 1cd.
Przy prawdziwości hipotezy H0 mamy Z CTG
1
 

X ∼ N (200, 400 · 
4
Pp= 1 (|X − 200| > 19, 6)
2
 
|X − 200|
= Pp= 1 
  = 2(1 − Φ(1, 96)) = 0, 05
> 1, 96
2 10
jest to test na poziomie istotności 0,05.
Wielkość Pθ (K) nazywamy mocą testu przy alternatywie θ ∈
Θ1 (testy buduje się tak aby moc była jak największa)
Funkcja mocy testu
β : Θ1 −→ [0, 1] β(θ) = Pθ (K)
Agata Boratyńska Wykłady ze statystyki matematycznej 83

ALGORYTM TESTOWANIA HIPOTEZY STATYSTYCZNEJ


1) określić model statystyczny
(np. próba losowa X1, X2, . . . , Xn pochodzi z rozkładu normalnego
o nieznanej wartości oczekiwanej µ i wariancji σ 2 = 4)
2) postawić hipotezę zerową H0 i alternatywę H1
(np. H0 : µ = 0, H1 : µ 6= 0);
3) przyjąć poziom istotności (np. α = 0, 05);
4) podać postać statystyki testowej T , obszaru krytycznego, wy-
znaczyć wartość krytyczną (postać statystyki T , zbioru K i war-
tości krytycznej zależy od obu hipotez i poziomu istotności α);
5) obliczyć wartość statystyki testowej dla danych wartości próby
losowej;
6) podjąć decyzję:
jeśli T (X1, X2, . . . , Xn) ∈ K - odrzucić H0
jeśli T (X1, X2, . . . , Xn) ∈
/ K - nie ma podstaw do odrzucenia H0,
czyli otrzymane dane nie dają wystarczających argumentów do
odrzucenia H0.
Agata Boratyńska Wykłady ze statystyki matematycznej 84

p-wartość (p-value)
X ∼ Pθ , θ ∈ Θ,
H0 : θ = θ0 , α − poziom istotności
Test
K = {T (X) > cα }
x - obserwowana wartość zmiennej X
t = T (x)
p-wartość jest równa Pθ0 (T (X) > t)
Wnioskowanie:
Jeśli p-wartość < α, to hipotezę H0 odrzucamy.
Jeśli p-wartość > α, to nie ma podstaw do odrzucenia H0.
Agata Boratyńska Wykłady ze statystyki matematycznej 85

PORÓWNYWANIE TESTÓW
X ∼ Pθ , θ ∈ Θ,
H0 : θ ∈ Θ0 H1 : θ ∈ Θ1
gdzie Θ0, Θ1 ⊂ Θ i Θ0 ∩ Θ1 = ∅
Mówimy, że test o obszarze krytycznym K1 jest mocniejszy niż
test o obszarze krytycznym K2 (oba testy na tym samym poziomie
istotności α) dla testowania hipotezy H0 przy alternatywie H1 ⇐⇒
∀ θ ∈ Θ0 Pθ (K1) ¬ α i Pθ (K2) ¬ α
i
∀ θ ∈ Θ1 Pθ (K1) ­ Pθ (K2)
i
∃ θ1 ∈ Θ1 Pθ1 (K1) > Pθ1 (K2).

Test o obszarze krytycznym K ∗ nazywamy testem jednostaj-


nie najmocniejszym dla testowania hipotezy H0 przy alterna-
tywie H1 na poziomie istotności α ⇐⇒ jest to test na poziomie
istotności α oraz
∀K⊆X speniajacego warunek Pθ (K) ¬ α gdy θ ∈ Θ0
zachodzi
∀ θ ∈ Θ1 Pθ (K ∗) ­ Pθ (K).
Agata Boratyńska Wykłady ze statystyki matematycznej 86

LEMAT NEYMANA-PEARSONA
Niech X będzie obserwowaną zmienną losowa i P0, P1 dwo-
ma rozkładami prawdopodobieństwa o gęstościach odpowied-
nio równych f0 i f1. Niech
 
 f1(x) 
K∗ =  P0(K ∗) = α.
 
x: > c i
 f0(x) 

Wtedy test o obszarze krytycznym K ∗ jest testem najmocniej-


szym dla testowania hipotezy
H 0 : X ∼ P0 przy alternatywie H 1 : X ∼ P1
na poziomie istotności α.
Agata Boratyńska Wykłady ze statystyki matematycznej 87

TESTY OPARTE NA ILORAZIE WIAROGODNOŚCI


X ∼ Pθ , θ ∈ Θ,
H0 : θ ∈ Θ0 H1 : θ ∈ Θ1
gdzie Θ0, Θ1 ⊂ Θ i Θ0 ∩ Θ1 = ∅ i Θ0 ∪ Θ1 = Θ

supθ∈Θ1 L(θ, X) supθ∈Θ L(θ, X)


Λ1(X) = lub Λ(X) =
supθ∈Θ0 L(θ, X) supθ∈Θ0 L(θ, X)

Test o obszarze krytycznym postaci


K1 = {x : Λ1(x) > λ1} lub K = {x : Λ(x) > λ} ,
gdzie λ1, λ spełniają warunki
∀ θ ∈ Θ0 Pθ (K1) ¬ α,
∀ θ ∈ Θ0 Pθ (K) ¬ α
nazywamy testem opartym na ilorazie wiarogodności dla
testowania hipotezy H0 przy alternatywie H1 na poziomie istotno-
ści α.
Przy prostej hipotezie i prostej alternatywie test oparty na ilora-
zie wiarogodności o rozmiarze α pokrywa się z testem Neymana-
Pearsona o tym rozmiarze.
Agata Boratyńska Wykłady ze statystyki matematycznej 88

TESTOWANIE HIPOTEZ - PORÓWNANIE Z NORMĄ


Model I.
X1, X2, . . . , Xn próba losowa z rozkładu normalnego N (µ, σ 2), σ
znane
Hipoteza zerowa H0 : µ = µ0
X̄ - estymator parametru µ
Statystyka testowa
X̄ − µ0 √
U= n
σ
Poziom istotności α

Alternatywa Zbiór krytyczny


H1 : µ 6= µ0 K1 = { |U | > u1− α2 }
H2 : µ > µ0 K2 = { U > u1−α }
H3 : µ < µ0 K3 = { U < −u1−α }
Agata Boratyńska Wykłady ze statystyki matematycznej 89

Model II.
X1, X2, . . . , Xn próba losowa z rozkładu normalnego N (µ, σ 2), µ,
σ nieznane
Hipoteza zerowa H0 : µ = µ0
X̄ - estymator parametru µ
1 Pn
S2 = n−1 i=1 (Xi − X̄)2 estymator parametru σ 2
Statystyka testowa
X̄ − µ0 √
T =
n
S
Przy H0 prawdziwej statystyka T ma rozkład t-Studenta z n − 1
stopniami swobody
Poziom istotności α

Alternatywa Zbiór krytyczny


H1 : µ 6= µ0 K1 = { |T | > t(α, n − 1) }
H2 : µ > µ0 K2 = { T > t(2α, n − 1) }
H3 : µ < µ0 K3 = { T < −t(2α, n − 1) }
Agata Boratyńska Wykłady ze statystyki matematycznej 90

Model II
Hipoteza zerowa: H0 : σ 2 = σ02
Statystyka testowa:
(n − 1)S 2
2
χ =
σ02
Przy H0 prawdziwej statystyka χ2 ma rozkład chi-kwadrat z n − 1
stopniami swobody
• Alternatywa: H1 : σ 2 6= σ02
Zbiór krytyczny ma postać
(
2 α 2
!
2 2 α
!)
K1 = χ < χ 1 − , n − 1 ∨ χ > χ ,n − 1
2 2
czyli hipotezę H0 odrzucamy gdy χ2 < χ2(1 − α2 , n − 1) lub
χ2 > χ2( α2 , n − 1)
• Alternatywa: H2 : σ 2 > σ02
Zbiór krytyczny ma postać
K2 = {χ2 > χ2(α, n − 1)}

• Alternatywa: H3 : σ 2 < σ02


Zbiór krytyczny ma postać
K3 = {χ2 < χ2(1 − α, n − 1)}
czyli hipotezę H0 odrzucamy gdy χ2 < χ2(1 − α, n − 1)
Agata Boratyńska Wykłady ze statystyki matematycznej 91

Model III.
X1, X2, . . . , Xn próba losowa z rozkładu o nieznanej wartości ocze-
kiwanej EXi = µ i skończonej ale nieznanej wariancji. Zakładamy,
że n duże (n ­ 100)
Hipoteza zerowa H0 : µ = µ0
X̄ - estymator parametru µ
1 Pn
S2 = n−1 i=1 (Xi − X̄)2 estymator wariancji
Statystyka testowa
X̄ − µ0 √
U= n
S
Przy hipotezie H0 prawdziwej statystyka U ma asymptotyczny
rozkład normalny, tzn
U −→ N (0, 1) przy n −→ +∞

Poziom istotności α

Alternatywa Zbiór krytyczny


H1 : µ 6= µ0 K1 = { |U | > u1− α2 }
H2 : µ > µ0 K2 = { U > u1−α }
H3 : µ < µ0 K3 = { U < −u1−α }
Agata Boratyńska Wykłady ze statystyki matematycznej 92

Model IV.
Wykonujemy n niezależnych doświadczeń typu sukces - porażka,
zakładamy że n duże.
Obserwowana zmienna losowa Y ma rozkład dwupunktowy
P (Y = 1) = p P (Y = 0) = 1 − p
p ∈ (0, 1) - prawdopodobieństwo sukcesu w pojedynczym doświad-
czeniu, nieznany parametr nazywany też wskaźnikiem struktury
Niech X oznacza liczbę sukcesów w n doświadczeniach
X ∼ bin(n, p)
Hipoteza zerowa H0 : p = p0
X
p̂ = n - estymator punktowy parametru p
Statystyka testowa:
p̂ − p0 √
U∗ = n r
p0(1 − p0)
Przy prawdziwości hipotezy H0 z CTG wynika, że
p̂ − p0 √
U∗ = r n ∼ N (0, 1) gdy n −→ +∞
p0(1 − p0)

Alternatywa Zbiór krytyczny


H1 : p 6= p0 K1 = { |U ∗| > u1− α2 }
H2 : p > p0 K2 = { U ∗ > u1−α }
H3 : p < p0 K3 = { U ∗ < −u1−α }
Agata Boratyńska Wykłady ze statystyki matematycznej 93

TESTOWANIE HIPOTEZ - PORÓWNANIE DWÓCH POPU-


LACJI
W praktyce istotną role odgrywają testy, za pomocą których można
porównywać cechę w dwóch populacjach ze względu na interesują-
cy parametr, najczęściej jest to
wartość oczekiwana
wariancja
wskaźnik struktury (procent populacji spełniajacy zadane warun-
ki)
PRZYKŁAD:
1) czy plon przeciętny przy dwóch sposobach nawożenia jest jed-
nakowy
2) czy przeciętna cena pewnego towaru w sklepach Warszawy jest
wyższa niż w sklepach Krakowa
3) czy czas wykonania pewnego detalu przy dwóch sposobach pro-
dukcji jest jednakowy
4) czy poparcie dla Pana A wzrosło w ciągu miesiąca
5) czy margaryna Rama i Flora są kupowane tak samo często
6) czy dwie metody pomiarowe są jednakowo dokładne
Agata Boratyńska Wykłady ze statystyki matematycznej 94

Model I.
X1,1, X1,2, . . . , X1,n1 - próba losowa z rozkładu normalnego N (µ1, σ12);
X2,1, X2,2, . . . , X2,n2 - próba losowa z rozkładu normalnego N (µ2, σ22);
Parametry µ1, µ2 są nieznane, σ1, σ2 są znane, wszystkie obserwo-
wane zmienne są niezależne.
Hipoteza zerowa: H0 : µ1 = µ2, Poziom istotności α
1 Pn1
X̄1 = n1 i=1 X1,i - estymator parametru µ1
1 Pn2
X̄2 = n2 i=1 X2,i - estymator parametru µ2
2 2 2 σ22
!
X̄1 ∼ N (µ1, σn11 ) i X̄2 ∼ N (µ2, σn22 ), zatem X̄1−X̄2 ∼ N µ1 − µ2, σn11 + n2

Statystyka testowa:
X̄1 − X̄2
Un1,n2 = s
σ12 σ2
n1 + n22

Przy hipotezie H0 prawdziwej Un1,n2 ∼ N (0, 1)

Alternatywa Zbiór krytyczny


H1 : µ1 6= µ2 K1 = { |Un1,n2 | > u1− α2 }
H2 : µ1 > µ2 K2 = { Un1,n2 > u1−α }
H3 : µ1 < µ2 K3 = { Un1,n2 < −u1−α }
Agata Boratyńska Wykłady ze statystyki matematycznej 95

Model II.
X1,1, X1,2, . . . , X1,n1 - próba losowa z rozkładu normalnego N (µ1, σ12);
X2,1, X2,2, . . . , X2,n2 - próba losowa z rozkładu normalnego N (µ2, σ22);
Parametry µ1, µ2, σ1, σ2 są nieznane, ale σ1 = σ2, wszystkie ob-
serwowane zmienne są niezależne.
Hipoteza zerowa: H0 : µ1 = µ2
1 Pn1
X̄1 = n1 i=1 X1,i - estymator parametru µ1
1 Pn2
X̄2 = n2 i=1 X2,i - estymator parametru µ2
2 2
X̄1 ∼ N (µ1, σn11 ) i X̄2 ∼ N (µ2, σn22 ), zatem
1 1
  

X̄1 − X̄2 ∼ N µ1 − µ2, σ12  + 


n1 n2

S12 = n11−1 ni=1


1
(X1,i − X̄1)2 - estymator wariancji w oparciu o
P

próbę X1,1, X1,2, . . . , X1,n1


S22 = n21−1 ni=1
2
(X2,i − X̄2)2 - estymator wariancji w oparciu o
P

próbę X2,1, X2,2, . . . , X2,n1


(n1 −1)S12 +(n2 −1)S22
S∗2 = n1 +n2 −2 - estymator wariancji w oparciu o dwie
próby
Agata Boratyńska Wykłady ze statystyki matematycznej 96

Statystyka testowa:
X̄1 − X̄2
Tn1,n2 = r
S∗ n11 + n12

Przy hipotezie H0 prawdziwej T ma rozkład t-Studenta z n1 +n2 −2


stopniami swobody

Alternatywa Zbiór krytyczny


H1 : µ1 6= µ2 K1 = { |Tn1,n2 | > t(α, n1 + n2 − 2) }
H2 : µ1 > µ2 K2 = { Tn1,n2 > t(2α, n1 + n2 − 2) }
H3 : µ1 < µ2 K3 = { Tn1,n2 < −t(2α, n1 + n2 − 2) }
Agata Boratyńska Wykłady ze statystyki matematycznej 97

Model III.
X1,1, X1,2, . . . , X1,n1 - i.i.d. z rozkładu o EX = µ1 i V arX = σ12;
X2,1, X2,2, . . . , X2,n2 - i.i.d. z rozkładu o EX = µ2 V arX = σ22;
Parametry µ1, µ2, σ1, σ2 są nieznane, wszystkie obserwowane zmien-
ne są niezależne, n1, n2 duże.
Hipoteza zerowa: H0 : µ1 = µ2
1 Pn1
X̄1 = n1 i=1 X1,i - estymator parametru µ1
1 Pn2
X̄2 = n2 i=1 X2,i - estymator parametru µ2
Ŝ12 = n11 ni=1
1
(X1,i − X̄1)2 - estymator wariancji w oparciu o próbę
P

X1,1, X1,2, . . . , X1,n1


Ŝ22 = n12 ni=1
2
(X2,i − X̄2)2 - estymator wariancji w oparciu o próbę
P

X2,1, X2,2, . . . , X2,n1


Statystyka testowa:
X̄1 − X̄2
U= s
Ŝ12 Ŝ22
n1 + n2

Przy hipotezie H0 prawdziwej U ∼ N (0, 1) przy n1, n2 −→ +∞

Alternatywa Zbiór krytyczny


H1 : µ1 6= µ2 K1 = { |U | > u1− α2 }
H2 : µ1 > µ2 K2 = { U > u1−α }
H3 : µ1 < µ2 K3 = { U < −u1−α }
Agata Boratyńska Wykłady ze statystyki matematycznej 98

Hipoteza o równości wariancji w modelu normalnym


X1,1, X1,2, . . . , X1,n1 - próba losowa z rozkładu normalnego N (µ1, σ12);
X2,1, X2,2, . . . , X2,n2 - próba losowa z rozkładu normalnego N (µ2, σ22);
Parametry µ1, µ2, σ1, σ2 są nieznane, wszystkie obserwowane zmien-
ne są niezależne.
Hipoteza zerowa: H0 : σ1 = σ2
1 Pn1
S12 = n1 −1 i=1 (X1,i − X̄1)2 - estymator wariancji σ12
1 Pn2
S22 = n2 −1 i=1 (X2,i − X̄2)2 - estymator wariancji σ22
Statystyka testowa:
S12
F = 2
S2
Przy H0 prawdziwej F ∼ Fn1−1,n2−1
• Alternatywa: H1 : σ12 6= σ22
Zbiór krytyczny ma postać
(
α !
α !)
K1 = F < F 1 − ; n1 − 1, n2 − 1 ∨ F > F ; n1 − 1, n2 − 1
2 2
• Alternatywa: H2 : σ12 > σ22
Zbiór krytyczny ma postać K2 = {F > F (α; n1 − 1, n2 − 1)}
• Alternatywa: H3 : σ12 < σ22
Zbiór krytyczny ma postać K3 = {F < F (1 − α; n1 − 1, n2 − 1)}
Agata Boratyńska Wykłady ze statystyki matematycznej 99

Model IV.
Wykonujemy n1 niezależnych doświadczeń typu sukces - porażka,
w których prawdopodobieństwo sukcesu jest równe p1, i n2 nieza-
leżnych doświadczeń typu sukces - porażka, w których prawdopo-
dobieństwo sukcesu jest równe p2
p1, p2 ∈ (0, 1) nieznane, n1, n2 duże
Niech X1 oznacza liczbę sukcesów w n1 próbach, X2 oznacza liczbę
sukcesów w n2 próbach
X1 ∼ bin(n1, p1), X2 ∼ bin(n2, p2)
Hipoteza zerowa H0 : p1 = p2
X1 X2
p̂1 = n1 i p̂2 = n2 - estymatory parametrów p1 i p2
p∗ = Xn11+n
+X2
2
- estymator prawdopodobieństwa sukcesu przy założe-
niu, że H0 prawdziwa
p̂1 −p̂2
Un∗1,n2 = s   - statystyka testowa
∗ ∗ 1
p (1−p ) n + n1
1 2

Przy prawdziwości H0
Un∗1,n2 ∼ N (0, 1) przy n1, n2 −→ +∞

Alternatywa Zbiór krytyczny


H1 : p1 6= p2 K1 = { |Un∗1,n2 | > u1− α2 }
H2 : p1 > p2 K2 = { Un∗1,n2 > u1−α }
H3 : p1 < p2 K3 = { Un∗1,n2 < −u1−α }
Agata Boratyńska Wykłady ze statystyki matematycznej 100

Test analizy wariancji


Rozważamy k prób losowych
X1,1, X1,2, . . . , X1,n1
X2,1, X2,2, . . . , X2,n2
.........
Xk,1, Xk,2, . . . , Xk,nk

PRZYKŁAD: Xi,j cena pewnego produktu w i-tym mieście, i roz-


ważamy k miast.
ZAŁOŻENIA:
• Xi,j , i = 1, 2, . . . , k, j = 1, 2, . . . , ni są niezależne
• Xi,j ∼ N (mi, σ 2),
• m1, m2, . . . , mk , σ są nieznane
Hipoteza zerowa:
H0 : m 1 = m 2 = . . . = m k

n = n1 + n2 + . . . + nk
1 X ni
X̄i = Xi,j
ni j=1
1 Xp X ni 1 X p
X̄ = Xi,j = niX̄i
n i=1 j=1 n i=1
Agata Boratyńska Wykłady ze statystyki matematycznej 101

Test oparty na ilorazie wiarogodności odrzuca H0 gdy


Pk 2
i=1 ni (X̄i − X̄) /(k − 1)
F = Pk Pni 2
> F (α, k − 1, n − k)
i=1 j=1 (Xi,j − X̄i ) /(n − k)

gdzie F (α, k − 1, n − k) wartość krytyczna w rozkładzie Fk−1,n−k


rzędu α.
1 Pk 2
k−1 i=1 ni (X̄i − X̄) - estymator wariancji międzygrupowej
1 Pk Pni 2
n−k i=1 j=1 (Xi,j − X̄i ) - estymator wariancji wewnątrz grup
ni
k X k ni
k X
2 2
(Xi,j − X̄) = ni(X̄i − X̄) + (Xi,j − X̄i)2
X X X

i=1 j=1 i=1 i=1 j=1

Tabela testu analizy wariancji

Źródło Sumy Stopnie wartość


zmienności kwadratów swobody statystyki F

Pk 2
między próbkami i=1 ni (X̄i − X̄) k−1
Pk Pni 2
wewnątrz próbek i=1 j=1 (Xi,j − X̄i ) n−k
Pk Pni 2
Razem i=1 j=1 (Xi,j − X̄) n−1
Agata Boratyńska Wykłady ze statystyki matematycznej 102

PRZYKŁAD.
Porównano zyski ze sprzedaży pewnego towaru w czterech mia-
stach. Wylosowano po 10 sklepów i otrzymano wyniki:

miasto średni zysk


A 88
B 94
C 91
D 89
ni
k X
2
Xi,j = 328135
X

i=1 j=1
Testem analizy wariancji zweryfikuj hipotezę o równości przecięt-
nego zysku w tych miastach
H0 : m 1 = m 2 = m 3 = m 4

X̄ = 90, 5
4
10(X̄i − X̄)2 = 210
X

i=1
4 X
10 4 X
10 4
(Xi,j − X̄i)2 = 2
Xi,j − 10X̄i2 = 315
X X X

i=1 j=1 i=1 j=1 i=1


Agata Boratyńska Wykłady ze statystyki matematycznej 103

Źródło Sumy Stopnie wartość


zmienności kwadratów swobody statystyki F
między próbkami 210 3
wewnątrz próbek 315 36
Razem 525 39 8

F (0, 05, 3, 36) = 2, 87


8 > 2, 87
Wniosek: odrzucamy hipotezę H0
Agata Boratyńska Wykłady ze statystyki matematycznej 104

TESTOWANIE HIPOTEZ O ZGODNOŚCI


Niech X1, X2, . . . , Xn i.i.d. z rozkładu o nieznanej dystrybuancie
F
H0 : F = F0, F0 ustalona
I. Test Kołmogorowa
Założenie: F0 - ciągła, ściśle rosnąca dystrybuanta
Statystyka testowa:
Dn = sup |Fn(t) − F0(t)|,
t∈R

gdzie Fn(t) = Fn(X1, X2, . . . , Xn, t) jest dystrybuantą empirycz-


ną.
Dn = max(Dn+, Dn−)
gdzie
i i − 1


+ −
Dn = max − zi Dn = max zi − zi = F0(xi:n)


n
i=1...n i=1...n n

w przypadku szeregu przedziałowego


Dn+ = max |Fn(ci) − F0(ci)| Dn− = max |F0(ci) − Fn(ci−1)|
i=1...k i=1...k

TEST: Jeżeli Dn > c(α, n), to hipotezę H0 odrzucamy.


Wybór c(α, n):
Rozkład statystyki Dn przy prawdziwości hipotezy H0 nie zależy
od postaci F0.
Agata Boratyńska Wykłady ze statystyki matematycznej 105

Zatem c(α, n) są stablicowane. Dla n dużych korzystamy z wartości


przybliżonych, kilka z nich podaje Tabela poniżej.

α 0.20 0.10 0.05 0.01


√ √ √ √
c 1.07/ n 1.22/ n 1.36/ n 1.63/ n

PRZYKŁAD.
Dane ze szkodami spowodowanymi przez wichury
H0 : F jest dystrybuantą z rozkładu o gęstości
0 gdy x ¬ 1.5


f0(x) =  1 x−1.5
7.5 exp(− 7.5 ) gdy x > 1.5

Dystrybuanta rozkładu z hipotezy


gdy x ¬ 1.5


 0
F0(x) =   
 1 − exp − x−1.5
7.5 gdy x > 1.5
Agata Boratyńska Wykłady ze statystyki matematycznej 106

Test Kołmogorowa - Lillieforsa


Niech X1, X2, . . . , Xn i.i.d. z rozkładu o nieznanej dystrybuancie
F
H0 : F jest dystrybuantą rozkładu normalnego
Niech
Dn = max(Dn+, Dn−)
gdzie
i i−1
Dn+ = max ( − zi) Dn− = max (zi − ) zi = F0(xi:n)
i=1...n n i=1...n n
i  
Xi:n − X̄ 
zi = Φ 
 
S
1 Xn
2 1 X n
X̄ = Xi S = (Xi − X̄)2
n i=1 n − 1 i=1
Obszar krytyczny testu:
K = {Dn > Dn(α)}
D(α)
Dn(α) = √
n − 0.01 + 0.85

n

α 0.1 0.05 0.01


D(α) 0.819 0.895 1.035
Agata Boratyńska Wykłady ze statystyki matematycznej 107

II. Test zgodności chi-kwadrat


Test zgodności chi-kwadrat służy do weryfikacji hipotezy o postaci
rozkładu obserwowanej zmiennej losowej X.
1. Cecha X ma rozkład dyskretny o k możliwych wartościach.
Powtarzamy n- krotnie doświadczenie losowe, które ma k możli-
wych wyników w1, w2, . . . , wk .

X w1 w2 . . . wk
P (X = wi) p1 p2 . . . pk

gdzie pi = 1.
P

Hipoteza zerowa:
H0 : p1 = p01, p2 = p02, . . . , pk = p0k
gdzie p01, p02, . . . , p0k są znane.
X1, X2, . . . , Xn - obserwacje cechy X.

n
Ni = 1(Xj = wi), i = 1, 2, . . . , k.
X

j=1
- zliczamy ile razy w próbce X1, X2, . . . , Xn pojawiła się wartość
wi.
Wyniki doświadczeń prezentuje tabela:
Agata Boratyńska Wykłady ze statystyki matematycznej 108

X w1 w2 . . . wk
liczba
doświadczeń N1 N2 . . . Nk

Wektor (N1, N2, . . . , Nk ) ∼ M ult(n, p1, p2, . . . , pk ).


Oczekiwana liczba pojawienia się wyniku wi w próbie n-elementowej
przy prawdziwej hipotezie H0
ENi = np0i

Postać statystyki testu chi-kwadrat:

2 (wielkość obserwowana - wielkość oczekiwana)2


χ =
X

wielkość oczekiwana
Test:
odrzucamy H0 gdy

2 (Ni − np0i )2
k
χ = > χ2(α, k − 1)
X
0
npi
i=1
Agata Boratyńska Wykłady ze statystyki matematycznej 109

PRZYKŁAD:
Chcemy sprawdzić czy kostka do gry jest symetryczna. Rzucamy
kostką 300 razy. Wyniki podaje tabela

wynik wi 1 2 3 4 5 6
liczba
rzutów Ni 45 55 60 40 48 52

H0 : p0i = 16 , i = 1, 2, 3, 4, 5, 6
np0i = 300 · 16 - wartość oczekiwana
Wartość statystyki testowej:
6 (Ni − np0i )2
χ2emp = = 5, 16
X

i=1 np0i
χ20,95,5 = 11, 07
χ2emp < χ2(0, 05, 5)
Wniosek: nie ma podstaw do odrzucenia hipotezy H0,zatem moż-
na sądzić, że kostka jest symetryczna.
Agata Boratyńska Wykłady ze statystyki matematycznej 110

2. Cecha X ma rozkład ciągły


Test zgodności chi-kwadrat może być stosowany w przypadku ce-
chy o rozkładzie ciągłym.
X1, X2, . . . , Xn próba losowa z rozkładu ciągłego
Hipoteza zerowa:
H0 : X1, X2, . . . , Xn i.i.d. F
gdzie F jest znaną dystrybuantą rozkładu ciągłego.
Wybieramy liczby −∞ = a0 < a1 < a2 < . . . < ak = ∞ i
definiujemy
n
Ni = 1(ai−1 < Xj ¬ ai), i = 1, 2, . . . , k
X

j=1

Prawdopodobieństwo
P (ai−1 < Xj ¬ ai) = F (ai) − F (ai−1) = p0i
jest znane. Następnie stosujemy test chi-kwadrat dla przypadku
rozkładu dyskretnego.
Agata Boratyńska Wykłady ze statystyki matematycznej 111

UWAGI:
1) Test zgodności chi-kwadrat jest testem asymptotycznym, licz-
ność próby losowej n musi być duża, dla każdej klasy
np0i > 5.
2) Podział na klasy (ai−1, ai) dokonuje się tak, aby p0i ≈ k1 .
3) Testu możemy używać do weryfikacji hipotezy, że rozkład ob-
serwowanej zmiennej należy do pewnej rodziny rozkładów indek-
sowanych skończenie wymiarowym parametrem. Parametry esty-
mujemy korzystając z danych. Jeśli używamy danych do estymacji
nieznanych parametrów rozkładu występującego w hipotezie zero-
wej, to dla każdego estymowanego parametru odejmujemy jeden
stopień swobody, zatem test odrzuca hipotezę zerową, gdy

2 (Ni − np0i )2
k
χ = > χ2(α, k − d − 1)
X
0
npi
i=1

gdzie d jest liczbą estymowanych parametrów.


Agata Boratyńska Wykłady ze statystyki matematycznej 112

PRZYKŁAD. Poniższa tabela przedstawia liczby roszczeń zgłoszo-


nych w ciągu roku dla 500 niezależnych polis z pewnej grupy ryzyka
w towarzystwie ubezpieczeniowym:

liczba roszczeń liczba polis


0 420
1 60
2 20
>2 0

X - obserwowana zmienna losowa - liczba roszczeń dla jednej polisy


H0 : X ∼ P oiss(λ), λ > 0 jest nieznane.

λ̂ = EN W (λ) = X̄ = 0.2
i
p01 = P (X = 0) ≈ e−0.2 = 0, 82 500 · p01 = 410
p02 = P (X = 1) ≈ 0.2e−0.2 = 0, 16 500 · p02 = 80
p03 = P (X > 1) ≈ 1 − 0.2e−0.2 − e−0.2 = 0, 02 500 · p03 = 10
Wartość statystyki testowej

2 (Ni − np0i )2
3
χ = = 21, 73
X

i=1 np0i
Wartość krytyczna χ2(0, 05, 3 − 1 − 1) = 3, 84. Hipotezę H0 od-
rzucamy
Agata Boratyńska Wykłady ze statystyki matematycznej 113

TEST CHI-KWADRAT NIEZALEŻNOŚCI


(X, Y ) - dwuwymiarowa zmienna losowa o rozkładzie dyskretnym,
tzn. (X, Y ) ∈ {1, 2, . . . , r} × {1, 2, . . . , s};
Niech
pi,j = P (X = i ∧ Y = j)

s
pi• = P (X = i) = pi,j
X

j=1

r
p•j = P (Y = j) = pi,j .
X

i=1

(X1, Y1), (X2, Y2), . . . , (Xn, Yn) próba losowa

n
Ni,j = 1(Xl = i ∧ Yl = j)
X

l=1

s r
Ni• = Ni,j and N•j = Ni,j .
X X

j=1 i=1

Dane przedstawiamy w tabeli zwanej tablicą kontyngencji.


Agata Boratyńska Wykłady ze statystyki matematycznej 114

x|y 1 2 ... s Ni,•


1 N1,1 N1,2 ... N1,s N1,•
2 N2,1 N2,2 ... N2,s N2,•
... ... ... ... ... ...
r Nr,1 Nr,2 ... Nr,s Nr,•
N•,j N•,1 N•,2 ... N•,s n

Hipoteza zerowa: H0 : X i Y są niezależne

H0 : pi,j = pi• · p•j , i = 1, 2, . . . , r, j = 1, 2, . . . , s.

Jest to hipoteza o zgodności z pewnym rozkładem, zastosujemy


test chi-kwadrat.
Nieznanymi parametrami są: pi• i p•j , i = 1, 2, . . . , r, j = 1, 2, . . . , s
Ich estymatory największej wiarogodności to:
Ni• N•j
p̂i• = p̂•j =
n n
Estymujemy zatem
r−1+s−1
parametrów
Estymatory parametrów pi,j są postaci
Ni• N•j
p̂i,j = p̂i• · p̂•j = ·
n n
Agata Boratyńska Wykłady ze statystyki matematycznej 115

Statystyka testu chi-kwadrat ma postać


Ni• N•j 2
 
r X s Ni,j − n
χ2 = .
X
Ni• N•j
i=1 j=1
n

Jeżeli n dąży do ∞ to rozkład statystyki χ2 dąży do rozkładu


χ2(r−1)(s−1)
Hipotezę H0 odrzucamy gdy χ2 > χ2(α, (r − 1)(s − 1))
Agata Boratyńska Wykłady ze statystyki matematycznej 116

STATYSTYKA BAYESOWSKA
MODEL BAYESOWSKI
• X1, X2, . . . , Xn - dane np. próba losowa z rozkładu Pθ o gęstości
fθ (x) = f (x|θ)
• {Pθ : θ ∈ Θ} - rodzina rozkładów, θ - nieznany parametr
• dodatkowa wiedza- rozkład a priori Π na przestrzeni Θ, zatem
θ ∼ Π i oznaczmy przez π(θ) - gęstość rozkładu Π względem
pewnej miary na Θ
Wtedy f (x1, x2, . . . , xn|θ) jest gęstością rozkładu warunkowego i
f (x1, x2, . . . , xn, θ) = f (x1, x2, . . . , xn|θ)π(θ)
jest gęstością rozkładu łącznego obserwowanej zmiennej
X = (X1, X2, . . . , Xn) i zmiennej θ.
Rozkład Πx zadany przez gęstość (względem miary na Θ)
f (x1, x2, . . . , xn|θ)π(θ)
π(θ|x) = ,
m(x)
gdzie Z
m(x) = Θ
f (x1, x2, . . . , xn|θ)π(θ)dθ
oznacza gęstość rozkładu brzegowego zmiennej X w punkcie
x = (x1, x2, . . . , xn), nazywamy rozkładem a posteriori.
Rozkład a priori obrazuje naszą wiedzę o nieznanym parametrze
przed wykonaniem badania statystycznego
Agata Boratyńska Wykłady ze statystyki matematycznej 117

Rozkład a posteriori zawiera całą wiedzę o obserwowanym zjawi-


sku, zawiera wiedzę wstępną o parametrze θ i wiedzę płynącą z
obserwacji, jest podstawą wnioskowania bayesowskiego.
Zadania statystyki bayesowskiej:
estymacja parametru θ
przedział ufności
weryfikacja hipotez o parametrze.
Agata Boratyńska Wykłady ze statystyki matematycznej 118

ESTYMACJA
1. Bayesowski estymator największej wiarogodności pa-
rametru θ - moda rozkładu a posteriori parametru θ
BEN W (θ)(x) = arg sup π(θ|x)

2. Estymator bayesowski przy zadanej funkcji straty


Niech L(θ, a) będzie funkcją straty jaką ponosi statystyk wybiera-
jąc za wartość estymatora a, gdy prawdziwą wartością parametru
jest θ.
Przykłady: Niech g(θ) - wielkość estymowana
L(θ, a) = (g(θ) − a)2 - kwadratowa funkcja straty;
L(θ, a) = w(θ)(g(θ)−a)2 - uogólniona kwadratowa funkcja straty;
L(θ, a) = |g(θ) − a| - modułowa funkcja straty;
L(θ, a) = exp(c(g(θ) − a)) − c(g(θ) − a) − 1 - funkcja straty linex
(liniowo-wykładnicza)
Miernik jakości estymatora ĝ - ryzyko a posteriori
Z
Rx(Π, ĝ(x)) = E[L(θ, ĝ(X))|X = x] = Θ
L(θ, ĝ(x))π(θ|x)dθ,
E(h(θ)|x) - oznacza wartość oczekiwaną funkcji h(θ), gdy θ ma
rozkład a posteriori przy X = x i rozkładzie a priori Π.
Estymator ĝΠB nazywamy estymatorem bayesowskim ⇐⇒
∀x Rx(Π, ĝΠB (x)) = inf
a
Rx(Π, a)
Agata Boratyńska Wykłady ze statystyki matematycznej 119

Przy kwadratowej funkcji straty


ĝΠB (x) = E(g(θ)|x)
(o ile ta wartość oczekiwana istnieje i jest skończona i ryzyko bay-
esowskie jest skończone).
Dowód:
Rx(Π, a) = E((g(θ) − a)2|x) = E(g 2(θ)|x) − 2aE(g(θ)|x) + a2
Jest to kwadratowa funkcja zmiennej a i osiąga minimum dla a =
E(g(θ)|x).
Przy modułowej funkcji straty
ĝΠB (x) = med(Πx)

PRZEDZIAŁY UFNOŚCI HPD


Bayesowskim przedziałem ufności HPD dla parametru
θ na poziomie ufności 1 − α nazywamy zbiór A ⊂ Θ, taki że
∀θ ∈ A π(θ|x) > kα
i
Π (A|x) ­ 1 − α
Agata Boratyńska Wykłady ze statystyki matematycznej 120

PRZYKŁAD:
X1, X2, . . . , Xn - i.i.d. N (θ, σ 2), θ - nieznane, σ znane
θ ∼ N (µ, τ 2) - rozkład a priori
Rozkład a posteriori N (µ∗, τ∗2) gdzie
µ
n
x̄ + n 1 −1
 
2 τ2
µ∗ = σ
n 1 i τ∗2 = 2+ 2

σ2
+ τ2 σ τ

Estymator bayesowski parametru θ przy kwadratowej funkcji sraty


n µ
2 x̄ + τ2
θ̂ΠB (x1, x2, . . . , xn) = µ∗ = σ
n 1
σ2
+ τ2
Bayesowski przedział ufności dla θ na poziomie ufności 1 − α
 
µ∗ − u1− α2 τ∗, µ∗ − u1− α2 τ∗

You might also like