Professional Documents
Culture Documents
Agata Boratyńska
Warszawa 2009
Agata Boratyńska Wykłady ze statystyki matematycznej 2
Literatura
W. Niemiro Rachunek prawdopodobieństwa i statystyka mate-
matyczna, SNS 1999
J. Koronacki i J. Mielniczuk Statystyka WNT 2004
J. Jóźwiak i J. Podgórski, Statystyka od podstaw, PWE 1994
H. Kassyk-Rokicka, Statystyka, zbiór zadań, 2005 lub inne wyda-
nia
W. Krysicki Rachunek prawdopodobieństwa i statystyka mate-
matyczna w zadaniach, cz. 2. PWN 1998
D. Silvey Wnioskowanie statystyczne, PWN
R. Zieliński Siedem wykładów wprowadzających do statystyki
matematycznej, PWN www.impan.gov.pl/ rziel/7ALL.pdf
A. Boratyńska Zadania ze statystyki matematycznej, ksero WNE
J. Ciecieląg i K. Marek Statystyka matematyczna, zbiór zadań,
WNE
A. Jokiel-Rokita i R. Magiera, Modele i metody statystyki ma-
tematycznej w zadaniach, Oficyna Wydawnicza GiS, Wrocław
2005
A.D. Aczel, Statystyka w zarządzaniu, Wydawnictwo Naukowe
PWN
W. Zieliński Tablice statystyczne.
C.R. Rao Statystyka i prawda, PWN 1994
Agata Boratyńska Wykłady ze statystyki matematycznej 3
PREZENTACJA DANYCH
Szereg rozdzielczy punktowy (tablica kontyngencji)
Uwagi:
ci−1 +ci
• c̄i = 2
32,45 33,21 34,36 35,78 37,79 38,54 38,91 38,96 39,50 39,67
39,80 41,45 41,55 42,27 42,40 42,45 44,25 44,50 44,70 44,83
44,90 45,10 45,90 46,52 47,65 48,10 48,55 48,90 49,00 49,24
49,55 49,65 49,70 49,90 50,90 51,40 51,50 51,65 51,70 51,80
51,98 52,00 52,10 52,30 53,65 53,89 53,90 54,00 54,10 55,20
55,30 55,56 55,62 56,00 56,70 56,80 56,90 56,95 57,13 57,45
57,70 57,90 58,00 58,50 58,67 58,80 59,23 63,40 63,70 64,20
64,30 64,60 65,00 66,29 66,78 67,80 68,90 69,00 69,50 73,20
76,80 77,10 77,80 78,90 79,50 82,70 83,40 84,50 84,90 85,00
86,00 89,10 89,60 93,00 96,70 98,78 103,00 107,90 112,70 118,90
CHARAKTERYSTYKI PRÓBKOWE
MIARY POŁOŻENIA
Średnia arytmetyczna X̄
• z próby losowej X1, X2, . . . , Xn (dane surowe)
X1 + X2 + . . . + Xn
X̄ =
n
• dane z szeregu rozdzielczego punktowego
1 Xk
X̄ = xi ni
n i=1
• dane z szeregu rozdzielczego przedziałowego
1 Xk
X̄ ' c̄ini
n i=1
PRZYKŁAD 1 cd.
2 · 2 + 6 · 3 + 5 · 3.5 + 4 · 4 + 1 · 4.5 + 2 · 5
X̄ = = 3.5
20
PRZYKŁAD 2 cd. dla danych z szeregu rozdzielczego
X̄ =
1
(11·35+23·45+33·55+12·65+6·75+8·85+3·95+2·105+2·115) = 58.70
100
Uwaga: jeżeli dostępne są dane surowe zaleca się korzystanie ze
wzoru pierwszego.
Agata Boratyńska Wykłady ze statystyki matematycznej 12
M ed ' cL + − ni
nM 2 i=1
gdzie
cL - dolna granica klasy mediany
b - szerokość klasy mediany
nM - liczność klasy mediany
M - numer klasy
X10:20 +X11:20 3,5+3,5
PRZYKŁAD 1 cd. M ed = 2 = 2 = 3, 5
PRZYKŁAD 2 cd. dla danych z szeregu rozdzielczego
M = 3, n3 = 33, cL = 50, b = 10
10
M ed ' 50 + (50 − 34) = 54, 85
33
Agata Boratyńska Wykłady ze statystyki matematycznej 13
PRZYKŁAD 3 cd.
0, 0006771 − 0, 0004583
M o ' 250+ ·200 = 354, 56
2 · 0, 0006771 − 0, 0004583 − 0, 0004774
Agata Boratyńska Wykłady ze statystyki matematycznej 14
X̄ = 3506
M ed = X16:31 = 3100
M o = 3000
Uwaga: średnia jest nieodporna na obserwacje odstające
Agata Boratyńska Wykłady ze statystyki matematycznej 15
Kwartyle
Pierwszy kwartyl (dolny kwartyl) Q1- to taka wartość ce-
chy, że co najmniej 25% obserwacji przyjmuje wartość nie większą
od niej i co najmniej 75% obserwacji wartość nie mniejszą od niej.
Drugi kwartyl = Mediana
Trzeci kwartyl (kwartyl górny) Q3- to taka wartość cechy,
że co najmniej 75% obserwacji przyjmuje wartość nie większą od
niej i co najmniej 25% obserwacji wartość nie mniejszą od niej.
W praktyce dolny kwartyl wyznacza się jako medianę podpróby
złożonej z obserwacji o wartościach mniejszych od mediany, a górny
kwartyl jako medianę z podpróby złożonej z obserwacji większych
od mediany.
PRZYKŁAD 1 cd.
X5:20 + X6:20
Q1 = =3
2
X15:20 + X16:20
Q3 = =4
2
Agata Boratyńska Wykłady ze statystyki matematycznej 16
gdzie
cL - dolna granica klasy kwartyla
b - szerokość klasy kwartyla
nM1 - liczność klasy kwartyla
M1 - numer klasy
bMX3 −1
3n
Q3 ' cL + − ni
n M3 4 i=1
gdzie
cL - dolna granica klasy kwartyla
b - szerokość klasy kwartyla
nM3 - liczność klasy kwartyla
M3 - numer klasy
PRZYKŁAD 2 cd. Za Q1 odpowiada obserwacja o numerze n4 = 25,
stąd klasa kwartyla jest klasa druga M = 2
10
Q1 ' 40 + (25 − 11) = 46.09
23
MIARY ROZPROSZENIA
Rozstęp czyli odległość między największą i najmniejszą obser-
wacją
r = Xn:n − X1:n
Rozstęp międzykwartylowy
IQR = Q3 − Q1
podaje długość odcinka, na którym leży 50% środkowych wartości
w uporządkowanej niemalejąco próbie.
Uwaga:
rozstęp jest funkcją tylko krańcowych obserwacji, jest nieodporny
na obserwacje odstające, tej wady pozbawiony jest rozstęp między-
kwartylowy
Wariancją z próby losowej X1, X2, . . . , Xn (dane surowe)
nazywamy liczbę
2 1 Xn
Ŝ = (Xi − X̄)2
n i=1
1 X n
= Xi2 − nX̄ 2
n i=1
Dla danych pogrupowanych w szeregu rozdzielczym otrzymujemy
1 Xk
Ŝ 2 ' ni(c̄i − X̄)2
n i=1
Agata Boratyńska Wykłady ze statystyki matematycznej 19
1 Pn
Odchylenie przeciętne d = n i=1 |Xi − X̄|
W sytuacji gdy chcemy porównać rozrzut dwóch lub więcej prób
korzystamy ze współczynnika zmienności
Ŝ
V = 100%
X̄
PRZYKŁAD 1 cd.
r =5−2=3
IQR = 4 − 3 = 1
2 1
Ŝ = 2(2 − 3, 5)2 + 6(3 − 3, 5)2 + 5(3, 5 − 3, 5)2
20
2 2 2
+4(4 − 3, 5) + 1(4, 5 − 3, 5) + 2(5 − 3, 5) = 0, 63
√
Ŝ = 0, 658 = 0, 79
1
d= {2|2 − 3, 5| + 6|3 − 3, 5| + 5|3, 5 − 3, 5|
20
+4|4 − 3, 5| + 1|4, 5 − 3, 5| + 2|5 − 3, 5|} = 0, 6
Agata Boratyńska Wykłady ze statystyki matematycznej 20
WSKAŹNIKI ASYMETRII
Współczynnik asymetrii (klasyczny)
M3
A= 3
S
gdzie M3 jest trzecim momentem centralnym równym dla danych
surowych
1 X
n
M3 = (Xi − X̄)3,
n i=1
dla danych pogrupowanych w szeregu rozdzielczym otrzymujemy
1 Xk
M3 ' ni(c̄i − X̄)3
n i=1
Pozycyjny miernik asymetrii
Q3 − 2M ed + Q1
A2 =
Q3 − Q1
Współczynnik skośności
X̄ − M o
A1 =
S
Asymetria dodatnia (prawostronna) - wskaźniki asymetrii dodatnie
Asymetria ujemna (lewostronna) - wskaźniki asymetrii ujemne
3,5−3,5
PRZYKŁAD 1 cd. A = 0, 08, A1 = 0,79 =0
58,70−50,10
PRZYKŁAD 2cd. A = 1, 10 A1 = 18,20 = 0, 47
3506−3000
PRZYKŁAD 3cd. A1 = 1671,57 = 0, 3
Agata Boratyńska Wykłady ze statystyki matematycznej 23
INDEKSY STATYSTYCZNE
Zbiór wartości danej cechy lub wartości określonego zjawiska za-
obserwowany w różnych (ale chronologicznych) momentach czasu
nazywamy szeregiem czasowym.
PRZYKŁAD. cena akcji w kolejnych dniach stycznia, zarobki w
pewnej gałęzi przemysłu w kolejnych latach, wielkość produkcji w
kolejnych miesiącach
Indeksy statystyczne służą do badania dynamiki zjawiska na
podstawie danych z kolejnych okresów czasowych (na podstawie
szeregu czasowego).
yt - poziom zjawiska (wartość cechy) w chwili (okresie) t, t ∈
{0, 1, 2, . . . , n}
∆t = yt − yt−1 - przyrost absolutny
yt −yt∗
δt = y t∗ - przyrost względny względem wartości w chwili t∗.
INDEKSY PROSTE - mierniki tempa zmian zjawiska
yt
Indeks łańcuchowy dynamiki it|t−1 = yt−1
t=t∗ +1
jeśli t0 < t∗ to
t∗ 1
it0|t∗ = .
Y
t=t0 +1 it|t−1
MODEL STATYSTYCZNY
(X , FX , P)
i=1
i oznaczamy
Y ∼ χ2k
gęstość
1 1
k −1
pk (x) = k x 2 exp − x 1(0,∞)(x)
2 2 Γ( k2 ) 2
EY = k i V arY = 2k
kwantyl rzędu p - Fχ−1
2 (p) - jest to liczba taka, że P {Y ¬
k
Fχ−1
2 (p)} =p
k
Rozkład t-Studenta
Niech Z ∼ N (0, 1) i Y ∼ χ2k oraz Z i Y niezależne, wtedy rozkład
zmiennej losowej
Z
T = rY
k
nazywamy rozkładem t-Studenta z k stopniami swobody i ozna-
czamy
T ∼ tk
gęstość
k+1
2 − 2
k+1
1 Γ x
fk (x) = √ · 2 1 +
Γ k2
kπ 2
ET = 0 gdy k > 1
k
V arT = k−2 gdy k > 2
kwantyl rzędu p - Ft−1
k
(p) - jest to liczba taka, że P {T ¬
Ft−1
k
(p)} = p
wartość krytyczna dwustronna rzędu α
−1 α!
t(α, k) = Ftk 1 −
2
- jest to liczba, taka że prawdopodobieństwo zdarzenia |T | >
t(α, k) jest równe α.
Agata Boratyńska Wykłady ze statystyki matematycznej 34
Rozkład F (Fishera-Snedecora)
Niech Y ∼ χ2k i V ∼ χ2r oraz zmienne Y i V są niezależne, wtedy
rozkład zmiennej losowej
Y /k
F =
V /r
nazywamy rozkładem F z k i r stopniami swobody i oznaczamy
F ∼ Fk,r
gęstość
k
Γ k+r r ! 2r x 2 −1
pk,r (x) = 2 1(0,∞)(x)
Γ k2 Γ 2r k x + r k+r2
k
gdy x > 0
kwantyl rzędu p - FF−1
k,r
(p)
wartość krytyczna rzędu α
F (α, k, r) = FF−1
k,r
(1 − α)
- jest to liczba, taka że prawdopodobieństwo zdarzenia F > F (α, k, r)
jest równe α.
Agata Boratyńska Wykłady ze statystyki matematycznej 35
1 Xn
X̄ = Xi
n i=1
1 Xn
S2 = i=1 (Xi − X̄)
2
n−1
Własności
• X̄ i S 2 są niezależne;
2
• X̄ ∼ N (µ, σn )
E X̄ = n1 E = n1 nEX1 = µ
Pn
i=1 Xi
σ2
V arX̄ = n1 V ar 1
Pn
i=1 Xi = n2
nV arX1 = n
Pn (Xi −µ)2
• Zmienna i=1 σ2
ma rozkład χ2n
(n−1)S 2 Pn (Xi −X̄)2
• σ2
= i=1 σ2
∼ χ2n−1
2 2
• E (n−1)S
σ 2 = n − 1 i V ar (n−1)S
σ2
= 2(n − 1) stąd
2 2 2 2σ 4
ES = σ i V arS =
n−1
Agata Boratyńska Wykłady ze statystyki matematycznej 36
X̄−µ √ (n−1)S 2
• σ n ∼ N (0, 1) i σ2
∼ χ2n−1 zatem
X̄−µ √
n X̄ − µ √
T = sσ = n ∼ tn−1
(n−1)S 2 S
σ 2 (n−1)
ZAGADNIENIE ESTYMACJI
Zagadnienie estymacji - szacowanie nieznanego parametru lub
funkcji na podstawie wyników obserwacji;
X1, X2, . . . , Xn - niezależne zmienne losowe o tym samym rozkła-
dzie (i.i.d.) Pθ - próba losowa
θ ∈ Θ - nieznany parametr, Θ ⊆ R(Rk )
Estymatorem parametru θ nazywamy dowolną funkcję
θ̂(X1, X2, . . . , Xn), której wartości należą do przestrzeni Θ, i której
celem jest oszacowanie parametru θ.
CHARAKTERYSTYKI PRÓBKOWE - estymatory w oparciu o
dystrybuantę empiryczną
Model:
(R, F)n, gdzie F rodzina dystrybuant na prostej rzeczywistej
x = (x1, x2, ..., xn) - próbka losowa z rozkładu o dystrybuancie F
k-ta statystyka pozycyjna z próby losowej x1, x2, ..., xn jest
równa k-tej wartości, gdy obserwacje ustawimy w ciąg rosnący.
Oznaczenie: Xk:n
W szczególności
x1:n = min{x1, x2, ..., xn}
xn:n = max{x1, x2, ..., xn}
Agata Boratyńska Wykłady ze statystyki matematycznej 38
Dystrybuanta empiryczna
liczba xi, takich że xi ¬ t
Fn(x, t) = Fn(t) =
n
1 1
Fn(t) = Σ1(−∞,t](xi) = Σ1[xi:n,∞)(t)
n n
gdzie
1 gdy Xi ∈ (−∞, t]
1(−∞,t](Xi) =
0 w przeciwnym przypadku
jest zmienną losową dwupunktową,
PF (1(−∞,t](Xi) = 1) = F (t)
3. CTG
Fn(t) − F (t) √
r n −→ N (0, 1)
F (t)(1 − F (t))
Fn(t) − F (t) √
Px: r n ¬ z −→ Φ(z)
F (t)(1 − F (t))
dla każdego z.
4. Twierdzenie Gliwenki Cantellego
Dla prawie wszystkich x
sup |Fn(t) − F (t)| −→ 0,
t
gdy n −→ ∞
Charakterystyki próbkowe:
średnia - estymator wartości oczekiwanej
mediana próbkowa - estymator mediany
kwantyl próbkowy - estymator kwantyla rozkładu
wariancja z próby - estymator wariancji
itd
Agata Boratyńska Wykłady ze statystyki matematycznej 40
wartość liczebność
2 12
3 4
4 3
5 4
6 4
8 2
9 1
15 1
17 1
22 1
23 1
24 2
25 1
27 1
32 1
43 1
Agata Boratyńska Wykłady ze statystyki matematycznej 41
gdzie µ = Eθ X.
Agata Boratyńska Wykłady ze statystyki matematycznej 42
Przykład 1.
X = (X1, X2, . . . , Xn), Xi ∼ Ex(θ) i są niezależne, θ > 0
EM M (θ) =?
Z +∞ 1
Eθ Xi = 0
xθe−θxdx =
θ
Rozwiązujemy równanie:
1
= X̄
θ
stąd
1
EM M (θ) = θ̂ =
X̄
Przykład 2.
X = (X1, X2, . . . , Xn), Xi ∼ Gamma(α, β) i są niezależne,
α, β > 0
EM M (α) =? i EM M (β) =?.
β α α−1 −βx
pα,β (x) = x e gdy x > 0
Γ(α)
α
Eα,β Xi =
β
α
V arα,β Xi = 2
β
Agata Boratyńska Wykłady ze statystyki matematycznej 43
Otrzymujemy układ:
α
β = X̄
α 2
2 = Ŝ
β
Stąd:
X̄ X̄ 2
β̂ = 2 i α̂ = 2
Ŝ Ŝ
Przykład 3.
Wyznaczyć EMM parametrów w rozkładzie P areto(θ, λ), θ > 2,
λ > 0.
Rozwiązanie:
X = (X1, X2, . . . , Xn), Xi ∼ P areto(θ, λ) i są niezależne
θλθ
pθ,λ(x) = , x>0
(λ + x)θ+1
Otrzymujemy układ:
λ
= X̄
θ−1
λ2 θ 2
= S
(θ − 1)2(θ − 2)
Stąd:
2S 2
θ̂ = 2 λ̂ = X̄(θ̂ − 1).
S − X̄ 2
Agata Boratyńska Wykłady ze statystyki matematycznej 44
Przykład 1.
X1, X2, . . . , Xn i.i.d, Xi ∼ Ex(θ), θ > 0
EM K(θ) =?
! !
1 1 1
Fθ q 1 = 1 − exp −θq 1 = ⇐⇒ q 1 = − ln
2 2 2 2 θ 2
Rozwiązujemy równanie:
1 1
− ln = Q 1
θ 2 2
stąd
1 1
EM K(θ) = θ̂(X) = − ln
Q1 2
2
Agata Boratyńska Wykłady ze statystyki matematycznej 46
Przykład 2.
Niech X1, X2, . . . , Xn i.i.d z rozkładu W eibull(c, τ ),
EM K(c) =? i EM K(τ ) =?
Dystrybuanta w rozkładzie Weibulla ma postać:
Fc,τ (x) = 1 − exp (−cxτ ) x>0
Otrzymujemy układ:
−cQτ1
1
1−e
4 = 4
τ
−cQ 3 .
3
1−e =
4
4
Stąd
− ln 0.75 = cQτ1
4
τ
− ln 0.25 = cQ 3
4
τ
Q1 ln 0.75
4
=
Q ln 0.25
3
4
Estymatory mają postać:
ln 0.75
τ̂ = log Q 1
4
Q3
ln 0.25
4
ln 0.75
ĉ = −
Qτ̂1
4
Agata Boratyńska Wykłady ze statystyki matematycznej 47
PRZYKŁAD 1.
X ∼ bin(n, θ)
n x n−x
θ (1 − θ)
L(θ, x) =
x
∂L(θ, x) n x−1
= θ (1 − θ)n−x−1(x − nθ) = 0
∂θ x
X
EN W (θ) =
n
Agata Boratyńska Wykłady ze statystyki matematycznej 49
PRZYKŁAD 2.
X1, X2, . . . , Xn i.i.d Ex(θ), θ > 0
Funkcja wiarogodności
n
n
L(θ, x) = θ exp −θ xi
X
i=1
n
ln L = n ln θ − θ xi
X
i=1
∂ ln L(θ,x) n Pn
Pochodna ∂θ = θ − i=1 xi Rozwiązujemy równanie
n X n
− xi = 0
θ i=1
1
EN W (θ) =
X̄
PRZYKŁAD 3.
X1, X2, . . . , Xn i.i.d N (µ, σ), niech v = σ 2
n
1 2 1 Xn
−n + 1
Pn 2
i=1 (xi − µ) = 0
2v 2v 2
2 2 1 X
n 2
EN W (µ) = X̄ EN W (σ ) = Ŝ = Xi − X̄ .
n i=1
Agata Boratyńska Wykłady ze statystyki matematycznej 50
WŁASNOŚCI ESTYMATORÓW,
PORÓWNYWANIE ESTYMATORÓW
X = (X1, X2, . . . , Xn) - obserwowana zmienna losowa
Pθ - rozkład zmiennej X, θ -nieznany parametr
θ̂ - estymator θ, ĝ - estymator funkcji g(θ)
1. Obciążenie estymatora
Obciążenie estymatora parametru θ:
Bθ (θ̂) = Eθ θ̂(X) − θ
PRZYKŁADY:
X1, X2, . . . , Xn i.i.d z rozkładu o nieznanej dystrybuancie F i nie-
znanych EXi = µ i V arXi = σ 2
Fn - dystrybuanta empiryczna (estymator F )
X̄ - estymator µ
S 2, Ŝ 2 - estymatory σ 2
Agata Boratyńska Wykłady ze statystyki matematycznej 51
EFn(t) = F (t)
=⇒ Fn(t) estymator nieobciążony dystrybuanty F (t)
1 X n 1
E X̄ =
E Xi = nEX1 = µ
n i=1 n
=⇒ X̄ - estymator nieobciążony wartości oczekiwanej
1 n
2
ES = E (Xi − X̄)2
X
n−1 i=1
1 n n n
n − 1 2 n − 1 2
E Ŝ 2 = E S = σ
n n
n−1 2 1
B(Ŝ 2) = σ − σ2 = − σ2
n n
Ŝ 2 - estymator obciążony
1
B(Ŝ 2) = − σ 2 −→ 0 gdy n −→ +∞
n
Agata Boratyńska Wykłady ze statystyki matematycznej 52
PRZYKŁAD 1.
X1, X2, . . . , Xn i.i.d P oiss(θ), θ > 0
EN W (θ) =?
P
xi
−nθ θ
L(θ, x) = e
xi !
Q
∂ ln L(θ, x) xi
P
= −n +
∂θ θ
Xi
P
EN W (θ) = θ̂ = = X̄
n
Eθ X̄ = θ =⇒ θ̂ estymator nieobciążony
θ
R(θ, θ̂) = V arθ θ̂ =
n
Agata Boratyńska Wykłady ze statystyki matematycznej 54
PRZYKŁAD 2.
X1, X2, . . . , Xn i.i.d N (µ, σ 2), oba parametry nieznane
Porównamy ryzyka estymatorów wariancji S 2 i Ŝ 2
R(µ, σ, S 2) = V arµ,σ S 2
n
σ4 X̄)2
P
i=1 (Xi −
= V ar µ,σ
(n − 1)2 σ2
σ4 2σ 4
= 2(n − 1) =
(n − 1)2 (n − 1)
= V arµ,σ S + σ
n n
2
n − 1 2σ 4 σ 4 2n − 1 4
= + = σ
n (n − 1) n2 n2
Zatem
∀ µ, σ R(µ, σ, Ŝ 2) < R(µ, σ, S 2)
Agata Boratyńska Wykłady ze statystyki matematycznej 55
NIERÓWNOŚĆ INFORMACYJNA
Przy pewnych warunkach regularności, jeżeli ĝ jest estymato-
rem nieobciążonym funkcji różniczkowalnej g(θ), to
(g 0(θ))2
∀θ∈Θ V arθ ĝ .
In(θ)
PRZYKŁAD 1 cd.
X1, X2, . . . , Xn i.i.d P oiss(θ), θ > 0
θ
EN W (θ) = X̄ i V arθ X̄ = n
X − θ 2 1 n
ĝn ∼ N g(θ),
przy dużym n
n
ĝn − g(θ) √
n −→ N (0, 1) przy n −→ +∞
σ(θ)
PRZYKŁADY
X1, X2, . . . , Xn i.i.d z rozkładu dystrybuancie F
i EXi = µ i V arXi = σ 2
1. Z praw wielkich liczb wynika
X̄ −→ µ przy n −→ +∞
S 2 −→ σ 2 przy n −→ +∞
Fn(t) −→ F (t) przy n −→ +∞
2. Z CTG wynika
X̄ − µ √
n −→ N (0, 1) przy n −→ +∞
σ
Fn(t) − F (t) √
r n −→ N (0, 1) przy n −→ +∞
F (t)(1 − F (t))
Lemat DELTA
Jeżeli ciąg Zn rzeczywistych zmiennych losowych spełnia
√
(Zn − θ) n −→ N (0, σ 2)
dla pewnego σ 2 i g(θ) jest różniczkowalną funkcją θ i g 0(θ) 6= 0,
to
√
(g(Zn) − g(θ)) n −→ N (0, [g 0(θ)]2σ 2).
PRZYKŁAD 1.
X1, X2, . . . , Xn i.i.d., EXi = µ i V arXi = σ 2
X̄ 2 - estymator parametru µ2
Z CTG
√
(X̄ − µ) n −→ N (0, σ 2) przy n −→ +∞
Niech
g(µ) = µ2
Z lematu DELTA
2 2
√
2 2
(X̄ − µ ) n −→ N 0, 4σ µ
Agata Boratyńska Wykłady ze statystyki matematycznej 61
PRZYKŁAD 2.
X1, X2, . . . , Xn i.i.d. Ex(θ), θ > 0, Eθ X = 1θ , V arθ X = 1
θ2
1
EN W (θ) = X̄
Z CTG
1 √ 1
PRZYKŁAD.
X1, X2, . . . , Xn i.i.d P oiss(θ), θ > 0
Znamy: EN W (θ) = X̄, V arθ X̄ = nθ , I1(θ) = 1
θ
√
(X̄ − θ) n −→ N (0, θ)
Niech
1 gdy Xi = 0
Yi =
0 w pp
Wtedy
Eθ Yi = e−θ i V arθ Yi = e−θ (1 − e−θ )
Agata Boratyńska Wykłady ze statystyki matematycznej 65
oraz
1 Xn
ĝ2 = Yi
n i=1
Z CTG
−θ
√
−θ −θ
ĝ2 − e n −→ N 0, e (1 − e )
Porównujemy wariancje asymptotyczne
∀θ>0 e−θ (1 − e−θ ) > θe−2θ =⇒ as.ef(ĝ1, ĝ2) > 1
Estymator ĝ1 jest bardziej efektywny niż estymator ĝ2.
Agata Boratyńska Wykłady ze statystyki matematycznej 66
Model I.
X1, X2, . . . , Xn i.i.d. z rozkładu N (µ, σ 2), µ ∈ R nieznane, σ > 0
znane.
EN W (µ) = EM M (µ) = X̄ - estymator punktowy
2
X̄ ∼ N (µ, σn )
√
U = X̄−µ
σ n ∼ N (0, 1), U - funkcja centralna
szukamy z, tak aby
X̄ − µ √
P
n ¬ z
= 1−α
σ
Otrzymujemy
σ σ
X̄ − u1− α2 √ ¬ µ ¬ X̄ + u1− α2 √
n n
Zatem
σ σ
X̄ − u1− α √
P ¬ µ ¬ X̄ + u 1− α√ = 1 − α
2 n 2 n
Agata Boratyńska Wykłady ze statystyki matematycznej 68
Przedział
σ σ
X̄ − u1− α2 √ , X̄ + u1− α2 √
n n
jest przedziałem ufności dla parametru µ na poziomie
ufności 1 − α.
2d - długość przedziału ufności
σ
2d = 2u1− α2 √
n
d nazywamy błędem oszacowania
1 − α rośnie =⇒ 2d rośnie
n rośnie =⇒ 2d maleje
n u1− α2
d0
Agata Boratyńska Wykłady ze statystyki matematycznej 69
Model II.
X1, X2, . . . , Xn i.i.d. z rozkładu N (µ, σ 2), µ ∈ R nieznane, σ > 0
nieznane.
X̄ - estymator punktowy parametru µ
1 Pn
S2 = n−1 i=1 (Xi − X̄)2 - estymator punktowy parametru σ 2
2
X̄ ∼ N (µ, σn )
X̄−µ √
σ n ∼ N (0, 1)
√
T = X̄−µ
S n ∼ tn−1, T - funkcja centralna,
tn−1 - rozkład t-Studenta z n − 1 stopniami swobody
Analogicznie, jak poprzednio szukamy liczby z tak aby
X̄ − µ √
P
n ¬ z
= 1−α
S
Przedział
S S
X̄ − t(α, n − 1) √ , X̄ + t(α, n − 1) √
n n
jest przedziałem ufności dla parametru µ na poziomie
ufności 1 − α.
Aby wyznaczyć liczebność próbki potrzebną do uzyskania przedzia-
łu o danej długości postępujemy zgodnie z dwuetapową procedurą
Steina.
P a ¬
2
¬ b
= 1−α
σ
2 α (n − 1)S 2 2 α
χ (1 − , n − 1) ¬ ¬ χ ( , n − 1)
2 σ2 2
Przedział
2
(n − 1)S 2
(n − 1)S
,
χ2( α2 , n − 1) χ2(1 − α2 , n − 1)
Model IV.
Wykonujemy n niezależnych doświadczeń typu sukces - porażka
(np. sondaż opinii publicznej - pytanie o preferowanie pewnej
wielkości lub nie, kontrola jakości - pojawienie się braku lub
nie), n duże.
Obserwowana zmienna losowa Y ma rozkład dwupunktowy
P (Y = 1) = p P (Y = 0) = 1 − p
p ∈ (0, 1) - prawdopodobieństwo sukcesu w pojedynczym doświad-
czeniu, nieznany parametr nazywany też wskaźnikiem struktury
Agata Boratyńska Wykłady ze statystyki matematycznej 74
√
(p̂ − p) n −→ N (0, p(1 − p))
przy n −→ +∞
p̂ − p √
r n ∼ N (0, 1)
p̂(1 − p̂)
Zatem
p̂ − p √
P ≈ 1−α
n ¬ u1− α2
r
p̂(1 − p̂)
Rozwiązujemy nierówność
p̂ − p √
n ¬ u1− α2 ,
r
p̂(1 − p̂)
wyznaczamy p.
Przedział
r r
p̂(1 − p̂) p̂(1 − p̂)
p̂ − u1− α2 √ , p̂ + u1− α2 √
n n
√
p̂(1−p̂)
2d = 2u1− α2 √
n - długość przedziału ufności
Zauważmy, że dla każdego p̂ ∈ (0, 1) zachodzi
1 1 1
p̂(1 − p̂) ¬ 1 − =
2 2 4
Zatem dla każdego p̂
1
d ¬ u1− α2 √
2 n
Aby otrzymać przedział z maksymalnym błędem d0 na zadanym
poziomie ufności 1 − α należy wziąć próbę losową o liczebności
1 2
n u1− α2
2d0
Agata Boratyńska Wykłady ze statystyki matematycznej 76
X ∼ Pθ , θ ∈ Θ,
H0 : θ ∈ Θ0 H1 : θ ∈ Θ1
gdzie Θ0, Θ1 ⊂ Θ i Θ0 ∩ Θ1 = ∅
X =K ∪A
K - zbiór krytyczny, zbiór wyników obserwacji przy których od-
rzucamy H0;
A - zbiór afirmacji, zbiór wyników, przy których nie odrzucamy
H0 .
Jeśli mamy podany zbiór K to mamy podany test statystyczny
Najczęściej test ma postać:
K = {T (x) > c}
co oznacza odrzuć H0, gdy obliczona wartość funkcji T (x) jest
większa niż c.
Funkcję T nazywamy statystyką testową, a stałą c wartością
krytyczną.
Agata Boratyńska Wykłady ze statystyki matematycznej 80
PRZYKŁAD 1.
Chcemy sprawdzić, czy moneta jest symetryczna. W tym celu rzu-
camy monetą 400 razy. Niech X oznacza liczbę orłów,
X ∼ bin(400, p) p - nieznane
1 1
H0 : p = H1 : p 6=
2 2
test:
K = {|X − 200| > 19, 6}
PRZYKŁAD 1cd.
Przy prawdziwości hipotezy H0 mamy Z CTG
1
X ∼ N (200, 400 ·
4
Pp= 1 (|X − 200| > 19, 6)
2
|X − 200|
= Pp= 1
= 2(1 − Φ(1, 96)) = 0, 05
> 1, 96
2 10
jest to test na poziomie istotności 0,05.
Wielkość Pθ (K) nazywamy mocą testu przy alternatywie θ ∈
Θ1 (testy buduje się tak aby moc była jak największa)
Funkcja mocy testu
β : Θ1 −→ [0, 1] β(θ) = Pθ (K)
Agata Boratyńska Wykłady ze statystyki matematycznej 83
p-wartość (p-value)
X ∼ Pθ , θ ∈ Θ,
H0 : θ = θ0 , α − poziom istotności
Test
K = {T (X) > cα }
x - obserwowana wartość zmiennej X
t = T (x)
p-wartość jest równa Pθ0 (T (X) > t)
Wnioskowanie:
Jeśli p-wartość < α, to hipotezę H0 odrzucamy.
Jeśli p-wartość > α, to nie ma podstaw do odrzucenia H0.
Agata Boratyńska Wykłady ze statystyki matematycznej 85
PORÓWNYWANIE TESTÓW
X ∼ Pθ , θ ∈ Θ,
H0 : θ ∈ Θ0 H1 : θ ∈ Θ1
gdzie Θ0, Θ1 ⊂ Θ i Θ0 ∩ Θ1 = ∅
Mówimy, że test o obszarze krytycznym K1 jest mocniejszy niż
test o obszarze krytycznym K2 (oba testy na tym samym poziomie
istotności α) dla testowania hipotezy H0 przy alternatywie H1 ⇐⇒
∀ θ ∈ Θ0 Pθ (K1) ¬ α i Pθ (K2) ¬ α
i
∀ θ ∈ Θ1 Pθ (K1) Pθ (K2)
i
∃ θ1 ∈ Θ1 Pθ1 (K1) > Pθ1 (K2).
LEMAT NEYMANA-PEARSONA
Niech X będzie obserwowaną zmienną losowa i P0, P1 dwo-
ma rozkładami prawdopodobieństwa o gęstościach odpowied-
nio równych f0 i f1. Niech
f1(x)
K∗ = P0(K ∗) = α.
x: > c i
f0(x)
Model II.
X1, X2, . . . , Xn próba losowa z rozkładu normalnego N (µ, σ 2), µ,
σ nieznane
Hipoteza zerowa H0 : µ = µ0
X̄ - estymator parametru µ
1 Pn
S2 = n−1 i=1 (Xi − X̄)2 estymator parametru σ 2
Statystyka testowa
X̄ − µ0 √
T =
n
S
Przy H0 prawdziwej statystyka T ma rozkład t-Studenta z n − 1
stopniami swobody
Poziom istotności α
Model II
Hipoteza zerowa: H0 : σ 2 = σ02
Statystyka testowa:
(n − 1)S 2
2
χ =
σ02
Przy H0 prawdziwej statystyka χ2 ma rozkład chi-kwadrat z n − 1
stopniami swobody
• Alternatywa: H1 : σ 2 6= σ02
Zbiór krytyczny ma postać
(
2 α 2
!
2 2 α
!)
K1 = χ < χ 1 − , n − 1 ∨ χ > χ ,n − 1
2 2
czyli hipotezę H0 odrzucamy gdy χ2 < χ2(1 − α2 , n − 1) lub
χ2 > χ2( α2 , n − 1)
• Alternatywa: H2 : σ 2 > σ02
Zbiór krytyczny ma postać
K2 = {χ2 > χ2(α, n − 1)}
Model III.
X1, X2, . . . , Xn próba losowa z rozkładu o nieznanej wartości ocze-
kiwanej EXi = µ i skończonej ale nieznanej wariancji. Zakładamy,
że n duże (n 100)
Hipoteza zerowa H0 : µ = µ0
X̄ - estymator parametru µ
1 Pn
S2 = n−1 i=1 (Xi − X̄)2 estymator wariancji
Statystyka testowa
X̄ − µ0 √
U= n
S
Przy hipotezie H0 prawdziwej statystyka U ma asymptotyczny
rozkład normalny, tzn
U −→ N (0, 1) przy n −→ +∞
Poziom istotności α
Model IV.
Wykonujemy n niezależnych doświadczeń typu sukces - porażka,
zakładamy że n duże.
Obserwowana zmienna losowa Y ma rozkład dwupunktowy
P (Y = 1) = p P (Y = 0) = 1 − p
p ∈ (0, 1) - prawdopodobieństwo sukcesu w pojedynczym doświad-
czeniu, nieznany parametr nazywany też wskaźnikiem struktury
Niech X oznacza liczbę sukcesów w n doświadczeniach
X ∼ bin(n, p)
Hipoteza zerowa H0 : p = p0
X
p̂ = n - estymator punktowy parametru p
Statystyka testowa:
p̂ − p0 √
U∗ = n r
p0(1 − p0)
Przy prawdziwości hipotezy H0 z CTG wynika, że
p̂ − p0 √
U∗ = r n ∼ N (0, 1) gdy n −→ +∞
p0(1 − p0)
Model I.
X1,1, X1,2, . . . , X1,n1 - próba losowa z rozkładu normalnego N (µ1, σ12);
X2,1, X2,2, . . . , X2,n2 - próba losowa z rozkładu normalnego N (µ2, σ22);
Parametry µ1, µ2 są nieznane, σ1, σ2 są znane, wszystkie obserwo-
wane zmienne są niezależne.
Hipoteza zerowa: H0 : µ1 = µ2, Poziom istotności α
1 Pn1
X̄1 = n1 i=1 X1,i - estymator parametru µ1
1 Pn2
X̄2 = n2 i=1 X2,i - estymator parametru µ2
2 2 2 σ22
!
X̄1 ∼ N (µ1, σn11 ) i X̄2 ∼ N (µ2, σn22 ), zatem X̄1−X̄2 ∼ N µ1 − µ2, σn11 + n2
Statystyka testowa:
X̄1 − X̄2
Un1,n2 = s
σ12 σ2
n1 + n22
Model II.
X1,1, X1,2, . . . , X1,n1 - próba losowa z rozkładu normalnego N (µ1, σ12);
X2,1, X2,2, . . . , X2,n2 - próba losowa z rozkładu normalnego N (µ2, σ22);
Parametry µ1, µ2, σ1, σ2 są nieznane, ale σ1 = σ2, wszystkie ob-
serwowane zmienne są niezależne.
Hipoteza zerowa: H0 : µ1 = µ2
1 Pn1
X̄1 = n1 i=1 X1,i - estymator parametru µ1
1 Pn2
X̄2 = n2 i=1 X2,i - estymator parametru µ2
2 2
X̄1 ∼ N (µ1, σn11 ) i X̄2 ∼ N (µ2, σn22 ), zatem
1 1
Statystyka testowa:
X̄1 − X̄2
Tn1,n2 = r
S∗ n11 + n12
Model III.
X1,1, X1,2, . . . , X1,n1 - i.i.d. z rozkładu o EX = µ1 i V arX = σ12;
X2,1, X2,2, . . . , X2,n2 - i.i.d. z rozkładu o EX = µ2 V arX = σ22;
Parametry µ1, µ2, σ1, σ2 są nieznane, wszystkie obserwowane zmien-
ne są niezależne, n1, n2 duże.
Hipoteza zerowa: H0 : µ1 = µ2
1 Pn1
X̄1 = n1 i=1 X1,i - estymator parametru µ1
1 Pn2
X̄2 = n2 i=1 X2,i - estymator parametru µ2
Ŝ12 = n11 ni=1
1
(X1,i − X̄1)2 - estymator wariancji w oparciu o próbę
P
Model IV.
Wykonujemy n1 niezależnych doświadczeń typu sukces - porażka,
w których prawdopodobieństwo sukcesu jest równe p1, i n2 nieza-
leżnych doświadczeń typu sukces - porażka, w których prawdopo-
dobieństwo sukcesu jest równe p2
p1, p2 ∈ (0, 1) nieznane, n1, n2 duże
Niech X1 oznacza liczbę sukcesów w n1 próbach, X2 oznacza liczbę
sukcesów w n2 próbach
X1 ∼ bin(n1, p1), X2 ∼ bin(n2, p2)
Hipoteza zerowa H0 : p1 = p2
X1 X2
p̂1 = n1 i p̂2 = n2 - estymatory parametrów p1 i p2
p∗ = Xn11+n
+X2
2
- estymator prawdopodobieństwa sukcesu przy założe-
niu, że H0 prawdziwa
p̂1 −p̂2
Un∗1,n2 = s - statystyka testowa
∗ ∗ 1
p (1−p ) n + n1
1 2
Przy prawdziwości H0
Un∗1,n2 ∼ N (0, 1) przy n1, n2 −→ +∞
n = n1 + n2 + . . . + nk
1 X ni
X̄i = Xi,j
ni j=1
1 Xp X ni 1 X p
X̄ = Xi,j = niX̄i
n i=1 j=1 n i=1
Agata Boratyńska Wykłady ze statystyki matematycznej 101
Pk 2
między próbkami i=1 ni (X̄i − X̄) k−1
Pk Pni 2
wewnątrz próbek i=1 j=1 (Xi,j − X̄i ) n−k
Pk Pni 2
Razem i=1 j=1 (Xi,j − X̄) n−1
Agata Boratyńska Wykłady ze statystyki matematycznej 102
PRZYKŁAD.
Porównano zyski ze sprzedaży pewnego towaru w czterech mia-
stach. Wylosowano po 10 sklepów i otrzymano wyniki:
i=1 j=1
Testem analizy wariancji zweryfikuj hipotezę o równości przecięt-
nego zysku w tych miastach
H0 : m 1 = m 2 = m 3 = m 4
X̄ = 90, 5
4
10(X̄i − X̄)2 = 210
X
i=1
4 X
10 4 X
10 4
(Xi,j − X̄i)2 = 2
Xi,j − 10X̄i2 = 315
X X X
PRZYKŁAD.
Dane ze szkodami spowodowanymi przez wichury
H0 : F jest dystrybuantą z rozkładu o gęstości
0 gdy x ¬ 1.5
f0(x) = 1 x−1.5
7.5 exp(− 7.5 ) gdy x > 1.5
X w1 w2 . . . wk
P (X = wi) p1 p2 . . . pk
gdzie pi = 1.
P
Hipoteza zerowa:
H0 : p1 = p01, p2 = p02, . . . , pk = p0k
gdzie p01, p02, . . . , p0k są znane.
X1, X2, . . . , Xn - obserwacje cechy X.
n
Ni = 1(Xj = wi), i = 1, 2, . . . , k.
X
j=1
- zliczamy ile razy w próbce X1, X2, . . . , Xn pojawiła się wartość
wi.
Wyniki doświadczeń prezentuje tabela:
Agata Boratyńska Wykłady ze statystyki matematycznej 108
X w1 w2 . . . wk
liczba
doświadczeń N1 N2 . . . Nk
wielkość oczekiwana
Test:
odrzucamy H0 gdy
2 (Ni − np0i )2
k
χ = > χ2(α, k − 1)
X
0
npi
i=1
Agata Boratyńska Wykłady ze statystyki matematycznej 109
PRZYKŁAD:
Chcemy sprawdzić czy kostka do gry jest symetryczna. Rzucamy
kostką 300 razy. Wyniki podaje tabela
wynik wi 1 2 3 4 5 6
liczba
rzutów Ni 45 55 60 40 48 52
H0 : p0i = 16 , i = 1, 2, 3, 4, 5, 6
np0i = 300 · 16 - wartość oczekiwana
Wartość statystyki testowej:
6 (Ni − np0i )2
χ2emp = = 5, 16
X
i=1 np0i
χ20,95,5 = 11, 07
χ2emp < χ2(0, 05, 5)
Wniosek: nie ma podstaw do odrzucenia hipotezy H0,zatem moż-
na sądzić, że kostka jest symetryczna.
Agata Boratyńska Wykłady ze statystyki matematycznej 110
j=1
Prawdopodobieństwo
P (ai−1 < Xj ¬ ai) = F (ai) − F (ai−1) = p0i
jest znane. Następnie stosujemy test chi-kwadrat dla przypadku
rozkładu dyskretnego.
Agata Boratyńska Wykłady ze statystyki matematycznej 111
UWAGI:
1) Test zgodności chi-kwadrat jest testem asymptotycznym, licz-
ność próby losowej n musi być duża, dla każdej klasy
np0i > 5.
2) Podział na klasy (ai−1, ai) dokonuje się tak, aby p0i ≈ k1 .
3) Testu możemy używać do weryfikacji hipotezy, że rozkład ob-
serwowanej zmiennej należy do pewnej rodziny rozkładów indek-
sowanych skończenie wymiarowym parametrem. Parametry esty-
mujemy korzystając z danych. Jeśli używamy danych do estymacji
nieznanych parametrów rozkładu występującego w hipotezie zero-
wej, to dla każdego estymowanego parametru odejmujemy jeden
stopień swobody, zatem test odrzuca hipotezę zerową, gdy
2 (Ni − np0i )2
k
χ = > χ2(α, k − d − 1)
X
0
npi
i=1
λ̂ = EN W (λ) = X̄ = 0.2
i
p01 = P (X = 0) ≈ e−0.2 = 0, 82 500 · p01 = 410
p02 = P (X = 1) ≈ 0.2e−0.2 = 0, 16 500 · p02 = 80
p03 = P (X > 1) ≈ 1 − 0.2e−0.2 − e−0.2 = 0, 02 500 · p03 = 10
Wartość statystyki testowej
2 (Ni − np0i )2
3
χ = = 21, 73
X
i=1 np0i
Wartość krytyczna χ2(0, 05, 3 − 1 − 1) = 3, 84. Hipotezę H0 od-
rzucamy
Agata Boratyńska Wykłady ze statystyki matematycznej 113
s
pi• = P (X = i) = pi,j
X
j=1
r
p•j = P (Y = j) = pi,j .
X
i=1
n
Ni,j = 1(Xl = i ∧ Yl = j)
X
l=1
s r
Ni• = Ni,j and N•j = Ni,j .
X X
j=1 i=1
STATYSTYKA BAYESOWSKA
MODEL BAYESOWSKI
• X1, X2, . . . , Xn - dane np. próba losowa z rozkładu Pθ o gęstości
fθ (x) = f (x|θ)
• {Pθ : θ ∈ Θ} - rodzina rozkładów, θ - nieznany parametr
• dodatkowa wiedza- rozkład a priori Π na przestrzeni Θ, zatem
θ ∼ Π i oznaczmy przez π(θ) - gęstość rozkładu Π względem
pewnej miary na Θ
Wtedy f (x1, x2, . . . , xn|θ) jest gęstością rozkładu warunkowego i
f (x1, x2, . . . , xn, θ) = f (x1, x2, . . . , xn|θ)π(θ)
jest gęstością rozkładu łącznego obserwowanej zmiennej
X = (X1, X2, . . . , Xn) i zmiennej θ.
Rozkład Πx zadany przez gęstość (względem miary na Θ)
f (x1, x2, . . . , xn|θ)π(θ)
π(θ|x) = ,
m(x)
gdzie Z
m(x) = Θ
f (x1, x2, . . . , xn|θ)π(θ)dθ
oznacza gęstość rozkładu brzegowego zmiennej X w punkcie
x = (x1, x2, . . . , xn), nazywamy rozkładem a posteriori.
Rozkład a priori obrazuje naszą wiedzę o nieznanym parametrze
przed wykonaniem badania statystycznego
Agata Boratyńska Wykłady ze statystyki matematycznej 117
ESTYMACJA
1. Bayesowski estymator największej wiarogodności pa-
rametru θ - moda rozkładu a posteriori parametru θ
BEN W (θ)(x) = arg sup π(θ|x)
PRZYKŁAD:
X1, X2, . . . , Xn - i.i.d. N (θ, σ 2), θ - nieznane, σ znane
θ ∼ N (µ, τ 2) - rozkład a priori
Rozkład a posteriori N (µ∗, τ∗2) gdzie
µ
n
x̄ + n 1 −1
2 τ2
µ∗ = σ
n 1 i τ∗2 = 2+ 2
σ2
+ τ2 σ τ