Professional Documents
Culture Documents
I PROCESY TRANSPORTOWE
-LABORATORIUM
ĆWICZENIE 7-8 -9
Katowice 2007
1
TESTY ZGODNOŚCI CHI - KWADRAT PEARSONA I LAMBDA KOŁMOGOROWA
1. CEL ĆWICZENIA
2
2. TEORETYCZNE OMÓWIENIE ĆWICZENIA
2.1. Wprowadzenie
Chcąc ilościowo ocenić szansę zaistnienia zdarzenia polegającego na tym, że do hali dworca
autobusowego wejdzie dokładnie 6 pasażerów w ciągu dowolnie wybranego 15-minutowego okresu
obserwacji, zakłada się tym samym możliwość jego niezaistnienia. O zdarzeniach, które w określonych
warunkach, pod wpływem wielkiej liczby prawie niezależnych czynników, mogą zajść lub nie, mówi
się, że są to zdarzenia losowe mające określone prawdopodobieństwo zajścia (lub niezajścia). Jeżeli
takie obserwacje zostaną przeprowadzone przez 30 15-minutowych okresów, przy czym na ogólną
liczbę obserwacji 3 razy zdarzy się, że do hali dworca wejdzie dokładnie 6 pasażerów, to częstość tego
zdarzenia (wi = ni : n) wynosi: 3 : 30 = 0,1. Liczba 3 jest tu frekwencją, liczba 0,1 częstością
empiryczną, z jaką występuje dane zdarzenie elementarne. Teoretycznym odpowiednikiem częstości
empirycznej (wi) jest prawdopodobieństwo zdarzenia (pi) w przypadku skończonej liczebności zbioru
zdarzeń elementarnych. Prawdopodobieństwo zdarzenia losowego z przykładu jest granicą, do jakiej
dąży częstość empiryczna (0,1), przy założeniu że liczebność jednostek obserwacji wzrasta
nieograniczenie1.
Liczba pasażerów wchodzących do budynku dworca jest wielkością, której wartości nie można
ściśle przewidzieć i którą przyporządkowuje się każdemu zdarzeniu losowemu. Wielkość liczbowa
przyporządkowana poszczególnym zdarzeniom losowym nazywa się zmienną losową. Zmienna
losowa, jaką jest liczba pasażerów zgłaszających się w określonym przedziale czasu, moze przyjmowac
dowolne wartości całkowite w granicach od zera do nieskończoności. Bardziej realne będzie założenie,
1
Zobacz aksjomatyczną definicję A.N. Kołmogorowa, np. w [6], [7], [11], [13], [17].
3
że wartości tej zmiennej są ograniczone, jednak zarówno w jednym, jak i w drugim przypadku ma się
tu do czynienia ze zmienną losową skokową, czyli dyskretną.
Interpretując statystycznie pojęcie zmiennej losowej, można powiedzieć, że jest ona
odpowiednikiem poznanego wcześniej pojęcia cechy statystycznej. Warianty cechy statystycznej
występują z określoną częstością empiryczną, natomiast realizacjom (wartościom) zmiennej losowej
odpowiadają określone prawdopodobieństwa. Mówiąc inaczej, zmienne losowe są wynikami
doświadczeń, przy czym konkretna wartość liczbowa, jaką przyjmuje zmienna losowa, zależy od
przypadku.
A. Luszniewicz [9], str. 17 pisze: „Badając zjawiska masowe (...) obserwujemy w
rzeczywistości zdarzenia o charakterze losowym, przy czym rozmiary oraz zmienność tych zdarzeń są
uwarunkowane działaniem zarówno przyczyn głównych (wywołujących zmienność systematyczną),
jak i przyczyn ubocznych (wywołujących zmienność przypadkową)”. W innym zaś miejscu: „Im
większa liczebność losowej próby jednostek obserwacji, tym większa szansa (prawdopodobieństwo),
że wyraźnie ujawni się efekt działania przyczyn głównych, wywołujących zmienność systematyczną”.
Cytowane zdania prowadzą do znanych zapewne Czytelnikowi twierdzeń, zwanych prawami wielkich
liczb, a opisanych między innymi w [4], [13], [16].
4
Zmienna losowa X jest typu skokowego, jeżeli istnieje skończony albo przeliczalny zbiór
Wx= {x1,....,xk,...} jej wartości x1,..., xk,.. taki, że
P( X s = xi ) = pi > 0, i ∈ N, (1)
∑p
i =1
i = 1, (2)
gdzie górna granica sumowania wynosi n albo ∞ zależnie od tego, czy zbiór Wx jest skończony, czy
przeliczalny. Równość (2) nazywa się warunkiem unormowania, liczby x1‚ x2,.., xk... - punktami
skokowymi (atomami) zmiennej losowej X, prawdopodobieństwa p1,p2,....,pk... skokami.
Zmienna losowa jest zdefiniowana nie tylko przez zbiór możliwych realizacji, ale również przez
odpowiednią funkcję rozkładu częstości (prawdopodobieństwa). Rozkładem zmiennej losowej
skokowej jest zbiór wszystkich par (xi, pi), dla i = 1‚ ... k lub i = 1, 2, ..., gdzie xi jest realizacją
punktową zmiennej losowej XS, a pi jest prawdopodobieństwem, z jakim XS przybiera wartość liczbową
xi (tabl. 1).
Tablica 1
Rozkład zmiennej losowej skokowej dla
skończonej liczby realizacji tej zmiennej
XS = xi xi x2 ... xk Ogółem
P(XS = xi) pi p2 ... pk 1
Źródło: [9]
5
Rys. 2. Histogram funkcji rozkładu prawdopodobieństwa
Źródło: [7].
W celu zobrazowania pojęcia rozkładu zmiennej losowej skokowej posłużono się następującym
przykładem [9]:
Prawdopodobieństwa liczby wypadków drogowych XS, jakim ulegają prywatne samochody
osobowe, oszacowano w pewnym mieście na podstawie danych z ostatnich dziesięciu lat, co pokazano
w tablicy 2.
Tablica 2
Przykładowy rozkład prawdopodobieństwa
realizacji zmiennej losowej skokowej
P( X S = 0) = 0,3742
P( X = 1) = 0,2851
S
P( X S = 2) = 0,1969
= P( X S = xi )
P( X S = 3) = 0,0892
P( X = 4) = 0,0502
S
P( X S = 5) = 0,0044
Źródło: [9].
6
2. 2. 2. Zmienne losowe ciągłe
Proces wejścia podróżnych do hali dworca autobusowego można również opisać badając
długości odstępów czasowych między kolejnymi zgłoszeniami podróżnych. Zmienną losową jest tu
odstęp czasowy, który może przyjmować dowolne wartości liczbowe z ograniczonego lub
nieograniczonego przedziału liczb nieujemnych. Jeżeli budynek dworca posiada jedno wejście,
przedział ten ograniczają realizacje xmin, ...,xmax, lub xmin, ..., +∞; w przypadku kilku wejść -
przedział 0, ..., xmax lub 0, ..., +∞. Bardzo duże wartości odstępów, jeżeli są przyjmowane jako
możliwe, są mało prawdopodobne.
Należy pamiętać o tym, że w przypadku zmiennej ciągłej stwierdzenie, iż prawdopodobieństwo
jakiegoś zdarzenia równe jest 0, nie oznacza, że zdarzenie to jest niemożliwe. Podobnie z faktu, że
jakieś zdarzenie ma prawdopodobieństwo równe 1, nie wynika, by było to zdarzenie pewne 2
Formą przedstawienia rozkładów zmiennych losowych ciągłych jest określenie ich funkcji
gęstości, czyli „natężenia” prawdopodobieństwa 3.
Dla zilustrowania pojęcia zmiennej losowej ciągłej i funkcji gęstości posłużono się przykładem
rozkładu empirycznego ilości zakupionego paliwa, który przedstawiono w tablicy 3.
Tablica 3
Etylina pobrana na stacji paliw
Częstości względne
Wyniki pomiarów Liczba pomiarów
wi = ni : n
0 – 10 10 0,10
10 – 20 32 0,32
20 – 31 40 0,40
30 – 40 12 0,12
40 – 50 4 0,04
50 – 60 2 0,02
Ogółem 100 1,00
2
Dowód można znaleźć w książce W. Sadowskiego [16], str. 79, podobnie jak częstościową interpretację funkcji gęstości
zmiennej losowej ciągłej.
3
W przypadku zmiennej losowej dyskretnej można mówić o rozkładzie „masy prawdopodobieństwa”. W przeciwieństwie
do tego, w przypadku ciągłego rozkładu zmiennej losowej „masa prawdopodobieństwa” rozłożona jest z określoną
gęstością ciągłym pasmem wzdłuż całej osi x lub wzdłuż pewnych jej fragmentów.
7
Histogram przedstawiony na rys. 3 jest sporządzony w ten sposób, że na osi odciętych
zaznaczono odcinki o długości h = 10, natomiast na osi rzędnych odmierzono częstości względne
przyjmując taką skalę, aby pole każdego prostokąta było równe częstości względnej (ni : n), w
odpowiednim przedziale. Jeżeli na osi rzędnych zostaną odmierzone częstości względne, to pole
n 1
prostokąta miałoby powierzchnię h ⋅ i . Przyjmując natomiast za jednostkę , otrzyma się częstość
n h
n
względną i , a tym samym pole odpowiadającego jej prostokąta wyniesie:
n⋅h
ni n
h⋅ = i
n⋅h n
Poprzez zwiększenie liczby obserwacji do 500 otrzymano wyniki pokazane w tablicy 4, w której
ze względu na większą liczbę pomiarów można było utworzyć więcej przedziałów.
1
Jak poprzednio na osi rzędnych za jednostkę przyjęto , z tym że długość podziału h równa się 5.
h
8
Tablica 4
Etylina pobrana na stacji paliw
9
Histogramy z rysunków 3 i 4 zostały skonstruowane w ten sposób, że pole całkowite takiego
histogramu równa się jedności. Suma pól poszczególnych prostokątów może być interpretowana jako
częstość względna zdarzenia, które jest sumą zdarzeń odpowiadających rozpatrywanym prostokątom.
Można sobie wyobrazić dalsze zwiększenie liczby obserwacji i przedstawienie wyników na
histogramie uwzględniąjąc większą liczbę przedziałów. Otrzymane w wyniku ustawicznego
zwiększania liczby obserwacji i ilości przedziałów prostokąty staną się tak wąskie, że schodkowa linia
górnych ich podstaw może być zastąpiona odpowiednią krzywą ciągłą. Krzywa ta, będąca obrazem
funkcji f(x), może być uważana za funkcję gęstości prawdopodobieństwa zmiennej losowej ciągłej,
jeżeli spełnia następujące warunki:
f ( x) ≥ 0 (3)
+∞
∫ f ( x)dx = 1
−∞
(4)
oraz funkcja jest ciągła z wyjątkiem co najwyżej skończonej ilości punktów nieciągłości. Ponadto
funkcja gęstości ma następującą interpretację:
x1i
10
Tablica 5
Schemat rozkładu zmiennej losowej ciągłej
Źródło: [9].
Tablica 6
Przykładowy rozkład prawdopodobieństw realizacji
zmiennej losowej ciągłej
11
2. 2. 3. Dystrybuanta zmiennej losowej
Dystrybuanta określona wzorem (6) jest prawdopodobieństwem tego, że zmienna losowa nie
przekroczy poziomu realizacji równego x. Funkcja F(x) przyjmuje wartości z przedziału od 0 do 1, co
można ogólnie:
oraz
Prawdopodobieństwo P(a ≤ X < b) przyjęcia przez zmienną losową X wartości z przedziału <a,
b) jest równe przyrostowi dystrybuanty F między punktami a, b:
Znając funkcję gęstości f(x), można dla każdego przedziału nierzeczywistych wartości (x0i, x1i)
określić prawdopodobieństwo, że zmienna losowa ciągła przyjmie dowolną wartość z przedziału, a
mianowicie:
x1i
Tablica 7
4
Własności dystrybuanty zmiennej losowej opisano w [7] str. 49 oraz [13] str. 43
12
Dystrybuanty liczby wypadków samochodów osobowych
F ( X s = 0) = 0
F ( X = 1) = 0,3742
s
F ( X s = 2) = 0,6593
F ( X s = x) = F ( X s = 3) = 0,8562 = P( X s < x)
F ( X = 4) = 0,9454
s
F ( X s = 5) = 0,9956
F ( X = 6) = 1
s
Źródło:Tablica 2.
Tablica 8
Dystrybuanty ilości kupionego paliwa
na stacji benzynowej
F ( X c = 10) = 0,0168
F ( X = 20) = 0,2513
c
F ( X c = 30) = 0,7196
= P( X c < x)
F ( X c = 40) = 0,8377
F ( X = 50) = 0,9313
c
F ( X c = +∞) = 1
Źródło:Tablica 6.
13
P( X ≥ x) = A( x ) = 1 − F ( x) (12)
14
Na rysunkach 5 i 6 pokazano dystrybuanty rozkładu zmiennej losowej skokowej i ciągłej.
15
W przypadku prób losowych o dużej liczebności dystrybuanty teoretyczne i empiryczne mało
różnią się od siebie5 :
W celu precyzyjnego określenia zmiennej losowej przyporządkowuje się jej pewne liczby
charakteryzujące ją pod względem wartości najbardziej prawdopodobnej rozrzutu jej wartości, kształtu
histogramu lub krzywej gęstości. Liczby te nazywane są charakterystykami liczbowymi zmiennej
losowej lub jej rozkładem prawdopodobieństwa. Charakterystyki te są parametrami danego rozkładu,
przy czym ich definicje ogólne zależą od rodzaju zmiennej losowej. Najważniejszymi z nich są:
wartość oczekiwana zmiennej losowej, wariancja i odchylenie standardowe.
Wartość oczekiwana zmiennej losowej stanowi jedną z podstawowych miar położenia. Jest to
wartość, której należy oczekiwać jako średniej z wyników wielu badań lub obserwacji. Jeśli wartości
prawdopodobieństw można uważać za masy, to średnią wartość zmiennej losowej otrzymuje się jako
odciętą środka tych mas.
Analogicznie do definicji wariancji z próby losowej określana jest wariancja zmiennej losowej
skokowej w jej rozkładzie teoretycznym.
O ile wartość oczekiwaną można przedstawić jako odciętą „mas” prawdopodobieństw p(x), to
wariancję można przyrównać do momentów bezwładności tych mas względem osi pokrywającej się z
rzędną ich środka ciężkości. Wariancja nie jest interpretowana w sensie merytorycznym, służy jednak
do wyznaczania odchylenia standardowego i konstrukcji metod statystycznych.
5
Twierdzenie W. J. Gliwienki [3], [9].
16
2.3. Rozkłady i funkcje gęstości prawdopodobieństwa zmiennych losowych, które często
opisują zjawiska transportowe
Mówi się, że zmienna losowa K (lub XS) typu skokowego ma rozkład dwumianowy (rozkład
Bernoulliego) z parametrami (n,p), n ∈ N, 0 < p <1, jeżeli jej funkcja prawdopodobieństwa pk=P(k, n,
p) = P (K = k) jest postaci:
n
P(k , n, p) = p k q n−k , k = 0,1,..., n, (28)
k
gdzie: q = 1- p
Przyjmuje ona n+1 wartości: 0, 1,..., n, wśród których najbardziej prawdopodobne są:
- k1 = (n + 1) p − 1, k 2 = (n + 1) p, (29)
K = X 1 + ... + X n (31)
Rozkład dwumianowy powstaje w wyniku schematu powtarzających się niezależnych prób, mogących
mieć jeden z dwu możliwych wyników, każdy o stałym prawdopodobieństwie ich wydarzenia.
W miarę zwiększania n rozkład ten zbliża się do rozkładu normalnego. Zależność pomiędzy
rozkładem dwumianowym a rozkładem Poissona szeroko omawia J. Węgierski w [20]. Rozkład ten ma
ważne zastosowanie w badaniu, które pochodzą ze zbiorowości zawierających dwie kategorie
elementów. Jeżeli na przykład w ogólnej liczbie N części Np części jest uszkodzonych i N(1-p) części
dobrych, to zastosowanie rozkładu dwumianowego umożliwia ustalenie rozkładu części uszkodzonych
w próbce zawierających serię n części pobranych losowo.
17
Dla określenia prawdopodobieństwa pojawienia się dokładnie k zgłoszeń samochodów na
parkingu w przedziale czasu t przy ogólnej liczbie n zgłoszeń w okresie T (np. 1 doba) wzór (28)
przyjmuje następującą postać:
k n −k
n λt λt
pk (t ) = 1 − dla k = 0, 1, ..., n, (33)
k n n
n
gdzie: λ= jest znanym w inżynierii ruchu parametrem - intensywnością strumienia zgłoszeń.
T
n k n−k λk −λ
p q ≈ e , λ = np (34)
k k!
E ( K ) = λ; D 2 ( K ) = λ (35)
a k −a
6
W literaturze, np. [2], [10], rozkład Poisona przedstawia się wzorem P (k ) = e , gdzie a jest stałą dodatnią.
k!
18
2. 3. 3. Rozkład wykładniczy (Exponential)
W rozkładzie Poissona odstępy czasu między kolejnymi zdarzeniami mają rozkład wykładniczy.
Zmienna losowa Xc ma rozkład wykładniczy o parametrze λ > 0, jeżeli jej gęstość f(x)7 jest
postaci
1 x
exp − dla x ≥ 0
f ( x) = λ λ (36)
0 dla pozostalych x
E( X ) = λ, D 2 ( X ) = λ2 (37)
x
1 − exp − dla x ≥ 0
F ( x) = λ (38)
0 dla x < 0
N (t ) = e − λt
dla t > 0 (39)
N (t ) = 1 − F (t ),
gdzie F(t) jest dystrybuantą w punkcie t zmiennej losowej T (czas bezawaryjnej pracy) o rozkładzie
wykładniczym. Własność zmiennej T wyrażona wzorem (39) nazywana jest wykładniczym prawem
niezawodności. Własność rozkładu wykładniczego zwana „brakiem pamięci” oznacza, że dalszy czas
pracy urządzenia nie zależy od „przeszłości” i ma taki sam rozkład jak całkowity czas pracy elementu.
Inną własność rozkładu wykładniczego można sformułować następująco: suma n niezależnych
zmiennych losowych o rozkładzie wykładniczym ma rozkład Erlanga.
1 1
7
Parametr λ z poniższych wzorów jest przedstawiany w literaturze często: λ = lub w zależności od tego, jakie
a λ
procesy charakteryzuje (por. [3], [20], [21] oraz wzory (41), (42), (43), (44).
19
Rozkład wykładniczy nie wymaga opracowania specjalnych tablic, wystarczą tu tablice funkcji
wykładniczej e − x .
W procesach transportowych zdarza się, że odstępy między zdarzeniami maja pewną dolną
granicę, której nie można przekroczyć. Na przykład odstęp między zakończeniem obsługi jednego
zgłoszenia a zakończeniem obsługi kolejnego zgłoszenia nie może przekroczyć pewnego minimum
(czas postoju samochodu na stanowisku naprawczym, czas sprzedaży biletu, zachowana bezpieczna
odległość pomiedzy pojazdami na jednym pasie ruchu). Jeżeli oznaczyć czas minimalny tmin, to
prawdopodobieństwo
Odstępy pomiędzy kolejnymi zdarzeniami mają tzw. przesunięty rozkład wykładniczy, którego
dystrybuanta (negatywna) i funkcja gęstości mają postać:
Wartość oczekiwana
−1
E( X ) = + tmin, (43)
λ
a wariancja
1
V ( x) = D 2 ( x) = (44)
λ2
20
2. 3. 4. Rozkład normalny (Normal)
1 − (x − µ)
f ( x) = exp dla - ∞ < x < ∞ (60)
σ 2π 2σ
2
gdzie µ, σ są odpowiednio parametrami przesunięcia i skali tego rozkładu. Rozkład ten oznaczony jest
symbolem N(µ, σ). Wykresem gęstości rozkładu normalnego jest krzywa Gaussa.
Ponieważ jest to rozkład symetryczny względem prostej x = µ, zachodzą zależności
α1 = E ( X ) = X 0,5 = mo = µ (61)
oraz
D 2 ( X ) = µ2 = σ 2 (62)
x−m
u= (63)
σ
to zmienna losowa standaryzowana U ma również rozkład normalny z parametrami N(0;1).
Podstawiając (63) do funkcji gęstości (60) otrzymuje się postać funkcji gęstości zmiennej
standaryzowanej U
u2 1
f (u ) = exp − (64)
2 2π
przy czym wartości liczbowe funkcji f(u), podobnie jak i wartości dystrybuanty tego rozkładu są
podane w specjalnych tablicach statystycznych.
8
Parametr µ jest często oznaczony symbolem m.
9
Zmienna standaryzowana nazywana jest również zmienną unormowaną lub znormalizowaną.
21
Wśród własności funkcji gęstości rozkładu normalnego zmiennej standaryzowanej najbardziej
charakterystyczne są 10:
- właściwość symetryczności
- właściwość określoności
U → N (0;1) (66)
- właściwość jednomodalności
- właściwość zbieżności
- właściwość zmienności, wiążąca się z tzw. regułą trzech odchyleń standardowych (trzech sigm) w
rozkładzie normalnym
u1 = −1 oraz u2 = +1
(69)
gdzie (u1, u2) punkty przegięcia, odpowiadają końcówkom przedziału klasowego: x1 = m - σ oraz
x2= m + σ,
Regułę trzech sigm wyjaśnić można najprościej następująco: realizacje zmiennej losowej
ciągłej o rozkładzie normalnym nie będą się różniły od wartości oczekiwanej E(Xc) = m więcej niż o
trzy odchylenia standardowe. Realizacje bardzo wysokie lub bardzo niskie mogą występować z
prawdopodobieństwem P = 0,0027. Znaczenie tej reguły przy podejmowaniu decyzji w warunkach
niepewności, tj. w metodach wnioskowania statystycznego, jest bezsporne.
Rozkład normalny jest w statystyce uznawany za rozkład podstawowy, przede wszystkim z
dwóch powodów:
- jest rozkładem granicznym, do postaci którego, przy założeniu nieograniczonego wzrostu liczby
jednostek obserwacji, zmierzają wszystkie inne znane rozkłady teoretyczne zmiennych losowych
skokowych i ciągłych,
- w trakcie wnioskowania statystycznego, tzn. w procesie przenoszenia wyników obserwacji z prób
losowych na zbiorowości generalne, popełniane są błędy o charakterze losowym, tzw. „błędy
pokrycia”; błędy losowe mają rozkład normalny o średniej zero i o odchyleniu standardowym
10
A. Luszniewicz [9].
22
zwanym średnim błędem oceny 11. Poniżej podano trzy podstawowe poziomy prawdopodobieństw
realizacji zmiennej losowej standaryzowanej
P( −2,58 < U < +2,58) ≈ 0,99
P( −1,96 < U < +1,96) ≈ 0,95 (70)
P( −1,64 < U < +1,64) ≈ 0,90
Test χ2 pozwala na sprawdzenie hipotezy, że populacja ma określony typ rozkładu, tj. określoną
postać funkcyjną dystrybuanty. Może to być typ rozkładu skokowego lub ciągłego. Mając
wyspecyfikowany rozkład populacji generalnej przez hipotezę H: F(x) = Fo(x) można podzielić oś x-
ów na r rozłącznych przedziałów pokrywających całą oś. Otrzymano w ten sposób r przedziałów
[ai, ai+l], gdzie i = 1, 2,..., r. W szczególnym przypadku a1 = - ∞ oraz ar+1 = + ∞.
Przez pi oznaczono prawdopodobieństwo, że zmienna X przyjmie wartości z przedziału
[ai, ai+1], tzn.:
Liczba npi jest oczekiwaną liczbą obserwacji n-elementowej próbki, które przy prawdziwości
wysuniętej hipotezy powinny znaleźć się w przedziale [ai, ai+1].
Służąca za miarę zgodności rozkładu zaobserwowanego w próbce z rozkładem hipotetycznym
statystyka
( ni − npi ) 2
r
χ =∑
2
(75)
i =1 npi
ma, gdy n → ∞, rozkład chi-kwadrat ν = r - 1 stopniach swobody 12 lub ν = r - 1 - m stopniami
swobody, gdy z próby szacuje się m parametrów rozkładu metodą największej wiarygodności 13
Ze statystyką χ2 wiążą się następujące spostrzeżenia [13]:
- nie zależy ona od tego, jaka jest postać dystrybuanty cechy X elementów populacji,
- ważną rolę odgrywają prawdopodobieństwa pi ; ten sam układ prawdopodobieństw p1, p2,..., pr może
odpowiadać różnym rozkładom,
- za pomocą testu χ2 można weryfikować hipotezę dotyczącą układu prawdopodobieństw p1, p2,..., pr,
a nie postaci rozkładu cechy X populacji,
- za hipotezę zwaną Ho uważa się klasę wszystkich rozkładów, dla których
11
Klasycznych przykładów zastosowań rozkładu normalnego dostarcza toeria błędów obserwacji [4], [5], [6], [11], [13],
[17], [22].
12
Dowód Pearsona.
13
Twierdzenie Fishera.
23
P{ X ∈ ( ai , ai +1 )} = pi (i = 1,2,..., r ) (76)
- hipotezą alternatywną jest klasa tych wszystkich rozkładów, dla których przynajmniej dla jednego
przedziału zachodzi
P{ X ∈ (ai , ai +1 )} ≠ pi (77)
- przy danej próbie statystyka χ2 będzie mieć tę samą wartość dla wielu rozkładów,
- przyjęcie hipotezy zerowej jest równoznaczne stwierdzeniu, że każdy rozkład należący do niej może
służyć do opisu badanego zjawiska.
Ponieważ wystarczy wybrać jeden z rozkładów należących do hipotezy zerowej, można dla
uproszczenia przyjąć, że cecha X elementów populacji ma rozkład o dystrybuancie F(x).
Najprostszą metodą prowadzącą do uzyskania wstępnych informacji o postaci rozkładu badanej
cechy jest wykreślenie histogramu rozkładu zaobserwowanego w próbie, co pozwoli na zorientowanie
się, jakie ewentualne rozkłady mogą być brane pod uwagę. Następny (poczyniony już krok) stanowi
przyjęcie statystyki służącej za test do weryfikacji hipotezy zerowej.
Trzecim krokiem jest przyjęcie poziomu istotności testu α oraz określenie obszaru krytycznego
budowanego w tym teście prawostronnie (rys. 7). Z tablicy rozkładu χ2 dla r-1 lub r-m-1 stopni
swobody oraz dla ustalonego poziomu istotności α odczytuje się taką samą wartość krytyczną χα2, aby
zachodziło
P ( χ 2 ≥ χα ) = α
2
(78)
Obliczoną według wzoru (75) wartość χ2 porównuje się z wartością krytyczną χα2 i jeśli
zachodzi nierówność χ2 ≥ χα2 , to hipotezę Ho należy odrzucić.
24
Rys.7. Wartość graniczna χ2 przy ν stopniach swobody i poziomie istotności α
Źródło: Opracowanie własne
25
W przeciwnym przypadku tzn. gdy χ2 < χα2 , nie ma podstaw do odrzucania hipotezy Ho, że
rozkład populacji jest typu Ω. Nie oznacza to jednak, że można ją przyjąć, lecz test χ2 jest tak
zbudowany, że im bliższa zeru jest wartość χ2, tym hipoteza Ho jest bardziej wiarygodna.
Odrzucając hipotezę Ho ponosi się ryzyko podjęcia błędnej decyzji (błąd pierwszego rodzaju),
którego prawdopodobieństwo nosi nazwę poziomu istotności. Nie uwzględnia się natomiast
konsekwencji popełnienia błędu drugiego (por. tablica 9).
Tablica 9
Błędy pierwszego i drugiego rodzaju
przy weryfikacji hipotez zerowych
prawdopodobieństwo pierwszego rodzaju przyjmowane jest zwykle z przedziału <0,001; 0,01>, przy
czym w zagadnieniach transportowych najczęściej przyjmuje się α = 0,01 lub α = 0,05.
Odrzucenie lub przyjęcie hipotezy nie oznacza więc całkowitego przekonania o
nieprawidłowości czy prawdziwości hipotezy zerowej.
n Dn = n sup Fn ( x) − F ( x) , (80)
−∞< x<+∞
14
(1-β) nazywane jest mocą testu weryfikującego hipotezę zerową
15
Twierdzenie 5.5, str. 161 [13].
26
Zbiorem krytycznym jest zbiór
P( n Dn ≥ λ (1 − α ) = 1 − P ( n Dn < (1 − α )) = α , (82)
λ (1 − α ) jest wartością krytyczną parametru λ, natomiast α jest tak dobranym poziomem istotności, że
zdarzenia, których prawdopodobieństwa realizacji nie przekraczają α, mogą być praktycznie
niemożliwe.
Hipotezę Ho, że cecha X ma dystrybuantę F(x), należy odrzucić, gdy
n Dn ≥ λ (1 − α )
Dla przyjętego α znane jest Q(λ), a z tablicy rozkładu granicznego Dn odczytuje się wartość λ.
Tablica 10
Kwantyle granicznego (n→∞)
rozkładu Kołmogorowa
P( n Dn ≥ λ (1 − α )) = α
27
Gdy cecha X typu ciągłego ma dystrybuantę Fo(x) całkowicie określoną jako ststystykę testową,
przyjął Kołmogorow
Dn = sup Fo ( x) − Fn ( x) (84)
x
P( Dn ≥ d n (1 − α ) ) = α (85)
x1 ≤ x2 ≤ x3 ≤ ... ≤ xn ,
i
− Fo ( xi ) dla i = 1, ..., n
n
i największą z ich wartości bezwzględnych oznacza się przez dn+
+ i
d n = max − Fo ( xi ) ,
1≤i ≤n n
(86a)
i −1
Fo ( xi ) −
n
i największą z ich wartości bezwzględnych oznacza się przez dn-
− i −1
d n = max Fo ( xi ) − ,
1≤i ≤n n
(86b)
28
+ −
d n = max(d n , d n ), (86c)
e) przy danym poziomie istotności α oraz n odczytuje się z tablic statystycznych taką krytyczną
wartość dn (1 - α) ststystyki Kołmogorowa Dn, która spełnia równość
P( Dn ≥ d n (1 − α ) ) = α
Tablica 11
Liczba klas zalecana przy stosowaniu testu χ2
Źródło: [8].
- przy ustalonej liczebności próbki n rozkład statystyki χ2 jest zależny – przy ustalonym k – od
16
Czytelnik zechce odróżnić test λ Kołmogorowa od testu Kołmogorowa-Smirnowa, który służy do weryfikacji hipotezy,
że dwie próby pochodzą z populacji o jednakowej dystrybuancie lub że pochodzą z tej samej populacji.
17
Opracowano n apodstawie [8].
29
doboru granic w sposób niezbadany dotąd dokładnie, dlatego liczebność próbki n ≥ 5;
- hipotetycznie liczebności w poszczególnych klasach npi ≥ 10 oraz np1, npk ≥ 5;
- w rozkładach jednomodalnych w klasach skrajnych, gdy liczba stopni swobody wynosi nie
mniej niż 6, dopuszcza się, aby liczebności hipotetyczne nawet w dwóch klasach były mniejsze
od 5, nie mniej jednak od 1, przy poziomach istotności α = 0, 05 i α = 0, 01;
- często weryfikuje się hipotezę dotyczącą zgodności wyników doświadczalnych z rozkładem N
(m, σ) o nieznanych obu parametrach. Dla określenia granic klas, np. k = 12 można przyjąć
następujący podział: (−∞, x − 2,5s > , ( x − 2,5s, x − 2 s > , ( x − 2 s, x − 1,5s > ,
( x − 1,5s, x − s > , ( x − s, x − 0,5s > , 4 następne kolejne klasy o długości 0,5s, a ostatnią
jest ( x + 2,5s, + ∞) ;
- gdy liczebności klas nie spełniają podanych warunków, należy sąsiednie klasy połączyć;
zmieniają się wtedy granice klas x , s, ni, npi oraz χ2obl, co może doprowadzić do innej końcowej
decyzji.
1
pi = , i = 1, ...,k
k
(89)
- granice klas przy takim sposobie są wyznaczone jednoznacznie: prawą granicę g1 pierwszej
klasy poszukuje się jako wartość argumentu, dla której wartość F(g1) dystrybuanty jest równa
1/k. Kolejne prawe granice odczytuje się z tablic dystrybuanty (albo kwantyli) spełniające
równości
1
F ( gi ) = , i = 1, ..., k – 1
k
(90)
30
Tablica 12
Liczba klas dla liczebności próbki n ≥ 200
- gdy liczebność próbki wzrasta ≈ 5,6 razy, wtedy liczbę klas podwaja się; statystyka χ2
przyjmuje postać
k k 2
χ = ∑ ni − n,
2
n 1
(91)
31
- bardzo mała wartość χ2 może być wynikiem tego, że duża liczba parametrów ocenianych z
materiału doświadczalnego w sztuczny sposób powoduje przesadnie dobrą zgodność danych
pomiarowych z teoretycznymi.
nsk
Fn ( xk ) =
n
32
D = sup Fn ( x) = F ( x) ,
x
33
- obliczenie statystyki λ = D n , która przy prawdziwości hipotezy Ho ma rozkład λ Kołmogorowa,
- odczytanie z tablicy 10 granicznego rozkładu λ wartości krytycznej λ (1 - α), spełniającej warunek
P (λ ≥ λ (1 - α)) = α,
- porównanie λ obliczone z λ (1 - a) i sformułowanie wniosków.
Przedstawiony wyżej tryb postępowania przy stosowaniu obu testów zgodności uzupełniono
kilkoma przykładami.
Zbadano 300 losowo wybranych 5-sekundowych przedziałów czasowych pracy pewnej centrali
telefonicznej i otrzymano następujący empiryczny rozkład zgłoszeń (kolumna 1 i 2, tabl. 13).
Na poziomie istotności α = 0,05 należy zweryfikować hipotery, że rozkład liczby zgłoszeń w tej
centrali jest rozkładem Poissona.
Z treści zadania wynika, że nie jest sprecyzowany parametr λ rozkładu Poissona. Postawiono
hipotezę Ho : F(x) ∈ Ω, gdzie F(x) jest dystrybuantą rozkładu zgłoszeń, a Ω klasą wszystkich
rozkładów Poissona. Parametr λ oszacowano z próby za pomocą jego estymatora, którym jest średnia z
próby x . Otrzymano x = 1,7. Przyjmując za λ tę wartość, z tablicy rozkładu Poissona należy odczytać
prawdopodobieństwa pi dla każdej kolejnej liczby zgłoszeń i przeprowadzić tabelarycznie dalsze
obliczenia.
Tablica 13
Obliczenia dla przykładu 1
npi np1
1 2 3 4 5 6
0 50 0,183 54,9 24,01 0,44
1 100 0,311 93,3 44,89 0,48
2 80 0,264 79,2 0,64 0,01
3 40 0,150 45,0 25,00 0,55
4 20 0,064 19,2 0,64 0,03
5 10 0,028 8,4 2,56 0,30
Σ 300 1,000 300,0 X 1,81
Źródło: [5].
34
Z obliczeń otrzymano wartość statystyki χ2 = 1,81, a dla przyjętego poziomu istotności α = 0,05
i dla 6 - 1 - 1 = 4 stopnie swobody odczytane z tablicy rozkładu χ2 krytyczna wartość wynosi χα2 =
9,488. Ponieważ
więc nie ma podstaw do odrzucenia hipotezy, że rozkład liczby zgłoszeń w tej centrali jest rozkładem
Poissona.
3.2.2. Weryfikacja hipotezy o rozkładzie wykładniczym testem χ2 wszystkie przedziały klasowe mają
jednakową długość - przykład 2
Dokonano 280 pomiarów czasu sprzedaży biletów w kasie. Należy zweryfikować hipotezę, że
czas obstugi klienta ma rozkład wykładniczy, przyjmując poziom istotności α = 0,05. Ponieważ
parametr rozkładu λ nie jest znany, postawiono hipotezę Ho : F(x) ∈ Ω, gdzie F(x) jest dystrybuantą
rozkładu czasu sprzedaży biletów, a Ω klasą wszystkich rozkładów wykładniczych. parametr λ
1
oszacowano z próby, którym jest .
x
Dystrybuanta rozkładu wykładniczego, wyrażająca prawdopodobieństwo wystąpienia czasu
większego niż dowolnie przyjęty czas t wyrażona jest wzorem
A( t ) = e − λt
1 t
Ponieważ λ = , wykładnik potęgowy zastąpiono wyrażeniem a = , co ułatwi korzystanie z tablic
t t
−x
dystrybuanty (negatywnej) rozkładu wykładniczego e . Średni czas obsługi t = 30s.
35
Tablica 14
Obliczenia dla przykładu 2
Grani
Klasa ce t Liczebność Liczebność ni − npi
i
sekund dokła
a= e −a
ne −a
teoretyczna empiryczna ni − npi
t npi ni np1
dne
1 2 3 4 5 6 7 8 9 10
0 0 1,00 280
1 0–9 76 66 -10 1,3150
9,5 0,317 0,7283 204
2 10 – 19 58 56 -2 0,0690
19,5 0,650 0,5220 146
3 20 – 29 39 45 +6 0,9230
29,5 0,995 0,3698 107
4 30 – 39 32 35 +3 0,2815
39,5 1,317 0,2677 75
5 40 – 49 21 24 +3 0,4290
49,5 1,650 0,1920 54
6 50 – 59 16 15 -1 0,0626
59,5 1,995 0,1360 38
7 60 – 69 10 11 +1 0
69,5 2,317 0,0986 28
8 70 – 79 8 6 -2 0,5000
79,5 2,650 0,0706 20
9 80 – 89 6 7 +1 0,6650
89,5 2,995 0,0500 14
10 90 – 99 4 5 +1 0,2500
99,5 3,317 0,0363 10
11 100 – 109 3 2 -1 0,3333
109,5 3,650 0,0259 7
12 110 – 139 7 8 +1 0,1430
x x x x x x 280 280 0 5,0714
Żródło: [21].
36
3.2.3. Weryfikacja hipotezy o rozkładzie normalnym za pomocą testu χ2 – przykład 3
Losowa próba n = 151 niezależnych pomiarów chwilowej prędkości pojazdów dała rozkład
(zob. lolumny 1 i 2 w tabl. 15).
−1
Średnia wartość x = x t = 70,3km ⋅ h −1 , a odchylenie standardowe svt = 10,6km ⋅ h .
Tablica 15
Obliczenia do przykładu 3
Wartość
Prawa Wartość dystrybu
Prawdopodobie Liczebność
granica Liczebność standaryzo anty (ni − npi ) 2
ństwo trafienia teoretyczna
przedziału empiryczna wana rozkładu ni − npi
klasowego ni x − x normaln do i-tej klasy klasy np1
ui = i pi npi
xi s ego
F(ui)
1 2 3 4 5 6 7 8
55 9 -1,44 0,075 0,075 11,3 -2,3 0,47
60 16 -0,97 0,166 0,091 13,7 +2,3 0,39
65 24 -0,50 0,308 0,142 21,4 +2,6 0,32
70 25 -0,03 0,488 0,180 27,2 -2,2 0,18
75 27 +0,44 0,670 0,182 27,5 -0,5 0,01
80 25 +0,92 0,821 0,151 22,8 +2,2 0,21
85 16 +1,39 0,918 0,097 14,7 +1,3 0,11
110 9 - - 0,082 12,4 -3,4 0,93
Ogółem 151 X X 1,000 151 0 2,62
Źródło: [15].
Na składowisko przywożono piasek o określonej wadze. Losowa próba n = 200 dni dała
następujący rozkład masy piaski [t].
Na poziomie istotności α = 0,05 zweryfikować za pomocą testu Kołmogorowa hipotezę, że
rozkład masy piasku jest normalny.
Weryfikujemy hipotezę Ho : F(x) = Fo(x), gdzie Fo(x) jest dydtrybuantą rozkładu N(m, σ). Z próby
obliczona oszacowanie obu parametrów rozkładu normalnego, otrzymując x = 32,9 oraz s = 1,4. Ze
37
względu na dużą próbę można te wartości za m i σ. W celu uzyskania wartości empirycznej i
teoretycznej dystrybuanty dla końców przedziałów, standaryzując je przedtem, dalsze obliczenia
przeprowadzono tabelarycznie
Tablica 16
Rozkład badanej cechy X
Źródło: [5].
Tablica 17
Obliczenia dla przykładu 4
Prawne
geanice Fn ( x) − F ( x)
ui F(ui) = F(x) ni nsk Fn(x)
przedziału
xi
30,5 -1,71 0,044 12 12 0,060 0,016
31,5 -1,00 0,159 23 35 0,175 0,016
32,5 -0,29 0,384 35 70 0,350 0,036
33,5 +0,43 0,666 62 132 0,660 0,006
34,5 1,14 0,873 44 176 0,880 0,007
35,5 1,86 0,969 18 194 0,970 0,001
36,5 2,57 0,995 6 200 1,000 0,005
Źródło : [5].
Ponieważ n = 200 = 14,14 , wartość empiryczna statystyki λ Kołmogorowa wynosi zatem dla
D = 0,036
λ= 0,036 . 14,14 = 0,509
38
3.2.4. Test Kołmogorowa – przykład 5 [8]
Wynikami pięcioelementowej próby są: 0.18, 0.56, 0.87, 1.37, 2.46. Na poziomie istotności α=
0,05 zweryfikować testem Kołmogorowa hipotezę, że próbka została pobrana z populacji, w której
dystrybuantą badanej cechy X jest F(x) = 1 – e-x dla x > 0, tzn. że rozkładem jest rozkład
wykładniczy o parametrze λ = 1.
Wartości dystrybuanty hipotetycznej F(xi) dla i = 1, 2, ..., 5 ustalono z tablicy wartości funkcji
wykładniczej. Dalsze obliczenia przedstawia poniższa tablica.
Tablica 22
Obliczenia dla przykładu 5
i i −1 i i −1
i xi Fo ( xi ) − Fo ( xi ) Fo ( xi ) −
n n n n
1 0,18 0,2 1,1647 0 0,0353 0,1647
2 0,56 0,4 0,4288 0,2 0,0288 0,2288
3 0,87 0,6 0,5810 0,4 0,0190 0,1810
4 1,37 0,8 0,7456 0,6 0,0544 0,1456
5 2,46 1,0 0,9145 0,8 0,0855 0,1145
Źródło: [8].
Z tablicy odczytano d5+ = 0,0855; d5- = 0,2288, skąd d5 = 0,2280. Wartość tę należy porównać z
odczytaną z tablicy kwantyli dn (i - α) statystyki Kolmogorowa d5(0,95) = 0.563. Ponienważ d5 <
d(0,95), można wnioskować, że próbka nie przeczy hipotezie przy α = 0,95.
4. SPRAWOZDANIE Z ĆWICZENIA
Powinno składać się z trzech części. Pierwsza zakończona wyborem hipotezy zerowej, powinna
stanowić rozległą analizę danych pod kątem ich przydatności dla celów ćwiczenia. Pomocne w tym
mogą być wskazówki zawarte w podrozdziale 2.4.3 oraz podana na końcu ćwiczenia literatura.
W części drugiej, po uzasadnieniu przyjęcia statystyki testowej i odpowiedniego poziomu
istotności, należy przeprowadzić testowanie wybranego rozkładu uwzględniając etapy
wyszczególnione w punkcie 3.1. Istotnym zagadnieniem w tej części sprawozdania jest dobór granic
przedziałów klasowych, łączenie sąsiednich klas, czego można uniknąć stosując podział, w którym
granice jednoznacznie określa stałe prawdopodobieństwo we wszystkich klasach. Należy zwrócić
uwagę na prawidłowe obliczenie stopni swobody, na sposób oceny nieznanych parametrów oraz
liczność próby, o której zwykle się mówi, że powinna być duża. W przypadku małych prób - jak
wiadomo - stosuje się wyłącznie test Kołmogorowa. Duża liczba wąskich przedziałów wpływa na
pracochłonność badania. Wszystkie z wymienionych czynników powinny być szczegółowo
analizowane w trakcie wydawania sądu o wynikach testowania.
39
Ocena wyników stanowi trzecią część sprawozdania, podczas opracowywania której trzeba
pamiętać na przykład o tym, że przy danej próbie statystyka χ2 może mieć tę samą wartość dla wielu
rozkładów. Mala wartość χ2 nie zawsze daje dobrą zgodność danych z teorią.
Interpretacja wyników powinna również zawierać dyskusję na temat parametrów rozkładu. Jak
wiadomo, ich wartości określają kształt rozkładu i przesunięcia, przybieranie charakteru innej
zmiennej. Interpretacja wyników może przekonać o znajomości przedmiotu, co ważne w sytuacji
kontynuowania ćwiczeń na laboratoryjnych stanowiskach komputerowych.
40