You are on page 1of 40

MATERIAŁY POMOCNICZE DO PRZEDMIOTU SYSTEMY

I PROCESY TRANSPORTOWE
-LABORATORIUM

ĆWICZENIE 7-8 -9

TESTY ZGODNOŚCI CHI - KWADRAT PEARSONA I LAMBDA


KOŁMOGOROWA

Katowice 2007

1
TESTY ZGODNOŚCI CHI - KWADRAT PEARSONA I LAMBDA KOŁMOGOROWA

1. CEL ĆWICZENIA

W poprzednich ćwiczeniach zapoznano się z metodami zbierania, przedstawiania i przetwarzania


danych oraz z obliczaniem podstawowych charakterystyk zbiorowości próbnej, nie formułując żadnych
wniosków poza tymi, które wynikały z samych danych. Jeżeli na przykład na podstawie pomiarów
średnich czasów przejazdu samochodów dokonanych dla dwóch tras łączących sąsiednie miejscowości
otrzymano wyniki t1 = 15 minut 30 sekund i t2 = 13 minut 20 sekund, to tego rodzaju postępowanie,
polegające na obliczeniu średniej arytmetycznej, należy do dziedziny statystyki opisowej. Stwierdzenie
jednak, że trasa druga jest korzystniejsza dla kierowców, mówi więcej niż sama informacja o średnich
czasach i stanowi uogólnienie, tj. wnioskowanie statystyczne. Ta, być może pochopna, konstatacja
rodzi liczne pytania dotyczące np.: sposobu przeprowadzania pomiarów pozwalających na uogólnienia,
stopnia porównywalności warunków techniczno-ruchowych obu tras, stanie bezpieczeństwa i wreszcie,
czy różnica średnich czasów przejazdu wynosząca 2 minuty 10 sekund to dużo czy mało?
Metody wnioskowania statystycznego, jak wiadomo, służą do liczbowego wyrażenia decyzji o
poziomach nieznanych parametrów lub o kształtach nieznanych rozkładów zbiorowości generalnych.
Wyrażenie sądu o populacji generalnej bez przeprowadzenia badania wyczerpującego nazywa się
hipotezą statystyczną.
Celem niniejszego ćwiczenia jest poznanie sposobów weryfikowania testami zgodności hipotez o
rozkładach zmiennych losowych na podstawie reguł przenoszenia rezultatów badania próby na
populacje. Testy zgodności odgrywają istotną rolę między innymi w pracach badawczych na potrzeby
modelowania procesów transportowych. Weryfikacja hipotez nieparametrycznych przeprowadzona
będzie sposobem rachunkowym za pomocą klasycznych testów zgodności χ2 (chi - kwadrat) i λ
(lambda), co powinno ułatwić późniejsze wykonywanie obliczeń z wykorzystaniem statystycznych
programów komputerowych. Ponieważ program komputerowy charakteryzuje się prostotą operowania
jego funkcjami, łatwością wprowadzania i transformowania danych oraz bogactwem możliwości
graficznych (wystarczy naciśnięcie klawisza), celem kolejnym ćwiczenia - podobnie jak ćwiczeń 1 i 2 -
jest przywołanie z pamięci Czytelnika tych wiadomości, które pozwolą na prowadzenie dialogu z
komputerem w sposób świadomy i analityczny.

2
2. TEORETYCZNE OMÓWIENIE ĆWICZENIA

2.1. Wprowadzenie

W teoretycznej części ćwiczenia przypomniane zostaną niektóre pojęcia, wzory i wykresy


poznane przez Czytelnika z takich przedmiotów, jak rachunek prawdopodobieństwa i statystyka mate-
matyczna. Zawarte tu informacje będą ze zrozumiałych względów uproszczone, skrótowe i nierzadko
dalekie od precyzji. Uzupełnieniem wiadomości z omawianego zakresu niech będzie literatura
wymieniona na końcu rozdziału. Przypomniano szczególnie te rozkłady teoretyczne zmiennych
losowych, z którymi ma się do czynienia w badaniach procesów transportowych, w inżynierii ruchu, w
teorii masowej obsługi z uwypukleniem interpretacji statystycznej niektórych pojęć, rezygnując
zarazem z troski o daleko idącą poprawność i ścisłość naukową. Treścią ćwiczenia jest bowiem tylko
ten dział wnioskowania statystycznego. który odnosi się do sprawdzania hipotez statystycznych o
zgodności rozkładów empirycznych z hipotetycznymi rozkładami teoretycznymi za pomocą dwóch
testów zgodności. W celu uniknięcia chaosu pojęciowo-interpretacyjnego posłużono się w zasadniczej
warstwie dosłownie przytaczanymi definicjami, sformułowaniami i przykładami, zaczerpniętymi z
profesjonalnej literatury.

2.2. Zmienne losowe jednowymiarowe, ich charakterystyki liczbowe i rozkłady

2. 2. 1. Zmienne losowe skokowe (dyskretne)

Chcąc ilościowo ocenić szansę zaistnienia zdarzenia polegającego na tym, że do hali dworca
autobusowego wejdzie dokładnie 6 pasażerów w ciągu dowolnie wybranego 15-minutowego okresu
obserwacji, zakłada się tym samym możliwość jego niezaistnienia. O zdarzeniach, które w określonych
warunkach, pod wpływem wielkiej liczby prawie niezależnych czynników, mogą zajść lub nie, mówi
się, że są to zdarzenia losowe mające określone prawdopodobieństwo zajścia (lub niezajścia). Jeżeli
takie obserwacje zostaną przeprowadzone przez 30 15-minutowych okresów, przy czym na ogólną
liczbę obserwacji 3 razy zdarzy się, że do hali dworca wejdzie dokładnie 6 pasażerów, to częstość tego
zdarzenia (wi = ni : n) wynosi: 3 : 30 = 0,1. Liczba 3 jest tu frekwencją, liczba 0,1 częstością
empiryczną, z jaką występuje dane zdarzenie elementarne. Teoretycznym odpowiednikiem częstości
empirycznej (wi) jest prawdopodobieństwo zdarzenia (pi) w przypadku skończonej liczebności zbioru
zdarzeń elementarnych. Prawdopodobieństwo zdarzenia losowego z przykładu jest granicą, do jakiej
dąży częstość empiryczna (0,1), przy założeniu że liczebność jednostek obserwacji wzrasta
nieograniczenie1.
Liczba pasażerów wchodzących do budynku dworca jest wielkością, której wartości nie można
ściśle przewidzieć i którą przyporządkowuje się każdemu zdarzeniu losowemu. Wielkość liczbowa
przyporządkowana poszczególnym zdarzeniom losowym nazywa się zmienną losową. Zmienna
losowa, jaką jest liczba pasażerów zgłaszających się w określonym przedziale czasu, moze przyjmowac
dowolne wartości całkowite w granicach od zera do nieskończoności. Bardziej realne będzie założenie,
1
Zobacz aksjomatyczną definicję A.N. Kołmogorowa, np. w [6], [7], [11], [13], [17].

3
że wartości tej zmiennej są ograniczone, jednak zarówno w jednym, jak i w drugim przypadku ma się
tu do czynienia ze zmienną losową skokową, czyli dyskretną.
Interpretując statystycznie pojęcie zmiennej losowej, można powiedzieć, że jest ona
odpowiednikiem poznanego wcześniej pojęcia cechy statystycznej. Warianty cechy statystycznej
występują z określoną częstością empiryczną, natomiast realizacjom (wartościom) zmiennej losowej
odpowiadają określone prawdopodobieństwa. Mówiąc inaczej, zmienne losowe są wynikami
doświadczeń, przy czym konkretna wartość liczbowa, jaką przyjmuje zmienna losowa, zależy od
przypadku.
A. Luszniewicz [9], str. 17 pisze: „Badając zjawiska masowe (...) obserwujemy w
rzeczywistości zdarzenia o charakterze losowym, przy czym rozmiary oraz zmienność tych zdarzeń są
uwarunkowane działaniem zarówno przyczyn głównych (wywołujących zmienność systematyczną),
jak i przyczyn ubocznych (wywołujących zmienność przypadkową)”. W innym zaś miejscu: „Im
większa liczebność losowej próby jednostek obserwacji, tym większa szansa (prawdopodobieństwo),
że wyraźnie ujawni się efekt działania przyczyn głównych, wywołujących zmienność systematyczną”.
Cytowane zdania prowadzą do znanych zapewne Czytelnikowi twierdzeń, zwanych prawami wielkich
liczb, a opisanych między innymi w [4], [13], [16].

Rys. 1. Wykres funkcji rozkładu prawdopodobieństw zmiennej losowej dyskretnej


Zródło: [7]

4
Zmienna losowa X jest typu skokowego, jeżeli istnieje skończony albo przeliczalny zbiór
Wx= {x1,....,xk,...} jej wartości x1,..., xk,.. taki, że

P( X s = xi ) = pi > 0, i ∈ N, (1)

∑p
i =1
i = 1, (2)

gdzie górna granica sumowania wynosi n albo ∞ zależnie od tego, czy zbiór Wx jest skończony, czy
przeliczalny. Równość (2) nazywa się warunkiem unormowania, liczby x1‚ x2,.., xk... - punktami
skokowymi (atomami) zmiennej losowej X, prawdopodobieństwa p1,p2,....,pk... skokami.
Zmienna losowa jest zdefiniowana nie tylko przez zbiór możliwych realizacji, ale również przez
odpowiednią funkcję rozkładu częstości (prawdopodobieństwa). Rozkładem zmiennej losowej
skokowej jest zbiór wszystkich par (xi, pi), dla i = 1‚ ... k lub i = 1, 2, ..., gdzie xi jest realizacją
punktową zmiennej losowej XS, a pi jest prawdopodobieństwem, z jakim XS przybiera wartość liczbową
xi (tabl. 1).

Tablica 1
Rozkład zmiennej losowej skokowej dla
skończonej liczby realizacji tej zmiennej

XS = xi xi x2 ... xk Ogółem
P(XS = xi) pi p2 ... pk 1

Źródło: [9]

Obrazem funkcji prawdopodobieństwa w prostokątnym układzie współrzędnych (rys. 1.) jest


zbiór punktów (xi, pi). Suma długości wszystkich odcinków o końcach (xi, 0; xi, pi) jest równa jedności.
Na rys. 2 przedstawiono histogram funkcji prawdopodobieństwa.

5
Rys. 2. Histogram funkcji rozkładu prawdopodobieństwa
Źródło: [7].

W celu zobrazowania pojęcia rozkładu zmiennej losowej skokowej posłużono się następującym
przykładem [9]:
Prawdopodobieństwa liczby wypadków drogowych XS, jakim ulegają prywatne samochody
osobowe, oszacowano w pewnym mieście na podstawie danych z ostatnich dziesięciu lat, co pokazano
w tablicy 2.

Tablica 2
Przykładowy rozkład prawdopodobieństwa
realizacji zmiennej losowej skokowej

 P( X S = 0) = 0,3742 
 P( X = 1) = 0,2851 
 S

 P( X S = 2) = 0,1969 
  = P( X S = xi )
 P( X S = 3) = 0,0892 
 P( X = 4) = 0,0502
 S

 P( X S = 5) = 0,0044 

Źródło: [9].

Otrzymano rozkład zmiennej losowej skokowej XS z wartościami tej zmiennej na poziomach


x1 = 0, 1, 2, 3, 4, 5 i z sumą prawdopodobieństw realizacji tej zmiennej równą 1. Na przykład
P(XS = 0) = 0,3742 oznacza prawdopodobieństwo niewystępowania wypadku dla każdego z badanych
samochodów w ciągu badanego okresu.

6
2. 2. 2. Zmienne losowe ciągłe

Proces wejścia podróżnych do hali dworca autobusowego można również opisać badając
długości odstępów czasowych między kolejnymi zgłoszeniami podróżnych. Zmienną losową jest tu
odstęp czasowy, który może przyjmować dowolne wartości liczbowe z ograniczonego lub
nieograniczonego przedziału liczb nieujemnych. Jeżeli budynek dworca posiada jedno wejście,
przedział ten ograniczają realizacje xmin, ...,xmax, lub xmin, ..., +∞; w przypadku kilku wejść -
przedział 0, ..., xmax lub 0, ..., +∞. Bardzo duże wartości odstępów, jeżeli są przyjmowane jako
możliwe, są mało prawdopodobne.
Należy pamiętać o tym, że w przypadku zmiennej ciągłej stwierdzenie, iż prawdopodobieństwo
jakiegoś zdarzenia równe jest 0, nie oznacza, że zdarzenie to jest niemożliwe. Podobnie z faktu, że
jakieś zdarzenie ma prawdopodobieństwo równe 1, nie wynika, by było to zdarzenie pewne 2
Formą przedstawienia rozkładów zmiennych losowych ciągłych jest określenie ich funkcji
gęstości, czyli „natężenia” prawdopodobieństwa 3.
Dla zilustrowania pojęcia zmiennej losowej ciągłej i funkcji gęstości posłużono się przykładem
rozkładu empirycznego ilości zakupionego paliwa, który przedstawiono w tablicy 3.

Tablica 3
Etylina pobrana na stacji paliw

Częstości względne
Wyniki pomiarów Liczba pomiarów
wi = ni : n
0 – 10 10 0,10
10 – 20 32 0,32
20 – 31 40 0,40
30 – 40 12 0,12
40 – 50 4 0,04
50 – 60 2 0,02
Ogółem 100 1,00

Źródło: Tablica 14 (ćwiczenie 1).

2
Dowód można znaleźć w książce W. Sadowskiego [16], str. 79, podobnie jak częstościową interpretację funkcji gęstości
zmiennej losowej ciągłej.
3
W przypadku zmiennej losowej dyskretnej można mówić o rozkładzie „masy prawdopodobieństwa”. W przeciwieństwie
do tego, w przypadku ciągłego rozkładu zmiennej losowej „masa prawdopodobieństwa” rozłożona jest z określoną
gęstością ciągłym pasmem wzdłuż całej osi x lub wzdłuż pewnych jej fragmentów.

7
Histogram przedstawiony na rys. 3 jest sporządzony w ten sposób, że na osi odciętych
zaznaczono odcinki o długości h = 10, natomiast na osi rzędnych odmierzono częstości względne
przyjmując taką skalę, aby pole każdego prostokąta było równe częstości względnej (ni : n), w
odpowiednim przedziale. Jeżeli na osi rzędnych zostaną odmierzone częstości względne, to pole
n 1
prostokąta miałoby powierzchnię h ⋅ i . Przyjmując natomiast za jednostkę , otrzyma się częstość
n h
n
względną i , a tym samym pole odpowiadającego jej prostokąta wyniesie:
n⋅h

ni n
h⋅ = i
n⋅h n

Rys. 3. Histogram częstości względnych.


Źródło: na podstawie tablicy 3.

Poprzez zwiększenie liczby obserwacji do 500 otrzymano wyniki pokazane w tablicy 4, w której
ze względu na większą liczbę pomiarów można było utworzyć więcej przedziałów.
1
Jak poprzednio na osi rzędnych za jednostkę przyjęto , z tym że długość podziału h równa się 5.
h

8
Tablica 4
Etylina pobrana na stacji paliw

Wyniki pomiarów Liczba pomiarów Częstości względne


0–5 7 0,014
5 – 10 43 0,086
10 – 15 72 0,144
15 – 20 88 0,178
20 – 25 96 0,192
25 – 30 104 0,208
30 – 35 42 0,084
35 – 40 18 0,036
40 – 45 12 0,024
45 – 50 8 0,016
50 – 55 6 0,012
55 – 60 4 0,008
Ogółem 500 1,000

Źródło: na podstawie tablicy 3.

Rys. 4. Histogram częstości względnych.


Źródło: na podstawie tablicy 4.

9
Histogramy z rysunków 3 i 4 zostały skonstruowane w ten sposób, że pole całkowite takiego
histogramu równa się jedności. Suma pól poszczególnych prostokątów może być interpretowana jako
częstość względna zdarzenia, które jest sumą zdarzeń odpowiadających rozpatrywanym prostokątom.
Można sobie wyobrazić dalsze zwiększenie liczby obserwacji i przedstawienie wyników na
histogramie uwzględniąjąc większą liczbę przedziałów. Otrzymane w wyniku ustawicznego
zwiększania liczby obserwacji i ilości przedziałów prostokąty staną się tak wąskie, że schodkowa linia
górnych ich podstaw może być zastąpiona odpowiednią krzywą ciągłą. Krzywa ta, będąca obrazem
funkcji f(x), może być uważana za funkcję gęstości prawdopodobieństwa zmiennej losowej ciągłej,
jeżeli spełnia następujące warunki:

f ( x) ≥ 0 (3)

+∞

∫ f ( x)dx = 1
−∞
(4)

oraz funkcja jest ciągła z wyjątkiem co najwyżej skończonej ilości punktów nieciągłości. Ponadto
funkcja gęstości ma następującą interpretację:

x1i

P( xoi < xc < x1i ) = ∫ f ( x)dx = p ,


xoi
i (5)

gdzie: f(x) - jest funkcją gęstości zmiennej Xc,


dx - pochodną tej funkcji.

Statystycznie funkcja f(x) jest interpretowana jako średnia liczba


prawdopodobieństwa przypadająca na jednostkę długości przedziału (x; x + ∆x), przy założeniu że
rozpiętość tego przedziału dąży do zera.
Czym różni się zmienna losowa skokowa od zmiennej losowej ciągłej wyjaśnia J. Węgierski [20]
w następujący sposób: „Istotna różnica [...] polega na tym, że o ile każdej wartości zmiennej losowej
skokowej z realnego zakresu tych wartości jest przyporządkowane prawdopodobieństwo realizacji
wartości, to prawdopodobieństwo tego, że zmienna losowa ciągła przyjmie dokładnie konkretną
wartość, jest równe zeru, ponieważ w przedziale realnych wartości tej zmiennej istnieje nieskończenie
wiele takich wartości”.
Rozkładem zmiennej losowej ciągłej Xc nazywany jest zbiór prawdopodobieństw pi, dla i = 0, 1,
2, ...k, k +1, że zmienna ta przybiera wartości liczb z przedziałów klasowych: (-∞; x01), (x01, x11), ...
(x0k; xki), (x0k+1; +∞), co zapisano w tablicy 5.

10
Tablica 5
Schemat rozkładu zmiennej losowej ciągłej

x0i<Xc<x1i -∞ : x01 x01 : x11 ... x0k : x1k x0k+1; +∞ Ogółem


P(x0i<Xc<x1i) p0 p1 ... pk pk+1 1

Źródło: [9].

Schemat rozkładu zmiennej losowej ciągłej wyjaśnia poniższy przykład.

Tablica 6
Przykładowy rozkład prawdopodobieństw realizacji
zmiennej losowej ciągłej

 P( X c < 10) = 0,0168 


 P(10 < X < 20) = 0,2345 
 c 
 P(20 < X c < 30) = 0,4683
  = P( x0i < X c < x1i
 P (30 < X c < 40 ) = 0,1181 
 P(40 < X < 50) = 0,0936
 c

 P( X c > 50) = 0,0687 

Źródło: zadania własne.

Oszacowano prawdopodobieństwa realizacji zakupu ilości paliwa przez pewną zbiorowość


kierowców na stacji benzynowej, przy czym dla sześciu przedziałów klasowych tych ilości (zmienna
losowa ciągła Xc) otrzymano rozkład pokazany w tabl. 6.
Przedstawiony ciąg prawdopodobieństw jest rozkładem gęstości prawdopodobieństwa dla
zmiennej losowej ciągłej, którą jest ilość paliwa. Na przykład prawdopodobieństwo 0,2345 oznacza
szansę wylosowania kierowcy, który kupuje benzynę w ilościach od 10 do 20 dm3.

11
2. 2. 3. Dystrybuanta zmiennej losowej

Dystrybuanta zmiennej losowej w statystyce stanowi odpowiednik poznanej wcześniej


dystrybuanty empirycznej4. Dystrybuantę zmiennej losowej wyznaczoną przez rozkład
prawdopodobieństwa P(x) oznacza się symbolem F(x) lub - gdy wiadomo, z jaką zmienną ma się do
czynienia - symbolem Fo. Jest to niemalejąca funkcja dana wzorem:

P( x) = P ( X < x), x ∈ R (6)

Dystrybuanta określona wzorem (6) jest prawdopodobieństwem tego, że zmienna losowa nie
przekroczy poziomu realizacji równego x. Funkcja F(x) przyjmuje wartości z przedziału od 0 do 1, co
można ogólnie:

0 ≤ F ( x) ≤ 1, dla każdego x ∈ R, (7)


F ( xmin ) = P( X s < xmin ) = 0
(8)
F ( xmax ) = P( X s ≤ xmax ) = 1

oraz

F (−∞) = P ( X c < −∞) = 0


(9)
F (+∞) = P ( X c < +∞) = 1

Prawdopodobieństwo P(a ≤ X < b) przyjęcia przez zmienną losową X wartości z przedziału <a,
b) jest równe przyrostowi dystrybuanty F między punktami a, b:

P( a ≤ X < b) = F (b) − F (a) (10)

Znając funkcję gęstości f(x), można dla każdego przedziału nierzeczywistych wartości (x0i, x1i)
określić prawdopodobieństwo, że zmienna losowa ciągła przyjmie dowolną wartość z przedziału, a
mianowicie:

x1i

P( x0i ≤ X c ≤ x1i ) = F ( x1i ) − F ( x0i ) = ∫ f ( x)dx


x0 i
(11)

Tablica 7
4
Własności dystrybuanty zmiennej losowej opisano w [7] str. 49 oraz [13] str. 43

12
Dystrybuanty liczby wypadków samochodów osobowych

F ( X s = 0) = 0 
F ( X = 1) = 0,3742 
 s

F ( X s = 2) = 0,6593
 
F ( X s = x) =  F ( X s = 3) = 0,8562  = P( X s < x)
F ( X = 4) = 0,9454
 s

F ( X s = 5) = 0,9956 
F ( X = 6) = 1 
 s 

Źródło:Tablica 2.

Dystrybuanta F(Xs = 2) = 0, 3742 + 0, 2851 = 0,6593 oznacza prawdopodobieństwo tego, że liczba


wypadków drogowych jednego samochodu będzie równa 1 lub 0.
Dystrybuanta F(Xc = 0,8377) jest prawdopodobieństwem tego, że wylosowany kierowca pobrał
nie więcej niż 40 litrów benzyny na stacji paliw.

Tablica 8
Dystrybuanty ilości kupionego paliwa
na stacji benzynowej

F ( X c = 10) = 0,0168 
F ( X = 20) = 0,2513
 c

F ( X c = 30) = 0,7196 
  = P( X c < x)
F ( X c = 40) = 0,8377 
F ( X = 50) = 0,9313 
 c

 F ( X c = +∞) = 1 
Źródło:Tablica 6.

W teorii masowej obsługi często stosuje się dopełnienie dystrybuanty (oznaczone


symbolem A(x) nazywane negatywną dystrybuantą zmiennej losowej) wyrażające
prawdopodobieństwo, że zmienna losowa X przybierze wartości większe lub równe x.

13
P( X ≥ x) = A( x ) = 1 − F ( x) (12)

14
Na rysunkach 5 i 6 pokazano dystrybuanty rozkładu zmiennej losowej skokowej i ciągłej.

Rys. 5. Dystrybuanta rozkiadu liczby wypadków


Źródło: Tablica 7.

Rys. 6. Dystrybuanta rozkładu ilości paliwa


Źródło: Tablica 8.

15
W przypadku prób losowych o dużej liczebności dystrybuanty teoretyczne i empiryczne mało
różnią się od siebie5 :

lim P{ G ( x) − F ( x) < ε } = 1, (13)


n→∞

gdzie: G(x) = w(X<x) - dystrybuanta empiryczna,


F(x) - dystrybuanta teoretyczna.

2. 2. 4. Charakterystyki liczbowe zmiennej losowej

W celu precyzyjnego określenia zmiennej losowej przyporządkowuje się jej pewne liczby
charakteryzujące ją pod względem wartości najbardziej prawdopodobnej rozrzutu jej wartości, kształtu
histogramu lub krzywej gęstości. Liczby te nazywane są charakterystykami liczbowymi zmiennej
losowej lub jej rozkładem prawdopodobieństwa. Charakterystyki te są parametrami danego rozkładu,
przy czym ich definicje ogólne zależą od rodzaju zmiennej losowej. Najważniejszymi z nich są:
wartość oczekiwana zmiennej losowej, wariancja i odchylenie standardowe.
Wartość oczekiwana zmiennej losowej stanowi jedną z podstawowych miar położenia. Jest to
wartość, której należy oczekiwać jako średniej z wyników wielu badań lub obserwacji. Jeśli wartości
prawdopodobieństw można uważać za masy, to średnią wartość zmiennej losowej otrzymuje się jako
odciętą środka tych mas.
Analogicznie do definicji wariancji z próby losowej określana jest wariancja zmiennej losowej
skokowej w jej rozkładzie teoretycznym.
O ile wartość oczekiwaną można przedstawić jako odciętą „mas” prawdopodobieństw p(x), to
wariancję można przyrównać do momentów bezwładności tych mas względem osi pokrywającej się z
rzędną ich środka ciężkości. Wariancja nie jest interpretowana w sensie merytorycznym, służy jednak
do wyznaczania odchylenia standardowego i konstrukcji metod statystycznych.

5
Twierdzenie W. J. Gliwienki [3], [9].

16
2.3. Rozkłady i funkcje gęstości prawdopodobieństwa zmiennych losowych, które często
opisują zjawiska transportowe

2. 3. 1. Rozkład dwumianowy (Binomial)

Mówi się, że zmienna losowa K (lub XS) typu skokowego ma rozkład dwumianowy (rozkład
Bernoulliego) z parametrami (n,p), n ∈ N, 0 < p <1, jeżeli jej funkcja prawdopodobieństwa pk=P(k, n,
p) = P (K = k) jest postaci:

n
P(k , n, p) =   p k q n−k , k = 0,1,..., n, (28)
k 
gdzie: q = 1- p
Przyjmuje ona n+1 wartości: 0, 1,..., n, wśród których najbardziej prawdopodobne są:

- k1 = (n + 1) p − 1, k 2 = (n + 1) p, (29)

gdy (n + 1) p jest liczbą całkowitą,

- ko = [(n + 1) p], (30)

gdy (n + 1) p nie jest liczbą całkowitą,


gdzie [x] ze wzoru (30) oznacza największą liczbę całkowitą nie przekraczającą liczby x, np.
[π] = 3.
Gdy n = 1, wtedy zmienna losowa K staje się zmienną losową o rozkładzie zero-jedynkowym; jeżeli
n > 1, to zmienna losowa K o rozkładzie dwumianowym z parametrami (n, p) jest sumą n niezależnych
zmiennych losowych Xi o tym samym rozkładzie zero-jedynkowym z parametrem p:

K = X 1 + ... + X n (31)

Wartość przeciętna i wariancja zmiennej losowej K o rozkładzie dwumianowym z parametrami (n‚ p)


wyrażają się wzorami

E ( K ) = np, D 2 ( K ) = npq (32)

Rozkład dwumianowy powstaje w wyniku schematu powtarzających się niezależnych prób, mogących
mieć jeden z dwu możliwych wyników, każdy o stałym prawdopodobieństwie ich wydarzenia.
W miarę zwiększania n rozkład ten zbliża się do rozkładu normalnego. Zależność pomiędzy
rozkładem dwumianowym a rozkładem Poissona szeroko omawia J. Węgierski w [20]. Rozkład ten ma
ważne zastosowanie w badaniu, które pochodzą ze zbiorowości zawierających dwie kategorie
elementów. Jeżeli na przykład w ogólnej liczbie N części Np części jest uszkodzonych i N(1-p) części
dobrych, to zastosowanie rozkładu dwumianowego umożliwia ustalenie rozkładu części uszkodzonych
w próbce zawierających serię n części pobranych losowo.

17
Dla określenia prawdopodobieństwa pojawienia się dokładnie k zgłoszeń samochodów na
parkingu w przedziale czasu t przy ogólnej liczbie n zgłoszeń w okresie T (np. 1 doba) wzór (28)
przyjmuje następującą postać:

k n −k
 n  λt   λt 
pk (t ) =    1 −  dla k = 0, 1, ..., n, (33)
 k  n   n

n
gdzie: λ= jest znanym w inżynierii ruchu parametrem - intensywnością strumienia zgłoszeń.
T

2. 3. 2. Rozkład Poissona (Poisson)

Wprawdzie rozkład dwumianowy prawidłowo opisuje niektóre zjawiska transportowe (np.


procesy ruchu), jest jednak niewygodny w stosowaniu jako rozkład dwuparametrowy, a więc
wymagający obszernych tablic. Z tych przyczyn korzysta się często w praktyce z możliwości
zastępowania rozkładu dwumianowego innym rozkładem zmiennej losowej skokowej - rozkładem
Poissona.
Jeżeli k1,..., kn jest ciągiem zmiennych losowych o rozkładzie dwumianowym z parametrami
(1,p1),...,(n,pn),... oraz npn→λ, λ>0, gdy n→∞, to ciąg rozkładów dwumianowych jest zbieżny do
rozkładu Poissona z parametrem λ.
Dla dużych n wynika stąd przybliżenie Poissona rozkładu dwumianowego:

 n  k n−k λk −λ
  p q ≈ e , λ = np (34)
k  k!

Rozkład występujący po prawej stronie wzoru (34) jest rozkładem Poissona6


Wartość oczekiwana i wariancja są równe parametrowi λ

E ( K ) = λ; D 2 ( K ) = λ (35)

a k −a
6
W literaturze, np. [2], [10], rozkład Poisona przedstawia się wzorem P (k ) = e , gdzie a jest stałą dodatnią.
k!

18
2. 3. 3. Rozkład wykładniczy (Exponential)

W rozkładzie Poissona odstępy czasu między kolejnymi zdarzeniami mają rozkład wykładniczy.
Zmienna losowa Xc ma rozkład wykładniczy o parametrze λ > 0, jeżeli jej gęstość f(x)7 jest
postaci

1  x
 exp −  dla x ≥ 0
f ( x) =  λ  λ (36)
0 dla pozostalych x

E( X ) = λ, D 2 ( X ) = λ2 (37)

Całkując gęstość (36), otrzymuje się dystrybuantę tego rozkładu:

  x
1 − exp −  dla x ≥ 0
F ( x) =   λ (38)
0 dla x < 0

Rozkłady wykładnicze często występują w zagadnieniach ruchu telefonicznego, w problemach


czasu obsługi i czasu oczekiwania na obsługę, w problemach czasu eksploatacji elementów i ich
niezawodności, czyli prawdopodobieństwa bezawaryjnej pracy. Dobrą aproksymacją niezawodności N
jest

N (t ) = e − λt
dla t > 0 (39)
N (t ) = 1 − F (t ),

gdzie F(t) jest dystrybuantą w punkcie t zmiennej losowej T (czas bezawaryjnej pracy) o rozkładzie
wykładniczym. Własność zmiennej T wyrażona wzorem (39) nazywana jest wykładniczym prawem
niezawodności. Własność rozkładu wykładniczego zwana „brakiem pamięci” oznacza, że dalszy czas
pracy urządzenia nie zależy od „przeszłości” i ma taki sam rozkład jak całkowity czas pracy elementu.
Inną własność rozkładu wykładniczego można sformułować następująco: suma n niezależnych
zmiennych losowych o rozkładzie wykładniczym ma rozkład Erlanga.

1 1
7
Parametr λ z poniższych wzorów jest przedstawiany w literaturze często: λ = lub w zależności od tego, jakie
a λ
procesy charakteryzuje (por. [3], [20], [21] oraz wzory (41), (42), (43), (44).

19
Rozkład wykładniczy nie wymaga opracowania specjalnych tablic, wystarczą tu tablice funkcji
wykładniczej e − x .
W procesach transportowych zdarza się, że odstępy między zdarzeniami maja pewną dolną
granicę, której nie można przekroczyć. Na przykład odstęp między zakończeniem obsługi jednego
zgłoszenia a zakończeniem obsługi kolejnego zgłoszenia nie może przekroczyć pewnego minimum
(czas postoju samochodu na stanowisku naprawczym, czas sprzedaży biletu, zachowana bezpieczna
odległość pomiedzy pojazdami na jednym pasie ruchu). Jeżeli oznaczyć czas minimalny tmin, to
prawdopodobieństwo

P( x < tmin ) = 0 (40)

Odstępy pomiędzy kolejnymi zdarzeniami mają tzw. przesunięty rozkład wykładniczy, którego
dystrybuanta (negatywna) i funkcja gęstości mają postać:

0 dla x < t min


F ( x) =  -λ (x-t ) (41)
1 - e
min
dla x ≥ t min

0 dla x < t min


f ( x) =  −λ ( x−t ) (42)
λe dla x ≥ t min
min

Wartość oczekiwana

−1
E( X ) = + tmin, (43)
λ
a wariancja

1
V ( x) = D 2 ( x) = (44)
λ2

20
2. 3. 4. Rozkład normalny (Normal)

Zmienna losowa Xc ma rozkład normalny o parametrach µ, σ 8


, jeśli gęstość
prawdopodobieństwa jest określona wzorem

1  − (x − µ) 
f ( x) = exp   dla - ∞ < x < ∞ (60)
σ 2π  2σ
2

gdzie µ, σ są odpowiednio parametrami przesunięcia i skali tego rozkładu. Rozkład ten oznaczony jest
symbolem N(µ, σ). Wykresem gęstości rozkładu normalnego jest krzywa Gaussa.
Ponieważ jest to rozkład symetryczny względem prostej x = µ, zachodzą zależności

α1 = E ( X ) = X 0,5 = mo = µ (61)

oraz

D 2 ( X ) = µ2 = σ 2 (62)

Współczynnik skupienia dla rozkładu normalnego o dowolnych parametrach µ i σ jest równy 3.


Od parametru σ zależy wartość maksymalna funkcji gęstości.
Jeżeli przyjąć, że zamiast obserwowanej zmiennej losowej ciągłej, co do której założono
normalność rozkładu, wprowadzi się tzw. zmienną standaryzowaną U 9, której realizacje (u) są
definiowane jako:

x−m
u= (63)
σ
to zmienna losowa standaryzowana U ma również rozkład normalny z parametrami N(0;1).
Podstawiając (63) do funkcji gęstości (60) otrzymuje się postać funkcji gęstości zmiennej
standaryzowanej U

 u2  1
f (u ) = exp −  (64)
 2  2π
przy czym wartości liczbowe funkcji f(u), podobnie jak i wartości dystrybuanty tego rozkładu są
podane w specjalnych tablicach statystycznych.

8
Parametr µ jest często oznaczony symbolem m.
9
Zmienna standaryzowana nazywana jest również zmienną unormowaną lub znormalizowaną.

21
Wśród własności funkcji gęstości rozkładu normalnego zmiennej standaryzowanej najbardziej
charakterystyczne są 10:
- właściwość symetryczności

f (+u ) = f (−u ), (65)

- właściwość określoności

U → N (0;1) (66)

- właściwość jednomodalności

f ( x = m) = f (u = 0) = 0,3989 = max (67)

- właściwość zbieżności

lim f (u ) = lim f (−u ) = 0 (68)


u →+∞ −u →−∞

- właściwość zmienności, wiążąca się z tzw. regułą trzech odchyleń standardowych (trzech sigm) w
rozkładzie normalnym

u1 = −1 oraz u2 = +1
(69)

gdzie (u1, u2) punkty przegięcia, odpowiadają końcówkom przedziału klasowego: x1 = m - σ oraz
x2= m + σ,
Regułę trzech sigm wyjaśnić można najprościej następująco: realizacje zmiennej losowej
ciągłej o rozkładzie normalnym nie będą się różniły od wartości oczekiwanej E(Xc) = m więcej niż o
trzy odchylenia standardowe. Realizacje bardzo wysokie lub bardzo niskie mogą występować z
prawdopodobieństwem P = 0,0027. Znaczenie tej reguły przy podejmowaniu decyzji w warunkach
niepewności, tj. w metodach wnioskowania statystycznego, jest bezsporne.
Rozkład normalny jest w statystyce uznawany za rozkład podstawowy, przede wszystkim z
dwóch powodów:
- jest rozkładem granicznym, do postaci którego, przy założeniu nieograniczonego wzrostu liczby
jednostek obserwacji, zmierzają wszystkie inne znane rozkłady teoretyczne zmiennych losowych
skokowych i ciągłych,
- w trakcie wnioskowania statystycznego, tzn. w procesie przenoszenia wyników obserwacji z prób
losowych na zbiorowości generalne, popełniane są błędy o charakterze losowym, tzw. „błędy
pokrycia”; błędy losowe mają rozkład normalny o średniej zero i o odchyleniu standardowym

10
A. Luszniewicz [9].

22
zwanym średnim błędem oceny 11. Poniżej podano trzy podstawowe poziomy prawdopodobieństw
realizacji zmiennej losowej standaryzowanej
P( −2,58 < U < +2,58) ≈ 0,99

P( −1,96 < U < +1,96) ≈ 0,95  (70)
P( −1,64 < U < +1,64) ≈ 0,90 

2.4. Testy zgodności

2.4.1. Test zgodności chi-kwadrat Pearsona

Test χ2 pozwala na sprawdzenie hipotezy, że populacja ma określony typ rozkładu, tj. określoną
postać funkcyjną dystrybuanty. Może to być typ rozkładu skokowego lub ciągłego. Mając
wyspecyfikowany rozkład populacji generalnej przez hipotezę H: F(x) = Fo(x) można podzielić oś x-
ów na r rozłącznych przedziałów pokrywających całą oś. Otrzymano w ten sposób r przedziałów
[ai, ai+l], gdzie i = 1, 2,..., r. W szczególnym przypadku a1 = - ∞ oraz ar+1 = + ∞.
Przez pi oznaczono prawdopodobieństwo, że zmienna X przyjmie wartości z przedziału
[ai, ai+1], tzn.:

pi = P (ai < X < ai+1 ) = F (ai +1 ) − F (ai ) (74)

Liczba npi jest oczekiwaną liczbą obserwacji n-elementowej próbki, które przy prawdziwości
wysuniętej hipotezy powinny znaleźć się w przedziale [ai, ai+1].
Służąca za miarę zgodności rozkładu zaobserwowanego w próbce z rozkładem hipotetycznym
statystyka

( ni − npi ) 2
r
χ =∑
2
(75)
i =1 npi
ma, gdy n → ∞, rozkład chi-kwadrat ν = r - 1 stopniach swobody 12 lub ν = r - 1 - m stopniami
swobody, gdy z próby szacuje się m parametrów rozkładu metodą największej wiarygodności 13
Ze statystyką χ2 wiążą się następujące spostrzeżenia [13]:
- nie zależy ona od tego, jaka jest postać dystrybuanty cechy X elementów populacji,
- ważną rolę odgrywają prawdopodobieństwa pi ; ten sam układ prawdopodobieństw p1, p2,..., pr może
odpowiadać różnym rozkładom,
- za pomocą testu χ2 można weryfikować hipotezę dotyczącą układu prawdopodobieństw p1, p2,..., pr,
a nie postaci rozkładu cechy X populacji,
- za hipotezę zwaną Ho uważa się klasę wszystkich rozkładów, dla których
11
Klasycznych przykładów zastosowań rozkładu normalnego dostarcza toeria błędów obserwacji [4], [5], [6], [11], [13],
[17], [22].
12
Dowód Pearsona.
13
Twierdzenie Fishera.

23
P{ X ∈ ( ai , ai +1 )} = pi (i = 1,2,..., r ) (76)

- hipotezą alternatywną jest klasa tych wszystkich rozkładów, dla których przynajmniej dla jednego
przedziału zachodzi

P{ X ∈ (ai , ai +1 )} ≠ pi (77)

- przy danej próbie statystyka χ2 będzie mieć tę samą wartość dla wielu rozkładów,
- przyjęcie hipotezy zerowej jest równoznaczne stwierdzeniu, że każdy rozkład należący do niej może
służyć do opisu badanego zjawiska.
Ponieważ wystarczy wybrać jeden z rozkładów należących do hipotezy zerowej, można dla
uproszczenia przyjąć, że cecha X elementów populacji ma rozkład o dystrybuancie F(x).
Najprostszą metodą prowadzącą do uzyskania wstępnych informacji o postaci rozkładu badanej
cechy jest wykreślenie histogramu rozkładu zaobserwowanego w próbie, co pozwoli na zorientowanie
się, jakie ewentualne rozkłady mogą być brane pod uwagę. Następny (poczyniony już krok) stanowi
przyjęcie statystyki służącej za test do weryfikacji hipotezy zerowej.
Trzecim krokiem jest przyjęcie poziomu istotności testu α oraz określenie obszaru krytycznego
budowanego w tym teście prawostronnie (rys. 7). Z tablicy rozkładu χ2 dla r-1 lub r-m-1 stopni
swobody oraz dla ustalonego poziomu istotności α odczytuje się taką samą wartość krytyczną χα2, aby
zachodziło

P ( χ 2 ≥ χα ) = α
2
(78)

Obliczoną według wzoru (75) wartość χ2 porównuje się z wartością krytyczną χα2 i jeśli
zachodzi nierówność χ2 ≥ χα2 , to hipotezę Ho należy odrzucić.

24
Rys.7. Wartość graniczna χ2 przy ν stopniach swobody i poziomie istotności α
Źródło: Opracowanie własne

25
W przeciwnym przypadku tzn. gdy χ2 < χα2 , nie ma podstaw do odrzucania hipotezy Ho, że
rozkład populacji jest typu Ω. Nie oznacza to jednak, że można ją przyjąć, lecz test χ2 jest tak
zbudowany, że im bliższa zeru jest wartość χ2, tym hipoteza Ho jest bardziej wiarygodna.
Odrzucając hipotezę Ho ponosi się ryzyko podjęcia błędnej decyzji (błąd pierwszego rodzaju),
którego prawdopodobieństwo nosi nazwę poziomu istotności. Nie uwzględnia się natomiast
konsekwencji popełnienia błędu drugiego (por. tablica 9).

Tablica 9
Błędy pierwszego i drugiego rodzaju
przy weryfikacji hipotez zerowych

Założenia dotyczące hipotezy zerowej


Decyzja
jest prawdziwa jest fałszywa
Przyjęcie weryfikowanej błąd drugiego rodzaju
decyzja trafna
hipotezy Ho (P = β) 14
odrzucenie weryfikowanej błąd pierwszego rodzaju
decyzja trafna
hipotezy Ho (P = α)

Źródło: Opracowanie własne.

prawdopodobieństwo pierwszego rodzaju przyjmowane jest zwykle z przedziału <0,001; 0,01>, przy
czym w zagadnieniach transportowych najczęściej przyjmuje się α = 0,01 lub α = 0,05.
Odrzucenie lub przyjęcie hipotezy nie oznacza więc całkowitego przekonania o
nieprawidłowości czy prawdziwości hipotezy zerowej.

2.4.2. Test zgodności-lambda Kołmogorowa

W teście λ Kołmogorowa dla zweryfikowania hipotezy, że populacja ma określony typ


rozkładu, porównuje się dystrybuanty empiryczną i teoretyczną – inaczej więc niż w teście χ2 , gdzie
rozpatruje się i porównuje liczebność szeregów.
Punktem wyjścia w teście λ jest analizowanie bezwzględnych wartości różnic między tymi
dwoma dystrybuantami, zakładając, że jeśli populacja ma rozkład zgodny z hipotezą, to wartości
dystrybuanty hipotetycznej i empirycznej powinny być we wszystkich badanych punktach zbliżone.
jako test do weryfikacji hipotezy Ho można wykorzystać statystykę

n Dn = n sup Fn ( x) − F ( x) , (80)
−∞< x<+∞

gdzie Fn jest dystrybuantą empiryczną.


Rozkład graniczny ststystyki n Dn prezentuje twierdzenie Kołmogorowa 15.

14
(1-β) nazywane jest mocą testu weryfikującego hipotezę zerową
15
Twierdzenie 5.5, str. 161 [13].

26
Zbiorem krytycznym jest zbiór

W = ( x1 , x2 ,..., xn ) : n Dn > λ , (81)

gdzie λ jest liczbą spełniającą warunek.

P( n Dn ≥ λ (1 − α ) = 1 − P ( n Dn < (1 − α )) = α , (82)

λ (1 − α ) jest wartością krytyczną parametru λ, natomiast α jest tak dobranym poziomem istotności, że
zdarzenia, których prawdopodobieństwa realizacji nie przekraczają α, mogą być praktycznie
niemożliwe.
Hipotezę Ho, że cecha X ma dystrybuantę F(x), należy odrzucić, gdy

n Dn ≥ λ (1 − α )

W przeciwnym przypadku pobrana próbka nie przeczy hipotezie weryfikowanej na poziomie α.


Wartości kwantyli λ (1 − α ) dla kilku wartości α podano w tablicy 10.
Granica prawdopodobieństwa P z prawej strony wzoru (82) oznaczana jest często symbolem Q

Q(λ ) = lim P( n Dn < λ ) = 1 − α (83a)


n→∞
lub
K ( y ) = P ( n Dn < y ) = 1 − α (83b)

Dla przyjętego α znane jest Q(λ), a z tablicy rozkładu granicznego Dn odczytuje się wartość λ.

Tablica 10
Kwantyle granicznego (n→∞)
rozkładu Kołmogorowa

P( n Dn ≥ λ (1 − α )) = α

1-α 0,90 0,95 0,99


λ(1 - α) 1,224 1,354 1,626

Źródło: Opracowanie własne

27
Gdy cecha X typu ciągłego ma dystrybuantę Fo(x) całkowicie określoną jako ststystykę testową,
przyjął Kołmogorow

Dn = sup Fo ( x) − Fn ( x) (84)
x

Statystyka Dn w przypadku prawdziwości hipotezy ma rozkład niezależny od przyjętej


hipotezy. Na podstawie tego rozkładu sporządza się tablice kwantyli dn (1 - α) statystyki Dn, które
spełniają równość

P( Dn ≥ d n (1 − α ) ) = α (85)

Sposób postępowania jest następujący:


a) porządkowanie wyników pomiarów według wielkości

x1 ≤ x2 ≤ x3 ≤ ... ≤ xn ,

b) obliczenie wszystkich różnic

i
− Fo ( xi ) dla i = 1, ..., n
n
i największą z ich wartości bezwzględnych oznacza się przez dn+

+ i
d n = max − Fo ( xi ) ,
1≤i ≤n n
(86a)

c) obliczanie wszystkich różnic

i −1
Fo ( xi ) −
n
i największą z ich wartości bezwzględnych oznacza się przez dn-

− i −1
d n = max Fo ( xi ) − ,
1≤i ≤n n
(86b)

d) dokonanie wyboru większej z liczb dn+, dn-

28
+ −
d n = max(d n , d n ), (86c)

e) przy danym poziomie istotności α oraz n odczytuje się z tablic statystycznych taką krytyczną
wartość dn (1 - α) ststystyki Kołmogorowa Dn, która spełnia równość

P( Dn ≥ d n (1 − α ) ) = α

Obszarem krytycznym jest przedział

< d n (1 − α ),1 > (87)

Jeżeli d n ≥ d n (1 − α ) , to weryfikowaną hipotezę należy odrzucić na przyjętym poziomie


istotności; w przeciwnym przypadku próbka nie przeczy weryfikowanej hipotezie. Przykłady
zastosowania statystyki testowej Dn przedstawiono w p. 3.2.5.
Stosowanie testu λ Kołmogorowa 16 jest możliwe wtedy, gdy dystrybuanta hipotetyczna jest
ciągła, w związku z czym wyników pobranych z próby nie powinno się grupować. Drugim
ograniczeniem korzystania z testu jest znajomość parametrów hipotetycznych rozkładu; jednak przy
dużej próbie (rzędu kilkuset) można je szacować z próby, jak również grupować w wąskie klasy
przyjmując wyniki testowania z rezerwą.

2.4.3. Praktyczne uwagi dotyczące stosowania testów χ2 i λ Kołmogorowa 17

A. Podział na klasy jednakowej długości:


- w ćwiczeniu 1 podano liczbę klas szeregu rozdzielczego, która nie powinna przekraczać 30,
przy czym zaleca się między innymi zależność przedstawioną w tablicy 11;

Tablica 11
Liczba klas zalecana przy stosowaniu testu χ2

Liczba pomiarów n Liczba klas k


30 – 60 6–8
60 – 100 7 – 10
100 – 200 9 – 12
200 – 500 11 – 17
500 – 1500 16 – 25

Źródło: [8].

- przy ustalonej liczebności próbki n rozkład statystyki χ2 jest zależny – przy ustalonym k – od
16
Czytelnik zechce odróżnić test λ Kołmogorowa od testu Kołmogorowa-Smirnowa, który służy do weryfikacji hipotezy,
że dwie próby pochodzą z populacji o jednakowej dystrybuancie lub że pochodzą z tej samej populacji.
17
Opracowano n apodstawie [8].

29
doboru granic w sposób niezbadany dotąd dokładnie, dlatego liczebność próbki n ≥ 5;
- hipotetycznie liczebności w poszczególnych klasach npi ≥ 10 oraz np1, npk ≥ 5;
- w rozkładach jednomodalnych w klasach skrajnych, gdy liczba stopni swobody wynosi nie
mniej niż 6, dopuszcza się, aby liczebności hipotetyczne nawet w dwóch klasach były mniejsze
od 5, nie mniej jednak od 1, przy poziomach istotności α = 0, 05 i α = 0, 01;
- często weryfikuje się hipotezę dotyczącą zgodności wyników doświadczalnych z rozkładem N
(m, σ) o nieznanych obu parametrach. Dla określenia granic klas, np. k = 12 można przyjąć
następujący podział: (−∞, x − 2,5s > , ( x − 2,5s, x − 2 s > , ( x − 2 s, x − 1,5s > ,
( x − 1,5s, x − s > , ( x − s, x − 0,5s > , 4 następne kolejne klasy o długości 0,5s, a ostatnią
jest ( x + 2,5s, + ∞) ;
- gdy liczebności klas nie spełniają podanych warunków, należy sąsiednie klasy połączyć;
zmieniają się wtedy granice klas x , s, ni, npi oraz χ2obl, co może doprowadzić do innej końcowej
decyzji.

B. Podział na klasy o jednakowym prawdopodobieństwie pi w przedziałach klasowych

- sposób ten polega na takim doborze liczby k klas, aby zachodziło

1
pi = , i = 1, ...,k
k
(89)

- granice klas przy takim sposobie są wyznaczone jednoznacznie: prawą granicę g1 pierwszej
klasy poszukuje się jako wartość argumentu, dla której wartość F(g1) dystrybuanty jest równa
1/k. Kolejne prawe granice odczytuje się z tablic dystrybuanty (albo kwantyli) spełniające
równości

1
F ( gi ) = , i = 1, ..., k – 1
k
(90)

W tym przypadku liczebności hipotetyczne npi we wszystkich klasach są równe n/k;


- gdy liczebności próbki n wynoszą co najmniej 200, wtedy liczbę k klas należy wyznaczyć w
przybliżeniu zgodnie z tablicą 12;
- moc testu przy zastosowaniu powyższego sposobu podziału na klasy jest na ogół większa
względem hipotez alternatywnych w porównaniu ze sposobem pierwszym;

30
Tablica 12
Liczba klas dla liczebności próbki n ≥ 200

Liczba obserwacji Liczba klas k


200 – 400 15 – 20
400 – 600 20 – 24
600 – 800 24 – 27
800 – 1000 27 – 30
1000 – 1500 30 – 35
1500 – 2000 35 – 40

- gdy liczebność próbki wzrasta ≈ 5,6 razy, wtedy liczbę klas podwaja się; statystyka χ2
przyjmuje postać

k k 2
χ = ∑ ni − n,
2

n 1
(91)

- podział obserwacji na klasy o jednakowych prawdopodobieństwach jest pożądany, jeżeli


weryfikowana jest hipoteza dotycząca rozkładu, którego wartości są stablizowane;
- przy weryfikacji hipotezy złożonej, a więc gdy estymuje się parametry na podstawie próbki -
powinno się przestrzegać warunku, aby było co najmniej 20 klas, w których liczebności
spełniają podane wyżej warunki;
- jeżeli hipotetyczny rozkład jednomodalny typu ciągłego zależy tylko od parametru skali lub
przesunięcia (np. rozkład normalny, gamma z nieznanym parametrem skali itp.), to w
przypadku weryfikacji hipotezy prostej testem χ2 jest pożądane wcześniejsze zastosowanie
testu serii do znaków kolejnych różnic ni – npi dla i = 1, .. , k. Jeżeli hipoteza o losowości tych
znaków nie będzie odrzucona, można stosować χ2, przy odrzuceniu hipotezy o losowości
znaków należy liczbę serii zwiększyć. W przypadku hipotezy złożonej testu serii nie stosuje się;
- w przypadku podziału na klasy o jednakowych prawdopodobieństwach przy zastosowaniu obu
testów (odpowiednia liczność próbki, cecha ciągła) test Kołmogorowa, w porównaniu do testu χ
2
, wymaga mniej licznej próby, przy tej samej mocy względem tej samej hipotezy alternatywnej
i przy tym samym poziomie istotności;
- test Kołmogorowa jest jedynym spośród testów zgodności, przy stosowaniu którego można
wyznaczyć łącznie dla wszystkich x granice ufności dla nieznanej, ale całkowicie określonej
dystrybuanty F(x) na danym poziomie ufności 1 - α;
- test Kołmogorowa, jak zauważono wcześniej, może być stosowany wyłącznie dla rozkładów
typu ciągłego, chociaż podejmowane są próby zastosowania tego testu do rozkładów
skokowych;
- test Kołmogorowa jest znacznie czulszy od testu χ2

31
- bardzo mała wartość χ2 może być wynikiem tego, że duża liczba parametrów ocenianych z
materiału doświadczalnego w sztuczny sposób powoduje przesadnie dobrą zgodność danych
pomiarowych z teoretycznymi.

3. SPOSÓB WYKONANIA ĆWICZENIA

3.1. Zakres ćwiczenia

Grupa ćwicząca zweryfikuje hipotezę o zgodności rozkładu empirycznego z rozkładem


teoretycznym wykorzystując do tego celu test χ2 oraz test lambda-Kołmogorowa sposobem
rachunkowym na podstawie danych źródłowych dostarczonych przez prowadzącego ćwiczenie.
Pamiętając o wskazówkach zawartych w punktach (2.4.1), (2.4.2) i (2.4.3) należy:
a) pogrupować dane,
b) sporządzić histogram rozkładu i na jego podstawie określić klasę rozkładów, które mogą być brane
pod uwagę oraz określić hipotezę zerową Ho,
c) przyjąć statystykę służącą za test,
d) przyjąć poziom istotności α,
e) obliczyć nieznane parametry rozkładu.
Przy weryfikowaniu hipotezy testem χ2 dalszy tok postępowania jest następujący:
- obliczenie prawdopodobieństwa pi trafienia wartości zmiennej losowej X w i-ty przedział,
- obliczenie funkcji testowej χ2,
- obliczenie liczby stopni swobody,
- odczytanie z tablicy rozkładu χ2 wartości krytycznej χα2,
- porównanie wartości χ2 z wartością χα2 oraz sformułowanie wniosków.
Na kolejne czynności przy weryfikowaniu hipotezy o kształcie rozkładu cechy w populacji za
pomocą testu λ Kołmogorowa składają się:
- wyznaczenie wartości empirycznej dystrybuanty Fn(x) dla każdego xi według wzoru

nsk
Fn ( xk ) =
n

gdzie: nsk = ∑ ni (liczebność skumulowana)


i≤k
- wyznaczenie wartości teoretycznej dystrybuanty F(x) dla każdego xi,
- obliczenie różnicy Fn(x) - F(x),
- obliczenie wartości statystyki

32
D = sup Fn ( x) = F ( x) ,
x

33
- obliczenie statystyki λ = D n , która przy prawdziwości hipotezy Ho ma rozkład λ Kołmogorowa,
- odczytanie z tablicy 10 granicznego rozkładu λ wartości krytycznej λ (1 - α), spełniającej warunek
P (λ ≥ λ (1 - α)) = α,
- porównanie λ obliczone z λ (1 - a) i sformułowanie wniosków.
Przedstawiony wyżej tryb postępowania przy stosowaniu obu testów zgodności uzupełniono
kilkoma przykładami.

3.2. Technika wykonania ćwiczenia

3. 2. 1. Sprawdzenie hipotezy złożonej o zgodności rozkładu empirycznego z rozkładem Poissona za


pomoca testu χ2 - przykład 1

Zbadano 300 losowo wybranych 5-sekundowych przedziałów czasowych pracy pewnej centrali
telefonicznej i otrzymano następujący empiryczny rozkład zgłoszeń (kolumna 1 i 2, tabl. 13).
Na poziomie istotności α = 0,05 należy zweryfikować hipotery, że rozkład liczby zgłoszeń w tej
centrali jest rozkładem Poissona.
Z treści zadania wynika, że nie jest sprecyzowany parametr λ rozkładu Poissona. Postawiono
hipotezę Ho : F(x) ∈ Ω, gdzie F(x) jest dystrybuantą rozkładu zgłoszeń, a Ω klasą wszystkich
rozkładów Poissona. Parametr λ oszacowano z próby za pomocą jego estymatora, którym jest średnia z
próby x . Otrzymano x = 1,7. Przyjmując za λ tę wartość, z tablicy rozkładu Poissona należy odczytać
prawdopodobieństwa pi dla każdej kolejnej liczby zgłoszeń i przeprowadzić tabelarycznie dalsze
obliczenia.

Tablica 13
Obliczenia dla przykładu 1

Liczebność (ni − npi ) 2


Liczba Liczebność
zgłoszeń xi empiryczna ni
pi teoretyczna ( ni − npi ) 2

npi np1
1 2 3 4 5 6
0 50 0,183 54,9 24,01 0,44
1 100 0,311 93,3 44,89 0,48
2 80 0,264 79,2 0,64 0,01
3 40 0,150 45,0 25,00 0,55
4 20 0,064 19,2 0,64 0,03
5 10 0,028 8,4 2,56 0,30
Σ 300 1,000 300,0 X 1,81

Źródło: [5].

34
Z obliczeń otrzymano wartość statystyki χ2 = 1,81, a dla przyjętego poziomu istotności α = 0,05
i dla 6 - 1 - 1 = 4 stopnie swobody odczytane z tablicy rozkładu χ2 krytyczna wartość wynosi χα2 =
9,488. Ponieważ

χobl2 = 1,81 < 9,488 = χα2

więc nie ma podstaw do odrzucenia hipotezy, że rozkład liczby zgłoszeń w tej centrali jest rozkładem
Poissona.

3.2.2. Weryfikacja hipotezy o rozkładzie wykładniczym testem χ2 wszystkie przedziały klasowe mają
jednakową długość - przykład 2

Dokonano 280 pomiarów czasu sprzedaży biletów w kasie. Należy zweryfikować hipotezę, że
czas obstugi klienta ma rozkład wykładniczy, przyjmując poziom istotności α = 0,05. Ponieważ
parametr rozkładu λ nie jest znany, postawiono hipotezę Ho : F(x) ∈ Ω, gdzie F(x) jest dystrybuantą
rozkładu czasu sprzedaży biletów, a Ω klasą wszystkich rozkładów wykładniczych. parametr λ
1
oszacowano z próby, którym jest .
x
Dystrybuanta rozkładu wykładniczego, wyrażająca prawdopodobieństwo wystąpienia czasu
większego niż dowolnie przyjęty czas t wyrażona jest wzorem

A( t ) = e − λt

1 t
Ponieważ λ = , wykładnik potęgowy zastąpiono wyrażeniem a = , co ułatwi korzystanie z tablic
t t
−x
dystrybuanty (negatywnej) rozkładu wykładniczego e . Średni czas obsługi t = 30s.

35
Tablica 14
Obliczenia dla przykładu 2

Grani
Klasa ce t Liczebność Liczebność ni − npi
i
sekund dokła
a= e −a
ne −a
teoretyczna empiryczna ni − npi
t npi ni np1
dne
1 2 3 4 5 6 7 8 9 10
0 0 1,00 280
1 0–9 76 66 -10 1,3150
9,5 0,317 0,7283 204
2 10 – 19 58 56 -2 0,0690
19,5 0,650 0,5220 146
3 20 – 29 39 45 +6 0,9230
29,5 0,995 0,3698 107
4 30 – 39 32 35 +3 0,2815
39,5 1,317 0,2677 75
5 40 – 49 21 24 +3 0,4290
49,5 1,650 0,1920 54
6 50 – 59 16 15 -1 0,0626
59,5 1,995 0,1360 38
7 60 – 69 10 11 +1 0
69,5 2,317 0,0986 28
8 70 – 79 8 6 -2 0,5000
79,5 2,650 0,0706 20
9 80 – 89 6 7 +1 0,6650
89,5 2,995 0,0500 14
10 90 – 99 4 5 +1 0,2500
99,5 3,317 0,0363 10
11 100 – 109 3 2 -1 0,3333
109,5 3,650 0,0259 7
12 110 – 139 7 8 +1 0,1430
x x x x x x 280 280 0 5,0714

Żródło: [21].

W kolumnie 5 tablicy 14 wpisano odczytane z tablic rozkładu wykładniczego odpowiednie


wartości e-a. W następnej kolumnie zapisano kolejne wyniki mnożenia n = 280 e-a. Po wykonaniu tych
czynności możliwe jest obliczenie kolejnych dystrybuant i zapisanie ich w kolumnie 7. Zawartość
kolejnych kolumn nie wymaga wyjaśniania.
Liczba stopni swobody ν = 12 – 1 – 1 = 10. Z tablic rozkładu χ2 odczytano χ2(10; 0,05) = 18,307,
brak jest podstaw do odrzucenia hipotezy o rozkładzie wykładniczym czasu sprzedaży biletów w
badanej kasie.

36
3.2.3. Weryfikacja hipotezy o rozkładzie normalnym za pomocą testu χ2 – przykład 3

Losowa próba n = 151 niezależnych pomiarów chwilowej prędkości pojazdów dała rozkład
(zob. lolumny 1 i 2 w tabl. 15).
−1
Średnia wartość x = x t = 70,3km ⋅ h −1 , a odchylenie standardowe svt = 10,6km ⋅ h .

Tablica 15
Obliczenia do przykładu 3

Wartość
Prawa Wartość dystrybu
Prawdopodobie Liczebność
granica Liczebność standaryzo anty (ni − npi ) 2
ństwo trafienia teoretyczna
przedziału empiryczna wana rozkładu ni − npi
klasowego ni x − x normaln do i-tej klasy klasy np1
ui = i pi npi
xi s ego
F(ui)
1 2 3 4 5 6 7 8
55 9 -1,44 0,075 0,075 11,3 -2,3 0,47
60 16 -0,97 0,166 0,091 13,7 +2,3 0,39
65 24 -0,50 0,308 0,142 21,4 +2,6 0,32
70 25 -0,03 0,488 0,180 27,2 -2,2 0,18
75 27 +0,44 0,670 0,182 27,5 -0,5 0,01
80 25 +0,92 0,821 0,151 22,8 +2,2 0,21
85 16 +1,39 0,918 0,097 14,7 +1,3 0,11
110 9 - - 0,082 12,4 -3,4 0,93
Ogółem 151 X X 1,000 151 0 2,62

Źródło: [15].

Wartość w kolumnie 4 odczytuje się z tablic. Prawdopodobieństwa w kolumnie 5 są


przyrostami dystrybuanty, tzn. pi = F (ui+1) – F (ui). Prawdopodobieństwo dla ostatniego przedziału
wyznacza się jako 1 – F(ur-1). Odczytane z tablicy rozkładu χ2 dla 5 stopni swobody i dla przyjętego
poziomu istotności α = 0,05 wartość krytyczna χα2 = 11,07. Ponieważ χobl2 < χα2, nie ma podstaw do
odrzucenia hipotezy, że rozpatrywany rozkład jest normalny.

3.2.4. Test zgodności λ Kołmogorowa – przykład 4

Na składowisko przywożono piasek o określonej wadze. Losowa próba n = 200 dni dała
następujący rozkład masy piaski [t].
Na poziomie istotności α = 0,05 zweryfikować za pomocą testu Kołmogorowa hipotezę, że
rozkład masy piasku jest normalny.
Weryfikujemy hipotezę Ho : F(x) = Fo(x), gdzie Fo(x) jest dydtrybuantą rozkładu N(m, σ). Z próby
obliczona oszacowanie obu parametrów rozkładu normalnego, otrzymując x = 32,9 oraz s = 1,4. Ze

37
względu na dużą próbę można te wartości za m i σ. W celu uzyskania wartości empirycznej i
teoretycznej dystrybuanty dla końców przedziałów, standaryzując je przedtem, dalsze obliczenia
przeprowadzono tabelarycznie

Tablica 16
Rozkład badanej cechy X

Masa [t] Liczba dni


29,5 – 30,5 12
30,5 – 31,5 23
31,5 – 32,5 35
32,5 – 33,5 62
33,5 – 34,5 44
34,5 – 35,5 18
35,5 – 36,5 6

Źródło: [5].

Tablica 17
Obliczenia dla przykładu 4

Prawne
geanice Fn ( x) − F ( x)
ui F(ui) = F(x) ni nsk Fn(x)
przedziału
xi
30,5 -1,71 0,044 12 12 0,060 0,016
31,5 -1,00 0,159 23 35 0,175 0,016
32,5 -0,29 0,384 35 70 0,350 0,036
33,5 +0,43 0,666 62 132 0,660 0,006
34,5 1,14 0,873 44 176 0,880 0,007
35,5 1,86 0,969 18 194 0,970 0,001
36,5 2,57 0,995 6 200 1,000 0,005

Źródło : [5].

Ponieważ n = 200 = 14,14 , wartość empiryczna statystyki λ Kołmogorowa wynosi zatem dla
D = 0,036
λ= 0,036 . 14,14 = 0,509

Z tablicy 10 rozkładu λ Kołmogorowa (granicznego) odczytano dla przyjętego poziomu


istotności α = 0,05 krytyczną wartość λ(1 - α) = 1,358. Ponieważ λobl = 0,509 < 1,358, więc nie ma
podstaw do odrzucenia hipotezy Ho, że typ rozkładu masy przywożonego piasku jest normalny.

38
3.2.4. Test Kołmogorowa – przykład 5 [8]

Wynikami pięcioelementowej próby są: 0.18, 0.56, 0.87, 1.37, 2.46. Na poziomie istotności α=
0,05 zweryfikować testem Kołmogorowa hipotezę, że próbka została pobrana z populacji, w której
dystrybuantą badanej cechy X jest F(x) = 1 – e-x dla x > 0, tzn. że rozkładem jest rozkład
wykładniczy o parametrze λ = 1.
Wartości dystrybuanty hipotetycznej F(xi) dla i = 1, 2, ..., 5 ustalono z tablicy wartości funkcji
wykładniczej. Dalsze obliczenia przedstawia poniższa tablica.

Tablica 22
Obliczenia dla przykładu 5

i i −1 i i −1
i xi Fo ( xi ) − Fo ( xi ) Fo ( xi ) −
n n n n
1 0,18 0,2 1,1647 0 0,0353 0,1647
2 0,56 0,4 0,4288 0,2 0,0288 0,2288
3 0,87 0,6 0,5810 0,4 0,0190 0,1810
4 1,37 0,8 0,7456 0,6 0,0544 0,1456
5 2,46 1,0 0,9145 0,8 0,0855 0,1145

Źródło: [8].

Z tablicy odczytano d5+ = 0,0855; d5- = 0,2288, skąd d5 = 0,2280. Wartość tę należy porównać z
odczytaną z tablicy kwantyli dn (i - α) statystyki Kolmogorowa d5(0,95) = 0.563. Ponienważ d5 <
d(0,95), można wnioskować, że próbka nie przeczy hipotezie przy α = 0,95.

4. SPRAWOZDANIE Z ĆWICZENIA

Powinno składać się z trzech części. Pierwsza zakończona wyborem hipotezy zerowej, powinna
stanowić rozległą analizę danych pod kątem ich przydatności dla celów ćwiczenia. Pomocne w tym
mogą być wskazówki zawarte w podrozdziale 2.4.3 oraz podana na końcu ćwiczenia literatura.
W części drugiej, po uzasadnieniu przyjęcia statystyki testowej i odpowiedniego poziomu
istotności, należy przeprowadzić testowanie wybranego rozkładu uwzględniając etapy
wyszczególnione w punkcie 3.1. Istotnym zagadnieniem w tej części sprawozdania jest dobór granic
przedziałów klasowych, łączenie sąsiednich klas, czego można uniknąć stosując podział, w którym
granice jednoznacznie określa stałe prawdopodobieństwo we wszystkich klasach. Należy zwrócić
uwagę na prawidłowe obliczenie stopni swobody, na sposób oceny nieznanych parametrów oraz
liczność próby, o której zwykle się mówi, że powinna być duża. W przypadku małych prób - jak
wiadomo - stosuje się wyłącznie test Kołmogorowa. Duża liczba wąskich przedziałów wpływa na
pracochłonność badania. Wszystkie z wymienionych czynników powinny być szczegółowo
analizowane w trakcie wydawania sądu o wynikach testowania.

39
Ocena wyników stanowi trzecią część sprawozdania, podczas opracowywania której trzeba
pamiętać na przykład o tym, że przy danej próbie statystyka χ2 może mieć tę samą wartość dla wielu
rozkładów. Mala wartość χ2 nie zawsze daje dobrą zgodność danych z teorią.
Interpretacja wyników powinna również zawierać dyskusję na temat parametrów rozkładu. Jak
wiadomo, ich wartości określają kształt rozkładu i przesunięcia, przybieranie charakteru innej
zmiennej. Interpretacja wyników może przekonać o znajomości przedmiotu, co ważne w sytuacji
kontynuowania ćwiczeń na laboratoryjnych stanowiskach komputerowych.

Spis literatury do ćwiczenia 7,8,9

1. Bobrowski D.: Elementy teorii prawdopodobieństwa. Wyd. Politechniki Poznańskiej, Poznań


1980.
2. Dąbkowski J.: Statgraphics‚ KOW „Help”, Warszawa 1992.
3. Freund J.E.: Podstawy nowoczesnej statystyki. PWE, Warszawa 1968.
4. Gmurman W.J. : Zbiór zadań z rachunku prawdopodobieństwa i statystyki matematycznej. WNT,
Warszawa 1973.
5. Greń J.: Statystyka matematyczna, modele i zadania, PWN, Warszawa 1974.
6. Hellwig Z.: Elementy rachunku prawdopodobieństwa i statystyki matematycznej. PWN,
Warszawa 1978.
7. Krzysicki W., Bartos J., Dyczka W., Królikowska K., Wasilewski M. : Rachunek
prawdopodobieństwa i statystyka matematyczna w zadaniach. Część I. PWN, Warszawa 1986.
8. Krzysicki W., Bartos J., Dyczka W., Królikowska K., Wasilewski M. : Rachunek
prawdopodobieństwa i statystyka matematyczna w zadaniach. Część II. PWN. Warszawa 1986.
9. Luszniewicz A.: Statystyka nie jest trudna. Cz.II — Metody wnioskowania statystycznego. PWE,
Warszawa 1986.
10. Muller J.: Wprowadzenie do nauki organizacji i badań operacyjnych. PWE‚ Warszawa 1971.
11. Oktaba W. : Metody statystyki matematycznej w doświadczalnictwie. PWN, Warszawa 1980.
12. Oktaba W. : Elementy statystyki matematycznej i metodyka doświadczalnictwa. PWN, Warszawa
1977.
13. Plucińska A., Pluciński E.: Elementy probabilistyki. PWN, Warszawa 1979.

40

You might also like