You are on page 1of 52

1

ANALIZA REGRESJI LINIOWEJ



Przypumy, e rozpatrujemy pewn zbiorowo statystyczn cznie ze wzgldu na
dwie cechy (ze wzgldu na dwuwymiarow cech statystyczn) Y oraz X. Naszym
zadaniem jest uj ilociowo zwizek pomidzy cech Y (zmienna objanian) a cech
X (zmienn objaniajc).

Przypumy, e zamierzamy uj zaleno pomidzy zmiennymi w postaci funkcji
liniowej
0 1
Y X =




2
Przypumy, e dysponujemy n obserwacjami par
1 1 2 2
( , ),( , ),...,( , )
n n
y x y x y x .

Na podstawie obserwacji staramy si oszacowa nieznane parametry
0
i
1
.

Szacujc parametry tzw. metod najmniejszych kwadratw (NK) staramy si znale
takie
0
b i
1
b , ktre minimalizuj nastpujc funkcj kryterium
[ [
2
0 1 0 1
1
( , ) ( )
n
i i
i
S b b y b b x
=
=

.
3


d
5
d
4
d
3
d
2
d
1

1
y

1
y

(x
5
,y
5
)

(x
4
,y
4
)

(x
3
,y
3
)

(x
2
,y
2
)

(x
1
,y
1
)

Y

X
4
Rniczkujc funkcj
0 1
( , ) S b b wzgldem zmiennych
0
b i
1
b , otrzymamy
0
1
2 ( )
n
i i
i
dS
y a bx
db
=
=

,

1
1
2 ( )
n
i i i
i
dS
y a bx x
db
=
=

.
Przyrwnujc pochodne czstkowe do zera oraz upraszczajc otrzymujemy tzw.
ukad rwna normalnych
0 1
1 1
2
0 1
1 1 1
n n
i i
i i
n n n
i i i i
i i i
nb b x y
b x b x y x
= =
= = =
'
1
1
=
1
1
1
!
1
1
=
1
1
1
+


.


5
Ukad ma rozwizanie:
1
1
2
1
( )( )
( )
n
i i
Y i
XY n
X
i
i
x x y y
s
b r
s
x x
=
=

= =

,
0 1
b y b x = .

Oszacowane na podstawie danych rwnanie regresji ma posta:

0 1

i i
y b b x = 1,..., i n = ,




6
Zauwamy, e na rozpatrywany zbir danych moemy spojrze z punktu widzenia:

0 1 i i i
y b b x e = 1,..., i n = ,

gdzie
i i i
e y y = , 1,..., i n = s resztami regresji liniowej









7
DOBRO DOPASOWANIA DOBRO DOPASOWANIA DOBRO DOPASOWANIA DOBRO DOPASOWANIA

Zauwamy, wykorzystujc tosamo

( ) ( )
i i i i
y y y y y y =

Moemy wyrazi sum kwadratw reszt regresji jako

2 2 2
( ) ( ) ( ) 2 ( )( )
i i i i i
i
y y y y y y y y y y =

,

Zauwaajc, e

2 2 2
1 1
( )( ) ( ) ( ) ( ) ( )
i i i i i i
y y y y y y b x x b x x y y = = =


8

Moemy zapisa

2 2 2
( ) ( ) ( )
REG
i i i i
SYY RSS SS
y y y y y y =




Pierwszy czon to suma kwadratw obserwacji zmiennej objanianej wok jej
redniej tzw. skorygowana suma kwadratw Y (SS
corrected
) oznaczana SYY.

Odstpstwo wartoci obserwacji zmiennej objanianej od przewidywanych regresj
reprezentuje drugi czon (SS
residual
) oznaczany RSS.

Cz zmiennoci zmiennej objanianej wyjaniona regresj (SS
regression
) wyraa
trzeci czon oznaczany jako SS
reg
.
9

Dobro dopasowania modelu regresji do danych empirycznych mierzona jest przez
iloraz nazywany wspczynnikiem determinacji

2
reg
SS
R
SYY
= .

Zauwamy, e
2 2 2
2 2 2
( ) ( ) ( )
( ) ( ) ( )
i i i i
i i i
y y y y y y
y y y y y y

=



,

2 2
100% R = .

10
100% zmiennoci zmiennej objanianej dzielimy na t cz, ktrej nie udao si nam
wyjani modelem regresji ( wspczynnik zbienoci
2
) oraz t cz, ktr
tumaczy model regresji (wspczynnik determinacji
2
R ).











11
Wariancja resztowa Wariancja resztowa Wariancja resztowa Wariancja resztowa

Dobro modelu regresji moemy mierzy za pomoc tzw. wariancji resztowej
(oceny wariancji skadnika losowego ):

2 2
1
1
( )
n
e i i
i
s y y
n k
=
=


,
gdzie:
n liczba obserwacji ( , )
i i
x y
k liczba szacowanych parametrw funkcji regresji (w naszym przypadku 2)

Wspczynnik zmiennoci resztowej
e
e
s
V
y
=
12
Nocny klub w maym miasteczku uniwersyteckim prbuje ustali, czy powinien zwikszy
tygodniowe nakady na reklam w radiu uniwersyteckim. Dane na temat przychodw (y) na
reklam radiow (x) w cigu ostatnich szeciu tygodni podane s w tablicy.


Y przychody
w tys z
X wydatki na
reklam w setkach z
1 1,5 1
2 2 2,5
3 1 0
4 2 3
5 3,5 4
6 1,5 2



13
RESZTY:
1 2 3 4 5 6
0.1714 -0.1429 0.2143 -0.4143 0.5429 -0.3714
WSPCZYNNIKI:
Oszacowanie Std. Error t p value Pr(>|t|)
wyraz wolny 0.7857 0.3218 2.441 0.0711
wydatki na reklam 0.5429 0.1309 4.146 0.0143
R
2
: 0.8112, Skorygowany R
2
: 0.764
Rwnanie regresji:
(0.1309) (0.3218)
0.7857 0.5429 y x =


14
Elementy wnioskowania statystycznego w zakresie analizy regresji
regresja prosta

Rozwaamy przypadek jednej zmiennej objanianej Y oraz jednej zmiennej
objaniajcej X. Przyjmujemy, e zmienne zwizane s zalenoci stochastyczn
postaci
Y a bX u = , (*)
gdzie u jest zmienna losow o znanym rozkadzie reprezentujc skadnik losowy.

Odpowied Y skada si z czci deterministycznej a bX oraz czci losowej u.
Jeli dysponujemy n obserwacjami dokonanymi na y i x rwnanie (*) mona zapisa
jako:
(**)
i i i
y a bx u = , dla 1, 2,..., i n =
Tu naszym celem jest wyznaczy oszacowania nieznanych a i b
15
Przyczyny obecnoci skadnika losowego:
a) nieprzewidywalny element losowoci w ludzkich zachowaniach
b) wpyw wielu pominitych zmiennych
c) bd pomiaru y










16
Zaoenia nt skadnika losowego
i
u
1. warto oczekiwana rwna zero : ( ) 0
i
E u = dla wszystkich i .
2. jednakowa wariancja :
2 2
( )
i
D u = dla wszystkich i .
3. niezaleno:
i
u oraz
j
u s niezalene dla wszystkich i j .
4. niezaleno od
j
x :
i
u oraz
j
x s niezalene dla wszystkich i oraz j
(w przypadku prostej regresji wynika to z faktu, e
j
x s nielosowe)
5. normalno:
i
u maj rozkad normalny dla wszystkich i .

i
u maj niezalene rozkady normalne z wartoci oczekiwan rwn zero i
jednakow wariancj
2
. Wasno t zapisujemy
2
~ (0, )
i
u IN .
Poniewa ( ) 0
i
E u = , rwnanie (**) mona zapisa
( )
i i
E y a bx = / rwnanie regresji w populacji /

17
Metoda NK
Wybr takich oszacowa a i

b parametrw a i b, aby warto wyraenia


( )
2
1

min
n
i i
i
Q y a bx
=
=

,
minimalizujemy sum kwadratw bdw predykcji / wewntrz prby /.

Definiujemy:

2 2 2
( )
i i
SYY y y y ny = =


( )( )
i i i i
SXY x x y y x y nxy = =


2 2 2
( )
i i
SXX x x x nx = =




18
Estymatory NK

SXY
b
SXX
= oraz

a y bx = .

Reszty


i i i
u y a bx = .

Sprawdzi, e

0
i
u =

oraz 0
i i
x u =

,



19
Resztowa suma kwadratw (residual sum of squares RSS)

2

( )
i i
RSS y a bx =

RSS SYY bSXY = ,



Sprawdzi, e
2
(1 )
XY
RSS SYY r = ,







20
Wnioskowanie statystyczne w modelu regresji liniowej

Aby otrzyma estymatory metody NK dla a i b nie musimy zakada postaci
rozkadu
i
u , dla ocen przedziaowych weryfikacji hipotez dotyczcych parametrw
potrzebujemy zaoy, e
i
u maj pewien rozkad prawdopodobiestwa np. rozkad
normalny.

Estymatory NK s
1. nieobcione
2. maj najmniejsz wariancj w klasie wszystkich liniowych estymatorw
nieobcionych



21
przy zaoeniach 1 5 mamy:

1. a i

b maj czny rozkad normalny,



2. ( ) E a a = ,
2
2 2
1
( )
x
D a
n SXX


( )

3.

( ) E b b = ,
2
2

( ) D b
SXX

= ,
4.
( )
2

cov( , )
x
a b
SXX


= ,




22
W przypadku, gdy warto
2
jest nieznana stosujemy nieobciony estymator
2

2
RSS
n
=

, w takim przypadku
2

SXX

jest oszacowaniem wariancji

b , jej pierwiastek
kwadratowy nazywa si bdem standardowym ( lub bdem redniokwadratowym
szacunku) i oznacza si

( ) SE b .
Podobna procedura w przypadku a. We wzorze na wariancj estymatora a,
wielko
2
zastpujemy
2
oraz obliczamy pierwiastek kwadratowy, aby wyznaczy
bd standardowy ( ) SE a .






23
Okazuje si, e

( )
a a
SE a

oraz

( )
b b
SE b

maj rozkady t z 2 n stopniami swobody


(fakt wykorzystywany do wyznaczania przedziaw ufnoci i testowania hipotez)

Jeeli RSS oznacza resztow sum kwadratw, to
2

2
RSS
n
=

jest
nieobcionym estymatorem
2
, oraz
2
RSS

ma rozkad
2
z ( 2) n stopniami
swobody, rozkad RSS jest niezaleny od rozkadw a i

b .




24
Przykad: powiaty RP w 2005 roku


wynagrodzenie brutto = 2326,8459-13,3962*x; 0,85 Prz.Pred.
0 5 10 15 20 25 30 35 40 45
stopa bezrobocia
1200
1400
1600
1800
2000
2200
2400
2600
2800
3000
3200
3400
3600
3800
4000
w
y
n
a
g
r
o
d
z
e
n
i
e

b
r
u
t
t
o
stopa bezrobocia:wynagrodzenie brutto: r
2
= 0,1181; y = 2326,8459 - 13,3962*x
wynagrodzenie brutto = 2606,68-39,576*x+0,5465*x^2; 0,85 Prz.Pred.
0 5 10 15 20 25 30 35 40 45
stopa bezrobocia
1200
1400
1600
1800
2000
2200
2400
2600
2800
3000
3200
3400
3600
3800
4000
w
y
n
a
g
r
o
d
z
e
n
i
e

b
r
u
t
t
o
stopa bezrobocia:wynagrodzenie brutto: y = 2326,8459 - 13,3962*x





25
Podsumowanie regresji zmiennej zalenej: wynagrodzenie brutto
(6.0-POWIATY_2005) R= 0,343 R2= 0,118 Skorygowany R2= 0,116 F(1,377)=50,485 p=0,00
BETA Bd st. B Bd st. t(377) poziom p
W. wolny 2326,85 44,71 52,04 0,00
stopa bezrobocia -0,34 0,05 -13,40 1,89 -7,11 0,00

(44,71) (1,89)

2326, 85 13, 40 Y x =
Przewidywane wzgldem wartoci resztowych
Zmienna zalena: wynagrodzenie brutto
1700 1800 1900 2000 2100 2200 2300
Wart. przewidyw.
-1000
-800
-600
-400
-200
0
200
400
600
800
1000
1200
1400
1600
1800
2000
R
e
s
z
t
y
95% p.ufnoci
Wartoci przewidywane wzgldem obserwowanych
Zmienna zalena: wynagrodzenie brutto
1700 1800 1900 2000 2100 2200 2300
Wart. przewidyw.
1200
1400
1600
1800
2000
2200
2400
2600
2800
3000
3200
3400
3600
3800
4000
W
a
r
t
.

o
b
s
e
r
w
.
95% p.ufnoci

26
Reszta standaryzowane: wynagrodzenie brutto (6.0-POWIATY_2005) Odstajce
Obserwowane Przew. Reszta Standar. Standar. Bd std
lubiski . . . . . . *
3898,92 2091,07 1807,85 0,63 6,39 17,14
zgorzelecki . . . . .* . .
2931,96 1998,64 933,32 -0,27 3,30 15,04
czyski . . . . . * .
3240,27 2075,00 1165,27 0,47 4,12 16,06
bechatowski . . . . . .* .
3291,46 2096,43 1195,03 0,68 4,23 17,55
kozienicki . . . . * . . .
2728,18 2066,96 661,22 0,39 2,34 15,61
pruszkowski . . . . * . . .
2921,34 2174,13 747,21 1,43 2,64 25,37
Pock . . . . * . .
2906,91 2064,28 842,63 0,37 2,98 15,47
m.st. Warszawa . . . . . .* .
3465,19 2243,79 1221,40 2,10 4,32 33,87
krapkowicki . . . .* . . .
2721,26 2139,30 581,96 1,09 2,06 21,53
Gdask . . . .* . . .
2767,68 2172,79 594,89 1,42 2,10 25,21
Jastrzbie-Zdrj . . . . . . * .
3408,53 2099,11 1309,42 0,70 4,63 17,77
Katowice . . . . . * . .
3272,16 2223,70 1048,46 1,91 3,71 31,34
kpiski . . . * . . . .
1436,99 2207,62 -770,63 1,75 -2,73 29,35
koniski . . . .* . . .
2565,75 1958,45 607,30 -0,66 2,15 17,39
gryfiski . . . . * . . .
2551,88 1886,11 665,77 -1,36 2,35 24,51
policki . . . .* . . .
2652,86 2014,71 638,15 -0,11 2,26 14,62
Minimum . . . * . . . . 1436,99 1886,11 -770,63 -1,36 -2,73 14,62
Maksim. . . . . . . * 3898,92 2243,79 1807,85 2,10 6,39 33,87
rednia . . . . *. . . 2922,58 2094,51 828,08 0,66 2,93 21,11
Mediana . . . . *. . . 2914,13 2093,75 794,92 0,65 2,81 17,66

27
Wykres normalnoci reszt
-1000
-800
-600
-400
-200
0
200
400
600
800
1000
1200
1400
1600
1800
2000
Reszty
-4
-3
-2
-1
0
1
2
3
4
O
c
z
e
k
i
w
a
n
a

n
o
r
m
a
l
n
a




28
Analiza wariancji w modelu regresji / statystyczna istotno wszystkich
zmiennych jednoczenie/


rdo
wariancji
Suma
kwadratw
Liczba
stopni swobody
Przecitna
suma kwadratw
Regresja
X
reg
SS
1
/1
reg
SS
Resztowa RSS n-2
/( 2) RSS n
Cakowita
SYY
n-1



29
2
RSS

ma rozkad
2
z ( 2) n stopniami swobody,
2
reg
SS

ma rozkad
2
z ( 1) n stopniami swobody tylko wwczas gdy prawdziwa
warto b jest rwna zero.
Co wicej oba rozkady
2
s niezalene.
Przy zaoeniu, e 0 b = , otrzymujemy statystyk
1
( 2)
reg
SS
F
RSS n
=

,
ktra ma rozkad F z 1 i ( 2) n stopniami swobody.
Statystyk t stosuje si do weryfikacji hipotezy, e 0 b = .



30
Przykad c.d. / powiaty_2005 /

Analiza wariancji ; DV: wynagrodzenie brutto (6.0-POWIATY_2005)
Suma df rednia F poziom p
Regres. 4036235 1 4036235 50,48520 0,000000
Resztk. 30140722 377 79949
Razem 34176956









31
Predykcja w modelu regresji prostej

Oszacowane rwnanie regresji

y a bx = stosuje si w celu wyznaczenia


prognozy y dla danych wartoci x .
Niech
0
x bdzie ustalon wartoci x . Odpowiadajc jej warto
0
y obliczamy na
podstawie rwnania:
0 0

y a bx = ,
prawdziwa warto
0
y jest rwna
0 0 0
y a bx u = ,
gdzie
0
u jest skadnikiem losowym.

Bd predykcji jest rwny:
0 0 0 0

( ) ( ) y y a a b b x u = ,
32
Poniewa ( ) 0 E a a = ,

( ) 0 E b b = oraz
0
( ) 0 E u = mamy
0 0
( ) 0 E y y = ,
prognoza jest nieobciona w tym sensie, e
0 0
( ) ( ) E y E y = ,
Zauwamy, e zarwno
0
y jak i
0
y s zmiennymi losowymi.

Wariancja bdu predykcji jest rwna

2 2 2 2 2
0 0 0 0 0

( ) ( ) ( ) 2 cov( , ) ( ) D y y D a a x D b b x a a b b D u = =
2 2
0 2 2 2 2
0
1
2
x x x
x
n SXX SXX SXX

1

= =


( )

2
0 2
1 ( )
1
x x
n SXX

l =
l
l

33
Wariancja ronie zatem wraz ze zwikszeniem odlegoci
0
x od x - od rodka
obserwacji na podstawie ktrych szacowano a i

b


-10
0
10
20
30
0 10000 20000 30000 40000
y
99% CI Fitted values
x
-
1
0
0
1
0
2
0
3
0
0 10000 20000 30000 40000
y
99% CI Fitted values
x

34
0 5 10 15 20 25 30 35 40 45
stopa bezrobocia
1200
1400
1600
1800
2000
2200
2400
2600
2800
3000
3200
3400
3600
3800
4000
w
y
n
a
g
r
o
d
z
e
n
i
e

b
r
u
t
t
o




35
regresja wieloraka

Analiza regresji jest jedn z najczciej wykorzystywanych technik statystycznych w
badaniach naukowych, analizie rynku itd. Warto podkreli, e pomimo szczeglnie
bogatej literatury, dugiej historii analiza regresji wci niesie z sob szereg
nierozwizanych problemw. Podkrelmy, e atwo analizy regresji zarwno w
wymiarze formalnym jak i interpretacyjnym jest pozorna.

Tu przedstawimy kilka wiadomoci nt najprostszego przykadu analizy regresji a
mianowicie tzw. modelu liniowego pierwszego stopnia (modelu regresji
wielorakiej). W wymiarze merytorycznym z grubsza rzecz biorc powiemy, e w
analizie regresji prowadzonej z jego wykorzystaniem chodzi o to aby wyrazi zaleno
pomidzy wartoci przecitn zmiennej objanianej (zalenej) a ustalonymi
poziomami zmiennych objaniajcych (niezalenych, predykatorw). Krtko: chcemy
36
wiedzie o ile przecitnie zmieni si warto zmiennej objanianej, gdy zwikszymy
(zmniejszymy) warto predyktora o jednostk.












37

Mamy n obserwacji
1 11 1
( , ,..., )
p
y x x ,
2 21 2
( , ,..., )
p
y x x ,,
1
( , ,..., )
n n np
y x x , n
obserwacji zmiennej y przy ustalonych poziomach p czynnikw
1
,...,
p
x x .

Staramy si znale liniow funkcj postaci
0 1 1 2 2 p p
y b b x b x b x =
wyraajc zaleno pomidzy zmiennymi, funkcja ktra uwzgldnia to co
zaobserwowalimy ( znale funkcj tu znaczy wskaza wspczynniki
0 1
,..., b b ).

W modelu liniowym pierwszego stopnia na obserwacje patrzy si z perspektywy
0 1 1 2 2 i i i p ip i
y b b x b x b x = , 1, 2,..., i n = , (*)
gdzie
i
oznaczaj niezalene bdy o przecitnej zero i wariancji
2
.
( obserwujemy odpowiedzi
i
y przy poziomach
1
,...,
i ip
x x w obecnoci zaburze
i
)

38

W zapisie macierzowym n rwna (*) przybiera posta
= Y Xb e,

gdzie
1
n
y
y
l
l
l
=
l
l
l
l
Y ,
11 1
1
1
1
p
n np
x x
x x
l
l
l
=
l
l
l
l
X

,
0
p
b
b
l
l
l
=
l
l
l
l
b ,
1
n

l
l
l
=
l
l
l
l
e ,
Naszym celem jest wskaza oszacowanie wektora wspczynnikw b. Istnieje szereg
kryteriw wyboru waciwego wektora wspczynnikw b, najczciej kryteria
sprowadzaj si do caociowego porwnania obserwowanych wartoci
i
y z
wartociami generowanymi przez oszacowany model
i
y za pomoc stosownej tzw.
funkcji kryterium. Podajemy tutaj postaci oszacowa (estymatorw) szeroko
rozpowszechnionej metody najmniejszych kwadratw (NK), w ramach ktrej
39
minimalizuje si sum kwadratw rnic pomidzy wartociami obserwowanymi a
wartociami generowanymi przez model (teoretycznymi).
Uwaga: Zakadamy e zmienne
1
,...,
p
x x s liniowo niezalene, tzn. rzd
T
X X
rwna si rzdowi X rwna si p. Wynika z tego, e istnieje
( )
1
T

X X

Estymator

b otrzymamy minimalizujc tzw. resztow sum kwadratw:


( ) ( )
T T
Q = = e e y - Xb y - Xb .
Wyraenie moemy zapisa 2
T T T T T
Q = y y b X y b X Xb, rniczkujc
wzgldem b i przyrwnujc do zera
0
Q
=
b
,
skd mamy 2 2 0
T T
= X y X Xb , czyli
( )
1

T T

= b X X X Y.

40














41
Podsumowujc:

1. Estymator NK
0

T
p
b b
l
=
l
l
b dany jest jako
( )
1

T T

= b X X X Y.
2. Macierz kowariancji wektora

b jest proporcjonalna do
( )
1
2 T


X X
3. Dla ukadu poziomw
1
( ,..., )
p
x x moemy obliczy wariancj przewidywania y,
( )
1
2 2
1 1
( ) (1, ,..., ) (1, ,..., )
T T
p p
s y x x X X x x

= .







42
RESZTY NK

Moemy policzy tzw. wartoci teoretyczne
1
( )
T T
= = y X X X X y Hy.

Macierz ( )
ij
H h = to tzw. hat matrix (macierz z daszkiem).

Wektor reszt NK ma posta

( ) = = e y - Xb I - H y






43
Wprowadzajc wielkoci:

2
1
( )
n
reg i
i
SS y y
=
=

,
2
1
( )
n
i i
i
RSS y y
=
=

,
2
1
( )
n
i
i
SYY y y
=
=

,

Zauwaajc, e ma miejsce nastpujca dekompozycja wariancji zmiennej
objanianej regresj wzgldem zmiennych objaniajcych:
2 2 2
1 1 1
( ) ( ) ( )
n n n
i i i i
i i i
y y y y y y
= = =
=

.

Moemy zdefiniowa wspczynnik determinacji jako:

2
reg
SS
R
SYY
= .
44
ANALIZA WARIANCJI ZMIENNEJ OBJANIANEJ

rdo
wariancji
Suma
kwadratw
Liczba
stopni swobody
Przecitna
suma kwadratw
Regresja
wzgldem
1
,...,
p
x x
reg
SS
p
/
reg
SS k
Resztowa
RSS n-p-1
/( 1) RSS T k
Cakowita
SYY
n-1





45
WNIOSKOWANIE W MODELU REGRESJI WIELORAKIEJ

W modelu liniowym pierwszego stopnia na obserwacje patrzy si z perspektywy
0 1 1 2 2 i i i p ip i
y b b x b x b x = , 1, 2,..., i n = , (*)
gdzie
i
oznaczaj niezalene bdy o przecitnej zero i wariancji
2
.
( obserwujemy odpowiedzi
i
y przy poziomach
1
,...,
i ip
x x w obecnoci zaburze
i
)
Wystpowanie skadnikw losowych
i
jest skutkiem bdw pomiaru y oraz
bdnej specyfikacji zalenoci midzy y i poszczeglnymi x ami






46
Zaoenia odnonie skadnikw losowych
i


1. ( ) 0
i
E =
2.
2 2
( )
i
D = dla wszystkich i
3.
i
oraz
j
s niezalene dla kadego i j
4.
i
oraz
j
x s niezalene dla kadego i oraz j
5.
i
maj rozkad normalny dla wszystkich i
6. Midzy zmiennymi objaniajcymi nie zachodz liniowe zalenoci, adna ze
zmiennych objaniajcych nie moe by wyraona jako dokadna funkcja liniowa
innych zmiennych


47
Zakadamy take, e
i
y jest zmienn cig. Przy takich zaoeniach metoda NK
prowadzi do estymatorw nieobcionych, wariancja najmniejsza wrd wszystkich
nieobcionych estymatorw liniowych.

Mamy
2
2

( )
i
i
D b
RSS

= dla 1, 2,..., i k =
gdzie
i
RSS oznacza resztow sum kwadratw z regresji
i
x wzgldem wszystkich
pozostaych 1 k zmiennych x .








48
Przykad: Powiaty RP w 2005 roku


Podsumowanie regresji zmiennej zalenej: ludno na km2 (6.0-POWIATY_2005)
R= 0,76 R2= 0,58 Skorygowany R2= 0,579 F(4,374)=131,03 p=0,00
BETA Bd st. B Bd st. t(374) poziom p
W. wolny -297,33 210,11 -1,42 0,16
saldo migracji -0,02 0,04 -2,76 6,07 -0,45 0,65
stopa bezrobocia -0,19 0,04 -17,48 3,30 -5,29 0,00
wynagrodzenie brutto 0,03 0,04 0,07 0,09 0,80 0,42
ludnoci miejskiej 0,69 0,04 17,92 1,01 17,81 0,00

1 2 3 4
(210.11) (6.07) (3.30) (0.09) (1.01)

297.33 2.76 17.48 0.07 17.92 Y x x x x =









49

Analiza wariancji ; DV: ludno na km2 (6.0-POWIATY_2005)
Suma df rednia F poziom p
Regres. 111734641 4 27933660 131,0266 0,00
Resztk. 79733365 374 213191
Razem 191468006

Kowariancje wag regresji B ; DV: ludno na km2 (6.0-POWIATY_2005)
saldo migracji stopa bezrobocia wynagrodzenie brutto ludnoci miejskiej
saldo migracji 36,85651 2,50847 -0,094248 2,041783
stopa bezrobocia 2,50847 10,92212 0,086367 0,192205
wynagrodzenie brutto -0,09425 0,08637 0,008548 -0,038515
ludnoci miejskiej 2,04178 0,19221 -0,038515 1,011772

50
Wartoci przewidywane wzgldem obserwowanych
Zmienna zalena: ludno na km2
-800 -600 -400 -200 0 200 400 600 800 1000 1200 1400 1600 1800
Wart. przewidyw.
-500
0
500
1000
1500
2000
2500
3000
3500
4000
4500
W
a
r
t
.

o
b
s
e
r
w
.
95% p.ufnoci
Przewidywane wzgldem wartoci resztowych
Zmienna zalena: ludno na km2
-800 -600 -400 -200 0 200 400 600 800 1000 1200 1400 1600 1800
Wart. przewidyw.
-2000
-1500
-1000
-500
0
500
1000
1500
2000
2500
3000
3500
R
e
s
z
t
y
95% p.ufnoci


51
Wykres normalnoci reszt
-2000 -1500 -1000 -500 0 500 1000 1500 2000 2500 3000 3500
Reszty
-4
-3
-2
-1
0
1
2
3
4
O
c
z
e
k
i
w
a
n
a

n
o
r
m
a
l
n
a








52
Reszta standaryzowane: ludno na km2 (6.0-POWIATY_2005) Odstajce

Obserwowane Przew. Reszta Standar. Standar. Bd std Mahaln. Usunite Cooka
lubiski . . . * . . . 149,00 1105,12 -956,12 1,31 -2,07 165,81 47,75 -1097,68 0,15
Lublin . . . .* . . . 2414,00 1458,72 955,28 1,96 2,07 54,67 4,30 968,86 0,01
skierniewicki . . * . . . . 50,00 1462,92 -1412,92 1,97 -3,06 61,52 5,71 -1438,46 0,03
d . . . . *. . . 2629,00 1346,18 1282,82 1,76 2,78 48,71 3,21 1297,26 0,02
Siedlce . . . .* . . . 2417,00 1388,88 1028,12 1,84 2,23 50,55 3,53 1040,59 0,01
m.st. Warszawa . . . . . * . . 3275,00 1630,48 1644,52 2,28 3,56 117,99 23,69 1759,43 0,19
przemyski . . . * . . . . 59,00 1252,72 -1193,72 1,58 -2,59 69,36 7,53 -1221,28 0,03
Rzeszw . . . . * . . 2961,00 1508,08 1452,92 2,05 3,15 59,69 5,32 1477,61 0,03
suwalski . . * . . . . 27,00 1398,27 -1371,27 1,85 -2,97 59,33 5,24 -1394,29 0,03
Biaystok . . . . . * . . 3109,00 1432,49 1676,51 1,92 3,63 53,43 4,06 1699,27 0,04
Supsk . . . .* . . . 2289,00 1267,24 1021,76 1,61 2,21 49,55 3,36 1033,67 0,01
Bytom . . . . .* . . 2730,00 1195,84 1534,16 1,48 3,32 55,06 4,38 1556,29 0,03
Chorzw . . . . . . * . 3430,00 1232,35 2197,65 1,55 4,76 54,83 4,33 2229,09 0,07
Siemianowice lskie . . . . . *. . 2908,00 1161,90 1746,10 1,42 3,78 54,95 4,36 1771,18 0,04
Sosnowiec . . . . * . . . 2500,00 1264,52 1235,48 1,61 2,68 49,97 3,43 1250,13 0,02
witochowice . . . . . . * 4210,00 1146,90 3063,10 1,39 6,63 56,01 4,56 3108,85 0,13
Zabrze . . . . * . . . 2393,00 1269,91 1123,09 1,62 2,43 51,20 3,65 1137,07 0,01
winoujcie . . . * . . . . 211,00 1299,65 -1088,65 1,67 -2,36 49,44 3,34 -1101,27 0,01
Minimum . . * . . . . 27,00 1105,12 -1412,92 1,31 -3,06 48,71 3,21 -1438,46 0,01
Maksim. . . . . . . * 4210,00 1630,48 3063,10 2,28 6,63 165,81 47,75 3108,85 0,19
rednia . . . .* . . . 2097,83 1323,45 774,38 1,71 1,68 64,56 7,88 782,02 0,05
Mediana . . . . * . . . 2458,50 1284,78 1179,29 1,64 2,55 54,89 4,35 1193,60 0,03

You might also like