Professional Documents
Culture Documents
.
3
d
5
d
4
d
3
d
2
d
1
1
y
1
y
(x
5
,y
5
)
(x
4
,y
4
)
(x
3
,y
3
)
(x
2
,y
2
)
(x
1
,y
1
)
Y
X
4
Rniczkujc funkcj
0 1
( , ) S b b wzgldem zmiennych
0
b i
1
b , otrzymamy
0
1
2 ( )
n
i i
i
dS
y a bx
db
=
=
,
1
1
2 ( )
n
i i i
i
dS
y a bx x
db
=
=
.
Przyrwnujc pochodne czstkowe do zera oraz upraszczajc otrzymujemy tzw.
ukad rwna normalnych
0 1
1 1
2
0 1
1 1 1
n n
i i
i i
n n n
i i i i
i i i
nb b x y
b x b x y x
= =
= = =
'
1
1
=
1
1
1
!
1
1
=
1
1
1
+
.
5
Ukad ma rozwizanie:
1
1
2
1
( )( )
( )
n
i i
Y i
XY n
X
i
i
x x y y
s
b r
s
x x
=
=
= =
,
0 1
b y b x = .
Oszacowane na podstawie danych rwnanie regresji ma posta:
0 1
i i
y b b x = 1,..., i n = ,
6
Zauwamy, e na rozpatrywany zbir danych moemy spojrze z punktu widzenia:
0 1 i i i
y b b x e = 1,..., i n = ,
gdzie
i i i
e y y = , 1,..., i n = s resztami regresji liniowej
7
DOBRO DOPASOWANIA DOBRO DOPASOWANIA DOBRO DOPASOWANIA DOBRO DOPASOWANIA
Zauwamy, wykorzystujc tosamo
( ) ( )
i i i i
y y y y y y =
Moemy wyrazi sum kwadratw reszt regresji jako
2 2 2
( ) ( ) ( ) 2 ( )( )
i i i i i
i
y y y y y y y y y y =
,
Zauwaajc, e
2 2 2
1 1
( )( ) ( ) ( ) ( ) ( )
i i i i i i
y y y y y y b x x b x x y y = = =
8
Moemy zapisa
2 2 2
( ) ( ) ( )
REG
i i i i
SYY RSS SS
y y y y y y =
Pierwszy czon to suma kwadratw obserwacji zmiennej objanianej wok jej
redniej tzw. skorygowana suma kwadratw Y (SS
corrected
) oznaczana SYY.
Odstpstwo wartoci obserwacji zmiennej objanianej od przewidywanych regresj
reprezentuje drugi czon (SS
residual
) oznaczany RSS.
Cz zmiennoci zmiennej objanianej wyjaniona regresj (SS
regression
) wyraa
trzeci czon oznaczany jako SS
reg
.
9
Dobro dopasowania modelu regresji do danych empirycznych mierzona jest przez
iloraz nazywany wspczynnikiem determinacji
2
reg
SS
R
SYY
= .
Zauwamy, e
2 2 2
2 2 2
( ) ( ) ( )
( ) ( ) ( )
i i i i
i i i
y y y y y y
y y y y y y
=
,
2 2
100% R = .
10
100% zmiennoci zmiennej objanianej dzielimy na t cz, ktrej nie udao si nam
wyjani modelem regresji ( wspczynnik zbienoci
2
) oraz t cz, ktr
tumaczy model regresji (wspczynnik determinacji
2
R ).
11
Wariancja resztowa Wariancja resztowa Wariancja resztowa Wariancja resztowa
Dobro modelu regresji moemy mierzy za pomoc tzw. wariancji resztowej
(oceny wariancji skadnika losowego ):
2 2
1
1
( )
n
e i i
i
s y y
n k
=
=
,
gdzie:
n liczba obserwacji ( , )
i i
x y
k liczba szacowanych parametrw funkcji regresji (w naszym przypadku 2)
Wspczynnik zmiennoci resztowej
e
e
s
V
y
=
12
Nocny klub w maym miasteczku uniwersyteckim prbuje ustali, czy powinien zwikszy
tygodniowe nakady na reklam w radiu uniwersyteckim. Dane na temat przychodw (y) na
reklam radiow (x) w cigu ostatnich szeciu tygodni podane s w tablicy.
Y przychody
w tys z
X wydatki na
reklam w setkach z
1 1,5 1
2 2 2,5
3 1 0
4 2 3
5 3,5 4
6 1,5 2
13
RESZTY:
1 2 3 4 5 6
0.1714 -0.1429 0.2143 -0.4143 0.5429 -0.3714
WSPCZYNNIKI:
Oszacowanie Std. Error t p value Pr(>|t|)
wyraz wolny 0.7857 0.3218 2.441 0.0711
wydatki na reklam 0.5429 0.1309 4.146 0.0143
R
2
: 0.8112, Skorygowany R
2
: 0.764
Rwnanie regresji:
(0.1309) (0.3218)
0.7857 0.5429 y x =
14
Elementy wnioskowania statystycznego w zakresie analizy regresji
regresja prosta
Rozwaamy przypadek jednej zmiennej objanianej Y oraz jednej zmiennej
objaniajcej X. Przyjmujemy, e zmienne zwizane s zalenoci stochastyczn
postaci
Y a bX u = , (*)
gdzie u jest zmienna losow o znanym rozkadzie reprezentujc skadnik losowy.
Odpowied Y skada si z czci deterministycznej a bX oraz czci losowej u.
Jeli dysponujemy n obserwacjami dokonanymi na y i x rwnanie (*) mona zapisa
jako:
(**)
i i i
y a bx u = , dla 1, 2,..., i n =
Tu naszym celem jest wyznaczy oszacowania nieznanych a i b
15
Przyczyny obecnoci skadnika losowego:
a) nieprzewidywalny element losowoci w ludzkich zachowaniach
b) wpyw wielu pominitych zmiennych
c) bd pomiaru y
16
Zaoenia nt skadnika losowego
i
u
1. warto oczekiwana rwna zero : ( ) 0
i
E u = dla wszystkich i .
2. jednakowa wariancja :
2 2
( )
i
D u = dla wszystkich i .
3. niezaleno:
i
u oraz
j
u s niezalene dla wszystkich i j .
4. niezaleno od
j
x :
i
u oraz
j
x s niezalene dla wszystkich i oraz j
(w przypadku prostej regresji wynika to z faktu, e
j
x s nielosowe)
5. normalno:
i
u maj rozkad normalny dla wszystkich i .
i
u maj niezalene rozkady normalne z wartoci oczekiwan rwn zero i
jednakow wariancj
2
. Wasno t zapisujemy
2
~ (0, )
i
u IN .
Poniewa ( ) 0
i
E u = , rwnanie (**) mona zapisa
( )
i i
E y a bx = / rwnanie regresji w populacji /
17
Metoda NK
Wybr takich oszacowa a i
min
n
i i
i
Q y a bx
=
=
,
minimalizujemy sum kwadratw bdw predykcji / wewntrz prby /.
Definiujemy:
2 2 2
( )
i i
SYY y y y ny = =
( )( )
i i i i
SXY x x y y x y nxy = =
2 2 2
( )
i i
SXX x x x nx = =
18
Estymatory NK
SXY
b
SXX
= oraz
a y bx = .
Reszty
i i i
u y a bx = .
Sprawdzi, e
0
i
u =
oraz 0
i i
x u =
,
19
Resztowa suma kwadratw (residual sum of squares RSS)
2
( )
i i
RSS y a bx =
( )
3.
( ) E b b = ,
2
2
( ) D b
SXX
= ,
4.
( )
2
cov( , )
x
a b
SXX
= ,
22
W przypadku, gdy warto
2
jest nieznana stosujemy nieobciony estymator
2
2
RSS
n
=
, w takim przypadku
2
SXX
b , jej pierwiastek
kwadratowy nazywa si bdem standardowym ( lub bdem redniokwadratowym
szacunku) i oznacza si
( ) SE b .
Podobna procedura w przypadku a. We wzorze na wariancj estymatora a,
wielko
2
zastpujemy
2
oraz obliczamy pierwiastek kwadratowy, aby wyznaczy
bd standardowy ( ) SE a .
23
Okazuje si, e
( )
a a
SE a
oraz
( )
b b
SE b
2
RSS
n
=
jest
nieobcionym estymatorem
2
, oraz
2
RSS
ma rozkad
2
z ( 2) n stopniami
swobody, rozkad RSS jest niezaleny od rozkadw a i
b .
24
Przykad: powiaty RP w 2005 roku
wynagrodzenie brutto = 2326,8459-13,3962*x; 0,85 Prz.Pred.
0 5 10 15 20 25 30 35 40 45
stopa bezrobocia
1200
1400
1600
1800
2000
2200
2400
2600
2800
3000
3200
3400
3600
3800
4000
w
y
n
a
g
r
o
d
z
e
n
i
e
b
r
u
t
t
o
stopa bezrobocia:wynagrodzenie brutto: r
2
= 0,1181; y = 2326,8459 - 13,3962*x
wynagrodzenie brutto = 2606,68-39,576*x+0,5465*x^2; 0,85 Prz.Pred.
0 5 10 15 20 25 30 35 40 45
stopa bezrobocia
1200
1400
1600
1800
2000
2200
2400
2600
2800
3000
3200
3400
3600
3800
4000
w
y
n
a
g
r
o
d
z
e
n
i
e
b
r
u
t
t
o
stopa bezrobocia:wynagrodzenie brutto: y = 2326,8459 - 13,3962*x
25
Podsumowanie regresji zmiennej zalenej: wynagrodzenie brutto
(6.0-POWIATY_2005) R= 0,343 R2= 0,118 Skorygowany R2= 0,116 F(1,377)=50,485 p=0,00
BETA Bd st. B Bd st. t(377) poziom p
W. wolny 2326,85 44,71 52,04 0,00
stopa bezrobocia -0,34 0,05 -13,40 1,89 -7,11 0,00
(44,71) (1,89)
2326, 85 13, 40 Y x =
Przewidywane wzgldem wartoci resztowych
Zmienna zalena: wynagrodzenie brutto
1700 1800 1900 2000 2100 2200 2300
Wart. przewidyw.
-1000
-800
-600
-400
-200
0
200
400
600
800
1000
1200
1400
1600
1800
2000
R
e
s
z
t
y
95% p.ufnoci
Wartoci przewidywane wzgldem obserwowanych
Zmienna zalena: wynagrodzenie brutto
1700 1800 1900 2000 2100 2200 2300
Wart. przewidyw.
1200
1400
1600
1800
2000
2200
2400
2600
2800
3000
3200
3400
3600
3800
4000
W
a
r
t
.
o
b
s
e
r
w
.
95% p.ufnoci
26
Reszta standaryzowane: wynagrodzenie brutto (6.0-POWIATY_2005) Odstajce
Obserwowane Przew. Reszta Standar. Standar. Bd std
lubiski . . . . . . *
3898,92 2091,07 1807,85 0,63 6,39 17,14
zgorzelecki . . . . .* . .
2931,96 1998,64 933,32 -0,27 3,30 15,04
czyski . . . . . * .
3240,27 2075,00 1165,27 0,47 4,12 16,06
bechatowski . . . . . .* .
3291,46 2096,43 1195,03 0,68 4,23 17,55
kozienicki . . . . * . . .
2728,18 2066,96 661,22 0,39 2,34 15,61
pruszkowski . . . . * . . .
2921,34 2174,13 747,21 1,43 2,64 25,37
Pock . . . . * . .
2906,91 2064,28 842,63 0,37 2,98 15,47
m.st. Warszawa . . . . . .* .
3465,19 2243,79 1221,40 2,10 4,32 33,87
krapkowicki . . . .* . . .
2721,26 2139,30 581,96 1,09 2,06 21,53
Gdask . . . .* . . .
2767,68 2172,79 594,89 1,42 2,10 25,21
Jastrzbie-Zdrj . . . . . . * .
3408,53 2099,11 1309,42 0,70 4,63 17,77
Katowice . . . . . * . .
3272,16 2223,70 1048,46 1,91 3,71 31,34
kpiski . . . * . . . .
1436,99 2207,62 -770,63 1,75 -2,73 29,35
koniski . . . .* . . .
2565,75 1958,45 607,30 -0,66 2,15 17,39
gryfiski . . . . * . . .
2551,88 1886,11 665,77 -1,36 2,35 24,51
policki . . . .* . . .
2652,86 2014,71 638,15 -0,11 2,26 14,62
Minimum . . . * . . . . 1436,99 1886,11 -770,63 -1,36 -2,73 14,62
Maksim. . . . . . . * 3898,92 2243,79 1807,85 2,10 6,39 33,87
rednia . . . . *. . . 2922,58 2094,51 828,08 0,66 2,93 21,11
Mediana . . . . *. . . 2914,13 2093,75 794,92 0,65 2,81 17,66
27
Wykres normalnoci reszt
-1000
-800
-600
-400
-200
0
200
400
600
800
1000
1200
1400
1600
1800
2000
Reszty
-4
-3
-2
-1
0
1
2
3
4
O
c
z
e
k
i
w
a
n
a
n
o
r
m
a
l
n
a
28
Analiza wariancji w modelu regresji / statystyczna istotno wszystkich
zmiennych jednoczenie/
rdo
wariancji
Suma
kwadratw
Liczba
stopni swobody
Przecitna
suma kwadratw
Regresja
X
reg
SS
1
/1
reg
SS
Resztowa RSS n-2
/( 2) RSS n
Cakowita
SYY
n-1
29
2
RSS
ma rozkad
2
z ( 2) n stopniami swobody,
2
reg
SS
ma rozkad
2
z ( 1) n stopniami swobody tylko wwczas gdy prawdziwa
warto b jest rwna zero.
Co wicej oba rozkady
2
s niezalene.
Przy zaoeniu, e 0 b = , otrzymujemy statystyk
1
( 2)
reg
SS
F
RSS n
=
,
ktra ma rozkad F z 1 i ( 2) n stopniami swobody.
Statystyk t stosuje si do weryfikacji hipotezy, e 0 b = .
30
Przykad c.d. / powiaty_2005 /
Analiza wariancji ; DV: wynagrodzenie brutto (6.0-POWIATY_2005)
Suma df rednia F poziom p
Regres. 4036235 1 4036235 50,48520 0,000000
Resztk. 30140722 377 79949
Razem 34176956
31
Predykcja w modelu regresji prostej
Oszacowane rwnanie regresji
y a bx = ,
prawdziwa warto
0
y jest rwna
0 0 0
y a bx u = ,
gdzie
0
u jest skadnikiem losowym.
Bd predykcji jest rwny:
0 0 0 0
( ) ( ) y y a a b b x u = ,
32
Poniewa ( ) 0 E a a = ,
( ) 0 E b b = oraz
0
( ) 0 E u = mamy
0 0
( ) 0 E y y = ,
prognoza jest nieobciona w tym sensie, e
0 0
( ) ( ) E y E y = ,
Zauwamy, e zarwno
0
y jak i
0
y s zmiennymi losowymi.
Wariancja bdu predykcji jest rwna
2 2 2 2 2
0 0 0 0 0
( ) ( ) ( ) 2 cov( , ) ( ) D y y D a a x D b b x a a b b D u = =
2 2
0 2 2 2 2
0
1
2
x x x
x
n SXX SXX SXX
1
= =
( )
2
0 2
1 ( )
1
x x
n SXX
l =
l
l
33
Wariancja ronie zatem wraz ze zwikszeniem odlegoci
0
x od x - od rodka
obserwacji na podstawie ktrych szacowano a i
b
-10
0
10
20
30
0 10000 20000 30000 40000
y
99% CI Fitted values
x
-
1
0
0
1
0
2
0
3
0
0 10000 20000 30000 40000
y
99% CI Fitted values
x
34
0 5 10 15 20 25 30 35 40 45
stopa bezrobocia
1200
1400
1600
1800
2000
2200
2400
2600
2800
3000
3200
3400
3600
3800
4000
w
y
n
a
g
r
o
d
z
e
n
i
e
b
r
u
t
t
o
35
regresja wieloraka
Analiza regresji jest jedn z najczciej wykorzystywanych technik statystycznych w
badaniach naukowych, analizie rynku itd. Warto podkreli, e pomimo szczeglnie
bogatej literatury, dugiej historii analiza regresji wci niesie z sob szereg
nierozwizanych problemw. Podkrelmy, e atwo analizy regresji zarwno w
wymiarze formalnym jak i interpretacyjnym jest pozorna.
Tu przedstawimy kilka wiadomoci nt najprostszego przykadu analizy regresji a
mianowicie tzw. modelu liniowego pierwszego stopnia (modelu regresji
wielorakiej). W wymiarze merytorycznym z grubsza rzecz biorc powiemy, e w
analizie regresji prowadzonej z jego wykorzystaniem chodzi o to aby wyrazi zaleno
pomidzy wartoci przecitn zmiennej objanianej (zalenej) a ustalonymi
poziomami zmiennych objaniajcych (niezalenych, predykatorw). Krtko: chcemy
36
wiedzie o ile przecitnie zmieni si warto zmiennej objanianej, gdy zwikszymy
(zmniejszymy) warto predyktora o jednostk.
37
Mamy n obserwacji
1 11 1
( , ,..., )
p
y x x ,
2 21 2
( , ,..., )
p
y x x ,,
1
( , ,..., )
n n np
y x x , n
obserwacji zmiennej y przy ustalonych poziomach p czynnikw
1
,...,
p
x x .
Staramy si znale liniow funkcj postaci
0 1 1 2 2 p p
y b b x b x b x =
wyraajc zaleno pomidzy zmiennymi, funkcja ktra uwzgldnia to co
zaobserwowalimy ( znale funkcj tu znaczy wskaza wspczynniki
0 1
,..., b b ).
W modelu liniowym pierwszego stopnia na obserwacje patrzy si z perspektywy
0 1 1 2 2 i i i p ip i
y b b x b x b x = , 1, 2,..., i n = , (*)
gdzie
i
oznaczaj niezalene bdy o przecitnej zero i wariancji
2
.
( obserwujemy odpowiedzi
i
y przy poziomach
1
,...,
i ip
x x w obecnoci zaburze
i
)
38
W zapisie macierzowym n rwna (*) przybiera posta
= Y Xb e,
gdzie
1
n
y
y
l
l
l
=
l
l
l
l
Y ,
11 1
1
1
1
p
n np
x x
x x
l
l
l
=
l
l
l
l
X
,
0
p
b
b
l
l
l
=
l
l
l
l
b ,
1
n
l
l
l
=
l
l
l
l
e ,
Naszym celem jest wskaza oszacowanie wektora wspczynnikw b. Istnieje szereg
kryteriw wyboru waciwego wektora wspczynnikw b, najczciej kryteria
sprowadzaj si do caociowego porwnania obserwowanych wartoci
i
y z
wartociami generowanymi przez oszacowany model
i
y za pomoc stosownej tzw.
funkcji kryterium. Podajemy tutaj postaci oszacowa (estymatorw) szeroko
rozpowszechnionej metody najmniejszych kwadratw (NK), w ramach ktrej
39
minimalizuje si sum kwadratw rnic pomidzy wartociami obserwowanymi a
wartociami generowanymi przez model (teoretycznymi).
Uwaga: Zakadamy e zmienne
1
,...,
p
x x s liniowo niezalene, tzn. rzd
T
X X
rwna si rzdowi X rwna si p. Wynika z tego, e istnieje
( )
1
T
X X
Estymator
T T
= b X X X Y.
40
41
Podsumowujc:
1. Estymator NK
0
T
p
b b
l
=
l
l
b dany jest jako
( )
1
T T
= b X X X Y.
2. Macierz kowariancji wektora
b jest proporcjonalna do
( )
1
2 T
X X
3. Dla ukadu poziomw
1
( ,..., )
p
x x moemy obliczy wariancj przewidywania y,
( )
1
2 2
1 1
( ) (1, ,..., ) (1, ,..., )
T T
p p
s y x x X X x x
= .
42
RESZTY NK
Moemy policzy tzw. wartoci teoretyczne
1
( )
T T
= = y X X X X y Hy.
Macierz ( )
ij
H h = to tzw. hat matrix (macierz z daszkiem).
Wektor reszt NK ma posta
( ) = = e y - Xb I - H y
43
Wprowadzajc wielkoci:
2
1
( )
n
reg i
i
SS y y
=
=
,
2
1
( )
n
i i
i
RSS y y
=
=
,
2
1
( )
n
i
i
SYY y y
=
=
,
Zauwaajc, e ma miejsce nastpujca dekompozycja wariancji zmiennej
objanianej regresj wzgldem zmiennych objaniajcych:
2 2 2
1 1 1
( ) ( ) ( )
n n n
i i i i
i i i
y y y y y y
= = =
=
.
Moemy zdefiniowa wspczynnik determinacji jako:
2
reg
SS
R
SYY
= .
44
ANALIZA WARIANCJI ZMIENNEJ OBJANIANEJ
rdo
wariancji
Suma
kwadratw
Liczba
stopni swobody
Przecitna
suma kwadratw
Regresja
wzgldem
1
,...,
p
x x
reg
SS
p
/
reg
SS k
Resztowa
RSS n-p-1
/( 1) RSS T k
Cakowita
SYY
n-1
45
WNIOSKOWANIE W MODELU REGRESJI WIELORAKIEJ
W modelu liniowym pierwszego stopnia na obserwacje patrzy si z perspektywy
0 1 1 2 2 i i i p ip i
y b b x b x b x = , 1, 2,..., i n = , (*)
gdzie
i
oznaczaj niezalene bdy o przecitnej zero i wariancji
2
.
( obserwujemy odpowiedzi
i
y przy poziomach
1
,...,
i ip
x x w obecnoci zaburze
i
)
Wystpowanie skadnikw losowych
i
jest skutkiem bdw pomiaru y oraz
bdnej specyfikacji zalenoci midzy y i poszczeglnymi x ami
46
Zaoenia odnonie skadnikw losowych
i
1. ( ) 0
i
E =
2.
2 2
( )
i
D = dla wszystkich i
3.
i
oraz
j
s niezalene dla kadego i j
4.
i
oraz
j
x s niezalene dla kadego i oraz j
5.
i
maj rozkad normalny dla wszystkich i
6. Midzy zmiennymi objaniajcymi nie zachodz liniowe zalenoci, adna ze
zmiennych objaniajcych nie moe by wyraona jako dokadna funkcja liniowa
innych zmiennych
47
Zakadamy take, e
i
y jest zmienn cig. Przy takich zaoeniach metoda NK
prowadzi do estymatorw nieobcionych, wariancja najmniejsza wrd wszystkich
nieobcionych estymatorw liniowych.
Mamy
2
2
( )
i
i
D b
RSS
= dla 1, 2,..., i k =
gdzie
i
RSS oznacza resztow sum kwadratw z regresji
i
x wzgldem wszystkich
pozostaych 1 k zmiennych x .
48
Przykad: Powiaty RP w 2005 roku
Podsumowanie regresji zmiennej zalenej: ludno na km2 (6.0-POWIATY_2005)
R= 0,76 R2= 0,58 Skorygowany R2= 0,579 F(4,374)=131,03 p=0,00
BETA Bd st. B Bd st. t(374) poziom p
W. wolny -297,33 210,11 -1,42 0,16
saldo migracji -0,02 0,04 -2,76 6,07 -0,45 0,65
stopa bezrobocia -0,19 0,04 -17,48 3,30 -5,29 0,00
wynagrodzenie brutto 0,03 0,04 0,07 0,09 0,80 0,42
ludnoci miejskiej 0,69 0,04 17,92 1,01 17,81 0,00
1 2 3 4
(210.11) (6.07) (3.30) (0.09) (1.01)