You are on page 1of 18

Ekonometria z pakietem Stata - skrypt

Karol Kuhl 25 wrzenia 2005

Spis treci
1 Krtkie wprowadzenie 2 Pakiet Stata jako kalkulator 3 Dziaania na macierzach w pakiecie Stata 4 Wczytywanie danych do pakietu Stata 5 Efektywna praca z pakietem Stata 6 Charakterystyki zbioru danych i zmiennych 7 Estymacja MNK w zapisie macierzowym 8 Estymacja MNK za pomoc polecenia regress 9 Zapisywanie wynikw oblicze do pliku 10 Omwienie wynikw estymacji KMRL 11 Liniowa kombinacja wspczynnikw regresji 12 Liniowe ograniczenia wspczynnikw regresji 13 Opis zbioru danych 14 Prosty model ekonometryczny 2 2 2 3 5 5 7 7 8 9 14 16 17 17

Krtkie wprowadzenie

Program Stata jest uniwersalnym pakietem statystycznym wykorzystywanym w statystyce, ekonometrii, socjologii, psychometrii, biometrii i innych dziedzinach. Umoliwia on m.in. obrbk zbiorw danych, przedstawianie ich zawartoci w formie gracznej, estymacj modeli statystycznych, prowadzenie oblicze na macierzach. Po uruchomieniu programu, na ekranie pojawia si gwne okno zatytuowane Intercooled Stata, w ktrym widoczne s nastpujce okna: Stata Results - okno, w ktrym wywietlane s wyniki oblicze, komunikaty bdw i inne informacje dotyczce biecej sesji, Stata Command - wiersz polece, w ktrym wpisuje si polecenia wykonywane przez program, Review - zapis wszystkich (poprawnych i nie poprawnych) polece wywoanych z wiersza polece podczas biecej sesji, Variables - okno, w ktrym wywietlane s wszystkie zmienne z biecego zbioru danych. Najwaniejszymi ikonami skrtw s: Do-le Editor - edytor plikw wsadowych (plikw z rozszerzeniem .do); wywouje si go za pomoc pitej ikony od lewej strony. Data Editor - arkusz z danymi; wywouje si go za pomoc czwartej ikony od prawej, Praca w pakiecie Stata moe odbywa si na dwa sposoby: (1) poprzez polecenia wpisywane do i uruchamiane z wiersza polece lub (2) poprzez polecenia wpisane do pliku wsadowego (pliki z rozszerzeniem .do) i uruchamiane z edytora plikw wsadowych.

Pakiet Stata jako kalkulator

Cho podstawawowym zadaniem pakietu Stata s obliczenia prowadzone na zbiorach danych, to mona go rwnie uywa do podrcznych oblicze, jako rozbudowany kalkulator. Suy do tego polecenie display wpisywane do wiersza polece, przykadowo: display (7*(6+5)/4)^(-0.3) Ponadto polecenie display pozwala korzysta ze zdeniowanych funkcji matematycznych, w tym statystycznych. Warto dystrybuanty rozkadu normalnego standardowego w punkcie 1.96 mona obliczy w nastpujcy sposb: display norm(1.96)

Dziaania na macierzach w pakiecie Stata

Pakietu Stata mona uywa do prowadzenia dziaa na macierzach. Pierwszym krokiem w tym kierunku jest deklaracja macierzy za pomoc polecenia matrix. Aby zdeniowa macierz: 1 4 1 2 X= 1 3 1 5 naley w wierszu polece wpisa: matrix X=(1,4\1,-2\1,3\1,-5) i potwierdzi wciniciem klawisza Enter. W ten sposb zdeniowana zostanie w pamici programu macierz oznaczona symbolem X. Uwaga: pakiet Stata rozrnia wielko znakw w nazwach macierzy. Aby sprawdzi, czy elementy macierzy s prawidowo wpisane mona wywietli j za pomoc polecenia: 2

matrix list X Powysze polecenie wymaga znajomoci nazwy macierzy. Nazwy (i wymiary) wszystkich zdeniowanych macierzy mona uzyska za pomoc polecenia: matrix dir Dziaania na macierzach dostpne w pakiecie Stata obejmuj m.in. transpozycj, dodawanie mnoenie przez skalar, mnoenie, odwracanie. Dobr ilustracj moe by zadanie obliczenia macierzy P = X(X X)1 X i M = I P, dla danej wyej macierzy X. Pierwszym krokiem moe by obliczenie macierzy symetrycznej X X, ktrej nadana zostanie nazwa XX: matrix XX=X*X Po wywietleniu jej za pomoc polecenia: matrix list XX okazuje si, e macierze symetryczne s w pakiecie Stata przedstawiane w postaci trjktnej, tzn. elementy znad gwnej przektnej (bdce odbiciem elementw spod gwnej przektnej) nie s wywietlane. Nastpnym krokiem jest zdeniowanie macierzy odwrotnej XX1 : matrix IXX=inv(XX) Do tego celu wykorzystana zostaa funkcja inv, ktrej argumentem musi by macierz kwadratowa. Kolejnym krokiem moe by zdeniowanie caej macierzy P w oparciu o policzone wczeniej macierze: matrix P=X*IXX*X Aby policzy macierz M wygodnie jest wykorzysta funkcj I(n), ktra tworzy macierz jednostkow o wymiarze n: matrix I4=I(4) Wtedy macierz M deniuje si w nastpujcy sposb: matrix M=I4-P Oczywicie wszystkie powysze polecenia mona zebra w jedno: matrix M=I(4)-X*inv(X*X)*X Ciekawy wynik uzyskuje si mnoc macierze M i P: matrix MP=M*P matrix list MP Pierwszym elementem macierzy MP jest liczba 2.082e-17 (czyli 2.08 1017 ) chocia powinno to by zero. Rozbieno wynika std, e pakiet Stata prowadzi obliczenia numerycznie, a nie analitycznie. Oczywicie liczba 2.08 1017 jest bardzo bliska zeru.

Wczytywanie danych do pakietu Stata

Zbiory danych, na ktrych prac umoliwia pakiet Stata, s tabelami zawierajcymi informacje numeryczne lub tekstowe. Kolumny tabeli nazywaj si zmiennymi, a wiersze - obserwacjami. Przykadem zbioru danych moe by lista obecnoci, w ktrej wystpuj zmienne: liczba porzdkowa (zmienna numeryczna), imi (zmienna tekstowa), nazwisko (zmienna tekstowa), nr indeksu (zmienna numeryczna). Obserwacjami w takim zbiorze s wpisy dotyczce poszczeglnych osb. Zbiory danych mona do pakietu Stata wczytywa na kilka sposobw: 1. Bezporednio w trybie edycji danych. 3

2. Wklejajc dane z tabeli zdeniowanej w innym programie (np. Excel). 3. Z zewntrznego zbioru z danymi (np. pliku .txt). 4. Ze zbioru danych w formacie pakietu Stata. Uwaga: przed wyprbowaniem kadego z powyszych sposobw naley wyczyci pami pakietu Stata za pomoc polecenia: clear all Metoda 1 polega na otwarciu okna Stata Editor i rcznym wpisaniu wartoci zmiennych. W tym celu naley klikn czwart ikon od prawej strony i po pojawieniu si arkusza, wpisywa kolejne wartoci. Domylne nazwy zmiennych (var1, var2, itd.) pojawi si automatycznie. Podobnie bdzie z numerami obserwacji. Braki danych oznaczone s przez kropk. Zakoczenie rcznego wpisywania danych odbywa si poprzez zamknicie okna Stata Editor. To, e zbir danych jest ju wczytany objawia si tym, e w oknie Variables widoczne s nazwy zmiennych. W metodzie 2 do arkusza Stata Editor wkleja si dane skopiowane w innych programach. Mona w ten sposb wczyta na przykad tabel z programu Excel. Tabel naley zaznaczy i skopiowa (np. skrtem Control+C), i wklei (Control+V) w pierwsz komrk arkusza Stata Editor. Nazwy zmiennych i obserwacje pojawi si automatycznie. Po takiej operacji w oknie Stata Results pojawi si komunikat o liczbie wklejonych zmiennych i obserwacji. Metoda 3 wymaga: po pierwsze pliku z danymi w formacie .txt, po wtre znajomoci nazwy i cieki dostpu do tego pliku. Pierwszym krokiem do zastosowania tej metody jest zmiana domylnej cieki dostpu na waciw. Jeeli plik dane.txt znajduje si w folderze l:\ekonometria, to waciw cieki ustawia si poprzez polecenie: cd "l:\ekonometria" Moliwe jest wtedy wywietlenie zawartoci biecego katalogu za pomoc polecenia dir. Jeeli plik dane.txt pojawi si na licie plikw w folderze, to mona go wczyta za pomoc polecenia: insheet using "dane.txt", names delimiter(" ") Jest to plik tekstowy o strukturze podobnej do struktury zbioru danych (nazwy zmiennych w pierwszym wierszu, zmienne w kolumnach, obserwacje w wierszach), w ktrym dla kadej obserwacji wartoci kolejnych zmiennych oddzielone s spacj (std opcja delimiter). Oto pierwsze 6 wierszy tego zbioru: y x 946.6 192.4 923.8 157 949 170 750.5 43.8 536.3 8.5 Po takiej operacji w oknie Stata Results pojawi si komunikat o liczbie wczytanych zmiennych i obserwacji, natomiast w oknie Variables pojawi si nazwy zmiennych. Metoda 4 jest najprostsza - polega na otwarciu odpowiedniego pliku. Jak prawie kady pakiet statystyczny, Stata ma swj wasny format zapisywania zbiorw danych. Pliki zawierajce dane w tym formacie maj rozszerzenie .dta. Wczytywanie danych w tym formacie odbywa si np. poprzez otwarcie pliku w programie Stata. Zapisanie danych w tym formacie odbywa si analogicznie. Pliki .dta mona rwnie otwiera z wiersza polece. Jeeli w folderze znajduje si szukany plik .dta (co mona sprawdzi za pomoc polecenia dir), to wczytanie zbioru inwestycje.dta odbywa si w nastpujcy sposb: use inwestycje

Efektywna praca z pakietem Stata

Program Stata pozwala zautomatyzowa prac dziki wykonywaniu polece zawartych w plikach wsadowych (plikach typu-do - nazwa zwizana jest z rozszerzeniem: .do). S to pliki tektstowe, ktre mona otworzy i uruchomi w oknie Stata Do-le Editor. Przykadowy plik macierze.do wyglda nastpujco: matrix matrix matrix matrix matrix matrix matrix matrix matrix matrix matrix matrix matrix matrix matrix matrix matrix matrix X = (1,4\1,-2\1,3\1,-5) list X dir XX = X * X list XX dir IXX = inv(XX) list IXX P = X * IXX * X list P I4 = I(4) list I4 M = I4 - P list M M = I(4) - X*IXX*X list M MP = M * P list MP

Powyszy plik typu-do wykonuje opisane wczeniej dziaania na macierzach. Po otwarciu pliku w oknie Stata Do-le Editor, uruchomienie odbywa si poprzez zaznaczenie jego fragmentu i wcinicie drugiej ikony od prawej strony Do current le. Spowoduje to wykonanie, po kolei polece z kolejnych wierszy tak, jakby byy one wywoywane z wiersza polece. Praca w programie Stata powinna by prowadzona za pomoc plikw typu-do wtedy, gdy liczba polece wywoywanych z wiersza polece przekracza 2. Taki tryb pracy jest pocztkowo trudny, ale warto jest go stosowa poniewa stosunkowo szybko przynosi korzyci w postaci zwikszonej efektywnoci.

Charakterystyki zbioru danych i zmiennych

Po wczytaniu danych dobrze jest sprawdzi liczb obserwacji oraz liczb zmiennych i ich typ. Iformacje nt. zbioru danych wywoywane s za pomoc polecenia: describe W przypadku danych z pliku dane.txt wyswietlone zostan nastpujce informacje: Contains data obs: 200 vars: 2 size: 2,400 (99.9% of memory free) ------------------------------------------------------------------------------storage display value variable name type format label variable label ------------------------------------------------------------------------------y float %9.0g x float %9.0g ------------------------------------------------------------------------------Sorted by: Note: dataset has changed since last saved

Wynika z nich, e zbir danych utworzony z pliku dane.txt zawiera 200 obserwacji i 2 zmienne, zajmuje 2400Kb pamici. Zmienne w tym zbiorze to x i y, obydwie s typu numerycznego (oat ). Statystyki opisujce zmienne typu numerycznego (liczba wanych obserwacji, rednia, odchylenie standardowe, minimum, maksimum) mona wywoa za pomoc polecenia: summarize x y Otrzymuje si wtedy: Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------x | 200 95.603 57.45135 .8 199.6 y | 200 702.31 154.6516 321.5 1164 Najprostsz miar wspzalenoci, wspczynnik korelacji Pearsona, wywouje si za pomoc polecenia: correlate x y Wynik przedstawiony jest w postaci tabeli: (obs=200) | x y -------------+-----------------x | 1.0000 y | 0.6812 1.0000 W celu wywietlenia histogramu opisujcego rozkad zmiennej x, naley uy polecenia: histogram x Realizacja tego polecenia zajmuje troch czasu, a jego wynik pojawia si w nowym oknie patrz rysunek 1. Natomiast celem wywietlenia wykresu rozrzutu (wykresu punktowego) opisujcego Rysunek 1: Przykadowy histogram.
.008 0 0 .002 Density .004 .006

50

100 x

150

200

rozkad zmiennych y i x, naley uy polecenia: scatter y x Ponownie wyniki realizacji dostpne s w nowym oknie patrz rysunek 2.

Rysunek 2: Przykadowy wykres rozrzutu.


1200 400 0 600 y 800 1000

50

100 x

150

200

Estymacja MNK w zapisie macierzowym

Obliczenia zostan przeprowadzone na danych zawartych w pliku dane.txt, ktry naley wczyta za pomoc odpowiedniego polecenia. Wykres rozrzutu (rysunek 2) pokazuje, e pomidzy zmiennymi wystpuje dodatni zwizek. Mona zatem podj prb opisania tego zwizku za pomoc modelu regresji liniowej. Aby skorzysta z zapisu macierzowego naley najpierw zadeklarowa odpowiedni ilo pamici (polecenie set matsize 800), a nastpnie utworzy potrzebne macierze y i X. Suy do tego polecenie: mkmat x, matrix(x2) ktre ze zmiennej x tworzy wektor kolumnowy x2. Analogicznie tworzony jest wektor kolumnowy y. Macierz X zawiera kolumn jedynek. Mona j utworzy jako wektor x1 za pomoc polecenia: matrix x1=J(200,1,1) w ktrym funkcja J tworzy macierz o wymiarze 200 na 1, ktrej kadym elementem jest 1, czyli dwustuelementowy kolumnowy wektor jedynek. czenie wektorw w macierz poprzez zestawienie kolumn odbywa si w nastpujcy sposb: matrix X=x1,x2 W ten sposb zdeniowana zostaa macierz X, dziki czemu mona policzy wektor b = (X X)1 X y: matrix b=inv(X*X)*X*y Aby wywietli elementy wektora b, naley uy polecenia: matrix list b Oceny parametrw regresji liniowej zmiennej y na zmienn x zapisane s jako elementy macierzy b o wymiarach 2 na 1: b[2,1] c1 x y 526.799756 1.8337546

Estymacja MNK za pomoc polecenia regress

Majc zmienne y i x mona policzy oceny punktowe estymatorw MNK (oraz wiele innych wielkoci) za pomoc polecenia: 7

Rysunek 3: Histogram reszt.


.005 0 400 .001 Density .002 .003 .004

200

0 Residuals

200

400

Rysunek 4: Wartoci surowe i dopasowane.


1200 400 0 600 800 1000

50 y

100 x Linear prediction

150

200

regress y x Bezporednio po zastosowaniu polecenia reg mona wygenerowa dwie interesujce zmienne: e (reszty modelu e) i yy (wartoci teoretyczne y ) za pomoc polece: predict e, r predict yy, xb Zmienna e powinna, zgodnie z zaoeniami modelu powinna mie rozkad zbliony do normalnego, co mona wizualnie sprawdzi za pomoc polecenia: histogram e Natomiast zmienna yy powinna by liniow funkcj zmienne x, co mona wizualnie sprawdzi za pomoc polecenia: scatter yy x Wyniki przedstawiaj rysunki 3 i 4.

Zapisywanie wynikw oblicze do pliku

Pierwszym krokiem pracy w programie Stata jest wyczyszczenie pamici i ustwienie cieki dostpu do folderu zawierajcego plik z danymi: 8

clear all cd "l:\ ekonometria" Nastpnie naley zadeklarowa nazw zewntrznego pliku, do ktrego maj by zapisywane wyniki, ktre ukazuj si w oknie Stata Results: log using dziennik, replace Po czym naley t opcj wczy: log on Wszystko co od tego momentu ukae si w oknie Stata Results zostanie zapisane w pliku dziennik.smcl, a do momentu, w ktrym opcja zapisu zostanie wyczona poprzez polecenie: log off Na koniec sesji naley zamkn zapisywanie poprzez: log close Pliku dziennik.smcl jest plikiem, ktrego prawidowo nie otworzy si poza programem Stata. W celu przetumaczenia tego pliku na plik tekstowy uywa si polecenia: translate dziennik.smcl dziennik.txt, replace Plik dziennik.txt mona otworzy i edytowa w edytorze tekstowym, np. programie Word.

10

Omwienie wynikw estymacji KMRL

Poniej znajduje si 20 obserwacji zmiennych x2, x3, y, ktre zostay wykorzystane do oszacowania parametrw KMRL: x2 89 48 22 93 89 86 19 62 73 54 8 38 4 80 41 50 36 29 41 19 x3 248 209 214 211 230 203 227 235 212 210 223 231 209 243 235 218 218 213 241 248 y 445 394 324 424 471 476 294 395 427 419 297 351 280 392 354 382 376 295 340 310

Na podstawie powyszych danych estymowany jest nastpujcy model: yi = 1 + 2 xi2 + 3 xi3 +


i iid i

N(0, )

Parametry powyszego KMRL szacuje si za pomoc polecenia: 9

reg y x2 x3 Pakiet Stata zwraca nastpujcy zestaw wynikw: Source | SS df MS -----------+-----------------------------Model | 61394.8437 2 30697.4219 Residual | 8055.3563 17 473.844488 -----------+-----------------------------Total | 69450.20 19 3655.27368 Number of obs F( 2, 17) Prob > F R-squared Adj R-squared Root MSE = = = = = = 20 64.78 0.0000 0.8840 0.8704 21.768

---------------------------------------------------------------------------y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -----------+---------------------------------------------------------------x2 | 1.997733 .1762852 11.33 0.000 1.625804 2.369663 x3 | -.5884121 .3521532 -1.67 0.113 -1.33139 .1545662 _cons | 406.0566 79.01142 5.14 0.000 239.3571 572.7561 ---------------------------------------------------------------------------W tabeli z wynikami podane s: liczba obserwacji i liczba zmiennych (oraz staa): Source | SS df MS -----------+-----------------------------Model | Residual | -----------+-----------------------------Total | Number of obs F( , ) Prob > F R-squared Adj R-squared Root MSE = = = = = = 20

---------------------------------------------------------------------------y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -----------+---------------------------------------------------------------x2 | x3 | _cons | ---------------------------------------------------------------------------Zgodnie z oczekiwaniami n = 20, a liczba zmiennych jest rwna liczbie wierszy w dolnej tabeli, czyli k=3. Ocena wektora dana jest wzorem: b1 b = b2 = (X X)1 X y . b3 Wielkoci b1 , b2 , b3 odczytuje si z dolnej czsci tabeli. Naley pamita, e program Stata wywietla je w innej kolejnoci, tzn. staa modelu (oznaczona sowem cons) znajduje sie na ostatnim miejscu. ---------------------------------------------------------------------------y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -----------+---------------------------------------------------------------x2 | 1.997733 x3 | -.5884121 _cons | 406.0566 ---------------------------------------------------------------------------Zatem: 406.0566 b = 1.997733 0.5884121 10

Poza wektorem szacowana jest rwnie wariancja skadnika losowego 2 . Zgodnie ze wzorem estymatorem tego parametru jest: 2 = ee y (I X(X X)1 X )y = nk nk

Program Stata zgasza pierwiastek tej wartoci (MSE to skrt od mean square error ): Source | SS df MS -----------+-----------------------------Model | Residual | -----------+-----------------------------Total | Number of obs F( 2, 17) Prob > F R-squared Adj R-squared Root MSE = = = = = =

21.768

Czyli: 2 = 21.7682 = 473.845. Estymator macierzy wariancji-kowariancji dany jest wzorem: Var[b1 ] Cov[b1 , b2 ] Cov[b1 , b3 ] y (I X(X X)1 X )y Var[b] = Cov[b1 , b2 ] (X X)1 Var[b2 ] Cov[b2 , b3 ] = nk Cov[b1 , b3 ] Cov[b2 , b3 ] Var[b3 ] Pakiet Stata sam z siebie nie wywietla tej macierzy w caoci, ale w tabeli z wynikami znajduj si bdy standardowe ocen parametrw, bdce pierwiastkami elementw znajdujcych si na gwnej przektnej tej macierzy: ---------------------------------------------------------------------------y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -----------+---------------------------------------------------------------x2 | .1762852 x3 | .3521532 _cons | 79.01142 ---------------------------------------------------------------------------Zatem (ponownie uwaga na kolejno): Var[b1 ] = 79.011422 = 6242.804 Var[b2 ] = 0.17628522 = 0.310765 Var[b3 ] = 0.35215322 = 0.124012 Do oceny jakoci dopasowania modelu uywa si dekompozycji sumy kwadratw odchyle zmiennej objanianej od jej redniej (TSS - total sum of squares) na sum kwadratw wyjanion modelem (ESS - explained sum of squares) oraz sum kwadratw nie wyjanion modelem (RSS 1 - residual sum of squares). Pamitajc od macierzy idempotentnej M0 = I n ii , ktra przemienia macierz w macierz odchyle od rednich, mona dekompozycj cakowitej zmiennoci zapisa nastpujco: T SS = ESS + RSS y M0 y = b X M0 Xb + e e Program Stata oblicza kad z powyszych wielkoci: Source | SS df MS -----------+-----------------------------Model | 61394.8437 Residual | 8055.3563 -----------+-----------------------------Total | 69450.20 11 Number of obs F( , ) Prob > F R-squared Adj R-squared Root MSE = = = = = =

I std: T SS = 69450.20 ESS = 61394.8437 RSS = 8055.3563 .

Wspczynnik determinacji liniowej jest obliczany zgodnie ze wzorem: R2 = ESS RSS =1 T SS T SS

Zawsze istnieje moliwo polepszenia jakoci dopasowania poprzez zwikszenie liczby regresorw w modelu. Dlatego inn miar dopasowania jest skorygowany wpczynnik determinacji liniowej, ktry bierze pod uwag liczb regresorw. Opisany jest on wzorem:
2 R = 1 (1 R2 )

n1 nk

Program Stata zgasza obydwie te wielkoci. Source | SS df MS -----------+-----------------------------Model | Residual | -----------+-----------------------------Total | W oszacowanym modelu wspczynniki te wynosz: R2 = 0.8840 = 88.4%
2 R = 0.8704 = 87.04%

Number of obs F( 2, 17) Prob > F R-squared Adj R-squared Root MSE

= = = = = =

0.8840 0.8704

Zgodnie z zaoeniami KMRL, wektor b jest wektorem losowym o rozkadzie normalnym z nastpujcymi parametrami (wektorem wartoci oczekiwanych i macierz wariancji-kowariancji): Eb = [1 , 2 , . . . , k ] Varb = 2 (X X)1

Kady z elementw wektora b mona podda standaryzacji w celu otrzymania zmiennej losowej o rozkadzie normalnym standardowym:
2 bj N(j , j )

b j j N(0, 1) j = 1 k j

Niestety macierz wariancji-kowariancji nie jest znana i musi by szacowana za pomoc Varb = ee 1 . W zwizku z tym, powysza standaryzacja odbywa si poprzez podzielenie przez j , nk (X X) czego konsekwenjc jest inny rozkad takiej zmiennej: b j j tnk j j = 1k

Dziki temu mona testowa hipotezy statystyczne mwice o tym, e j = 0. Jeeli taka hipoteza b byaby prawdziwa, to statystyka tj = j ma rozkad t-Studenta o n k stopniach swobody. j Jeeli zatem warto tej statystyki wpadnie do obszaru krytycznego (czyli stanie si co mao prawdopodobnego), to hipotez zerow naley odrzuci i tym samym regresor j staje si istotny statystycznie.

12

Aby sprawdzi, czy warto statystyki zawiera si w przedziale krytycznym, ocenia si prawdopodobiestwo dla tej statystyki (oznaczane w pakietach statystycznych: p-value, prob, P>|t|). Wylicza si je w oparciu o wzr: p valuej = 2(1 Ftnk ( bj )) j

w ktrym Ftnk to dystrybuanta rozkadu t-Studenta o n k stopniach swobody. Jeeli prawdopodobiestwo jest wiksze od zaoonego a priori poziomu istotnoci, to warto statystyki nie zawiera si w zbiorze krytycznym i nie ma podstaw do odrzucenia hipotezy zerowej. ---------------------------------------------------------------------------y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -----------+---------------------------------------------------------------x2 | 1.997733 .1762852 11.33 0.000 x3 | -.5884121 .3521532 -1.67 0.113 _cons | 406.0566 79.01142 5.14 0.000 ---------------------------------------------------------------------------Hipoteza mwica o tym, e 2 = 0 jest odrzucana poniewa: t2 = 1.997733 11.33 0.1762852

co jest wartoci na tyle du (co do wartoci bezwgldnej), e zawiera si w obszarze odrzuce, o czym wiadczy bardzo maa wart prawdopodobiestwa. Rwnie hipoteza mwica o tym, e 1 = 0 (staa) jest odrzucana. Natomiast analogiczna hipoteza dotyczca 3 nie jest odrzucana poniewa 0.113 > 5% (5% to standardowy poziom istotnoci testw). Mwi si wtedy, e zmienna nie jest istotna w tak wyspecykowanym modelu. W oparciu o fakt, e: b j j tnk j j = 1k

mona konstruowa przedziay ufnoci dla parametrw bj : Pr(t < /2 b j j < t ) = 1 /2 j

gdzie t to warto krytyczna taka, e dla zmiennej losowej o rozkadzie t: /2 Pr(t > t ) = /2 /2 Ostatecznie przedziay ufnoci o poziomie 1 /2 s nastpujce: (bj j t ; bj + j t ) /2 /2 Warto krytyczna dla rozkadu t o n k = 17 stopniach swobody i = 5% wynosi t 0.025 2.11. ---------------------------------------------------------------------------y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -----------+---------------------------------------------------------------x2 | 1.997733 .1762852 1.625804 2.369663 x3 | -.5884121 .3521532 -1.33139 .1545662 _cons | 406.0566 79.01142 239.3571 572.7561 ---------------------------------------------------------------------------95%-przedzia ufnoci dla staej w modelu wynosi: b1 j t = 406.0566 79.01142 2.11 (239.3571; 572.7561) /2 Istnieje rwnie moliwo testowania hipotezy nt. istotnoci caej regresji. Hipoteza zerowa ma w tym przypadku posta H0 : 2 = 2 = = k = 0, natomiast hipoteza alternatywna mwi 13

o tym, e przynajmniej jeden z parametrw jest rny od zera. Jeeli taka hipoteza byaby prawdziwa, to dostpne byyby dwa estymatory wariancji skadnika losowego 2 : ESS = b X M0 Xb 2 RSS = e e 2 Powysze estymatory s zmiennymi losowym o rozkadach 2 i liczbie stopni swobody rwnej odpowiednio n k i n 1. W zwizku z tym statystyka: F = ESS /(k 1) 2 RSS /(n k) 2

miaaby rozkad F-Snedecora o k 1 i n k stopniach swobody. Powyszy wzr mona uproci: F = = = ESS /(k 1) 2 b X M0 Xb/(k 1) = 2 RSS /(n k) e e/(n k) ESS/(k 1) = RSS/(n k)
ESS T SS /(k RSS T SS /(n

1) k)

R2 /(k 1) Fk1,nk (1 R2 )/(n k)

Hipoteza zerowa (H0 : 2 = 2 = = k = 0) jest odrzucana, jeeli warto tej statystyki przekroczy warto krytyczn F . wiadczy o tym odpowiednia warto prawdopodobiestwa dla tej statystyki: jeeli prawdopodobiestwo jest mniejsze od zaoonego poziomu, to hipoteza jest odrzucana, a regresja statystycznie istotna. Source | SS df MS -----------+-----------------------------Model | 61394.8437 2 30697.4219 Residual | 8055.3563 17 473.844488 -----------+-----------------------------Total | 69450.20 Program Stata oblicza kolejne wartoci: F = 30697.4219 61394.8437/2 = 64.78 8055.3563/17 473.844488 Number of obs F( 2, 17) Prob > F R-squared Adj R-squared Root MSE = = = = = = 64.78 0.0000

Ostatecznie hipoteza o cznej nieistotnoci wspczynnikw regresji jest odrzucana poniewa 0.0000 5%.

11

Liniowa kombinacja wspczynnikw regresji

Pakiet Stata umoliwia rwnie oddzielne testowanie hipotez nt. liniowych kombinacji elementw wektora wspczynnikw. Kombinacja liniowa elementw zmiennej losowej o wielowymiarowym rozkadzie normalnym jest zmienn losow o rozkadzie normalnym: b1 k b2 v b = [v1 , v2 , , vk ] = vi bi N i=1 bk Warto oczekiwana zmiennej losowej bdcej kombinacj liniow elementw zmiennej losowej o wielowymiarowym rozkadzie normalnym jest tak sam kombinacj liniow wartoci oczekiwanych elementw teje wielowymiarowej zmiennej losowej:
k k

E(v b) = v E(b) =
i=1

vi E(bi ) =
i=1

vi i

14

Wariancja zmiennej losowej bdcej kombinacj liniow elementw zmiennej losowej o wielowymiarowym rozkadzie normalnym jest nastpujc form kwadratow: Var(v b) = v Var(b)v Do tego typu oblicze suy w pakiecie Stata polecenie lincom uyte bezporednio po oszacowaniu modelu (!!!). W celu ponownego sprawdzenia istotnoci wspczynnika przy zmiennej x3 naley wpisa: lincom 0*x2+1*x3+0*_cons co odpowiada przemnoeniu wektora wspczynnikw przez wektor v = [0, 1, 0] . Naley pamita o tym, e Stata umiejscawia wspczynnik przy wyrazie wolnym na kocu listy wspczynnikw. Wynikiem takiego polecenia jest: ( 1) x3 = 0

-----------------------------------------------------------------------------y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------(1) | -.5884121 .3521532 -1.67 0.113 -1.33139 .1545662 -----------------------------------------------------------------------------co odpowiada wierszowi wczeniejszej tabeli. Zagadnieniem zblionym jest wyznaczanie prognoz na podstawie oszacowanego modelu. Majc wektor b = (X X)1 X y, mona szacowa warto zmiennej objanianej przy zadanych wartociach zmiennych objaniajcych:
k

y = x b =
i=1

x bi i

W tej sytuacji, rozwaany na pocztku, wektor v przyjmuje wartoci v = [x , x , , x ] . Na 1 2 k zasadzie analogii, zmienna losowa y ma rozkad normalny z wartoci oczekiwan rwn: 1 k 2 E(y ) = E(x b) = x E(b) = x = [x1 , x2 , , xk ] = x i i i=1 k i wariancj rwn: Var(y ) = Var(x b) = x Var(b)x 2 1 Cov12 2 2 Cov12 = [x1 , x2 , , xk ] Cov1k Cov2k Cov1k x1 Cov2k x 2 = 2 2 k x k

W tym przypadku wariancja jest sum zawierajc poszczeglne wariancje i kowariancje, poniewa elementy wektora b s pomidzy sob skorelowane. Wnioskowanie statystyczne nt. y rwnie bazuje na standaryzacji: y y N(0, 1) Znw nieznan macierz V przyblia si jej oszacowaniem i znw wnioskowanie statystyczne nt. y prowadzone jest w oparciu o: y y t(nk) 15

W przypadku prognozy najbardziej interesujce s: jej ocena punktowa i przedzia ufnoci dla niej. Ocen punktow oblicza si podstawiajc do oszacowanego rwnania regresji odpowiednie wartoci z wektora x : y = x b Uwaga: element tego wektora odpowiadajcy wyrazowi wolnemu musi by rwny 1. Natomiast przedzia ufnoci wyznaczaj liczby: x b t ,nk 2 gdzie t ,nk jest kwantylem rzdu rozkadu t z n k stopniami swobody. 2 2 Do przeprowadzania tych oblicze w pakiecie Stata rwnie suy polecenie lincom, uyte bezporednio po oszacowaniu modelu. Prognoza modelu oszacowanego wczeniej dla x2=0.5 i x3=0.7 odbywa si w nastpujcy sposb: lincom 0.5*x1+.7*x2+1*_cons co odpowiada przemnoeniu wektora wspczynnikw przez wektor [0.5, 0.7, 1] (pod warunkiem, e w wektorze b wyraz wolny jest elementem ostatnim). Wynikiem jest: ( 1) .5 x2 + .7 x3 + _cons = 0

-----------------------------------------------------------------------------y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------(1) | 406.6436 78.76191 5.16 0.000 240.4705 572.8167 -----------------------------------------------------------------------------Zatem prognoza zmiennej y dla x2=0.5 i x3=0.7 wynosi 406.64, a 95%. przedzia ufnoci dla niej to przedzia (240.47,572.82).

12

Liniowe ograniczenia wspczynnikw regresji

Innym przykadem ograniczenia moe by warunek: 2 + 3 = 1, ktry mona przedstawi w zapisie macierzowym za pomoc odpowiedniego wektora v: 1 2 v = [0, 1, 1, , 0] 3 = 2 + 3 = 1 k Testowanie takiego warunku opiera si o nastpujc statystyk: (b2 + b3 ) (2 + 3 )
2 2 2 + 3 + 2Cov23

(b2 + b3 ) 1
2 2 2 + 3 + 2Cov23

t(nk)

Test takiego warunku mona przeprowadzi za pomoc polecenia test (wykonywanego po oszacowaniu modelu): test (x2+x3=1) Polecenie test opiera si o inn statystyk testujc - F , ktra co do wartoci jest rwna kwadratowi statystyki t. Przykadowym wynikiem jest: ( 1) x2 + x3 = 1 F( 1, 17) = Prob > F = 1.13 0.3030

W tym przypadku niewielka warto statystyki F (dua warto prawdopodobiestwa) nie pozwalaj odrzuci hipotezy zerowej mwicej o tym, e 2 + 3 = 1. 16

13

Opis zbioru danych

Wczytanie zbioru danych inwestycje.dta odbywa si poprzez polecenie: use "l:\ekonometria\inwestycje" Uwaga: pakiet Stata domyla si, jakiego formatu s te dane. Po wczytaniu mona wywietli ich opis: describe z ktrego wynika, e zmienne nie maj etykiet (kolumna variable label jest pusta). Przed nadaniem etykiet dobrze jest wiedzie, czego dotycz dane. Zbir inwestycje.dta pochodzi z materiaw szkoleniowych doczonych do podrcznika Econometric Analysis (W.H.Greene [2000]) i zawiera amerykaskie dane makroekonomiczne z lat 1968-1982. Kolejne zmienne to: year - rok, gnp - nominalny PNB (w mld USD), invest - nominalne inwestycje (w mld USD), cpi - wskanik zmian cen, interest - stopa procentowa. Etykiety nadaje si w nastpujcy sposb (nie mog przekracza 80 znakw): label label label label label variable variable variable variable variable year "Rok" gnp "Nominalny PNB (mld USD)" invest "Nominalne inwestycje (mld USD) cpi "Wskaznik zmian cen" interest "Stopa procentowa"

Nadawanie etykiet zmiennym w zbiorze danych nie jest konieczne do oszacowania modelu, ale naley do dobrej praktyki statystycznej.

14

Prosty model ekonometryczny


I = f (t, P N B, r, )

W oparciu o dane ze zbioru inwestycje.dta mona zbada funkcj inwestycji:

ktrej argumentami s odpowiednio: trend liniowy (t), PNB, stopa procentowa (r), stopa inacji (). Funkcja f moe by dowoln funkcj, ale aby zastowa KMRL naley przyj, e f jest liniow funkcj swoich argumentw: I = 1 + 2 t + 3 P N B + 4 r + 5 Pozornie zbir danych zawiera wszystkie zmienne z powyszego rwnania. W rzeczywistoci posta tych zmiennych nie jest waciwa i przed ich wykorzystaniem naley dokona pewnych transformacji. Po pierwsze nie ma zmiennej t. Monaby zamiast niej uy zmiennej year, ale jej due wartoci komplikuj obliczenia. Dlatego dobrze jest, za pomoc polecenia generate, zdeniowa now zmienna, przyjmujc wartoci od 1 do 15: generate t=year-1967 Po drugie zarwno gnp, jak i invest wyraone s w wartociach nominalnych, w miliardach dolarw. Naley te wielkoci urealni poprzez podzielenie przez wskanik zmian cen (ale nie wyraony w procentach!) i podzieli przez 1000 w celu zamiany na biliony: generate rgnp=(gnp/1000)/(cpi/100) 17

To samo dotyczy zmiennej invest: generate rinvest=(invest/1000)/(cpi/100)} Ostatni kwesti jest zamiana jednopodstawowego wskanika zmian cen na roczn stop inacji wyraon w procentach (podobnie do stopy procentowej). W notacji matematycznej sprowadza si to do policzenia t = co w programie Stata osiga si poprzez: generate pi=100*(cpi[n]-cpi[n-1])/cpi[n-1] Szacowany model ekonometryczny ma posta: Ii = 1 + 2 ti + 3 P N Bi + 4 ri + 5 i +
i iid i

CP It CP It1 CP It1

N(0, )

a szacuje si go w pakiecie Stata, po zdeniowaniu potrzebnych zmiennych, za pomoc polecenia: regress rinvest t rgnp interest pi

18

You might also like