Professional Documents
Culture Documents
Najczęściej analizuje się próby przekrojowe i szeregi czasowe. Próba przekrojowa powstaje jako wynik ankiety przeprowadzonej w
danym momencie czasu dla pewnej grupy respondentów. Jest to więc próba, która dotyczy wielu obiektów, ale pochodzi z jednego
momentu czasu. W tym opracowaniu przyjęto zasadę, że liczba obserwacji w próbie przekrojowej oznaczana jest przez n a indeks
obserwacji oznaczany jest przez i.
Innym typem danych jest szereg czasowy. Szereg czasowy zawiera obserwacje dotyczące jednego obiektu w kolejnych okresach
czasu. W przypadku szeregów czasowych przyjęło się oznaczać liczebność próby przez T i indeksować poszczególne obserwacje
używając t.
– zmienna objaśniana
– wektor zmiennych objaśniających
– nieznany wektor parametrów
– zaburzenie losowe
i – indeks obserwacji, N – liczba obserwacji
Podać wzajemne relacje między wartościami obserwowanymi zmiennej zależnej, oszacowaniami parametrów, wartościami
dopasowanymi i resztami.
Wektor wartości dopasowania: , gdzie b jest oszacowanie wektora parametrów a X macierzą obserwacji dla zmiennych
zależnych. Wektor reszt: , gdzie y jest wektorem obserwacji dla zmiennych niezależnych.
Wyjaśnić różnicę między parametrami i oszacowaniami parametrów oraz między odchyleniami losowymi i resztami.
Parametry są nielosowe ale obserwowalne. Oszacowania parametrów są funkcjami obserwowalnych , a więc są obserwowalne
ale z reguły są losowe. Na przykład w KMRL o wektorze parametrów zakładamy, że jest nielosowy i nieobserwowalny ale
oszacowanie tego parametru
jest losowe, ponieważ jest funkcją błędów losowych . Błędy losowe w KMRL odpowiadają za losową niewyjaśnioną część
zmienności
Reszty stanowią oszacowanie błędów losowych i liczymy je jako różnice między dopasowanymi i zaobserwowanymi
1
Wyprowadzić estymator MNK dla modelu ze stałą i jedną zmienną objaśniającą.
Model teoretyczny
Model wyestymowany
1)
2)
ponieważ:
2
Ponieważ macierz X ma pełen rząd kolumnowy, to macierz jest dodatnio określona więc jest odwracalna i jest szukanym
minimum. Zapisujemy warunek pierwszego rzędu
Dlaczego nie da się uzyskać oszacowań MNK, jeśli liczba zmiennych definiujących jest większa od liczby obserwacji?
Ponieważ w takim przypadku macierz jest macierzą osobliwą i nie da się znaleźć wielkości
Analizując pierwsze równanie tego układu otrzymujemy (bo pierwszy wiersz X to wiersz jedynek), czyli
Pokazać, że w modelu ze stałą średnia wartość zmiennej zależnej równa jest średniej 2 wartości dopasowanych.
3
Udowodnić, że w modelu ze stałą
- wariancja empiryczna y
Wyjaśniona suma kwadratów:
- wariancja empiryczna
Suma reszt kwadratów:
Podać interpretację
można zatem interpretować jako procent zmienności wyjaśnianej przez model. Wartość nie zależy od jednostek w jakich
wyrażona jest y i x.
jest szeroko stosowaną statystyką opisową i nie służy do porównywania modeli. Jest to związane z tym, że rośnie zawsze wraz
z dodaniem kolejnych zmiennych, ponieważ gdy zmniejszamy zbiór, na którym minimalizujemy funkcję celu to uzyskana w
minimum funkcja celu będzie większa lub równa wartości funkcji w minimum dla minimalizacji bez ograniczeń.
Dlatego też dodając do modelu nawet całkowicie bezsensowną zmienną uzyskujemy lepsze dopasowanie. Więc kierując się jako
jedynym kryterium wyboru modelu zawsze wybierzemy model o największej liczbie zmiennych.
4
Kiedy mówimy, że model można sprowadzić do modelu liniowego względem przekształconych zmiennych?
5
Czasami trudno jest mówić o zmianie procentowej w przypadku niektórych zmiennych. W takiej sytuacji używamy
semielastyczności., gdyż liczenie elastyczności nie ma sensu. Semielastyczność mierzy oczekiwaną procentową zmianę y w reakcji na
jednostkową zmianę .
To przekształcenie pozwala stwierdzić, która forma funkcyjna (liniowa, logarytmiczna, odwrotna) modelu jest najlepiej dopasowana
do dostępnego zbioru danych empirycznych.
Dlaczego w modelu nie powinno się zamieszczać stałej i wszystkich zmiennych zerojedynkowych związanych z poziomami
zmiennej dyskretnej?
Jeśli zmienna dyskretna ma s poziomów, to jedna i tylko jedna z s utworzonych na jej podstawie zmiennych zerojedynkowych
przyjmuje wartość 1 a pozostałe przyjmują wartość 0. Wynika z tego, że . Istnieje więc taka kombinacja liniowa , która
daje kolumnę jedynek. Oznacza to, że zbiór zawierający wszystkie zmienne dyskretne oraz stałą jest współliniowy.
6
Kontrasty w odchyleniach: jeśli jedynym celem badania jest zidentyfikowanie tych poziomów zmiennej dyskretnej których wpływy
wyróżnia się wyraźnie od wpływu pozostałych poziomów, wtedy celowe jest użycie kontrastów w odchyleniach.
Parametry:
Kontrasty w różnicach (efekty progowe): gdy można logicznie uporządkować zmienną dyskretną interesować nas może efekt wzrostu
zmiennej o jeden poziom. Sposób zdefiniowania zmiennych zerojedynkowych zależy czy są uporządkowane:
Ros.:
Male.:
W każdym przypadku definiuje o jedną zmienną mniej niż jest poziomów zmiennej dyskretnej.
Model regresji liniowej można rozszerzyć wprowadzając do niego jako sztucznie stworzone predykatory np. iloczyny dwóch lub
większej liczby zmiennych objaśniających. Pozwala to na uwzględnienie tzw. interakcji pomiędzy zmiennymi, czyli zmiany siły
wpływu jednej ze zmiennych przy różnych wartościach innej zmiennej.
Interakcje stosujemy gdy poszczególne zmienne wzmacniają się nawzajem, to znaczy gdy siła oddziaływania jednej zmiennej
niezależnej jest warunkowana wielkością innych zmiennych niezależnych.
7
Wyprowadzić postać macierzy wariancji kowariancji b i podać interpretację jej parametrów.
Elementy na przekątnej macierzy to wariancje elementów wektora , a elementy poza przekątną to kowariancje
między elementami wektora
Podać (słownie) treść twierdzenia Gaussa-Markowa i wyjaśnić, dlaczego jest ono ważne.
Dla spełnionych założeń KMRL estymator MNK jest najlepszym estymatorem wektora parametrów w klasie liniowych i
nieobciążonych estymatorów tego parametru.
Znaczenie twierdzenia polega na sprecyzowaniu warunków dla których MNK daje najlepsze możliwe oszacowania nieznanych
parametrów.
Suma kwadratów reszt jest skalarem, czyli ślad skalara jest równy temu skalarowi
( )
( - własność operatora śladu, ślad iloczynu dwóch macierzy równy jest śladowi iloczynu tych
macierzy przemnożonych w odwrotnej kolejności
8
Na przekątnej macierzy stoją oszacowania wariancji elementów wektora oszacowań b (np. ), a poza przekątną – kowariancje
między tymi oszacowaniami.
Kombinację liniową parametrów zapiszemy jako iloczyn skalarny nielosowego wektora współczynników i wektora parametrów
.
Ponieważ estymator MNK jest nieobciążony a wartość oczekiwana jest z założeń KMRL równa 0.
9
Wyjaśni w jaki sposób porównujemy wariancje dla estymatorów wektora parametrów i w jaki sposób można to uzasadnić.
Wyprowadzić rozkład małopróbkowy estymatora MNK. Jakie założenie, poza standardowymi KMRL, należy w tym
przypadku przyjąć?
założenie
- nielosowe a b jest funkcją liniową o rozkładzie normalnym to z własności rozkładu normalnego wynika, że funkcja taka ma też
układ normalny, zatem
oraz przy spełnionych założeniach KMRL, błąd losowy ma rozkład normalny, a jest prawdziwe to statystyka t ma rozklad t-
studenta z N-K stopniami swobody.
Mając oszacowanie oraz oszacowanie odchylenia standardowego tego oszacowania wyjaśnić w jaki sposób należy
zbudować przedział ufności dla . Ilosc obserwacji wynosi N, ilość szacowanych parametrów K, a poziom ufności 1- .
Przedział ufności sprawdza precyzje oszacowań parametrów. Przedziały ufności dla parametru można skonstruować posługując się
wyprowadzonym rozkładem statystyki t.
Przy założeniu poziom ufności 1-
10
Przedział ufności szukam przekształcając
= =
=
Czym różnią się przedziały ufności dla wartości oczekiwanych i realizacji prognoz.
Jak należy testować hipotezę postaci używając do tego sum kwadratów reszt z modelu bez ograniczeń i z
ograniczeniami?
Liczymy model bez ograniczeń. Następnie wstawiamy ograniczenia wynikające z do modelu i estymujemy model z
ograniczeniami. Do testowania wykorzystujemy statystykę
Korzyści: uzyskiwane wartości oszacowań parametrów mają niższą wariancję w przypadku prawidłowości ograniczeń.
Niebezpieczeństwo: w przypadku, gdy nałożone ograniczenia są nieprawdziwe uzyskane oszacowanie będzie obciążone. W pewnych
przypadkach (np. pominięcie zmiennej istotnej) uzyskany estymator może nie być zgodny.
11
Za pomocą jakiego testu testujemy prawidłowość formy funkcyjnej? Jakiemu założeniu KMRL odpowiada H0 w tym teście?
Jaka jest hipoteza alternatywna w tym teście?
Za pomocą jakiego testu weryfikowana jest normalność składnika losowego? Jakiemu założeniu KMRL odpowiada H0 w tym
teście? Jaka jest hipoteza alternatywna w tym teście? Jakie są konsekwencje dla własności MNK, jeśli H0 jest fałszywe?
Test Jarque-Bera
= składnik losowy ma układ normalny
= brak normalności rozkładu
Nawet gdy błędy losowe to twierdzenia Gaussa-Markowa są spełnione i estymator jest najlepszym liniowym i
nieobciążonym estymatorem a estymator MNK macierzy wariancji kowariancji jest estymatorem nieobciążonym.
W przypadku fałszywości estymator jest najlepszym estymatorem wśród estymatorów liniowych i nieobciążonych, jednak
można znaleźć nieobciążony estymator nieliniowy, który jest bardziej efektywny od estymatora MNK.
Za pomocą jakich testów testujemy stabilność parametrów? Jakiemu założeniu KMRL odpowiada H0 w tym testach? Jakie są
hipotezy alternatywne w tym testach?
1.Test prognoz.
- w okresie estymacji model ma te same parametry co w okresie prognozy
- w okresie estymacji model ma różne parametry niż w okresie prognozy
2.Test Chowa
- parametry modeli szacowanych w różnych próbkach są sobie równe (stabilne)
- parametry modeli szacowanych w różnych próbkach są różne (niestabilne)
Za pomocą jakich testów można testować heteroskedastyczność? Jakiemu założeniu KMRL odpowiada H0 w tych testach?
Jakie są hipotezy alternatywne w tym testach?
1.Test Goldfelda-Quandta
- wariancja błędu losowego jest taka sama dla wszystkich obserwacji (homoskedastyczność)
- wariancja błędu losowego nie jest taka sama dla wszystkich obserwacji (heteroskedastyczność)
Stosujemy go jeśli możliwe jest podzielenie obserwacji na dwie grupy taki sposób, że dla prawdziwej hipotezy alternatywnej,
wariancje błędów losowych w tych dwóch grupach są różne.
Zaletą testu jest to, że jako jedyny ma rozkład wyprowadzony dla małych prób.
12
2.Test Breuscha-Pagana
– homoskedastyczność
– heteroskedastyczność
Test Breuscha-Pagana stosujemy jeśli nie jest nam znana postać funkcyjna zależności między zmiennymi a odchyleniem
standardowym błędu losowego.
3.Test White’a
– homoskedastyczność
– heteroskedastyczność
Odrzucona hipoteza zerowa w tym teście wskazuje tylko, że w modelu występuję heteroskedastyczność, ale nie daje wskazówki jak
tę heteroskedastyczność można usunąć z modelu.
Za pomocą jakich testów testuje sie autokorelacje? Jakiemu założeniu KMRL odpowiada H0 w tych testach? Jakie są
hipotezy alternatywne w tym testach?
1.Test Durbina-Watsona
- brak autokorelacji
– błąd losowy w modelu podlega autokorelacji pierwszego rzędu
Zalety: test małopróbkowy
Wady:
– występowanie obszaru braku konkluzji
– wykrywa jedynie autokorelację pierwszego rzędu
– nie można stosować jeśli w modelu występuje opóźniona zmienna zależna
2. Test Breuscha-Godfreya
- brak autokorelacji
– błąd losowy w modelu podlega autokorelacji dla i=1,…,s
W przypadku pominięcia istotnych zmiennych estymator MNK nie jest estymatorem nieobciążonym, a jego obciążenie jest równe:
W jakim szczególnym przypadku można uzyskać prawidłowe oszacowania parametrów mimo, że w modelu pominięto istotne
zmienne?
Istnieją dwa ważne przypadki, dla których pominięcie zmiennej nie powoduje obciążenia estymatora.
1.
13
2. to jest, gdy są ortogonalne. W tej sytuacji, mimo pominięcia części zmiennych objaśniających, MNK będzie dalej
nieobciążony. Jeśli kowariancje empiryczne między zmiennymi to estymatory parametrów przy wszystkich zmiennych
poza stałą będą nieobciążone. Ponieważ stała w modelu nie jest interpretowana więc problem jest rozwiązany.
Parametry przy zmiennych i są dodatnie. Zmienne są ujemnie skorelowane. Jaki będzie wpływ pominięcia zmiennej
na oszacowanie parametru przy zmiennej ?
Obserwacja nietypowa to znaczy, że charakteryzuje się nietypowymi na tle pozostałych obserwacji cechami. Obserwacja nietypowa
nie jest jednak błędna w tym sensie, że mechanizm, który w przypadku tej obserwacji determinuje zmienną zależną jest w dalszym
ciągu mechanizmem opisywanym przez nasz model.
Obserwacja błędna jest to obserwacja, której powstania nie da się wytłumaczyć w ramach teoretycznego modelu ekonomicznego
stanowiącego podstawę estymowanego modelu. Obserwacje błędne często pojawiają się w wyniku pomyłek powstałych przy
wpisywaniu obserwacji do bazy danych. Na podstawie jednego modelu nie da się ustalić, które obserwacje są błędne. Sam fakt, że
obserwacja nie pasuje do modelu, nie może być powodem uznania jej za obserwację błędną. Część obserwacji można uznać za błędne
na podstawie teorii lub dodatkowych informacji spoza próby.
W jakim przypadku obserwacja nietypowa będzie miała znaczący wpływ na wynik regresji?
Wpływ obserwacji nietypowej na wynik regresji zależy od tego na ile pasuje do prostej regresji. Najbardziej niepokojąca jest sytuacja
kiedy obserwacja ma nietypowe wartości dla zmiennych niezależnych, a przy tym słabo pasuje do prostej regresji. Jeśli obserwacja
nietypowa jest poprawna, to jej wystąpienie w próbie pozytywnie wpłynie na precyzję oszacowań współczynników. Nawet jeśli
obserwacja nietypowa jest w rzeczywistości błędna to nie wpływa ona zbyt silnie na oszacowania parametrów, jeśli „pasuje” do
krzywej regresji.
14
Jakich statystyk używamy do wykrywania obserwacji nietypowych i błędnych?
Za pomocą statystyk opisowych można wykryć obserwacje w próbie, które są nietypowe, słabo pasują do prostej regresji bądź
wyjątkowo silnie wpływają na wynik regresji. Nie są to jednak statystyki, z pomocą których można przetestować, czy dana statystyka
jest błędna.
Do stwierdzenia czy wektor zmiennych niezależnych dla obserwacji jest nietypowy na tle pozostałych X stosuje się statystykę
nazywaną dźwignią.
gdzie
Własności dźwigni:
dla każdego modelu
dla modelu ze stałą
Kiedy mówimy, że zmienne w modelu są dokładnie współliniowe? Jak można rozwiązać ten problem?
Dokładna współliniowość pojawia się w modelu gdy kolumny macierzy obserwacji są współliniowe. W przypadku występowania
dokładnej współliniowości możliwe jest uzyskanie wielu równoważnych modeli o różnych wielkościach parametrów. Występowanie
dokładnej współliniowości w modelu jest wynikiem jego błędnej specyfikacji. Jeśli zmienna objaśniająca jest kombinacją liniową
pozostałych zmiennych, to nie wnosi ona do modelu żadnej dodatkowej informacji i tym samym powinna być usunięta z modelu.
Problem dokładnej współliniowości można zatem rozwiązać eliminując z modelu tyle zmiennych, by zmienne pozostawione w
modelu były liniowo niezależne.
Jakie są konsekwencje niedokładnej współliniowości? Za pomocą jakiej statystyki można wykryć niedokładną współliniowość
w modelu?
Niedokładna współliniowość polega na korelacji między zmiennymi objaśniającymi. Niedokładna współliniowość prowadzi do
wzrostu wariancji i błędów standardowych oszacowań parametrów przy skorelowanych zmiennych. W konsekwencji prowadzi do
spadku statystyk t przy tych zmiennych i może spowodować, że zmienne te staną się nieistotne w modelu. Występowanie
niedokładnej współliniowości w modelu można wykryć za pomocą statystyki
gdzie jest współczynnikiem determinacji w regresji k-tej zmiennej objaśniającej na pozostałych zmiennych objaśniających. O
silnej niedokładnej współliniowości mówi się, gdy
15
Pokazać, że dla znanej próby X estymator MNK jest nieobciążony, nawet jeśli ta próba jest losowa. Podać założenia konieczne
do tego dowodu.
Dla dowolnego losowego, ale znanego zbioru losowych zmiennych objaśniających, estymator MNK jest nieobciążony.
Najważniejszym założeniem jest brak zależności pomiędzy wartością oczekiwaną błędów losowych a wartościami zmiennych
objaśniających.
Kiedy mówimy, że model można sprowadzić do modelu liniowego względem przekształconych zmiennych?
Muszą być spełnione i przeprowadzone określone warunki
Przykład: Model nieliniowy
Załóżmy, że istnieje przekształcenie określone dla wszystkich możliwych . Stosujemy je do modelu:
Załóżmy, że istnieje funkcja i wzajemnie jednoznaczna funkcja , dla których:
Kiedy mówimy, że w modelu występuje problem równoczesności? Jakie są jej dwie najczęstsze przyczyny i jakie ma ona
konsekwencje dla własności MNK.
16
Jak niesferyczność błędów losowych wpływa na własności MNK?
Pokazać w jaki sposób można w przypadku znanej macierzy Ω, sprawdzić model z niesferycznymi błędami losowymi do
modelu spełniającego założenia MNK.
Jakie są zalety stosowania estymatora MNK w połączeniu z estymatorem odpornym macierzy wariancji i kowariancji w
porównaniu do stosowania estymatora UMNK?
Odporne estymatory wariancji – estymatory macierzy wariancji i estymatora MNK, które są zgodne nawet w przypadku
występowania heteroskedastyczności lub autokorelacji.
Estymator można uzyskać z SUMNK pod warunkiem wyestymowania pomocniczego modelu opisującego formę
heteroskedastyczności lub autokorelacji. Często zdarza się, że uzyskane w ten sposób estymatory parametrów i wariancji estymatorów
często nie różnią się znacząco od oszacowań uzyskanych za pomocą MNK zachowanie wariancji i kowariancji błędów losowych jest
przy tym z reguły nieistniejące w kontekście analizowanego przez nas pytania badawczego.
Estymator White’a umożliwia przeprowadzenie wnioskowania statystycznego bez konieczności specyfikacji pomocniczego modelu
dla wariancji. Estymator ten jest z tego powodu znacznie łatwiejszy w zastosowaniu niż estymator SUMNK.
W przypadku UMNK elementy macierzy V są znane. W przypadku, gdy elementy macierzy V są nieznane używa się estymatora
SUMNK, w którym macierz V jest zastępowana oszacowaniem (lub równoważnie zastąpiona jest ). Taką metoda
estymacji nazywa się Stosowalną Uogólnioną Metodą Najmniejszych Kwadratów.
17