Cursuri 4 5 6 Regresie Simpla

Modelul unifactorial de
regresie
1. Definirea modelului de regresie;
- forma, variabilele şi parametrii modelului de regresie
- aproximarea grafică a modelului legăturii dintre variabile
- ipotezele modelului de regresie
2. Estimarea punctuală a parametrilor modelului;
3. Testarea semnificației rezultatelor estimării. Testul F şi Testul t
4. Estimarea parametrilor prin interval de încredere;
5. Previziunea valorii variabilei Y in ipoteza modificarii variabilei

factoriale.
1. Definirea modelului de regresie
 Analiza de regresie este utilizată pentru a estima valorile unei
variabile (numită variabilă dependentă, endogenă, efect sau explicată)
pe baza valorilor uneia sau mai multor alte variabile (numite variabile
independente, exogene, cauzale sau explicative) pornind de la forma
legăturii dintre acestea exprimată ca un model matematic.
 Atunci când în analiză intervine o singură variabilă independentă iar

forma legăturii (a norului de puncte care reprezintă valorile celor două
variabile) este o dreaptă vorbim despre regresie liniară simplă. În
cazul includerii în analiză a mai multor variabile independente suntem
în situaţia unui model de regresie multifactorial.
Forma, variabilele şi parametrii modelului
de regresie liniar unifactorial
Modelul liniar unifactorial se prezintă astfel:
y i    X i   i , i = 1...n, unde:
 Y reprezintă variabila dependentă, endogenă, efect sau explicată;
 X este variabila independentă, exogenă, cauzală sau explicativă;
 parametrul  se numeşte termen liber (intercept) pentru colectivitatea
generală;
 parametrul  reprezintă panta dreptei de regresie (slope) pentru
colectivitatea generală;
 i se numeşte variabilă reziduală (residual) sau eroare;
 n reprezintă numărul de observaţii.
În ecuaţia de ajustare yî  aˆ  bˆxi
 Ŷi valoarea estimată a lui Y pentru observaţia i;
 X i este valoarea lui X pentru observaţia i;
 estimatorul a se numeşte termen liber (intercept) pentru eşantionul extras din

colectivitatea generală şi, din punct de vedere matematic, reprezintă punctul
în care dreapta de regresie intersectează axa OY. Nu are semnificaţie
economică;
 estimatorul b se numeşte coeficient de regresie şi, din punct de vedere

matematic, reprezintă panta dreptei de regresie (slope) arătând cu câte unităţi
se modifică variabila Y, la o modificare cu o unitate a variabilei X;
Semnul coeficientului de regresie arată direcţia legăturii dintre cele
două variabile cercetate:
 dacă bˆ  0 legătura între variabile este directă;
 dacă bˆ  0 legătura între variabile este inversă (negativă);
 dacă bˆ  0 nu există legătură între variabile.
Aproximarea grafică a modelului legăturii
dintre variabile
A) Legătură liniară directă B) Legătură liniară inversă
y y
x x
C) Legătură neliniară D) Legătură neliniară
directă indirectă
y y
x
x
E) Nicio legătură F) Nicio legătură
y y
x x
Ipotezele modelului de regresie
liniară
 Pentru a obţine proprietăţile dorite ale estimatorilor regresiei, se
fac, de obicei, cinci presupuneri (ipoteze) standard pentru modelul
din populaţia generală:
 Ipotezele ce trebuie verificate:
 Forma funcţională: yi = + xi + i, i=1,n

Normalitatea erorilor: i N(0,   )
2

 Media zero a erorilor: μ(i)=0 i

Homoscedasticitatea: σ2(i)=   constantă i
2

 Non autocorelarea erorilor: Cov(i,j)=0 ij

 Necorelarea între regresor şi erori: Cov(xi,j)=0 i şi j
2. Estimarea parametrilor
modelului de regresie clasic
n
S   ( y i  yˆ i )  min
n
S   ( y i  aˆ  bˆxi ) 2  min
2
i 1 i 1
 Condiţiile de ordin 1 de minimizare a funcţiei sunt:

 S  n  n n
naˆ  b  xi   y i
ˆ
 aˆ  0  2 
 i 1
 ( y i  ˆ
a  ˆx )(1)  0
b i  i 1 i 1
 n  n
  aˆ x  bˆ x 2 
n n
 S  0 2  ( y  aˆ  bˆx )( x )  0     xi y i
 
i i
 bˆ i 1
i i i i 1 i 1 i 1
aˆ  y  b x



n y i
 ˆ  xi x y
i i n   xi y i   xi   y i
b  
n   x i2  ( xi ) 2
 n x i

  xi x 2
i
Estimarea parametrilor
 Formule simplu de aplicat pentru coeficientul de regresie (b):
aˆ  y  b x



n y i
 ˆ  xi x y i i n   xi y i   xi   y i  x y  nx y
b   
i i

 n x i
n   x i2  ( xi ) 2  x  nx 2
i
2
sau

  xi x 2
i
aˆ  y  b x



n y i
 ˆ  xi x y
i i n   xi y i   xi   y i  ( x  x )  ( y  y ) cov xy
b    
i i
 n x i
n   x i  ( xi )
2 2
 ( x  x ) i s 2 2
x

  xi x 2
i
Estimarea parametrilor
 Formule simplu de aplicat pentru coeficientul de regresie (b):
aˆ  y  b x
 sau
bˆ   i i
 x y  nx y

 xi  n x
2 2
 aˆ  y  b x

 ˆ  ( xi  x )  ( y i  y ) cov xy
b  
  ( x i  x ) 2
s 2
x
aˆ  y  b x

 ˆ cov xy cov xy s y sy
b     r 
 s 2
x sx  s y sx sx
Calităţile estimatorului (MCMMP)
 Estimaţia b̂ este nedeplasată: M (bˆ)  b
 Estimaţia b̂ este consistentă: bˆ  b
 Estimaţia este eficientă: acel estimator care este

nedeplasat şi de dispersie minimă (nedistorsionat şi de
precizie maximă)
3. Verificarea semnificaţiei rezultatelor
estimării. Testul F. Testul t
Analiza dispersională ANOVA
 Aplicarea MCMMP pentru determinarea ecuaţiei de
ajustare se bazează pe calcularea a trei tipuri de dispersii:
1. Variaţia totală calculată ca suma pătratelor diferenţelor

dintre fiecare valoare a variabilei Y şi media variabilei Y
(SST)
SST   Yi  Y 
n
2
i 1
Analiza dispersională ANOVA
2. Variaţia datorată regresiei (explicată de model)

calculată ca suma pătratelor abaterilor dintre fiecare valoare
a lui Y estimat pe baza modelului şi media variabilei Y (SSR).
 
n
SSR   Yî  Y
2
i 1
3. Dispersia reziduală (neexplicată de model) calculată ca

suma pătratelor diferenţelor între fiecare valoare a lui Y şi lui
Y estimat pe baza modelului (suma pătratelor erorilor) (SSE).
n n
SSE   (Yi  Yî )   ei2
2
i 1 i 1
 Analiza dispersională ANOVA
 Variaţia totală se obţine adunând la variaţia determinată

de modelul de regresie, variaţia neexplicată de model:
 SST=SSR+SSE
 Coeficientul de determinare = ponderea varianţei
explicate în varianţa totală indică în ce măsură variaţia
variabilei dependente Y este determinată de variaţia
variabilei independente X.
ˆ
SSR (Yi  Y ) 2
R 
2

SST (Yi  Y ) 2
Testarea semnificaţiei coeficientului
de determinare utilizând statistica F
Validarea globală a modelului liniar de regresie se realizează pe baza testului
Fisher-Snedecor (testul F).
Ipoteze statistice:
H0: 1  0 , variabila independentă nu are o influenţă semnificativă asupra
variabilei dependente. R2 nu este semnificativ din punct de vedere statistic.
H1: 1  0 , variabila independentă are o influenţă semnificativă asupra variabilei

dependente. R2 este semnificativ din punct de vedere statistic.
de determinare utilizând statistica F
(Yî  Y ) 2
(Yî  Y ) 2  (Yi  Yî ) (Yî  Y ) 2 n  k (Yi  Y ) 2 n  k
2
Fcalculat  :    
k 1 nk  (Yi  Yi ) k  1  (Yi  Yi ) k  1
ˆ 2 ˆ 2
(Yi  Y ) 2
R2 n  k
Fcalculat  
1 R k 1
2
unde k reprezintă numărul de parametrii ai modelului (2 în cazul regresiei liniare simple), iar n
numărul de observaţii.
Dacă Fcalculat  F ,k 1,n  k se respinge ipoteza nulă şi se acceptă ipoteza alternativă

potrivit căreia R2 este semnificativ din punct de vedere statistic.
de corelaţie liniară utilizând testul t
r
cov(x, y )

 ( xi  x )( yi  y ) 
n xi y i   xi  y i
Sx  Sy [ ( xi  x ) 2 ][  ( y i  y ) ] [n xi2  ( xi ) 2 ][ n y i2  ( y i ) 2 ]
2
Pentru a testa dacă între variabilele X şi Y există o legătură statistică

semnificativă se foloseşte testul t.
Ipoteze statistice:
H0:  0 (nu este semnificativ din punct de vedere statistic)
H1:  0 (este semnificativ din punct de vedere stat
de corelaţie liniară utilizând testul t
r 0 r n2
tcalc  
1 r 2 1 r 2
n2
Decizia:
Dacă tcalc  t / 2,n  k se respinge ipoteza nulă, se acceptă ipoteza

alternativă potrivit căreia r este semnificativ din punct de vedere statistic.
Testarea parametrilor unui model de
regresie folosind testul t
Testarea parametrului  :
Ipoteze statistice:
H0:  0 (nu este semnificativ din punct de vedere statistic)
H1:  0 (este semnificativ din punct de vedere statistic)
a -0 â - 0
t calcultat  
a s aˆ
1
s â  s   
2 X 2 
 seˆ 
 i i
(Y  Yˆ ) 2
eˆ  n (X  X ) 
2
 i  nk
Decizia:
Dacă tcalc  t  / 2;n -k se respinge ipoteza nulă, se acceptă

ipoteza alternativă potrivit căreia parametrul alfa este semnificativ
din punct de vedere statistic.
Testarea parametrilor unui model de
regresie folosind testul t
Testarea parametrului  :
Ipoteze statistice:
H0:  0 (nu este semnificativ din punct de vedere statistic)
H1:  0 (este semnificativ din punct de vedere statistic)
b-0 b̂ - 0
t calcultat  
b sbˆ
s eˆ2
s b̂ 
 (X i  X )2 seˆ 
 i i
(Y  Yˆ ) 2
nk
Decizia:
Dacă tcalc  t  / 2;n -k se respinge ipoteza nulă, se acceptă

ipoteza alternativă potrivit căreia parametrul alfa este semnificativ
din punct de vedere statistic.
4. Estimarea parametrilor prin
interval de încredere
Intervalul de încredere pentru parametrul  :
aˆ  t / 2,n  k  saˆ    aˆ  t / 2,n  k  saˆ
Intervalul de încredere pentru parametrul  `:
bˆ  t / 2,nk  sbˆ    bˆ  t / 2,nk  sbˆ

5. Intervalul de predicţie pentru variabila
dependentă Y corespunzătoare unei anumite
valori a variabilei X
Yˆn1  t / 2,nk  se  hi
Yˆn1  t / 2,nk  se  hi  Yˆn*1  Yˆn1  t / 2,nk  se  hi
 unde
1 ( X n1  X ) 2
hi  1  
n SSX
Tabelul repartiţia F (Fisher Snedecor)
α=0,05 df1=k-1
df2=n-k 1 2 3 4 5 6
1 161,448 199,500 215,707 224,583 230,162 161,448
2 18,513 19,000 19,164 19,247 19,296 18,513
3 10,128 9,552 9,277 9,117 9,013 10,128
4 7,709 6,944 6,591 6,388 6,256 7,709
5 6,608 5,786 5,409 5,192 5,050 6,608
6 5,987 5,143 4,757 4,534 4,387 5,987
7 5,591 4,737 4,347 4,120 3,972 5,591
8 5,318 4,459 4,066 3,838 3,687 5,318
9 5,117 4,256 3,863 3,633 3,482 5,117
10 4,965 4,103 3,708 3,478 3,326 4,965
11 4,844 3,982 3,587 3,357 3,204 4,844
12 4,747 3,885 3,490 3,259 3,106 4,747
13 4,667 3,806 3,411 3,179 3,025 4,667
14 4,600 3,739 3,344 3,112 2,958 4,600
15 4,543 3,682 3,287 3,056 2,901 4,543
16 4,494 3,634 3,239 3,007 2,852 4,494
17 4,451 3,592 3,197 2,965 2,810 4,451
18 4,414 3,555 3,160 2,928 2,773 4,414
19 4,381 3,522 3,127 2,895 2,740 4,381
20 4,351 3,493 3,098 2,866 2,711 4,351
21 4,325 3,467 3,072 2,840 2,685 4,325
22 4,301 3,443 3,049 2,817 2,661 4,301
23 4,279 3,422 3,028 2,796 2,640 4,279
24 4,260 3,403 3,009 2,776 2,621 4,260
25 4,242 3,385 2,991 2,759 2,603 4,242
26 4,225 3,369 2,975 2,743 2,587 4,225
27 4,210 3,354 2,960 2,728 2,572 4,210
28 4,196 3,340 2,947 2,714 2,558 4,196
29 4,183 3,328 2,934 2,701 2,545 4,183
30 4,171 3,316 2,922 2,690 2,534 4,171
40 4,085 3,232 2,839 2,606 2,449 4,085
60 4,001 3,150 2,758 2,525 2,368 4,001
120 3,920 3,072 2,680 2,447 2,290 3,920
Observaţii: α este pragul de semnificaţie; df reprezintă numărul gradelor de libertate; k numărul

parametrilor, n volumul eşantionului

Cursuri 4 5 6 Regresie Simpla

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cursuri 4 5 6 Regresie Simpla

Uploaded by

Copyright:

Available Formats

Modelul unifactorial de

2. Estimarea punctuală a parametrilor modelului;

3. Testarea semnificației rezultatelor estimării. Testul F şi Testul t

4. Estimarea parametrilor prin interval de încredere;

5. Previziunea valorii variabilei Y in ipoteza modificarii variabilei

 Atunci când în analiză intervine o singură variabilă independentă iar

 Ŷi valoarea estimată a lui Y pentru observaţia i;

 X i este valoarea lui X pentru observaţia i;

 estimatorul a se numeşte termen liber (intercept) pentru eşantionul extras din

 estimatorul b se numeşte coeficient de regresie şi, din punct de vedere

 Ipotezele ce trebuie verificate:

 Forma funcţională: yi = + xi + i, i=1,n

 Media zero a erorilor: μ(i)=0 i

 Non autocorelarea erorilor: Cov(i,j)=0 ij

 Condiţiile de ordin 1 de minimizare a funcţiei sunt:

 Estimaţia b̂ este consistentă: bˆ  b

 Estimaţia este eficientă: acel estimator care este

1. Variaţia totală calculată ca suma pătratelor diferenţelor

2. Variaţia datorată regresiei (explicată de model)

3. Dispersia reziduală (neexplicată de model) calculată ca

 Variaţia totală se obţine adunând la variaţia determinată

H1: 1  0 , variabila independentă are o influenţă semnificativă asupra variabilei

Dacă Fcalculat  F ,k 1,n  k se respinge ipoteza nulă şi se acceptă ipoteza alternativă

Pentru a testa dacă între variabilele X şi Y există o legătură statistică

Dacă tcalc  t / 2,n  k se respinge ipoteza nulă, se acceptă ipoteza

Dacă tcalc  t  / 2;n -k se respinge ipoteza nulă, se acceptă

Dacă tcalc  t  / 2;n -k se respinge ipoteza nulă, se acceptă

aˆ  t / 2,n  k  saˆ    aˆ  t / 2,n  k  saˆ

Intervalul de încredere pentru parametrul  `:

bˆ  t / 2,nk  sbˆ    bˆ  t / 2,nk  sbˆ

Yˆn1  t / 2,nk  se  hi  Yˆn*1  Yˆn1  t / 2,nk  se  hi

Observaţii: α este pragul de semnificaţie; df reprezintă numărul gradelor de libertate; k numărul

You might also like