You are on page 1of 26

Modelul unifactorial de

regresie
1. Definirea modelului de regresie;
- forma, variabilele şi parametrii modelului de regresie
- aproximarea grafică a modelului legăturii dintre variabile
- ipotezele modelului de regresie

2. Estimarea punctuală a parametrilor modelului;

3. Testarea semnificației rezultatelor estimării. Testul F şi Testul t

4. Estimarea parametrilor prin interval de încredere;

5. Previziunea valorii variabilei Y in ipoteza modificarii variabilei


factoriale.
1. Definirea modelului de regresie
 Analiza de regresie este utilizată pentru a estima valorile unei
variabile (numită variabilă dependentă, endogenă, efect sau explicată)
pe baza valorilor uneia sau mai multor alte variabile (numite variabile
independente, exogene, cauzale sau explicative) pornind de la forma
legăturii dintre acestea exprimată ca un model matematic.

 Atunci când în analiză intervine o singură variabilă independentă iar


forma legăturii (a norului de puncte care reprezintă valorile celor două
variabile) este o dreaptă vorbim despre regresie liniară simplă. În
cazul includerii în analiză a mai multor variabile independente suntem
în situaţia unui model de regresie multifactorial.
Forma, variabilele şi parametrii modelului
de regresie liniar unifactorial
Modelul liniar unifactorial se prezintă astfel:

y i    X i   i , i = 1...n, unde:
 Y reprezintă variabila dependentă, endogenă, efect sau explicată;
 X este variabila independentă, exogenă, cauzală sau explicativă;
 parametrul  se numeşte termen liber (intercept) pentru colectivitatea
generală;
 parametrul  reprezintă panta dreptei de regresie (slope) pentru
colectivitatea generală;
 i se numeşte variabilă reziduală (residual) sau eroare;
 n reprezintă numărul de observaţii.
În ecuaţia de ajustare yˆi  aˆ  bˆxi

 Ŷi valoarea estimată a lui Y pentru observaţia i;

 X i este valoarea lui X pentru observaţia i;

 estimatorul a se numeşte termen liber (intercept) pentru eşantionul extras din


colectivitatea generală şi, din punct de vedere matematic, reprezintă punctul
în care dreapta de regresie intersectează axa OY. Nu are semnificaţie
economică;

 estimatorul b se numeşte coeficient de regresie şi, din punct de vedere


matematic, reprezintă panta dreptei de regresie (slope) arătând cu câte unităţi
se modifică variabila Y, la o modificare cu o unitate a variabilei X;
Semnul coeficientului de regresie arată direcţia legăturii dintre cele
două variabile cercetate:
 dacă bˆ  0 legătura între variabile este directă;
 dacă bˆ  0 legătura între variabile este inversă (negativă);
 dacă bˆ  0 nu există legătură între variabile.
Aproximarea grafică a modelului legăturii
dintre variabile
A) Legătură liniară directă B) Legătură liniară inversă
y y

x x
C) Legătură neliniară D) Legătură neliniară
directă indirectă
y y

x
x
E) Nicio legătură F) Nicio legătură

y y

x x
Ipotezele modelului de regresie
liniară
 Pentru a obţine proprietăţile dorite ale estimatorilor regresiei, se
fac, de obicei, cinci presupuneri (ipoteze) standard pentru modelul
din populaţia generală:

 Ipotezele ce trebuie verificate:

 Forma funcţională: yi = + xi + i, i=1,n


Normalitatea erorilor: i N(0,   )
2

 Media zero a erorilor: μ(i)=0 i


Homoscedasticitatea: σ2(i)=   constantă i
2

 Non autocorelarea erorilor: Cov(i,j)=0 ij


 Necorelarea între regresor şi erori: Cov(xi,j)=0 i şi j
2. Estimarea parametrilor
modelului de regresie clasic
n
S   ( y i  yˆ i )  min
n
S   ( y i  aˆ  bˆxi ) 2  min
2

i 1 i 1

 Condiţiile de ordin 1 de minimizare a funcţiei sunt:


 S  n  n n

naˆ  b  xi   y i
ˆ
 aˆ  0  2 
 i 1
 ( y i  ˆ
a  ˆx )(1)  0
b i  i 1 i 1
 n  n
  aˆ x  bˆ x 2 
n n

 S  0 2  ( y  aˆ  bˆx )( x )  0     xi y i
 
i i

 bˆ i 1
i i i i 1 i 1 i 1

aˆ  y  b x



n y i

 ˆ  xi x y
i i n   xi y i   xi   y i
b  
n   x i2  ( xi ) 2
 n x i

  xi x 2
i
Estimarea parametrilor
modelului de regresie clasic
 Formule simplu de aplicat pentru coeficientul de regresie (b):
aˆ  y  b x



n y i

 ˆ  xi x y i i n   xi y i   xi   y i  x y  nx y
b   
i i


 n x i
n   x i2  ( xi ) 2  x  nx 2
i
2
sau

  xi x 2
i

aˆ  y  b x



n y i

 ˆ  xi x y
i i n   xi y i   xi   y i  ( x  x )  ( y  y ) cov xy
b    
i i

 n x i
n   x i  ( xi )
2 2
 ( x  x ) i s 2 2
x


  xi x 2
i
Estimarea parametrilor
modelului de regresie clasic
 Formule simplu de aplicat pentru coeficientul de regresie (b):

aˆ  y  b x
 sau
bˆ   i i
 x y  nx y

 xi  n x
2 2

 aˆ  y  b x

 ˆ  ( xi  x )  ( y i  y ) cov xy
b  
  ( x i  x ) 2
s 2
x

aˆ  y  b x

 ˆ cov xy cov xy s y sy
b     r 
 s 2
x sx  s y sx sx
Calităţile estimatorului (MCMMP)
 Estimaţia b̂ este nedeplasată: M (bˆ)  b

 Estimaţia b̂ este consistentă: bˆ  b

 Estimaţia este eficientă: acel estimator care este


nedeplasat şi de dispersie minimă (nedistorsionat şi de
precizie maximă)
3. Verificarea semnificaţiei rezultatelor
estimării. Testul F. Testul t
Analiza dispersională ANOVA
 Aplicarea MCMMP pentru determinarea ecuaţiei de
ajustare se bazează pe calcularea a trei tipuri de dispersii:

1. Variaţia totală calculată ca suma pătratelor diferenţelor


dintre fiecare valoare a variabilei Y şi media variabilei Y
(SST)

SST   Yi  Y 
n
2

i 1
Analiza dispersională ANOVA

2. Variaţia datorată regresiei (explicată de model)


calculată ca suma pătratelor abaterilor dintre fiecare valoare
a lui Y estimat pe baza modelului şi media variabilei Y (SSR).

 
n
SSR   Yˆi  Y
2

i 1

3. Dispersia reziduală (neexplicată de model) calculată ca


suma pătratelor diferenţelor între fiecare valoare a lui Y şi lui
Y estimat pe baza modelului (suma pătratelor erorilor) (SSE).
n n
SSE   (Yi  Yˆi )   ei2
2

i 1 i 1
 Analiza dispersională ANOVA

 Variaţia totală se obţine adunând la variaţia determinată


de modelul de regresie, variaţia neexplicată de model:

 SST=SSR+SSE
 Coeficientul de determinare = ponderea varianţei
explicate în varianţa totală indică în ce măsură variaţia
variabilei dependente Y este determinată de variaţia
variabilei independente X.

ˆ
SSR (Yi  Y ) 2
R 
2

SST (Yi  Y ) 2
Testarea semnificaţiei coeficientului
de determinare utilizând statistica F
Validarea globală a modelului liniar de regresie se realizează pe baza testului
Fisher-Snedecor (testul F).

Ipoteze statistice:
H0: 1  0 , variabila independentă nu are o influenţă semnificativă asupra
variabilei dependente. R2 nu este semnificativ din punct de vedere statistic.

H1: 1  0 , variabila independentă are o influenţă semnificativă asupra variabilei


dependente. R2 este semnificativ din punct de vedere statistic.
Testarea semnificaţiei coeficientului
de determinare utilizând statistica F
(Yˆi  Y ) 2
(Yˆi  Y ) 2  (Yi  Yˆi ) (Yˆi  Y ) 2 n  k (Yi  Y ) 2 n  k
2

Fcalculat  :    
k 1 nk  (Yi  Yi ) k  1  (Yi  Yi ) k  1
ˆ 2 ˆ 2

(Yi  Y ) 2
R2 n  k
Fcalculat  
1 R k 1
2

unde k reprezintă numărul de parametrii ai modelului (2 în cazul regresiei liniare simple), iar n
numărul de observaţii.

Dacă Fcalculat  F ,k 1,n  k se respinge ipoteza nulă şi se acceptă ipoteza alternativă


potrivit căreia R2 este semnificativ din punct de vedere statistic.
Testarea semnificaţiei coeficientului
de corelaţie liniară utilizând testul t

r
cov(x, y )

 ( xi  x )( yi  y ) 
n xi y i   xi  y i
Sx  Sy [ ( xi  x ) 2 ][  ( y i  y ) ] [n xi2  ( xi ) 2 ][ n y i2  ( y i ) 2 ]
2

Pentru a testa dacă între variabilele X şi Y există o legătură statistică


semnificativă se foloseşte testul t.

Ipoteze statistice:
H0:  0 (nu este semnificativ din punct de vedere statistic)
H1:  0 (este semnificativ din punct de vedere stat
Testarea semnificaţiei coeficientului
de corelaţie liniară utilizând testul t

r 0 r n2
tcalc  
1 r 2 1 r 2
n2
Decizia:

Dacă tcalc  t / 2,n  k se respinge ipoteza nulă, se acceptă ipoteza


alternativă potrivit căreia r este semnificativ din punct de vedere statistic.
Testarea parametrilor unui model de
regresie folosind testul t

Testarea parametrului  :
Ipoteze statistice:
H0:  0 (nu este semnificativ din punct de vedere statistic)
H1:  0 (este semnificativ din punct de vedere statistic)
a -0 â - 0
t calcultat  
a s aˆ

1
s â  s   
2 X 2 
 seˆ 
 i i
(Y  Yˆ ) 2

eˆ  n (X  X ) 
2
 i  nk
Decizia:

Dacă tcalc  t  / 2;n -k se respinge ipoteza nulă, se acceptă


ipoteza alternativă potrivit căreia parametrul alfa este semnificativ
din punct de vedere statistic.
Testarea parametrilor unui model de
regresie folosind testul t

Testarea parametrului  :
Ipoteze statistice:
H0:  0 (nu este semnificativ din punct de vedere statistic)
H1:  0 (este semnificativ din punct de vedere statistic)
b-0 b̂ - 0
t calcultat  
b sbˆ

s eˆ2
s b̂ 
 (X i  X )2 seˆ 
 i i
(Y  Yˆ ) 2

nk
Decizia:

Dacă tcalc  t  / 2;n -k se respinge ipoteza nulă, se acceptă


ipoteza alternativă potrivit căreia parametrul alfa este semnificativ
din punct de vedere statistic.
4. Estimarea parametrilor prin
interval de încredere
Intervalul de încredere pentru parametrul  :

aˆ  t / 2,n  k  saˆ    aˆ  t / 2,n  k  saˆ

Intervalul de încredere pentru parametrul  `:

bˆ  t / 2,nk  sbˆ    bˆ  t / 2,nk  sbˆ


5. Intervalul de predicţie pentru variabila
dependentă Y corespunzătoare unei anumite
valori a variabilei X

Yˆn1  t / 2,nk  se  hi

Yˆn1  t / 2,nk  se  hi  Yˆn*1  Yˆn1  t / 2,nk  se  hi

 unde
1 ( X n1  X ) 2
hi  1  
n SSX
Tabelul repartiţia F (Fisher Snedecor)

α=0,05 df1=k-1
df2=n-k 1 2 3 4 5 6
1 161,448 199,500 215,707 224,583 230,162 161,448
2 18,513 19,000 19,164 19,247 19,296 18,513
3 10,128 9,552 9,277 9,117 9,013 10,128
4 7,709 6,944 6,591 6,388 6,256 7,709
5 6,608 5,786 5,409 5,192 5,050 6,608
6 5,987 5,143 4,757 4,534 4,387 5,987
7 5,591 4,737 4,347 4,120 3,972 5,591
8 5,318 4,459 4,066 3,838 3,687 5,318
9 5,117 4,256 3,863 3,633 3,482 5,117
10 4,965 4,103 3,708 3,478 3,326 4,965
11 4,844 3,982 3,587 3,357 3,204 4,844
12 4,747 3,885 3,490 3,259 3,106 4,747
13 4,667 3,806 3,411 3,179 3,025 4,667
14 4,600 3,739 3,344 3,112 2,958 4,600
15 4,543 3,682 3,287 3,056 2,901 4,543
16 4,494 3,634 3,239 3,007 2,852 4,494
17 4,451 3,592 3,197 2,965 2,810 4,451
18 4,414 3,555 3,160 2,928 2,773 4,414
19 4,381 3,522 3,127 2,895 2,740 4,381
20 4,351 3,493 3,098 2,866 2,711 4,351
21 4,325 3,467 3,072 2,840 2,685 4,325
22 4,301 3,443 3,049 2,817 2,661 4,301
23 4,279 3,422 3,028 2,796 2,640 4,279
24 4,260 3,403 3,009 2,776 2,621 4,260
25 4,242 3,385 2,991 2,759 2,603 4,242
26 4,225 3,369 2,975 2,743 2,587 4,225
27 4,210 3,354 2,960 2,728 2,572 4,210
28 4,196 3,340 2,947 2,714 2,558 4,196
29 4,183 3,328 2,934 2,701 2,545 4,183
30 4,171 3,316 2,922 2,690 2,534 4,171
40 4,085 3,232 2,839 2,606 2,449 4,085
60 4,001 3,150 2,758 2,525 2,368 4,001
120 3,920 3,072 2,680 2,447 2,290 3,920

Observaţii: α este pragul de semnificaţie; df reprezintă numărul gradelor de libertate; k numărul


parametrilor, n volumul eşantionului

You might also like