You are on page 1of 32

TEMA 4

Modelo de regresion multiple


Jose R. Berrendero
Departamento de Matem
aticas
Universidad Aut
onoma de Madrid

Analisis de Datos - Grado en Biologa

Estructura de este tema

Modelo de regresion m
ultiple. Ejemplos.
Estimacion e inferencia sobre los parametros del modelo.
Tabla ANOVA y contraste de la regresi
on.
Regresion polinomica.
Variables regresoras dicot
omicas.
Multicolinealidad.
Diagnostico del modelo.

Ejemplo
Se estudia Y = la tasa de respiraci
on (moles O2 /(gmin)) del liquen
Parmelia saxatilis bajo puntos de goteo con un recubrimiento galvanizado.
El agua que cae sobre el liquen contiene zinc y potasio, que utilizamos
como variables explicativas. (Fuente de datos: Wainwright (1993), J. Biol.
Educ..)
Tasa de respiraci
on
71
53
55
48
69
84
21
68
68

Potasio (ppm)
388
258
292
205
449
331
114
580
622

Zinc (ppm)
2414
10693
11682
12560
2464
2607
16205
2005
1825

Tasa respiracin

Ejemplo 4.2 (cont.):

80

60

40

20

15000

10000

5000

Zinc

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

200

400

600

Potasio
Tema 4: Regresi
on m
ultiple

Tasa_resp
Potasio

Correlaciones

Tasa_resp

Correlacin de Pearson

Tasa_resp
1

Sig. (bilateral)

Zinc

Tasa_resp

Potasio

Zinc

Zinc
,653
,057

,686

,443

Sig. (bilateral)

,041

N
Zinc

,041

Correlacin de Pearson

N
Potasio

Potasio
,686

Correlacin de Pearson

,653

,443

Sig. (bilateral)

,057

,232

,232

Modelo de regresion lineal multiple


En la regresion lineal m
ultiple de Y sobre X1 , . . . , Xk se supone que la
funcion de regresion tiene la expresi
on
Y 0 + 1 x1 + . . . + k xk .
Cuando k = 2 la funcion de regresi
on es un plano

Tasa respiracin

Ejemplo 4.2: Plano de regresin

80
60
40

20
15000
600

10000
5000
Zinc

400
200

Potasio

Modelo de regresion lineal multiple


Tenemos una muestra de n individuos en los que observamos las variables
Y y X1 , . . . , Xk . Para el individuo i, tenemos el vector de datos
(Yi , xi1 , xi2 , . . . , xik ).
El modelo de regresion lineal m
ultiple supone que
Yi = 0 + 1 xi1 + . . . + K xik + ui ,

i = 1, . . . , n,

donde las variables de error Ui verifican


a) ui tiene media cero, para todo i.
b) Var(ui ) = 2 , para todo i (homocedasticidad).
c) Los errores son variables independientes.
d) ui tiene distribucion normal, para todo i.
e) n k + 2 (hay mas observaciones que parametros).
f) Las variables Xi son linealmente independientes entre s (no hay
colinealidad).

Modelo de regresion lineal multiple

Las hipotesis (a)-(d) se pueden reexpresar as: las observaciones Yi son


independientes entre con distribuci
on normal:
Yi N(0 + 1 xi1 + . . . + k xik , ).
El modelo admite una expresi
on equivalente en forma matricial:

u1
1 x11 . . . x1k
0
Y1
Y2 1 x21 . . . x2k 1 u2

.. = ..
.. .. + ..
. .
. . .
un
k
Yn
1 xn1 . . . xnk

Estimacion de los parametros del modelo

Par
ametros desconocidos: 0 , 1 , . . . , k , 2 .
Estimamos 0 , 1 , . . . , K por el metodo de mnimos cuadrados, es decir,
los estimadores son los valores para los que se minimiza la suma:
n
X

[Yi (0 + 1 xi1 + . . . + k xik )]2 .

i=1

Cada coeficiente i mide el efecto que tiene sobre la respuesta un aumento


de una unidad de la variable regresora xi cuando el resto de las
variables permanece constante.

Estimacion de los parametros del modelo


Al derivar la suma anterior respecto a 0 , 1 , . . . , k e igualar las
derivadas a 0 obtenemos k + 1 restricciones sobre los residuos:
n
X
i=1

ei = 0,

n
X

ei xi1 = 0,

...,

n
X

i=1

ei xik = 0.

i=1

A partir de este sistema de k + 1 ecuaciones es posible despejar los


estimadores de mnimos cuadrados de 0 , 1 , . . . , k .
Las hipotesis (e) y (f) hacen falta para que el sistema tenga una solucion
u
nica. Llamamos 0 , 1 , . . . , k a los estimadores.
Le media de los residuos es cero. La correlaci
on entre los residuos y cada
una de las k variables regresoras es cero.
Los residuos tienen n k 1 grados de libertad.

Estimacion de los parametros del modelo

Tasa respiracin

Ejemplo 4.2: Plano de regresin

80
60
40

20
15000
600

10000
5000
Zinc

400
200

Potasio

Estimacion de la varianza
Un estimador insesgado de 2 es la varianza residual SR2 .
Como en los modelos anteriores, SR2 se define como la suma de los
residuos al cuadrado, corregida por los gl apropiados:
n

SR2 =

X
1
ei2 .
nk 1
i=1

Siempre se verifica y = 0 + 1 x1 + . . . + k xk , siendo


n

y =

1X
yi ,
n
i=1

x1 =

1X
xi1 ,
n
i=1

...,

xk =

1X
xik .
n
i=1

Por ejemplo, si k = 2, el plano de regresi


on pasa por el punto de medias
muestrales (
x1 , x2 , y ).

Inferencia sobre los parametros del modelo


Distribuci
on de los estimadores de los coeficientes:
Todos los estimadores j verifican:
j j
error tpico de j

tnk1 ,

donde el error tpico de j es un valor que se calcula con SPSS.

Intervalos de confianza para los coeficientes:


Para cualquier j = 0, 1, . . . , k,


IC1 (j ) = j tnk1;/2 error tpico de j .

Contrastes de hipotesis individuales sobre los coeficientes


Estamos interesados en determinar que variables Xj son significativas para
explicar Y .
H0 : j = 0

(Xj no influye sobre Y )

H1 : j 6= 0

(Xj influye sobre Y )

La region crtica de cada H0 al nivel de significaci


on es
)
(
|j |
> tnk1;/2 .
R=
error tpico de j
El cociente j /(error tpico de j ) se llama estadstico t asociado a j .

Salida SPSS
Resumen del modelo
R
,789 a

Modelo
1

R cuadrado
,622

R cuadrado
corregida
,496

Error tp. de la
estimacin
12,907

a. Variables predictoras: (Constante), Zinc, Potasio


ANOVAb

Modelo
1
Regresin
Residual
Total

Suma de
cuadrados
1644,390

Media
cuadrtica
822,195

999,610

166,602

2644,000

gl

F
4,935

Sig.
,054 a

a. Variables predictoras: (Constante), Zinc, Potasio


b. Variable dependiente: Tasa_resp
Coeficientesa

Coeficientes no estandarizados
Modelo
1
(Constante)

B
15,978

Error tp.
15,304

Coeficientes
tipificados
Beta

t
1,044

Sig.
,337

Potasio

,053

,030

,494

1,763

,128

Zinc

,013

,009

,434

1,549

,172

a. Variable dependiente: Tasa_resp

Descomposicion de la variabilidad
Como en modelos anteriores:

Yi
Yi Y

= Yi + ei
= (Yi Y ) + ei

n
n
n
X
X
X
(Yi Y )2 =
(Yi Y )2 +
ei2
i=1

i=1

i=1

SCT = SCE + SCR

SCT mide la variabilidad total (tiene n 1 gl)


SCE mide la variabilidad explicada por el modelo (tiene k gl)
SCR mide la variabilidad no explicada o residual (tiene n k 1 gl)

El contraste de la regresion
H0 : 1 = . . . = k = 0

(el modelo no es explicativo:

ninguna de las variables explicativas influye en la respuesta)


H1 : j 6= 0 para alg
un j = 1, . . . , k

(el modelo es explicativo:

al menos una de las variables Xj influye en la respuesta)


Comparamos la variabilidad explicada con la no explicada mediante el
estadstico F :
SCE/k
.
F =
SCR/(n k 1)
Bajo H0 el estadstico F sigue una distribuci
on Fk,nk1 .
La region de rechazo de H0 al nivel de significaci
on es
R = {F > Fk,nk1; }

El coeficiente de determinacion
Es una medida de la bondad del ajuste en el modelo de regresion m
ultiple
R2 =

SCE
.
SCT

Propiedades:
0 R 2 1.
Cuando R 2 = 1 existe una relaci
on exacta entre la respuesta y las k
variables regresoras.
Cuando R 2 = 0, sucede que 0 = y y 1 = . . . = k = 0. No existe
relacion lineal entre Y y las Xi .
Podemos interpretar R 2 o como un coeficiente de correlaci
on
m
ultiple entre Y y las k variables regresoras.
R2 n k 1
Se verifica que F =
.
1 R2
k

El coeficiente de determinacion ajustado


El coeficiente de determinaci
on para comparar distintos modelos de
regresion entre s tiene el siguiente inconveniente:
Siempre que se a
nade una nueva variable regresora al modelo, R 2
aumenta, aunque el efecto de la variable regresora sobre la respuesta no
sea significativo.
Por ello se define el coeficiente de determinaci
on ajustado o corregido por
grados de libertad
SR2
2 = 1 SCE/(n k 1) = 1
R
SCT/(n 1)
SCT/(n 1)
2 s
R
olo disminuye al introducir una nueva variable en el modelo si la
varianza residual disminuye.

Regresion polinomica
Podemos utilizar el modelo de regresi
on m
ultiple para ajustar un polinomio:
Y 0 + 1 x + 2 x 2 + + k x k .
Basta considerar las k variables regresoras x, x 2 , . . . , x k .

150

100

50

6
x

10

Regresion polinomica
Resumen del modelo
R
,926 a

Modelo
1

R cuadrado
,858

R cuadrado
corregida
,857

Error tp. de la
estimacin
19,04222

a. Variables predictoras: (Constante), x


Coeficientesa

Coeficientes no estandarizados
Modelo
1
(Constante)
x

B
-14,376

Error tp.
3,762

15,904

,650

Coeficientes
tipificados
Beta
,926

t
-3,822

Sig.
,000

24,472

,000

t
1,429

Sig.
,156

a. Variable dependiente: y
Resumen del modelo
R
,947 a

Modelo
1

R cuadrado
,896

R cuadrado
corregida
,894

Error tp. de la
estimacin
16,36427

a. Variables predictoras: (Constante), x2, x


Coeficientesa

Coeficientes no estandarizados
6,846

Error tp.
4,790

3,042

2,214

,177

1,374

,172

x2

1,286

,214

,774

6,004

,000

Modelo
1
(Constante)

a. Variable dependiente: y

Coeficientes
tipificados
Beta

Regresion polinomica
Estimacin curvilnea
Resumen del modelo y estimaciones de los parmetros
Variable dependiente:y
Resumen del modelo
Ecuacin
Lineal

R cuadrado
,858

F
598,866

,896

423,481

Cuadrtico

gl1
1

99

Sig.
,000

gl2
98

,000

La variable independiente esx.


Resumen del modelo y estimaciones de los parmetros
Variable dependiente:y
Estimaciones de los parmetros
Ecuacin
Lineal
Cuadrtico

Constante
-14,376

b1
15,904

6,846

3,042

b2
1,286

La variable independiente esx.

150

200,00

100

150,00

50

100,00

50,00

0,00

6
x

10

Observado
Lineal
Cuadrtico

Regresion polinomica

residuos2

residuos1

50

100

ajustados1

150

50

100

ajustados2

150

Regresion polinomica: rentas y fracaso escolar


Resumen del modelo y estimaciones de los parmetros
Variable dependiente:Fracaso
Estimaciones de los
parmetros

Resumen del modelo


Ecuacin
Lineal

R cuadrado
,550

F
25,658

gl1
1

gl2
21

Sig.
,000

Constante
38,494

b1
-1,347

b2
,109

Cuadrtico

,586

14,183

20

,000

61,088

-4,614

Potencia

,610

32,809

21

,000

293,923

-1,066

La variable independiente esRenta.

Fracaso
Observado
Lineal
Cuadrtico
Potencia

40,0

30,0

20,0

10,0

0,0
8,000 10,000 12,000 14,000 16,000 18,000 20,000 22,000

Renta

10

200
150
y

50
0
200
y

Radj2 = 0.72
R2 = 0.94

10

0
10

10

100

50

50
10

150

Radj2 = 0.81
R2 = 0.94

Radj = 0.85
R2 = 0.92

0
10

100

200
150
50
0
200

Radj2 = 0.83
R2 = 0.93

10

150

10

Radj = 0.83
R2 = 0.9

50

50

10

50

100

200

10

100

200
y

100

150

Radj = 0.85
R2 = 0.89

100

200

10

150

150

10

Radj = 0.87
R2 = 0.89

0
2

10

Radj = 0.88
R2 = 0.89

10

10

50

50

50

10

100

200
y

150

100

100

150

100

200

150

200

Regresion polinomica y sobreajuste

10

Radj2 = 0.67
R2 = 0.97

10

10

Radj2 = NaN
R2 = 1

10

Curvas estimadas a partir de 50 muestras de 10 datos

10

0
Mucho sesgo y poca varianza

10

300
250
0

50

100

150

200

250
z

50

100

150

200

250
200
150
100
50
0

Polinomio de grado k=9

300

k=2 (reg. cuadrtica)

300

k=2 (reg. simple)

10

0
Modelo verdadero

10

10

0
Poco sesgo y mucha varianza

10

Variables regresoras dicotomicas

10

Mezclar subpoblaciones en regresi


on no es adecuado.

10

y2

y1

15

10

x1

En que se diferencian los dos ejemplos anteriores?

0
x2

Modelo aditivo
Resumen del modelo
R
,963 a

Modelo
1

R cuadrado
,928

R cuadrado
corregida
,923

Error tp. de la
estimacin

a. Variables predictoras: (Constante), x1z1, z1, x1


ANOVAb

Modelo
1
Regresin

Suma de
cuadrados
438,063

Media
cuadrtica
146,021

34,041

46

,740

472,104

49

Residual
Total

gl

F
197,319

Sig.
,000 a

a. Variables predictoras: (Constante), x1z1, z1, x1


b. Variable dependiente: y1
Coeficientesa

Coeficientes no estandarizados
Modelo
1
(Constante)

B
,277

Error tp.
,177

Coeficientes
tipificados
Beta

t
1,560

Sig.
,126

x1

,927

,080

,647

11,632

,000

z1

3,620

,247

,589

14,649

,000

,142

,114

,068

1,241

,221

x1z1
a. Variable dependiente: y1

Modelo con interacciones


Resumen del modelo
R
,987 a

Modelo
1

R cuadrado
,975

R cuadrado
corregida
,973

Error tp. de la
estimacin

a. Variables predictoras: (Constante), x2z2, z2, x2


ANOVAb

Modelo
1
Regresin

Suma de
cuadrados
1533,096

Media
cuadrtica
511,032

39,604

46

,861

1572,700

49

Residual
Total

gl

F
593,559

Sig.
,000 a

a. Variables predictoras: (Constante), x2z2, z2, x2


b. Variable dependiente: y2
Coeficientesa

Coeficientes no estandarizados
Modelo
1
(Constante)

B
-,235

Error tp.
,189

Coeficientes
tipificados
Beta

t
-1,243

Sig.
,220

x2

,796

,115

,247

6,902

,000

z2

3,025

,267

,270

11,320

,000

x2z2

3,288

,152

,781

21,599

,000

a. Variable dependiente: y2

Multicolinealidad
El calculo de los estimadores de los parametros en regresion m
ultiple
requiere resolver un sistema de k + 1 ecuaciones con k + 1 incognitas.
Cuando una de las Xj es combinaci
on lineal de las restantes variables
regresoras, el sistema es indeterminado. Entonces diremos que las
variables explicativas son colineales.
En la practica esto nunca pasa de manera exacta, aunque s es posible que
en un conjunto de datos algunas de las variables regresoras se puedan
describir muy bien como funci
on lineal de las restantes variables.
Este problema, llamado multicolinealidad, hace que los estimadores de los
parametros i tengan alta variabilidad (errores tpicos muy grandes) y sean
muy dependientes entre s.

x1
-0.43
1.36
0.52
-0.12
-0.48
-0.98
-1.04
1.45
1.31
-0.24
-0.86
0.89
0.53
-0.44
0.50
-0.66
0.46
0.33
1.58
0.05

x2
-0.57
1.42
0.45
-0.33
-0.56
-1.00
-0.83
1.44
1.47
-0.32
-1.32
0.84
0.54
-0.50
0.46
-0.62
0.32
0.19
1.80
0.20

X2

y
-0.67
4.36
0.70
-1.00
-1.59
-3.13
-2.40
1.79
1.95
-0.70
-1.97
1.82
1.49
-0.88
1.40
0.82
0.51
0.83
3.11
-0.20

X1

Multicolinealidad

X1

X2

Correlaciones
Y
Y

Correlacin de Pearson

Sig. (bilateral)
N
X1

X2
,902

,000

,000

20

20

20

Correlacin de Pearson

,906

,987

Sig. (bilateral)

,000

N
X2

X1
,906

,000

20

20

Correlacin de Pearson

,902

,987

Sig. (bilateral)

,000

,000

20

20

20
1
20

Multicolinealidad
Resumen del modelo
R
,907 a

Modelo
1

R cuadrado
,823

R cuadrado
corregida
,803

Error tp. de la
estimacin
,84071

a. Variables predictoras: (Constante), X2, X1


ANOVAb

Modelo
1
Regresin

Suma de
cuadrados
56,049

Media
cuadrtica
28,025
,707

gl

Residual

12,015

17

Total

68,065

19

F
39,651

Sig.
,000 a

a. Variables predictoras: (Constante), X2, X1


b. Variable dependiente: Y
Coeficientesa

Coeficientes no estandarizados
Modelo
1
(Constante)

B
-,041

Error tp.
,202

Coeficientes
tipificados
Beta

t
-,205

Sig.
,840

X1

1,360

1,426

,601

,954

,354

X2

,648

1,319

,309

,491

,630

a. Variable dependiente: Y

You might also like