You are on page 1of 20

REGRESIN LINEAL MULTIPLE

La regresin lineal multiple trata de explicar


el comportamiento de una variable
dependiente Y con ms de una variable
predictora usando una funcion lineal.

El modelo de regresin lineal mltiple

para i = 1,2,,n
En forma matricial :
2
i ip p i i o i
e x x x y + | + | + | + | = ......
2 2 1 1
e X Y + =
El modelo de regresin lineal mltiple con p variables predictoras y
basado en n observaciones est dado por:
Supuestos del modelo
1. E(e)=0
2. Var(e)=o
2
I
n
Donde:
e es un vector columna aleatorio de dimensin n.
I
n
es la matriz identidad de orden n.
3
Estimacin del vector de parmetros | por
Cuadrados Mnimos
Se tiene que minimizar la suma de cuadrados de los errores.


Haciendo operaciones con los vectores y matrices


Derivando Q con respecto a | e igualando a cero se obtiene el sistema
de ecuaciones normales

resolviendo para | se obtiene:
4
) ( )' ( ) (
1
2
X Y X Y e e' = =

=
=
n
i
i
e Q
X X' ' Y X' ' Y Y' X X ' X Y' Y X' ' Y Y' + = + = 2 ' ) ( Q

Y X' X X' =
Y X' X) (X'
1
=


2.2.2 Propiedades del estimador
es insesgado, o sea = .
Var( )=o
2
(XX)
-1

Si no se asume normalidad, el estimador minimo-
cuadrtico es el mejor estimador dentro de los
estimadores lineales insesgados de .
Si se asume normalidad de los errores entonces es
el mejor estimador entre todos los estimadores
insesgados de |
5

) (

2.2.3 Estimacin de la varianza o


2
Un estimado de la varianza de los errores es:





Donde H=X(XX)
-1
X es la Hat Matrix
la varianza estimada de los errores puede ser escrita
como:
6
1
) ' (
1 1 1
1
2
2


=

=

=

=

=
p n p n p n
e
p n
SSE
n
i
i
X (Y ) X Y e ' e

o
) Y X' X) X(X' (Y Y)' X' X) X(X' (Y ) X (Y )' X (Y
1 1
= =

SSE
H)Y (I H)' (I Y' = SSE
1 1
2

=

p n p n
H)Y (I Y' )Y X' X) X(X' (I Y'
1
o

Algunas Propiedades
Sea Y un vector aleatorio n-dimensional tal que
E(Y) = y VAR(Y) =V entonces
E(YAY)=traza(AV) + A
Donde
=X| y V=o
2
I
n

Se puede mostrar que E[s
2
]=o
2
.

7
2.3. Inferencia en Regresin lineal mltiple
Involucra realizar
pruebas de hiptesis eintervalos de confianza
acerca de los coeficientes del modelo de
regresin poblacional.
Intervalos de confianza de las predicciones que
se hacen con el modelo.
Suponemos que e~NI(0,o
2
I
n
) o equivalente que
Y~NI(X|, o
2
I
n
)
8
La variacin total de Y se descompone en dos
variaciones: una debido a la regresin y otra debido a
causas no controlables.
SST = SSR + SSE
El coeficiente de Determinacin R
2
, se clcula por:
9
SST
SSR
R =
2
Descomposicin de la variacin total de Y
Resultados para sumas de cuadrados
i)


ii) , tambin que


iii)
10
2
) 1 (
2
~
n
SST
_
o
2
) 1 (
2
~
p n
SSE
_
o
2
) 1 (
2
2
~
) 1 (


p n
s p n
_
o
2
) (
2
~
p
SSR
_
o
2.3.1 Prueba de hiptesis acerca de un
coeficiente de regresin individual
Ho: |
i
= 0 ( i=1,2,..,p),
Ha: |
i
= 0;
La prueba estadstica es la prueba de t:


se distribuye como una t con (n-p-1) gl.

Donde, C
ii
es el i-simo elemento de la diagonal de
(XX)
-1
.
Los programas de computadoras, dan el P-value de la
prueba t.
11
ii
i
i
i
C s se
t
|
|
|

= =
) (
2.3.2 Prueba de Hiptesis de que todos los
coeficientes de regresin son ceros.
H
o
: |
1
=|
2
==|
p
=0
H
a
: Al menos uno de los coeficientes es distinto de cero.
usando propiedades de formas cuadrticas se puede
mostrar que:
E(SSR) = E[Y(H-11/n)Y]
= po
2
+ |X(H-11/n)X|
= po
2
+ |X(H-11/n)X|
Donde, 1 es un vector columna de n unos.
12
Tabla de Anlisis de Varianza
____________________________________________________
Fuente de Suma de Grados de Cuadrados F
Variacin Cuadrados libertad Medios
____________________________________________________
Regresin SSR p MSR=SSR/p MSR/MSE
Error SSE n-p-1 MSE=SSE/n-p-1
Total SST n-1
____________________________________________________
13
Particionamiento secuencial de la suma de
cuadrados de regresin
La suma de cuadrados de regresin puede ser particionada
en tantas partes como variables predictoras existen en el modelo.
Sirve para determinar la contribucin de cada una de las
variables predictoras al comportamiento de Y.

SSR(|
1
,|
2
,,.|
p
/ |
0
) = SSR(|
1
/ |
0
) + SSR((|
2
,/|
1
,|
0
)
++SSR(|
p
/|
p
-1,,|
1
,|
0
)

SSR(|
k
/|
k-1
,,.|
1
,|
0
) significa el incremento en la suma de
cudrados de regresin cuando la variable X
k
es incluida en el
modelo, el cual ya contiene las variables predictivas X
1
,X
k-1

14
2.3.3 Prueba de hiptesis para un
subconjunto de coeficientes de regresin
Ho: |
1
==|
k
=0. (Los k primeros coeficientes son ceros ).
Ha: Al menos uno de los k primeros coeficientes no es cero.
La prueba de F parcial se calcula por:



k gl para el numerador y n-p-1 gl para el denominador
Donde:
SSR(C) = SSR(|
1
,|
2
,.|
p
/|
o
) y SSR(R) =
SSR(|
k+1
,|
k+2
,,|
p
/|
o
)
SSR( C) SSR( R)=SSR(|
1
,|
2
,.|
k
/|
k+1
,|
k+2
,.|
p
)
) (
) ( ) (
1
) (
) ( ) (
C MSE
k
R SSR C SSR
p n
C SSE
k
R SSR C SSR
Fp

=

=
15
2.3.4 Intervalos de Confianza y de Prediccin en
Regresin Lineal Mltiple.
Se desea predecir el valor medio de la variable de respuesta
Y para una combinacin predeterminada de las variables
predictoras X1,Xp.
Consideremos el vector de valores observados
(1, x
1,0
,.x
p,0
)

El valor predicho para el valor medio de la variable de respuesta
Y ser
Se asume que los errores estn normalmente distribuidos.
16
x'
o

=
o
y

o
1
o o o
x X) (X' x' )x ( Var x'

= =
2

( ) ( o
o
y Var

=
o
' x
2.3.4 Intervalos de Confianza y de Prediccin en
Regresin Lineal Mltiple.
Un intervalo del 100(1-o)% para el valor medio de Y dado que
x=x
o
es de la forma



Un intervalo de confianza (intervalo de prediccin) del 100(1-
o)%
para el valor individual de Y dado x=x
o
es de la forma
17
o
1
o
x X) (X' x'


s t y
p n o ) 1 , 2 / (o

o
1
o
x X) (X' x'


+ 1
) 1 , 2 / (
s t y
p n o o

2.3.5 La prueba de Falta de Ajuste



Se usa para determinar si la forma del modelo que se
est considerando es adecuada.

En regresin mltiple se debe suponer que hay m
combinaciones distintas de las n observaciones de las p
variables predictoras y que por cada una de esas
combinaciones hay n
i
(i = 1,,m) observaciones de la
variable de respuesta, es decir,
18

=
=
m
i
i
n n
1
La Suma de Cuadrados del Error



Donde:
es el valor predicho por el modelo de regresin
para
la i-sima combinacin de las variables predictoras y
es el valor promedio de la variable predictora para
la i-sima combinacin.
19
2
1 1
2
1 1
2
1 1
) ( ) ( ) (

= = = = = =
+ =
m
i
n
j
i i
m
i
n
j
i ij
m
i
n
j
i ij
i i i
y y y y y y

i
y

i
y
Suma de Cuadrados del Error Puro (SSPE) Es la primera
suma de cuadrados del lado derecho, tiene n-m gl.

Suma de Cuadrados de Falta de Ajuste (SSLOF) Es la
segunda suma de cuadrados tiene m-p-1 gl.
tambin puede ser escrita como:


Prueba de hiptesis
Ho: El modelo es adecuado (no hay falta de ajuste)
Ha: el modelo no es adecuado
La prueba estadstica es una prueba de F dada por:

se distribuye como
una F(m-p-1,n-m).

20
2
1
) (


=
m
i
i i i
y y n

MSPE
MSLOF
m n SSPE
p m SSLOF
F =


=
) /(
) 1 /(

You might also like