You are on page 1of 39

Profesores: Francisco Muoz

Fuente:
Apunte de las profesoras Mara Paz Casanova ,Amer Rivas y
Mara Isabel Navarro, Material propio.
ORIGEN DEL CONCEPTO
REGRESIN

Francis Galton, genetista y


matemtico.
En 1875 experiment con
guisantes para determinar la ley
de la herencia en el tamao.
El esperaba que los tamaos de
las semillas padres fueran
pronosticadores perfectos de los
tamaos de sus descendientes
ORIGEN DEL CONCEPTO
REGRESIN
CHICHAROS ENANOS PRODUJERON DESCENDIENTES
MS GRANDES Y VICEVERSA
ORIGEN DEL CONCEPTO
REGRESIN
GALTON LLAM INICIALMENTE A ESTE
FENMENO REVERSIN HACIA ALGN TIPO
ANCESTRAL PROMEDIO.
Y DESPUS LO LLAM REGRESIN HACIA LA
MEDIOCRIDAD
Regresin:
Herramienta estadstica que permite analizar la
relacin entre dos o ms variables cuantitativas.

Objetivo:
Obtener la "mejor" funcin que relacione:
- la variable respuesta Y (dependiente)
- la(s) variable(s) predictora(s) X (independientes)
Modelacin
Prediccin
Funcin: Modelo de regresin ajustado.
Variable Coeficiente
respuesta
Predictora

Error
Yi 0 1 X i i
Yi 0 1 X i 2 X i i
2

Yi 0 1 X1i 2 ln X 2i 3 e X3 i
i
Estimado o Coeficiente
Predicho estimado
Predictora

Yi 0 1 X i
Yi 0 1 X i 2 X 2i
Yi 0 1 X1i 2 ln X 2i 3 e X 3 i
Error
Modelo de Regresin Lineal Yi 0 1 X i i
E( i )
0
E(Yi )
0 1 X i
Error i Yi E(Yi )
Modelo de Regresin Lineal X
Y i 0 1 i
Ajustado
Residuo e Y Y
i i i
Representacin Grfica del
Modelo de Regresin Lineal
Representacin Grfica de los
Residuos

Observado
Estimado
MNIMOS CUADRADOS
Yi a b Xi e i

Yi

Se buscan los valores de a y b que hagan


que la suma de los residuos al cuadrado
sea mnima:
n n

i i i
e 2

i 1
(Y
i 1
)
Y 2
Modelo de Regresin
SIMPLE: Una Predictora Cuantitativa y Una
Respuesta Cuantitativa

MLTIPLE: Ms de una Predictora (al menos


una cuantitativa) y Una Respuesta Cuantitativa

En todos los casos hay una sola variable


respuesta
Objetivos:
Modelar: Establecer la relacin matemtica entre
X e Y, que corresponde a una ecuacin de la recta.

Estimar: Para un valor dado de X, estimar que


valor se espera que asumira el valor Y.
Se estima E(Y)
Predecir: Para un valor dado de X, se estima un
valor futuro de Y. Es igual a estimar.

Se asume X fijo, Y aleatorio Y|X = b0 + b1X + e


Diagrama de Dispersin

Eleccin de posible(s) modelo(s)

Estimacin de coeficientes

Construccin del Modelo Ajustado

Diagnstico
Covarianza muestral

n
n x y i i nxy
(x x)
(y
i y)
i
i 1
n -1 S x y n; -1 Sx y
1 i 1
n
n
2

S Sx x
i
(x
i j
x 2
) i
x 2

i 1
n x 2 x

n -1
0 y 1x

Varianza muestral
Intercepto: valor que asume la
respuesta Y cuando la predictora X
asume el valor 0.

Pendiente: valor en el cual se


incrementa la respuesta Y por cada
unidad que aumenta la predictora X.
Estudio sobre el efecto del consumo
de sal (gr.) sobre la PAS

Intercepto b0=12 Una persona


que no consume sal, se espera que
tenga (promedio) tiene una PAS de 12

Pendiente b1=1 Por cada gramo


extra de sal diario que una persona
consuma, se espera que su PAS se
incremente en una unidad
Normalidad de los errores

Homocedasticidad de los errores

Independencia de los errores

2
1,..., N (0 , )
i .i .d.
n ~

Deben ser verificados DIAGNSTICO


Para realizar inferencia hay que conocer la
distribucin de los coeficientes y construir
Cantidad Pivotal para cada uno de ellos.
2
1
~ N ,( x 2
0 0 n S )
xx
2

~ N ,
1 1 S
xx

(n - 2 )s2 2
2
~ (n - 2 )

CANTIDADES PIVOTALES O ESTADSTICOS DE PRUEBA

0 0 1 1
~ t n- 2 ~ t n- 2
1 x 2 s
s Sx x
n Sx x
INTERVALOS DE CONFIANZA

1 x 2 s
t 1 t n2 ,1 / 2
n 2 ,1 / 2s
0
n S S
x x xx
yi y i

La idea es lograr expresar la variacin de Y en


trminos de la variacin de X y otras causas. Un
buen ajuste est vinculado a que la mayor parte de la
variacin de Y se explique en funcin de la variacin
de X.
yi y i

La idea es lograr expresar la variacin de Y en


trminos de la variacin de X (modelo) y otras
causas (error). Un buen ajuste est vinculado a que
la mayor parte de la variacin de Y se explique en
funcin de la variacin de X.

yi y ( yi y ) ( yi yi )
Variacin Variacin Variacin
Total relacionada debida al
con el modelo error
yi y i

Elevando los trminos al cuadrado, sumando, y


desarrollando un poco, se obtiene:
n n n

( y y ) ( y y ) ( y y )
i 1
i
2

i 1
i
2

i 1
i i
2

SCT SCR SCE


Suma de Suma de Suma de
Cuadrado Cuadrado de la Cuadrado del
Total Regresin Error
yi y i

Distribuciones asociadas:
2
SCE 2 (n 2)s 2
2
~ n- 2 o 2
~ n- 2 ,

para cualquier 1.
Pero, bajo H0 : 1 0 :
SCT 2 SCR 2
2
~ n-1 y 2
~ 1.

Luego,bajo H0 : 1 0 :
SCR SCR
F ~ F1,n-2 .
SCE n - 2 CME
yi y i
CMR
CME

Fuente de Grados de Sumas de Cuadrados


variacin libertad cuadrados medios Fc Valor p
F.V. g.l. SC CM

Regresin 1 SCR CMR


CMR
P(F>Fc)
CME
n-2 SCE CME
Error

Total n-1 SCT

F F(1; n-2)
yi y i
CMR
CME

Qu porcentaje de la variacin en la respuesta Y


puede ser explicada a travs del modelo en funcin de
la predictora X?

2SCR
R
SCT
Coincide con el cuadrado de la correlacin entre X e Y.
Yi = b0 + b1 X1i + + bP XPi + ei
Y1 = b0 + b1 X11 + + bP XP1 + e1
Y2 = b0 + b1 X12 + + bP XP2 + e2
:
Yn = b0 + b1 X1n + + bP XPn + en
El modelo de Regresin Lineal Mltiple tambin estima
los coeficientes mediante el mtodo de mnimos
cuadrados, es decir, minimizando la suma de los cuadrados
de los errores.

Esto implica la necesidad de derivar respecto de los


coeficientes b0, , bP .

Existe otra forma de trabajar: expresar el modelo


matricialmente, incluso derivar matrices y vectores.

Esto implica invertir ciertas matrices, y por supuesto,


trasponer y multiplicar tambin.

Ciertos errores computacionales comunes se relacionan


con matrices singulares (no se puede invertir).
2
Y X , N(0 , I )
~ .

NORMALIDAD
DE LOS ERRORES

VARIANZA
CONSTANTE

INDEPENDENCIA
Y X , ~ N(0 , 2 I )
.
Y1 1 X11 X1p 0 1
Y , X , , .
Yn 1 X n1 X np p n
X X X t Y, Y
1
t X , e Y - Y.

2 2 ete Y t I- HY
s
, H X(X t X)
1
Xt.
n p 1 n p 1
n
SCT (Yi Y)
2
, SCE e t e, SCR SCT - SCE.
i 1

SCR
2 , CMR
CME .
p -1
yi y i

SCT = SCR + SCE


descomposicin ortogonal

SCR y SCE son independientes


construccin del estadstico F
Pero

SCT = SCX1 + + SCXp + SCE


sin embargo X1 , , Xp no son
independientes
yi y i

2
SCE 2 (n p 1)s 2
2
~ n-p -1 o 2
~ n-p -1,

para cualquier .
Pero, bajo H0 : 1 ... p 0 :
SCT 2 SCR 2
2
~ n-1 y 2
~ p.

Luego, bajo H0 : 1 ... p 0 :
SCR p CMR
F ~ Fp,n-p -1.
SCE n - p - 1 CME
yi y i
CMR
CME

Fuente de Grados de Sumas de Cuadrados


variacin libertad cuadrados medios Fc Valor p
F.V. g.l. SC CM

Regresin p SCR CMR


CMR
P(F>Fc)
CME
n-p-1 SCE CME
Error

Total n-1 SCT

F F(p; n-p-1)
yi y i
CMR
CME

Fuente de Grados de Sumas de Cuadrados


variacin libertad cuadrados medios Fc Valor p
F.V. g.l. SC CM
SCX1
x1 1 SCX1 SCX1 P(F>Fc)
CME
: : : : : :
: : : : : :
SCXp
xP 1 SCxP SCxP P(F>Fc)
CME
Error n-p-1 SCE CME
Total n-1 SCT

F F(1; n-p-1)
Prueba alternativa a la F (ANOVA):

H0 : i 0.


T i
i ~ Tn - p - 1,
V ( ) s Cii
i


con Cii diagonal de X X t

1
.
yi y i
CMR
CME

Qu porcentaje de la variacin en la respuesta Y


puede ser explicada a travs del modelo en funcin de
las predictoras X1 , , Xp ?

2 SCR
R
SCT
Ya no coincide con el cuadrado de la correlacin entre
X e Y, pues hay p variables X pero coincide con la
correlacin entre Y e Y.

Cuando se elimina una variable predictora X, aunque


sea no significativa, de todas maneras R2 disminuye.
En ocasiones el investigador requiere que ciertas
predictoras estn en el modelo, sean o no
significativas, y se plantean hiptesis sobre las otras
variables.
Modelo Completo:
Y 0 1X 1 ... k X k k 1X k 1 ... p X p .
H0 : 1 ... k 0.
Modelo Reducido(bajo H0 )
:
Y 0 k 1X k 1 ... p X p .
Se requiere construir las ANOVA del modelo completo
(C) y reducido (R) SCR(C) y SCR(R).
SCRC SCRR
k SCRC SCRR ~
Fp F(k, n - p - 1).
SCEC k CMEC
n p 1

Es til para probar incorporar o eliminar variables una a


una o por grupos en un modelo mltiple.

You might also like