Clas9 523215-Regresion Fin

Profesores: Francisco Muoz
Fuente:
Apunte de las profesoras Mara Paz Casanova ,Amer Rivas y
Mara Isabel Navarro, Material propio.
ORIGEN DEL CONCEPTO
REGRESIN
Francis Galton, genetista y

matemtico.
En 1875 experiment con
guisantes para determinar la ley
de la herencia en el tamao.
El esperaba que los tamaos de
las semillas padres fueran
pronosticadores perfectos de los
tamaos de sus descendientes
ORIGEN DEL CONCEPTO
REGRESIN
CHICHAROS ENANOS PRODUJERON DESCENDIENTES
MS GRANDES Y VICEVERSA
ORIGEN DEL CONCEPTO
REGRESIN
GALTON LLAM INICIALMENTE A ESTE
FENMENO REVERSIN HACIA ALGN TIPO
ANCESTRAL PROMEDIO.
Y DESPUS LO LLAM REGRESIN HACIA LA
MEDIOCRIDAD
Regresin:
Herramienta estadstica que permite analizar la
relacin entre dos o ms variables cuantitativas.
Objetivo:
Obtener la "mejor" funcin que relacione:
- la variable respuesta Y (dependiente)
- la(s) variable(s) predictora(s) X (independientes)
Modelacin
Prediccin
Funcin: Modelo de regresin ajustado.
Variable Coeficiente
respuesta
Predictora
Error
Yi 0 1 X i i
Yi 0 1 X i 2 X i i
2
Yi 0 1 X1i 2 ln X 2i 3 e X3 i
i
Estimado o Coeficiente
Predicho estimado
Predictora
Yi 0 1 X i
Yi 0 1 X i 2 X 2i
Yi 0 1 X1i 2 ln X 2i 3 e X 3 i
Error
Modelo de Regresin Lineal Yi 0 1 X i i
E( i )
0
E(Yi )
0 1 X i
Error i Yi E(Yi )
Modelo de Regresin Lineal X
Y i 0 1 i
Ajustado
Residuo e Y Y
i i i
Representacin Grfica del
Modelo de Regresin Lineal
Representacin Grfica de los
Residuos
Observado
Estimado
MNIMOS CUADRADOS
Yi a b Xi e i
Yi
Se buscan los valores de a y b que hagan

que la suma de los residuos al cuadrado
sea mnima:
n n
i i i
e 2
i 1
(Y
i 1
)
Y 2
Modelo de Regresin
SIMPLE: Una Predictora Cuantitativa y Una
Respuesta Cuantitativa
MLTIPLE: Ms de una Predictora (al menos

una cuantitativa) y Una Respuesta Cuantitativa
En todos los casos hay una sola variable

respuesta
Objetivos:
Modelar: Establecer la relacin matemtica entre
X e Y, que corresponde a una ecuacin de la recta.
Estimar: Para un valor dado de X, estimar que

valor se espera que asumira el valor Y.
Se estima E(Y)
Predecir: Para un valor dado de X, se estima un
valor futuro de Y. Es igual a estimar.
Se asume X fijo, Y aleatorio Y|X = b0 + b1X + e

Diagrama de Dispersin
Eleccin de posible(s) modelo(s)
Estimacin de coeficientes
Construccin del Modelo Ajustado
Diagnstico
Covarianza muestral
n
n x y i i nxy
(x x)
(y
i y)
i
i 1
n -1 S x y n; -1 Sx y
1 i 1
n
n
2

S Sx x
i
(x
i j
x 2
) i
x 2
i 1
n x 2 x
n -1
0 y 1x
Varianza muestral
Intercepto: valor que asume la
respuesta Y cuando la predictora X
asume el valor 0.
Pendiente: valor en el cual se

incrementa la respuesta Y por cada
unidad que aumenta la predictora X.
Estudio sobre el efecto del consumo
de sal (gr.) sobre la PAS
Intercepto b0=12 Una persona

que no consume sal, se espera que
tenga (promedio) tiene una PAS de 12
Pendiente b1=1 Por cada gramo

extra de sal diario que una persona
consuma, se espera que su PAS se
incremente en una unidad
Normalidad de los errores
Homocedasticidad de los errores
Independencia de los errores
2
1,..., N (0 , )
i .i .d.
n ~
Deben ser verificados DIAGNSTICO

Para realizar inferencia hay que conocer la
distribucin de los coeficientes y construir
Cantidad Pivotal para cada uno de ellos.
2
1
~ N ,( x 2
0 0 n S )
xx
2

~ N ,
1 1 S
xx
(n - 2 )s2 2
2
~ (n - 2 )

CANTIDADES PIVOTALES O ESTADSTICOS DE PRUEBA
0 0 1 1
~ t n- 2 ~ t n- 2
1 x 2 s
s Sx x
n Sx x
INTERVALOS DE CONFIANZA
1 x 2 s
t 1 t n2 ,1 / 2
n 2 ,1 / 2s
0
n S S
x x xx
yi y i
La idea es lograr expresar la variacin de Y en

trminos de la variacin de X y otras causas. Un
buen ajuste est vinculado a que la mayor parte de la
variacin de Y se explique en funcin de la variacin
de X.
yi y i
La idea es lograr expresar la variacin de Y en

trminos de la variacin de X (modelo) y otras
causas (error). Un buen ajuste est vinculado a que
la mayor parte de la variacin de Y se explique en
funcin de la variacin de X.
yi y ( yi y ) ( yi yi )
Variacin Variacin Variacin
Total relacionada debida al
con el modelo error
yi y i
Elevando los trminos al cuadrado, sumando, y

desarrollando un poco, se obtiene:
n n n
( y y ) ( y y ) ( y y )
i 1
i
2
i 1
i
2
i 1
i i
2
SCT SCR SCE

Suma de Suma de Suma de
Cuadrado Cuadrado de la Cuadrado del
Total Regresin Error
yi y i
Distribuciones asociadas:
2
SCE 2 (n 2)s 2
2
~ n- 2 o 2
~ n- 2 ,

para cualquier 1.
Pero, bajo H0 : 1 0 :
SCT 2 SCR 2
2
~ n-1 y 2
~ 1.

Luego,bajo H0 : 1 0 :
SCR SCR
F ~ F1,n-2 .
SCE n - 2 CME
yi y i
CMR
CME
Fuente de Grados de Sumas de Cuadrados

variacin libertad cuadrados medios Fc Valor p
F.V. g.l. SC CM
Regresin 1 SCR CMR

CMR
P(F>Fc)
CME
n-2 SCE CME
Error
Total n-1 SCT
F F(1; n-2)
yi y i
CMR
CME
Qu porcentaje de la variacin en la respuesta Y

puede ser explicada a travs del modelo en funcin de
la predictora X?
2SCR
R
SCT
Coincide con el cuadrado de la correlacin entre X e Y.
Yi = b0 + b1 X1i + + bP XPi + ei
Y1 = b0 + b1 X11 + + bP XP1 + e1
Y2 = b0 + b1 X12 + + bP XP2 + e2
:
Yn = b0 + b1 X1n + + bP XPn + en
El modelo de Regresin Lineal Mltiple tambin estima
los coeficientes mediante el mtodo de mnimos
cuadrados, es decir, minimizando la suma de los cuadrados
de los errores.
Esto implica la necesidad de derivar respecto de los

coeficientes b0, , bP .
Existe otra forma de trabajar: expresar el modelo

matricialmente, incluso derivar matrices y vectores.
Esto implica invertir ciertas matrices, y por supuesto,

trasponer y multiplicar tambin.
Ciertos errores computacionales comunes se relacionan

con matrices singulares (no se puede invertir).
2
Y X , N(0 , I )
~ .
NORMALIDAD
DE LOS ERRORES
VARIANZA
CONSTANTE
INDEPENDENCIA
Y X , ~ N(0 , 2 I )
.
Y1 1 X11 X1p 0 1
Y , X , , .
Yn 1 X n1 X np p n
X X X t Y, Y
1
t X , e Y - Y.
2 2 ete Y t I- HY
s
, H X(X t X)
1
Xt.
n p 1 n p 1
n
SCT (Yi Y)
2
, SCE e t e, SCR SCT - SCE.
i 1
SCR
2 , CMR
CME .
p -1
yi y i
SCT = SCR + SCE

descomposicin ortogonal
SCR y SCE son independientes

construccin del estadstico F
Pero
SCT = SCX1 + + SCXp + SCE

sin embargo X1 , , Xp no son
independientes
yi y i
2
SCE 2 (n p 1)s 2
2
~ n-p -1 o 2
~ n-p -1,

para cualquier .
Pero, bajo H0 : 1 ... p 0 :
SCT 2 SCR 2
2
~ n-1 y 2
~ p.

Luego, bajo H0 : 1 ... p 0 :
SCR p CMR
F ~ Fp,n-p -1.
SCE n - p - 1 CME
yi y i
CMR
CME

F.V. g.l. SC CM
Regresin p SCR CMR

CMR
P(F>Fc)
CME
n-p-1 SCE CME
Error
Total n-1 SCT
F F(p; n-p-1)
yi y i
CMR
CME

F.V. g.l. SC CM
SCX1
x1 1 SCX1 SCX1 P(F>Fc)
CME
: : : : : :
: : : : : :
SCXp
xP 1 SCxP SCxP P(F>Fc)
CME
Error n-p-1 SCE CME
Total n-1 SCT
F F(1; n-p-1)
Prueba alternativa a la F (ANOVA):
H0 : i 0.

T i
i ~ Tn - p - 1,
V ( ) s Cii
i

con Cii diagonal de X X t

1
.
yi y i
CMR
CME
Qu porcentaje de la variacin en la respuesta Y

puede ser explicada a travs del modelo en funcin de
las predictoras X1 , , Xp ?
2 SCR
R
SCT
Ya no coincide con el cuadrado de la correlacin entre
X e Y, pues hay p variables X pero coincide con la
correlacin entre Y e Y.
Cuando se elimina una variable predictora X, aunque

sea no significativa, de todas maneras R2 disminuye.
En ocasiones el investigador requiere que ciertas
predictoras estn en el modelo, sean o no
significativas, y se plantean hiptesis sobre las otras
variables.
Modelo Completo:
Y 0 1X 1 ... k X k k 1X k 1 ... p X p .
H0 : 1 ... k 0.
Modelo Reducido(bajo H0 )
:
Y 0 k 1X k 1 ... p X p .
Se requiere construir las ANOVA del modelo completo
(C) y reducido (R) SCR(C) y SCR(R).
SCRC SCRR
k SCRC SCRR ~
Fp F(k, n - p - 1).
SCEC k CMEC
n p 1
Es til para probar incorporar o eliminar variables una a

una o por grupos en un modelo mltiple.

Clas9 523215-Regresion Fin

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Clas9 523215-Regresion Fin

Uploaded by

Copyright:

Available Formats

Profesores: Francisco Muoz

Francis Galton, genetista y

Se buscan los valores de a y b que hagan

MLTIPLE: Ms de una Predictora (al menos

En todos los casos hay una sola variable

Estimar: Para un valor dado de X, estimar que

Se asume X fijo, Y aleatorio Y|X = b0 + b1X + e

Eleccin de posible(s) modelo(s)

Construccin del Modelo Ajustado

Pendiente: valor en el cual se

Intercepto b0=12 Una persona

Pendiente b1=1 Por cada gramo

Homocedasticidad de los errores

Independencia de los errores

Deben ser verificados DIAGNSTICO

La idea es lograr expresar la variacin de Y en

La idea es lograr expresar la variacin de Y en

Elevando los trminos al cuadrado, sumando, y

SCT SCR SCE

Fuente de Grados de Sumas de Cuadrados

Regresin 1 SCR CMR

Total n-1 SCT

Qu porcentaje de la variacin en la respuesta Y

Esto implica la necesidad de derivar respecto de los

Existe otra forma de trabajar: expresar el modelo

Esto implica invertir ciertas matrices, y por supuesto,

Ciertos errores computacionales comunes se relacionan

SCT = SCR + SCE

SCR y SCE son independientes

SCT = SCX1 + + SCXp + SCE

Fuente de Grados de Sumas de Cuadrados

Regresin p SCR CMR

Total n-1 SCT

Fuente de Grados de Sumas de Cuadrados

Qu porcentaje de la variacin en la respuesta Y

Cuando se elimina una variable predictora X, aunque

Es til para probar incorporar o eliminar variables una a

You might also like