Professional Documents
Culture Documents
Qué es el análisis
de regresión lineal
?
Yi 0 1 X i ei i=1, 2, …, n
Error ~ NID(0,2)
Parámetros Variable
Variable
predictora
dependiente
(independiente)
Material de Clases © Germán Pomachagua Perez 20-Jun.-19
El modelo de Regresión Lineal Poblacional
Yi 0 1 X i i
Yi 0 1 X iei
Yi = Variable dependiente
Xi = Variable independiente
β0= intercepto (ordenada en le origen
β1= pendiente(slope)
ei= error aleatorio
Luego el modelo ˆ ˆ ˆ
Yi β0 β1 X i
ajustado (estimado)
Ecuación estimada de
regresión
Estadísticos de la muestra
Yˆi βˆ0 βˆ1 X i
βˆ βˆ
0 1
El modelo de regresión yi 0 1 xi ei
y el modelo estimado ˆ i ˆ0 ˆ1 xi
y
ei yi yˆ i yi (βˆ0 βˆ1 xi ) i 1....n
n n
SCE L e 2
i ( yi ˆ0 ˆ1 xi ) 2
i 1 i 1
n
y i nˆ 0 ˆ1 x i
n
ˆ0 y ˆ1 x
i 1 i 1
y
La pendiente ̂1
y y
La pendiente ̂1 es 0
Línea de regresión
* es negativa
* La pendiente ̂ es *
1
positiva Línea de regresión
Línea de regresión
x x x
* Ordenada al origen ˆ
0
X: años de antigüedad
Y: costo de mantenimiento (en dólares) a. Hallar el diagrama de dispersión
Observación Años Costo b. Cálculo de la recta de regresión
1 4.0 148 c. Calcular el coeficiente de correlación
2 2.0 128
3 3.0 133
4 5.0 154
5 2.2 118
6 3.4 145
7 4.5 148
8 5.5 159
9 4.7 142
10 3.7 127
y ˆ x
6 3.4 145 493 11.56 21025
7 4.5 148 666 20.25 21904 ˆ0 1
8 5.5 159 874.5 30.25 25281 n n
9 4.7 142 667.4 22.09 20164 1402 38
10 3.7 127 469.9 13.69 16129 0 9.755 103 .128
10 10
TOTAL 38 1402 5447.4 156.68 198120
Coeficientesa
Coeficientes
Coeficientes no es tandarizad Intervalo de confianza para
es tandarizados os B al 95%
Lím ite
Modelo B Error típ. Beta t Sig. Lím ite inferior s uperior
1 (C ons tante) 103.128 7.895 13.062 .000 84.921 121.335
AÑOS 9.756 1.995 .866 4.891 .001 5.156 14.355
a. Variable dependiente: COSTO
150
y
140
130
120
110
2,00 3,00 4,00 5,00 6,00
X
.
Después de obtener el ajuste nos preguntamos:
•¿Que tan bueno es el ajuste de los datos?
•¿Este modelo es útil para predecir?
•¿Algunos de los supuestos básicos del modelo no se cumplen y que tan serio es?
Se debe investigar todas estas preguntas antes de optara por el modelo definitivo y usarlo
Todas estas inquietudes serán vistas antes de adoptar el modelo final. Como notamos
anteriormente el análisis de residuos juegan un papel importante en la evaluación del
modelo chequeando los supuestos del modelo
Material de Clases © Germán Pomachagua Perez 20-Jun.-19
ERROR ESTANDAR DE LA ESTIMACION S
SCE
s
n2
s
(Y Y )
ˆ 2
n2
• r2 deberá usarse con mucho cuidado, pues siempre es posible hacer que tienda a 1,
adicionando variables al modelo
y y yˆ i y yi yˆ i
2
2 2 2 ( y y )
i SCR
i 1 i 1 i 1 r
2 i 1
n
i i
S yy
Syy = SCR + SCE ( y y ) 2
i 1
H0 : r 2 0
H1 : r 2 0
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regres ión 1168.733 1 1168.733 23.921 .001 a
Res idual 390.867 8 48.858
Total 1559.600 9
a. Variables predictoras : (C ons tante), AÑ OS
b. Variable dependiente: COSTO
F F1,n2,
Interpretación: El 74.9% de la variabilidad del costo de mantenimiento de debe a la
variabilidad en los años de antigüedad, y el 25.1% de la variabilidad del costo de
mantenimiento se debe a factores que no han sido identificados
Material de Clases © Germán Pomachagua Perez 20-Jun.-19
COEFICIENTE DE CORRELACION DE PEARSON
Mide el grado de asociación lineal entre dos variables. Se denota por
r r 2
PROPIEDADES
Está dentro de -1 r 1
Si r > 0 entonces existe correlación directa
Si r < 0 entonces existe correlación inversa
Si r = 1 entonces existe correlación perfecta positiva
Si r = -1 entonces existe correlación perfecta inversa
Si r = 0 entonces no existe correlación lineal (x no ayuda predecir y).
Hay una correlación muy alta entre los años de antigüedad y el costo de mantenimiento.
A mayor año de antigüedad mayor, será el costo de mantenimiento.
Material de Clases © Germán Pomachagua Perez 20-Jun.-19
INTERVALOS DE CONFIANZA PARA LA RESPUESTA MEDIA y
1 (x p x)2 1 (x p x)2
y t / 2,n2 s y y t / 2,n2 s
n ( xi x ) 2
n ( xi x ) 2
1 ( x0 x ) 2 1 ( x0 x ) 2
yˆ 0 t / 2,n2 s 1 y0 y0 t / 2,n2 s 1
n ( xi x ) 2
n ( xi x ) 2
¿Construir un intervalo de predicción del costo de mantenimiento con una probabilidad del
95% si se tiene una PC con antigüedad de 3.5 años?
I.C. I.P.
1) Los datos que se usan deben estar dentro del rango de la variable. Es decir conforme
se rebasa el rango de X disminuye la certeza acerca de la validez del modelo
Ideal
Indica que los residuos están contenidos en una banda horizontal entonces no hay
defectos en el modelo ideal.
En muestras de tamaño n 16
frecuentemente producen gráficas con
desviaciones sustanciales de linealidad,
generalmente se requieren 40 o mas puntos
para hacer una buena interpretación
Test de Shapiro-Wilks
Ho: Los residuos provienen de una
distribución normal
i i1
( e e ) 2
ei
H1: Existe autocorrelación de residuos 2
i 1
No existe autocorrelación
Suele asumirse que los residuos son independientes (no hay autocorrelación) si el
estadístico de D-W está entre 1.5 y 2.5.
http://www.uam.es/personal_pdi/economicas/jmalonso/au
tocorrelacion.pdf
Material de Clases © Germán Pomachagua Perez 20-Jun.-19
“OUTLIERS, PUNTOS DE LEVERAGE ALTO Y VALORES INFLUYENTES
Sin embargo, la mayoría de los textos llaman “outlier” a un valor alejado solamente en
la dirección vertical (Y), y punto de alto Leverage o punto de apalancamiento a una
observación alejada en la dirección horizontal (X), esta puede ser o no un outlier.
En consecuencia un “outlier” vertical y/o punto alto de leverage alto puede ser
influyente o no serlo.
Por otro lado si una observación es influyente no necesariamente es un “outlier”
vertical.
La inclusion del punto A generaría un pequeño residuo debido a que está en dirección de la recta,
esto implica que A no tiene influencia en la ecuación. Por lo tanto a pesar de que A es un punto
extremo en X(alto leverage=punto de apalancamiento) y en Y, A no es influyente.
Un outlier es una observación extrema, son datos que no son iguales al resto. Los outliers
dependen de su posición en el X- espacio, pueden tener efectos moderados o graves en el
modelo de regresión estos deben corregirse si es posible o anularlos en el conjunto de datos
Fila X Y
1 4 6
2 5 7
3 7 12
4 9 15
5 12 18
6 14 21
7 16 28
8 35 65
Fila X Y
1 4 6
2 5 7
3 7 12
4 9 15
5 12 18
6 14 21
7 16 28
8 35 22
𝑑𝑖 𝑑2
a) Representa gráficamente para comprobar que existe cierta dependencia lineal entre
las variables.
b) Halla la ecuación de la recta de regresión.
c) ¿Cuál será la tensión arterial si una edad de:
X= 46 años
X= 55 años
De ellos cual es mas preciso justifique su respuesta
d) En qué medida podemos considerar que la tensión arterial depende de la edad?
e) ¿Cual es el coeficiente de Determinación Interpretar
Edad 15 26 10 9 15 20 18 10 8 20 7
Puntajes 95 71 83 91 102 87 93 100 104 94 113
Edad 9 10 11 11 10 12 42 17 11 10
Puntajes 96 83 84 102 100 105 57 121 86 100