Regresion Lineal 2019-1 Uni

CLASE 08: REGRESION LINEAL SIMPLE
Material de Clases © Germán Pomachagua Perez 20-Jun.-19

¿Qué es un análisis de regresión?
Un análisis de regresión genera una ecuación para

describir la relación estadística entre uno o más
predictores y la variable de respuesta y para predecir
nuevas observaciones. La regresión lineal
generalmente utiliza el método de estimación de
mínimos cuadrados ordinarios, del cual se obtiene la
ecuación al minimizar la suma de los residuos al
cuadrado.

¿Qué es regresión lineal simple?
La regresión lineal simple examina la relación lineal entre dos

variables continuas: una respuesta (Y) y un predictor (X). Cuando las
dos variables están relacionadas, es posible predecir un valor de
respuesta a partir de un valor predictor con una exactitud mayor
que la asociada únicamente a las probabilidades.
La regresión proporciona la línea que "mejor" se ajusta a los datos.
Esta línea se puede utilizar después para:
 Examinar cómo cambia la variable de respuesta a medida que
cambia la variable predictora.
 Predecir el valor de una variable de respuesta (Y) para cualquier
variable predictora (X).

Variable Variable
Independiente Dependiente
Tipos de Variables
(X) (Y)
Muchas veces las decisiones se basan en la relación entre dos o más

variables. Ejemplos:
• El precio de un producto y la demanda
• La relación entre los gastos de publicidad y el importe de sus ventas.
• ¿Existe relación entre los años de antigüedad de una máquina y el

costo de mantenimiento?

Análisis de Regresión Lineal Simple
Qué es el análisis
de regresión lineal
?
Es modelar la dependencia de la variable Y en

función de la variable X a través de la ecuación de
una recta
Yi   0  1 X i  ei i=1, 2, …, n
Error ~ NID(0,2)
Parámetros Variable
Variable
predictora
dependiente
(independiente)
El modelo de Regresión Lineal Poblacional
Yi   0  1 X i i
Considerando la muestra (xi,yi) para i=1,…n
Yi   0  1 X iei
Yi = Variable dependiente
Xi = Variable independiente
β0= intercepto (ordenada en le origen
β1= pendiente(slope)
ei= error aleatorio
Luego el modelo ˆ ˆ ˆ
Yi  β0  β1 X i
ajustado (estimado)

Proceso de estimación de la regresión lineal simple
Modelo de regresión Datos de la muestra
poblacional
x y
x1 y1
y=0+1x+ x2 y2
. .
Parámetros desconocidos . .
0.1 . .
xn yn
Ecuación estimada de
regresión
Estadísticos de la muestra
Yˆi  βˆ0  βˆ1 X i
βˆ βˆ
0 1
Material de Clases © Germán Pomachagua Perez 20-Jun.-19 7

ESTIMACION DE LOS PARAMETROS POR MINIMOS CUADRADOS
Es un procedimiento para encontrar la ecuación de regresión que minimiza la suma de los
cuadrados de las desviaciones entre los valores observados y los pronosticados
El modelo de regresión yi   0  1 xi  ei
y el modelo estimado ˆ i  ˆ0  ˆ1 xi
y
ei  yi  yˆ i  yi  (βˆ0  βˆ1 xi ) i  1....n
n n
SCE  L   e 2
i   ( yi  ˆ0  ˆ1 xi ) 2
i 1 i 1
SISTEMAS DE ECUACIONES NORMALES

n
y i  nˆ 0  ˆ1  x i
n
ˆ0  y  ˆ1 x
i 1 i 1
n xy   x  y  S

̂1   xy
n n n
 yi xi  ˆ0  xi  ˆ1  xi2

i 1 i 1 i 1 n x   x 
2 2
S S xx

Líneas posibles de regresión en la regresión lineal simple
Sección A Sección B Sección C

Relación lineal positiva Relación lineal negativa No hay relación
y
La pendiente ̂1
y y
La pendiente ̂1 es 0
Línea de regresión
* es negativa
* La pendiente ̂ es *
1
positiva Línea de regresión
Línea de regresión
x x x
* Ordenada al origen ˆ
0

SUPUESTOS DE LA REGRESION LINEAL
NOTA: El cumplimiento de estas cuatro suposiciones lo veremos mas adelante en el análisis

de residuos. La violación de algunos supuestos podrían no requerir de corrección (supuesto
2)
Ejemplo: Se tiene información referente a la antigüedad de las computadoras de una
empresa y sus costos de mantenimiento anual. Se desea hallar la ecuación de
regresión que proporcione el mejor ajuste a los datos, de modo que es posible realizar
predicciones a partir de ella. Los datos son
X: años de antigüedad
Y: costo de mantenimiento (en dólares) a. Hallar el diagrama de dispersión
Observación Años Costo b. Cálculo de la recta de regresión
1 4.0 148 c. Calcular el coeficiente de correlación
2 2.0 128
3 3.0 133
4 5.0 154
5 2.2 118
6 3.4 145
7 4.5 148
8 5.5 159
9 4.7 142
10 3.7 127

Solución: a) Reemplazando
ˆ n xy   x  y 

i X Y XY X2 Y2 1 
n x   x 
2 2
1 4 148 592 16 21904
2 2 128 256 4 16384
3 3 133 399 9 17689
10(5447 .4)  (38)(1402 )
4 5 154 770 25 23716 ˆ1   9.755
5 2.2 118 259.6 4.84 13924 10(156 .68)  (38) 2
 y  ˆ  x
6 3.4 145 493 11.56 21025
7 4.5 148 666 20.25 21904 ˆ0  1
8 5.5 159 874.5 30.25 25281 n n
9 4.7 142 667.4 22.09 20164  1402 38
10 3.7 127 469.9 13.69 16129 0   9.755  103 .128
10 10
TOTAL 38 1402 5447.4 156.68 198120
Luego la ecuación regresión será: ˆ  103 .128  9.755 x

y
Interpretación: Por cada año de antigüedad de la computadora, su costo de
mantenimiento aumentara en 9.755 dólares.

En el SPSS el análisis de regresión se puede obtener
eligiendo la opción Analizar /Regresión /Lineales

Ecuación estimada Yˆ  b0  b1 X
Coeficientesa
Coeficientes
Coeficientes no es tandarizad Intervalo de confianza para
es tandarizados os B al 95%
Lím ite
Modelo B Error típ. Beta t Sig. Lím ite inferior s uperior
1 (C ons tante) 103.128 7.895 13.062 .000 84.921 121.335
AÑOS 9.756 1.995 .866 4.891 .001 5.156 14.355
a. Variable dependiente: COSTO
ˆ  103 .128  9.755 x

y

En el MINITAB el análisis de regresión se puede obtener eligiendo la opción:
Estadísticas /Regresión /Regresión/ Ajustar modelo de regresión

Una vez ajustada la recta de regresión a la nube de observaciones es importante disponer
de una medida que mida la bondad del ajuste realizado y que permita decidir si el ajuste
lineal es suficiente o se deben buscar modelos alternativos. Como medida de bondad del
ajuste se utiliza el coeficiente de determinación R2

GRAFICA DE RESIDUOS EN MINITAB

GRAFICA DE RESIDUOS EN SPSS

DIAGRAMA DE DISPERSIÓN
Y
ˆ  103 .128  9.755 x

Observed
160 Linear
150
y
140
130
120
110
2,00 3,00 4,00 5,00 6,00
X
.
Después de obtener el ajuste nos preguntamos:
•¿Que tan bueno es el ajuste de los datos?
•¿Este modelo es útil para predecir?
•¿Algunos de los supuestos básicos del modelo no se cumplen y que tan serio es?
Se debe investigar todas estas preguntas antes de optara por el modelo definitivo y usarlo
Todas estas inquietudes serán vistas antes de adoptar el modelo final. Como notamos
anteriormente el análisis de residuos juegan un papel importante en la evaluación del
modelo chequeando los supuestos del modelo
ERROR ESTANDAR DE LA ESTIMACION S
El error estándar de la estimación mide la dispersión de los valores observados alrededor

de la recta de regresión.
SCE
s
n2
s
 (Y  Y )
ˆ 2
n2
Es una medida de variabilidad o dispersión de los valores de y observados alrededor de

la recta
También podríamos decir que es un indicador del grado de precisión con que la ecuación
de regresión describe la relación entre dos variables y e Ŷ

Del ejemplo de la Tabla 1
 2
S
 (Y  Y )

390 .90
 6.99
n2 8
Interpretación: El 68.3% de los valores reales
caen dentro de Ŷ±S = Ŷ±6.99) si X=4
Ŷ1=103.128+9.756*4-6.99=135.162
Ŷ2=103.128+9.756*4+6.99=149.121

COEFICIENTE DE DETERMINACION r2
• Es una medida del grado de fiabilidad o bondad de un ajuste de un modelo de
regresión se mide usando el coeficiente de determinación r2
• r2 es una cantidad adimensional que sólo puede tomar valores en [0, 1]
• Cuando un ajuste es bueno, r2 será cercano a uno.
• Cuando un ajuste es malo r2 será cercano a cero.
• r2 deberá usarse con mucho cuidado, pues siempre es posible hacer que tienda a 1,
adicionando variables al modelo
• Aún cuando r2 tienda a 1, no necesariamente indica que éste modelo de regresión

predicción dará predicciones precisas de observaciones futuras.
n

 i i
n n n
 y  y    yˆ i  y     yi  yˆ i 
2
2 2 2 ( y y )
i SCR
i 1 i 1 i 1 r 
2 i 1
n

 i i
S yy
Syy = SCR + SCE ( y  y ) 2
i 1

Interpretación:
 El 74.9% de la variación en el
costo de mantenimiento se debe
n
 asociación lineal con los años de
 i  yi )2
( y
SCR 1168 .73 antigüedad
r2  i 1
n
 r2   0.749  El modelo de regresión lineal
 i i 1559 .6
S yy
( y  y ) 2 explica las variaciones del costo
i 1 de mantenimiento en un 74.9%
Simulación: Residuos del modelo de regresión

ANALISIS DE VARIANZA
H0 : r 2  0
H1 : r 2  0
La utilidad real de ANAVA esta en los modelos de regresión múltiple

ANALISIS DE VARIANZA PARA PROBAR LA SIGNIFICACIÓN
El ANOVA sirve para ver si existe relación significativa entre las variables
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regres ión 1168.733 1 1168.733 23.921 .001 a
Res idual 390.867 8 48.858
Total 1559.600 9
a. Variables predictoras : (C ons tante), AÑ OS
b. Variable dependiente: COSTO
H 0 : r 2  0 El modelo de regresion lineal no sirve para explicar Y

H1 : r 2  0 El modelo de regresion lineal sirve para explicar Y
A nivel de significación a rechazamos cuando
F  F1,n2,
Interpretación: El 74.9% de la variabilidad del costo de mantenimiento de debe a la
variabilidad en los años de antigüedad, y el 25.1% de la variabilidad del costo de
mantenimiento se debe a factores que no han sido identificados
COEFICIENTE DE CORRELACION DE PEARSON
Mide el grado de asociación lineal entre dos variables. Se denota por
r r 2
PROPIEDADES
Está dentro de -1 r  1
Si r > 0 entonces existe correlación directa
Si r < 0 entonces existe correlación inversa
Si r = 1 entonces existe correlación perfecta positiva
Si r = -1 entonces existe correlación perfecta inversa
Si r = 0 entonces no existe correlación lineal (x no ayuda predecir y).

¿A partir de qué valores se considera que hay “buena relación lineal”?
Es difícil dar un valor concreto . Pero muchos autores consideran si |r|≥0.7 hay buena
relación lineal es decir se considera una alta correlación

i X Y XY X2 Y2
1 4 148 592 16 21904
2 2 128 256 4 16384
3 3 133 399 9 17689
4 5 154 770 25 23716
5 2.2 118 259.6 4.84 13924
6 3.4 145 493 11.56 21025
7 4.5 148 666 20.25 21904
8 5.5 159 874.5 30.25 25281
9 4.7 142 667.4 22.09 20164
10 3.7 127 469.9 13.69 16129
TOTAL 38 1402 5447.4 156.68 198120
n XY    X  Y 
r 
n  X    X 
2 2
n Y    Y 
2 2
10(5447 .4)  (38)(1402 )

r  0.866
10(156 .68)  (38) 2
10(198120 )  (1402 ) 2
 Hay una correlación muy alta entre los años de antigüedad y el costo de mantenimiento.
 A mayor año de antigüedad mayor, será el costo de mantenimiento.
INTERVALOS DE CONFIANZA PARA LA RESPUESTA MEDIA y
 1 (x p  x)2  1 (x p  x)2
y  t / 2,n2 s   y  y  t / 2,n2 s 
n  ( xi  x ) 2
n  ( xi  x ) 2
¿Construir un el intervalo de confianza del 95% para el costo medio de manteniendo si se

tiene una PC con antigüedad de 3.5 años?
Material de Clases © Germán Pomachagua Perez 31

20-Jun.-19
INTERVALOS DE PREDICCION PARA UN SOLO VALOR DE y
1 ( x0  x ) 2  1 ( x0  x ) 2
yˆ 0  t / 2,n2 s 1    y0  y0  t / 2,n2 s 1  
n  ( xi  x ) 2
n  ( xi  x ) 2
Donde tα/2 es un valor de la distribución t con (n-2) grados de libertad
¿Construir un intervalo de predicción del costo de mantenimiento con una probabilidad del
95% si se tiene una PC con antigüedad de 3.5 años?

20-Jun.-19
En el MINITAB para calcular los intervalos de confianza y de predicción. Se puede obtener
eligiendo la opción:
Estadísticas /Regresión /Regresión/ Predecir
Luego clic en Opciones

Interpretación de I. P. Se tiene un intervalo de pronostico con una probabilidad del 95% de
que el costo de mantenimiento estará dentro 120.312 a 154.235 dólares, para una
computadora con 3.5 años de antigüedad
Interpretación de I.C.: Se tiene una confianza del 95% que el costo promedio de
mantenimiento de la población estará dentro 131.993 a 142.554 dólares, para una
computadora con 3.5 años de antigüedad

En el SPSS para calcular los intervalos de confianza y de predicción. Se puede obtener
eligiendo la opción:
Analizar/Regresión /Lineales / Opciones /Guardar
I.C. I.P.

RIESGOS EN EL USO DE LA REGRESIÓN
1) Los datos que se usan deben estar dentro del rango de la variable. Es decir conforme
se rebasa el rango de X disminuye la certeza acerca de la validez del modelo

2) La disposición que se encuentra los valores de X juegan un papel importante en el
ajuste de Mínimos Cuadrados Ordinarios. Aquí todos los puntos tienen igual
ponderación para determinar la altura (intercepto), la pendiente esta más
influenciada por los valores alejados de X (outliers).

3) Los outliers (datos discordantes) afectan seriamente el ajuste por mínimo cuadrados
ordinarios. La observación pareciera ser un outlier porque cae lejos del resto de datos.

ANALISIS DE RESIDUOS
Una vez ajustado el modelo se examinan los residuos para:
Ver si el modelo es adecuado
Ver en que si realmente se podemos cree en que se cumplen las hipótesis del modelo
Ver si hay datos discordantes (outliers) y / o datos de alta influencia
Ver si hay variables omitidas, como nivel de vida, cualidades del trabajador etc.
¿Cómo se puede hacer un análisis de residuos?
1) Se calcula los residuos.
 Residuos Ordinarios (Residuos No tipificados )
ei  yi  yˆ i i  1,2....n ei ~ N (0,  2 )
 Residuos Estandarizados  Residuos Estundentizados
ei ei
ri   i  1,2.........n ti   i  1,2.........n
sei 1  hi s( i ) 1  hi
hi Leverage: Mide la importancia de la i-ésima observación en el modelo
Aproximadamente el 95% de los residuos estandarizados deben caer en el intervalo
<-2, 2>, los que caen fuera indica la presencia de un outlier
2) Se hacen gráficos
Los gráficos son útiles para detectar el modelo adecuado, estos métodos son
simples y efectivos
 Diagrama de los residuos ei contra Ŷ
Ideal
Indica que los residuos están contenidos en una banda horizontal entonces no hay
defectos en el modelo ideal.

 Diagrama de probabilidad normal
 La gráfica de probabilidad normal nos

muestra el modelo "ideal" está
aproximadamente en una línea recta
entonces el ajuste es perfecto.
 La gráfica b, c y d muestran anomalías en el

modelo. Para diagnosticar hay que darnos
cuenta en los valores centrales de la
probabilidad acumulada (entre 0.33 y 0.67),
más que en los extremos.
 En muestras de tamaño n  16
frecuentemente producen gráficas con
desviaciones sustanciales de linealidad,
generalmente se requieren 40 o mas puntos
para hacer una buena interpretación
Test de Shapiro-Wilks
Ho: Los residuos provienen de una
distribución normal

SUPUESTOS DE NORMALIDAD
Ho: Los errores provienen de una distribución Normal

H1: Los errores No provienen de una distribución Normal
Como sig=0.630>α=0.05 entonces no se rechaza Ho

Conclusión: Luego los errores se distribuyen en forma normal

AUTOCORRELACION n
 i i1
( e  e ) 2
Ho: No existe autocorrelación de residuos d i 2

n
 ei
H1: Existe autocorrelación de residuos 2
i 1
No existe autocorrelación
Suele asumirse que los residuos son independientes (no hay autocorrelación) si el
estadístico de D-W está entre 1.5 y 2.5.
http://www.uam.es/personal_pdi/economicas/jmalonso/au
tocorrelacion.pdf
“OUTLIERS, PUNTOS DE LEVERAGE ALTO Y VALORES INFLUYENTES
Una observación (y*,x*1,……..x*p) es considerado un “outlier” si está bastante alejado

de la mayoría de los datos sea en la dirección vertical o en la horizontal.
Sin embargo, la mayoría de los textos llaman “outlier” a un valor alejado solamente en
la dirección vertical (Y), y punto de alto Leverage o punto de apalancamiento a una
observación alejada en la dirección horizontal (X), esta puede ser o no un outlier.
Una observación (y*,x*1,……..x*p) es considerado un valor influyente si su presencia

afecta tremendamente el comportamiento del modelo.
En consecuencia un “outlier” vertical y/o punto alto de leverage alto puede ser
influyente o no serlo.
Por otro lado si una observación es influyente no necesariamente es un “outlier”
vertical.

“OUTLIERS, PUNTOS DE LEVERAGE ALTO Y VALORES INFLUYENTES
La inclusion del punto A generaría un pequeño residuo debido a que está en dirección de la recta,
esto implica que A no tiene influencia en la ecuación. Por lo tanto a pesar de que A es un punto
extremo en X(alto leverage=punto de apalancamiento) y en Y, A no es influyente.
Si B es incluido generará un gran residuo (por esto

es llamado un punto Outlier) y aunque puede no
cambiar la pendiente si alterará el intercepto., las
varianzas. Por tanto una observación como B es un
outlier (no es de alto leverage puesto que no es un
extremo de X) yes un punto influyente
Si agregamos el punto C (el cual es un punto de

alto leverage puesto que es extremo de X) genera
un gran residuo (C será entonces un *outlier*) y
alterarán sustancialmente las características de la
regresión ajustada. Entonces C es un punto
influyente

TRATAMIENTO Y DETECCION DE OUTLIER
Un outlier es una observación extrema, son datos que no son iguales al resto. Los outliers
dependen de su posición en el X- espacio, pueden tener efectos moderados o graves en el
modelo de regresión estos deben corregirse si es posible o anularlos en el conjunto de datos
Ejemplo de una observación que es punto

Ejemplo de una observación de leverage outlier y de leverage alto y que también es
alto pero que no es influyente influyente
Este punto tendrá un gran efecto sobre el r2 y el

cambio drástico en la pendiente
EJEMPLO
Fila X Y
1 4 6
2 5 7
3 7 12
4 9 15
5 12 18
6 14 21
7 16 28
8 35 65
X ( alto leverage) pero no influyente, luego no se

anula
Fila X Y
1 4 6
2 5 7
3 7 12
4 9 15
5 12 18
6 14 21
7 16 28
8 35 22

Ejemplo: Un motor de un cohete se fabrica uniendo un propulsor por donde sale el fuego y
un propulsor que lo sostenga juntos dentro de un alojamiento de metal. La fuerza que une
los dos tipos de propulsor es una característica de calidad importante. Se sospecha que
esta fuerza de unión está relacionada con el tiempo de fabricación del propulsor.

Correlación de Spearman
 Mide la asociación entre dos variables
 Se usa cuando el grado de ajuste en las variables no es lineal y no tienen

distribución normal, o cuando una de las variables es ordinal, debe
emplearse una aproximación no paramétrica, siendo la más empleada el
Coeficiente de Correlación Rho de Spearman.
 Se rigen por las mismas reglas que correlación de Pearson

 Este coeficiente se emplea cuando una o ambas escalas de medidas de las
variables son ordinales, es decir, cuando una o ambas escalas de medida
son posiciones. Ejemplo: Orden de llegada en una carrera y peso de los
atletas.
6 𝑑2
𝑟𝑠 = 1 −
𝑛 𝑛2 − 1
𝑑: 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑟𝑎𝑛𝑔𝑜𝑠 𝑋 𝑚𝑒𝑛𝑜𝑠 𝑌
𝑛: 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠

Ejemplo de Correlación de Spearman
Objetivo: Conocer si el desarrollo mental de 8 niños esta

asociado a la educación formal de su madre.
Hipótesis.
Ho: No habrá una correlación significativa en el desarrollo
mental de 8 niños dependiendo de la educación formal de
la madre
H1: Habrá una correlación significativa en el desarrollo mental
de 8 niños dependiendo de la educación formal de la
madre.

6 𝑑2 6 14
𝑟𝑠 = 1 − 2
= 1 − 2
= 0.833
𝑛 𝑛 −1 8 8 −1
Si 𝑟𝑠 >𝑟𝑡𝑎𝑏𝑙𝑎 entonces se rechaza Ho

0.833>0.738
Conclusion: Hay una correlación significativa en el desarrollo mental de 8 niños
dependiendo de la educación formal de la madre
𝑑𝑖 𝑑2

20-Jun.-19
1) En el servicio central de turismo de un país se ha observado que el número de plazas
hoteleras ocupadas es diferente según sea el precio de la habitación. Sobre el total de
plazas ocupadas en un año se tiene:
Precio ($/noche) 250 650 1000 1400 2100
Nº habitaciones ocupadas 4725 2610 1872 943 450
a) Representa gráficamente para comprobar que existe cierta dependencia lineal entre
las variables.
b) Halla la ecuación de la recta de regresión.
c) ¿Cuántas habitaciones se llenarían a $1500 .?
d) En qué medida podemos considerar que el nivel de ocupación depende de la
estructura de precios?
e) ¿Cual es el coeficiente de Determinación Interpretar

2) El volumen de ahorro y la renta del sector familias en miles de dólares constantes de
1.977, para el período 77-86 fueron:
Año Ahorro Renta
77 1.9 20.5
78 1.8 20.8
79 2.0 21.2
80 2.1 21.7
81 1.9 22.1
82 2.0 22.3
83 2.2 22.2
84 2.3 22.6
85 2.7 23.1
86 3.0 23.5
a) Recta de regresión del ahorro sobre la renta.
b) Recta de regresión de la renta sobre el ahorro.
c) Para el año 87 se supone una renta de 34.1 en miles de dólares . ¿Cuál será el ahorro
esperado para el año 87?
d) Estudia la fiabilidad de la predicción del apartado anterior

3) Los siguientes datos son las mediciones de la Tensión Arterial en 14 pacientes de
distintas edades:
a) Representa gráficamente para comprobar que existe cierta dependencia lineal entre
las variables.
b) Halla la ecuación de la recta de regresión.
c) ¿Cuál será la tensión arterial si una edad de:
X= 46 años
X= 55 años
De ellos cual es mas preciso justifique su respuesta
d) En qué medida podemos considerar que la tensión arterial depende de la edad?
e) ¿Cual es el coeficiente de Determinación Interpretar

4) En un estudio del desarrollo del conocimiento se registra la edad (X ) en meses) a la que 21
niños dicen su primera palabra y el puntaje en la prueba de Gessell (Y), un test de habilidad
que toma posteriormente el niño (ver datos Gessell en la página de internet del curso). Los
resultados son como siguen
Edad 15 26 10 9 15 20 18 10 8 20 7
Puntajes 95 71 83 91 102 87 93 100 104 94 113
Edad 9 10 11 11 10 12 42 17 11 10
Puntajes 96 83 84 102 100 105 57 121 86 100
a) Hallar la línea de regresión. e interpretar los coeficientes de la línea de regresión

b) Trazar la línea de regresión encima del diagrama de puntos.
c) Probar la hipótesis de que la pendiente es cero. Comentar su resultado
d) Interpretar el coeficiente de determinación R2
e) Hallar un intervalo de confianza del 99% para la pendiente de la línea de regresión
poblacional
f) Asigne un valor adecuado a la variable predictora y halle un intervalo de confianza del 95%
para el valor individual y valor medio de la variable de respuesta e interpretar el resultado.

Regresion Lineal 2019-1 Uni

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regresion Lineal 2019-1 Uni

Uploaded by

Copyright:

Available Formats

CLASE 08: REGRESION LINEAL SIMPLE

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

Un análisis de regresión genera una ecuación para

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

La regresión lineal simple examina la relación lineal entre dos

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

Muchas veces las decisiones se basan en la relación entre dos o más

• La relación entre los gastos de publicidad y el importe de sus ventas.

• ¿Existe relación entre los años de antigüedad de una máquina y el

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

Es modelar la dependencia de la variable Y en

Considerando la muestra (xi,yi) para i=1,…n

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

Material de Clases © Germán Pomachagua Perez 20-Jun.-19 7

SISTEMAS DE ECUACIONES NORMALES

n xy   x  y  S

 yi xi  ˆ0  xi  ˆ1  xi2

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

Sección A Sección B Sección C

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

NOTA: El cumplimiento de estas cuatro suposiciones lo veremos mas adelante en el análisis

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

ˆ n xy   x  y 

Luego la ecuación regresión será: ˆ  103 .128  9.755 x

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

ˆ  103 .128  9.755 x

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

ˆ  103 .128  9.755 x

El error estándar de la estimación mide la dispersión de los valores observados alrededor

Es una medida de variabilidad o dispersión de los valores de y observados alrededor de

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

• Cuando un ajuste es bueno, r2 será cercano a uno.

• Cuando un ajuste es malo r2 será cercano a cero.

• Aún cuando r2 tienda a 1, no necesariamente indica que éste modelo de regresión

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

La utilidad real de ANAVA esta en los modelos de regresión múltiple

H 0 : r 2  0 El modelo de regresion lineal no sirve para explicar Y

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

10(5447 .4)  (38)(1402 )

¿Construir un el intervalo de confianza del 95% para el costo medio de manteniendo si se

Material de Clases © Germán Pomachagua Perez 31

Donde tα/2 es un valor de la distribución t con (n-2) grados de libertad

Material de Clases © Germán Pomachagua Perez 32

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

 La gráfica de probabilidad normal nos

 La gráfica b, c y d muestran anomalías en el

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

Ho: Los errores provienen de una distribución Normal

Como sig=0.630>α=0.05 entonces no se rechaza Ho

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

Una observación (y,x1,……..x*p) es considerado un “outlier” si está bastante alejado

Una observación (y,x1,……..x*p) es considerado un valor influyente si su presencia