You are on page 1of 60

CLASE 08: REGRESION LINEAL SIMPLE

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


¿Qué es un análisis de regresión?

Un análisis de regresión genera una ecuación para


describir la relación estadística entre uno o más
predictores y la variable de respuesta y para predecir
nuevas observaciones. La regresión lineal
generalmente utiliza el método de estimación de
mínimos cuadrados ordinarios, del cual se obtiene la
ecuación al minimizar la suma de los residuos al
cuadrado.

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


¿Qué es regresión lineal simple?

La regresión lineal simple examina la relación lineal entre dos


variables continuas: una respuesta (Y) y un predictor (X). Cuando las
dos variables están relacionadas, es posible predecir un valor de
respuesta a partir de un valor predictor con una exactitud mayor
que la asociada únicamente a las probabilidades.
La regresión proporciona la línea que "mejor" se ajusta a los datos.
Esta línea se puede utilizar después para:
 Examinar cómo cambia la variable de respuesta a medida que
cambia la variable predictora.
 Predecir el valor de una variable de respuesta (Y) para cualquier
variable predictora (X).

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


Variable Variable
Independiente Dependiente
Tipos de Variables
(X) (Y)

Muchas veces las decisiones se basan en la relación entre dos o más


variables. Ejemplos:
• El precio de un producto y la demanda

• La relación entre los gastos de publicidad y el importe de sus ventas.

• ¿Existe relación entre los años de antigüedad de una máquina y el


costo de mantenimiento?

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


Análisis de Regresión Lineal Simple

Qué es el análisis
de regresión lineal
?

Es modelar la dependencia de la variable Y en


función de la variable X a través de la ecuación de
una recta

Yi   0  1 X i  ei i=1, 2, …, n

Error ~ NID(0,2)
Parámetros Variable
Variable
predictora
dependiente
(independiente)
Material de Clases © Germán Pomachagua Perez 20-Jun.-19
El modelo de Regresión Lineal Poblacional

Yi   0  1 X i i

Considerando la muestra (xi,yi) para i=1,…n

Yi   0  1 X iei
Yi = Variable dependiente
Xi = Variable independiente
β0= intercepto (ordenada en le origen
β1= pendiente(slope)
ei= error aleatorio

Luego el modelo ˆ ˆ ˆ
Yi  β0  β1 X i
ajustado (estimado)

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


Proceso de estimación de la regresión lineal simple
Modelo de regresión Datos de la muestra
poblacional
x y
x1 y1
y=0+1x+ x2 y2
. .
Parámetros desconocidos . .
0.1 . .
xn yn

Ecuación estimada de
regresión

Estadísticos de la muestra
Yˆi  βˆ0  βˆ1 X i
βˆ βˆ
0 1

Material de Clases © Germán Pomachagua Perez 20-Jun.-19 7


ESTIMACION DE LOS PARAMETROS POR MINIMOS CUADRADOS
Es un procedimiento para encontrar la ecuación de regresión que minimiza la suma de los
cuadrados de las desviaciones entre los valores observados y los pronosticados

El modelo de regresión yi   0  1 xi  ei
y el modelo estimado ˆ i  ˆ0  ˆ1 xi
y
ei  yi  yˆ i  yi  (βˆ0  βˆ1 xi ) i  1....n
n n
SCE  L   e 2
i   ( yi  ˆ0  ˆ1 xi ) 2
i 1 i 1

SISTEMAS DE ECUACIONES NORMALES


n
y i  nˆ 0  ˆ1  x i
n
ˆ0  y  ˆ1 x
i 1 i 1

n xy   x  y  S


̂1   xy
n n n

 yi xi  ˆ0  xi  ˆ1  xi2


i 1 i 1 i 1 n x   x 
2 2
S S xx

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


Líneas posibles de regresión en la regresión lineal simple

Sección A Sección B Sección C


Relación lineal positiva Relación lineal negativa No hay relación

y
La pendiente ̂1
y y

La pendiente ̂1 es 0
Línea de regresión
* es negativa

* La pendiente ̂ es *
1
positiva Línea de regresión
Línea de regresión

x x x
* Ordenada al origen ˆ
0

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


SUPUESTOS DE LA REGRESION LINEAL

NOTA: El cumplimiento de estas cuatro suposiciones lo veremos mas adelante en el análisis


de residuos. La violación de algunos supuestos podrían no requerir de corrección (supuesto
2)
Material de Clases © Germán Pomachagua Perez 20-Jun.-19
Material de Clases © Germán Pomachagua Perez 20-Jun.-19
Ejemplo: Se tiene información referente a la antigüedad de las computadoras de una
empresa y sus costos de mantenimiento anual. Se desea hallar la ecuación de
regresión que proporcione el mejor ajuste a los datos, de modo que es posible realizar
predicciones a partir de ella. Los datos son

X: años de antigüedad
Y: costo de mantenimiento (en dólares) a. Hallar el diagrama de dispersión
Observación Años Costo b. Cálculo de la recta de regresión
1 4.0 148 c. Calcular el coeficiente de correlación
2 2.0 128
3 3.0 133
4 5.0 154
5 2.2 118
6 3.4 145
7 4.5 148
8 5.5 159
9 4.7 142
10 3.7 127

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


Solución: a) Reemplazando

ˆ n xy   x  y 


i X Y XY X2 Y2 1 
n x   x 
2 2
1 4 148 592 16 21904
2 2 128 256 4 16384
3 3 133 399 9 17689
10(5447 .4)  (38)(1402 )
4 5 154 770 25 23716 ˆ1   9.755
5 2.2 118 259.6 4.84 13924 10(156 .68)  (38) 2

 y  ˆ  x
6 3.4 145 493 11.56 21025
7 4.5 148 666 20.25 21904 ˆ0  1
8 5.5 159 874.5 30.25 25281 n n
9 4.7 142 667.4 22.09 20164  1402 38
10 3.7 127 469.9 13.69 16129 0   9.755  103 .128
10 10
TOTAL 38 1402 5447.4 156.68 198120

Luego la ecuación regresión será: ˆ  103 .128  9.755 x


y
Interpretación: Por cada año de antigüedad de la computadora, su costo de
mantenimiento aumentara en 9.755 dólares.

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


En el SPSS el análisis de regresión se puede obtener
eligiendo la opción Analizar /Regresión /Lineales

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


Ecuación estimada Yˆ  b0  b1 X

Coeficientesa

Coeficientes
Coeficientes no es tandarizad Intervalo de confianza para
es tandarizados os B al 95%
Lím ite
Modelo B Error típ. Beta t Sig. Lím ite inferior s uperior
1 (C ons tante) 103.128 7.895 13.062 .000 84.921 121.335
AÑOS 9.756 1.995 .866 4.891 .001 5.156 14.355
a. Variable dependiente: COSTO

ˆ  103 .128  9.755 x


y

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


En el MINITAB el análisis de regresión se puede obtener eligiendo la opción:
Estadísticas /Regresión /Regresión/ Ajustar modelo de regresión

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


Una vez ajustada la recta de regresión a la nube de observaciones es importante disponer
de una medida que mida la bondad del ajuste realizado y que permita decidir si el ajuste
lineal es suficiente o se deben buscar modelos alternativos. Como medida de bondad del
ajuste se utiliza el coeficiente de determinación R2

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


GRAFICA DE RESIDUOS EN MINITAB

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


GRAFICA DE RESIDUOS EN SPSS

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


DIAGRAMA DE DISPERSIÓN
Y

ˆ  103 .128  9.755 x


Observed
160 Linear

150
y
140

130

120

110
2,00 3,00 4,00 5,00 6,00
X

.
Después de obtener el ajuste nos preguntamos:
•¿Que tan bueno es el ajuste de los datos?
•¿Este modelo es útil para predecir?
•¿Algunos de los supuestos básicos del modelo no se cumplen y que tan serio es?

Se debe investigar todas estas preguntas antes de optara por el modelo definitivo y usarlo
Todas estas inquietudes serán vistas antes de adoptar el modelo final. Como notamos
anteriormente el análisis de residuos juegan un papel importante en la evaluación del
modelo chequeando los supuestos del modelo
Material de Clases © Germán Pomachagua Perez 20-Jun.-19
ERROR ESTANDAR DE LA ESTIMACION S

El error estándar de la estimación mide la dispersión de los valores observados alrededor


de la recta de regresión.

SCE
s
n2

s
 (Y  Y )
ˆ 2

n2

Es una medida de variabilidad o dispersión de los valores de y observados alrededor de


la recta
También podríamos decir que es un indicador del grado de precisión con que la ecuación
de regresión describe la relación entre dos variables y e Ŷ

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


Del ejemplo de la Tabla 1
 2
S
 (Y  Y )

390 .90
 6.99
n2 8
Interpretación: El 68.3% de los valores reales
caen dentro de Ŷ±S = Ŷ±6.99) si X=4
Ŷ1=103.128+9.756*4-6.99=135.162
Ŷ2=103.128+9.756*4+6.99=149.121

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


COEFICIENTE DE DETERMINACION r2
• Es una medida del grado de fiabilidad o bondad de un ajuste de un modelo de
regresión se mide usando el coeficiente de determinación r2
• r2 es una cantidad adimensional que sólo puede tomar valores en [0, 1]

• Cuando un ajuste es bueno, r2 será cercano a uno.

• Cuando un ajuste es malo r2 será cercano a cero.

• r2 deberá usarse con mucho cuidado, pues siempre es posible hacer que tienda a 1,
adicionando variables al modelo

• Aún cuando r2 tienda a 1, no necesariamente indica que éste modelo de regresión


predicción dará predicciones precisas de observaciones futuras.
n

 i i
n n n

 y  y    yˆ i  y     yi  yˆ i 
2
2 2 2 ( y y )
i SCR
i 1 i 1 i 1 r 
2 i 1
n

 i i
S yy
Syy = SCR + SCE ( y  y ) 2

i 1

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


Interpretación:
 El 74.9% de la variación en el
costo de mantenimiento se debe
n
 asociación lineal con los años de
 i  yi )2
( y
SCR 1168 .73 antigüedad
r2  i 1
n
 r2   0.749  El modelo de regresión lineal
 i i 1559 .6
S yy
( y  y ) 2 explica las variaciones del costo
i 1 de mantenimiento en un 74.9%
Material de Clases © Germán Pomachagua Perez 20-Jun.-19
Simulación: Residuos del modelo de regresión

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


ANALISIS DE VARIANZA

H0 : r 2  0
H1 : r 2  0

La utilidad real de ANAVA esta en los modelos de regresión múltiple


Material de Clases © Germán Pomachagua Perez 20-Jun.-19
ANALISIS DE VARIANZA PARA PROBAR LA SIGNIFICACIÓN
El ANOVA sirve para ver si existe relación significativa entre las variables
ANOVAb

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regres ión 1168.733 1 1168.733 23.921 .001 a
Res idual 390.867 8 48.858
Total 1559.600 9
a. Variables predictoras : (C ons tante), AÑ OS
b. Variable dependiente: COSTO

H 0 : r 2  0 El modelo de regresion lineal no sirve para explicar Y


H1 : r 2  0 El modelo de regresion lineal sirve para explicar Y
A nivel de significación a rechazamos cuando

F  F1,n2,
Interpretación: El 74.9% de la variabilidad del costo de mantenimiento de debe a la
variabilidad en los años de antigüedad, y el 25.1% de la variabilidad del costo de
mantenimiento se debe a factores que no han sido identificados
Material de Clases © Germán Pomachagua Perez 20-Jun.-19
COEFICIENTE DE CORRELACION DE PEARSON
Mide el grado de asociación lineal entre dos variables. Se denota por
r r 2

PROPIEDADES
Está dentro de -1 r  1
Si r > 0 entonces existe correlación directa
Si r < 0 entonces existe correlación inversa
Si r = 1 entonces existe correlación perfecta positiva
Si r = -1 entonces existe correlación perfecta inversa
Si r = 0 entonces no existe correlación lineal (x no ayuda predecir y).

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


¿A partir de qué valores se considera que hay “buena relación lineal”?
Es difícil dar un valor concreto . Pero muchos autores consideran si |r|≥0.7 hay buena
relación lineal es decir se considera una alta correlación

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


i X Y XY X2 Y2
1 4 148 592 16 21904
2 2 128 256 4 16384
3 3 133 399 9 17689
4 5 154 770 25 23716
5 2.2 118 259.6 4.84 13924
6 3.4 145 493 11.56 21025
7 4.5 148 666 20.25 21904
8 5.5 159 874.5 30.25 25281
9 4.7 142 667.4 22.09 20164
10 3.7 127 469.9 13.69 16129
TOTAL 38 1402 5447.4 156.68 198120
n XY    X  Y 
r 
n  X    X 
2 2
n Y    Y 
2 2

10(5447 .4)  (38)(1402 )


r  0.866
10(156 .68)  (38) 2
10(198120 )  (1402 ) 2

 Hay una correlación muy alta entre los años de antigüedad y el costo de mantenimiento.
 A mayor año de antigüedad mayor, será el costo de mantenimiento.
Material de Clases © Germán Pomachagua Perez 20-Jun.-19
INTERVALOS DE CONFIANZA PARA LA RESPUESTA MEDIA y

 1 (x p  x)2  1 (x p  x)2
y  t / 2,n2 s   y  y  t / 2,n2 s 
n  ( xi  x ) 2
n  ( xi  x ) 2

¿Construir un el intervalo de confianza del 95% para el costo medio de manteniendo si se


tiene una PC con antigüedad de 3.5 años?

Material de Clases © Germán Pomachagua Perez 31


20-Jun.-19
INTERVALOS DE PREDICCION PARA UN SOLO VALOR DE y

1 ( x0  x ) 2  1 ( x0  x ) 2
yˆ 0  t / 2,n2 s 1    y0  y0  t / 2,n2 s 1  
n  ( xi  x ) 2
n  ( xi  x ) 2

Donde tα/2 es un valor de la distribución t con (n-2) grados de libertad

¿Construir un intervalo de predicción del costo de mantenimiento con una probabilidad del
95% si se tiene una PC con antigüedad de 3.5 años?

Material de Clases © Germán Pomachagua Perez 32


20-Jun.-19
En el MINITAB para calcular los intervalos de confianza y de predicción. Se puede obtener
eligiendo la opción:
Estadísticas /Regresión /Regresión/ Predecir
Luego clic en Opciones

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


Interpretación de I. P. Se tiene un intervalo de pronostico con una probabilidad del 95% de
que el costo de mantenimiento estará dentro 120.312 a 154.235 dólares, para una
computadora con 3.5 años de antigüedad
Interpretación de I.C.: Se tiene una confianza del 95% que el costo promedio de
mantenimiento de la población estará dentro 131.993 a 142.554 dólares, para una
computadora con 3.5 años de antigüedad

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


En el SPSS para calcular los intervalos de confianza y de predicción. Se puede obtener
eligiendo la opción:
Analizar/Regresión /Lineales / Opciones /Guardar

I.C. I.P.

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


RIESGOS EN EL USO DE LA REGRESIÓN

1) Los datos que se usan deben estar dentro del rango de la variable. Es decir conforme
se rebasa el rango de X disminuye la certeza acerca de la validez del modelo

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


2) La disposición que se encuentra los valores de X juegan un papel importante en el
ajuste de Mínimos Cuadrados Ordinarios. Aquí todos los puntos tienen igual
ponderación para determinar la altura (intercepto), la pendiente esta más
influenciada por los valores alejados de X (outliers).

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


3) Los outliers (datos discordantes) afectan seriamente el ajuste por mínimo cuadrados
ordinarios. La observación pareciera ser un outlier porque cae lejos del resto de datos.

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


Material de Clases © Germán Pomachagua Perez 20-Jun.-19
Material de Clases © Germán Pomachagua Perez 20-Jun.-19
Material de Clases © Germán Pomachagua Perez 20-Jun.-19
ANALISIS DE RESIDUOS
Una vez ajustado el modelo se examinan los residuos para:
Ver si el modelo es adecuado
Ver en que si realmente se podemos cree en que se cumplen las hipótesis del modelo
Ver si hay datos discordantes (outliers) y / o datos de alta influencia
Ver si hay variables omitidas, como nivel de vida, cualidades del trabajador etc.
¿Cómo se puede hacer un análisis de residuos?
1) Se calcula los residuos.
 Residuos Ordinarios (Residuos No tipificados )
ei  yi  yˆ i i  1,2....n ei ~ N (0,  2 )
 Residuos Estandarizados  Residuos Estundentizados
ei ei
ri   i  1,2.........n ti   i  1,2.........n
sei 1  hi s( i ) 1  hi
hi Leverage: Mide la importancia de la i-ésima observación en el modelo
Aproximadamente el 95% de los residuos estandarizados deben caer en el intervalo
<-2, 2>, los que caen fuera indica la presencia de un outlier
Material de Clases © Germán Pomachagua Perez 20-Jun.-19
2) Se hacen gráficos
Los gráficos son útiles para detectar el modelo adecuado, estos métodos son
simples y efectivos
 Diagrama de los residuos ei contra Ŷ

Ideal

Indica que los residuos están contenidos en una banda horizontal entonces no hay
defectos en el modelo ideal.

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


 Diagrama de probabilidad normal

 La gráfica de probabilidad normal nos


muestra el modelo "ideal" está
aproximadamente en una línea recta
entonces el ajuste es perfecto.

 La gráfica b, c y d muestran anomalías en el


modelo. Para diagnosticar hay que darnos
cuenta en los valores centrales de la
probabilidad acumulada (entre 0.33 y 0.67),
más que en los extremos.

 En muestras de tamaño n  16
frecuentemente producen gráficas con
desviaciones sustanciales de linealidad,
generalmente se requieren 40 o mas puntos
para hacer una buena interpretación

Test de Shapiro-Wilks
Ho: Los residuos provienen de una
distribución normal

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


SUPUESTOS DE NORMALIDAD

Ho: Los errores provienen de una distribución Normal


H1: Los errores No provienen de una distribución Normal

Como sig=0.630>α=0.05 entonces no se rechaza Ho


Conclusión: Luego los errores se distribuyen en forma normal

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


AUTOCORRELACION n

 i i1
( e  e ) 2

Ho: No existe autocorrelación de residuos d i 2


n

 ei
H1: Existe autocorrelación de residuos 2

i 1

No existe autocorrelación

Suele asumirse que los residuos son independientes (no hay autocorrelación) si el
estadístico de D-W está entre 1.5 y 2.5.

http://www.uam.es/personal_pdi/economicas/jmalonso/au
tocorrelacion.pdf
Material de Clases © Germán Pomachagua Perez 20-Jun.-19
“OUTLIERS, PUNTOS DE LEVERAGE ALTO Y VALORES INFLUYENTES

Una observación (y*,x*1,……..x*p) es considerado un “outlier” si está bastante alejado


de la mayoría de los datos sea en la dirección vertical o en la horizontal.

Sin embargo, la mayoría de los textos llaman “outlier” a un valor alejado solamente en
la dirección vertical (Y), y punto de alto Leverage o punto de apalancamiento a una
observación alejada en la dirección horizontal (X), esta puede ser o no un outlier.

Una observación (y*,x*1,……..x*p) es considerado un valor influyente si su presencia


afecta tremendamente el comportamiento del modelo.

En consecuencia un “outlier” vertical y/o punto alto de leverage alto puede ser
influyente o no serlo.
Por otro lado si una observación es influyente no necesariamente es un “outlier”
vertical.

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


“OUTLIERS, PUNTOS DE LEVERAGE ALTO Y VALORES INFLUYENTES

La inclusion del punto A generaría un pequeño residuo debido a que está en dirección de la recta,
esto implica que A no tiene influencia en la ecuación. Por lo tanto a pesar de que A es un punto
extremo en X(alto leverage=punto de apalancamiento) y en Y, A no es influyente.

Si B es incluido generará un gran residuo (por esto


es llamado un punto Outlier) y aunque puede no
cambiar la pendiente si alterará el intercepto., las
varianzas. Por tanto una observación como B es un
outlier (no es de alto leverage puesto que no es un
extremo de X) yes un punto influyente

Si agregamos el punto C (el cual es un punto de


alto leverage puesto que es extremo de X) genera
un gran residuo (C será entonces un *outlier*) y
alterarán sustancialmente las características de la
regresión ajustada. Entonces C es un punto
influyente

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


TRATAMIENTO Y DETECCION DE OUTLIER

Un outlier es una observación extrema, son datos que no son iguales al resto. Los outliers
dependen de su posición en el X- espacio, pueden tener efectos moderados o graves en el
modelo de regresión estos deben corregirse si es posible o anularlos en el conjunto de datos

Ejemplo de una observación que es punto


Ejemplo de una observación de leverage outlier y de leverage alto y que también es
alto pero que no es influyente influyente

Este punto tendrá un gran efecto sobre el r2 y el


cambio drástico en la pendiente
Material de Clases © Germán Pomachagua Perez 20-Jun.-19
EJEMPLO

Fila X Y
1 4 6
2 5 7
3 7 12
4 9 15
5 12 18
6 14 21
7 16 28
8 35 65

X ( alto leverage) pero no influyente, luego no se


anula

Fila X Y
1 4 6
2 5 7
3 7 12
4 9 15
5 12 18
6 14 21
7 16 28
8 35 22

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


Ejemplo: Un motor de un cohete se fabrica uniendo un propulsor por donde sale el fuego y
un propulsor que lo sostenga juntos dentro de un alojamiento de metal. La fuerza que une
los dos tipos de propulsor es una característica de calidad importante. Se sospecha que
esta fuerza de unión está relacionada con el tiempo de fabricación del propulsor.

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


Material de Clases © Germán Pomachagua Perez 20-Jun.-19
Correlación de Spearman

 Mide la asociación entre dos variables

 Se usa cuando el grado de ajuste en las variables no es lineal y no tienen


distribución normal, o cuando una de las variables es ordinal, debe
emplearse una aproximación no paramétrica, siendo la más empleada el
Coeficiente de Correlación Rho de Spearman.

 Se rigen por las mismas reglas que correlación de Pearson


 Este coeficiente se emplea cuando una o ambas escalas de medidas de las
variables son ordinales, es decir, cuando una o ambas escalas de medida
son posiciones. Ejemplo: Orden de llegada en una carrera y peso de los
atletas.
6 𝑑2
𝑟𝑠 = 1 −
𝑛 𝑛2 − 1
𝑑: 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑟𝑎𝑛𝑔𝑜𝑠 𝑋 𝑚𝑒𝑛𝑜𝑠 𝑌
𝑛: 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


Ejemplo de Correlación de Spearman

Objetivo: Conocer si el desarrollo mental de 8 niños esta


asociado a la educación formal de su madre.
Hipótesis.
Ho: No habrá una correlación significativa en el desarrollo
mental de 8 niños dependiendo de la educación formal de
la madre
H1: Habrá una correlación significativa en el desarrollo mental
de 8 niños dependiendo de la educación formal de la
madre.

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


6 𝑑2 6 14
𝑟𝑠 = 1 − 2
= 1 − 2
= 0.833
𝑛 𝑛 −1 8 8 −1

Si 𝑟𝑠 >𝑟𝑡𝑎𝑏𝑙𝑎 entonces se rechaza Ho


0.833>0.738
Conclusion: Hay una correlación significativa en el desarrollo mental de 8 niños
dependiendo de la educación formal de la madre

𝑑𝑖 𝑑2

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


Material de Clases © Germán Pomachagua Perez 56
20-Jun.-19
1) En el servicio central de turismo de un país se ha observado que el número de plazas
hoteleras ocupadas es diferente según sea el precio de la habitación. Sobre el total de
plazas ocupadas en un año se tiene:
Precio ($/noche) 250 650 1000 1400 2100
Nº habitaciones ocupadas 4725 2610 1872 943 450
a) Representa gráficamente para comprobar que existe cierta dependencia lineal entre
las variables.
b) Halla la ecuación de la recta de regresión.
c) ¿Cuántas habitaciones se llenarían a $1500 .?
d) En qué medida podemos considerar que el nivel de ocupación depende de la
estructura de precios?
e) ¿Cual es el coeficiente de Determinación Interpretar

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


2) El volumen de ahorro y la renta del sector familias en miles de dólares constantes de
1.977, para el período 77-86 fueron:
Año Ahorro Renta
77 1.9 20.5
78 1.8 20.8
79 2.0 21.2
80 2.1 21.7
81 1.9 22.1
82 2.0 22.3
83 2.2 22.2
84 2.3 22.6
85 2.7 23.1
86 3.0 23.5
a) Recta de regresión del ahorro sobre la renta.
b) Recta de regresión de la renta sobre el ahorro.
c) Para el año 87 se supone una renta de 34.1 en miles de dólares . ¿Cuál será el ahorro
esperado para el año 87?
d) Estudia la fiabilidad de la predicción del apartado anterior

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


3) Los siguientes datos son las mediciones de la Tensión Arterial en 14 pacientes de
distintas edades:

a) Representa gráficamente para comprobar que existe cierta dependencia lineal entre
las variables.
b) Halla la ecuación de la recta de regresión.
c) ¿Cuál será la tensión arterial si una edad de:
X= 46 años
X= 55 años
De ellos cual es mas preciso justifique su respuesta
d) En qué medida podemos considerar que la tensión arterial depende de la edad?
e) ¿Cual es el coeficiente de Determinación Interpretar

Material de Clases © Germán Pomachagua Perez 20-Jun.-19


4) En un estudio del desarrollo del conocimiento se registra la edad (X ) en meses) a la que 21
niños dicen su primera palabra y el puntaje en la prueba de Gessell (Y), un test de habilidad
que toma posteriormente el niño (ver datos Gessell en la página de internet del curso). Los
resultados son como siguen

Edad 15 26 10 9 15 20 18 10 8 20 7
Puntajes 95 71 83 91 102 87 93 100 104 94 113
Edad 9 10 11 11 10 12 42 17 11 10
Puntajes 96 83 84 102 100 105 57 121 86 100

a) Hallar la línea de regresión. e interpretar los coeficientes de la línea de regresión


b) Trazar la línea de regresión encima del diagrama de puntos.
c) Probar la hipótesis de que la pendiente es cero. Comentar su resultado
d) Interpretar el coeficiente de determinación R2
e) Hallar un intervalo de confianza del 99% para la pendiente de la línea de regresión
poblacional
f) Asigne un valor adecuado a la variable predictora y halle un intervalo de confianza del 95%
para el valor individual y valor medio de la variable de respuesta e interpretar el resultado.

Material de Clases © Germán Pomachagua Perez 20-Jun.-19

You might also like