You are on page 1of 28

Universidad Nacional

Tecnolgica de Lima Sur

Estadstica y Diseo
Experimental

Regresin lineal
mltiple

Mg. Myrna Manco C.


Es posible estudiar a las unidades estadsticas
atendiendo a la variacin simultnea de dos o ms
caractersticas.

Objetivo:
Reconocer si hay relacin entre las variables
Medir el grado de relacin
Estimar un modelo de relacin
Verificar la bondad de ajuste del modelo

2
Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin.
100

90

80
Peso (Kg)

70

60

50

40

30
140 150 160 170 180 190 200
Estatura (cm)

3
100
80
90 Fuerte relacin 70 Cierta relacin
80 directa. 60 inversa
70 50

60 40
30
50
20
40
10
30 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

relacin lineal directa.


relacin lineal inversa o negativa
110
330

280 Incorrelacin 100

90

230
80

180 70

130 60

50
80
40
30
30
Y

140 150 160 170 180 190 200 -8 -6 -4 -2 0 2 4 6 8

No existe correlacin lineal

4
La covarianza entre dos variables, Sxy, nos
indica si la posible relacin entre dos
variables es directa o inversa.
Directa: Sxy >0 1
Inversa: Sxy <0 S xy ( xi x )( yi y )
Incorreladas: Sxy =0 n i
El signo de la covarianza nos dice si el
aspecto de la nube de puntos es creciente o
no, pero no nos dice nada sobre el grado de
relacin entre las variables.

5
S xy
r
SxSy
Es adimensional
Cuanto ms cerca est r de +1 o -1 mejor ser
el grado de relacin lineal, siempre que no existan
observaciones anmalas.

Relacin inversa Variables Relacin directa


perfecta incorrelacionadas perfecta

6
Se hace un estudio para
determinar la relacin entre el
tiempo de vida (aos) y la
eficiencia de las mquinas (%)
de una fbrica. Los datos se
dan en la siguiente tabla:

Tiempo de vida 2 4 11 9 4 6 7 8
Eficiencia 90 65 25 40 80 60 35 50

a) Representar los datos en un diagrama de dispersin.


b) Calcule el coeficiente de correlacin entre las dos
variables. Interprete.

7
Regresin
.. prediccin de una medida basndonos en
el conocimiento de otra.

Ejemplos:
Tiempo de asistencia a la escuela del hijo
en funcin al nmero de aos de
escolarizacin de la madre.
Calificacin obtenida en una materia segn
el nmero de horas de estudio semanal.
Tiempo de ejecucin de un programa en
funcin de la velocidad del procesador.
Predecir la tasa de desempleo segn la
edad.
8
Es posible descubrir una relacin?
RELACIN FUNCIONAL
Y=f (X1, X2, , Xn)
Ejemplo: La relacin que existe entre el tiempo (Y) que
tarda un mvil en recorrer una distancia (X) a velocidad
constante (v)
Y=X/v
NO EXISTE NINGUNA RELACIN
Ejemplo: La relacin que existe entre el dinero (Y) que
gana una persona adulta mensualmente y su altura (X)
RELACIN ESTOCSTICA
Y = f(X) + error
f es una funcin de un tipo determinado (desconocida)
el error es aleatorio, pequeo, y no depende de X

9
El anlisis de regresin sirve para predecir una
medida en funcin de otra medida (o varias).
Y = Variable
X = Variable
independiente
XY dependiente
regresora (X1, X2, , Xn) Y respuesta
predicha
predictora
explicada
explicativa

10
Dado dos variables
Y (dependiente)
X (independiente)

buscamos encontrar una funcin de X muy


simple (lineal)
Y=0 + 1X+
que nos permita aproximar Y mediante
= b0 + b1X
b0 (ordenada en el origen, constante)
b1 (pendiente de la recta)

Y e rara vez coincidirn por muy bueno que


sea el modelo de regresin. A la cantidad
e=Y- se le denomina residuo o error residual.

11
El modelo lineal de regresin se construye utilizando la tcnica
de estimacin mnimo cuadrtica:
Buscar b0, b1 de tal manera que se minimice la cantidad
i ei2

Se comprueba que para lograr dicho resultado basta con elegir:

SY
b1 r b0 y b1 x
SX
Se obtiene adems unas ventajas de regalo
El error residual medio es nulo
La varianza del error residual es mnima para dicha
estimacin.

Traducido: En trmino medio no nos equivocamos.


Cualquier otra estimacin que no cometa error en trmino
medio, si es de tipo lineal, ser peor por presentar mayor
variabilidad con respecto al error medio (que es cero).

12
Lo adecuado del modelo depende
r= 0.415
de la relacin entre:
420

r^2 = 0.172
la dispersin marginal de Y
La dispersin de Y condicionada
400

aX
380
y

Es decir, fijando valores de X,


360


vemos cmo se distribuye Y
340

La distribucin de Y, para valores


320

fijados de X, se denomina
150 160 170 180 190 distribucin condicionada.
r= 0.984
390

r^2 = 0.969 La distribucin de Y,


independientemente del valor de
X, se denomina distribucin
380

marginal.
370
y

Si la dispersin se reduce
notablemente, el modelo de
360

regresin ser adecuado.


350

150 160 170 180 190


13
Imaginemos un diagrama de dispersin, y vamos
a tratar de comprender en primer lugar qu es
el error residual, su relacin con la varianza de Y,
y de ah, cmo medir la bondad de un ajuste.

14
En primer lugar olvidemos que existe la Y
variable X. Veamos cul es la
variabilidad en el eje Y.

La franja sombreada indica la zona


donde varan los valores de Y.

Proyeccin sobre el eje Y = olvidar X

15
Fijmonos ahora en los errores de prediccin
(lneas verticales). Los proyectamos sobre el eje Y
Y.

Se observa que los errores de prediccin,


residuos, estn menos dispersos que la
variable Y original.

Cuanto menos dispersos sean los residuos,


mejor ser la bondad del ajuste.

16
Resumiendo: Y

La dispersin del error residual ser una


fraccin de la dispersin original de Y

Cuanto menor sea la dispersin del error


residual
mejor ser el ajuste de regresin.

Eso hace que definamos como medida de


bondad de un ajuste de regresin,
o coeficiente de determinacin a:
2
S
R 1
2 e
2
S Y
S S
2
e
2
Y
17
La bondad de un ajuste de un modelo de regresin
se mide usando el coeficiente de determinacin R2

R2 es una cantidad adimensional que slo puede


tomar valores en [0, 1]

Cuando un ajuste es bueno, R2 ser cercano a uno.

Cuando un ajuste es malo R2 ser cercano a cero.

A R2 tambin se le denomina porcentaje de


variabilidad explicado por el modelo de regresin.

R2 puede ser pesado de calcular en modelos de


regresin general, pero en el modelo lineal simple,
la expresin es de lo ms sencilla:
R2=r2

18
Se pueden considerar
otros tipos de modelos, en recta o parbola?
funcin del aspecto que
presente el diagrama de
dispersin (regresin no
lineal)

Incluso se puede
considerar el que una
variable dependa de varias
140 150 160 170 180 190 200

(regresin mltiple).
recta o cbica?

140 150 160 170 180 190 200

19
4. Para una zapatera se obtiene la siguiente
ecuacin de regresin estimada en la que se
relacionan las ventas con la inversin en
inventario y los gastos en publicidad.
y 25 10 X 1 8 X 2
Donde
x1 :inversin en inventario (en miles de $)
x2 : gasto en publicidad (en miles de $)
y : ventas (en miles de $)

a. Estime las ventas si la inversin en


inventario es de $15 000 y el presupuesto
para publicidad es de $10 000.
b. Interprete b1 y b2 en esta ecuacin de
regresin estimada.
El dueo de Showtime Movie Theater, Inc.,
desea estimar el ingreso bruto semanal en
funcin de los gastos en publicidad. A
continuacin se presentan los datos histricos
de 8 semanas.
a. Obtenga una ecuacin de regresin estimada en la que el monto
gastado en publicidad en televisin sea la variable independiente.
b. Obtenga una ecuacin de regresin estimada en la que los montos
gastados en publicidad en televisin y en peridicos sean las
variables independientes.
c. Es el coeficiente correspondiente a los gastos de publicidad en
televisin de la ecuacin de regresin estimada del inciso a) igual al
del inciso b)? Interprete este coeficiente en cada caso.
EJEMPLO. El dueo de una distribuidora de automviles
realiz un estudio, para determinar las relaciones en un
mes determinado, entre el nmero de automviles
vendidos en el mes por su distribuidora con el nmero de
comerciales de un minuto sobre su distribuidora televisado
localmente en ese mes. Durante el perodo de 6 meses
anot los resultados que se muestran en la siguiente tabla .
Una compaa de bienes races residenciales en una ciudad grande desea
predecir los costos mensuales de rentas para departamentos, basado en el
tamao de los mismos definidos por los pies cuadrados de espacios.
Selecciona una muestra.
12.1 Se llev a cabo un conjunto de ensayos
experimentales con un horno para determinar una
forma de predecir el tiempo de coccin, y, a diferentes
niveles de ancho del horno, x1, y a diferentes
temperaturas, x2. Se registraron los siguientes datos:

Estime la ecuacin de regresin lineal mltiple.


12.5 Se cree que la energa elctrica que una planta
qumica consume cada mes se relaciona con la temperatura
ambiental promedio, x1, el nmero de das del mes, x2, la
pureza promedio del producto, x3, y las toneladas
fabricadas del producto, x4. Se dispone de datos histricos
del ao anterior, los cuales se presentan en la siguiente
tabla.

You might also like