You are on page 1of 61

UNIVERSIDAD NACIONAL AGRARIA DE LA SELVA

FACULTAD DE INGENIERA EN INFORMTICA Y SISTEMAS

Separata de Anlisis de Regresin y


Correlacin

Ing. Wilmer J. Bermdez Pino.


Docente F.I.I.S

Regresin y correlacin lineal_______________________________________________________________________________________________


Regresin Lineal Simple Y Correlacin
El objetivo de este manual es analizar el grado de la relacin existente entre variables
utilizando modelos matemticos y representaciones grficas. As pues, para representar la
relacin entre dos o ms variables desarrollaremos una ecuacin que permitir estimar
una variable en funcin de la otra.
Por ejemplo, en qu medida, un aumento de los gastos en publicidad hace aumentar las
ventas de un determinado producto?, Cmo representamos que la bajada de
temperaturas implica un aumento del consumo de la calefaccin?,...
A continuacin, estudiaremos dicho grado de relacin entre dos variables en lo que
llamaremos anlisis de correlacin. Para representar esta relacin utilizaremos una
representacin grfica llamada diagrama de dispersin y, finalmente, estudiaremos un
modelo matemtico para estimar el valor de una variable basndonos en el valor de otra,
en lo que llamaremos anlisis de regresin.
Objetivos
Aprender a calcular la correlacin entre dos variables
Saber dibujar un diagrama de dispersin
Representar la recta que define la relacin lineal entre dos variables
Saber estimar la recta de regresin por el mtodo de mnimos cuadrados e
interpretar su ajuste.
Realizar inferencia sobre los parmetros de la recta de regresin
Construir e interpretar intervalos de confianza e intervalos de prediccin para la
variable dependiente
Realizar una prueba de hiptesis para determinar si el coeficiente de correlacin es
distinto de cero.

Ing. Wilmer J. Bermdez Pino

Regresin y correlacin lineal_______________________________________________________________________________________________

DEFINICIN: Consideremos una variable dependiente Y con una sola variable


independiente X. Representemos una muestra aleatoria de tamao n de (X, Y) por el
conjunto de observaciones formadas por pares de variables: {(Xi, Yi) / i = 1,2,,n}
A travs de esta muestra, se desea estudiar la relacin existente entre las dos variables X e
Y.
Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un
modelo de Regresin Simple.
Y es una funcin de X

Y = f(X)

Como Y depende de X,
Y: Es la variable dependiente, y
X: Es la variable independiente.
En el Modelo de Regresin es muy importante identificar cul es la variable dependiente
y cul es la variable independiente.
La variable dependiente es la variable que se desea explicar, predecir. Tambin se le llama
REGRESANDO VARIABLE DE RESPUESTA.
La variable Independiente X se le denomina VARIABLE EXPLICATIVA REGRESOR y se le
utiliza para EXPLICAR a Y.
Ing. Wilmer J. Bermdez Pino

Regresin y correlacin lineal_______________________________________________________________________________________________


Variable dependiente
Variable explicada

Variable independiente
variable explicativa

Predicha

Predictora

Regresada

Regresora

Respuesta

Estmulo

Endgena

Exgena

Resultado

Covariante

Variable controlada

Variable control

Regresin lineal: Consideraciones sobre los datos

Datos. Las variables dependientes e independientes deben ser cuantitativas. Las variables
categricas, como la religin, estudios principales o el lugar de residencia, han de
decodificarse como variables binarias (dummy) o como otros tipos de variables de
contraste.
Los supuestos para el modelo de regresin lineal simple son:
a) Igualdad de varianzas (homoscedasticidad).
Para cada valor xi de la variable independiente X, la distribucin de la variable
aleatoria dependiente Yi tiene media
, y varianza
. Se supone que cada una
de estas varianzas son iguales a la varianza comn , denominado varianza de la
regresin. Es decir las distribuciones de Yi tienen medias diferentes, pero tienen la
misma varianza .
b) Independencia
Se supone que las Yi son variables aleatorias estadsticamente independientes.
c) Linealidad.
Se supone que la relacin de Y con X es lineal, es decir todas las medias
deben
estar en una lnea recta denominada lnea de regresin poblacional, cuya ecuacin es:
(Y/Xi) =

Funcin de regresin Poblacional.

En la ecuacin de regresin Poblacional los coeficientes de regresin


parmetros que se estiman a partir de los datos de la muestra.

son

Interpretacin de los parmetros de un modelo de regresin lineal.


El valor de
es la ordenada en el origen e indica el valor de Y cuando X = 0.
El valor de
es la pendiente de la ecuacin de regresin poblacional e indica el
cambio promedio en Y correspondiente a un incremento unitario en X. El signo de ,
indica el tipo de tendencia (positivo o negativo) de Y con respecto a X.
Ing. Wilmer J. Bermdez Pino

Regresin y correlacin lineal_______________________________________________________________________________________________


d) Normalidad.
Se supone que cada variable aleatoria dependiente Yi tiene distribucin normal con
media
y varianza
. En consecuencia la distribucin de cada variable
es
normal con media 0 y varianza

1. Diagrama de dispersin: grfica que describe la relacin entre las dos variables de
inters.
Variable dependiente: la variable que se pronostica o estima.
Variable independiente: la variable que proporciona la base para la estimacin. Es la
variable predictora.
2. Modelo de regresin lineal simple
Propsito: determinar la ecuacin de regresin; se usa para predecir el valor de la
variable dependiente (Y) basado en la variable independiente (X). El modelo es:
=
+
+

3. Estimacin de los parmetros del modelo de regresin


Procedimiento: seleccionar una muestra de la poblacin y enumerar los datos por
pares para cada observacin; dibujar un diagrama de dispersin para visualizar la
relacin; determinar los estimadores de los parmetros 0 , y 1 del modelo de
regresin. La ecuacin de regresin estimada es:

Donde:

Ing. Wilmer J. Bermdez Pino

Regresin y correlacin lineal_______________________________________________________________________________________________


Es el valor promedio pronosticado de Y para cualquier valor de X.

: Es el estimador de 0 , es la intercepcin en Y, o el valor estimado de Y cuando X


=0
:

Es el estimador de 1 , es la pendiente de la recta, o cambio promedio en Y


por cada cambio de una unidad en X

ESTIMACIN DE LOS PARMETROS

DE LA ECUACIN DE REGRESIN POBLACIONAL, A

TRAVS DEL MTODO DE MNIMOS CUADRADOS ORDINARIOS:

b1 =

xy
x

x y
n

( x ) 2

Suma de productos XY
SP. XY
=
SC . X
suma de cuadrados de X

n
b0 =

y b x
1

4. Pruebas de significacin del modelo


Anlisis de varianza. Prueba global de significacin del modelo (Prueba F)
Descomposicin de la suma de cuadrados del total
El anlisis de varianza es un mtodo que utiliza la estadstica F para probar la significacin de la
ecuacin de regresin muestral o la existencia de regresin en la poblacin.
Es una prueba F de alternativa bilateral. La hiptesis nula y alternativa para esta prueba es
respectivamente:

Hiptesis y nivel de significacin:


H 0 : i = 0 ( No existe regresin lineal entre X e Y )
H 1 : i 0 ( Existe regresin lineal entre X e Y )

: Nivel de significacin
(

) =

SCT

SCE

) +
+

SCR

Grficamente.

Ing. Wilmer J. Bermdez Pino

Regresin y correlacin lineal_______________________________________________________________________________________________

CLCULO DE LA SUMAS DE CUADRADOS

SCT = y
2

SCR = 1 (

( y ) 2
n

x y )
xy
n

SCR = ( x
2
1

( x ) 2
n

SCE = SCT SCR


CUADRO ANVA o ANOVA

Fuente de
variacin
Debido a la regresin
Debido al error
Total

Suma de
cuadrados
SCR

Grados de
libertad
P-1

Cuadrados
medios
CMR=SCR/1

SCE

n-P

CME=SCE/(n-2)

SCT

n-1

F calculado
(Fc)
CMR/CME

Decisin y conclusin: Re chazarH 0 SiF c F( p 1,n p )


Error estndar de la estimacin
El error estndar de la estimacin mide la dispersin de los valores observados
alrededor de la recta de regresin. Frmulas usadas para calcular el error estndar:
S y.x =

(Y Y )
n2

b 0 y b1 xy
n2

S y.x =

SCE
= CME
n2

PRECISION DE LOS ERRORES ESTANDAR DE LOS ESTIMADORES DE j


Ing. Wilmer J. Bermdez Pino

Regresin y correlacin lineal_______________________________________________________________________________________________


Var ( b 1 ) =

CME
SCX

( x 2 ) CME

Var ( b 0 ) =

CME
SCX

s b1 =

nSCX

s b1 =

( x 2 ) CME
nSCX

INTERVALO DE CONFIANZA PARA LOS ESTIMADORES DE j

b 0 t n 2 ; s b 0
b 1 t n 2 ; s b 1

0
1

b 0 + t n 2 ; s b 0
b 1 + t n 2 ; s b 1

Prueba individual de significacin de los estimadores de j del modelo (Prueba tstudent)


PARA 0
Hiptesis

H 0 : 0 = 0
H1 : 0 0

Nivel de significac in :
b0
t n 2;
s b0

Estadistic a de prueba : t c =

Decisn : Re chazar H 0 si t c t n 2; prueba bilateral

PARA

si t c t n 2;

prueba unilateral izquierda

si t c +t n 2;

prueba unilateral derecha

Hiptesis

H 0 : 1 = 0
H 1 : 1 0

Nivel de significac in :
Estadistic a de prueba : t c =

b1
t n 2;
sb1

Decisn : Re chazar H 0 si t c = t n 2; prueba bilateral


si t c t n 2;

prueba unilateral izquierda

si t c +t n 2;

prueba unilateral derecha

5. Anlisis de correlacin

Ing. Wilmer J. Bermdez Pino

Regresin y correlacin lineal_______________________________________________________________________________________________


Anlisis de correlacin: se usa un grupo de tcnicas estadsticas para medir la fuerza de la relacin
(correlacin) entre dos variables.

Coeficiente de correlacin, r: El coeficiente de correlacin (r) es una medida de la


intensidad de la relacin entre dos variables. Requiere datos con escala de intervalo o
de razn (variables). Puede tomar valores entre -1.00 y 1.00. Valores de -1.00 o 1.00
indican correlacin fuerte y perfecta. Valores cercanos a 0.0 indican correlacin dbil.
Valores negativos indican una relacin inversa y valores positivos indican una relacin
directa.
Correlacin negativa perfecta

Correlacin positiva perfecta

Correlacin cero

Correlacin positiva fuerte

Frmula para r

r=

x y
xy n
( x )
( y )
( x
)( y
n
n
2

r=

SCR
SCE
= 1
SCT
SCT

Ing. Wilmer J. Bermdez Pino

Regresin y correlacin lineal_______________________________________________________________________________________________


Coeficiente de determinacin
El coeficiente de determinacin, r2 es la proporcin de la variacin total en la variable
dependiente Y que est explicada por o se debe a la variacin en la variable
independiente X.
El coeficiente de determinacin es el cuadrado del coeficiente de correlacin, y toma
valores de 0 a 1.
Ms sobre el coeficiente de determinacin

Prueba individual de significacin del coeficiente de correlacin (Prueba t-student)


Hiptesis H 0 : = 0
H1 : 0
Nivel de significac in :
Estadistic a de prueba : t c =

r n2

t n 2;
1 r2
Decisn : Re chazar H 0 si t c t n 2; prueba bilateral
si t c t n 2;

prueba unilateral izquierda

si t c +t n 2;

prueba unilateral derecha

6. Prediccin.

El intervalo de confianza (de prediccin) de 100(1-)% para la media de Y dado un


valor de X est definido por:

y t

n2;1

1 ( X X )2
1 ( X X )2
CME( +
Y y + t
CME( +
n2;1
n
SCX
n
SCX
2

El intervalo de prediccin (de prediccin) de 100(1-)% para un valor individual de Y


dado un valor de X se define por:

y t

n2;1

1 ( X X )2
1 ( X X )2
CME(1 + +
Y y + t
+
CME(1 +
n2;1
n
SCX
n
SCX
2

Ing. Wilmer J. Bermdez Pino

Regresin y correlacin lineal_______________________________________________________________________________________________

Variables cualitativas y regresiones escalonadas. Las variables cualitativas son no


numricas y tambin se llaman variables ficticias. Para una variable cualitativa, slo
existen dos condiciones posibles. La regresin escalonada conduce a la ecuacin de
regresin ms eficiente. Slo las variables independientes con coeficientes de
regresin significativos entran en el anlisis, las variables se introducen en el orden en
que hacen que R2 aumente ms rpido
Anlisis de residuos. Un residuo (o residual) es la diferencia entre el valor real de Y y el
valor pronosticado Y (Y estimado). Los residuos deben tener una distribucin normal
aproximada. Los histogramas y los diagramas de tallo y hoja sirven para verificar estos
requisitos. Una grfica de residuos y los valores de Y correspondientes se usan para
mostrar que no hay tendencias ni patrones en los residuos.

Ejemplo: El representante de alumnos de la Universidad, est preocupado por el costo de los


libros. Para tener un panorama del problema elige una muestra de 8 libros de venta en la
librera. Decide estudiar la relacin entre el nmero de pginas del libro y el costo.

Libro N de pginas Costo ($)


1
500
28
2
700
25
3
800
33
4
600
24
5
400
23
6
500
27
7
600
21
8
800
31
i) Desarrollar una ecuacin de regresin para la informacin dada en el EJEMPLO de
coeficiente de regresin que puede usarse para estimar el precio de venta basado
en el nmero de pginas. Por el mtodo de mnimos cuadrados:
b = .01714
a = 16.00175
Y = 16.00175 + .01714X
ii) Realice la prueba de significacin global e individual del modelo estimado.
iii) r =0.614 (verifique)
Ing. Wilmer J. Bermdez Pino

10

Regresin y correlacin lineal_______________________________________________________________________________________________


iv) Pruebe la hiptesis de que no existe correlacin en la poblacin. Use .02 de nivel
de significancia.
H0: La correlacin en la poblacin es cero.
H1: La correlacin en la poblacin es distinta de cero.
El estadstico de prueba es calculado por

,con (n - 2) grados de libertad

t = 1.9055,
Se rechaza H0 si t > 3.143 o si t< -3.143, gl = 6, =0.02. No se rechaza H0
v) Use la informacin del primer ejemplo: calcule el error estndar de la estimacin:

a) desarrolle un intervalo de confianza de 95% para los libros de 650 pginas:


[24.03, 30.25]. Verifique
b) desarrolle un intervalo de prediccin de 95% para un libro de 650 pginas:
[18.09, 36.19] Verifique

Ing. Wilmer J. Bermdez Pino

11

Regresin y correlacin lineal_______________________________________________________________________________________________

EJERCICIOS RESUELTOS (Regresin Lineal, Correlacin, ANVA)


Ejemplo.
Tabla 01: Datos hipotticos sobre el gasto de consumo familiar semanal (Y) y el ingreso
familiar semanal (X)
Obs. 1 2
3
4
5
6
7
8
9 10
Y ($) 70 65 90 95 110 115 120 140 155 150
X ($) 80 100 120 140 160 180 200 220 240 260
Solucin.
180
y = 0.5091x + 24.455
R = 0.9621

160
140
120
100
80
60
40
20
0
0

50

100

150

200

250

300

Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple
0.98084737
Coeficiente de determinacin R^2
0.96206156
R^2 ajustado
0.95731926
Error tpico
6.49300323
Observaciones
10
ANLISIS DE VARIANZA
Fuente de
Grados de
Suma de
Cuadrados Medios
F
Valor crtico de F
variacin
libertad
cuadrados
Regresin
1
8552.72727
8552.72727
202.867925
5.7527E-07
Residuos
8
337.272727
42.1590909
Total
9
8890
Modelo de regresin lineal
Coeficientes Error tpico Estadstico t Probabilidad
Intercepcin 24.4545455 6.4138173 3.81279109 0.00514217
Variable X 1 0.50909091 0.03574281 14.2431712 5.7527E-07
Ing. Wilmer J. Bermdez Pino

12

Regresin y correlacin lineal_______________________________________________________________________________________________


Anlisis de los residuales
Observacin Pronstico para Y
1
65.1818182
2
75.3636364
3
85.5454545
4
95.7272727
5
105.909091
6
116.090909
7
126.272727
8
136.454545
9
146.636364
10
156.818182

Residuos
4.81818182
-10.3636364
4.45454545
-0.72727273
4.09090909
-1.09090909
-6.27272727
3.54545455
8.36363636
-6.81818182

1. Se efectu un experimento para evaluar el efecto el zinc en el peso de las cacatas.


En el experimento, a 7 grupos de cacatas adultas se les dio diferentes dosis de
zinc y sus prdidas de peso tras la primera semana fueron registradas. Los datos
de los pesos medios por grupo al final de la semana estn expresados como
porcentajes sobre los pesos iniciales.
X(Ingesta
de zinc)

Y(Peso
medio %)

X2

Y2

XY

100

10000

92

8464

184

95

16

9025

380

90

64

8100

720

12

98

144

9604

1176

16

85

256

7225

1360

30

67

900

4489

2010

SUMA

72

627

1384

56907

5830

REGRESIN LINEAL:

1 =

XY
X

X Y

n
( X )2

7
1 = -0.9622557

Ing. Wilmer J. Bermdez Pino

72 627
7
=
(72)2
1384
7
5830

13

Regresin y correlacin lineal_______________________________________________________________________________________________


0 =

Y X = 627 ( 0.96225577) 72

0 = 99.4689165
n

Ecuacin
Y = 0 + 1 X Y = 99.4689165 - 0.96225577 X
Comportamiento:

CORRELACIN:

XY
( X )

X2

X Y

Y 2 ( Y )

n

72 627
7
=
2

(72) 56907 (627 )2

1384

7
7

5830

= -0.8938290 5

Coeficiente de determinacin:

Nota

2 = (- 0.89382905 )2 2 = 0.79893037
:

El 80% de Y depende de X

ANLISIS DE VARIANZA:

(Y )
= Y
n

SCTOTAL

SC REGRESIN

627 2
= 56907
= 745.714286
7

( X )2

72 2
2

= 1 X
= -0.9622557 71384

n
7

= -619.14285 7

SC ERROR = SCTOTAL SC REGRESION = 745.714286 - 619.142857 = 126.571429


Hiptesis
H0 : No existe regresin lineal entre x e y
Ing. Wilmer J. Bermdez Pino

14

Regresin y correlacin lineal_______________________________________________________________________________________________


Ha : Si existe regresin lineal entre x e y
Cuadro ANVA:
F.V.

S.C.

G.L.

C.M.

Regresin

619.14

619.14

Error

126.57
745.714
2

25.31

TOTAL

F.C.
24.4582

Sig.
**

124.28

Ft = F(1,619) 0.05 = 3.84


Decisin:
Como Fc > Ft entonces se rechaza H0.
Conclusin:
Existe suficiente evidencia estadstica de que existe regresin lineal entre x
e y.
2. Se desea investigar el efecto de la temperatura sobre el ritmo cardiaco de una
especie de lagarto. Los lagartos fueron colocados en un recinto cerrado de modo
que la temperatura dentro del recinto pudo ser controlada. Los resultados
obtenidos son los siguientes:
X(TemperaturaY(Latidos/minuto)
X2
Y2
XY
C)
1

22

20.8

484

432.64

457.6

22

22.3

484

497.29

490.6

24

24.1

576

580.81

578.4

24

25.6

576

655.36

614.4

26

25.7

676

660.49

668.2

26

27.2

676

739.84

707.2

28

27.3

784

745.29

764.4

28

28.8

784

829.44

806.4

30

29.4

900

864.36

882

Ing. Wilmer J. Bermdez Pino

15

Regresin y correlacin lineal_______________________________________________________________________________________________


10

30

31.9

900

1017.61

957

11

32

32.4

1024

1049.76 1036.8

12

32

33.8

1024

1142.44 1081.6

13

34

32.8

1156

1075.84 1115.2

14

34

34.1

1156

1162.81 1159.4

15

36

32.4

1296

1049.76 1166.4

16

36

37.9

1296

1436.41 1364.4

17

38

38

1444

1444

1444

18

38

36.5

1444

1332.25

1387

19

40

39

1600

1521

1560

20

40

41

1600

1681

1640

SUMA

620

621

19880

19918.4

19881

REGRESIN LINEAL:

1 =

XY
X

X Y

n
( X )2

1 = 0.95454545

0 =

620 621
20
=
2
(
620)
19880
20
19881

Y X = 621 (0.95454545) 620

0 = 1.45909091
Ecuacin
n

20

20

Y = 0 + 1 X Y = 1.45909091 + 0.95454545 X
Comportamiento:

Ing. Wilmer J. Bermdez Pino

16

Regresin y correlacin lineal_______________________________________________________________________________________________


CORRELACIN:

XY
( X )

X2

X Y

Y 2 ( Y )

n

620 621
20
2

(620 ) 19918.4 (621)2


19880

20
20

19881

= 0.97212152

Coeficiente de determinacin:

Nota

2 = (0.97212152 )2 2 = 0.94502025
:

El 95% de Y depende de X

ANLISIS DE VARIANZA:

(Y )
= Y
n

6212
= 19918.4
= 636.35
SCTOTAL
20
2

(
X )

620 2

SC REGRESIN = 1 X
= 0.95454545 19880

n
20

SC ERROR = SCTOTAL SC REGRESION = 636.35 - 630 = 6.35


2

Hiptesis
H0 : No existe regresin lineal entre x e y
Ha : Si existe regresin lineal entre x e y
Cuadro ANVA:
F.V.
S.C.
G.L.
C.M.
Regresin
1
630
630
Error
18
6.35
0.3528
TOTAL
19
636.35
Ft = F(1,630) 0.05 = 3.84
Decisin:
Como Fc > Ft entonces se rechaza H0.
Conclusin:

F.C.
1785.8268

= 630

Sig.
**

Existe suficiente evidencia estadstica de que existe regresin lineal entre x


e y.

Ing. Wilmer J. Bermdez Pino

17

Regresin y correlacin lineal_______________________________________________________________________________________________

REGRESION LINEAL MULTIPLE


En los trabajos de Investigacin es necesario emplear tcnicas estadsticas que permitan
interpretar los resultados y de estas forma poder llegar a conclusiones valederas que
permitan al investigador aceptar o rechazar Hiptesis planteadas inicialmente e inclusive
formular nuevas hiptesis, una de esas tcnicas de gran utilidad es el anlisis de
regresin que permite estudiar la asociacin entre dos o ms variables.
REGRESIN: Consiste en determinar una relacin funcional entre las variables con el fin
de que se pueda predecir el valor de una variable (dependiente) en base a otra(s)
variables (independientes).
CORRELACIN: Consiste en determinar la variacin conjunta de las variables, su grado de
relacin y su sentido (positivo o negativo).
Los modelos para un anlisis de regresin mltiple son similares a los de regresin lineal
simple, excepto que contienen ms trminos y pueden servir para proponer relaciones
ms complejas que una lnea recta en lugar de usar un modelo de lnea recta E(y) =0 + 1
X , para modelar el componente determinstico podramos emplear el modelo cuadrtico
E(y) =0 + 1X + 2X2 , Tambin conocido como modelo de segundo orden se representa
grficamente como una parbola en contraste con los modelos de lnea recta o modelos
de primer orden.
Si por aadidura pensamos incluir en el modelo otra variable una grfica de E(y) como
funcin de X1, X2 describe una superficie de respuesta en el plano (X 1,X2) y el modelo de
primer orden es: E(y) =0 + 1 X1 + 1X2 (describe una superficie plana) sin embargo en la
mayor parte de las aplicaciones de la vida real esperaramos una curvatura en la superficie
de

respuesta

utilizaramos

un

modelo

de

tercer

orden:

E(y) = 0 + 1 X 1 + 2 X 2 + 3 X 1 X 2 + 4 X 12 + 5 X 23 para modelar la relacin.

Estos modelos e denominan modelos lineales generales porque E(y) es funcin lineal de
los PARMETROS desconocidos 0, 1, 2...

Ing. Wilmer J. Bermdez Pino

18

Regresin y correlacin lineal_______________________________________________________________________________________________


X

El modelo E ( y ) = 0 1 no es un modelo lineal porque E(y) no es funcin lineal de


los parmetros 0 + 1
Podemos incluir variables cuantitativas y cualitativas en el modelo, stas variables son
denominadas ficticias, dicotomas o de ndice.
Ejemplo:
Si E(y): Tiempo medio para ejecutar un trabajo
X : Da de la semana en que se ejecuta en trabajo
X1= 1 Si la observacin se hace en domingo
0 Si no es as.
X2= 1 Si la observacin se hace en lunes
0 Si no es as.
X3= 1 Si la observacin se hace en martes
0 Si no es as.
X4= 1 Si la observacin se hace en mircoles
0 Si no es as.
X5= 1 Si la observacin se hace en jueves
0 Si no es as.
X6= 1 Si la observacin se hace en viernes
0 Si no es as.
Podemos escribir el modelo:

E(y) =

+ 1X

+ 2X

+ 3X

+ 4X

+ 5X

+ 6X

Las variables ficticias introducen al parmetro apropiado ( de que puede ser positivo o
negativo) dependiendo del da de la semana. As: En domingo X1= 1, X2 = X3, ...., = X6 = 0 y
el valor medio de Y es:

En lunes
En martes
En mircoles
En jueves
En viernes

E(y) =0 + 1(1)
E(y) =0 + 1
E(y) =0 + 2
E(y) =0 + 3
E(y) =0 + 4
E(y) =0 + 5
E(y) =0 + 6

En sbado se asigna 0 a todas las variables ficticias y el valor medio de Y es: E(y) =0
Se recomienda seleccionar el modelo de regresin apropiado para una situacin en
particular. Ningn mtodo estadstico puede compensar una mala seleccin del modelo.
Propondremos un anlisis ms profundo al respecto en una prxima sesin. En el presente
su pondremos que se ha seleccionado un modelo razonable para la situacin y nos
concentraremos en el procedimiento de ajuste del modelo a un conjunto de datos y en los
mtodos asociados de inferencia estadstica.

Ing. Wilmer J. Bermdez Pino

19

Regresin y correlacin lineal_______________________________________________________________________________________________


Despus de haber seleccionado una porcin determinstica de un modelo de regresin,
esto es para E(y) agregamos un componente a fin de compensar el error aleatorio, de
modo que se tiene:
Y = E(y) +
Componente
aleatorio

Componente
Deterministico

El componente aleatorio debe obedecer los supuestos del modelo de regresin lineal:

Tenga distribucin normal con media 0 y varianza 2. Esto implica que la media de Y
equivale al componente deterministico

E(y) = 0 + 1 X 1 + ... + k X k

Para todos los valores de las variables independientes X1, X2, X3,..., Xk la varianza de
es constante.

La distribucin de probabilidad de es normal.

Los errores aleatorios asociados a cualquier par de Y son independientes (en sentido
probabilstico).
DESCRIPCIN DE LOS DATOS Y DEL MODELO:

Los datos consisten de n observaciones sobre una variable independiente o respuesta Y


y de K variables independientes:
X1, X2, X3, ..., Xk. Si n k y Xij es la ij-sima observacin o nivel de la variable Xj , donde
i=1,2,3,...,n; j=1,2,3,..,k.
Las observaciones usualmente son presentadas de la siguiente manera:
Observaciones

X1

X2

X3

...

Xk

Y1

X11

X12

X13

Y2

X21

X22

X23

Y3

X31

X32

X33

...

X3K

...

...

...

Yn

Xn3

Xnk

Xn1

Ing. Wilmer J. Bermdez Pino

Xn2

...

X1K

...

X2K

20

Regresin y correlacin lineal_______________________________________________________________________________________________


Las relaciones entre la variable Y con las variables X1, X2, X3, ..., Xk, donde cada
observacin (Xi1 Xi2 Xi3 ...
Xik , Y) satisface
el modelo lineal general de
regresin siguiente:

Yi = 0 + 1 X i1 + 2 X i 2 + 3 X i 3 + ... + k X ik + i
Cada modelo describe un hiperplano en el espacio k-dimensional formado por {Xi }
Donde:
Yi:

Variable dependiente ( respuesta)

X1, X2, X3, ..., Xk: variables independientes. Podran en realidad representar los
cuadrados

cubos

productos

cruzados

otras

funciones (sen, log. Etc.) de las variables de


prediccin. Lo esencial es que se pueden medir sin
error cuando se observe un valor de Y y que no
intervengan parmetros desconocidos.
j:

Parmetros de la regresin . constantes


desconocidas. Expresan el incremento en la variable
respuesta Y que se corresponde a una unidad de
incremento en Xj cuando otras variables Xi (i j ) se
mantienen constantes.

i:

Vector aleatorio de errores supuestos.

Los coeficientes j : 0,k son estimados por el mtodo de mnimos cuadrados, as:
El modelo:

Yi = 0 + 1 X i1 + 2 X i 2 + 3 X i 3 + ... + k X ik + i
Despejando i y elevando al cuadrado ambos miembros:
(i)2= (Yi

( 0 + 1 X i1 + 2 X i 2 + 3 X i 3 + ... + k X ik )) 2

Aplicando el operador de sumatoria en ambos miembros de la igualdad:

i =1

i2

= (Yi ( 0 + 1 X i1 + 2 X i 2 + 3 X i 3 + ... + k X ik )) 2
i =1

Ing. Wilmer J. Bermdez Pino

21

Regresin y correlacin lineal_______________________________________________________________________________________________


Derivando parcialmente con respecto a j e igualando a cero buscamos
minimizar la suma de los cuadrados del error aleatorio:

i =1

i2

= (Yi Yi ) 2 = SSE
i =1

Obtenindose un sistema de ecuaciones lineales simultaneas llamadas


ecuaciones normales de mnimos cuadrados del modelo:

SSE
=0
0
SSE
=0
1
SSE
=0
2
.
.
.

SSE
=0
k
Examinemos la primera ecuacin:
Si tomamos la primera derivada parcial de SSE con respecto a 0
obtenemos:

n
SSE
= 2 (Yi ( 0 + 1 X i1 + 2 X i 2 + 3 X i 3 + ... + k X ik ))( 1)
0
i =1
Introduciendo el operador SUMATORIA e Igualando a cero, queda:

Yi ( n 0 + 1X i1 + 2 X i 2 + 3 X i 3 + ... + k X ik ) = 0
Osea: (despejando e intercambiado miembros):
Ing. Wilmer J. Bermdez Pino

22

Regresin y correlacin lineal_______________________________________________________________________________________________

n 0 + 1X i1 + 2 X i 2 + 3 X i 3 + ... + k X ik = Yi
Esta es una ecuacin lineal en los parmetros. Las ecuaciones de
mnimos cuadrados restantes todas lineales en los parmetros son:

0 X i1 + 1X i21 + 2 X i1 X i 2 + ... + k X i1 X ik = X i1Yi


0 X i 2 + 1X i 2 X i1 + 2 X i22 + ... + k X i 2 X ik = X i 2Yi
.
.
.

0 X ik + 1X ik X i1 + 2 X ik X i 2 + ... + k X ik2 = X ik Yi
Luego el sistema es:

n 0 + 1X i1 + 2 X i 2 + 3 X i 3 + ... + k X ik = Yi

0 X i1 + 1X i21 + 2 X i1 X i 2 + ... + k X i1 X ik = X i1Yi


0 X i 2 + 1X i 2 X i1 + 2 X i22 + ... + k X i 2 X ik = X i 2Yi
.
.
.

0 X ik + 1X ik X i1 + 2 X ik X i 2 + ... + k X ik2 = X ik Yi
El sistema tiene p = k +1 ecuaciones e incgnitas
Como puede verse, escribir k+1 ecuaciones lineales de mnimos
cuadrados ya cuesta trabajo, resolverlos simultneamente a mano es
todava ms difcil. Una forma fcil de expresar las ecuaciones y
resolverlos es mediante el lgebra de Matrices y obtener frmulas
para las estimaciones de los coeficientes de regresin lineal de mnimos
Ing. Wilmer J. Bermdez Pino

23

Regresin y correlacin lineal_______________________________________________________________________________________________


cuadrados, SSE, estadsticas de prueba, intervalos de confianza y de
prediccin.
ECUACIONES DE MINIMOS CUADRADOS Y SU RESOLUCION:
ENFOQUE MATRICIAL.
Es preciso acomodar los datos en matrices siguiendo un patrn
especfico:
Supondremos que el modelo es:

Y = o + 1X1 + 2X2 + 3 X3 ++k Xk +

Donde:
X1 X2 X3 Xk:

Variables de prediccin

error aleatorio
p = k +1: nmero de parmetros del modelo
k: Nmero de variables de prediccin
Supongamos que se tiene una muestra de tamao n

( n k ) que se

denota as:
Valor
de

Variables explicatorias

Datos

X1

X2

Y1

X11

X12

Y2

X21

X22

X3... Xk
X13...X1K
X23...X2K

Y3

. ....

. ....

. ....

Yn

Xn1

Xn2

X31

X32

X33...X3K

Xn3 Xnk

Error
aleatorio

1
2
3

En notacin matricial:
En forma desarrollada puede verse as:

Ing. Wilmer J. Bermdez Pino

24

Regresin y correlacin lineal_______________________________________________________________________________________________

Y1
Y
2
Y3

.
.

.
Y
n

.
=

nx1 1

nx1

X11

X12

X21

X22

X31

X32

.
.

.
.

.
Xn1

.
Xn2

= X

X13 ... X1p



1
0

X23 ... X2p
1
2

X33 ... X3p



3
2

.
. . .. + .

.
.
. . .


.
. . .
.

Xn3 Xnp k px1 n nx1
nxp

nxp .

px1

nx1

Matriz de error
Matriz de parmetros coeficientes
De regresin
k: nde variables Xs
p= k +1 n de parmetros
Matriz de datos xs
Matriz de los datos Ys
OBSERVACIONES:
La primera columna de X es una columna de unos, es decir
estamos insertando un valor de X, especficamente X 0 como
coeficiente de o donde X0 es una variable que siempre toma
valores iguales a 1.

Hay una columna en la matriz X para cada parmetro


Un punto de datos en particular se identifica mediante filas
especficas de las matrices Y y X. Ejemplo: el Valor de Y para el
punto de datos 3, osea y3 est en la tercera fila de la matriz Y y
sus valores correspondientes de X 1 X2 X3 Xk aparecen en la
tercera fila de la matriz X.
Con sta notacin el modelo lineal general se pude expresar en la
forma de matriz como: Y = X +
La matriz contiene a los parmetros o, 1, 2, 3,,p de modo
que resolver el sistema nos dar como resultado, las estimaciones
de mnimos cuadrados de cada uno de ellos, denotados por:

Ing. Wilmer J. Bermdez Pino

25

Regresin y correlacin lineal_______________________________________________________________________________________________

= ( 0 1 2 3 ) '
y
y = X + , donde
y = Y

el

modelo

de

estimacin

es

Ahora bien:
ESTIMACIN DE LOS PARMETROS
Utilizamos las matrices de datos Y y X, sus transpuestas y la matriz

= ( 0 1 2 3 ) ' ,

podemos escribir las ecuaciones de mnimos

cuadrados, as:

El modelo:

Despejando

Elevando al cuadrado en ambos miembros , en notacin matricial


es multiplicar por la izquierda en cada miembro por su transpuesta
correspondiente:

y = X +

= y X

' = ( y X )' ( y X )
' = ( y X )( y ' ( X )' )
' = y ' y y ' ( X ) ( X )' y + ( X )' X
y ' ( X ) = ( X )' y

' = y ' y y ' ( X ) y ' ( X ) + ( X )' X


Se obtiene:

' = y ' y 2 y ' ( X ) + ' X ' X

Derivando con respecto a


de cuadrados del error:

para minimizar ' que es la suma

'
= 2 X ' y + 2 X ' X

Igualando a cero:

2 X ' y + 2 X ' X = 0
Ing. Wilmer J. Bermdez Pino

26

Regresin y correlacin lineal_______________________________________________________________________________________________

Obtenemos:

X ' X = X ' y

Para despejar multiplicamos en ambos miembros de la igualdad


por (XX)-1 que es la inversa de la matriz XX:
(XX)-1 XX = (XX)-1Xy
Por tanto:

= (XX)

XY

PARA EL CLCULO, A PARTIR DE:

Y1
Y
2
Y3

.
.

.
Y
n

.
=

nx1 1

X11

X12

X21

X22

X31

X32

.
.

.
.

Xn1

Xn2

X13 ... X1p



1
0

X23 ... X2p

1

2

X33 ... X3p



3
2

.
. . .. + .

.
.
. . .


.
. . .
.

Xn3 Xnp k px1 n nx1
nxp

SE ESCRIBE:

Ing. Wilmer J. Bermdez Pino

27

Regresin y correlacin lineal_______________________________________________________________________________________________

X11
X12

X' X =X13

X1k

X21

X31 Xn1

X22

X32 Xn2

X23

X33 Xn3

X2k

1

1
1

.
.

.
1
pxn

X3k

Xnk

.
.
.
.
Xn1 Xn2

X13 ... X1k


X23 ... X2k
X33... X3k

.
. .
.
. .

.
. .
Xn3 Xnk nxp

...

X11 X12
X21 X22
X31 X32
.

El producto resulta:

Xi1

Xi2

X ' X = Xi3

Xik

Xi1

Xi2

Xi3

2
Xi1

Xi1 Xi2

Xi1 Xi3

...

Xi1Xi2

2
Xi2

Xi2 Xi3

...

Xi1Xi3

Xi2Xi3

2
Xi3

Xi1Xik

Xi2 Xik

Xi3Xik

Xik

Xi1 Xik

Xi2 Xik
Xi3Xik

XinXik pxp

XX: Es una matriz no singular, es matriz cuadrada. El clculo de su


inversa se realiza mediante:
(XX)-1 = (1/|XX|)adjunta(XX)

X11
X12

X ' Y = X13

X1k

X21

X 31 Xn1

X22

X32

Xn2

X23

X33

Xn3

X2k

X3k

Xnk

Ing. Wilmer J. Bermdez Pino

Y1

Y2
Y3

.
.

.
Y
pxn n

Yi1

X Y

i1 1

Xi2Y2

= Xi3Y3

nx1 XikYn px1


28

Regresin y correlacin lineal_______________________________________________________________________________________________


Luego el vector de parmetros es:

0

1

1
= ( X ' X ) X ' Y = 2


K
Y el modelo de regresin estimado es:

Yi = 0 +

j X ij ;

i = 1, n

j =1

j = 1, k

Y = X
CARACTERSTICAS

DE

LOS

ESTIMADORES

DE MINIMOS

CUADRADOS
a.

ESPERANZA MATEMTICA DE
E( ) =
Demostracin:
E( )= E ( X ' X )

E( )= E (( X ' X )

X ' Y ) = E ( X ' X ) 1 X ' ( X + )

X ' X + ( X ' X ) 1 X ' )

E( )= E ( ) + ( X ' X )

X ' E ( )

E( ) =
b. VARIANZA Y COVARIANZA DE

Var-cov( )=

2 ( X ' X ) 1

Demostracin:
Var-cov( )=E( -E( ))( -E( ))
Var-cov( )=E( - )( - )
Ing. Wilmer J. Bermdez Pino

29

Regresin y correlacin lineal_______________________________________________________________________________________________


Observe que:

= ( X ' X ) 1 X ' Y

donde Y = X +

= ( X ' X ) 1 X ' ( X + )
= ( X ' X ) 1 X ' X + ( X ' X ) 1 X '
= + ( X ' X ) 1 X '
= ( X ' X ) 1 X '
Var-cov( )=E[( ( X ' X )
Var-cov( )=E[ ( X ' X )
Var-cov( )= ( X ' X )

X ' ' X ( X ' X ) 1 ]

X ' E ( ' ) X ( X ' X ) 1

Observe: E ( ' ) = I n
2

(Demostracin para el lector)

Var-cov( )= ( X ' X )

X ' 2 I n X ( X ' X ) 1

Var-cov( )= ( X ' X )

X ' X 2 I n ( X ' X ) 1

Var-cov( )= ( X ' X )
2

c.

X ' )( ( X ' X ) 1 X ' )]

Los errores estndar y la covarianza de los estimadores

se

determinan mediante los elementos de la matriz (XX) -1 cuya


notacin es:

c00
c
10
1
( X ' X ) = c20

ck 0

c01 c02 c03 c0k


c11 c12 c13 c1k
c21 c22 c23 c2k = cij


ck1 ck 2 ck3 ckk pxp

Los elementos de la diagonal proporcionan los valores que se necesitan


para calcular los errores estndar de los estimadores. De modo que:

Ing. Wilmer J. Bermdez Pino

30

Regresin y correlacin lineal_______________________________________________________________________________________________


Var-cov( j )= 2 c jj
Luego: Los errores estndar de los estimadores de

SE ( j ) = c jj ,

Donde

j son:

es la desviaci del error aleatorio

Los elementos que estn fuera de la diagonal proporcionan valores


necesarios para calcular las covarianzas de los parmetros, digamos

j , i

Donde

i j

cov( i j )= 2 c ij = 2 c ji

Estas covarianzas son necesarias para determinar la varianza de la


ecuacin de prediccin, o cualquier otra funcin lineal de parmetros.
Desempean un papel el el establecimiento de un intervalo dre
confianza para E(y) y un intervalo de prediccin para Y

ESTIMADOR DE

2 . VARIANZA DE

EN EL MODELO

DE

REGRESIN MLTIPLE
Las varianzas de los estimadores de los parmetros y de Y dependen
del valor de

2 (varianza del error aleatorio ) que aparece en el

modelo y casi nunca se se le conoce por adelantado, debemos usar los


datos de la muestra para estimar su valor

2 =

Y ' Y ' X ' Y


SSE
=
n p
n p

COMPONENTES DE LA SUMA DE CUADRADOS DEL TOTAL DE Y


SCT = SCR + SCE

Ing. Wilmer J. Bermdez Pino

31

Regresin y correlacin lineal_______________________________________________________________________________________________

Suma de cuadrados del total de Y.

SCT = Y ' Y nY

Suma de cuadrados de la regresin

SCR = X ' Y nY 2

Suma de cuadrados del error (residual)

SCT = Y ' Y X ' Y

Varianza explicada SCR/n

Varianza no explicada SCE/n-p

PRUEBA DE HIPTESIS EN LA REGRESIN LINEAL MLTIPLE


a. Prueba para la significacin de la regresin
Hiptesis
H0: 1= 2= 3==K=0
H1: Por lo menos uno de los parmetros es distinto de cero
Anlisis de varianza (ANVA o ANOVA)

Fuente de
variacin
Debido a la regresin
Debido al error
Total

Suma de
cuadrados
SCR

Grados de
libertad
P-1

Cuadrados
medios
CMR=SCR/1

SCE

n-P

CME=SCE/(n-2)

SCT

n-1

F calculado
(Fc)
CMR/CME

Donde: n es tamao de la muestral o nmero de datos


k nmero de variables independiente
p nmero de parmetros

Ing. Wilmer J. Bermdez Pino

32

Regresin y correlacin lineal_______________________________________________________________________________________________


Rechazar H0 Si Fc es mayor que F(k, n-p)
El rechazo de H0 implica que al menos una de las variables de regresin
tienen una contribucin significativa en el modelo.
b. PRUEBAS

SOBRE

LOS

COEFICIENTES

INDIVIDUALES

DE

REGRESIN
Estas pruebas son tiles para determinar el valor potencial de cada una
de las variables de regresin del modelo, as el modelo puede ser mas
eficaz con la inclusin de variables adicionales o quiz con la eliminacin
de una o ms regresoras presentes en el modelo
Hiptesis
H0 : j =0
H1 : j 0
ESTADSTICA DE PRUEBA

TO =

j
2 c jj

DECISIN:
Rechazar H0 si |To|> tn-p para un

% de significacin

CONCLUSIN
Si no se rechaza la hiptesis H0 indica que el regresor Xj puede
eliminarse del modelo
MEDIDAS DE ADECUACION DEL MODELO
a.

Coeficiente de determinacin mltiple

Es una medida de la magnitud de la reduccin en la variabilidad de Y,


obtenida mediante el empleo de variables de regresin X 1 X2 X3 Xk.

Ing. Wilmer J. Bermdez Pino

33

Regresin y correlacin lineal_______________________________________________________________________________________________

R2 =

SSR
SSE
=1
,
SCT
SCT

0 R2 1

R2 grande no necesariamente implica que el modelo de regresin sea


bueno, pues la adicin de una variable al modelo siempre aumenta R 2
sin importar si la variable es o no estadsticamente significativa.

+ R2 = R

Es el coeficiente de correlacin mltiple entre Y y el

conjunto de variables de regresin X1 X2 X3 Xk


R es una mediad de asociacin lineal que existe entre Y y X 1 X2 X3
Xk. Cuando k=1 tenemos el coeficiente de correlacin simple entre Y y X

Ejercicio resuelto:
El consumo de un producto x de la empresa Agraroindustrial Naranjillo Ltda. de
la ciudad de Tingo Mara, se ha venido observando que a travs del tiempo ha
tenido una demanda permanente que se muestra en el siguiente cuadro :
INGRESO
FAMILIAR

AO

CONSUMO/VENTAS

PRECIO

2002

45

2003

50

2004

60

2005

55

2006

64

11

2007

68

10

2008

70

12

2009

72

11

2010

75

15

2011

80

14

Ing. Wilmer J. Bermdez Pino

34

Regresin y correlacin lineal_______________________________________________________________________________________________


Se pide hallar lo siguiente:
Realice la regresin y estime los parmetros ( )
Identifique otras variables independientes que puedan estar influenciando
en Y
Analizar los efectos de las variables independencias de las dependientes
Determine y analice el coeficiente de determinacin (R 2)
Determine y analice el coeficiente de determinacin ajustado ( )
El anlisis de varianza (ANVA)
Prueba de relevancia global
Determine la varianza de la variable aleatoria ( )
Determine la Var-Cov de los parmetros
Determine la prueba de relevancia individual
Pronostico para 2 aos
Solucin:
Para determinar cada uno de los incisos primero identificamos las variables
correspondientes:
CONSUMO/VENTAS= F (PRECIO, INGRESO FAMILIAR)
Como se trata de un estudio a travs del tiempo y se utilizan datos histricos, se
utiliza el siguiente modelo econmico.

Dado que:

= variable dependiente (Consumo/Ventas)


=Variable independiente 1 (precio)
= Variable independiente 2 (Ingreso familiar)

Otras variables independientes ( )


- Nivel de ahorro de las familias
- Edad, sexo
- Precio de los bienes sustitutos
- Supuesto de insaciabilidad
- Precio de los bienes complementarios

Ing. Wilmer J. Bermdez Pino

35

Regresin y correlacin lineal_______________________________________________________________________________________________


CONSUMO/
VENTAS

PRECIO

INGRESO
FAMILIAR

Yt

X1t

X2t

2002

45

2003

50

2004

Yt2

X1t2

2025

49

14

315

90

2500

64

24

400

150

60

3600

81

36

16

540

240

2005

55

3025

81

27

495

165

2006

64

11

4096

121

55

25

704

320

2007

68

10

4624

100

50

25

680

340

2008

70

12

4900

144

72

36

840

420

2009

72

11

5184

121

55

25

792

360

2010

75

15

5625

225

105

49

1125

525

2011

80

14

6400

196

84

36

1120

480

TOTAL

639

106

46

41979

1182

522

234

7011

3090

106
522
+ (46)
46
234

1182
522

AO

X1t*X2t X2t2 X1t*Yt

X2t*Yt

Reemplazando en la frmula:

10
= 106
46
Hallamos la inversa de

1182
522

Det(A)= 1248
Cof(A):
1182 522
A11= (1)
= 4104
522 234

A13 =(1) =

46
522
234

639
7011
3090

A-1:

Det(A)= (10)

A12 = (1) =

106
1182
522

522
106
(106)
234
46

106 522
= 792
46 234

106 1182
= 960
46
522

Ing. Wilmer J. Bermdez Pino

36

Regresin y correlacin lineal_______________________________________________________________________________________________


A21 = (1) =
A22 =(1) =
A23 =(1) =
A31 =(1) =
A32 =(1) =
A33 =(1) =

106 46
= 792
522 234

10
46
10
46

46
= 224
234

106
= 344
522

106
46
= 960
1182 522

10
46
= 344
106 522
10
106
= 584
106 1182

Adjunta(A)
4104 792 960
Adj(A) = 792 224 344
960 344 584

Reemplazamos los valores:

Det( )

( )

4104 792 960


1
=
792 224 344
1248
960

344

584

639
7011
3090

(4104)(639) (792)(7011) + (960)(3090)


1248
(792)(639) + (224)(7011) (344)(3090)
1248
(960)(639) (344)(7011) + (584)(3090)
1248

28.96
1.13
4.98

Ing. Wilmer J. Bermdez Pino

37

Regresin y correlacin lineal_______________________________________________________________________________________________


Reemplazamos los datos en el modelo econmico:

Y = + X + X t
Y = 28.96 + 1.13X + 4.98X

Efectos:

= 1.13

Un incremento del 1% en el precio (X ) genera una disminucin en el


consumo/ventas (Y ) del 13%

= 4.98

Un incremento del 1% en el ingreso familiar ( ) genera un efecto de un


incremento en el consumo/ventas (Y ) del 98%
Coeficiente de determinacin (R2)

Y nY

( )

( )

28.96
639
639
1.13
7011 (10) 10
3090
= 4.98
639
41979 (10) 10
= 0.88908228 88.91 %

Interpretacin: El 88.91 % de la fluctuacin de las ventas viene siendo explicado


por el precio( ) y el ingreso familiar ( ), durante los aos comprendidos entre
2002 al 2011.
Coeficiente de determinacin ajustado (
Ing. Wilmer J. Bermdez Pino

38

Regresin y correlacin lineal_______________________________________________________________________________________________

=1
=1

28.96
639
41979 1.13
7011
4.98
3090
=1
639
41979 (10) 10

10 1
10 3

= 1 0.1426085

= 0.8573915 85.74 %
Interpretacin:
Los precios y el ingreso familiar tienen mucha influencia en el consumo del
producto X, por lo tanto no es necesario incorporar otra variable independiente
en el modelo
Anlisis de Varianza (ANVA)

FUENTE DE
VARIACION

GRADOS DE
LIBERTAD

SUMA DE
CUADRADOS

CUADRADO
MEDIO

COCIENTE
F

DEBIDO A LA
REGRESION (E)

SCE =1019.69

= 509.84

=14.13

k-1=3-1=2
DEBIDO AL
ERROR DELA
MUESTRA (R)

n-k=10-3=7

SCR = 127.21

TOTAL(T)

n-1=10-1=9

SCT = 1146.90

Ing. Wilmer J. Bermdez Pino

= 36.07

.
.

39

Regresin y correlacin lineal_______________________________________________________________________________________________

= Y nY
28.96
639
= 1.13
7011 (10)
4.98
3090

= 1019.69
=

= 41979 (10)

= 1146.90

= 1146.90 1019.69
= 127.21

= 509.84

= 14.13
=

= 36.07

.
.

Prueba de relevancia global:


1)

Planteamiento de hiptesis

:
:

Nivel de significancia
= 5 % 0.05
2)

Punto critico
gl1 = k-1 3-1=2
gl2 =n-k 10-3= 7
Fgl1;gl2; F2;7;0.05 = 4.7374
3)

Ing. Wilmer J. Bermdez Pino

40

Regresin y correlacin lineal_______________________________________________________________________________________________

Calculo del estadstico

4)

Fc = 36.07 (ver en el cuadro de ANVA)


Conclusiones
Fc >F2;7;0.05 (36.07 > 4.74).Entonces RHo, es decir el precio y el ingreso familiar
explican el comportamiento del consumo/ventas del producto X de la empresa
Agraria Industrial Naranjillo ltda .
5)

Determinar la varianza de la Variable aleatoria ( )

=
=

41979

= 18.17

28.96
1.13
4.98
10 3

639
7011
3090

Determine la var-cov de los parmetros:

Ing. Wilmer J. Bermdez Pino

41

Regresin y correlacin lineal_______________________________________________________________________________________________

=1
=1

=1

1,

=1

=1

0)

=1

2
1
2

=1

0,

=1

10 106 46
= 18.17 106 1182 522
46 522 234

( ,
( ,

)
)

1,

0)

2,

1)

1)

2
1

2
2
2

(
(

0,
1,

1)
2)

2)

18.17 4104 792 960


792 224 344
1248
960 344 584

( )
( , )

( , )
59.76 11.53 13.98
3.26
5.01
( , ) = 11.53
13.98
5.01
8.50
( )

Determine la prueba de relevancia individual:


Para :
1) Planteamiento de hiptesis

= 0 (El efecto del precio no explica significativamente en las ventas)


0 (El efecto del precio explica significativamente en las ventas)

2) Nivel de significancia

= 5 % 0.05

3) Punto critico
gl = n-k 10-3 = 7
tgl; /2 t7;0.025 = 2.3646

Ing. Wilmer J. Bermdez Pino

42

Regresin y correlacin lineal_______________________________________________________________________________________________


4) Calculo del estadstico
=
=

1.13

3.26

( )

0.6282

= 0.6282

5) Conclusiones
tc < t7;0.025 ( 0.6282 < 2.36 ).Entonces AHo, es decir el efecto del
precio no explica significativamente el comportamiento del
consumo/ventas del producto X de la empresa Agraroindustrial
Naranjillo Ltda.
Para

1) Planteamiento de hiptesis
= 0 (El efecto del ingreso familiar no explica significativamente en el C/Vtas)
0 (El efecto del ingreso familiar explica significativamente en el C/Vtas)
2) Nivel de significancia

= 5 % 0.05

3) Punto critico

gl = n-k 10-3 = 7

tgl; /2 t7;0.025 = 2.3646

4) Calculo del estadstico


=
=

Ing. Wilmer J. Bermdez Pino

4.98

8.50

( )

= 1.7079

43

Regresin y correlacin lineal_______________________________________________________________________________________________


5) Conclusiones
tc <t7;0.05 ( 1.71 < 2.36).Entonces AHo, es decir el efecto del ingreso
familiar no explica el comportamiento del consumo/ventas del producto
X de la empresa Agraria Industrial Naranjillo ltda .
Pronostico para 2 aos:

AO
2012
2013

PRECIO
15
16

Y
Y
Y
Y

INGRESO
FAMILIAR
7
8

CONSUMO/VENTAS
81
87

= 28.96 + 1.13X + 4.98X


= 28.96 + 1.13(15) + 4.98(7)
Y
= 80.85 = 81
= 28.96 + 1.13X + 4.98X
= 28.96 + 1.13(16) + 4.98(8)
Y
= 86.96 = 87

Ing. Wilmer J. Bermdez Pino

44

Regresin y correlacin lineal_______________________________________________________________________________________________


REGRESIN LINEAL EN SPSS.
El anlisis de regresin lineal es una tcnica estadstica utilizada para estudiar la
relacin entre variables cuantitativas. Tanto en el caso de dos variables (regresin
simple) como en el de ms de dos variables (regresin mltiple), el anlisis regresin
lineal puede utilizarse para explorar y cuantificar la relacin entre una variable
llamada dependiente o criterio(Y) y una o ms variables llamadas independientes
o predictoras (X1, X2, , Xp), as como para desarrollar una ecuacin lineal con fines
predictivos.
Para llevar a cabo un anlisis de regresin lineal en el SPSS 15.0 seleccionamos:
Analizar
Regresin
Lineal
Apareciendo el cuadro de dilogo de la figura 01:
Figura 01
Cuadro de dilogo regresin.

En Dependiente se traslada la variable cuyos valores se desea predecir o resumir.


Bloque 1 de 1. Este recuadro nos sirve para introducir las variables independientes,
Ing. Wilmer J. Bermdez Pino

45

Regresin y correlacin lineal_______________________________________________________________________________________________


nos permite hacer varios anlisis de regresin a la vez, alternando los botones
anterior

y siguiente, y adems no deja elegir el mtodo de introduccin de las

variables independientes.
Independientes se trasladan las variables utilizadas para predecir el valor de la
variable dependiente. Tambin se denominan variables predictoras o variables
explicativas. Para poder ejecutar este procedimiento, la lista debe contener al menos
una variable.
Mtodo: Permite seleccionar el mtodo por el cual se introducen las
variables independientes en el anlisis. Nos vale para elegir la mejor
ecuacin de regresin. Permite construir una variedad de modelos de
regresin a partir del mismo conjunto de variables:
Introducir (Entry): Procedimiento para la seleccin de variables en el
que todas las variables un bloque se introducen en un solo paso. Es el
mtodo por defecto.

Pasos sucesivos (Stepwise): En cada paso se introduce la variable


independiente que no se encuentre ya en la ecuacin y que
tenga la probabilidad para F ms pequea, si esa probabilidad
es suficientemente pequea. Las variables ya introducidas en la
ecuacin de regresin se eliminan de ella si su probabilidad para F
llega a ser suficientemente grande. El mtodo termina cuando ya no
hay ms variables candidatas a ser incluidas o eliminadas.

Eliminar (Remove): Procedimiento para la seleccin de variables en


el que las variables de un bloque se eliminan en un solo paso.
Hacia atrs (Backward): Procedimiento de seleccin de variables
en el que se introducen todas las variables en la ecuacin y
despus se van excluyendo una tras otra. Aquella variable que tenga
la menor correlacin parcial con la variable dependiente ser la
primera en ser considerada para su exclusin. Si satisface el criterio
Ing. Wilmer J. Bermdez Pino

46

Regresin y correlacin lineal_______________________________________________________________________________________________


de eliminacin, ser eliminada. Tras haber excluido

la primera

variable, se pondr a prueba aquella variable, de las que queden


en la ecuacin, que presente una correlacin parcial ms pequea.
El procedimiento termina cuando ya no quedan en la ecuacin
variables que satisfagan el criterio de exclusin.

Hacia

delante

(Forward):

Procedimiento

de

seleccin

de

variables en el que stas son introducidas secuencialmente en el


modelo. La primera variable que se considerar para ser
introducida en la ecuacin ser aqulla que tenga mayor correlacin,
positiva o negativa, con la variable dependiente. Dicha variable ser
introducida en la ecuacin slo si satisface el criterio de entrada. Si
ha entrado la primera variable, se considerar como prxima
candidata la variable independiente que no est en la ecuacin y
cuya correlacin parcial sea la mayor. El procedimiento termina
cuando ya no quedan variables que satisfagan el criterio de entrada.
En Variable de seleccin se traslada una variable que limite el anlisis a un subconjunto de
casos que tengan un valor particular para esta variable. Con Regla podemos definir el
subconjunto de casos que se emplearn para estimar el modelo de regresin.
En Etiquetas de caso designamos una variable para identificar los puntos de los grficos.
Para cada punto de un diagrama de dispersin podemos utilizar la herramienta de
seleccin de puntos y mostrar el valor de la variable de etiquetas de casos correspondiente
al caso seleccionado.
Ponderacin MCP: Permite obtener un modelo de mnimos cuadrados ponderados. Los
puntos de los datos se ponderan por los inversos de sus varianzas. Esto significa que las
observaciones con varianzas grandes tienen menor impacto en el anlisis que las
observaciones asociadas a varianzas pequeas.

Ing. Wilmer J. Bermdez Pino

47

Regresin y correlacin lineal_______________________________________________________________________________________________


2.1.- Estadsticos
Con el botn Estadsticos accedemos al cuadro de dilogo que muestra la figura 2
que nos nos vale para solicitar resultados estadsticos opcionales, incluyendo los
coeficientes de regresin, descriptivos, estadsticos de ajuste del modelo, la prueba de
Durbin-Watson y diagnsticos de la colinealidad.
Figura 55.
Cuadro de dilogo estadisticos

Coeficientes
estimaciones

de regresin.
de

En este recuadro

podemos obtener tanto

las

los coeficientes de regresin, la bondad del ajuste del modelo

elegido, los intervalos de confianza de cada coeficiente as como la matriz de


covarianzas. Podemos elegir una o ms de las opciones:
Estimaciones: Nos muestra coeficientes de regresin y medidas relacionadas.
Los coeficientes no estandarizados (no tipificados) son los coeficientes de
regresin parcial que definen la ecuacin de regresin en puntuaciones
directas. Los coeficientes estandarizados () son los coeficientes que definen
la ecuacin de regresin en puntuaciones tpicas. Estos coeficientes
estandarizados ayudan a valorar la importancia relativa de cada variable
independiente dentro de la ecuacin. Muestra las pruebas de significacin de
cada coeficiente, el estadstico de contrate (t) as como su nivel crtico (Sig.).
Una significacin pequea nos permite afirmar que el coeficiente es
significativo.
Ing. Wilmer J. Bermdez Pino

48

Regresin y correlacin lineal_______________________________________________________________________________________________


Intervalos de confianza: nos muestra intervalos de confianza al 95% para los
coeficientes de regresin.
Matriz de covarianzas: nos muestra la matriz de varianza-covarianza de los
coeficientes de regresin, las varianzas en la diagonal y las covarianzas por
debajo y por encima de la diagonal.
Ajuste del modelo. Muestra el coeficiente de correlacin mltiple (R mltiple), y su
cuadrado (R2, coeficiente de determinacin, que expresa la proporcin de varianza de
la variable dependiente que est explicada por la variable o variables independientes),
la R cuadrado corregida y el error tpico de la estimacin (desviacin tpica de los
residuos). Tambin, una tabla de ANOVA muestra las sumas de cuadrados, los grados
de libertad, las medias cuadrticas, el valor del estadstico F y el nivel crtico (Sig.) de
la F.
Cambio en R cuadrado. Nos muestra el cambio en el estadstico R cuadrado que se
produce al aadir o eliminar una variable independiente. Si el cambio en R cuadrado
asociado a una variable es grande, significa que esa variable es un buen predictor de la
variable dependiente.
Descriptivos. Muestra las medias de las variables, las desviaciones tpicas y la matriz de
correlaciones con las probabilidades unilaterales.
Correlaciones parcial y semiparcial. Muestra las correlaciones de orden cero, semiparcial
y parcial. Los valores del coeficiente de correlacin van de -1 a 1. El signo del coeficiente
indica la direccin de
la relacin y su valor absoluto indica la fuerza de la relacin. Los valores mayores
indican que la relacin es ms estrecha.
Diagnsticos de colinealidad. Muestra las tolerancias para las variables individuales y
una variedad de estadsticos para diagnosticar los problemas de colinealidad. La
colinealidad (o multicolinealidad) es una situacin no deseable en la que una de las
variables independientes es una funcin lineal de otras variables independientes.
Residuos. Este recuadro nos permite seleccionar una de las opciones:
Ing. Wilmer J. Bermdez Pino

49

Regresin y correlacin lineal_______________________________________________________________________________________________


Durbin-Watson: Muestra la prueba de D-W para los residuos correlacionados
serialmente. ste estadstico oscila entre 0 y 4 y toma el valor 2 cuando los
residuos son completamente independientes. Los

valores

mayores

de

indican autocorrelacin positiva y los menores de 2 autocorrelacin


negativa.
Diagnsticos por caso: Genera diagnsticos por casos, para todos los casos que
cumplan el criterio de seleccin (los valores atpicos por encima de n desviaciones
tpicas).
2.2.- Grficos
Con el botn Grficos obtenemos el cuadro de dilogo de la figura 3
Figura 56.
Cuadro de dilogo grficos.

En la lista fuente tenemos la variable dependiente (DEPENDT), los valores predichos


estandarizados (ZPRED),

los

residuos

estandarizados

(ZRESID),

los

residuos

eliminando la puntuacin del sujeto (DRESID) y los valores predichos ajustados


(SDRESID).
Dispersin 1 de 1. Nos muestra los diagramas de dispersin que queramos de la lista de
la izquierda, para cada par de variables, alternando anterior y siguiente.
Grficos de residuos tipificados. En este recuadro podemos elegir uno de los grficos:
Ing. Wilmer J. Bermdez Pino

50

Regresin y correlacin lineal_______________________________________________________________________________________________


Histograma: Crea un histograma de los residuos tipificados con una curva
normal superpuesta.
Grfico de probabilidad normal: Muestra un grfico de probabilidad normal
de los residuos tipificados. Se usa para comprobar la normalidad. Si la variable
se distribuye normalmente, los puntos representados forman una lnea recta
diagonal.
Generar todos los grficos parciales. Genera todos los diagramas de
dispersin

de

la

variable dependiente con cada una de las variables

independientes.
2.3.- Guardar
El botn Guardar nos permite guardar los valores pronosticados, los residuos y
medidas relacionadas como nuevas variables que se aaden al archivo de datos de
trabajo. En los resultados una tabla muestra el nombre de cada nueva variable y su
contenido.
2.4.- Opciones
El botn Opcionesnos permite controlar los criterios por los que se eligen las
variables para su inclusin o exclusin del modelo de regresin, suprimir el
trmino constante y controlar la manipulacin de los valores perdidos.
Aplicacin.
Vamos a realizar un anlisis de regresin lineal simple para estudiar la posible relacin
entre
Las ventas de un determinado producto (variable dependiente) y los gastos en
publicidad (variable independiente) en una muestra de 15 productos. La figura muestra
la matriz de datos q se va a analizar.
Editor de datos SPSS vista de variables.
Ing. Wilmer J. Bermdez Pino

51

Regresin y correlacin lineal_______________________________________________________________________________________________

Editor de datos spss.

Descripcin del procedimiento para implementar un anlisis de regresin


lineal
Para realizar un anlisis de regresin lineal con SPSS seleccionamos en el
men analizar la opcin de regresin lineal como muestra la figura 59.
Ing. Wilmer J. Bermdez Pino

52

Regresin y correlacin lineal_______________________________________________________________________________________________


Men analizar regresin lineal.

Figura 2. Secuencia de mens para implementar un anlisis de regresin


lineal con SPSS.
La secuencia mostrada en la Figura 2 nos permite acceder al cuadro de dilogo
Regresin lineal como se muestra en la Figura 3. En dicho cuadro disponemos de de las
variables que hemos incluido en el archivo de datos. En nuestro caso: ventas y gastos en
publicidad. Como mnimo, para que se pueda ejecutar el anlisis, tenemos que
seleccionar dos variables y trasladarlas respectivamente al cuadro de dependiente e
independientes.

Ventas ser la variable dependiente y gastos en publicidad la

variable independiente. Slo con estas especificaciones podemos, al pulsar el botn


Aceptar, obtener informacin acerca de la bondad de ajuste del modelo, de la
validacin y de la ecuacin de regresin estimada as como de la significacin de los
parmetros.
Figura 60.
Cuadro de dilogo regresin lineal.

Ing. Wilmer J. Bermdez Pino

53

Regresin y correlacin lineal_______________________________________________________________________________________________

Figura 3. Cuadro de dilogo de regresin lineal.


Los resultados que nos proporciona SPSS, con las opciones por defecto del
cuadro de regresin lineal, son las tablas etiquetadas como Variables
introducidas/eliminadas(b), Resumen del modelo(b), Anova y Coeficientes
que aparecen a continuacin. De cada tabla describiremos los valores
incluidos en las mismas, su significado y cmo se han calculado.

Ing. Wilmer J. Bermdez Pino

54

Regresin y correlacin lineal_______________________________________________________________________________________________

H is to g ra m a

V a ria b le d e p e n d ie n te : V E N T A S
8

F re c u e n c ia

M e d ia = -6 ,9 4 E -1 6
D e s v ia c i n tp ic a = 0 ,9 6 4
N =15

0
-3

-2

-1

R e g re s i n R e s id u o tip ific a d o

Ing. Wilmer J. Bermdez Pino

55

Regresin y correlacin lineal_______________________________________________________________________________________________


Grfico P-P normal de regresin Residuo tipificado

Variable dependiente: VENTAS

Prob acum esperada

1,0

0,8

0,6

0,4

0,2

0,0
0,0

0,2

0,4

0,6

0,8

1,0

Prob acum observada

Los grficos Histograma y grfico P-P normal de regresin nos permiten


valorar el alejamiento del supuesto de normalidad. Comparando la curva
normal con la distribucin emprica en el histograma y evaluando el
alejamiento de los puntos representados en el segundo grfico con
respecto a la diagonal. Podemos concluir que no existen grandes
desviaciones de la curva normal. No obstante, para ser ms precisos se
puede utilizar la prueba de Kolmogorov del men de pruebas no
paramtricas para evaluar este supuesto.

Ing. Wilmer J. Bermdez Pino

56

Regresin y correlacin lineal_______________________________________________________________________________________________


Ejercicios propuestos.
1) El gerente de personal de la empresa agroindustrial Naranjillo estudia la relacin entre
los gastos y los salarios de su personal obrero. Una muestra aleatoria de 10 obreros revel
los siguientes datos en dlares por semana:
Gastos 25 20 32 37 40 40 45 30 55 60
Salarios 28 25 35 40 45 50 50 35 70 80
a) Trace el diagrama de dispersin e indicar si existe cierta dependencia lineal entre
las variables.
b) Halle la ecuacin de la recta de regresin estimada Y = f(x)
c) Interprete y/o de su comentario sobre el valor de la pendiente.
d) Estime el gasto que correspondera a un salario semanal de 90 dlares.
e) Pruebe la significacin de la pendiente de la regresin muestral con nivel de
confianza del 95%
f) Utilice el mtodo de anlisis de varianza para probar la significacin de la ecuacin
de regresin muestral, al nivel de significancia del 5%.
g) Calcule el coeficiente de correlacin (r) y el coeficiente de determinacin r 2, e
interprete los resultados.
2) Se obtuvieron los siguientes datos para determinar la relacin entre cantidad de
fertilizantes y produccin de papa por hectrea.

a)
b)
c)
d)

Sacos de fertilizantes por hectrea. 3 4 5 6 7 8 9 10 11 12


Rendimiento en kg.
45 48 52 55 60 65 68 70 74 76
Encuentre la ecuacin de regresin de la cosecha sobre el fertilizante, por el
mtodo de mnimos cuadrados ordinarios.
Estime la cosecha si se aplican 12 sacos de fertilizantes. Cunto es el error
estndar?
Determine el coeficiente de determinacin. De su comentario sobre este valor.
Calcule el grado de asociacin entre ambas variables.

3) Como analista de Coca - Cola, su trabajo es utilizar los datos proporcionados aqu para
saber si los cambios en los precios son efectivos para promover las ventas. Estos datos se
tomaron en los mercados de prueba seleccionados en toda la regin para el precio de
cada botella y las respectivas ventas realizadas. Las ventas estn dadas en miles de soles.
Precio en soles

2.1
0

3.5
2

2.1
0

2.5
5

3.5
0

3.5
0

2.9
9

2.9
9

2.2
5

Ventas de Coca-Cola en miles de


3
35 25 21 19 23
24 31 20 19
soles.
1
a) Graficar el diagrama de dispersin e indicar si existe cierta dependencia lineal entre
las variables.
b)Existe correlacin?, Explique.
c) La correlacin es positiva o negativa?
Ing. Wilmer J. Bermdez Pino

57

Regresin y correlacin lineal_______________________________________________________________________________________________


4) A partir de los siguientes datos referentes a horas trabajadas en un taller (X), y a unidades
producidas (Y).
Horas (X)
23 30 33 35 40 45
Produccin (Y) 9 12 15 17 20 23
Determine la recta de regresin de y sobre x, el coeficiente de correlacin e interprete.
5) Los contadores con frecuencia estiman los gastos generales basndose en el nivel de
produccin. En la tabla que sigue se da la informacin recabada sobre gastos generales y
las unidades producidas en 10 plantas y se desea estimar una ecuacin de regresin para
estimar gastos generales futuros.
Gastos generales ($) 300 1000 1100 1200 600 800 900 500 400 200
Unidades producidas 15
45
55
75
30 40 45 20 18 10
a) Determine la ecuacin de regresin y haga un anlisis de los coeficientes de
regresin.
b) Proporcionan los datos suficiente evidencia para indicar que las unidades
producidas aportan informacin para predecir los gastos generales?.
c) Realice un anlisis de bondad de ajuste de la ecuacin de regresin lineal.
d) Qu puede usted concluir acerca de la correlacin poblacional entre gastos
generales y unidades producidas? .
6) El gerente de ventas de una cadena de tiendas obtuvo informacin (ver tabla que sigue)
de los pedidos por internet y del nmero de ventas realizadas por esa modalidad. Como
parte de su presentacin en la prxima reunin de vendedores al gerente le gustara dar
informacin especfica sobre la relacin ente el nmero de ventas realizadas.
Tienda
1 2 3 4 5 6 7 8 9 10
Nmero de pedidos 50 56 60 68 65 50 79 35 42 15
Nmero de ventas 45 55 50 65 60 40 75 30 38 12
a) Use el mtodo de mnimos cuadrados para expresar la relacin entre estas dos
variables.
b) Haga un anlisis de los coeficientes de regresin.
c) Proporcionan los datos suficiente evidencia para indicar que las unidades
producidas aportan informacin para predecir los gastos generales?.
e) Realice un anlisis de bondad de ajuste de la ecuacin de regresin lineal.
d) Qu puede usted concluir acerca de la correlacin poblacional entre gastos
generales y unidades producidas?
7) Las cantidades de un compuesto qumico (y) que se disuelven en 100 ml de agua a
diferentes temperaturas (x), se registraron en la tabla que sigue.
X (C)
Y (Gramos )
0
10 8 10 9
15
15 12 14 16
30
27 23 25 24
45
33 30 32 35
60
46 40 43 42
75
50 52 53 54
a) Encuentre la ecuacin de regresin.
b) Estime la varianza de la regresin poblacional.
Ing. Wilmer J. Bermdez Pino

11
18
26
34
45
55

58

Regresin y correlacin lineal_______________________________________________________________________________________________


c) Calcule el error estndar de la pendiente.
8) El gerente de recursos humanos de la empresa DAMPER S.A que tiene ms de 800
empleados realiza un estudio de los salarios de los empleados utilizando una muestra
aleatoria, de cada empleado recab:
X1: Edad
X2: Aos de servicio
X3: Genero: Hombre =1, Mujer = 0
Y: Salario Mensual en dlares.
Los datos obtenidos son los siguientes:
Empleado X1 X2 X3 Y
Empleado X1 X2 X3 Y
1
20 0.5 1 50
13
35 12 1 280
2
20 1
0 80
14
36 15 0 300
3
21 1
0 90
15
37 16 1 320
4
23 3
1 100
16
38 16 1 350
5
24 5
1 120
17
39 17 1 390
6
25 6
1 150
18
40 18 0 420
7
26 7
1 160
19
48 19 1 480
8
26 7
1 180
20
50 23 0 430
9
26 7
0 190
21
52 24 0 490
10
26 8
0 195
22
56 26 1 510
11
3
9
1 200
23
62 30 1 550
12
31 10 1 250
24
64 32 1 590
a) Determine la ecuacin de regresin muestral utilizando la variable salario como
variable dependiente.
b) Determine el valor del coeficiente de determinacin mltiple e interprete.
c) Desarrolle una prueba de hiptesis global para determinar si alguno de los
coeficientes de regresin es diferente de cero.
d) Desarrolle una prueba de hiptesis individual utilizando el mtodo de intervalos de
confianza para determinar si se puede eliminar alguna de las variables
independientes.
e) Halle la matriz de correlacin de orden cero (o simple de Pearson). Qu variables
independientes tiene correlacin significativa con la variable dependiente?. Segn
este criterio, Qu variables independientes se debera eliminar del modelo de
regresin?
f) Analice la multicolinealidad.
9) El gerente de procesamientos de datos de la compaa cisco estudia el uso de la
computadora en el departamento de sistemas de la compaa. En una muestra aleatoria
de 60 trabajos del mes pasado se registro el tiempo de procesamiento (en segundos) para
cada trabajo, con los siguientes resultados:
Al nivel de significacin del 5%, pruebe la hiptesis de que la distribucin los tiempos de
procesamiento es normal.
10) Al realizar la regresin de Y en X basado en una muestra aleatoria de 10 pares de datos (Xi,
Yi), se tiene que la varianza de los Yi es igual a 16.5 y que la suma de cuadrados debido a la
regresin es 155. Qu porcentaje de la varianza de los Yi es explicada por la regresin?
Ing. Wilmer J. Bermdez Pino

59

Regresin y correlacin lineal_______________________________________________________________________________________________


11) El gerente de personal de una empresa textil en gamarra utiliz
estudio para determinar la relacin entre las siguientes variables:
Y: Comportamiento hacia el trabajo (prueba calificada de 0 a 20)
X1: horas semanales de trabajo
X2: Servicios en el hogar: Telfono, TV Cable, Internet (0=uno de
tres, 2=los tres).
X3: Nmero de prendas que confecciona por semana.
X4: aos de experiencia.
Y X1 X2 X3 X4
Y X1 X2 X3
5 50 0 30 0.6
14 70 1 38
5 53 0 31 1.0
14 70 1 39
6 55 0 31 1.5
15 72 1 39
6 58 1 32 1.8
15 72 0 40
8 61 1 32 2.0
16 73 0 41
9 62 0 33 2.4
16 74 0 42
9 62 2 34 2.8
16 74 1 43
10 63 0 35 3.0
16 75 0 44
10 63 1 35 3.5
17 75 0 44
10 65 2 36 4.0
17 76 1 45
10 65 0 36 4.6
17 77 0 45
10 69 1 36 5.0
18 78 1 46
11 68 0 37 5.8
18 78 1 47
12 69 1 37 6.0
19 79 1 48
13 69 1 38 6.7
20 80 2 49

a 30 operarios en un

los tres, 1=dos de los

X4
8.0
8.4
8.6
8.9
9.0
9.0
9.1
9.2
9.8
10.0
10.2
10.8
11.0
11.5
11.6

a) Halle la ecuacin de regresin muestral


b) Determine el valor del coeficiente de determinacin mltiple e interprete.
c) Desarrolle una prueba de hiptesis global para determinar si alguno de los
coeficientes de regresin poblacional es diferente de cero.
d) Calcule el coeficiente de correlacin mltiple. Es significativo este coeficiente al
nivel de significacin 0.01?
e) Halle la matriz de correlaciones de orden cero (o simple de Pearson). Qu
variables independientes tiene correlacin significativa con la variable
dependiente?. Segn este criterio, Qu variables se debera eliminar del modelo
de regresin?
12) Se realiz un estudio estadstico para determinar un modelo de regresin lineal simple con
el fin de predecir el monto de las ventas semanales de un producto en funcin de la
demanda. De una muestra de montos de ventas (Y en cientos de soles) y demandas
semanales X (en unidades del producto) resultaron las siguientes estadsticas:
( , ) = 765.6
= 50,
= 300,
= 4.487,
= 175,
a) Obtenga el modelo de regresin planteado.
b) Cunto fue la demanda en una semana donde el monto de venta lleg a
1060.536?.
13) Al estudiar la relacin entre costos (X) y las utilidades (Y) en dlares de ciertos productos usando
una muestra se obtuvo la siguiente informacin:
= 5,
= 4,
= 100,
= 50,
= 26 + 0.76
a) Qu porcentaje de la variabilidad de las utilidades es explicada por la ecuacin de
regresin dada?

Ing. Wilmer J. Bermdez Pino

60

You might also like