You are on page 1of 8

Correlación Positiva Correlación Negativa

25
Evidente 25
Evidente
20 20

15 15

Y 10

Y
10
5
5
0
0 5 10 15 20 25
Sin Correlación 0
0 5 10 15 20 25
X 25 X
20

15

Correlación 10

Y
5
Correlación
25
Positiva 0 Negativa
0 5 10 15 20 25 25
20
X 20
15
15
Y

10

Y
10
5
5
0
0 5 10 15 20 25 0
0 5 10 15 20 25
X
X

Página 1
ANÁLISIS DE REGRESIÓN MULTIPLE

En ocasiones la información de una variable independiente no es suficiente, por ejemplo, en el caso


de los autos compactos además de tener la variable del tamaño del motor, podríamos tener otras
variables, que nos permitan tener mayor información como por ejemplo el peso del coche, el tipo de
recorrido, el tamaño de las llantas, estos factores también influyen sobre la razón del consumo de
gasolina.
Cuando se usa más de una variable independiente para predecir los valores de una variable
dependiente, el proceso se llama análisis de regresión múltiple, incluye el uso de ecuaciones lineales
y no lineales, en este estudio nos ocuparemos de las ecuaciones de regresión lineales.

Ejemplo 6 Muchos programas de estudios premédicas usan los promedios de las calificaciones del
MCAT de los estudiantes egresados como un indicador de la calidad de sus programas. Las variables
que se sabe influencian esos promedios del MCAT(y) son: la combinación de las calificaciones del
SAT en matemáticas y en oratoria (x1) y el GPA (x2) de los prospectos a médicos. La tabla muestra
las medidas de x1, x2 y y de seis estudiantes que han cursado un programa de premédica y que han
presentado el MCAT

Calificación Calificación pro-


Estudiante SAT (X1) GPA (X2) medio del MCAT (Y)
1 1200 3.8 12.4
2 1350 3.4 13.3
3 1000 2.9 9.2
4 1250 3.3 10.6
5 1425 3.9 13.2
6 1340 3.1 11.2

Con esta información podemos encontrar una ecuación lineal que nos permita predecir el promedio
de calificaciones del MCAT para un estudiante si se conocen su GPA y su calificación combinada
del SAT.
La ecuación lineal para los datos del ejemplo tiene la forma yˆ = b0 + b1 x1 + b2 x 2 . Es posible
encontrar los valores de b0, b1, y b2 usando el método de mínimos cuadrados, al igual que en el
método de regresión lineal simple. El método en este caso requiere resolver tres ecuaciones lineales
con tres incógnitas, estas ecuaciones, conocidas como ecuaciones normales, son:

 y = nb 0 + b1 ( x1 ) + b2 ( x2 )

 x y = b ( x ) + b ( x ) + b ( x )
1 0 1 1
2
1 2
2
2

x 2 y = b0 ( x2 ) + b1 ( x1 x2 ) + b2 ( x ) 2
2

Página 2
La siguiente tabla organiza los cálculos para obtener las ecuaciones:

X1 X2 Y X1^2 X2^2 X1X2 X1Y X2Y


1200 3.8 12.4 1440000 14.44 4560 14880 47.12
1350 3.4 13.3 1822500 11.56 4590 17955 45.22
1000 2.9 9.2 1000000 8.41 2900 9200 26.68
1250 3.3 10.6 1562500 10.89 4125 13250 34.98
1425 3.9 13.2 2030625 15.21 5557.5 18810 51.48
1340 3.1 11.2 1795600 9.61 4154 15008 34.72
7565 20.4 69.9 9651225 70.12 25886.5 89103 240.2

Las ecuaciones normales para este ejemplo son:

69.9 = 6b0 + 7,565b1 + 20.4b2


89,103 = 7565b0 + 9,651,225b1 + 25,886.5b2
240.2 = 20.4b0 + 25,886.5b1 + 70.12b2

Resolviendo el sistema de ecuaciones lineales obtenemos:

b0 = -2.537, b1=0.005425, b2 = 2.161.

La ecuación de regresión es:

yˆ = −2.537 + 0.005425x1 + 2.161x2

Suma de cuadrados

La suma total de cuadrados SST, se descompone en dos componentes: suma de cuadrados para la
regresión (SSR), y suma de cuadrados del error (SSE).

SST = SSR + SSE

La suma de cuadrados para la regresión es aquella parte de la suma total de cuadrados que se
atribuye a las variables independientes. Mientras que la suma de cuadrados del error es aquella
porción de la suma de cuadrados total y que no se debe a las variables independientes, por ello se
llama suma de cuadrados del error.

SST =  ( y − y ) = 12 .9950
2

SSE =  ( y − yˆ ) = 2.2403
2

SSR = SST − SSE = 10.7547


Grados de libertad para la regresión:

glT = gl R + gl E
glT = n − 1
gl R = k
gl E = n − (k + 1)
donde:
k = número de variables independientes

Página 3
Cálculo de cuadrados medios:

SSR 10.7547
MSR = = = 5.3773
gl R 2
SSE 2.2403
MSE = = = 0.7468
gl E 3

Donde:
MSR= Cuadrado medio de la regresión
MSE= Cuadrado medio del error.

Prueba de hipótesis

Para determinar si el modelo lineal describe adecuadamente los datos, se usa la prueba F.
Para los datos del ejemplo las hipótesis son:

H 0 : 1 =  2 =  0
H 1 : 1  0 o  2  0

El valor del estadístico F se encuentra dividiendo MSR entre MSE.

MSR 5.3773
F= = = 7.20
MSE 0.7468

Buscando el valor crítico para F (1, n − 2) = F0.05 (1,4) =7.71.


Como 7.71 > 7.20 no podemos rechazar H0, lo cual nos indica que podría ser arriesgado utilizar la
ecuación de regresión con propósitos predictivos.

Coeficiente de determinación múltiple

SSR
R2 =
SST
Utilizando los datos del ejemplo:

10.7547
R2 = = 0.8276  82 .8%
12.995
Esto significa que aproximadamente el 83% de la variación en el promedio de las calificaciones se
atribuye a la variación de las variables independientes y solamente el 17% de la variación de la
variable dependiente no se atribuye a eso.

Página 4
Regresión múltiple en Minitab

Ejemplo 7 La tabla enlista el consumo de combustible en millas por galón bajo condiciones normales
de manejo, los pesos de los coches en libras y la capacidad del motor en cc para seis coches
deportivos modelo 1990.

Coche deportivo Capacidad Peso Consumo


Chevrolet 5735 3330 17,9
Kagiar XJ-S 5344 4015 18,7
Mercedes-Benz 500 SL 2174 2865 16,5
Porsche 911 3600 3320 17
Maserrati 228 2790 3020 15,5
BMW 325i 2494 3100 22

a) Determine una ecuación de regresión para predecir el promedio de consumo de combustible


usando la capacidad del motor y el peso, y calcule el coeficiente de determinación R 2.

Una vez capturados los datos de las variables en Minitab seleccionamos


STAT>REGRESIÓN>REGRESIÓN y se presenta la siguiente pantalla

Seleccionamos la variable de respuesta (response) que corresponde a la Columna 3 C3, y las


variables de predicción (predictors): C1 y C2.

Página 5
Damos Clic en el Icono Graphs, y en la opción gráficos de residuos “residual plots” dejamos la opción
que el sistema da por de fault: “Regular”. y seleccionamos la opción residual vs. fits y normal plot of
residuals. También existen otras opciones de gráficos que podemos usar en caso de ser necesario.

Página 6
En la opción Resultados “Results” seleccionamos el circulo: Regresión equation....

Damos clic en ok.

Regression Analysis
The regression equation is
C3 = 10,9 - 0,00050 C1 + 0,00270 C2

Predictor Coef StDev T P


Constant 10,91 12,90 0,85 0,460
C1 -0,000496 0,001329 -0,37 0,734
C2 0,002702 0,004982 0,54 0,625

S = 2,805 R-Sq = 9,1% R-Sq(adj) = 0,0%

Analysis of Variance

Source DF SS MS F P
Regression 2 2,368 1,184 0,15 0,866
Residual Error 3 23,605 7,868
Total 5 25,973

Analizando los resultados tenemos:

De la tabla resultante podemos determinar que la ecuación de Regresión es Y = 10.9 –


0.00050X1+.00270X2
Donde X1 representa el tamaño del motor (capacidad) y X2 el peso del coche, Y representa el
rendimiento predicho para el consumo del combustible.
El coeficiente de determinación R-Sq o R2 es 9.1% y esto indica que el 9.1% de la variación en el
consumo de combustible se atribuye a la capacidad y al peso. El 90.9% no se atribuye a estas
variables.

Página 7
Examinando el valor del estadístico F(F=0.15), que es significativo al nivel P = 0.866 concluimos que
el modelo no es adecuado para fines de predicción en un nivel  = 0.05

Normal Probability Plot of the Residuals


(response is C3)

1
Normal Score

-1

-2 -1 0 1 2 3 4

Residual
Residuals Versus the Fitted Values
(response is C3)

2
Residual

-1

-2

17 18 19

Fitted Value

Analizando los gráficos anteriores, podemos observar en el gráfico de probabilidad que las
observaciones aparentan ser normales. Sin embargo, en el gráfico de residuales observamos una
tendencia ya que la mayoría de los puntos se encuentran a bajo del cero.

Página 8

You might also like