You are on page 1of 7

EJERCICIO DE REGRESIÓN CON 3 VARIABLES

Material Preparado por Gabriel Cornejo

Una nueva compañía aérea desea calcular el consumo de combustible por viaje de sus aviones
(cientos de litros de queroseno) en función de la distancia recorrida por los mismos (cientos
de kilómetros) y del número de pasajeros que transportan. Para ello desea utilizar un modelo
de regresión lineal. Los datos obtenidos en 20 vuelos realizados por aviones de la compañía
se muestran en la siguiente tabla.

Consumo Distancia Pasajeros


11 23 93
14 29 91
10 21 95
13 27 90
16 30 99
13 29 90
13 25 100
18 35 100
9 20 96
10 22 92
13 32 75
23 40 110
10 25 78
10 23 90
19 35 105
13 28 93
11 25 90
15 29 96
13 28 94
15 30 98

El modelo de regresión lineal que se desarrollará tendrá 3 variables, una dependiente y dos
independientes. Esperaríamos una relación lineal directa entre la variable consumo de
combustible y distancia, ya que mientras más tiempo esté volando el avión, más combustible
debería consumir. Por otro lado, la relación entre la otra variable independiente, también
debería ser positiva, ya que a mayor número de pasajeros, el peso del avión tendería
aumentar, por lo que el gasto de combustible se incrementaría, sobre todo en el consumo que
requiere el avión en el despegue.

Después de haber “teorizado” la relación entre las variables, esto es lo que haremos a
continuación:

1) Gráficos de dispersión de 2 y 3 ejes.


2) Cálculo de los modelos simples.
3) Cálculo del modelo múltiple.
4) Interpretación de las pendientes.
5) Significancia estadística de las pendientes.
6) Significancia estadística del modelo.
7) Grado de ajuste.
8) Proyección.

1) Gráficos de dispersión.

24 Se corrobora la relación lineal positiva entre la


22 variable consumo de combustible y distancia
20
recorrida.
18

16

14

12
LITROS

10

8
10 20 30 40 50

KM

24 En el gráfico a la izquierda, se confirma


22 también la relación lineal positiva entre la
20
variable consumo de combustible y el número
de pasajeros transportados.
18

16

14

12
LITROS

10

8
70 80 90 100 110 120

PA SAJERO
El
gráfico que se muestra a la izquierda, es un
gráfico en tres dimensiones. Es decir se
muestra la relación entre las 3 variables. 24

Queda muy claro al apreciar la nube de 22

20
puntos, que a medida que los kilómetros 18
LITROS
recorridos y el número de pasajeros 16

14
transportados aumentan, el consumo de 12

combustible también se incrementa. Con 10


120
110
el
100
modelo de regresión de 3 variables 50
40
90
30 80 PA SAJERO
trataremos de cuantificar KM 20

estimativamente esa relación.

2) Cálculo de modelos simples.


Es muy útil, antes de llevar a cabo un modelo de regresión múltiple, hacer los modelos
simples de todas las variables independientes con la dependiente. Esto tiene por objeto
eliminar aquellas variables con nulo poder predictorio y conocer de antemano de relación
cuantificada entre las variables, de tal manera de revisar que no se muestren cambios de
signos y saltos muy altos en los regresores cuando se tenga el modelo múltiple. Algunas
veces, cuando se presentan problemas de multicolinealidad, los estimadores sufren cambios
muy drásticos en cuanto a la magnitud de los mismos. Tiene que quedar claro que el modelo
múltiple no es la suma de los modelos simples, pero que los regresores deben mostrar algún
grado de relación con los modelos simples.

Modelo Simple: Consumo y kilómetros recorridos

Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -4.672 1.482 -3.153 .005
KM .652 .052 .946 12.426 .000
a. Dependent Variable: LITROS

Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 .946a .896 .890 1.1674
a. Predictors: (Constant), KM

Se puede observar una relación positiva, ya que la pendiente toma el valor de 0,652. Por otro
lado, esta pendiente es diferente de cero a nivel poblacional. El ajuste de esta variable es muy
buena, ya que explica casi el 90% de la variabilidad del consumo. Finalmente se debe decir,
que por cada 100 kilómetros extra que recorre el avión, el consumo de combustible aumenta
en 65,2 litros1 y viceversa.

Modelo Simple: Consumo y número de pasajeros transportados

1
La variable dependiente está expresada en cientos de litros de queroseno, por lo tanto se multiplica el valor
de la pendiente por 100.
Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -13.821 7.427 -1.861 .079
PASAJERO .291 .079 .656 3.684 .002
a. Dependent Variable: LITROS

Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 .656a .430 .398 2.7278
a. Predictors: (Constant), PASAJERO

En este segundo modelo simple, se observa que la relación entre el número de pasajeros
transportados y el consumo de combustible es positiva. Por cada pasajero adicional que
transporta el avión, el consumo de combustible se incrementa en 29,1 litros. Todo lo contrario
sucede si disminuye 1 pasajero. La pendiente del modelo, al igual que el modelo anterior, es
estadísticamente significativa al 5% nivel de significancia2. Sin embargo, la variable
pasajeros transportados tiene un menor poder explicativo sobre la variabilidad del consumo
de combustible, sólo explica un 43%.

3) Cálculo del Modelo Múltiple.

Coeffi cientsa

St andardi
zed
Unstandardized Coeffic ien
Coeffic ient s ts 95% Confidenc e Interval for B
Model B St d. Error Beta t Sig. Lower Bound Upper Bound
1 (Const ant) -15.891 1.138 -13.964 .000 -18.292 -13.490
KM .561 .020 .814 27.441 .000 .518 .604
PASAJERO .147 .013 .331 11.137 .000 .119 .174
a. Dependent Variable: LITROS

Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 .994a .987 .986 .4171
a. Predictors: (Constant), PASAJERO, KM

2
En este modelo en particular, no tiene sentido detenerse a buscar una explicación por alfa, intercepto o
coeficiente de posición. Casi en todos los modelos este parámetro no sirve para nada.
ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regres sion 231.993 2 115.996 666.862 .000a
Residual 2.957 17 .174
Total 234.950 19
a. Predic tors : (Const ant), PASAJERO, KM
b. Dependent Variable: LITROS

4) Interpretación de las pendientes.

Las pendientes del modelo tienen los signos esperados, ambas señalan una relación positiva
con la variable dependiente. La pendiente que acompaña a la variable kilómetros señala que
por cada 100 kilómetros extra que se desplace el avión, el consumo de combustible aumenta
en 56,1 litros, manteniendo constante el número de pasajeros. Si el número de kilómetros
disminuye en 100 kilómetros, el consumo de combustible cae en 56,1 litros, también
manteniendo constante la otra variable independiente.
Si el número de pasajeros aumenta en un pasajero, el consumo de combustible aumenta en
14,7 litros y viceversa, manteniendo constante la variable kilómetros recorridos.

Al comparar los modelos simples con el modelo múltiple, se puede apreciar que los valores
de las pendientes no tuvieron cambios de magnitudes apreciables, por ejemplo el primer
modelo simple señalaba un cambio positivo de 65,2 litros de combustible por cada 100
kilómetros extra, en cambio el modelo múltiple señala 56,1. Por otro lado, casi lo mismo
sucede con la otra variable independiente, el modelo simple señalaba un aumento de 29,1
litros por cada pasajero extra, cifra que se sitúa en 14,7 en el modelo múltiple. Es un descenso
de casi un 50%, pero se encuentra dentro de lo normal.

Ahora si se está interesado en los valores de las pendientes en la población, se puede afirmar
con un 95% nivel de confianza, que la relación entre los kilómetros y el consumo se mueve
entre los 51,8 y 60,4 por cada 100 kilómetros adicionales. En el caso del consumo y los
pasajeros es de 11,9 y 17,4 litros adicionales por cada pasajero.

5) Significancia estadística de las pendientes.


Cuando se examina la significancia estadística de las pendientes, lo que se busca es rechazar
o no rechazar3 la hipótesis nula de que el parámetro poblacional es igual a cero. En otras
palabras, la variable bajo estudio no tiene ninguna relación con la variable dependiente que
se quiere explicar. Hacer una prueba t nos permitirá saber lo anterior. En el caso de este
modelo, ambos valores de los t calculados caen en la zona de rechazo de la hipótesis nula al
1, 5 y 10% nivel de significancia. Es decir, los kilómetros recorridos por el avión y el número
de pasajeros transportados son buenas variables para explicar y cuantificar el consumo de
queroseno del avión. En ningún caso, sus pendientes poblacionales son iguales a cero.

6) Significancia estadística del modelo.

En el punto anterior esperábamos saber si cada variable por separado tiene algún poder
explicatorio. Lo que haremos ahora será testear si las variables en su conjunto son
estadísticamente significativas. Esto significa probar que el modelo es bueno o malo. En este
caso se recurre a la Prueba F o Prueba Global de Significancia (PGS). En la página anterior
se incluyó un reporte llamado Anova. Este reporte nos permitirá rechazar o no rechazar la
hipótesis nula que las pendientes del modelo a nivel poblacional son iguales a cero. En este
Test, el estadístico de prueba es F, que para el modelo toma un valor de 666,86, el cual cae
en la zona de rechazo de la hipótesis nula. Lo anterior significa, que el modelo en su conjunto
es estadísticamente significativo. Generalmente, mientras mayor es el valor del F, el modelo
es mejor. En el caso de un modelo con sólo 2 variables independientes, esta prueba puede
parecer un poco “sosa” y sobre todo con la metodología que hemos seguido en este ejercicio
pareciera ser un poco predecible. Sin embargo, cuando el modelo tiene más variables,
digamos entre 4 y 7, y sólo se examina la PGS, saltándose las pruebas t, puede ser un poco
perjudicial, ya que la PGS tiende a ocultar a las malas variables, por que sólo examina al
modelo en su totalidad.

7) Grado de Ajuste.

El grado de ajuste ha tendido a ser muy tema muy manido en Econometría. Generalmente,
cuando los alumnos están desarrollando un modelo, siempre le dan demasiado énfasis al
coeficiente de determinación. Quedan contentos al tener grados de ajuste cercanos al 100%
y muy desanimados si baja de 0,65. Sin embargo, si un modelo tiene un grado de ajuste, me
refiero específicamente al coeficiente de determinación, del 35%, esto no significa que el
modelo sea malo y deba ser desechado. Si ese modelo en particular tiene pendientes
significativas, se adecúa a su marco teórico, ha pasado por la PGS y cumple con todos los
supuestos MICO, no tendría que ser un mal modelo. Sólo que tiene un bajo poder predictivo.
Esto no es malo, algunas veces es imposible, ya sea por recursos o por tiempo buscar otras
variables que puedan aumentar el coeficiente de determinación ajustado. Así que si alguna
vez se encuentran con un bajo coeficiente de determinación, no se echen a morir.

3
Esto es casi una sutileza, pero en términos netamente estadísticos no se puede “aceptar” una hipótesis nula,
sólo se rechaza o no rechaza.
Volvamos a nuestro modelo. El ajuste es casi perfecto, las variables kilómetros recorridos y
número de pasajeros transportados explican el 98,7% de la variabilidad del consumo de
combustible de la flota de aviones de esta empresa aeronáutica.

8) Proyección.

Ya tenemos el modelo listo4, ahora sólo nos queda utilizarlo para proyectar la variable
dependiente dados valores de variables independientes.

El modelo es:

Y = -15,89 + 0,561 Kilómetros + 0,147 Pasajeros

¿Cuál sería el consumo de combustible si los kilómetros que se deben recorrer son 3.200 y
el avión transporta 90 pasajeros?

Y = -15,89 + 0,561 * 32 + 0,147 * 90

Y = 15, 29

El consumo de queroseno sería aproximadamente 1.529 litros

4
En este material se ha dejado de lado la detección de las violaciones MICO, así que se debe tomar con cierto
resguardo esto de “listo”.

You might also like