Professional Documents
Culture Documents
Una nueva compañía aérea desea calcular el consumo de combustible por viaje de sus aviones
(cientos de litros de queroseno) en función de la distancia recorrida por los mismos (cientos
de kilómetros) y del número de pasajeros que transportan. Para ello desea utilizar un modelo
de regresión lineal. Los datos obtenidos en 20 vuelos realizados por aviones de la compañía
se muestran en la siguiente tabla.
El modelo de regresión lineal que se desarrollará tendrá 3 variables, una dependiente y dos
independientes. Esperaríamos una relación lineal directa entre la variable consumo de
combustible y distancia, ya que mientras más tiempo esté volando el avión, más combustible
debería consumir. Por otro lado, la relación entre la otra variable independiente, también
debería ser positiva, ya que a mayor número de pasajeros, el peso del avión tendería
aumentar, por lo que el gasto de combustible se incrementaría, sobre todo en el consumo que
requiere el avión en el despegue.
Después de haber “teorizado” la relación entre las variables, esto es lo que haremos a
continuación:
1) Gráficos de dispersión.
16
14
12
LITROS
10
8
10 20 30 40 50
KM
16
14
12
LITROS
10
8
70 80 90 100 110 120
PA SAJERO
El
gráfico que se muestra a la izquierda, es un
gráfico en tres dimensiones. Es decir se
muestra la relación entre las 3 variables. 24
20
puntos, que a medida que los kilómetros 18
LITROS
recorridos y el número de pasajeros 16
14
transportados aumentan, el consumo de 12
Coefficientsa
Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -4.672 1.482 -3.153 .005
KM .652 .052 .946 12.426 .000
a. Dependent Variable: LITROS
Model Summary
Se puede observar una relación positiva, ya que la pendiente toma el valor de 0,652. Por otro
lado, esta pendiente es diferente de cero a nivel poblacional. El ajuste de esta variable es muy
buena, ya que explica casi el 90% de la variabilidad del consumo. Finalmente se debe decir,
que por cada 100 kilómetros extra que recorre el avión, el consumo de combustible aumenta
en 65,2 litros1 y viceversa.
1
La variable dependiente está expresada en cientos de litros de queroseno, por lo tanto se multiplica el valor
de la pendiente por 100.
Coefficientsa
Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -13.821 7.427 -1.861 .079
PASAJERO .291 .079 .656 3.684 .002
a. Dependent Variable: LITROS
Model Summary
En este segundo modelo simple, se observa que la relación entre el número de pasajeros
transportados y el consumo de combustible es positiva. Por cada pasajero adicional que
transporta el avión, el consumo de combustible se incrementa en 29,1 litros. Todo lo contrario
sucede si disminuye 1 pasajero. La pendiente del modelo, al igual que el modelo anterior, es
estadísticamente significativa al 5% nivel de significancia2. Sin embargo, la variable
pasajeros transportados tiene un menor poder explicativo sobre la variabilidad del consumo
de combustible, sólo explica un 43%.
Coeffi cientsa
St andardi
zed
Unstandardized Coeffic ien
Coeffic ient s ts 95% Confidenc e Interval for B
Model B St d. Error Beta t Sig. Lower Bound Upper Bound
1 (Const ant) -15.891 1.138 -13.964 .000 -18.292 -13.490
KM .561 .020 .814 27.441 .000 .518 .604
PASAJERO .147 .013 .331 11.137 .000 .119 .174
a. Dependent Variable: LITROS
Model Summary
2
En este modelo en particular, no tiene sentido detenerse a buscar una explicación por alfa, intercepto o
coeficiente de posición. Casi en todos los modelos este parámetro no sirve para nada.
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
1 Regres sion 231.993 2 115.996 666.862 .000a
Residual 2.957 17 .174
Total 234.950 19
a. Predic tors : (Const ant), PASAJERO, KM
b. Dependent Variable: LITROS
Las pendientes del modelo tienen los signos esperados, ambas señalan una relación positiva
con la variable dependiente. La pendiente que acompaña a la variable kilómetros señala que
por cada 100 kilómetros extra que se desplace el avión, el consumo de combustible aumenta
en 56,1 litros, manteniendo constante el número de pasajeros. Si el número de kilómetros
disminuye en 100 kilómetros, el consumo de combustible cae en 56,1 litros, también
manteniendo constante la otra variable independiente.
Si el número de pasajeros aumenta en un pasajero, el consumo de combustible aumenta en
14,7 litros y viceversa, manteniendo constante la variable kilómetros recorridos.
Al comparar los modelos simples con el modelo múltiple, se puede apreciar que los valores
de las pendientes no tuvieron cambios de magnitudes apreciables, por ejemplo el primer
modelo simple señalaba un cambio positivo de 65,2 litros de combustible por cada 100
kilómetros extra, en cambio el modelo múltiple señala 56,1. Por otro lado, casi lo mismo
sucede con la otra variable independiente, el modelo simple señalaba un aumento de 29,1
litros por cada pasajero extra, cifra que se sitúa en 14,7 en el modelo múltiple. Es un descenso
de casi un 50%, pero se encuentra dentro de lo normal.
Ahora si se está interesado en los valores de las pendientes en la población, se puede afirmar
con un 95% nivel de confianza, que la relación entre los kilómetros y el consumo se mueve
entre los 51,8 y 60,4 por cada 100 kilómetros adicionales. En el caso del consumo y los
pasajeros es de 11,9 y 17,4 litros adicionales por cada pasajero.
En el punto anterior esperábamos saber si cada variable por separado tiene algún poder
explicatorio. Lo que haremos ahora será testear si las variables en su conjunto son
estadísticamente significativas. Esto significa probar que el modelo es bueno o malo. En este
caso se recurre a la Prueba F o Prueba Global de Significancia (PGS). En la página anterior
se incluyó un reporte llamado Anova. Este reporte nos permitirá rechazar o no rechazar la
hipótesis nula que las pendientes del modelo a nivel poblacional son iguales a cero. En este
Test, el estadístico de prueba es F, que para el modelo toma un valor de 666,86, el cual cae
en la zona de rechazo de la hipótesis nula. Lo anterior significa, que el modelo en su conjunto
es estadísticamente significativo. Generalmente, mientras mayor es el valor del F, el modelo
es mejor. En el caso de un modelo con sólo 2 variables independientes, esta prueba puede
parecer un poco “sosa” y sobre todo con la metodología que hemos seguido en este ejercicio
pareciera ser un poco predecible. Sin embargo, cuando el modelo tiene más variables,
digamos entre 4 y 7, y sólo se examina la PGS, saltándose las pruebas t, puede ser un poco
perjudicial, ya que la PGS tiende a ocultar a las malas variables, por que sólo examina al
modelo en su totalidad.
7) Grado de Ajuste.
El grado de ajuste ha tendido a ser muy tema muy manido en Econometría. Generalmente,
cuando los alumnos están desarrollando un modelo, siempre le dan demasiado énfasis al
coeficiente de determinación. Quedan contentos al tener grados de ajuste cercanos al 100%
y muy desanimados si baja de 0,65. Sin embargo, si un modelo tiene un grado de ajuste, me
refiero específicamente al coeficiente de determinación, del 35%, esto no significa que el
modelo sea malo y deba ser desechado. Si ese modelo en particular tiene pendientes
significativas, se adecúa a su marco teórico, ha pasado por la PGS y cumple con todos los
supuestos MICO, no tendría que ser un mal modelo. Sólo que tiene un bajo poder predictivo.
Esto no es malo, algunas veces es imposible, ya sea por recursos o por tiempo buscar otras
variables que puedan aumentar el coeficiente de determinación ajustado. Así que si alguna
vez se encuentran con un bajo coeficiente de determinación, no se echen a morir.
3
Esto es casi una sutileza, pero en términos netamente estadísticos no se puede “aceptar” una hipótesis nula,
sólo se rechaza o no rechaza.
Volvamos a nuestro modelo. El ajuste es casi perfecto, las variables kilómetros recorridos y
número de pasajeros transportados explican el 98,7% de la variabilidad del consumo de
combustible de la flota de aviones de esta empresa aeronáutica.
8) Proyección.
Ya tenemos el modelo listo4, ahora sólo nos queda utilizarlo para proyectar la variable
dependiente dados valores de variables independientes.
El modelo es:
¿Cuál sería el consumo de combustible si los kilómetros que se deben recorrer son 3.200 y
el avión transporta 90 pasajeros?
Y = 15, 29
4
En este material se ha dejado de lado la detección de las violaciones MICO, así que se debe tomar con cierto
resguardo esto de “listo”.