You are on page 1of 53

18/06/2010

TALLERES DE VERANO EN MÉTODOS DE INVESTIGACIÓN


EN POBLACIÓN Y TERRITORIO

REGRESIÓN LINEAL
MULTIVARIADA

Fortino Vela Peón Juan F. Islas Aguirre


fvela@correo.xoc.uam.mx jfislas@correo.xoc.uam.mx

Junio, 2010

F. VELA / J. F. ISLAS

Descripción
 En este curso se desarrollan técnicas de
regresión lineal que permiten cuantificar
relaciones entre variables, contrastar hipótesis y
predecir valores futuros de ciertas variables en
función del modelo considerado.

 El curso tiene un carácter aplicado y se aprende


a utilizar Stata.

F. VELA / J. F. ISLAS

Objetivos
 Ofrecer los elementos básicos vinculados a las
técnicas de regresión lineal simple y múltiple

 Dotar del manejo básico del Stata para poder


llevar a cabo un análisis empírico basado en los
conocimientos teóricos adquiridos.

1
18/06/2010

F. VELA / J. F. ISLAS

Temario
Tema Contenido
1 Conceptos básicos
2 Modelo de Regresión Lineal Simple
3 Modelo de Regresión Lineal Múltiple
4 El Modelo de Regresión Lineal Simple y Múltiple con Stata
5 Contrastes de restricciones lineales y predicción
6 Errores en la especificación
7 Multicolinealidad
8 Variables cualitativas
9 Diagnóstico del modelo

F. VELA / J. F. ISLAS

Tema 1. Conceptos básicos


1.- Introducción.
2.- ¿Qué es el análisis de regresión (lineal)?
3.- Preeliminares estadísticos.
4.- Análisis de datos: introducción a Stata

F. VELA / J. F. ISLAS

Tema 2. Modelo de regresión lineal


simple (MRLS)
1.- Introducción.
2.- Elementos del modelo de regresión simple.
3.- Supuestos del modelo.
4.- Estimación por mínimos cuadrados
ordinarios.
5.- Contrastes de hipótesis e intervalos de
confianza.
6.- Resumen y ejemplos.

2
18/06/2010

F. VELA / J. F. ISLAS

Tema 4. MRLS y MRLM con Stata


1. Ejemplo
2. Estimación por mínimos cuadrados ordina-
rios utilizando Stata
3. Análisis de los resultados mostrados
4. Bondad de ajuste y selección de modelos
5. Contrastes de hipótesis e intervalos de
confianza con Stata.
6. Presentación de los resultados.

F. VELA / J. F. ISLAS

Tema 5. Contrastes de restricciones


lineales y predicción
1.- Contrastes de restricciones lineales.
2.- Contrastes utilizando Stata.
3.- Estimación bajo restricciones lineales.
4.- Estadísticos equivalentes.
5.- Predicción.

F. VELA / J. F. ISLAS

Tema 6. Errores de especificación


1.- Introducción.
2.- Efectos de omisión de variables relevan-
tes.
3.- Efectos de inclusión de variables irrele-
vantes.

3
18/06/2010

F. VELA / J. F. ISLAS

Tema 7. Multicolinealidad
1.- Multicolinealidad perfecta.
2.- Multicolinealidad de grado alto.
3.- Identificación con Stata.

F. VELA / J. F. ISLAS

Tema 8. Variables cualitativas


1.- Introducción. Un ejemplo.
2.- Modelo con una variable cualitativa.
3.- Modelo con dos o más variables cualita-
tivas.
4.- Contraste de cambio estructural.
5.- Implementación en Stata.

F. VELA / J. F. ISLAS

Tema 9. Diagnóstico del modelo


1.- Introducción. Un ejemplo.
2.- Modelo con una variable cualitativa.
3.- Modelo con dos o más variables cualita-
tivas.
4.- Contraste de cambio estructural.
5.- Implementación en Stata.

4
18/06/2010

F. VELA / J. F. ISLAS

Bibliografía
James y Mark W. Watson (2002). Kutner Michael H. et. al. (2005).
Introduction to Econometrics, Applied Linear Statistical Models,
Addison-Wesley-Pearson, Estados 5ª. ed., McGraw-Hill, Singapur.
Unidos. 330.18 / S8642in https://netfiles.umn.edu/users/nacht
http://wps.aw.com/aw_stock_ie_2/50 001/www/nachtsheim/5th/
/13016/3332253.cw/index.html

Gujarati, Damodar y Dawn Porter Fox, John (2008). Applied


(2010). Econometría, 5ª. ed., Regression Analysis and
McGraw-Hill, México. 330.18/ Generalized Linear Models, 2ª.
G969e/1997 ed., Sage, Estados Unidos.
http://highered.mcgraw- http://socserv.socsci.mcmaster.ca/jfo
hill.com/sites/0073375772/student_v x/Books/Applied-Regression-
iew0/data_sets.html 2E/datasets/index.html

Bowerman, Bruce L.; Richard T.


O’Connell et al. (2007).
Pronósticos, series de tiempo y
regresión: Un enfoque aplicado,
CENGAGE, México.
http://www.cengage.com.mx/Book_d
etail.php?ISBN=9789706866066

F. VELA / J. F. ISLAS

Metodología
 Se pone a disposición de los alumnos un conjunto
de notas o lecturas que apoyan los contenidos del
curso.

 mregresion.wordpress.com

 Preferentemente se emplearan datos disponibles


para su utilización en el programa Stata.

F. VELA / J. F. ISLAS

Bases de datos
 Applied Regression, Generalized Linear Models,
and Related Methods, Second Edition
 http://socserv.socsci.mcmaster.ca/jfox/Books/App
lied-Regression-2E/datasets/index.html
 Procedimiento:
1. Entrar a la pagina.
2. Guardar el archivo con extensión “.txt”
3. Agregar, si fuese necesario, la etiqueta de la variable
“id” para el identificador.
4. Utilizar el comando insheet de la siguiente manera
insheet using “LOCALIZACIÓN/ARCHIVO.txt",
clear

5
18/06/2010

F. VELA / J. F. ISLAS

Tema 1. Conceptos básicos

F. VELA / J. F. ISLAS

F. VELA / J. F. ISLAS

6
18/06/2010

F. VELA / J. F. ISLAS

F. VELA / J. F. ISLAS

Clasificación de las variables


Discretas
 Nivel de medición
Continuas

Nominales
 Escala de medición Ordinales
Intervalo
Continuas
Dependiente(s)
 Función en la investigación
Independiente(s)

Conceptuales o abstractas
 Grado de abstracción Intermedias
Empíricas u observables

F. VELA / J. F. ISLAS

Escalas de medición de las variables


 Nominales: nombres o clasificaciones que se utilizan
para datos en categorías distintas y separadas.

 Ordinales: son las que clasifican las observaciones en


categorías con un orden significativo.

 Intervalo: medidas numéricas en la cual el valor cero es


arbitrario pero la diferencia entre valores es importante.

 Razón: medidas numéricas en las cuales el valor cero es


un valor fijo y la diferencia entre valores es importante.

7
18/06/2010

F. VELA / J. F. ISLAS

¿Qué es el análisis de regresión?


 Es una metodología estadística que es utiliza la
relación entre dos o más variables, de manera tal
que la variable de respuesta o de resultado, puede
ser predecida a partir de otra(s) variable(s).

 Es una herramienta utilizada en distintas áreas del


conocimiento.

 Sirve también como medio en la contrastación de


hipótesis y/o teorías con la realidad a través de
modelos estadísticos.

F. VELA / J. F. ISLAS

Análisis de regresión
 Relación funcional vs relación estadística.
 Linealidad vs no linealidad
 Selección de variables predictoras.
 Forma funcional.

F. VELA / J. F. ISLAS

Estrategia del análisis de regresión

Fuente: Kutner et. al (2005:14)

8
18/06/2010

F. VELA / J. F. ISLAS

Tipo de datos
Observación SALA EDUCA EXPER SEXO EDO
 Corte transversal
1 3.10 11 2 1 0
2 3.24 12 22 1 1 Un conjunto de
3 3.00 11 44 0 0 datos de una
. muestra de
.
.
individuos, hogares,
525 11.56 16 5 0 0
empresas, ciudades,
526 3.50 8 7 1 0 estados o países
tomados en un
punto del tiempo en
particular.
O b s e rv a c ió n Año SALA EDUCA EXPER SEXO EDO  Serie de tiempo
1 1950 3 .1 0 11 2 1 0
2 1951 3 .2 4 12 22 1 1 Observaciones de
3 1952 3 .0 0 11 44 0 0
. . . . . . . distintas variables
.
.
.
.
.
.
.
.
.
.
.
.
.
.
efectuadas en el
50 1999 1 1 .5 6 16 5 0 0 tiempo.
51 2000 3 .5 0 8 7 1 0

F. VELA / J. F. ISLAS

Observación Año PRECASA ANTI CUARTOS AREA  Panel


1 1993 85,500 42 3 1
2 1993 67,300 36 3 0 Es la combinación
3 1993 134,000 10 4 1
. . . . . . de datos de corte
. . . . . .
. . . . . . transversal con
250
251
1993
1995
243,600
65,000
4
44
4
3
0
1
datos en series de
252 1995 182,400 38 3 0 tiempo donde tienen
. . . . . .
. . . . . . como característica
. . . . . .
520 1995 57,200 16 4 0 principal que las
unidades de
observación son
siempre los mismos.

F. VELA / J. F. ISLAS

 Stata es una herramienta computacional diseñada para realizar


análisis estadístico la cual fue creada en 1985 por StataCorp.

 El denominativo de Stata es una abreviación de las palabras


“Statistics" y "data ".

 Actualmente es utilizado tanto en instituciones académicas como


en empresas donde sus usuarios se ubican en las áreas de la
economía, sociología, ciencia política, ciencias de la salud y
epidemiología.

9
18/06/2010

F. VELA / J. F. ISLAS

 Sus capacidades incluyen :

- Manejo y organización de datos


- Graficación.
- Análisis estadístico .
- Simulación.
- Programación de tareas.

F. VELA / J. F. ISLAS

• Actualmente, en el mercado se
encuentra la versión 11.

• Su lenguaje computacional es C.

• Existen versiones para


plataformas en Windows, Mac,
UNIX y LINUX.

F. VELA / J. F. ISLAS

Tema 2. El modelo de regresión lineal


simple (MRSL)

10
18/06/2010

F. VELA / J. F. ISLAS

Temas
 Modelo de regresión lineal simple.
 Estimaciones puntuales de los mínimos
cuadrados.
 Estimaciones puntuales y predicciones
puntuales.
 Suposiciones del modelo y el error estándar.
 Prueba de significancia individual para la
pendiente y la ordenada al origen.
 Intervalos de confianza y de predicción.
 Coeficientes de determinación y correlación
simples.
 Una prueba F para el modelo.

F. VELA / J. F. ISLAS

Modelo de regresión lineal simple

 Requisitos básicos:
i) las variables dependiente (y) e independiente
(x) son métricas;
ii) la relación entre la variable dependiente (y) y
la variable independiente (x) es
aproximadamente en forma de una línea
recta.

F. VELA / J. F. ISLAS

Modelo de regresión lineal simple


600
500

Diagrama
400

de
work

dispersión
300

observamos:
- tendencia positiva
200

- puntos dispersos
alrededor de la línea
100

20 40 60 80 100 1 20
l ot

Fuente: Kutner et. al. (2005:19).

11
18/06/2010

F. VELA / J. F. ISLAS

Modelo de regresión lineal simple


600
500
400

Diagrama
de
dispersión
300
200
100

20 40 60 80 100 1 20
l ot

w o rk F it te d v al ue s

Fuente: Kutner et. al. (2005:19).

F. VELA / J. F. ISLAS

Modelo de regresión lineal simple


200
150

Diagrama
de
mortality
100

dispersión
50
0

0 1 00 0 0 20 0 00 3 0 00 0 4 00 0 0
g n pp c

Fuente: Fox (2008: 62).

F. VELA / J. F. ISLAS

Modelo de regresión lineal simple


y = µy|x + ε = β0 + β1x + ε
donde

µy|x = β0 + β1x es el valor medio de la variable dependiente y

cuando el valor de la variable independiente es x.


β0 = ordenada al origen (valor medio de y cuando x = 0)
β1 = pendiente (∆ valor medio de y cuando ↑ x una unidad)

ε es un término de error: describe los efectos de todos los


factores no incluidos en el modelo

12
18/06/2010

F. VELA / J. F. ISLAS

Modelo de regresión lineal simple


 Si β0 = 62.37 y β1 = 3.57, entonces cuando
lot = 60, el valor medio estimado de horas
trabajadas
µy|x = β0 + β1x = 62.36586 + 3.570202(65)

= 294.4 horas trabajadas.

F. VELA / J. F. ISLAS

Modelo de regresión lineal simple


 β0 y β1 se llaman parámetros de regresión.
 Ya que no conocemos los valores reales de
β0 y β1 , debemos estimarlos con los datos de
la muestra.
 La interpretación de β0 en ocasiones no es
aplicable.
 Importante: observamos que estas variables
se mueven juntas, mas no podemos deducir
claramente una relación causa-efecto.

F. VELA / J. F. ISLAS

Estimaciones puntuales de los mínimos


cuadrados
 Estimación puntual de los mínimos cuadrados de la pendiente β1

SS xy
b1 =
SS xx
donde
∑x∑y
SS xy = ∑ (x i − x )( y i − y ) = ∑xy i i −
i

n
i

y
(∑ x ) 2

SS xx = ∑ (x i − x) =
2

n
i

13
18/06/2010

F. VELA / J. F. ISLAS

Estimaciones puntuales y predicciones


puntuales
 Estimación puntual del valor medio de la variable
dependiente cuando el valor de la variable
independiente es x0

yˆ = b0 + b1 x0
 se predice ε = 0

F. VELA / J. F. ISLAS

Estimaciones puntuales y predicciones


puntuales
 Se puede demostrar que estas estimaciones puntuales
dan un valor de la suma de los errores cuadráticos
(SSE) que es menor que la que se obtiene con
cualesquiera otros valores de b0 y b1. Se les llaman
estimaciones puntuales de los mínimos cuadrados.
 La recta se llama recta de regresión de mínimos
cuadrados
 La ecuación se llama ecuación de predicción de
mínimos cuadrados.

F. VELA / J. F. ISLAS

Suposiciones del modelo y el error


estándar
 Suposiciones
1. A cualquier valor dado de x, la media de la población de los
valores potenciales del término error es igual a cero.
2. Suposición de varianza constante. A cualquier valor dado
de x, ε tiene una varianza que no depende del valor de x.
3. Suposición de normalidad. A cualquier valor dado de x, ε
tiene una distribución normal.
4. Suposición de independencia. Cualquier valor del término
error ε es estadísticamente independiente de cualquier otro
valor de ε.

14
18/06/2010

F. VELA / J. F. ISLAS

Suposiciones del modelo y el error


estándar
 En otras palabras

— dado un valor de x, la población de valores potenciales


del término de error tiene una distribución normal, con
valor medio 0 y varianza σ2 que no depende de x.

— La población de valores potenciales de y|x tiene


distribución normal con valor medio de β0 + β1x y
varianza σ2 que no depende de x.

— Es más probable que la suposición de independencia se


viole cuando se utilizan series de tiempo en un estudio
de regresión.

F. VELA / J. F. ISLAS

Suposiciones del modelo y el error


estándar
 Error cuadrático medio = estimación puntual
de σ2
SSE
s2 = vary|x
n−2
 error estándar = estimación puntual de σ

SSE
s=
n−2
n n
 n n

SSE = ∑ ( yi − yˆ i ) = ∑ yi2 − b0 ∑ yi + b1 ∑ xi yi 
2

i =1 i =1  i =1 i =1 

F. VELA / J. F. ISLAS

Prueba de la significancia de la
pendiente y la ordenada al origen

 Hipótesis nula: β1 = 0
 nivel de significancia α (0.10, 0.05, 0.01)
 los valores p se basan en n-2 grados de libertad
 Se rechaza la hipótesis nula si se cumple la
condición de punto de rechazo de alguna de las
hipótesis alternativas, o si p < α

15
18/06/2010

F. VELA / J. F. ISLAS

Prueba de la significancia de la
pendiente y la ordenada al origen
 Si se cumplen los supuestos de la regresión, entonces
la población de todos los valores posibles de b1 es
normalmente distribuida con valor medio β1 y desviación
estándar
σ
σb = 1
SS xx

cuya estimación puntual es


s
sb1 =
SS xx

F. VELA / J. F. ISLAS

Prueba de la significancia de la
pendiente y la ordenada al origen
y la población de todos los valores posibles de la
estadística de prueba t

b1
t=
sb1
tiene una distribución t con n – 2 grados de libertad.

F. VELA / J. F. ISLAS

Prueba de la significancia de la
pendiente y la ordenada al origen
Condición de
Hipótesis punto de Valor p
alternativa rechazo

Ha : β1 ≠ 0 | t |> t[(αn −/ 22]) 2 × (área bajo la curva t a


la derecha de |t|)
Ha : β1 > 0 t > t[(αn]−2 ) área bajo la curva t a la
derecha de t
Ha : β1 < 0 t < −t[(αn ]−2 ) área bajo la curva t a la
izquierda de t

16
18/06/2010

F. VELA / J. F. ISLAS

Intervalos de confianza y de predicción

 Si se cumplen las suposiciones de la regresión,


un intervalo de confianza de 100(1-α)% para la
pendiente verdadera β1 es

[b ± t[(
1
n−2 )
s
α / 2 ] b1 ]

F. VELA / J. F. ISLAS

Intervalos de confianza y de
predicción

 Si se cumplen las suposiciones de la regresión,


un valor de distancia (v.d.) para un valor
particular x0 de x (para la regresión lineal simple)
es
1 (x − x )
2
v.d . = + 0
n SS xx

F. VELA / J. F. ISLAS

Intervalos de confianza y de
predicción
 Si se cumplen las suposiciones de la regresión,
un intervalo de confianza de 100(1-α)% para el
valor medio de y cuando la variable
independiente es x0 es

yˆ ± t[(αn−/ 22])s v.d .

17
18/06/2010

F. VELA / J. F. ISLAS

Intervalos de confianza y de predicción


 La población de todos los errores posibles de
predicción está normalmente distribuida con media
cero y desviación estándar

σ√1 + valor de distancia

 La estimación puntual es

s√1 + valor de distancia

 Se llama error estándar del error de predicción

F. VELA / J. F. ISLAS

Intervalos de confianza y de
predicción

 Si se cumplen las suposiciones de la regresión,


un intervalo de predicción 100(1-α)% para un
valor individual de y cuando la variable
independiente es x0 es

yˆ ± t[(αn −/ 22])s 1 + v.d .

F. VELA / J. F. ISLAS

Intervalos de confianza y de
predicción

 Nótese que el intervalo de predicción es mayor


que el intervalo de confianza: mayor
incertidumbre acerca del término de error.

 Entre más alejado del valor medio es xi, mayores


son los intervalos de confianza y de predicción.

18
18/06/2010

F. VELA / J. F. ISLAS

Coeficientes de determinación y
correlación simples
 En el caso del modelo de regresión lineal simple,
1. Variación total = Σ(yi-y)2
2. Variación explicada = Σ(yi-y)2
3. Variación inexplicada = Σ(yi-yi)2
4. Variación total = Variación explicada + Variación inexplicada
5. El coeficiente de determinación simple es
r2 = (variación explicada)/(variación total)
6. El r2 es la proporción de la variación total en los n valores
observados de la variable dependiente que explica el modelo de
regresión lineal simple

F. VELA / J. F. ISLAS

Coeficientes de determinación y
correlación simples
Coeficiente de correlación simple (r) entre y y x
 si b1 > 0 r = + r
2

 si b1 < 0 r = − r 2
 donde b1 es la pendiente de la recta de
mínimos cuadrados que relaciona y con x.
Este coeficiente de correlación mide la fuerza
de la relación lineal entre y y x.

F. VELA / J. F. ISLAS

Coeficientes de determinación y
correlación simples
 También se puede calcular mediante la
fórmula
SS xy
r=
SS xx SS yy

19
18/06/2010

F. VELA / J. F. ISLAS

Coeficientes de determinación y
correlación simples
 La correlación de la población de todas las
combinaciones posibles de valores observados
de x e y se denomina ρ.
 Para probar la hipótesis nula H0: ρ = 0,
utilizamos la estadística de prueba

r n−2
t=
1− r2

F. VELA / J. F. ISLAS

Prueba F para el modelo


Estadística F global
Variación inexplicada
F(modelo) =
(Variación explicada)/(n-2)

Podemos rechazar H0:β1=0 y aceptar Ha: β1≠0 en el nivel de significan-


cia α si se cumple alguna de:

F(modelo)>F[α]
Valor p < α

En el punto F[α] se basa en 1 grado de libertad para el numerador y n-2


grados de libertad para el denominador.

F. VELA / J. F. ISLAS

Tema 3. Modelo de regresión


lineal múltiple (MRLS)

20
18/06/2010

Modelo de Regresión Lineal Múltiple

 Se emplean más de una variable independiente.


 Relaciona y con x1, x2, ..., xk
 Modelo:

y = µy|x1 ,x2 ,...,xk + ε = β0 + β1x1 + β2 x2 +L+ βk xk + ε

 Valor medio de y cuando los valores de las variables


independientes son x1, x2, ..., xk :

y = µ y|x1 , x2 ,...,xk = β 0 + β1 x1 + β 2 x2 + L + β k xk + ε

 Parámetros: β0, β1, β2, ..., βk


 Término de error: ε

 Suposiciones del modelo de regresión lineal:

1. Para cualquier combinación dada de valores de x1, x2, ..., xk ,


la media de la población de los valores potenciales de ε = 0.
2. Varianza constante del error.
3. Normalidad de errores.
4. Independencia de los errores.
5. Ninguna relación entre las variables independientes.

21
18/06/2010

F. VELA / J. F. ISLAS

Ejemplo
El gerente de una compañía desea evaluar el desempeño
de su fuerza de ventas en el territorio de actuación.
Recopila información sobre cinco variables, que según su
criterio, podrían ejercer alguna influencia sobre las ventas.
Tomando una muestra aleatoria de 25 vendedores, se
plantea el siguiente modelo de regresión lineal:

yi = β 0 + β1 x´1i + β 2 x´2i + β3 x3i + β 4 x´4i + β5 x´5i + ε i

F. VELA / J. F. ISLAS

y= ventas anuales en miles de dólares (sales).

x1= número de meses de empleado en la compañía (time).

x2= ventas del producto de la compañía y productos de la


competencia en el territorio (mktpoten).

x3= gasto en publicidad (adver).

x4 = promedio ponderado de la participación en el mercado


de la compañía en el territorio en los últimos cuatro años
(mktshare).

x5=cambio en la participación en el mercado de la compañía


en el territorio en los últimos cuatro años (change).
ε= termino de error aleatorio.

Interpretación geométrica del modelo de regresión

 Región experimental: combinaciones de los valores


observados de x1, x2, ..., xk
 Plano de medias

22
18/06/2010

Interpretación de los parámetros de


regresión β0, β1,..., βk
 Los parámetros relacionan la media de la variable dependiente
con las variables independientes en un sentido global.

 β0 : ordenada al origen (valor de y cuando x1=x2=…xk=0).

 βi : cambio en la variable dependiente asociado con el incremento


de una unidad de la variable xi manteniendo las k-1 variables
restantes sin cambio alguno (∀ i=1,2,...,k-1).

Estimación de mínimos cuadrados:


estimación puntual y predicción
 Estimación puntual del valor medio y de un valor
individual de la variable dependiente y cuando los
valores de las variables independientes son x01, x02,
..., x0k .
yˆ = b0 + b1 x01 + b2 x02 + L + bk x0 k

 Se predice ε = 0
 Esta ecuación se llama la ecuación de regresión o de
predicción de mínimos cuadrados

Estimadores MCO utilizando algebra


matricial

βˆ = ( X ' X )−1 X ' Y


donde donde

 y1   1 x11 ... xk 1   β0 
y  1 x ... xk 2  β 
Y =  2 X = 12
βˆ =  1 
 ...  ... ... ... ...   ... 
     
 yn   1 x1n ... xkn   β k 

23
18/06/2010

F. VELA / J. F. ISLAS

Ejemplo 4.2
Matriz de diagramas de dispersión
0 20 0 4 00 0 5 000 1 00 00

6 00 0

sa les 4 00 0

2 00 0
4 00

2 00 tim e

0
8 00 00

6 00 00
m k tp ote n
4 00 00

2 00 00
1 00 00

5 00 0 a dv e r

0
15

10
m k ts h a re
5

0
2 00 0 4 000 60 00 2 00 00 40 000 6 000 0 8 00 00 0 5 10 15

F. VELA / J. F. ISLAS

Estimadores MCO

Source | SS df MS Number of obs = 25


-------------+------------------------------ F( 5, 19) = 40.91
Model | 37862661 5 7572532.21 Prob > F = 0.0000
Residual | 3516890.29 19 185099.489 R-squared = 0.9150
-------------+------------------------------ Adj R-squared = 0.8926
Total | 41379551.3 24 1724147.97 Root MSE = 430.23

------------------------------------------------------------------------------
sales | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | 3.612101 1.1817 3.06 0.006 1.138775 6.085428
mktpoten | .0420881 .0067312 6.25 0.000 .0279995 .0561767
adver | .1288568 .0370361 3.48 0.003 .0513393 .2063742
mktshare | 256.9556 39.13607 6.57 0.000 175.0428 338.8683
change | 324.5335 157.2831 2.06 0.053 -4.663819 653.7308
_cons | -1113.788 419.8869 -2.65 0.016 -1992.621 -234.9546
------------------------------------------------------------------------------

Error Cuadrático Medio y Error Estándar

 Una estimación puntual de σ2 es el error cuadrático


medio:
SCE
σˆ 2 =
n−k

 Una estimación puntual de σ es el error estándar:

SCE
σˆ =
n−k

24
18/06/2010

F. VELA / J. F. ISLAS

Utilidad del Modelo: R2, R2 Ajustada y la


Prueba F Global
 En el caso del modelo de2 regresión lineal múltiple,
1. Variación total = ∑(Yi − Y )
Variación explicada = ∑ (Yˆi − Y ) 2
2
2.
3. (
Variación inexplicada = ∑ Yi −Yˆi)
4. Variación total = Variación explicada + Variación inexplicada
5. El coeficiente de determinación múltiple es
R2 = (variación explicada)/(variación total)
6. El R2 es la proporción de la variación total de los valores
observados de la variable dependiente que es explicada por
las variables independientes incluidas en el modelo de
regresión.
7. Coeficiente de correlación múltiple: R = √R2

 R2 Ajustada

 k −1   n −1 
R 2 =  R2 −  
 n −1   n − k 
donde

R2 es el coeficiente de determinación múltiple


n es la cantidad de observaciones y
k es la cantidad de coeficientes estimados en el modelo

Prueba F de significancia global


 H0: β0 = β1 = β2 =... = βk = 0
 Ha: por lo menos uno de los β0, β1, β2, ..., βk ≠ 0
 Estadística F global:

F (mod elo) =
(Variación _ exp licada) /(k −1)
(Variación _ in exp licada ) / [ n − k ]

25
18/06/2010

 Se puede rechazar H0 y aceptar Ha en el nivel de


significancia α si se mantiene alguna de las condiciones
siguientes:
 Estadística F (modelo) > F[α]
donde el punto F[α] se basa en k-1 grados de libertad
para el numerador y n-k para el denominador.
 valor p (de F) < α

Prueba de significancia individual


 Defina la estadística de una prueba

bj
t=
ee(σˆ b j )

y asuma que las suposiciones de regresión se


mantienen.

Condición de
Hipótesis punto de
rechazo Valor p
alternativa

Ha : βj ≠ 0 | t |> t[(αn /−2( k] +1)) 2 × (área bajo la curva t a


la derecha de |t|)

Ha : βj > 0 t > t[(αn ]− (k +1)) área bajo la curva t a la


derecha de t

Ha : βj < 0 t < −t[(αn ]− (k +1)) área bajo la curva t a la


izquierda de t

26
18/06/2010

Intervalo de Confianza para β j


 Si se cumplen las suposiciones de la regresión,
un intervalo de confianza de 100(1-α)% para el
parámetro de regresión βj es

 βˆ j ± t (αn −/ 2k )ee( βˆ j ) 
 [ ] 

Intervalos de Confianza para valores


esperados y de predicción
 Para calcular el valor de distancia en un modelo
de regresión múltiple, se requiere de álgebra de
matrices.

 Valor de distancia.

Valor de distancia = x0' ( X ' X ) −1 x0

donde x0= [1 x01 x02 ... x0 k ]

 Si se cumplen las suposiciones de la regresión,


un intervalo de confianza de 100(1-α)% para el
valor medio de y cuando los valores de las
variables independientes son x01, x02, ..., x0k es

yˆ ± t[(αn −/ 2k])σˆ v.d .

27
18/06/2010

 Si se cumplen las suposiciones de la regresión,


un intervalo de predicción 100(1-α)% para un
valor individual de y cuando los valores de las
variables independientes son x01, x02, ..., x0k es

yˆ ± t[(α / 2]) s 1 + v.d .


n−k

F. VELA / J. F. ISLAS

Tópicos
 Modelo de regresión cuadrática.
 Términos de interacción.
 Uso de variables ficticias para modelar variables
independientes cualitativas.

Modelo de regresión cuadrática


 El modelo de regresión cuadrática que relaciona y con
x es: y = β 0 + β1x + β 2 x 2 + ε
µy|x µy|x µy|x

x x x
µy|x µy|x µy|x

x x x

28
18/06/2010

Interacción
 Se introduce un término de interacción cuando
se cree que una variable (xi) influye en la
relación entre otra variable (xj) independiente y
la variable dependiente, y.

y = β 0 + β1 x1 + β 2 x2 + β 3 x1 x2 + ε

F. VELA / J. F. ISLAS

Uso de variables ficticias para modelar


variables independientes cualitativas
 Cuando se quiere incluir una variable cualitativa,
se pueden utilizar variables ficticias (variables
indicadoras, dummies).

 Toman el valor de 1 o 0.

 Esta variable influye en el intercepto.

Ejemplo
La cadena de tiendas Sonny -que comercializa
equipos de audio y video- desea conocer el
impacto que tiene sobre sus ventas, y, (en
miles de dólares), tanto el número de hogares
alrededor del área de las tiendas, x, (en miles),
así como la ubicación de las tiendas, D, ya sea
que estás se encuentren: i) en el centro de la
ciudad; ii) dentro de un centro comercial o, iii)
fuera de un centro comercial (nótese que D es
una variable cualitativa).

29
18/06/2010

Para comparar el efecto de las tres


ubicaciones sobre las ventas, se plantea el
siguiente modelo:

y = β 0 + β1 x + β 2 DM + β 3 DD + ε
donde se define

1 si la tienda está en un centro comercial.


DM=
0 en cualquier otra parte.

1 si la tienda se ubica en el centro de la ciudad.


DD=
0 en cualquier otra parte.

Se deduce entonces que:


1. Para las tiendas en la calle, el volumen medio
de las ventas esta dado por:
y = β 0 + β1 x + β 2 DM + β 3 DD = β 0 + β1 x + β 2 (0) + β 3 (0)
= β 0 + β1 x
2. En el caso de las tiendas ubicadas en el centro
comercial, el volumen medio de las ventas esta
dado por:
y = β 0 + β1 x + β 2 DM + β 3 DD = β 0 + β1 x + β 2 (1) + β 3 (0)
= ( β0 + β2 ) + β1x
3. Las tiendas ubicadas en el centro de la ciudad,
el volumen medio de las ventas esta dado por:
y = β 0 + β1 x + β 2 DM + β3 DD = β 0 + β1 x + β 2 (0) + β3 (1)
= ( β 0 + β 3 ) + β1 x

Interpretación geométrica del modelo:

30
18/06/2010

yˆ = 14.978 + 0.86859 x + 28.374 DM + 6.864 DD


Source | SS df MS Number of obs = 15
-------------+------------------------------ F( 3, 11) = 275.07
Model | 33268.6975 3 11089.5658 Prob > F = 0.0000
Residual | 443.465035 11 40.3150032 R-squared = 0.9868
-------------+------------------------------ Adj R-squared = 0.9833
Total | 33712.1625 14 2408.01161 Root MSE = 6.3494

------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
x | .8685884 .0404899 21.45 0.000 .7794707 .9577062
dm | 28.37376 4.461307 6.36 0.000 18.55449 38.19303
dd | 6.863778 4.770477 1.44 0.178 -3.635971 17.36353
_cons | 14.97769 6.188446 2.42 0.034 1.357012 28.59837
------------------------------------------------------------------------------

Prueba F parcial: Prueba de la


significancia de una parte de un modelo
de regresión
 Permite probar la significancia de un subconjunto
seleccionado de las variables independientes.

 Sea, por ejemplo, el modelo y = β0 + β1x1 + β2 x2 + β3 x3 + ε


 Podría ser de interés saber si las variables x2 y x3 son
relevantes en el modelo.

 H0: β2=β3=0
Ha: por lo menos una de β2 y β3 ≠0

 Se puede pensar en términos de dos modelos rivales:

Modelo
completo y = β 0 + β1 x1 + β 2 x2 + β3 x3 + ε c

Modelo
reducido y = β 0 + β1 x1 + ε R

 Se busca establecer si:


H0: β2=β3=0 vs. Ha: por lo menos una de β2 y β3 ≠0

31
18/06/2010

 El estadístico de prueba esta dado por

(SCER − SCEC )/ [ k − g]
F=
SCEC / [ n − (k +1)]
donde
k= número de variables independientes del modelo
completo.
g= número de coeficientes del modelo reducido

 Rechazar Ho ssi F > F(α), o bien,


Valor p(F) < α

Para comparar el efecto de las tres


ubicaciones sobre las ventas, se plantea el
siguiente modelo:

y = β 0 + β1 x1 + β 2 DM + β 3 DD + ε
esto es

yˆ = 14.978 + 0.86859x + 28.374DM + 6.864DD

Tema 7: Multicolinealidad

32
18/06/2010

Temas
 Multicolinealidad.
 Comparación de los modelos de regresión.
con base en R2, σ, R2 ajustada, longitud del
intervalo de predicción y estadística Cp.
 Regresión por pasos y eliminación hacia
atrás.

Multicolinealidad
 Las variables independientes están relacionadas
entre sí o dependen una de otra.
 No se trata de un “problema” de presencia o
ausencia sino de grado.
 Cuando existe la multicolinealidad entre dos o más
variables independientes, la principal consecuencia
es que se dificulta o impide obtener estimaciones
precisas de los efectos individuales de cada variable
independiente sobre la dependiente.
 Infla los valores de los errores estándar de β j
estimados.

Identificación de la multicolinealidad
 Son varias la formas que pueden utilizarse para
identificar un alto grado de multicolinealidad.
 La más sencilla es utilizando la matriz de
correlación.
- La multicolinealidad es fuerte si por lo menos uno de los
coeficientes de correlación simple entre las variables
independientes es mayor o igual a 0.9.

 Otra forma es a través de los factores de


inflación de la varianza ó VIF.
 Existe también la “regla práctica”, el índice de
tolerancia (TOL), entre otros.

33
18/06/2010

De nuevo el ejemplo 4.2 (pp. 146 y 222).


El gerente de una compañía desea evaluar el desempeño
de su fuerza de ventas en el territorio de actuación. Para
ello, se agregan al análisis efectuado en el capitulo anterior,
la información sobre tres variables adicionales (a las cinco
ya existentes), que según el criterio del gerente, podrían
ejercer alguna influencia sobre las ventas. La muestra
continua siendo de 25 vendedores, y ahora se plantea el
siguiente modelo de regresión lineal:
yi = β 0 + β1 x´1i + β 2 x´2i + β3 x3i + β 4 x´4i + β5 x´5i
+ β 6 x6i + β 7 x´7i + β8 x´8i + ε i

y= sales.
x1= time.
x2= mktpoten.
x3= adver.
x4 = mktshare.
x5 = change.
x6= cantidad de cuentas que maneja el representante
(accts).
x7= carga de trabajo promedio (wkload).
x6= calificación sobre desempeño (rating).
ε= termino de error aleatorio.

(Ver tabla 5.1)

Matriz de correlación y valores p asociados


(en Stata)
pwcorr ,sig star (.05) (instrucción en Stata)
| sales time mktpoten adver mktshare change accts wkload rating
-------------+-----------------------------------------------------------------------------------
sales | 1.0000
|
time | 0.6229* 1.0000
| 0.0009
|
mktpoten | 0.5978* 0.4540* 1.0000
| 0.0016 0.0226 Observe que raccts,time
|
adver | 0.5962* 0.2492 0.1741 1.0000
presenta un valor
| 0.0017 0.2297 0.4052 moderado
|
mktshare | 0.4835* 0.1062 -0.2107 0.2645 1.0000
| 0.0143 0.6133 0.3121 0.2014
|
change | 0.4892* 0.2515 0.2683 0.3765 0.0855 1.0000
| 0.0131 0.2253 0.1947 0.0636 0.6846
|
accts | 0.7540* 0.7578* 0.4786* 0.2000 0.4030* 0.3274 1.0000
| 0.0000 0.0000 0.0155 0.3377 0.0458 0.1101
|
wkload | -0.1172 -0.1793 -0.2588 -0.2722 0.3493 -0.2877 -0.1988 1.0000
| 0.5768 0.3911 0.2115 0.1880 0.0870 0.1632 0.3406
|
rating | 0.4019* 0.1011 0.3587 0.4115* -0.0236 0.5493* 0.2286 -0.2769 1.0000
| 0.0464 0.6305 0.0783 0.0410 0.9110 0.0045 0.2717 0.1802

34
18/06/2010

Factores de Inflación de la Varianza


 Los factores de inflación de la varianza, FIV, (o
VIF) se definen como:
1
VIFj =
1 − R 2j

 Rj2 es el coeficiente de determinación múltiple


para el modelo que relaciona xj con el resto de
las variables independientes (regresión auxiliar).

 Si Rj2=0 entonces VIFj = 1

 La multicolinealidad es grave si:

1. el VIF más grande > 10


2. el VIF medio es sustancialmente > 1

Ejemplo 4.2. VIF y multicolinealidad


regress sales time mktpoten adver mktshare change accts wkload rating

Source | SS df MS Number of obs = 25


-------------+------------------------------ F( 8, 16) = 23.65
Model | 38153566.4 8 4769195.8 Prob > F = 0.0000
Residual | 3225984.94 16 201624.059 R-squared = 0.9220
-------------+------------------------------ Adj R-squared = 0.8831
Total | 41379551.3 24 1724147.97 Root MSE = 449.03

------------------------------------------------------------------------------
sales | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | 2.009566 1.930654 1.04 0.313 -2.083238 6.10237
mktpoten | .0372049 .0082023 4.54 0.000 .0198168 .054593
adver | .1509889 .0471085 3.21 0.006 .0511233 .2508545
mktshare | 199.0236 67.02793 2.97 0.009 56.9307 341.1164
change | 290.8551 186.782 1.56 0.139 -105.105 686.8153
accts | 5.550961 4.77555 1.16 0.262 -4.572753 15.67467
wkload | 19.79389 33.6767 0.59 0.565 -51.59751 91.1853
rating | 8.189297 128.5056 0.06 0.950 -264.2304 280.609
_cons | -1507.814 778.635 -1.94 0.071 -3158.446 142.8186
------------------------------------------------------------------------------

35
18/06/2010

Ejemplo 4.2. (continua)


vif (instrucción en Stata)

Variable | VIF 1/VIF - Note que el valor mas alto de


-------------+---------------------- es el correspondiente a
accts | 5.64 0.177326 VIFaccts=5.64, lo que indica que
time | 3.34 0.299167 no existe un alto grado de
mktshare | 3.24 0.309047 multicolinealidad en el modelo.
mktpoten | 1.98 0.505657
adver | 1.91 0.523502
wkload | 1.82 0.549950
rating | 1.81 0.552927
change | 1.60 0.624325 - Por otra parte, el promedio de
-------------+---------------------- los VIF es 2.67.
Mean VIF | 2.67

Regla práctica para detectar


multicolinealidad
 Cuando no se tiene acceso a la matriz de
correlación o a los VIF, se puede considerar la
siguiente regla práctica para identificar un alto
grado de multicolinealidad:

“Observar una R2 ajustada alta y pocos (o


ningún) coeficiente de regresión estimados
significativos”

Índice de tolerancia (TOL)


 Se define como TOL j = 1 − R 2j
(para j = 1, 2, ... K variables)

1
o bien TOL =
VIF
 Si TOL cercano a cero existe alta
multicolinealidad.

36
18/06/2010

Soluciones posibles para la alta


multicolinealidad
 Algunos autores (Blanchard, 1998) consideran
que si el objetivo final es el pronóstico no se
debe hacer nada.

 La solución más común, aunque no siempre la


mejor, eliminar una de las variables que se
considere provoca el problema.

 Transformación de variables.

Ejemplo: Datos de la NBA


Se busca establecer la influencia que diferentes
acciones de los jugadores de la NBA ejercen sobre el
número de puntos que anotan en promedio por
partido (pts). Para ello se selecciona al azar a un
equipo de la NBA (Chicago Bulls) y se plantea el
siguiente modelo de regresión (temporada 2007-08):

PTS= β0 + β1GPi + β2MINi + β3ASTi + β4STLi + β5BLKi + β6TOi + β7PFi + ε i


donde

PTS= puntos anotados STL = robos de balón


GP = partidos jugados BLK = bloqueos
MIN= minutos jugados TO= balones perdidos
AST= asistencias PF= faltas personales

Matriz de correlación
pwcorr ,sig star (.05)

| gp min pts ast stl blk to pf


-------------+-----------------------------------------------------------------------
gp | 1.0000
|
min | 0.6025* 1.0000
| 0.0063
|
pts | 0.5221* 0.8482* 1.0000
| 0.0218 0.0000
|
ast | 0.5359* 0.7216* 0.5477* 1.0000
| 0.0180 0.0005 0.0152
|
stl | 0.4585* 0.7932* 0.4545 0.6992* 1.0000
| 0.0483 0.0001 0.0506 0.0009
|
blk | 0.2629 0.4600* 0.1933 -0.0367 0.4141 1.0000
| 0.2768 0.0475 0.4278 0.8813 0.0780
|
to | 0.5880* 0.8688* 0.9090* 0.7370* 0.5931* 0.1641 1.0000
| 0.0081 0.0000 0.0000 0.0003 0.0074 0.5020
|
pf | 0.6924* 0.7854* 0.7652* 0.5199* 0.5034* 0.4854* 0.7839* 1.0000
| 0.0010 0.0001 0.0001 0.0225 0.0280 0.0351 0.0001

37
18/06/2010

Regresión
regress pts gp min ast stl blk to pf

Source | SS df MS Number of obs = 19


-------------+------------------------------ F( 7, 11) = 28.58
Model | 500.61849 7 71.5169272 Prob > F = 0.0000
Residual | 27.5288813 11 2.50262557 R-squared = 0.9479
-------------+------------------------------ Adj R-squared = 0.9147
Total | 528.147371 18 29.3415206 Root MSE = 1.582

------------------------------------------------------------------------------
pts | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gp | -.0047026 .0188224 -0.25 0.807 -.0461304 .0367252
min | .5114093 .1219865 4.19 0.002 .2429189 .7798997
ast | -1.328452 .5149655 -2.58 0.026 -2.461884 -.195021
stl | -3.415964 1.785418 -1.91 0.082 -7.345643 .5137151
blk | -3.566664 1.525258 -2.34 0.039 -6.923734 -.2095937
to | 4.267745 1.98899 2.15 0.055 -.1099917 8.645483
pf | .7377111 .9262618 0.80 0.443 -1.300978 2.7764
_cons | -2.401254 .9950284 -2.41 0.034 -4.591296 -.2112107
------------------------------------------------------------------------------

VIF
vif

Variable | VIF 1/VIF


-------------+----------------------
min | 12.29 0.081342
to | 8.54 0.117126
pf | 5.24 0.190847
ast | 4.45 0.224654
stl | 4.20 0.238195
blk | 3.46 0.289220
gp | 2.12 0.472134
-------------+----------------------
Mean VIF | 5.76

Eliminando la variable min se tiene


regress pts gp ast stl blk to pf

Source | SS df MS Number of obs = 19


-------------+------------------------------ F( 6, 12) = 12.77
Model | 456.632952 6 76.1054921 Prob > F = 0.0001
Residual | 71.5144189 12 5.95953491 R-squared = 0.8646
-------------+------------------------------ Adj R-squared = 0.7969
Total | 528.147371 18 29.3415206 Root MSE = 2.4412

------------------------------------------------------------------------------
pts | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gp | -.0038181 .029044 -0.13 0.898 -.0670995 .0594632
ast | -.8901853 .7781226 -1.14 0.275 -2.585569 .8051982
stl | -.1718016 2.482941 -0.07 0.946 -5.581665 5.238061
blk | -.5166832 2.068707 -0.25 0.807 -5.024009 3.990642
to | 9.904448 2.261829 4.38 0.001 4.976347 14.83255
pf | .8968988 1.42816 0.63 0.542 -2.214794 4.008592
_cons | -3.404519 1.490409 -2.28 0.041 -6.651841 -.1571964
------------------------------------------------------------------------------

38
18/06/2010

vif

Variable | VIF 1/VIF


-------------+----------------------
pf | 5.23 0.191168
to | 4.64 0.215682
ast | 4.27 0.234310
stl | 3.41 0.293290
blk | 2.67 0.374398
gp | 2.12 0.472194
-------------+----------------------
Mean VIF | 3.72

Construcción de modelos
 ¿Qué hay que hacer para encontrar un modelo
adecuado?
 Son diversos los criterios que la literatura
señala para elegir entre modelos “rivales”.
 Dos (o más) modelos son “rivales” si estos
presentan la misma variable dependiente
aunque las variables independientes no sean
las mismas.
 Ejemplo:
sales=β 0 +β1time+β8 rating+ε1
sales=β 0 +β1time+β 2 mktpoten+β 4 wkload+ε 2

Criterios para la construcción de


modelos
 Existen diversos criterios que se emplean para elegir
entre modelos rivales con propósitos de pronóstico.

 Comparación de los modelos de regresión con base en


R2, σ, R2 ajustada, longitud del intervalo de predicción y
estadística Cp entre otros.

 Todos estos criterios pretenden minimizar la SCE (o


incrementar R2), y salvo el primero de ellos, los demás
imponen una penalización al incluir más variables
independientes.

39
18/06/2010

Primer criterio

R2 = (variación explicada)/(variación total)

 R2 ↑ al ↑ el número de variables

Segundo criterio

SCE
σˆ =
n−k

 al ↑ el número de variables, se pierden grados de libertad


 si al introducir otra variable independiente al modelo, el σ ↑,
no debemos sumar la variable independiente al modelo.

Tercer criterio
 k + 1  n − 1 
R 2 =  R2 −  
 n − 1  n − k 

 al ↑ el número de variables, se pierden grados de libertad


 si al introducir otra variable independiente al modelo, el R2
ajustada ↓, no debemos sumar la variable independiente al
modelo.

40
18/06/2010

Cuarto criterio

Estadística C (o Cp) de Mallow

Considérese un modelo con k coeficientes de regresión


(incluyendo la constante, i. e. β0).

Sea σˆ el verdadero estimador s2.


2

Suponga que solo se ha elegido p variables


independientes (incluyendo β0), donde p≤k, y se obtiene
SCE utilizando a las p variables independientes.

Cuarto criterio

Estadística C (o Cp) de Mallow

SSE
C = −[ n − 2k]
σˆ 2p

 Queremos que C sea pequeña.


 Queremos que C sea casi igual a k + 1.
 Si C > k , el modelo tiene un sesgo notable.
 Si C < k , el modelo no tiene sesgo y es deseable.

Ejemplo 5.1 (p. 228).


A continuación se presentan los resultados en
STATA para el calculo de R-squared, el
estadístico C de Mallows, SEE( σ̂ ) y MSE( σˆ 2 )
para todos los posibles modelos de regresión del
ejemplo 4.2 ampliado propuesto en este capítulo.

Para ello se deben seguir los pasos siguientes:

41
18/06/2010

Paso 1.
Una vez cargado el archivo t5-1 sales territory
complete.dta, escribir en la ventana de comandos
findit rsquare, entrar dentro de la sección
“Web resources from Stata and other users” a
rsquare from

http://www.ats.ucla.edu/stat/stata/ado/analysis

y descargar los archivos rsquare.ado y


rsquare.hlp

Paso 2.
Estimar el modelo: sales vs. time mktpoten
adver mktshare change accts wkload
rating.

Paso 3.
Después de la estimación, se escribe en la
ventana de comandos:
rsquare sales time mktpoten adver
mktshare change accts wkload rating
y se obtiene:

Regression models for dependent variable : sales

R-squared Mallows' C SEE MSE models with 1 variable


0.3880 104.60 2.532e+07 1.101e+06 time
0.3574 110.89 2.659e+07 1.156e+06 mktpoten
0.3554 111.29 2.667e+07 1.160e+06 adver
0.2338 136.25 3.171e+07 1.379e+06 mktshare
0.2393 135.12 3.148e+07 1.369e+06 change
0.5685 67.56 1.786e+07 7.763e+05 accts
0.0137 181.41 4.081e+07 1.774e+06 wkload
0.1615 151.09 3.470e+07 1.509e+06 rating
R-squared Mallow's C SEE MSE models with 2 variables
0.5130 80.94 2.015e+07 9.159e+05 time mktpoten
0.5953 64.05 1.674e+07 7.611e+05 time adver
0.5642 70.44 1.803e+07 8.197e+05 time mktshare
0.5061 82.37 2.044e+07 9.290e+05 time change
0.5747 68.28 1.760e+07 7.999e+05 time accts
0.3881 106.59 2.532e+07 1.151e+06 time wkload
0.5041 82.78 2.052e+07 9.328e+05 time rating
0.6071 61.63 1.626e+07 7.390e+05 mktpoten adver
0.7461 33.12 1.051e+07 4.776e+05 mktpoten mktshare
0.4739 88.98 2.177e+07 9.896e+05 mktpoten change
0.6413 54.61 1.484e+07 6.747e+05 mktpoten accts
0.3589 112.58 2.653e+07 1.206e+06 mktpoten wkload
0.3977 104.61 2.492e+07 1.133e+06 mktpoten rating
0.4696 89.86 2.195e+07 9.976e+05 adver mktshare
0.4371 96.53 2.329e+07 1.059e+06 adver change
0.7751 27.16 9.306e+06 4.230e+05 adver accts
0.3576 112.84 2.658e+07 1.208e+06 adver wkload
0.3849 107.23 2.545e+07 1.157e+06 adver rating
0.4358 96.78 2.334e+07 1.061e+06 mktshare change
0.6070 61.65 1.626e+07 7.391e+05 mktshare accts
0.3270 119.11 2.785e+07 1.266e+06 mktshare wkload

42
18/06/2010

R-squared Mallow's C SEE MSE models with 3 variables


0.6991 44.74 1.245e+07 5.928e+05 time mktpoten adver
0.8121 21.56 7.774e+06 3.702e+05 time mktpoten mktshare
0.5942 66.27 1.679e+07 7.995e+05 time mktpoten change
0.6426 56.34 1.479e+07 7.042e+05 time mktpoten accts
0.5176 82.01 1.996e+07 9.506e+05 time mktpoten wkload
0.5663 72.02 1.795e+07 8.547e+05 time mktpoten rating
0.6959 45.42 1.259e+07 5.993e+05 time adver mktshare
0.6365 57.61 1.504e+07 7.163e+05 time adver change
0.7752 29.14 9.302e+06 4.430e+05 time adver accts
0.6066 63.73 1.628e+07 7.751e+05 time adver wkload
0.6251 59.94 1.551e+07 7.387e+05 time adver rating
0.6657 51.62 1.383e+07 6.588e+05 time mktshare change
0.6305 58.83 1.529e+07 7.281e+05 time mktshare accts
0.5954 66.03 1.674e+07 7.972e+05 time mktshare wkload
0.6905 46.52 1.281e+07 6.098e+05 time mktshare rating
0.6403 56.83 1.488e+07 7.088e+05 time change accts
0.5132 82.90 2.014e+07 9.591e+05 time change wkload
0.5396 77.48 1.905e+07 9.071e+05 time change rating
0.5761 70.00 1.754e+07 8.353e+05 time accts wkload
0.6354 57.83 1.509e+07 7.184e+05 time accts rating
0.5117 83.21 2.020e+07 9.621e+05 time wkload rating
0.8490 13.99 6.249e+06 2.976e+05 mktpoten adver mktshare
0.6390 57.08 1.494e+07 7.112e+05 mktpoten adver change
0.8277 18.36 7.129e+06 3.395e+05 mktpoten adver accts
0.6336 58.19 1.516e+07 7.219e+05 mktpoten adver wkload
0.6073 63.60 1.625e+07 7.739e+05 mktpoten adver rating
0.8086 22.27 7.918e+06 3.771e+05 mktpoten mktshare change

R-squared Mallow's C SEE MSE models with 3 variables


0.7885 26.40 8.750e+06 4.167e+05 mktpoten mktshare accts
0.7730 29.59 9.395e+06 4.474e+05 mktpoten mktshare wkload
0.7735 29.49 9.374e+06 4.464e+05 mktpoten mktshare rating
0.6907 46.48 1.280e+07 6.095e+05 mktpoten change accts
0.4888 87.91 2.115e+07 1.007e+06 mktpoten change wkload
0.4750 90.75 2.172e+07 1.035e+06 mktpoten change rating
0.6488 55.09 1.453e+07 6.921e+05 mktpoten accts wkload
0.6683 51.08 1.373e+07 6.537e+05 mktpoten accts rating
0.4044 105.25 2.465e+07 1.174e+06 mktpoten wkload rating
0.5543 74.47 1.844e+07 8.782e+05 adver mktshare change
0.7862 26.88 8.847e+06 4.213e+05 adver mktshare accts
0.4839 88.92 2.136e+07 1.017e+06 adver mktshare wkload
0.5203 81.44 1.985e+07 9.452e+05 adver mktshare rating
0.7872 26.67 8.804e+06 4.192e+05 adver change accts
0.4489 96.11 2.281e+07 1.086e+06 adver change wkload
0.4390 98.14 2.322e+07 1.106e+06 adver change rating
0.7969 24.67 8.402e+06 4.001e+05 adver accts wkload
0.7795 28.25 9.123e+06 4.344e+05 adver accts rating
0.3914 107.90 2.518e+07 1.199e+06 adver wkload rating
0.6785 48.98 1.330e+07 6.335e+05 mktshare change accts
0.4621 93.39 2.226e+07 1.060e+06 mktshare change wkload
0.4749 90.77 2.173e+07 1.035e+06 mktshare change rating
0.6118 62.67 1.606e+07 7.649e+05 mktshare accts wkload
0.6764 49.40 1.339e+07 6.376e+05 mktshare accts rating
0.4427 97.38 2.306e+07 1.098e+06 mktshare wkload rating
0.6438 56.09 1.474e+07 7.018e+05 change accts wkload
0.6488 55.07 1.453e+07 6.919e+05 change accts rating
0.2671 133.42 3.033e+07 1.444e+06 change wkload rating
0.6328 58.36 1.520e+07 7.236e+05 accts wkload rating

R-squared Mallow's C SEE MSE models with 4 variables


0.8960 6.35 4.305e+06 2.152e+05 time mktpoten adver mktshare
0.7222 42.02 1.150e+07 5.748e+05 time mktpoten adver change
0.8283 20.23 7.104e+06 3.552e+05 time mktpoten adver accts
0.7284 40.74 1.124e+07 5.619e+05 time mktpoten adver wkload
0.7030 45.95 1.229e+07 6.144e+05 time mktpoten adver rating
0.8609 13.56 5.758e+06 2.879e+05 time mktpoten mktshare change
0.8134 23.30 7.722e+06 3.861e+05 time mktpoten mktshare accts
0.8279 20.33 7.123e+06 3.561e+05 time mktpoten mktshare wkload
0.8480 16.19 6.289e+06 3.144e+05 time mktpoten mktshare rating
0.6923 48.15 1.273e+07 6.367e+05 time mktpoten change accts
0.6126 64.51 1.603e+07 8.015e+05 time mktpoten change wkload
0.6034 66.38 1.641e+07 8.205e+05 time mktpoten change rating
0.6502 56.79 1.448e+07 7.238e+05 time mktpoten accts wkload
0.6725 52.21 1.355e+07 6.775e+05 time mktpoten accts rating
0.5803 71.13 1.737e+07 8.683e+05 time mktpoten wkload rating
0.7401 38.33 1.075e+07 5.377e+05 time adver mktshare change
0.7890 28.29 8.729e+06 4.365e+05 time adver mktshare accts
0.6979 46.99 1.250e+07 6.249e+05 time adver mktshare wkload
0.7455 37.23 1.053e+07 5.265e+05 time adver mktshare rating
0.7875 28.62 8.795e+06 4.397e+05 time adver change accts
0.6583 55.13 1.414e+07 7.070e+05 time adver change wkload
0.6440 58.06 1.473e+07 7.366e+05 time adver change rating
0.7971 26.65 8.397e+06 4.199e+05 time adver accts wkload
0.7800 30.14 9.102e+06 4.551e+05 time adver accts rating
0.6451 57.83 1.468e+07 7.342e+05 time adver wkload rating
0.7031 45.93 1.229e+07 6.143e+05 time mktshare change accts
0.6729 52.14 1.354e+07 6.768e+05 time mktshare change wkload
0.7124 44.02 1.190e+07 5.949e+05 time mktshare change rating
0.6388 59.12 1.494e+07 7.472e+05 time mktshare accts wkload
0.7166 43.17 1.173e+07 5.864e+05 time mktshare accts rating
0.6974 47.09 1.252e+07 6.260e+05 time mktshare wkload rating
0.6506 56.71 1.446e+07 7.230e+05 time change accts wkload
0.6578 55.22 1.416e+07 7.079e+05 time change accts rating
0.5527 76.79 1.851e+07 9.254e+05 time change wkload rating
0.6457 57.71 1.466e+07 7.330e+05 time accts wkload rating
0.8732 11.02 5.246e+06 2.623e+05 mktpoten adver mktshare change
0.9004 5.43 4.119e+06 2.060e+05 mktpoten adver mktshare accts
0.8513 15.53 6.155e+06 3.077e+05 mktpoten adver mktshare wkload
0.8512 15.55 6.159e+06 3.080e+05 mktpoten adver mktshare rating
0.8350 18.86 6.828e+06 3.414e+05 mktpoten adver change accts
0.6772 51.25 1.336e+07 6.678e+05 mktpoten adver change wkload

43
18/06/2010

R-squared Mallow's C SEE MSE models with 4 variables


0.6442 58.03 1.472e+07 7.362e+05 mktpoten adver change rating
0.8641 12.90 5.625e+06 2.812e+05 mktpoten adver accts wkload
0.8277 20.36 7.128e+06 3.564e+05 mktpoten adver accts rating
0.6347 59.97 1.511e+07 7.557e+05 mktpoten adver wkload rating
0.8352 18.82 6.819e+06 3.409e+05 mktpoten mktshare change accts
0.8174 22.49 7.558e+06 3.779e+05 mktpoten mktshare change wkload
0.8108 23.83 7.830e+06 3.915e+05 mktpoten mktshare change rating
0.7981 26.45 8.356e+06 4.178e+05 mktpoten mktshare accts wkload
0.8130 23.37 7.736e+06 3.868e+05 mktpoten mktshare accts rating
0.7901 28.08 8.687e+06 4.343e+05 mktpoten mktshare wkload rating
0.7099 44.53 1.200e+07 6.002e+05 mktpoten change accts wkload
0.6944 47.73 1.265e+07 6.324e+05 mktpoten change accts rating
0.4910 89.47 2.106e+07 1.053e+06 mktpoten change wkload rating
0.6830 50.06 1.312e+07 6.558e+05 mktpoten accts wkload rating
0.8019 25.66 8.198e+06 4.099e+05 adver mktshare change accts
0.5574 75.83 1.831e+07 9.157e+05 adver mktshare change wkload
0.5644 74.41 1.803e+07 9.013e+05 adver mktshare change rating
0.7977 26.51 8.370e+06 4.185e+05 adver mktshare accts wkload
0.7949 27.09 8.486e+06 4.243e+05 adver mktshare accts rating
0.5284 81.79 1.951e+07 9.757e+05 adver mktshare wkload rating
0.8160 22.77 7.615e+06 3.807e+05 adver change accts wkload
0.7876 28.59 8.788e+06 4.394e+05 adver change accts rating
0.4519 97.49 2.268e+07 1.134e+06 adver change wkload rating
0.8055 24.91 8.048e+06 4.024e+05 adver accts wkload rating
0.6785 50.97 1.330e+07 6.651e+05 mktshare change accts wkload
0.7001 46.55 1.241e+07 6.205e+05 mktshare change accts rating
0.4940 88.84 2.094e+07 1.047e+06 mktshare change wkload rating
0.6767 51.36 1.338e+07 6.690e+05 mktshare accts wkload rating
0.6624 54.29 1.397e+07 6.985e+05 change accts wkload rating

R-squared Mallow's C SEE MSE models with 5 variables


0.9150 4.44 3.517e+06 1.851e+05 time mktpoten adver mktshare change
0.9064 6.22 3.875e+06 2.039e+05 time mktpoten adver mktshare accts
0.8965 8.24 4.284e+06 2.254e+05 time mktpoten adver mktshare wkload
0.9025 7.01 4.035e+06 2.124e+05 time mktpoten adver mktshare rating
0.8353 20.79 6.813e+06 3.586e+05 time mktpoten adver change accts
0.7617 35.91 9.861e+06 5.190e+05 time mktpoten adver change wkload
0.7222 44.01 1.149e+07 6.050e+05 time mktpoten adver change rating
0.8648 14.74 5.593e+06 2.944e+05 time mktpoten adver accts wkload
0.8283 22.23 7.104e+06 3.739e+05 time mktpoten adver accts rating
0.7358 41.23 1.093e+07 5.755e+05 time mktpoten adver wkload rating
0.8609 15.55 5.757e+06 3.030e+05 time mktpoten mktshare change accts
0.8651 14.69 5.583e+06 2.939e+05 time mktpoten mktshare change wkload
0.8686 13.98 5.439e+06 2.863e+05 time mktpoten mktshare change rating
0.8280 22.31 7.119e+06 3.747e+05 time mktpoten mktshare accts wkload
0.8481 18.18 6.287e+06 3.309e+05 time mktpoten mktshare accts rating
0.8545 16.87 6.022e+06 3.169e+05 time mktpoten mktshare wkload rating
0.7117 46.16 1.193e+07 6.278e+05 time mktpoten change accts wkload
0.6971 49.16 1.253e+07 6.597e+05 time mktpoten change accts rating
0.6251 63.95 1.551e+07 8.165e+05 time mktpoten change wkload rating
0.6881 51.01 1.291e+07 6.792e+05 time mktpoten accts wkload rating
0.8064 26.73 8.010e+06 4.216e+05 time adver mktshare change accts
0.7401 40.33 1.075e+07 5.660e+05 time adver mktshare change wkload
0.7596 36.34 9.949e+06 5.236e+05 time adver mktshare change rating
0.7984 28.37 8.342e+06 4.391e+05 time adver mktshare accts wkload
0.8023 27.57 8.180e+06 4.305e+05 time adver mktshare accts rating
0.7458 39.18 1.052e+07 5.537e+05 time adver mktshare wkload rating
0.8163 24.70 7.601e+06 4.001e+05 time adver change accts wkload
0.7880 30.51 8.773e+06 4.617e+05 time adver change accts rating
0.6692 54.90 1.369e+07 7.205e+05 time adver change wkload rating
0.8064 26.74 8.012e+06 4.217e+05 time adver accts wkload rating
0.7038 47.79 1.226e+07 6.451e+05 time mktshare change accts wkload
0.7354 41.31 1.095e+07 5.764e+05 time mktshare change accts rating
0.7156 45.36 1.177e+07 6.193e+05 time mktshare change wkload rating
0.7179 44.90 1.167e+07 6.144e+05 time mktshare accts wkload rating
0.6729 54.13 1.353e+07 7.123e+05 time change accts wkload rating
0.9124 4.98 3.624e+06 1.907e+05 mktpoten adver mktshare change accts
0.8735 12.97 5.235e+06 2.756e+05 mktpoten adver mktshare change wkload
0.8737 12.91 5.224e+06 2.750e+05 mktpoten adver mktshare change rating
0.9028 6.94 4.021e+06 2.116e+05 mktpoten adver mktshare accts wkload
0.9013 7.25 4.082e+06 2.149e+05 mktpoten adver mktshare accts rating

R-squared Mallow's C SEE MSE models with 5 variables


0.8530 17.17 6.082e+06 3.201e+05 mktpoten adver mktshare wkload rating
0.8777 12.09 5.060e+06 2.663e+05 mktpoten adver change accts wkload
0.8364 20.57 6.768e+06 3.562e+05 mktpoten adver change accts rating
0.6808 52.52 1.321e+07 6.952e+05 mktpoten adver change wkload rating
0.8648 14.75 5.595e+06 2.945e+05 mktpoten adver accts wkload rating
0.8371 20.43 6.739e+06 3.547e+05 mktpoten mktshare change accts wkload
0.8383 20.19 6.691e+06 3.522e+05 mktpoten mktshare change accts rating
0.8187 24.20 7.501e+06 3.948e+05 mktpoten mktshare change wkload rating
0.8170 24.56 7.573e+06 3.986e+05 mktpoten mktshare accts wkload rating
0.7156 45.36 1.177e+07 6.193e+05 mktpoten change accts wkload rating
0.8171 24.53 7.567e+06 3.983e+05 adver mktshare change accts wkload
0.8038 27.26 8.118e+06 4.273e+05 adver mktshare change accts rating
0.5671 75.85 1.791e+07 9.429e+05 adver mktshare change wkload rating
0.8074 26.52 7.968e+06 4.194e+05 adver mktshare accts wkload rating
0.8174 24.48 7.558e+06 3.978e+05 adver change accts wkload rating
0.7002 48.52 1.240e+07 6.529e+05 mktshare change accts wkload rating

R-squared Mallow's C SEE MSE models with 8 variables


0.9220 48.52 1.240e+07 6.529e+05 time mktpoten adver mktshare change accts wkload rating

44
18/06/2010

Métodos computacionales
Regresión por pasos
 Se especifican αentry y αstay
 Paso 1:
1. se corre una regresión para cada variable independiente.
2. Se denomina a la variable con el mayor valor de la estadística t,
x[1]
3. Si la estadística t no indica que x[1] sea significante en el nivel
αentry, el procedimiento termina. Si es significante, se conserva
para usarla en el paso 2.

Construcción de modelos y los


efectos de la multicolinealidad
Regresión por pasos
 Paso 2:
— se corre una regresión agregando cada variable
independiente al modelo
— y = β0 + β1x[1] + β2xj + ε
— Se denomina a la variable (nueva) con el mayor valor de
la estadística t, x[2]
— Si la estadística t no indica que x[2] sea significante en el
nivel αentry , el procedimiento termina. Si es significante,
se comprueba que la estadística t >αstay para x[1].

Construcción de modelos y los


efectos de la multicolinealidad
Regresión por pasos
 Pasos posteriores:
1. Se continúan agregando variables independientes, una por una, al
modelo. En cada paso se suma una variable independiente al
modelo si tiene la estadística t más grande de las variables
independientes que no están en el modelo y si su estadística t indica
que es significante en el nivel
2. Después de añadir una variable independiente, el procedimiento
comprueba que todas las variables independientes ya incluidas
tienen t significante en el nivel αstay

45
18/06/2010

Construcción de modelos y los


efectos de la multicolinealidad
Eliminación hacia atrás
1. Se corre una regresión con todas las p variables
independientes.
2. Si la estadística t más pequeña es significante en el
nivel αstay , se conserva el modelo con todas las
variables.
3. Si la estadística t más pequeña no es significante en el
nivel αstay , se elimina esa variable del modelo y se
corre la regresión de nuevo.
4. Se repite estos pasos hasta conseguir que la
estadística t más pequeña sea significante en el nivel
αstay .

Tema 9. Diagnóstico del modelo

Temas
 gráficas de residuos y pruebas nùmericas.
 suposición de la normalidad.
 suposición de varianza constante.
 suposición de la forma funcional correcta.
 suposición de independencia.
 transformación de la variable dependiente.

46
18/06/2010

Análisis residual en la regresión


simple
 Recuerde que

e = y − yˆ
 Si las suposiciones de la regresión se mantienen, los
residuos deben parecer que han sido seleccionados
en forma aleatoria e independiente de poblaciones
distribuidas normalmente cuya media es 0 y su
varianza es σ2

Análisis residual en la regresión


simple
Gráficas de residuos
 Se elaboran gráficas de residuos contra
1. valores de x
2. valores de y
3. el orden en el tiempo en el cual los datos han
sido observados (para series de tiempo)

Análisis residual en la regresión


simple
Suposición de varianza constante
 se examinan las gráficas de los residuos
• varianza de error creciente
• varianza de error decreciente

47
18/06/2010

Análisis residual en la regresión


simple
Suposición de la forma funcional correcta
 Si usamos un modelo de regresión lineal simple
cuando la relación verdadera es curva, la gráfica
de residuos tendrá una apariencia curva.

Análisis residual en la regresión


simple
Suposición de la normalidad
 Se acomodan los errores en orden ascendente
 Se grafican contra el valor z correspondiente.
 z = punto en el eje horizontal bajo la curva
normal estándar de modo que el área bajo la
curva a la izquierda de z(i) es (3i-1)/(3n+1)
 Esta gráfica debe asemejarse a una recta.

kdensity r, normal

48
18/06/2010

Skewness/Kurtosis tests for Normality


------- joint ------
Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
-------------+-------------------------------------------------------
r| 0.905 0.785 0.09 0.9567

n (C −3)2 
JB =  A2 + 
6 4 

19  2 (0.785− 3) 
2
JB =  0.905 + 
6 4 

Análisis residual en la regresión


simple
Suposición de independencia
 más probable violar esta suposición en series
de tiempo:
 autocorrelación positiva
 patrón cíclico en los errores
 autocorrelación negativa
 Los términos de error deben ocurrir en un patrón
aleatorio en el tiempo.

49
18/06/2010

Análisis residual en la regresión


simple
Transformación de la variable dependiente
 posible remedio en casos de transgresión de las
suposiciones de
• varianza constante
• forma funcional correcta
• normalidad

Análisis residual en la regresión


simple
Transformación de la variable dependiente
 transformación de la raíz cuadrada
y* = y = y .5
 transformación de la raíz cuárta
y* = 4 y = y .25
 transformación logarítmica
y* = ln y

Análisis residual en la regresión


múltiple
 Se grafican los residuos contra
1. valores de cada variable independiente
2. valores del valor predicho de la variable
dependiente
3. orden en el tiempo en el cual se observaron los
datos

50
18/06/2010

Diagnóstico para detectar


observaciones atípicas e influyentes
Temas
 valor de la ventaja
 residuos y residuos estudentizados
 residuos eliminados y residuos eliminados
estudentizados
 medida de la distancia de Cook
 Qué hacer con respecto a las observaciones
atípicas y las influyentes

Diagnóstico para detectar


observaciones atípicas e influyentes
 atípica: una observación muy separada del resto
de los datos
 influyente: cambia de forma significativa algún
aspecto importante (b o s) del análisis de
regresión si se elimina la observación

Diagnóstico para detectar


observaciones atípicas e influyentes
Valor de la ventaja
 mide la distancia entre los valores x de la observación y
el centro de la región experimental
 Si el valor de la ventaja es grande, la observación es
atípica con respecto a sus valores x.
 Se considera grande si es mayor que lo doble del
promedio de todos los valores de la ventaja. (2(k+1)/n)

51
18/06/2010

Diagnóstico para detectar


observaciones atípicas e influyentes

residuos y residuos estudentizados


 Cualquier residuo notablemente diferente de los
otros es sospechoso.
 residuo estudentizado: e/s
 Si el resiguo estudentizado es mayor que 2, hay
alguna evidencia de que la observación es
atípica.

Diagnóstico para detectar


observaciones atípicas e influyentes
 residuos eliminados y residuos eliminados
estudentizados
 se calcula la distancia entre yi y y(i)
 residuo eliminado estudentizado = (residuo eliminado) / s
 Hay fuerte evidencia de que la observación es atípica
con respecto a su valor y si el residuo eliminado
estudentizado es mayor que

t[(.n005
− (k + 2 ))
]

Medida de la Distancia de Cook


 D de Cook
 Si la D de Cook de la observación i es grande,
entonces las estimaciones puntuales de mínimos
cuadrados cambian mucho con la inclusión de i

 Si D < F[.80], i no es influyente

 Si D > F[.50], i sí es influyente

52
18/06/2010

Qué hacer con respecto a las observa-


ciones atípicas y las influyentes
 Comenzar con las observaciones atípicas en la variable y
1. Comprobar que el valor esté capturado correctamente;
corregirlo si es necesario.
2. Si no se puede corregir o si es correcto, desechar la
observación y correr la regresión de nuevo.
 Luego ver los valores x
3. Tratar de detectar razones (causas) para el valor y atípico
(ver si algún valor x también es atípico).
4. Considerar otras variables independientes no incluidas en
el modelo.

53

You might also like