Trabajo de Regresion Lineal

Artículo de Educación
Modelos de Regresión y Correlación II. Regresión Lineal Múltiple

REGRESSION MODELS AND CORRELATION II. MULTIPLE LINEAR REGRESIÓN
Mauricio Salinas F1, Claudio Silva Z2

1. MD, Magister, Master en Salud Pública, Mención Salud Ocupacional (c)Director Unidad de Epidemiología y Estadística, Fundación Científica y
Tecnológica ACHS.
2. PhD Estadística. Escuela de Salud Pública, Universidad de Chile.
RESUMEN ABSTRACT
Continuando con la serie dedicada a Regresión y Correlación, en este Continuing the series dedicated to Regression and Correlation, this
artículo se revisa la técnica de regresión lineal múltiple, explicando article reviews the multiple linear regression technique, explaining
cómo opera y cuándo se utiliza. Se analiza un ejemplo utilizando el how it operates and when it is used. An example is analysed using
Software Epi Info, detallando la información entregada por el Epi Info Software, detailing the information provided by the
programa, cuál es su explicación y cómo se interpreta. Se explica program, its explanation and how it is interpreted. An explanation
cómo introducir variables categóricas en el modelo de regresión lineal is given on how to introduce categorical variables in the multiple
múltiple mediante la creación de variables dummy. Finalmente, se linear regression model by creating dummy variables. Finally, an
explica la importancia de revisar los supuestos del modelo y asegurar explanation is provided on the importance of reviewing the
un tamaño de muestra adecuado para que la estimación de assumptions of the model and insure a sample size adequate for the
coeficientes del modelo sea correcta. estimation of the model coefficients to be correct.
(Salinas M, Silva C. 2007. Modelos de Regresión y Correlación II. Keywords: LINEAR MODELS; REPRODUCIBILITY OF RESULTS,
Regresión Lineal Múltiple. Cienc Trab, Ene-Mar.;9 (23):39-41) REGRESSION ANALYSIS.
Descriptores: MODELOS LINEALES, REPRODUCIBILIDAD DE RESUL-

TADOS, ANÁLISIS DE REGRESIÓN.
INTRODUCCIÓN • Determinar la importancia relativa de la asociación lineal entre

la respuesta y un predictor respecto a la asociación entre ella
Continuando con el artículo de educación del número anterior de y otro predictor. ¿Cuáles de los predictores propuestos son los
Ciencia & Trabajo, revisaremos los principales aspectos del eficaces para modelar la respuesta en forma sencilla?
método de regresión lineal múltiple. Es recomendable haber leído • Estimar la relación lineal entre los predictores y la variable
previamente el artículo mencionado. respuesta a partir de nuestros datos: ¿Cuál sería el modelo
La regresión lineal múltiple es una técnica que intenta modelar lineal que recomendaríamos más adecuado, sencillo, pero rela-
probabilísticamente el valor esperado de una variable Y, a partir tivamente preciso?
de los valores de dos o más predictores. Es un método muy pode- La regresión lineal múltiple es matemáticamente similar a la
roso y ampliamente utilizado en investigación (Canavos 1988) regresión lineal simple (Taucher 1997, Polit y Hungler 2000),
para: tomando la siguiente forma:
• Determinar la posibilidad de predecir a través de una expresión
muy simple el valor de la respuesta de interés, a partir de los Y = β0 + β1*X1 + β2*X2 + … + βp*Xp + e (1)
valores observados de una serie de factores (por ejemplo: riesgo
de silicosis, a partir de edad, tiempo trabajando expuesto a Donde:
sílice, uso de elementos de protección, etc.). ¿Son los predictores Y Variable respuesta
propuestos adecuados para modelar en forma lineal la respuesta β0 Intercepto
de interés?
β1 Pendiente del predictor X1
β2 Pendiente del predictor X2
βp Pendiente del predictor Xp
e Parte de la variabilidad de la respuesta correspondiente a un
perfil dado de los predictores no explicada por el conjunto de los
distintos predictores; parte aleatoria del modelo de regresión
múltiple.
Correspondencia / Correspondence:
Mauricio Salinas F.
Fundación Científica y Tecnológica ACHS El método de estimación de parámetros es equivalente al modelo
Diagonal Paraguay 29, piso 4, Santiago de regresión lineal simple (Salinas y Silva 2007), pero en este
Tel.: (56-2) 685 29 61 caso se realiza a través de matrices. El detalle de la estimación
e-mail: msalinasf@achs.cl mediante matrices es relativamente complejo y escapa a los obje-
Recibido: 17 de Enero de 2007 / Aceptado 30 de Enero de 2007 tivos de este artículo de educación, por lo cual no será revisado.
Ciencia & Trabajo | AÑO 9 | NÚMERO 23 | ENERO / MARZO 2007 | www.cienciaytrabajo.cl | 39/41 39
Artículo Original | Salinas Mauricio
Los cálculos y valores de los estimadores que se requieren en los ponde al Coeficiente de Determinación; el coeficiente de correla-
ejemplos siguientes se pueden obtener mediante el programa Epi ción es la raíz cuadrada de éste).
Info, de distribución gratuita y que se puede descargar en la Por último, tenemos una tabla donde se presentan los valores de
dirección de Internet www.cdc.gov/epiinfo/. la suma y media de cuadrados, los grados de libertad (g.l.) y la
estadística F.
A continuación analizaremos un ejemplo. Las distintas pruebas de significación que se pueden aplicar en
Tenemos los siguientes datos obtenidos de una muestra aleatoria modelos de regresión las veremos en otro capítulo de esta serie,
de 19 individuos, en relación a Presión Arterial Sistólica (PAS), así que por el momento no analizaremos la estadística F, y sólo
edad y peso. utilizaremos el valor–p obtenido.
Tabla 1. Como se explicó en el artículo sobre regresión lineal simple, para
Presión Arterial Sistólica, Edad y Peso para una muestra de 19 individuos.. cada punto de la muestra tenemos asociados tres valores:
Σ (y – y)2: Corresponde a la variabilidad total de la respuesta PAS
Id Presión Arterial Sistólica Edad Peso hallada en la muestra, sin prestar atención a la relación que ella
(mmHg) (años) (Kg)
pueda tener con el predictor Edad. En el ejemplo corresponde al
1 118 35 89 valor 3874,632.
2 140 37 76
3 130 25 77 Σ (y – y)2: Se asocia a la ganancia en “variabilidad explicada” al
4 125 20 71 pasar nosotros de un modelo elemental que prediga para todas
5 137 40 89 las edades (xi ) el mismo valor y de PAS, a otro y que toma en
6 114 28 80 cuenta la influencia lineal que Edad parece tener sobre PAS. Ésta
7 105 23 75 es la variabilidad que está siendo explicada por el modelo de
8 139 39 85 regresión y en este caso equivale a 1959,484.
9 154 38 86
10 128 30 81 Σ (y – y)2: Se asocia a las diferencias entre cada PAS observada
11 111 20 75 (y) y la predicha (y) por el modelo de regresión lineal simple a
12 119 23 73 partir de la información Edad. Es la variabilidad de Y=PAS no
13 160 45 90 atribuible a las diferencias en Edad y se llama Residuo. El valor
14 131 48 91 de la suma de cuadrados de los 19 residuos es 1915,148.
15 127 37 90
16 119 31 83 Si dividimos la suma de cuadrados del modelo sobre la total, es
17 130 33 82 decir 1959,484/3874,32, obtenemos el valor del coeficiente de
18 142 38 84 determinación: 0,506 (r2)
19 149 38 90 El método para realizar pruebas de significación lo veremos en
otro capítulo, así que, por el momento, podemos concluir lo
Analicemos primero la relación entre la variable respuesta PAS siguiente de la información entregada respecto a la Edad:
y Edad mediante una regresión lineal simple. Definiremos como 1. Tiene una asociación positiva con la PAS, ya que la pendiente
significativa una relación con un valor-p menor a 0,05, que es muestral (el coeficiente 1,275) es de signo positivo.
una convención muy frecuente. 2. La asociación es estadísticamente significativa, de acuerdo a
Una vez digitados los datos en Epi Info, pedimos se estime a nuestra definición previa: valor–p de la edad 0,001.
partir de ellos una regresión lineal y obtenemos lo siguiente: 3. El r2 es 0,51, es decir, la edad explica el 51% de la variabilidad
de PAS, en nuestra muestra.
Variable Coeficiente Error Estándar F Valor-P
EDAD 1,275 0,306 17,3936 0,001 Veamos ahora la relación entre PAS y Peso. El Epi Info nos
INTERCEPTO 88,272 10,396 72,1004 0,000 entregará:
Podemos ver que el peso es también un predictor estadística-
Coeficiente de Determinación: r2= 0.51
gl Suma de Cuadrados Cuadrado Medio F PESO 1,193 0,464 6,6221 0,020
Modelo 1 1959,484 1959,484 17.394 INTERCEPTO 32,001 38,358 0,6960 0,416
Residuo 17 1915,148 112,656
Total 18 3874,632 Coeficiente de Determinación: r2= 0.28
gl Suma de Cuadrados Cuadrado Medio F

La primera tabla nos muestra el coeficiente asociado a la edad, Modelo 1 1086,198 1086,198 6,622
es decir, el valor de la pendiente (los valores β de la fórmula 1), Residuo 17 2788,434 164,026
el error estándar, el valor de la estadística F y su p-value Total 18 3874,632
asociado.
Después aparece el coeficiente de determinación (r2) ya explicado mente significativo de la PAS, con un p value de 0,02. El peso
en el capítulo anterior (Silva y Salinas 2007). (El Epi Info lo logra explicar, de acuerdo a nuestros datos, el 28% de la variabi-
informa por error como “Correlation Coeficient”, ya que corres- lidad total de la PAS.
40 39/41 | www.cienciaytrabajo.cl | AÑO 9 | NÚMERO 23 | ENERO / MARZO 2007 | Ciencia & Trabajo
Artículo Original | Modelos de Regresión y Correlación II. Regresión Lineal Múltiple
Considerando que tanto la Edad como el Peso son predictores de categorías en cuestión. Analicemos el ejemplo de la Tabla 2,
la PAS, podemos considerar utilizarlas en conjunto. Esto nos donde tenemos una variable predictora “Color de Ojos” que tiene
permitiría: tres categorías.
Mejorar nuestra predicción.
Disminuir el error o residuo del modelo. Tabla 2.
Cuantificar la importancia de cada predictor en conjunto. Ejemplo de creación de variables binarias para la variable categórica
“Color de Ojos”.
Entonces, procedemos a estimar un modelo que contiene los dos COLOR DE OJOS S1 S2 S3
predictores obteniendo lo siguiente: Verde 1 0 0
Azul 0 1 0
Marrón 0 0 1
EDAD 1,853 0,619 8,9693 0,009
PESO -0,834 0,777 1,1494 0,301 En este caso hemos creado tres variables binarias, denominadas
INTERCEPTO 137,934 47,465 8,4451 0,011 S1, S2 y S3 que permiten introducir la variable en el modelo de
regresión. S1 representa el color de ojos verde; S2 el color de ojos
Coeficiente de Determinación: r2= 0.54 azul y S3 el color de ojos marrón.
Generalmente se introducen dos de estas variables en el modelo
gl Suma de Cuadrados Cuadrado Medio F (S1 y S2, por ejemplo) y se deja una de ellas como valor de refe-
Modelo 2 2087,843 1043,922 9,348 rencia (S3, por ejemplo). Este tipo de variables binarias son
Residuo 16 1786,788 111,674 llamadas variables dummy.
Total 18 3874,632 Para variables categóricas con más de tres niveles, se opera de la
misma forma. En general, una variable categórica de k niveles
Al generar un modelo combinado, podemos ver que la Edad deberá representarse mediante k-1 variables binarias.
continúa siendo un predictor estadísticamente significativo, no
así el Peso. Esto quiere decir que la Edad logra una predicción
buena y mejor que la del Peso; la predicción de la Edad no logra SUPUESTOS
ser mejorada por la adición del Peso al modelo. De hecho, el r2
del modelo PAS vs. Edad es 0,51, apenas menor que el r2 de este El modelo de regresión lineal múltiple requiere que se satisfagan
modelo (0,54). básicamente los mismos supuestos que el modelo de regresión
lineal simple. Como se planteó en el primer artículo de esta serie,
tales supuestos deben ser verificados en cada situación problema
UTILIZACIÓN DE VARIABLES CUALITATIVAS para no provocar errores de modelación de la información reci-
bida (Gujarati 1997).
Frecuentemente, al utilizar regresión lineal múltiple, parece dese- Otro punto importante a tener en cuenta si se desea generar un
able tener en consideración una o más variables cualitativas modelo de regresión múltiple es el tamaño (n) de la muestra.
(nominales u ordinales). Cuando se utiliza una variable que tiene Mientras más predictores se quiera incorporar en el modelo
dos categorías posibles (sexo, por ejemplo), ella es ingresada en mayor será el valor de n necesario para poder estimar eficiente-
el modelo e interpretada de igual forma que las variables cuanti- mente los coeficientes de la regresión. En forma muy gruesa,
tativas, pero llevándola a valores binarios 0 y 1. podemos decir que se requiere al menos 10 observaciones por
Cuando se trata de una variable categórica X que tiene tres cate- cada predictor en el modelo. Sin embargo, existen métodos espe-
gorías, deberemos reemplazarla por variables binarias (valores 1 cíficos para estimar el tamaño muestral adecuado en el estudio
y 0), cuyas combinaciones identificarán inequívocamente las 3 de un modelo de regresión.
REFERENCIAS
Canavos G. 1988. Análisis de regresión: el modelo lineal simple. En: Investigación Científica en Ciencias de la Salud. 6a ed. México: Mc Graw
Probabilidad y estadística: aplicaciones y métodos. 1a ed. México: Mc Graw- Hill. p. 485 – 520.
Hill. p. 443-502. Silva C, Salinas M. 2007. Modelos de Regresión y Correlación. Revista Cienc
Gujarati D. 1997. Econometría. 3a ed. Colombia: Mc Graw Hill. Trab, Oct – Dic; 8 (22). 185 – 9.
Polit D, Hungler B, eds. 2000. Procedimientos estadísticos multivariados. En: Taucher E. 1997. Bioestadística. 1a ed. Santiago: Editorial Universitaria.
Ciencia & Trabajo | AÑO 9 | NÚMERO 23 | ENERO / MARZO 2007 | www.cienciaytrabajo.cl | 39/41 41

Trabajo de Regresion Lineal

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Trabajo de Regresion Lineal

Uploaded by

Copyright:

Available Formats

Artículo de Educación

Modelos de Regresión y Correlación II. Regresión Lineal Múltiple

Mauricio Salinas F1, Claudio Silva Z2

Descriptores: MODELOS LINEALES, REPRODUCIBILIDAD DE RESUL-

INTRODUCCIÓN • Determinar la importancia relativa de la asociación lineal entre

gl Suma de Cuadrados Cuadrado Medio F

You might also like