You are on page 1of 8

Universidad Diego Portales

Facultad de Historia y Ciencias Sociales


Escuela de Sociologa
Anlisis avanzado de datos

TAREA 4: REGRESIN NO LINEAL

Nombre: Enzo Isola


Profesora: Berta Teitelboim
Ayudantes: Tamara Nova/ Nicols Arancibia
Fecha: 2/10/2013

FACTORES QUE DETERMINAN EL INGRESO EN EL HOGAR


La presenta tarea tiene por finalidad encontrar un modelo de regresin lineal que permita
estimar cuanto vara el ingreso en el hogar a partir de las siguientes variables: Edad y Aos
de escolaridad.
I) Anlisis descriptivo

N
Edad (aos
cumplidos)
Aos de escolaridad

501
0
501
0
475
1
475
1

inghora
Valid N (listwise)

Descriptive Statistics
Minimu
Maximum
Mean
m
15
90
40,85

Std. Deviation
13,680

22

10,89

3,876

45,27

256750,0
0

2631,629
8

5801,11145

En primer lugar podemos observar que en trminos de edad las personas que componen
esta muestra estn entre los 15-90 aos, con un promedio de 40,8 aos y con una desviacin
estndar de 13,6, esto quiere decir, que el 70% de la muestra tienen entre 27 y 53 aos.
Por otro lado en cuanto a aos de escolaridad tenemos desde personas que no tienen
escolaridad (0 aos) hasta quienes tiene estudios de postgrado. En este caso la media es de
10,8 aos y la desviacin estndar de 3,8; para esta variable el 70% de los casos tendrn
entre 7 y 13 aos de escolaridad, es decir, entre sptimo bsico y tercero medio.
Finalmente nuestra variable dependiente (ingreso) nos da muestra de una alta amplitud al
tener como mnimo 45 mil pesos y como mximo 2 millones de pesos. Con una media
cercana a los 260 mil pesos y con una desviacin estndar de 58 mil pesos, el 70% de las
personas de esta muestra tendr un ingreso en el hogar de 210 mil pesos y 318 mil pesos.
II) Anlisis Bivariado

Edad (aos
cumplidos)

inghora

Pearson
Correlation
Sig. (2-tailed)

Correlations
Edad (aos cumplidos)
1

N
Pearson
Correlation
Sig. (2-tailed)

5010
,030*

4751

inghora
,030*

Aos de escolaridad
-,309**

,038

,000

4751
1

5010
,190**

,038

,000
4751

4751

Aos de escolaridad

Pearson
Correlation
Sig. (2-tailed)

N
*. Correlation is significant at the 0.05 level (2-tailed).
**. Correlation is significant at the 0.01 level (2-tailed).

-,309**

,190**

,000

,000

5010

4751

5010

Teniendo como variable independiente ingreso en el hogar, podemos apreciar que tanto
edad como aos de escolaridad son estadsticamente significativas al tener una
significacin menor a 0,05, sin embargo es la variable aos de escolaridad la que se
relaciona con ms intensidad en trminos de Pearson (0,190). A continuacin se realizarn
dos modelos de regresin lineal uno en relacin a ingreso en el hogar y edad; el otro ser
con las variables ingreso en el hogar y aos de escolaridad. Para ambos casos se analizar
si es mejor un modelo de regresin simple o uno cuadrtico1.
III) Regresin lineal: Simple y Cuadrtica
Primero analizaremos la relacin entre edad y aos de escolaridad.
R

R
Square
,036

Model Summary
Std. Error of the Estimate

Adjusted R
Square
,036

,
190
The independent variable is Aos de escolaridad .

5695,784

El resumen del modelo para esta regresin lineal simple nos indica que a partir de esta
relacin, se est explicando el 36% de la variable independiente, es decir, que el 36% del
ingreso en el hogar se explica por los aos de escolaridad del jefe de hogar.

Regressio
n
Residual

Sum of Squares
5784416523,764

df
1

ANOVA
Mean Square
5784416523,76
4
32441952,023

F
178,30
1

Sig.
,000

154066830157,47
474
0
9
Total
159851246681,23
475
4
0
The independent variable is Aos de escolaridad .

En cuanto a Anova, tenemos que la significacin de 0,000, por ende es estadsticamente


significativa la diferencia entre los aos de escolaridad de los jefes de hogar a la hora de ser
un factor determinante del ingreso en el hogar.

Aos de

Unstandardized
Coefficients
B
Std. Error
285,642
21,392

Coefficients
Standardized
Coefficients
Beta
,190

Sig.

13,35

1 En caso de que no se cumpla el principio de normalidad, en ambos casos se realizarn los procedimientos
para crear un modelo logartmico.

,000

escolaridad
(Constant)

-490,168

3
-1,977

247,965

,048

En el anlisis de los coeficientes es posible decir que por cada ao extra de escolaridad el
ingreso en el hogar aumenta en 285 mil pesos.
Pues bien el modelo de regresin simple nos ha permitido explicar el 36% de nuestra
variable independiente, vamos a ver qu sucede con un modelo de regresin cuadrtico
R

R
Square
,061

Model Summary
Std. Error of the Estimate

Adjusted R
Square
,060

,
247
The independent variable is Aos de escolaridad .

5622,925

El resumen del modelo nos indica que bajo esta lgica es posible explicar un 61% de la
variable independiente, es decir, que un 61% del ingreso en el hogar est determinado por
los aos de escolaridad del jefe de hogar.

Regressio
n
Residual

Sum of Squares
9732364298,453
150118882382,781

df
2

ANOVA
Mean Square
4866182149,22
6
31617287,781

F
153,90
9

Sig.
,000

474
8
Total
159851246681,23
475
4
0
The independent variable is Aos de escolaridad .

Anova es de 0,000, y, al igual que en el modelo anterior, la diferencia en los aos de


escolaridad de los jefes de hogar suponen una diferencia estadsticamente significativa en
relacin al ingreso en el hogar.

Aos de escolaridad
Aos de escolaridad
** 2
(Constant)

Unstandardized
Coefficients
B
Std. Error
-603,748
82,346
43,944
3,933
3325,450

420,143

Coefficients
Standardized
Coefficients
Beta
-,402
,613

Sig.

-7,332
11,174

,000
,000

7,915

,000

En cuanto al anlisis de los coeficientes podemos decir que aos de escolaridad2 posee un
coeficiente beta ms alto que aos de escolaridad, por tanto es esta segunda forma nos
permite hacercarnos ms hacia un mejor modelo de regresin (por ms que ambas variables
sean estadsticamente significativas).
La ecuacin quedara de la siguiente forma: Inghora= 3325,450 + aos de escolaridad*
-603,748 + aos de escolaridad2* 43,944.

En este caso podemos ver como el modelo de regresin cuadrtica explica de mejor manera
el ingreso en el hogar. En el grfico anterior podemos ver que existe una tendencia al
aumento del ingreso en el hogar en la medida que aumentan los aos de escolaridad del jefe
de hogar. Por ende hemos comprobado el principio de normalidad.
En cuanto a la relacin entre Edad e ingreso en el hogar podemos ver lo siguiente:
Model Summary
R
R
Adjusted R
Square
Square
,
,001
,001
030
The independent variable is Edad (aos cumplidos).

Std. Error of the Estimate


5799,106

El resumen del modelo indica que es por medio de la edad es posible explicar la variable
independiente en un 30% (la mitad que con los aos de escolaridad en el modelo de
regresin cuadrtica).

Regressio
n
Residual

Sum of Squares
144153824,646

df
1

ANOVA
Mean Square
144153824,64
6
33629625,786

F
4,28
7

Sig.
,038

159707092856,58
474
8
9
Total
159851246681,23
475
4
0
The independent variable is Edad (aos cumplidos).

Anova nos dice que la edad es estadsticamente significativa al ser menor a 0,005, por ende
las diferencias en las edades de los jefes de hogar, es indicador de un diferente ingreso en el
hogar.
Unstandardized

Coefficients
Standardized

Sig.

Coefficients
B
Std. Error
12,839
6,201

Edad (aos
cumplidos)
(Constant)

2107,596

Coefficients
Beta
,030

266,726

2,07
0
7,90
2

,038
,000

El presente modelo de regresin simple indica que por cada ao nuevo cumplido por el jefe
de hogar, el ingreso en el hogar variar en 12 mil pesos.
A continuacin se realizar un modelo de regresin cuadrtica para analizar cul es el mejor
modelo.
R

R
Square
,001

Model Summary
Std. Error of the Estimate

Adjusted R
Square
,001

,
033
The independent variable is Edad (aos cumplidos).

5799,153

En cuanto a R, este solo aumento a un 33%


Regressio
n
Residual

Sum of Squares
175192261,118
159676054420,116

df
2

ANOVA
Mean Square
87596130,55
9
33630171,52
9

F
2,60
5

Sig.
,074

474
8
Total
159851246681,23
475
4
0
The independent variable is Edad (aos cumplidos).

Anova arroja una significacin del 0,74, por tanto edad2 no es estadsticamente significativo

Como podemos ver en este grfico no se cumple el principio de normalidad, ya que no


existe una relacin lineal entre edad e ingreso en el hogar. Sin embargo en el modelo de
regresin simple obtuvimos una significacin estadsticamente relevante. Para pode
resolver este problema se realizar un modelo logartmico.
III) Modelo de regresin no lineal: Modelo logartmico
Model Summaryb
Mode
l
1

R
Square
,006

Adjusted R
Square
,005

Std. Error of the Estimate

,
076a
a. Predictors: (Constant), edada
b. Dependent Variable: ingresoa

,80202

El resumen del modelo nos indica que R explica un 76% del modelo (mucho ms que en
los experimentos anteriores).
Model

Regressio
n
Residual

Sum of
Squares
17,514

3054,74
9
Total
3072,26
3
a. Dependent Variable: ingresoa
b. Predictors: (Constant), edada

df

1
474
9
475
0

ANOVAa
Mean
F
Squar
e
17,514
27,22
8
,643

Sig.

,000b

En este caso tenemos que Anova es significativo, por ende las diferencias en las edades de
los jefes de hogar si generan diferencias entre los ingresos que los hogares reciben.
Model

Unstandardized
Coefficients
B
Std. Error
6,811
,121

(Constant
)
edada
,173
a. Dependent Variable: ingresoa

,033

Coefficientsa
Standardized
Coefficients
Beta

,076

Sig.

56,14
4
5,218

Este modelo de regresin logartmica nos indica que por cada 1% que aumente el ingreso
en el hogar, la edad de los jefes de hogar deber aumentar en un 1,73%.

,000
,000

Este fue el resultado de la transformacin de las variables ingreso en el hogar y edad a


variables logartmicas. Como vemos si bien no es perfectamente normal, hemos podido
darle una forma que se asemeja mucho a un modelo lineal. Entre otras cosas porque la
relacin entre ingreso y edad nunca es totalmente lineal, ya que a partir de los 50 aos el
ingreso empieza a descender hasta la edad de jubilacin, por tanto nunca existir una
relacin totalmente lineal entre estas dos variables.

You might also like