Professional Documents
Culture Documents
'
0
1
i
y
, Si la persona i decide participar
, Si la persona i no decide participar
Variables politmicas. Estas toman ms de dos posibles valores. Pueden ser
ordinales (Primero-Segundo-Tercero) o nominales (Azul, verde, rojo).
Vemos que en ninguno de estos contextos parece posible utilizar un anlisis de
regresin simple clsico. Sin embargo, en todos ellos es posible construir
modelos que enlazan la decisin o resultado con un conjunto de valores, con la
misma filosofa que en el anlisis de regresin.
2.2 EL MODELO DE PROBABILIDAD LINEAL Y SUS PROBLEMAS
Segn lo anterior resulta conveniente agrupar los modelos en dos grandes clases,
binomial y multinomial, dependiendo si el resultado es la eleccin entre dos
alternativas o entre ms.
En el caso de la eleccin de participar o no en el mercado de trabajo cada
individuo tiene la probabilidad p de estar en una de las dos categoras, y 1-p
de encontrarse en la otra categora complementaria. Entonces la probabilidad de
que Z de los N individuos participen del mercado laboral es:
z n z
p p
z
N
z Z P
,
_
) 1 ( ) ( , (2.1)
donde z= 0,1,2,3,....N.
Por ello, se hace necesaria la utilizacin de modelos que expliquen esta variable,
en ese sentido comenzamos por definir la relacin de la variable dependiente y
las variables regresoras.
Consideremos el caso de una variable dependiente binaria, y , la cual viene
explicada por un conjunto de predictores x
1
,x
2
, ..., x
k
.
Observemos que, por ser y una variable con distribucin binomial ) P , 1 ( B y ,
donde siempre se cumplir que:
[ ] ) 1 ( ) 1 ( . 1 ) 0 ( . 0 / + y P y P y P x y E (2.2)
Por otra parte, podemos pensar en utilizar un modelo de regresin lineal
mltiple para explicar el comportamiento de la variable y , esto es.:
x .. x x y
k k 2 2 1 1 0
+ + + + + = (2.3)
Bajo el supuesto habitual de que E[] = 0, y suponiendo conocidos los valores
que toman las variables explicativas (observaciones), tendremos que:
[ ]
k k 2 2 1 1 0
x .. x x x | y E + + + + = (2.4)
Igualando las expresiones obtenidas para E[y / x] (2.2) y (2.4), se tiene el llamado
modelo de probabilidad lineal
+ + + + y x .. x ) 1 y ( P
k k 2 2 1 0
(2.5)
Observar que esta expresin nos viene a decir que podemos expresar la variable
dependiente binaria y como la probabilidad de "xito" ms un trmino de
perturbacin, es decir:
[ ] x / y E ) 1 y ( P y + = + = = (2.6)
Sin embargo, este modelo inicial no ser preciso para explicar el comportamiento
de variables dependientes binarias, pues presenta varios problemas:
1. El trmino de perturbacin ) x ... x x ( y
k k 2 2 1 1 0
+ + + + = - ya no ser
una variable aleatoria continua (como ocurra en el Modelo de Regresin Lineal
Mltiple -MRLM), sino que ser una variable aleatoria discreta puesto que,
conocidos los valores de las variables explicativas, slo puede tomar dos
valores determinados. Por tanto, ya no se distribuir de forma normal uno de
los supuestos bsicos del MRLM. Si bien este supuesto no resulta estrictamente
necesario para aplicar Mnimos Cuadrados Ordinarios (MCO), s es fundamental
a la hora de realizar cualquier tipo de inferencia posterior sobre el modelo
(intervalos de confianza para los parmetros estimados, contrastes de hiptesis,
etc.).
2. El trmino de perturbacin no cumple la hiptesis de homocedasticidad (la
varianza de dicho trmino no es constante). Debido a este problema, los
estimadores MCO no sern eficientes, por lo que resultar necesario recurrir a la
estimacin por Mnimos Cuadrados Generalizados (MCG).
3. Como la variable dependiente y slo puede tomar los valores 0 y 1, si
representamos grficamente la nube de puntos formada por los pares de
observaciones de y con una de las variables explicativas x, obtendremos puntos
situados sobre las rectas y = 1 e y = 0.
Al estimar los parmetros del modelo de probabilidad lineal, estaremos ajustando
una recta a la nube de puntos definida por los valores de y . El uso de dicha recta
para predecir nuevos valores de y , valores de P(y = 1) = y - , a partir de
valores dados de x puede proporcionar valores mayores que 1 o menores que 0
(lo cual est en contradiccin con la definicin de probabilidad).
Grafico N 1
Modelo de Probabilidad Lineal con un variable independiente
4. Finalmente, la expresin
k k 2 2 1 1 0
x .. x x ) 1 y ( P + + + + = = nos dice que la
probabilidad del suceso "xito" viene determinada por una combinacin lineal de
variables explicativas. De ello se deduce que el efecto marginal esta dado por
i
i
x
y P
) 1 (
K
i
,..., 3 , 2
En otras palabras, la variacin en P(y = 1) causada por cambios en alguna de las
variables explicativas es constante (por tanto, independiente del valor actual de
dicha variable explicativa), lo cual es una hiptesis muy poco realista.
0
1
2
18 20 22 24 26 28 30
Xi
Yi P(Y=1)
Y=Bo+B1X
Ahora usaremos la notacin ) / 1 ( x y P , para indicar que la dependencia es con
respecto a los valores que toma las variables explicativas x
1
,x
2
, ...,x
k
.
Entonces la variable y tiene:
) / 1 ( ) ( x y P y E
)) / 1 ( 1 )( / 1 ( ) ( x y P x y P y V
Asimismo :
x x y P ' ) / 1 (
Entonces cmo debera ser la funcin P( y =1/ x)?, para algunos valores
extremos de x deber ser prximo a 0 y para otros valores extremos deber ser
prximo a 1, y para los otros valores deber tomar valores intermedios. Las
funciones que cumplen esto son las Distribuciones de Probabilidad Acumulada.
La ventaja de usar este tipo de funciones es doble, por un lado se soluciona el
problema de acotamiento de la probabilidad y por otro lado las probabilidades no
se estiman mediante una funcin lineal. Esto ltimo es adecuado cuando el
modelo presenta diversas variables explicativas, y no todas se ajustan de manera
lineal.
El modelo se formula mediante la relacin no lineal del tipo:
) x ' ( F ) x / 1 y ( P = =
siendo F una funcin de distribucin acumulada.
Utilizando esta solucin, tres son los modelos ms estudiados:
Modelo uniforme. Toma como F la distribucin uniforme,
'
>
<
1 x ' si 1
1 x ' 0 si x '
0 x ' si 0
) x ' ( F ) x / 1 y ( P
Este modelo no proporciona buenos resultados y es poco utilizado.
Modelo probit. Toma como F la distribucin normal,
x x
dt t dt t x F x y P
' '
2
) ( )
2
1
exp(
2
1
) ' ( ) / 1 (
La funcin de distribucin normal estndar se representa como (.) .
Modelo logit. Toma como F la distribucin logstica,
) ' exp( 1
1
) ' exp( 1
) ' exp(
) ' ( ) 1 (
x x
x
x F y P
+
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FACULTAD DE CIENCIAS MATEMTICAS
E.A.P. DE. ESTADSTICA
Modelos Probit y Tobit aplicados al estudio de la oferta
laboral de los trabajadores secundarios en el Per
Captulo 3. Modelo Probit
MONOGRAFA
Para optar el Ttulo de Licenciado en Estadstica
AUTOR
Edgard Abanto Millones
LIMA PER
2003
CAPTULO III
MODELO PROBIT
3.1INTRODUCCIN
En el captulo anterior se mostr el modelo de probabilidad lineal, que es una
aplicacin sencilla del modelo de regresin lineal mltiple a una variable
dependiente binaria. La cualidad discreta de y no significa en s que los modelos
lineales sean inadecuados, pero como vimos, el modelo de probabilidad lineal
tiene ciertos inconvenientes. Las dos desventajas ms importantes que presenta
son que las probabilidades ajustadas pueden ser menores a cero o mayores que
uno y que el efecto marginal de cualquier variable explicativa es constante. Sin
embargo, se present de manera general algunos modelos tales como el Logit y el
Probit, que salvan las deficiencias del Modelo de Probabilidad Lineal (MPL), la
desventaja es que la interpretacin de sus resultados no es tan sencilla.
3.2 FORMULACIN DEL MODELO PROBIT
En el MPL, suponemos que la probabilidad de respuesta es lineal en el conjunto
de parmetros ; para evitar las limitaciones del MPL, se considera una clase
especial de modelos de respuesta binaria de la forma:
P(y =1| x)= F(
0
+
1
x
1
+
2
x
2
+...+
n
x
n
)=F (x) (3.1)
Donde F es una funcin que asume valores que se hallan estrictamente entre
cero y uno 0<F(x)<1, para todos los nmero reales. Esto asegura que todas las
probabilidades de respuestas estimadas se hallen estrictamente entre cero y uno.
En este captulo se analizar el modelo Probit el cual ser la base para el
problema planteado al inicio de trabajo. Donde F es la funcin de distribucin
acumulada normal estndar, que se expresa como una integral:
= = = =
x x
dt t dt t x F y P
' '
2
) ( )
2
1
exp(
2
1
) ' ( ) 1 (
(3.2)
y
) 2 exp( ) 2 ( ) (
2 2 1
t t =
La funcin F en (3.2) es creciente. F(t) 0 cuando t - y F(t) 1 cuando
t . La funcin Probit se presenta en la grfica N 2.
Grfico N 2
Funcin Probit
= = = =
x x
dt t dt t X F y P
' '
2
) ( )
2
1
exp(
2
1
) ' ( ) 1 (
3.2.1Modelo de Variables Latentes
Los Modelos de Respuesta Binaria (MRB) pueden ser desarrollados usando una
variable latente la cual satisface las suposiciones del modelo lineal clsico. En los
MRB se supone que hay una variable no observada y * que toma valores
continuos tal que para aquellos valores mayores a un valor a, y = 1 y para
aquellas valores de y * menores que a, y =0 . En otras palabras los MRB
aparecen con frecuencia como modelos con funcin ndice la cual es el resultado
de una eleccin discreta en base a una regresin subyacente.
Siguiendo con nuestro problema planteado en el captulo I, es decir, la decisin
del trabajador secundario de participar en el mercado laboral, el individuo hace
un clculo entre la cantidad de consumo y ocio que pueden comprar dadas las
restricciones impuestas por el ingreso familiar disponible, el ingreso no laboral y
laboral, y con el beneficio que podra generar otra decisin. Puesto que la
cantidad de consumo evidentemente no es observable, ajustamos la diferencia
entre el consumo y el beneficio de otra decisin con una variable no observable
y* que cumple
y* = x + (3.3)
Supongamos que la distribucin del error es normal con media cero y varianza
uno.
No observamos el beneficio neto de decidir participar en la oferta laboral, slo si
sta se hace o no. Por lo tanto, nuestra observacin es
y =1 si y * > a
y =0 si y * a
Con esta formulacin, x recibe el nombre de funcin ndice, donde a es el
umbral o punto de corte.
La conexin entre la variable latente y * y la observada y es mostrada en la
figura N 3 para el modelo 3.3 . En la figura y * esta en el eje vertical, con un
umbral =0 indicado por la lnea horizontal punteada. La distribucin de y *
muestra una curva acampanada, cuando y * es mayor que , indicado por la
regin sombreada, se observa y =1.
Como vemos el modelo no puede ser estimado con MCO, por ello usamos la
estimacin por Mxima Verosimilitud que requiere conocer la distribucin de los
errores. Para el modelo Probit asumimos que el error sigue una distribucin
normal con media 0 y varianza 1, la hiptesis de que el umbral es cero puede
facilitar los clculos, sin embargo puede tomar cualquier valor.
Grfico N 3
La distribucin de y* dado x en la Distribucin de Respuesta Binaria
La probabilidad del suceso y=1 es:
Prob ( y = 1) = Prob ( y * > 0)
= Prob (x + > 0)
= Prob ( > - x )
Si la distribucin es simtrica, como la distribucin normal,
Prob ( y = 1) =Prob ( y * > 0)
= Prob ( < x )
= F (x)
De este modo se obtiene un modelo estructural para la probabilidad.
3.3 ESTIMACIN DE MXIMA VEROSIMILITUD DEL MODELO
PROBIT
Todos los modelos de eleccin binaria, excepto el modelo de probabilidad lineal,
se estiman habitualmente por el mtodo de Mxima VerosimilItud. Cada
observacin se considera como realizacin individual de una variable aleatoria
con distribucin Bernoulli (es decir binomial con n=1). La probabilidad conjunta,
o funcin de verosimilitud, de un modelo con probabilidad de xito F(x) y
observaciones independientes es
= =
= = = =
1 0
2 2 1 1
) ' ( ) ) ' ( 1 ( ) ,..., , ( Pr
i i
y y
n n
x F x F y Y y Y y Y ob (3.4)
Podemos re escribir esta frmula como
[ ] [ ]
i
y 1
n
0 i
i
y
) x ' ( F 1 ) x ' ( F L
=
= (3.5)
Esta es la funcin de verosimilitud para una muestra de n observaciones.
Tomando logaritmos obtenemos:
[ ]
+ =
=
x
x F
x f
yi
x F
x f
y
L
n
i
i
(3.7)
A menos que se utilice el modelo de probabilidad lineal, las ecuaciones
contenidas en (3.7) sern no lineales y habrn de resolverse con mtodos
numricos. Para los MRB, los estimadores de mximo verosimilitud son
obtenidos igualando la primera derivada (o gradiente) a 0 y haciendo uso del
lgebra. Sin embargo, en los modelos no lineales es raramente posible encontrar
la solucin usando lgebra. En consecuencia, se usa los mtodos numricos para
encontrar estimadores que maximicen la funcin de verosimilitud. Los mtodos
numricos empiezan con un supuesto de los valores e iterando para mejorar la
suposicin.
Uno de los mtodos ms utilizados es el conocido mtodo del tanteo. El mtodo
de tanteo (Scoring) usa la informacin de la matriz de informacin, las
estimaciones Probit se obtienen como resultado de varias etapas:
f
f f f
l
I
+ =
+
) (
1
1
(3.8)
donde los subndices indican el nmero de iteraciones necesarias para hallar la
solucin. El proceso se detiene cuando la diferencia entre
1 + f
y
f
se acerca lo
suficiente a cero.
) (
f
I
es una estimacin de la matriz de informacin de Fisher (matriz cuadrada
y simtrica del negativo de las derivadas de segundo orden del logaritmo de la
funcin de verosimilitud, por lo que la mxima verosimilitud logartmica es
globalmente cncava
2
) evaluada en el ltimo supuesto.
2
Mtodos de Econometra. J. Johnston. 1997. Una de las caractersticas del modelo probit (o logit) es que las
funciones mximo de verosimilitud son globalmente cncavas. As pues, no resulta necesario que el programa
de optimizacin se preocupe por la discriminacin entre mximos locales y mximos globales. Se trata de
encontrar aquellos valores de los parmetros que maximizan el logaritmo de la funcin de verosimilitud que
sern, a su vez, los mximos locales y globales.
=
2
)
'
L ln
( E ) ( I
- (3.9)
Esta matriz es definida negativa sea cual sea el valor de .
Superado el problema de la naturaleza no lineal de la maximizacin, en
condiciones optimas los estimadores MV son consistentes, asintticamente
normales y eficientes. Adems de estimar los parmetros , los mtodos
numricos proporcionan estimaciones de la matriz de la covarianza asinttica
Cov (), que es usada para estimar los test estadsticos. La teora de mxima
verosimilitud muestra que la matriz varianza covarianza asinttica es, menos la
inversa de la matriz que se utilice para estimar el Hessiano esperado. Lo ms
habitual es utilizar el Hessiano observado, puesto que ste es el que se utiliza,
generalmente, en las iteraciones.
Cov () = ) (
1
f
I
,
donde:
=
1
2
1 - -
- )
'
L ln
( E ) ( I
f (3.10)
Con los estimadores calculados, podemos considerar la interpretacin del
Modelo de Respuesta Binaria .
3.3.1Interpretacin del cambio parcial en P(y=1/ x)
Los s pueden ser usados para calcular el cambio parcial en la probabilidad de
un evento.
Dado
Prob ( y = 1/ x) = F (x) (3.11)
Donde F es la funcin de distribucin acumulada de la distribucin normal.
La funcin de densidad es indicado como . El cambio parcial en la
probabilidad, tambin llamado efecto marginal, es calculado tomando la derivada
parcial de la ecuacin (3.11) con respecto a x
k
.
k
k k k
x f
x
x
x d
x dF
x
x F
x
x y P
) ' (
'
'
) ' ( ) ' ( ) / 1 (
=
=
para el modelo probit
k
k
x
x
x y P
) ' (
) / 1 (
=
=
(3.12)
El efecto marginal es la pendiente de la curva de probabilidad referente a x
k
,
manteniendo a todas las otras variables constantes. El signo del efecto marginal
es determinado por
k
ya que (x) es siempre positiva. La magnitud del cambio
depende de la magnitud de
k
y del valor de x.
3.4 PRUEBA DE HIPTESIS PARA LOS PARMETROS ESTIMADOS
En los modelos lineales se utilizan generalmente las pruebas t, F y Ji cuadrado
para probar diversidad de hiptesis, pero como nos encontramos en un mundo
menos cmodo, es decir el de los modelos no lineales donde se necesitan otros
mtodos para probar hiptesis con los que se puedan evaluar estos modelos.
De manera general se puede mencionar las conocidas pruebas de verosimilitud y
de Wald que permite lograr este propsito. Lo interesante de observar es que
asintoticamente (muestras grandes) las dos pruebas son equivalentes en cuanto a
que la estadstica de prueba asociada con cada una de estas pruebas sigue la
distribucin ji-cuadrado.
3.4.1El Test de Wald
Consideremos el contraste lineal de la forma:
R =r
donde es el vector de parmetros, R es la matriz de constantes, y r es un vector
de constantes. As, (R - r ) indicar hasta que punto los estimadores no
restringidos de Mxima Verosimilitud ajustan la hiptesis nula. Cuando el vector
se acerque a cero la hiptesis nula tender a cumplirse; por otro lado los valores
grandes tendern a contradecirla.
La hiptesis Ho : R =r puede ser testada con el estadstico Wald:
W= [ ][ ] [ ] r R R r a RV r R
' )
( '
1
(3.13)
W esta distribuida como Ji cuadrada con grados de libertad igual al nmero de
contrastes (numero de filas de R). El estadstico de Wald esta compuesta de dos
componentes. Primero r R
R r a RV refleja la variabilidad del estimador.
Cuando W es mayor que el valor crtico indicado a un nivel de significancia se
rechaza la hiptesis Ho.
3.4.2 Contraste de Bondad de Ajuste: Razn de Verosimilitud
Como medida de bondad de ajuste realizado, puede utilizarse el porcentaje de
individuos directamente el porcentaje de individuos que eligen la opcin predicha
por el modelo.
Alternativamente, como medida ms usual, puede utilizarse el ratio de
verosimilitud, definido como :
LR= - 2[ ],
1 L n L n
r
Siendo
r
L
yL
i
) = 1- (x
i
/ ) (4.10)
Para cierta observacin y
i
* > 0, la contribucin a la verosimilitud es
,
_
,
_
> >
i
i i i
i i
x
x y x
y y y P
'
/ ) ' ( 1 '
) 0 * / * ( ) 0 * ( (4.11)
Uniendo ambas partes, obtenemos la funcin de verosimilitud
>
1
]
1
1
]
1
,
_
0 /
2
2
2
0 /
) ' (
2
1
exp
2
1 '
1
i i i i
y y
i i
y y
i
x y x
L
(4.12)
>
1
]
1
+
1
]
1
,
_
0 /
2
2
2
0 /
) ' (
2
1
2
1
ln
'
1 ln ln
i i i i
y y
i i
y y
i
x y x
L
(4.13)
La solucin de esta ecuacin es realizada a travs de mtodos numricos
mediante el uso de las computadoras modernas, en este caso los estimadores de
mxima verosimilitud para el modelo Tobit son tan fciles de obtener como los
de MCO de un modelo lineal.
4.2.5 Interpretacin de los resultados
Los resultados del modelo Tobit y de los MCO resultan a menudo similares. Esto
hace que sea tentador interpretar las
j
>
> + >
>
, 0
0 , 0
0
(4.16)
En virtud de que ( ) ( ) / 0 x x >
( )
( ) ( )
/ /
0
x
x
y
j
>
(4.17)
y as estimamos cada trmino en (4.16) una vez que introducimos los estimadores
del EMV de
j
y y valores particulares de las x
j
..
Cabe destacar que cuando sustituimos (4.15) y (4.17) en (4.16) y se aplica el
hecho de que ( ) ( ) ( ) c c c para cualquier c, obtenemos
( )
( )
/ x
x y
1
j
=
x
(4.18)
La ecuacin (4.18) nos permite comparar en forma aproximadamente los
estimadores de MCO y los de Tobit. Los coeficientes de MCO son estimadores
directamente de
( )
j
x y x, ( )
,
donde:
P(y=1/ x): es la probabilidad de participar en el mercado laboral.
X : es la matriz de variables consideradas.
: el vector que contiene los parmetros a estimar.
En el caso de la modelacin de la intensidad de la participacin (horas de trabajo)
se ajustar a un modelo Tobit debido a que existe censura en la variable
dependiente.
La informacin utilizada proviene de la Encuesta Nacional de Hogares del III
trimestre del ao 2001 para el mbito urbano del pas y que es ejecutada por el
INEI en convenio con el Ministerio de Trabajo y Promocin del Empleo. De
esta encuesta se tomaron todas las personas mayores de 14 aos que son
trabajadores secundarios constituido por cnyuges, hijos dependientes y
pensionistas miembros del hogar.
La muestra tiene un factor de expansin, lo cual debe considerarse al momento
de obtener estadsticas descriptivas y ajustar a los modelos planteados
El factor de expansin representa el peso relativo de cada encuestado en la
configuracin real de la poblacin; por ejemplo, si se entrevistan a muchas
personas de un determinado lugar y esta cantidad esta cercana a la realidad
poblacional, entonces el factor de expansin para estas personas ser pequeo.
La informacin de la ENAHO del III trimestre del 2001 se encuentra disponible
en la pagina Web del INEI en la seccin Microdatos.
5.3. VARIABLES UTILIZADAS
5.3.1Variables dependientes
PROBIT
Particip. Participacin del trabajador secundario en el mercado laboral.
Codificacin :
1 : Si participa del mercado laboral (empleado o desempleado).
0 : No participa del mercado laboral (inactivo).
Escala nominal: dicotmica
TOBIT
R11h. Horas de trabajo semanales. (variable censurada).
5.3.2. Variables explicativas
Las variables que definen la matriz X y que se usan para explicar la oferta de
trabajo se dividieron en tres grupos: las denominadas principales por la
temtica abordada (jefe empleado con ingresos mayor a S/ . 1,643 nuevos soles.);
las que definen las caractersticas individuales de los trabajadores secundarios
(edad, educacin, etc.) y las que definen las caractersticas familiares del hogar
(ingreso familiar, tamao de la familia, etc).
a) Variable principal
1. nr6jef_3. Se la define como dummy que identifica a los trabajadores
secundarios cuyo jefe del hogar se encuentra ocupado con ingresos mayores a
S/ . 1,643 nuevos soles.
2. nr6jef_2. Se la define como dummy que identifica a los trabajadores
secundarios cuyo jefe del hogar se encuentra ocupado con ingresos menores a
S/ . 1,643 nuevos soles.
3. nr6jef_1. Se la define como dummy que identifica a los trabajadores
secundarios cuyo jefe del hogar se encuentra desempleado.
Lo que se intenta probar es que en un hogar encabezado por un jefe con ingresos
mayores a S/ .1,643.0 nuevos soles disminuye la probabilidad de participacin de
la fuerza de trabajo secundaria (esposa, hijos y otros familiares). Por ello se espera
que el coeficiente estimado para esta variable tenga signo negativo. Asimismo, su
presencia debera reducir las horas ofrecidas por el trabajador secundario al
mercado laboral.
b) Caractersticas individuales de los trabajadores secundarios
1. Edad. Edad en aos cumplidos del trabajador secundario.
Variable cuantitativa continua.
2. Edad2. Edad en aos elevada al cuadrada.
Variable cuantitativa continua.
Manteniendo las dems variables constantes, se espera un comportamiento en
forma U invertida. Participacin baja en las edades marginales y alta en las
centrales, donde la baja participacin de los jvenes podra deberse a que este
grupo dedica su tiempo al estudio, mientras que la baja participacin de la
poblacin en las edades ms avanzadas se explicara por el retiro de la actividad
con ingreso garantizados (jubilacin). Para capturar este efecto se incluyen como
regresores el cuadrado.
3. A_o_estu. Aos de estudio del Trabajador secundario.
Variable cuantitativa continua.
4. Estudia. Si el individuo estudia o no.
1 : Estudia.
0 : No estudia.
5. Hijo. Se la define como dummy que identifica a los trabajadores
secundarios que son hijos.
1 : Es hijo.
0 : Otros.
6. Cnyuge. Se la define como dummy que identifica a los trabajadores
secundarios que son cnyuges.
1 : Es cnyuge del jefe de hogar.
0 : Otros.
7. Hijo_est. Se la define como dummy que identifica a los trabajadores
secundarios hijos que estudian.
1 : Hijo del jefe de hogar que estudia.
0 : Otros.
8. Men5_esp. Se la define como dummy que identifica alos trabajadores
secundarios que son cnyuges con hijos menores de 5 aos.
1 : Cnyuge del jefe de hogar con hijos menores de 5 aos.
0 : Otros.
9. Men5_13. Se la define como dummy que identifica a los trabajadores
secundarios que son cnyuges con hijos entre 5 y 13 aos.
1 : Cnyuge del jefe de hogar con hijos entre 5 y 13 aos.
0 : Otros.
10. Ln_ingresos. Se define como el logaritmo de los ingresos de los
trabajadores por hora de labor. Esta variable tiene valores que no son conocidos,
por lo tanto, los datos faltantes son imputados utilizando la regresin de
Heckman. Slo se utiliza para explicar las horas ofrecidas al trabajo.
c) Caractersticas familiares
1. Edu_jefe. Aos de estudio del jefe de hogar
Variable cuantitativa continua.
2. Tot_nl. Se refiere al ingreso no laboral percibido por la familia
Variable cuantitativa continua.
3. Ylabres. Se refiere al ingreso laboral del resto de la familia. Sin considerar
al jefe de hogar.
4. Tamfam. Se refiere al nmero de miembros del hogar.
Variable cuantitativa discreta.
5. Jefe_hom. Se la define como dummy que identifica a los jefes de hogar
varones de los trabajadores secundarios.
1 : Hombre.
0 : Mujer.
5.4. ANLISIS DESCRIPTIVO
Una de las principales razones por las cuales el trabajador secundario participa en
el mercado laboral es la situacin laboral del jefe de hogar, as un hogar con un
jefe desempleado o subempleado genera una reduccin en los ingresos familiares
lo que obliga a los no jefes decidir su participacin o no, para poder mantener
niveles normales de consumo familiar. En el siguiente cuadro podemos ver que la
decisin de participacin es mayor en aquellos casos donde el jefe de hogar se
encuentra desempleado (59 %) y empleado con ingresos menores a S/ .1,643
nuevos soles (57 %). Analizando los resultados de la prueba Ji-cuadrado a partir
de las diferencias observadas y las esperadas bajo la hiptesis de independencia
entre la decisin del trabajador secundario de participar o no en el mercado
laboral y la condicin econmica-laboral del jefe de hogar se observa que el nivel
de significanca es menor a 0.05, luego, a un nivel de significancia del 5%, se
rechazar la hiptesis nula. Dado que las diferencias entre lo observado en la
muestra y lo esperado bajo la hiptesis nula son estadsticamente significativas,
no se puede aceptar que la decisin de participar o no del trabajador secundario
es independiente de la situacin laboral del jefe de hogar.
Cuadro N2
Distribucin de los trabajadores secundarios segn su participacin en el
mercado laboral y condicin del jefe de hogar (%)
Cuadro N3
desempleado
empleado con ing.
menores / igual a
S/.1643
empleado con ing.
mayores a S/.1643
Total
No participacin 40.9 42.8 54.7 43.9
Participacin 59.1 57.2 45.3 56.1
Total 100.0 100.0 100.0 100.0
Jefe de hogar
Decisin de
participacin
Chi-Square Tests
30223.623
a
2 .000
29969.557 2 .000
22265.579 1 .000
5573809
Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear
Association
N of Valid Cases
Value df
Asymp. Sig.
(2-sided)
0 cells (.0%) have expected count less than 5. The
minimum expected count is 178824.8.
a.
Bajo la misma hiptesis de que la decisin de participar de la oferta laboral del
trabajador secundario depende de los recursos econmicos de la familia a la que
pertenece, otra variable considerada importante para explicar nuestro modelo es
el ingreso no laboral de la familia (TOTNL) que concentra ingresos que son
generados por el trabajo remunerado, y pueden ser ingresos por alquiler de casas,
pensin, etc.. En esta variable el promedio y la mediana del ingreso no laboral de
la familia es mayor en el grupo de la fuerza laboral secundaria que no deciden
participar de la oferta laboral. Luego procedemos a verificar la diferencia a travs
del Test de muestras independientes.
Los resultados de la prueba muestran que a un nivel de significancia del 5% la
diferencia entre lo observado de la muestra y lo esperado bajo la hiptesis nula es
estadsticamente significativa, por lo tanto, no se pueden aceptar que los niveles
promedio de ingresos no laborales de la familia son iguales en los grupos de
trabajadores secundarios que deciden o no participar en el mercado de trabajo.
Cuadro N4
Ingreso no laboral familiar segn decisin de participar en el mercado
laboral del trabajador secundario
TOTNL
2444261
0
265.07
10.00
729.52
8.696
137.855
3129548
0
161.09
4.33
483.91
10.884
274.503
Valid
Missing
N
Mean
Median
Std. Deviation
Skewness
Kurtosis
Valid
Missing
N
Mean
Median
Std. Deviation
Skewness
Kurtosis
no participa
participa
Independent Samples Test
78435.168 .000 201.653 5573807 .000 103.98 .52
192.231 4040195 .000 103.98 .54
Equal variances
assumed
Equal variances
not assumed
TOTNL
F Sig.
Levene's Test for
Equality of Variances
t df Sig. (2-tailed)
Mean
Difference
Std. Error
Difference
t-test for Equality of Means
Otra variable que influye en la decisin de ingresar en el mercado laboral es la
formacin de capital humano en los trabajadores secundarios, la estructura entre
la decisin de participar o no y si actualmente estudia o no, muestra que de
aquellos que no estudian, el 64.3% participan en el mercado de trabajo, a
diferencia de lo que ocurre con aquellos que estudian donde el 62.9% ha decidido
no participar del mercado laboral. La dependencia de estas variables es
significativa como lo podemos ver en los resultados de la prueba Chi-cuadrado
que concluye a un nivel de significancia del 5%, que las diferencias entre los
valores observados en la muestra y lo esperado bajo la hiptesis nula son
estadsticamente significativas, es decir, se rechaza la hiptesis: que la
probabilidad de la decisin de participar o no del trabajador secundario es
independiente de la situacin de formacin de capital humano del trabajador
secundario.
Cuadro N5
Distribucin de los trabajadores secundarios segn su participacin en el
mercado laboral y educacin del trabajador (%)
Cuadro N 6
Chi-Square Tests
352360.9
b
1 .000
352359.8 1 .000
352616.0 1 .000
. .
352360.9 1 .000
5573809
Pearson Chi-Square
Continuity Correction
a
Likelihood Ratio
Fisher's Exact Test
Linear-by-Linear
Association
N of Valid Cases
Value df
Asymp. Sig.
(2-sided)
Exact Sig.
(2-sided)
Exact Sig.
(1-sided)
Computed only for a 2x2 table a.
0 cells (.0%) have expected count less than 5. The minimum expected count is
734914.6.
b.
Adems de la decisin de participar, debemos observar las horas de trabajo. En el
cuadro N7 podemos notar las diferencias entre las medias y medianas de las
horas de trabajo, segn condicin econmica-laboral del jefe de hogar. Se puede
notar que existe cierta diferencias en los grupo considerados.
La prueba de la mediana para contrastar la hiptesis nula de que las muestras
proceden de k subpoblaciones en las que la probabilidad de obtener un
resultado menor o igual que la mediana de la variable X sobre toda la poblacin,
es la misma en todas las subpoblaciones. Utilizando esta prueba el p-value
Decisin de
participacin
No estudia Estudia Total
No participacin 35.7 62.9 43.9
Participacin 64.3 37.1 56.1
Total 100.0 100.0 100.0
obtenido asociado al estadstico de contraste (p-value=0.00) es menor a 0.05,
luego a un nivel de significancia del 5% se rechaza la hiptesis nula.
Se puede aceptar que la probabilidad de obtener un valor de horas trabajadas a la
semana es menor o igual a la mediana es distinta en cada condicin econmica-
laboral del jefe de hogar.
Las horas ofrecidas por los trabajadores secundarios es menor en el grupo con un
jefe de hogar empleado con ingresos mayores de S/ . 1,643 nuevos soles.
Contrariamente a lo que ocurre en los hogares con jefe desempleados o
empleados con ingresos menores de S/ . 1,643 nuevos soles, donde las horas
ofrecidas al trabajo son mayores.
Cuadro N7
Horas de trabajo semanal (*) segn condicin econmica - laboral del jefe
de hogar
Statistics
Horas normales
208988
0
44.47
46.00
25.06
.171
-.762
2370786
0
41.80
42.00
23.76
.332
-.591
233798
0
41.80
40.00
21.13
.434
.104
Valid
Missing
N
Mean
Median
Std. Deviation
Skewness
Kurtosis
Valid
Missing
N
Mean
Median
Std. Deviation
Skewness
Kurtosis
Valid
Missing
N
Mean
Median
Std. Deviation
Skewness
Kurtosis
Desempleo
Empleados con ingresos
menores de 1643
Empleados con ingresos
mayores de 1643
(*) Slo considera a los trabajadores ocupados
5.5. ANLISIS DEL MODELO PROBIT.
Para el desarrollo del Modelo Probit se utilizara el sofware STATA, el cual
contiene diferentes mdulos para el desarrollo de diferentes tcnicas estadsticas.
Este anlisis se realiza distinguiendo el sexo del trabajador secundario, de tal
manera que se analiza dos ajustes para los hombres y las mujeres.
5.5.1AJUSTE DEL MODELO DE REGRESIN PROBIT
La estadstica Modelo Chi-Square toma valor igual a 4,311.2 para el grupo de los
hombres y 9,555.03 para el grupo de las mujeres que es igual a la diferencia entre
2 Log Likelihood que contiene slo a la constante y el modelo con las 16
variables explicativas. En este caso, las hiptesis estadsticas son:
H
0
:
1
= ..... =
16
= 0.
H
1
:
i
0 para por lo menos un i = 1,...,16.
En este caso el valor crtico es
2
(17)
(0.10) = 24.77 como se observa ambos
valores son mayores, por tanto se rechaza la hiptesis nula; entonces, los
coeficientes de las 16 variables explicativas del modelo son diferentes de cero.
Para evaluar el ajuste del modelo la hiptesis es:
H
0
: El modelo se ajusta perfectamente
H
1
: El modelo no se ajusta perfectamente
La estadstica se define como:
LR = - 2[ ],
1 L n L n
r
y distribuye como una
2
(n-p)
, donde p = k+1, se rechaza la hiptesis nula (H
0
)
para los grados de libertad mayores de 100, puede utilizarse la expresin
z= 1 m 2 x 2
2
- que sigue una distribucin normal estndar donde m son los
grados de libertad (n-p). Para este trabajo n-p es 4,190 para los hombres y 9,550
para las mujeres.
Los valores z para los hombres es 1.32 y 0.04 para las mujeres. Como se observa
los valores son menores que Z
(0.1)
= 1.987, por lo tanto no se rechaza la hiptesis
nula; entonces, el modelo se ajusta perfectamente.
5.5.2 PARMETROS ESTIMADOS DEL MODELO
Los parmetros del modelo son:
Cuadro N8
ESTADSTICO DE WALD
En cuanto a la prueba de hiptesis para coeficientes individuales, se efecta
mediante la estadstica de WALD.
Las hiptesis son las siguientes:
particip Coef. Wald Coef. Wald Coef. Wald
nr6jef_2 0.13 0.99 -0.12 2.06 -0.03 0.22
nr6jef_3 -0.10 0.30 -0.39 10.38 -0.29 7.41
edu_jefe -0.04 26.26 -0.02 6.70 -0.03 26.38
jefe_hom -0.06 0.43 -0.08 0.86 -0.08 1.78
ylabres 0.00 0.00 0.00 0.08 0.00 0.01
totnl 0.00 8.73 0.00 9.04 0.00 15.61
tamfam 0.03 4.13 -0.01 1.04 0.00 0.01
edad 0.20 76.50 0.13 127.31 0.14 211.37
edad2 0.00 83.61 0.00 133.74 0.00 226.49
a_o_estu 0.00 0.00 0.02 5.31 0.02 10.02
estudia -0.73 19.43 -0.24 4.73 -0.37 16.13
hijo -0.41 11.00 0.15 2.14 0.00 0.00
conyugue -1.18 9.47 -0.33 9.63 -0.62 42.00
hijo_est 0.07 0.15 -0.38 8.21 -0.31 8.52
men5_esp 0.80 3.67 -0.04 0.59 -0.05 1.14
men5_13 0.15 0.15 0.03 0.24 -0.02 0.09
_cons -1.68 24.10 -1.50 49.13 -1.38 56.15
Hombres Mujeres Completo
H
0
:
i
= 0
H
1
:
i
0 para por lo menos un i = 1,...,16.
Esta estadstica se distribuye como una
2
(1)
si la variable explicativa es
cuantitativa y si la variable explicativa es de tipo categrica, se distribuye como
una
2
(C-1)
, donde C es igual al nmero de categoras que toma la variable; para
nuestro caso C=2, entonces
2
(C-1)
=
2
(2-1)
, =
2
(1)
.
El valor crtico, al 10% de nivel de significancia, es 2.706, por lo tanto se rechaza
la hiptesis nula si el valor de la estadstica WALD es mayor que el valor crtico
indicado.
Para efectuar la dcima, tomamos los valores que estn debajo de la columna
etiquetada como WALD
En ambos modelos, las variables no significativas son jefe de hogar varn
(Jefe_hom), ingreso laboral del resto de la familia (ylabres), trabajador secundario
que es cnyuge con hijos entre 5 y 13 aos.
Las variables: jefe de familia con ingresos superiores a S/ . 1,643 nuevos soles -
dcimo decil de ingresos-(nr6jef_3), aos de estudios del trabajador secundario
(a_o_estu), trabajador secundario estudiando (hijo_est), no son significativas en
el modelo ajustado para los varones.
Las variables: tamao de la familia (tamfam), trabajador secundario hijo del jefe
de hogar (hijo) y cnyuge con hijos menores de 5 aos (men5_esp) no son
significativas en el modelo ajustado para las mujeres.
AJUSTE DEL MODELO DE REGRESIN PROBIT RETIRANDO
LAS VARIABLES NO SIGNIFICATIVAS
En esta segunda corrida se procede a retirar las variable que no son significativas
en ambos modelos.
La estadstica Modelo Chi-Square toma valor igual a 4,249 para el grupo de los
hombres y 9,5584 para el grupo de las mujeres que es igual a la diferencia entre
2 Log Likelihood que contiene slo a la constante y el modelo con las 13
variables explicativas. En este caso, las hiptesis estadsticas son:
H
0
:
1
= ..... =
13
= 0
H
1
:
i
0 para por lo menos un i = 1,...,13.
En este caso el valor crtico es
2
(13)
(0.10) = 19.81 como se observa ambos
valores son mayores, por tanto se rechaza la hiptesis nula; entonces, los
coeficientes de las 13 variables explicativas del modelo son diferentes de cero.
Para evaluar el ajuste del modelo la hiptesis es:
H
0
: El modelo se ajusta perfectamente
H
1
: El modelo no se ajusta perfectamente
La estadstica se define como:
LR = - 2[ ],
1 L n L n
r
y distribuye como un
2
(n-p)
, donde p = k+1, se rechaza la hiptesis nula (H
0
) para
los grados de libertad mayores de 100, puede utilizarse la expresin
z= 1 m 2 x 2
2
que sigue una distribucin normal estndar donde m son los
grados de libertad (n-p). Para este trabajo n-p es 4,193 para los hombres y 9,553
para las mujeres.
Los valores z para los hombres es 0.62 y -1.8 para las mujeres. Como se observa
los valores son menores que Z
(0.1)
= 1.987, por lo tanto no se rechaza la hiptesis
nula; entonces, el modelo se ajusta perfectamente.
PARMETROS ESTIMADOS DEL MODELO
Los parmetros del modelo son:
Cuadro N9
particip Coef. Wald Coef. Wald Coef. Wald
nr6jef_2 0.1341 1.007 -0.123 2.032 -0.035 0.226
nr6jef_3 -0.1035 0.335 -0.383 11.109 -0.291 8.055
edu_jefe -0.0449 27.821 -0.018 7.137 -0.029 28.986
totnl -0.0002 8.713 0.000 8.899 0.000 15.369
tamfam 0.0294 3.822 -0.013 1.162 -0.001 0.024
edad 0.2009 76.855 0.132 131.647 0.140 216.234
edad2 -0.0025 84.225 -0.0016 139.805 -0.002 234.353
a_o_estu -0.0002 0.000 0.015 5.437 0.019 10.478
estudia -0.7305 19.690 -0.242 4.842 -0.369 15.916
hijo -0.4134 11.310 0.1406 1.9117 0.0011 0.000
conyugue -1.0725 10.970 -0.347 11.180 -0.645 51.573
hijo_est 0.0700 0.162 -0.379 8.431 -0.312 8.860
men5_esp 0.8330 4.100 -0.042 0.625 -0.051 0.998
_cons -1.7110 24.857 -1.566 58.671 -1.424 62.524
Hombres Mujeres Completo
ESTADSTICO DE WALD
En cuanto a la prueba de hiptesis para coeficientes individuales, se efecta
mediante la estadstica de WALD.
Las hiptesis son las siguientes:
H
0
:
i
= 0.
H
1
:
i
0 para por lo menos un i = 1,...,20.
Esta estadstica se distribuye como una
2
(1)
si la variable explicativa es
cuantitativa y si la variable explicativa es de tipo categrica, se distribuye como
una
2
(C-1)
, donde C es igual al nmero de categoras que toma la variable; para
nuestro caso C=2, entonces
2
(C-1)
=
2
(2-1)
=
2
(1)
.
El valor crtico al 10% de nivel de significancia es 2.706, por lo tanto se rechaza
la hiptesis nula si el valor de la estadstica WALD es mayor que el valor crtico
indicado.
Para efectuar la dcima, tomamos los valores que estn debajo de la columna
etiquetada como WALD
Las variables: jefe de familia con ingresos superiores a S/ . 1,643 nuevos soles -
dcimo decil de ingresos-( nr6jef_3), aos de estudios del trabajador secundario
(a_o_estu), trabajador secundario estudiando (hijo_est) no son significativas en el
modelo ajustado para los varones.
Las variables: tamao de la familia (tamfam) trabajador secundario hijo del jefe
de hogar (hijo) y cnyuge con hijos menores de 5 aos (men5_esp) no son
significativas en el modelo ajustado para las mujeres.
5.6 ANLISIS DE LOS RESULTADOS
El anlisis anterior nos permite tener indicios como las caractersticas familiares
influyen sobre la decisin de oferta laboral del trabajador secundario, los efectos
de cada variable puede ser apreciados en las Tablas N 9. Se muestran all los
coeficientes estimados para la funcin de participacin por sexo cuando la
variable independiente clave es la dicotmica "jefe del hogar con empleo y con
ingresos mayores a S/ . 1643 nuevos soles", el coeficiente de esta variable aparece
siempre con signo negativo para ambos sexos y considerando el modelo
completo.
Esto constituye evidencia a favor de la siguiente hiptesis: la participacin del
trabajador secundario es menor en los hogares en los que el ingreso del jefe de
hogar esta por encima de los S/ . 1643 nuevos soles.
La menor participacin del trabajador secundario bajo la variable anterior se
haba visto ya en la exploracin descriptiva, pero a diferencia de aqulla, se
aprecia ahora que el efecto se mantiene an controlando el conjunto de variables
explicativas de la participacin incluidas en el modelo.
Adems de lo antes dicho, puede verse que la probabilidad de participacin de la
fuerza laboral secundaria est relacionada inversamente con ser el cnyuge del
jefe de hogar y, siendo esposa, el tener a cargo hijos menores de 5 aos de edad,
el estar estudiando, pertenecer a un hogar con mayores ingresos, el ser mujer en
un hogar de mayor tamao familiar. Por el contrario, afectan positivamente la
probabilidad de participacin en la actividad econmica remunerada la edad, en
el caso de los varones adems el tamao de la familia, influye, el ser hijo y estar
estudiando (a la vez), y tener nios menores de 5 aos, por el contrario en las
mujeres el tener mayor aos de estudios y el ser hija del jefe.
EFECTOS MARGINALES
El cuadro N 10 proporciona informacin acerca de los efectos marginales en los
indicadores de oferta de trabajo, provocados por los ingresos del jefe de hogar,
como se aprecia un jefe de hogar con ingresos mayores a S/ . 1643 nuevos soles
reduce en 4 % la probabilidad de que el trabajador secundario varn decida
trabajar y 15% en el caso de las mujeres.
Por otro lado, la edad del trabajador secundario incrementa en 5% la
probabilidad de ingresar al mercado laboral, en el caso de los varones la
incidencia de esta caracterstica es mayor al de las mujeres.
En el caso de ser cnyuge hombre con hijos menores de 5 aos incrementa 25%
la probabilidad de participar en el mercado laboral, mientras que en el caso de las
mujeres la reduce en 1.6 %.
Cuadro N10
Efectos marginales de la funcin probit
particip Hombres Mujer Total
nr6jef_2* 0.05203 -0.04866 -0.01370
nr6jef_3* -0.04015 -0.15180 -0.11542
edu_jefe -0.01725 -0.00705 -0.01144
totnl -0.00007 -0.00005 -0.00005
tamfam 0.01126 -0.00523 -0.00057
edad 0.07710 0.05223 0.05509
edad2 -0.00095 -0.00062 -0.00067
a_o_estu -0.00007 0.00612 0.00755
estudia* -0.27505 -0.09622 -0.14585
hijo* -0.15147 0.05550 0.00043
conyugue* -0.39861 -0.13636 -0.25169
hijo_est* 0.02682 -0.15034 -0.12367
men5_esp* 0.25877 -0.01648 -0.02015
dF/dx
5.7 ANLISIS DE MODELO TOBIT
Para el desarrollo del Modelo Tobit se utilizar el sofware STATA, el cual
contiene diferentes mdulos para el desarrollo de este y otros modelos para
regresiones con datos censurados y truncados.
Ecuacin salarial
3
. Antes de analizar las horas de trabajo a la semana ofrecidas
por un trabajador secundario, se considera que slo se dispone de datos para
aquellos que trabajan. En estos casos se tiene una muestra no elegida
aleatoriamente. Por lo tanto, de la ecuacin salarial con dicha muestra no se
puede inferir el ingreso o costo de oportunidad para toda la poblacin. Esto es lo
que se conoce como sesgo de seleccin.
Heckman
1
propone un procedimiento en dos etapas para identificar y especificar
el sesgo de seleccin. En la primera etapa se estima la ecuacin de ingresos
mediante el modelo Probit y se obtienen las estimaciones que permiten construir
el ratio inverso de Mill que representa el sesgo de seleccin. En la segunda etapa
se estima la ecuacin por MCO incluyendo el ratio de inversa de Mills.
Una vez que estimamos los parmetros del modelo de regresin para los ingresos
se estiman los valores de la variable independiente ingresos la cual es utilizada
para explicar las horas de trabajo semanales.
3
Ver anexo N 2.
1
En 1976 J. Heckman, The Common Structure of Statistical Model of Truncation, Sample Selection, and
Limited Dependent Variables and a Simple Estimator for Such Models, Annals of Economics and Social
Measurement, propone un sencillo mtodo de dos pasos que soluciona estos problemas.
Horas de trabajo semanal. Calculado el salario que los individuos pueden
percibir de acuerdo a sus caractersticas procedemos estimar las horas semanales
mediante el modelo de datos censurados Tobit.
El anlisis anterior ha permitido conocer como influye el ingreso del jefe de
hogar en la decisin de participar los trabajadores secundarios. En la presente
seccin se analiza las horas de trabajo semanal ofrecidas por fuerza laboral
secundaria al trabajo remunerado.
En la tabla N12 se muestra los coeficientes estimados para la ecuacin de oferta
laboral cuando la variable dependiente es el nmero de horas semanales
trabajadas para el mercado por el trabajador secundario.
5.7.1AJUSTE DEL MODELO DE REGRESIN TOBIT
La estadstica Modelo Chi-Square toma valor igual a 1,114.39 para el grupo de los
hombres y 1,492.27 para el grupo de las mujeres que es igual a la diferencia entre
2 Log Likelihood que contiene slo a la constante y el modelo con las 15
variables explicativas. En este caso, las hiptesis estadsticas son:
H
0
:
1
= ..... =
15
= 0
H
1
:
i
0 para por lo menos un i = 1,...,15
En este caso el valor crtico es
2
(15)
(0.10) = 22.31 como se observa ambos
valores son mayores, por tanto se rechaza la hiptesis nula; entonces, por lo
menos un coeficientes de las 15 variables explicativas del modelo son diferentes
de cero.
ESTADSTICO DE WALD
En cuanto a la prueba de hiptesis para coeficientes individuales, se efecta
mediante la estadstica Chi cuadrado.
Las hiptesis son las siguientes:
H
0
:
i
= 0.
H
1
:
i
0 i = 1,...,15.
Esta estadstica se distribuye como una
2
(1)
si la variable explicativa es
cuantitativa. El valor crtico al 10% de nivel de significancia es 2.706, por lo tanto
se rechaza la hiptesis nula si el valor de la estadstica WALD es mayor que el
valor crtico indicado.
Para efectuar la dcima, tomamos los valores que estn debajo de la columna
etiquetada como WALD.
Los parmetros del modelo son:
Cuadro N11
5.8 ANLISIS DE LOS RESULTADOS
Se estiman dos modelos para el trabajador secundario segn el sexo del
trabajador.
La variable salario imputado, que refleja el costo de oportunidad, es
estadsticamente significativa y presenta signo positivo, mientras mayor es el
ingreso que puede obtener un trabajador secundario estar dispuesto a trabajar
ms horas.
Coef. Wald Coef. Wald Coef. Wald
ln_ingresos 18.0 244,316.8 19.8 608,920.5 19.6 918,987.5
nr6jef_2 5.4 1,862.7 -2.5 770.0 0.0 0.0
nr6jef_3 2.0 150.1 -13.3 12,738.2 -9.0 8,684.4
edu_jefe -1.0 16,251.3 -1.1 25,081.9 -1.2 46,667.8
totnl 0.0 8,771.3 0.0 7,273.2 0.0 13,982.6
tamfam 0.8 3,589.9 -0.2 290.8 0.2 271.7
edad 4.0 33,313.2 2.5 33,119.2 2.7 59,486.9
edad2 0.0 36,414.8 0.0 40,495.9 0.0 71,198.5
a_o_estu -1.5 10,915.5 -1.2 24,780.4 -1.2 32,652.5
estudia -9.0 3,195.7 -5.5 1,326.0 -7.3 4,386.7
hijo -0.3 7.8 6.4 2,967.3 3.5 1,852.9
conyugue -11.4 1,489.3 -4.4 1,062.6 -10.1 9,593.0
hijo_est -10.6 3,937.9 -11.0 4,015.7 -12.0 9,337.7
men5_esp 4.8 176.3 -1.0 217.1 -1.0 245.3
_cons -51.4 21,146.5 -31.1 15,654.4 -33.4 27,501.3
Hombres Mujeres Completo
Horas de
trabajo
Se observa tambin que el coeficiente de la variable jefe del hogar con empleo y
con ingresos mayor a S/ .1643 nuevos soles aparece con signo negativo y
significativo en el caso de las mujeres. Si se observan estos resultados con los
obtenidos para la participacin de la poblacin en la actividad econmica, se
deduce que un jefe de hogar con ingresos altos no slo retiene a los trabajadores
en la inactividad sino que tambin reduce la oferta de trabajo, medida en horas.
Asimismo, la variable edad influye de manera positiva a la decisin de trabajar
ms horas a la semana. El ser cnyuge con nios menores de 5 aos incide
incrementando las horas de trabajo semanal para los hombres, mientras que para
las mujeres reduce la decisin de trabajar ms.
EFECTOS MARGINALES
El siguiente cuadro proporciona informacin acerca de los efectos marginales de
las variables independientes sobre las horas ofrecidas al trabajo. El ingreso o
costo de oportunidad incide con mayor importancia, as por cada unidad en el
logaritmo de los ingresos el nmero de horas laboradas puede variar en 10 horas
para los hombres y para las mujeres. Por otro lado, un hogar con jefe de hogar
con ingresos por encima de los S/ . 1643.0 nuevos soles puede incrementar en los
varones una hora ofrecida al trabajo, mientras que se reduce 6 horas en el caso de
las mujeres.
La edad del trabajador secundario incrementa el nmero de horas ofrecidas al
trabajo aproximadamente 2 en el caso de los hombres y 1 en las mujeres. En el
caso de ser cnyuge hombre con hijos menores de 5 aos las horas ofrecidas al
trabajo se incrementan, aproximadamente, en 3 mientras que en las mujeres se
reduce casi media hora.
Cuadro N11
Efectos marginales de la funcin Tobit
particip Hombres Mujer Total
ln_ingresos 10.19578 10.0308 10.2473
nr6jef_2 2.95304 -1.2829 -0.0021
nr6jef_3 1.17053 -6.0494 -4.3680
edu_jefe -0.57639 -0.5655 -0.6054
totnl -0.00347 -0.0021 -0.0024
tamfam 0.47855 -0.1105 0.0829
edad 2.27582 1.2630 1.4332
edad2 -0.02756 -0.0157 -0.0178
a_o_estu -0.85154 -0.6279 -0.6248
estudia -5.06012 -2.6824 -3.7193
hijo -0.16722 3.3415 1.8134
conyugue -5.73809 -2.2262 -5.1872
hijo_est -5.91157 -5.2098 -5.9053
men5_esp 2.846781 -0.4844 -0.4940
dF/dx
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FACULTAD DE CIENCIAS MATEMTICAS
E.A.P. DE. ESTADSTICA
Modelos Probit y Tobit aplicados al estudio de la oferta
laboral de los trabajadores secundarios en el Per
Captulo 6. Conclusiones
MONOGRAFA
Para optar el Ttulo de Licenciado en Estadstica
AUTOR
Edgard Abanto Millones
LIMA PER
2003
CAPTULO VI
CONCLUSIONES
1. El anlisis de Regresin Probit y Tobit son muy utilizado en el campo de la
investigacin social y nos brinda un mtodo excelente para poder tomar en
cuenta variables explicativas cuantitativas, categricas y corregir el problema
de muestras censuradas.
2. La Regresin Probit nos sirve para identificar los factores que explican la
decisin de participar en el mercado laboral del trabajador secundario.
3. Asimismo, el anlisis de Regresin Tobit permite ajustar las horas ofrecidas
al trabajo utilizando toda la muestra recogida, aprovechando mejor la
informacin.
4. En el presente trabajo se analizaron los factores que explican la oferta
laboral de los trabajadores secundarios y la intensidad con que lo hacen.
5. Se encontr que la concentracin de mujeres (70 % ) como trabajadores
secundarios es mayor que los varones, de las cuales la mayora es ama de
casa (52%).
6. De los resultados obtenidos podemos resumir que, efectivamente como se
plantea al principio, la condicin laboral y econmica del jefe de hogar
incide sobre la decisin de participar de los trabajadores secundarios,
asimismo reduce las horas ofrecidas al trabajo por ellos.
7. En el cuadro N 10 presentamos los efectos marginales de los indicadores
de oferta de trabajo, provocados por los ingresos del jefe de hogar, como se
aprecia un jefe de hogar con ingresos mayores a S/ . 1643 nuevos soles
reduce en 4 % la probabilidad de que el trabajador secundario varn decida
trabajar y 15% en el caso de las mujeres.
8. Por otro lado, la edad del trabajador secundario incrementa en 5% la
probabilidad de ingresar al mercado laboral, en el caso de los varones la
incidencia de esta caracterstica es mayor al de las mujeres.
9. En el caso de ser cnyuge hombre con hijos menores de 5 aos incrementa
25% la probabilidad de participar en el mercado laboral, mientras que en el
caso de las mujeres la reduce en 1.6 %.
10. Descartamos las variables: sexo del jefe de hogar, ingreso laboral del resto
de la familia y cnyuge con hijos entre 5 y 13 aos por no ser significativas
al modelo y por lo tanto no influyen en la decisin de participacin.
11. En el cuadro N 11 observamos los efectos marginales de las variables
independientes sobre las horas ofrecidas al trabajo. El ingreso o costo de
oportunidad incide con mayor importancia, as por cada unidad en el
logaritmo de los ingresos el nmero de horas laboradas puede variar en 10
horas para los hombres y para las mujeres.
12. Un hogar con jefe de hogar con ingresos por encima de los S/ . 1643.00
nuevos soles puede incrementar en los varones una hora ofrecida al trabajo,
mientras que se reduce 6 horas en el caso de las mujeres.
13. La edad del trabajador secundario incrementa el nmero de horas ofrecidas
al trabajo aproximadamente 2 en el caso de los hombres y 1 en las mujeres.
En el caso de ser cnyuge hombre con hijos menores de 5 aos las horas
ofrecidas al trabajo se incrementan, aproximadamente, en 3 mientras que en
las mujeres se reduce casi media hora.
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FACULTAD DE CIENCIAS MATEMTICAS
E.A.P. DE. ESTADSTICA
Modelos Probit y Tobit aplicados al estudio de la oferta
laboral de los trabajadores secundarios en el Per
Bibliografa
MONOGRAFA
Para optar el Ttulo de Licenciado en Estadstica
AUTOR
Edgard Abanto Millones
LIMA PER
2003
BIBLIOGRAFA
1. Bleda, M.J., Tobas, A. (2002) Aplicacin de los Modelos de Regresin
Tobit en la Modelizacin de Variables Epidemiolgicas Censuradas.
Madrid. Departamento de Estadstica y Econometra. Universidad Carlos
III de Madrid.
2. Delgado, M. (2002). Modelos de Regresin Truncados y Censurados.
Madrid. Universidad Carlos III de Madrid.
3. Fernndez, F. (2002). Tcnicas de Anlisis Multivariadas. Universidad de
Cadiz Espaa.
4. Garcia de Soria, X. (1999). Oferta Laboral de las Mujeres. Un estudio
Emprico para Uruguay, Ao 1997.
5. Greene, W. (1999) Anlisis Economtrico. Prentice Hall. Espaa
6. Gujarati, D. N. (1997). Econometra. McGraw-Hill Interamericana. S.A.
Colombia.
7. INEI (2002). Los Modelos Logit y Probit en la Investigacin Social. El
caso de la Pobreza del Per en el ao 2001. INEI. Lima Per
8. Johnston , J. (2001). Mtodos de Econometra. Vinces Vives. Espaa.
9. Juez, P., Dez, F. J. (1997). Probabilidad y Estadstica en Medicina.
Aplicaciones en la Practica Clnica y en la Gestin Sanitaria. Diaz de
Santos. Madrid Espaa.
10. Mizala, A., Romaguera, P., Henriquez,P. (1998). Oferta Laboral y Seguro
de Desempleo: Estimaciones para la Economa Chilena. Serie Econmica
N 28. Universidad de Chile.
11. Norberto, V. A.. (1998) Medidas de Adecuacin del Modelo de Regresin
Logstica. Universidad Mayor de San Marcos. Lima Per.
12. Paz, J. A. (2001). Oferta Laboral de Reserva en la Argentina (Una nueva
mirada sobre el efecto del trabajador Adicional). Universidad Nacional de
Salta (UNSA) Argentina.
13. Scout, J. (1997) Regression Model for Categorical and Limited Dependent
Variables. Sage Publications. California-EEUU.
14. Wooldridge, J. M. (2000). Introductory Econometrics: A Modern
Approach. South Western College Publisshing. EEUU.
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FACULTAD DE CIENCIAS MATEMTICAS
E.A.P. DE. ESTADSTICA
Modelos Probit y Tobit aplicados al estudio de la oferta
laboral de los trabajadores secundarios en el Per
Anexos
MONOGRAFA
Para optar el Ttulo de Licenciado en Estadstica
AUTOR
Edgard Abanto Millones
LIMA PER
2003
ANEXOS
A.1ECUACIN SALARIAL
El ingreso o costo de oportunidad de los trabajadores secundarios slo se conoce
para aquellos que se encuentran laborando. Por lo tanto, de la ecuacin salarial
con la muestra total no se puede inferir el costo de oportunidad para toda la
poblacin estudiada. Esto es lo que se conoce como sesgo de seleccin.
Heckman, propone un mtodo de dos pasos que soluciona estos problemas.
Dicho modelo de dos etapas que suele utilizarse en situaciones donde aparezca el
sesgo de seleccin. Heckman afirma que el problema de utilizar MCO para
estimar la ecuacin de regresin es que proporciona estimadores sesgados debido
a la presencia de una variable omitida, donde la cantidad (que se denomina razn
inversa de Mills).
) ( / ) ( X X =
es una variable omitida. Si dicha variable omitida se incluyera en la regresin
MCO, como en
Wi=Xi+ ) ( / ) ( X X
donde:
Wi: variable dependiente
Xi: Variables independientes
Las estimaciones resultaran consistentes, Heckman afirma que dicho modelo se
estima fcilmente mediante el siguiente estimador en dos etapas:
1. Realizar un modelo Probit sobre las variables X y obtener las
estimaciones que permiten construir la variable que representa el sesgo
de la seleccin.
2. Se estima la ecuacin de costo de oportunidad por MCO incluyendo como
regresor a , y se realiza la prueba de significacin de dicha variable. Si se
rechaza que su coeficiente es cero puede afirmarse que efectivamente
existe sesgo de seleccin.
A.1.1 ESTIMACIN DE LA VARIABLE COSTO DE OPORTUNIDAD.
La Estimacin de los datos de la variable ingresos por hora (Ln_ingresos) se
realizaron siguiendo la metodologa anterior. Las variables usadas son:
Variable dependiente.
1. Ln_ingresos. Logaritmo de los ingresos mensuales .
Variable cuantitativa continua.
Variable explicativas.
1. Secundaria . Si el individuo tiene estudios hasta nivel secundario o
no.
1 : Nivel secundario.
0 : Otros.
2. Superior . Si el individuo tiene estudios nivel superior o no.
1 : Nivel superior.
0 : Otros.
6. Sexo. Se la define como dummy que identifica a los trabajadores
varones.
1 : Hombre.
0 : Mujer.
7. Independientes no formal. Se la define como dummy que identifica a
los trabajadores secundarios que laboran de manera informal.
1 : Trabajador informal.
0 : Otros.
3. Exp_lab2 . Se refiere a la experiencia laboral al cuadrado del trabajador.
4. Exp_lab . Se refiere a la experiencia laboral del trabajador.
5. Ratio de Mill . Representa el sesgo de la seleccin.
6. Lima_met. Se refiere si el trabajador reside en Lima Metropolitana.
Resultados:
ANOVA
b
549096.2 8 68637.027 76601.646 .000
a
2064224 2303756 .896
2613320 2303764
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), LIMA_MET, recode de sexo, dumi superior o no, EXP_LAB2,
independiente no formal, dumi secundaria o no, RAT_MILL, EXPE_LAB
a.
Dependent Variable: Logaritmo natural del ingreso por hora b.
Calculados los parmetros de la ecuacin de regresin, se estimaron los valores
de la variable Y=Ln_ingresos (logaritmo de los ingresos por hora de los
trabajadores secundarios).
A.2. ENCUESTA NACIONAL DE HOGARES
CARACTERSTICAS DE LA ENCUESTA
1. TIPO DE ENCUESTA
La encuesta es de derecho, significa que, la poblacin en estudio est constituida
por todos los residentes habituales del hogar.
2.COBERTURA DE LA ENCUESTA
2.1Cobertura Geogrfica.- La Encuesta se realizar en el rea urbana del
territorio nacional. Se considera rea urbana a aquella conformada por centros
poblados con ms de 2 mil habitantes.
2.2 Cobertura Temporal.- La Encuesta se efectu durante los meses de Agosto
y Septiembre .
Coefficients
a
1.5214 .002 697.021 .000 1.517 1.526
.3545 .001 243.357 .000 .352 .357
.9660 .002 473.676 .000 .962 .970
-.4021 .002 -196.899 .000 -.406 -.398
-.4486 .001 -313.921 .000 -.451 -.446
-.0009 .000 -237.418 .000 -.001 -.001
.0423 .000 257. 489 .000 .042 .043
.4130 .003 161.784 .000 .408 .418
.3015 .001 234.845 .000 .299 .304
(Constant)
secundaria
superior
sexo
independiente no formal
EXP_LAB2
EXPE_LAB
RAT_MILL
LIMA_MET
Model
1
B
Std. Error
Unstandardized Coefficients
t
Sig. Lower Bound Upper Bound
95% Confidence Interval for B
Dependent Variable: Logaritmo natural del ingreso por hora a.
2.3 Cobertura Temtica.- La Cobertura Temtica de la investigacin
comprende:
-Caractersticas de los Miembros del Hogar
-Empleo e Ingreso:
Condicin de Actividad
Sindicalizacin
Ingresos
Trabajo Anterior
Trabajo Habitual
-Educacin y Calificacin para el trabajo
-Seguridad Social
-Migracin
-Uso de Computadora e Internet en el centro de trabajo
3. MTODO DE LA ENTREVISTA
Se emplear el mtodo de entrevista directa, con personal debidamente
capacitado y entrenado para tal fin y que visitar las viviendas seleccionadas
durante el periodo de recoleccin de informacin.
4. PERODOS DE REFERENCIA
Los periodos de referencia para las variables a investigarse en el III Trimestre son
los siguientes:
-Caractersticas de los Miembros del Hogar:
Da de la entrevista
Residencia habitual: ltimos 30 das
Semana pasada
-Empleo
Condicin de actividad: Semana pasada
-Bsqueda de Otro Empleo: Da de la entrevista
5. FINALIDAD Y OBJETIVOS
5.1 FINALIDAD
Suministrar informacin estadstica demogrfica, social y econmica
provenientemente de los hogares, que proporcionen una adecuada base
cuantitativa para el estudio de la realidad nacional, la formulacin y evaluacin de
los planes de desarrollo y la toma de decisiones.
5.2 OBJETIVOS GENERALES
1 Obtener informacin sobre la estructura y tendencias de cambio en la fuerza
laboral a travs de sus caractersticas socioeconmicas bsicas, tales como: los
niveles de empleo e ingreso, grupos y categoras ocupacionales, trabajo
habitual, migracin calificacin para el trabajo y otros datos referentes a la
disponibilidad y utilizacin de los recursos humanos en el pas.
2 Proveer informacin peridica, sistemtica y oportuna en los periodos
ntercensales.
3 Servir de fuente de informacin a instituciones publicas y privadas, as como;
a investigadores.
4 Permitir la comparabilidad con investigaciones similares, en relacin a las
variables investigadas.
5.3 OBJETIVOS ESPECFICOS
- Determinar la poblacin econmicamente activa (PEA), relacionada con sus
caractersticas en cuanto a sexo, edad, educacin, estado civil o conyugal,
concisin de actividad, migracin, ocupacin, categora de ocupacin, rama de
actividad econmica, etc.
- Determinar la PEA Ocupada relacionndola con sus caracterstica en cuanto a
sexo, edad, educacin, estado civil o conyugal, migracin, ocupacin,
categora de ocupacin, rama de actividad econmica, horas trabajadas, nivel
de ingreso percibido, etc.
- Determinar la Poblacin Desempleada relacionndola con sus caractersticas
en cuanto a sexo, edad, educacin, estado civil o conyugal, migracin, etc.
- Determinar la poblacin econmicamente inactiva, relacionndola con sus
caractersticas en cuanto a sexo, edad, educacin, trabajo anterior, estado civil,
migracin, etc.
- Determinar la tasa de desempleo y subempleo.
- Obtener indicadores del ingreso por trabajo.
- Obtener informacin sobre educacin y calificacin para el trabajo.
- Ingreso por trabajo:
o Ordinarios: Da, semana, quincena, mes anterior o 2 meses
anteriores.
o En Especie: ltimos 12 meses.
o Extraordinarios: ltimos 12 meses.
- Ingresos por Transferencias Corrientes: ltimos 6 meses.
- Ingresos por Rentas de la Propiedad: ltimos 12 meses.
- Otros Ingresos Extraordinarios: ltimos 12 meses.
- Trabajo Anterior para los desocupados e inactivos: Ultimo trabajo realizado.
- Trabajo Habitual para los ocupados, desocupados e inactivos: ltimos 12
meses.
- Ingreso por Actividad Agropecuaria: ltimos 12 meses.
6 DISEO MUESTRAL
6.1 Poblacin Bajo Estudio.- Comprende las viviendas particulares y sus
ocupantes del rea urbana del pas.
6.2 Marco Muestral.- El Marco Muestral est basado en la informacin
del Precenso de 1999 y el material cartogrfico respectivo. La informacin de este
marco ha sido actualizada a 2001 en los conglomerados seleccionados para la
muestra.
6.3 Unidades de Muestreo.- La unidad Primaria de Muestreo (UPM) es
el centro poblado urbano con 2 mil y ms habitantes.
La unidad Secundaria de Muestreo (USM) es el conglomerado que tiene en
promedio 80 viviendas particulares.
La unidad Terciaria de Muestreo (UTM) es la vivienda particular.
6.4 Tipo de Muestreo.- La muestra es probabilstica, estratificada y de
reas.
La seleccin de la muestra es sistemtica, proporcional al tamao en la primera
y segunda etapa de muestreo, y de seleccin sistemtica simple de una muestra
compacta en la tercera etapa.
El nivel de confianza de los resultados muestrales es del 95%.
6.5 Tamao Muestral.- El tamao de la muestra en le mbito nacional
urbano e de 10 395 viviendas, distribuidas en 725 conglomerados.
El nmero de viviendas a seleccionarse por conglomerados es igual a doce (12)
en el dominio de Lima Metropolitana y quince (15) en el resto de dominios
urbanos.
7. NIVELES DE INFERENCIA
Los resultados de la Encuesta tendrn los siguientes niveles de inferencia:
Nacional Urbano
Dominios Geogrficos:
- Costa Urbana
- Sierra Urbana
- Selva Urbana
Ciudades:
- rea Metropolitana de Lima y Callao
- Arequipa
- Chimbote
- Cajamarca
- Lambayeque
- Puno y Juliaca
- Pucallpa
De acuerdo al diseo muestral, se podr producir resultados para diferentes
arreglos de unidades y su nivel de desagregacin depender fundamentalmente de
la precisin con que se estime el dato, y sta del tamao de la muestra para cada
caso.