You are on page 1of 8

1

Universidad de Costa Rica


Maestra en Estadstica
Curso: Anlisis Multivariado

BOOSTRAP PARA REGRESIN EN ENCUESTAS

Keylor Carmona

I. RESUMEN

El presente documento tiene como objetivo valorar la aplicacin del anlisis de regresin
bootstrap a informacin proveniente de encuestas complejas. Para esto se constrastan los
parmetros y los intervalos de confianza de una regresin para estimar el gasto total del
hogar percpita en la Regin Chorotega, empleando el anlisis de regresin simple, el
anlisis de regresin con correccin para muestras complejas, y por el mtodo Bootstrap.
Como conclusin se destaca que aunque no se observaron variaciones sustanciales en los
parmetros, el mtodo bootstrap genera menores lmites de confianza para los parmetros
que el mtodo de regresin corregido.

II. INTRODUCCIN

La principal particularidad del anlisis de regresin a partir de datos de encuestas complejas
es el incumplimiento de dos supuestos: el supuesto de independencia entre las
observaciones, y el supuesto de homocedasticidad.

Esto afecta la inferencia de los resultados al poder propiciar tanto sesgos en la estimacin
puntual de los parmetros como en sus errores estndar y por ende en las pruebas de
hiptesis que se derivan.

Dos alternativas de correccin se sugieren, uno es el clculo de los parmetros de regresin
ponderado por los factores del diseo, y el otro es el mtodo bootstrap elaborado a partir de
las especificaciones del diseo.

El presente documento tiene como objetivo mostrar las bondades de ambos mtodos,
aplicados a una ecuacin para estimar el gasto mensual per cpita de los hogares de la
regin Chorotega.

2
I.1. Clculos de regresin ajustando por el efecto del diseo

Los supuestos bsicos del anlisis de regresin simple a travs de mnimos cuadrados
ordinarios son los siguientes:

(A1) ( ) 0 =
i
E ; es decir que ( ) x x y E
i i 1 0
+ =
(A2)
2
) ( =
i
V ; es decir que la varianza respecto a la lnea de regresin es la misma
para todos los valores de x.
(A3) ( ) j i Cov
j i
= 0 , ; que las observaciones son independientes
(A4) ( ) ( )
2
, 0 ~ N x
i i
; que la distribucin de los errores es normal con la media de A1 y
la varianza de A2.

Por su parte, los supuestos (A1) y (A3) garantizan que los parmetros
k

, sean los mejores


estimadores lineales insesgados, es decir que sean los de menor de varianza. Mientras que
los supuestos (A2) y (A4) nos permiten construir intervalos de confianza y pruebas de
hiptesis con respecto a los parmetros reales de la poblacin.

Sin embargo cuando se aplica el anlisis de regresin a datos de encuestas complejas, es
comn que se incumplan los supuestos A2 y A3. Esto tiende a ocurrir cuando el diseo de
la encuesta emplea recursos como la estratificacin, o el anlisis de conglomerados, o
particularmente cuando la no respuesta se asocia a la variable endgena. Estas
peculiaridades del diseo muestral confieren a los elementos en la muestra distintas
probabilidades de seleccin y generalmente amplan los intervalos de confianza de los
parmetros.

La correccin tpica de los estimadores de los parmetros ante esta circunstancia consiste
en incorporar al anlisis de regresin las particularidades del diseo muestral al clculo de
los parmetros y los errores estndar, medida que ha generado mucha polmica entre los
tericos estadsticos.

La primera correccin consiste en acotar la poblacin de estudio trabajando, es decir definir
una poblacin finita en lugar de infinita como normalmente hace el modelo de regresin
tradicional, de esta forma:

u
t
u u
t
u
y X B X X =

Donde = parmetro poblacional

u
X = es la matriz de variables explicativas para los N elementos en la poblacin.
u
y = es un vector para la variable respuesta (endgena) para los N elementos de la
poblacin

3
Luego, tomando los valores observados y ponderndolos por los pesos
i
w de la muestra
para proyectar los resultados al resto de la poblacin, se tendr que:

( )
s s
t
s s s
t
s
y W X X W X
1


=

Donde

= parmetro estimado a partir de la muestra



s
X = es la matriz de variables explicativas para los n elementos en la muestra.
s
y = es un vector para la variable respuesta (endgena) para los n elementos en la
muestra.
s
W = es la matriz diagonal con los pesos
i
w de la muestra.

Es importante notar que aunque estos estimadores puntuales son notacionalmente similares
a los estimadores de mnimos cuadrados ponderados generalmente descritos en los libros de
econometra, este ajuste no es del todo equivalente ya que el ponderados
s
W proviene del
diseo de muestreo y no de una supuesta estructura de varianzas y covarianzas.

Tal es la diferencia que la varianza de los coeficientes ajustados por el diseo muestral es
distinta a la de mnimos cuadrados ponderados ( )
1
1

X X
t
, en particular esta es como
deriva Lohr 1999.

( ) ( ) ( )
1 1


=


s s
t
s
s i
t
i i
t
i i s s
t
s
X W X x y x w V X W X

que se deriva de la linealizacin de Taylor, que contrario a la estimacin de mnimos
cuadrados ponderados, este incluye ms las especificaciones del diseo muestral
ponderando los errores observados por la representatividad de los elementos de la muestra
en la poblacin.

Incluso aunque se extraiga una muestra aleatoria simple de los elementos de una poblacin,
la varianza a partir del modelos es distinta de la varianza a partir del diseo. Esto surge por
cuanto el nivel de confianza basado en el diseo corresponde a la proporcin de muestras
posibles en la poblacin acotada que producen un intervalo de confianza que contiene el
verdadero valor de los parmetros, mientras que el estimador de la varianza basado en el
modelo surge e la desviacin cuadrtica media sobre todas las realizaciones posibles de
modelo.

Finalmente, resulta importante notar que este procedimiento es sencillo de ejecutar en el
paquete estadstico STATA a travs de los comandos svyset y svyreg.

I.2. Clculo de regresin Bootstrap

4
El procedimiento Bootstrap ha presenciado su mayor desarrollo a partir de 1979 con el
artculo desarrollado por Bradley Efron. Tal y como l lo sugiere en un artculo posterior en
el ao 2003, Es sorprenden cun distintos son los artculos de desarrollo reciente de la
metodologa Bootstrap, as como la variedad de los campos de aplicacin que han aportado
a mejorar su metodologa.

Su idea fundamental es simple, los datos muestrales son tratados como si fuesen los datos
de toda la poblacin, es decir se utilizan como el universo del que se extraern muestras
con reemplazo. Con cada remuestreo se disea un vector de valores del estimador
bootstrap, posteriormente este se utilizar para estimar la variabilidad muestral. Tal y
como los estudios tericos han demostrado, este enfoque proporciona una buena
aproximacin de la distribucin de los estimadores (Diaconis y Efron, 1983; Efron, 1981;
Lunneborg, 1987) lo cual permitir describir algunas de sus propiedades muestrales, as
como el clculo de intervalos de confianza y la realizacin de contrastes de hiptesis.
Su principal virtud se debe a que al construirse empricamente la distribucin del estimador
sobre la base de todas las caractersticas de la distribucin original de los datos, el enfoque
bootstrap no se encuentra sujeto a los supuestos tipicamente requeridos en el anlisis de
regresin, particularmente en cuanto a la distribucin normal de la variable respuesta y de
los errores; hecho, que es comn a la mayor parte de las medidas utilizadas habitualmente
en las ciencias del comportamiento (Micceri, 1989).

Su aplicacin directa a la estimacin de errores muestrales en encuestas complejas y
particularmente al anlisis de regresin se debe a que las especificaciones de aleatoriedad
para el remuestreo de elementos se pueden variar de tal forma que coincida con las
especificaciones del diseo, de tal forma que a partir de mltiples regresiones simples de
muestras condicionadas es posible estimar los intervalos de confianza de los parmetros.

An ms recientes aplicaciones han identificado mtodos ms precisos para estimar los
lmites de confianza a partir de la tcnica Bootstrap, uno de estos es el conocido
procedimiento BCA (Bias corrected and accelerated), este procedimiento corrige el
procedimiento ordinario a partir del clculo del sesgo en la distribucin de los estimadores
y una constante de aceleracin.

III. METODOLOGA

I.1. Fuentes de informacin y aplicacin al caso costarricense
Se implement como fuente muestral, la Encuesta Nacional de Ingresos y Gastos del ao
2004-2005 (ENIG-2004), la cul se ejecut entre abril del 2004 y abril del 2005, por el
Instituto Nacional de Estadstica y Censos (INEC) incluyendo 5220 viviendas y con un
porcentaje de respuesta del 85% de los hogares.

Se agreg la base a nivel de hogares y se seleccion la regin Chorotega, para los que se
recodificaron 22 variables con caractersticas generales sobre zona de residencia, el nmero
5
de perceptores en el hogar, y sus caractersticas de educacin, actividad econmica,
experiencia laboral, ocupacin y sector institucional.

Se calcul una regresin para el logaritmo del gasto total de hogar per cpita, y se
calcularon los lmites de confianza. Posteriormente estos lmites y los parmetros fueron
comparados con las estimaciones a travs de los procedimientos tradicionales de correccin
de los estimadores y sus errores estndar, y el mismo procedimiento pero realizado a partir
de la estimacin Bootstrap con 1000 simulaciones y el clculo de los lmites de confianza a
partir del procedimiento BCa.

Los principales resultados se muestran a continuacin.
6
IV. RESULTADOS Y DISCUSIN

Los principales resultados se muestran en el cuadro 1, y con mejor detalle en el grfico 1.
En estos se observa que aunque las estimaciones de todos los procedimientos no varan
sustancialmente ni en las estimaciones de los parmetros ni en las estimaciones de los
lmites de confianza, los procedimientos de regresin simple y regresin Bootstrap
coinciden en la los parmetros, mientras que el procedimiento de regresin con correccin
para muestras complejas, presenta algunos parmetros relativamente mayores (educacin
universitaria, proporcin de patronos, educacin tcnica, actividades agrcolas, mujeres) y
otros relativamente menores (servicios estatales, sector privado, educacin bachillerato).

En cuanto a los lmites de confianza es interesante notar que aunque las estimaciones
generadas por la regresin simple subestima su amplitud como era esperado, el mtodo
bootstrap genera lmites de confianza ms angostos. En este sentido, es interesante notar
que el rango de variacin promedio con respecto al valor de cada parmetro es 2.12 para los
intervalos de la regresin simple, 3.28 para los intervalos de la regresin corregida, y 2.33
para los intervalos de la regresin Bootstrap.

Este procedimiento muestra las ventajas de la estimacin bootstrap an sobre
procedimientos de estimacin corregida, debido a las limitaciones siempre presentes de los
requerimientos de supuestos en los procesos de estimacin ordinarios.

Cuadro 1, Regin Chorotega: Parmetros y lmites de confianza al 95% de la estimacin
del gasto mensual per cpita de los hogares segn tres mtodos de estimacin (Regresin
Simple-E1, Regresin para encuestas complejas-E2, Bootstrap de regresin para encuestas
complejas-E3)
rea Variable Abreviatura
E1 E2 E3 E1- E1+ E2- E2+ E3- E3+ E1 E2 E3
Caractersticas Zona Zona Rural xzrural -0.148 -0.080 -0.144 -0.357 0.062 -0.316 0.157 -0.484 0.106 2.85 5.95 4.10
del hogar Perceptores Proporcin de perceptores xpph 0.941 1.029 0.925 0.598 1.284 0.738 1.320 0.704 1.238 0.73 0.57 0.58
Hogar sin perceptores xhnp 0.223 0.161 0.246 -0.328 0.774 -0.387 0.708 -0.379 0.782 4.95 6.82 4.71
Caractersticas de Sexo Mujeres xmujer -0.080 0.053 -0.071 -0.372 0.212 -0.317 0.422 -0.372 0.208 7.33 14.05 8.22
los perceptores
Educacin Educ. Universidad xuniv 1.988 2.182 2.010 1.519 2.458 1.630 2.733 1.451 2.511 0.47 0.51 0.53
Educ. Tecnica xtec 1.433 1.524 1.451 0.874 1.992 0.783 2.266 0.755 2.170 0.78 0.97 0.97
Secundaria incompleta xsecuni 0.626 0.667 0.639 0.371 0.881 0.431 0.903 0.356 0.869 0.82 0.71 0.80
Educ. Bachillerato xbach 1.371 1.228 1.376 0.963 1.780 0.614 1.841 0.945 1.835 0.60 1.00 0.65
Experiencia Experiencia joven xexp2 0.556 0.511 0.554 0.003 1.109 -0.147 1.169 -0.043 1.237 1.99 2.58 2.31
Laboral Experiencia mediano mayor xexp4 0.540 0.455 0.542 -0.042 1.121 -0.284 1.195 -0.080 1.246 2.15 3.25 2.45
Experiencia mediano menor xexp3 0.439 0.438 0.424 -0.078 0.957 -0.207 1.083 -0.152 1.045 2.36 2.94 2.82
Experiencia mayor xexp5 0.994 0.940 1.003 0.349 1.639 -0.026 1.906 0.166 1.922 1.30 2.05 1.75
Actividad Agricultura xagcs 0.217 0.314 0.218 -0.128 0.561 -0.102 0.730 -0.185 0.628 3.18 2.65 3.73
Servicios Bsicos xserbas 1.475 1.428 1.372 0.798 2.151 0.424 2.432 0.534 2.590 0.92 1.41 1.50
Servicios Estatales xservet 0.964 0.714 0.966 0.488 1.440 0.160 1.267 0.524 1.496 0.99 1.55 1.01
Servicios Personales xservpe 0.604 0.678 0.593 0.219 0.988 0.355 1.001 0.196 0.971 1.27 0.95 1.30
Servicios productivos xservp 0.581 0.550 0.599 -0.117 1.278 0.033 1.067 0.083 1.336 2.40 1.88 2.09
Servicios comerciales xcom 0.535 0.578 0.549 0.109 0.960 0.223 0.932 0.149 0.975 1.59 1.23 1.51
Ocupacin Patron xpatron 1.464 1.520 1.439 0.878 2.050 1.005 2.036 1.037 2.004 0.80 0.68 0.67
Asalariados xasal -0.188 -0.171 -0.207 -0.464 0.087 -0.583 0.240 -0.527 0.186 2.92 4.81 3.44
Sector Sector privado xspriv 0.204 0.055 0.213724 -0.212 0.620 -0.286 0.396 -0.310 0.479 4.08 12.42 3.69
_cons 8.719 8.632 Promedio 2.12 3.28 2.33
Parmetros Lmites de confianza Variacin relativa

Fuente: Elaboracin propia



7
Grfico 1, Regin Chorotega: Parmetros y lmites de confianza al 95% de la
estimacin del gasto mensual per cpita de los hogares segn tres mtodos de
estimacin (Regresin Simple-E1, Regresin para encuestas complejas-E2, Bootstrap de
regresin para encuestas complejas-E3)
-1
-0.5
0
0.5
1
1.5
2
2.5
3
x
u
n
i
v
x
s
e
r
b
a
s
x
p
a
t
r
o
n
x
t
e
c
x
b
a
c
h
x
p
p
h
x
e
x
p
5
x
s
e
r
v
e
t
x
s
e
r
v
p
e
x
s
e
c
u
n
i
x
s
e
r
v
p
x
c
o
m
x
e
x
p
2
x
e
x
p
4
x
e
x
p
3
x
a
g
c
s
x
h
n
p
x
s
p
r
i
v
x
m
u
j
e
r
x
z
r
u
r
a
l
x
a
s
a
l
E1
E2
E3
E1-
E1+
E2-
E2+
E3-
E3+

Fuente: Elaboracin propia

V. CONCLUSIONES

El procedimiento Bootstrap constituye un procedimiento particularmente til y sencillo
para la estimacin de regresiones en las encuestas de hogares que se realizan en el pas,
permitiendo mejorar la confiabilidad de sus estimaciones as como incorporar elementos
importantes de la regresin en encuestas complejas.

Aunque el procedimiento no mostr grandes implicaciones en la estimacin de los
parmetros, sus ventajas parecen mostrarse en mayor medida en la estimacin de los lmites
de confianza, en este sentido el variacin relativa promedio de los lmites de confianza con
respecto al valor del parmetro es 2.12 para los intervalos de la regresin simple, 3.28 para
los intervalos de la regresin corregida, y 2.33 para los intervalos de la regresin Bootstrap.

Esto sugiere que los principales beneficios de la aplicacin del procedimiento bootstrap no
necesariamente se generan por la consideracin del diseo muestral sino que adems por
las violaciones a los supuestos bsicos de regresin, en este caso fundamentalmente la
heterocedasticidad.


8
VI. BIBLIOGRAFA

Angus Deaton (2003). The Analysis of Household Surveys: A microeconometric approach
to development policy. World Bank. Johns Hopkins University Press. Baltimore and
London.

A.C. Davison & D. V. Hinkley. (1997) Bootstrap methods and their application.
Cambridge University Press.

Bickel & Freedman (1981). Some Asyntotic theory for the bootstrap En: The Annals of
Statistics, vol 9, No. 6. pp 1196 - 1217.

Dillon & Goldstein. (1984) Multivariate Analysis. John Wiley & Sons.

Efron (1979). Bootstrap Methods: Another Look to the Jackknife. En: The Annals of
Statistics, vol 7, No. 1. pp 1-26.

Efron (2003). Second Thoughts on the Bootstrap. En: Statistical Sciences, vol 18, No. 2.
pp 135-140.

Jauregui & Oliden (2004). Estimaciones bootstrap para el coeficiente de determinacin: un
estudio de simulacin En: Revista Electrnica de Metodologa Aplicada, vol 9, no. 2, pp.
1-14.

Sharon Lohr (1999). Muestreo: Diseo y anlisis. Matemticas Thomson.

You might also like