Professional Documents
Culture Documents
ESTNDARES DE BUENAS
PRCTICAS PARA LA TOMA
DE MUESTRAS
Noviembre 2007
N7
ESTNDARES DE BUENAS
PRCTICAS PARA LA TOMA
DE MUESTRAS
Claudia Matus C.
Jefe de Departamento Investigacin y Desarrollo
Instituto Nacional de Estadsticas de Chile
Resumen ejecutivo
En este artculo se presentan y describen los temas que deben considerarse para poder desarrollar
con xito el diseo muestral de un estudio. Se presenta los insumos con los que se debe contar al
momento de comenzar el desarrollo de un diseo muestral, como asimismo en cada etapa o tema
de su desarrollo, se entregan lineamientos, ejemplos y consideraciones para llevarlos a cabo de
manera eficiente. Con lo anterior se pretende difundir las prcticas que actualmente se llevan a cabo
en el Instituto Nacional de Estadsticas y con las cuales se han obtenido productos estadsticos de
calidad y relevancia.
En la introduccin del artculo se presenta donde se inserta el diseo muestral dentro de un
desarrollo de un proyecto de estudio y se detallan los requerimientos que deben cumplirse para
desarrollar adecuadamente un diseo muestral. Posteriormente se detallan las etapas y temas que
deben ser cubiertos en dicho diseo para segurar la calidad de la informacin estadstica obtenida a
mediante de muestras. Finalmente se presentan recomendaciones y conclusiones.
Introduccin
Cuando se ha decidido realizar una investigacin sobre algn fenmeno y no se puede observar o
medir a todos los posibles sujetos de estudio se recurre, a seleccionar una muestra de los sujetos de
estudio para examinarlos. La idea es que la informacin recogida en ese conjunto de luces sobre el
fenmeno en la totalidad de los posibles sujetos de estudio. Lo que se desea es traspasar los
resultados obtenidos en la muestra a todo el conjunto de la poblacin.En trminos tcnicos esto se
denomina inferir los resultados de la muestra a la poblacin. La Teora de Probabilidades garantiza
que lo anterior se cumple solamente si la muestra de individuos a estudiar ha sido escogida por un
mecanismo probabilstico que garantice que todos los posibles sujetos de estudio tienen
probabilidad no nula de ser seleccionados 1 . Si lo anterior ocurre se esta en presencia de una
muestra probabilstica. Al mecanismo de seleccin de unidades se lo denomina diseo muestral.
Para que un estudio de algn fenmeno en base a muestras sea exitoso se requiere que exista
coherencia entre las distintas etapas del estudio. Por lo general dichas etapas se pueden resumir en:
Diseo Metodolgico Conceptual
Diseo Muestral
Levantamiento de Informacin
Procesamiento de Informacin recogida
Presentacin de Resultados
Existen guas de procedimiento metodolgicos 2 donde se presentan de manera tcnica y extensa
todos los temas. En este artculo se comentar acerca de la etapa del diseo muestral. Sin embargo
antes de presentarlo se hace notar que la etapa de Diseo Metodolgico Conceptual provee insumos
necesarios e imprescindibles para un buen desarrollo del diseo muestral ya que en dicha etapa se
definen los objetivos del estudio. En particular se debe determinar sin ambigedades y
explcitamente lo siguiente:
La o las preguntas de estudio, esto la variable de inters o el fenmeno en estudio por
ejemplo la tasa de desocupacin.
La poblacin objetivo es decir a quin se desea estudiar, que condicionar con
posterioridad la unidad de anlisis, por ejemplo los mayores de 15 aos.
La cobertura, es decir el alcance geogrfico del estudio, por ejemplo nivel nacional o
regional o comunal.
El periodo de referencia o mbito temporal al que se referir el estudio, por ejemplo durante
el trimestre Enero-Febrero-Marzo.
Los niveles de estimacin, es decir a que nivel de desagregacin se presentarn los
resultados los que deben ser consistentes con la cobertura del estudio.
Precisin requerida para la presentacin de resultados.
Una vez que las interrogantes anteriores han sido contestadas, se puede proceder a desarrollar el
diseo muestral.
1
2
Dicha probabilidad no nula, es decir distinta de cero, puede ser diferente para cada sujeto.
INE (2007)
Diseo muestral
Como se indic previamente el diseo muestral es la estrategia o mtodo para seleccionar una
muestra desde una poblacin. Para poder llevar a cabo lo anterior se sugiere considerar las
siguientes temas o etapas
a)
b)
c)
d)
e)
f)
g)
h)
i)
Los valores obtenidos de la muestra piloto pueden ser reemplazados por informacin obtenida de
estudios previos.
Eficiencia: significa que se obtiene mayor precisin (menor varianza del estimador) con un mismo nmero de unidades.
9
CIIU, Clasificacin Uniforme Internacional Industrial
n k = (n / N ) N k .
n k = n / nmero de Estratos.
10
Es decir,
11
Es decir,
12
variable de inters en cada estrato. La frmula explcita para esta afijacin se puede encontrar en
lo libros de texto de muestreo 13
Tal es el caso de la muestra de establecimientos industriales para la Encuesta de Innovacin
Tecnolgica donde es necesario obtener resultados aceptables a nivel de la CIIU a un dgito y
Nacional por tamao.
Afijacin ptima con costo de variables, en que la muestra se distribuye en forma directamente
proporcional a la heterogeneidad 14 y tamao de cada estrato e inversamente al costo de acceso a
las unidades de muestreo en cada estrato. Los tamaos muestrales se obtienen minimizando la
varianza del estimador obtenido usando estratificacin bajo el condicionante de la estructura de
costos y bajo el conocimiento de los tamaos de estrato y de la varianza de la variable de inters
en cada estrato. La frmula explcita para esta afijacin se puede encontrar en lo libros de texto de
muestreo 15
Ninguno de los mecanismos de afijacin antes mencionados, conviene aplicarlos en forma mecnica,
siempre se requiere ajustar segn criterios que exige cada estudio. Por ejemplo, en el caso de la muestra
de establecimientos para la encuesta de Medio Ambiente, donde la afijacin inicial fue ptima, despus
fue ajustada para suavizar las diferencias entre los errores de muestreo de los estratos, que coincidan con
los niveles de estimacin de inters.
13
Una desventaja del Muestreo de Conglomerados es una posible menor eficiencia estadstica con
respecto al M.A.S, debido a que podra existir cierto parecido (homogeneidad) entre los elementos
que forman los conglomerados lo que induce un aumento en la varianza de los estimadores
obtenidos con este diseo en comparacin con la varianza de los estimadores obtenidos bajo
M.A.S 16 . Lo anterior quiere decir que con un nmero menor de unidades se puede obtener la misma
precisin.
En el muestreo de conglomerados, estos deben ser heterogneos internamente, pero homogneos entre
ellos, sin embargo, al igual que los estratos, la definicin de los conglomerados est sujeto a
restricciones naturales.
Cuando se dentro del conglomerado no se examinan todas sus unidades sino que se escogen algunas
se habla de muestreo en dos etapas o bi-etpico (multietapa en general). En este caso se dice que
los conglomerados son las unidades primarias y las unidades seleccionadas dentro de las unidades
primarias se denominan secundarias.
3.5Muestreo (Aleatorio) Sistemtico
Un caso particular del muestreo por conglomerado es el muestreo sistemtico, donde se selecciona
despus de un arranque aleatorio, elementos del marco de una manera regular. Por ejemplo si se
considera que el marco muestral est constituido de N=mk unidades y estas se ordenan de la
siguiente manera:
Y1
Y2 Y3 Y4 Yk
Yk+1 Yk+2 Yk+3 Yk+4 ...... Y2k
Y2k+1 Y2k+2 Y2k+3 Y2k+4 Y3k
Y(m-1)k+1
..Ymk
Se escoge aleatoriamente un nmero entre 1 y k (k0)) y luego se va seleccionando sistemticamente
las unidades a distancia k, la muestra sera : Yko, Yko+k,Yk0+2k,. Por ejemplo si ko = 3 se tendria
como seleccionada la muestra formada por la tercera columna. Claramente slo se pueden
seleccionar una de entre las k columnas que son los conglomerados. Por eso el muestreo sistemtico
es un muestreo por conglomerados de tamao uno.
3.6 Muestreo Mixto: Censo y Muestra
Un tipo particular de muestreo estratificado, usado con frecuencia con el fin de reducir costos y
aumentar la eficiencia estadstica, consiste en censar un estrato y seleccionar muestras en los otros.
Los elementos censados reciben el apellido de inclusin forzosa o auto representados.
Este mtodo es usado en estudios donde la variable de inters es muy heterognea y la varianza de la
poblacin esta fuertemente influenciada por pocos elementos con valores muy grandes para dicha
variable. La ganancia est en que el aporte de la variable de seleccin de las unidades censadas
representa un importante porcentaje del total de la variable en estudio para la poblacin objetivo y con
pocas unidades censadas.
Como ejemplo se pueden mencionar la muestra anual de Comercio y Servicios, las muestras
seleccionadas del directorio de la ENIA ( Encuesta Nacional Industrial Anual)..
16
En general un diseo muestral contempla la combinacin de varios mtodos, los que son utilizados en
distintos niveles de agrupamiento de las unidades de estudio con el propsito de mejorar la eficiencia y
precisin de los resultados finales 17 Entre las aplicaciones realizadas en el INE se pueden mencionar
las siguientes:
Los establecimientos seleccionados para la encuesta de precios del IPC, corresponden a una
muestra aleatoria por producto y variedad, donde los establecimientos consultados son clasificados
segn su importancia con respecto a la variable ventas por tipo.
18
p e ,
p .
Lo anterior significa que si se emplea la misma funcin de estimacin para P con diversas muestras
del mismo tamao, entonces cada estimacin p tendr un intervalo diferente que contendr en
promedio al parmetro P en el 95% de los casos. En la prctica cuando construimos slo un
intervalo de confianza para estimar el parmetro, el parmetro puede o no estar dentro del intervalo,
sin embargo tenemos, en este ejemplo, un 95% de confianza que el parmetro podra estar dentro
del intervalo.
17
Mayor informacin acerca de otros diseo muestrales se puede obtener de Thompson (2002).
18
10
Por tal motivo, al determinar el tamao de una muestra se tiene en consideracin la efectiva precisin que
se puede alcanzar segn el nmero de reas temticas y geogrficas en que se desagrega la informacin.
Como ejemplo se indican los siguientes:
La muestra diseada para la Encuesta Nacional del Empleo proporciona resultados sobre
Desocupacin con validez estadstica a nivel Nacional, Urbano, Rural, Grandes Centros Urbanos; a
nivel regional; y Grandes ciudades. Entregar informacin a niveles ms desagregados implica
cierta perdida de precisin en sus resultados.
Lo mismo ocurre si sobre la base de esta muestra se quiere por ejemplo, informacin desagregada a
ms de un dgito en los Grupos de Ocupacin.
Por lo general la precisin de una muestra depende, adems del tamao de la muestra, de la
definicin de los estratos y sus muestras respectivas, de manera tal que por agregacin de estos los
errores piramidales se suavizan, alcanzando niveles ptimos de precisin en las reas de estimacin.
Se debe tener en cuenta que aunque no existen niveles de precisin o error absolutos
convencionalmente aceptados para declarar una estimacin estadsticamente vlida o no, un
organismo como el INE puede fijar un nivel de error ms all del cual, una estimacin no se publica
debido a la alta incertidumbre que tiene asociado el estimador con que fue generada. Por ejemplo
aunque se dispone de datos comunales para la Encuesta Nacional del Empleo no se publican dichas
cifras.
5. El tamao de la muestra.
Corresponde al nmero de unidades de muestreo que deben ser seleccionadas para su medicin . El tamao
de la muestra est determinado por los siguientes elementos:
P(| | e) 1
Donde es el estimador obtenido de la muestra, es el valor real desconocido que se intenta estimar,
e es la precisin deseada (dato) y es el nivel de confianza deseado (dato). Para resolver esta ecuacin es
necesario conocer 19 la distribucin probabilstica de . Por ejemplo si ~ N ( , Var ()) se tiene que
P(
19
e
| |
) 1
Var ()
Var ()
Al menos asintticamente
11
e
Var ()
= 1,96 20 si = 0,05.
La Var () depende del mecanismo de seleccin y del nmero de unidades seleccionadas en la muestra,
por lo que dicho nmero se despeja de la ecuacin anterior. No existen tablas de tamaos muestrales que
puedan ser aplicables para cualquier fenmeno.
Por otra parte el tamao muestral total se distribuye segn el nmero de etapas que considere el
diseo as por ejemplo si se trata de una muestra mono-etpica, la muestra corresponde slo a las
unidades primarias, pero si la muestra es bi-etpica se seleccionan unidades primarias y dentro de
estas, unidades secundarias, en este caso Var () involucra el nmero de unidades de primera y
segunda etapa, por lo que la resolucin de la ecuacin es ms compleja El nmero de etapas en las
cuales se debe incurrir depende bsicamente en la posibilidad o imposibilidad de seleccionar las
unidades de estudio y de la conformacin del marco muestral.
Cabe hacer notar que los procesos de seleccin inducen la variabilidad o error muestral,.La
estructura de los errores queda determinada por el nmero de etapas donde se realiza seleccin, de
unidades y los errores de cada etapa quedan condicionados por los errores de las etapas anteriores.
6. Seleccin de la muestra
Consiste en la individualizacin de las unidades muestrales. En esta etapa se programan algoritmos que
permiten la seleccin, desde el marco, de las unidades de muestreo segn el diseo muestral adoptado.
La seleccin de la muestra en el gabinete es decir no en terreno debe llegar, en lo posible, hasta las
unidades de anlisis. La seleccin de elementos en terreno es menos engorrosa y reduce los costos
del estudio, sin embargo, debe incluir una adecuada supervisin 21 .
El producto bsico de esta etapa, es la construccin del directorio de la muestra que contiene la
ubicacin e identificacin de las unidades de muestreo seleccionadas. El listado anterior, debe
incluir, por ejemplo, el estrato de muestreo al que pertenece la unidad y toda la informacin posible
que la caracterice.
7. Estimadores y Factores de Expansin.
La definicin de los estimadores que se obtendrn de la muestra queda definida por la medicin de
la variable de inters y el diseo muestral utilizado. Por ejemplo si se desea determinar el valor
medio de la variable de inters y en una poblacin de tamao N el estimador apropiado de ,
considerando yi al valor de la variable de inters en la unidad i, ser:
y=
20
21
1 n
yi que es la media muestral si se utiliza un m.a.s. con o sin reposicin
n i =1
1,96 es el cuantl de la distibucin normal estandarizada que deja 2,5% de la probabilidad a la derecha.
Actualmente e la encuesta de mercado laboral la seleccin de viviendas se hace en terreno.
12
PTT
1
Nn
i=1
yi
el estimador de Hansen-Hurwitz si la muestra se escoge con
pi
= i factori yi
La propiedades estadsticas del estimador anterior dependen del diseo muestral y tambin de la
actualizacin de los parmetros involucrados en los factores de expansin.
Por ejemplo:
En una muestra estratificada y bietpica de viviendas, con seleccin proporcional al tamao, el
factor va a depender:
Del nmero de viviendas del estrato
Del nmero de secciones de la muestra
Del nmero de viviendas de la seccin seleccionada
Del nmero de viviendas actualizado de la seccin seleccionada y
Del nmero de viviendas a seleccionar en la seccin.
El factor de expansin corresponde al inverso de la probabilidad de seleccin de cada unidad
medida . Este valor puede ser complicado de calcular bajo diseos complejos. El INE entrega para
cada encuesta que realiza el clculo de sus factores de expansin dentro de lo documentos
metodolgicos 23
En general es importante que los elementos que determinan la expansin de un resultado estn muy
actualizados. Lo anterior implica disponer permanentemente de estratos de seleccin conformados
por unidades vigentes al momento de seleccionar.
8. Clculo y Presentacin de los Errores de Muestreo.
Otra de las preocupaciones a tener presente al desarrollar un diseo, es la metodologa para estimar
los errores de muestreo y su presentacin. Bsicamente se denomina error de muestreo a la raiz de
la varianza de los estimadores. La estimacin de dicha varianza puede ser bastante compleja y esta
directamente asociada al diseo muestral.
Existen tcnicas que permiten aproximar la varianza (expansiones de Taylor, aproximaciones
funcionales, mtodo delta, etc) o bien estimarla asintticamente mediante procedimientos de remuestreo 24 (Bootstrap, Jack-Knife 25 ). Sin embargo siempre es necesario entregar informacin
22
13
acerca de la precisin de las estimaciones, luego es necesario entregar la varianza estimada de los
estimadores utilizados o su coeficiente de variacin 26 . Por ejemplo en la Encuesta Nacional del
Empleo se calcula el error estndar 27 y/o el coeficiente de variacin de las variables principales.
9. Pautas de Control y Medicin de los Errores no Muestrales.
Existen distintos mecanismos que permiten mejorar la calidad de los resultados obtenidos de un
estudio por muestreo, pero igualmente importante como el diseo muestral tal como se propone, es
la forma en que se obtienen los resultados, es decir el levantamiento de stos.
Es muy importante disponer de equipos muy preparados de encuestadores y supervisores que velen
por la calidad de los resultados recogidos de terreno, por que un trabajo de terreno descuidado
induce errores no muestrales, es decir, diferencias entre la estimacin y el parmetro, no atribuibles
a la fluctuacin aleatoria de la muestra que pueden invalidar totalmente los resultados.
Los errores no muestrales provienen de respuestas equvocas del informante, una errnea
administracin de la entrevista por parte del encuestador, la investigacin de unidades que no
pertenecen al universo, cobertura inadecuada tanto de unidades de muestreo como de anlisis, datos
no consultados, entre otros.
Los errores no muestrales se pueden clasificar segn su procedencia en:
Errores de Cobertura
Errores de Contenido
Errores de Procesamiento
Los primeros surgen de una inadecuada identificacin de las unidades de muestreo y de anlisis, por
ejemplo, viviendas y personas que no corresponde encuestar.
Los segundos corresponden a los datos no vlidos recogidos de las personas encuestadas, por
ejemplo una persona que se clasifica como asalariada (dependiente) en la primera encuesta y en la
reentrevista como independiente.
La evaluacin de los errores no muestrales de contenido se puede realizar por ejemplo a travs de
los siguientes indicadores 28 :
El ndice de Consistencia Global, I.C.G.: Es un Indicador que compara la calidad general de las
distintas caractersticas evaluadas de la encuesta
El Porcentaje de Idnticamente Clasificados, P.I.C.: Es un Indicador de estabilidad de respuesta
ndice de Cambio Neto, I.C.N.: Es un indicador del sesgo de respuesta
ndice de Cambio Bruto, I.C.B.: Es un indicador de la varianza de respuesta
Por otra parte cabe tener presente que el error final de un estudio se debera medir considerando tanto el
error de muestreo como el error no muestral
Error Total = Error de Muestreo + Error de no Muestreo
El tercer grupo corresponde a errores en el procesamiento electrnico de la informacin
26
Se define como la proporcin del error estndar sobre la estimacin expresado como porcentaje.
Raz cuadrada de la varianza estimada.
28
Tomados de INE-Espaa Manual de reentrevistas
27
14
Conclusiones y Recomendaciones
Se ha pretendido presentar y comentar en este artculo los temas, etapas y los procesos referidos a la
seleccin de unidades que es recomendable abordar al momento de disear un estudio donde se
obtendr informacin a partir de muestras. Las conclusiones que pueden extraerse de esta
exposicin podran resumirse de la siguiente manera:
El fenmeno en estudio define la o las variable(s) de inters a medir.
La poblacin objetivo define el marco muestral a utilizar.
El comportamiento de la variable de inters en la poblacin objetivo define y/o condiciona
el diseo muestral o mecanismo de seleccin de las unidades, que a su vez determina los
tamaos muestrales necesarios.
Ningn diseo muestral es superior a otro a priori, en trminos de eficiencia, sino que para
cada combinacin variable de inters-poblacin objetivo los distintos diseos muestrales
pueden ser ms o menos eficientes.
Se debe definir al inicio del estudio los niveles de precisin requeridos o aceptables.
Como recomendacin general se puede sugerir desarrollar para cada estudio un informe donde se
describan los pasos seguidos en cada una de las etapas y procesos mencionados en el artculo a
objeto de evaluar si se puede asegurar la calidad estadstica de los resultados.
Bibliografa
15