You are on page 1of 16

estudios

ESTNDARES DE BUENAS
PRCTICAS PARA LA TOMA
DE MUESTRAS
Noviembre 2007
N7

ESTNDARES DE BUENAS
PRCTICAS PARA LA TOMA
DE MUESTRAS

Claudia Matus C.
Jefe de Departamento Investigacin y Desarrollo
Instituto Nacional de Estadsticas de Chile

Estndares de buenas prcticas para la toma de muestras

Resumen ejecutivo
En este artculo se presentan y describen los temas que deben considerarse para poder desarrollar
con xito el diseo muestral de un estudio. Se presenta los insumos con los que se debe contar al
momento de comenzar el desarrollo de un diseo muestral, como asimismo en cada etapa o tema
de su desarrollo, se entregan lineamientos, ejemplos y consideraciones para llevarlos a cabo de
manera eficiente. Con lo anterior se pretende difundir las prcticas que actualmente se llevan a cabo
en el Instituto Nacional de Estadsticas y con las cuales se han obtenido productos estadsticos de
calidad y relevancia.
En la introduccin del artculo se presenta donde se inserta el diseo muestral dentro de un
desarrollo de un proyecto de estudio y se detallan los requerimientos que deben cumplirse para
desarrollar adecuadamente un diseo muestral. Posteriormente se detallan las etapas y temas que
deben ser cubiertos en dicho diseo para segurar la calidad de la informacin estadstica obtenida a
mediante de muestras. Finalmente se presentan recomendaciones y conclusiones.

Estndares de buenas prcticas para la toma de muestras

Introduccin
Cuando se ha decidido realizar una investigacin sobre algn fenmeno y no se puede observar o
medir a todos los posibles sujetos de estudio se recurre, a seleccionar una muestra de los sujetos de
estudio para examinarlos. La idea es que la informacin recogida en ese conjunto de luces sobre el
fenmeno en la totalidad de los posibles sujetos de estudio. Lo que se desea es traspasar los
resultados obtenidos en la muestra a todo el conjunto de la poblacin.En trminos tcnicos esto se
denomina inferir los resultados de la muestra a la poblacin. La Teora de Probabilidades garantiza
que lo anterior se cumple solamente si la muestra de individuos a estudiar ha sido escogida por un
mecanismo probabilstico que garantice que todos los posibles sujetos de estudio tienen
probabilidad no nula de ser seleccionados 1 . Si lo anterior ocurre se esta en presencia de una
muestra probabilstica. Al mecanismo de seleccin de unidades se lo denomina diseo muestral.
Para que un estudio de algn fenmeno en base a muestras sea exitoso se requiere que exista
coherencia entre las distintas etapas del estudio. Por lo general dichas etapas se pueden resumir en:
Diseo Metodolgico Conceptual
Diseo Muestral
Levantamiento de Informacin
Procesamiento de Informacin recogida
Presentacin de Resultados
Existen guas de procedimiento metodolgicos 2 donde se presentan de manera tcnica y extensa
todos los temas. En este artculo se comentar acerca de la etapa del diseo muestral. Sin embargo
antes de presentarlo se hace notar que la etapa de Diseo Metodolgico Conceptual provee insumos
necesarios e imprescindibles para un buen desarrollo del diseo muestral ya que en dicha etapa se
definen los objetivos del estudio. En particular se debe determinar sin ambigedades y
explcitamente lo siguiente:
La o las preguntas de estudio, esto la variable de inters o el fenmeno en estudio por
ejemplo la tasa de desocupacin.
La poblacin objetivo es decir a quin se desea estudiar, que condicionar con
posterioridad la unidad de anlisis, por ejemplo los mayores de 15 aos.
La cobertura, es decir el alcance geogrfico del estudio, por ejemplo nivel nacional o
regional o comunal.
El periodo de referencia o mbito temporal al que se referir el estudio, por ejemplo durante
el trimestre Enero-Febrero-Marzo.
Los niveles de estimacin, es decir a que nivel de desagregacin se presentarn los
resultados los que deben ser consistentes con la cobertura del estudio.
Precisin requerida para la presentacin de resultados.
Una vez que las interrogantes anteriores han sido contestadas, se puede proceder a desarrollar el
diseo muestral.

1
2

Dicha probabilidad no nula, es decir distinta de cero, puede ser diferente para cada sujeto.
INE (2007)

Estndares de buenas prcticas para la toma de muestras

Diseo muestral
Como se indic previamente el diseo muestral es la estrategia o mtodo para seleccionar una
muestra desde una poblacin. Para poder llevar a cabo lo anterior se sugiere considerar las
siguientes temas o etapas
a)
b)
c)
d)
e)
f)
g)
h)
i)

Construccin/Estratificacin del Marco Muestral.


Obtencin de un muestra piloto/Examen de estudio previos.
Definicin del mecanismo de seleccin
Precisin de los resultados
El tamao de la muestra
Seleccin de la Muestra
Estimadores y Factores de Expansin
Clculo y presentacin de los errores muestrales
Pautas de Control y Medicin de los Errores no Muestrales

En las secciones siguientes se describir brevemente cada etapa.


1. Marco muestral
La definicin de poblacin objetivo se operacionaliza en un conjunto llamado marco muestral
donde se aplicar el mecanismo de seleccin. Es en general un listado o enumeracin de las
unidades muestrales (susceptibles de ser escogidas), que permite la seleccin de elementos desde la
poblacin segn las variables a estudiar.
a. Construccin del Marco Muestral
La construccin del marco muestral implica generar los listados de las unidades muestrales que
pueden estar apoyados por mapas cartogrficos, bases de datos, etc.
El marco muestral debe cumplir tres requisitos:
Individualizar a cada una de las unidades que podran ser seleccionadas. Sin ninguna exclusin.
Ser comprehensivo: es decir contener la mxima cobertura posible de unidades de la poblacin
objetivo.
Permitir la ubicacin, sin ambigedad, de la unidad seleccionada.
De la calidad del marco depende en buena medida el resultado de la aplicacin eficaz de la teora de
probabilidades, si el segundo requisito no se cumple, la muestra obtenida a partir del marco
muestral podra no ser representativa 3 de la poblacin objetivo, ya que algunos miembros de ella,
los excluidos del marco muestral, no tendran ninguna posibilidad de ser seleccionados. Si el primer
o tercer requisito no se cumplen habra imposibilidad de medir las unidades seleccionadas lo que
tambin podra acarrear un sesgo en la informacin recogida por la muestra.
Un marco muestral presentado en forma de listado de las unidades a investigar, es til si es fcil de
acceder a la unidad seleccionada. Por ejemplo: el marco de muestreo creado a partir de la Encuesta
Nacional Industrial Anual, la cual corresponde a un Censo de los establecimientos industriales de
10 y ms personas ocupadas, cubre la totalidad de los establecimientos y se compone de un listado
3

En trminos tcnicos los resultados extrados de la muestra podran estar sesgados.

Estndares de buenas prcticas para la toma de muestras

de establecimientos con identificacin geogrfica (ubicacin dentro del territorio nacional) y


econmica (variables econmicas importantes) relevante que permite la seleccin de una muestra de
establecimientos segn distintos criterios.
El marco muestral llamado de reas, en cambio, corresponde a una particin de un territorio
geogrfico compuesto por un conjunto de mapas en los cuales se han trazado reas de tamaos
definidos. Estas reas pueden constituir las unidades de muestreo. Para la elaboracin de un marco
muestral de reas se requiere de la cartografa del territorio para permitir su individualizacin y
ubicacin complementada con informacin acerca de dichas reas como el nmero de viviendas por
manzana, superficie total, etc.
b. Estratificacin del Marco Muestral.
Consiste en identificar y conformar conjuntos de unidades de muestreo homogneas clasificadas
segn variables correlacionadas con la variable del estudio dentro del marco muestral. Para sacar
ventajas de la estratificacin, los estratos deben ser internamente homogneos pero heterogneos entre
si, con respecto de la variable de inters del estudio. Si las variables usadas para estratificar el marco
muestral no estn correlacionadas o al menos asociadas a la variable en estudio se perder eficiencia,
esto es la calidad estadstica en trminos de precisin de los estimadores obtenidos ser menor que la
obtenida al no estratificar el marco. Aunque no es indispensable disponer de medidas de asociacin o
correlacin entre las variables de estratificacin y la variable de inters, se debe considerar que una
estratificacin ser ms efectiva4 cuanto ms fuerte sea dicha asociacin/correlacin.
Entre las variables medidas en el Censo de Poblacin y Vivienda, se pueden destacar algunas que
permitan definir una estratificacin para las reas del marco de acuerdo con ciertos criterios de
clasificacin, por ejemplo:
1. Clasificacin Geogrfico-demogrfica: Segn la concentracin de poblacin, en reas Urbanas y
reas Rurales.
2. Clasificacin Socio-econmica: Las reas se pueden clasificar segn las caractersticas socioeconmicas de las unidades informantes recogidas en el censo.
A veces se estratifica el marco muestral para entregar resultados por agrupaciones de unidades que
son de inters,los niveles de estimacin,por ejemplo regiones o comunas. En este caso dichas
agrupaciones no seran estratos desde el punto de vista del diseo muestral, sino que seran
refinamientos de la poblacin objetivo. El diseo muestral debe tomar en cuenta dicho refinamiento
y asegurar la precisin de los estimadores dentro de dichas agrupaciones.
c. Definicin de las unidades muestrales.
En general los marcos muestrales contienen una lista de las unidades 5 donde se va a medir la variable
de inters que representa el fenmeno. En este caso se dice que la unidades muestrales (del marco
muestral) coinciden con la unidades de anlisis (donde se mide la variable de inters). Sin embargo
existe algunos casos donde si bin se puede identificar bien la poblacin objetivo no se puede construir
un marco muestral donde estn las unidades susceptibles de ser medidas. Por ejemplo si se requiere
estudiar una caracterstica de la poblacin de 15 aos escolarizada se puede recurrir al Servicio de
Registro Civil, sin embargo se obtendr de l a todos las personas de 15 aos pero no se sabr si asisten
4

Para aumentar de la precisin de los estimadores


Unidades es un trmino genrico que puede referirse a personas, establecimientos comerciales, instituciones,
viviendas,etc

Estndares de buenas prcticas para la toma de muestras

o no a un establecimiento educacional y no se tendr una direccin para su contacto. En este caso es


ms conveniente establecer un marco muestral de establecimientos educacionales para seleccionar y
medir en ellos a sus alumnos de 15 aos. En este caso la unidad de anlisis y de muestreo no coinciden.
Para este caso es necesario utilizar diseos muestrales que tomen en cuenta dicha situacin, por
ejemplo muestreo por conglomerados o multietpico.

2. Obtencin de Muestra Piloto/Estudios previos


El concepto de investigacin piloto se puede presentar en 2 contextos:
El estudio aplicado a un rea calificada como piloto, de caractersticas similares a la
poblacin general, en la que se har la medicin completa para tener una primera visin del
fenmeno a medir, y para disponer de los elementos 6 que permitan determinar el error o
precisin requerida para los niveles de estimacin.
El estudio aplicado a una muestra dirigida o probabilstica, pequea en relacin a su
tamao, y que tiene por finalidad evaluar la pertinencia de los procesos relativos a la
ejecucin del proyecto, instrumento de medicin, tiempos de levantamiento, capacitacin,
perfil de los encuestadores y supervisores y procesamiento, adems de lo mencionando en
el punto anterior.
Sino es posible obtener un muestra piloto se debe recurrir a estudios previos para determinar los
requerimientos necesarios para calcular adecuados tamaos de muestra.
3. Definicin del Mecanismo de seleccin.
El mtodo de seleccin de unidades depende, en orden de prioridad, de:
Caractersticas de la variable de inters.
Las caractersticas del marco de muestreo que es posible construir y su relacin con la variable
de inters.
Si el estudio es continuo en el tiempo o puntual, es decir, si se realizar permanentemente o por
una sola vez .
A continuacin se presentan algunos diseos muestrales utilizados frecuentemente.
3.1 Muestreo Aleatorio Simple (M.A.S.)
Es un procedimiento de seleccin de una muestra, en la cual todas y cada unidad del marco tienen la
misma probabilidad de ser seleccionadas para la muestra, y todas las muestras posibles tienen la
misma probabilidad de ser seleccionadas. Se distingue entre M. A. S. sin reposicin donde las
unidades muestrales se seleccionan de manera que no pueden repetirse en la muestra y el M.A.S.
con reposicin donde se permite repeticin en la unidades muestrales.
3.2 Muestreo con Distinta Probabilidad
Es un procedimiento de seleccin de una muestra, en que algunos elementos o unidades del marco
tienen mayor probabilidad de seleccin que otros, en general las unidades del marco tienen distinta
probabilidad de seleccin, tambin se distinguen entre con y sin reposicin segn que se permita o
no la repeticin de unidades.

Los valores obtenidos de la muestra piloto pueden ser reemplazados por informacin obtenida de

estudios previos.

Estndares de buenas prcticas para la toma de muestras

3.3 Muestreo Estratificado


Es un procedimiento de seleccin de una muestra que consiste en particionar 7 el marco en submarcos llamados estratos, agrupando en cada uno de ellos los elementos o unidades ms
parecidos entre si, con respecto a lo que se quiere medir.
En cada estrato, por separado, se selecciona una muestra. La muestra total se obtiene al unir las
muestras de cada estrato.
Ntese, que el estrato se usa para seleccionar la muestra y no solamente para clasificar los
elementos. Por ejemplo, las clases Mujeres de 20 a 22 aos y Mujeres de 23 a 24 aos, en la
mayora de los casos no son estratos, slo son categoras para clasificar las personas para anlisis
posteriores, una vez seleccionada la muestra, pero no se usan como criterios de seleccin dado que
en la prctica es muy difcil construir listados separados y actualizados de mujeres de esos grupos
etreos.
Si hay heterogeneidad entre los estratos y homogeneidad al interior de ellos, entonces, para un
mismo tamao de muestra, el muestreo estratificado ser ms eficiente estadsticamente 8 que el
muestreo aleatorio simple.
La construccin de estratos homogneos a veces no es posible, en muchas situaciones prcticas las
agrupaciones vienen dadas en forma natural, ejemplos tpicos son la agrupacin de hogares en
regiones o comunas y de establecimientos industriales segn su actividad econmica (CIIU 9 ).
En el muestreo estratificado adems de contar con un listado del universo es necesario disponer de
informacin para la estratificacin, aunque en muchos casos los estratos se definen ms por
necesidades administrativas o como niveles de estimacin que para mejorar la eficiencia estadstica.
Cuando dentro de cada estrato la seleccin de unidades se hace mediante un muestreo aleatorio
simple, se habla de muestreo aleatorio estratificado.

Se denomina generalmente afijacin de la muestra a la distribucin de las unidades de muestreo en cada


estrato. Llamando , N al nmero total de unidades de la poblacin, n es el nmero total de unidades a
seleccionar, Nk al nmero de unidades del estrato k y nk al nmero de unidades a seleccionar del estrato k
se tiene los siguientes tipos de afijacin:
Afijacin Proporcional, en este caso las unidades muestrales se distribuyen en forma proporcional
al tamao de cada estrato 10 . Este es el caso, por ejemplo, de la muestra de empresas para la
Encuesta de Comercio, donde interesa medir las ventas del Comercio al por Menor para el pas y
no por regin.
Afijacin Igual, en que las unidades muestrales son distribuidas uniformemente en cada estrato 11 .
Afijacin ptima, en que la muestra se distribuye directamente proporcional a la heterogeneidad 12
y tamao de cada estrato. Los tamaos muestrales se obtienen minimizando la varianza del
estimador obtenido usando estratificacin bajo el condicionante de un nmero total fijo de
unidades muestrales y bajo el conocimiento de los tamaos de estrato y de la varianza de la
7

Se refiere a una particin segn la teora de conjuntos.

Eficiencia: significa que se obtiene mayor precisin (menor varianza del estimador) con un mismo nmero de unidades.
9
CIIU, Clasificacin Uniforme Internacional Industrial

n k = (n / N ) N k .
n k = n / nmero de Estratos.

10

Es decir,

11

Es decir,

12

Se refiere a la variabilidad de la variable de inters

Estndares de buenas prcticas para la toma de muestras

variable de inters en cada estrato. La frmula explcita para esta afijacin se puede encontrar en
lo libros de texto de muestreo 13
Tal es el caso de la muestra de establecimientos industriales para la Encuesta de Innovacin
Tecnolgica donde es necesario obtener resultados aceptables a nivel de la CIIU a un dgito y
Nacional por tamao.
Afijacin ptima con costo de variables, en que la muestra se distribuye en forma directamente
proporcional a la heterogeneidad 14 y tamao de cada estrato e inversamente al costo de acceso a
las unidades de muestreo en cada estrato. Los tamaos muestrales se obtienen minimizando la
varianza del estimador obtenido usando estratificacin bajo el condicionante de la estructura de
costos y bajo el conocimiento de los tamaos de estrato y de la varianza de la variable de inters
en cada estrato. La frmula explcita para esta afijacin se puede encontrar en lo libros de texto de
muestreo 15

Ninguno de los mecanismos de afijacin antes mencionados, conviene aplicarlos en forma mecnica,
siempre se requiere ajustar segn criterios que exige cada estudio. Por ejemplo, en el caso de la muestra
de establecimientos para la encuesta de Medio Ambiente, donde la afijacin inicial fue ptima, despus
fue ajustada para suavizar las diferencias entre los errores de muestreo de los estratos, que coincidan con
los niveles de estimacin de inters.

3. 4 Muestreo (Aleatorio) de Conglomerados


En este caso, el universo o marco muestral se divide en agrupaciones de elementos o unidades, pero,
a diferencia de los estratos, una muestra aleatoria de dichas agrupaciones o conglomerados es
seleccionada y en cada uno de ellos son observados o medidos todos sus elementos o unidades.
As un conglomerado agrupa a varias unidades de estudio pero no necesariamente dichas unidades
deben parecerse con respecto a la variable de estudio como debe pasar en los estratos.
Por ejemplo, para elegir una muestra de viviendas e investigar el porcentaje de habitantes mayores
de 18 aos con anteojos, se selecciona una muestra aleatoria de 50 manzanas de las 33.000
manzanas que contabiliz el censo de 1992. En cada una de las 50 manzanas se encuesta a todas las
viviendas buscando a los mayores de 18 aos que usan anteojos. En este caso, los conglomerados
son las manzanas y las unidades de estudio son las viviendas, dado que se mide el porcentaje de sus
miembros mayores de 18 aos que usan anteojos
El tamao de los conglomerados, esto es, el nmero de elementos que contienen, no tiene por que
ser igual, por ejemplo, entre las 33.000 manzanas que existen en el Gran Santiago hay algunas con
20 viviendas y otras con 200.
Un objetivo bsico del Muestreo de Conglomerados es reducir el costo en la confeccin del marco
muestral. Por ejemplo, es de menor costo construir un marco de 33.000 manzanas del Gran
Santiago, que un marco de 1.000.000 viviendas. Adems este tipo de muestreo soluciona el
problema de no coincidencia entre las unidades muestrales y las de estudio, esto es se conforma la
muestra finad de unidades de estudio a mediante la seleccin de los conglomerados a los que
pertenecen.

13

Ver Lohr (2000), Thompson (2002)


Idem
15
Ver Lohr (2000), Thompson (2002)
14

Estndares de buenas prcticas para la toma de muestras

Una desventaja del Muestreo de Conglomerados es una posible menor eficiencia estadstica con
respecto al M.A.S, debido a que podra existir cierto parecido (homogeneidad) entre los elementos
que forman los conglomerados lo que induce un aumento en la varianza de los estimadores
obtenidos con este diseo en comparacin con la varianza de los estimadores obtenidos bajo
M.A.S 16 . Lo anterior quiere decir que con un nmero menor de unidades se puede obtener la misma
precisin.
En el muestreo de conglomerados, estos deben ser heterogneos internamente, pero homogneos entre
ellos, sin embargo, al igual que los estratos, la definicin de los conglomerados est sujeto a
restricciones naturales.
Cuando se dentro del conglomerado no se examinan todas sus unidades sino que se escogen algunas
se habla de muestreo en dos etapas o bi-etpico (multietapa en general). En este caso se dice que
los conglomerados son las unidades primarias y las unidades seleccionadas dentro de las unidades
primarias se denominan secundarias.
3.5Muestreo (Aleatorio) Sistemtico
Un caso particular del muestreo por conglomerado es el muestreo sistemtico, donde se selecciona
despus de un arranque aleatorio, elementos del marco de una manera regular. Por ejemplo si se
considera que el marco muestral est constituido de N=mk unidades y estas se ordenan de la
siguiente manera:
Y1
Y2 Y3 Y4 Yk
Yk+1 Yk+2 Yk+3 Yk+4 ...... Y2k
Y2k+1 Y2k+2 Y2k+3 Y2k+4 Y3k

Y(m-1)k+1
..Ymk
Se escoge aleatoriamente un nmero entre 1 y k (k0)) y luego se va seleccionando sistemticamente
las unidades a distancia k, la muestra sera : Yko, Yko+k,Yk0+2k,. Por ejemplo si ko = 3 se tendria
como seleccionada la muestra formada por la tercera columna. Claramente slo se pueden
seleccionar una de entre las k columnas que son los conglomerados. Por eso el muestreo sistemtico
es un muestreo por conglomerados de tamao uno.
3.6 Muestreo Mixto: Censo y Muestra
Un tipo particular de muestreo estratificado, usado con frecuencia con el fin de reducir costos y
aumentar la eficiencia estadstica, consiste en censar un estrato y seleccionar muestras en los otros.
Los elementos censados reciben el apellido de inclusin forzosa o auto representados.
Este mtodo es usado en estudios donde la variable de inters es muy heterognea y la varianza de la
poblacin esta fuertemente influenciada por pocos elementos con valores muy grandes para dicha
variable. La ganancia est en que el aporte de la variable de seleccin de las unidades censadas
representa un importante porcentaje del total de la variable en estudio para la poblacin objetivo y con
pocas unidades censadas.
Como ejemplo se pueden mencionar la muestra anual de Comercio y Servicios, las muestras
seleccionadas del directorio de la ENIA ( Encuesta Nacional Industrial Anual)..

16

Ver Lohr (2000)

Estndares de buenas prcticas para la toma de muestras

En general un diseo muestral contempla la combinacin de varios mtodos, los que son utilizados en
distintos niveles de agrupamiento de las unidades de estudio con el propsito de mejorar la eficiencia y
precisin de los resultados finales 17 Entre las aplicaciones realizadas en el INE se pueden mencionar
las siguientes:

Los Segmentos seleccionados para la Encuesta Agropecuaria corresponden a una muestra


Estratificada, Mono-etpica , donde la seleccin de segmentos se hace con igual probabilidad en
forma sistemtica y se entrevistan todas las explotaciones que contiene cada segmento

Los Establecimientos seleccionados para la Encuesta de Innovacin Tecnolgica corresponden a


una muestra estratificada por Clasificacin CIIU - tamao, y seleccin de establecimientos en cada
estrato con probabilidad proporcional al tamao de estos.

Los establecimientos seleccionados para la encuesta de precios del IPC, corresponden a una
muestra aleatoria por producto y variedad, donde los establecimientos consultados son clasificados
segn su importancia con respecto a la variable ventas por tipo.

Las viviendas consultadas en la Encuesta de Puntos de Compra que sirvi de apoyo a la


distribucin de establecimientos por producto, correspondi a una muestra dividida en estratos
socioeconmicos, bi-etpica y seleccin de secciones en cada estrato con probabilidad
proporcional al nmero de viviendas de stos.

4. Precisin de los resultados.


El objetivo de un diseo de muestreo eficiente es obtener un error de muestreo aceptable dados los
recursos disponibles. La diferencia entre la estimacin (obtenida de la muestra) y el verdadero valor
de un parmetro (fenmeno que se quiere estudiar y por ende valor desnocido), se puede controlar
mediante el tamao de muestra evaluando, adems, la incertidumbre (confianza) de esa cota,que es
el error de muestreo.
Por ejemplo, para calcular una estimacin de una proporcin P (por un intervalo de confianza), se
tiene, Pr( p P < e) = 0,95 donde
anterior, define un intervalo
supuesto de normalidad sobre

18

p e ,
p .

e = 1,96 p (1 p ) / n 1 es el error de muestreo. El valor


llamado intervalo de confianza al 95% para P. ,bajo el

Lo anterior significa que si se emplea la misma funcin de estimacin para P con diversas muestras
del mismo tamao, entonces cada estimacin p tendr un intervalo diferente que contendr en
promedio al parmetro P en el 95% de los casos. En la prctica cuando construimos slo un
intervalo de confianza para estimar el parmetro, el parmetro puede o no estar dentro del intervalo,
sin embargo tenemos, en este ejemplo, un 95% de confianza que el parmetro podra estar dentro
del intervalo.

17

Mayor informacin acerca de otros diseo muestrales se puede obtener de Thompson (2002).

Por ejemplo, en un MAS, el estimador natural de la proporcin P de un atributo, es la proporcin p


del
atributo en una muestra de tamao n. Existen resultados tericos que predicen que si son seleccionadas una
gran cantidad de muestras de tamao n, entonces, la distribucin de las estimaciones ser normal y centrada
en torno al parmetro P que se requiere estimar.

18

10

Estndares de buenas prcticas para la toma de muestras

Por tal motivo, al determinar el tamao de una muestra se tiene en consideracin la efectiva precisin que
se puede alcanzar segn el nmero de reas temticas y geogrficas en que se desagrega la informacin.
Como ejemplo se indican los siguientes:

La muestra diseada para la Encuesta Nacional del Empleo proporciona resultados sobre
Desocupacin con validez estadstica a nivel Nacional, Urbano, Rural, Grandes Centros Urbanos; a
nivel regional; y Grandes ciudades. Entregar informacin a niveles ms desagregados implica
cierta perdida de precisin en sus resultados.
Lo mismo ocurre si sobre la base de esta muestra se quiere por ejemplo, informacin desagregada a
ms de un dgito en los Grupos de Ocupacin.

Por lo general la precisin de una muestra depende, adems del tamao de la muestra, de la
definicin de los estratos y sus muestras respectivas, de manera tal que por agregacin de estos los
errores piramidales se suavizan, alcanzando niveles ptimos de precisin en las reas de estimacin.
Se debe tener en cuenta que aunque no existen niveles de precisin o error absolutos
convencionalmente aceptados para declarar una estimacin estadsticamente vlida o no, un
organismo como el INE puede fijar un nivel de error ms all del cual, una estimacin no se publica
debido a la alta incertidumbre que tiene asociado el estimador con que fue generada. Por ejemplo
aunque se dispone de datos comunales para la Encuesta Nacional del Empleo no se publican dichas
cifras.
5. El tamao de la muestra.
Corresponde al nmero de unidades de muestreo que deben ser seleccionadas para su medicin . El tamao
de la muestra est determinado por los siguientes elementos:

Principales variables a estimar del estudio.


Diseo muestral que condiciona los estimadores y sus varianzas.
Los niveles o reas de estimacin en que se presentan los resultados estimados
La precisin de los resultados estimados para las distintas variables y niveles de desagregacin,
es decir, la validez estadstica o el error muestral que se espera del estudio.
La confianza con la que se desee entregar los resultados.
La estructura piramidal que presentan los errores a medida que se agregan los niveles de
estimacin.
En general el tamao de muestra responde a la resolucin de la ecuacin:

P(| | e) 1
Donde es el estimador obtenido de la muestra, es el valor real desconocido que se intenta estimar,
e es la precisin deseada (dato) y es el nivel de confianza deseado (dato). Para resolver esta ecuacin es
necesario conocer 19 la distribucin probabilstica de . Por ejemplo si ~ N ( , Var ()) se tiene que

P(

19

e
| |

) 1
Var ()
Var ()

Al menos asintticamente

11

Estndares de buenas prcticas para la toma de muestras

de donde se obtienen que

e
Var ()

= 1,96 20 si = 0,05.

La Var () depende del mecanismo de seleccin y del nmero de unidades seleccionadas en la muestra,
por lo que dicho nmero se despeja de la ecuacin anterior. No existen tablas de tamaos muestrales que
puedan ser aplicables para cualquier fenmeno.

Por otra parte el tamao muestral total se distribuye segn el nmero de etapas que considere el
diseo as por ejemplo si se trata de una muestra mono-etpica, la muestra corresponde slo a las
unidades primarias, pero si la muestra es bi-etpica se seleccionan unidades primarias y dentro de
estas, unidades secundarias, en este caso Var () involucra el nmero de unidades de primera y
segunda etapa, por lo que la resolucin de la ecuacin es ms compleja El nmero de etapas en las
cuales se debe incurrir depende bsicamente en la posibilidad o imposibilidad de seleccionar las
unidades de estudio y de la conformacin del marco muestral.
Cabe hacer notar que los procesos de seleccin inducen la variabilidad o error muestral,.La
estructura de los errores queda determinada por el nmero de etapas donde se realiza seleccin, de
unidades y los errores de cada etapa quedan condicionados por los errores de las etapas anteriores.

6. Seleccin de la muestra
Consiste en la individualizacin de las unidades muestrales. En esta etapa se programan algoritmos que
permiten la seleccin, desde el marco, de las unidades de muestreo segn el diseo muestral adoptado.
La seleccin de la muestra en el gabinete es decir no en terreno debe llegar, en lo posible, hasta las
unidades de anlisis. La seleccin de elementos en terreno es menos engorrosa y reduce los costos
del estudio, sin embargo, debe incluir una adecuada supervisin 21 .
El producto bsico de esta etapa, es la construccin del directorio de la muestra que contiene la
ubicacin e identificacin de las unidades de muestreo seleccionadas. El listado anterior, debe
incluir, por ejemplo, el estrato de muestreo al que pertenece la unidad y toda la informacin posible
que la caracterice.
7. Estimadores y Factores de Expansin.
La definicin de los estimadores que se obtendrn de la muestra queda definida por la medicin de
la variable de inters y el diseo muestral utilizado. Por ejemplo si se desea determinar el valor
medio de la variable de inters y en una poblacin de tamao N el estimador apropiado de ,
considerando yi al valor de la variable de inters en la unidad i, ser:

y=

20
21

1 n
yi que es la media muestral si se utiliza un m.a.s. con o sin reposicin
n i =1

1,96 es el cuantl de la distibucin normal estandarizada que deja 2,5% de la probabilidad a la derecha.
Actualmente e la encuesta de mercado laboral la seleccin de viviendas se hace en terreno.

12

Estndares de buenas prcticas para la toma de muestras

PTT

1
Nn

i=1

yi
el estimador de Hansen-Hurwitz si la muestra se escoge con
pi

reposicin con probabilidad pi para la unidad i en cada extraccin.


Cuando se desea averiguar los totales poblacionales de una variable de inters se puede considerar
que cada unidad de anlisis en la muestra tiene asociado un factor de expansin, que indica cual es
la representacin de la unidad medida en la poblacin. Es decir por cuantas unidades en la
poblacin se representa la unidad muestral. De este modo en la base de datos que recoge la
informacin observada en terreno, debe aparecer una variable que contiene el factor anterior.
Por ejemplo: un estimador de un total poblacional para la variable y se puede visualizar como una
suma de valores muestrales expandidos 22 :

= i factori yi
La propiedades estadsticas del estimador anterior dependen del diseo muestral y tambin de la
actualizacin de los parmetros involucrados en los factores de expansin.
Por ejemplo:
En una muestra estratificada y bietpica de viviendas, con seleccin proporcional al tamao, el
factor va a depender:
Del nmero de viviendas del estrato
Del nmero de secciones de la muestra
Del nmero de viviendas de la seccin seleccionada
Del nmero de viviendas actualizado de la seccin seleccionada y
Del nmero de viviendas a seleccionar en la seccin.
El factor de expansin corresponde al inverso de la probabilidad de seleccin de cada unidad
medida . Este valor puede ser complicado de calcular bajo diseos complejos. El INE entrega para
cada encuesta que realiza el clculo de sus factores de expansin dentro de lo documentos
metodolgicos 23
En general es importante que los elementos que determinan la expansin de un resultado estn muy
actualizados. Lo anterior implica disponer permanentemente de estratos de seleccin conformados
por unidades vigentes al momento de seleccionar.
8. Clculo y Presentacin de los Errores de Muestreo.
Otra de las preocupaciones a tener presente al desarrollar un diseo, es la metodologa para estimar
los errores de muestreo y su presentacin. Bsicamente se denomina error de muestreo a la raiz de
la varianza de los estimadores. La estimacin de dicha varianza puede ser bastante compleja y esta
directamente asociada al diseo muestral.
Existen tcnicas que permiten aproximar la varianza (expansiones de Taylor, aproximaciones
funcionales, mtodo delta, etc) o bien estimarla asintticamente mediante procedimientos de remuestreo 24 (Bootstrap, Jack-Knife 25 ). Sin embargo siempre es necesario entregar informacin
22

En el caso de un elemento de inclusin forzosa o auto representado el factor es igual a 1.


Consulta www.ine.cl seccin de metodologas.
24
Mayor informacin sobre dichas tcnicas se puede revisar en Lohr (2000)
25
Ver Shao & Tu (1995)
23

13

Estndares de buenas prcticas para la toma de muestras

acerca de la precisin de las estimaciones, luego es necesario entregar la varianza estimada de los
estimadores utilizados o su coeficiente de variacin 26 . Por ejemplo en la Encuesta Nacional del
Empleo se calcula el error estndar 27 y/o el coeficiente de variacin de las variables principales.
9. Pautas de Control y Medicin de los Errores no Muestrales.
Existen distintos mecanismos que permiten mejorar la calidad de los resultados obtenidos de un
estudio por muestreo, pero igualmente importante como el diseo muestral tal como se propone, es
la forma en que se obtienen los resultados, es decir el levantamiento de stos.
Es muy importante disponer de equipos muy preparados de encuestadores y supervisores que velen
por la calidad de los resultados recogidos de terreno, por que un trabajo de terreno descuidado
induce errores no muestrales, es decir, diferencias entre la estimacin y el parmetro, no atribuibles
a la fluctuacin aleatoria de la muestra que pueden invalidar totalmente los resultados.
Los errores no muestrales provienen de respuestas equvocas del informante, una errnea
administracin de la entrevista por parte del encuestador, la investigacin de unidades que no
pertenecen al universo, cobertura inadecuada tanto de unidades de muestreo como de anlisis, datos
no consultados, entre otros.
Los errores no muestrales se pueden clasificar segn su procedencia en:
Errores de Cobertura
Errores de Contenido
Errores de Procesamiento
Los primeros surgen de una inadecuada identificacin de las unidades de muestreo y de anlisis, por
ejemplo, viviendas y personas que no corresponde encuestar.
Los segundos corresponden a los datos no vlidos recogidos de las personas encuestadas, por
ejemplo una persona que se clasifica como asalariada (dependiente) en la primera encuesta y en la
reentrevista como independiente.
La evaluacin de los errores no muestrales de contenido se puede realizar por ejemplo a travs de
los siguientes indicadores 28 :

El ndice de Consistencia Global, I.C.G.: Es un Indicador que compara la calidad general de las
distintas caractersticas evaluadas de la encuesta
El Porcentaje de Idnticamente Clasificados, P.I.C.: Es un Indicador de estabilidad de respuesta
ndice de Cambio Neto, I.C.N.: Es un indicador del sesgo de respuesta
ndice de Cambio Bruto, I.C.B.: Es un indicador de la varianza de respuesta

Por otra parte cabe tener presente que el error final de un estudio se debera medir considerando tanto el
error de muestreo como el error no muestral
Error Total = Error de Muestreo + Error de no Muestreo
El tercer grupo corresponde a errores en el procesamiento electrnico de la informacin
26

Se define como la proporcin del error estndar sobre la estimacin expresado como porcentaje.
Raz cuadrada de la varianza estimada.
28
Tomados de INE-Espaa Manual de reentrevistas
27

14

Estndares de buenas prcticas para la toma de muestras

Conclusiones y Recomendaciones
Se ha pretendido presentar y comentar en este artculo los temas, etapas y los procesos referidos a la
seleccin de unidades que es recomendable abordar al momento de disear un estudio donde se
obtendr informacin a partir de muestras. Las conclusiones que pueden extraerse de esta
exposicin podran resumirse de la siguiente manera:
El fenmeno en estudio define la o las variable(s) de inters a medir.
La poblacin objetivo define el marco muestral a utilizar.
El comportamiento de la variable de inters en la poblacin objetivo define y/o condiciona
el diseo muestral o mecanismo de seleccin de las unidades, que a su vez determina los
tamaos muestrales necesarios.
Ningn diseo muestral es superior a otro a priori, en trminos de eficiencia, sino que para
cada combinacin variable de inters-poblacin objetivo los distintos diseos muestrales
pueden ser ms o menos eficientes.
Se debe definir al inicio del estudio los niveles de precisin requeridos o aceptables.

Como recomendacin general se puede sugerir desarrollar para cada estudio un informe donde se
describan los pasos seguidos en cada una de las etapas y procesos mencionados en el artculo a
objeto de evaluar si se puede asegurar la calidad estadstica de los resultados.
Bibliografa

Lohr, Sharon (2000) Muestreo: Diseo y Anlisis Internacional Thomson Editores


Thompson S.K (2002) Sampling Second Edition John Wiley and Sons
Shao, Jun & Tu, Dongsheng (1995) The Jackknife and Botstrap Springer.

15

You might also like