Sesion 1

Lecturas de Teorı́a Monetaria, No 1 (Agosto, 2009 ).
Introducción al Análisis Econométrico∗

Rodrigo F. Aranda
Departamento de Economı́a, Universidad de Santiago de Chile. Av. Bernardo O’Higgins 3363.
c RFA–2009.
Santiago, Chile 725-4758. °
1. Introducción • Usar estas relaciones para obtener predicciones o

pronósticos cuantitativos.
En términos muy simples, se acostumbra a definir
la Econometrı́a como la aplicación de la estadı́stica A modo de ejemplo, consideremos el problema de la
matemática a los datos económicos, con el fin de pro- demanda por dinero. La teorı́a monetaria sugiere que la
porcionar apoyo empı́rico a los modelos construidos por demanda de dinero agregada en una economı́a depende
los economistas matemáticos, y ası́ obtener estimaciones de una variable de escala, como por ejemplo el ingreso
numéricas. Más concretamente, la Econometrı́a es una nacional o la riqueza nacional, y de la tasa de interés
integración entre la teorı́a económica, la matemática (nominal) que representa el costo de oportunidad de
y de la teorı́a clásica de inferencia estadı́stica, para mantener saldos monetarios. Esto es,
el desarrollo de métodos y procedimientos estadı́sticos
que permitan contrastar empı́ricamente las diversas m = f (y, i), (1)
teorı́as económicas; este sentido, la Econometrı́a se com-
pone de un cuerpo teórico en continuo desarrollo para donde m es la demanda (stock) real de dinero, y es la
la posterior aplicación de tales desarrollos a proble- variable de escala medida en términos reales, e i es la
mas empı́ricos que surgen de las distintas áreas de la tasa de interés nominal.
teorı́a económica, expresadas a través de diversas rela- Sin embargo la teorı́a nos deja con varias pregun-
ciones entre variables (curvas de demanda, funciones tas sin respuesta. Por ejemplo, la teorı́a no nos indica
de producción, etc.). El aporte de la matemática no cómo debemos definir las variables. ¿Debemos adop-
sólo resulta de la representación formal de las diver- tar una definición restringida de dinero (circulante más
sas teorı́as en términos de formulas o ecuaciones y de depósitos a la vista) o una más amplia? ¿Qué variable
relaciones funcionales, sino que también de la apli- de escala debemos utilizar? ¿Cuál de las muchas tasas
cación de métodos matemáticos para el desarrollo de de interés representa mejor el costo de oportunidad de
métodos de estimación; desafortunadamente, estas for- mantener dinero?
mas matemáticas son cualitativas y no cuantitativas, Por otro lado, la teorı́a nada dice respecto de la forma
dado que no involucran números o datos (son sim- funcional precisa en la ecuación (1). Es posible que
ples fórmulas). Finalmente, la estadı́stica tiene una asuma una forma lineal simple como
doble contribución; por un lado, métodos o proced-
imientos para la recolección y procesamiento de los m = α0 + α1 y + α2 i; α1 > 0, α2 < 0, (2)
datos económicos y su posterior expresión en una forma
fácilmente comprensible (economı́a estadı́stica), y por o una no lineal como
otro, los procedimientos de inferencia estadı́stica, tanto
clásica como Bayesiana, para darles una forma más m = Ay β 1 iβ 2 , β 1 > 0, β 2 < 0. (3)
cuantitativa a las ecuaciones. Todo ello con la finali-
Es posible, en todo caso, que muchas otras formas fun-
dad de:
cionales no lineales sean compatibles con la información
que proporciona la teorı́a.
• Medir tales relaciones, y estimar los parámetros
Además de lo anterior, la teorı́a nos proporciona sólo
involucrados;
información cualitativa sobre cómo y e i influyen so-
• Testear las ideas teóricas presentadas en tales bre la demanda por dinero. Por ejemplo, suponga que
relaciones; hay un aumento de 5% en la variable de escala y. La
teorı́a sugiere que esto resultará en un aumento en la
∗ Notas son de uso exclusivo de los alumnos de la asignatura. demanda por dinero, pero no nos dice en cuánto au-
No citar ni reproducir sin permiso del autor. mentará. En otras palabras, la teorı́a no proporciona
1
2 Rodrigo F. Aranda
información cuantitativa. Sin embargo, la información nunca es totalmente predecible para concluir que las
cuantitativa, por ejemplo respecto de las elasticidades relaciones económicas nunca son determinı́sticas. Para
β 1 y β 2 en (3), es de gran importancia en la toma de enfrentar esta incertidumbre en la conducta de los
decisiones de polı́tica económica. agentes, y otras razones que se plantearán en su debido
Finalmente, la teorı́a por lo general se refiere a lo momento, la Econometrı́a incorpora un término de per-
que los economistas denominamos el largo plazo, dado turbación aleatorio o error estocástico a las ecuaciones
que nos concentramos en posiciones de equilibrio. Por como (2), tranformándola en:
ejemplo, en equilibrio tanto la demanda como la oferta m = α0 + α1 y + α2 i + ε, (5)
de dinero deben ser iguales. En esta caso es comple-
tamente justificable usar datos de series de oferta de donde ε es el término de perturbación, que puede tomar
dinero para representar la demanda por dinero. Pero el valores positivos o negativos. La inclusión de ε en (5)
problema es que el mercado monetario rara vez está en significa que los mismos niveles de y e i no siempre
equilibrio. Si no está en equilibrio ¿es justificable usar resultarán en el mismo valor exacto para la demanda
los datos observados de oferta y demanda de dinero para por dinero m. Existirá una variación completamente
representar la demandas de dinero tales como (1), (2) aleatoria en los valores de m, dependiendo del tamaño
y (3)? En términos generales, la teorı́a económica fre- y signo de la perturbación.
cuentemente tiene poco que decir respecto de cómo la La existencia de este término de perturbación sig-
economı́a o los mercados se mueven entre un equilibrio nifica que es imposible medir los parámetros α0 , α1
y otro; es decir, la teorı́a rara vez describe los procesos y α2 con exactitud. Es aquı́ donde los métodos es-
de ajuste, aun cuando esto ha tendido a cambiar con los tadı́sticos nos ayudan a obtener estimadores más pre-
desarrollos más avanzados en la teorı́a macroeconómica cisos, aunque nunca serán exáctos. Para hacer de un
y monetaria. Desafortunadamente, los datos con que modelo económico-matemático un verdadero modelo es-
los econometristas cuenta se refieren a estos procesos tadı́stico se necesita ser muy especı́ficos acerca del pro-
de ajuste y no a situaciones de equilibrio sucesivas. ceso (estocástico) mediante el cual se generan los datos;
En mayor o menor medida, la econometrı́a busca dar por ejemplo, si consideramos que los errores son el re-
respuesta a estas interrogantes que no resuelve la teorı́a. sultado de variables aleatorias no observadas, entonces
En particular, busca encontrar estimaciones numéricas necesitamos especificar las medias y varianzas de dichas
a los parámetros en ecuaciones como (2) y (3). In- variables y la distribución (de probabilidad) de la cual se
tenta, además, testear algunas de las predicciones dela originaron. Dar a los errores una interpretación aleato-
teorı́a. Por ejemplo, la teorı́a monetaria esbozada en ria convierte a un modelo matemático-económico en
(1) implica que las funciones de demanda son indepen- un modelo estadı́stico-probabilistico, que nos entrega
dientes del nivel de precios. El enfoque econométrico la base para la inferencia estadı́stica, es decir, una base
para testear estas predicciones teóricas implicarı́an la para la estimación de los parámetros desconocidos y
generalización de las ecuaciones (2) y (3), incorporando para la prueba de hipótesis sobre los mismos.
posibles efectos del nivel de precios. Ası́, podrı́amos En resumen, los ingredientes básicos son:
modificar (2) para plantear:
(1) Un modelo económico que permita identificar las
m = α0 + α1 y + α2 i + α3 P, (4) variables económicas relevantes y los parámetros
económicos de interés, y que proporcione las bases
donde P es el nivel general de precios. Sı́ α3 = 0 en- para las conclusioes económicas.
tonces el nivel de precios no tiene influencia alguna so-
bre la demanda real de dinero. Las técnicas estadı́sticas (2) Un modelo estadı́stico (modelo econométrico) que
utilizadas para estimar los parámetros α1 y α2 se especifique el proceso muestral que genera los
pueden también usar para obtener una estimación de datos e identifique los parámetros desconocidos
α3 ; si esta estimación resulta ser significativamente dis- que describen el sistema de probabilidades suby-
tinta de cero (en un sentido estadı́stico que se discutirá acente.
más adelante), entonces se contradice la predicción de
(3) Valores observados de las variables que fueron
la teorı́a.
generados junto con el proceso muestral especi-
Hasta aquı́, la forma en que hemos planteado las ficado para el modelo econométrico.
ecuaciones sugieren que las relaciones económicas son
exactas o determinı́sticas. Sin embargo, basta con con- Pero, ¿cómo usamos la información contenida en
siderar que el comportamiento de los agentes económicos (1), (2), y (3), para obtener información sobre los
Introducción al Análisis Econométrico 3
parámetros desconocidos que necesitamos para la toma Por ejemplo, a medida que el precio de un bien au-
de decisiones? Supongamos que la teorı́a económica menta, ¿en cuánto disminuirá la cantidad demandada?
la podemos expresar implı́citamente en los siguientes ¿El producto agregado aumenta en una forma lineal o
términos: no lineal cuando aumenta la mano de obra?
Afortunadamente, la teorı́a estadı́stica proporciona
y = f (x1 , . . . , xk , β 1 , β 2 , . . . , β k , ε), (6) procedimiento o reglas bien definidas para utilizar la
información muestral para obtener estimaciones pun-
donde y es la variable de interés a analizar por el tuales (un único valor) de dichos parámetros, para
econometrı́sta, x1 , . . . , xk son un conjunto nde variables comprobar la confiabilidad de las estimaciones, y para
que la teorı́a económica indica que están relacionadas testear hipótesis. Tales reglas se basan en las propiedades
con y; β 1 , β 2 , . . . , β k es un conjunto de parámetros de- de las muestras utilizadas y en las distribuciones mues-
sconocidos que permiten vincular la variable y con las trales asociadas. Ası́, las estimaciones puntuales y sus
x0 s en el modelo de economı́a matemática, y ε es el correspondientes confiabilidades pueden expresarse me-
término de perturbación estocástica. En este contexto, diante estimaciones por intervalos. También es posible
el objetivo del análisis econométrico es incrementar comprobar la compatibilidad de los datos con nuestras
el contenido de la parte sistemática o determinı́stica conjeturas mediante test de hipótesis.
(parte explicada por las variables que la teorı́a señala
También, dado que existen varias formas (reglas)
como relacionadas con y), f (x1 , . . . , xk , β 1 , β 2 , . . . , β k ),
para usar un conjunto de datos, la teorı́a estadı́stica
y reducir la importancia del componente de error . Gen-
entrega una base para comparar procedimientos de es-
eralmente no existe posibilidad de generar por antici-
timación. Por ejemplo, ¿es la regla de estimación inses-
pado en un laboratorio o mediante experimentos con-
gada, esto es, en promedio le apuntan al objetivo o es la
trolados los datos consistentes con nuestros modelos
confiabilidad de una regla de estimación superior a otra?
económicos y estadı́sticos. Ello significa que trabajamos
Además, si al desconocimiento de los parámetros le aso-
bajo la restricción de construir modelos no experimen-
ciamos una pérdida, ¿entonces una regla de estimación
tales con datos económicos que son escasos y de alto
minimiza la pérdida promedio o minimiza la máxima
costo para su obtención. En consecuencia debemos ser
pérdida posible? Dado que la información muestral es
muy eficientes en el uso de cualquier información mues-
escasa y costosa, la teorı́a estadı́stica sugiere proced-
tral y no muestral que esté disponible. Esta búsqueda
imientos que nos permiten combinar y usar tanto in-
de la eficiencia en el aprendizaje de la información mues-
formación muestral como otro tipo de información no
tral conduce al tópico de la inferencia estadı́stica.
muestral en el proceso de estimación y de realizar infer-
encias acerca de parámetros desconocidos. En resumen,
2. Inferencia Estadı́stica la teorı́a estadı́stica posibilita el uso de información
muestral para pasar desde los parámetros teóricos en
Al discutir el rol de los modelos económicos y es- los modelos económicos y estadı́sticos a sus contrapartes
tadı́sticos nos hemos concentrado en las relaciones en- empı́ricos, y para hacer declaraciones probabilı́sticas en
tre variables económicas observadas, tales como pre- relación a posibles resultados.
cios, consumo e inversión, y el deseo de obtener infor-
El paquete completo (teorı́a económica, más un mod-
mación sobre los parámetros desconocidos correspon-
elo económico, un modelo estadı́stico, la información
dientes, tales como las elasticidades y productividades
muestral y la teorı́a estadı́stica) es lo que define a la
marginales. La información sobre dichos parámetros es
econometrı́a y sienta las bases para la medición en
útil para entender las relaciones económicas y nos pone
economı́a, y la posibilidad de entender, predecir, y de
en una posición de poder discriminar entre hipótesis
tener algún control sobre los procesos económicos y las
(teorı́as) alternativas, extraer implicancias económicas,
instituciones.
o para predecir y posiblemente controlar los resultados
de importantes variables económicas. Dado este obje-
tivo y una muestra de datos recolectada consistente con 3. Muestreo Aleatorio
el proceso muestral descrito en el modelo estadı́stico, el
problema entre manos es encontrar algún procedimiento Una muestra de n observaciones para una (o más)
para la información muestral para fines de la estimación variable(s), x1 , . . . , xn , es una muestra aleatoria, sı́ las
de los parámetros e inferencia estadı́stica. Por inferen- n observaciones son extraı́das de manera independiente
cia se quiere decir que lo que se desea es usar la infor- de la misma población o distribución de probabilidad,
mación muestral para inferir algo sobre el mundo real. f (xi ; θ), donde θ es el vector de parámetros que per-
4 Rodrigo F. Aranda
miten describir el comportamiento de la población. En (en muestras repetidas) de las variables independientes
este caso, se dice que la secuencia de observaciones (Gujarati, 2004).
{xi }ni=1 está idéntica e independientemente distribuida. Como se señaló antes, el modelo económico-estadı́stico,
En la función de densidad, el vector θ contiene uno o o sı́mplemente modelo econométrico, plantea una relación
más parámetros desconocidos, de interés para el inves- entre variables para una población determinada. Esto
tigador, que deben ser estimados a partir de la muestra. lo resumimos en:
Nótese que si el proceso de muestreo se considera
como un experimento estadı́stico, la obtención de una y = f (x1 , . . . , xk , β 1 , β 2 , . . . , β k , ε).
muestra aleatoria no tiene por qué coincidir con la que
se obtendrı́a si el ejercicio de extracción se repitiera Dado que sı́ ε es una variable aleatoria, ésta puede
una vez más, dado precisamente el carácter aleatorio tomar cualquier valor de entre todos los valores posi-
del proceso. bles que su distribución de probabilidad permite. Por
ejemplo, sı́ ε se distribuye como normal, el rango posi-
Los datos que componen la muestra pueden ser de
ble de valores que puede asumir se mueve entre −∞
los siguientes tipos:
y +∞. Esto significa, como se ha señalado, que para
valores fijos de las variables independientes, es posible
1. Datos de Sección Cruzada o de Corte Transver-
obtener más de un valor probable para y, dado que y
sal (Cross-Section), en donde se obtiene un cierto
también depende de ε. Más aún, la distribución de
número de observaciones de distintos elementos
probabilidad que caracteriza a y será la misma que la
medibles, todas ellas referidas al mismo perı́odo o
distribución de probabilidad de ε. Dado esto, estare-
intervalo de tiempo, pero correspondiendo a dis-
mos interesados en analizar la media o valor promedio
tintas unidades económicas o de decisión. Por
que la variable y toma en la población, dada la infor-
ejemplo, los puntajes de ingreso de los alumnos
mación de las variables independientes, y no algún valor
de las distintas carreras que imparte una Univer-
particular que esta tome para un ε dado, sı́mplemente
sidad, en el año 2005. Otro ejemplo corresponde
porque este último es completamente aleatorio. Esto
a los distintos niveles de ingreso familiar de cada
nos permitirá concentrarnos en la parte determinı́stica
uno de los alumnos ingresados en el mismo año.
del modelo económico-estadı́stico, que es la única parte
2. Datos de Series de Tiempo (Time Series), que cor- para la cual tenemos información. Por ejemplo, sı́ con-
responden a un conjunto de datos generados por sideramos la expresión en la ecuación (5) y asumiendo
un único elemento medible a lo largo de distin- que la media o valor esperado de la perturbación es-
tos perı́odos o intervalos de tiempo, regulares o tocástica es cero, la parte determinı́stica de la ecuación
no, con cierta distribución de probabilidad. Por para la demanda de dinero es:
ejemplo, los datos correspondiente al ı́ndice de
E(m |y, i ) = α0 + α1 y + α2 i. (7)
precios al consumidor, con una periodicidad men-
sual, desde 1980 hasta el 2005. Obviamente, los valores que efectivamente toma la vari-
3. Datos de Panel (Panel Data), que corresponden a able m se distribuirán aleatoriamente en torno a esta
una combinación de datos de corte transversal y linea recta definida por (7). Dada la forma en que se
de series de tiempo, en que el número de observa- plantea esta ecuación, o en términos más generales la
ciones de corte transversal es generalmente muy relación entre la expectativa condicional de y dados los
superior a las observaciones de series de tiempo. valores para las x0 s, ésta recibe el nombre de Ecuación
de Regresión o Recta de Regresión.
Una vez más, el propósito del análisis econométrico
será estimar los parámetros poblacionales, a partir del
4. Análisis de Regresión y Causalidad
uso de información muestral, con el fin de realizar in-
Teniendo como origen la Ley de Regresión Universal ferencias sobre el comportamiento de la variable depen-
de Francis Galton, el análisis de regresión estudia la diente en la población.
dependencia de la variable dependiente respecto de una Un punto importante de destacar, y que muchas ve-
o más variables (explicativas o independientes), con el ces conduce a error, es la implicancia que ecuaciones
objetivo de estimar y/o predecir (pronosticar) la media como (6) ó (7) plantean en términos de las relaciones
condicional o valor promedio poblacional de la variable entre variables. Algunos no iniciados en el análisis
dependiente, en términos de los valores conocidos o fijos econométricos, e incluso algunos que ya han estudiado
algo de esta disciplina, señalan que la relación que se 3. Esta información es luego ordenada en términos
da entre las variables en ambas ecuaciones es de causal- de un modelo económico de trabajo que lista los
idad; es decir, las variables del lado izquierdo causan a la supuestos subyacentes y forma la base para la ab-
variable del lado derecho. Esta visión es completamente stracción experimental. Se plantean las hipótesis
errada; la forma correcta de interpretar la relación entre de interés.
las variables de ambas ecuaciones es en términos de de-
pendencia, no de causalidad: la existencia de dependen- 4. El modelo económico de trabajo conduce a un
cia entre variables no implica necesariamente causali- modelo estadı́stico que describe el proceso me-
dad. No importa qué tan fuerte y sugestiva sea una diante el cual las observaciones muestrales y las
relación estadı́stica, esta nunca podrá establecer una ecuaciones de error se consideran generadas, la
conexión causal (Gujarati, 2004); la única forma de clasificación de las variables, y la forma funcional
plantear relaciones de causalidad es recurriendo a con- de las relaciones propuestas.
sideraciones teóricas o a priori. Es decir, la única que
nos puede indicar relaciones de causalidad entre vari- 5. Se generan u obtienen observaciones muestrales
ables es la propia teorı́a económica, no el plantemiento que sean consistentes con el modelo económico
econométrico. y con los componentes aleatorios del modelo es-
Lo anterior es sumamente importante cuando se con- tadı́stico.
sidera, además, la relación entre regresión y correlación.
La correlación entre variables no es signo alguno de 6. Dado el modelo estadı́stico y las observaciones
causalidad entre ellas, sino más bien la manifestación muestrales, se selecciona o desarrolla una regla o
de algún grado de asociación lineal entre las mismas, método de estimación que tenga buenas propiedades
que se acostumbra a medir por el coeficiente de cor- estadı́stica, tales como insesgamiento y/o menor
relación. Se debe señalar que, a pesar de la importancia variabilidad o alta precisión.
que una alta correlación entre variables pueda tener, el
análisis de regresión no está preocupado de este tipo de 7. Se obtiene estimaciones puntuales o por intervalo
medición, sino que más bien en estimar o predecir el de los parámetros desconocidos, con la ayuda de
valor promedio de una variable en base a valores fijos algún software estadı́stico (como Stata, S-Plus o
de otras variables. SPSS,); matricial (como por ejemplo, Matlab) o
Lo anterior, junto al hecho que el análisis de cor- econométrico (tales como Eviews, Rats, Limdep).
relación considera que las variables son igualmente aleato- Se implementan los pruebas de hipótesis apropi-
rias y tratadas en forma simétrica, a diferencia del adas.
análisis de regresión en que las variables son tratadas
asimétricamente (dependiente versus independientes) y 8. Las consecuencias económicas y estadı́sticas y las
no son todas aleatorias (sólo lo son la variable dependi- implicancias de los resultados empı́ricos son anal-
ente y el término de perturbación estocástico), indican izados y evaluados. Por ejemplo, se examina la
claramente que el análisis de regresión no es lo mismo significancia estadı́stica de las variables del lado
que el análisis de correlación. derecho, lo apropiado de los supuestos sobre el
término de error, etc.
5. El proceso del Análisis Econométrico
9. Si la consistencia entre los modelos económico
El siguiente listado resume los principales pasos del y estadı́stico y la muestra de datos no se logra,
análisis econométrico. ¿cuáles son los potenciales problemas que ello con-
lleva y cuales son las sugerencias para futuros
1. Todo parte con un problema - la falta de infor- análisis y evaluaciones? Por ejemplo, ¿los datos
mación o incertidumbre sobre algún resultado o utilizados eran los correctos considerando las in-
una interrogante que incluye un ¿qué pasa si...? terrogantes planteadas? ¿las variables fueron cor-
2. La teorı́a económica proporciona una forma de rectamente clasificadas y aparecı́an con el timing
pensar en los problemas: ¿qué variables están adecuado? ¿ Debió haberse incluido no lineali-
involucradas y cuál es la posible dirección de la dades en el modelo, tanto en las variables como
relación? ¿ Cómo podemos usar nueva infor- en los parámetros?
mación si la tuvieramos?
6 Rodrigo F. Aranda
6. Elementos de Estadı́stica puede saber mucho. De hecho, si fueramos capaces de

manejar los problemas de la variabilidad muestral, en-
Toda vez que deseemos observar o investigar un tonces es necesario que las muestras sean aleatorias.
fenómeno o una variable, existen dos tipos básicos de
En términos simples, una muestra de tamaño n es
fuentes de datos que se pueden usar:
aleatoria sı́ cada combinación de los n items o miem-
bros en la población tiene igual oportunidad de trans-
1. Podemos tener acceso a la población; es decir, ac- formarse en la muestra efectivamente extraı́da. Por
ceder a todas las posibles observaciones, pasadas, supuesto, extraer una muestra aleatoria no es algo sim-
presentes y futuras, de la o las variables de in- ple, y requiere de cierta experiencia y conocimientos.
terés. Por ejemplo, si nuestra variable de interés No obstante, para los propósitos de esta asignatura
fueran los ingresos en la primera semana de sep- haremos abstracción de estos problemas, y asumiremos
tiembre de 2005 para un trabajador adulto en la heróicamente que todas las muestras con las que traba-
industria del calzado en Santiago, y tenemos ac- jemos se han extraı́do aleatoriamente.
ceso a una encuesta de tales ingresos, entonces
estarı́amos tratando con la población de observa- 6.1. Estadı́sticos Descriptivos
ciones para esta variable.
Corresponden a una serie de número cuya finalidad
2. Desafortunadamente, no siempre tenemos acceso es describir la distribución de probabilidad de los datos.
a la población (puede que no exista una encuesta Entre estos tenemos:
de ingresos para Santiago). En tales circunstan-
cias debemos operar con una muestra de obser- Estadı́sticos de Tendencia Central
vaciones para nuestra variable; es decir, datos de
los ingresos semanales de 100 trabajadores efecti- • Media, que corresponde a
vamente encuestados. La muestra es el segundo
n
tipo de fuente de datos que podemos encontrar; 1X
x= xi .
los estadı́sticos habitualmente disponen sólo de n i=1
muestras de datos. Sobre la base de las mues-
tras, deben deducir o inferir hechos acerca de la
• Mediana, que corresponde a
población a partir de la cual se ha extraı́do la
muestra. Este proceso se conoce como inferencia m = valor de la posición central de la muestra.
estadı́stica.
• Amplitud muestral, definida como
La inferencia estadı́stica tiene como propósito fun-
damental el uso de los principios de la estadı́stica 1
matemática para combinar las distribuciones teóricas am = (máximo − mı́nimo).
2
y las observaciones, en un modelo empı́rico sobre la
economı́a. Como tal, hace uso de todo el instru- Estadı́sticos de Dispersión
mental estadı́stico para en análisis de los fenómenos
económicos. Puesto de otra manera, la teorı́a clásica • Desviación estándar, dada por
de la inferencia estadı́stica se centra en un conjunto de ∙ Pn ¸2
reglas que permiten usar a información contenida en − x)2
i=1 (xi
sx = .
los datos muestrales, de manera eficaz. Tales reglas se n−1
basan en las propiedades de las muestras utilizadas y
de las distribuciones muestrales asociadas. • Covarianza, que corresponde a
Un problema importante en todos los análisis de in- ∙ Pn ¸2
ferencia estadı́stica es lo que se denomina la variabilidad i=1 (xi − x)(yi − y)
sxy = .
muestral (sampling variability). Esto significa que difer- n−1
entes muestas pueden dar lugar a diferentes resultados,
y los resultados que se obtengan con ellas dependerán de • Coeficiente de Correlación, definido por
la forma en que éstas fueron extraı́das. Pero si las mues-
tras se extraen de una manera particular, la variabilidad sxy
rxy = .
muestral seguirá un patrón sistemático sobre el cual se sx sy
Además, se puede demostrar que forma en que se ha descrito; es decir, extrayendo una
Pn gran cantidad de muestras aleatorias de una población.
2 2
i=1 xi − nx Normalmente contamos con una única muestra. Afortu-
s2x = ;
n−1 nadamente, es posible decir mucho sobre la distribución
Pn
i=1 xi yi − nxy muestral de la media sin la necesidad de tomar más
sxy = ; de una muestra. Para ello hacemos uso de nuestro
n−1
−1 ≤ rxy ≤ 1; conocimiento sobre valores esperados y varianzas de
sax = |a| sx ; variables aleatorias, para derivar las expresiones de la
media y la varianza de la distribución muestral.
sx,by = |ab| sxy, y
Un teorema que ayuda bastante es el siguiente:
ab
rax,by = rxy , a, b 6= 0.
|ab| Teorema 1. Distribución Muestral de la Media:
Si x1, x2 , . . . , xn son observaciones de una mues-
6.2. Distribución Muestral de la Media
tra aleatoria extraı́da de una población de media
Las medidas anteriores resumen una muestra aleato- μ y de varianza σ 2 , entonces x es una variable
ria. Cada una de ellas tiene una contraparte pobla- aleatoria de media μ y varianza σ 2 /n.
cional, esto es, basada en la distribución a partir de
la cual se han generado los datos; en otras palabras, B Dem.: De la definición de media muestral,
los valores muestrales se corresponden con esperanzas n n
1X 1X
poblacionales. Definamos lo que entenderemos por un x = xi ⇒ E(x) = E(xi )
”estadı́stico”: n i=1 n i=1
n
1X
Definición 1. Estadı́stico: Es cualquier función que = μ = μ.
n i=1
se calcula a partir de los datos contenidos en una
muestra. Además, si las observaciones son independientes,
entonces
Si se extrae otra muestra bajo las mismas condi-
X n
ciones, se obtendrán valores diferentes a partir de las 1
observaciones, puesto que cada muestra es una variable var(x) = var( xi )
n2 i=1
aleatoria. Esto implica que el estadı́stico también es una n n
variable aleatoria, y tiene su propia función de proba- 1 X 1 X 2
= var(xi ) = σ
bilidad: la distribución muestral. n2 i=1 n2 i=1
Suponga, entonces, que se extrae de esta población σ2
una gran cantidad de muestras aleatorias de igual tamaño = . C
n
n, cada una de las cuales tiene
P su propia media mues-
tral calculada como x = n1 ni=1 xi . Esto significa que La distribución muestral se utiliza para realizar in-
una media particular, digamos x0 puede repetirse o no ferencias sobre la población, bajo la premisa de que la
en varias muestras, por lo que tiene asociada una cierta muestra reproduce el comportamiento de la población.
frecuencia. Entonces, dado que se han tomado muchas
Este teorema permite señalar tres cosas respecto de
muestras, las frecuencias relativas pueden considerarse
la distribución muestral de x obtenida cuando se toman
como probabilidades de ocurrencia para las medias.
muchas muestras, todas de tamaño n, a partir de una
Por ejemplo, podrı́amos decir que Pr(x = x0 ) = 0.18.
población dada:
Luego, será posible construir una distribución de prob-
abilidad para x.
1. El teorema establece que sı́ calculamos E(x), el
La función de probabilidad para x se conoce como promedio de los x obtenido de las muchas mues-
distribución muestral de la media de una variable aleato- tras, encontraremos que es igual a μ, la media de
ria de tamaño n. Las distribuciones muestrales de este los x0 s en la población.
tipo son de crucial importancia en la inferencia es-
tadı́stica. 2. También establece que la variabilidad en las x0 s
2
En la práctica, sin embargo, rara vez las distribu- (medida por V ar(x) = σn ) depende de dos fac-
ciones muestrales se construyen empı́ricamente en la tores:
8 Rodrigo F. Aranda
(a) El tamaño de la muestra, n: mientras mayor la distribución normal estándar? La respuesta a esta
sea el tamaño muestral, menor será la vari- pregunta se encuentra en el siguiente teorema:
abilidad obtenida para los x0 s. En el ex-
tremo, sı́ n → ∞, V ar(x) → 0. Teorema 2. Teorema Central del Lı́mite: Si x1 ,
2 0 x2 , . . ., xn son observaciones de una variable
(b) La variabilidad (medida por σ ) de los x s
aleatoria procedente de una distribución de prob-
en la población: mientras mayor sea σ 2 en la 2
abilidad con Pnmedia finita μ y varianza finita σ , y
población original, mayor será la variabilidad
si xn = n1 i=1 xi , entonces,
de los x0 s que se obtenga a partir de muchas
muestras. √ d
n(xn − μ) → N (0, σ 2 )
3. Sı́ la población de la cual se extraen las muestras independiente de cuál sea la distribución inicial,
es normal, con media μ y varianza σ 2 - esto es, x ∼ d
donde → significa convergencia en distribución.
N (μ, σ 2 ) - entonces, dado que x es una función En otras palabras, sı́ seleccionamos aleatoriamente
lineal de los xi , x también se distribuirá como muestras grandes a partir de una población con
2
una normal con media μ pero varianza igual a σn . media μ y varianza σ2 , entonces la media muestral
Esto es, se distribuirá aproximadamente como una normal
2
σ2 con media E(x) = μ y varianza V ar(x) = σn , in-
Sı́ x ∼ N (μ, σ 2 ) ⇒ x ∼ N (μ, ). (8) dependientemente de cuál sea la forma de la dis-
n
tribución de la población original.
Consideremos el siguiente ejemplo. Supongamos que
B Dem.: Fuera del alcance de estas notas. C
el ingreso semanal de los trabajadores del calzado es
en promedio de $560, con una desviación estándar de Este teorema establece que, con tal que las mues-
$12. Podemos asumir que los ingresos semanales se tras sean lo suficientemente grandes, entonces aun sı́
distribuyen como una normal. Sı́ se extrae de esta la población no se distribuye como una normal, la dis-
población una muestra aleatoria de 100 trabajadores, tribución muestral de la media puede igualmente ser
¿cuál es la probabilidad de que el ingreso medio sem- aproximada por la distribución normal. Es más, mien-
anal en la muestra sea mayor que $562? tras más grandes sean las muestras tomadas, más cer-
Para responder esto, sea x el ingreso de un tra- cana es la aproximación. Nótese, en todo caso, que no
bajador individual; entonces, necesitamos obtener la hay una distinsión clara entre lo que es ”grande” y lo
Pr(x > 562), dado que x ∼ N (560, 144). Usando el que es ”pequeña”. Esta distinsión dependerá del tipo
2
teorema 1, E(x) = μ = 562 y V ar(x) = σn = 1.44; esto de problema que se esté analizando y de la periodicidad
es, x ∼ N (560, 1.44). A continuación transformamos de las observaciones; por ejemplo, a nivel macro, una
x en una distribución normal estándar, definiendo la muestra de 30 ó 40 observaciones puede ser considerada
variable Z como: como grande, mientras que si usamos datos financieros
una muestra será considerada grande cuando supere las
x − 560
z= ; 1500 observaciones diárias.
1.44
z tiene una distribución N (0, 1), por lo que: 7. Estimación de los Parámetros
µ ¶ Poblacionales
x − 560 562 − 560
Pr(x > 562) = Pr >
1.44 1.44 En el ejemplo anterior los parámetros poblacionales
= Pr(z > 1.67) = 1 − Pr(z < 1.67) = 0.0475, eran conocidos, lo que permitió usar el teorema 1 para
obtener la probabilidad asociada a la media muestral.
donde el último valor se obtiene de las tablas de la dis- En la práctica lo común es que los parámetros pobla-
tribución normal estandarizada. En consecuencia, la cionales sean desconocidos y que debamos usar la in-
probabilidad de obtener una media muestral mayor que formación muestral para realizar inferencias sobre ellos.
$562 es bastante baja (alrededor de 4%). La inferencia estadı́stica se divide en dos grandes áreas:
Nótese que para realizar este ejercicio simple no sólo la estimación y el testeo de hipótesis. En esta sección
nos hemos basado en el teorema 1, sino que también en discutiremos brevemente la estimación de parámetros;
el supuesto de distribución normal. Si no consideramos el testeo de hipótesis de interés se dejará para fu-
este último supuesto, ¿podremos utilizar las tablas de turas sesiones directamente relacionadas con el análisis
econométrico. ¿Cómo podemos elegir entre estimadores? Algunos esti-

madores son buenos y otros son malos; entonces, ¿cómo
El objetivo de la estimación de parámetros es uti- podemos establecer criterios de bondad para comparar
lizar los datos muestrales para inferir el valor de un entre estimadores? Evidentemente, no podemos evaluar
parámetro individual θi , o de un vector de parámetros θ. la bondad de un estimador en función sólo de una única
Existen dos formas de estimar parámetros poblacionales estimación. Debemos observar los resultados cuando el
desconocidos. La primera consiste en obtener un único procedimiento de estimación es utilizado muchas veces.
valor numérico o estimación puntual; la segunda con- Entonces, evaluamos la bondad de un estimador, con-
siste en especificar un rango o intervalo dentro del cual struyendo una distribución de probabilidad de los val-
tenemos confianza (en términos estadı́sticos) de que se ores de las estimaciones obtenidas en muestreos repeti-
encuentra el veradero parámetro poblacional; es decir, dos, y notamos cuán cerca se ubica esta distribución en
una estimación por intervalo. torno al parámetro objetivo.
En este punto es preciso considerar las siguientes Dos criterios habitualmente considerados para juzgar
definiciones. la bondad de un estimador son el sesgo y la precisión
del del estimador. En general diremos que un buen
Definición 1. Estimador: Un estimador es una regla estimador es insesgado; esto es, sı́ E(θ) = θ; lo que
o estrategia para utilizar los datos muestrales significa que, en promedio, el estimador proporciona el
con el fin de estimar cierto parámetro o con- verdadero valor del parámetro. Si definimos el sesgo
junto de parámetros. Tal regla está definida antes del estimador como B(θ) = E(θ) − θ, entonces diremos
que los datos se generen, y se expresa como una que sı́ B(θ) > 0, el estimador está sesgado hacia arriba
fórmula matemática.También se le conoce como (E(θ) > θ); esto es, el estimador sistemáticamente so-
estadı́stico. bre estima al verdadero parámetro poblacional. Por su
parte, sı́ B(θ) < 0, el estimador está sesgado hacia abajo
Definición 2. Estimación: Corresponde al valor es- (E(θ) < θ); esto es, el estimador sistemáticamente
pecı́fico que resulta de reemplazar en la fórmula subestima al verdadero parámetro poblacional.
del estimador, los valores muestrales. Respecto de la precisión, diremos que entre los es-
timadores insesgados, preferiremos a aquellos con la
Un estimador puntual es un estadı́stico calculado a menor varianza, debido a que una menor varianza
partir de la muestra, que pretende ser una aproximación garantiza que, en muestras repetidas, una alta fracción
del parámetro poblacional θi ó θ, respectivamente. El de los valores de bθ (estimaciones) estén cercanos a θ.
error estándar del estimador es la desviación estándar Por su parte, un estimador por intervalo es una regla
de la distribución muestral del estadı́stico. Como se que especifica el método para utilizar la información
señaló, la estimación puntual consiste en obtener un muestral para calcular dos puntos terminales que de-
valor único para la estimacı́on del parámetro pobla- finen un intervalo que supuestamente incluye al ver-
cional. Para esto usamos la muestra de datos, más un dadero parámetro poblacional. Este estimador por in-
método o procedimiento de estimación. tervalo define lo que se conoce como intervalo de es-
En otras palabras, un estimador es una fórmula que timación, que es un rango de valores que contienen al
nos dice cómo calcular el valor de una estimación, verdadero parámetro poblacional, con una cierta prob-
basándonos en las medidas contenidas en la muestra. abilidad predeterminada. Los puntos terminales del
Supongamos, por ejemplo, que deseamos estimar la ver- intervalo, siendo funciones de los valores muestrales,
dadera media (poblacional), μ, de una variable aleato- variarán aleatoriamente de muestra en muestra. Es de-
ria y, de una muestra, yi , i = 1, 2, .., n. UnPposible cir, sı́ tomamos muchas muestras, estaremos generando
n diferentes intervalos de estimación de muestra en mues-
estimador es la media muestral μ b = y = n1 i=1 yi ,
fórmula que nos dice que debemos sumar las observa- tra. En otras palabras, los puntos terminales de los
ciones muestrales y dividir el resultado por el tamaño intervalos también son variables aleatorias, por lo que
muestral n. el estimador por intervalo es aleatorio. El objetivo debe
ser, entonces, encontrar un estimador por intervalo que
Es posible utilizar diferentes estimadores para un
sea capaz de generar intervalos estrechos que tengan
mismo parámetro poblacional. Por ejemplo, aparte de
una alta probabilidad de incluir al verdadero parámetro
la media muestral, μ b = y, podrı́amos utilizar la me-
poblacional.
diana, m, b o la primera observación muestral, como
estimadores del verdadero parámetro poblacional μ. Los estimadores por intervalos también se conocen
10 Rodrigo F. Aranda
como intervalos de confianza. La probabilidad de que muestral es θ; esto es,

un intervalo de confianza incluya a θ recibe el nombre
de coeficiente de confianza o nivel de confianza (con- E(b
θ) = θ
vencionalmente fijado en 95%). Este nivel de confianza o alternativamente, cuando:
identifica la fracción de las veces (por ejemplo, 95% de h i
las veces), en muestras repetidas, que el intervalo con- E(b
θ − θ) = sesgo b
θ /θ = 0,
struido contendrá al verdadero parámetro poblacional
θ. Esto es, si tomamos 100 muestras aleatorias, es-
lo que implica que b
θ es insesgado (no tiene sesgo).
peramos que el en 95 de ellas el verdadero parámetro
Esto además implica que la esperanza del error
poblacional se encuentre dentro del intervalo calculado
muestral en el que se incurre al considerar el esti-
(y no se encuentre dentro del intervalo en 5 de ellas).
mador en lugar del verdadero parámetro, es cero.
Si sabemos que el nivel de confianza asociado con nue-
stro estimador es alto (digamos 95%), podemos estar La insesgadez es una propiedad deseable de los esti-
bastante confiados (95% confiados) en que cualquier in- madores, pero rara vez es usado como criterio único de
tervalo de confianza construido al utilizar los resultados selección de posibles estimadores. Una de las razones es
de una única muestra, incluirá a θ. Ası́, si suponemos que hay muchos estimadores que son insesgados, pero
que bθI y b
θS son las cotas inferiores y superiores para el que son poco representativos de la muestra. Un segundo
parámetro θ, entonces criterio útil para elegir entre estimadores insesgados es
θI ≤ θ ≤ b
Pr(b θS ) = 1 − α el de eficiencia.
es el intervalo de confianza al (1−α)% para el parámetro Definición 4. Estimador Insesgado Eficiente: Un

θ; (1 − α) es el nivel de confianza, mientras que α es el estimador insesgado bθ1 es más eficiente que otro
nivel de significancia. estimador insesgado b
θ2 , si la varianza muestral de
b
θ1 es menor que la varianza muestral de b θ2 ; es
7.1. Propiedades de los Estimadores decir,
var(b
θ1 ) < var(b θ2 ).
Dado que puede haber una enorme cantidad de esti-
madores, dependiendo del procedimiento utilizado para
Partiendo de este criterio, es fácil concluir que la me-
su formulación, la búsqueda de buenos estimadores es,
dia muestral será claramente preferida a a la primera
en muchas ocasiones, el objetivo del análisis econométrico.
observación de una muestra, puesto que si σ 2 es la var-
Estos estimadores se comparan a partir de una variedad 2
ianza poblacional, entonces var(x1 ) = σ 2 y var(x) σn .
de atributos o propiedades, tales como insesgamiento,
mı́nima varianza, etc., las que dependen del tamaño de Hasta este punto la discusión ha estado centrada sólo
la muestra bajo consideración. Al respecto se tiene: en los estimadores insesgados. Pero existen estimadores
sesgados que tienen una menor varianza que los inses-
• Propiedades de muestras pequeñas, que son atrib- gados: por ejemplo, las constantes tienen varianza cero.
utos que pueden ser comparados independiente- Si nos concentramos exclusivamente en la insesgadez, se
mente del tamaño de la muestra, mientras ésta debe excluir, por ejemplo, a aquellos estimadores que
sea contable en un sentido de medición; tienen un sesgo tolerable y una varianza muy pequeña.
Un criterio que tiene en cuenta esta posibilidad de acep-
• Propiedeades de muestras infinitas o asintóticas, tar cierto grado de sesgo a cambio de una varianza muy
que corresponden a atributos que presentan los pequeña, es el error cuadrático medio.
estimadores cuando el tamaño muestral se hace
arbitrariamente grande. Definición 5. Error Cuadrático Medio: Se define
como:
Discutamos brevemente cada una de estas propiedades: h i
7.1.1. Propiedades en Muestras Pequeñas Las ECM = E (b θ − θ)2
siguientes son algunas propiedades de interés para los
= var(b
θ) + sesgo(b
θ)sesgo(b
θ)0 ,
estimadores de los parámetros poblacionales cuando se
utilizan muestras pequeñas o finitas. donde θ es un vector de parámetros. En el
caso que θ sea un escalar, ECM = var(bθ) +
Definición 3. Estimador Insesgado: Un estimador h i2
de θ es insesgado, si la media de su distribución b
sesgo(θ) .
Desafortunadamente, el criterio del ECM es pocas entonces:

veces operativo: los estimadores de ECM mı́nimo,
∂ ln L 1
P
n
cuando existen, normalmente dependen de parámetos ∂μ = σ2 (xi − μ);
desconocidos. En consecuencia, el criterio a utilizar es i=1
∂ ln L
P
n
insesgadez y mı́nima varianza. ∂σ 2 = − σn2 + 1
2σ 4 (xi − μ)2 ;
i=1
Estimación insesgada eficiente Sea f (xi , θ) la ∂ 2 ln L
∂μ2 = − σn2 ;
función de densidad de cada observación extraida de P
n
∂ 2 ln L
una muestra aleatoria. Como las n observaciones son ∂(σ 2 )2 = − 2σn4 − 1
σ6 (xi − μ)2 ;
independientes, entonces su densidad conjunta es: i=1
∂ 2 ln L
P
n
∂μ∂σ 2 = − σ14 (xi − μ)2 .
i=1
f (x1, x2 , . . . , xn , θ) = f (x1 , θ)f (x2 , θ) · · · f (xn , θ)
Luego, ∙ ¸
n
Y n
2 σ2 0
= f (xi , θ) = L( θ| x1, x2 , . . . , xn ) I(μ, σ ) = n ,
0 2σ 4
i=1
y la cota de Cramér-Rao para la varianza de los es-
donde L( θ| x) se conoce como la función de verosimil- timadores insesgados de μ y σ 2 , en una distribución
itud de θ dado el vector de datos x. Por ejemplo,, si normal, es:
los x1, x2 , . . . , xn provienen de una distribución expo-
" 2 #
nencial, entonces, £ ¤ σ
2 −1 n 0
I(μ, σ ) = 4 .
n
P
n 0 2σn
Y n
−θ xi
−θxi
L( θ| x) = L(θ) = θe =θ e i=1 ,
i=1 Nótese que la matriz I(., .)−1 es diagonal, resultado
que se cumple para la distribución normal, pero es poco
y si los x1, x2 , . . . , xn provienen de una distribución nor- frecuente. Por otro lado, si μ byσ b2 son dos estimadores
mal, entonces: de μ y σ 2 , y Ω es su matriz de covarianzas de orden 2×2,
£ ¤−1
entonces Ω − I(μ, σ 2 ) es una matriz semidefinida
n
Y ¡ ¢− 1 2 positiva; esto es, una matriz del tipo x0 Ax > 0, ∀x
2πσ 2 2 e−[ 2σ2 ][(xi −μ)]
1
L(θ) =
distinto de cero.
i=1
n En la mayorı́a de los contextos aplicados, existe una
S
¡ ¢
2 −n/2
−[ 2σ12 ] (xi −μ)2
= 2πσ e i=1 gran variedad de estimadores disponibles. La utilidad
de la cota de Cramér-Rao es que si se sabe que uno de
los estimadores alcanza dicha cota para la varianza, no
La función de verosimilitud es clave en la discusión
es necesario buscar otro estimador más eficiente.
teórica sobre la estimación de parámetros.
Cota de Cramér-Rao Si la función de densidad
Definición 6. El Estimador Lineal Insesgado de
de x cumple ciertas condiciones de regularidad, la vari-
Mı́nima Varianza (ELIMV): Un estimador es
anza de un estimador insesgado de un parámetro θ siem-
el estimador lineal insesgado de mı́nima varianza,
pre será mayor o igual que:
o estimador lineal insesgado óptimo (elio), si éste
µ ∙ ¸¶−1 es una función lineal de los datos y tiene la mı́nima
∂ 2 ln L(θ)
[I(θ)]−1 = −E varianza entre todos los estimadores lineales ins-
∂θ2 esgados.
µ ∙ ¸¶
∂ ln L(θ)
= −E
∂θ 7.1.2. Propiedades Asintóticas (Grandes Mues-
tras) En muchos casos la cuestión de si un estimador
donde I(θ) es el número (matriz) de información de la es insesgado o no, cuál es su varianza muestral para una
muestra. muestra de tamaño dado, es simplemente imposible de
Por ejemplo, si responder. Pese a ello, es posible obtener resultados
aproximados sobre el comportamiento de la distribución
n n 1 Pn de un estimador para tamaños muestrales elevados
ln L(μ, σ 2 ) = − ln(2π) − ln σ 2 − 2 (xi − μ)2 , (usualmente convergiendo a infinito). El conocimiento
2 2 2σ i=1
del comportamiento en el lı́mite de la distribución de un Luego, si hacemos yn = xn − c y δ = ξ 2 , entonces

estimador puede utilizarse para inferir una distribución (xn − c)2 > δ ⇒ |xn − c| > ξ. Luego, si c = μn ,
aproximada para el estimador obtenido de una mues-
tra finita. Los siguientes son algunos resultados impor- σ2
Pr [|xn − c| > ξ] ≤ .
tantes. ξ2
Sea xn una variable aleatoria proveniente de una
Por otro lado, limn→∞ E(xn ) = c, y limn→∞ V ar(xn ) =
muestra de tamaño n. Entonces,
0, entonces p lim xn = c. Esto es, los resultados ante-
Definición 7. Convergencia en Probabilidad: Una riores implican que la convergencia media cuadrática
variable aleatoria converge en probabilidad a una conduce a la convergencia en probabilidad (lo contrario
constante c, si no es verdad).
lim Pr [|xn − c| > ξ] = 0, Definición 8. Estimador Consistente: Se dice que

n→∞
un estimador bθ de un parámtro θ es un estimador
para cualquier ξ positivo. consistente de θ, sı́ y sólo si p lim b
θ = θ.
Esta definición implica que los valores de la variable Teorema 6. Consistencia de la Media Muestral:
aleatoria cercanos a c, son cada vez más probables a La media de una muestra aleatoria de cualquier
medida que n aumenta. La clave de esta forma de con- población con media finita μ y varianza finita σ 2
vergencia es que toda la masa de probabilidad de la es un estimador consistente de μ.
distribución se concentrando en los valores cercanos a
c. Cuando xn converge en probabilidad a c, se escribe B Dem.: Sabemos que E(x) = μ y V ar(x) = σ 2 /n.
Por lo tanto, x converge en media cuadrática a
p lim xn = c. μ, por lo que p lim x = μ (pues cuando n → ∞,
σ 2 /n → 0). C
Un tipo especial de convergencia en probabilidad,
más utilizado, es: Corolario (Consistencia para la Media de Fun-
ciones): En una muestra aleatoria, para cualquier
Teorema 3. Convergencia Media Cuadrática: Si función g(x), si E[g(x)] y V ar[g(x)] son con-
xn tiene media μn y varianza σ 2n , tales que los stantes finitas, entonces
lı́mites ordinarios de μn y σ 2n son, respectiva-
1 Pn
mente, c y 0, entonces xn converge en media p lim g(xi ) = E[g(x)].
cuadrática a c, y p lim xn = c. n i=1
Para demostrar este teorema, son necesarios los
Definición 9. Convergencia en Distribución: La
siguientes dos teoremas complementarios:
sucesión de variables aleatorias {xn } converge en
Teorema 4. Desigualdad de Chebychev: Si xn es distribución a una variable aleatoria x con función
una variable aleatoria y c y ξ son dos constantes, de densidad acumulada (f da) F (x) si
entonces,
£ ¤ lim |Fn − F (x)| = 0
n→∞
E (xn − c)2
Pr [|xn − c| > ξ] < .
ξ2 en todos los puntos en que F (x) sea continua.
La demostración de este teorema escapa a los al-
Esta definición no tiene nada que ver con la conver-
cances de estas notas.
gencia de los valores especı́ficos que tome x, sino que se
Teorema 5. Desigualdad de Markov: Sea yn una relaciona con la distribución de proabilidad.
variable aleatoria que toma valores no negativos,
y δ una constante positiva. Entonces, Definición 10. Distribución Lı́mite: Si xn converge
en distribución a x, siendo F (x) la fda de x, en-
E(yn ) tonces F (x) es la distribución lı́mite de x. Esto
Pr [yn ≥ δ] ≤ .
δ es,
d
La demostración de este teorema escapa a los al- xn → x.
cances de estas notas.
8. Métodos de Estimación lo general μ0r será una función conocida de θ, digamos

μ0r = μ0r (θ). La idea del método de momentos es utilizar
Sea x una variable aleatoria obtenida de una población la información muestral, x1 , · · · , xn , para calcular los
con función de distribución de probabilidad (f dp) dada momentos muestrales:
por f ( x| θ), donde θ es un vector de parámetros que de-
Pn xr
seamos estimar. Sea x1 , · · · , xT una muestra aleatoria μ0r = i
; r = 1, 2, ..., k,
para dicha población. Entonces, un estimador de θ es i=1 n
una función o regla de la forma
para luego igualar los momentos muestrales con los ver-
b
θ=b
θ(x1 , · · · , xT ), daros (los poblacionales) - es decir, μ0r = μr (θ) - y
resolver el sistema de ecuaciones que resultan para los
lo que significa que el estimador b
θ es una función de las k parámetros desconocidos, si es que esto es posible.
observaciones de la muestra de datos. Como las obser- El estimador resultante se conoce como estimador del
vaciones en la muestra de datos son variables aleatorias, método de momentos.
también lo será el estimador b
θ. El siguiente ejemplo ilustra el procedimiento. Sea
Por ejemplo, supongamos que estamos dispuestos a x1 , · · · , xT una muestra aleatoria obtenida de una
asumir que los gastos de los individuos con ingresos de población con una distribución N (θ, σ 2 ). Entonces
$2M M , se distribuye como una normal con media de-
sconocida, pero varianza igual a σ 2 = (500)2 ; es decir, E [x] = θ = μ01 ,
Y ∼ N (θ, (500)2 ). y £ ¤ 2
var(x) = σ 2 = E x2 − [E [x]] .
Sea x1 , · · · , xT una muestra aleatoria de las observa- Ası́, si igualamos los momentos muestrales a los pobla-
ciones sobre los gastos. Dado que la media es descono- cionales, tendremos:
cida, podemos plantear que
Pn x
=x=b
i
Yt = θ + εt ; t = 1, · · · , T , μ01 = θ,
i=1 n
donde la variable aleatoria εt = Yt − θ, tiene una dis- y
Pn x2 2
tribución de probabilidad dada por μ02 = i
b2 + b
=σ θ ;
i=1 n
εt ∼ N (θ, (500)2 ),
de donde se obtiene:
y representa la diferencia entre Y y su media. Tal como n x2 n x2
µ ¶2
P 2 P Pn x
−b
i
ha sido especificada, εt representa todos aquellos fac- b2
σ = i
θ = i
−
tores distintos del ingreso que afectan el nivel de gasto i=1 n i=1 n i=1 n
de los individuos (por ejemplo, los gustos y preferencias, 1 P

n
= (xi − x)2 .
las condiciones del entorno económico, etc.). n i=1
El estimador más común para θ es la media ar-
Aun cuando el método de momentos es muy intu-
itmética simple de las observaciones en la muestra:
itivo, no necesariamente proporciona resultados únicos
b Pn x para los parámetros, y puede incluso tornarse muy
θ=b
i
θ(x1 , · · · , xT ) = , difı́cil de aplicar en problemas más amplios y complejos.
i=1 n
Adicionalmente, el método también depende de que la
que es igual a la media muestral de x. Existen, sin em- variable en cuestión tenga efectivamente momentos, lo
bargo, otros métodos de estimación que tienen mejores cual puede no ser cierto.
propiedades, los que a continuación se presentan.
8.2. Estimación Mı́nimo Cuadrática
8.1. El Método de Momentos
Una dificultad presente tanto en los dos métodos an-
Tal como se discutió antes, el r-ésimo momento de teriores es que cada uno de ellos requiere de un supuesto
una variable aleatoria Y en torno al origen es μ0r = especı́fico respecto de la distribución de probabilidad
E [xr ]. Si la f dp de x es f ( x| θ), donde θ0 = (θ1 , · · · , θk ) de la variable aleatoria bajo análisis. Algunas veces,
es un vector de parámetros no conocidos, entonces por sin embargo, es posible usar métodos de estimación que
no requieren la especificación exacta de la distribución

poblacional. Uno de estos métodos, muy popular, es el
método de los mı́nimos cuadrados. Este método puede
usarse para estimar los momentos centrales de variables
aleatorias, μ0r = E [Y r ].
La lógica de método es simple. Dado que la expecta-
tiva matemática de una variable aleatoria es la media de
dicha variable dados los valores muestrales Y1 , · · · , YT ,
entonces es razonable utilizar el valor central de los
datos Yir para estimar μ0r . Una manera de definir el
centro de un conjunto de datos es encontrar el valor de
b0r que minimiza:
μ
T
X
S= (Ytr − μ0r )2 .
t=1
El valor de S es la suma del cuadrado de la diferencia en-

tre Yir y la expectativa μ0r = E(Yir ). El valor de μ0r que
minimiza S para un conjunto de valores de la variable
aleatoria se denomina estimador mı́nimo cuadrático de
b0r se considera una función de la variable aleato-
μ0r . Si μ
ria Yi , entonces éste es el “estimador mı́nimo cuadrático
(MC).”
Por ejemplo, sea Y1 , · · · , YT una muestra aleatoria
proveniente de una población con media β y varianza
finita σ 2 . Entonces, el estimador mı́nimo cuadrático de
β se obtiene minimizando:
XT XT
dS b =0
S = (yt − β)2 ⇒ = −2 (yt − β)
t=1
dβ t=1
XT
b= 1
⇒ β yt .
T t=1
8.3. El Método de Máxima Verosimilitud

(Maximum Likelihood)
Ver nota de clases 10.

Sesion 1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Sesion 1

Uploaded by

Copyright:

Available Formats

Lecturas de Teorı́a Monetaria, No 1 (Agosto, 2009 ).

Introducción al Análisis Econométrico∗

1. Introducción • Usar estas relaciones para obtener predicciones o

6. Elementos de Estadı́stica puede saber mucho. De hecho, si fueramos capaces de

econométrico. ¿Cómo podemos elegir entre estimadores? Algunos esti-

como intervalos de confianza. La probabilidad de que muestral es θ; esto es,

es el intervalo de confianza al (1−α)% para el parámetro Definición 4. Estimador Insesgado Eficiente: Un

Desafortunadamente, el criterio del ECM es pocas entonces:

del comportamiento en el lı́mite de la distribución de un Luego, si hacemos yn = xn − c y δ = ξ 2 , entonces

lim Pr [|xn − c| > ξ] = 0, Definición 8. Estimador Consistente: Se dice que

8. Métodos de Estimación lo general μ0r será una función conocida de θ, digamos

de los individuos (por ejemplo, los gustos y preferencias, 1 P

no requieren la especificación exacta de la distribución

El valor de S es la suma del cuadrado de la diferencia en-

8.3. El Método de Máxima Verosimilitud

You might also like