You are on page 1of 14

Lecturas de Teorı́a Monetaria, No 1 (Agosto, 2009 ).

Introducción al Análisis Econométrico∗


Rodrigo F. Aranda
Departamento de Economı́a, Universidad de Santiago de Chile. Av. Bernardo O’Higgins 3363.
c RFA–2009.
Santiago, Chile 725-4758. °

1. Introducción • Usar estas relaciones para obtener predicciones o


pronósticos cuantitativos.
En términos muy simples, se acostumbra a definir
la Econometrı́a como la aplicación de la estadı́stica A modo de ejemplo, consideremos el problema de la
matemática a los datos económicos, con el fin de pro- demanda por dinero. La teorı́a monetaria sugiere que la
porcionar apoyo empı́rico a los modelos construidos por demanda de dinero agregada en una economı́a depende
los economistas matemáticos, y ası́ obtener estimaciones de una variable de escala, como por ejemplo el ingreso
numéricas. Más concretamente, la Econometrı́a es una nacional o la riqueza nacional, y de la tasa de interés
integración entre la teorı́a económica, la matemática (nominal) que representa el costo de oportunidad de
y de la teorı́a clásica de inferencia estadı́stica, para mantener saldos monetarios. Esto es,
el desarrollo de métodos y procedimientos estadı́sticos
que permitan contrastar empı́ricamente las diversas m = f (y, i), (1)
teorı́as económicas; este sentido, la Econometrı́a se com-
pone de un cuerpo teórico en continuo desarrollo para donde m es la demanda (stock) real de dinero, y es la
la posterior aplicación de tales desarrollos a proble- variable de escala medida en términos reales, e i es la
mas empı́ricos que surgen de las distintas áreas de la tasa de interés nominal.
teorı́a económica, expresadas a través de diversas rela- Sin embargo la teorı́a nos deja con varias pregun-
ciones entre variables (curvas de demanda, funciones tas sin respuesta. Por ejemplo, la teorı́a no nos indica
de producción, etc.). El aporte de la matemática no cómo debemos definir las variables. ¿Debemos adop-
sólo resulta de la representación formal de las diver- tar una definición restringida de dinero (circulante más
sas teorı́as en términos de formulas o ecuaciones y de depósitos a la vista) o una más amplia? ¿Qué variable
relaciones funcionales, sino que también de la apli- de escala debemos utilizar? ¿Cuál de las muchas tasas
cación de métodos matemáticos para el desarrollo de de interés representa mejor el costo de oportunidad de
métodos de estimación; desafortunadamente, estas for- mantener dinero?
mas matemáticas son cualitativas y no cuantitativas, Por otro lado, la teorı́a nada dice respecto de la forma
dado que no involucran números o datos (son sim- funcional precisa en la ecuación (1). Es posible que
ples fórmulas). Finalmente, la estadı́stica tiene una asuma una forma lineal simple como
doble contribución; por un lado, métodos o proced-
imientos para la recolección y procesamiento de los m = α0 + α1 y + α2 i; α1 > 0, α2 < 0, (2)
datos económicos y su posterior expresión en una forma
fácilmente comprensible (economı́a estadı́stica), y por o una no lineal como
otro, los procedimientos de inferencia estadı́stica, tanto
clásica como Bayesiana, para darles una forma más m = Ay β 1 iβ 2 , β 1 > 0, β 2 < 0. (3)
cuantitativa a las ecuaciones. Todo ello con la finali-
Es posible, en todo caso, que muchas otras formas fun-
dad de:
cionales no lineales sean compatibles con la información
que proporciona la teorı́a.
• Medir tales relaciones, y estimar los parámetros
Además de lo anterior, la teorı́a nos proporciona sólo
involucrados;
información cualitativa sobre cómo y e i influyen so-
• Testear las ideas teóricas presentadas en tales bre la demanda por dinero. Por ejemplo, suponga que
relaciones; hay un aumento de 5% en la variable de escala y. La
teorı́a sugiere que esto resultará en un aumento en la
∗ Notas son de uso exclusivo de los alumnos de la asignatura. demanda por dinero, pero no nos dice en cuánto au-
No citar ni reproducir sin permiso del autor. mentará. En otras palabras, la teorı́a no proporciona

1
2 Rodrigo F. Aranda

información cuantitativa. Sin embargo, la información nunca es totalmente predecible para concluir que las
cuantitativa, por ejemplo respecto de las elasticidades relaciones económicas nunca son determinı́sticas. Para
β 1 y β 2 en (3), es de gran importancia en la toma de enfrentar esta incertidumbre en la conducta de los
decisiones de polı́tica económica. agentes, y otras razones que se plantearán en su debido
Finalmente, la teorı́a por lo general se refiere a lo momento, la Econometrı́a incorpora un término de per-
que los economistas denominamos el largo plazo, dado turbación aleatorio o error estocástico a las ecuaciones
que nos concentramos en posiciones de equilibrio. Por como (2), tranformándola en:
ejemplo, en equilibrio tanto la demanda como la oferta m = α0 + α1 y + α2 i + ε, (5)
de dinero deben ser iguales. En esta caso es comple-
tamente justificable usar datos de series de oferta de donde ε es el término de perturbación, que puede tomar
dinero para representar la demanda por dinero. Pero el valores positivos o negativos. La inclusión de ε en (5)
problema es que el mercado monetario rara vez está en significa que los mismos niveles de y e i no siempre
equilibrio. Si no está en equilibrio ¿es justificable usar resultarán en el mismo valor exacto para la demanda
los datos observados de oferta y demanda de dinero para por dinero m. Existirá una variación completamente
representar la demandas de dinero tales como (1), (2) aleatoria en los valores de m, dependiendo del tamaño
y (3)? En términos generales, la teorı́a económica fre- y signo de la perturbación.
cuentemente tiene poco que decir respecto de cómo la La existencia de este término de perturbación sig-
economı́a o los mercados se mueven entre un equilibrio nifica que es imposible medir los parámetros α0 , α1
y otro; es decir, la teorı́a rara vez describe los procesos y α2 con exactitud. Es aquı́ donde los métodos es-
de ajuste, aun cuando esto ha tendido a cambiar con los tadı́sticos nos ayudan a obtener estimadores más pre-
desarrollos más avanzados en la teorı́a macroeconómica cisos, aunque nunca serán exáctos. Para hacer de un
y monetaria. Desafortunadamente, los datos con que modelo económico-matemático un verdadero modelo es-
los econometristas cuenta se refieren a estos procesos tadı́stico se necesita ser muy especı́ficos acerca del pro-
de ajuste y no a situaciones de equilibrio sucesivas. ceso (estocástico) mediante el cual se generan los datos;
En mayor o menor medida, la econometrı́a busca dar por ejemplo, si consideramos que los errores son el re-
respuesta a estas interrogantes que no resuelve la teorı́a. sultado de variables aleatorias no observadas, entonces
En particular, busca encontrar estimaciones numéricas necesitamos especificar las medias y varianzas de dichas
a los parámetros en ecuaciones como (2) y (3). In- variables y la distribución (de probabilidad) de la cual se
tenta, además, testear algunas de las predicciones dela originaron. Dar a los errores una interpretación aleato-
teorı́a. Por ejemplo, la teorı́a monetaria esbozada en ria convierte a un modelo matemático-económico en
(1) implica que las funciones de demanda son indepen- un modelo estadı́stico-probabilistico, que nos entrega
dientes del nivel de precios. El enfoque econométrico la base para la inferencia estadı́stica, es decir, una base
para testear estas predicciones teóricas implicarı́an la para la estimación de los parámetros desconocidos y
generalización de las ecuaciones (2) y (3), incorporando para la prueba de hipótesis sobre los mismos.
posibles efectos del nivel de precios. Ası́, podrı́amos En resumen, los ingredientes básicos son:
modificar (2) para plantear:
(1) Un modelo económico que permita identificar las
m = α0 + α1 y + α2 i + α3 P, (4) variables económicas relevantes y los parámetros
económicos de interés, y que proporcione las bases
donde P es el nivel general de precios. Sı́ α3 = 0 en- para las conclusioes económicas.
tonces el nivel de precios no tiene influencia alguna so-
bre la demanda real de dinero. Las técnicas estadı́sticas (2) Un modelo estadı́stico (modelo econométrico) que
utilizadas para estimar los parámetros α1 y α2 se especifique el proceso muestral que genera los
pueden también usar para obtener una estimación de datos e identifique los parámetros desconocidos
α3 ; si esta estimación resulta ser significativamente dis- que describen el sistema de probabilidades suby-
tinta de cero (en un sentido estadı́stico que se discutirá acente.
más adelante), entonces se contradice la predicción de
(3) Valores observados de las variables que fueron
la teorı́a.
generados junto con el proceso muestral especi-
Hasta aquı́, la forma en que hemos planteado las ficado para el modelo econométrico.
ecuaciones sugieren que las relaciones económicas son
exactas o determinı́sticas. Sin embargo, basta con con- Pero, ¿cómo usamos la información contenida en
siderar que el comportamiento de los agentes económicos (1), (2), y (3), para obtener información sobre los
Introducción al Análisis Econométrico 3

parámetros desconocidos que necesitamos para la toma Por ejemplo, a medida que el precio de un bien au-
de decisiones? Supongamos que la teorı́a económica menta, ¿en cuánto disminuirá la cantidad demandada?
la podemos expresar implı́citamente en los siguientes ¿El producto agregado aumenta en una forma lineal o
términos: no lineal cuando aumenta la mano de obra?
Afortunadamente, la teorı́a estadı́stica proporciona
y = f (x1 , . . . , xk , β 1 , β 2 , . . . , β k , ε), (6) procedimiento o reglas bien definidas para utilizar la
información muestral para obtener estimaciones pun-
donde y es la variable de interés a analizar por el tuales (un único valor) de dichos parámetros, para
econometrı́sta, x1 , . . . , xk son un conjunto nde variables comprobar la confiabilidad de las estimaciones, y para
que la teorı́a económica indica que están relacionadas testear hipótesis. Tales reglas se basan en las propiedades
con y; β 1 , β 2 , . . . , β k es un conjunto de parámetros de- de las muestras utilizadas y en las distribuciones mues-
sconocidos que permiten vincular la variable y con las trales asociadas. Ası́, las estimaciones puntuales y sus
x0 s en el modelo de economı́a matemática, y ε es el correspondientes confiabilidades pueden expresarse me-
término de perturbación estocástica. En este contexto, diante estimaciones por intervalos. También es posible
el objetivo del análisis econométrico es incrementar comprobar la compatibilidad de los datos con nuestras
el contenido de la parte sistemática o determinı́stica conjeturas mediante test de hipótesis.
(parte explicada por las variables que la teorı́a señala
También, dado que existen varias formas (reglas)
como relacionadas con y), f (x1 , . . . , xk , β 1 , β 2 , . . . , β k ),
para usar un conjunto de datos, la teorı́a estadı́stica
y reducir la importancia del componente de error . Gen-
entrega una base para comparar procedimientos de es-
eralmente no existe posibilidad de generar por antici-
timación. Por ejemplo, ¿es la regla de estimación inses-
pado en un laboratorio o mediante experimentos con-
gada, esto es, en promedio le apuntan al objetivo o es la
trolados los datos consistentes con nuestros modelos
confiabilidad de una regla de estimación superior a otra?
económicos y estadı́sticos. Ello significa que trabajamos
Además, si al desconocimiento de los parámetros le aso-
bajo la restricción de construir modelos no experimen-
ciamos una pérdida, ¿entonces una regla de estimación
tales con datos económicos que son escasos y de alto
minimiza la pérdida promedio o minimiza la máxima
costo para su obtención. En consecuencia debemos ser
pérdida posible? Dado que la información muestral es
muy eficientes en el uso de cualquier información mues-
escasa y costosa, la teorı́a estadı́stica sugiere proced-
tral y no muestral que esté disponible. Esta búsqueda
imientos que nos permiten combinar y usar tanto in-
de la eficiencia en el aprendizaje de la información mues-
formación muestral como otro tipo de información no
tral conduce al tópico de la inferencia estadı́stica.
muestral en el proceso de estimación y de realizar infer-
encias acerca de parámetros desconocidos. En resumen,
2. Inferencia Estadı́stica la teorı́a estadı́stica posibilita el uso de información
muestral para pasar desde los parámetros teóricos en
Al discutir el rol de los modelos económicos y es- los modelos económicos y estadı́sticos a sus contrapartes
tadı́sticos nos hemos concentrado en las relaciones en- empı́ricos, y para hacer declaraciones probabilı́sticas en
tre variables económicas observadas, tales como pre- relación a posibles resultados.
cios, consumo e inversión, y el deseo de obtener infor-
El paquete completo (teorı́a económica, más un mod-
mación sobre los parámetros desconocidos correspon-
elo económico, un modelo estadı́stico, la información
dientes, tales como las elasticidades y productividades
muestral y la teorı́a estadı́stica) es lo que define a la
marginales. La información sobre dichos parámetros es
econometrı́a y sienta las bases para la medición en
útil para entender las relaciones económicas y nos pone
economı́a, y la posibilidad de entender, predecir, y de
en una posición de poder discriminar entre hipótesis
tener algún control sobre los procesos económicos y las
(teorı́as) alternativas, extraer implicancias económicas,
instituciones.
o para predecir y posiblemente controlar los resultados
de importantes variables económicas. Dado este obje-
tivo y una muestra de datos recolectada consistente con 3. Muestreo Aleatorio
el proceso muestral descrito en el modelo estadı́stico, el
problema entre manos es encontrar algún procedimiento Una muestra de n observaciones para una (o más)
para la información muestral para fines de la estimación variable(s), x1 , . . . , xn , es una muestra aleatoria, sı́ las
de los parámetros e inferencia estadı́stica. Por inferen- n observaciones son extraı́das de manera independiente
cia se quiere decir que lo que se desea es usar la infor- de la misma población o distribución de probabilidad,
mación muestral para inferir algo sobre el mundo real. f (xi ; θ), donde θ es el vector de parámetros que per-
4 Rodrigo F. Aranda

miten describir el comportamiento de la población. En (en muestras repetidas) de las variables independientes
este caso, se dice que la secuencia de observaciones (Gujarati, 2004).
{xi }ni=1 está idéntica e independientemente distribuida. Como se señaló antes, el modelo económico-estadı́stico,
En la función de densidad, el vector θ contiene uno o o sı́mplemente modelo econométrico, plantea una relación
más parámetros desconocidos, de interés para el inves- entre variables para una población determinada. Esto
tigador, que deben ser estimados a partir de la muestra. lo resumimos en:
Nótese que si el proceso de muestreo se considera
como un experimento estadı́stico, la obtención de una y = f (x1 , . . . , xk , β 1 , β 2 , . . . , β k , ε).
muestra aleatoria no tiene por qué coincidir con la que
se obtendrı́a si el ejercicio de extracción se repitiera Dado que sı́ ε es una variable aleatoria, ésta puede
una vez más, dado precisamente el carácter aleatorio tomar cualquier valor de entre todos los valores posi-
del proceso. bles que su distribución de probabilidad permite. Por
ejemplo, sı́ ε se distribuye como normal, el rango posi-
Los datos que componen la muestra pueden ser de
ble de valores que puede asumir se mueve entre −∞
los siguientes tipos:
y +∞. Esto significa, como se ha señalado, que para
valores fijos de las variables independientes, es posible
1. Datos de Sección Cruzada o de Corte Transver-
obtener más de un valor probable para y, dado que y
sal (Cross-Section), en donde se obtiene un cierto
también depende de ε. Más aún, la distribución de
número de observaciones de distintos elementos
probabilidad que caracteriza a y será la misma que la
medibles, todas ellas referidas al mismo perı́odo o
distribución de probabilidad de ε. Dado esto, estare-
intervalo de tiempo, pero correspondiendo a dis-
mos interesados en analizar la media o valor promedio
tintas unidades económicas o de decisión. Por
que la variable y toma en la población, dada la infor-
ejemplo, los puntajes de ingreso de los alumnos
mación de las variables independientes, y no algún valor
de las distintas carreras que imparte una Univer-
particular que esta tome para un ε dado, sı́mplemente
sidad, en el año 2005. Otro ejemplo corresponde
porque este último es completamente aleatorio. Esto
a los distintos niveles de ingreso familiar de cada
nos permitirá concentrarnos en la parte determinı́stica
uno de los alumnos ingresados en el mismo año.
del modelo económico-estadı́stico, que es la única parte
2. Datos de Series de Tiempo (Time Series), que cor- para la cual tenemos información. Por ejemplo, sı́ con-
responden a un conjunto de datos generados por sideramos la expresión en la ecuación (5) y asumiendo
un único elemento medible a lo largo de distin- que la media o valor esperado de la perturbación es-
tos perı́odos o intervalos de tiempo, regulares o tocástica es cero, la parte determinı́stica de la ecuación
no, con cierta distribución de probabilidad. Por para la demanda de dinero es:
ejemplo, los datos correspondiente al ı́ndice de
E(m |y, i ) = α0 + α1 y + α2 i. (7)
precios al consumidor, con una periodicidad men-
sual, desde 1980 hasta el 2005. Obviamente, los valores que efectivamente toma la vari-
3. Datos de Panel (Panel Data), que corresponden a able m se distribuirán aleatoriamente en torno a esta
una combinación de datos de corte transversal y linea recta definida por (7). Dada la forma en que se
de series de tiempo, en que el número de observa- plantea esta ecuación, o en términos más generales la
ciones de corte transversal es generalmente muy relación entre la expectativa condicional de y dados los
superior a las observaciones de series de tiempo. valores para las x0 s, ésta recibe el nombre de Ecuación
de Regresión o Recta de Regresión.
Una vez más, el propósito del análisis econométrico
será estimar los parámetros poblacionales, a partir del
4. Análisis de Regresión y Causalidad
uso de información muestral, con el fin de realizar in-
Teniendo como origen la Ley de Regresión Universal ferencias sobre el comportamiento de la variable depen-
de Francis Galton, el análisis de regresión estudia la diente en la población.
dependencia de la variable dependiente respecto de una Un punto importante de destacar, y que muchas ve-
o más variables (explicativas o independientes), con el ces conduce a error, es la implicancia que ecuaciones
objetivo de estimar y/o predecir (pronosticar) la media como (6) ó (7) plantean en términos de las relaciones
condicional o valor promedio poblacional de la variable entre variables. Algunos no iniciados en el análisis
dependiente, en términos de los valores conocidos o fijos econométricos, e incluso algunos que ya han estudiado
Introducción al Análisis Econométrico 5

algo de esta disciplina, señalan que la relación que se 3. Esta información es luego ordenada en términos
da entre las variables en ambas ecuaciones es de causal- de un modelo económico de trabajo que lista los
idad; es decir, las variables del lado izquierdo causan a la supuestos subyacentes y forma la base para la ab-
variable del lado derecho. Esta visión es completamente stracción experimental. Se plantean las hipótesis
errada; la forma correcta de interpretar la relación entre de interés.
las variables de ambas ecuaciones es en términos de de-
pendencia, no de causalidad: la existencia de dependen- 4. El modelo económico de trabajo conduce a un
cia entre variables no implica necesariamente causali- modelo estadı́stico que describe el proceso me-
dad. No importa qué tan fuerte y sugestiva sea una diante el cual las observaciones muestrales y las
relación estadı́stica, esta nunca podrá establecer una ecuaciones de error se consideran generadas, la
conexión causal (Gujarati, 2004); la única forma de clasificación de las variables, y la forma funcional
plantear relaciones de causalidad es recurriendo a con- de las relaciones propuestas.
sideraciones teóricas o a priori. Es decir, la única que
nos puede indicar relaciones de causalidad entre vari- 5. Se generan u obtienen observaciones muestrales
ables es la propia teorı́a económica, no el plantemiento que sean consistentes con el modelo económico
econométrico. y con los componentes aleatorios del modelo es-
Lo anterior es sumamente importante cuando se con- tadı́stico.
sidera, además, la relación entre regresión y correlación.
La correlación entre variables no es signo alguno de 6. Dado el modelo estadı́stico y las observaciones
causalidad entre ellas, sino más bien la manifestación muestrales, se selecciona o desarrolla una regla o
de algún grado de asociación lineal entre las mismas, método de estimación que tenga buenas propiedades
que se acostumbra a medir por el coeficiente de cor- estadı́stica, tales como insesgamiento y/o menor
relación. Se debe señalar que, a pesar de la importancia variabilidad o alta precisión.
que una alta correlación entre variables pueda tener, el
análisis de regresión no está preocupado de este tipo de 7. Se obtiene estimaciones puntuales o por intervalo
medición, sino que más bien en estimar o predecir el de los parámetros desconocidos, con la ayuda de
valor promedio de una variable en base a valores fijos algún software estadı́stico (como Stata, S-Plus o
de otras variables. SPSS,); matricial (como por ejemplo, Matlab) o
Lo anterior, junto al hecho que el análisis de cor- econométrico (tales como Eviews, Rats, Limdep).
relación considera que las variables son igualmente aleato- Se implementan los pruebas de hipótesis apropi-
rias y tratadas en forma simétrica, a diferencia del adas.
análisis de regresión en que las variables son tratadas
asimétricamente (dependiente versus independientes) y 8. Las consecuencias económicas y estadı́sticas y las
no son todas aleatorias (sólo lo son la variable dependi- implicancias de los resultados empı́ricos son anal-
ente y el término de perturbación estocástico), indican izados y evaluados. Por ejemplo, se examina la
claramente que el análisis de regresión no es lo mismo significancia estadı́stica de las variables del lado
que el análisis de correlación. derecho, lo apropiado de los supuestos sobre el
término de error, etc.
5. El proceso del Análisis Econométrico
9. Si la consistencia entre los modelos económico
El siguiente listado resume los principales pasos del y estadı́stico y la muestra de datos no se logra,
análisis econométrico. ¿cuáles son los potenciales problemas que ello con-
lleva y cuales son las sugerencias para futuros
1. Todo parte con un problema - la falta de infor- análisis y evaluaciones? Por ejemplo, ¿los datos
mación o incertidumbre sobre algún resultado o utilizados eran los correctos considerando las in-
una interrogante que incluye un ¿qué pasa si...? terrogantes planteadas? ¿las variables fueron cor-
2. La teorı́a económica proporciona una forma de rectamente clasificadas y aparecı́an con el timing
pensar en los problemas: ¿qué variables están adecuado? ¿ Debió haberse incluido no lineali-
involucradas y cuál es la posible dirección de la dades en el modelo, tanto en las variables como
relación? ¿ Cómo podemos usar nueva infor- en los parámetros?
mación si la tuvieramos?
6 Rodrigo F. Aranda

6. Elementos de Estadı́stica puede saber mucho. De hecho, si fueramos capaces de


manejar los problemas de la variabilidad muestral, en-
Toda vez que deseemos observar o investigar un tonces es necesario que las muestras sean aleatorias.
fenómeno o una variable, existen dos tipos básicos de
En términos simples, una muestra de tamaño n es
fuentes de datos que se pueden usar:
aleatoria sı́ cada combinación de los n items o miem-
bros en la población tiene igual oportunidad de trans-
1. Podemos tener acceso a la población; es decir, ac- formarse en la muestra efectivamente extraı́da. Por
ceder a todas las posibles observaciones, pasadas, supuesto, extraer una muestra aleatoria no es algo sim-
presentes y futuras, de la o las variables de in- ple, y requiere de cierta experiencia y conocimientos.
terés. Por ejemplo, si nuestra variable de interés No obstante, para los propósitos de esta asignatura
fueran los ingresos en la primera semana de sep- haremos abstracción de estos problemas, y asumiremos
tiembre de 2005 para un trabajador adulto en la heróicamente que todas las muestras con las que traba-
industria del calzado en Santiago, y tenemos ac- jemos se han extraı́do aleatoriamente.
ceso a una encuesta de tales ingresos, entonces
estarı́amos tratando con la población de observa- 6.1. Estadı́sticos Descriptivos
ciones para esta variable.
Corresponden a una serie de número cuya finalidad
2. Desafortunadamente, no siempre tenemos acceso es describir la distribución de probabilidad de los datos.
a la población (puede que no exista una encuesta Entre estos tenemos:
de ingresos para Santiago). En tales circunstan-
cias debemos operar con una muestra de obser- Estadı́sticos de Tendencia Central
vaciones para nuestra variable; es decir, datos de
los ingresos semanales de 100 trabajadores efecti- • Media, que corresponde a
vamente encuestados. La muestra es el segundo
n
tipo de fuente de datos que podemos encontrar; 1X
x= xi .
los estadı́sticos habitualmente disponen sólo de n i=1
muestras de datos. Sobre la base de las mues-
tras, deben deducir o inferir hechos acerca de la
• Mediana, que corresponde a
población a partir de la cual se ha extraı́do la
muestra. Este proceso se conoce como inferencia m = valor de la posición central de la muestra.
estadı́stica.
• Amplitud muestral, definida como
La inferencia estadı́stica tiene como propósito fun-
damental el uso de los principios de la estadı́stica 1
matemática para combinar las distribuciones teóricas am = (máximo − mı́nimo).
2
y las observaciones, en un modelo empı́rico sobre la
economı́a. Como tal, hace uso de todo el instru- Estadı́sticos de Dispersión
mental estadı́stico para en análisis de los fenómenos
económicos. Puesto de otra manera, la teorı́a clásica • Desviación estándar, dada por
de la inferencia estadı́stica se centra en un conjunto de ∙ Pn ¸2
reglas que permiten usar a información contenida en − x)2
i=1 (xi
sx = .
los datos muestrales, de manera eficaz. Tales reglas se n−1
basan en las propiedades de las muestras utilizadas y
de las distribuciones muestrales asociadas. • Covarianza, que corresponde a
Un problema importante en todos los análisis de in- ∙ Pn ¸2
ferencia estadı́stica es lo que se denomina la variabilidad i=1 (xi − x)(yi − y)
sxy = .
muestral (sampling variability). Esto significa que difer- n−1
entes muestas pueden dar lugar a diferentes resultados,
y los resultados que se obtengan con ellas dependerán de • Coeficiente de Correlación, definido por
la forma en que éstas fueron extraı́das. Pero si las mues-
tras se extraen de una manera particular, la variabilidad sxy
rxy = .
muestral seguirá un patrón sistemático sobre el cual se sx sy
Introducción al Análisis Econométrico 7

Además, se puede demostrar que forma en que se ha descrito; es decir, extrayendo una
Pn gran cantidad de muestras aleatorias de una población.
2 2
i=1 xi − nx Normalmente contamos con una única muestra. Afortu-
s2x = ;
n−1 nadamente, es posible decir mucho sobre la distribución
Pn
i=1 xi yi − nxy muestral de la media sin la necesidad de tomar más
sxy = ; de una muestra. Para ello hacemos uso de nuestro
n−1
−1 ≤ rxy ≤ 1; conocimiento sobre valores esperados y varianzas de
sax = |a| sx ; variables aleatorias, para derivar las expresiones de la
media y la varianza de la distribución muestral.
sx,by = |ab| sxy, y
Un teorema que ayuda bastante es el siguiente:
ab
rax,by = rxy , a, b 6= 0.
|ab| Teorema 1. Distribución Muestral de la Media:
Si x1, x2 , . . . , xn son observaciones de una mues-
6.2. Distribución Muestral de la Media
tra aleatoria extraı́da de una población de media
Las medidas anteriores resumen una muestra aleato- μ y de varianza σ 2 , entonces x es una variable
ria. Cada una de ellas tiene una contraparte pobla- aleatoria de media μ y varianza σ 2 /n.
cional, esto es, basada en la distribución a partir de
la cual se han generado los datos; en otras palabras, B Dem.: De la definición de media muestral,
los valores muestrales se corresponden con esperanzas n n
1X 1X
poblacionales. Definamos lo que entenderemos por un x = xi ⇒ E(x) = E(xi )
”estadı́stico”: n i=1 n i=1
n
1X
Definición 1. Estadı́stico: Es cualquier función que = μ = μ.
n i=1
se calcula a partir de los datos contenidos en una
muestra. Además, si las observaciones son independientes,
entonces
Si se extrae otra muestra bajo las mismas condi-
X n
ciones, se obtendrán valores diferentes a partir de las 1
observaciones, puesto que cada muestra es una variable var(x) = var( xi )
n2 i=1
aleatoria. Esto implica que el estadı́stico también es una n n
variable aleatoria, y tiene su propia función de proba- 1 X 1 X 2
= var(xi ) = σ
bilidad: la distribución muestral. n2 i=1 n2 i=1
Suponga, entonces, que se extrae de esta población σ2
una gran cantidad de muestras aleatorias de igual tamaño = . C
n
n, cada una de las cuales tiene
P su propia media mues-
tral calculada como x = n1 ni=1 xi . Esto significa que La distribución muestral se utiliza para realizar in-
una media particular, digamos x0 puede repetirse o no ferencias sobre la población, bajo la premisa de que la
en varias muestras, por lo que tiene asociada una cierta muestra reproduce el comportamiento de la población.
frecuencia. Entonces, dado que se han tomado muchas
Este teorema permite señalar tres cosas respecto de
muestras, las frecuencias relativas pueden considerarse
la distribución muestral de x obtenida cuando se toman
como probabilidades de ocurrencia para las medias.
muchas muestras, todas de tamaño n, a partir de una
Por ejemplo, podrı́amos decir que Pr(x = x0 ) = 0.18.
población dada:
Luego, será posible construir una distribución de prob-
abilidad para x.
1. El teorema establece que sı́ calculamos E(x), el
La función de probabilidad para x se conoce como promedio de los x obtenido de las muchas mues-
distribución muestral de la media de una variable aleato- tras, encontraremos que es igual a μ, la media de
ria de tamaño n. Las distribuciones muestrales de este los x0 s en la población.
tipo son de crucial importancia en la inferencia es-
tadı́stica. 2. También establece que la variabilidad en las x0 s
2
En la práctica, sin embargo, rara vez las distribu- (medida por V ar(x) = σn ) depende de dos fac-
ciones muestrales se construyen empı́ricamente en la tores:
8 Rodrigo F. Aranda

(a) El tamaño de la muestra, n: mientras mayor la distribución normal estándar? La respuesta a esta
sea el tamaño muestral, menor será la vari- pregunta se encuentra en el siguiente teorema:
abilidad obtenida para los x0 s. En el ex-
tremo, sı́ n → ∞, V ar(x) → 0. Teorema 2. Teorema Central del Lı́mite: Si x1 ,
2 0 x2 , . . ., xn son observaciones de una variable
(b) La variabilidad (medida por σ ) de los x s
aleatoria procedente de una distribución de prob-
en la población: mientras mayor sea σ 2 en la 2
abilidad con Pnmedia finita μ y varianza finita σ , y
población original, mayor será la variabilidad
si xn = n1 i=1 xi , entonces,
de los x0 s que se obtenga a partir de muchas
muestras. √ d
n(xn − μ) → N (0, σ 2 )
3. Sı́ la población de la cual se extraen las muestras independiente de cuál sea la distribución inicial,
es normal, con media μ y varianza σ 2 - esto es, x ∼ d
donde → significa convergencia en distribución.
N (μ, σ 2 ) - entonces, dado que x es una función En otras palabras, sı́ seleccionamos aleatoriamente
lineal de los xi , x también se distribuirá como muestras grandes a partir de una población con
2
una normal con media μ pero varianza igual a σn . media μ y varianza σ2 , entonces la media muestral
Esto es, se distribuirá aproximadamente como una normal
2
σ2 con media E(x) = μ y varianza V ar(x) = σn , in-
Sı́ x ∼ N (μ, σ 2 ) ⇒ x ∼ N (μ, ). (8) dependientemente de cuál sea la forma de la dis-
n
tribución de la población original.
Consideremos el siguiente ejemplo. Supongamos que
B Dem.: Fuera del alcance de estas notas. C
el ingreso semanal de los trabajadores del calzado es
en promedio de $560, con una desviación estándar de Este teorema establece que, con tal que las mues-
$12. Podemos asumir que los ingresos semanales se tras sean lo suficientemente grandes, entonces aun sı́
distribuyen como una normal. Sı́ se extrae de esta la población no se distribuye como una normal, la dis-
población una muestra aleatoria de 100 trabajadores, tribución muestral de la media puede igualmente ser
¿cuál es la probabilidad de que el ingreso medio sem- aproximada por la distribución normal. Es más, mien-
anal en la muestra sea mayor que $562? tras más grandes sean las muestras tomadas, más cer-
Para responder esto, sea x el ingreso de un tra- cana es la aproximación. Nótese, en todo caso, que no
bajador individual; entonces, necesitamos obtener la hay una distinsión clara entre lo que es ”grande” y lo
Pr(x > 562), dado que x ∼ N (560, 144). Usando el que es ”pequeña”. Esta distinsión dependerá del tipo
2
teorema 1, E(x) = μ = 562 y V ar(x) = σn = 1.44; esto de problema que se esté analizando y de la periodicidad
es, x ∼ N (560, 1.44). A continuación transformamos de las observaciones; por ejemplo, a nivel macro, una
x en una distribución normal estándar, definiendo la muestra de 30 ó 40 observaciones puede ser considerada
variable Z como: como grande, mientras que si usamos datos financieros
una muestra será considerada grande cuando supere las
x − 560
z= ; 1500 observaciones diárias.
1.44
z tiene una distribución N (0, 1), por lo que: 7. Estimación de los Parámetros
µ ¶ Poblacionales
x − 560 562 − 560
Pr(x > 562) = Pr >
1.44 1.44 En el ejemplo anterior los parámetros poblacionales
= Pr(z > 1.67) = 1 − Pr(z < 1.67) = 0.0475, eran conocidos, lo que permitió usar el teorema 1 para
obtener la probabilidad asociada a la media muestral.
donde el último valor se obtiene de las tablas de la dis- En la práctica lo común es que los parámetros pobla-
tribución normal estandarizada. En consecuencia, la cionales sean desconocidos y que debamos usar la in-
probabilidad de obtener una media muestral mayor que formación muestral para realizar inferencias sobre ellos.
$562 es bastante baja (alrededor de 4%). La inferencia estadı́stica se divide en dos grandes áreas:
Nótese que para realizar este ejercicio simple no sólo la estimación y el testeo de hipótesis. En esta sección
nos hemos basado en el teorema 1, sino que también en discutiremos brevemente la estimación de parámetros;
el supuesto de distribución normal. Si no consideramos el testeo de hipótesis de interés se dejará para fu-
este último supuesto, ¿podremos utilizar las tablas de turas sesiones directamente relacionadas con el análisis
Introducción al Análisis Econométrico 9

econométrico. ¿Cómo podemos elegir entre estimadores? Algunos esti-


madores son buenos y otros son malos; entonces, ¿cómo
El objetivo de la estimación de parámetros es uti- podemos establecer criterios de bondad para comparar
lizar los datos muestrales para inferir el valor de un entre estimadores? Evidentemente, no podemos evaluar
parámetro individual θi , o de un vector de parámetros θ. la bondad de un estimador en función sólo de una única
Existen dos formas de estimar parámetros poblacionales estimación. Debemos observar los resultados cuando el
desconocidos. La primera consiste en obtener un único procedimiento de estimación es utilizado muchas veces.
valor numérico o estimación puntual; la segunda con- Entonces, evaluamos la bondad de un estimador, con-
siste en especificar un rango o intervalo dentro del cual struyendo una distribución de probabilidad de los val-
tenemos confianza (en términos estadı́sticos) de que se ores de las estimaciones obtenidas en muestreos repeti-
encuentra el veradero parámetro poblacional; es decir, dos, y notamos cuán cerca se ubica esta distribución en
una estimación por intervalo. torno al parámetro objetivo.
En este punto es preciso considerar las siguientes Dos criterios habitualmente considerados para juzgar
definiciones. la bondad de un estimador son el sesgo y la precisión
del del estimador. En general diremos que un buen
Definición 1. Estimador: Un estimador es una regla estimador es insesgado; esto es, sı́ E(θ) = θ; lo que
o estrategia para utilizar los datos muestrales significa que, en promedio, el estimador proporciona el
con el fin de estimar cierto parámetro o con- verdadero valor del parámetro. Si definimos el sesgo
junto de parámetros. Tal regla está definida antes del estimador como B(θ) = E(θ) − θ, entonces diremos
que los datos se generen, y se expresa como una que sı́ B(θ) > 0, el estimador está sesgado hacia arriba
fórmula matemática.También se le conoce como (E(θ) > θ); esto es, el estimador sistemáticamente so-
estadı́stico. bre estima al verdadero parámetro poblacional. Por su
parte, sı́ B(θ) < 0, el estimador está sesgado hacia abajo
Definición 2. Estimación: Corresponde al valor es- (E(θ) < θ); esto es, el estimador sistemáticamente
pecı́fico que resulta de reemplazar en la fórmula subestima al verdadero parámetro poblacional.
del estimador, los valores muestrales. Respecto de la precisión, diremos que entre los es-
timadores insesgados, preferiremos a aquellos con la
Un estimador puntual es un estadı́stico calculado a menor varianza, debido a que una menor varianza
partir de la muestra, que pretende ser una aproximación garantiza que, en muestras repetidas, una alta fracción
del parámetro poblacional θi ó θ, respectivamente. El de los valores de bθ (estimaciones) estén cercanos a θ.
error estándar del estimador es la desviación estándar Por su parte, un estimador por intervalo es una regla
de la distribución muestral del estadı́stico. Como se que especifica el método para utilizar la información
señaló, la estimación puntual consiste en obtener un muestral para calcular dos puntos terminales que de-
valor único para la estimacı́on del parámetro pobla- finen un intervalo que supuestamente incluye al ver-
cional. Para esto usamos la muestra de datos, más un dadero parámetro poblacional. Este estimador por in-
método o procedimiento de estimación. tervalo define lo que se conoce como intervalo de es-
En otras palabras, un estimador es una fórmula que timación, que es un rango de valores que contienen al
nos dice cómo calcular el valor de una estimación, verdadero parámetro poblacional, con una cierta prob-
basándonos en las medidas contenidas en la muestra. abilidad predeterminada. Los puntos terminales del
Supongamos, por ejemplo, que deseamos estimar la ver- intervalo, siendo funciones de los valores muestrales,
dadera media (poblacional), μ, de una variable aleato- variarán aleatoriamente de muestra en muestra. Es de-
ria y, de una muestra, yi , i = 1, 2, .., n. UnPposible cir, sı́ tomamos muchas muestras, estaremos generando
n diferentes intervalos de estimación de muestra en mues-
estimador es la media muestral μ b = y = n1 i=1 yi ,
fórmula que nos dice que debemos sumar las observa- tra. En otras palabras, los puntos terminales de los
ciones muestrales y dividir el resultado por el tamaño intervalos también son variables aleatorias, por lo que
muestral n. el estimador por intervalo es aleatorio. El objetivo debe
ser, entonces, encontrar un estimador por intervalo que
Es posible utilizar diferentes estimadores para un
sea capaz de generar intervalos estrechos que tengan
mismo parámetro poblacional. Por ejemplo, aparte de
una alta probabilidad de incluir al verdadero parámetro
la media muestral, μ b = y, podrı́amos utilizar la me-
poblacional.
diana, m, b o la primera observación muestral, como
estimadores del verdadero parámetro poblacional μ. Los estimadores por intervalos también se conocen
10 Rodrigo F. Aranda

como intervalos de confianza. La probabilidad de que muestral es θ; esto es,


un intervalo de confianza incluya a θ recibe el nombre
de coeficiente de confianza o nivel de confianza (con- E(b
θ) = θ
vencionalmente fijado en 95%). Este nivel de confianza o alternativamente, cuando:
identifica la fracción de las veces (por ejemplo, 95% de h i
las veces), en muestras repetidas, que el intervalo con- E(b
θ − θ) = sesgo b
θ /θ = 0,
struido contendrá al verdadero parámetro poblacional
θ. Esto es, si tomamos 100 muestras aleatorias, es-
lo que implica que b
θ es insesgado (no tiene sesgo).
peramos que el en 95 de ellas el verdadero parámetro
Esto además implica que la esperanza del error
poblacional se encuentre dentro del intervalo calculado
muestral en el que se incurre al considerar el esti-
(y no se encuentre dentro del intervalo en 5 de ellas).
mador en lugar del verdadero parámetro, es cero.
Si sabemos que el nivel de confianza asociado con nue-
stro estimador es alto (digamos 95%), podemos estar La insesgadez es una propiedad deseable de los esti-
bastante confiados (95% confiados) en que cualquier in- madores, pero rara vez es usado como criterio único de
tervalo de confianza construido al utilizar los resultados selección de posibles estimadores. Una de las razones es
de una única muestra, incluirá a θ. Ası́, si suponemos que hay muchos estimadores que son insesgados, pero
que bθI y b
θS son las cotas inferiores y superiores para el que son poco representativos de la muestra. Un segundo
parámetro θ, entonces criterio útil para elegir entre estimadores insesgados es
θI ≤ θ ≤ b
Pr(b θS ) = 1 − α el de eficiencia.

es el intervalo de confianza al (1−α)% para el parámetro Definición 4. Estimador Insesgado Eficiente: Un


θ; (1 − α) es el nivel de confianza, mientras que α es el estimador insesgado bθ1 es más eficiente que otro
nivel de significancia. estimador insesgado b
θ2 , si la varianza muestral de
b
θ1 es menor que la varianza muestral de b θ2 ; es
7.1. Propiedades de los Estimadores decir,
var(b
θ1 ) < var(b θ2 ).
Dado que puede haber una enorme cantidad de esti-
madores, dependiendo del procedimiento utilizado para
Partiendo de este criterio, es fácil concluir que la me-
su formulación, la búsqueda de buenos estimadores es,
dia muestral será claramente preferida a a la primera
en muchas ocasiones, el objetivo del análisis econométrico.
observación de una muestra, puesto que si σ 2 es la var-
Estos estimadores se comparan a partir de una variedad 2
ianza poblacional, entonces var(x1 ) = σ 2 y var(x) σn .
de atributos o propiedades, tales como insesgamiento,
mı́nima varianza, etc., las que dependen del tamaño de Hasta este punto la discusión ha estado centrada sólo
la muestra bajo consideración. Al respecto se tiene: en los estimadores insesgados. Pero existen estimadores
sesgados que tienen una menor varianza que los inses-
• Propiedades de muestras pequeñas, que son atrib- gados: por ejemplo, las constantes tienen varianza cero.
utos que pueden ser comparados independiente- Si nos concentramos exclusivamente en la insesgadez, se
mente del tamaño de la muestra, mientras ésta debe excluir, por ejemplo, a aquellos estimadores que
sea contable en un sentido de medición; tienen un sesgo tolerable y una varianza muy pequeña.
Un criterio que tiene en cuenta esta posibilidad de acep-
• Propiedeades de muestras infinitas o asintóticas, tar cierto grado de sesgo a cambio de una varianza muy
que corresponden a atributos que presentan los pequeña, es el error cuadrático medio.
estimadores cuando el tamaño muestral se hace
arbitrariamente grande. Definición 5. Error Cuadrático Medio: Se define
como:
Discutamos brevemente cada una de estas propiedades: h i
7.1.1. Propiedades en Muestras Pequeñas Las ECM = E (b θ − θ)2
siguientes son algunas propiedades de interés para los
= var(b
θ) + sesgo(b
θ)sesgo(b
θ)0 ,
estimadores de los parámetros poblacionales cuando se
utilizan muestras pequeñas o finitas. donde θ es un vector de parámetros. En el
caso que θ sea un escalar, ECM = var(bθ) +
Definición 3. Estimador Insesgado: Un estimador h i2
de θ es insesgado, si la media de su distribución b
sesgo(θ) .
Introducción al Análisis Econométrico 11

Desafortunadamente, el criterio del ECM es pocas entonces:


veces operativo: los estimadores de ECM mı́nimo,
∂ ln L 1
P
n
cuando existen, normalmente dependen de parámetos ∂μ = σ2 (xi − μ);
desconocidos. En consecuencia, el criterio a utilizar es i=1
∂ ln L
P
n
insesgadez y mı́nima varianza. ∂σ 2 = − σn2 + 1
2σ 4 (xi − μ)2 ;
i=1
Estimación insesgada eficiente Sea f (xi , θ) la ∂ 2 ln L
∂μ2 = − σn2 ;
función de densidad de cada observación extraida de P
n
∂ 2 ln L
una muestra aleatoria. Como las n observaciones son ∂(σ 2 )2 = − 2σn4 − 1
σ6 (xi − μ)2 ;
independientes, entonces su densidad conjunta es: i=1
∂ 2 ln L
P
n
∂μ∂σ 2 = − σ14 (xi − μ)2 .
i=1
f (x1, x2 , . . . , xn , θ) = f (x1 , θ)f (x2 , θ) · · · f (xn , θ)
Luego, ∙ ¸
n
Y n
2 σ2 0
= f (xi , θ) = L( θ| x1, x2 , . . . , xn ) I(μ, σ ) = n ,
0 2σ 4
i=1
y la cota de Cramér-Rao para la varianza de los es-
donde L( θ| x) se conoce como la función de verosimil- timadores insesgados de μ y σ 2 , en una distribución
itud de θ dado el vector de datos x. Por ejemplo,, si normal, es:
los x1, x2 , . . . , xn provienen de una distribución expo-
" 2 #
nencial, entonces, £ ¤ σ
2 −1 n 0
I(μ, σ ) = 4 .
n
P
n 0 2σn
Y n
−θ xi
−θxi
L( θ| x) = L(θ) = θe =θ e i=1 ,
i=1 Nótese que la matriz I(., .)−1 es diagonal, resultado
que se cumple para la distribución normal, pero es poco
y si los x1, x2 , . . . , xn provienen de una distribución nor- frecuente. Por otro lado, si μ byσ b2 son dos estimadores
mal, entonces: de μ y σ 2 , y Ω es su matriz de covarianzas de orden 2×2,
£ ¤−1
entonces Ω − I(μ, σ 2 ) es una matriz semidefinida
n
Y ¡ ¢− 1 2 positiva; esto es, una matriz del tipo x0 Ax > 0, ∀x
2πσ 2 2 e−[ 2σ2 ][(xi −μ)]
1
L(θ) =
distinto de cero.
i=1
 n  En la mayorı́a de los contextos aplicados, existe una
S
¡ ¢
2 −n/2
−[ 2σ12 ] (xi −μ)2
= 2πσ e i=1 gran variedad de estimadores disponibles. La utilidad
de la cota de Cramér-Rao es que si se sabe que uno de
los estimadores alcanza dicha cota para la varianza, no
La función de verosimilitud es clave en la discusión
es necesario buscar otro estimador más eficiente.
teórica sobre la estimación de parámetros.
Cota de Cramér-Rao Si la función de densidad
Definición 6. El Estimador Lineal Insesgado de
de x cumple ciertas condiciones de regularidad, la vari-
Mı́nima Varianza (ELIMV): Un estimador es
anza de un estimador insesgado de un parámetro θ siem-
el estimador lineal insesgado de mı́nima varianza,
pre será mayor o igual que:
o estimador lineal insesgado óptimo (elio), si éste
µ ∙ ¸¶−1 es una función lineal de los datos y tiene la mı́nima
∂ 2 ln L(θ)
[I(θ)]−1 = −E varianza entre todos los estimadores lineales ins-
∂θ2 esgados.
µ ∙ ¸¶
∂ ln L(θ)
= −E
∂θ 7.1.2. Propiedades Asintóticas (Grandes Mues-
tras) En muchos casos la cuestión de si un estimador
donde I(θ) es el número (matriz) de información de la es insesgado o no, cuál es su varianza muestral para una
muestra. muestra de tamaño dado, es simplemente imposible de
Por ejemplo, si responder. Pese a ello, es posible obtener resultados
aproximados sobre el comportamiento de la distribución
n n 1 Pn de un estimador para tamaños muestrales elevados
ln L(μ, σ 2 ) = − ln(2π) − ln σ 2 − 2 (xi − μ)2 , (usualmente convergiendo a infinito). El conocimiento
2 2 2σ i=1
12 Rodrigo F. Aranda

del comportamiento en el lı́mite de la distribución de un Luego, si hacemos yn = xn − c y δ = ξ 2 , entonces


estimador puede utilizarse para inferir una distribución (xn − c)2 > δ ⇒ |xn − c| > ξ. Luego, si c = μn ,
aproximada para el estimador obtenido de una mues-
tra finita. Los siguientes son algunos resultados impor- σ2
Pr [|xn − c| > ξ] ≤ .
tantes. ξ2
Sea xn una variable aleatoria proveniente de una
Por otro lado, limn→∞ E(xn ) = c, y limn→∞ V ar(xn ) =
muestra de tamaño n. Entonces,
0, entonces p lim xn = c. Esto es, los resultados ante-
Definición 7. Convergencia en Probabilidad: Una riores implican que la convergencia media cuadrática
variable aleatoria converge en probabilidad a una conduce a la convergencia en probabilidad (lo contrario
constante c, si no es verdad).

lim Pr [|xn − c| > ξ] = 0, Definición 8. Estimador Consistente: Se dice que


n→∞
un estimador bθ de un parámtro θ es un estimador
para cualquier ξ positivo. consistente de θ, sı́ y sólo si p lim b
θ = θ.

Esta definición implica que los valores de la variable Teorema 6. Consistencia de la Media Muestral:
aleatoria cercanos a c, son cada vez más probables a La media de una muestra aleatoria de cualquier
medida que n aumenta. La clave de esta forma de con- población con media finita μ y varianza finita σ 2
vergencia es que toda la masa de probabilidad de la es un estimador consistente de μ.
distribución se concentrando en los valores cercanos a
c. Cuando xn converge en probabilidad a c, se escribe B Dem.: Sabemos que E(x) = μ y V ar(x) = σ 2 /n.
Por lo tanto, x converge en media cuadrática a
p lim xn = c. μ, por lo que p lim x = μ (pues cuando n → ∞,
σ 2 /n → 0). C
Un tipo especial de convergencia en probabilidad,
más utilizado, es: Corolario (Consistencia para la Media de Fun-
ciones): En una muestra aleatoria, para cualquier
Teorema 3. Convergencia Media Cuadrática: Si función g(x), si E[g(x)] y V ar[g(x)] son con-
xn tiene media μn y varianza σ 2n , tales que los stantes finitas, entonces
lı́mites ordinarios de μn y σ 2n son, respectiva-
1 Pn
mente, c y 0, entonces xn converge en media p lim g(xi ) = E[g(x)].
cuadrática a c, y p lim xn = c. n i=1
Para demostrar este teorema, son necesarios los
Definición 9. Convergencia en Distribución: La
siguientes dos teoremas complementarios:
sucesión de variables aleatorias {xn } converge en
Teorema 4. Desigualdad de Chebychev: Si xn es distribución a una variable aleatoria x con función
una variable aleatoria y c y ξ son dos constantes, de densidad acumulada (f da) F (x) si
entonces,
£ ¤ lim |Fn − F (x)| = 0
n→∞
E (xn − c)2
Pr [|xn − c| > ξ] < .
ξ2 en todos los puntos en que F (x) sea continua.
La demostración de este teorema escapa a los al-
Esta definición no tiene nada que ver con la conver-
cances de estas notas.
gencia de los valores especı́ficos que tome x, sino que se
Teorema 5. Desigualdad de Markov: Sea yn una relaciona con la distribución de proabilidad.
variable aleatoria que toma valores no negativos,
y δ una constante positiva. Entonces, Definición 10. Distribución Lı́mite: Si xn converge
en distribución a x, siendo F (x) la fda de x, en-
E(yn ) tonces F (x) es la distribución lı́mite de x. Esto
Pr [yn ≥ δ] ≤ .
δ es,
d
La demostración de este teorema escapa a los al- xn → x.
cances de estas notas.
Introducción al Análisis Econométrico 13

8. Métodos de Estimación lo general μ0r será una función conocida de θ, digamos


μ0r = μ0r (θ). La idea del método de momentos es utilizar
Sea x una variable aleatoria obtenida de una población la información muestral, x1 , · · · , xn , para calcular los
con función de distribución de probabilidad (f dp) dada momentos muestrales:
por f ( x| θ), donde θ es un vector de parámetros que de-
Pn xr
seamos estimar. Sea x1 , · · · , xT una muestra aleatoria μ0r = i
; r = 1, 2, ..., k,
para dicha población. Entonces, un estimador de θ es i=1 n
una función o regla de la forma
para luego igualar los momentos muestrales con los ver-
b
θ=b
θ(x1 , · · · , xT ), daros (los poblacionales) - es decir, μ0r = μr (θ) - y
resolver el sistema de ecuaciones que resultan para los
lo que significa que el estimador b
θ es una función de las k parámetros desconocidos, si es que esto es posible.
observaciones de la muestra de datos. Como las obser- El estimador resultante se conoce como estimador del
vaciones en la muestra de datos son variables aleatorias, método de momentos.
también lo será el estimador b
θ. El siguiente ejemplo ilustra el procedimiento. Sea
Por ejemplo, supongamos que estamos dispuestos a x1 , · · · , xT una muestra aleatoria obtenida de una
asumir que los gastos de los individuos con ingresos de población con una distribución N (θ, σ 2 ). Entonces
$2M M , se distribuye como una normal con media de-
sconocida, pero varianza igual a σ 2 = (500)2 ; es decir, E [x] = θ = μ01 ,

Y ∼ N (θ, (500)2 ). y £ ¤ 2
var(x) = σ 2 = E x2 − [E [x]] .
Sea x1 , · · · , xT una muestra aleatoria de las observa- Ası́, si igualamos los momentos muestrales a los pobla-
ciones sobre los gastos. Dado que la media es descono- cionales, tendremos:
cida, podemos plantear que
Pn x
=x=b
i
Yt = θ + εt ; t = 1, · · · , T , μ01 = θ,
i=1 n
donde la variable aleatoria εt = Yt − θ, tiene una dis- y
Pn x2 2
tribución de probabilidad dada por μ02 = i
b2 + b
=σ θ ;
i=1 n
εt ∼ N (θ, (500)2 ),
de donde se obtiene:
y representa la diferencia entre Y y su media. Tal como n x2 n x2
µ ¶2
P 2 P Pn x
−b
i
ha sido especificada, εt representa todos aquellos fac- b2
σ = i
θ = i

tores distintos del ingreso que afectan el nivel de gasto i=1 n i=1 n i=1 n

de los individuos (por ejemplo, los gustos y preferencias, 1 P


n
= (xi − x)2 .
las condiciones del entorno económico, etc.). n i=1
El estimador más común para θ es la media ar-
Aun cuando el método de momentos es muy intu-
itmética simple de las observaciones en la muestra:
itivo, no necesariamente proporciona resultados únicos
b Pn x para los parámetros, y puede incluso tornarse muy
θ=b
i
θ(x1 , · · · , xT ) = , difı́cil de aplicar en problemas más amplios y complejos.
i=1 n
Adicionalmente, el método también depende de que la
que es igual a la media muestral de x. Existen, sin em- variable en cuestión tenga efectivamente momentos, lo
bargo, otros métodos de estimación que tienen mejores cual puede no ser cierto.
propiedades, los que a continuación se presentan.
8.2. Estimación Mı́nimo Cuadrática
8.1. El Método de Momentos
Una dificultad presente tanto en los dos métodos an-
Tal como se discutió antes, el r-ésimo momento de teriores es que cada uno de ellos requiere de un supuesto
una variable aleatoria Y en torno al origen es μ0r = especı́fico respecto de la distribución de probabilidad
E [xr ]. Si la f dp de x es f ( x| θ), donde θ0 = (θ1 , · · · , θk ) de la variable aleatoria bajo análisis. Algunas veces,
es un vector de parámetros no conocidos, entonces por sin embargo, es posible usar métodos de estimación que
14 Rodrigo F. Aranda

no requieren la especificación exacta de la distribución


poblacional. Uno de estos métodos, muy popular, es el
método de los mı́nimos cuadrados. Este método puede
usarse para estimar los momentos centrales de variables
aleatorias, μ0r = E [Y r ].
La lógica de método es simple. Dado que la expecta-
tiva matemática de una variable aleatoria es la media de
dicha variable dados los valores muestrales Y1 , · · · , YT ,
entonces es razonable utilizar el valor central de los
datos Yir para estimar μ0r . Una manera de definir el
centro de un conjunto de datos es encontrar el valor de
b0r que minimiza:
μ
T
X
S= (Ytr − μ0r )2 .
t=1

El valor de S es la suma del cuadrado de la diferencia en-


tre Yir y la expectativa μ0r = E(Yir ). El valor de μ0r que
minimiza S para un conjunto de valores de la variable
aleatoria se denomina estimador mı́nimo cuadrático de
b0r se considera una función de la variable aleato-
μ0r . Si μ
ria Yi , entonces éste es el “estimador mı́nimo cuadrático
(MC).”
Por ejemplo, sea Y1 , · · · , YT una muestra aleatoria
proveniente de una población con media β y varianza
finita σ 2 . Entonces, el estimador mı́nimo cuadrático de
β se obtiene minimizando:

XT XT
dS b =0
S = (yt − β)2 ⇒ = −2 (yt − β)
t=1
dβ t=1
XT
b= 1
⇒ β yt .
T t=1

8.3. El Método de Máxima Verosimilitud


(Maximum Likelihood)
Ver nota de clases 10.

You might also like