Professional Documents
Culture Documents
Introducción
En este documento se estudiará el concepto de estimación puntual (a diferencia de la esti-
mación por intervalos), el cual consiste en calcular el valor específico de algún parámetro
que sea de nuestro interés. Para ello, generalmente se utiliza la información proveniente
de una muestra y, en algunos casos, la información a priori disponible. Partiendo de
la premisa de que nunca se va a conocer el valor real del parámetro de una población,
el objetivo de la estimación puntual es la determinación de un valor que represente la
máxima aproximación del valor del parámetro.
Para conseguir una buena aproximación, es necesario especificar previamente una
serie de propiedades consideradas como deseables en un estimador. En otras palabras,
la idea es mostrar las normas apropiadas para la obtención del mejor estimador de un
parámetro arbitrario θ .
Si a cada una de todas las muestras posibles de tamaño n que puedan extraerse de una población se le
calcula el valor del estimador, se obtiene la distribución muestral del estimador.
1
tas fórmulas presentan múltiples formas para la estimación de θ .
Se establece como θˆ al estimador de θ . Para obtener θˆ, se sustituyen en la fórmula
los valores muestrales conocidos de X , el cual puede ser representado funcionalmente
como:
θˆ = θˆ (X 1 , X 2 , . . . , Xn ).
y se lee como el valor esperado del cuadrado de la diferencia entre θˆ y θ , es decir, mide la
dispersión alrededor del verdadero valor del parámetro θ . Este concepto es muy similar
f g2
al de varianza V ar (θˆ ) = E θˆ − E (θˆ ) , solo que la varianza mide la dispersión alrededor
del valor esperado de θˆ. Ahora, si se observa más detenidamente puede apreciarse que
la varianza y el error cuadrático medio del estimador están íntimamente relacionados.
2
Se desarrolla ECM (θˆ ):
= E (θˆ2 − 2θθ
ˆ + θ 2 + E (θˆ ) 2 − E(θˆ ) 2 )
A partir del desarollo de ECM (θˆ ), se observa que la expresión E (θˆ ) − θ recibe el nombre
de sesgo del estimador, el cual es la diferencia entre el valor esperado del estimador y
el verdadero valor del parámetro. Así, dado que es deseable que el sesgo sea lo más
pequeño posible, se puede afirmar que un estimador insesgado es aquel cuya media sea
igual al parámetro poblacional que está estimando. En otras palabras, θˆ es un estimador
insesgado de θ si E (θˆ ) = θ . Para cualquier estimador insesgado de θ , la distribución
muestral de θˆ (explicada en nota al pie 1) se encuentra centrada alrededor de θ . En la
figura 1, la insesgadez de un estimador se representa gráficamente como:
Figura 1.
3
Es importante señalar que la insesgadez de un estimador no provee información
alguna acerca de la dispersión de la distribución del estimador. Por ejemplo, un esti-
mador insesgado con una varianza muy grande, será poco preciso en sus estimaciones.
Contrariamente, un estimador sesgado con varianza mínima o cero (gráficamente se
vería como una linea recta en un valor distinto de θ ) también será de poca utilidad.
Un buen ejemplo de estimador insesgado es la media muestral X̄ . Sea una muestra
aleatoria X 1 , X 2 , . . . , Xn , de tamaño n tal que E (Xi ) = µ, entonces:
n
X Xi + 1 P
E (X̄ ) = E * = E(Xi ) = µ.
, i=1 n - n
( )
( )
( )
Figura 2.
4
θˆ3 presenta una mayor varianza que θˆ2 . Por lo tanto, se deduce que θˆ2 es el estimador
que presenta una mayor eficiencia relativa respecto a los otros dos estimadores, siempre
que no exista otro estimador con una menor varianza.
No obstante, si en determinados casos hubiera que calcular la varianza de muchos
estimadores insesgados de θ , la búsqueda de un estimador eficiente puede simplificarse
determinándose la eficiencia en un sentido absoluto. La herramienta (teorema) que
permite esto, recibe el nombre de desigualdad de Cramer-Rao y se escribe:
1
V ar (θˆ ) ≥ ! 2 .
∂ln f (X ; θ )
nE
∂θ
Esta desigualdad, señala que existe un limite inferior (mayor a cero) para la varianza
de cualquier estimador insesgado de θ . Quiere decir que si la varianza de un estimador
insesgado es igual al límite inferior de Cramer-Rao, se puede afirmar que no existe otro
estimador insesgado con varianza más pequeña y, en consecuencia, será considerado
eficiente. Ahora bien, puede darse que entre todos los estimadores insesgados de θ , el
que tenga la varianza más pequeña de todos aquellos estimadores no alcance el límite
inferior de Cramer-Rao. Aún así, se lo puede considerar como un estimador eficiente
(de varianza mínima) de θ .
La principal idea detrás de este concepto, radica en que se considera a un estimador con-
sistente de θ si su distribución se concentra alrededor del verdadero valor del parámetro
θ a medida que la información provista por la muestra aleatoria sea más completa. Esta
propiedad asintótica, hace referencia a la distribución del estimador cuando el tamaño
de la muestra es grande y tiende a infinito. El punto en el cual se concentra la distribu-
ción del estimador cuando n −→ ∞ se llama límite en probabilidad de θˆ y puede escribirse
como:
lim P (θ − ε ≤ θˆ ≤ θ + ε ) = 1,
n→∞
5
(si es que lo hay) y la varianza del estimador van disminuyendo hasta que tienden a
cero conforme n −→ ∞, se dice que el estimador es consistente. Entonces, dado que
la suma de la varianza y el sesgo al cuadrado es igual al error cuadrático medio del
estimador, una expresión equivalente que afirma que θˆ es un estimador consistente de θ ,
se escribe como:
lim ECM (θˆ ) = 0.
n→∞
Se define a un estimador suficiente del parámetro θ , como aquel estimador que utiliza
toda la información correspondiente al parámetro contenida en la muestra. Un esti-
3 Urbisaia, H. L. y Brufman, J. (2010), “Estimación robusta”, XVI Jornadas de Epistemología de las Ciencias
Económicas FCE-UBA.
6
mador suficiente “trabaja” con todas las observaciones muestrales aleatorias. En reali-
dad, esta propiedad no es en si misma deseable, sino que que es una condición necesaria
para la eficiencia. Es decir, un estimador que no utilice toda la información propor-
cionada por la muestra, no puede ser eficiente.
El siguiente paso, una vez definidas las propiedades deseables de un estimador, con-
siste en crear fórmulas de estimación que satisfagan las propiedades antes descriptas.
Para ello, existen ciertos métodos o principios a partir de los cuales se obtiene una fór-
mula de estimación y que implica, posteriormente, la verificación de las propiedades
mencionadas. Particularmente, en este documento se considerará el método de los mo-
mentos y el método de máxima verosimilitud4 .
muestra aleatoria de una distribución con función de probabilidad p(x ) (variables disc-
retas) o función de densidad f (x ) (variables continuas), al igualar el k-ésimo momento
poblacional y muestral se obtiene:
n
X Xik
E (X k ) = .
n
i=1
7
parámetro λ, se tiene:
n
1 X Xi n 1
= =⇒ λ̂ = n =⇒ λ̂ = .
λ n P X̄
i=1 Xi
i=1
L(x 1 , x 2 , . . . , xn ; θ ) = f (x 1 ; θ ) f (x 2 ; θ ) . . . f (xn ; θ ).
8
personas NO. Entonces, para hallar el EMV se especifica la función de verosimilitud:
X 20 X20
lnL(xi ; p) = * xi + lnp + *20− xi + ln(1 − p).
, i=1 - , i=1 -
20
1 X
p̂ = xi ,
20
i=1
P
denominado estimador de máxima verosimilitud de p. Dado que xi es el número de acier-
tos o personas que respondieron positivamente y n = 20 el número de observaciones
muestrales, el EMV es el número de aciertos sobre el total de encuestados, entonces:
13
p̂ = = 0, 65.
20
Ejemplo 1.1.1
Sea una muestra aleatoria X 1 , X 2 , . . . , Xn de tamaño n de una población cuya distribución
es normal N (µ, σ ). Demostrar si el siguiente estimador es insesgado para estimar la
varianza:
n
X (Xi − X̄ ) 2
S 12 = .
n
i=1
9
n n
X (Xi − X̄ ) 2 + 1 *X
• En primer lugar, se aplica esperanza: E * =⇒ E (Xi − X̄ ) 2 + (i).
, i=1 n - n , i=1 -
n
n − 1 2 X (Xi − X̄ ) 2
• Luego, sabemos que si X ∼ N (µ, σ ), entonces S = 2
∼ χn−1 por
σ2 i=1
σ 2
n ! 2
σ2 Xi − X̄ n−1 2
X
• Reexpresando lo anterior, nos queda: E . Es decir E (S 12 ) = σ .
n i=1 σ
n
n
X (Xi − X̄ ) 2
De este ejercicio se concluye que cuando nos referimos a = S2 como un
n−1
i=1
estimador puntual de la varianza, en realidad nos estamos refiriendo a la cuasivarianza
n
X (Xi − X̄ ) 2
muestral, porque si utilizásemos la “verdadera” varianza muestral S 2 = su
n
i=1
n − 1
esperanza sería E (S 2 ) = σ 2 la cual, ahora sabemos, no es centrada.
n
Ejemplo 1.1.2
Sea una muestra aleatoria X 1 , X 2 , . . . , Xn de tamaño n de una población cuya distribución
es normal N (µ, σ ). Demostrar si el siguiente estimador es insesgado para estimar la
varianza:
n
X (Xi − µ) 2
S 22 = .
n
i=1
10
n n
X (Xi − µ) 2 + 1 *X
• En primer lugar, se aplica esperanza: E * =⇒ E (Xi − µ) 2 + (ii).
, i=1 n - n , i=1 -
Xi − µ
• Luego, sabemos que si Xi ∼ N (µ, σ ), entonces la variable estandarizada z = ∼
σ
N (0, 1).
Xi − µ 2
!
• En consecuencia: = z2 ∼ χ12 , por Lema de Fisher. Nótese que χ 12 pre-
σ
senta solo n grados de libertad porque en z no hay un estimador restando (el cual,
justamente, resta un grado un libertad) sino el parámetro µ. Y al ser solo una
Xi − µ 2
!
variable estandarizada, n = 1. Entonces, E = 1.
σ
n
1 X σ2
• Por lo tanto, multiplicando y dividiendo por σ 2 a la expresión (ii), resulta: E * (Xi − µ) 2 2 + .
n , σ - i=1
n
σ2 Xi − µ 2
X !
. Es decir E (S 2 ) = σ .
• Reexpresando lo anterior, nos queda: E 2 2
n i=1 σ
• En consecuencia, queda demostrado que S 22 es un estimador insesgado.
Ejemplo 1.2.1
1 x−µ 2
1 −2 σ
• Sea f (x, µ, σ ) = √ e .
2π σ
1 x − µ 2
!
1
• Aplicamos logaritmo: ln f (·) = ln √ − .
2π σ 2 σ
∂ln f (·) x − µ 1
!
• Derivamos respecto a µ: = .
∂µ σ σ
11
∂ln f (·) 2 x − µ 2 1
! " #
n
• Por lo tanto: nE = nE = 2.
∂µ
σ σ 2 σ
1 σ2
• Reordenando términos, nos queda: ! 2 = n .
∂ln f (·)
nE
∂µ
• Queda demostrado que X̄ es el estimador más eficiente en términos absolutos.
12
Bibliografía recomendada
13