You are on page 1of 15

Metodos Estadsticos III Villa Cox/Sabando

Apuntes de Clase # 5
Fecha: II Termino-2012
1. Distribuciones condicionadas (Caso Bivariante)
Condicionar y utilizar distribuciones condicionales juega un papel fundamental en la modelizacion
econometrica. Vamos a considerar algunos resultados generales para una distribucion bivariante.
(Todos estos resultados se pueden extender directamente el caso multivariante).
En una distribucion bivariante, hay una distribucion condicional sobre y para cada valor de x.
Las densidades condicionales son
f(y|x) =
f(x, y)
f
x
(x)
y
f(x|y) =
f(x, y)
f
y
(y)
Se deduce que:
Si x e y son independientes, f(y|x) = f
y
(y) y f(x|y) = f
x
(x)
La interpretacion es que si las variables son independientes, las probabilidades de los sucesos relacio-
nados con una variable no estan relacionadas con la otra. La denicion de densidades condicionales
tiene como implicacion el siguiente resultado importante.
f(x, y) = f(y|x)f
x
(x)
= f(x|y)f
y
(y).
1.1. Regresion. La media condicional
Una media condicional es la media de la distribucion condicional y se dene por
E[y|x] =
_

_
_
y
yf(y|x)dy si y es continua,

y
yf(y|x) si y es discreta.
A la funcion de media condicional E[y|x] se le denomina regresion de y sobre x.
Ejemplo 1.1.1 Regresion en una distribucion exponencial.
Considera la distribucion condicional.
f(y|x) =
1
+ x
e
y/(+x)
, y 0, 0 x 1.
Notese que la densidad condicional de y es una funcion de x. La media condicional se puede
obtener integrando por partes (o de manera mas simple, utilizando los resultados de la funcion
gamma) o jandose en que esta es una distribucion exponencial con = 1/( + x). La media de
una distribucion exponencial con parametro es 1/. Por tanto,
E[y|x] = + x.
A5-1
Una variable aleatoria siempre se puede escribir como
y = E[y|x] + (y E[y|x])
= E[y|x] + .
Ejemplo 1.1.2 Regresion Poisson En su estudio de 1984, Hausman sugieren que la distribucion
Poisson es un modelo razonable para la distribucion del n umero de patentes concedidas a las empresas
en un determinado a no (P):
f(P) =

P
e

P!
, P = 0, 1, 2, ...
Sin embargo, se sabe que cuanto mas se invierte en investigacion y desarrollo (R), mayor es, en
promedio, el n umero de patentes recibidas. Esta interaccion debera afectar a la distribucion de P.
Como se distribuye R entre las empresas es una cuestion colateral, que puede ser o no de interes.
Pero en lo que estamos interesados es en como interactuan R y el n umero medio de patentes. Como
el valor medio de las patentes recibidas es , supongamos que la distribucion previo P es condicional
en R y especicamos que
= + R = E[P|R].
Esperaramos que fuese positiva. Por tanto,
f(P|R) =
( + R)
P
e
(+R)
P!
,
que capta el efecto que buscabamos, Observar un gran n umero de patentes puede reejar un
valor alto del proceso Possion, o bien puede que se derive de un valor inusualmente alto de R.
1.2. Varianza condicional
La varianza condicional es la varianza de la distribucion condicional:
V ar[y|x] = E[(y E[y|x])
2
|x]
=
_
y
(y E[y|x])
2
f(y|x)dy, si y es continua
o
V ar[y|x] =

y
(y E[y|x])
2
f(y|x), si y es discreta
El calculo puede simplicarse utilizando
V ar[y|x] = E[y
2
|x] (E[y|x])
2
.
Ejemplo 1.2.1 Varianza condicional en un modelo Poisson La distribucion de Poisson ilustra
una trampa que a veces se da en la especicacion de un modelo econometrico. En una distribucion
Poisson, la media es igual a la varianza. No hemos descartado la posibilidad de que +R puede ser
negativo para algunos valores de y . No solo es este un parametro en cualquier caso invalido para
la distribucion Poisson, sino que ademas, permite una varianza negativa. Esto es un error com un de
especicacion. A la varianza condicional se la denomina funcion cedastica y, como la regresion,
es generalmente una funcion de x. Sin embargo, a diferencia de la funcion de la media condicional,
lo habitual es que la varianza condicional no vare con x. Examinaremos un caso particular. Esto
no implica, sin embargo, que V ar[y|x] sea igual a V ar[y], que, en general, no sera el caso. Implica,
solamente, que la varianza condicional es una constante. El caso en que la varianza condicional no
vara con x se denomina homocedasticidad (varianza igual. o constante).
A5-2
1.3. Relaciones entre momentos condicionales y marginales
En los siguientes teoremas se presentan algunos resultados utiles sobre los momentos de una
distribucion condicional:
Teorema 1.3.1 Ley de las esperanzas iteradas. E[y] = E
x
[E[y|x]].
La notacion E
x
[] indica la esperanza sobre valores de x.
Ejemplo 1.3.1 Distribucion mixta uniforme-exponencial.
Supongamos que x se distribuye uniformemente entre 0 y 1. Entonces la distribucion marginal de x
es f(x) = 1, y la distribucion conjunta es
f(x, y) = f(y|x)f(x)
As,
E[y] =
_

0
_
1
0
y
_
1
+ x
_
e
y/(+x)
dxdy
Pero E[y|x] = + x, de modo que
E[y] = E
x
[E[y|x]]
= E[ + x]
= + E[x].
Como x sigue una distribucion uniforme enrtre 0 y 1, E[x] = 1/2. Por tanto,
E[y] = + (1/2).
En cualquier distribucion bivariante
Cov[x, y] = Cov[x, E[y|x]]
=
_
x
(x E[x])E[y|x]f
x
(x)dx.
Ejemplo 1.3.2 Covarianza y distribucion mixta En continuacion del ejemplo anterior
Cov[x, y] =
_

0
_
1
0
(x 1/2)[y ( + /2)]
+ x
e
y/(+x)
dxdy,
que, en principio, puede calcularse directamente. Sin embargo,
Cov[x, y] = Cov[x, E[y|x]]
= Cov[x, + x]
= V ar[x] = [1/12].
Los ejemplos anteriores proporcionan un resultado adicional para el caso especial en que la
funcion de la media condicional es lineal en x.
Teorema 1.3.2 Los momentos en una regresion lineal. Si E[y|x] = + x entonces
= E[y] E[x]
y
=
Cov[x, y]
V ar[x]
El siguiente teorema tambien aparece de diversas formas en el analisis de regresion
A5-3
Teorema 1.3.3 Descomposicion de la varianza En una distribucion conjunta,
V ar[y] = V ar
x
[E[y|x]] + E
x
[V ar[y|x]].
La notacion V ar
x
[] indica la varianza sobre la distribucion de x. Esto indica que en una distri-
bucion bivariante, la varianza de y se descompone en la varianza de la funcion de media condicional
mas la varianza esperada alrededor de la media condicional.
Ejemplo 1.3.3 Descomposicion de la varianza
Como en el caso anterior, la integracion directa de la distribucion conjunta es difcil. Pero
V ar
x
[E[y|x]] = V ar[ + x] =
2
V ar[x]
=

2
12
,
y como la varianza de la variable exponencial es 1/
2
,
E
x
[V ar[y|x]] = E[( + x)
2
]
=
2
+
2
E[x
2
] + 2E[x]
=
2
+
2
(1/3) + 2(1/2).
La varianza marginal es la suma de las dos partes:
V ar[y] = ( + ) +
5
2
12
.
Teorema 1.3.4 Varianza residual de una regresion. En cualquier distribucion bivariante,
E
x
[V ar[y|x]] = V ar[y] V ar
x
[E[y|x]].
En promedio, condicional reduce la varianza de la variable sujeta al condicionamiento. Por ejem-
plo, si y es homocedastica, se cumple siempre que la varianza de las(s) distribucies(es) condicional(es)
es mejor o igual a la varianza marginal de y.
Teorema 1.3.5 Regresion lineal y homocedasticidad En una distribucion bivariante, si E[y|x] =
+ x y si V ar[y|x] es una constante, entonces
V ar[y|x] = V ar[y](1 Corr
2
[y, x]) =
2
(1
2
xy
)
Ejemplo 1.3.4 Varianza condicional en una regresion Poisson En la relacion patentes-
investigacion (I+D) del ejercicio 1.1.2, supongamos que R es una fraccion constante del tama no
de la empresa, y que esta variable sigue una distribucion lognormal. As, R tambien seguira una
distribucion lognormal. Supongamos que = 0 y = 1. Entonces
E[R] =

e = 1,65 y V ar[R] = 4,65


Supongamos tambien que = 1 y = 2. Entonces
E[P|R] = 1 + 2R
E[P] = 1 + 2E[R] = 4,30
V ar
R
[E[P|R]] = 4V ar[R] + 18,6
V ar[P|R] = 1 + 2R
E
R
[var[P|R]] = 4,30
V ar[P] = 18,6 + 4,30 = 22,9
Notese que V ar[P] es apreciablemente mayor que E[Var[PR]].
A5-4
1.4. El analisis de la varianza
El resultado de descomposicion de la varianza implica que en una distribucion bivariante, la
variacion de y surge por dos motivos:
1. Variacion porque E[y|x] vara con x:
varianza de regresion=V ar
x
[E[y|x]].
2. Variacion proque, en cada distribucion condicional, y vara alrededor de la media condicional:
varianza residual=E
x
[V ar[y|x]].
Por tanto,
Var[y]=varianza de regresion + varianza residual
Cuando analicemos una regresion, habitualmente estaremos interesados en cual de las dos partes
de la varianza total, V ar[y], es la mayor. Por ejemplo, en la relacion patentes-(I+D), cual explica
mas la varianza del n umero de patentes recibidas? variaciones en la cantidad de I+D (varianza
de regresion) o la variacion aleatoria en las patentes recibidas dentro de la distribucion Poisson
(varianza residual)? Una medida natural es el cociente
coeciente de determinacion=
varianza de regresion
varianza total
.
Ejemplo 1.4.1 Analsis de la varianza en un modelo Poisson Para la descomposicion del
ejemplo 1.3.4
coeciente de determinacion=
18,6
22,9
= 0,812.
Si E[y|x] = + x, entonces el coeciente de determinacion COD=
2
, donde
2
es la correlacion
al cuadrada entre x e y. Podemos concluir que el coeciente de correlacion (al cuadrado), es una
mediada de la proporcion de la varianza de y que se explica por la variacion de la media de y, dado
x. En este sentido la correlacion puede ser interpretada como una medida de asociacion lineal
entre dos variables.
2. La distribuci on normal bivariante
Una distribucion bivariante que cumple muchas de las caractersticas descritas anteriormente es
la normal bivariante. Esta distribucion es la conjunta de dos variables normalmente distribuidas. La
funcion de densidad es
f(x, y) = +
1
2
x

y
_
1
2
e
1/2[(
2
x
+
2
y
2
x

y
)/(1
2
)]

x
=
x
x

y
=
y
y

y
Los parametros
x
,
x
,
y
y
y
son las medias y desviaciones tpicas de las distribuciones marginales
de x e y, respectivamente. El parametro adicional es la correlacion entre x e y. La covarianza es

xy
=
x

y
.
La densidad esta denida solo si no es 1 o -1. Esto, a su vez, requiere que las dos variables no esten
relacionadas linealmente. Si x e y tienen una distribucion normal bivariante, que representamos por
(x, y) N
2
[
x
,
y
,
x
,
y
, ],
A5-5
1. Las distribuciones marginales son normales
f
x
(x) = N[
x
,
2
x
],
f
y
(y) = N[
y
,
2
y
].
2. Las distribuciones condicionales son normales:
f(y|x) = N[ + x,
2
y
(1
2
)]
=
y

x
=

xy

2
x
y lo mismo para f(x|y).
3. x e y son independientes si y solo si = 0. La densidad se descompone en el producto de las
dos distribuciones marginales normales si = 0.
Dos aspectos a tener en cuenta sobre las distribuciones condicionales, ademas de su normali-
dad, son sus funciones de regresion lineales y sus varianzas condicionales constantes. La varianza
condicional es menor que la varianza marginal.
2.1. Distribuciones marginales y condicionales normales
Sea x
1
cualquier subconjunto de las variables, inclusive el caso de una unica variable, y sea x
2
las restantes variables. Particionemos y de la misma forma, de modo que
=
_

1

2
_
y =
_

11

11

11

12

12

12

21

21

21

22

22

22
_
Entonces, las distribuciones marginales son tambien normales, En particular, se cumple el siguiente
teorema.
Teorema 2.1.1 Distribuciones marginales y condicionales normales. Si [x
1
, x
2
] siguen una
distribucion conjunta normal multivariante, entonces sus distribuciones marginales son
x
1
N(
1

1
,
11

11

11
)
y
x
2
N(
2

2
,
22

22

22
).
La distribucion condicional de x
1
dado x
2
es normal, tambien:
x
1
|x
2
N(
1,2

1,2

1,2
,
11,2

11,2

11,2
)
donde

1,2
=
1
+
12

1
12
(x
2

2

2
)

11,2
=
11

12

1
22

21
.
2.2. Modelo clasico de regresi on lineal
Un importante caso especial es que en la x
1
es una sola variable y x
2
es K variable, donde la
distribucion condicional en version multivariada es =
1
xx

xy
donde
xy
es el vector de covarianzas
de y con x
2
. Recordemos que cualquier variable aleatoria puede ser escrita como su media mas la
desviaci on de su media. Si aplicamos esto a la normal multivariada podemos obtener,
y = E[y|x] + (y E[y|x]) = +

x +
donde esta dada en la parte de arriba, =
y

x
, tiene distribucion normal. Tenemos
as, en esta distribucion multivariante, el clasico modelo de regresion lineal.
A5-6
3. El metodo de los mnimos cuadrados
En la practica real, hay muchos problemas donde un conjunto de datos asociados en parejas
dan una indicacion de que la regresi on es lineal, donde no conocemos la distribucion conjunta de
las variables aleatorias en consideracion pero, sin embargo, queremos estimar los coecientes de
regresion y . Los problemas de esta clase usualmente se manejan por el metodo de los mnimos
cuadrados, un metodo de ajuste de curvas que a principios del siglo XIX sugirio el matematico
frances Adrien Legendre.
Para ilustrar esta tecnica, consideremos los datos siguientes sobre el n umero de horas que 10
personas estudiaron para una prueba de frances y sus puntuaciones en la prueba:
Horas estudiadas Puntuacion en la prueba
x y
4 31
9 58
10 65
14 73
4 37
7 44
12 60
22 91
1 21
17 84
Al hacer la graca de estos datos como se muestra en la gura, nos da la impresion de que una
lnea recta proporciona un ajuste razonable bueno. Aunque los puntos no caen todos en la lnea recta,
el patron general sugiere que la puntuacion promedio de la prueba para un n umero dado de horas
de estudio bien puede estar relacionado con el n umero de horas estudiadas mediante la ecuacion de
la forma u
Y |x
= + x.
Una vez que hemos decidido en un problema dado que la regresion es aproximadamente lineal,
nos enfrentamos al problema de estimar los coeciente y de los datos muestrales. En otras
palabras, nos enfrentamos al problema de obtener estimaciones de y

tales que la lnea de
regresion estimada y = +

x provea, en alg un sentido, el mejor ajuste posible a los datos. Al
denotar la desviacion vertical de un punto de la lnea por e
i
, como se indica en la gura, el criterio
de los mnimos cuadrados sobre el cual basaremos esta bondad de ajuste requiere que minimicemos
la suma de los cuadrados de estas desviaciones. As, se nos da un conjunto de datos asociados en
A5-7
parejas {(x
i
, y
i
); i = 1, 2, ..., n}, las estimaciones de mnimos cuadrados de los coecientes de
regresion son los valores y

para los cuales la cantidad
q =
n

i=1
e
2
i
=
n

i=1
[y
i
( +

x
i
)]
2
es un mnimo. Al diferenciar parcialmente con respecto y

y al igualar a cero estas derivadas
parciales, obtenemos:
q

=
2

i=1
(2)[y
i
( +

x
i
)] = 0
y
q

=
2

i=1
(2)x
i
[y
i
( +

x
i
)] = 0
lo cual produce el sistema de ecuaciones normales.
n

i=1
y
i
= n +

i=1
x
i
n

i=1
x
i
y
i
=
2

i=1
x
i
+

i=1
x
2
i
Al resolver este sistema de ecuaciones mediante el uso de determinantes o del metodo de elimi-
nacion, encontramos que la estimacion de mnimos cuadrados de es es

=
n
_
n

i=1
x
i
y
i
_

_
n

i=1
x
i
__
n

i=1
y
i
_
n
_
n

i=1
x
2
i
_

_
n

i=1
x
i
_
2
Entonces podemos escribir la estimacion de mnimos cuadrados de como
=
n

i=1
y
i



n

i=1
x
i
n
al resolver la primera de las dos ecuaciones normales para . Esta formula para tambien se puede
escribir como
= y

x
Para simplicar la formula para

as como algunas de las formulas que encontraremos, introducimos
la notacion siguiente:
S
xx
=
n

i=1
(x
i
x)
2
=
n

i=1
x
2
i

1
n
_
n

i=1
x
i
_
2
S
yy
=
n

i=1
(y
i
y)
2
=
n

i=1
y
2
i

1
n
_
n

i=1
y
i
_
2
y
S
xy
=
n

i=1
(x
i
x)(y
i
y) =
n

i=1
x
i
y
i

1
n
_
n

i=1
x
i
__
n

i=1
y
i
_
As podemos escribir
A5-8
Teorema 3.0.1 Dados los datos muestrales {(x
i
, y
i
); i = 1, 2 , n}, los coecientes de la lnea de
mnimos cuadrados y = +

x son

=
S
xy
S
xx
y
= y

x
Ejemplo 3.0.1 Con respecto a los datos de la tabla anterior,
1. Encuentre la ecuacion de la lnea de mnimos cuadrados que aproxime la regresion de las
puntuaciones de la prueba sobre el n umero de horas estudiadas;
2. Prediga la puntuacion promedio de la prueba de una persona que estudio 14 horas para la
prueba
Solucion
1. Al omitir los lmites de la suma en aras de la simplicidad, de los datos obtenemos n = 10,

x = 100,

x
2
= 1376

y = 564 y

xy = 6945. As
S
xx
= 1376
1
10
(100)
2
= 376
y
S
xy
= 6945
1
10
(100)(564) = 1305
As,

=
1305
376
= 3,471 y =
564
10
3,471
100
10
= 21,69, y la ecuacion de la lnea de mnimos
cuadrados es
y = 21,69 + 3,471x
2. Al sustituir x = 14 en la ecuaci on obtenida en el inciso 1, obtenemos
y = 21,69 + 3,471(14) = 70,284
o y = 70, redondeado a la unidad mas cercana.
3.1. Regresion lineal m ultiple
Se pueden usar muchas formulas diferentes para expresar las relaciones entre mas de dos variables,
la mas ampliamente usada con las ecuaciones lineales de la forma:

Y |x
1
,x
2
,x
k
=
0
+
1
x
1
+
2
x
2
+ +
k
x
k
Esto es parcialmente un asunto de conveniencia matematica y parcialmente causado por el hecho que
muchas relaciones son realmente de esta forma o se pueden aproximar estrechamente por ecuaciones
lineales.
En la ecuacion de arriba, Y es la variable aleatoria cuyos valores queremos predecir en terminos
de los valores de x
1
, x
2
, , x
k
y
0
,
1
,
2
, ...,
k
, los coecientes de regresion m ultiple, son
constantes numericas que se deben determinar a partir de los datos observados.
Para ilustrarlo, considere la ecuacion siguiente, que se obtuvo en un estudio de la demanda para
diferentes carnes.
y = 3,489 0,090x
1
+ 0,064x
2
+ 0,019x
3
A5-9
En este caso y denota el consumo de carne de res y ternera inspeccionadas federalmente en millones
de libras, x
1
denota un precio compuesto de venta al menudeo de carne de res en centavos por libra,
x
2
denota un precio compuesto de venta al menudeo de carne de puerco en centavos por libra, y
x
3
denota el ingreso medido de acuerdo a ciertos ndices de nomina. Como en la anterior seccion
donde solo haba una variable independiente x, suelen estimarse los coecientes de regresion m ultiple
mediante el metodo de los mnimos cuadrados. Para n puntos de datos
{(x
i1
, x
i2
, ..., x
ik
, y
i
); i = 1, 2, ...n}
las estimaciones de mnimos cuadrados de las son los valores

0
,

1
,

2
, ..,

k
para los cuales la
cantidad
q =
n

i=1
[y
i
(

0
+

1
x
i1
+

2
x
i2
+ ... +

k
x
ik
)]
2
es un mnimo. En esta notacion, x
i1
es el iesimo valor de la variable x
1
, x
i2
es el iesimo valor de la
variable x
2
, y as respectivamente. As, diferenciamos parcialmente con respecto a las

, y al igualar
estas derivadas parciales a cero, obtenemos
q

0
=
n

i=1
(2)[y
i
(

0
+

1
x
i1
+

2
x
i2
+ ... +

k
x
ik
)] = 0
q

1
=
n

i=1
(2)x
i1
[y
i
(

0
+

1
x
i1
+

2
x
i2
+ ... +

k
x
ik
)] = 0
q

2
=
n

i=1
(2)x
i2
[y
i
(

0
+

1
x
i1
+

2
x
i2
+ ... +

k
x
ik
)] = 0
...
q

k
=
n

i=1
(2)x
ik
[y
i
(

0
+

1
x
i1
+

2
x
i2
+ ... +

k
x
ik
)] = 0
y nalmente las k + 1 ecuaciones normales:

y =

0
n +

x
1
+

x
2
+ +

x
k

x
1
y =

x
1
+

x
2
1
+

x
1
x
2
+ +

x
1
x
k

x
2
y =

x
2
+ +

x
2
x
1
+

x
2
2
+ +

x
2
x
k
...

x
k
y =

x
k
+ +

x
k
x
1
+

x
k
x
2
+ +

x
2
k
En este caso abreviamos nuestra notacion al escribir
n

i=1
x
i1
como

x
1
,
n

i=1
x
i1
x
i2
como

x
1
x
2
,
y as sucesivamente.
Ejemplo 3.1.1 Los datos siguientes muestran el n umero de recamaras, el n umero de ba nos y los
precios a los que se vendio recientemente una muestra aleatoria de casas unifamiliares en cierto
desarrollo habitacional grande:
A5-10
N umero de N umero de Precio
recamaras ba nos (dolares)
x
1
x
2
y
3 2 78800
2 1 74300
4 3 83800
2 1 74200
3 2 79700
2 2 74900
5 3 88400
4 2 82900
Use el metodo de mnimos cuadrados para encontrar una ecuacion lineal que nos permita predecir
el precio promedio de venta de una casa unifamiliar en el desarrollo habitacional dado en terminos
del n umero de recamaras y el n umero de ba nos.
Solucion
Las cantidades que necesitamos para sustituir en las tres ecuaciones normales son n = 8,

x
1
=
25,

x
2
= 16,

y = 637000,

x
2
1
= 87,

x
1
x
2
= 55,

x
2
2
= 36,

x
1
y = 2031100 y

x
2
y =
1297700, y obtenemos
637000 = 8

0
+ 25

1
+ 16

2
2031100 = 25

0
+ 87

1
+ 55

2
1297700 = 16

0
+ 55

1
+ 36

2
Podramos resolver estas ecuaciones por el metodos de eliminacion o por el metodo de los determi-
nantes, pero en vista de los calculos mas bien tediosos, se suele dejar este trabajo a las computadoras.
As, reramonos a los resultados con valores de

0
= 65191,7,

1
= 4133,3 y

2
= 758,3. Despues de
redondear, la ecuacion de mnimos cuadrados se vuelve
y = 65192 + 4133x
1
+ 758x
2
y esto nos dice que (en el desarrollo habitacional dado y en el momento en que se hizo el estudio)
cada rec amara extra a nade en promedio $4133 y cada ba no $758 al precio de venta de una casa.
Ejemplo 3.1.2 Con base en el resultado obtenido en el ejemplo anterior, prediga el precio de venta
de una casa con tres recamaras con dos ba nos en el desarrollo habitacional grande.
Solucion Al sustituir x
1
= 3 y x
2
= 2 en la ecuacion obtenido arriba, obtenemos
y = 65192 + 4133(3) + 758(2) = $79107
A5-11
3.2. Regresion lineal m ultiple (notacion matricial)
El modelo que estamos usando en la regresion lineal m ultiple se presta de manera unica a un
tratamiento unicado en notacion matricial. Esta notacion hace posible enunciar resultados generales
en forma compacta y utilizar muchos resultados de la teora matricial con gran ventaja. Para expresar
las ecuaciones normales en notacion matricial, denamos las siguientes matrices:
X =
_

_
1 x
11
x
12
x
1k
1 x
21
x
22
x
2k
.
.
1 x
n1
x
n2
x
nk
_

_
Y =
_

_
y
1
y
2
.
.
.
y
n
_

_
y B =
_

1
.
.
.

k
_

_
La primera X es una matriz de n (k + 1) que consiste esencialmente de los valores de las x,
donde se a nade una columna 1 para dar cabida a los terminos constantes. Y es una matriz de n1 (o
vector columna) que consiste en los valores observados de Y , y B es una matriz (k +1) 1 (o vector
columna) que consiste en las estimaciones de mnimos cuadrados de los coecientes de regresion.
Al usas estas matrices, podemos ahora escribir la siguiente solucion simbolica de las ecuaciones
normales
Teorema 3.2.1 Las estimaciones de mnimos cuadrados para los coecientes de regresion m ultiple
estan dadas por
B = (X

X)
1
X

Y
donde X

es la transpuesta de X y (X

X)
1
es la inversa de X

X.
Demostracion
Primero determinamos X

X, X

XB y X

Y, y obtenemos
X

X =
_

_
n

x
1

x
2


x
k

x
1

x
2
1

x
1
x
2


x
1
x
k

x
2

x
2
x
1

x
2
2


x
2
x
k
.
.

x
k

x
k
x
1

x
k
x
2


x
2
k
_

_
X

XB =
_

0
n +

x
1
+

x
2
+ +

x
k

x
1
+

x
2
1
+

x
1
x
2
+ +

x
1
x
k

x
2
+

x
2
x
1
+

x
2
2
+ +

x
2
x
k
.
.

x
k
+

x
k
x
1
+

x
k
x
2
+ +

x
2
k
_

_
X

Y =
_

x
1
y

x
2
y
.

x
k
y
_

_
Al identicar los elementos de X

XB como las expresiones en el lado derecho de las ecuaciones


normales y las de X

Y como las expresiones en el lado izquierdo, podemos escribir


X

XB = X

Y
A5-12
Al multiplicar en el lado izquierdo por (X

X)
1
, obtenemos
(X

X)
1
X

XB = (X

X)
1
X

Y
y nalmente
B = (X

X)
1
X

Y
puesto que (X

X)
1
X

X es igual a la matriz identidad I (k + 1) (k + 1) y por denicion IB=B.


En este casos hemos supuesto que X

X no tiene singularidad de manera que existe su inversa.


Ejemplo 3.2.1 Con respecto al ejemplo de las casas unifamiliares en el desarrollo habitacional,
use el teorema 3.2.1 para determinar las estimaciones de mnimos cuadrados de los coecientes de
regresion m ultiple.
Solucion
Al sustituir

x
1
= 25,

x
2
= 16,

x
2
1
= 87,

x
1
x
2
= 55,

x
2
2
= 36 y n = 8 en la expresion
para X

X de arriba, obtenemos
X

X =
_
_
8 25 16
25 87 55
16 55 36
_
_
Entonces, la inversa de esta matriz se puede obtener mediante cualquiera de diversas tecnicas: al
usar la que esta basada en los cofactores, encontramos que
(X

X)
1
=
1
84
_
_
107 20 17
20 32 40
17 40 71
_
_
donde 84 es el valor de |X

X|, el determinante de X

X. Al sustituir

y = 637000,

x
1
y =
2031100 y

x
2
y = 1297700 en la expresion para X

Y, obtenemos entonces
X

Y =
1
84
_
_
637000
2031100
1297700
_
_
y nalmente,
(X

X)
1
X

Y =
1
84
_
_
107 20 17
20 32 40
17 40 71
_
_

_
_
637000
2031100
1297700
_
_
=
1
84
_
_
5476100
347200
63799
_
_
=
_
_
65191,7
4133,3
758,3
_
_
donde las

estan redondeadas a un decimal. Advierta que los resultados obtenidos aqu son
identicos a los mostrados en el ejercicio anterior.
Si se supone que para i = 1, 2, ..., n las Y
i
son variables aleatorias independientes que tienen
distribuciones normales con las medias
0
+
1
x
i1
+
2
x
i2
+ ... +
k
x
ik
y la desviacion estandar
com un . Con base en n puntos de datos
(x
i1
, x
i2
, ..., x
ik
, y
i
)
podemos entonces hacer toda clase de inferencias sobre los parametros de nuestro modelo, las y
, y juzgar los meritos de las estimaciones y las predicciones basadas en la ecuacion estimada de
A5-13
regresion simple. Las estimaciones de maxima verosimilitud de las son iguales a las estimaciones
correspondientes de mnimos cuadrados, as que estan dadas por los elementos de la matriz columna
(k + 1) 1.
B = (X

X)
1
X

Y
La estimacion de maxima verosimilitud de esta dada por
=

_
1
n

n

i=1
[y
i
(

0
+

1
x
i1
+

2
x
i2
+ ... +

k
x
ik
)]
2
donde

son las estimaciones de maxima verosimilitud de las , las mismas que tambien se pueden
escribir como
=
_
Y

YB

Y
n
en notacion matricial.
Ejemplo 3.2.2 Use los resultados del ejemplo anterior para determinar el valor de
Solucion Calculemos primero Y

Y, lo cual es simplemente

n
i=1
y
2
i
, as obtenemos
Y

Y = 78800
2
+ 74300
2
+ ... + 82900
2
= 50907080000
Entonces, al copiar B y X

Y obtenemos
BX

Y =
1
84
_
5476100 347200 63700

_
_
637000
2031100
1297700
_
_
= 50906394166
y se sigue que
=
_
50907080000 50906394166
8
= 292,8
Por lo que se concluye que los resultados de las

i
son combinaciones lineales de las n variables
aleatorias independientes Y
i
de manera que las

i
tienen distribuciones normales. Ademas, son
estimadores insesgados, esto es,
E(

i
) =
i
para i = 0, 1, ..., k
y sus varianzas estan dadas por
V ar(

i
) = c
ij

2
para i = 0, 1, ..., k
En este caso c
ij
es el elemento en el iesimo renglon y la jesima columna de la matriz (X

X)
1
,
con i y j que toman los valores de 0,1,...,k.
Asi mismo, la distribucion muestral de
n

2
, la variable aleatoria que corresponde a
n
2

2
, es la
distribucion ji.cuadrada con n k 1 grados de libertad y que
n

2
y

i
son independientes para
i = 0, 1, ..., k. Al combinar todos estos resultados, encontramos que la denicion de la distribucion t
nos lleva:
A5-14
Teorema 3.2.2 Bajo las suposiciones del analisis de regresion m ultiple normal,
t =

i

i

_
n|c
ii
|
n k 1
para i = 0, 1, ..., k
son los valores de variables aleatorias que tienen distribucion t con n k 1 grados de libertad.
Con base en este teorema, probemos ahora una hipotesis acerca de uno de los coecientes de
regresion m ultiple.
Ejemplo 3.2.3 Con respecto al anterior ejemplo, pruebe la hipotesis nula
1
= 3500 contra la
hipotesis alternativa
1
> 3500 en el nivel 0,05 de signicancia.
Solucion
1. H
0
:
1
= 3500
H
1
:
1
> 3500
2. Rechace la hipotesis nula si t 2, 015, donde t se determina de acuerdo al anterior teorema y
2, 015 es e valor de t
0,05,5
de acuerdo a la tabla de la distribucion T-student.
3. Al sustituir n = 8,

1
= 4133,3 y c
11
= 32/84 y = 292,8 de los ejemplos anteriores, obtenemos
t =
4133, 3 3500
292,8
_
8|32/84|
5
=
4133,3 3500
228,6
= 2,77
4. Puesto que t = 2,77 excede a 2,015, se debe rechazar la hipotesis nula; concluimos que en
promedio cada recamara adicional a nade mas de $3500 al precio de venta de una cada tal.
A5-15

You might also like