You are on page 1of 11

3.

ANALISIS DE VARIANZA CON DOS FACTORES

En esta seccin del captulo se ver como estudiar la relacin entre una respuesta continua y dos factores o predictores discretos, usando tcnicas de anlisis de la varianza. 3.2.1 Los datos

La siguiente ta la muestra los datos de !i"os tenidos por 1# mu"eres, clasificados simultneamente seg$n el nivel de educacin y el lugar de residencia de las mu"eres. %a la 3.2.1 residencia. &i"os tenidos por 1# mu"eres, seg$n nivel de educacin y lugar de Lugar de residencia (ural )r ano # 11 + , 3 1 1 2 3 / / 3 2 3

'ivel de educacin *in educacin 1 . / a0os - a0os o ms

En este e"emplo se tiene una respuesta 2ue se tratara como continua, clasificada seg$n dos factores 2ue tienen 3 y 2 niveles, respectivamente. 'ote 2ue el n$mero de o servaciones es el mismo en todas las celdas3 tres. 3.2.2 El modelo con dos factores

*ea Yijk el n$mero de !i"os tenidos por la 45sima mu"er en el i-simo nivel de educacin y el j-simo lugar de residencia. 6on i=1,.,I; j=1,.., J y k=1,., nij 7 y sea n =

n
i j

ij

el total de o servaciones.

*e supondr, como de costum re, 2ue Yijk tiene una parte sistemtica y una parte aleatoria, escri iendo3 Yijk ij 8 ijk en 2ue los son varia les aleatorias independientes con ij son constantes y los ijk esperanza 9 y varianza 2 . :a"o estos supuestos los Yijk son varia les aleatorias independientes con
2 esperanza ij y varianza .

Los ij pueden ser interpretados como el efecto con"unto de la com inacin del nivel educacional i con el lugar de residencia ", o nivel de fecundidad de ese estrato. Los ijk pueden ser interpretados como el grado en 2ue la fecundidad de una mu"er especfica en el nivel educacional i y el lugar de residencia " se aparta del nivel tpico del grupo. ;s, los representan la parte de la fecundidad 2ue puede ser ij

atri uida a la com inacin de nivel educacional con lugar de residencia y los ij representan el efecto de otros factores no incluidos en el modelo.

3.2.3

Estimacin de los parmetros

Los estimadores de mnimos cuadrados de los promedios de cada celda

ij

resultan ser los

Yij =

Y
k =1

nij

ijk

nij

Estos estimadores son insesgados, con esperanza y varianza3

E (Yij ) = ij

Var (Yij ) =

2
nij

El estimador de 2 asociado con este procedimiento es la suma de cuadrados residual dividida por el n$mero de grados de li ertad3

S2 =
en 2ue n =

(Y
i j k

ijk

_ Yij )

n IJ

n
i j

ij

es el total de o servaciones y IJ es el n$mero de parmetros

estimados en la parte sistemtica del modelo. 'ote 2ue el estimador

S 2 es e2uivalente a com inar las varianzas

o servadas en las distintas celdas en un $nico estimador de 2 , 2ue es consistente con el supuesto de 2ue todos los residuos tienen la misma varianza. *i estandarizamos los promedios por celda restando el parmetro y dividiendo por el error estndar estimado se o tiene la cantidad

t=

Yij ij S nij

:a"o el supuesto de normalidad de los errores i , este estadstico tiene una distri ucin de *tudent con n IJ grados de li ertad, lo 2ue permite construir tests de !iptesis e intervalos de confianza para los ij .

En el e"emplo, se puede calcular fcilmente estos estimadores usando un pa2uete estadstico como el *<**. ;s se o tienen los siguientes valores3 <romedios por celda 6olumnas3 rural>ur ano 1 2 <romedio ,,1, /,33 3,1, -,91

=ilas3 educacin 1 2 3 promedios

+,33 -,99 -,1, 3,99 /,1, 2,1, 1,-1 3,-1 ?esviacin estndar com inada @ 1,1#

Los promedios por celda indican 2ue el nivel de fecundidad estimado va a"ando desde +,3 para las mu"eres rurales sin educacin !asta 2,, para las mu"eres ur anas con - o ms a0os de educacin. <or otra parte, la desviacin estndar estimada de 1.1# es astante menor 2ue los valores 2ue se tenan antes, indicando 2ue gran parte de la !eterogeneidad de las mu"eres se puede atri uir a la com inacin de su nivel educacional y lugar de residencia. %am in se calculan los promedios por nivel de cada factor. <or e"emplo el nivel de fecundidad de las mu"eres sin educacin se estima en ,.2. Estos valores son los mismos 2ue se o tuvieron en el anlisis con un factor. 3.2./ El anlisis de varianza

Aeneralmente interesa sa er cunto se !a avanzado en el anlisis del n$mero de !i"os tenidos al considerar la com inacin de nivel educacional y lugar de residencia. modelos. <ara evaluar el efecto con"unto de estos factores se procede a comparar

El punto de partida es el modelo nulo, 2ue proporciona una suma de cuadrados total con n51 grados e li ertad3

SCT = (Yijk Y )
i j k

, con gl = n-1

Luego se considera el modelo con"unto, 2ue tiene una suma de cuadrados residual con n . BC grados de li ertad3

SCE = (Yijk Yij )


i j k

, con gl = n IJ

La ganancia de considerar los dos factores o suma de cuadrados de los factores, se puede calcular como la diferencia, o usando la frmula3

SCF = nij (Yij Y )


i j

, con gl = IJ 1

=inalmente, se puede calcular las medias cuadrticas asociadas a los factores y al error, y su razn o cuociente3

F=

MCF SCF /( IJ 1) = MCE SCE /( n IJ )

*i los errores tienen una distri ucin normal Do la muestra es grandeE, la distri ucin muestral de la razn a"o la !iptesis de 2ue los factores no afectan la fecundidad, es DaproFimadamenteE una distri ucin F con IJ-1 y n-IJ grados de li ertad. Este anlisis se puede presentar en una ta la de anlisis de la varianza en la forma usual. El en e"emplo la ta la es3 Fuente Facto ' o *otal gl ! 1$ 1% SC "#,$% 1#,#% 1+$,)& MC 1%,$! 1,() F 1$,&

El valor = de ta la con - y 12 grados de li ertad para un nivel de significacin de -G es 3,117 o sea, si no !ay efecto de los factores, el +-G de las muestras posi les de en dar valores = menores a 3,11. 6omo el valor o servado de 12,/ es mayor 2ue 3,11, se concluye 2ue !ay un efecto con"unto de los factores 2ue es claramente significativo. )n ndice descriptivo del progreso es la proporcin de variacin eFplicada

R2 @

SCF 86.27 = = 0.8381 SCT 102.94

En el e"emplo, el nivel de educacin y el lugar de residencia eFplican con"untamente un #/G de la variacin en el n$mero de !i"os tenidos. 3.2.Efectos principales e interacciones

En esta seccin veremos lo interesante 2ue es tratar de separar los efectos del nivel educacional y del lugar de residencia, 2ue !asta a!ora !an sido considerados en forma con"unta. <ara este fin es conveniente usar la formulacin alternativa del modelo3

Yijk = + i + j + ( ) ij + ijk
en 2ue , i , j y ( ) ij son constantes. El parmetro representa un efecto com$n a todas las mu"eres, o nivel glo al de fecundidad del pas. Los i representan efectos del nivel educacional, o el grado en 2ue el nivel de fecundidad tpico del nivel i de educacin se aparta del nivel glo al del pas. Los j representan efectos del lugar de residencia, o el grado en 2ue el nivel de fecundidad tpico del lugar de residencia " difiere del nivel glo al del pas.

Los ( ) ij representan efectos de la com inacin del nivel de educacin i con el lugar de residencia ", o el grado en 2ue el nivel de fecundidad tpico de esa com inacin difiere de lo 2ue uno esperara de acuerdo a los efectos separados de educacin y lugar de residencia.

;l re5escri ir los ij D2ue son BCE en trminos de los , i , j y ( ) ij D2ue son 18B8C8BCE se !a introducido ms parmetros de los necesarios. <ara identificar el modelo es necesario introducir algunas restricciones, 2ue se darn por supuestas. Los efectos i y j se llaman efectos principales de los dos factores. Los

efectos ( ) ij se llaman efectos de interaccin de los factores.

*i los i , j y ( ) ij son todos cero o tenemos el modelo nulo, en 2ue la parte sistemtica de la fecundidad depende slo del nivel glo al del pas. Yijk = + ijk

*i los j y ( ) ij son cero pero los i no, o tenemos el modelo con un factor en 2ue la parte sistemtica depende slo del nivel educacional.

Yijk = + i + ijk

pero los j no, en 2ue la fecundidad depende solo del lugar de residencia.

H viamente !ay un modelo anlogo a este en 2ue los i y ( ) ij son cero,

*i los ( ) ij son cero pero los i y j no, o tenemos el modelo aditivo, en 2ue la parte sistemtica de la fecundidad depende del nivel educacional y del lugar de residencia.

Yijk = + i + j + ijk

Este modelo es particularmente interesante por2ue postula un efecto fi"o de cada factor 2ue no depende del otro. <or e"emplo, la diferencia esperada entre los niveles educacionales 1 y 2 es 1 2 , tanto en el rea ur ana como en el rea rural.

=inalmente, si los ( ) ij no son cero o tenemos el modelo completo en 2ue

Yijk = + i + j + ( ) ij + ijk
En este modelo el efecto de un factor vara seg$n el otro factor. <or e"emplo, la diferencia esperada entre los niveles educacionales 1 y 2 resulta ser3

( 1 2 ) + ( ) 11 ( ) 21 en el rea rural D"@1E ( 1 2 ) + ( ) 12 ( ) 22


en el rea ur ana D"@2E

Esta es "ustamente la nocin de interaccin3 el grado en 2ue el efecto de un factor vara seg$n el conteFto definido por el otro factor. Los cuatro modelos recin discutidos constituyen una "erar2ua 2ue va desde lo ms simple !asta lo ms comple"o.. La la or del analista es determinar cual corresponde me"or a los datos. La estrategia general 2ue se seguir consiste en estimar los parmetros de estos modelos por el mtodo de los Inimos 6uadrados e ir comparando las sumas de cuadrados residuales, para ver cunto vamos ganando con cada grado adicional de comple"idad. El procedimiento depende, sin em argo, del tipo de dise0o usado en el estudio. 3.2.1 Estimacin de los efectos

*ean Yij el promedio de las o servaciones en la celda i , j , Yi . el promedio de las o servaciones en la fila i, Y. j el promedio de las o servaciones en la columna "7 y Y el promedio glo al. Los estimadores de mnimos cuadrados del nivel glo al, los efectos principales y los efectos de interaccin son3
=Y

i = Yi . Y
=Y Y j .j

) (

ij

= Yij Yi . Y. j +Y

son los mismos 2ue se o tendran en los anlisis con i y , 'otar 2ue j

un factor. En el e"emplo, se puede calcular todos los efectos de inters a partir de la ta la de promedios presentada en la seccin 3.2.3. El resultado es la siguiente ta la de efectos3

Educacin 9 1./ -y8


j

) (

(ural

;rea )r ana 59,11 9,11 9,-9 51,-9

i
2,11 59,,3 51,3+ -,91

9,11 59,11 59,-9 1,-9


ij

Jeamos en detalle el clculo de efectos para las mu"eres sin educacin del rea rural. *e parte de los promedios relevantes

Y =5,06

Y1. = 7,17 ,

Y.1 = 6,56

Y11 = 9,33

En primer lugar se estudia el nivel glo al de fecundidad usando el promedio de todas las mu"eres = 5,06

Luego se estima el efecto de no tener educacin como la diferencia entre el promedio de las mu"eres sin educacin y el nivel glo al

1 = 7,17 5,06 = 2,11


o sea, las mu"eres sin educacin tienen, en promedio, 2,11 !i"os ms 2ue el nivel glo al del pas.

En forma anloga se estima el efecto del rea rural como la diferencia entre el promedio del rea rural y el nivel glo al3 = 6,56 5,06 =1,50 1 o sea, las mu"eres del rea rural tienen en promedio 1,-9 !i"os ms 2ue el nivel glo al del pas.

?e acuerdo al modelo aditivo, la fecundidad esperada de una mu"er sin educacin del rea rural es
= 5,06 + 2,11 +1,50 = 8,67 1 + + Y 11( aditivo ) = 1

La diferencia entre el promedio de las mu"eres sin educacin del rea rural y el valor esperado de acuerdo al modelo aditivo es la estimacin del efecto de la interaccin sin educacin>rural3

) (

11

= 9,33 8,67 = 0,66

o sea, las mu"eres sin educacin del rea rural tienen 9,11 ms !i"os de los 2ue se esperara de acuerdo al nivel glo al del pas y los efectos separados de no tener educacin y vivir en el rea rural. Este e"emplo, permite apreciar la forma en 2ue se !an separado los efectos de los dos factores. En lugar de decir 2ue las mu"eres rurales sin educacin tienen +,33 !i"os en promedio, se dice 2ue el nivel glo al de fecundidad es -,91 y !ay un efecto de 82,11 de no tener educacin, 81,-9 de ser rural y 89,11 de com inar la falta de educacin con el rea rural.

Es $til representar grficamente los promedios de las 12 celdas y los valores 2ue se esperaran de acuerdo al modelo aditivo. El grfico resultante aparece a continuacin3 El grfico ser realizado en clases. Es fcil apreciar como en el modelo aditivo el diferencial ur ano5rural es el mismo en los tres grupos educacionales Dsiempre tres !i"osE, mientras 2ue en el modelo con interacciones el diferencial es ligeramente mayor entre las mu"eres sin educacin 2ue entre las 2ue tienen - y 8 a0os. En todo caso las diferencias entre los dos modelos no son grandes3 en la ta la de efectos las interacciones no son muy grandes, comparadas con los efectos principales. Esto sugiere 2ue el modelo aditivo podra constituir una descripcin razona le de estos datos.

3.2., ?ise0os alanceados *e dice 2ue un dise0o con dos factores es alanceado si el n$mero de o servaciones en cada celda es proporcional al total de la fila y al total de la columna correspondiente, o sea, si

nij =

ni. n. j n

en 2ue cada nij es el n$mero de casos en la celda i , j 7 ni . es el total de casos en la fila i Do nivel i del primer factorE y n. j es el total de casos en la columna j Do nivel j del segundo factorE.

)n caso particular de dise0o alanceado es a2uel en 2ue el n$mero de o servaciones es el mismo en todas las celdas, como en nuestro e"emplo. )na propiedad muy $til de los dise0os alanceados es 2ue los estimadores de mnimos cuadrados de los parmetros son simples funciones de los promedios de celda, de fila y de columna. )na segunda propiedad de los dise0os alanceados es 2ue las sumas de cuadrados de inters son simples funciones de las o servaciones, y proporcionan una particin $nica de la suma de cuadrados total.

3.2.# <articin de la *uma de cuadrados ?e la segunda propiedad interesante de los dise0os alanceados en 2ue la suma de cuadrados de los factores tiene tres componentes se pueden calcular fcilmente3 1. *uma de cuadrados del =actor ;,

SC ( A) = ni , (Yi. Y )
i

con

gl ( A) = I 1

2.

*una de cuadrados del factor :,

SC ( B ) = n. j (Y. j Y
j

con

gl ( B ) = J 1

3.

*uma de cuadrados de la interaccin ;:,

SC ( AB ) = nij (Yij Yi. Y. j + Y )

con gl ( AB ) = ( I 1)( J 1)

Estas tres sumas de cuadrados constituyen una particin de la suma de cuadrados de los factores, en el sentido de 2ue

SC ( F ) = SC ( A) + SC ( B ) + SC ( AB )
;s, la suma de cuadrados de los factores !a sido eFpresada en trminos 2ue corresponden a los efectos principales y el efecto de interaccin de los factores. 6om inando este resultado con la ta la de ;nova 2ue se tena en la seccin anterior y calculando las medias cuadrticas correspondientes se o tiene la siguiente ta la de anlisis de la varianza3 =uente =actor ; =actor : Bnteraccin ;: Error %otal gl B51 C51 DB51EDC51E n5BC n51

SC ( A) = ni , (Yi . Y )
SC ( B ) = n. j (Y. j Y
j

*6

I6 I6D;E I6D:E
2

SC ( AB ) = nij (Yij Yi. Y. j + Y )

I6D;:E I6DEE

(Y (Y
9

ijk ijk

Yij )
Y )

*i se procede a comparar las medias cuadrticas de ;, : y ;: con la media cuadrtica de error se o tiene tres tests de inters3 1. El test para el efecto principal del factor ;3

FA =

MC ( A) MC ( E )
a"o la !iptesis

2ue tiene una distri ucin = con B51 y n5BC grados de li ertad de 2ue no !ay efecto del factor ;, o sea a"o H 0 : i = 0

2.

El test para el efecto principal del factor :3

FB =

MC ( B ) MC ( E )
a"o la !iptesis

2ue tiene una distri ucin = con C51 y n5BC grados de li ertad de 2ue no !ay efecto del factor :, o sea a"o H 0 : j = 0

3.

El test para el efecto de interaccin ;:3

FAB =

MC ( AB) MC ( E )
a"o la

2ue tiene una distri ucin = con DB51EDC51E y n5BC grados de li ertad !iptesis de 2ue no !ay efecto de interaccin, o sea a"o H 0 : ( ) ij = 0

En los tres casos la distri ucin = es eFacta si la distri ucin de los errores es normal, y constituye una aproFimacin en muestras grandes si la distri ucin de los errores no es normal.

En el e"emplo, la ;nova o tenida es3 =uente Educacin (ural>)r ano Bnteraccin ;: gl 2 1 2 *6 /1.// /9.-9 /.33 I6 29.,2 /9.-9 2.1, = 1/.+2 2+.11 1.-1

10

Error %otal

12 1,

11.1, 192.+/

1.3+

El test FA =14.98 con 2 y 12 grados de li ertad es altamente significativo D= de ta la con 2 y 12 gl al -G es 3.#+, al 1G es 1.+3E, indicando un claro efecto del nivel educacional en la fecundidad. El test FB = 29.16 con 1 y 12 gl es tam in muy significativo D= de ta la al -G es /.,-, al 1G es +.33E, indicando un claro efecto del lugar de residencia en la fecundidad. En cam io el test FAB = 1.56 con 2 y 12 gl es no5significativo, indicando 2ue no !ay evidencia de un efecto de interaccin entre educacin y lugar de residencia. En otras pala ras, no !ay evidencia de 2ue el diferencial ur ano5 rural vare de un grupo educacional a otro. Estos tests confirman nuestra impresin de analizar los efectos de la seccin anterior, en 2ue el grfico mostra a claros efectos principales y sugera 2ue el modelo aditivo se a"usta a razona lemente ien a los datos. 'otar 2ue en un dise0o alanceado las sumas de cuadrados de los efectos de los factores ; y : son las mismas 2ue se o tendran en un anlisis con un factor, pero la suma de cuadrados de error es ms pe2ue0a7 eso tiende a !acer los tests ms significativos. ;un2ue es esta seccin se dieron frmulas eFplcitas para las sumas de cuadrados, es conveniente recordar 2ue en principio todas involucran una comparacin de modelos3 *6D;E3 resulta de comparar el modelo nulo con el modelo en el factor ; Do el modelo en : con el modelo aditivo ;8:E *6D:E3 resulta de comparar el modelo nulo con el modelo en el factor : Do el modelo en ; con el modelo aditivo ;8:E *6D;:E3 resulta de comparar el modelo aditivo con el modelo con"unto de dos factores.

11

You might also like