You are on page 1of 67

C., .

"

..- .

CUAI1ER'r'O.S DE

EVTAL>~.YTICA

Dimccin: Juan Etxeberria hliirgiondo Francisco J . Tejedor Tejrdoi

1.1. Ventajas conceptuales d e los modelos multinivel ......

1.2. Algunas estructuras jerrquicas ......................... 1.3. La cuestin d e la denominacin ........................ 2.


REGRESIN EX DOS NiiTLES

.......................................

Aproximacin intuitiva a los fundamentos de los modelos multinivel Fomalizacin del modelo: modelo coniplrtamente alea. . torio y sus vanaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . El modelo nulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ampliacin d e los modelos: la inclusin de predictores e11 el nivel iiiacro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Natiir-aleza de los predictores ........................... Modelizacin de la heterocedasricidad e n el micro-iiive1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sigriificacin y ajuste de los modelos ................... Estiniacin de los parmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.8.1. Es/imoc%nporfiuntos de los e/ectos/ijos ............ 2.8.2. Estirnrrcin por inlminlos de los cwficientes/ijos del segundo nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.8.3. E.sf%rnoci~~ nto de los e/edos/ijosy Inc unriarirorrjl,.

O 2005 by Edit . W MURALL4. S A Constancia. 33.28002 Madrid


ISBN: 84-7133-747-9 Depsito Legal: M-585-2005 Printed in Spain .Impreso por Lavel. S. A.. Industria Grfica (Madrid)

2.9. Explicacin de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . 2.9.1. Predirrin de u n ulm individual (nivel 1 )......... 2.9.2. Prediccin dr u11 oalor gr11pnl (nivel 2) ............. 2.9.3. Varion:n ~zxplirn[ln n rnodelos de padientes aleotoln

3. DISENOSVPUESTOS DE LOS MODELOS Y

\IL'LTINICXL

..............

79

3.1. El tamao de la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 3.1.1. Tumoo de la rnupstra eri diseospm cnnglntt~rados 81 3.1.2. Tamaio de la muestra y fiabilidad del estimador . , . 83

3.2. Supuestos de los modelos miiltinivel ................... 85


4. EL PROCESO DE MODELIZ\CINMVI.TINiVFI : OBTENCI6N E
PRETACI~SDE RESLILTV>OS

IPITER-

4.1. 4.2. 4.3. 4.4.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Algunas n o m sobre el liso del programa MLwiii . . . . . . 90 La estrategia de modelizacin y el modelo ni110 . . . . . . . 92 Expansibn de la parte fija y aleatoria del modelo ..... $15 Interpretacin de los residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

5. SINTESIS Y CONCLUSIONES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .109

XpNnlc: Estiniacin de modelos coi1 hfLI$'IN . . . . . . . . . . . . . . . . . . . . 119

Los modelos estadsticos son herraniientas que nos permiten adeii trarnos en la complejidad de los fenmenos que investigamos. Las tcnicas que utilizamos en nuestras investigaciones y las que enseamos en nuestras clases tienen que perniitirnos alcanzar este o b jetivo. Ahora bien, n o parece fcil estudiar fenmenos complejos como los que acontecen en el mbito d e las Ciencias Sociales con modelos estadsticos sencillos o muy restrictivos. No se trata por tanto de usar tcnicas y modelos sofisticados por siniple esnobismo o por enidicin, sino de que los propios modelos que utilizamos reproduzcan la complejidad del mundo que intentamos comprender. En ese intento d e construir modelos isomorfos con la realidad se encuentran los modelos multinivel, que tienen en cuenta esa complejidad estructural, en este caso, la naturaleza anidada o jerrquica d e muchos datos en Ciencias Sociales. De ah que los m e delos jerrquicos lineales no se presenten slo como un conjiinto de procedimientos novedosos, sino como la consecuencia lgica d e ese intento de emplear modelos que permitan un acercamiento real a los fenmenos a estudiar. Estos modelos permiten tratar adeciiadamente la diferenciacin de lavarianza que producen distintos niveles d e agregacin. Suponen una solucin estadstica para tratar simultneamente la influencia del contexto y d e las diferencias individuales. Este es el objetivo central d e esta monografa. presentar la aporpara el adecuado tratatacin que suponen los modelos m~iltinivel miento estadstico del contexto y d e las diferencias individuales. Conviene aclarar que los distintos nombres que se han utilizado, como 'Modelos jerrquicos lineales', 'Modelos multinivel', 'Modelos de coeficientes aleatorios' etc., difieren bsicamente en el grad o de generalidad. De todas estas denominaciones la ms genrica es la d e modelos multinivel, que refleja claramente la naturalezajerrquica de los datos, pero n o prejuzga la forma d e las funciones

MODELOS J E R ~ R Q L]COI LINLALES

que se utilicen. Estamos, conviene decirlo, ms que ante un modelo estadstico especfico o tina tcnica de anlisis, ante todo u n enfoque de cmo debe abordarse el anlisis de datos. En este sentido, modelos miiy diversos caben bajo esta denominacin. Ciertamente, la mayora d e los modelos propuestos y utilizados son de naturaleza lineal: y d e una forma u otra estn asociados entre s. Pero no siempre tiene que ser as. Todos los textos introductorios de estos modelos comienzan indicando que las estructurasjerrqiiicas o anidadas d e los datos son realmente comunes en los datos d e la investigacin e n Ciencias Sociales. Esto es especialmente cierto e n la investigacin educatim, en la que los sujetos estn agrupados d e forma uatural en clases. y las clases en escuelas, las escuelas e n distritos, etc. Lo importante de esta agrupacin es qiie no se trata d e una entelequia, no son categoras con las que organizamos la informacin, como pueden ser las categoras d e votantes de distintos partidos, o los miembros de una clase social. Se trata d e agrupaciories reales d e los sujetos que hace que aquellos que pertenecen al mismo grupo reciben una serie de indel fluencias comunes que reducen la variabilidad nat~iral grupo, hacindolo e n cierta medida ms honiogneo. Los modelos multinivel se han desarrollado para analizar datos anidados o con estructurajerrquica. Es decir, los datos d e ms bajo nivel, por ejeniplo los individuos, se presenran anidados e n unidades de nivel siipenor. Estas a su vez pueden agruparse en otras unidades de tercer nivel, y as sucesivameiiie. La extensin d e su utilizacin ha sido progresiva. Si bien e n la dcada de los ochenta podan encontrarse algunas publicaciones en que se refiriera el uso de tales niodelos, es a partir del final de esa dcada cuando se produce una gran abundancia de las mismas. Hay mbitos en los qiir \.a es prcticamente imposible encontrar un estudio publicado en el qiie n o se presente un modelojerrquico. Euulua.tion and Poliq Analysis' o 'BructuRevistas como 'k~ducalionnl ralEquation Modeling' estn publicando continuamente artculos de este tipo. Ylajustificacin d e esta tendenciava ms all d e un siniple moda. PodeLas ventajas tcnicas d e los modelos jerrqiiicos. son n~iichas. mos destacar las tres ms importantes qiie menciona Draper (1995): a) los modelos jerrquicos proporcionaii iin en torno natural en el que expresar y comparar las teoras acerca d e las relacio-

nes estructurales entre variables d e cada uno d e los niveles en una jerarqua organizativa o de muestreo; b) los modelosjerrquicos proporcionan calibraciones de la incertidumbre producida en el proceso d e estimacin cuando hay autocorrelacin presente en los datos, algo muy nat~iral n la investigacin s o c i ~ d u c a t i v a ; e 101modelosjerrquicos proporcionan un marco explcito en C) el que expresar juicios de similaridad entre las unidades de nivel superior, es decir, un marco en el que valorar el supuesto de 'intercambiabilidad' de las unidades, en orden a combinar informacin de unidades d e distintos niveles, para producir predicciones bien calibmdas d e resultados observables. Este enfoque est generalizndose d e tal modo en la investigacin socio-educativa, que no puede concebirse ya sta sin tener en cuenta que su naturaleza multinivel es una nota consustancial d e la que caracterizar a la investigacin educativa misma. Si t~ivisemos hoy diramos que sta es emprica, multidisciplinar, niultivariada y miiltinivel. (Keeves y McKende, 1999: 208). Este libro no es un manual de un programa. Ocupa un nivel intennedio entre las introducciones puramente tericas a los modelos, (como algn libro o artculo d e Goldstein) donde se presenta una variedad muy grande d e modelos, o en un nivel algo ms operativo, como en el maniial d e Raudenbush y Bryk, pero en dnde no se explicita cmo llevar esos niodelos a la prctica, y los niievos manuales de los programas, donde se presenta cada una d e las i n s trucciones o comandos, pero donde no se sabe qu tipo d e modelos pueden resolverse. Esta monografa quiere ser una primera aproximacin. accesible y tcnica, a los modelos multinivel. Pretendemos ofrecer al lector una herramienta til para acercarse a la constniccin e interpretacin de modelos multinivel ms sencillos, los modelos d e dos niveles. Por ello, el hilo argumenta1 que ya vamos a desvelar, mucho antes de llegar al final, comienza por introducirnos en la lgica d e los modelos jerrquicos lineales y su adecuacin a la solucin d e determinados problemas d e investigacin en Ciencias Sociales y Biomdicas (seccin 1). Contina con la formalizacin e interpretacin del modelo de dos niveles, detenindonos en cuestiones claves como los residuos, la naturaleza d e los predictores o la explicacin d e la varianza del modelo (seccin 2). Las condiciones d e aplicacin y al-

gunas particularidades de los diseos multinivel estn planteadas en la seccin 3. Estos tres apartados constituyen el ncleo conceptual de los modelos multinivel, dejando para un segundo momento la expansin y desarrollo de estos modelos. La seccin 4 est dedicada a la presentacin aplicada e interpretativa del proceso de m e delizacin dentro del marco multinivel. Para ello utilizaremos el programa ms completo actualmente, MLwin, editado por el Instituto de Educacin de Londres (Goldstein et al., 1998). Por ltimo, se presenta un resumen de las principales aportaciones de estos modelos en la seccin 5,junto con las principales referencias bibliogrficas (seccin 6) y una seleccin bibliogrfica comentada (seccin 7). El Apndice de la monografa incluye una breve introduccin al uso del programa MLwin con un caso concreto. Los ejemplos, las variables, las ilustraciones, etc. proceden todos del mbito de la investigacin educativa, que constituye nuestra rea de trabajo y de inte1-sde nuestras particulares inquietudes cientficas y de aplicacin metodolgica. Este trabajo est dirigido a todos aquellos que quieran acercarse nor 1 r~ orimera vez a estos modelos de regresin sofisticada. Est destinado tanto a aquellos que quieran obtener una formacin de "usuarios inteligentes e inteligibles" de los modelos multinivel, como a aquellos que quieran profundizar y obtener un dominio tcnico de estos modelos. Ciertamente, habr un numeroso grupo de lectores que estn ms interesados en la aplicacin de esta metodologa a su campo sustantivo de investigacin, ms que en los intrngulis del clculo o la obtencin de estimaciones. Para todos, pero especialmente para esos lectores es esencial la comprensin del significado sustantivo de los distintos parmetros del modelo. Uno de los principales objetivos de este libro es precisamente que el lector aprenda a interpretar los resultados de aquellas investigaciones ajenas que utilizan esta tcnica y que sepa plasmar sus conjeturas en un modelo multinivel cuyos parmetros le resulten significativos. Lgicamente, las distintas lecturas que puedan hacerse dependern de los intereses e inquietudes del lector. Los autores simplemente esperan haber facilitado este acercamiento, a un tema que para ellos es apasionante, puesto que, en coincidencia con Kreft, De Leeuw y Kim (1990), p e demos decir que "uno.z ~ p que sabes que [as jerarquas existen, tiendes a i verlas par todas partes".
Madrid y Murcia, mayo de 2004

EL TRATAMIENTO ESTADISTICO DE LAJERARQUA


Es un hecho que la mayora de los datos con los que tratamos en la investigacin en Ciencias Sociales provienen de fenmenos en los que los sujetos estn formando de manera natural jerarquas. Son muchas las situaciones que nos vienen a la cabeza, como alumnos agrupados en escuelas, pacientes en clnicas, votantes en distritos electorales, casas en vecindarios, individuos en sectores de la economa, etc. Y Moelleng & Tolber (1972) sealaban que " l a sociea dad humana est organizada de modein genera.1 en,jerarquias anidada". La jerarqua responde a la idea segn la cual los sujetos que pertenecen al mismo grupo comparten un conjunto de estmulos que favorece la homogeneidad. Dehecho, uno de los objetivos ms importantes de las Ciencias Sociales ha sido siempre estudiar la interaccin entre las caractersticas individuales y las caractersticas del grupo y sus efectos sobre las variables de respuesta. En educacin por ejemplo, podemos tener algunas variables de la clase que de hecho sean un resumen de la informacin de los alumnos. As, el nivel sociocultural medio de los alumnos de una clase es una caracterstica de la clase. El rendimiento de un alumno particular se ve afectado por el nivel sociocultural medio de la clase. Pero tambin es posible que tengamos caractersticas que c e rresponden a la propia clase como unidad de nivel superior. Por ejemplo si es un solo profesor el que imparte todas las materias, o si son varios especialistas quienes lo hacen, es unavariable de la clase. Tambin puede ser importante ver cmo las caractersticas de los profesores afectan a los resultados de los alumnos. Dado que todos los alumnos comparten a los profesores, sus caractersticas son c e munes a toda la clase. As, el estilo docente de un profesor es una variable del grupo, no del alumno. Hasta no hace mucho haba dos formas de estudiar estos datos anidados: desagregacin y agregacin.

La primera consiste en desagregar los valores de las variables de las unidades de contexto o grupo y asignar sus valores a cada unidad individual. De esa forma todos los sujetos de uria misma clase tienen el mismo valor en cada una de las variables de la clase. Por este procedimiento, las caractersticas del profesor de la clase, de la escuela, de la ciudad, etc, son asignados a los sujetos. A continuacin se realira el aiilisis en el nivel individual, es decir, tomando a los sujetos como unidades de anlisis. El problema con esta solucin es que todos los alumnos de la misma clase han compartido gran can tidad de estmulos y experiencias, y sus valores eri la variable dependiente sern ms homogneos. Por tanto, no podemos considerar que los datos de los alumnos de la misma clase constituyen observaciones independientes. No se puede asumir el supuesto de independencia entre las observaciones. Si lo hacemos, estamos subestimando el tamao del erro<: En efecto, los alumnos de dos clases distintas sern totalmente independientes entre s, pero los de una misma clase comparten valores de muchas variables; sern ms parecidos entre s que con los alumnos de otra clase. Como posiblemente algunas de esas variables no se medirn, los efectos de esas variables no observadas quedarn recogidos en el error. Por lo tanto los sujetos de las mismas clases sern ms parecidos, y el error tpico ser por tanto, aparentemente nis pequeo. Si tratramos de estudiar las diferencias entre grupos, la estrategia d e desagregacin supone un aumento en el riesgo real de cometer Error de Tipo 1, o por el contrario, ser demasiado conservador al estudiar las diferencias entre individuos (Moerbeek et al., 1997). La segunda solucin consiste en agregar todos los valores de las variables individuales, es decir, calcular el valor de la media para cada grupo en las variables a estudiar, tanto dependientes como independientes. A continuacin, se realiza el anlisis con las unidades de segundo orden, los grupos o contextos. Si lo que nos interesa son las macro relaciones, es decir, las relaciones que tienen lugar entre las variables de las unidades de segundo nivel, no hay nada que objetar. Pero si lo que realmente nos interesa es lo que ocurre en el micro-nivel, estaremos tentados de generalizar las relaciones observadas en el nivel superior a las unidades del nivel inferior. Y ese es un error. Este error potencial se conoce con el nombre de "falacia ecolgica" y fue acuado por Robinson (1950). Supone de hecho un cambio de significado, cuando la conclusin

extrada que hace referencia al grupo, se la aplicamos a los individuos que forman parte de ese grupo. Al ignorar la estructura de los datos, el problema que se produce es que eliminamos toda la varianza interna de los gmpos, que puede llegar a ser del 80% o del 90%. As las relaciones aparecern como muy fuertes, y piiederi ser de hecho muy distintas de los resultados con las variables desagregadas. Las aproximaciones estadsticas clsicas tienden a realizar anlisis agregados o desagregados, como ya hemos dicho. La eleccin de la agregacin puede llevarnos a la falacia ecolgica al transferir los resultados del grupo a los individuos (Robinson, 1950) y a los sesgos de agregacin (Roberts y Burstein. 1980) que olvidan r e c e nocer que la conducta es un acto esencialmente individual. En el otro extremo, la eleccin de trabajar a un nivel nicamente individual produce el riesgo de caer en la falacia atomstica (Alker, 1969) que olvida el contexto en el que la conducta se desarrolla y se p r e duce una transferencia de los resultados individuales a los niveles de grupo. Por estos motivos, tanto una como otra solucin son insatisfactorias (Alker, 1969: Pedhazur, 1982; Aitlriri y Longford, 1986; Snijders y Bosker. 1999). Con una y otra estrategia se elaboran conclusiones sobre un determinado nivel (individual o grupal) que pueden proceder de obsenraciones del otro nivel. Es lo que se denomina inferencia entre niveles cruzados. Esta igualacin del individuo y el grupo hace que las conclusiones de las investigaciones se desdibujen, puesto que se puede enmascarar el origen de las diferencias en la explicacin de la variabilidad de los resultados. En definitiva. lo que ocurre es que se ignora la estructura bsica de los datos, que esjerrquica o anidada. Las variables asociadas al individuo estn claramente anidadas dentro del contexto. Esta estructura jerrquica no es respetada por el modelo lineal clsico. ya que no considera esta articulacin en niveles. Los modelos multinivel resuelven el dilema entre agregacin o individualizacin, trabajando con ambos niveles sirnultneamente. sta es la aportacin de los llamados modelos jerrquicos lineales, contextuales o multinivel frente a los modelos de regresin o de anlisis de covarianza. Los modelos multinivel o jerrquicos lineales se han desarrollado para analizar datos jerrquicamente estructurados. Estos modelos proponen una estructura de anlisis dentro de la cual se pueden reconocer los distintos niveles en que

14

MODELOS JERRQUICOS LINEALES

se articulan los datos, estando cada siihnivel representado por sil propio modelo (Draper, 1995). Cada uno de estos submodelos expresa la relacin entre las variables dentro d e iin deterniiiiado iiive1 y especifica cnio las variables d e ese nivel influyen en las relaciones que se establecen en otros niveles. Es decir, constitiiyen iina estrategia analtica qiie permite la formiilacin jerrquica d e las fuentes de variaciri y con capacidad para dar cuenta d e esta e s tructiira. El anlisis multinivel es una metodologapara el anlisis de datos con pa/ronr.s romplejos de uanabilidad, mfocada a Juenl?.~ anidadas de uaririhilidrid. Una jerarquia consiste en un nivel bsico d e observaciones anidadas o agrupadas dentro un nivel d e agrupamiento de orden superior (estudiantes dentro de escuelas, trabajadores dentro d e centros d e trabajo, medidas repetidas anidadas e n personas 0 instituciones...). El nivel bsico se siirle denominar mime-nivel o prirner nivel y el nivel d e orden superioi-, m a r r e n i ~ ~ e l . macrrrniveLos les suelen denominarse tambin grupos o de niodo ms general, contextos. Por supuesto, cabe ms de i i r i nivel macro (estudiantes agrupados e n clases, agriipados en esciielas, agrupados en municipios o comunidades autnomas). El grado d e homogeneidad d e los contextos viene expresado por la correlacin intraclase o autocorrrlarin ( I . C . C . ) ,que habitualniente es ignorada por los rriodelos estadsticos clsicos. La correlaciii intraclase es una medida d e la homogeneidad interna d e los griipos. Es iina riiedida d e la similitud d e las unidades del nivel individiial v de las diferencias entre las iinidades d e nivel macro. Y es muy importante para la determinacin del tamao de la muestra en el miiestreo por conglornerados, e n estudios longitiidinalesv en la determinacin d e la diferencia entre a nominal y a real (Bai-cikowski, 1981; Kreft & d e Leeuw, 1998). Si no existiese la corrrlaci6ii intraclase, no estaramos interesados e n los modelo miiltinive1 (Skinnei-, 1989). Cuando los datos estn naturalmente agrupados las iinidades d e anlisis del misrno griipo tienden a parecerse entre s, como va hemos dicho. Por tarito. la iiiformacin proporcionada por dos aliimnos procedentes de la niisnia clase es menor que la proporcionada por el mismo nmero d e aliiriinos procedentes d e clases distintas. Si todos los aliimnos d e la misma clase Fueran exactamente iguales, la informacin que proporcionaran 1000 alumnos sera igual a la informacin d e un inico alumno. En el otro extremo, si no hubie-

ra ningn parecido eritrr aliininos de la niismaclase, la informacin de 10 aliimnos de una clase es igiial a la informacin d e 10 alurnnos de 10 clases distintas. Las conseciieiicias d e no tener e n cuenta la aiitocorrelacin son importaiites: a ) no se tiene inca iriformacin del nivel individual corno parece, b) se afirma la existencia d e resultados significativos cuando no los hay, c) se construyeii rnodelos innecesarianieiite complejos y d ) los errores tpicos son demasiado prqiiros Las inferencias probabilsticas que se realizan en los paquetes estadsticos habituales asumen que los datos son independientes (que los residuos estn distribuidos igiialmrrite e independientemente (IDD)). Lo caracterstico de los modelos rnultiriivel es qiie permiten especificar afirriiaciones o proposiciones caiisales qiie son hiptesis d e relaciones entre variables, procedentes del misnio o d e diferentes niveles (Tacq, 1986). Eii cada nivel de lajerarqiia se pueden definir variables referidas a las iinidades de anlisis d e cada iirio d e los niveles. Atendiendo al nivel al que pertenezcan las variables tendrernos proposiciones macro, micro o interniveles. Imaginemos iina investigacin e n la que tenemos escuelas, como macro-nivel. que son grandes, pequeas, privadas, pblicas, con mejores o peores resultados medi0s.Y tambin tenemos alumnos, corno micro-nivel, cori niayores o menores ingresos, que son chicos o chicas, con mejores o peores resiiltados. <Qu proposiciones hipotticas podramos plantear? Se podra pensar en el estiidio d e la iiifluencia del clima institiicional (Z) sobre el rendimierito niedio del centi-o (Y). Se plantea entonces una proposicin macro (Figura l . 1a ) , puesto qiie se establece una relacin entre dos variables definidas e n el nivel macro (esciiela). Ahora bien, si se trata de estudiar la relacin entre el estatus ociipacional (x)e iiigresos en sujetos d e iin vecindario (y), se planteara entonces iina proposicin micro (Figura l . 1b ) , donde las variables que intervienen eri la irivestigacin pertenecen todas al nivel del aliimno. Sin enibargo. es posible establecer proposiciones in-

terniveles, estableciendo relaciones cruzadas entre las variables del que quisiera nivel micra y niacro. Tal es el caso de la inve~tigacin estudiar la influencia del clima institucional (Z) e n el rendimiento individual (y) (Figura 1.16). O tambin de aquella que controla adems el riivel socioeconmico del alumno (x) (Figura 1 . l d ) . Y de aquella que propone que la titularidad (Z) (pblica o privada) del cerirro afecta a la relacin entre nivel socio-econmico del alumno (x) y SU rendimiento acadmico (y) (Figura l.le). Es precisamente este ltimo tipo d e relacin la que s6lo puede estudiarse adecuadamente con los modelos que aqu se presentan.

cin en Ciencias Sociales consiste en estudiar cmo las caractersticas del grupo afectan a los distintos tipos d e individuos. Esta consideracin de las diferencias contextuales se conrreta en: Coniideracin d e la Iieterogeneidad: los efectos d e los contextos pueden potencialmente ser niuy complejos, con relaciones que varan en distintos sentidos. Es neresario estudiar quin eres en relacin con dnde ests. Interaccin entre individuos y contextos: ya que hay que tener e n cuenta la posibilidad d e que un iridividuo inieracte con su contexto prximo d e forma diferente a la que lo hace su grupo social d e referencia. O lo que es lo mismo, las diferencias entre contextos deben ser examinadas en relacin con las caractersticas d e los individuos en combinacin con las caractersticas sociales de aquellos. Inclusin d e conductas interrelacionadas: las diferencias son importantes, pero hay que estudiarlas dentro del contexto d e otras conductas relacionadas. Por ejeniplo, el estudio del rendimiento acadniico y los hbitos de estudio individuales, n o puede considerarse de forma separada de los hbitos d e lectura o de nmero d e lloras viendo la televisin. Consideracin d e mltiples contextos: Es posible que no exista uri riico contexto. Por ejemplo, en el caso del rendimiento acadmico, los resultados pueden estar influidos por el centro al que asisten, pero tambin por el contexto familiar.

FIGURA l . Pmpostoanerposibh dpntm del esquema multznniel 1.

CONCEPTUALES DE LOS MODELOS MULTIHWEL 1.1. VENT;IJ.~S

Parece claro que se requieren herramientas estadsticas que se ocupen de cuidar la heterogeneidad existente entre contextos (escuelas, centros de trabajo, comunidades autnomas) y entre individuos simultneamente. En definitiia. supone n o tratar a los contextos como un todo homogneo con una nicay comn influencia sobre la variable de respuesta. Ahora bien, tampoco sena muy razonable ni muy parsimonioso la bsqueda de cientos de ecuacie nes particulares qiie ajusten separadamente para cada contexto. Se busca, por tanto. una estrategia que permita dar una respuesta especfica y general al mismo tiempo. Que permita atender tanto a lo comn como a la diferencia. En este sentido, la aportacin d e los niodelos multinivel est e n que: 1. Permite considerar las diferencias contextuales: los individuos producen diferencias y los contextos producen diferencias. Luego se precisan modelos que n o reduzcan a los incli~. duos a agregaciones estadsticas y que n o limiten los contextos a vagas generalizaciones. Gran parte de la investiga-

2. Permite analizar simultnvamente contextos y hetemgeneidad individual, ya que no slo se deber1 considerar las diferencias entre contextos, por ejemplo (siguiendo a Coleman) las personas d e nivel sociocultural bajo no slo pueden diferir en la media d e rendimiento acadmico, sino que tambin pueden ser ms o menos variables eri sus puntuaciones.

3.

Pennitp cornbinar la inur~stigacin intplisiva con la extensiva o lo que es lo mismo, cualidad y cantidad. Las conductas y las

18

htOOEL.OS JERRQUICOS LINEALES

acciones d e los individuos tienen ambos componentes, uno cualitativo (qu ocurre e n el micro nivel) y otro cuantitativo (cunto, cmo d e frecuente.. . e n el macro nivel). Ambos elementos deben considerarse simultneamente. La investigacin extensiva permite identificar patrones, pero al mismo tiempo permite identificar gmpos especficos que necesitan estiidios intensivos. No se debe olvidar que un mismo fenmeno estudiado en el nivel micro o e n el nivel niacro por separado presenta relaciones a veces contradictorias, tal y como niiiestran Kreft et al. (1995) en su estudio sobre los ingresos d e los trabajadores indiistriales e n relaci01i con su formacin.

Hasta ahora se han presentado ejemplos d e estructuras jerrquicas muv sencillas. Sin embargo la situacin d e anidaniieiito e n los datos se encuentra en niuy distintos tipos d e investigacin. Vamos a presentar a roiitinuaciii algunas estructuras jerrquicas frecuentes en la investigacin e n Ciencias Sociales. Las estructura jerrquicas a las que nos hemos referido hasta el momento son la?estructuras de dos nive1r.s. Ejemplos clsicos d e este tipo de agrupamientojerrquico son alumnos e n escuelas, pacientes e n clnicas, votantes e n distritos. casas en vecindarios, individuos en sectores econmicos, etc. Con estas estructuras se presentan dos tipos d e diseos: eqiiilibrados y desequilibrados. Los primeros tienen el niisnio nmero de unidades d e nivel uno e n cada agrupamiento d e nivel dos (Figura 1.2.). Los segundos niuestran un tamao muestra1 distinto para cada contexto (Figura 1.3).

Escuela

FIGTR~ 1.2. E.~:tlruc1ura dos riiuek, llrrnio equilibrado. de

Las estructuras de tres o ms nivelesson la extensin lgica y ms directa d e la anterior: alumnos e n clases en escuelas, pacientes e n clnicas en provincias, votantes en vecindarios en ciudades son ejemplos de ella. Como en el caso anterior, e n cada nivel podemos tener variables referidas a las unidades d e anlisis d e ese nivel. Las estructuras polietpicas son otro ejemplo de estructura jerrquica. En un niuestrei, aleatorio simple, todos los sujetos tienen la misma probabilidad de formar parte d e la muestra. En canibio, en un muestre aleatorio por conglomerados, la probabilidad d e formar parte d e la muestra depende d e la estructura y representacin de los conglomerados. Por ejemplo, se muestrean ciudades, cdigos postales dentro d e la ciudad, edificios, hogares e individuos dentro de los hogares. Otra estructurajerrquica se corresponde con los estudios longitudinaks, que tratan d e estudiar cambios a lo largo del tiempo. Los estudios d e medidas repetidas son un exponente de ello. Se pueden diferenciar aquellos estudios e n los que las medidas estn repetidas e n los mismos individuos (estudios de panel). por ejeniplo el estudio del canibio de la tendencia de voto de los sujetos. Los niveles macro corresponden a las agrupaciones por regin, distrito electoral e indi~lduo. el nivel micro estara representado por el voto en Y las sucesiva?consultas electorales. Algunas aplicaciones tpicas senan los estudios de medida del cambio y de curvas d e crecimiento. Tambin se encuentran estudios con medidas repetidas e n niveles niacro d e agrupamiento, por ejemplo el estudio del cambio del voto en distritos. Los niveles macro definidos podran ser las regiones, el distrito electoral y el ano d e la consulta. Anidados e n estos se encuentra el nivel micro compuesto por los votos individuales d e los sujetos. Son medidas repetidas en el mismo distrito, pero no en los niisnios individuos. Estos estudios se denominan cmss-sectional.Y una aplicacin tpica sera el estudio de diferentes cohortes d e nios en

20

MODELOS JERRQEI<.os

LINEALES

las mismas escuelas,o lo que es lo mismo, el estiidio del rendimiento de las escuelas )- su cambio a lo largo del tiempo. tambin responden a un Los estudios de PsPmcturrrs multiz~nnndns patrn jerrquico de datos. Las diferentes respnesm estn anidadas dentro de los mismos individuos. Por ejemplo, la ingesta de diversas sustancias por un mismo sujeto (tabaco, alcohol, dieta grasa), sus hbitos de vida (ejercicio )- tipo de iida) y los riiveles de colesterol en sangre constituyen las variables de respuesta, que a su vez estn anidada en el propio sujeto y en diversas comunidades. Un caso particular del anterior son las estructuras de tnedida. Un ejemplo clsico son las respuestas a un cuestionario. Todas las respuestas de iin indiWduo a las preguntas de un cuestionario son unidades que estin anidadas en el propio individuo, que es la unidad de nivel inmediatamente siiperior. A su vez los indinduos pueden estar anidados en clases, etc. Las rslructuras meta-analticas, que suponen la sntesis cnaiititativa de iin gran nmero de resultados de investigacin. La estructura jerrquica tambin es clara. Los sujetos estn anidados dentro de los estudios. que tienen diversas caractersticas. Tambin las estructuras de clasificacin cruzadas, tan familiares a quienes hacen uso del anlisis factonal d e varianza, pueden entenderse como estructuras de anidamiento. En las estmcturas & c h . sqicacin cruznda el nivel macro es doble. Los siijetos estn anidados simultneamente en dos tipos de agrupamiento. Por ejemplo, los aluninos estn anidados en escuelas v vecindarios. Escuelas y vecindarios son agrupamientos de nivel superior en las que algunas unidades individuales coinciden pero otras no, como se ilustra en la Figura 1.4.

Hablamos de modelos multinivel, pero tambin de modelos jerrquicos lineales, n~odelos efectos mixtos, modelos contextuade les, de coeficientes aleatorios, de crecimiento, de curva latente.. . La lista de denominaciones no es infinita, pero s extensa. ?Son todas eslas denominaciones equivalentes? A qu se debe tal variedad? La variacin en la denominacin se debe al aspecto sobre el que fijemos nuestro inters del modelo. Hablamos de modelos jerrquicos por la dependencia jerrquica que se establece entre los parmetros que representan al nivel micro y al rnacro, siendo los primrros variables aleatorias en el m e delo que representa al nivei macro. La estructura jerrquica de los datoi no define necesariamente lajerarqua en el modelo, sin embargo ambas jerarquas suelen ir juntas (Raudenbush, 2001 ) . La caracterizacin adems de lineales se debe a la relacin que se establece entre la variable criterio v las variables predictoras en cualquiera de los niveles definidos. El modelo ser mulliniiiel porque describe datos que varan en dos niveles (entre sujetos y entre se contextos). La denominacin de modelo de coeficientes al~atonos debe a que la parte micro del modelo incluye coeficientes que variarn aleatoriamente en la parte macro del modelo. El modelo ser calificado de cuma latente porque los parmetros describen una trayectoria que es inobservable, dependiendo de las variables no observables incluidas en el inodelo. Ser un modelo latrnte de rrecinliento cuando incluya uria funcin incremental monotnica de esa trayectoria que representa al crecimiento. El modelo puede ser tambin denominado mirto. al incorporar efectos fijos asociados al impacto de las variables predictoras v efectos aleatorios que representan la variacin aleatoria entre contextos. Tambin ser un al modelo de componentes de a~uarianra incluir estimaciones de la varianza la covarianza. Tambin la notacin cambia d e unos autores a otros. Aunque y es cierto que estas diferencias en la tern~iriologa en la notacin pueden resultar en ocasiones desconcertantrs para quien acude a ms de una fuente, no deberno$ olvidar que se trata de un cdigo que hay que interpretar. Como todo cdigo. hay algo de arbitrario en el inismo. Lo que importa es siempre el concepto que est detrs de la nomenclatura o de la notacin. En cualquier caso, en este testo se ha elegido aquella notacin que es consistente con la

utilizada por los autores del programa ML~vin, que es la herramienta estadstica a la que con ms frecuencia se har referencia en este texto.

Y sealamos en el Prlogo que la atencin de los modelos inula tiiiivel se dirige a tratar estadsticamente la variacin originada por las diferencias tanto individuales como contextuales. En ese senddo y de forma tradicional, los modelos contextuales se definen como aquellos que contiene dos tipos de bariables, unas procedentes de un nivel individual y, otras, procedentes de un nivel contextual. La nocin central es que modelos lineales diferentes para el micro-nivel deben ajustarse para cada contexto (macro-nivel). Habitualmente cada grupo tiene las mismas variables explicativas y la mismavariable de respuesta, pero con diferentes coeficientes de regresin. Todos los modelos del primer nivel estn relacionados por un modelo de segundo nivel en el que los coeficientes de regresin del micrenivel se regresan en un segundo nivel de variables explicativas. La naturaleza del segundo nivel determina la naturaleza del m e delo para el conjunto de los datos. Y aqu caben muy diversas p e sibilidades, incluso que no haya ninguna variable de segundo nivel que relacioiie los diversos contextos y se establezca una ecuacin de regresin especfica para cada contexto. Sin embargo, esto no aade nada nuevo desde el punto de vista estadstico, se trata de un anlisis que emplea los coeficientes de regresin del primer nivel como variables de respuesta en el segundo nivel. En este llamado modelo dependientes iomoresullados (Burstein el al., 1978),la5 regresiones intra y entre grupos no estn conectadas unas con otras. Hay, de hecho, anlisis separados. La cuestin central es que en este tipo de modelos los coeficientes son fijos, no aleatorios. Si se analizan los datos completos (en los dos niveles) estaramos ante un modelo en el que varan los coeficientes, donde cada grupo es analizado separadamente y tendra sus propios coeficientes de regresin. Sera un modelo poco parsimonioso, que se ocupa solo de las diferencias y no de los puntos en comn.

;.

La idea de iin anlisis de regresin separado para cada grupo, seguido por la regresin de los coeficientes del primer nivel en el segundo no es suficiente para especificar un modelo multinivel. Es necesario destacar que los modelos multinivel implican la integracihn estadstica de los distintos modelos especificados para cada nivel de interls. Suponen una regresin en dos niveles de variacin. La integracin ms simple se da en el caso del modelo de coeficientes akaronos (Kreft y de Leeuw. 11998).donde los coeficientes de regresin del primer nivel son tratados como variables aleatorias e n el segundo nivel. Esto significa que los coeficientes del primer nivel son entendidos como los originadores de una distribucin de p r u bahilidad. Los parmetros m& importantes de esta distribucin (media Y la varianza) estn entre el conjunto de parmetros que deben l ser estiiriados en el modelo iriiilririivel. A aadir un segundo nivel de variables explicativas el modelo de coeficientes aleatonos se hace ms general y, al mismo tiempo. ms til. Esto es a lo que comnmente llamamos modelos multinivel, que pasamos a describir detalladamente.

FIGUR~ Modelo clsico de mgrusin p m una escuela. 2.1.

2.1.

APROXIX~CIN INTCITNL A LOS FUVDAMENTOS DE LOS MODELOS MULTlNVEL

Podemos entender muv bien la lgica de los modelos multinivel si comenzamos construyendo su comprensin desde el ms simple modelo de regresin lineal. Eso nos ayudar tambin a concretar la notacin que vamos a usar. Supongamos en primer lugar que queremos poner en relacin dos variables: la variable x, que representa el nivel socio-econmico de los alumnos, y lavariable y, que es el rendimiento de esos mismos alumnos en uu test de matemticas. Para facilitar las cosas, asumimos que x, es una variable continua que toma valores entre -2 y +2, donde cero indica nivel socio-econmico medio, el valor +2 indica el nivel socio-econmico muy alto y -2 muy bajo. El modelo clsico de regresin aplicado por ejemplo a un solo contexto, como una escuela concreta, se podra representar as:

LaFigura 2.1 y ecuacin 2.1 representan la relaci6n existente entre la variable criterio (en este caso, rendimiento acadmico) y la del variable predictora. nivel socio-ecoi~~uico alumno. La interpretacin de esta eciiacin responde al modelo de regresin lineal clsico. La constante Po representa el rendimiento medio de esa esciiela de aquellos alumnos para los que el nivel socio-econmico tiene el valor cero. Es el plinto de corte de la recta de regresin con el eje de ordenadas. El coeficiente 0,es la pendiente de la recta de regresin, y representa el incremento en el rendimiento cuando auiiienta el nivel socio-econmico de los alumnos en un punto. El triiiiiio de error, E , , es lo que el rendimiento del alumno i se aparta del rendimiento esperado de los alumnos que tienen su mismo nivel socio-econmico. Por ejemplo, en una escuela esta ecuacin podra ser:

El rendimiento esperado de los alumnos de nivel socio-econmico iiiedio es 150, y ste aumenta en 10 puntos por cada punto del nivel socio-econmico.

REGRXSIN DOS NIVELES ES

27

T ~ I - 2 . 1 . Ejprnplo simulodo s o h la estimacin de las 4 puntuaciones individuuhs de dos olumnos.

Alumnos 170 160

Como se ve e n la Tabla 2.1, los alumnos 1 y 2, dado el nivel s o ciwconmico de cada uno de ellos, tienen un rendimiento esperado de 160 y 165 puntos cada uno de ellos. Pero el primero rinde 10 puntos por encima de lo esperado y el segundo 25 por debajo. Adems se asume que E , N(O, U:), es decir, los residuos tienen una distribucin normal, con media cero y varianza finita, aunque desconocida. Implcitamente adems se asume lo que denominamos el supuesto de homocedasticidad. Es decir, el supuesto de que la varianza de E es siempre la misma e independiente de los valores de r,. Ahora bien, ?qu ocurrira si tuviramos dos escuelas distintas, la escuela 1 y 2? Pues que tendramos dos ecuaciones distintas, una para cada una de las escuelas (Figura 2.2):

FIGURA 2.2. Modelo clsico de w p s i n para dos escwIa,s

?Qu significan ahora Po, y Po,?,y ?P,, y P,,?, ,:en qu unidades estn expresados Po y P, en cada caso? y representa el rendimiento esperado Los coeficientes de en cada una de las escuelas cuando el nivel s o c i ~ c o n m i c o los y son las penalumnos tiene el valor cero. Los coeficientes dientes, y de modo anlogo al anterior representan el incremento en el rendimiento medio cuando aumenta el nivel socioeconmico de los alumnos en un punto para cada escuela. Las unidades de todos los coeficientes son las unidades de la variable dependiente, en este caso concreto, las unidades de rendimiento acadmico. La figura 2.2 pone tambin de manifiesto la posibilidad muy real y muy plausible en muchas situaciones de que tanto puntos de cor-

o,, o,,

o,, o,,

te como pendientes varen de escuela a escuela, de contexto a contexto. Si considerramos los puntos de corte como una medida de la "eficacia" del centro y las pendientes como medida de la "inequidadl del centro, se observa que el centro 1 es ms eficaz que el centro 2 dado que su valor medio en rendimiento en el origen es ms alto. Del mismo modo, tambin podramos considerar el centro 1 como m& equitativo que el 2, en tanto que el incremento que se produce en el rendimiento del alumno al aumentar una unidad en el nivel so.ciocconmico es menor, lo que significa que el rendimiento en el centro 1 es menos dependiente de las variaciones del nivel socioeconmico. En la realidad, solemos tener muchas escuelas (muchos contextos) que pueden variar entre s tanto en los puntos de corte como

La cuestibn de la rquidad o inequidad es uiia ruesiin rrnica. El uso d e inequidad se jiistifira por lainrerpretacin. amkpendiente mayor r s rl rratono equitativodela escuela, puesroque el ieridimienro de s i s aliimnor er m deppndiente del uivel s0ciocc0nmic0 del alum~ no y iio de la iriiemenciii escolar. El sentido tcnico de este concepto re refiere a la 'eficacia diferencial' del centro roii respecto a cararterscirai esperifirai de los alumiios.

'

en las pendientes, y no parece muy prctico estimar una ecuacin de regresin para cada escuela. Por este motivo, adoptamos una nica ecuacin para j escuelas.

Esta variabilidad en el segundo nivel es la caracterstica principal y definitoria en los modelos multinivel, dando lugar a un modelo diferente al tradicional modelo de regresin del que hemos partido. El modelo que representa las relaciones entre la variable de respuesta y los predictores en el micro nivel sera como el planteado en la ecuacin 2.4. Siguiendo con nuestro ejemplo, esta ecuacin representa la relacin existente entre el rendimiento acadmico y el nivel socioeconmico de los alumnos. Como se puede observar, la variable de respuesta, y,,, es el rendimiento de un alumno, i, en la escuela J . Dentro de una escuela dada, la escuela j, la parte sistemtica o fija + de este modelo est representada por (Poj B,, x!,,), aunque como veremos, desde una perspectiva macro esos tirninos incluyen tanto parte fija como aleatoria. El coeficiente Pojes el rendimiento esperado en la escuela j cuando x, es igual a cer0.Y el coeficiente B,, es el incremento en el rendimiento por cada unidad que aumenta del el nivel soci~econmico alumno en la escuela j. El ltimo trmino de la ecuacin 2.4 es la variacin residual del alumno i en la escuela j, es decir, lo que se aparta del rendimiento esperado segn su nivel socio-econmico. Se asume que tiene una distribucin norN ( 0 , u,?), es decir, mal, con media cero y varianza constante, E, asumimos que la varianza es homognea para todas las escuelas. Ahora bien, al ser B,, y B,, valores propios de cada escuela, estamos suponiendo la variabilidad entre contextos. Esta consideracin exige un desarrollo propio, al convertir a estos coeficientes en variables aleatorias en el nivel macro, representado por las ecuaciones 2.5 y 2.6.

de la ecuacin y en p,, que es el rendimiento diferencial de la e s cuela j y representa la parte aleatoria del modelo en el segundo nivel vinculada al punto de corte. De modo anlogo, DI, tambin puede tenervariabilidad propia, y se descompone en DI que es el incremento medio en el rendimiento por el aumento en el nivel socioeconmico en la poblacin de escuelas, que forma parte de la parte fija del modelo. y el trmino p,,, que es el incremento diferencial en el rendimiento por el en aumento en el nivel s o c i ~ c o n m i c o la escuela j. Es la parte aleatoria del modelo en el segundo nivel vinculada a la pendiente. As:

El coeficiente Po, se descompone en Po que es el rendimiento medio en la poblacin de escuelas y representa la parte sistemtica

Es decir, Bol y B,, tienen una distribucin normal bivariada. Y como hemos sealado Po es la media general para la poblacin de escuelas. B, es la pendiente para la poblacin de escue1as.Y o;", o;, y u ~ , ~ , ~ ,la varianza entre puntos de corte, pendientes y la covason ~ riacin entre punto de corte y pendiente, respectivamente. Es evidente que si las escuelas difieren en el punto de corte y en la pendiente, las varianzas de estos parmetros ser mayor que cero, y esas varianzas, u y uJl, se convierten en parmetros del : " modelo. Pero adems puede intuirse que es posible que los valores de intercepto y pendiente en cada escuela pueden estar relacionados. En efecto, es posible que las escuelas ms eficaces (con mayor intercepto) sean tambin las ms equitativas (con menor pendiente). Eso supondra una covarianza negativa entre esos dos parmetros. As, la covarianza entre intercepto y pendiente se convierte en otro parmetro a estimar en el modelo. La idea de la variacin entre contextos es esencial en el marco de los modelos multinivel. Si esta variacin no existiera no sera necesario el empleo de estos modelos. Las figuras 2.3.a, b, c, d y e ilustran el significado de los distintos valores que pueden adoptar o1l,, u;, y u, . En la figura 2.3.a todas las escuelas comparten la misma ecuacin. Es decir, en todas las escuelas la relacin entre el ni-

W.GRESIK EN ve1 socio-econmico y el reiidimiento es la misma. Comparten la misma recta de regresin y, por tanto, la variaci6n entre puntos de corte (o,:,,), pendientes (o:) y la covarianza entre ambos (u,,~,,,) ser igiial a cero. En la figura 2.3.b, todas las escuelas comparten la misma pendiente, es decir no hay variacin en la relacin que se establece dentro de cada esciiela entre la variable criterio y la = predictora (u,:, O). En cambio, los puntos de corte varan de centro a centro. Por tanto, ser mayor que cero. El siguiente caso (figura 2.3.c) se observa que cuanto mayor es la media de la escuela mayor es SU pendiente. Y no hay constancia en ninguno de los a pai-inetros que representan la variacin entre centros. Las escuelas se diferencian en el punto de corte, pero tambin en la pendiente. Luego o,:,, o, son mayores que cero. Y adems, podemos y : comprobar que cuanto mayor es el punto de corte tainbikn es inayor la pendiente. Por eso la covarianza entre esas dos variables es positiva. El caso contrario viene representado por la figura 2.3.d, donde se observa que cuanto mayor es la niedia de la escuela, menor es la pendiente. Como en el caso anterior, u;, y o;, adoptan valores mayores que cero, en cambio, al ser la relacin entre punto

DOS NIVELES

51

de corte y pendiente nepativa, el valor de la covananza ( u , ~ , ~ ) ser negativo. La ltima figura (figura 2.3.e) muestra la situacin en la que no hay relacin entre el punto de corte y la pendiente. Ambos valores pueden variar, por tanto o;(,y 02, adoptan valores niayores que cero. Sin embargo, al no haber relacin entre los dos parnietros principales, el valor de la covarianza (o,,-,,,) tender a cero.

2.2.

FORMALIZACI~N DEL MOUC'I.~:


MODELO COMPI ETWEUTE .ALEATC)RIO Y SUS VARIACIOXES

A modo de sntesis, el modelo en el micro nivel es:

Y el modelo en el macrenivel ei:

B l = h +P., o
Pi,
Donde,
=
Bl +

Pi,

Pn,v

o,, tienen una distiibucin riormal bivariada:

Dado que

0,

y 0, son constantes, esto es lo mismo que:

1 Pendienv

1 Pendienrr

Prndienrr

/ Pendiente

Pendirnte

1
Aunque hasta ahora hayamos presentado un modelo subdivido en dos niveles diferenciados, esto no significa que tengamos dos modelos diferenciados, puesto que las ecuaciones 2.5 y 2.6 se pueden sustituir en la ecuacin 2.4, darido lugar al modelo general (Ecuacin 2.7) que es un modelo nico llamado madelo <o,~iplelammte aieatmio:

P. Corte

F Corte

P. Corte

Antes de contiuuar, podemos hacer algunas observaciones a partir de esta expresin. Comparmosla con 2.1. Vemos que es la parte aleatoria (lo que en 2.7 est entre parntesis y E , en 2.1) lo que las diferencia. Efectiwmente, mientras que en 2.1 asumimos el principio de homocedasticidad, en 2.7 la parte aleatoria depende de x, el predictor. Esto quiere decir que el modelo 2.7 permite representar aquellos fenmenos en los que la ~arianza los residuos cambia de segn el predictor. Si los datos proceden de escuelas distintas con distintas relacio nes en ellas entre predictor y criterio, la nube de puntos que o b servariamos sera como la de la Figura 2.4. En ella se ha representado la recta de regresin que se obtendra aplicando el modelo 2.1. Podemos ver que la dispersin alrededor de la recta es distinta en x,, qiie en x,,. Y por tanto no se cumple el supuesto de homocedasticidad. Sin embargo, 2.7 ajusta una recta distinta para cada escuela. Y vemos que en la Figura 2.5, la dispersin alrededor de la recta de regresin en cada escuela s es la misma en x,, y en x,,.

FIGURA Recta de regresin para un modelo compktnmenie akato~io. 2.5.

Situaciones como la aqu representada son de hecho muy frecuentes en la investigacin educativa. Lo que nos lleva a pensar que en todas esas ocasiones es ms adecuado un modelo como el de 2.7 que uno como el 2.1. En la ecuacin 2.7 se explicita la posibilidad de variacin tanto en puntos de corte como e n pendiente. Sin embargo, hay modelos ms sencillos y tambin ms complejos. Tomemos como ejemplo un modelo ms sencillo en el que se 2 plantee lavariacin entre puntos de corte (auo pero en el que )O), no hav variacin entre pendientes (o,ll' O ) ni, por lo tanto, cova= nacin entre el punto de corte y la pendiente (ouou,) . Es el nro=O delo de interceptas akatmios, donde el primer nivel est representado por la ecuacin 2.4:
FIGUR~ Recta de regre~in 2.4. .simpk.
Y,,
=

Po, + Pijx,, + Ei,

34

MODELOS JER&QVICOS

LINEALES

R E T , R E S I ~ N DOS URTLES EN

35

Y el segundo nivel queda escrito como sigue, dado que no hay variabilidad en el segundo nivel para el coeficiente b,,:

Su, = 80+ .@O,

(2.8)

El modelo completo quedara:

Se trata tambin de un inodelo de covarianza de efectos aleate rios. Efectivamente, tenemos una covanable, x,, cuya pendiente es igual para todos los grupos. Se trata por tanto del supuesto de homogeneidad de las pendientes. En la Figura 2.6.1. vemos la nube de puntos correspondiente a los aluinnos de dos escuelas. Seguimos suponiendo que el predictor es el nivel socio-econmico y el criterio el rendimiento acadmico. A esa nube de puntos se le ha ajustado iina recta de regresin simple. Y a simple vista, podemos compi-obai-que no se cumple el su-

puesto de homocedasticidad. En efecto, la vananza en rendimiento ms es mayor entre los sujetos que tienen nivel soci~coiimico alto, y menor en el extremo opuesto. Heinos particularizado un alumno de una de las escuelas. En este caso, r ; , el residuo que corresponde a ese alumno es, como puede vei-se, la distancia entre su nivel de rendimiento acadmico y la recta de regresin. En la Figura 2.6.2. y siguientes tenemos la misma nube de puntos, slo que ahora adems de la i-egresin comn, (S, + b,x,,) tenemos representados una recta de regresin especfica para cada escuela. Comprobamos as que lo que antes era e , ahora se descompone en varios sumandos. Para una escuela dada, su intercep to es (S, + , ,) Por ejemplo, laescuela 1 (rombos) tiene un residuo u,. k,,, que es un valor positivo. Sin embargo, la escuela 2 (cuadrados) , tiene iiii valor de su residuo p negativo.

FIGURA 2.6.1. Hrsiduos en modelos du rryesin simple.

Pero las escuelas tambin difieren en su pendiente. As en 2.6.3 vemos que siendo o el ngulo que la regresin comn forma con la horizontal, su pendiente es la tangente de o.Es decir, 8, = tagw.

36

MODELOSJER;UIQLICOS LINEALES

En la escuela 1, la pendiente es mayor. De hecho el ngulo que forma con la horizontal es y, por lo que la pendiente ser tagy. Liiego u ,= tagy - t a g o .

FIGURA 2.6.4. &sisiduos

en

elpnmn niuelm un modelo multinivel.

Tambin podramos plantear un nrodelo de pendientes aleatonas, en el que existiravariacin entre las pendientes ( u M I> O ) y no 2 entre los puntos de corte (u,,"' = O ) ni covariacibn entre ambos (upo,,= O). El modelo en el primer nivel mantiene la estructura de 2.4 y en el segundo nivel quedara: Ahora el residuo de nivel 1, es decir, la distancia entre el verdadero rendimiento del sujeto i en la escuela j, y lo que en esa escuela se espera segn su nivel s o c i ~ c o n m i c o(,E , , ) est representado en 2.6.4. Podemos ver que ese residuo ahora es mucho ms pequeo. De hecho, la varianza de los residuos, que en 2.6.1. estaha toda atribuida a la barianza entre sujetos, ahora hemos visto que se descoiiipone en varianza entre escuelas (entre los residuos de las esciielas) y varianza entre sujetos dentro de cada escuela. Al misino tiempo, entre escuelas, parte de lavarianza corresponde avarianza entre residuos respecto del intercepto, y otra parte corresponde a varianza entre residuos respecto a la pendiente.
Po, =

Po

(2.11)

Y el modelo completo:

multinivel, el modelo micro representa la relaEn un n~odelo cin dentro de cada contexto entre la variable de respuesta y la variable predictora. El n~odelo macro representa la relacin entre contextos, en el que los parinetros del micro modelo son las va-

38

MODELOS JER~RQL'ICOSLINEALES

~ G R I , S I N EN DOS NnTLES

riables de respuesta de los macro modelos. En los macro modelos se reconoce un segundo nivel d e variacin residual no reconocido por los modelos lineales clsicos, que es la variacin entre los contextos. Por tanto, con los modelos multinivel tratamos d e establecer una rel;ici<in general para toda la poblacin, tratamos de estimar la varianza de los interceptas, la varianza de las pendientes, v la covarianza de ambas. Adems, comprobamos si son significativamente distiritos d e cero codos los par.imetros, fundamentalmente las varianras. As, especificar un inodelojerrquico consiste en determinar tres elementos distintos: La media (o mediar): qiie componen la parte fija qiie hay b,, que estimar (punto de corte ?/o pendientes) (bu, b, ...). Las varianzai alrededor de la media(de1 punto de corte y/o pendientes, (u,:", U,? 1, ( U : ) . uly,. ,... La covarianza entre LISdistribuciones de punto de corte y las pendientes 0, ,>. ,,? ...). ,,,, 0,

Y el modelo completo:
Y,,
=

b + >u,, t 6') n

Un caso particular del modelo que acabamos de ver es el c o n o cid como modelo nulo. Como se desarrolla en el punto 2.7. el i n u del nulo es el trmino d e comparacin de cualquier otro modelo alternativo. Adems. en una estrategia metodol,gica, no tendria sentido incluir variables explicativas e n el modelo en ningn nivel si no existiese varianza estadsticamente distinta de cero en el m del niilo. El modelo nulo es el caso particular en el qiie no existe ninguna variable predictora. Para el nivel micra:

El modelo nulo se trata de hecho de un iiiodelo de varianra de efectos aleatorios. Continuando con las variables del ejemplo an, terior, p es el rendimiento medio de todas las esciielas. poJ es lo que la media de la escuela j se aparta de la media general, y E,, es lo que el rendimiento del alumno i de la esciiela j se aparta de la media de su escuela. La varianza u;oes la varianza entre las medias de las escuelas, y u: es la varianza entre los alumnos dentro de cada esciiela. Si u:,? fuese estadsticamente significativa, querra decir que no las esciielas no difieren entre si. ?Qu significara el caso hipot> tico de qiie u: = O y u,:,, 01 Esto nos indicara que las escuelas difieren entre s, pero que cada escuela consigue exactamente el mismo resultado para todos sus alumnos. T q u pasara si u: > O y u;" = O? Entonces toda la varianza sera varianza entre alumnos y las escuelas no diferiran entre s. En el caso hipottico de que n o hubiese vaiianza significativa en ningn nivel del modelo nulo, n o tendria sentido tratar de introducir variables explicativas e n el m* delo. ya que no habra nada que explicar. Lo habitual, sin embargo es que nos encontremos varianza significativa tanto en el primer nivel como en el segundo. Entonces todos nuestros esfuerzos se orientarn a introducir variables en el modelo que disminuyan la varianza no explicada. Como veremos ms adelante, precisamente la estrategia del estadstico de bondad de ajuste consisten e n comparar los modelos alteinativos con el modelo nulo.

El nivel macro es:


Po, =

Po

PO,

(2.15)

Al introducir predictores en el piimer nivel, es muy frecuente que disminuyd la varianza residual e n el segundo nivel, adems de e n el piimero. ?Por qu ocurre esto? Es posible que esa variable no tenga la misma distribiicin en todas las unidades del segundo nivel. En nuestro ejemplo, puede haber escuelas en las que la mayora de

los alumnos pertenezcan a un nivel socioeconinico alto. La media en rendimiento de esas escuelas tender por tanto a ser mayor. Por eso, al introducir el nivel socio-econinico como predictor parte de las diferencias entre escuelas disniiniiyen. Pero es posible que otra parte de la diferencia entre las medias de rendimiento de la5 escuelas se deba a que cada una de ellas tiene distintas caractersticas. Por ejemplo, supongamos que los centros pblicos y privados difieran en la eficacia (distintos puntos de corte). Entonces, el modelo para el micro nivel sera el que venimos planteando en la ecuacin 2.4:
y,, =

Obsrvese que ahora po, no es la diferencia entre la media de la escuela j y la media general, sino la diferencia entre la media de la escuela j y la media de las escuelas que son de su niismo tipo (bien pblicas, bien privadas). El modelo completo es el que quedara expresado e n la ecuacin 2.19:

p,,,t P,,x,, t E,,.

donde x,, es el nivel socio-econrnico de los alumnos.

Sin embargo, el problema que estamos planteando supone la incorporacin de un predictor propio del nivel macro, en este caso las escuelas, que es su titularidad, siendo T.t; = O, el valor asignado para los centros de titularidad pblica y I.t;= 1 el valor asignado para los centros privados. Dado que hemos determinado que la titularidad afecta a la media del rendimiento acadniico, o lo que es lo mismo, al punto de corte, el desarrollo del modelo en el segundo nivel quedara como sigue:

Se puede ver cmo se ha ampliado la parte fija del modelo al incorporar una variable predictora eri el segundo nivel, en este caso kinculada al punto de corte. Sigamos avanzando. Supongamos ahora que los centros pblicos y privados difieran tambin en la inequidad (distintas pendientes) adems de en eficacia. En este caso. la ecuacin 2.18 quedara planteada de la siguiente manera:

Bq, = Boo + Bol?

Po,

(2.17)

W, En la ecuacin 2.20 $e ha incorporado un trmino nuevo, que representa la influencia de la titularidad del centro en la inequidad. As, teneinos que filo es la inequidad inedia para el conjunto de esmelaspblicas. Y B,, es la tasa de crecimiento en trminos de inequidad para las escuelas fiiuadas. Como en ocasiones anteriores, ,u,, es la variacin residual en la pendiente de la escuela j, respecto a las escuelas de su mismo tipo de titularidad. El modelo general queda representado en la ecuacin 2.21:

o,,

La ecuaciii 2.17 incluye un trmino nuevo, /loIWJ, que representa la infliiencia de la titularidad del centro en el rendimiento medio de cada centro. De modo anlogo a como hemos venido dando significado a los parmetros del modelo, fi,,,, es el rendimiento acadmico medio para la poblacin de escurl(~spiiblicas, que es el vaya cuando 11.; = O, lo que ocurre cuando se trata de lor que toma /lo, escuelas pblicas. As, P,,, es la pendiente de esta ecuacin. representando el incremento que se produce en el rendimiento para la poblacin de escuelas piuadas. Por ltimo, /r,, sigue representando la variacin residual para la escuela j. As, el valor esperado para las escuelas privadas ser Do, t p,,,. La difei-encia en rendimiento medio entre e s cuelas pblicas y privadas sera /lo,.

1.a parte fija del modelo se ampla. Lo ms interesante es que en el trmino fi,,W,x,, se ha creado unavariable nueva (Wjx,j) que es una variable de interaccin entre niveles, que representa el efecto conjunto del nivel socioeconmico del alumno y de la titularidad del centro al que asiste. Esta es otra de las principales ventajas de los modelos multinivel, la posibilidad de probar los efectos entre niveles. Ya hemos mencionado la aditividad propia de estos modelos en la interpretacin. Si quisirainos saber, por ejemplo, cul es el rendimiento acadmico medio para la poblacin de escuelas

42

MODELOS JER~RQL'ICOS LIh'tAI-ES

privadas, no tendramos ms que sumar Do, y O,, . De modo anlogo, si estuviramos interesados en conocer el impacto que tiene la titularidad privada en la inequidad de los centros, sumaramos Bio Y Bii. En general, para cualquier nmero de variables tendramos para el niiel micro:

Usando una notacin ms compacta, podramos escribir:

donde E,, -N(O, u:). Obsrvese que u: es la vananza dentro de las escuelas, y la suponemos constante para todas las escuelas. Y para el nivel macro:

Tanto en 2.28 como en 2.29, si definimos un par de vectores de yBpO=BpgWOI, unos, x, , = [1,1,1,...,l I , W , , = [ l , l , l,..., ll,Bo,=Bo,x,,, entonces:

Bp, = i=oBP! u:, + Pfl, C


con E N O , u ) y p, N ( 0 , T ) . A cambio de crear un vector constante, tenemos una forma de tratar a todos los parmetros de forma equivalente como coeficientes. Ms adelante veremos que esto es otra ventaja. La distribucin de la variacin entre contextos es:

'

"

"

o,"",

u;,9,,"2,.,u,,l',,
1'2

. . . u? P ~ p

El nivel de medicin de los predictores y la relacin lineal o no con la variable de respuesta afecta a la foiniuque ebtos establece~l lacin del modelo. Si el predictor estuviera medido de forma ordinal podramos encontramos ante dos situaciones distintas. Podra ocumr que su nivel de medicin se aproxime al nivel de cuasi-intervalo,es decir, que el incremento de los valores de la variable de respuesta sea similar para todos los valores de la variable predictora. Por ejemplo, en la del relacin entre el nivel s o c i ~ c o n m i c o alumno y el rendimiento en matemticas podramos tener una relacin como la de la figura 2.7, que es una relacin prcticamente lineal. En este caso. se trata al predictor como una variable de intervalos.

REGRESIN DOS NnELES EN

45

Nivel socioeconmico

FIGURA. i . Relacin lineal nifre el rendirnienlo rnaternbtiro 2 y niivl socio-eronrniro.

Ahora bien, tambin podna ocumr que la relacin con la variable de respuesta no sea lineal, es decir, que las diferencias entre los vale res de la variable de respuesta asociados a dos valores consecutivos de la predictora no sean constantes, como se ve en la Figura 2.8:

tro o cualquier otra similar, es necesario realizar una codificacin de los distintos valores de la variable. Para eso se utilizan variables auxiliares o dummies, que sirven para denotar a que categora pertenece cada sujeto. Por ejemplo, una variable d u m m para la cate~ gora 'hombre' sera una variable dicotmica que toma el valor 1 para los hombres y el valor O para las mujeres. Una dummy para la categora 'mujer' tomara los valores complementarios, es decir, 1 para las mujeres y O para los hombres. Cuando se utilizan variables duinmies pueden codificarse de dos maneras distintas: a ) codificacin d e contraste y b) codificacin completa. La c o d ~ j c a c i n contlosle utiliza una categora como referencia de base. Por tanto, los parmetros de las dems categoras indican la diferencia respecto a la base. Tendremos tintas variables dummies como el nmero total d e categoras menos uno. Pensemos por ejemplo e n iin modelo en el que la variable predictora es el estado civil (EC) (cuyos niveles son 'soltero', 'casado' y 'viudo') y la variable criterio es el nivel d e ingresos (y,). Si asumimos la categora de 'soltero' como la base, la codificacin d e contraste vendra dada por:
T.Uw 2.2. Codljiracin de contraste pam la uwiable 'estado civil:

Rto. Matemticas

: .. ... ......., .

Soltero
......... ... .

Casado

Viudo

S,,",,,,

Nivel sociwconmico

Iiriaginemos una posible muestra de sujetos con la siguiente distribucin, va codificada:


T*BL% 2.5.

FIGLRA &lo.cin no lineal entre el ~endimi~nro 2.8. rnatemliro y nivel socio-econmiro. Al ser la relacin no lineal, lavariable predictora se tratar como una variable categrica. Cuando los valores del predictor slo denotan categoras distintas como por ejeniplo el estado civil, el sexo, la titularidad del cen-

Dufnbucin hipottica & sujetos para la variable 'estado rii,il' rodrficada con contrrnte.
1

Sujeto
EC
Xc,,,*,

2
C

3 S

4
V

6 S

C
1

o
1

o
1

XV,","

o o

Si formulramos un modelo en dos niveles, el iiivel micro sera el nivel de los individuos y el nivel macro sera el del grupo familiar. .&:

El modelo entonces quedm'a formulado de la siguiente manera:

P,, = A + p t ,

(2.34)

B,, = B,, + P,,

(2.39)

Donde &, es el nivel medio de ingreso de los solteros del grupo familiar j, P,, es la diferencia entre el nivel medio de ingreso de los casados y los solteros del grupo familiar j. Y Pul es la diferencia entre el nivel medio de ingreso de los viudos y los solteros del grupo familiar j. Efectivamente, recurdese que B,, es el valor que toma u,, cuando los dems trminos de la ecuacin son cero. Y esto ocurre cuando x, = O y x, = O, es decir, cuando el sujeto es soltero. Si quisiramos conocer cul es el nivel medio de ingresos de los casados del grupo familiar j, no tendramos ms que sumar los coey Pc,.De igual manera, para los viudos, calcularamos ficientes O,, + B,,,. Si quisiramos conocer cunto se diferencian los ingresos medios de los solteros del grupo j, de los ingresos medios de todos los solteros, no tendramos ms que conocer el valor estimado de p,, . La misma situacin se repetina para casados y viudos con p,, y p , , respectivamente. Naturalmente, la diferencia de ingresos entre casados y viudos vendra dada por la diferencia de los respectivos parmetros

o,,

La cod2ftcacin compkta emplea tantas dummies como categoras tenga la variable predictora. La codificacin completa del ejemplo anterior sera:
TABLA Cud~ficactncompleta p a r u l variable B l a d o ci~iil: 2.4. a

(Po, + B,)

(Po, + B,)

Bc, + P,,.

Por supuesto, al cambiar la codificacin cambia tambin la significacin de los parnietros. Ahora no hav un intercepto conin. Ahora hay en realidad tres interceptos distintos, uno para cada una de las categoras. As, el nivel medio de ingreso de los solteros del grupo familiar j viene dado por B,, el de los casados de un grupo familiar j sera Pn v el de los viudos del grupo familiar j sena B., La diferencia entre los niveles medios de ingresos de solteros v casados sena la diferencia entre los valores medios de ambos grupos, es decir (8,- p,). Si quisiramos conocer cunto se diferencian los ingresos medios de los solteros del grupo j de los ingresos medios de todos los solteros, no tendranios ms que conocer la estimacin de p,? Siguiendo la lgica de la extensin de los modelos, podramos aadir otros predictores. puesto que los grupos ('solteros', 'casadoi' 'viudos') no se diferencian nicamente en funcin de su media de ingresos, sino tambin en cmo otras variables influyen en sus ingresos. Se podra considerar por ejemplo, cmo la experiencia laboral (X,) influye en los ingresos de solteros, casados y viudos. En la prctica es como si tiiviramos tres ecuaciones separadas, una por cada grupo, solteros, casados, y viudos:

Casado

En la prctica, la codificacin de contraste se usa habitualmente para la parte fija, y la codificacin completa para la parte aleatoria, para modelizar la heterocedasticidad. Por ejemplo, la relacin entre nivel socioeconniico, sexo y rendimiento en matemticas en distintas escuelas (Gavina, Martnez Arias y Castro, 2004).

48

hfODF L O S JERU(VL ICOS I I N M E 5

EGRESIN

EN DOS Nn'ELES

49

En el mbito de las Ciencias de la Educacin es muy habitual utilizar las ecuaciones de regresin para puntuaciones tipificadas. La razn ei qiie niiichas de las variables utilizadas son medidas indirectas de constructos inobsemables. Estos constmctos carecen de unas unidades firmemente establecidas y generalmente aceptadas. As, la utilizacin de puntuaciones tipificadas convierte a esas variables en niagnitudes adimensionales, cuyos valores numricos simplerneiire ponen en relacin a los sujetos con un grupo normativo. Otra consecuencia importante es que entonces los coeficientes de las ecuacioiies se convierten en nmeros que expresan el grado de asociacin entre cada variable independiente y la variable dependiente cuando las dems independientes permanecen constantes. Pero ese nmero no tiene unidades, y se interpreta por tanto de un modo similar a como se hace con los coeficientes de correlacin. Sin embargo la prdida de la escala oiiginal de las variables tiene algunos inconvenientes importan tes. En las eciiaciones con variables tipificadas el intercepto es igual a cero. Es perfectamente posible que en un determinado fenmeno sea precisamente el intercepto lo que resulte invariante de un estudio a otro. Y esa informacin se pierde cuando no trabajamos con las variables originales. Por otra parte, los valores de los parmetros deben ser interpretados exclusivamente en trminos de incrementos de unidades de desiacin tpica en la pcblacin de referencia. Por ltimo, los parmetros pierden significacin sustantiva, convirtindose simplemente en nmeros abstractos qiie slo para los investigadores resultan expresivos. El mantenimiento de las escalas originales con sus propias unidades por su parte no deja de tener algunos problemas tambin. Supongamos una ecuacin de regresin en la que la variable i n d c pendiente fuese la altura medida en centmetros y la dependiente el peso medido en kilogramos.

Naturalmente podenios interpretar el intercepto simplemente como una constante sin ms significado, pero sera mucho ms conveniente poder interpretar ese parmetro en trminos sustantivos, como una propiedad real del fenmeno que estamos estudiando. Una solucin interesante consiste en centrar la variable independiente alrededor de su media. Eso hace qiie el valor cero de la variable independiente corresponda a la media en altiira de los sujetos. y sus valores son expresin del nmero de centnietros que cada sujeto se aparta por arriba o por debajo de la rnedia de altura del grupo. En este caso el parmetro po se convierte ahora en el nmero de kilos que cabe esperar que pese una persona cuya altura coincida con la altura media. Y p, ser el incremento en el peso esperado por cada centmetro que nos apartemos de la niedia de altura. En definitiva, se trata de que antes de comenzar a analizar nuestros datos tenemos que decidir qu significado querenios que tenadecuagan nuestro parmetros, y que codifiquemos las ~ariables damente. Por lo general, esto significa que la decisin que tomemos depender de que las variables independientes sean continuas o categricas. Con las variables independientes categricas, suponiendo que mantienen una relacin lineal con la variable dependiente, debemos codificarlas de modo que el valor cero corresponda a la categora que queremos adoptar como lnea de base. Por e-jeniplo.supongamos una ecuacin en la que la variable dependiente, 'RPlidimienta en Matemticas' estuviese en relacin con dos variables independientes categricas, como 'Nivel de estudios de la madre' y 'Nivel socioeconmico familia7'. En la Tabla 2.5 presentapodran tener estas variables. mos la codificacin original T ~ 2.5. u Vdlores originales
Codifirarin dr fnr uaBabies.
-

Nivel socioeconmico familialI

Nivel de estudios de la madre

<Cules el significado de los parmetros Po y P,? En el caso del segundo, se trata del nmero de kilos que aumenta el peso esperado por cada centmetro de incremento de la altura. Pero, y el otro ; parmetro? Suvalor ser, por definicin, el valor que adoptael peso cuando la variable independiente vale cero. En este caso estamos hablando del nmero de kilos que cabe esperar que pese una perscna cuando su altura sea cero centmetros.

MUYbaio , ,

2
3
4 5

Bajo Medio
Alto

Muv alto

Sin estudios Primarios incompletos Certificadode escolaridad Graduado escolar Bachillerato Ttulo universitario

50

MODELOS JEF~RQCICOS LINEALES

Suponiendo que existiese tina relacin lineal de estas variables con la dependiente, podramos incluirlas en la ecuacin de regresin. Pero el significado del intercepto entonces sera poco claro. Sera el rendimiento esperado de aquellos sujetos cuyo nivel socioeconmico fuese cero, y cuyas madres tuviesen nivel de estudios cero. Ninguna de esas dos categoras existe, por lo que ese parinetro se convertira en una referencia fija respecto de la que las pendientes se interpretan como incrementos. La solucin mi? inmediata es recodificar estas variables para que la categora de referencia tenga asignado el valor cero. Aiiora el intercepto se interpretar como el rendimiento esperado de los alumnos de nivel socioeconmico muy bajo y cuya madre no tiene estudios. Cabe la posihilidad de que, aunque ahora los parinetros tienen una interpretacin sustantiva, esosvdlores sean muv infrecuentes en la poblacin, transmitiendo entonces la ecuacin una impresin poco acorde con la realidad. En ese caso parece lo ms conveniente centrar la variable alrededor del valor inodal. Eso quiere decir que el origen, el cero de la escala, corresponder con la categona de mayor frecuencia en la poblacin estudiada. Aiiora el intercepto c o rresponder al valor esperado en rendimiento de los sujetos cuyos valores en las variables independientes corresponden con la categora modal. En IaTabla 2.6 siguiente tenemos un ejemplo de la c o diicacin modificada. Algo similar ocurre con las variables continuas. Es posible que aunque la escala comience en cero. ese valor no exista en la realidad. El caso ms claro coincide ccin el ejemplo que hemos presentado antes. No hay ningn individuo que pese cero kilos o que mida cero centmetros. En casos como estos conviene utilizar como origen de las variables independientes un valor central, de modo que el intercepto correspoiida con el valor esperado de los sujetos de caractersticas medias. Sin embargo, con las variables continuas es posible que el ceiitrado se realice con referencia a la media general, o a la media de cada gmpo. La oportunidad de cada una de estas opciones y sus consecuencias son muy distintas en cada caso. Eu primer lugar. cuando deseamos poder comparar unas unidades de nivel dos coi1 otras, por ejemplo unas escuelas con otras, utilizaremos como referencia la media general de la variahle independiente. En ese caso el valor del intercepto propio de cada escuela

TABIA 2.6.

Codificocin niod~$cnda de las vo~iobles.

Niwl Nivel Cdtegoria Categoria Categora de esmdios socirr ms baja inodal como modal como de la madre ecoiimiio refereucia referencia como \'alores de EstMad familiar (SES) (EstWad) de SES originales referencia 1
O

-2

-3

Muy bajo

Sin r~tudios

O
3

-1

Certificado Graduado escolar Bachillerato

1
2

O
-

,Alto

htuv alto

univenitario

corresponde con la media posterior ajustada. Es lo que hacenios en el caso particular del anlisis de covarianza. En el siguiente ejeniplo, suponemos que x est centrada respecto de la media general. corresponden con el valor esperado En ese caso los valores de p<iJ en y para aquellos sujetos del gmpo j cuyo valor en la variable independiente coincide con la media general. Es, como ya hemos dicho, lo que eii anlisis de covarianza se conoce como medias ajustadas. En efecto, ohsnzese que estamos asumiendo que la pendiente es la misma para todo5 los grupos. Es perfectamente posible que en un grupo determinado no existan sujetos con ese valor central de x. Pero la media posterior indica el valor que cahria esperar en el caso de que los huhiese (Figura 2.10).

*En qu condiciones el centrado se realizara, no respecto de la media general. sino de la media del gmpo? <Yqu significado tendran entonces los parmetros?

Si centramos las variables independientes respecto de las medias de cada grupo, como primer resultado tendramos que la media en los nuevos valores de los predictores para todos los grupos sera cero. Sin embargo esos valores tienen una referencia totalmente contextual. Una codificacin de este tipo tendra sentido cuando la informacin relevante est concentrada no en el valor absoluto de la variable, sino en la posicin relativa respecto al grupo. Una representacin grfica de los efectos de la distinta codificacin puede verse en las figuras 2.9 a 2.12. En la primera de estas figuras tenemos representadas las relaciones hipotticas entre una variable independiente y una variable dependiente en dos escuelas distintas, identificadas por el color negro y el gris, con los datos en la mtrica original. Comprobamos que tanto el intercepto como la pendiente es distinta para las dos escuelas.
FIGURA2.10. R@resentacin de lar medias obsmuadas y lar medias
ajustadas en, u n modelo de coiiananza.

R G U R ~ Representacin de lar rectas de regesin de dos macro 2.9.


unirlades dirtintar.

En la figura 2.10 vemos el efecto del centrado de la variable independiente respecto de la media general. Adems, se asume que la pendiente de las dos escuelas es la misma, salvo por diferencias aleatorias. Por consiguiente se obtiene una pendiente comn para las dos escuelas, y con esas rectas obtenemos las medias ajustadas,

cuyo significado ya ha sido establecido en un prrafo anterior. En el caso concreto que se representa, comprubese que aunque la media observada de la escuela negra es mayor que la de la escuela gris, los valores de las medias ajustadas invierten el orden. Esto quiere decir que un sujeto con valor medio en la variable independiente tendra mejor resultado esperado en la escuela gris que en la negra. En la figura 2.1 1vemos el efecto del centrado respecto de la media de cada grupo. El efecto es un desplazamiento de las rectas de regresin a lo largo del eje de la variable independiente. Se mantienen las medias originales en la variable dependiente de cada grupo, as como la pendiente propia de cada escuela. ?Cmo se interpretaran estos datos? Dmonos cuenta de que slo en algunos casos tendr sentido esta codificacin. Por ejemplo, imaginemos que los grupos son en realidad pases distintos, que la variable dependiente es la renta individual, y que la variable independiente es el nmero de aos de escolarizacin. Si fuese cierto que el efecto de la escolarizacin sobre la renta es diferencial, es decir, que lo que afecta a la renta de los individuos no es ianto el nmero de aos totales de escolarizacin, sino la diferencia entre sus aos de escolarizacin y los aos de escolarizacin del resto de la poblacin, entonces esta codificacin tendra sentido. En efecto, en el pas representado en

54

MODELOSJ E R ~ Q U I C O S LINEALES

poder de compra de un dlar en .&rica central, por poner dos casos extremos. En este caso nos interesa comparar de modo que no slo la escolaridad est referida al contexto, sino que tambin la renta est referida de este modo al contexto. De un modo muy intuitivo es lo que se presenta e n la figura 2.12. Las rectas que comparamos son las que se cruzan en el centro de la grfica. De hecho, lo que escaracterstico de este supuesto caso es que en el pas representado en gris tiene un efecto mucho mayor sobre el poder de conipra de los sujetos cada ao extra de escolaridad respecto de la escolaridad media que en el pas representaclo en negro, por lo que cabra esperar una actitud ms receptiva a la continuacin de la e s colaridad en el primero que en el sepindo.

FL<:URA 1 . Ejeto drl centrado respeclo de /a w~edin grupo. 2.1 del

negro vemos un nivel inicial de escolarizacin media y de renta superior al pas representado en gris. Por las pendientes iniciales vemos que afecta ms la escolaridad sobre la renta en el segundo que en el primero. Ciertamente, segn este modelo el nivel de renta se ve afectado no tanto por el nmero absoluto de aos de escolaridad, como por la diferencia respecto del entorno. En otras palabras, el estatus social de iina persona con 10 aos de escolaridad en iin entorno en el que la media es 5, puede scr tan alto como 15 aos de escolaridad en un pas en el que la media es 10. Con esta codificacin nues tra atencin se centra en la comparacin de las pendientes de los dos grupos y los valores absolutos de renta asociados a las escolaridad diferencial. Por otra parte, es posible que tambin la tariable dependiente deba ser centrada respecto de la media para que tenga verdadero sentido. Continuando con el ltimo ejemplo, suele ser habitual que cuando se compara la renta de distintos pases se haga utilizando el llamado 'PurchasePowmParity', o 'Poder de compra equiparado'. La idea detrs de esto es que en pases con distintos niveles de desarrollo, una misma cantidad de dinero puede tener distinto significado. El poder de compra dc un dlar en USA es menor que el

FIGL'RA 2.12. Ejcto del centrado respecto & la mrdia & / p t p o en la variable dependiente e i n d e p ~ n d i ~ n @ .

Ciertamente la decisin acerca de qu tipo de centrado o codificacin de las variables adoptar depende totalmente del problema sustantivo que estemos estudiando. La regla de oro es que debemos utilizar aquella codificacin que facilite la interpretacin de los parmetros obtenidos, en trminos de los conceptos centrales de la Lecra en la que nos desenvolvemos. Conio siempre, no hay tcnica ni regla estadstica que sustituya a la teora y el buen srntido.

REGRESION EN DO5 NII'ELES

57

Uno de los supuestos ms importantes del modelo es el que establece que la wrianza entre las unidades de primer nivel dentro de las unidades de segundo nivel es constante y, por tanto, independiente de cualquier predictor. Pero en ocasiones nos encontramos con fenmenos el1 los que los datos no cumplen con este supuesto. Por ejemplo, es frecuente que dentro de las escuelas las chicas tengan rendimientos ms homogneos que los chicos. Por tanto tenemos que modelizar varianzas de residuos de nivel 1, distintas para chicos y para chicas. Esto es especialmente importante cuando existe la posibilidad de qiie algunas escuelas sean slo de chicos o slo de chicas. En esas escuelas, la varianza interna, la del primer nivel, tomar un valor ii otro en funcin de si se trata de un tipo u otro de escuela. En este caso, tendramos tres variables predictoras distintas: nivel sociweconmico (x,), grupo masculino (x,) codificando O para las chicas y 1 para los chicos y grupo femenino (x,") cm diiicndose O para los chicos y 1 para las chicas. Conviene en este caso, como ya se seal, utilizar la codificacin de contraste parala parte fija y completa para parte aleatoria. En este caso concreto el modelo quedara como sigue:
.-

en la variable dummy x,,,), la varianza en el primer nivel es la suma de la varianza de los chicos mas la varianza de las chicas. De forma natural surge una pregunta: icmo podemos saber si debemos modelizar varianzas distintas para determinados subgrupos en el primer nivel? La respuesta es obvia. Si el modelo con dos (o mas) varianzas distintas en el primer nivel ajusta igual de bien que el modelo con una sola varianza, debemos quedarnos con este ltimo. Si el ajuste mejora significativamente. deberemos quedarnos con el modelo con mayor nmero de parmetros. Y eso nos lleva al siguiente punto.

.J ."

+
a;

Ntese ahora que Bu, representa al rendimiento medio para las chicas con nivel socio-econmico m& bajo. O,, es el incremento que se produce en el rendimiento para las chicas cuando aumenta el niphu,representa el incremerito que se produvel soci~econmico. ce en el rendimiento por ser chico. Y por ltimo, B,,, es la diferencia entre el incremento del rendimiento por nivel socio-ecorimico de las chicas y el de los chicos. As, lo que aumenta el rendimiento de los chicos en la escuela j para cada unidad de nivel socio-econmico es p,,, y lo que aumenta el de los chicos para cada unidad del nivel socio-econmico es (p,, + B,,,). Ahora bien, lo ms interesante de este modelo es la estructiira aleatoria definida para el micro nivel, que refleja una varianza entre sujetos diferencial para chicos y chicas (a: y a:m). Se relaja as el supuesto de que la varianza en el primer nivel es constante y comn para todos los sujetos. Como la codificacin es excluyente (iiingin alumno que es chico tiene un 1

~'S<

,.~
,$

Ha:

La interpretacin de los modelos multinivel pasa, como en cualquier modelo de regresin, por dos cuestiones: el anlisis de la significacin de los coeficientes del modelo y el anlisis del ajuste global del modelo. La primera cuestin responde a la pregunta <es estadsticamente significativa la aportacin de este predictor? La segunda responde a la pregunta iaporta este modelo (con x predictores) infoiniacin significativa comparado con el modelo nulo (modelo que no incluye ningn predictor, en ingls denominado "enpty rnodrl") o cori otro iiiodelo alternativo? Ambas decisio nes -mantener o eliiriinar un predictor y manteuer o eliminar un modelo- estn ntimamente relacionadas, puesto que no puede haber modelos significativos que incluyan predictores no significativos. La significacin de un predictor viene dada por la ratio entre el estimador del parmetro y su error tpico. Los estimadores siguen una distribucin f con infinitos grados de libertad. La regla general para determinar la sigriificacin de un predictor es que si el valor del mencionado cociente es mayor que dos, el coeficiente ser significativo ( p < 0,05). . considerar la significacin de un modelo, lo primero que se M debe destacar, es que este proceso no supone una decisin nicamente tcnico-stadstica. Los modelos deben ser coherentes con la teora o hiptesis que los genera y esta consideracin no se dehe quedar fiiera a la hora de determinar su ajuste. El estudio del ajuste se hace siempre comparando dos modelos que deben ser anidados. Un modelo est anidado respecto a un se-

gundo, si el primero puede obtenerse igualando a cero algunos parmetros del segundo. Dicho de otro modo, el primero es un caso particular del segundo. Segn esto, el modelo nulo, o modelo de varianza one-way de efectos aleatorios que vimos en otro punto, est siempre anidado respecto de cualquier modelo alternativo. Si en el niodelo nulo no hay varianza estadsticamente distinta de cero en los riiveles micro y macro, ningn modelo alternativo ajustar significativamente mejor que el nulo. Si un modelo no tiene diferencias significativas con el nulo, debe rechazarse. Es posible que dos modelos distintos tengan diferencias estadsticamente significativas respecto del modelo nulo. Entonces es iiecesano coinpararlos. Por el principio de parsimonia debemos quedarnos con el que tenga menor nmero de parmetros, por el de mejor ajuste, debemos quedarnos con el que ms varianza explique de modo significativo.Si estin anidados podremos compararlos. Si no hay diferencias significativai nos quedaremos con el de menor nmero de parmetros. Si las hay, nos quedaremos con el de mayor numero de parmetros. Para llevar a cabo la comparacin hacernos tiso de la razn de verosimilitud. La estimacin de los parmetros se realiza por mxima verosiniilit~id.L, es el valor del mximo de la funcin de verosimilitud en la estiniacin de los parmetros del modelo 1. Y L, es el mximo de la funcin de verosimilitiid para el modelo 2. Este segundo modelo est anidado en el primero, por tanto la razn de verosimilitud es: 2
-

Supongamos que tenemos dos inodelos alternativos. El modelo hl, con m, parmetros y el modelo hl, con m, parmetros. El nmero de parmetros que se aaden (p) es m,-m,. Siendo Do y DI sus respectivos valores de 'Dn~zance'. diferencia entre ellas se emLa plea como prueba estadstica con una distribucin x2 con m,-m, grados de lihertad. Si esa diferencia es significatixa,nos qued'uemos con hl,, v con M, eii el caso contrario.

Ll L?

siendo

Nmero de parmetros de diferencia.

En los programas, de forma rutinaria, aparece al final del p r e ceso de estimacin el valor de este estadstico, al que se le denomina 'Dniirincr'

En un modelo multinivel hay dos tipos de parmetros: los parmetros fijos y los parmetros aleatorios. Los parmetros fijos c e rresponden a los efectos medios en la poblacin. Se trata del intercepto y de las pendientes. Los parmetros aleatorios corresponden a las vananzas y covarianzas de todos los niveles. En la literatura a veces se habla de la estimacin de un tercer tipo de valores. Se trata de los residuos de nivel superior. Nos referimos a los po,, P,,, . . . de cada unidad del nivel macro. En realidad, si estimamos los parinetros fijos, la estimacin de los valores de po,, P,,, etc. consis~e en obtener valores para /A,,, p , , , etc. Aunque se dice que se estiman estos valores, en realidad no son parmetros del modelo. sino variables latentes. Desempean en este modelo el misino rol que las puntuaciones factoriales en el modelo de factor comn. Desde un punto de vista cientfico, de estudio de las estructuras generales de los fenmenos, no interesan mas que los parmetros del m e delo: las cargas factonales en el modelo de factor comn; los parmetros fijos y aleatonos en el modelojerrquico lineal. Desde este punto de vista no son de tanto inters las puntuaciones que a cada sujeto podamos atribuir a cada factor. Pero cuando queremos formular juicios sobre entidades individuales, sujetos en el modelo de Factor comn, o escuelas u otra clase de agrupaciones en el modelo jerrquico lineal, entonces nuestro inters se dirige a las puntuaciones factoriales, en un caso, 0 a los residuos de segundo nivel en el otro. Por eso, aunque estas variables no son estrictamente parmetros del modelo, estudiaremos en este captulo el modo de obtencin de valores, que por extensin, se suele denominar 'estimacin'. Debemos distinguir entre mtodos de estimacin y algontmos de estimacin. Uii mtodo de estimacin consiste en un conjunto

d e reglas y principios cuya aplicacin da lugar a una ecuacin o s i s tema d e ecuaciones que ponen e n relacin los datos con el parmetro buscado. Los algoritmos d e estimacin son mtodos d e clculo que, generalmente por medio de iteraciones sucesivas, permiten obtener solucio~ies para esas ecuaciones. Hay tres mtodos para obtener estimaciones de los parnietros. El mtodo de niximaverosimilitud (ML, ~ i n x j m l ~ n Likelihood). el m& todo de mximaverosimilitud restringida (REML, Restrirfed hfa~laximun Likelihood) y la estimacin bayesiana. Los dos primeros mtodos son equivalentes en lo que se refiere a la estimacin de la pnrte fija del modelo (los coeficientes d e regresin). Sin embargo en la estimacin d e la parte aleatoria, el mtodo ML produce una estimacin sesgada debido a que no tiene en cuenta la prdida de grados de libertad que se produce cuando simultneamente se estiman los parmetros de la parte fija. Por este motivo, siempre que el nmero de unidades del nivel macro sea inferior a 30 es d e preferencia el mtodo REML. La estimacin bayesiana por su parte consisten e n integrar nuestros conocimientos previos respecto d e los parmetros a travs de la distribucin a priori. La combinacin d e esta distribucin con la funcin d e verosimilitud da lugar a la distribucin a posteriori, que es, de algn modo, la expresin d e nuestras creencias respecto alos valores de los parmetros una vez que hemos asumido ia evidencia que proporcionan los datos. Cuando se desee comparar dos modelos utilizando la razn d e verosimilitud, entonces conviene que ambos hayan sido estimados siguiendo el mismo metodo. Especficamente, si los modelos que coniparamos difieren en su parte fija, el mtodo d e preferencia es ML. Si es la parte aleatoria e n la que difieren entonces haremos uso de REML. En cuanto a la estiniacin puramente bayesiana, ciertamente hahra quien por principio sea la nica que utilice. Pero en cualqiiier caso, es el proccdimiento ms recomendable cuando tenemos muy pocas unidades de nivel superior. Es el proccdimiento por defecto utilizado en el programa BUGS. Respecto de los algoritmos, podemos decir que los nis importantes son EM (Exprctntion-Maximizath),Fishmscoring, lGLS (Iterntlue Generalized Leas1 Squares) y RIGLS (fistrlcted ZGLS). Estos mtodos se diferencian en la forma concreta e n que buscan la solucin a las ecuaciones establecidas por el mtodo elegido. Pero en gene-

ral, todos ellos proporciouan los mismos resultados. En algunos casos. y en funcin d e la naturaleza de los datos, alguno puede ser nis eficiente, e incliiso es posible que alguno no llegue a la convergenciamientras que otro slo hace. Pero la naturaleza exacta de los prrr cedimientos de clculo es algo que va ms all del alcance de esta obra, y que a efectos prcticos no debe preocupar en exceso al lector, puesto que no importa cul sea el programa estadstico del que haga uso, el algoritmo iniplicado producir estimaciones iguales a las o t m alternarivas. Slo en el caso en que estnicturas muy complejas de datos dificulten la convergencia merece la pena plantearse probar con otras alternativas. Para una aproximacin intuitiva a la estimacin podemos considerar dos casos distintos: cuando conocenios el valor de las varianzas y el caso, mucho mis frecuente, en el que no conocemos el valor de ningn parmeuo.

2.8.1. Eslirnacin por puntos de los rfeciosjijos2 Supongamos el caso ms rimple, un ANOV.4 de efectos aleatonos, U: y u;,,.El modelo es:

y que conociaemos

y,= Po, + 5,

E,,

- N ( O ,u:)

(2 44)

El parmetro que tratamos de estimar es Po,que es la media general en la variable de respuesta para el conjunto d e la poblacin. La situacin d e anlisis que tenemos supone varias unidades d e nivel 2, de las cuales conocemos su media y el nmero d e sujetos. Ahora bien, podemos tener dos casos exrrenios: que los tamaos muestrales sean muy distintos entre s (n,) (Figura 2.14) o que sean iguales. y por tanto n, es igual a n qiie es una constante (Figura 2.13). Estas dos situaciones dan lugar a dos estimadores distintos, cuyos valores constituyen los lmites entre los que se encuentra el qiie nosotros vamos a utilizar. Comenzamos por el caso de igual nmero de unidades en cada unidad de segundo nivel.

Piiedr umicirsr pare apairado riu pCrdida de continiiidad

6'2

MODELOS J E R ~ ~ Q U I C O LINEZLES S

Frcuw 2.1S. Distinfns unidndes de s e p ~ n d o niuel ron ta>riaos meshalts i g u n b ~ .

Como enseguida veremos, entre estos dos valores est un tercer estimador que se basa en iina ponderacin que utiliza la cantidad de iriformacin que tiene cada muestra o escuela. Es el estimador de mnimos cuadrados ponderados (U'LS, Weighted Lemt Squares Estimatm). Para definir este estimador tenemos qiie determinar con cuanta precisin la media de cada escuela estinia el parmetro bu. En 2.44 y 2.45 est clara la relacin entre F v b,,.En efecto, si tia,. cemos la media eii la ecuacin para el primer nivel obtendraiiios:

y.,

boj + E,,

donde

E., - N

(~.48)~

Si substitiiimos en esta ltima ecuacin la del segundo nivel o b tenemos:


-

Y.,

Po + (PO,+ El/)

(2.49)

FIGLIR* 4. Dislintns unidddes rlr segundo niuel ron ta,r~aos 2.1 m e s f r n l di/Pmtes. ~~

El proceso para obtener una estimacin puntual de bu para el caso de tamaos muestrales iguales es el siguiente. Consideramos que cada y., es una estimaciii independiente de /3,. Por tanto, una estimacin razonable de b,, es:

Donde )i, es el estadstico con el que queremos estimar DO que es el parmetro, y (p,,,+ E,,) es el trmino de error, que tiene dos componentes. 7.) es un estimador insesgado de /&. Las medias de las distribuciones de poj y E,j son iguales a cero. Naturalmente en cada muestra tenemos un valor de F.,. Pero no todos ellos sou igual de buenas estimaciones de Do. La bondad de como estimador de bo depende de la varianza de cada uno de ellos. Si un estimador tiene mucha mrianza, hay mucha incertidumbre respecto al parmetro. La varianza del estadstico y.) es:

Para el caso d e tamaos muestrales distintos, partimos de los mismos supuestos al considerar que cada )i, es una estimacin independiente de b,,.Ahora bien, la estimacin ahora habr de considerar los tariiafios muestrales distintos, siendo una estimacin razonable:

ya que PO es constante. v como p,,, y E,, son independientes entre s. Entonces:


3 Recordemos qur cuando uiia variahle rieue una diarcibucin normal. la dislrihurii>n muec tral de la media Uerie iiiia distribriciri riumal cuya variariza es la wtianza de la poblacihn di*dida por el ramao rnrirstral.

MODEI.0S JE&QI!ICOS

LINEALES

Donde o;, es la varianza entre los grupos o unidades de nivel dos, y o:/n, es la variariza dentro de los grupos. Tenemos qiie u;,, es constante para todos los grupos. y en cambio o,?/nj vara de un gnipo a otro. Llarnamo~A,
=

Pero cuando los sujetos dentro de las escuelas son muy parecidos entre s, v casi toda la varianza es varianza entre las escuelas, o,' o,:.)),

o;"+

o;

a la varianza del estimador.

(2.52)

Es claro que la precisiii puede rnedirse por el inverso de la variariza del estirnadoi-de cada grupo ( A ; ' ) , siendo entonces: Precisin (y.,
1 ) =-=

A;'

(2

A,
Si conociesemos cada A;', una soliicin natural para estimar ,Y, sera ponderar cada 5, por su precisin. Bieii, esta ponderacin es el denominado estimador de m,ininlos cuadrados ponderados (weight~d leas1 syuares eslznrato~):

2.8.2.

Estimacin por inlmalos de los coefici~ntesfijos del segundo niurl

Si la estimacin se realizai-a por inteivalos, la precisin del esties la suma de las precisiones de sus componentes. mador

b,,

Precisin

(Do)= CA:

(2.59)

Por tanto, su varianza ser la inversa: Como ya hemos adelantado, el estimador

/3; y ,Y:. En efecto. cuando todas la medias de las escuelas son igua= les, entonces o,:" 0 , y toda la varianza es variatiza entre sujetos-dentro de 1 escuelas. : s

& est siempre entre

Y el error tpico de su distribiicibn niiiestral ser la raz ciiadrada:


Entonces: El intervalo de confianza del 95% ser:

68

MODELOS J E R ~ Q U I C O SLINE.VES

Lo misnio podra decirse d e las varianzas v covariaiizas del segundo nivel. Eri la prctica se desconocen los dos conjuntos de parnietros la mavora d e las veces. Pero entonces se hace uso de una d e las propiedades d e los estimadores d e mxima verosimilitud: si en cualquier funcin d e los parmetros sustituimos a estos por los estimadores d e mximaverosimilitud, entonces la funcin resultante es a su vez un estimador d e mxima verosiinilitud, con todas sus propiedades estadsticas. Como consecuencia es fcil concebir un procedimiento iterativo a partir de esta propiedad. Por ejemplo, en una regresin simple,

donde

es igual al numero de parnietros fijos, en este caso p = 2.

2.8.4.

'Estimacin' ~ i 10s residuos e

y,

Su+ B, x,, + 5 ,

donde

E,

-~

( 0 , u:)

Si conocisemos los valores d e 13, y

/3,,

el residuo sera,

Luego n~

E&,

sera el estiniador de mxima verosimilitud d e u:. Pero, si como es habitual, no conocemos los valores d e Bu y podemos sustituirlos por sus estimaciones iiizkimo-verosmiles, y entonces 2.76 seguir siendo un estimador de mxima verosimilitud, con todas sus propiedade? estadsticas de consistencia y eficiencia. En esta propiedad se basan algunos procedimientos iterativos, como el IGLS (IierafiveCknmalzzed Lrmt Squures). La solucin 2.76 es el mtodo GLS (GE~i~ralized Squures). Cuando no conocemos Leml los valores d e /3(, y y,, ni la iananra d e los residuos. se procede como sigue: se asigna Lin valor proporcional a la variaiiza de los residuos, y se obtiene un valor provisional para los estimadores de la parte fija. En el siguiente paso tomamos loi estimadores d e la parte tija como si fuesen valores verdaderos, y volvemos a estimar la varianza, obteniendo ahora un valor ms aproxiiiiado al real. Tomamos ahora ese valor como real y se vuelven a estimar los parnietros de la parte fija. Se repite este proceso Iiasta que converja. Otros procedimientos, conlo E41 o Fishm scnng, utilizan mtodos semejantes. Una buena descripcin de los mismos puede encontrarse e n el captulo 1 4 del libro d e Raudenbush y Bryk (2002). Una ltima observacin. La expresin 2.76 correspondera a la estimacin ML. La estiniacin REML sera,

o,,

Como ya hemos indicado, los parmetros del modelo son los efectos fijos y las varianzas y covariaiizas de los efectos aleatonos. Por tanto, una vez obtenidos esos valores ya tenemos estimado el modelo. Sin embargo, en ocasiones resulta til obtener valores individuales, 'estimaciones' para los efectos aleatonos especficos de cada una d e las escuelas o unidades de segundo nivel. Este es el caso, por ejemplo, cuando queremos determinar cmo una d e estas unidades se coliiporta en comparacin con los valores esperados dadas sus caractersticas particulares. Es tambin el caso del 'valor aadido' cuando se quieren detectar unidades 'outlims', o e n general, siempre que se quiera realizar un juicio sobre unidades especficas comparando su deseiiipeo con el rendimiento esperado dadas sus caractersticas particulares. Se trata de estimar los coeficientes bu,,Bi1,. . . , en general, By,. En cada unidad d e nivel 2, hay u n conjunto Q de tales parmetros. En realidad, como =S,,t p,,, v /3, es un efecto fijo que y ha a sido estimado, estiiiiar B,, es estiiiiar el residuo p,,. Para ilustrar el proceso comenzaremos con los residuos del intercepto. Supongamos que y , es el valor observado para el estudiante i en la escuela j. v que j,, es el valor predicho sobre la recta de regresibn. El residuo bruto para este sujeto sera

rhJ y,, - V f 1 =

(2.78)

El residuo bruto para la escuela j ser la media de los residuos de todos los aluiiinos de esa escuela:

You might also like