You are on page 1of 52
Analisis Multivariante Aplicado Aplicaciones al Marketing, Investigacion de Mercados, Economia, Direccion de Empresas y Turismo EZEQUIEL URIEL JIMENEZ DEPARTAMENTO DE ANAUSIS ECONOMICO UnNiversITAT DE VALENCIA-IVIE JOAQUIN ALDAS MANZANO DEPARTAMENTO DE COMERCIALIZACION E INVESTIGACION DE MERCADOS. UNIVERSITAT DE VALENCIA-IVIE Contenido Presentacion 1. Introduccién 11 Introduceidin 1.2. Tipos de esealas de m Escala nominal dinal ede intersatlo ida Escala de ravi Otras chisificaciones 13. ici LF multivariantes, Té de dependencias Técnicas de anilisis de interdependencias 14. Proceso de aplicacisn de una nica multivariante Resumen ‘érminos clave is previo de los datos 2.1. Introduceisin 2.2. Valores perdidos : 2.2.1. Diagndistico de la aleatoriedad de los valores perdidos 2.2.2. Tratamiento de los valores perdidos 2.3. Outliers: Casos atipicos 2.3.1. Deteecivin univariante de casos atipicos 23.2. Deteccidin hisariante de caso atipicos 2.43. Detecciin multivariante de casos alipivos a4 Comprobacion de supuestos basicos del andlisis multivariante z Sowauvnsvenn = w ZREE OR RE © ITES-Paraninto VII + conTeNI00 jidad : 242 aa towiidad 342, Homose’ = SHG. Lancs <9 ggerv Sha Indepemencia He Resumen Termes eINe = Referencias bibliog : : s isi Jomerados is de cong 3. Analisi mae 31. Iniroduceie : ret jriables mévied » 3.2, Masti otal sail parva 32.1. Medichas de Jos binarios eee Median de simiaridadl par datos Pl 54 le Los datos cee aa rquico de conglomerad 3.3. Formacisn de los rece 3 supos: amilisis je 3 3.3.1. Metodo del ventroide ae : 6 3.3.2, Meteo de yecino ms Fe 6 3.3. Metodto del vecino mis Iejane + ol a Metxto de kt vi ulacion promedio: 63 5. etodo de Ward e olUCIOr Fe ein ade! mimero de conglomerados de fr solueién 65 3.2.6. Selec ie ine lis ne jeninquieo de conglomerados i S@ Rocmacion deo eniats ae aaa Je conglomerados 1 pos de aniilisis de cong oo peceea ie oe Gey ae Je conglomerados, 1% 3.6. Unejemplo de aplicacidn del andlisis de cong! ae Resumen ae 85 Términos clave . 86 Referencias biblingriiticas : 4, Escalamiento multidimensional pRmiReTeiRieiaie 87 4.1. Introduccién : See 8 4.2. Elalgoritmo basico del MDS ; 89 4.3. Recogida de datos en el MDS Serr 95 4.3.1, Similaridades directas a s 96. 4.3.2. Similuridades derivadas . fee OL 4.3.3. Consideraciones respecto a la recogida de los datos... ... 7 44, Tipos de escalamiento multidimensional 98 44.1. Escalamiento multidimensional clisico ...., a : 98 44.2 ‘ahamiento multidimensional feplicada: ss: e Wa 443. Escatamiento multidimensional Ponderado .. 105 444. Escalamiento multidimensional clasico desdoblado 110 Resumen Términos clave . tees tiie bya 2 rt tee case es M2 Referencias bibliogriticas Apendice 4.1. EL algoritmo ALSCAL, . 112 . oe see M4 5. Analisis de Correspondencias 121 3.1. Introduceién 5.2. Funcionamiento del . . . te Analisis de correspondencias © ITF S-Paraninto contenioo + IX 19. 5.4. Pintamenticton matensatiea sted anahas ake correspondenckis 2 Sak. Eh analists de Correspondencta pars mubiples. variables ee Resuinen i ‘crninos clave . i ay Reterenetas bibhayuaticas - Aisi: 143 5. Anilisis de la varianza oo = 6.1. Introduceicn ae 6.2. Analisis de fe vanianza con an factor : bs 62.1, Modelo e hipotests : oe 62.2. Otros aspectos del anaisis de Ha variansit i 6.2.4. Deseompasicroin de: ka variant : sees 6.24. Grados de lbertad y construccion del estadistico Po... 7 6.2.5. Caso especial Analisis de fa varianzal eon dos Brupos ie 6.2.6, Apheacion de los contrastes seis 180 6.2.7. Valulacion del modelo | oy 6.2.8, Anilisis ex-post: Comparaciones miiltiples + vives U8 6.3. Analisis de ki variunza con varios facteores pea 168 63.1. Modelo ¢ hipotesis eee ee 6.3.2. Descomposicton de fa varianza See 6.4.3. Grados de tbertad y construceidn del estadisticd . os seeee0+ 167 634, Medulas de los eleetos de tos Lactores 6.3.5. Modelo factorial completo ¢ incompleto. . i 6.3.6, Estimacidn de los efectos diterenciales y aniilisis ex-post 2 6.4. Diseno experimental: HI diseno por bloques oe. 60... 6ce+ zee 168 6.4.1. Diseno por bloques completos al azar. 177 64.2, Disefio de medidas repetidas seers 179 6.4.3. Diseno de cuadraclo latino pieces 182 Resumen Seats ‘Términos clave : sere 184 Relerencias bibliogriticas seeeeee IBS Andlisis multivariante de la varianza .. Peetiaiece ioe 7.1. Introdue . 188 7.2. Anilisis multivariante de la varianza con un factor»... sss cree 188 7.2.1. Modelo ¢ hipotesis Peace eee 8 7.2.2. Descomposicién de la matriz de covarianzas 189 7.2.3. Elestadistico lambda de Wilks See 191 7.2.4. Caso especial: Aniilisis de la varianza con dos grupos . 194 7.2.5. Validacidin del modelo, Pesce genic es 195 7.2.6. Analisis ex-post . : pea eeecaea eee 1O8, 7.3. Analisiy multivariante de la varianza con varios factores 207 7.3.1. Modelo e hips 207 7.3.2, Descomposicién de la matriz de covarian7as 208 7.3.3. Elestadistico lambda de Wilks . . 209 Resumen sear ahen enti aan: aweas Beery: >| Terminos clave... res ee a Reterencias bibliograticas ....... 26 X © CONTENIDO © ITES-Paraninto (20 ultiple an lineal multip’ — ai 2 ee : a ipl y sw esti in por minimos es cl med SE " S22 Flinodelo de 18 : ; : i motel : cat cat noo aie m aa ve autre el eet” ie a S22 TL Hipotesy et regres No etros De BA A THe eS cea as ; 84. Ses prt oT el sev esis vo Be ; sign y propies — rot ri Pe er mi S42, sma maz de ovaenny’® de los ae B23 Estmacion de fa Maur ee : 2 maids de ka bondadl de! as c Ee 8.5, Meus dE ente de determinacioe iy 2 eetcgeme de determinacion COmEEN °” 2 3 Estadistico AIC : = 8.6. Modelos no lineales 3 8.7, Multicolinealidad = 8.7.1. Detecci6n “ 8.7.2. Soluciones PA 8.8. Modelos con variables ficticias «=» oe . 8.9. Principios generales del Contraste de hipétesis --- > - i : 53, 89.1 P pormulaci de la hipstesis nula y de la hipore: salternativa , 253 Fo.2, Comstruccion del estadistico de cOnIFaSte «+++ 3 89.3. Regla de decisin para el contraste «= -°* name 8.10. Contastes de significacion en el modelo de regresiOn oo EOL, Contraste de un subconjunto de pardmetros «+ ++-+++-+++++ 256 810.2, Contraste de un pardmetro individual : 257 8.11. Conteastes de las hipétesis del modelo: normalidad y homoscedasticidad . 26) 8.11.1. Contraste de normalidad ae eer 262 8.11.2, Heteroscedasticidad 263 8.11.3. Contraste de White - fetes 264 8.12, Seleccidn automédtica de las variables del modelo . 20 8.12.1, Procedimiento stepwise (pasos sucesivos) ........ earl 8122. Procedimiento forward (hacia delante) . a 8.123. Procedimiento backward (hacia atrés) .......eeeeeeeeree 271 Resumen. .eseevseveee eee 0d Términos clave seve m4 Referencias bibliograficas m5 Anilisis discriminante 9.1. Introduccién ...... eeeeeen: 9.2. Clasificacién con dos grupos... 28 9.2.1. Clasificacién con dos grao ee a1 9.22. Clasiticacién con coe clasificadora ..... 281 : : ; _ Funcién discriminame de Fister variables clasificadoras .. . sn }2.4. Criterios alterativos de clasficacién Hl lea 11. conTeNino + XI 9.3. Inferencias Y céleulo de probubilidades en el andlisis discriminante ... 204 9.3.1, Planteamiento pean as 9.3.2. Contrastes de significacién y evaluacién de la bondad del ajuste i 9.3.3, Seleccisn de variables vetertstessesccgeeeses 298 idades de pertenencia a una poblacién .... 299 9.4. Analisis discriminante con mas de dos grupos ...... 309 9.4.1. Obtencidn de las funciones diseriminantes 309 9.4.2. Contrastes de signifi au Resumen . : 320 ‘Términos clave 320 Referencias bibliogrificas oe 10. Modelos de eleccién discreta .. 5 verre 323 10.1, Introduccin ........., ou 10.2. Modelos dicotémicos ... Coo 10.2.1, Planteamiento sees oat 10.2.2. Modelo de probabilidad lineal. 325 10.2.3. Modelos logit y probit ae 10.2.4. Funciones indice . . abate cciawrer : 3 10.2.5. Hipotesis, estimacién, medidas de bondad del ajuste y contrastes de los modelos logit y probit . 7 329 10.2.6, Efectos marginales e interpretacin de los coeficientes en los modelos logit y probit . gei2suie-ten 992 10.2.7. {Logit o probit? n 336 Modelos Logit multinomiales 338 Modelos logit ordenados . . . . 342 10s. Tablas de contingencia y modelos loglineales 10.5.1 10.5.2 Soe ads) Anilisis de tablas de contingencia de orden bidimensional . 346 Tablas de contingencia de orden 3 y superiores . +. 349 10.5.3. Elaboracién de los modelos loglineales 350 Resumen ...... : 363 Términos clave es a sees 363 Referencias bibliograficas .. . Componentes principales .. 11.1. Introduccién eae ee 11.2. Componentes principales de dos variables - it ae sata 369) 11.3. Obtencién de las componentes principales en el caso general y sus Propiedades ... 31 113.2 11.3.3 113.4, Obtenci6n de la primera componente Obtencién de las restantes componentes Varianzas de los componentes ..... .. Correlaci6n entre las componente: originales , ee 11.3.5. Puntuaciones sin tipificar y tipificadas Ntimero de componentes a retener 11.4.1. El criterio de la media aritmética ...... 11.4.2. Contraste sobre las raices Caracteristic: 114. 380 381 381 ‘as no retenidas . . © ITES-Paraninto XII + CONTENIDO 1143. c 114d. Reencion Resumen ‘Terminos clave <0 Referencias biblingraficas « Apendice 1.1 12. Analisis factorial .....----~ 12.2.2. 12.2.3, 12.3. 12.3.1 12.3.2. 12.3.3, 123.4, 123.5 125.1 12.5.2, 12.6, Resumen Términos ch 13.5, 13.6, 13.7, ©TES-Paraninto 1, Introduccién : 2. El modelo de andlisis factorial 12.2.1. Formalacién del modelo « ‘Métodos para la extracci6n de factores Contrastes en el modelo factorial... Rotaci6n de factores . Puntuaciones de los factores de sedimentaciOn - de variables. + : El grifico elementos de algebra lineal «> Hipotesis del modelo Propiedudes del modelo .- - Planteamiento .... 6+. +++ Matriz de correlacién reproducida . EI método de componentes principales El método de las componentes principales iteradas 0 ejes principales ....... . Otros métodos de ex Rotacién ortogonal Rotacién oblicua Para el ¢ hoe Comtraste a lobal del modelo. 14, contenioo « XIII Significatividad de los parametros .. . 469 Contraste de! multiplicador de Lagrange « 470 13.7.3. Contraste de Wald . a 13.8. Un ejemplo completo de AFC 472 Resumen . : a 1 it eae eee 485 bibliograticas ae 486 Apéndice 13.1. El problema de la indentificacién . 488 Ecuaciones estructurales: Modelos de estructuras de covarianza ....... Coeer eee eee te ete aeO, 14.1. Introduccién Gon 14.2, Formalizacién matemtica del MEC 493 14.3. Identificaci6n del modelo en el ME 500 14.4. Estimacién del modelo en un MEC.. .. ue 14.5. Bondad de ajuste del modelo estimado 507 14.6. Interpretacién del modelo 509 14.7. Reespeciticacién del modelo . .. 512 14.8. Un ejemplo completo de MEC . 516 : goiae 522 523 523 Introducci6n | 1.1, INTRODUCCION 1.2, TIPOS DE ESCALAS DE MEDIDA 1.2.1. Escala nominal 1.2.2. Escala ordinal 1.2.3. Escala de intervalo 1.2.4. Escala de razon 1.2.5. Otras clasificaciones 1.3. CLASIFICACION DE LAS TECNICAS MULTIVARIANTES 1.3.1, Técnicas de andlisis de dependencias 1.3.2. Técnicas de andlisis de interdependencias 1.4. PROCESO DE APLICACION DE UNA TECNICA MULTIVARIANTE RESUMEN TERMINOS CLAVE REFERENCIAS BIBLIOGRAFICAS 2+ ANAUS roxiueido un ga execimiento del us0 de las técnicas gy pn das 56 os de investigacin cientifica. Podrian ja aariantes en 1Od08 pero quizés las dos mas importantes sean le nf i. ein, 1984): en fas ulti cas mls pone pal Dillon y Goldst istic muchas 1 snes iemiicas 8 necesatio analiza lacion Mpg. La investigacion cientifica es Un proces i . aria ta Formulae jon explicita de las hipdtesis que despugs hay iy, Primero es ne recowida el andisis de Tos datos. Probablemente, ec a i ge las hipGtesis. En est PrOCeSO se adr si Meomplejidad de los fensmenos analiza tas y, por ellO, 148 investizacions sex guicates «Ba far mayorta de matinee 168 0 TES varial rat de comtrastarse 1m tox analisis sugieran Una modi te nan continuamente variables: - 7% Face que sean muchas las variables implicac necesariamente multivariantes. z : fi Joaurello de ordenadores con capacidad de almacenamiento y potencia de pro. roe ritente, acompariados de programas cada vez, mas facies de usar .s multivariante? La tarea no es sencilla, Muchos autores ia alternativa de mostrarlo como una extensisn del analisis bivariante. Bajo est perspectiva, el andlisis multivariante seria el caso general y i tevnicay univariantes o bivariantes serian los casos particulares de la anterior. De una manera algo mas formal, Kachigan (1991) define el andlisis multivariante com ls tan del aniliss estadistico que se centra en la investigaci6n simultinea de dos Sings caracteristicas (variables) medidas en un conjunto de objetos. En esta definicién ‘oluntariamente lava, el elemento central es la relacidn simultdnea entre las variables. Ex tris palabras, la técnicas multivariantes differen de las uni y bivariantes en que dirgen su alencién, no al andlisis de la media y la varianza de una variable, 0 a la correlaci6n et tre dos variables, sino al andlisis de las covarianzas 0 correlaciones que reflejan la rele ees Pero zeomo definir el ani (Tabachnik y Fidell, 1996) optan por entre tres © mas Variables. wn tee de ese ba, wilizaremos el térino objetos para referirnos a las pers =~ ss oentades de que se toma as dias, Las medidas, a las que casi siet™ ens relerireos como variables, sern las earacteristicas 0 aributos de los objetos que se consideran en la investig 1.2. TIPOS DE ESCALAS DE MEDIDA Medi es el proc con flartnst - ree de tosebon de : cual se asocian ntimeros 0 simbolos a determinadas i plo. a los inividuon se ey pando Co0 Teles preestablecidas (Sharma, 1996) PY jet cats se ude desi cn respec aerate om? 22 car esc » l género o la pret is ze car escalas adccua eps ono ae escalas adecuadas para medit evay fy retell por una marca u otra, y se debe" cas, EL ipo de escal para ina variable es fundamental en Ia elece! escala wtilizado sac Poe i ara medir una f a in correcta del anilisis multivatiante. stats aa jon y ngresos HEMP | leremos establecer si JEMPLO 1.1, Si queremo lecer si exis sre un individu ne entre el nivel de i su edad, educac ‘ducacion 0 género, no serd lo mismo SWS Ty. i Ja med cnte en euros, e + que Si se recurre a una escala donde ‘© MTES-Paraninfo ~ plsssstoseoeeeesnaa BEMPLO 1.2. EJEMPLO 1.3. CAPITULO 1 INTRODUCCION + 3 ci6n se hace por intervalos: 1 = [0,600], 2 caso podremos recurrir a CUrTiF & Una Fepresid }601, 1200] y 3 = [1201, ce]. En el primer regresiGn lineal, en el segundo, probablemente debamos re- logistica multinomial, Stevens (1946) consideré que cualquier eseala de medida puede clasificarse en algu- no de loy siguientes cuatro tipos: nominates, ordinales, de intervalo o de raz6n. Esta cla- sificacion ey la mas extendida y serd la que adoptaremos en este texto. Sin embargo, como indica Sharma (1996), no podemos dejar de sefialar que la aplicacién de esta clasificaci6n Sigue generando debates no resueltos en la literatura estadistica (puede consultarse Velleman y Wilkinson (1993) para mas informacién) 1.2.1. Escala nominal ‘ omo etiquetas, Fn este caso, los ndimeros asignaos a cada caracteristica se comportan como etiquetes, Con tanta valider como letras del alfabeto, que de hecho también podrian asizna misi6n es distinguir entre diferentes valores, como se puede ver en el Ejemplo 1.2. el proceso de co- Supongamos que medinos el exo de una persona chombre, mujer) Ba sheet es : e aalor mujer. Esto dificacin se puede asignar I al valor hombre y 2 al valor mujer eee mujer sea ie que cl hombre (2 > 1) ni el doble (2 = 1 x 2), ni que existan pet de sexo intermedio (1,5). fs ja o la va~ Por ello resulta totalmente inapropiado calcular estadisticos como Ia media © 1a Wt ble nominal debiendo limitarnos a os Fecuentos de frecuencias, jando se cruce con otra variable nominal. ngencia cuando se cruce con otra vat oe. Una exigencia haisica de las escalas nominales es que los objetos han ee es ficarse en categorias que sean mutuamente excluyentes y exhaustivas, es decir. cada 17> dividuo S6lo debe poder asignarse a una y s6lo una categoria, y todos los individuos de poder clasificarse en las catego existentes. 1.2.2. Escala ordinal No s6lo consigue distinguir entre valores, como la anterior, sino que ademas establece un orden entre ellos. Consideremos que a un individuo se le pide que ordene 4 modelos de coche (A, B, C y D) en funcidn de que le gusten mas o menos. Su respuesta es [A = 1, D = 2.C = 3 y B = 4}. Es obvio que el individuo no s6lo no prefiere igual el modelo A que el B, sino que, ademas, prefiere el modelo A mas que el B. Sin embargo es muy importante sefalar que, aunque las diferencias numéricas entre las Ms calceorias sean numéricamente las mismas, esto no quiere decir que las diferencias de Preferencia también lo sean. La diferencia de preferencia entre el autom6vil AyelDno Heme por qué ser la misma que entre el C y el B. ; - aunque (2 1 = 4 — 3). Tampoco el ene AA se prefiere el doble que el D. Por lo tanto, en las escalas ondinaless ti enen enuo distingu y ordenar, pero no las diferencias ni les razones, : © TES Paraninto 4 + ANALISIS EyEMPLO A, ONTES-Paranintg MULTIVARIANTE APLICADO. en este tipo de escalas son, admis ie Ia oy one eden calcularse Mes, a mediana ¥ FOS percentiles. Los estadisticos qe pu se caleulaban en [as nomn le intervalo aracteristicas de una nominal (diferentes eos objetos) y de 1a ordinal (mayor Lo, istica, por ejemplo la preferencia), “aor in ‘eva propicdad: las diferencias tampj ™ EN ti, 1.2.3. Escala d ade intervalo entes posee las aracteristicas a caracte je una nu Una escatl sentan dife ayor presene! ia de I present k barge. lat eseala de intervalo ani nen sentid tin ejemplo que, ademds resulta Gatil para distinguir estas escalas de las de raz6n, ¢ por ejemplo, una escala Celsius. Si el estan Omer; 0 diciin de la temperatura mediante, marca 35° marea una temperatura distinta a st marca 30° (como Ia nominal). bien marca mais temperatura (come Ja ordinal), Sin embargo entre 35° y 30° ae tam, eer eta de temperatura que entre 30° y 25°: Kas diferencias iguales en lor a aeraducen en diferencias iguales en el atriDUto medido. OS C6digo, ‘en sentido las razones? Esto no es tan sencillo de ver. Aparentem vie 10°. Sin embargo, veamos esta misma mediciin coe tributo que se esta midiendo es el mismo, la lessee Tatu. 10 en Celsius implicarfa decir que 68 es el doble q sel doble de Pero js es el doble de temperatura q ccala Fahrenheit (Figura 1.1). Ela ra, pero decir que 20 es el doble de 50 en Fahrenheit, y esto no es ast. FIGURA 6 1.1, Ilustracién de una escala de intervalo. Siempre que el atributo sea arbitrario, esta que se esté midiend : . estaremos ante escala lo no tenga un 5 éste darios, donde el cero se ha lent ce intervalo, Es al ease, pa absolute, sino aie calendarios con otros ceros Ae arbitrariamente en el ‘0, por ejemplo, de los oy es, cl - SY. eve ni st ero hay tayo, cuando se Sama de nuevo, las diferencias de amend a a ie bas N estas escalas eae s tendran sentido scalas pueden ¢: en ratios, com calculars a 10 el Coefici @ todos lo: : iente de variaci Ss estadisticos mei ~ gue estan basados ae investigacion de “ised variacion. icos menos los que estin be : Por ejemplo, acuerdos.o dex es es muy habitua y habitual el recurso a escalas de inenale Pt talent ‘ACuerdos ci 5 con deter N determinadas afirmaciones (1 = HEMPLO 1S: 1.3. CAPITULO1 INTRODUCCION * 5 en desacuerdo, 5 = totalmente de ie io, $= totalmente de acuerdo). Aunque no es evidente, es importante que se yu en cuenta que en el diseno de estas escalas se estd asumiendo que diferencias 1gua- n diferencias iguales en el grado de acuerdo pues, de no ser al. ley en fa codsficacion implies asi, nos encontrariamos dite una escalat ordi 1.2.4. Escala de razon Jon tienen lay mismas propiedades que las de intervalo pero, ademés, las Farones sf que las tienen un valor base 0 natural: la edad, los in- gresos, una escala de temperatura Kelvin, etc: nen sentido, Estas es un individuo tiene 20 aos y otro tiene 10, no s6lo tienen distintas edades (nominal). cl primero es mayor que el segundo (ordinal) hay ba misma diferencia de edad entre el primero'y el segunda que entre el primero y un sujeto de 30 aos (intervalo), que po- tlemos aisrmar sin problemas que el primero tiene el doble de edad due el segundo. No hay ninguna restricci6n respecto a tos estadisticos que pueden aalcularse en este tipo de escalas. 1.2.5. Otras clasificaciones senalado, la expuesta no es fa tinica de las clasificue iplantada, Es necesario, sin embargo, Precis ‘algunas otras formas de referirse a las e ones de variables posi- i, sobre fa base de la jas que el lector puc= Como se ble, aungu clasiticacion presentada, Contras. ns dejindola en dos grupos: el que Es muy habitual simplificar la clasificacién de Steve x ricas (nominales y ordinates) y el de variables m6 si ka may se corresponderia con variables 0 m tricas (de intervalo y Fa26n). bin es habitual distinguir entre variables diseretas y continuas. Esta distinciOn se basa en los posibles valores que Ia variable puede tome ‘Una variable discreta solo puc= Ye tomar un mimero determinado de valores en un intervalo determinado: errores en un contraste, crimenes en una ¢i Mimisiones en un hospital, etc. Una variable continss. io, puede tomar poreneialmente cualquier valor numérica © U0 intervalo dado. Prviduo puede ser tanto de 70,0 kg como de 70054556 ks porel cont EL peso de un in CLASIFICACION DE LAS TECNICAS MULTIVARIANTES La importancia de una adecuada clasificacidn de las t€enicas multivariantes no reside tan- to en la necesidad tipolégica, sino en que es necesario presentar al lector una guia que le permits laeleceidn adecuada de la téeniea que debe aplicarse en funciGn del problema que pretenda resolver. Este es el fin del presente epigrate cn ‘Antes de plantearnos ta eleccién de una técnica u otra, es neces paced eponera v iguontes pregunas seas (Dillon y Glisten, TUS) “21 sicas (Dillon y Goldstein, 198-4): 1, gNuestra investigacisn re j estigacidn responde a un problema de depende 0 de iterdependencia entre las mismas? Reade ea nseea Ghai © ITES Paraninte ee p1CADO MULTIVAIANTE APLIC 7 ples implicudas, en escalas métrig endencia, I Felaciones ge My snlema de depe “ie n : \e inepenbientes? £Cusitas Varah, Meg "ey ty 2, {Como estan J Srestumos ante : A Se wel cma de andlisis para responder g el proble ree simplifica bastante. la a eo a jun de i ae la teenie se planadan a tec Je Tecnicas de andlisis de dependencias 1.3.1. i dos grupos de variables. Las ténicas de conteamnos ant mde 7 via o ausencial de relaciones entre los d iis, sci 0 aU ot pr tailca TOS dh grupos de variables en dependientes © independaye A weenicas de dependeneiaserd establecer si el Conjunto de yo tonces el yeti ae Tr jumto de dependientes de manera conjunta incividygye® independents atest ividuos se concen Sus ingresos, nivel de estudios, eday Side un ca de existe una Felacisn enite IOs ingresos (Variable dena nor, pede planiearioy “amos ante un problema de analisis de dependenya te) y el resto de eat eatin medidas las variables para clegir entre una técnica yy ta necesario Yer anos encontrarnos ante un problema en el que sea imposible gy es Sain ‘ene variables dependientes € independientes, Nos interesa fie ‘ cionan entre s todas las Variables del problema, Los mang anos que 09 use Supe de dependent ules. Si el investi reories previ guir conveptui rent she cio se ee : vorrcon que abrdan estas cuestiones seria fos denominados métodos de interdependency : plo anterior, el investigador puede querer saber si considera ne a ren ue earacterizan aos individuos Cingresos, nivel de estudios, eda ‘ nero) pueden enconirarse grupos de individuos que se parezcan mucho entre s respec drestay variables y que diferan de otros grupos. Aqui no nos encontramos ante dos ery pos de variables, sino que se consideran todas juntas. La técnica que se elija para re ver este problema deberd pertenecer al grupo de métodos de interdependencia, La Figura 1.2 ilusira el proceso de eleceién de cada técnica de dependencia aten ddiendo a las preguntas que se planteaban al principio de este epigrafe. Asimismo, se mes tra el capitulo del presente libro en el que cada técnica es analizada. Siguiendo este esquema, el andlisis de regresién lineal multiple se empleard cua do se pretenda analizar la relacién existente entre una variable dependiente métrica y ut Conjunto de variables independientes que pueden o no ser métricas, de acuerdo cone! es quema simpliicado: Vy (Xp, Xa Xap oe Xp) (métricas) (métricas, no métricas) A modo de ejemplo, si queremos saber si existe 0 no relacién entre el nivel deine sos de un indviduo medido en euros (variable dependiente métrca) y las ya mension das variables de nivel educativo, género y edad. Pero igué ocure sila variable dependiente no es métrca? Por ejemplo, se ntl jriresos est cuiicado como 1 = por debajo de la media, 2 = por encima de la melt Entonces ya no se puede recurir a iat 1 ans © TES-Parainfo GAPITULO1 INTRODUCCION + 7 Técnicas 4} de dependencia sonata trica { DEF DEP nae [ervoniea] ——_([Bemowen {OEP a r [Roromavwa {wo navi Ecuaciones| estructurales = a 6 2 © CAPITULOS: Fuente: Adaptado de Dilton y Gokistein (1984: p20) FIGURA 1.2. Técnicas de andlisis de dependencia. Fl anilisis de correlactén canénica pretende determinar 1s existencia de asociacién Jineal entre un conjunto de variables independientes y oto ‘conjunto de variables depen- dientes, de acuerdo con el esquema simplificado: (4 Yop Yor von Ya). & Bre Xap Nae on Xd (ontricas, 90 métiCas) nétricas) Siguiendo el ejemplo que venimos empleando, cl invests \dor puede querer estable- cer cémo intluyen el nivel educative, el géner0 y Ha “edad no slo sobre el nivel de ingresos Sino, por ejemplo, sobre el nivel de satista on ef empleo actual (medido, por cjem= plo, mediante una escala de interval Monde | = totalmente insatisfecho, 5 = totalmente Pre echo), Noteve que Ka regresion lineal imtiple ris 7 caso particular del analisis de aivrelacién canénica cuando solo se dispone de una variable dependicnte. Esta técnica, en serrate que es poco utlizada, no se incluye en esta obra. Tin el ejemplo que hemos utlizado, las variables independientes son métricas (edad, nivel educativo) ¥ no metricas (género), mientras due bas dependientes son métricas. ive caso en que todas las independientes fueran no méiricas Y las dependientes siguie Fr Gjenddo meétricas, el mismo objetivo logeado con el andtisis de correlacién candnica po- va conseguirse mediante un andlisis multivariante de ta varianza (MANOVA). ios tos casos expuestos hasta ahora el investigador buseaba evaluat [a intensi- dad de una sola relacin entre dos eonjuntos de variables, pero ,existen alternativas cuan- {jo no es una tinica ecuaci6n la que recoge las relaciones sino varias, esto es, s¢ analizan carne relaciones? Este objetivo corresponderia al siguiente esquema simpliticador Vy = (Xt Xt Kaas oy Xm) Vy <= (Xys oa, X35 os Xam) ¥, = (Xt Xnay Xnay ov» Xm) Arvétricas) — (meétricas) OITES-Parannto 8 = ANALISIS MULTIVARIANTE APLICADO cones es el objeto del conjunt de técnicas denominadas se andlisis factorial confirmatory \atorie y turales, dos de las cuales rian, se aboraan €n ESIC texto. Este conjunto de relaci mas de ecuaciones estruct estructuras de Cové modelos de pendencias ad, existen sitwaciones de investigacidn en yy sep independignteS. ¥ 10 que interes relacionadas entre ellas. ena ey na técnica de reduccién de datos ¢ rales construir combinacione® Jineales de las variables originales yo ge In informacidn recogida en 13s variables originales Mar forma que estan incorrelacionadas con Tas ante or Mens informacion que la antrir, “i ‘jemplo, un analsta contable puede ext" Hel balance muchas ratios financieras param dhe la safud de una empresa. Puede ‘emplearlos todos 0, por el contrario, obtener d ae 2 combinaciones de ellos. Es més facil Com rar empresas con dos datos que con un i seer Bn este sentido, el andlisis de componentes principales le permite obtener de fied vy adecuada esos dos indicadores. El andlisis factorial, también es una técnica de reduccién de datos pero, a diferenc) de la wenica anterior, el interés se centra en establecer qué causas latentes (Factores) fe dJen estar causa fa correlacidn entre las variables manifiestas, es decir, entre las eit den esta ade verse com una téenica que pretende identlicar SPOS de variables de aoae a ye la correlacion ente las variables de cada grupo sean superiors a Tee laciones de las variables entre 10S gTUPOS. ae is de conglomerados, 1o que 5 de interde 1.3.2. Técnicas de analisi fo con anteriorid: fax variables en depen ‘qué las variables estén Com ‘Fe componentes principales &> 1 Como se ha com es imposible separar determinar como ¥ Por objetivo fundament expliquen la mayor parte posible Cada combinacién lineal se extrac riores. Cada com! in lineal aporta, Ca del anilisis fa se pretende, a diferen torial El andl noses nerapar variables, sino bservaciones, de tal Forma que las observaciones de cada gn Técnicas 0 iterdependencia Relacion ent ise varables Relacién entre |_| Relacionente casos jean Metnices No métnicas ‘Analisis componentes Analisis incipales And ee facions! _) (correspondenci Analisis Escalamien® 's/ \ congiomerados cutee) Fue CAPITULOS ropia a partir de Hair, An FIGURA 1.3, on, Tatham y Black (1995), Técni icas de analisis de interdepend: jencia. © 1TES-Paraninto 1.4. CAPITULO 1 INTRODUCCION + ¥ Po Sean parecidas respecto a lay variablh vactones que hay UL analisis de eseata los eriterios suby: les que se han utifizado para agrupar y las obser- upo scan lo mas diferentes posible respecto a esas variables. miento multidimensional permite al investigador hacer aflorar sicentes que utilizan los individuos para considerar que distintos objetos Fen aeetdos @ distintos. Una de tas principales utilidades de este andlisis son mapas, nor- tniliente bidimensionales, donde los objetos estan tanto mis cereanos cuanto mi is pare- cides son para el conjunto de individuos entrevistados. Finalmente, el anitisis de correspondencias permite visualizar grificamente tablas ule contingencia, Imaginemos que descamos ver si existe relacién entre dos variables no ineiricas, cada una de las cuales tiene, digamos, 20 niveles. Por ejemplo, si existe rela soe alte el tipo de ocupacién y la universidad donde el sujeto se licencid. Esta tabla de 20 x 20 no sera facil de analizar, sin embargo, el andlisis de correspondencias permitira mostrar un mapa, probablemente bidimensional, en el cual una universidad estaré tanto tits cerea de un tipo de ocupacién, cuanto mayor sea la frecuencia de esa celda en la ta- bla de contingeneia, PROCESO DE APLICACION DE UNA TECNICA MULTIVARIANTE Las técnicas multivariantes son, en general, herramientas muy poderosas que permiten al investigauor extraer muchisima informacién de los datos disponibles. Estas técnicas son, S tis, relativamente complejas y requieren para su utiizaeién un conocimiento pro- fundo de sus fundamentos y condiciones de aplicabilidad, El desarrollo de programas in- formaticos de manejo sencillo, como el programa SPSS, esté provocando su uso indis- criminado y, muchas veces, esos programas no se utilizan adecuadamente, El objeto de este epigrafe es proporcionar al lector una guia que le permita la aplis cidn correcta de las téenicas multivariantes y le facilite Hegar a conclusiones razonables, Este epigrate sigue en su desarrollo el proceso planteado por Hair, Anderson, Tatham y Black (1995). Paso 1. Definicién del problema que se esté investigando, sus objetivos y decision sobre la técnica multivariante que se debe utilizar. No se puede pretender utilizar una técnica multivariante sin una adecuada aproxima- ‘én te6rica al problema que se esté abordando. El investigador debe analiza twalmente su objeto de investigacién, detinir los concey damentales que se pretenden investigar. Primero hat investiga, y no en las técnicas que se van a emplear, anilisis conceptos importantes. Una vez, y solo una guir los esquemas del Epigrate 1.3 para Seleccionar concep- tos e identiticar las relaciones fun- Yy que centrarse en el tema que se lo que evitaré que dejemos fuera del Paso 2. Desarrollo del plan de andi Una vez establecido el modelo conce mente la técnica elegida, to que hace trales minimos que permiten su aplica cogida de datos (8. los cuestionari (metricas vs. no métricas), Plual. el énfasis se centra en aplicar adecuada- referencia fundamentalmente a los tamafox mucs. Sut ¥ a asegurarse de que el procedimiento de re- '0s) mide lay variables con las escalas oportunas OITES Paramnty genica elegida. ta téonica elegida ad de les toon Las hipstesis en gue, jer ce que ene 728 JE Ent, a pecesari© UC Toy 4 mie y que SiO SE Tojo, sucle ser Oe pa es ncid. POF IPE pendencia del términe deerrory, Sa et ose realizariien el Capita de 5 col 2 main 2 est “o_o al del mismo. -_riante y ajuste global : ultivariante ¥ 30 er nivel de bondad del ajusye nul ese SI pstimacl? caida. Pero fie 4 Estimation te aiante cTeBitt Tel modelo, incorporando o eliminang, vores de bondad de ajuste. 1caDo 40 + ANALISIS MULTIVARIANTE APL jas condi paso 3 Anilisis Tuna ver reenel play teens gs, En las pl kas HOE pioscedasticidd brasil J. Una al Paso i ‘apigue [ Se en eed cc aatd. S110. 8h Ten indica len, No todas las #6211 resultados: aceptabl Mle ajuste aceprable, inte nivel de Maminando sus coericien ie a nuevas Feespeci re, interprete el modelo. Fijese en los efecty tes, cargas factoriales, utilidade ‘aciones del modelo. Paso & Interpretacién de los ‘Una vez logre Un es indivi de tas variables ual La interpretacién puede com \duales eXal \ducitl Iegado, debe aplicar una serie de te. del modelo. dos son generalizables al conjunto de fos resultados a Tos que hays | Paso 6. Validacién ue estos resulta ‘Antes de aveptat | nicas de diagndstico que aseguren la poblacidn ane RESUMEN -] fo se ha ofrecido una definicién de andlisis multivariante y se han presen- En este capitul contrarnos en la clasificacién mis tado las cuatro escalas de medida con que podemos en extendida: nominal, ordinal, de intervalo y de raz6n. "A continuacidn se han clasificado las técnicas multivariantes que van a presentarse en este libro atendiendo a tres criterios conjugados: (1) carécter de independencia o interde- pendencia del problema objeto de andlisis; (2) tipo de escala en la que estén medidas las variables implicadas, y (3) némero de relaciones que se plantean entre dichas variables. Siguiendo este criteio se hace una breve descripeién de las principales ténices etd ticas multivariantes precisdndose el capitulo en el que se abordan. ae a con un procedimiento en 6 pasos que asegura la correcta aplict alquier Sea te ees multivariante y que va desde la correcta definicién del proble que se esté investigando hasta la validacién del modelo. TERMINOS CLAVE Andlisis de componentes principal Andtisis de conglomerados Andlisis de correspondencias Analisis de dependencia Andlisis de interdependencia Andlisis discriminante Andlisis factorial Andlisis multivariante © TES Paraninto. CAPiTULO1 INTRODUCCION + 11 Andlisis multivariame de la varianza Escalamiento multidimensional Correlacién canénica Regresién de variable dependiente limitada Eeuaciones estruciurales Regresidn lineal miltiple Escala de intervato Escala de medida Escala de ordinal Escala de razon Escala nominal Variables continuas Variables diseretas Variables métricas Variables no métricas REFERENCIAS BIBLIOGRAFICAS a Dillon, W. R., y Goldstein, M. (1984): Multivariate Analysis. Methods and applications. Nueva York: John Wiley & Sons, Hair, J. ; Anderson, R, E. Tatham, R. L.. y Black, W. (1995): Multivariate Data Analysis. 4." edi- cidn, Englewood Clifls: Prentice Hall Kachigan, S. K. (1991): Multivariate Statistical Analysis. 2. edicién. Nueva York: Radius Press, ‘Sharma, S. (1996): Applied Multivariate Techniques. Nueva York: John Wiley & Sons. Stevens. S. S. (1946): «On the theory of scales of measurement». Science, 103, pp. 677-680. Tabacknick, B. G., y Fidell, L, S. (1996): Using multivariate statistics. 3.* edicién. Nueva York Harper Collins. Velleman, P. F, y Wilkinson, L. (1993); «Nominal, Ordinal, Interval and Ratio Typologies are mis leading», The American Statistician, vol. 47, n.° 1, pp. 65-72. © TES-Paraninto 24. 22, 2.3. 2.4, Analisis previo de los datos INTRODUCCION VALORES PERDIDOS 2.2.1. Diagnéstico de la aleatoriedad de los valores perdidos 2.2.2. Tratamiento de los valores perdidos OUTLIERS: CASOS ATIPICOS 2.3.1. Deteccién univariante de casos atipicos 2.3.2. Deteccidn bivariante de casos atipicos 2.3.3. Deteccién multivariante de casos atipicos COMPROBACION DE SUPUESTOS BASICOS DEL ANALISIS MULTIVARIANTE 2.4.1. Normalidad 2.4.2. Homoscedasticidad 2.4.3. Linealidad 2.4.4. Independencia de las observaciones RESUMEN TERMINOS CLAVE REFERENCIAS BIBLIOGRAFICAS. © ITES-Paraninto \cADO AMULTIVARIANTE APLICAP 14 © ANALIS! 2.1. intRODUCCION se a inl multiva He pia oa necesario th 1, Algunos de ellos tener a, hipsters satiyacey na limiento de Ew ef capitulo anterior on del cump! Se aphiear un ee io sarc. nada. Heal yer con Haid los ditry de paris wane previa a Se ne weal wow fox de observaciones Tyg ge dedica ef presente pity yy ores perdid acid de eStas & raumas de Fas wenicas Je propios proceatmient0 repto, ka deweecton J 1a sno cpignsese, por eje™P ‘ofrecer los necesarios P eesarios cuanto que al pondran en CApitules, pasiey in del cunpli ie de Srvaetones andmalass ¥ AS yresey regresion lineal BGINPIE) BL pies ns previos a la as de ellas no disp ‘omprobaciones de anal Ja comp! A ta realiza robac seit res tienen Sus patesis 0, por ei Las ef SU MOMe! pitulo pretende offecc snica, tanto mas MK lo, en Ia rocedimicnt quier ts micntas especificas 2.2. VALORES PERDIDOS La existencia de valores perdidos es algo Ciencias Sociales. Los entrevistados en un _gresos, el entrevistador no recoge una respue: {usa de paro no esté disponible todavia para ‘el semestre que se analiza se Pa evencias para la investigacion de la existencia de valores perdios depende del patron que siguen estos datos ausentes, cuiintos son y POF ‘qué estin perdidos. Como schatan Tabachnick y Fidell (1996), el patron de los valores perdidos es méy important gue au cuantia. Si su dstribucién es aleatoria en la matriz de datos no pueden eausar my cho dao al andlisis, Sin embargo, si responde a un patron determinado, sf. Vedimosto con un ejemplo. 7 == } Preguntas de actitud acerca del tabaco. Un investigador des ~a saber cual es la actitud de los jévenes hacia el tabaco, para ello les pide que expresen su acuerdo o desacuerdo con un conjunto de afirma Stine Tespuesta es 1 = estoy en total desacuerdo, 5 = estoy en t 1 acuerdo) tal one coge en el Cuadro 2.1. Junto a estas preguntas se ri a Paces ac onan as la aa género y el habito, esto es, si se es 0 neo Seen FI Cuadro 2.2 recoge 5 de resp sn pore contro on Vale han able V4 8 han asignado aleatoriamente (Va) mientas ie den pensar que la opnidn veridaen la eneeege ee cermores por ejemplo pore Ps encuesta puede tener alguna intluencia en lio ministracién y puede conl| ” levar una nueva y V2_d serén generadas Sea ee " ae Precio. Las variables V4a_d. V4b4 Cin capers oF reso deans de on valores ae wacom précticumente inevitable en la investicin mi encuesta se niegan a declarar su nivel de yp ©, simplemente, la sta en la casilla ad © MES Pataninto 29 {30 wus eununueunn v3 vs a fa Vid 4 5 Getler 2 2 o Hl 1 4 4 4 Sia | or 2 2 1 1 1 4 2 2 s | 1 2 1 1 i 3 3 4 | | 2 2 0 1 ! 2 5 5 5 2 2 ! ! ; 5 2 1 ; : : 4 2 1 1 ° a 3 3 3 5 1 2 1 1 ' 4 1 1 5 2 2 1 1 3 3 2 1 o 0 ! 3 3 3 5 1 2 1 \ l 2 4 4 5 1 2 1 i f 2 2 4 2 2 3 i 1 3 2 1 ! : 7 Sesame les i fifa fo fo 5 1 3 ' 1 1 0 0 4 4 3 1 1 0 0 i 4 2 4 4 4 2 2 1 \ \ 5 3 4 4 5 2 2 1 ! ! 4 3 4 4 5 2 2 ' 5 3 4 4 5 2 2 1 1 1 4 5 4 4 5 2 1 1 1 3 1 5 3 3 1 1 1 1 1 3 5 1 1 3 I 1 1 1 1 : 5 1 5 2 2 1 0 0 3 5 H 3 2 2 1 0 1 4 5 2 5 2 2 0 1 1 4 4 5 5 1 1 0 1 1 5 5 5 5 3 2 2 1 1 i CAPITULO 2 ANALISIS PREVIO DE LOS DATOS * 15 Cuadro 2.1. Preguntas de actitud acerca del tabaco. Mfirmac Vi} Fumar perjuaticn ta sili V2 | No debe permitirse tunar en lugares piiblicos Va | A tos poderes publicos solo les imteresa recaudar Ichen aumientarse los inipuestos sobre el tabaco. Debe informarse may sobre los efectos del tabaco. Edad (anos) Genera (1 = Ho = Mujer) Habito (1 = Funtudor: 2 No fumador cuestionario, i el objetivo del investigador es determinar cual es el nivel de acuerdo con la medi- da de que se suban los impuestos sobre el tabaco, en el primer caso (distribucion aleato- fia de los valores perdidos) la media de V4a no deberia diferir sustancialmente de la me- dia muestral con la muestra completa. Sin embargo. si son las no fumadores (que Probablemente estén més en desacuerdo con esta medida) lox que principalmente no res- Ponden, la media de Vb puede clevarse artiticialmente (mayor valor may acuerdo) ©ITES Paraninto 16 + ANALISIS MULTIVARIANTE APLICADO 1 cuguro 2. esto 6s exactamente 10 de ore el Gamente ao responden, 1a media de a respuesaal hy oritariame ia Como se comprueba et rior en V4b (donde 10s Fumadorey $e On ma no tumadores quienes mayo apt ei a tae iui Mie los valores perdidos es aleatorigy, "x, : ola dist ria) que en la V4a (donde la dh 1 tipo de valor perdido. Es ee Cuadro 2.3. Media de V4 en Funeisn del FJEMPLO 2.1 ONES Paraninto es asumir que los valores perdidos se han generado de manera al vias para In investigacion de que esto No sea asf obligan a de nar fa aleatoriedad de los valores perdidos. Para ello idos por Tabachnick y Fidell (1996). En el primero se com. ‘didos tienen valores medios de otras variables rely eovontas distintos a los casos sin valores perdidos. En el segundo se comprobur sexi crorikeign entre la tendencia no contestar a dos variables que tengan valores perids, Estos andlisis se corresponden con la comprobacién de las dos condiciones que han de darse para lo que Rubin (1976) y Little y Rubin (1987) definen como valores perids de manera completamente aleatoria (VPCA) 0 MCAR (Missing Completely at Random, testo es, que los valores perdidos sean independicntes tanto de los valores observados de resto de variables del problema, como de los valores perdidos de esas mismas variables Aungue la tentac toria, las graves consecuen sarrollar estrategias para determ verdn dos procedimientos plantea probari si los casos con valores pei 2.2.1. Diagnostico de la aleatoriedad de los valores perdidos El primer procedimiento para establecer si los valores perdidos guardan o no un pat sar ad i ei la logica de la investigacién, Si el patrén es sistemitico, 10s cas con valores perdidos deberin tener un com c s rtamiento dist ecto a otras variables que en los casos sin valores perdidos. p aoe En emplo, com madore: vinci met ce nl, oma 10s fumadores quienes no han querido contestar princi: ee ee deben aumentarse los impuestos (V4b), es probable que los s * (Principalmente fumadores) estén més en desacuerdo con por ejemplo, no se permita fumar er ai Pore ar en lugares piblicos (V2) que los casos sin valores Pe Es evidente qu Je el investigador bar qué variables ‘gacor no puede tener esta hips 1 les se comportan de ma TF esta hipétesis a priori, eber’ comp tencit ono de un ptn. De mo extagen en los dos ropa pas dec ine ; riage : nee Y sin valores erdidos, habré que aur yes UY Media sea Givens en tos cas asumir la aleg ir la aleatoriedad de los mismos. CAPITULO 2 ANALISIS PREVIO DE LOS DATOS © 17 EJEMPLO 2.2. En nuestro ejemplo habsau ; ios generado dos variables V4 con valores perdidos generados aleator jamente (V4) y respondiendo a un patrén (V4b). Veamos si otras variables (V2: no debe permitise Fumar en lugares piblicos) tienen el mismo compartamiento en el gru- Bo de casos con valores perdidos y tos que no lo tienen. Para ello es necesario crear una Narlable ficticia que tomari el valor 1, siel caso tiene un valor perdido en V4, y 0 si no {0 tiene. Bn el Cuatro 2.2 estas variables aparecen etiquetadas como Va. (para los va. lores perdidos generados aleatoriamente) y V4b-_d (para los que siguen un patron), Para contrastar si la media de ta variable V2 es igual o distinta en el grupo de casos Con valores perdidos respecto al que no los tiene, efectuamos una prucha f para muestras independientes, donde la variable dependiente es V2 y el factor serdn las variables que es- Pecitican si estamos ante el grupo de valores perdidos o el que no los tiene (V4a_d y V4b_d Fespectivamente). Los resultados se muestran en el Cuadro 2.4. La hipstesis nula es que las medias son iguales en los dos grupos. Valores de + significativos implicaran el recha- 20 de esa hipotesis, stras independientes. Cuadro 2.4. Prueba r para n VP aleatorios (V4a_d) [1Ginve) [oon vy] « V2 (media) | 3.96 3.83 0.23" (Con VP) 271 3.95" poo * diferencia no signifactiva, Como se deduce del Cuadro 2.4, la variable V2 (no debe permitirse fumar en luga- res piiblicos) no tiene una media significativamente distinta en los grupos con y sin va~ lores perdidos para V4 cuando éstos son aleatorios. Si esta conclusién se obtuviera para la mayorfa de las variables, podrfamos concluir que los valores perdidos no siguen un patron dado. Sin embargo, se constata cémo, cuando los valores perdidos corresponden a un patron dado (fumadores), la media del grupo con valores perdidos es significativamente interior a la del grupo sin valores perdidos, esto es, estén mas en desacuerdo con que se prohiba fumar en lugares pablicos. Si el investigador obtuviera este resultado para mas variables deberia concluir que los valores perdidos responden a un patrén sistematico. El segundo procedimiento para evaluar la aleatoriedad de los valores perdidos consiste en ver si existe una coincidencia significativa entre los casos concretos en que las varia bles toman un valor perdido. Pérez (2004) denomina a este procedimiento prueba de las correlaciones dicotomizadas, siguiendo la terminologia que utiliza el programa BMDPAM segiin lo presentan Tabachnick y Fidell (1996). EJEMPLO 2.3. nuestro ejemplo, podemos plantearnos si los entrevistados que no contestan a V4 son mais 0 menos los mismos que los que no contestan a otras variables, por ejemplo a V2. Si por ser fumador no se quiere declarar que se es favorable a que se suban los impuestos, por si se hace, es posible que tampoco se quiera declarar de acuerdo con que se impida fumar en lugares piblicos. De ser asf, estariamos ante una situacién en que los valores per- didos de distintas variables tienen una causa comin y, por tanto, comparten un patron. EI procedimiento para detectar esta relacién es sencillo. Basta con convertir las vac Fables que se quieren analizar en variables ficticias, que tomaran el valor | si para ese caso © ITES-Paraninto 18 + ANALISIS MULTIVARIANTE APLICADO on \ O en caso contrario, &8 decir, ly haremos también Con V2 (en el (hs aalor perdido Y re, ahora, i cin se calcula la matriz Mp, A continuacion se cael 1 matte ge J se analiza la significatividad de los cog re e cuando la generacién de | 'o cabe esperar que cuan i ls y ot variable dicotomizada no guarde correlacign . jos ha sido aleatoria (V42) * » perdidos de V2 (V2_d), mientras que cuang, a Tos C805 2 snde a una causa comin (ser fumador), cape haga aflorar esta relaci6n. ble original no toma un ¥. 0 anterior con V4 Y 404 como V2, icadas lav se hizo en el cas a nueva variable Ciones entre las variables impli (Cuadro 2.5). En nuestro ejemp aparece est wa zn, Ya pe pe perdid c ¢ muesti cativa con la que mui neracidn de los valores perdidos F rar que la matriz de correlaciones Cuadro 2.5. Matriz. de correlaciones: V2 perdid Presente i te name perdido = 0 Correlacién de Pearson - 0.96 : —— Cc 1 on Correlacién de Pearson ‘Vth perdido Bt oa presente = Sie (bilateral) _ 2 V2 perdido = 0 Correlacién de Pearson oni 1 | resente Sig. (bikueral \ o presente = 1 Sie. (ilaera) 2 ee + La correliciin ex significaiva al nivel 0.01 (bilateral. El hecho de que la correlacién sea significativa y fuerte entre los casos en que V4 y V2 toman valores perdidos deberfa hacer sospechar al investigador que puede existr un motivo subyacente (caso de V4b que, recordemos, no fue una generacién aleatoria, sino que respondia a una negativa de responder de los fumadores que se repetia en V2). Si, por el contrario, la situacién fuera la de una correlaci6n no significativa (V4a, que fueron va lores perdidos generados aleatoriamente), el investigador puede suponer razonablemente que se encuentra ante una deseable situacién de VPCA (0 MCAR en inglés). Cuando los valores perdidos responden a un patron, nos encontramos ante un grave blema pues, segtin indica Byrne (2001): (a) no hay medios estadisticos conocidos pata ducir el numero de valores perdidos y (b) se imposibilita la generalizabilidad de los etl ante una situacién de VPCA, si que se dispone de estas estrat las cuales desarrollaremos a continuacién, 2.2.2. Tratamiento de los valores perdidos Basicamente, existe e ; jcamente : para tratar los valores perdidos: ¢! ontienen o la imputacion de un valor estimadd ab ble cuando toma un valor perdido, Putacion de un valor estumad La eliminacion de todos los mais utilizado debido a que minacion de los casos que los c Z h tates que tengan un valor perdido es ¢! prose due la mayor parte de programas estadisticos ES Paranino FEMPLO- 4. QB SPSS CAPITULO 2 ANALISIS PREVIO DE LOS DATOS + 19 defecto. Esto provoca que, si el investigador no realiza una exploracién previa de los datos, el programa puede estar eliminando casos sin su conocimiento, Es més, se elimi- han los casos con valores perdidos aunque éstos estén en variables que no se usan en el anilisis. La generalizacién del uso de este procedimiento se debe a que algunas técnicas (los modelos de ecuaciones estructurales, por ejemplo) dan muchos problemas cuando sus ‘matrices de varianzas-covarianzas se basan en datos incompletos (véanse Bentler y Chou, 1987; Boomsma, 1985). La principal limitacién de este procedimiento es, obviamente, la pérdida de informa- ciGn que se produce al trabajarse con una muestra més reducida, sobre todo si la muestra de partida no era muy amplia y los valores perdidos no se concentran en unos casos de- terminados sino que se distribuyen por muchos de ellos. Asimismo, este procedimiento asu- ‘me una distribucién VPCA de los valores perdidos pues, de no ser asf, las estimaciones estardn sesgadas independientemente del tamaio muestra. EI médulo de andlisis de valores perdidos del programa SPSS permite obtener los esta~ disticos descriptivos de la muestra de nuestro ejemplo si aplicéramos el procedimiento de eliminacién descrito (denominado en el programa SPSS como eliminacién segiin lista). EI Cuadro 2.6 muestra esta informacién, Cuadro 2.6. Media de las variables cuando se eliminan casos segiin lista. Medias segiin lista a T 3 e/2/F/F)F)F] 6 : Zz 20_[ 3.25 | 460 [4.25 [365 | PAS / Dado que la eliminacién segiin lista exige VPCA, sdlo consideraremos en el ejempto. V4a como medicién de V4 y todos los aniilisis de aqui en adelante obviaran V4b que, como ya vimos, no seguia una distribucién aleatoria. : Como se observa en el Cuadro 2.6, de utilizar el procedimiento de eliminacién segin lista, perderfamos 10 de los 30 casos, al quedar s6lo 20 en los que ninguna de las varia- bles toma un valor perdido (desaparecen los casos: 1, 4, 7, 10, 16, 17, 18, 26, 28 y 29, compruebe el lector como ejercicio en el Cuadro 2.2 el porqué, teniendo en cuenta, re- cordemos, que al no considerar V4b, las dos tinicas variables con valores perdidos son V4a y V2). En el Cuadro 2.6 no aparecen C2 y C3 por ser variables no métricas y no tener sen- tido el calculo de la media, Wna alternativa distinta de eliminacién es la eliminacién de casos por parejas. \.a{iloso- es la misma, s6lo que se eliminan Jos casos ti que gan un valor perdido en las variables que se est La limitacion de este entogue es que s efectuados, provocando serios py inicamente en el supuesto en que conten- iin utilizando en un andlisis determinado. el tamafo muestral varia para cada uno de los anali- roblemas en algunas técnicas, Tomando de nuevo el OITES-Paraninto 20 * ANAuisis MULTIVARIANTE APLICADO, EEMPLO 2,5. EJEMPLO 2.6, OATES Paraninto ejemplo de tos modelos de ecuaciones estructurales, este procedimiento, puede Proven (Byme, 2001): (1) que la matriz de varianzas-covarianzas no sea definida posi A PS diendo la convergencia, (2) los indicadores de bondad 7 ee chi-cuadrado pueden estar sesgados. En cualquier caso, 1a aphiead! len estar sesgados. En cua a : aleatoria. condicionada al supuesto de valores perdidos de manera completamente aleat En el Cuadro 2.7 se muestran las medias de las variables de nuestro ejemplo, oe si se aplicara el procedimiento de eliminaci6n por parejas. Fijemos nucsim aleneien en k maci6n de la media de V4a. Si calculamos su media cuando la variable, por lemplo V1 no toma valores perdidos, ésta da 2,92, al igual que ocurre cuando V3, Gerado ct C3 no toman valores perdidos (lo que siempre ocurre, luego los casos Con iteridios so los mismos). Sin embargo, la media calculada s6lo con los casos en que V2 no toma va lores perdidos difiere sustancialmente (3,25), coincidiendo con Ja media que ies Obtenia er la climinacién segtin lista, pues estas dos variables eran las inicas que aportaban valore perdidos. Cuadro 2.7. Media de las variables cuando se climinan casos segtin pareja. Medias segdn parejas Vaa | Vi | V2 | v3 | vs | C1 va] 2,92 | 4,63 | 4.25 | 3,79 | 4,50 | 22,33 vi | 2,92 | 4.67 | 4.15 | 3,80 | 4.43 | 22.07 v2 4,65 | 4,15 | 3.69 | 4.46 | 21,88 v3 | 2,92 | 4,67 | 4,15 | 3,80 | 4,43 | 22,07 vs | 2,92 | 4,67 | 4,15 | 3,80 | 4.43 | 22,07 cl | 2,92 | 4.67 | 4,15 | 3,80 | 4,43 | 22,07 C3 | 2.92 | 4,67 | 4,15 | 3,80 | 4,43 | 22,07 C2 | 2,92 | 4.67 | 4,15 | 3,80 | 4,43 | 22,07 Media de la variable cuantitativa cuando estd presente la otra variuble La alternativa a la eliminacién es la imputacién, es decir, sustituir el valor perdido por guna estimacién de su valor. Probablemente lo mas habitual es sustituir el valor perdid? por la media de la variable calculada con los casos disponibles. Uno de los atractivos este procedimicnto es que es conservador; la media de la distribucién no cambia, Sine bargo, la varianza de la variable se reduce ya que la media esté mas prOxima asi mist due a los valores perdidos que sustituye, lo que hard que las correlaciones con el re variables también caigan (Brown, 1994), En nuestro Ejemplo 25. los valores perdidos de Va se sustituirfan por 2,92 ¥ bs Por 4:15 (como se desprende de los resultados del Cuadro 2-1) Un método alternativo de i ‘6 nt le imputaci 4 suyos valor didos se quieren estimar act 7 HaciOn es el de regresién. La variable cuy® : yor Stimar acta como variable dependiente, mientras que ¢! HEMPLO 2.7, CAPITULO 2 ANALISIS PREVIO DE LOS DATOS * 21 riables actiia como independientes (a condicién en el procedimiento que sigue el pro- Brama SPSS de que sean métricas y no tengan a su vez valores perdidos). Los coefi- Cientes de regresién, que han sido estimados, I6gicamente, s6lo utilizando los datos en los que Ta variable dependiente no tomaba valores perdidos, se utiliza para estimar esos valores, puesto que las variables que han actuado como independientes sf que son casos completos. En nuestro ejemplo, podemos estimar los valores perdidos de V4a regresando los casos no perdidos de esta variable frente a V1, V3, V5 y CI (no incluimos V2 por tener tam- bien valores perdidos ni C2 y C3 por ser variables no métricas. Podriamos transformar- las en ficticias y utilizarlas, pero el procedimiento esténdar de sustitucién por regresién del programa SPSS no lo contempla). Efectuando la regresién sobre los datos del Cua- dro 2.2, los resultados aparecen recogidos en el Cuadro 2.8. Cuadro 2.8. Resultados de la regres! Coeficientes* Coeficientes Coofcientes| no estandarizadoy | estandarizados Modelo Error tipico [Beta t Sig. LConsiantey | 3,670 0,004 0.997 vi 0.255 0.091 0,539 0,596 V3 0234 0,304 1591 vs 0377 0472 2457 0.024 Edad 0.142 =0.025 0.145; 0,886 * Variable dependiente: Va Por lo tanto, para estimar los valores perdidos de V4a utilizarfamos ta funcién V4a = 0,016 + 0,137 - VI ~ 0,372 - V3 + 0,926 - V5 ~ 0,021 - C1 por ejemplo, para el valor perdido del caso 1 V4a = -0.016 + 0,137 + 5 ~ 0,372 - 4 + 0,926 - 5 ~ 0.021 - 21 = 3,38 En este caso hemos realizado la estimacién y la imputacién de manera manual para ilustrar e| procedimiento; el programa SPSS, a través del médulo de andlisis de valores perdidos, lo efectéa de manera automatica Este procedimiento de imputacién es mucho més razonable que la imputacién simple de Ja media, por cuanto tiene en cuenta mucha més informacién. Sin embargo no esté exen- to de limitaciones. Tabachnick y Fidell (1996) sefialan las siguientes: (a) las e nes pueden ser «demasiado» coherentes con las variables utiliz: tes. Dues al estimarse a partir de ellas serdn mis consistentes con las mismas que 10 scrian probablemente las contestaciones reales; (b) la varianza se reduce al estar las es. timaciones muy proximas a las medias; (c) sien el c Pendientes no son regresores coherentes, la estimaci en el fondo tan simple como impu resultados de fa es stimacio- adas como independien- Simacion si ésta eae en el rango permitido a la variable (en nucstey © ITES-Paraninta —4 22 + ANALISIS MULTIVARIANTE APLICADO. © 1TES-Paraninto caso la variable V4 esta acotada entre | y 5 y no podriamos imputar un val ese rango), al0r fuera de 2.3. OUTLIERS: CASOS ATIPICOS Los outliexs 0 casos atipicos son aquellos casos para 10s que una, dos o miltiples vari bles tomaan valores extremos que los hace diferir del comportamiento del resto dela muse, tra y permiten al investigador sospechar que han sido gencrados por mecanismos distin. tos al resto (Hawkins, 1980). {Por qué es importante detectar los valores atipicos? Fundamentalmente, por sus con secuioncian (Reamureen, 1988: Schwager y Margolin, 1982; Zimmerman, 1998) (1) disor. sionan los resultados al oscurecer el patrn de comportamiento del resto de casos y oh nerse conclusiones que, sin ellos, serfan completamente distintas; (2) pueden afectar gravemente a una de las condiciones de aplicabilidad mas habituales de la mayor parte de técnicas multivariantes, la normatidad. Las causas que generan la existencia de valores atipicos en un fichero de datos pue- den ser diversas, Anscombe (1960) las clasifica en dos grandes grupos: los ocasionados por errores de los tos y los ocasionados por la inevitable ¥ necesaria variabilidad de esos datos, De una manera mds extensa, las causas pueden ser: ores en los datos: tanto en su recogida como en 1a introduccién de los mismos en la base de datos. « Errores intencionados en la contestacién al cuestionario por parte del entrevistado, «+ Errores en el muestreo, que se concretan en introducir en la muestra a individuos pertenecientes a una poblacién distinta a la objetivo. + Outliers legitimos, es decir, casos pertenecientes a la poblaci6n objetivo que se que- rfa muestrear pero que por la variabilidad inherente a las muestras difieren del res- to en sus opiniones, actitudes 0 comportamientos, Posteriormente veremos procedimientos para identificar univariante y multivariante mente esos valores atipicos, pero la pregunta es: ;,qué hacer con ellos una vez identiticados? Evidentemente, la respuesta depende del tipo de outlier. Si corresponde a un error en lain troduecidn de los datos, puede consultarse el cuestionario original y corregirlo, Si el error esté cenel registro y la encuesta no es andnima, puede optarse por reentrevistar. Si es andnima una alternativa es la imputacidn del valor medio de la variable. Pero en todos estos casos hemos de estar seguros de que es un error de recogida 0 introduccién y no una respuesta legitime. "Aunque nadie discrepa de la conveniencia de eliminar los valores atipicos en caso de error evidente, sin embargo el debate es mucho més intenso cuando se trata de qué hacer con un valor atipico legitimo. Algunos autores como Judd y McClelland (1989) conside ran que la mejor alternativa es su eliminaci6n para asegurar que las estimaciones son co” rrectas para la mayoria de la poblacién. Otros autores, sin embargo, creen que la elim! nacién es el iltimo recurso y que se puede intentar suavizar su influencia transformando Jas variables mediante rafces cuadradas 0 logaritmos, lo que reduce su rango (Hamilton 1992). Sin embargo esta solucidn puede no ser te6ricamente razonable. Si la variable om ginal es una escala cuyos valores tienen un sentido tedrico para el investigador (una & andarizada, por ejemplo). su transformada puede no ser facil de interpretar (Newer as de anal cala es y Rudestam, 1999). Una dltima alternativa es intentar la utilizaci6n de téenies sis estadistico que sean lo més robustas posible frente a los valores atipicos como los oo Irastes estadisticos no paramétricos ‘ os + 23 peso peor nee y 7 SPSS par capiTULO 2 ANALISIS PREVIO DE LOS asos atipicos ara la realizacin de un andlisis Esta deteceiGn puede pro~ do para una variable dada si algunos inte (el vector de datos difiere del ce 1 valores atipicos en dos va- 2.3.1. Deteccién univariante de ¢ Planteada la importancia que pueden tener 10s estadistico veremos ahora distintas alternativas para ducirse desde una perspectiva univariante (analizan casos toman valores anormalmente altos) o multivaria troide). Ha de tenerse en cuenta que un caso puede no tomar Sera Us fables consideradas individualmente, pero s haverlo si se consideran Conn individuo de 14 afos puede ser un elemento muestral 16gico de nuestra inves EAT NS sujeto con un doctorado también, pero un sujeto de 14 afios con un doctor , n toda seguridad, un caso atipico. yutliers Pa su detecci6n. Retibucidin de altos dieectivas, Un investigador desea saber cuales son las causas que explican la distinta remuneracion de los altos directivoy de las empresas. Dispone de una base de datos de 100 altos direc- tivos cuyas caracteristicas se sintetizan en el Cuadro 2.9 Cuadro 2.9. Descripeidn de la hase de datos. Variable Descripcién SYS Sueldos y salarios (remuneracién total) del directivo en miles de euros. EDAD Edad direetivo. EXP_PTO Experiencia en el puesto: afios como alto directivo en cualquier empresa. EXP_EMP Experiencia en la empresa: aos en la empresa, VENTAS. ‘Ventas de la empresa (millones euros) BENEF | _Beneficio de la empresa (millones euros). Para ilustrar los distintos métodos de deteccién univariante nos centraremos en la va~ riable que contempla la remuneracién total del directivo. Se recomienda replicar los lisis que se desarrollan a partir de la base de datos suministrada, El procedimiento mas extendido consiste en considerar atipicos aquellos casos cuyo valor estandarizado de ta variable analizado (valor z, en la nomenclatura del programa SPSS) supere un umbral determinado. Al estandarizar la variable x mediante la siguiente expresiGn: Ga si ndo 1 el numero de casos de nuestra base de datos. Por lo tanto, para establecer si una valor ¥, determinado es atipico sélo es necesario determinar el umbral que debe superar Y que normalmente se expresa en ntimero de desviaciones tipicas k. Asf, x, serd un valor atipico si su valor estandarizado 2; tks, ae © ITES-Paraninto 24 © ANALISIS MULTIVARIANTE APLICADO ©1TES Paraninto os valores estadarizados, la media es 0 y la desviacidn tipica 1, con lo gue Dao eo oe evilia a, = & Lo normal es considerar k = 2.5 pura mos 1a expres ver de BO casos) y k= 30k = 4 para muestras mayores (Hit, Anderson, ede ne 1995), Si la distribucién fuera normal, k = 3 implicaria que menos dei cei aa Ca fuera de ese intervalo, por lo que no es ilégico onside, Dado que 0.25% de los casos puede caer rarlo como atipico. ee iiura 2. | muestra la distribuci6n de la variable SYS estandarizada (ZSYS) tal y como se ha indicado. Puede comprobarse que tres casos (el 14, 82 y 87) superan en més de 3 desviaciones tipicas el valor medio. Si repitiendo el andlisis para todas las variables esos casos tomasen también valores atipicos deberfamos comenvar a pensar que proba. blemente lo sean de manera multivariante. Como se comprueba en el Cuadro 2.10, don. de se muestran los casos que, aplicando este procedimiento resultarian univariantemente atipicos, no se observa reincidencia de casos. De momento, por tanto, el investigador de- beria comprobar si estamos ante errores en la toma o introduccién de datos o si, por e contrario, son ouiliers legitimos. zsys 15 1917 21 23 25 29 39 97 41 45 49 59 57 61 G5 69 72 77 BF 85 89 99 97 FIGURA 2.1. Valores de la variable SYS estandarizada (2SYS), Cuadro 2.10. Observaciones atipicas para cada variable. Variable ‘Caso SYS 14, 82, 87 EDAD 100 EXP_PTO Ninguno EXP_EMP, 28, 50 VENTAS, 221,42 BENEF 14,97 Un procedimiento menos utilis: 2 ado pero muy recomendado por algunos autores (Pe! 2004) para la deteccién univa Lada ele riante de outliers es el test de Grubbs (Grubbs. 18° ST FIEMPLO 2.8, CAPITULO 2 ANALISIS PREVIO DE LOS DATOS + 25 Stefansky, 1972), Esté también basado en la asuncién de normalidad de la aes Partiendo de la hipétesis nula de que no hay caso ati eee ladistico G como sigue: (2.1) donde todas las variables ya han sido definidas. La hipétesis nula de ausencia de valores atipicos se rechava si: (2.2) iS es el valor eritico de la distribucién ¢ con n — 2 grados de libertad y un nivel atividad de 2/21 El Cuadro 2.11 recoge algunos de los casos de la base de datos para ilustrar el proceso de calculo del contraste de Grubbs. Las dos primeras columnas son, directamente, datos del fi- cchero y la tercera es un calculo elemental que requiere nicamente del célculo previo de la media, que figura al pie de la tabla, Cuadro 2.11. Calculo del contraste de Grubbs: c 318 coe 1 To meas 2 09 31267 3 ni 400.67 4 2027 905.33 5 204 ons 6 370 ssi 7 1,833 711,33, 8 1126 a 9 1.300 178,33 0 8 ii L082 2 597 B 554 “4 4057 97 684 8 466 ” 307 100 329 max [x — §] S, = 852.72 © TES-Paraninto ———— ADO 7 WANTE APLIC! Het taee Gieice 1s MULTIVARI ro 2.11 eb estadistico G del contrat + ANAL! A - pe acvento can (2-109 10S datos det Coa ity, “ceuto no inmediato corresponde con De ta expresisn (2.2) €l nico te mmplicado encontrar tablas esta Gistribucidn FES ObvIO TNT ipertad Ys aunque extstietin. Serta demasigg, drntaier numero dé BPI omos que lo més sencillo es recurrieg iy Ita, Por ese MOLY eiculo. En nuestro caso se ha utilizadg ty Macy, a as de las hojay A “sigue ta sintaxis @DISTT(Dici), en ig 4 Pde Lotus 123 V9.7 Ser pimero de Brads de libertad ¢ es una ops’ LOTUS — el nivel de sig fi ap de la funci6n, Si toma el valor 1, el resultado es e} Vlog 1:23 sen aoe ‘ex el nivel de significactOn ¥+ finalmente, d es el carécier at = ne a fe ta distribucién. Notese que hemos decidido trabajar a.un pig} ae fo dos colas de sy EJEMPLO 2.9. ONTES Paraninto nificacion del 5% = @DISTT(0,05/200; 985 15 1) = 3,6008, sustituyendo en (2.2): mos la hipstesis nula de ausencia de outliers, conto Como 4,15 > 3,38 rechazar servacién 14, a la que corresponde el para el siguiente (caso 87 como se Co! dejara de ser significativo, con lo qu riantes de la variable SYS. mprueba en la Figura 2.1) hasta que el 2.3.2. Deteccién bivariante de casos atipicos que ad mayor serfa un caso atipico. El proceso se pan, estas 1¢ habriamos aislado todos los valores atipics unis La deteccién bivariante tiene utilidad cuando, con posterioridad, vamos a realza dg anilisis en el cual una variable vaya a actuar como dependiente pues, de esta for. demos realizar una inspeccién de la relacién que cada independiente guardaré previstle mente con ella. EI proceso es sencillo, basta con obtener un grafico de dispersién y re aizar wm " gresidn simple, Esto nos permitiré superponer al grafico las bandas de un iene diecién individual (por ejemplo al 95%) y ver qué casos quedan fuera. Si sis son los mismos, querra decir que sus valores de variable dependiente son ano que se contemplen con cualquier variable explicativa. En el ejemplo que seguimos podemos regresar la variable de ingresos SYS vamente, la edad (EDAD), la experiencia (EXP_PTO, EXP_EMP). as vet y los beneticios de la empresa (BENEF). Las Figuras 2.2, 2.3 y 24 it estas regresiones: eee as ran a sate 8 est emai aks +27 NALISIS PREVIO DE LOS DATOS 2 CAPITULO 2 At Remuneracién directivo (miles euros} Edad directivo FIGURA 2.2. Relacién ingresos edad, ee 0 10 2 30 40 ‘Afios como directivo FIGURA 2.3. Relacién ingresos experiencia, 4.000 3.000 2.000 4,000 (miles euros) 0 1.000 Remuneracién directivo 1.000 0 41.000 Beneficio de la empresa (millones euros) FIGURA 2.4, Relacién ingresos situacién de la empresa. Parece que las remuneraciones de los casos 14, 82, 87, 88 y 89 son casos atipicos bi- variantes pues sisteméticamente aparecen como tales. © \TES-Paraninto 28 + ANALISIS MULTIVARIANTE APLICADO 2.3.3. Deteccion multivariante de casos atipicos Igual que en muchas ocasiones las técnicas que se aplican no exigen normalidad uniy, riante, sino multivariante (easo de la regresi6n lineal maltiple. por éemplo), respec, los casos atipicos ocurre lo mismo, No es tan problemiitico que Un Caso Sea alipico res, pecto a una variable sino respecto al conjunto de las que se incorporan al anilisis, Ey, hace necesario busear un procedimiento que contemple simulténearnente todas las vay, bles para determinar si alzdn caso tiene un comportamiento anok™ | Un procedimiento bastante intuitive consiste en caleular la distineta 0 cada caso ay centroide del conjunto de los datos. Cuanto mas lejos esté un caso 06 Tt MA de los sos, mas probable es que sea un caso atipico. La distancia haitualmete emplcaula en iy eteceidn de easos atpicos es la distancia de Mahalanobis (D), lusiraremos su elo coy tun ejemplo sencillo (Caso 2.3) y luego lo aplicaremos al Caso 2.2, © ITES-Paraninfo Sea X la matriz de datos formada por 1 casos y mm variables donde quiere detectarse la exis, tencia de easowaupicos, En nuestro ejemplo ta mauriz.X aparece ene! Cuadro 2:12, siendo Son datos de 10 modelos de ‘automoviles de los cuales se da su consumo n=10ym sos (W100ke», elindrada (ce), potencia (cv). peso (kg) y aceleracién (segundos de 0 100 kay, Cuadro 2.12. Matriz X de datos para ta deteccién de outliers [Gaso | Consumo | Motor [CY Peso ‘ACEL 1 1B 5.031 130 1.168 2 2 16 5.735 165 1231 2 3 13 5211 150 1145 n 4 15 4.982 150 1144 12 5 14 4.949 140 1149 n 6 16 7.030 198 1.447 10 a 7 7.440 220 1451 9 8 7 7210 215 1.437 9 9 7 7.456 1475 10 10 16 6391 1.283 9 Media 154 6.144 1.293 10,5 Deseamos saber cada caso cudnto dista del centroide de los datos, es decir, del vee- tor de medias de las variables implicadas. Para ello denotaremos como X a una matriz.n xm en el que se repite el vector de medias 1 x n en las m filas de esa matriz para que la res- ta con X sea compatible Pues bien, el cuadrado de la distancia de Mahalanobis (D*) para cada caso se obtiene como sigue: D? = diag ((X ~ XJS~'[X - Ky} 23) donde toda la notacién es conocida salvo S~', que es la inversa de la matriz de varianzas- covarianzas de X y que, como es conocido, se obtiene: (- Xx -* 4) CAPITULO 2 ANALISIS PREVIODELOS DATOS + 29 Pues bien, con los d atos de nuestro ejemplo puede caleulars luna hoja de caleulo que: ae mente mediante 13° 5.031 130 1.168 12 15,4 6.144 178.3 1.293 10,5 16 5.735 165 1.231 12 154 6.144 1783 1.293 10,5 135211 150 145 11 154 6.144 1783 1.293 10,5 13 4.982 150 1.144 12 154 6.144 1783 1.293 105 144949 140 1.149 11 15,4 6.144 1783, 1,293 105 16 7.030 198 1.447 10 154 6.144 1783 1.293 105 17 7.440 220 1451 9 154 6.144 178.3 1.293 10.5 17-7210 215 1.437 9 154 6.144 1783 1.293 105 17 7456 225 1.475 10 154 6.144 178.3, 1.293, 10.5 6 6391 190 1.283 9 154 6.144 1783 1.293 105 -24 -1113 483-125 15 06 409-133-6215 -24 933-283-148 05 -04 1162 283 -149 15 <14 -1195 -383 —144 05 06 = 886 «19,7154 0.5 161296 417158 = 1.5 16 1.066 36.7144. 1,5 16 1312 46,7 182 ~ 0.5 06 860247? 10-15 3,102 0,004 -0,259 —0,007 — 0,963 0,004 0,000 —0,002. -0,001 0,009 s-'=|-0,259 -0,002 0,058 0,006 0,047 -0.007 -0,001 0,006 0,004 — 0,046 -0,963 0,009 0,047 —0,046 2,945 Efectuando las operaciones matriviales especificadas en (2.3) y tomando raices cuadradas (puesto que queremos la distancia de cada individu D, no su cuadrado), se obtiene: 2,22 2,53 2,53 2,53 p=| 29 194 Al 147 2,25 © INTES Pavan 30 + ANALISIS MULTIVARIANTE APLICADO n outlier Se asume que g X? con m grados de jj Para determinar si alguno de los 10 casos especificados es Guise sia de Mahala stribuye segin una cuadrado de ta distancia de Mahalanobis se distbuye sestin uh X" Of Bot ler bertad. La hipstesis nula es que el caso {no es un easo atipico, Park ct 8 ee é ico la signiticatividad de la prueba puede recurrrse a ablas ONE Ta tasros /d programadas en cualquier hoja de calculo. En nuestro ci SiGe ion se @DISTIL Para 5 raion de libertad, los valores criticos ©, andlogamente, a, cidn se cortespondientes significatividades serian: e Mahalanobis. Cuadro 2.13. Resultado de! contraste de Mahalanobis - Caso D eritico Valor p 15,09 ee : 15,09 7" 15,09 0,77 i 15.09 082 . 1509 age 15,09 ‘ 7 15.09 os2 3 15.09 092 9 15.09 082 10 15,09 081 Como se comprueba en ef Cuadro 2.13, para todos los casos D < D critico, por lo que no se puede rechazar la hipétesis de que el caso en cuestién no es un outlier. Debe seia- larse que otros autores (Hair, Anderson, Tatham y Black, 1995) prefieren considerar que la distancia de Mahalanobis dividida por el numero de grados de libertad (D/gl)se distr- buye segtin una 1, cum lo que los valores criticos son mucho més conocidos no siendo ne- cesario recurrir a tablas. Obviamente, realizar estos célculos manualmente es demasiado costoso. Por este moti- vo conviene plantear un procedimiento que permita utilizar la funcién de programas como ‘SPSS para proporcionar la distancia D. El programa SPSS no permite calcular las distancias ‘SPSS para un conjunto de variables en un andlisis exploratorio, sino que lo tiene programado como luna opcién de la regresién lineal maitiple, Por lo tanto, es necesario realizar una regresiGn don- elas variables entre las que se quieren detectar los casos atipicos actiien como independien- tes y una variable cualquiera (una buena opcisn puede ser, por ejemplo, el nimero de caso) actle como dependiente. Se marca entonces la opcién de guardar «distancias de Mahalanobis». Es importante sefalar que el valor guardado no es la distancia D sino su cuadrado D*, cular el valor eritico para un nivel de Black (1995) y Tabachnick y Fidell ( caso como outlier (p <0,001). Como £iin caso seria atipico. Si se es menos Suponiendo picos © UTES Paraninto CAPITULO 2 ANALISIS PREVIO DE LOS DATOS * 31 REN gs ey eae iree a ee ee ae FIGURA25. Deteccién multivariante de casos atipicos. Comprobamos en et Figura 2.6 e6mo fos easos 14 y 97 Son atipicos por razones dis timss, Eleaso 14 corresponde a un directivo que teniendo 1a mist! ‘edad que el prome- do, gana un sueldo muy superior, dado que su empress también es mas grande (vende més) Y tiene mis beneficios. Ese directive también tiene vmds experiencia en el puesto, en Be neral, y en la empresa, en particular Ver au lado. el eavo 97 corresponde a un-directivo que gang mete que el prome- dio teniendo, tambien, Ia misma edad. Corresponde a un direct que ha Ilegado no have mucho a la empresa pues, teniendo mas experiencia ©? el puesto que el prome- dio, tiene menos experiencia en la empresa. La empresa € ademas una empresa con problemas pues teniendo unas ventas superiores al promedio, obtiene muchos menos beneficios, sys sys BENEF, e DAD BENEF EDAD VENTAS EXP_PTO a VENTAS EXP_PTO EXP_EMP Centoide Caso 14 aoe — Centroide Caso 97 FIGURA 2.6. Cor 6. Comparacién de los caso: 5 atipicos con el ce ntroide, © ITES-Paraninto 32 + ANAuisis MULTIVARIANTE APLICADO © NES-Paraninto 2.4. COMPROBACION DE SUPUESTOS BASICOS DEL ANALISIS MULTIVARIANTE Como se vera en cada uno de los eapitulos correspondiente ‘algunas de vid multivariante de 10s datos, Ig nes, Otras tenicas, cada técnica multivariante ellas Son muy eXigentes: esti basada en una serie de supuestos estalisticos: por ejemplo, la regresidn multiple aume fa norm! fe homoscedasticidad, linealidad e independencia de las observae Oe’ CNT Ta embargo, son mucho menos exi no a extas propiedades, AS ot ann de conglomerados, por ser una técnica algo Pre sus datos. En cada capitulo se abordarin Ia Ja importancia que tiene fa comprobacion de aproximacién al contraste de las més importantes, te, homoxcedastiidad, Tineafidad e independencia de eas a ‘cada téenica. En este epigrafe, dada edades, se abordar’ una primera stas propie! estas Peper, normatidad uni y multivarian. las observaciones. exigencias de 2.4.1. Normalidad ; ee = raonamiento para justficar la relevancia de compro- bar la normalidad uni y multivariante de las varia Ea pes ae cine EIetie se preter can a i ve de siznifcaion del etaitiy fo que implica que, si se repitiera infinidad de veces el estudio, nos equivocariamos un ‘54% de las veces al rechazar la hipotesis nula, Sin embargo, st se esté violando alguno de jos supuestos del modelo, por ejemplo la normalidad, el ntimero de veces que nos estari- dmnos equivocando al rechazar la hipGtesis nula serfa superior a ese 5% teGrico, {El error tipo II (f) es la probabilidad de no rechazar la bipstesis nula cuando ésta es, de hecho, falsa, Se define la potencia de un contraste como 1+), que es la probabil dad de acertar al rechazar la hipotesis nula cuando ésta es falsa. Cuanto mas baja la po- tencia de un contraste, mas se reduce la posibilidad de encontrar resultados signiticativos, ‘Obviamente, un investigador deseard tener valores % pequeiios y contraste potentes. Sin embargo, ambas variables pueden verse afectadas por Ia viokacién de las hipétesis sub- yacentes, entre ellas la normalidad. Como sefiala Sharma (1996), diversos autores (Glass, Peckham y Sanders, 1972, Everitt, 1979; Hopkins y Clay, 1963; Olson, 1974)-han constatado que la violacién de la hipotesis de normalidad no tiene un efecto apreciable sobre e! error tipo 1; sin embar- {g0, si que lo tiene, e importante, sobre el error tipo II, de ahi la relevancia de su contras- tacién, © Aunque las técnicas que expondremos suelen exigit normalidad multivariante, vere- mos a continuacién cémo contrastar primero la normalidad univariante por varias £a/0- nes: (I) los contrastes multivariantes son mas complejos y didicticamente se entienden mejor viendo primero los univariantes (Sharma, 1996); (2) aunque es tedricamente posi- ble que siendo todas las variables univariantemente normales, no lo sean multivariante- mente, es bastante improbable, por lo que es difcil que a no normalidad multivariante i ede anes de la no normalidad univariante (Gnandesikan, 1977); y (3) s oes antemente , y Bits inal eae EH eee ote an ae Y para ello es necesario conocer los contrastes univariantes CAPITULO 2. ANALISIS PREVIO DE LOS DATOS * 33 » Andlisis univariante de la normalidad a primer paso es analizar la asimetria y la curtosis (apuntamiento) de as distrbucr le cada variable, En una distribucién normal tipificada, los valores de i metria y curto- sisson cero y 3, respectivamente. La Figura 2.7 ilustra fo que indican valores posits % y cgativos de asimetria y curtosis. ‘Normal ‘Asimeiia positva ‘Asimetria negatva Curtosis positwa Jormal, asimeétricas y con curtosis Bs sitive y negative FIGURA 2.7. Distribuciones ni itiva y NEF ar los datos del sencillo 4 ifustrar los distintos céleulos que realizaremos vamos * li F s izaremos vamos a uti contraste de hipstesis, Caso 2.3, para después, una vez devarrolladas todas las téenicas de aplicarlos a un caso mas complejo. Para contrastar si el coeficiente de asimetria (A) o el de curtes’s (C) es 0 no esta- disticamente distnto de cero, se calcula la probabitidad de que sis valores estandari- sinlos Z, y Z- que se dstibuyen segin una (0,1) difieran de la normal para un nivel de significacign preestablecido (que para muestras pequefias, como en nucStHO ejemplo, se considera que sea un nivel conservador: 0,01 0 0,001 como sefialan Tabachnick y Fidell, 1996). Asi si-caleulamos os valores estandarizados restando la media (0) y dividiendo por la desviacidn tipica del estadistico: FJEMPLO 2.10. 5) siendo oy olay desviaciones ti 1Y las desviaciones tipicas de los coeties eae! los coeficientes de asime cl de nuestro ejemplo, los valores de A.C y oy yo, aa i macau He ¥ 7, aparecen en el Cuadro 214 © ITES. Parancts 34 BEMPLO 2.11 Paraninto al NNALISIS MULTIVARIANTE APLICADO, Cuadro 2.14, Valores de asimetria y curtosis de kas variables de} Can 2 a Caatnueo | Bron urns a on? Consume W100 Kn) Asia oan a Aiea | rn : eee nae gu me Cars x is ans! f potencia (CV) faint a nt Curtosis, bn7 0.087 eso total (kg) out rete a toe? Aceleracisn 0a 100 van 134 Curtosis kins (sey onyumo es 0 no simétrica y mesocdrtica (nor Para contrastar si, por ejemplo. la variable ¢ mal), hay que comparar los valores Z5 y Zc ~ 1,159 - 0 1,334 0,620 — 0 0,687 = = 0,9025 0,868 como criterio general para considerar que fa distribucién responde a una normal, los in- diendores calculados deben caer en el intervalo |~ 1,96:1,96] para un nivel de significa vidad del 5% 0 [ 8] para el 1%, como es el caso, tra alternativa para establecer la normalidad univariante es el recurso at los gréficos Q-Q. ‘Aunque todos los paquetes estadisticos lo calculan automaticamente, jlustraremos su céleu- fo con el ejemplo que venimos utilizando, coneretamente para la variable consumo, El gré- fico Q-Q se obtiene como sigue: 1, Se ordenan de menor a mayor los n valores de la variable analizada (peso del e4 che, en nuestro ejemplo). Como la variable es continua y es improbable que se re- pitan valores, cabe esperar que haya j observaciones igual o inferiores al valor X de la variable considerada (columna 2 del Cuadro 2.15). Cuadro 2.15. Calculos necesarios para el gratico Q-Q. Observacién ‘uantiles i normal ada 1 2 3 aie 5 0.9 6 -O.13 7 O13 8 09 9 0.67 lo Low + 35 CAPITULO 2 ANALISIS PREVIO DE LOS DATOS ediante la ex- 2. La proporcidn de observaciones que son inferires aX) se entian mediate fo, presisn ( ~ 0,5yn, donde e rin 0.5 es un factor de corecion, pues Isgico seria jt {Johnson y Wicherm, 1998 indican que otros autores com I (1975) 0 Looney y Gulledge (1985) sugieren la. cone ion aparece recogidoen ta column 3 del Cuadro 2.15. 9 sea hidad ¢ este que los valores anteriores son os percentiles 0 niveles de PONT dela funcion de distribucisn normal estandarizada S 36 cle oe clon Ficos directamente de tablas (nosotros los hemos cae medi is "NORM emtan frente & s oe aN fe Lotus 123) y se representan as mal (Figura 2.8). Normal esperado 500 4.100 1.200 1.300 1.400 1 Valor observado FIGURA 2.8. Grafico 0-0 para la variable peso. Como se observa en la Figura 2.8, no es claro que exista una relacion lineal. En cualquier caso, os griticos Q-Q no son especialmente stiles salvo para muestras de cierto tamaiio, n > 20 Johnson y Wichern, 1998) y su interpretacién es muy subje- tiva (Sharma, 1996). Por ese motivo, este tltimo autor recomienda objetivarlos me- diante el siguiente procedimiento: calcular el coeficiente de correlacién entre la muestra (X) y los cuantiles de la normal estandarizada y compararlos con los valores criticos obtenidos por Filliben (1975) ) 0 los proporcionados por Johnson y Wichern (1998) que se reproducen en el Cuadro 2.16. Si calculamos es Coeficiente de corre- laci6n el valor es 0,931. Sis compara con el valor critico para nn = 10) se constata la aceplacion de la hipétesis de normalidad, pues para p < fici apie Pues para p t Anderson-Darling ne 0.094998, Pr>W.sq tle e “Sq 0.625427 Pr>Asq_o! ONES Pataninto EJEMPLO 2.13. CApiTl 'ULO2 ANALISIS PREVIO DE LOS DATOS * 37 OW y el de Shapire Fiabe analiza — ro-Wilk. A la luz del mismo se puedk tab. De a e acuerdo con el re normalidad. mel resto de contrastes: no podriamos rechazar | famos recharar la hipotesis nula de Andiisi indlisis multivariante de la normalidad ies de normalidad multivariante. (grdfico chi-cua- into (Mardi, Como sefiala sen fala Sharma (1996), existen muy pocos cont El odo prfico cs similar al uilzod para normalidad univariante |. mientras que los contrastes de Mantia-curtosis y Mardia-apuntamic 1980) y el cor ede y el contraste de Henze-Ziriker (Henze y Zitkle, 1990), estin operativizados en sma (1996), Su distribucidn no es muy bien sremos unicamente, por ell0, el cos paguetes estadisticos y, como sefiala Shi onocida, lo que les confiere una utilidad lim pees | fe una utilidad limitada. Hust procedimiento de elaboracién del grilico chi-cuadrado. ‘itico Q-Q. Siguiendo muy similar al del Caso 2.3 serfan 9 datos El gratico chi-cuadrado se construye de una maner a Johnson y Wichern (1998), los pasos que ilustraremos con Io los siguientes: ‘alanobis para todas las variables Guy norma retro caso son f38 variables Teco peso y aceleracion. El Pro” ten el Apartado 2.3.3 ¥ ro 2.13 (nétese que eP 1. Se calculan las distancias de Mah: Jidad multivariante se desee contrastar. En nus gidas en el Cusidro 2.12: consumo, motor, potenclay a dimiento de edlculo de esta distancia ya se explicS valtados de esta distancia se recogen en el Cus it iatjstancia, mientras que en la elaborsek’e del grati fo chiccuadrado utilizamos su cuadrado; asimism 0 &% 2.13 se muestran 10s Va- ores ordenados de manera erecicnte, por 10 que 12 “geociacin caso-distancia nO ce la misma). El cuudrado de estas distancias D” S° ‘ordena de menor @ Mayor (tercera columna del Cuadro 2.18), 2. Para cada distanci Icula el casos (10) 3, Se calculan los valores x" de los pe de libertad, donde p es el niimero de vi ato puede realizarse, por ejemplo, con I fun los ri dicho cuadro se computa | donde n es el nimero de percentil (j-0,5)/n, intiles de una distribucion x2 con p grados riables implicadas (5 en nuestro Ch mplo). ‘cién @DISTII de Lotus 123 Cuadro 2.18, Elaboracién del grifico chi-cuadrado. Caso. i 2 Percentil | g-osye | * 5.99 3,79 2.77 2,10 1,60 1,20 0.86 0,58 0.33 0,10 1,99) © ITES-Paraninto 38 + ANALISIS MULTIVARIANTE APLICADO el cuadrado de la distancia ge S ssenta ico de dispersion 4. Se representan en un grifico de dispersion el euadiael Of Susans de Mahalanobis y el valor x”. La relacién deber estarfamos ante desviaciones de la normalidad. nes evidentemente Tineal, aunque como el coeficiente de correlacién e rarlo con 108 valores er ficaciGn, Se asume la nor. gura 2.9, la relac ‘ealculars 9431) y compal vel de signi Como se observa en la Fil se explicé al comentar los griticos Q-Q puede tre las variables relacionadas en la figura (~0. cos del Cuadro 2.16. Al ser superior para cualquier malidad multivariante de la distribucién. Chi-cuadrado Distancia de Mahalanobis FIGURA 2.9. Grafico chi-cuadrado. La cuestién que se plantea si no se confirma la normalidad univariante © multivariante es qué hacer. La respuesta es transformar los valores originales. El tipo de transformacién depende del problema de asimetria 0 curtosis que cause la no normalidad. La Figura 2.10 ilustra el efecto de posibles transformaciones, aunque hay que tener en cuenta que no siempre es posible realizarlas, puesto que la variable original puede tener una interpreta- cién te6rica y no ser facil de interpretar, por ejemplo, el coeficiente de la variable trans- formada en una regresién lineal miltiple. 2.4.2. Homoscedasticidad tinua es mas o menos la misma en tod que delimita los grupos, TES-Paraninfo EJEMPLO 2.14. CAPITULO 2 ANALISIS PREVI DE LOS DATOS * 39 ee ; = XN, Xp = 109%) x arc ean VX, x j 114%, 25x x = arc sen VX) Xn tog ‘Puente: Aaa de Rae (197) y Severs (1996) FIGURA 2.10, Transformaciones en busqueda de normalidad. abordara en el capitulo tado a evaluarla para da- so 2.1 [los disponibles en lad en datos no agrupado: tiple. Dedicaremos este apa datos completos del C: a El andlisis de la homoscedastic dedicado al andlisis de regresién m tos agrupados utilizando para ello los (la pagina web] no la seleccién simulada del Cuadro 2.2). Seguin el problema planteado el contraste puede ser univariante (se contrasta si la va- Fianca es la misma) o multivariante (se contrasta si las matrices de varianzas-covarian- zas son o no las mismas). : 0 es consciente de que Un investigador puede plantearse si la poblacién en su conjunt (V1) 0 si, por el contrario, los fumadores lo son porque no «Fumar perjudica la salud» son conscientes de este hecho. De ser asi, los fumadores estarfan significativamente més en desacuerdo con esta afirmacién que los no fumadores. Para contrastar esta hipotesis, como se verd en el Capitulo 6, debe realizarse un and- lisis de la varianza, Pero esta técnica exige homoscedasticidad, es decir, que la varian- za de la variable V1 (opinién sobre que fumar perjudica la salud) es mas 0 menos la misma en los grupos que conforma la variable que nos dice si el individuo es 0 no fu- mador (C3 «Habito»). La Figura 2.11 ilustra el cumplimiento y la vulneracién de este supuesto, © ITES-Paraninto HEN 4 = Fumadores = No fumadores a, Hat ee see een 3 _ Hoteroscedasticidad aa 1s y heteroscedasticidad. oscedasticidad univariante es ele « mas habitual para evaluar Ta homoscedasti a trast Levene (Levene, (00 «71 on nuestro ejemplo) es igual en los k sulbgrupos (2 ens es) que forma la variable X (C3 en nuestro een rianza de la tro ejemplo, fumadores y no furadon Esto es Hy:a} =o} = = H,=0,#0) para al menos un par i,j i siendo g; la desviacién tipica de la variable ¥ en el subgrupo i. Si N es el tamatio mas tral, entonces el estadistico de Levene (W) adopta la siguiente expresién: . Bue ae tial fs ) # : XY @- 2) donde toda la notacién es conocida salvo: 2y=\¥j- Yi donde Y, es la media e yl Zea y Inala del subgrupo é, Z, son las medias de los dstntos suber Joie tunel de 2, para el conjunto dela muestra sin distinguir grupos Le ‘ inal de Levene; otros autores, sin embargo, han demostrado a ul ‘mediana, o la media recortada al 10%, ‘Mejora la robustez de La prueba. ©.TES-Paraninfo El contraste de es decir, si el e os de libertad p: EEMPLO 2,15, EL Cuadro 2, para la varia to en el Cuadr 19 offece del resultado del cor CAPITULO 2 ANALISIS PREVIO DE LOS DATOS + 41 Levene rechaza la hipétesis nula si Wo FE ave 8) ‘tadistico supera el nivel erftico de una distibucién F con k-l_y N-K gra- 4 un nivel de signiticacién de x S. no slo ® 2.1. Se puede comprobar eémo, para un nivel de significacisn del 5%, solo ntraste de Levene en el program: le implicada (V1), sino para el resto de opiniones recogida las variables V2 (no debe pe a tay Wiables V2 (no debe permitrse fumar en lugares piblicos) y VS (dehe informarse So~ os {0s efectos) no seguirian una distribueidn homoseedistica entre fumadores y no f¥- Lotus | ™Wores 1-2-3 ____Cuadro 2.19, Prueba de homogeneidad de varianzas. ‘stadistico oa Fsiadistieo! yy] ga | Sie le Levene | oe Fumar perjudica salud 0,060 1 on07 No permitir fumar lugares paiicos | 116.498 1 0.000 Solo interesa recaudar impuestos 1 out Deben aumentarse fos impuestos 1 oo Debe informarse sobre los etectos 1 O08. El problema que exige el contraste multivariante de fa homoxcedasticidad es GE Supongamos que deseanos saber si fa actitud de Tos individuos respecto al bare Or bles V1 a V5) puede explicarrazonablemente que el entrevistado sea o no fumade © 2 se veri en el Capitulo 9, estariamos ante el tipico problema de un anclisis disch'ON'n Te Variable dependiente (ser fumador © no) no meéiriea con un eonjunto de variankes NE” pendientes (VI a V5) méricas. Puey bien, como también se verd en exe capil. SY At lisis diseriminante exige que las matrices de varianzas-covarianzas de V1 9 N& Sei ON disticamente iguales en el grupo de fumadores y en el de no fumadores. ofrece lay mencionadas matrices muestrales. Cuadro 2.20. Matrices de varianzas-covarianzas muestrales, eat “No permitir |S Deben | Debe Habito fumar lugares aumentarse | informarse piiblicos | impuestos | los impuestos| sobre efectos 1. Sifuma Fumar perjudica salud 0251 =0015 0,003 0073 No permitirfumar lugares pblicos 1,464 =0.135 0.461 0.234 Sélo interesa recaudar impuestos 0,135 oo) — -0073 0.076 eben aumentarse os impuestos 0.461 0.073 1,332 0.266 Dehe informarse sobre los efectos 02M =0,076 0.266 1on2, 2 No fama Fumar pejudica salud 0,906 0.266 0.061 0288 6207 | No permite fumar lugares pubicos | 0,266 0.876 0.149 0.537 0.199 Silo imeresa ear mpuestos 0.061 0.149 1094 ~0.147 0.033 Bee rae . Hite 0,537 — 0,147 1.566 0203 informarse sobre los efectos * oa Ainiatse sobre es fen 0.199 0,053 0.203 0583 OATES Paranw 42. + ANALISIS MULTIVARIANTE APLICADO EJEMPLO 2.16. © ITES-Paraninto adad de matrices de varian7a-covariany ata ad que en el Capstule 7 se devs. Dade auistico que AECESIA Je wriversos aulOres FecOMien dan to ut Ssrgnificatividad MUY bajo (y Contraste para 108 datos de Ta de igualdad de la matriz jcatividad. Esto provoca ciones previas de las va- Para contrastar la hipétesis nula de igu: el programa SPSS utiliza el contraste M d rrolta detenidamente, aqui sélo indicaremos ave € tmalidad multivariante y que es muy sensible. Por tnilizar para el contraste de ta hipétesis mula wn ON a. < 0.001), El Cuadro 2.21 muestra los resultados Oe i il Suestro ejemplo. Puede comprobarse cme Ia PINT anit are oavarianvay puede rechazarse para cuaMMuler TINT rina que no pueda aplicarse el andilisis ‘diseriminante Si riables. de Box F Aprox. gil 15 A 2068918 Sie 0.000 2.4.3. Linealidad alidad es fundamental para todas aquellas téenicas que se cantratl samelaciones o de varianzas-covarianzas, como el anlisis ie de covarianza. La raz6n es sencilla; el coeficiente sptar una relacién si ésta es lineal, Si la relacién linea, el coeficiente de correlacién de Pearson interpretarlo como ausencia de relacién cuan- La asuncién de line: cl anailisis de las matrices de factorial o los modelos de estructur de correlacién de Pearson s6lo podré existe y es intensa pero, por ejemplo, es curvil tomard un valor bajo y el investigador puede do, de hecho, ésta existe s6lo que no es lineal. ‘Canndo Ta técnica empleada tiene una variable dependiente, como ocurre en el caso de la wezresién lineal multiple, existen diversos procedimientos para contrastar la linealt- Gad de las velaciones bastidas en el andlisis de los residuos. Estas técnicas se verin en el Capitulo 8. En este apartado nos centramos en el anilisis previo de los datos antes de apli- car técnica alguna, por lo que el nico procedimiento para comprobar la existencia de re- laciones lineales es sencillo: el anilisis de los grdficos de dispersién bivariante entre las Variables implicadas. Aplicando este procedimiento a los datos del Caso 2.3, se observa en la Figura 2.12 c6mo algunas de las relaciones que afloran son claramente no lineales, como es el caso del con- sumo del automévil, que erece més que proporcionalmente con la cilindrada, la potencia y el peso. Sin embargo, la relacién entre las demas variables, dejando fuera el consumo, Sique parece guardar una relacién cercana a la linealidad. Esto peeniteiterpretar con mas precisin la matriz de correlaciones del Cuadro 22 Todas as cmeacones son nica y fuerte, pero, mientras ls corelaciones J fe esti implicada la variable consumo estén enma won no lineal. ascarando una C1 es ail to corresponde a relaciones lineales. ee ee 43 DATOS CapiTULO.2 ANALISIS PREVIO DE LOS = C Consumo. cl FL x a 4 AS ye mz | A ware Aceleracién 0... Peso otal (kg) Potencia (CV) Cilindsads en, Consumo Cilindrada_—Potencia. «Peso total Aceleracién O (1100 kn) ‘en ce (cy) kg) a 100 kmh (segundos) FIGURA 2.12. Graficos de dispersi6n bivariados. Cuadro 2.22, Matriz de correlaciones. F Consumo | Citindrada | Potencia | Peso tora | \celeraiGn L (vi00km) | ence (cy) (kg) (segundos) | Consumo (W100 km) Correlacién de Pearson | 1 os7aes | ogtr | 0850 | 0,666" Sig. (bilateral) - 0,001 0,000 0,002 0.036 10 10 10 10 10 Cilindrada en ec Correlacién de Pearson | 0,874" | 1 O.984** | oog7e* | —og2is= Sig. (bilateral) 0,001 - 0,000 0,000 0,004 N 10 10 10 10 10 Potencia (CV) Correlacién de Pearson | 0.911% | oggaee | 4 o.956** | 029+ Sig. (bilateral) 0.000 0,000 = 0,000 0,003 N 10 10 10 10 10 Peso total (ke) Correlacién de Pearson | 0,850** | o987+* | “gsex | ‘tT 0,763" Sig. (bilateral) 0.002 0,000 0,000 — 0.010 N 10 10 10 10 10 {celeraciin 0 a 100 Correlacién de Pearson | -0.666* | 0.821% | -og29 | p.763¢ 1 knvh (segundos) Sig. (bilateral) 0,036 0,004 0,003 0,010 ee N 10 10 10 10 10 Aan es significaiva al nivel 0,01 (hiatal, * La conrlacidn es significant al nivel 0.05 (bilateral, © ITES-Paraninto eeu ee 44 + ANALISIS MULTIVARIANTE APLICADO © 11ES-Paraninto i; jones 2.4.4. Independencia de las observact alores que Dos observaciones son independientes cuande 10s valor A Jo en otro caso, en caso no se ven influidos por las observactones - estas dada €0 UN Cues. Investigacion de Mercados podria concretarse en d¥E IST no siempre es sencilla, Si nario por un individuo no influyen en fas que epee {que lo contesten Los dos e6n See eee plage milla, errdependientes. que no van & consultar yuses. es dificil creer que Tas respuestas van 2 S juntos el cuestionario ni comentarlo entre ellos. : Como sefala Sharma (1996), ka influenclt ae eorenci dependencia sobre los niveles de add YE Paivel dl yontante. Silas observaciones no son independiegt®s © 1, Ve, bas deberia incrementarse al menos 10 ve ee me 0s. habitualmente rechazamos una hipdtesis nul ep > 0.008. pendencia deberiamos hacerla @ partir ine meno de independensis Pep La tinica soluci6n efectiva para pres aoe ide las investigaciones. Siguiendo el ejemplo de ta entre. ser cuidadosos en los disefios UO) igador debiera plantearse oPtAt Pov Tits te vista a tos dos eGnyuges. Git ciones al entrevistador respecto a 84 DO realizacién tecvinsa penal con car ara presencia de uno mientras se Eure ‘simultinea a los dos sujetos y a & otro. toman las variables de eve una fan yestas van a Ser olaciGn del supuesto de in. de las pruebas es muy im- je significacin de lay prue- port, 1986), esto es, si sospechamos no inde- tiene la RESUMEN Jn aspecto central para la correcta aplicacién de cual- En este capitulo se ha insistido en u evio de los datos, tanto en lo referente al cum- quier técnica multivariante: el andlisis pr plimiento de hipétesis en las que se basan algunas de las téenicas (normalidad, homosce- dasticidad, entre otras) como en lo que se refiere a la fiabilidad de los propios datos (valores perdidos y observaciones ansmalas). En lo reterente al andlisis de valores perdidos se han ofrecido dos procedimientos al- temativos para determinar el cardcter aleatorio de los mismos. A continua ‘i6n se han ana- lizado distintos procedimientos para tratar esos valores: eliminacién de los casos que con- tienen un valor perdido, eliminaciGn por parejas y distintos tipos de imputacién (media, regresi6n). Respecto a las observaciones anémalas se han analizado distintos procedimientos para su deteccién, tanto desde una perspectiva univariante (valor tipificado que supera un de- terminado umbral, test de Grubbs), bivariante (regresién) 0 multivariante (distancia de Mahalanobis). ali em abe dev wef aa aston Jcamckeankens cutee. baci mediante el test de Levene (caso un " Se la matriz de varianzas-covarianzas). El variant) y M de Box (contraste de igualdad de anzas). El capitulo acaba con ejemplos de graficos que permi- ten analizar la linealidad de las relacior ald jones y una breve reference! ja inde- pendencia de las observaciones, inti einer - 45 CAPITULO 2 ANALISIS PREVIO DE LOS DATOS TERMINOS CLAVE Anderson-Darling Imputacién Avimetria Independencia de observaciones Caso atipico Kolmogorov-Smirnov Correlacion de Pearson Linealidad Correlaciones dicotomizadas M de Box Cramer-von Mises MCAR Curtosis Normalidad Distancia de Mahalanobis Observacién anémala Eliminacién Outlier Gréfico chi-cuadrado Test de Grubbs Grnificos de dispersion Test de Levene Grificos 0-0 Test de Shapiro-Wilk Homoscedasticidad Valores perdidos REFERENCIAS BIBLIOGRAFICAS a Anycombe, F. J, (1960): «Rejection of outliers». Technometrics, 2, 123-147, Bentler, P. M., y Chou, C. P. (1987): «Practical Issues in Structural Modelling». Sociological Methods & Research, vol. 16, pp. 78-117. Boomsma, A. (1985) «Nonconvergence, improper solutions, and starting values in LISREL maxi- mum likelihood estimation». Psychometrika, vol. 50, pp. 229-242. Brown, R. L. (1994): «Eficacy of the indirect approach for estimating structural equation models With missing data: a comparison of five methods». Structural Equation Modelling: A Multidisci- plinary Journal, vol. 1, pp. 287-316. Byme, B, M. (2001): Structural Equation Modeling with AMOS. Mahwah, NJ: Lawrence Erlbaum Chakravarti, Laha, y Roy, (1967): Handbook of Methods of Applied Statistics, vol. 1, John Wiley ‘and Sons, pp. 392-394 Everitt, B.S. (1979): «A Monte Carlo Investigation of the robustness of Hotelling’s One and Two Sample T° tests». Journal of the American Statistical Association, vol. 74, pp. 48-51 Filliben, J J.(1975): «The probability plot correlation coefficient test for normality». Technometrics, vol 17, n.° 1, pp. HA-117. i Glass, G. Vs Peckham, P. D., y Sanders, J. R. (1972): «Consequences of failure to meet assump- tions underlying the fixed effects analyses of variance and covariance». Review of Educational Research, vol. 42, pp. 237-288. Gnandesikan, R. (1977): Methods for Statistical Analysis of Multivariate Observations. Nueva York: Wiley & Sons. Grubbs, Frank (February 1969); «Procedures for Detecting Outlying Observations in Samples». Technometrics, vol. 11,0." 1, pp. 1-21 Hon, L. C. (1992): Regressions with graphics: A second course in applied statistics. Monterey, CA: Brookv/Cole, Hair, J. F: Anderson, R. E.: Tatham, R. L... y Black, W. (1995): Multivariate Data Analysis. 4" edi- cién, Englewood Cliffs: Prentice Hall Hawkins, D. M. (1980): Identification of outliers. Londres: Chapman and Hall Henze, Ny Zirkler, B. (1990): «A Class of Invariant Consistant tests for Multivariate Normality». Commun. Statist-Theory Meth.. 1910), pp. 3595-3617. H. OITES-Paraninto

You might also like