M - Spss Analisis Factorial

MANUAL DEL CURSO SPSS:
ANLISIS FACTORIAL Y DE VARIANZA
NDICE DE CONTENIDOS
CAPTULO 1: 1.1 1.2 1.3 1.4 1.5 1.6
ANLISIS DE VARIANZA DE UN FACTOR
ANLISIS DE VARIANZA DE UN FACTOR.............................................................1 RESULTADOS DE LA MUESTRA ..........................................................................2 PARA OBTENER UN ANLISIS DE VARIANZA DE UN FACTOR ..................................4 ANOVA DE UN FACTOR: CONTRASTE .................................................................4 ANOVA DE UN FACTOR: CONTRASTES POST HOC ................................................5 ANOVA DE UN FACTOR: OPCIONES ...................................................................6 MLG ANLISIS UNIVARIANTE
CAPTULO 2: 2.1 2.2 2.2.1 2.2.2 2.2.3 2.3 2.4
OBTENER UN ANLISIS MLG UNIVARIANTE.........................................................8 MLG: MODELO ...............................................................................................9 CONSTRUIR LOS TRMINOS .............................................................................9 SUMA DE CUADRADOS .................................................................................. 10 MLG UNIVARIANTE: CONTRASTES ................................................................... 11 MLG UNIVARIANTE: GRFICOS DE PERFIL ........................................................ 11 MLG UNIVARIANTE: COMPARACIONES MLTIPLES POST HOC PARA LAS MEDIAS OBSERVADAS .............................................................................................. 12 2.5 MLG: GUARDAR ........................................................................................... 14 2.6 MLG UNIVARIANTE: OPCIONES ....................................................................... 15 2.7 FUNCIONES ADICIONALES DE LOS COMANDOS UNIANOVA ................................. 17 2.8 PARA OBTENER UN ANLISIS FACTORIAL ......................................................... 19 2.8.1 SELECCIN DE CASOS EN EL ANLISIS FACTORIAL ........................................... 19 2.9 ANLISIS FACTORIAL: DESCRIPTIVOS ............................................................. 20 2.10 ANLISIS FACTORIAL: EXTRACCIN................................................................ 21 2.11 ANLISIS FACTORIAL: ROTACIN ................................................................... 21 2.12 ANLISIS FACTORIAL: PUNTUACIONES FACTORIALES ........................................ 22 2.13 ANLISIS FACTORIAL: OPCIONES ................................................................... 23 2.14 EJEMPLO ..................................................................................................... 23 2.14.1 RESULTADOS............................................................................................... 26 CAPTULO 3: 3.1 3.2 3.3 3.4 3.5 3.6 3.6.1 3.6.2 3.6.3 3.6.4 ANLISIS DE CONGLOMERADOS JERRQUICO
PARA OBTENER UN ANLISIS DE CONGLOMERADOS JERRQUICO ........................ 32 ANLISIS DE CONGLOMERADOS JERRQUICO: MTODO .................................... 32 ANLISIS DE CONGLOMERADOS: ESTADSTICOS .............................................. 34 ANLISIS DE CONGLOMERADOS JERRQUICO: GRFICOS .................................. 35 ANLISIS DE CONGLOMERADOS: GUARDAR VARIABLES NUEVAS ......................... 35 EJEMPLO ..................................................................................................... 36 PLANTEAMIENTOS PREVIOS ........................................................................... 36 APROXIMACIN INICIAL................................................................................ 37 PRIMER ANLISIS: DISTANCIA EUCLDEA AL CUADRADO Y VINCULACIN INTERGRUPOS ..................................................................................................... 38 SEGUNDO ANLISIS: DISTANCIA EUCLDEA AL CUADRADO Y VECINO MS PRXIMO .................................................................................................... 44
I
Manual de SPSS: Anlisis Factorial y de Varianza
CAPTULO 4: 4.1 4.2 4.3 4.4 4.5 4.6 4.7
ANLISIS DE CONGLOMERADOS DE K-MEDIAS
PARA OBTENER UN ANLISIS DE CONGLOMERADOS DE K-MEDIAS ....................... 48 EFICACIA DEL ANLISIS DE CONGLOMERADOS DE K MEDIAS ........................... 48 ANLISIS DE CONGLOMERADOS DE K-MEDIAS: ITERAR ..................................... 49 ANLISIS DE CONGLOMERADOS DE K-MEDIAS: GUARDAR.................................. 49 ANLISIS DE CONGLOMERADOS DE K-MEDIAS: OPCIONES ................................. 50 EJEMPLO ..................................................................................................... 50 VENTAJAS DEL ANLISIS DE CONGLOMERADOS DE K-MEDIAS............................. 55 ANLISIS DE CORRESPONDENCIA
CAPTULO 5: 5.1 5.1.1 5.1.2 5.2 5.3 5.4 5.5
OBTENER UN ANLISIS DE CORREPONDENCIA .................................................. 57 DEFINIR EL RANGO DE LAS FILAS ................................................................... 57 DEFINIR EL RANGO DE LAS COLUMNAS............................................................ 58 ANLISIS DE CORRESPONDENCIA: MODELO..................................................... 59 ANLISIS DE CORRESPONDENCIA: ESTADSTICOS ............................................ 61 ANLSIS DE CORRESPONDENCIA: GRFICOS.................................................... 62 FUNCIONES ADICIONALES DEL COMANDO CORRESPONDENCE ............................ 62
II
CAPTULO 1: ANLISIS DE VARIANZA DE UN FACTOR
1.1
ANLISIS DE VARIANZA DE UN FACTOR
El procedimiento ANOVA de un factor genera u90 n anlisis de varianza de un factor para una variable dependiente cuantitativa respecto a una nica variable de factor (la variable independiente). El anlisis de varianza se utiliza para contrastar la hiptesis de que medias son iguales. Esta tcnica es una extensin de la Prueba t para dos muestras. Adems de determinar que existen diferencias entre las medias, es posible que desee saber qu medias difieren. Existen dos tipos de contrastes para comparar medias: los contrastes a priori y las pruebas post hoc. Los contrastes a priori se plantean antes de ejecutar el experimento y las pruebas post hoc se realizan despus de haber llevado a cabo el experimento. Tambin se puede contrastar las tendencias existentes a travs de las categoras. Ejemplo. Nos presentan datos para tres tratamientos contra el acn, de tres doctores distintos. La primera variable nos describe el porcentaje de mejoras, y la segunda el doctor que trat al paciente. Se desea saber si el tratamiento que se reciba influye en las mejoras. Por otro lado, los doctores Rodrguez y Jcar pertenecen a una asociacin de dermatlogos altamente selectiva. Queremos saber si existen diferencias entre los doctores pertenecientes a dicha asociacin con respecto al tercer doctor, el doctor Skoll. Estadsticos. Para cada grupo: Nmero de casos Media Desviacin tpica Error tpico de la media Mnimo Mximo Intervalo de confianza al 95% para la media Prueba de Levene sobre la homogeneidad de las varianzas Tabla de anlisis de varianza para cada variable dependiente Contrastes a priori especificados por el usuario
Manual de SPSS: Anlisis Factorial y de Varianza 1
Las pruebas de rango y de comparaciones mltiples post hoc: Bonferroni, Sidak, diferencia honestamente significativa de Tukey, GT2 de Hochberg, Gabriel, Dunnet, prueba F de Ryan-Eniot-Gabriel- Welchs (R-E-G-W F), prueba de rango de Ryan-EniotGabriel-Welchs (R-E-G-W Q), T2 de Tamhane, T3 de Dunnet, Games-Howell, C de Dunett, prueba de rango mltiple de Duncan, Student-Newman- Keuls (S-N-K), Tukey b, Waller-Duncan, Scheff y diferencia menos significativa. Datos. Los datos de variable de factor deben ser enteros y la variable dependiente debe ser cuantitativa (nivel de medida de intervalo). Supuestos. Cada grupo es una muestra aleatoria independiente procedente de una poblacin normal. El anlisis de varianza es robusto a las desviaciones de la normalidad, aunque los datos debern ser simtricos. Los grupos deben proceder de las poblaciones con varianzas iguales. Para contrastar este supuesto utilizamos la prueba de Levene de homogeneidad de varianzas.
1.2
RESULTADOS DE LA MUESTRA
A continuacin, vemos un ejemplo de resultados de un contraste ANOVA. Una serie de descriptivos para cada valor del factor:
La prueba de homogeneidad:
El contraste ANOVA, que en este caso resulta significativo
Un contraste Post Hoc (Dunnet) de las diferencias de medias agrupadas:
Un grfico de las medias para cada valor del factor.
1.3
PARA OBTENER UN ANLISIS DE VARIANZA DE UN FACTOR
Vamos al men Analizar - Comparar medias - ANOVA de un factor... Obtenemos el cuadro de dialogo ANOVA de un factor
Seleccionamos una o ms variables dependientes Seleccionamos una sola variable de factor independiente.
1.4
ANOVA DE UN FACTOR: CONTRASTE
Si hacemos clic sobre el botn Contrastes, obtenemos el siguiente cuadro de dilogo:
Podemos dividir las sumas de cuadrados inter-grupos en componentes de tendencia o especificar c ontrastes a priori. Polinmico. Divide las sumas de cuadrados inter-grupos en componentes de tendencia. Puede contrastar la existencia de tendencia en la variable dependiente a travs de los niveles ordenados de la variable de factor. Por ejemplo, podra contrastar si existe una tendencia lineal (creciente o decreciente) en el salario, a travs de los niveles ordenados de la titulacin mayor obtenida. Orden. Se puede elegir un orden polinmico 1, 2, 3, 4 o 5. Coeficientes. Contrastes a priori, especificados por el usuario, que sern contrastados mediante el estadstico t. Introduzca un coeficiente para cada grupo (Categora) de la variable factor y pulse en Aadir despus de cada entrada. Cada nuevo valor se aade
al final de la lista de los coeficientes. Para especificar conjuntos de contrastes adicionales, pulse en Siguiente y Previo para desplazarse entre los conjuntos de contrastes. El orden de los coeficientes es importante porque se corresponde con el orden ascendente de los valores de las categoras de la variable de factor. El primer coeficiente en la lista se corresponde con el menor de los valores del grupo en la variable factor y el ultimo coeficiente se corresponde con el valor ms alto. Por ejemplo, si existen seis categoras en la variable factor, los coeficientes -1, 0, 0, 0, 0,5 y 0,5 contrastan con el primer grupo con los grupos quinto y sexto. Para la mayora de las aplicaciones, la suma de los coeficientes debera ser 0. Los conjuntos que no sumen 0 tambin se pueden utilizar, pero aparecer un mensaje de advertencia. 1.5 ANOVA DE UN FACTOR: CONTRASTES POST HOC
Si hacemos clic sobre el botn Post Hoc, obtenemos el siguiente cuadro de dilogo:
Pruebas: Una vez que se ha determinado que existen diferencias entre las medias, las pruebas de rango post hoc y las comparaciones mltiples por parejas permiten determinar qu medias difieren. Las pruebas de rango identifican subconjuntos homogneos de medias que no se diferencian entre s, las comparaciones mltiples por parejas contrastan la diferencia entre cada pareja de medias y dan lugar a una matriz donde los asteriscos indican las medias de grupo diferentes a un nivel alfa de 0,05. La prueba de la diferencia significativa de Tukey, la GT2 de Hochberg, la prueba de Gabriel y la prueba de Scheffl son pruebas de comparacin mltiples y pruebas de rango. Otras pruebas de rango disponibles son Tukey b, S-N-K, Duncan, R-E-G-W F, y Waller-Duncan. Las pruebas de comparacin mltiples disponibles son Bonferroni. Las pruebas de comparaciones mltiples que no suponen varianzas iguales son T2 de Tamhane, T3 de Dunnett, Games-Howell y C de Dunnett.
1.6
ANOVA DE UN FACTOR: OPCIONES
Hacemos clic sobre el botn Estadsticos:
Estadsticos: Elija uno entre los siguientes: Descriptivos: Calcula los siguientes estadsticos: Nmeros de casos, Media, Desviacin tpica, Error tpico de la media, Mnimo, Mximo y los Intervalos de confianza al 95% de cada variable dependiente para cada grupo. Homogeneidad de varianzas: Calcula el estadstico de Levene para contrastar la igualdad de las varianzas de grupo. Esta prueba no depende del supuesto de normalidad. Grfico de medias: Muestra un grfico que representa las medias de los subgrupos. Valores perdidos: Controla el tratamiento de los valores perdidos. Excluir casos segn anlisis: Un caso que tenga un valor perdido para la variable dependiente o la variable de factor en un anlisis determinado, no se utiliza en ese anlisis. Excluir segn lista: Se excluyen de todos los casos con valores perdidos para la variable de factor o para cualquier variable dependiente incluida en la lista de variables dependientes en el cuadro de dilogo principal. Si no se especifican varias variables dependientes, esta opcin no funciona.
CAPTULO 2: MLG ANLISIS UNIVARIANTE
El procedimiento MLG Univariante proporciona un anlisis de regresin y un anlisis de varianza para una variable dependiente mediante uno o ms factores o variables. Las variables de factor dividen la poblacin en grupos. Con el procedimiento Modelo Lineal general se pueden contrastar hiptesis nulas sobre los efectos de otras variables en las medias de varias agrupaciones de una nica variable dependiente. Se pueden investigar las interacciones entre los factores as como los efectos de los factores individuales, algunos de los cuales pueden ser aleatorios. Adems se pueden incluir los efectos de las covariables y las interacciones de covariables con los factores. Para el anlisis de regresin, las variables independientes se especifican como covariables. Se pueden contrastar tanto los modelos equilibrados como los no equilibrados. Se considera que un diseo est equilibrado si cada casilla del modelo contiene el mismo nmero de casos. Adems de contrastar hiptesis, MLG Univariante genera estimaciones de los parmetros. Tambin se encuentran disponibles los contrastes a priori de uso ms habitual para contrastar la hiptesis. Adems, si una prueba F global ha mostrado cierta significacin, pueden emplearse las pruebas post hoc para evaluar l s diferencias entre las medias especficas. Las a medias marginales estimadas ofrecen estimaciones de valores de las medias pronosticadas para las casillas del modelo; los grficos de perfil de estas medias permiten observar fcilmente alguna de estas relaciones. En su archivo de datos puede guardar residuos, valores pronosticados, distancia de Cook y valores de influencia como variables nuevas para comprobar los supuestos. Ejemplo: se recogen datos de los corredores individuales en el maratn de Chicago durante varios aos. El tiempo final de cada corredor es la variable dependiente. Influyen otros factores como el clima (fro, calor o temperatura agradable), los meses de entrenamiento, el nmero de maratones anteriores y el sexo. La edad se considera una covariable. Mtodos: Las sumas de cuadrados de Tipo I, Tipo II, Tipo III y Tipo IV pueden emplearse para evaluar las diferentes hiptesis. Tipo III es el valor por defecto. Estadsticos: Las pruebas de rango post hoc y las comparaciones mltiples: diferencia menos significativa, Bonferroni, Sidak, Scheffle, mltiples F de Ryan-Einot-GabrielWelsch, diferencia significativa de Turkey b, pruebas t de Waller Duncan, Dunett, T2 de Tamhane, T3 de Dunnett, Games-Howell y C de Dunnett. Estadsticos descriptivos: medias observadas, desviaciones tpicas y frecuencias de todas las variables dependientes en todas las casillas. Prueba de Levene para la homogeneidad de varianzas.
Grficos: Diagramas de dispersin por nivel, grficos de residuos, grficos de perfil. Datos: La variable dependiente es cuantitativa. Los factores son categricos; pueden tener valores numricos o valores de cadena de hasta ocho caracteres. Las covariables son variables cuantitativas que estn relacionadas con la variable dependiente. Supuestos: Los datos son una muestra aleatoria de una poblacin normal; en la poblacin todas las varianzas de las casillas son iguales. El anlisis de varianza es robusto a las desviaciones de la normalidad, aunque los datos debern ser simtricos. Para comprobar los supuestos, se puede utilizar la prueba de homogeneidad de varianzas y los grficos de dispersin por nivel. Tambin se puede examinar los residuos y los grficos de residuos. 2.1 OBTENER UN ANLISIS MLG UNIVARIANTE
Vamos al men Analizar - Modelo lineal general - Univariante.
Seleccionamos la variable dependiente. Seleccionamos variables para factores fijos, factores aleatorios y covariables, en funcin de los datos. Para especificar una variable de ponderacin, utilizamos Ponderacin MCP.
2.2
MLG: MODELO
Hacemos clic ahora sobre el botn Modelo y obtenemos el siguiente cuadro de dilogo:
Especificar modelo: Un modelo factorial completo contiene todos los efectos principales del factor, todos los efectos principales de covariables y todas las interacciones factor por factor. No contiene interacciones de covariable. Seleccionamos Personalizado para especificar solo un subconjunto de interacciones o para especificar interacciones factor por covariable. Debemos indicar todos los trminos que queremos incluir en el modelo. Factores y covariables: Muestra una lista de los factores y las covariables etiquetando con (F) los factores fijos y con ( C ) las covariables. En un anlisis univariante, (R) indica un factor aleatorio. Modelo: El modelo depende de la naturaleza de los datos. Despus de seleccionar Personalizado, podemos elegir los efectos principales y las interacciones que sean de inters para el anlisis. Suma de cuadrados: Determina el mtodo para calcular las sumas de los cuadrados. Para los modelos equilibrados o no equilibrados con todas las casillas. El mtodo ms utilizado de suma de cuadrados es el Tipo III. Incluir la interseccin en el modelo: La interseccin se incluye normalmente en el modelo.
2.2.1
CONSTRUIR LOS TRMINOS
Para las covariables y los factores seleccionados: Interaccin: crea el trmino de interaccin de mayor nivel de todas las variables seleccionadas, este es el valor por defecto. Efectos principales: crea un trmino de efectos principales para cada variable seleccionada. Todas de 2: crea todas las interacciones dobles posibles de las variables seleccionadas. Todas de 3: crea todas las interacciones triples posibles de las variables seleccionadas. Todas de 4: crea todas las interacciones cudruples posibles de las variables seleccionadas. Todas de 5: crea todas las interacciones quntuples posibles de las variables seleccionadas.
2.2.2
SUMA DE CUADRADOS Tipo I este mtodo tambin es conocido como descomposicin jerrquica del mtodo : de suma de cuadrados. Cada trmino se corrige solo respecto al trmino que le precede en el modelo.
Se utiliza normalmente para: Un modelo ANOVA equilibrado en el que se especifica cualquier efecto principal antes de cualquier efecto de interaccin de primer orden, cualquier efecto de interaccin de primer orden se especifica antes de cualquier efecto de interaccin de segundo orden y as sucesivamente. Un modelo de regresin polinmico en el que se especifica cualquier termino de orden inferior antes de cualquier trmino de orden superior. Un modelo anidado en el que el primer efecto especificado esta anidado dentro del segundo efecto especificado, el segundo est anidado al tercero y as sucesivamente. Esta forma de anidacin solamente se puede especificar utilizando la sintaxis. Tipo II: este mtodo calcula cada suma de cuadrados del modelo considerando solo los efectos pertinentes. Un efecto pertinente es un efecto que no est contenido en el efecto examinado. Se utiliza normalmente para: Un modelo ANOVA equilibrado Cualquier mtodo que solo tenga efectos de factor principal Cualquier modelo de regresin Un diseo anidado Tipo III: es el mtodo por defecto. Este mtodo calcula las sumas de cuadrados de un efecto del diseo como las sumas de cuadrados corregidas respecto a cualquie r otro efecto que no lo contenga y ortogonales para cualquier efecto que lo contenga. La suma de cuadrados de Tipo III, tiene una gran ventaja por ser invariables respecto a la frecuencia de casillas, siempre que la forma general de estimabilidad permanezca constante. En un diseo factorial sin casillas perdidas, este mtodo equivale a la tcnica de cuadrados ponderados de medias de Yates. Se utiliza normalmente para: Cualquiera de los modelos que aparecen en Tipo I y Tipo II Cualquier modelo equilibrado o desequilibrado sin casillas vacas Tipo IV: este mtodo est diseado para una situacin en la que faltan casillas. Para cualquier efecto F en el diseo. Si F no est contenida en cualquier otro efecto, entonces Tipo IV = Tipo III = Tipo II. Cuando F est contenida en otros efectos, el tipo IV distribuye equitativamente los contrastes que se realizan entre los parmetros en F a todos los efectos de nivel ms alto. Se utiliza normalmente para: Cualquiera de los mtodos que aparecen en Tipo I y Tipo II Cualquier modelo equilibrado o no equilibrado con casillas vacas
10
2.2.3
MLG UNIVARIANTE: CONTRASTES
Hacemos clic sobre el botn Contrastes y obtenemos el siguiente cuadro de dilogo:
Los contrastes se utilizan para contrastar las diferencias entre los niveles de un factor. Puede especificar un contraste para cada factor en el modelo. Los contrastes representan las combinaciones lineales de los parmetros. El contraste de hiptesis se basa en la hiptesis nula LB = 0, donde L es la matriz de coeficientes de contraste y B es el vector de parmetros. Cuando se especifica un contraste, SPSS crea una matriz L en la que las columnas correspondientes al factor coinciden con el contraste. El resto de las columnas se corrigen para que la matriz L sea estimable. Los resultados incluyen un estadstico F para cada conjunto de contrastes. Los contrastes disponibles son de desviacin, de diferencias, de Helmert, repetidos y polinmicos. Tipos de contrastes: Desviacin: compara la media de cada nivel con la me dia de todos los niveles Simple: compara la media de cada nivel con la media de un nivel especificado Diferencia: compara la media de cada nivel con los niveles anteriores. Helmert: compara la media de cada nivel del factor con la media de los niveles siguientes. Repetida: compara la media de cada nivel, excepto el ltimo, con la media del nivel siguiente. Polinmico: compara el efecto lineal, cuadrtico, cbico, etc. 2.3 MLG UNIVARIANTE: GRFICOS DE PERFIL
Hacemos clic sobre el botn Grficos y obtenemos el siguiente cuadro de dilogo:
11
Los grficos de perfil (grficos de interaccin) sirven para comparar las medias marginales en el modelo. Un grfico de perfil es un grfico de lneas en el que cada punto indica la media marginal estimada de una varia ble dependiente (corregida respecto a las covariables) en un nivel de un factor. Los niveles de un segundo factor se pueden utilizar para generar lneas diferentes. Cada nivel en un tercer factor se puede utilizar para generar un grfico diferente. Todos los factores fijos y aleatorios, si existen, estn disponibles para los grficos. Para los anlisis multivariados, los grficos de perfil se crean para cada variable dependiente. En un anlisis de medidas repetidas, es posible utilizar tanto los factores inter-sujetos como los intra-sujetos en los grficos de perfil. Las opciones MLG-Multivariante y MLG- Medidas repetidas solo estarn disponibles si instalada la opcin Modelos avanzados. tiene
Un grfico de perfil de un factor muestra si las medias marginales estimadas aumentan o disminuyen a travs de los niveles. Para dos o ms factores, las lneas paralelas indican que no existe interaccin entre los factores, lo que significa que puede investigar los niveles de un nico factor. Las lneas no paralelas indican un la interaccin. Despus de especificar un grfico mediante la seleccin de los factores del eje horizontal y, de modo opcional, los factores para distintas lneas y grficos.
2.4
MLG UNIVARIANTE: COMPARACIONES MEDIAS OBSERVADAS
MLTIPLES
POST
HOC
PARA
LAS
Hacemos clic sobre el botn Post Hoc y obtenemos el siguiente cuadro de dilogo:
12
Comparaciones mltiples post hoc. Una vez establecido que existen diferencias entre las medias, las pruebas de rango post hoc y las comparaciones mltiples por parejas permiten determinar que medias difieren. Las comparaciones se realizan entre valores sin corregir. Estas pruebas solo se utilizan solo para los factores inter-sujetos fijos. En MLG Medidas repetidas, estas pruebas no estarn disponibles si no hay factores inter-sujetos. Para MLG Multivariante y MLG Medidas repetidas, si hay ms de una variable dependiente, las pruebas post hoc se realizan por separado para cada variable dependiente. Los procedimientos MLG Multivariable y MLG Medidas repetidas solo estarn disponibles si se ha instalado la opcin Estadsticas Avanzadas. En las pruebas de Bonferroni y de la diferencia honestamente significativa de Tukey se usan normalmente pruebas de comparaciones mltiples. La prueba de Bonferroni, basada e el n estadstico t de Student, corrige el nivel critico por el hecho de que se realizan comparaciones mltiples. La Prueba t de Sidaktambin ajusta el nivel de significacin y ofrece limites ms rgidos que la prueba de Bonferroni. La prueba de la diferencia honestamente significativa de Tukey utiliza el estadstico de rango estudentizado para hacer todas las comparaciones de pares entre los grupos y calcula el porcentaje de error del experimento en relacin con el porcentaje de error de todas las comparaciones por pares. Cuando se contrasta un gran numero de parejas de medias, la prueba de la diferencia honestamente significativa de Tukey es mas potente que la prueba de Bonferroni. Para una pequea cantidad de pares, Bonferroni es ms idneo. GT2 de Hochberg es muy parecido a la prueba de la diferencia honestamente significativa de Tukey, pero se usa el modulo mximo estudentizado. Normalmente, la prueba de Tukey es mas potente. La prueba de comparacin por parejas de Gabriel tambin utiliza el modulo mximo estudentizado y es, por lo general, ms potente que la GT2 De Hochberg cuando los tamaos de las casillas son desiguales. La prueba de Gabriel se puede transformar en liberal cuando los tamaos de las casillas varan mucho. La prueba t para la comparacin mltiple por pares de Dunnet compara un conjunto de tratamientos con una media de control simple. La ultima categora es la categora de control por defecto. Si lo desea puede seleccionar la primera categora. Adems, puede elegir una prueba unilateral o bilateral. Para comprobar que la media de cualquier nivel, salvo la categora de control, del factor no es igual a la de la categora de control use una prueba
bilateral. Para contrastar si la media en cualquier nivel del factor es menor que la de la categora de control, seleccione <Control. De la misma forma, para probar si la media de cualquier nivel de factor es mayor que la de la categora de control, seleccione >Control. Ryan, Einot, Gabriel y Welsch (R-E-G-W) desarrollaron dos pruebas de rangos mltiples por pasos. Los procedimientos mltiples por pasos comparan en primer lugar si las medias son todas iguales. Si no son iguales, se contrasta la igualdad en subconjuntos de medias. R-E-G-W F se basa en una prueba F y R-E-G-W Q se basa en el rango estudentizado. Estas pruebas funcionan mejor que las de los rangos mltiples de Duncan y de StudentNewman- Keuls, que tambin son procedimientos mltiples por pasos, pero que no son recomendables si los tamaos de las casillas son desiguales. Cuando las varianzas no son iguales, usaremos el T2 de Tamhane, una prueba conservadora de comparaciones por parejas basada en una prueba t, el T3 de Dunnet, prueba de comparaciones por parejas basada en el modulo mximo estudentizado, prueba de comparaciones por parejas de Games - Howell o C de Dunnett (prueba de comparaciones por parejas basada en el rango estudentizado). La prueba de rangos mltiples de Duncan, la de Student Newman Keuls (S-N-K), y la b de Tukey son pruebas de rangos que asignan rangos a medias de grupo y calculan un valor de rango. Estas pruebas no se utilizan con tanta frecuencia como las pruebas explicadas anteriormente. La prueba t de Waller Duncan utiliza una aproximacin Bayesiana. Esta prueba de rango emplea la media armnica del tamao de la muestra cuando los tamaos de la prueba no son iguales. El nivel de significacin de la prueba de la prueba de Scheff esta pensado para permitir todas las combinaciones lineales posibles de las medias de grupo que se van a contrastar, no solo las comparaciones por parejas en esta funcin. El resultado es que la prueba de Scheff es, por lo general, ms conservadora que otras pruebas, lo que significa que se precisa una mayor diferencia entre las medias para la significacin. La prueba de comp araciones mltiples por parejas de la diferencia menos significativa (DMS) es equivalente a mltiples pruebas t individuales entre todas las parejas de grupos. La desventaja de esta prueba es que no se realiza ninguno intento de rectificar el nivel critico para realizar las comparaciones mltiples. Pruebas que se muestran: Se proporcionan comparaciones por parejas para DMS, Sidak, Bonferroni, Games y Howell, T2 y T3 de Tamhane, C y T3 de Dunnett. Tambin se facilitan subconjuntos homogneos para las pruebas de rango para S-N-K, Tukey-b. Duncan, R-E-G-W F, R-E-G-W Q y Waller. La prueba de la diferencia honestamente significativa de Tukey, GT2 de Hochberg, la prueba de Gabriel y la prueba de Scheff son tanto pruebas de comparaciones mltiples como de rango.
2.5
MLG: GUARDAR
Hacemos clic sobre el botn Guardar y aparece el siguiente cuadro de dilogo:
14
Es posible guardar los valores pronosticados por el modelo, los residuos y las medidas relacionadas como variables nuevas en el Editor de datos. Muchas de estas variables las podemos utilizar para examinar supuestos sobre los datos. Si queremos almacenar los valores para utilizarlos posteriormente en otra sesin de SPSS, los guardaremos en el archivo de datos actual. Valores pronosticados. Son los valores que predice el modelo para ada caso. Estn disponibles los valores pronosticados no tipificados y los errores tipificados de los valores pronosticados. Si hemos seleccionado una variable MCP (WLS), dispondremos adems de la opcin de valores pronosticados no tipificados ponderados. Diagnsticos. Son medidas para identificar casos con combinaciones poco habituales de valores para las variables independientes y casos que puedan tener un gran impacto en el modelo. Las opciones disponibles incluyen la Distancia de Cook y los valores de influencia no centrados. Residuos. Un residuo no tipificado es el valor real de la variable dependiente menos el valor pronosticado por el modelo. Tambin se encuentran disponibles residuos eliminados, estudentizados y tipificados. Si hemos seleccionado una variable MCP, contaremos asimismo con residuos no tipificados ponderados. Guardar en archivo nuevo. Graba un archivo de datos de SPSS que contiene una matriz de varianza-covarianza de las estimaciones de los parmetros del modelo. Asimismo, para cada variable dependiente habr una fila de estimaciones de los parmetros, una fila de valores de significacin para los estadsticos t correspondientes a las estimaciones de los parmetros y una fila de grados de residuos de libertad. En un modelo multivariado, existen filas similares para cada variable dependiente. Si lo desea, puede usar este archivo matricial en otros procedimientos que lean un archivo matricial de SPSS.
2.6
MLG UNIVARIANTE: OPC IONES
Hacemos clic sobre el botn Opciones y aparece el siguiente cuadro de dilogo:
15
Este cuadro de dialogo contiene estadsticos opcionales. Los estadsticos se calculan utilizando un modelo de efectos fijos. Medias marginales estimadas. Seleccionamos los factores e interacciones para los que deseamos obtener estimaciones de las medias marginales de la poblacin en las casillas. Estas medias se corrigen respecto a las covariables si las hay. Comparar los efectos principales. Proporciona comparaciones por parejas no corregidas entre las medias marginales estimadas para cualquier efecto principal del modelo, tanto para los factores inter-sujetos como para los intra-sujetos. Este elemento solo se encuentra disponible si los efectos principales estn seleccionados en las lista Mostrar las medias para. Ajuste del intervalo de confianza. Seleccione un ajuste de diferencia menor significativa (DMS), Bonferroni o Sidak para los intervalos de confianza y la significacin. Este elemento solo aparece si se selecciona Comparar los efectos principales. Mostrar. Seleccionamos Estadsticos descriptivos para generar medias observadas, desviaciones tpicas y recuentos para cada variable dependiente en todas las celdas. La opcin Estimaciones de tamao del efecto ofrece un valor parcial de eta-cuadrado para cada efecto y cada estimacin de parmetros. El estadstico eta-cuadrado describe la proporcin de variabilidad total atribuible a un factor. Seleccionamos Potencia observada para obtener la potencia de la prueba cuando la hiptesis alternativa se ha establecido basndose en el valor observado. Seleccionamos estimaciones de los parmetros para generar las estimaciones de los parmetros, los errores tpicos, las pruebas t, los intervalos de confianza y la potencia observada para cada prueba. Seleccionamos Matriz de coeficientes de contraste para obtener la matriz L. Las Pruebas de homogeneidad generan las pruebas de homogeneidad de varianzas de Levene para cada variable dependiente en todas las combinaciones de nivel de los factores inter-sujetos y solo para factores inter-sujetos.
Las opciones de diagramas de dispersin por nivel y grfico de los residuos son tiles para comprobar los supuestos sobre los datos. Estos elementos no estuvieran activos si no hay factores. Seleccione Grfico de los residuos para producir un grfico de los residuos observados respecto a los pronosticados respecto a los tipificados para cada variable dependiente. Estos grficos son tiles para investigar el supuesto de las varianzas iguales. Seleccionamos Falta de Ajuste para comprobar si el modelo puede describir de forma adecuada la relacin entre la variable dependiente y las variables independientes. La Funcin estimable general permite construir pruebas de hiptesis personales basadas en la funcin estimable general. Las filas en las matrices de coeficientes de contraste son combinaciones lineales de la funcin estimable general. Nivel de significacin. Puede que nos interese corregir el nivel de significacin usado en las pruebas post hoc y el nivel de confianza empleado para construir intervalos de confianza. El valor especificado tambin se utilizara para calcular la potencia observada para la prueba. Si especificamos un nivel de significacin, el cuadro de dialogo mostrar el nivel asociado de los intervalos de confianza. 2.7 FUNCIONES ADICIONALES DE LOS COMANDOS UNIANOVA
El lenguaje de comandos SPSS tambin permite: Especificar efectos anidados en el diseo (utilizando el subcomando DESIGN) Especificar contrastes de los efectos frente a una combinacin lineal d efectos o un e valor (Utilizando el subcomando TEST) Especificar contrastes mltiples (utilizando el subcomando CONTRAST) Incluir los valores perdidos por el usuario (utilizando el subcomando MISSING) Especificar criterios EPS (mediante el subcomando CRITERIA) Construir: Una matriz L, una matriz M o una matriz K personalizada (utilizando los subcomandos LMATRIX, MMATRIX y KMATRIX). Especificar una categora de referencia intermedia (utilizando el subcomando CONTRAST). Especificar trmino de error para las comparaciones post hoc (utilizando el subcomando POST HOC) Calcular medias marginales estimadas para cualquier factor o interaccin entre los factores en la lista de factores (utilizando el subcomando EMMEANS). Especificar nombres para las variables temporales (utilizando el subcomando SAVE) Construir un archivo de datos matricial de correlaciones ( usando el subcomando OUTFILE) Construir un archivo de datos matricial que contenga estadsticos de la tabla de ANOVA inter-sujetos (usando el subcomando OUTFILE). Guardar la matriz del diseo en un nuevo archivo de datos ( usando el subcomando OUTFILE).
17
ANLISIS FACTORIAL El anlisis factorial intenta identificar variables subyacentes, o factores, que expliquen la configuracin de las correlaciones dentro de un conjunto de variables observadas. El anlisis factorial se suele utilizar en la reduccin de los datos para identificar un pequeo nmero de factores que explique la mayora de la varianza observada en un nmero mayor de variables manifiestas. Tambin puede utilizarse para generar hiptesis relacionadas con los mecanismos causales o para inspeccionar las variables para anlisis subsiguientes (por ejemplo, para identificar la colinealidad antes de realizar un anlisis de regresin lineal) El procedimie nto de anlisis factorial ofrece un alto grado de flexibilidad: Existen siete mtodos de extraccin factorial disponibles. Existen cinco mtodos de rotacin disponibles, entre ellos el OBLIMIN directo y el PROMAX para rotaciones no ortogonales. Existen tres mtodos disponibles para calcular las puntuaciones factoriales; y las puntuaciones pueden guardarse como variables para anlisis adicionales. Ejemplo. Qu actitudes subyacentes hacen que las personas respondan a las preguntas de una encuesta poltica de la manera en que lo hacen? Examinando las correlaciones entre los elementos de la encuesta se deduce que hay una superposicin significativa entre los diversos subgrupos de elementos (las preguntas sobre los impuestos tienden a estar correlacionadas entre s, y as sucesivamente). Con el anlisis factorial, se puede investigar el nmero de factores subyacentes y, en muchos casos, se puede identificar lo que los factores representan conceptualmente. Adicionalmente, se pueden calcular las puntuaciones factoriales para cada encuestado, que pueden utilizarse en anlisis subsiguientes. Por ejemplo, es posible construir un modelo de regresin logstica para predecir el comportamiento de voto basndonos en las puntuaciones factoriales.
Estadsticos. Para cada variable: Nmero de casos vlidos Media Desviacin tpica Para cada anlisis factorial: Matriz de correlaciones de variables, incluidos niveles de significacin, determinante e inversa Matriz de correlaciones reproducida, que incluye anti-imagen Solucin Inicial (comunalidades, autovalores y porcentaje de varianza explicada) KMO (medida de la adecuacin muestras de Keiser Meyer Olkin) y prueba de esfericidad de Bartlett Solucin Rotada, que incluye la matriz de configuracin rotadas y la matriz de transformacin Para las rotaciones oblicuas: Las matrices de estructura y de configuracin rotadas Matriz de coeficientes para el clculo de las puntuaciones factoriales y matriz de covarianza entre los factores Diagramas: Grfico de sedimentacin Grfico de las saturaciones de los dos o tres primeros factores
18
Datos. Las variables deberan ser cuantitativas a nivel de intervalo o de razn. Los datos categricos (como la religin o el pas de origen) no son adecuados para el anlisis factorial. Los datos para los cuales razonablemente se pueden calcular los coeficientes de correlacin de Pearson deberan ser adecuados para el anlisis factorial. Supuestos. Los datos han de tener una distribucin normal bivariada para cada pareja de variables, y las observaciones deben ser independientes. El modelo de anlisis factorial especifica que las variables vienen determinadas por los factores comunes (los factores estimados por el modelo) y por factores nicos (los cuales no se superponen entre las distintas variables observadas). Las estimaciones calculadas se basan en el supuesto de que ningn factor nico est correlacionado con los dems, ni con los factores comunes. 2.8 PARA OBTENER UN ANLISIS FACTORIAL
Vamos al men Analizar Reduccin de datos Anlisis Factorial, y obtenemos el siguiente cuadro de dilogo:
A continuacin, tendramos que seleccionar las variables para las cuales queremos realizar el anlisis factorial.
2.8.1
SELECCIN DE CASOS EN EL ANLISIS FACTORIAL
SPSS nos da la posibilidad de seleccionar casos para el anlisis. Para seleccionar los casos para el anlisis, elija una variable de seleccin. Vemos como se activa el botn Valor. Hacemos clic sobre el mismo, y aparece el siguiente cuadro de dilogo:
19
En el cuadro de texto podemos introducir un nmero entero como valor de seleccin. En el anlisis factorial, slo se usarn los casos con ese valor para la variable de seleccin.
2.9
ANLISIS FACTORIAL: DESCRIPTIVOS
Desde el men de Anlisis Factorial, hacemos clic sobre el botn Descriptivos y obtenemos el siguiente cuadro de dilogo:
Podemos pedir una serie de conceptos: Estadsticos: Descriptivos Univariados. Incluyen la media, la desviacin tpica y el nmero de casos vlidos para cada variable. Solucin Inicial: Muestra las com unalidades iniciales, los autovalores y el porcentaje de varianza explicada. SPSS lo marca por defecto. Matriz de Correlaciones. Las opciones disponibles son: Coeficientes Niveles de significacin Determinante Inversa Reproducida Anti-imagen KMO y prueba de esfericidad de Bartlett
20
2.10
ANLISIS FACTORIAL: EXTRACCIN
Desde el men Analizar Reduccin de datos Anlisis Factorial, hacemos clic sobre el botn Extraccin y obtenemos el siguiente cuadro de dilogo:
Este men nos permite pedir una serie de anlisis: Mtodo: Permite especificar el mtodo de extraccin factorial. Los mtodos disponibles son: Componentes principales. Mnimos cuadrados no ponderados. Mnimos cuadrados generalizados. Mxima verosimilitud. Factorizacin de Ejes principales. Factorizacin Alfa. Factorizacin Imagen.
Analizar: Permite especificar o una matriz de correlaciones o una matriz de covarianza. Extraer: Se pueden retener todos los factores cuyos autovalores excedan un valor especificado o retener un nmero determinado de factores. Mostrar: Permite solicitar la solucin factorial sin rotar y le grfico de sedimentacin de los autovalores. N mximo de iteraciones para convergencia: Permite especificar el nmero mximo de pasos que el algoritmo puede seguir para estimar la solucin.
2.11
ANLISIS FACTORIAL: ROTACIN
Desde el men Analizar Reduccin de datos Anlisis Factorial, hacemos clic sobre el botn Rotacin y obtenemos el siguiente cuadro de dilogo:
21
Este men nos permite solicitar una serie de anlisis: Mtodo: Permite seleccionar el mtodo de rotacin factorial. Los mtodos disponibles son: Varimax Equamax Quartimax Oblimin directo Promax Mostrar: Permite incluir los resultados de la solucin rotada, as como los grficos de las saturaciones para los dos o tres primeros factores. N mximo de iteraciones para la convergencia: Permite especificar el nmero mximo de pasos que el algoritmo puede seguir para llevar a cabo la rotacin.
2.12
ANLISIS FACTORIAL: PUNTUACIONES FACTORIALES
Desde el men Analizar Reduccin de datos Anlisis Factorial, hacemos clic sobre el botn Puntuaciones y obtenemos el siguiente cuadro de dilogo:
Este men nos permite realizar los siguientes anlisis: Guardar como variables: Crea una nueva variable para cada factor en la solucin final. Si se marca esta opcin, hay que seleccionar uno de los siguientes mtodos alternativos para calcular las puntuaciones factoriales:
Regresin Bartlett Anderson Rubin Mostrar matriz de coeficientes de las puntuaciones factoriales: Muestra los coeficientes por los cuales se multiplican las variables para obtener puntuaciones factoriales. Tambin muestra las correlaciones entre las puntuaciones factoriales. 2.13 ANLISIS FACTORIAL: OPCIONES
Desde el men Analizar Reduccin de datos Anlisis Factorial, hacemos clic sobre el botn Opciones y obtenemos el siguiente cuadro de dilogo:
Este men nos permite solicitar los siguientes anlisis: Valores perdidos: Permite especificar el tratamiento que se da a los valores perdidos. Las alternativas disponibles son: Excluir casos segn lista Excluir casos segn pareja Reemplazar por la media Formato de visualizacin de los coeficientes: Permite controlar aspectos de las matrices de resultados. Los coeficientes se ordenan por tamao y se suprimen aquellos cuyos valores absolutos sean menores que el valor especificado.
2.14
EJEMPLO
Un cliente quiere poder predecir las ventas de coches en funcin de una serie de variables que ha recopilado. Sin embargo, sospecha que las variables estn correlacionadas entre s, y que esto puede afectar negativamente a la prediccin. Se decide realizar un anlisis factorial, analizando hasta que punto la informacin recibida de esas variables puede ser resumida, en gran parte, en un nmero ms reducido de factores independientes entre ellos. Esta independencia se asegura si utilizamos el mtodo de los Componentes Principales para el anlisis. Vamos al men Analizar Resumir casos Anlisis Factorial, y obtenemos el siguiente cuadro de dilogo:
23
Seleccionam las variables con las que queramos estimar las ventas de coches. En os este caso, desde la variable Vehicle Type hasta Fuel Efficiency. Hacemos clic sobre el botn Extraccin y obtenemos el siguiente cuadro de dilogo:
Vamos a marcar que SPSS nos calcule la Solucin Factorial sin Rotar y el Grfico de Sedimentacin y hacemos clic en el botn Continuar. Hacemos clic sobre el botn Extraccin y obtenemos el siguiente cuadro de dilogo:
24
Marcamos que nos calcule la Solucin Rotada por el Mtodo Varimax. La rotacin consiste en mover los factores obtenidos hasta que se consiga que las variables se hallen lo ms cerca posible de uno de esos ejes. Mediante esto se pretende que cada variables tenga puntuaciones factoriales lo ms cercanas a cero para todos los factores menos uno, para el que tendra una puntuacin factorial grande. Mediante la rotacin, se puede conseguir que unos resultados de un anlisis factorial que resulten confusos, queden mucho ms claros. Hacemos clic sobre el botn Continuar. Hacemos clic sobre el botn Puntuaciones y obtenemos el siguiente cuadro de dilogo:
Marcamos las opciones de Guardar como variables y Mostrar matriz de coeficientes de las puntuaciones factoriales. Hacemos clic sobre el botn Continuar. No queremos pedir nada ms en este caso, luego hacemos clic sobre el botn Aceptar. SPSS nos calcular el Anlisis Factorial utilizando el mtodo de los Componente Principales, que se rotar posteriormente mediante el mtodo Varimax para ayudar a la interpretacin. Los componentes con autovalores mayores que uno se guardarn en el archivo como variables.
25
2.14.1 RESULTADOS Obtenemos los siguientes resultados: La Tabla de Comunalidades:
Las comunalidades de cada variable nos muestra la cantidad de varianza de esa variable que queda explicada con los factores seleccionados (en este caso, los factores con autovalor mayor que 1). Vemos como todas las variables tienen una comunalidad inicial de 1. Esta es la varianza que se explica con la totalidad de todos los factores (es decir, por un nmero de factores igual al nmero de variables). Despus de seleccionar un nmero reducido de factores independientes para resumir todas las variables, la varianza explicada es la indicada en la columna Extraccin. Un anlisis factorial cumplir su funcin de resumir una serie de variables si las comunalidades son elevadas para todas las variables. Si no fuera ese el caso, indicara que si utilizamos los factores para resumir la informacin de las variables, las variables con comu nalidades bajas no se estarn teniendo en cuenta tal como deberan. Si esto pasara, lo ms correcto sera incluir ms factores en el anlisis, de manera que todas las variables queden representadas correctamente por los factores extrados.
26
La siguiente tabla que obtenemos es la tabla de autovalores:
La primera columna, Total, nos indica la cantidad de varianza de las variables originales que explica cada uno de los factores, ordenados de mayor a menor. Es decir, el primer componente extrado explica 5 ,994 de la varianza total (que sera 1 para cada variable al haber 10 variables, sera 10). La segunda columna indica el porcentaje de varianza que explica cada uno de los factores. En este caso, el primer factor explica el 59,938% de la varianza, el segundo el 16,545% y as sucesivamente. La tercera columna indica el porcentaje acumulado de varianza explicada. Es decir, el primer factor explica el 59,938% de la varianza, el primero y el segundo factor explican por s solos el 76,482% y as sucesivamente. Estas tres primeras columnas nos estn mostrando la solucin inicial, aquella para la que las comunalidades de todas las variables eran 1. Esta solucin inicial tiene tantos factores como variables incluidas en el anlisis. La segunda seccin de la tabla nos muestra la solucin final no rotada. Al pedir el anlisis, habamos indicado que seleccionase como solucin aquellos factores cuyos autovalores fuesen mayor que 1. En este caso, esto lo cumplen los tres primeros factores slo. Nuestra solucin final es quedarnos con tres factores que explican el 87,709% de la varianza total de las 10 variables. Es decir, perdemos menos de un 13% de informacin y pasamos a trabajar con tres variables independientes en vez de 10 variables correlacionadas. Por ltimo la tercera seccin de la tabla nos muestra la solucin final rotada. Vemos como cambia la importancia de cada factor, pero no el total de varianza explicada. Vemos como hay un cambio sustancial en el total de varianza explicada por cada factor, de la solucin no rotada a la rotada. Esto nos indica que la solucin rotada ser posiblemente ms fcil de interpretar que la solucin no rotada.
27
A continuacin, obtenemos el Grfico de Sedimentacin:
Este grfico nos ayuda a ver cul debe ser la solucin ms adecuada para el anlisis. Nos esquematiza los autovalores de cada componente extrado. Los componentes que nos interesa extraer son aquellos que se hayan en la parte del esquema con pendiente acusad. Los componentes en la parte con pendiente casi plana contribuyen muy poco a explicar las variables. La ltima cada fuerte se da entre el componente tres y el cuatro, por lo que una buena solucin sera seleccionar slo los tres componentes primeros. Obtenemos a continuacin la Matriz de Componentes no Rotados:
28
A partir de las matrices de componentes, podemos interpretar que son los factores extrados. La manera de interpretar cada factor sera la siguiente: Cuando el componente para una variable es elevado, eso nos indica que dicha variable est altamente representada por ese factor. Si el componente para una variable es muy reducido, implica que esa variable no est casi representada por ese factor Un componente negativo nos indica que el factor representa lo contrario a lo que la variable muestra. Cuanto ms extremos sean los valores de los componentes de esta matriz, ms fcil ser interpretar que significa y representa cada factor. Cuando una matriz de componentes tiene ms bien valores intermedios, esto nos dificulta la interpretacin. En este caso, el primer componente tiene valores ms extremos, pero los otros dos componentes tienen valores no muy claros. La mejor manera de intentar solucionar este inconveniente es la rotacin de los componentes. Vemos ahora la matriz de componentes rotados:
En este caso, vemos como ya hay valores extremos o muy reducidos para todos los componentes. Comenzamos ahora a analizar qu significa y representa cada uno de los componentes. El primer componente tiene las puntuaciones ms elevadas para las siguientes variables: Precio en miles Tamao del motor Caballos de Vapor De estas tres variables, la que ms representada est con el primer componente es el Precio en miles. Adems de tener una puntuacin muy alta para el primer componente
(0,935), tiene una puntuacin muy reducida para los otros dos. Esto nos indica que el primer componente representa al Precio del vehculo. El segundo componente est especialmente correlacionado con la Longitud (0,943), y el tercer componente con el Tipo de Vehculo (0,954). Esto nos indica que cada factor refleja principalmente a esas tres variables, y que nos debemos centrar en ellas para descubrir qu significan y representan nuestros componentes: Precio en Miles Longitud Tipo de Vehculo Si queremos calcular el valor del componente para un caso determinado, nos dirigimos a la matriz de coeficientes para el clculo de las puntuaciones en los componentes.
El valor de un componente para un caso determinado ser igual a la suma del valor de cada una de las variables para ese caso determinado, multiplicado por el coeficiente correspondiente. Los tres componentes resultantes representan, y pueden ser utilizados en lugar de, casi el 88% del total de informacin contenido en las 10 variables. Usar los tres componentes obtenidos es ms correcto que usar las tres variables con las que se hallaban ms correlacionados por dos razones principales: Los tres componentes son independientes entre s. No estn correlacionados. Los tres componentes representan a la totalidad de las 10 variables. linealmente
30
CAPTULO 3: ANLISIS DE CONGLOMERADOS JERRQUICO
Este procedimiento intenta identificar grupos relativamente homogneos de casos (o de variables) basndose en las caractersticas seleccionadas, mediante un algoritmo que comienza con cada caso (o cada variable) en un conglomerado diferente y combina los conglomerados hasta que slo queda uno. Es posible analizar las variables brutas o elegir de entre una variedad de transformaciones de estandarizacin. Las medidas de distancia o similaridad se generan mediante el procedimiento Proximidades. Los estadsticos se muestran en cada etapa para ayudar a seleccionar la mejor solucin. Ejemplo. Existen grupos identificables de programas televisivos que atraigan a audiencias similares dentro de cada grupo? Con el anlisis de conglomerados jerrquico, se podran agrupar los programas de TV (los casos) en grupos homogneos basados en las caractersticas del espectador. Esto se puede utilizar para identificar segmentos de mercado. Tambin se puede agrupar ciudades (los casos) en grupos homogneos, de manera que se puedan seleccionar ciudades comparables para probar diversas estrategias de marketing. Estadsticos: Historial de conglomerados Matriz de distancias (o similaridades) Pertenencia a los conglomerados para una solucin nica o una serie de soluciones. Diagramas: Dendogramas Diagramas de tmpanos. Datos: Las variables pueden ser cuantitativas, binarias o datos de recuento (frecuencias). El escalamiento de las variables es un aspecto importante, ya que las diferencias en el escalamiento pueden afectar a las soluciones de conglomeracin. Si las variables muestran grandes diferencias en el escalamiento (por ejemplo, una variable se mide en dlares, y la otra se mide en aos), debera considerarse la posibilidad de estandarizarlas (esto se puede llevar a cabo automticamente mediante el propio procedimiento de Anlisis de Conglomerados Jerrquico). Supuestos. Las medidas de distancia o similaridad empleadas deben ser adecuadas para los datos analizados. Asimismo, debe incluir todas las variables relevantes en el anlisis. Si se omiten variables de inters, la solucin obtenida puede ser equvoca. Debido a que el anlisis de conglomerados jerrquico es un mtodo exploratorio, los resultados deben considerarse provisionales hasta que sean confirmados mediante otra muestra independiente.
31
3.1
PARA OBTENER UN ANLISIS DE CONGLOMERADOS JERRQUICO
Vamos al men Analizar Clasificar Conglomerados Jerrquicos, y obtenemos el siguiente cuadro de dilogo:
Si estamos aglomerando casos, tenemos que seleccionar al menos una variable numrico. Si estamos aglomerando variables, debemos seleccionar al menos tres variables numricas. Si es conveniente para nuestro anlisis, podemos seleccionar una variable de identificacin para etiquetar los casos. 3.2 ANLISIS DE CONGLOMERADOS JERRQUICO: MTODO
Desde el men Analizar Clasificar Conglomerados Jerrquicos, hacemos clic sobre el botn Mtodo y obtenemos el siguiente cuadro de dilogo:
32
Mtodo de conglomeracin: Las opciones disponibles son: Vinculacin inter-grupos Vinculacin intra-grupos Vecino ms prximo Vecino ms lejano Agrupacin de centroides Agrupacin de medianas Mtodo de Ward Medida: Permite especificar la medida de distancia o similaridad que ser empleada en la aglomeracin. Seleccionamos el tipo de datos y la medida de distancia o similaridad adecuada: Datos de intervalo: Las opciones disponibles son: Distancia eucldea Distancia eucldea al cuadrado Coseno Correlacin de Pearson Chebychev Bloque Minkowski Personalizada. Datos de Frecuencia: las opciones disponibles son: Medida de Chi-Cuadrado Medida de Phi-Cuadrado.
Datos binarios: Las opciones disponibles son: Distancia eucldea Distancia eucldea al cuadrado Diferencia de tamao Diferencia de configuracin Varianza Dispersin Forma Concordancia simple Correlacin phi de 4 puntos Lambda D de Anderberg Dice Hamann Jaccard Kulczynski 1 Kulzynski 2 Lance y Williams Ochiai Rogers Tanimoto Russel y Rao Sokal y Sneath 1 Soka l y Sneath 2 Sokal y Sneath 3
Sokal y Sneath 4 Sokal y Sneath 5 Y de Yule Q de Yule Tranformar valores: Permite estandarizar los valores de los datos para los casos o las variables, antes de calcular las proximidades (no est disponible para datos binarios). Los mtodos disponibles de estandarizacin son: Puntuaciones z Rango 1 a 1 Rango 0 a 1 Magnitud mxima de 1 Media de 1 Desviacin tpica de 1 Tranformar medidas: Permite transformar los valores generados por la medida de distancia. Las opciones disponibles son: Valores absolutos Cambiar el signo Cambiar la escala al rango 0 1 3.3 ANLISIS DE CONGLOMERADOS: ESTADSTICOS
Desde el men Analizar Clasificar Conglomerados Jerrquicos, hacemos clic sobre el botn Estadsticos y obtenemos el siguiente cuadro de dilogo:
Este men nos ofrece las siguientes posibilidades: Historial de conglomeracin: Muestra los casos o conglomerados combinados en cada etapa, las distancias entre los casos o los conglomerados que se combinan, as como el ltimo nivel del proceso de aglomeracin en el que cada caso (o variable) se uni al conglomerado correspondiente. Matriz de distancias: Proporciona las distancias o similaridades entre los elementos. Conglomerado de pertenencia: Muestra el conglomerado al cual se asigna cada caso en una o varias etapas de la combinacin de los conglomerados. Las opciones disponibles son: Solucin nica Rango de soluciones
34
3.4
ANLISIS DE CONGLOMERADOS JERRQUICO: GRFICOS
Desde el men Analizar Clasificar Conglomerados Jerrquicos, hacemos clic sobre el botn Grficos y obtenemos el siguiente cuadro de dilogo:
Este men nos permite las siguientes posibilidades: Dendograma: Muestra un dendograma. Los dendogramas pueden emplearse para evaluar la cohesin de los conglomerados que se han formado y proporcionar informacin sobre el nmero adecuado de conglomerados que deben conservarse. Tmpanos: Muestra un diagrama de tmpanos, que incluye todos los conglomerados o un rango especificado de conglomerados. Los diagramas de tmpanos muestran informacin sobre cmo se combinan los casos en los conglomerados, en cada iteracin del anlisis. La orientacin permite seleccionar un diagrama vertical u horizontal. 3.5 ANLISIS DE CONGLOMERADOS: GUARDAR VARIABLES NUEVAS
Desde el men Analizar Clasificar Conglomerados Jerrquicos, hacemos clic sobre el botn Guardar y obtenemos el siguiente cuadro de dilogo:
Este men nos permite las siguientes opciones: Conglomerado de pertenencia: Permite guardar los conglomerados de pertenencia para una solucin nica o un rango de soluciones. Las variables guardadas pueden emplearse en anlisis posteriores para explorar otras diferencias entre los grupos.
35
3.6
EJEMPLO
Se ha realizado una encuesta en una Universidad sobre el Gasto en Transporte de los alumnos. Se realiz una encuesta a 100 alumnos, y ahora se quiere analizar si existen distintos grupos de gasto entre los alumnos. El anlisis de conglomerados, o CLUSTER, pretende identificar grupos de casos relativamente homogneos, basndose en caractersticas previamente seleccionadas, a travs las variables elegidas. El objetivo de dicho anlisis es obtener grupos lo ms homogneos posible entre s y lo ms heterogneos posibles entre ellos, respecto a una serie de variables determinadas. Los mtodos seguidos para realizar este anlisis son bsicamente dos: Mtodos jerrquicos: de tipo aglomerativo o divisivo (k- medias) Mtodos no jerrquicos 3.6.1 PLANTEAMIENTOS PREVIOS
El mtodo que se va a aplicar en el ejemplo posterior es de tipo jerrquic o. Este mtodo aplica un algoritmo que comienza considerando cada caso como independiente, cada elemento forma un conglomerado independiente; y los va combinando entre s hasta que slo queda un nico conglomerado compuesto por todos los casos iniciales. El mtodo jerrquico de tipo divisivo (conglomerados de k medias) no es aplicable en este caso, ya que exige determinar a priori el nmero de conglomerados a crear. En este mtodo se parte de un nico conglomerado compuesto por todos los elementos del anlisis y de l se llega a un nmero k de conglomerados previamente seleccionado, que sern lo ms homogneos posibles. Los pasos a seguir para realizar este anlisis son los siguientes: Seleccin de la muestra sobre la que se realizar el anlisis: En el caso a estudiar, se ha reducido la muestra de cien sujetos a veinte, mantenindose las proporciones de la muestra inicial respecto a dos variables, edad y gasto en transporte. La muestra seleccionada incluye: Un 40% de los casos son menores de 21 aos y usan el abono mensual (implica un menor gasto en transporte) Un 10% son menores de 21 aos y no usan el abono Un 40% son mayores de 21 aos y usan el abono mensual Un 10% son mayores de 21 aos y no usan el abono mensual Seleccin de las variables respecto a las cuales se va a realizar el anlisis. En el caso sobre el que se va a realizar el anlisis, las variables seleccionadas son el gasto mensual en transporte y la edad. Para seleccionar estas variables, hay que tener en cuenta lo siguiente: Para que el anlisis de conglomerados resulte significativo, las variables seleccionadas han de afectar a la clasificacin a realizar, han de estar directamente relacionadas con el anlisis; debindose incluir todas aquellas que puedan afectar a dicho anlisis. En el caso a analizar, se pretende agrupar a los individuos segn sus costumbres de gasto en transporte. De los datos obtenidos en la encuesta, las variables cuantitativas que ms afectan a dicho anlisis son, efectivamente, las dos variables incluidas. Seleccin del sistema de medida de la similitud o la distancia entre casos.
Seleccin del sistema de agrupacin de los casos. Determinacin del nmero de Conglomerados adecuado. La agrupacin de los casos se har en funcin de las distancias o las similitudes existentes entre ellos, uniendo primero aquellos casos que se hallen ms prximos o que tengan mayor similitud. Habr que seleccionar un sistema de medida de la distancia entre casos y un sistema de agrupacin de los casos. En el supuesto especfico que nos concierne, se van a realizar tres anlisis de conglomerados, cambiando entre ellos los sistemas de medicin y de agrupacin seleccionados, comparndose posteriormente los resultados obtenidos con cada uno de ellos. Los anlisis a realizar sern los siguientes: Distancia Eucldea al cuadrado y Agrupacin por media entre grupos (vinculacin intergrupos) Distancia Eucldea al cuadrado y agrupacin por enlace simple 3.6.2 APROXIMACIN INICIAL
Antes de comenzar a desarrollar cada uno de los anlisis de conglo merados realizados, resulta conveniente realizar una aproximacin inicial a la situacin planteada mediante un anlisis grfico de los casos. Para obtener ese grfico, vamos al men Grficos Dispersin. Seleccionamos el grfico Simple y hacemos clic sobre el botn Definir. Obtenemos el siguiente cuadro dilogo:
Hacemos clic sobre el botn Aceptar. A continuacin se pueden ver representados los elementos del anlisis en un grfico bidimensional, representando cada eje una de las variables sobre las que se va a realizar el anlisis:
DISPERSIN DE LOS ELEMENTOS

16000
GASTO MENSUAL EN TRANSPORTE
14000
12000
10000 8000
6000
4000 2000 16 18 20 22 24 26
EDAD DEL ENCUESTADO
En una primera aproximacin, parecen existir cuatro grupos diferenciados, que parecen coincidir con los cuatro segmentos en los que se divida la poblacin total (menores de 21 aos con y sin abono; y mayores de 21 aos con y sin abono). Los elementos con un gasto en trasporte ms reducido parecen ser ms similares entre s que los elementos con mayor gasto en transporte, que se hallan ms dispersos. Basndonos en estos primeros resultados, se podra prever la existencia de dos grupos muy homogneos y no muy distantes entre s (aquellos con un gasto menor en transporte) de ocho elementos cada uno; y de otros dos grupos, de dos elementos cada uno, ms heterogneos, que tardarn ms en unirse. 3.6.3 PRIMER ANLISIS: DISTANCIA EUCLDEA AL CUADRADO Y VINCULACIN INTER-GRUPOS
Antes de comenzar a analizar los resultados, conviene definir la distancia eucldea y la forma aglomeracin inter-grupos. Distancia Eucldea: Es la medida de distancia que ms se utiliza. La distancia entre dos conglomerados ser la suma al cuadrado de las distancias existentes entre los valores de las variables de cada uno de los elementos, es decir:
di , j ?
Siendo:
k ?1
( xik ? x jk ) 2
d i, j : distancia entre el elemento i y el elemento j xik : valor de la variable k del elemento i
x jk : valor de la variable k del elemento j

Vinculacin inter-grupos: Se considera como la medida de la distancia entre dos grupos a la media de las distancias de cada uno de los elementos de un grupo con cada uno de los elementos del otro grupo, midindose las distancias entre cada par de elementos por la distancia eucldea en este caso.
Vamos al men Analizar Clasificar Anlisis de Conglomerados jerrquico, y obtenemos el siguiente cuadro de dilogo:
Hacemos clic sobre el botn Estadsticos y obtenemos el siguiente cuadro de dilogo
Marcamos el Historial de conglomeracin y la Matriz de distancias. Hacemos clic en el botn Continuar. Hacemos clic sobre el botn Grficos y obtenemos el siguiente cuadro de dilogo:
39
Pedimos que SPSS nos obtenga el grfico de dendogramas y de tmpanos. Hacemos clic sobre el botn Continuar. Hacemos clic sobre el botn Mtodo y obtenemos el siguiente cuadro de dilogo:
Marcamos los mtodos de medida que vamos a utilizar en este primer anlisis, la Distancia Eucldea al Cuadrado y la Vinculacin Inter-Grupos. En este cuadro marcamos tambin la opcin de Cambiar la escala al rango 0 -1, de manera que resulte ms sencillo considerar qu elementos estn cerca y cules no. Hacemos clic sobre el botn Aceptar y obtenemos los siguientes resultados: Vemos abajo una parte de la matriz de distancias (en total son 20 filas por 20 columnas):
Al observar la tabla anterior, se ve claramente como existen grandes similitudes entre varios elementos, al existir varias distancias muy reducidas en algunos casos. Contrastando con esto, existen para todos los elementos algn otro caso que se halla distante a ellos. Los valo res de
las distancias han sido reescalados sobre un mximo valor de uno, dndose esta mxima distancia entre un elemento de bajo gasto mensual y menor de 21 aos y un elemento de elevado gasto mensual y mayor de 21 aos (caso 7 y caso 10, por ejemplo). Se puede observar ahora como los elementos que mayores diferenciaciones presentan frente al resto son, tal como se previ a travs del anlisis grfico, aquellos que presentaban un mayor gasto en transporte.
En el Historial de Aglomeracin se representa cada uno de los pasos realizados en la formacin de los Conglomerados. Cada una de las columnas de dicha Tabla indican, la etapa realizada (Etapa; 1); los elementos, o conglomerados, que se unen en dicha etapa (Conglomerado 1: el 16; Conglomerado 2: el 18); la distancia existente entre ambos (Coeficientes: , 000); la etapa en que cada uno de dichos Conglomerados aparecieron por ltima vez (Conglomerado 1: 0; Conglomerado 2: 0); y la prxima etapa en la que el Conglomerado formado va a aparecer (Prxima Etapa: 5). Estos mismos resultados se pueden observar grficamente en el Dendograma. Para construir este grfico, se reescalan las distancias entre los elementos sobre 25, y se representa mediante lneas qu elementos se unen y cuando lo hacen.
41
Se puede ver como los resultados reflejados en este grfico son similares a los esperados tras observar el grfico de dispersin de los elementos. Los elementos de bajo gasto en transporte se dividen en dos grupos homogneos, segn sean mayores o menores de 21 aos (primeros seis casos, ms el caso 13 y el 14, son mayores de 21 aos, los siguientes ocho casos son los menores de 21 aos); mientras que los elementos de ms elevado gasto en transporte parecen ser algo menos homogneos entre s, especialmente los casos menores de 21 aos. Por ltimo, el grfico de Tmpanos, permite descubrir los elementos que quedaran incluidos en cada Conglomerado, segn el nmero de Conglomerados existentes (slo insertamos una parte del grfico de tmpanos por la misma razn que para la matriz de distancias).
42
Para descubrir la composicin de los, por ejemplo, seis Conglomerados realizados, se colocara una lnea a la altura del seis. Las barras blancas que aparecen indican el momento en que se dividen los elementos, es decir, delimitan los casos que componen cada Conglomerado. Segn eso, los seis Conglomerados construidos estaran compuestos por los siguientes elementos: {10,19} {8} {20} {13,14} {11,12,15,16,17,18} {1,2,3,4,5,6,7,9} Por ltimo, habra que determinar el nmero ptimo de Conglomerados en los que agrupar los elementos. Dicha agrupacin tendra que ser aquella que maximice la homogeneidad entre los elementos del grupo, a la vez que maximiza la heterogeneidad entre los distintos grupos. Segn los resultados obtenidos, especialmente fijndonos en el dendograma, parece que, tal como se previ a travs del anlisis grfico, la estructura con cuatro conglomerados parece ser la ptima. Se puede ver que estos cuatro grupos se forman rpidamente, en una distancia reescalada algo superior a cinco; mientras que el siguiente grupo, es decir, la estructura de tres conglomerados, se construye a una distancia algo superior a diez. Mediante este anlisis de conglomerados, parece obtenerse una estructura de cuatro grupos homogneos, que sern, tal como se esperaba: Menores Menores Mayores Mayores de de de de 21 21 21 21 aos que usan el abono aos que no usan el abono (componen el grupo ms heterogneo) aos que usan el abono aos que no usan el abono
43
3.6.4
SEGUNDO ANLISIS: DISTANCIA EUCLDEA AL CUADRADO Y VECINO MS PRXIMO
En este ltimo caso se medirn las distancias entre los distintos grupos de manera diferente. Se unirn en cada etapa los dos grupos que se encuentren ms prximos, entre los que se d la mnima distancia. Dicha distancia se considerar como la menor de las distancias existentes entre cada uno de sus elementos. Volvemos al men Analizar Clasificar Anlisis de Conglomerados jerrquico. Hacemos clic sobre el botn Mtodo y seleccionamos el mtodo de aglomeracin Vecino ms prximo. Hacemos clic sobre el botn Continuar y luego el botn Aceptar. Los resultados de este anlisis se ven reflejados en los siguientes resultados: Matriz de distancias. Vemos como es exactamente igual a la del punto anterior. Esto es debido a que el mtodo de medir las distancias es el mismo para los dos puntos.
44
Historial de Aglomeracin
Esta tabla ya se diferencia de la del anterior punto. Al conglomerarse los elementos segn un criterio distinto, el orden en que se van formando los grupos no es el mismo. Segn esta tabla, los primeros elementos en unirse son el 16 y el 18. La distancia entre los dos es cero, y los dos elementos se vuelven a unir con otros en la etapa 5. Asimismo, los ltimos conglomerados en unirse son el que contiene el nmero 1 con el que contiene el nmero 10. Vamos a ver ahora el grfico de dendograma para ver este proceso ms claramente.
45
El Dendograma
Vemos como el esquema es algo distinto al del punto anterior, aunque se sigue viendo que los cuatro casos sin abono (el 8, el 20, el 10 y el 19) son mucho menos homogneos que el resto. Por ltimo, el grfico de tmpanos nos indica visualmente conglomerados segn el nmero de conglomerados que deseemos. la composicin de los
En este caso, las distancias a las que se unen los elementos extremos son todava mayores que las del caso segundo, acentundose an ms la heterogeneidad existente en algunos de los elementos como el 8, el 20 y el grupo formado por el 10 y el 19. Esta manera de calcular las distancias entre grupos tiende a dar unas estructuras muy lineales y slo tiene en cuenta los elementos ms prximos, aunque estos no sean representativos del grupo total; por lo que, basndonos slo en estos resultados, no se deben rechazar los obtenidos en los anteriores supuestos, que parecen ser ms homogneos. Segn los resultados obtenidos en los dos supuestos estudiados, se podra concluir que la estructura ptima, aquella que maximiza la homogeneidad de los grupos, parece ser la estructura de cuatro grupos obtenida, con mayor o menor claridad, en el primer supuesto. A pesar de ello, los resultados obtenidos en el ltimo supuesto parecen remarcar los indicios observados en el segundo supuesto, por lo que habra que tenerlo en cuenta. Este resultado nos confirma la mayor heterogeneidad existente en el elemento 13 dentro del grupo de menor gasto en transporte y mayores de 21 aos; as como la mayor diferenciacin existente en ambos grupos con mayor gasto en transporte, especialmente para los sujetos menores de 21 aos.
46
CAPTULO 4: ANLISIS DE CONGLOMERADOS DE K-MEDIAS
Este procedimiento intenta identificar grupos de casos relativamente homogneos basndose en las caractersticas seleccionadas y utilizando un algoritmo que puede gestionar un gran nmero de casos. Sin embargo, el algoritmo requiere que el usuario especifique el nmero de conglomerados. Puede especificar los centros iniciales de los conglomerados si conoce de antemano dicha informacin. Puede elegir uno de los dos mtodos disponibles para clasificar los casos: la actualizacin de los centros de los conglomerados de forma iterativa o slo la clasificacin. Asimismo, puede guardar la pertenencia a los conglomerados, informacin de la distancia y los centros de los conglomerados finales. Si lo deseamos, podemos especificar una variable cuyos valores sean utilizados para etiquetar los resultados por casos. Tambin podemos solicitar los estadsticos F de los anlisis de varianza. Aunque estos estadsticos son oportunistas (ya que el procedimiento trata de formar grupos que de hecho difieran), el tamao relativo de los estadsticos proporciona informacin acerca de la contribucin de cada variable a la separacin por grupos. Ejemplo: Cules son los grupos identificables de programas de televisin que atraen audiencias parecidas dentro de cada grupo? Con el anlisis de conglomerados de K Medias, podramos agrupar los programas de televisin (los casos) en k grupos homogneos, basados en las caractersticas del televidente. Esto se puede utilizar para identificar segmentos de mercado. Tambin puede agrupar ciudades (los casos) en grupos homogneos, de manera que se puedan seleccionar ciudades comparables para probar diversas estrategias de marketing. Estadsticos: Para la solucin completa: centros iniciales de los conglomerados, tabla de ANOVA. Para cada caso: informacin del conglomerado, distancia desde el centro del conglomerado. Datos: Las variables deben ser cuantitativas en el nivel de intervalo o de razn. Si las variables son binarias o recuentos, utilizamos el mtodo de Anlisis de Conglomerados Jerrquicos. Supuestos: Las distancias se calculan utilizando la distancia eucldea simple. Si desea utilizar otra medida de distancia o de similaridad, utilizamos el procedimiento Anlisis de Conglomerados Jerrquicos. El escalamiento de las variables es una consideracin importante: si sus variables utilizan diferentes escalas (una variable se expresa en dlares y la otra en aos), los resultados pueden ser equvocos. Es estos casos, se debera considerar la estandarizacin de las variables antes de realizar el anlisis de conglomerados de k medias (esto se puede hacer en el procedimiento Descriptivos). Este procedimiento supone que ha seleccionado el nmero apropiado de conglomerados y que ha incluido todas las variables relevantes. Si se han seleccionado un nmero inapropiado de conglomerados o hemos omitido variables relevantes, los resultados podran ser equvocos.
4.1
PARA OBTENER UN ANLISIS DE CONGLOMERADOS DE K- MEDIA S
Para obtener un anlisis de conglomerados de k- medias, vamos al men Analizar Clasificar Conglomerado de K-Medias, y obtenemos el siguiente cuadro de dilogo:
Seguimos los siguientes pasos: Seleccionamos las variables que se van a utilizar en el anlisis de conglomerados. Especificamos el nmero de conglomerados. Este nmero no debe ser inferior a dos, ni superior al nmero de casos del archivo de datos. Elegimos entre los mtodos Iterar y Clasificar y Slo Clasificar. Si lo deseamos, podemos seleccionar una variable de identificacin para etiquetar los casos. 4.2 EFICACIA DEL ANLISIS DE CONGLOMERADOS DE K MEDIAS
El comando de anlisis de conglomerados de k- medias es eficaz principalmente porque no calcula las distancias entre todos los pares de casos, como hacen muchos algoritmos de conglomeracin, como el utilizado por el comando de conglomeracin jerrquica. Para obtener la mxima eficacia, tome una muestra de casos y utilice el mtodo Iterar y Clasificar para determinar los centros de los conglomerados. Pulse en Centros y seleccione Escribir finales en: Archivo. Despus restaure el archivo de datos completo y seleccione el mtodo Slo Clasificar. Pulse en Centros y Leer Iniciales de: Archivo, para clasificar el archivo completo utilizando los centros estimados a partir de la muestra. Un mtodo de trabajo combinando el anlisis de conglomerados jerrquico con el de k- medias es el siguiente: Seleccionar una muestra aleatoria del total de nuestros casos y realizar un anlisis de conglomerados jerrquicos sobre ellos. De ese anlisis anterior, se obtendr una solucin del nmero de conglomerados en los que se van a agrupar los casos. Volvemos a seleccionar todos los casos Realizamos un anlisis de conglomerados de k- medias sobre el total de los casos, indicando el nmero de conglomerados obtenidos en el anlisis anterior.
48
4.3
ANLISIS DE CONGLOMERADOS DE K-MEDIAS: ITERAR
Si vamos al men Analizar Clasificar Conglomerados de K Medias y hacemos clic sobre el botn Iterar, obtenemos el siguiente cuadro de dilogo:
Estas opciones slo estarn disponibles si se selecciona el m todo Iterar y Clasificar en el cuadro de dilogo principal Este men nos permite las siguientes opciones: N mximo de iteraciones: Limita el nmero mximo de iteraciones en el algoritmo k- medias. La iteracin se detiene despus de este nmero de iteraciones, incluso si no se ha satisfecho el criterio de convergencia. Este nmero debe estar entre el 1 y el 999. Criterio de Convergencia: Determina cuando cesa la iteracin. Representa una proporcin de la distancia mnima entre los centros iniciales de los conglomerados, por lo que debe ser mayor que 0, pero no mayor que 1. Por ejemplo, si el criterio es igual a 0,02, la iteracin cesar si una iteracin completa no mueve ninguno de los centros de los conglomerados en una distancia superior al dos por ciento de la distancia menor entre cualquiera de los centros iniciales. Usar medias actualizadas: Permite solicitar la actualizacin de los centros de los conglomerados tras la asignacin de cada caso. Si no selecciona esta opcin, los nuevos centros de los conglomerados se calcularn despus de la asignacin de todos los casos.
4.4
ANLISIS DE CONGLOMERADOS DE K-MEDIAS: GUARDAR
Si vamos al men Analizar Clasificar Cong lomerados de K Medias y hacemos clic sobre el botn Guardar, obtenemos el siguiente cuadro de dilogo:
Podemos guardar la informacin sobre la solucin como nuevas variables para que puedan ser utilizadas en anlisis posteriores. Este men nos permite las siguientes opciones: Conglomerado de pertenencia: Crea una nueva variable que indica el conglomerado final al que pertenece cada caso. Los valores de la nueva variable van desde el 1 hasta el nmero de conglomerados. Distancia desde centro del conglomerado: Crea una variable que indica la distancia eucldea entre cada caso y su centro de clasificacin.
4.5
ANLISIS DE CONGLOMERADOS DE K-MEDIAS: OPCIONES
Si vamos al men Analizar Clasificar Conglomerados de K Medias y hacemos clic sobre el botn Opcio nes, obtenemos el siguiente cuadro de dilogo:
Este men nos permite pedir lo siguiente: Estadsticos: Podemos seleccionar los siguientes estadsticos: Centros de conglomerados iniciales Tabla de ANOVA Informacin del conglomerado para cada caso Valores perdidos: Las opciones disponibles son: Excluir casos segn lista Excluir casos segn pareja
4.6
EJEMPLO
Vamos a seguir con el ejemplo del captulo anterior. Se trataba de un estudio realizado sobre el gasto de transporte a una Universidad. Se haban entrevistado a 100 estudiantes y se quera agrupar a los estudiantes segn grupos de gasto. Se consideraba que haba dos factores para agrupar los casos, el ser mayor o menor de 21 aos y el usar o no el abono mensual. Recordamos que habamos realizado e anlisis de conglomerados para 20 de los casos, y l habamos llegado a la conclusin que pareca haber o tres o cuatro grupos. Una vez obtenidos los resultados de los conglomerados jerrquicos, resultara interesante realizar un Conglomerado de k- medias para k=4, es decir, construir cuatro subgrupos sobre la muestra total de cien individuos, analizando si los elementos se han agrupado en el grupo que podra pensar que les correspondera, o sea, si los cuatro grupos estn compuestos por: Individuos Individuos Individuos Individuos menores menores mayores mayores de de de de 21 21 21 21 aos aos aos aos usuarios del abono mensual no usuarios usuarios del abono mensual no usuarios
Con prioridad a obtener el resultado, se espera que los dos primeros grupos se ajusten a lo previsto; mientras que respecto a los otros dos grupos, pueden no agruparse exactamente segn lo esperado, ya que, an siendo la edad menor en uno de los dos grupos, el gasto en transporte no tiene por qu serlo, lo cual podra crear una confusin entre ambos grupos, e
incluso podra indicar la conveniencia de agrupar a los individuos en slo tres grupos, que seran los siguientes: Usuarios del abono menores de 21 aos Usuarios del abono mayores de 21 aos No usuarios del abono Vamos al men Analizar Clasificar Anlisis Conglomerados de k-medias, y obtenemos el siguiente cuadro de dilogo:
Pedimos que nos clasifique a los casos en cuatro grupos, segn las dos variables seleccionadas, el Gasto Mensual en Transporte y la Edad. Hacemos clic sobre el botn Iterar y obtenemos el siguiente cuadro de dilogo. Indicamos que realice 20 iteraciones.
Hacemos clic sobre el botn Continuar. Hacemos clic sobre el botn Guardar y obtenemos el siguiente cuadro de dilogo:
Marcamos que nos guarde el conglomerado al que pertenece cada caso. Hacemos clic sobre el botn Continuar. Hacemos clic ahora sobre el botn Opciones y obtenemos el siguiente cuadro de dilogo:
Marcamos la Tabla de ANOVA y hacemos clic sobre el botn Continuar. Hacemos clic sobre el botn Aceptar y obtenemos los siguientes resultados: Para ver primero si el nmero de conglomerados seleccionado es el correcto, debemos analizar las dos tablas siguientes:
En estas tablas vemos como slo hay dos conglomerados con un nmero significativo de casos, el 1 y el 2. En la segunda tabla vemos los centros de los conglomerados, es decir, los valores para cada conglomerado de las dos variables segn las cules queremos clasificar los casos. Vemos como la variable edad no parece afectar mucho a la clasificacin, al menos no de la forma en que pensbamos. el grupo 1 parece tener la mayora de los casos que usan el abono mensual, ya sea joven o no. El grupo 2 parece incluir a los estudiantes que no utilizan abono mensual, pero a pesar de eso tienen un gasto considerable en transporte. Los dos casos del grupo 3 parecen ser estudiantes que no utilizan el abono, pero tampoco utilizan mucho transporte, por ejemplo, si viven cerca de la Universidad. Por ltimo el grupo 4 son dos casos que tienen un gasto considerablemente superior al resto. Esta agrupacin parece ser debida a la heterogeneidad existente entre el gasto de transporte de los casos que no utilizan abono de transporte.
Vamos a ver los resultados para una clasificacin en tres conglomerados.

Vamos al men Analizar Clasificar Anlisis de conglomerados de k-medias, y marcamos que nos cree tres grupos. Dejando el resto igual, hacemos clic sobre el botn Aceptar.
Obtenemos los siguientes resultados:
Segn estas dos tablas, vemos como el conglomerado 3 parece englobar los usuarios con menos gasto de transporte, con un centro algo inferior al caso anterior. Esto parece indicar que el grupo 3 ha absorbido a los dos casos de gasto muy reducido en transporte, que en caso anterior se juntaban en un conglomerado aparte. El conglomerado 2 contiene a los usuarios de mayor gasto en transporte, mientras que el conglomerado 1 junta a los estudiantes con un gasto intermedio.
En general, los grupos formados son los siguientes: Usuarios del Abono Mensual, sea joven o no. No usuarios del Abono Mensual con un gasto intermedio en transporte. No usuarios del Abono Mensual con un gasto grande en transporte. Hemos obtenido tambin en nuestros resultados una tabla ANOVA del anlisis:
53
La significacin de este estadstico F nos indica la importancia que ha tenido una u otra variable en que los elementos se incluyan en un grupo u en otro. Vemos como los grupos parecen haberse adjudicado en base al gasto mensual en transporte. Estos resultados son debidos a la mayor variabilidad existente en el gasto en transporte para los no usuarios. En algunos casos, la diferencia entre el no usuario del abono y algunos de los usuarios del abono, ser menor que la distancia con los dems no usuarios del abono. Por ltimo, recordamos que hemos pedido que SPSS nos guarde en una variable el conglomerado al que pertenece cada grupo. Sera interesante pedir ahora un grfico de Cajas y Bigotes que nos muestre la variabilidad de la variable Gasto de Transporte para cada uno de los tres grupos. Vamos al men Grficos Diagrama de Cajas, y seleccionamos el simple y hacemos clic sobre el botn Continuar. Obtenemos el siguiente cuadro de dilogo:
Seleccionamos la variable Gasto en Transporte como variable a describir, y el nmero de conglomerado en el Eje de Categoras. Hacemos clic sobre el botn Aceptar, y obtenemos el siguiente grfico:
54
Vemos como, excepto para el grupo 2 que slo contiene los cinco casos con mayor gasto, los otros dos conglomerados, los conglomerados 1 y 3, tienen una gran cantidad de valores extremos. Esto es debido a que, para cada uno de los grupos, existen una gran cantidad de casos con el mismo o similar valores, y eso provoca que los valores que difieren en algo aparezcan como atpicos o extremos.
4.7
VENTAJAS DEL ANLISIS DE CONGLOMERADOS DE K-MEDIAS
El mtodo de conglomerados de k- medias utilizado, resulta conveniente por su mayor facilidad de clculo, pero presenta problemas claros en los casos como el anteriormente presentado, en el cual existen elementos anmalos, o los elementos no se hallan muy diferenciados, por lo que resulta algo difcil determinar el nmero adecuado de Conglomerados. Si fuera necesario realizar el Anlisis de Conglomerados sobre una muestra muy grande, y se quisieran facilitar los datos, existe un mtodo a seguir que proporciona resultados adecuados y evita los complicados clculos de los mtodos aglomerativos. Los pasos a seguir seran los siguientes: Realizar un primer anlisis de conglomerados de k- medias de acercamiento, solicitando un nmero de grupos k sustantivamente mayor del que cabra esperar (k=25-30 para una muestra de mil sujetos) El resultado de ese anlisis ser una estructura de grupos en la cual existirn varios grupos con pocos o incluso un solo elemento, y otros grupos con un nmero sustancialmente mayor de elementos. Se observa si el valor de los centros de los grupos pequeos es sustantivamente diferente de los valores de los centros de otros grupos. Se realiza un segundo anlisis de conglomerados de k medias , solicitndose en este caso un nmero de grupos k igual al nmero de grupos de tamao significativo ms el nmero de grupos pequeos con centros de gravedad muy lejanos al resto.
CAPTULO 5: ANLISIS DE CORRESPONDENCIA
Uno de los objetivos del anlisis de correspondencia es describir las relaciones entre dos variables nominales en una tabla de correspondencia en un espacio de dimensiones reducidas, a la vez que se describen las relaciones entre las categoras para cada una de las variables. Para cada variable, las distancias entre los puntos categricos en un grfico reflejan la relacin entre las categoras, de forma que las categoras similares estarn cerca la una de la otra en el grfico. Los puntos proyectados de una variable, sobre un vector desde el origen, a un punto categrico para la otra variable describen la relacin entre esas dos variables. Un anlisis de tablas de contingencia a menudo incluye analizar los perfiles de las filas y las columnas y contrastar la independencia a travs del estadstico Chi Cuadrado. Sin embargo, el nmero de perfiles puede ser muy numeroso, y el test de la Chi Cuadrado no refleja la estructura de la dependencia. El procedimiento de las Tablas de Continencia en SPSS ofrece varias medidas y tests de asociacin, pero no permite representar grficamente ninguna de las relaciones entre las variables. El anlisis factorial es una tcnica estndar para describir las relaciones entre variables en un espacio de baja dimensiones. Sin embargo, el anlisis factorial requiere datos de intervalos, y el nmero de observaciones ha de ser cinco veces el nmero de variables. El anlisis de correspondencia, por otro lado, asume que las variables son nominales y puede describir las relaciones entre las categoras de cada variable, as como las relaciones entre las distintas variables. Adems, el anlisis de correspondencia puede ser utilizado para analizar cualquier tabla de medidas de correspondencia positivas. Ejemplo. El Anlisis de Correspondencia puede ser utilizado para mostrar grficamente la relacin entre las variables categora en el trabajo y hbito de fumar. Se vera como los Encargados Junior tienen un hbito de fumar distinto que las secretarias, pero estas ltimos no se diferencian d los Encargados Senior. Tambin podemos ver que los e Encargados Junior fuman ms que el resto. Estadsticos y Grficos. Las medidas de correspondencia, perfiles de filas y de columnas, valores singulares, puntuaciones de filas y columnas, inercia, masa, estadsticos de puntuacin de confianza para las filas y las columnas, estadsticos de puntuacin de confianza singulares, grficos de transformacin, grficos de fila puntual, grficos de columna puntual y grficos complejos. Datos. Las variables categricas a analizar se escalan nominalmente. Para datos agregados o para una medida de correspondencia distinto de las frecuencias, usamos una variable de ponderacin con valores positivos de similitud. Alternativamente, para datos de tablas, podemos usar la sintaxis para leer la tabla. Supuestos. El nmero mximo de dimensiones usadas en el procedimiento depende del nmero de categoras activas de filas y columnas y del nmero de restricciones de igualdad. Si no hay restricciones de igualdad y todas las categoras estn activas, el nmero mximo de dimensiones ser una menos que el nmero de categoras de la variable con el menor nmero de categoras. Por ejemplo, si una variable tiene cinco categoras y la otra tiene cuatro, el nmero mximo de dimensiones es tres. Las categoras suplementarias no estn activas. Por ejemplo, si una variable tiene cinco categoras, dos de las cuales son suplementarias, y la otra tiene cuatro, el nmero mximo de dimensiones es dos. Por otro lado, tratamos todos los grupos de categoras
que estn restringidos a ser iguales como una sola categora. Por ejemplo, una variable con cinco categoras, tres de ellas restringidas a ser iguales, se trata a la variable como si tuviera tres categoras a la hora de determinar el nmero mximo de dimensiones. Si especificamos un nmero de dimensiones mayor que el mximo permitido, SPSS utilizar el valor mximo. Procedimientos relacionados. Si el anlisis tiene ms de dos variables, usamos el anlisis de homogeneidad. Si las variables deben ser escaladas ordinalmente, usaremos el anlisis de componentes principales no lineal. 5.1 OBTENER UN ANLISIS DE CORREPONDENCIA
Vamos al men Anlisis Reduccin de Datos Anlisis de Correspondencia y obtenemos el siguiente cuadro de dilogo:
Ahora tenemos que seleccionar una variable para las filas Seleccionamos una variable para las columnas Definimos el rango de categoras de cada una de las variables Hacemos clic en el botn Aceptar 5.1.1 DEFINIR EL RANGO DE LAS FILAS
Una vez seleccionada una variable para las filas, se ilumina el botn Definir Rango. Hacemos clic sobre l y aparece el cuadro de dilogo siguiente:
57
Tenemos que definir un rango para la variable que hemos seleccionado para las filas. Los valores mnimos y mximos especificados tienen que ser nmeros enteros. Si introducimos valores con decimales, estos quedarn truncados en el anlisis. Un valor de categora que se halla fuera del rango especificado se ignorar en el anlisis. Todas las categoras estn, inicialmente, sin restringir y activas. Podemos restringir categoras de fila para que sean iguales a otras categoras de fila, o podemos definir una categora de fila como suplementaria. La categora es suplementaria: Las categoras suplementarias no influyen en el anlisis, pero se re presentan en el espacio definido por las categoras activas. Las categoras suplementarias no se tienen en cuenta para definir las dimensiones. El nmero mximo de categoras suplementarias de fila es el nmero total de categoras de fila menos dos. Las categoras deben ser iguales: Las categoras deben tener puntuaciones iguales. Se usan las restricciones de igualdad si el orden obtenido para las categoras no es deseable o intuitivo. El nmero mximo de categoras de fila que pueden ser restringidas a ser iguales, es el nmero total de filas activas menos 1. Para imponer restricciones de igualdad diferentes para grupos de categoras, hay que usar la sintaxis. Por ejemplo, se usa la sintaxis para restringir las categoras 1 y 2 a ser iguales, y a la vez, a las categoras 3 y 4 a ser iguales. Para definir el rango en SPSS, hay que seguir los pasos siguientes: Seleccionamos la variable que queremos para las filas en el cuadro de dilogo de Anlisis de Correpondencias. En este caso, el cargo de cada individuo. Hacemos clic sobre el botn Definir Rango Introducimos el valor mximo y mnimo de las categoras Hacemos clic sobre el botn Continuar Opcionalmente, podemos especificar restricciones de igualdad sobre las categoras de las variables de fila y definir las categoras como suplementarias. Para cada categora que queremos restringir o declarar como suplementaria, la seleccionamos de la lista, y hacemos clic en el botn anterior a restringir o a suplementaria. Para las restricciones de igualdad, se tienen que marcar al menos dos variables con esta restriccin. 5.1.2 DEFINIR EL RANGO DE LAS COLUMNAS
Una vez definida una variable para las columnas, se ilumina el botn Definir Rango. Hacemos clic sobre l, y obtenemos el siguiente cuadro de dilogo:
58
Tenemos que definir un rango para la variable de las columnas. Al igual que para las filas, el mnimo y el mximo especificados han de ser nmeros enteros. . Los valores con decimales, son truncados en el anlisis. Un valor de categora fuera del rango que se especifica ser ignorado en el anlisis. Todas las categoras estn, en principio, sin restringir y activas. Podemos restringirlas o definirlas como suplementarias si as nos conviene para el anlisis. La categora es suplementaria: Las categoras suplementarias no influyen en el anlisis, pero se representan en el espacio definido por las categoras activas. Las categoras suplementarias no influyen a la hora de definir las dimensiones. El nmero mximo de categoras de columna suplementarias es el nmero total de categoras menos2. Las categoras deben ser iguales. Las categoras deben tener puntuaciones iguales. Se usan las restricciones de igualdad si la orden para las categoras no es deseado ni intuitivo. El nmero mximo de categoras de columna que pueden ser restringidas a ser iguales es el nmero total de categoras activas menos 1. Para imponer ms de una restriccin de igualdad, se puede hacer a travs de la sintaxis. Por ejemplo, usaremos la sintaxis para restringir las categoras 1 y 2 por un lado, y la 3 y 4 por el otro. Para definir el rango de la variable de columna en SPSS, seguimos los siguientes pasos: Hacemos clic sobre el botn Definir Rango, y obtenemos el cuadro de dilogo al comienzo del apartado. Introducimos los valores mnimos y mximos para la variable de columna Hacemos clic sobre el botn Continuar. Si queremos establecer alguna restriccin o definir alguna categora como suplementaria, seguimos el mismo proceso indicado para las variables de fila. 5.2 ANLISIS DE CORRESPONDENCIA: MODELO
Si hacemos clic sobre el botn Modelo del cuadro de dilogo de Anlisis de Correspondencia obtenemos el siguiente cuadro de dilogo:
59
El cuadro de dilogo Modelo nos permite determinar las dimensiones, la medida de distancia, el mtodo de estandarizacin, y el mtodo de normalizacion. Dimensiones en la solucin. Especificamos el nmero de dimensiones. En general, elegimos tan pocas dimensiones como sea posible para explicar la mayor parte de la varianza. El nmero mximo de dimensiones depende del nmero de categoras activas usadas en el modelo y de las restricciones de igualdad. El nmero mximo de dimensiones es el menos de los siguientes: El nmero de categoras de fila activas menos el nmero de categoras de fila restringidas para ser igual, ms el nmero de grupos de categoras de fila restringidos a ser iguales. El nmero de categoras de columna activas menos el nmero de categoras de columna restringidas a ser iguales, ms el nmero de grupos de categoras de columna restringidos a ser iguales. Mtodo de Distancia. Podemos seleccionar la medida de distancia entre las filas y entre las columnas de la tabla de correspondencia. Existen dos posibilidades: Chi Cuadrado: Se basa en la distancia ponderada entre los perfiles, donde la ponderacin es la masa de las filas o columnas. Esta medida se pide para los anlisis de correspondencia estndar. Eucldea: Se basa en la raz cuadrada de la suma al cuadrado de las diferencias entre los pares de filas y los pares de columnas. Mtodo de Estandarizacin. Elegimos entre una de las siguientes opciones: Se eliminan las medias de filas y columnas: Se centran las filas y las columnas. Este mtodo se pide para el anlisis de correspondencia estndar. Se eliminan las medias de las filas: Slo se centran las filas. Se eliminan las medias de las columnas: Slo se centran las columnas. Se igualan los totales de fila y se eliminan las medias: Antes de centrar las filas, los mrgenes de fila se igualan. Se igualan los totales de columna y se eliminan las medias: Antes de centrar las columnas, los mrgenes de columna de igualan. Mtodo de Normalizacin. Elegimos entre una de las siguientes opciones: Simtrico: Para cada dimensin, las puntuaciones de fila son la media ponderada de las puntuaciones de columna divididas por el correspondiente valor singular. Este mtodo lo utilizamos si queremos analizar las diferencias o similitudes entre las categoras de las dos variables. Principal: Las distancias entre las puntuaciones de fila y las puntuaciones de columna son aproximaciones de las distancias en la tabla de correspondencia, medidas segn la medida de distancia seleccionada. Este mtodo lo usamos si queremos analizar las diferencias entre las categoras de cada una de las variables en lugar de las diferencias entre las categoras de las dos variables. Principal por fila: Las distancias entre las puntuaciones de fila son aproximaciones de las distancias en la tabla de correspondencia segn la medida de distancia seleccionada. Las puntuaciones de fila son la media ponderada de las puntuaciones de columna. Utilizamos este mtodo si queremos analizar las diferencias o similitudes entre las categoras de la variable de fila. Principal por columna: Las distancias entre las puntuaciones de fila son aproximaciones de las distancias en la tabla de correspondencia segn la medida de distancia seleccionada. Las puntuaciones de columna son la media ponderada
de las puntuaciones de fila. Utilizamos este mtodo cuando queremos analizar las diferencias o similitudes entre las categoras de la variable de columna. Personalizado: Debemos especificar un valor entre 1 y 1. Un valor de 1 corresponde al mtodo Principal por Columna. Un valor de 1 corresponde a Principal por Fila. Un valor de 0 corresponde al Simtrico. Todos los dems valores esparcen la inercia sobre las puntuaciones de tanto las filas como las columnas en distintos grados. Este mtodo se utiliza para realizar diagramas de dispersin biespacial a medida.
5.3
ANLISIS DE CORRESPONDENCIA: ESTADSTICOS
Si hacemos clic sobre el botn Estadsticos obtenemos el siguiente cuadro de dilogo:
El cuadro de dilogo Estadsticos nos permite especificar el Output numrico que vamos a obtener: Tabla de Correspondencias: Es una tabla de contingencia de los valores de las variables con totales marginales para las filas y las columnas. Inspeccin de los puntos de fila: Para cada categora de fila , las puntuaciones, masa, inercia, contribucin a la inercia de la dimensin, y la contribucin a la dimensin de la inercia del punto. Inspeccin de los puntos de columna: Para cada categora de columna, las puntuaciones, masa, inercia, contribucin a la inercia de la dimensin, y la contribucin a la dimensin de la inercia del punto. Perfiles de fila: Para cada categora de fila, la distribucin a travs de las categoras de la variable de columna. Perfiles de columna: Para cada categora de columna, la distribucin a travs de las categoras de la variable de fila. Permutaciones de la tabla de correspondencia: Nos presenta la tabla de correspondencias reorganizada, de manera que las filas y las columnas estn ordenadas segn las puntuaciones de la primera dimensin. Opcionalmente, podemos especificar la dimensin mxima para la que quieres que se produzcan las tablas permutadas. Se crea una tabla permutada para cada dimensin desde la primera hasta la indicada en el recuadro. Estadsticos de confianza para los puntos de fila: Incluyen las desviaciones tpicas y las correlaciones para todos los puntos de fila no suplementarios. Estadsticos de confianza para todos los puntos de columna: Incluyen las desviaciones tpicas y las correlaciones para todos los puntos de fila no suplementarios.
61
5.4
ANLSIS DE CORRESPONDENCIA: GRFICOS
Si hacemos clic sobre el botn Guardar, obtenemos el siguiente cuadro de dilogo:
El cuadro de dilogo Grficos nos permite especificar qu grficos queremos que se produzcan. Tenemos las siguientes opciones: Diagramas de dispersin: Crea una matriz con todos los grficos por pares posibles de las dimensio nes. Los diagramas de dispersin disponibles son los siguientes: Diagrama de Dispersin Biespacial: Crea una matriz de diagramas entrelazados de las puntuaciones de fila y de columna. Si se ha seleccionado la normalizacin principal, esta opcin no est disponible. Puntos de fila: Produce una matriz de diagramas de los puntos de fila. Puntos de columna: Produce una matriz de diagramas de los puntos de columna. Tenemos tambin la opcin de especificar cuantos caracteres usar en las etiquetas de valor cuando etiquetamos los puntos. Este valor debe ser un nmero entero no negativo menor o igual a veinte. Grficos de lnea: Creas un grfico para cada dimensin de la variable seleccionada. Tenemos la posibilidad de realizar los siguientes grficos de lnea: Categoras de fila transformadas: Crea un grfico con los valores de categora de fila iniciales frente a sus correspondientes puntuaciones de fila. Categoras de columna transformadas: Crea un grfico con los valores de categora de columna iniciales frente a sus correspondientes puntuaciones de columna. Tambin tenemos la opcin de especificar cuantos caracteres usar en las etiquetas de valor cuando etiquetamos los puntos. Este valor debe ser un nmero entero no negativo menor o igual a veinte. 5.5 FUNCIONES ADICIONALES DEL COMANDO CORRESPONDENCE
Podemos realizar un anlisis de correspondencia a medida si pegamos nuestras elecciones en la ventana de sintaxis y editamos posteriormente la sintaxis del comando CORRESPONDENCE.
El lenguaje de programacin de SPSS nos permite realizar las siguientes modificaciones adicionales: Especificar la tabla de datos como input en lugar de utilizar los datos Casewise (usando el subcomando TABLE = ALL) Especificar el nmero de caracteres de las etiquetas de valor usadas para etiquetar los puntos para cada tipo de matriz de diagramas de dispersin o matriz biespacial (con el subcomando PLOT) Especificar el nmero de caracteres de las etiquetas de valor usadas para etiquetar los puntos para cada tipo de grfico de lneas (con el subcomando PLOT) Escribir una matriz de puntuaciones de fila y de columna en un archivo de datos matriciales de SPSS (con el subcomando OUTFILE) Escribir una matriz de estadsticos de confianza (varianzas y covarianzas) para los valores singulares y las puntuaciones en un archivo de datos matriciales de SPSS (con el subcomando OUTFILE) Especificar restricciones mltiples de igualdad para las categoras (con el subcomando EQUAL)
63

M - Spss Analisis Factorial

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

M - Spss Analisis Factorial

Uploaded by

Copyright:

Available Formats

MANUAL DEL CURSO SPSS:

ANLISIS FACTORIAL Y DE VARIANZA

CAPTULO 1: 1.1 1.2 1.3 1.4 1.5 1.6

ANLISIS DE VARIANZA DE UN FACTOR

CAPTULO 2: 2.1 2.2 2.2.1 2.2.2 2.2.3 2.3 2.4

Manual de SPSS: Anlisis Factorial y de Varianza

CAPTULO 4: 4.1 4.2 4.3 4.4 4.5 4.6 4.7

ANLISIS DE CONGLOMERADOS DE K-MEDIAS

CAPTULO 5: 5.1 5.1.1 5.1.2 5.2 5.3 5.4 5.5

Manual de SPSS: Anlisis Factorial y de Varianza

CAPTULO 1: ANLISIS DE VARIANZA DE UN FACTOR

ANLISIS DE VARIANZA DE UN FACTOR

El contraste ANOVA, que en este caso resulta significativo

Manual de SPSS: Anlisis Factorial y de Varianza

Un contraste Post Hoc (Dunnet) de las diferencias de medias agrupadas:

Un grfico de las medias para cada valor del factor.

Manual de SPSS: Anlisis Factorial y de Varianza

PARA OBTENER UN ANLISIS DE VARIANZA DE UN FACTOR

ANOVA DE UN FACTOR: CONTRASTE

Si hacemos clic sobre el botn Contrastes, obtenemos el siguiente cuadro de dilogo:

Manual de SPSS: Anlisis Factorial y de Varianza

ANOVA DE UN FACTOR: OPCIONES

Hacemos clic sobre el botn Estadsticos:

Manual de SPSS: Anlisis Factorial y de Varianza

CAPTULO 2: MLG ANLISIS UNIVARIANTE

Vamos al men Analizar - Modelo lineal general - Univariante.

Manual de SPSS: Anlisis Factorial y de Varianza

CONSTRUIR LOS TRMINOS

Manual de SPSS: Anlisis Factorial y de Varianza

MLG UNIVARIANTE: CONTRASTES

Hacemos clic sobre el botn Contrastes y obtenemos el siguiente cuadro de dilogo:

Hacemos clic sobre el botn Grficos y obtenemos el siguiente cuadro de dilogo:

Manual de SPSS: Anlisis Factorial y de Varianza

MLG UNIVARIANTE: COMPARACIONES MEDIAS OBSERVADAS

Manual de SPSS: Anlisis Factorial y de Varianza

Hacemos clic sobre el botn Guardar y aparece el siguiente cuadro de dilogo:

Manual de SPSS: Anlisis Factorial y de Varianza

MLG UNIVARIANTE: OPC IONES

Hacemos clic sobre el botn Opciones y aparece el siguiente cuadro de dilogo:

Manual de SPSS: Anlisis Factorial y de Varianza

Manual de SPSS: Anlisis Factorial y de Varianza

Manual de SPSS: Anlisis Factorial y de Varianza

SELECCIN DE CASOS EN EL ANLISIS FACTORIAL

Manual de SPSS: Anlisis Factorial y de Varianza

ANLISIS FACTORIAL: DESCRIPTIVOS

Manual de SPSS: Anlisis Factorial y de Varianza

ANLISIS FACTORIAL: EXTRACCIN

ANLISIS FACTORIAL: ROTACIN

Manual de SPSS: Anlisis Factorial y de Varianza

ANLISIS FACTORIAL: PUNTUACIONES FACTORIALES

Manual de SPSS: Anlisis Factorial y de Varianza

Manual de SPSS: Anlisis Factorial y de Varianza

Manual de SPSS: Anlisis Factorial y de Varianza

2.14.1 RESULTADOS Obtenemos los siguientes resultados: La Tabla de Comunalidades:

Manual de SPSS: Anlisis Factorial y de Varianza

La siguiente tabla que obtenemos es la tabla de autovalores:

Manual de SPSS: Anlisis Factorial y de Varianza

A continuacin, obtenemos el Grfico de Sedimentacin:

Manual de SPSS: Anlisis Factorial y de Varianza

Manual de SPSS: Anlisis Factorial y de Varianza

CAPTULO 3: ANLISIS DE CONGLOMERADOS JERRQUICO

Manual de SPSS: Anlisis Factorial y de Varianza

PARA OBTENER UN ANLISIS DE CONGLOMERADOS JERRQUICO