Professional Documents
Culture Documents
5.1. Introduccin. El Anlisis Factorial y el Anlisis de Componentes Principales (ACP) estn muy relacionados y son una tcnica de anlisis multivariante de reduccin de datos. Algunos autores consideran el segundo como una etapa del primero y otros los consideran como tcnicas diferentes. El mtodo de componentes principales tiene como ob etivo transformar un con unto de variables originales! en un nuevo con unto de variables (sin perder informacin)! combinacin lineal de las originales! denominadas componentes principales (factores). El ACP trata de "allar estos componentes o factores! los cuales se caracteri#an por estar incorrelacionadas entre s$! %ue sucesivamente e&pli%uen la mayor parte de la varian#a total. En el Anlisis de Componentes Principales! el primer factor o componente ser$a a%uel %ue e&plica una mayor parte de la varian#a total! el segundo factor ser$a a%uel %ue e&plica la mayor parte de la varian#a restante! es decir! de la %ue no e&plicaba el primero y as$ sucesivamente. 'e este modo ser$a posible obtener tantos componentes como variables originales aun%ue esto en la prctica no tiene sentido. Por su parte el Anlisis Factorial busca factores %ue e&pli%uen la mayor parte de la varian#a com(n. En el Anlisis Factorial se distingue entre varian#a com(n y varian#a (nica. )a varian#a com(n es la parte de la variacin de la variable %ue est compartida con las otras variables y se puede cuantificar con la denominada comunalidad. )a varian#a (nica es la parte de la variacin de la variable %ue es propia de esa variable. El Anlisis de Componentes Principales no "ace esa distincin entre los dos tipos de varian#a! se centra en la varian#a total. *ientras %ue el Anlisis de Componentes Principales busca "allar combinaciones lineales de las variables originales %ue e&pli%uen la mayor parte de la variacin total! el Anlisis Factorial pretende "allar un nuevo con unto de variables! menor en n(mero %ue las variables originales! %ue e&prese lo %ue es com(n a esas variables. El "ec"o %ue el ACP se utilice como uno de los mtodos de e&traccin de factores en el Anlisis Factorial! puede "acer pensar errneamente %ue son mtodos e%uivalentes. Por otra parte! en algunos programas! como el +P++! ambas tcnicas estn dentro del mismo procedimiento general.
Aplicacin del anlisis Es muy importante "acer "incapi en %ue las componentes principales se e&presan como una combinacin lineal de las variables originales. 'esde el punto de vista de su aplicacin! el mtodo de componentes principales es considerado como un mtodo de reduccin de datos! es
decir! un mtodo %ue permite reducir la dimensin del n(mero de variables %ue inicialmente se "an considerado. En cuanto al inters %ue presenta el ACP! en muc"as ocasiones nos enfrentamos a situaciones en las %ue para anali#ar un proceso geo%u$mico disponemos de informacin de muc"as variables %ue estn correlacionadas entre s$ en mayor o menor grado. Estas correlaciones tienen como un velo %ue impiden evaluar adecuadamente el papel %ue uega cada variable en el fenmeno %ue estamos. El ACP permite pasar a un nuevo con unto de variables! las componentes principales! %ue go#an de la venta a de estar incorrelaciondas entre s$ y %ue! adems! pueden ordenarse de acuerdo con la informacin %ue lleva incorporada. Para medir de la cantidad de informacin incorporada en una componente se utili#a la varian#a. Es decir! cuanto mayor sea su varian#a mayor es la informacin %ue lleva incorporada dic"a componente. Por esta ra#n se selecciona como primera componente a%uella %ue tenga mayor varian#a! mientras %ue! por el contrario! la (ltima es la de menor varian#a. )a gran aplicacin del anlisis factorial y el ACP en el campo de la geo%u$mica es la b(s%ueda de asociaciones de variables. )a asociacin de variables (elementos %u$micos! puntos de recogida de muestras! parmetros f$sico,%u$micos! etc) nos puede proporcionar una informacin muy valiosa de los distintos procesos geo%u$micos %ue se estn produciendo (yacimientos minerales! contaminantes! procedencia de aguas! etc).
Contraste en el modelo factorial E&iste varios contrastes %ue pueden reali#arse para evaluar si el modelo factorial (o la e&traccin de los factores) en su con unto es significativo. El test -*. (-aiser! *eyer y .l/in) relaciona los coeficientes de correlacin! r "! observados entre las variables 0 y 0"! y a " son los coeficientes de correlacin parcial entre las variables 0 y 0". Cuanto ms cerca de 1 tenga el valor obtenido del test -*.! implica %ue la relacin entres las variables es alta. +i -*. 2 3.4! el test es muy bueno5 notable para -*. 2 3.65 mediano para -*. 2 3.75 ba o para -*. 2 3.85 y muy ba o para -*. 9 3.:. )a prueba de esfericidad de ;artlett eval(a la aplicabilidad del anlisis factorial de las variables estudiadas. El modelo es significativo (aceptamos la "iptesis nula! <3) cuando se puede aplicar el anlisis factorial Prueba de esfericidad de ;artlett= +i +ig. (p,valor) 9 3.3: aceptamos <3 ("iptesis nula) > se puede aplicar el anlisis factorial. +i +ig. (p,valor) > 3.3: rec"a#amos <3 > no se puede aplicar el anlisis factorial.
Rotacin de los componentes Anteriormente se e&puso %ue en el ACP se definen un nuevo con unto de variables! combinacin lineal de las originales! denominadas componentes (factores). *ediante esta definicin! y su formalismo matricial! estos componentes se pueden considerar como unos nuevos e es %ue representan la nube de puntos %ue forman las variables originales. As$ la proyeccin de la nube de puntos sobre los componentes sirven para interpretar la relacin entre las diferentes variables. +in embargo! su interpretacin! a veces! puede llegar a ser muy comple a! por lo %ue se puede recurrir a la rotacin de los componentes (e es). E&isten varias formas de rotar los e es= ?A@A*A0! BCA@DA*A0! rotaciones oblicuas! EBCA*A0! P@.*A0! etc. +u estudio y aplicacin estn fuera del ob etivo de esta asignatura. )as ms utili#ada en geo%u$mica es la rotacin ?A@A*A0! la cual consigue %ue cada componente rotado presente correlaciones slo con unas cuantas variables. Esta rotacin es la ms frecuentemente utili#ada! y es adecuada cuando el n(mero de componentes es reducido. BCA@DA*A0 se utili#a para conseguir %ue cada variable tenga una correlacin alta con muy pocos componentes cuando es elevado el n(mero de estos. Danto el ?A@A*A0 como el BCA@DA*A0 son rotaciones ortogonales! es decir! %ue se mantiene la condicin de perpendicularidad entre ada uno de los e es rotados. +in embargo! cuando las componentes! aun rotadas ortogonalmente! no presentan una clara interpretacin! cabe todav$a la posibilidad de intentar me orarla a travs de rotaciones oblicuas. )os parmetros generales a seleccionar en el anlisis de componentes principales y anlisis factorial con +P++ son= ,Anali#arE@educcin de 'atos ('imensiones en +P++16)E Anlisis Factorial ,+eleccionar= , 'escriptivos= , Estad$sticos= +olucin inicial. ,*atri# de correlaciones= Coeficientes5 Fiveles de significacin5 -*. y prueba de esfericidad de ;artlett. , E&traccin= , *todo= Componentes principales. , Anali#ar= *atri# de correlaciones.
, E&traer= depende de los resultados obtenidos. En general se utili#a Autovalores mayores %ue= 1. +i el n(mero de factores es alto! se puede seleccionar F(mero de factores= G5 de esta forma se puede ver con mayor facilidad los resultados en una grfica 0H. , *ostrar (?isuali#acin en +P++16)= +olucin factorial sin rotar5 Irfico de sedimentacin. , @otacin= , *todo= depende de los resultados obtenidos. En general se utili#a Finguno. +i los resultados no son fciles de interpretar se puede seleccionar los mtodos de rotacin. , *ostrar (?isuali#acin en +P++16)= +olucin rotada (si se elige alg(n mtodo de rotacin) , Irficos de saturaciones.
El anlisis de componentes principales se suele reali#ar generalmente a las variables! y en situaciones determinadas! a los casos. +upongamos %ue nuestra matri# de datos esta constituida por n,filas (casos) & m,columnas (variables)! donde los casos (filas) son cada punto de muestreo! y las variables (columnas) son los parmetros medidos en cada punto de muestro (concentracin de elementos! p<! D'+! etc). El anlisis de componentes principales reali#ados a nuestra matri# de datos se aplica a las variables! por lo %ue obtendremos asociaciones de los elementos y parmetros fisico,%uimicos de nuestras muestras. +i por el contrario %ueremos estudiar las asociaciones entre los puntos de muestreo a partir de los componentes principales! necesitamos trasponer la matri# de datos. Para ello= ,'atosEDransponer ,+eleccionar= , ?ariables= todas columnas %ue %ueremos %ue se transpongan , ?ariable de nombre= seleccionamos la columna con el nombre de los casos (i.e.! nombre de los puntos de muestreo)! y los utili#a para el encabe#ado de las columnas de la matri# transpuesta. Esta transformacin genera una nueva matri# de datos (nueva "o a del Editor de datos +P++)
Prctica 5.B. )a composicin y caracter$sticas f$sico,%u$micas de G78 acu$feros del Etna! +icilia. El ob eto de este estudio es de particular inters por el progresivo agotamiento de los recursos "$dricos y la calidad de sus aguas. J'atos obtenidos en 'atos obtenidos en= Aiuppa! A.! ;ellomo! +.! ;rusca! ).! 'KAlessandro! L.! Federico! C. (G33M) Fatural and ant"ropogenic factors affecting groundNater %uality of an active volcano (*t. Etna! Ataly). Applied Ieoc"emistry! 16! 68M, 66GO. Para poder entender la procedencia de los diferentes tipos de aguas del *onte Etna y gestionar adecuadamente los recursos "$dricos de +icilia! se reali# el ACP de las variables! sin incluir E"! F<P! ?! P.P y F debido a %ue en muc"os casos o estn ba o del l$mite de deteccin yEo no se midieron. El primer paso es anali#ar la matri# de correlaciones (%ue se genera dentro del ACP) y el grafico de dispersin (como se reali# en la Practica P) y observar la relacin entre variables. 'e la matri# de correlacin se puede destacar= (1) la alta correlacin (lineal) entre el Fa,Cl, D'+! y una menor relacin de stos con el -,*g,Al/5 (G) la media correlacin (lineal) entre F.M , +.P. El grafico de dispersin muestra estas asociaciones lineales y descubre la relacin no,lineal entre el ; , +.P. El segundo paso es evaluar si se puede aplicar el anlisis factorial al con unto de datos obtenidos mediante el test -*. y prueba de ;artlett. 'e los datos obtenidos se puede concluir %ue se el anlisis factorial es factible ya %ue el p, valor (+ig.) 9 3.3: aun%ue la correlacin entre todas variables es ba a (el valor obtenido por el test de -*. es 3.GP4). )a varian#a total e&plicada por los tres primeros componentes es del 7M.4PQ de la varian#a total e&plicada. )a matri# de componentes nos informa de la relacin entre las variables! agrupndolas y por lo tanto! reduciendo la cantidad de datos originales. +i los datos no son muy claros (aun%ue en esta prctica si lo son)! en este punto siempre es muy interesante reali#ar la rotacin de los e es.
'el anlisis factorial (*atri# de componentes rotados) podemos concluir %ue las variables se agrupan en tres grandes grupos= a) Componente 1= la asociacin de las variables Fa,-,*g,Al/,Cl,;,D'+ estn relacionadas con salmueras procedentes de la cuenca sedimentaria. )a relacin tan alta con el D'+ implica %ue estas aguas son las responsables del incremento de la salinidad de los acu$feros. b) Componente G= la asociacin entre Ca,F.M,+.P corrobora la "iptesis de la contaminacin producida por la actividad agr$cola debido al uso de fertili#antes de sulfato amnico yEo clcico. c) Componente M= las variables p<,Ca,Al/,+i.G estn relacionadas con el li&iviado de las rocas volcnicas permeables (silicatos ferromagnesicos) ricas en C.G de origen volcnico. Este "ec"o se refle a en la relacin inversa entre el p< y la alcalinidad. El siguiente paso en este tipo de estudios es situar estos procesos geo%u$micos (definidos en los M componentes) en el mapa. <ay varias formas de abordar este problema de forma complementaria. Podemos destacar= (1) reali#ando el ACP sobre los casos (trasponiendo la matri# de datos). (G) generando mapa de superficie de componentes obtenidos en el ACP de las variables (Fig)! debido a la estimacin de los pesos estad$sticos a cada caso (punto de muestreo o agua anali#ada) en las variables e&tra$das. Para seleccionar esta opcin! se "a de seleccionar! a dems de las opciones descritas anteriormente! el tipo de puntuaciones.
Fig. *apa de distribuciones de los tres factores obtenidos en el ACP. Es decir= ,Anali#arE@educcin de 'atos ('imensiones en +P++16)EAnlisis Factorial ,+eleccionar= , Puntuaciones= ,Iuardar como variables= *todo regresin.
Prctica 5.C. El anlisis de : suelos contaminados en A#nalcllar (A! ;! C! ' y E) a dos profundidades (1= 3,G: cm5 G= G:,:3 cm) se recogen en Ialn et al (G33G)= @esidual pollution load of soils impacted by t"e A#nalcllar (+pain) mining spill after clean,up operations. D"e +cience of t"e Dotal Environment! G68! 187,174. A partir del estudio de los cationes pesados del suelo determinar las asociaciones geo%u$micas %ue presentan los elementos mediante el anlisis factorial y de componentes principales. En este estudio se concluye %ue "ay dos asociaciones geo%u$micas distintas= As,Pb,<g,+b y Cu,Rn,Cd5 y la segunda asociacin son metales con mayor movilidad! y por lo tanto! mayor potencialidad a la "ora de contaminar los acu$feros.
RO AC!O"#S FAC OR!A$#S )a matri# factorial indica! como sabemos! la relacin entre los factores y las variables. +in embargo! a partir de la matri# factorial muc"as veces resulta dif$cil la interpretacin de los factores.
F.I 1 2 3 4 0.6 0.5 0.2 -0.3 F.II 0.7 0.5 -0.5 0.6
Como se ve esta matri# factorial resulta dif$cil de interpretar pues no %ueda claro en %ue factor satura cada variable. Para facilitar la interpretacin se reali#an lo %ue se denominan rotaciones factoriales. )a rotacin factorial pretende seleccionar la solucin ms sencilla e interpretable. En s$ntesis consiste en "acer girar los e es de coordenadas! %ue representan a los factores! "asta conseguir %ue se apro&ime al m&imo a las variables en %ue estn saturados. )a saturacin de factores transforma la matri# factorial inicial en otra denominada matri# factorial rotada! de ms fcil interpretacin. )a matri# factorial rotada es una combinacin lineal de la primera y e&plica la misma cantidad de varian#a inicial.
F.I 0.912 0.702 0.226 0.216 F.II 0.026 -0.018 -0.483 0.639
Como "emos dic"o el ob etivo de la rotacin es obtener una solucin ms interpretable! una forma de conseguirlo es intentando apro&imarla al principio de estructura simple (D"urstone! 14M:). +eg(n este principio! la matri# factorial debe reunir las siguientes caracter$sticas= 1, Cada factor debe tener unos pocos pesos altos y los otros pr&imos a 3. G, Cada variable no debe estar saturada ms %ue en un factor.
M, Fo deben e&istir factores con la misma distribucin! es decir! los factores distintos deben presentar distribuciones de cargas altas y ba as distintas. Estos tres principios en la prctica no suelen lograrse! lo %ue se trata es de alcan#ar una solucin lo ms apro&imada posible a ello. Con la rotacin factorial aun%ue cambie la matri# factorial las comunalidades no se alteran! sin embargo! cambia la varian#a e&plicada por cada factor. E&isten varios mtodos de rotacin %ue podemos agrupar en dos grandes tipos= ortogonales y oblicuos. )a correlacin entre las variables puede representarse como el ngulo entre dos vectores y espec$ficamente vendr$a dada como el coseno del ngulo entre dos vectores. As$ tendremos una rotacin ortogonal cuando la correlacin entre factores sea nula o lo %ue es lo mismo! tienen un ngulo de 43 grados entre factores5 y "ablaremos de rotacin oblicua cuando la correlacin entre factores no sea nula y por tanto el ngulo distinto de 43 grados. )o ms recomendable es la rotacin ortogonal! aun%ue en el caso de %ue e&istan ra#ones para pensar %ue los factores estn correlacionados entonces utili#aremos la rotacin oblicua. 'e entre las rotaciones ortogonales la ms utili#ada es la varima& mientras en %ue las oblicuas es la oblimin. En la rotacin oblicua las ponderaciones factoriales no coinciden con las correlaciones entre el factor y la variable! puesto %ue los factores estn correlacionados entre s$. Por eso cuando "acemos rotacin oblicua la matri# factorial no rotada se convierte en dos matrices diferentes= la matri# de ponderaciones (%ue es la %ue se utili#a en la interpretacin) y la matri# de correlaciones entre factores y variables. Dambin obtendremos otra matri# de correlaciones entre factores.
Cuando ya tenemos previsto todo para nuestro ACP! entonces procedemos a dar clic en el botn SAceptarT (ver figura PP) para %ue el Programa +P++ comience a desarrollar todos los clculos y nos presente los resultados en el visor de resultados.
A. factorial
Este es el visor de resultados del +P++! en donde muestra todos los cuadros! grficos y resultados del anlisis %ue le "emos solicitado efect(e! en nuestro caso! un Anlisis Factorial a con el *todo de Componentes Principales. El primer cuadro es el %ue presenta los estad$sticos descriptivos! en donde se puede ver la SmediaT y Sdesviacin t$picaT de cada una de las variables en estudio.
Estadsticos descriptivos
Media 19,0443 "#,3#8" 14,328" 31,1314 24,2400 1",""43 23,7043 42,38#7 41,01
Desviacin tpica 12,22738 1#,14112 4,18#80 14,091#4 10,18"94 #,"9981 10,12"#" 8,2187" 8,4"#
N del anlisis 7 7 7 7 7 7 7 7 7
!as c*+,nalidades apa-ecen al p-incipi*, . se p,ede c*+p-*/a- 0,e s*n +,. altas 1ce-canas a 12, c*n l* c,al se p,ede deci- 0,e las va-ia/les 0,edan +,. /ien e3plicadas a t-av4s de las c*+p*nentes e3t-adas5
Comunalidades
Inicial 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
&3t-accin ,9"3 ,988 ,809 ,97" ,927 ,979 ,9"# ,898 ,893
En el siguiente cuadro podemos comprobar el porcenta e de varian#a e&plicada cada componente y cules son las componentes %ue "an sido e&tra$das (a%uellas cuyos autovalores superan la unidad! como se puede comprobar). Entre las dos componentes e&tra$das se acumula el 4M!MGMQ de la variabilidad de las variables originales. En otras palabras! de la totalidad o 133Q del fenmeno estudiado! el componente 1 e&plica dic"o fenmeno en un 76.G6Q y el componente G lo e&plica en un 1:.3:Q! entonces! si unimos ambos componentes! se obtiene %ue el porcenta e %ue e&plican los dos componentes del fenmeno investigado es de 4M.MMQ! o %ue la varian#a total del fenmeno es e&plicada en un 4M.MQ por los componentes 1 y G.
A,t*val*-es iniciales $*+p*nente 1 2 3 4 # " 7 8 9 )*tal 7,04# 1,3#4 ,448 ,117 ,030 ,007 ",43#&91" 9,"22&917 91,302&91" 7 de la va-ian8a 78,277 1#,04" 4,978 1,29# ,330 ,074 7,1#0&91# 1,0"9&91# 91,447&91# 7 ac,+,lad* 78,277 93,323 98,300 99,#9" 99,92" 100,000 100,000 100,000 100,000
,+as de las sat,-aci*nes al c,ad-ad* de la e3t-accin )*tal 7,04# 1,3#4 7 de la va-ian8a 78,277 1#,04" 7 ac,+,lad* 78,277 93,323
El grfico de sedimentacin ("erramienta grfica para la decisin del n(mero de componentes %ue "ay %ue seleccionar) resulta ser=
En esta figura se aprecia %ue la seleccin de dos componentes parece ser adecuada! pues a partir de la tercera componente no es muy acusada la pendiente de la representacin grfica de los autovalores.
!a +at-i8 de c*+p*nentes 0,e apa-ece en la salida del *-denad*- es la 0,e se den*+ina +at-i8 de ca-:as * sat,-aci*nes ;act*-iales, . n*s indican la ca-:a de cada va-ia/le en cada ;act*-, de +*d* 0,e l*s ;act*-es c*n ,n*s pes*s ;act*-iales +s elevad*s en t4-+in*s a/s*l,t*s n*s indican ,na -elacin est-ec<a c*n las va-ia/les5
Matriz de componentes(a)
$*+p*nente 1 AGRI A A! $%N &M' 9,974 ,993 9,4#8 9,98" 2 9,121 ,038 ,774 9,0#3
Ade+s, se p,ede e3p-esa- cada va-ia/le en ;,ncin de l*s ;act*-es, <aciend* ,na c*+/inacin lineal de ell*s ,tili8and* s,s ca-:as ;act*-iales -espectivas5 '*- e=e+pl*, se p,ede e3p-esa- la va-ia/le agri en ;,ncin de las c*+p*nentes e3t-adas de la ;*-+a6
Incl,s*, a pa-ti- de las ca-:as ;act*-iales se p,ede calc,la- la c*+,nalidad de cada ,na de las va-ia/les, p*- e=e+pl*, pa-a la va-ia/le agri6
&l :-;ic* de sat,-aci*nes 1den*+inad* :-;ic* de c*+p*nentes en la salida del *-denad*-2 pe-+ite -eali8a- la -ep-esentacin :-;ica de la +at-i8 de c*+p*nentes 0,e <e+*s anali8ad*5 De esta -ep-esentacin :-;ica, se e3t-ae la e3plicacin de l*s ;act*-es s,/.acentes, de tal +ane-a 0,e se p,ede inte-p-eta- el primer factor c*+* ,n ;act*- de tip* ec*n+ic*9de+*:-;ic*, 0,e se *p*ne a las va-ia/les agri, cons, emp y m !a al -est*5 &l segundo factor es ,n ;act*- de tip* *c,paci*nal, . sepa-a l*s sect*-es en l*s 0,e t-a/a=a la p*/lacin5