You are on page 1of 25

 En estadística, el análisis de componentes principales (en español ACP, en

inglés, PCA) es una técnica utilizada para reducir la dimensionalidad de un


conjunto de datos.
 El ACP se emplea sobre todo en análisis exploratorio de datos y para
construir modelos predictivos. El ACP comporta el cálculo de
la descomposición en auto valores de la matriz de covarianza, normalmente
tras centrar los datos en la media de cada atributo.
 Debe diferenciarse del análisis factorial con el que tiene similaridades
formales y en el cual puede ser utilizado como un método
de aproximación para la extracción de factores.
 El ACP construye una transformación lineal que escoge un nuevo
sistema de coordenadas para el conjunto original de datos en el cual la
varianza de mayor tamaño del conjunto de datos es capturada en el
primer eje (llamado el Primer Componente Principal), la segunda
varianza más grande es el segundo eje
 Para construir esta transformación lineal debe construirse primero la
matriz de covarianza o matriz de coeficientes de correlación. Debido a la
simetría de esta matriz existe una base completa de vectores propios de
la misma
MATEMÁTICAS DEL ACP
 Supongamos que existe una muestra con n individuos para cada uno de
los cuales se han medido m variables (aleatorias).El ACP permite
encontrar un número de factores subyacentes p < m que explican
aproximadamente el valor de las m variables para cada individuo
Existen dos formas básicas de aplicar el ACP:
 Método basado en la matriz de correlación, cuando los datos no son
dimensionalmente homogéneos o el orden de magnitud de las variables
aleatorias medidas no es el mismo.
 Método basado en la matriz de covarianzas, que se usa cuando los datos
son dimensionalmente homogéneos y presentan valores medios
similares.
 El método parte de la matriz de correlaciones, consideremos el valor
de cada una de las m variables aleatorias .Para cada uno de
los n individuos tomemos el valor de estas variables y escribamos el
conjunto de datos en forma de matriz:

 A partir de los mxn datos correspondientes a las m variables


aleatorias, puede construirse la matriz de correlación muestral, que
viene definida por:
 Puesto que la matriz de correlaciones es simétrica entonces
resulta diagonalizable y sus valores propios
verifican:

 Método basado en las covarianzas


 El objetivo es transformar un conjunto dado de datos X de dimensión n x
m a otro conjunto de datos Y de menor dimensión n x l con la menor
perdida de información útil posible utilizando para ello la matriz de
covarianza.
 Se parte de un conjunto n de muestras cada una de las cuales
tiene m variables que las describen y el objetivo es que, cada una de esas
muestras, se describa con solo I variables, donde l < m. Además, el número
de componentes principales l tiene que ser inferior a la menor de las
dimensiones de X.
 Los datos para el análisis tienen que estar centrados a media 0
(restándoles la media de cada columna) y/o autoescalados (centrados a
media 0 y dividiendo cada columna por su desviación estándar).
 Los datos para el análisis tienen que estar centrados a media 0
(restándoles la media de cada columna) y/o autoescalados (centrados a
media 0 y dividiendo cada columna por su desviación estándar).

 Los vectores Ta son conocidos como scores y contienen la información de


cómo las muestras están relacionadas unas con otras además, tienen la
propiedad de ser ortogonales. Los vectores Pa se llaman loadings e
informan de la relación existente entre las variables y tienen la cualidad de
ser ortonormales
Análisis Multivariante:

 En los estudios estadísticos de casos reales es frecuente encontrarse con que


tenemos que manejar no sólo muchos datos, sino también muchas variables;
el tener un gran número de variables dificulta la comprensión del problema
así como la interpretación de los resultados estadísticos. En el siguiente
ejemplo vemos un caso multivariante típico:
 En un centro educativo han estado experimentando en los tres últimos
cursos académicos con una nueva técnica pedagógica, que se ha aplicado a
cinco grupos distintos de alumnos de bachillerato en distintas
asignaturas, un total de 125 alumnos. Se quiere realizar un estudio
estadístico para averiguar hasta qué punto la nueva técnica ha sido
efectiva en términos no sólo de mejora de calificaciones, si no también de
otras variables como la participación activa del alumno en la clase, la
mejora de habilidades atencionales y de estudio, y la satisfacción en
general del alumno en la clase. Además, se considera importante tener en
cuenta en el estudio otras variables que pueden condicionarlo, como por
ejemplo la edad, la clase social, la asignatura en la que se utilizó la
técnica, el nivel de estudios de los padres, y el profesor que la aplicó. Para
comparar resultados, se toman también los datos de otros 125 alumnos
con los que no se aplicó la nueva técnica. Se trabajará por tanto con una
muestra de 250 alumnos y 11 variables. .
 A continuación se muestran las primeras filas de esta tabla:

CA PA AT ED CL ASI PR
TEC L R E EST SAT AD A G OF ESTP

0 1 0 1 0 3 16 0 2 3 0

0 1 0 1 0 1 17 0 3 5 0

0 1 0 0 1 7 18 2 2 4 3

0 2 1 1 0 2 19 2 3 5 0

0 2 0 1 2 5 18 2 1 1 0
Los significados de cada variable son:

TEC 1: aplicamos nueva técnica, 0: no lo hacemos

CAL Calificación obtenida

PAR Medida de la participación activa en clase

ATE Medida de la atención en clase

EST Medida de las técnicas de estudio personales

SAT Medida de la satisfacción en clase

EDAD Edad del alumno

CLA Clase social: 0 baja, 1 media, 2 alta

Asignatura en la que se aplicó la técnica: 1 MAT, 2


ASIG CIENCIAS, 3 HISTORIA

Profesor que la aplicó, valores 1,2 (MAT), 3,4 (CIENC),


PROF 5 (HIST)

Nivel de estudios padres: 0 sin estudios, 1 básicos, 2


ESTP medios, 3 superiores
 Reducir el número de variables: análisis de
componentes principales
 Usaremos el método de análisis de componentes principales; una vez
cargados los datos en el entorno R, accedemos a Estadísticos -> Análisis
dimensional -> análisis de componentes principales. Seleccionamos
todas las variables y en Opciones marcamos “Añadir componentes
principales al conjunto de datos“; cuando nos pregunta cuantos
componentes vamos a incluir, estamos diciendo a cuantas variables
queremos reducir las 11 originales, pondremos 3 (idealmente
reduciremos a 4 como máximo, para que los datos sean manejables), y
aceptamos. R efectúa el análisis y nos proporciona este informe:
 Fig. 1: Componentes principales: coeficientes de las combinaciones R
siempre generará tantos componentes principales como variables
originales, 11 en este caso. En la figura 1 no se muestran las columnas
4, 5, … 11, pues nos interesa estudiar sólo 3. Lo que ha hecho R es crear
nuevas variables Comp.1, Comp.2, …, por combinación lineal de las
originales, siendo los coeficientes de las combinaciones los que vemos en
la figura 1. O sea que se cumple que:
 Para el componente principal 2:
 En el mismo informe de R encontramos esta otra sección:
 Fig. 2: importancia de cada componente principal
 Nos fijamos en la fila Cumulative Proportion: nos da la “representatividad”
acumulada de las nuevas variables, en tanto por uno; vemos que tomando
los tres primeras componentes quedan representados en un 0.50 todas las
variables, o en un 50%, por tanto si pasamos de 11 a tres variables
perdemos la mitad de la información. Parece una pérdida importante … si
cogemos más componentes principales, perdemos menos información, pero
ampliamos de nuevo el número de variables, por ejemplo ampliando a 5
llegamos al 69% de representatividad, con 6 llegamos al 77% y con 7
componentes cubrimos hasta el 85% de la información original, pero la
reducción de número de variables es ya escasa:
 Fig. 3: ampliando el número de componentes con los que trabajar
 La elección del número de componentes principales con los que
trabajar es una elección del experimentador; los problemas “de clase”
suelen venir preparados de forma que con pocos componentes
principales, 2 o 3, se resumen bien los datos, pero en los problemas
reales no suele ser tan evidente.
 Para saber cómo se relacionan las nuevas variables con las originales
podemos usar la matriz de correlaciones entre pares de
variables: en R haremos Estadísticos -> Resúmenes -> Matriz de
correlación, escogemos todas las variables, y marcamos la
opción Parejas de datos. En la matriz de correlaciones resultante nos
fijamos en la columna correspondiente al componente principal PC1,
para el cual las correlaciones son:
PC1

ASIG 0.009634422

ATE -0.690929281

CAL -0.8508779590

CLA 0.0891672163

EDAD 0.233171700

EST -0.67173527

ESTP 0.093915413

PAR -0.712555990

PC1 1.000000e+00

PC2 1.006389e-17

PC3 -5.316147e-17

PROF 0.006182726

SAT -0.120799459

TEC -0.28527228
 Analizemos estas correlaciones: vemos que PC1 está fuertemente
correlacionada (más de un 0,5 por uno, o 50%) con las variables ATE
(Medida de la atención en clase, valor negativo), CAL (Calificación
obtenida, valor negativo, es la correlación más fuerte), EST (Medida de
las técnicas de estudio personales, valor negativo) y PAR (Medida de la
participación activa en clase, valor negativo), débilmente correlacionada
(entre 10-50%) con EDAD (valor positivo), SAT (Medida de la
satisfacción en clase, valor negativo) y TEC (1: aplicamos nueva técnica,
0: no lo hacemos, con valores negativos), y prácticamente nada con las
demás.
 FIG 4: de diagrama de dispersión de dos componentes principales
cualesquiera no mostrará ninguna relación
 Hemos podido realizar este diagrama de dispersión gracias a
haber seleccionado la opción, que añade a la hoja de datos original
las nuevas variables como columnas adicionales.
 Fig. 5: R añade 3 nuevas columnas a la hoja de datos, son los
componentes principales elegidos por el usuario
 Como conclusión de este estudio con componentes principales
podemos decir:
 la nueva técnica de enseñanza sí que parece tener cierta influencia,
pues su variable asociada está incluida en el componente PC1 de
“buenas prácticas y buenas calificaciones”, aunque su efecto parece
ser menor (29% de correlación) en comparación a las otras buenas
prácticas: atención en clase, etc. Por otro lado la asignatura donde
se ha probado el método, que es el componente PC2, no tiene
ninguna relación (no hay correlación) con PC1, esto es bueno, nos
dice que en cualquier asignatura las “buenas prácticas” tienen los
mismos efectos. Lo mismo podemos decir del entorno familiar,
representado por PC3.
 Reducir el número de variables: análisis
factorial
 El análisis factorial es otra técnica diseñada para reducir el número
de variables, creando unas de nuevas, llamadas factores, por
combinación lineales de las originales, que intentan mostrar
condiciones que directamente no son fácilmente reconocibles. El
software estadístico de análisis factorial permite realizar las llamadas
“rotaciones” de variables, una transformación matemática que
pretende simplificar al máximo la nueva descripción de variables. Los
resultados no son los mismos que usando componentes principales,
pues el método matemático es distinto.
 En R, vamos a Estadísticos -> Análisis dimensional -> Análisis
factorial, y escogemos todas las variables originales del problema. Nos
pregunta el número de factores a retener, probamos con 3. El
resultado es este resumen: Uniquenesses:
 Nos proporciona los coeficientes de las combinaciones lineales
para cada factor (tabla Loadings) que siempre están en el
intervalo [-1, 1], la variabilidad explicada por cada factor, la
acumulada (para los tres factores sumados tenemos un 38.4% de
variabilidad explicada) y un contraste de hipótesis Chi² donde H0:
los tres factores son suficientes, H1: no lo son. Vemos que el
resultado del contraste es que el p-valor = 0.593, lo que significa
que, para los niveles de significación estándar de aceptación de
H0, 10%, 5% y 1%, aceptamos H0 (recordemos que H0 se acepta
si la significación es menor que el p-valor). Si se hubiera
rechazado la hipótesis nula, hubiéramos repetido el análisis con
un factor más.
 También, para las conclusiones, podemos mirar los datos
denominados “Uniquenesses“: nos da la proporción de variabilidad
no explicada por los factores de la variable en cuestión. Por
ejemplo, para la variable ASIG es de 0.077, un 7.7% no explicada
por los factores, o sea que está bien resumida con los tres factores.
En cambio para CLA vale más del 90%, por lo cual los factores no
informan bien de esta variable.
 Así pues, resumimos las 11 variables por tres factores, con la siguiente
composición:
 este factor considera la asignatura y el profesor que la imparte como un
factor importante en el estudio.
 este segundo factor tiene en cuenta la atención en clase, la calificación,
las técnicas de estudio y la participación activa en clase, de forma
parecida al componente principal PC1 del apartado anterior.
 el tercer factor considera la relación entre calificación, clase social, edad,
técnicas de estudio, participación activa en clase y la aplicación de la
nueva técnica de estudio, en éste último caso con un peso más bien bajo,
0.158.
Las conclusiones que podemos obtener son:
 En este análisis la variable TEC que estudiamos no parece desempeñar
ningún papel, sólo entra en el factor 3 con un peso del 15.8%, y además
queda no explicada en un 95.6% (Uniquenesses). Las variables
relacionadas que tienen más peso son CAL y ATE en el factor 2, lo que
sugiere que la atención en clase es la variable mas correlacionada con la
calificación obtenida; en el factor 3 la variable dominante es PAR,
participación activa, que tiene una relación más bien débil con la
calificación (38.1%) y aún más débil con las otras variables.

You might also like