Professional Documents
Culture Documents
Visualizacion
Analisis
Exploratorio de Datos en R
13 de noviembre de 2013
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Analisis
Exploratorio de Datos
El analisis
exploratorio de datos o (EDA) engloba un conjunto de tecnicas
para
de datos o
poder comprender de manera rapida
la naturaleza de una coleccion
dataset.
Fue creado por el estadstico John Tukey.
Se basa principalmente en dos criterios: Las estadsticas de resumen y la
de datos.
visualizacion
ambos tipos de tecnicas,
de su aplicacion
en R
En esta clase se veran
ademas
para datasets conocidos.
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
El dataset Iris
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
El dataset Iris
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Estadsticas de Resumen
Las estadsticas de resumen son valores que explican propiedades de los datos.
Algunas de estas propiedades incluyen: frecuencias, medidas de tendencia
central y dispersion.
Ejemplos:
Tendencia central: media, mediana, moda.
miden la variabilidad de los datos, como la desviacion
Dispersion:
estandar,
el rango, etc..
La mayor parte de las estadsticas de resumen se pueden calcular haciendo una
sola pasada por los datos.
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Frecuencia y Moda
# Frecuencia porcentual
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
frecuente observado.
La moda de un atributo es el valor mas
moda directamente en R, pero es facil
de calcular usando
No existe la funcion
table y max:
my_mode<-function(var){
frec.var<-table(var)
valor<-which(frec.var==max(frec.var))
names(valor)
}
> my_mode(vec)
[1] "3"
> my_mode(iris$Sepal.Length)
[1] "5"
categoricas.
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
numerica.
m
1 X
xi
m
i=1
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
1
(x
2 r
xr +1
+ xr +1 )
Si m es impar con m = 2r + 1
Si m es par con m = 2r
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Percentiles o Cuantiles
El k-esimo
percentil de una variable numerica
es un valor tal que el k % de las
observaciones se encuentran debajo del percentil y el (100 k) % se
encuentran sobre este valor.
En estadstica se usan generalmente los cuantiles que son equivalentes a los
percentiles expresados en fracciones en vez de porcentajes.
En R se calculan con el comando quantile:
# Todos los percentiles
quantile(Sepal.Length,seq(0,1,0.01))
es muy comun
Ademas
hablar de los cuartiles que son tres percentiles
especficos:
El primer cuartil Q1 (lower quartile) es el percentil con k = 25.
El segundo cuartil Q2 es con k = 50 que equivale a la mediana.
El tercer cuartil Q3 (upper quartile) es con k = 75.
# El m
nimo, los tres cuartiles y el m
aximo
> quantile(Sepal.Length,seq(0,1,0.25))
0% 25% 50% 75% 100%
4.3 5.1 5.8 6.4 7.9
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
maximo.
Sepal.Width
Min.
:2.000
1st Qu.:2.800
Median :3.000
Mean
:3.057
3rd Qu.:3.300
Max.
:4.400
Petal.Length
Min.
:1.000
1st Qu.:1.600
Median :4.350
Mean
:3.758
3rd Qu.:5.100
Max.
:6.900
Petal.Width
Min.
:0.100
1st Qu.:0.300
Median :1.300
Mean
:1.199
3rd Qu.:1.800
Max.
:2.500
Species
setosa
:50
versicolor:50
virginica :50
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Ejercicio
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Medidas de Dispersion
Estas medidas nos dicen que tan distintas o similares tienden a ser las
observaciones respecto a un valor particular. Generalmente este valor se refiere
a alguna medida de tendencia central.
La desviacion
es la raz cuadrada de la varianza que mide las
diferencias cuadraticas
promedio de las observaciones con la media.
var(x) =
m
1 X
(xi x)2
m1
i=1
sd(x) =
var(x)
> var(Sepal.Length)
[1] 0.6856935
> sd(Sepal.Length)
[1] 0.8280661
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
(2)
Medidas de Dispersion
estandar
AAD(x) =
m
1 X
|xi m(x)|
m
i=1
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
(3)
Medidas de Dispersion
media absoluta como:
Sea b una constante de escala se define la desviacion
MAD(x) = b median(|xi m(x)|)
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Tablas de Contingencia
entre variables de naturaleza categorica
entregandole
dos vectores:
sexo<-c("Hombre","Hombre","Mujer","Hombre","Mujer","Mujer")
estudios<-c("universitario","secundario","secundario",
"postgrado","secundario","universitario")
> table(sexo,estudios)
estudios
sexo
postgrado secundario universitario
Hombre
1
1
1
Mujer
0
2
1
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
de Datos
Visualizacion
de datos es la transformacion
de un dataset a un formato visual
La visualizacion
que permita a las personas identificar las caractersticas y las relaciones entre
los elementos del dataset.
permite que las personas reconozcan patrones o tendencias en
La visualizacion
base a su criterio o expertiz en el dominio particular.
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Representacion
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Graficando en R
de visualizacion
mas
frecuente en plot.
En R la funcion
generica
Es una funcion
cuyo resultado depende de la naturaleza de las
variables usadas.
grafico:
(p) para puntos o (l) para lneas.
podemos agregarle nuevas capas a un grafico
Ademas
con el comando lines.
export de
Para grabar una imagen en un archivo podemos usar el boton
Rstudio.
Para hacerlo de la lnea de comandos en R:
png("imagen.png")
plot(1:10)
dev.off()
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Ejemplo
plot(rnorm(15,10,5),col="red",type="l")
lines(rnorm(15,10,5),col="blue",type="p",pch=1)
lines(rnorm(15,10,5),col="green",type="b",pch=2)
title(main="Mi gr
afico")
legend(topright, c("lineas","puntos","ambos") ,
lty=1:3, col=c("red", "blue","green"), bty=n, cex=.75)
Mi grfico
20
lineas
15
5
10
ambos
rnorm(15, 10, 5)
puntos
10
12
14
Index
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Histogramas
de los valores de una variable.
Muestran la distribucion
Los valores de los elementos se dividen en contenedores (bins) y se crean
graficos
de barra por cada contenedor.
La altura de cada barra indica el numero
de elementos o frecuencia del
contenedor.
En R se crean con el comando hist.
> hist(Sepal.Length)
25
10
0
Frequency
Histogram of Sepal.Length
Sepal.Length
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Histogramas (2)
La forma del histograma depende de el numero
de contenedores.
8
4
0
Frequency
Histogram of Sepal.Length
4.5
5.5
6.5
7.5
Sepal.Length
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Densidad
Otra forma de visualizar como se distribuyen los datos es estimando una
densidad.
0.2
0.0
Density
0.4
Densidad de Sepal.Length
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Graficos
de Torta o Pie Charts
Los graficos
de torta, graficos
circulares o pie charts representan la frecuencia
de los elementos en un crculo.
proporcional a su frecuencia relativa.
Cada elemento tiene una participacion
setosa
versicolor
virginica
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Boxplots
no es simetrica.
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Boxplots (2)
Figura: Fuente:
http://commons.wikimedia.org/wiki/File:Boxplot.svg
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Boxplots (3)
El largo de los brazos as como el criterio para identificar valores atpicos se
basa en el comportamiento de una normal.
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Boxplots (4)
4.5
6.0
7.5
Boxplot Sepal.Length
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Boxplots (4)
Si tenemos una variable factor podemos crear un boxplot para cada categora de
la siguiente manera:
6.5
5.5
4.5
Sepal.Length
7.5
> boxplot(Sepal.LengthSpecies,ylab="Sepal.Length")
setosa
versicolor
virginica
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Boxplots (5)
podemos podemos comparar varios boxplots en un mismo grafico:
Tambien
> boxplot(x=iris[,1:4],main="Boxplots Iris")
Boxplots Iris
Sepal.Length
Sepal.Width
Petal.Length
Petal.Width
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Diagramas de Dispersion
yx.
Tambien
f (x) = y usando la notacion
De esta manera el comando plot(yx) es equivalente a plot(x,y).
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
(2)
Diagramas de Dispersion
4.0
setosa
versicolor
3.0
virginica
2.0
Sepal.Width
Ejemplos:
# El ancho del s
epalo vs el largo del s
epalo
plot(Sepal.WidthSepal.Length, col=Species)
# Equivalente
plot(Sepal.Length, Sepal.Width,col=Species,
pch=as.numeric(Species))
# Le agregamos una leyenda
legend(topright, levels(Species) ,
lty=1, col=1:3, bty=n, cex=.75)
4.5
5.0
5.5
6.0
6.5
7.0
7.5
Sepal.Length
Analisis
Exploratorio de Datos en R
8.0
Estadsticas de Resumen
Visualizacion
(3)
Diagramas de Dispersion
4.0
0.5
1.5
Sepal.Length
2.5
4.5 6.0 7.5
2.0
Sepal.Width
Petal.Length
Petal.Width
1 2 3 4 5 6 7
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
(4)
Diagramas de Dispersion
sepalo:
scatterplot3d(iris$Petal.Width, iris$Sepal.Length,
iris$Sepal.Width, color=as.numeric(iris$Species),
pch=as.numeric(iris$Species))
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
0.0
6
5
0.5
1.0
1.5
2.0
2.5
Petal.Width
Analisis
Exploratorio de Datos en R
Sepal.Length
4.0
3.5
3.0
8
7
2.5
2.0
Sepal.Width
4.5
(5)
Diagramas de Dispersion
Estadsticas de Resumen
Visualizacion
Graficos
de Coordenadas Paralelas
Los graficos
de coordenadas paralelas son otra forma de visualizar datos
multi-dimensionales.
En vez de usar ejes perpendiculares (x-y-z) usamos varios ejes paralelos entre
s.
Cada atributo es representado por uno de los ejes paralelo con sus respectivos
valores.
Los valores de los distintos atributos son escalados para que cada eje tenga la
misma altura.
representa una lnea que une los distintos ejes de acuerdo a
Cada observacion
sus valores.
De esta manera, objetos similares entre s tienden a agruparse en lneas con
trayectoria similar.
En muchas ocasiones es necesario realizar un re-ordenamiento de los ejes para
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Graficos
de Coordenadas Paralelas (2)
4.4
6.9
2.5
4.3
2.0
1.0
0.1
Sepal.Length
Sepal.Width
Petal.Length
Petal.Width
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Otras tecnicas
de Visualizacion
Graficos
de Estrellas
conocidos como graficos
Tambien
radiales.
formando un polgono a partir de
Cada estrella representa una observacion,
a las agujas del reloj hasta formar un polgono.
cada variables con direccion
de cada lnea respecto al centro de la estrella corresponde al valor
El tamano
re-escalado de la variable.
Sirve para comparar objetos o detectar valores atpicos.
Caras de Chernoff
Enfoque creado por Herman Chernoff basado en la capacidad humana para
distinguir rostros.
Cada atributo corresponde a alguna caracterstica de la cara (boca, ojos, nariz,
etc..)
El valor de los atributos determina la apariencia de la caracterstica facial.
es una cara.
Cada observacion
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
versicolor 1
setosa 2
versicolor 3
versicolor 4
virginica 5
virginica 6
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
virginica
virginica
versicolor
setosa
virginica
setosa
setosa
Index
Index
Index
Index
versicolor
setosa
virginica
setosa
Index
Index
Index
Index
setosa
setosa
virginica
virginica
Index
Index
Index
Index
Analisis
Exploratorio de Datos en R
Estadsticas de Resumen
Visualizacion
Bilbiografa I
Analisis
Exploratorio de Datos en R