Professional Documents
Culture Documents
1, 7, 1, 3, 2, 3, 11, 1, 7, 5
PDF (Funcion de densidad de la probabilidad)
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 1 2 3 4 5 6 7 8 9 10 11
CDF (Funcion de densidad acumulativa)
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 1 2 3 4 5 6 7 8 9 10 11
Medidas de ubicacion:
• Promedio (mean)
• Media (median)
• Modo (mode)
• Minimo, Maximo
• Quartillas
• Percentiles
• Es el promedio aritmetico de los valores de los
datos:
m = 1/n Σxi i=1,...,n
1, 7, 1, 3, 2, 3, 11, 1, 7, 5
m =?
m= (1+ 7+ 1+ 3+ 2+ 3+ 11+ 1+ 7+ 5)/10=
= 41/10=
= 4.1
Cual es el promedio si sacamos el valor mas alto?
m= (1+ 7+ 1+ 3+ 2+ 3+ 1+ 7+ 5)/9=
= 30/9=
= 3.33
• El punto medio de los valores de los datos si
estos estan distribuidos en orden ascendente
M = x(n+1)/2 si n es impar
M = [x n/2+x(n/2)+1]/2 si n es par
Cual es la media de la poblacion en nuestro
ejemplo?
M=?
M=3
• Mode (Modo)
• Minimum (minimo)
• Maximum (maximo)
• Quartiles (quarttillas)
• Deciles (decillas)
• Percentiles (percentiles)
• Quantiles
Mode (Modo)
En nuestro ejemplo:
Mode=?
Mode (Modo)
1, 1, 1, 2, 3, 3, 5, 7, 7 ,11
Mode = 1
Quartiles (cuartiles)
Q1 = 1st quartile
Q3 = 3rd quartile
En el ejemplo:
Q1=?
Q3=?
Cuartiles
1, 1, 1, 2, 3, 3, 5, 7, 7 ,11
Q1= 1
Q3= 6
Deciles, Percentiles,Cuartiles
1, 1, 1, 2, 3, 3, 5, 7, 7 ,11
D1= 1
D3= 1
D9= 7
Modo de la funcion de densidad de la
probabilidad (pdf)
Max
Promedio de la funcion de densidad
de la probabilidad (pdf)
Mean(=4.1)
Media de la funcion de distribucion acumulativa
Medidas de amplitud (spread):
• Varianza
• Desviacion Estandar
• Rango Entre Cuartillas
S2 = 1/n Σ(xi-m)2 i=1,...,n
Ejemplo:
1, 1, 1, 2, 3, 3, 5, 7, 7 ,11
M=4.1
S2= 1/9 {(1-4.1)2+ (1-4.1)2+ (1-4.1)2+ (2-4.1)2+ (3-4.1)2+
(3-4.1)2+ (5-4.1)2+ (7-4.1)2+ (7-4.1)2+ (11-4.1)2 } =
= 1/9 (9.61+ 9.61+ 9.61+ 4.41+ 1.21+ 1.21+ 0.81+ 8.41+
8.41+ 47.61) =
= 100.9/9 =
= 11.21
Varianza
S2= 11.21
S = 3.348
S2 = 6
S =2.445
IQR = Q3 - Q1
• Sesgo (skewness)
• Tendencia de la curva a ser puntiaguda
(peakedness, kurtosis)
• Coeficiente de variacion
Skewness = [1/n Σ(xi-m)3] / s3
Example:
1, 1, 1, 2, 3, 3, 5, 7, 7 ,11
M=4.1
Sk= [1/10 {(1-4.1)3+ (1-4.1)3+ (1-4.1)3+ (2-4.1)3+
(3-4.1)3+ (3-4.1)3+ (5-4.1)3+ (7-4.1)3+
(7-4.1)3+ (11-4.1)3 } ]/ 3.348 3=
= {1/10 (-29.79-29.79-29.79-8.82-1.33 1.33+ 0.73+
24.39+ 24.39+328.51)} /37.52 =
= 277.2/375.2 =
=0.738
Sesgo
• No tiene unidades
• Desviacion estandar dividido por el promedio
• Puede ser util para comparar la dispersion
relativa de valores entre distribuciones diferentes
• CV > 1 indica una variabilidad alta
En el ejemplo:
CV = 3.348/4.1 =0.817
• Es simetrica, acampanada
• La frecuencia acumulativa es una linea recta
• 68% de los valores estan dentro de una
desviacion estandar
• 95% de los valores estan dentro de dos
desviaciones estandar
• promedio de z = 0, s = 1
• Estandarizar una variable con esta formula
z = (x-m) / s
Sesgado positivo
Sesgado positivo
• El logaritmo de una variable aleatoria mas una
constante, ln (x+c), tiene una distribucion normal
Cu<5, Mo<0.5
y= 6.526x +0.127
Linear Regression
Cu<0.5, Mo<0.05
y= 8.363x +0.049
• Ploteos de Quantile-Quantile
• Una linea recta indica que las dos distribuciones
tienen la misma forma
• Una linea a 45 grados indica que los promedios y
las varianzas son las mismas
Covxy= 1/n Σ(xi-mx)(yi-my) i=1,...,n
Donde:
mx = promedio of x values and
my = promedio of y values
Covarianza Positiva Alta
x-mx<0 x-mx>0
y-my>0
my
y-my<0
mx
Covarianza Cerca de Cero
Covarianza Negativa Alta
Covarianza
C = 2097.5
C=20.975
Hay tres casos entre dos variables:
• Correlacionadas positivamente
• Correlacionadas negativamente
• No correlacionados
r = Covxy / σxσy
• Donde: Covxy= 1/n Σ(xi-mx)(yi-my) i=1,...,n
r = 1, linea recta, pendiente positiva
r = -1, linea recta, pendiente negativa
r = 0, no hay correlacion
• puede ser afectado por algunos valores altos
(outliers)
Coeficiente de Correlacion
ρ = 0.99
Coeficiente de Correlacion
ρ = -0.03
Coeficiente de Correlacion
ρ = -0.97
Coeficiente de Correlacion
ρ = -0.08
• Cada uno de los valores son representados por
un simbolo de la clase a la cual corresponden
• Diseñado para la impresora
• Generalmente no es a escala
• Dividir el area en areas pequeñas del mismo
tamaño
• Calcule la estadistica para cada una de las areas
pequeñas
• Es util para investigar si hay anomalias en el
promedio y en la varianza
• El promedio y la variabilidad son constantes
• El promedio es constante, la variabilidad cambia
• El promedio cambia, la variabilidad es constante
• Ambos cambian