You are on page 1of 71

Anlisis estadstico

de datos

Objetivos del curso


Entregar conocimientos tericos y prcticos para estudiar, modelar e
interpretar datos procedentes de muestreos, experimentos o pruebas
industriales.
El curso se dirige a ingenieros, metalurgistas y gelogos cuya labor requiere
del diseo de experimentos, anlisis de datos, prueba de hiptesis o
modelamiento de relaciones entre variables.

De la medicin a
la toma de decisin

1
2
3
4
5

Medicin

Dato
Informacin
Conocimiento
Toma de decisin

Disciplinas relacionadas
con el anlisis de datos
Estadstica
Muestreo

Probabilidades

Diseo de
experimentos

Procesos
estocsticos

Control de
procesos

Series de
tiempo

Teora de
la seal

Cronoestadstica
Minera
de datos

Geoestadstica

Contenidos
El curso se divide en cinco lecciones
Parte 1: Anlisis estadstico de datos

Leccin 1: fundamentos de estadstica


Leccin 2: calidad de datos

Leccin 3: estadstica comparativa y prueba de hiptesis


Leccin 4: anlisis de varianza

Parte 2: Ajuste y modelamiento de datos


Leccin 5: mnimos cuadrados

Definicin de la estadstica

La estadstica es un conjunto de
procedimientos, herramientas y
tcnicas usadas para recolectar,
presentar, analizar y modelar
datos.
Sus objetivos son ya sea explicar
o interpretar un fenmeno, o bien
ayudar en la toma de decisin en
una situacin de incertidumbre o
frente a informacin incompleta,
cuando no se puede conocer la
realidad en forma exhaustiva.

Definicin de la estadstica
El modelamiento estadstico permite organizar nuestras elecciones y decisiones,
pero no permite legitimar estas elecciones de manera absoluta.

Definicin de la estadstica
Se distingue la estadstica matemtica y la estadstica aplicada, la cual se
subdivide en descriptiva e inductiva.
La estadstica descriptiva se refiere a la recopilacin, presentacin y descripcin
de un grupo de datos, resumindolo con unos pocos elementos de informacin
que caracterizan la totalidad del grupo.
La estadstica inductiva o inferencial es el proceso para lograr generalizaciones
acerca del todo (llamado la poblacin) examinando una parte (llamada la
muestra). Permite darse una idea de cmo est la poblacin (estimacin de
caractersticas), responder preguntas o confirmar comportamientos (prueba de
hiptesis) as como generar modelos y predicciones (regresin, minera de datos y
anlisis multivariable).

Ejemplos de aplicacin
Control de estndares de calidad en la toma, preparacin y anlisis de muestras
en mina (por ejemplo, para clculo de recursos/reservas, control de leyes,
reconciliacin), en planta (para monitoreo y control de procesos, control
granulomtrico), en pilas de lixiviacin y relaves (gestin ambiental)

Ejemplos de aplicacin
Gestin de operaciones: determinar el promedio de vida y la dispersin de vida
de un equipo; modelar la distribucin del rendimiento de un equipo; analizar las
caractersticas del mineral procesado (densidad, granulometra,)

Ejemplos de aplicacin
Comparacin de las caractersticas de insumos de
distintos abastecedores (aceros para perforacin,
explosivos para tronadura, reactivos para plantas de
flotacin, etc.)

Ejemplos de aplicacin
Modelos de dependencias entre variables
productividad vs. variables operacionales
(nmero de camiones, disponibilidad de
equipos, tipo de material extrado, tipo de
equipos) en vista a mejorar la planificacin
y cumplir con los planes de produccin

caractersticas del macizo rocoso, consumo de


energa en molienda y tiempo de residencia
del mineral para lograr un tamao de
liberacin requerido, en vista a optimizar las
mezclas de minerales y la estrategia de
extraccin
caractersticas metalrgicas (solubilidad,
recuperacin metalrgica) vs. abundancias de
especies minerales

Ejemplos de aplicacin
Diseo de pruebas y experimentos e
interpretacin de resultados:
perforacin
tronadura
acondicionamiento del macizo rocoso
fenomenologa del flujo gravitacional
automatizacin de cargadores frontales

Tipo de datos estudiados


La estadstica permite estudiar datos numricos cuantitativos. Estos datos
pueden corresponder a distintos tipos de variables:
Variables continuas (ordinales): leyes de mineral, densidad de roca, dureza,
recuperacin metalrgica, etc.

Variables discretas (ordinales): variables de conteo (ej.: nmero de fallas


de un equipo); variables discretizadas (ej.: clases de leyes de mineral,
abundancias de minerales medidas en una escala cualitativa)
Variables categricas (nominales): tipos de roca, alteraciones,
mineralizaciones, etc.

Fundamentos de
estadstica matemtica

Conceptos bsicos
Individuo
Poblacin
Muestra, muestreo
Variables
cuantitativas (numricas)
cualitativas (codificadas)

Tabla de datos

Conceptos bsicos
Dos aspectos importantes a la hora de tomar una muestra:

1) La manera con la cual se obtiene la muestra a partir de la poblacin determinar


la calidad y la precisin de la informacin aportada por la muestra. Para que la
induccin sea vlida, la muestra debe ser representativa de la poblacin.
2) Todo razonamiento estadstico basado en la muestra, comporta una parte
inevitable de incertidumbre que se requiere cuantificar, especificando por
ejemplo la probabilidad de error.

Conceptos bsicos
Variabilidad y aleatoriedad
En la naturaleza y en todo proceso, existe variabilidad, la cual origina cierta
incertidumbre en los valores de los individuos de la poblacin que no forman
parte de la muestra.

El razonamiento estadstico se basa generalmente en el supuesto de que los


datos recolectados en la muestra han sido generados por algn proceso
estocstico o proceso aleatorio hipottico. Esto permite realizar inferencias
sobre el proceso en estudio y lograr predicciones sobre la poblacin
subyacente. En algunas circunstancias, es posible corroborar el supuesto de
aleatoriedad de los datos.

Conceptos bsicos
Ejemplo (series de tiempo)
Se realizan 9 mediciones de dos variables en distintas fechas
Fecha

Variable 1

Variable 2

La primera variable muestra un patrn o variacin sistemtica, la cual puede no


ser atribuible a un proceso aleatorio.

Conceptos bsicos
Una propiedad deseable para
una serie de tiempo es que
las distribuciones de
frecuencia no cambian con
el tiempo (estacionaridad).
As, se puede suponer que
las observaciones provienen
de una misma poblacin
estadstica.

Conceptos bsicos
Distribucin de frecuencia
La distribucin de frecuencia fracciona los datos en grupos o clases y muestra
ya sea el nmero de observaciones en cada clase, o bien el nmero de
observaciones en cada clase dividido por el nmero total de observaciones.

Un histograma es un grfico de barras de una distribucin de frecuencia: las


clases se miden en el eje de abscisa, mientras que el nmero de observaciones o
las frecuencias se miden en el eje de ordenada. Es una herramienta til para
representar grficamente la variabilidad de los datos y obtener una estimacin
grfica del centro y la forma de su distribucin de frecuencia.

Conceptos bsicos
Ejemplo: distribucin de las leyes de cobre total, medidas en 2376 muestras de
sondajes de exploracin

0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1.1
1.2
1.3
1.4
1.5

Nmero de
Clase
observaciones
0
1.6
0
1.7
15
1.8
75
1.9
132
2
178
2.1
152
2.2
187
2.3
192
2.4
185
2.5
177
2.6
174
2.7
144
2.8
132
2.9
119
3
95
y mayor...

Nmero de
observaciones
77
64
45
42
48
34
19
14
13
9
10
10
3
2
4
25

Histograma
250

Nmero de observaciones

Clase

200

150

100

50

Ley de cobre (%)

Conceptos bsicos
Distribucin de frecuencia acumulada
La distribucin de frecuencia acumulada muestra, para cada clase, el nmero
total de observaciones en todas las clases inferiores y en la clase en cuestin,
dividido eventualmente por el nmero total de observaciones.

La representacin grfica de dicha distribucin se hace mediante un


histograma acumulado.

Conceptos bsicos
Ejemplo: granulometra
El histograma acumulado muestra la fraccin acumulada bajo un tamao
determinado.
Clase de tamao Malla superior Malla inferior Proporcin en clase Proporcin acumulada
de partcula
(cm)
(cm)
L0
---5.000
0.0204
0.0204
L1
5.000
3.800
0.0597
0.0801
L2
3.800
3.200
0.0597
0.1398
L3
3.200
2.500
0.0759
0.2157
L4
2.500
1.900
0.1383
0.3540
L5
1.900
1.300
0.1622
0.5162
L6
1.300
1.000
0.0813
0.5975
L7
1.000
0.600
0.0962
0.6937
L8
0.600
0.055
0.2412
0.9349
L9
0.055
0.000
0.0651
1.0000

Conceptos bsicos
Distribucin granulomtrica

Proporcin acumulada

1.0000

0.8000

0.6000

0.4000

0.2000

0.0000
1

Clase de tamao

10

Conceptos bsicos
Variable aleatoria
Se trata de una variable X cuyo valor depende del azar.
Ejemplos
cara o sello (representado por 0 1)

lanzamiento de un dado
lotera
variable en cuyos valores se tiene incertidumbre

Distribucin de probabilidad
Una variable aleatoria X se caracteriza por una distribucin de probabilidad, la
cual se representa por medio de:
una funcin de distribucin:
x R, P(x) = Prob(X < x)
una densidad de probabilidad (variable continua):
x R, p(x) = dP(x)/dx
una masa de probabilidad (variable discreta, por ejemplo, entera):

n N, p(n) = Prob(X = n)

Distribucin de probabilidad
Vnculo entre probabilidad y frecuencia emprica
Al sortear numerosos valores independientes de X, la distribucin de frecuencia
de los valores sorteados (llamados realizaciones) debe tender a la distribucin
de probabilidad.
Ejemplos

cara o sello
dado (falso?)

Esperanza y varianza
Se suele considerar parmetros sintticos (llamados momentos) para describir
la distribucin de probabilidad:
esperanza o valor esperado: representa el valor promedio de la distribucin
E ( X ) x p( x) dx
R

n p ( n)

nN

varianza: mide la dispersin de la distribucin


2 var( X ) E{( X ) 2 } E ( X 2 ) 2

desviacin estndar: es la raz cuadrada de la varianza ()

Esperanza y varianza
Ejemplo: lanzamiento de un dado no falso

valor esperado
1
1
1
1
1
1
1 2 3 4 5 6 3.5
6
6
6
6
6
6

varianza
1
1
2 (1 3.5) 2 ... (6 3.5) 2 2.9167
6
6

Esperanza y varianza
Dado un conjunto de n realizaciones de X, se puede definir los siguientes
estimadores de la esperanza y la varianza:
media experimental
1 n
X Xi
n i1

varianza experimental
1 n
S
( X i X )2

n 1 i1
2

Esperanza y varianza
Ejercicio: lanzamiento de un dado. Se realiza 10 lanzamientos, obteniendo los
siguientes valores:

2 5 3 6 1 5 3 4 2 4

Calcular la media y la varianza experimental, y compararlas con la esperanza y


varianza del dado no falso.

Esperanza y varianza
Los estimadores de la esperanza y de la varianza tienen las siguientes propiedades
insesgo: el error de estimacin tiene un valor esperado nulo
E (X )

E (S 2 ) 2

precisin: la varianza del error de estimacin es inversamente proporcional al


tamao de la muestra
2
var( X )
n

1
n 3 4
var(S 2 ) E{( X ) 4 }

n
n 1

consistencia: el error de estimacin tiende a cero cuando el tamao de la


muestra aumenta
X n

S 2 n
2

Otros parmetros estadsticos


Otros parmetros usados para resumir una distribucin de probabilidad:
medidas de tendencia central

moda, cuantiles o percentiles (mediana, cuartiles, quintiles, deciles,


centiles), media geomtrica, media armnica
medidas de dispersin
coeficiente de variacin, rango, rango intercuartil, desviacin absoluta
media, coeficiente de Gini
medidas de forma
coeficiente de asimetra (skewness), coeficiente de aplanamiento
(curtosis)

Otros parmetros estadsticos


Ejemplo: coeficiente de Gini para medir las desigualdades de ingreso

Distribuciones de
probabilidad
Cuatro distribuciones fundamentales en anlisis de datos y diseo de
experimentos:
Distribucin normal o Gaussiana
Distribucin de Student
Distribucin del chi cuadrado
Distribucin de Fisher

Distribucin normal
Densidad de probabilidad normal o Gaussiana:
( x ) 2
1
xR, p( x)
exp
2
2
2

Carl Friedrich Gauss

Distribucin normal
La distribucin normal estndar corresponde al caso donde = 0 y = 1.
Se denota usualmente como N(0,1). Su funcin de distribucin es:
xR, P( x)

p(t ) dt

1 p( x)(0.4361836 t 0.1201676 t 2 0.9372980 t 3 )

con t

1
1 0.33267 x

La suma de n variables aleatorias normales independientes de esperanza y


varianza 2 es una variable aleatoria normal, de esperanza n y varianza n 2.

Distribucin normal
Teorema del lmite central

Si una variable aleatoria X tiene una esperanza finita y una varianza finita 2,
entonces
X
N (0,1) si n
/ n

Independientemente de la distribucin inicial de X, la distribucin de la media de


una muestra grande es Gaussiana. Usualmente, se considera que la convergencia
se alcanza si n > 50. En particular, se tendr:

Prob X 1.96 X 1.96 0.95


n
n

Distribucin normal
Aplicacin
Se tiene 9 muestras con ensayos de ley de cobre total (en %):
0.52

0.63

0.70

0.47

0.39

0.12

0.21

0.55

1.38

Determinar un intervalo de confianza para la ley de cobre promedio del sector


en el cual se tomaron estas muestras. Se considerar que la varianza de las leyes
en este sector es igual a 0.15.

Distribucin chi cuadrado


La suma de n variables normales estndares independientes {Xi, i = 1 n}
elevadas al cuadrado tiene una distribucin chi cuadrado con n grados de
libertad:
n

X i2
2
n

i 1

2
La esperanza de n es igual a n y su varianza a 2n.

Distribucin chi cuadrado


Sea un conjunto de variables aleatorias normales independientes {Xi, i = 1 n}
de misma esperanza y varianza 2. Denotemos como S2 su varianza
experimental. Entonces, se obtiene una variable del chi cuadrado con n 1
grados de libertad al plantear:

2
n 1

(n 1) S 2

Adems, X (media experimental) y S2 son independientes.

Distribucin de Student

Sea X una variable normal estndar (de media 0 y


2
varianza 1), y n1 una variable independiente del
chi cuadrado con n 1 grados de libertad. Se
define la variable de Student con n 1 grados de
libertad (denotada Tn 1) como

Tn1 X

n 1
2n1
William Sealy Gosset,
alias Student

Distribucin de Student
En particular, sea {Xi, i = 1 n} un conjunto de variables aleatorias normales
independientes de misma esperanza y varianza 2, X su media experimental y
S2 su varianza experimental. La variable
Tn1

X
n
S

tiene una distribucin de Student con n 1 grados de libertad.


Este resultado es independiente del valor de 2 y es de gran utilidad cuando
este valor es desconocido. Puede ser utilizado para definir un intervalo de
confianza en el valor esperado de una variable aleatoria, de la cual se tiene n
realizaciones independientes.

Distribucin de Student
Aplicacin

Se tiene 9 muestras con ensayos de ley de cobre total (en %):


0.52

0.63

0.70

0.47

0.39

0.12

0.21

0.55

1.38

Determinar un intervalo de confianza para la ley de cobre promedio del sector en


el cual se tomaron estas muestras.

Distribucin de Fisher
La razn de dos variables independientes
del chi cuadrado divididas por sus grados de
libertad respectivos, es una variable de
Fisher, cuya distribucin depende de dos
grados de libertad:

F (n1 , n2 )

2n1 / n1
2n2 / n2
Ronald Aylmer Fisher

Otras distribuciones
Distribucin uniforme
La densidad de probabilidad es constante en un intervalo [a,b].
Distribucin lognormal

Una variable aleatoria X tiene una distribucin lognormal cuando su


logaritmo sigue una distribucin normal
Distribucin gamma

La densidad de probabilidad depende de un parmetro de forma. Un caso


particular es la distribucin exponencial: p(x) = exp(x) para x > 0; se trata
de una distribucin del chi cuadrado con 2 grados de libertad.
Distribucin de Weibull
Una variable X sigue una distribucin de Weibull estndar de parmetro q
(positivo) si Xq tiene una distribucin exponencial.

Otras distribuciones

Otras distribuciones
Distribucin de Bernoulli
Esta distribucin slo tiene dos valores: 1 (con probabilidad p) y 0 (con
probabilidad 1 p).

Distribucin de Poisson
Distribucin binomial

Se obtiene al sumar M variables de Bernoulli independientes, de misma


probabilidad de xito p.
Distribucin binomial negativa
Distribucin hipergeomtrica

Otras distribuciones

Otras distribuciones
Ejemplos comunes de uso

llegadas, conteos: distribucin de Poisson


intervalos de tiempo sucesivos: distribucin exponencial
confiabilidad de un equipo: distribucin de Weibull

Distribuciones bivariables
Consiste en asociar a cada experimento dos variables aleatorias X e Y (no
necesariamente independientes).
Ejemplos

1) resistencia de un cable a la traccin (X) y dureza del cable (Y)


2) leyes de cobre total (X) y cobre soluble (Y) de una muestra de sondaje
3) razn de solubilidad (X) y recuperacin metalrgica (Y)

Distribuciones bivariables
Para describir cmo se distribuyen y cmo se relacionan las dos variables X e Y, se
generaliza la definicin de la funcin de distribucin al caso bivariable:
P( x, y) Prob( X x,Y y)

Se trata de la probabilidad que los dos eventos (X < x) e (Y < y) se realicen


simultneamente. Para variables discretas, se define la masa de probabilidad
p(i, j ) Prob( X i,Y j )

mientras que para variables continuas, se define la densidad de probabilidad


2 P ( x, y )
p ( x, y )
x y

Distribuciones bivariables
Ejemplo 1: distribucin bigaussiana o binormal
x
X

2
2 (1 ) X
1

p ( x, y )

1
2 X Y 1

donde es el coeficiente de
correlacin entre X e Y

Las distribuciones marginales de


X e Y son normales de medias X
y Y y de varianzas X2 y Y2.

y Y

Y

x X
2

y Y

Y

Distribuciones bivariables
Ejemplo 2: distribucin bigamma

1
x y x y
p ( x, y )
exp

() (1 )
1

donde
> 0 es el coeficiente de correlacin
entre X e Y
> 0 es un parmetro de forma
I-1 es la funcin de Bessel modificada
de primer tipo de orden 1

( 1) / 2

x y

I 1 2
1

Distribuciones bivariables
X e Y son independientes si su funcin de distribucin bivariable se factoriza

P( x, y) PX ( x) PY ( y)
En este caso, el conocer una variable no altera la distribucin de la otra variable.

Distribuciones bivariables
Experimentalmente, la distribucin bivariable entre X e Y se puede representar con
un diagrama de dispersin (tambin conocido como nube de dispersin o nube de
correlacin), el cual consiste en la nube de puntos {(xi,yi), i = 1 n}. En caso de
existir una relacin potencial de causa y efecto entre las variables, este diagrama
sirve para entender la naturaleza estadstica de la causalidad.

Distribuciones marginales
Las distribuciones a priori de las variables X e Y se definen por
sus funciones de distribucin
PX ( x) Prob( X x) P( x,)
PY ( y ) Prob(Y y ) P(, y )

sus densidades / masas de probabilidad


p X ( x)

pY ( y )

p ( x, y ) dy

p (i,) Prob( X i ) p(i,j )


jN

p ( x, y ) dx

p (, j ) Prob(Y j ) p (i,j )
iN

Distribuciones marginales

Distribuciones marginales

Distribuciones condicionales
Se define la distribucin de Y condicional a X = x
P( y | x) Prob(Y y | X x)
p( y | x)

P( y | x) p( x, y )

y
p( x)

Estas funciones describen la distribucin de la variable Y dada la realizacin de la


variable X. El conocimiento de una variable aleatoria X correlacionada con Y
suele modificar la distribucin de probabilidad a priori de Y.
La frmula de Bayes da
p ( y | x) p ( x) p ( x | y ) p ( y )

Distribuciones condicionales
Aplicaciones
distribucin granulomtrica de una partcula, dado que su tamao es menor
que 2.5cm
distribucin de la ley de cobre total de una muestra, dado que su mineraloga
es de tipo lixiviado
distribucin de la ley de cobre soluble de una muestra, dada su ley de cobre total

Distribuciones condicionales
Ejemplo 1: distribucin bigaussiana
La distribucin de Y condicional a X = x todava es Gaussiana

Distribuciones condicionales
Ejemplo 2: distribucin bigamma
Distribuciones de Y condicional a X = 0.5 y de X condicional a Y = 0.5

Covarianza y correlacin
La covarianza entre X e Y se define como:

cov( X ,Y ) E[( X X ) (Y Y )] E ( XY ) X Y
Se tiene:
cov( X , X ) var( X )
cov(aX ,bY ) ab cov( X ,Y )

var( X Y ) var( X ) 2 cov( X ,Y ) var(Y )

| cov( X ,Y ) | var( X ) var(Y )

Adems, si X e Y son independientes, cov(X,Y) = 0 y var(X + Y) = var(X) + var(Y).

Covarianza y correlacin
El coeficiente de correlacin lineal (o correlacin de Pearson) entre X e Y se
define como:

cov( X ,Y )
X Y

Se tiene:
1 1

X e Y son independie ntes 0


X e Y son proporcionales 1 1

es un ndice que mide la relacin lineal entre X e Y, pero no muestra las


relaciones que no son lineales

Covarianza y correlacin
Ilustracin

Covarianza y correlacin
Dado un conjunto de n realizaciones independientes del par (X,Y), se puede
estimar la covarianza y la correlacin por
la covarianza experimental
S XY

1 n

( X i X ) (Yi Y )

n 1 i 1

La esperanza de este estimador es igual a la covarianza de (X,Y)


la correlacin experimental

S XY
S X2 SY2

Covarianza y correlacin
El coeficiente de correlacin de rango, o de Spearman, se define al reemplazar
los valores de cada variable, por sus rangos:

valor mnimo rango = 1


...
valor mediano rango = n/2

...
valor mximo rango = n

Este estadstico es ms resistente a la presencia de valores muy altos o muy


bajos (outliers) que el coeficiente de correlacin lineal clsico.

Distribuciones multivariables
Para describir cmo se distribuyen conjuntamente varias variables X1, XM, se
define la funcin de distribucin multivariable:
P( x1 ,...xM ) Prob( X 1 x1 ,... X M xM )

Para variables discretas, se define la masa de probabilidad


p(i1 ,...iM ) Prob( X 1 i1 ,... X M iM )

mientras que para variables continuas, se define la densidad de probabilidad


M P( x1 ,...xM )
p( x1 ,...xM )
x1... xM

Distribuciones multivariables
Ejemplo: distribucin multigaussiana o multinormal
p( x )

1
( 2 ) M

exp ( x )t C1 ( x )
det(C)
2

donde x = (x1,... xM)t es un vector de posibles valores de X1,... XM


es el vector (1M) de las esperanzas de X1,... XM
C es la matriz de varianza-covarianza de X1,... XM
La distribucin multivariable slo depende de los primeros dos momentos:
vector de esperanzas y matriz de varianza-covarianza. Se dice que el vector
aleatorio X = (X1, XM)t es un vector Gaussiano.

You might also like