You are on page 1of 23

Estudio Exploratorio de Datos

(o EDA en ingls)
MIN 235 Geoestadstica y Anlisis espacial
Rodrigo Estay Huidobro
rodrigo.estayh@usm.cl
Marcelo Andrs Prez
marcelo.perezc@usm.cl
Estudio exploratorio de datos (EDA)
Presentacin de los datos
Estudiar (mediante herramientas estadsticas simples) la cantidad, calidad y
ubicacin de los datos disponibles para analizar una variable regionalizada

Definir la(s) zona(s) de estudio

Anticipar dificultades o problemas que puedan surgir en la fase de estimacin


local o de simulacin.
Estudio exploratorio de datos (EDA)
Tabla de frecuencia e histograma
Dan una representacin de la distribucin experimental de los datos:
tabla de frecuencia histograma
frecuencia acumulada histograma acumulado o funcin de distribucin
curvas de tonelaje ley, ley promedio ley...

Utilidad
ver la distribucin de valores (rango, forma, asimetra)
detectar valores atpicos (outliers)
detectar bi o multi-modalidades (mezcla de varias poblaciones?)

Recordar que los histogramas y las curvas de tonelaje ley dependen


del soporte (es, decir, el volumen) de la medicin.
Estudio exploratorio de datos (EDA)
Estadsticas bsicas
medidas de posicin
media
cuantiles / percentiles: mediana, cuartiles, quintiles, deciles
mnimo, mximo
moda

medidas de dispersin
varianza, desviacin estndar
coeficiente de variacin
rango
rango intercuartil

medidas de forma
coeficiente de asimetra (skewness), coeficiente de aplanamiento (kurtosis)
Estudio exploratorio de datos (EDA)
Valores atpicos

Suelen plantear problemas en el estudio estadstico / geoestadstico


introducen variabilidad y complican el estudio variogrfico

conducen a zonas amplias con valores estimados muy altos

Nunca se debe eliminar un valor atpico sin razn (falla en el protocolo de


medicin, en la transcripcin del dato, valor ausente codificado como -99, etc.).

A menudo, los valores atpicos son aquellos de mayor inters (evaluacin de


recurso, concentracin de contaminantes)
Estudio exploratorio de datos (EDA)
Desagrupamiento
Consiste en ponderar los datos al momento de calcular su histograma,
tomando en cuenta el grado de aislamiento de cada dato.

Mtodo de los polgonos de influencia

Se pondera cada dato proporcionalmente a su volumen de influencia


en el campo.
Estudio exploratorio de datos (EDA)
Desagrupamiento
Mtodo de las celdas

Se divide la zona muestreada en celdas de mismo volumen. Cada celda tiene


el mismo ponderador, el cual se reparte entre las muestras contenidas en
esta celda.
Los algoritmos de desagrupamiento presentados son tiles cuando
la malla de muestreo no es regular (en especial, cuando se tiene
un muestreo preferencial)

Pro: consideran criterios geomtricos al ponderar los datos en


funcin de su grado de aislamiento: mientras ms aislado, mayor
ponderacin

Contra: no toman en cuenta la continuidad espacial de los valores,


aunque idealmente este factor tambin debera ser tomado en
consideracin.
Estudio exploratorio de datos (EDA)
Scatterplot
Visualiza los valores de una variable en funcin de otra
ver la relacin par a par de ambas variables o correlacin
detectar valores aberrantes
Estudio exploratorio de datos (EDA)
Coeficiente de correlacin
El coeficiente de correlacin lineal es un ndice entre 1 y 1 de la similitud
entre dos variables. Es sensible a la presencia de valores aberrantes y no
detecta relaciones no lineales.
Cuando existen ms de dos variables, se puede construir una matriz de
correlacin

--------------------------------------------------------------------
| VARIABLE | Cd | Co | Cr | Cu | Ni | Pb | Zn |
--------------------------------------------------------------------
| Cd | 1.00| 0.26| 0.58| 0.15| 0.49| 0.22| 0.62|
| Co | 0.26| 1.00| 0.48| 0.19| 0.74| 0.16| 0.44|
| Cr | 0.58| 0.48| 1.00| 0.21| 0.71| 0.26| 0.61|
| Cu | 0.15| 0.19| 0.21| 1.00| 0.22| 0.82| 0.66|
| Ni | 0.49| 0.74| 0.71| 0.22| 1.00| 0.27| 0.59|
| Pb | 0.22| 0.16| 0.26| 0.82| 0.27| 1.00| 0.67|
| Zn | 0.62| 0.44| 0.61| 0.66| 0.59| 0.67| 1.00|
--------------------------------------------------------------------
Estudio exploratorio de datos (EDA)
Coeficiente de correlacin

Muy sensible a valores aberrantes


El coeficiente de correlacin cambia incluso de signo

Correlacin con valor aberrante Correlacin sin valor aberrante

Y Y

= 0,73
= -0,68

X X
Estudio exploratorio de datos (EDA)
Q-q plot

Grfico Q-Q: para comparar dos


distribuciones F1 y F2 cuantil a
cuantil.

No se utiliza para comparar la


relacin par a par que hay entre
las variables.

Escoger una serie de valores de


probabilidad
pk, k = 1, 2, , K

Graficar q1(pk) versus q2(pk), k = 1,


2, , K
Estudio exploratorio de datos (EDA)
Q-q plot

Si todos los puntos caen en una lnea de 45o, las dos


distribuciones son exactamente iguales
Si la lnea est desplazada de los 45o, las dos distribuciones
tienen la misma forma pero diferentes medias
Si la inclinacin de la lnea no es 45o, las dos distribuciones
tienen diferentes varianzas
Si hay un carcter no lineal en el grafico Q-Q, las
distribuciones tienen diferentes formas en el histograma
Estudio exploratorio de datos (EDA)
Q-q plot

Q-q plot de una distribucin normal y lognormal con la


distribucin de las muestras
Estudio exploratorio de datos (EDA)
Q-q plot

Son tiles para chequear la presencia de dos poblaciones que debe


confirmarse con informacin geolgica
Estudio exploratorio de datos (EDA)
Q-q plot

Son tiles para chequear la presencia de dos poblaciones que debe


confirmarse con informacin geolgica
Algunos otros conceptos
Aditividad
Se dice que una variable regionalizada es aditiva cuando el valor de un
soporte grande (bloque) es el promedio aritmtico o la suma de los
valores puntuales dentro del bloque. Esta propiedad permite que se
realice un cambio de soporte.

Ejemplos
potencia, acumulacin
leyes todas?

Contra-ejemplos
razn de solubilidad, recuperacin metalrgica
pH
permeabilidad de la roca
cdigo de tipo de roca (variables categricas)
Efecto de soporte

Media: 201 Media: 201

Var: 27.334 Var: 16.604


Efecto de soporte en histograma
El soporte tiene impacto en la cantidad de recursos recuperables
sobre una determinada ley de corte, luego en la selectividad de la
explotacin
Efecto de soporte en histograma
El soporte tiene impacto en la cantidad de das de alerta ambiental
(> 195 mg/m3), pre-emergencia (> 240 mg/m3) y emergencia (> 330
mg/m3)
Efecto de soporte en mapa
Banco de una faena a rajo abierto conocido completamente, con
altura de banco 12m. La variable considerada es la ley de cobre.

soporte 1m 1m soporte 5m 5m soporte 25m 25m


Efecto de soporte en variograma

Cambio en el variograma: El paso de un soporte pequeo a un


soporte mayor es una operacin reguladora ( suavizamiento de
los mapas, mayor continuidad espacial).
Compsitos
Para su estudio geoestadstico, un mismo conjunto de datos no debera
contener muestras de soporte distinto. En caso de datos a lo largo de
sondajes, se puede llevar las muestras a compsitos de la misma longitud
que se pueden agrupar en el estudio geoestadstico. Mientras ms largo el
compsito, menos dispersos son los valores (efecto de soporte).

compsitos de igual
muestras originales soporte
con su ley de cobre

You might also like