Geoestadistica Book

i i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 1 — #1

i i
Conceptos Básicos
de Geoestadı́stica
Eloy Colell Juan Uribe Pablo Chale
i i
i i
i i

i i
i i
i i
i i

i i
Conceptos Básicos de Geoestadı́stica

Editado por
Lucas Capalbo Lavezzo.
i i
i i
i i

i i
i i
i i
i i

i i
Copyright 2009
c de los editores y contribuyentes
Algunos derechos reservados.
Este trabajo es distribuido bajo la licencia Creative Commons

Attribution–Noncommercial–NoDerivs 3.0 License.
http://creativecommons.org/licenses/by-nc-nd/3.0
Impreso el dı́a 15 de agosto de 2010.
i i
i i
i i

i i
i i
i i
i i

i i
Índice general
I Estadı́stica 11
1. Estadı́stica Descriptiva 15
1.1. Propiedades de los Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.1. Posición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.1.2. Centralización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.1.3. Dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.1.4. Forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.2. Estadı́stica Bivariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.2.1. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.2.2. Coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2. Estadı́stica Inferencial 23
2.1. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3. Variable Aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4. Distribución de probabilidad / Función de densidad . . . . . . . . . . . . . . . . . . . . . . 24
2.5. Función de distribución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6. Esperanza Matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
i i
i i
i i

i i
4 ÍNDICE GENERAL
2.7. Varianza y Desviación Tı́pica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.8. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.9. Distribuciones de Probabilidad conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.9.1. Distribución Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.9.2. Distribución de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.9.3. Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.9.4. Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.9.5. Distribución Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.9.6. Distribución Geométrica o de Pascal . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.9.7. Distribución Binomial negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.10. Funciones de Densidad conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.10.1. Distribución Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.10.2. Distribución Normal o de Laplace-Gauss . . . . . . . . . . . . . . . . . . . . . . . 35
2.10.3. Distribución Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.10.4. Distribución Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.10.5. Distribución χ2 de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.10.6. Distribución Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.10.7. Distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.10.8. Distribución F de Fisher-Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.11. Teorı́a de Muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.11.1. Inferencia Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.11.2. Contraste de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
II Series Temporales 43
3. Enfoque clásico 47
i i
i i
i i

i i
ÍNDICE GENERAL 5
3.1. Tendencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.1.1. Análisis gráfico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.1.2. Medias móviles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.1.3. Método analı́tico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.4. Alisado exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2. Variación Estacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3. Variación Cı́clica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.4. Variación Residual (o Indeterminada) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4. Enfoque Causal 61
4.1. Tasas de variación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
III Geoestadı́stica 65
5. Variables regionalizadas 69
6. Hipótesis estadı́stica 71
6.1. Estacionalidad de Segundo Orden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.2. Hipótesis Intrı́nseca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.3. Comparación de las dos hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.4. Selección de la variable regionalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7. Variograma 75
7.1. Variograma Experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
7.2. Variograma Teórico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
7.2.1. Modelos con un tope . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
7.2.2. Modelos sin un tope . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
i i
i i
i i

i i
6 ÍNDICE GENERAL
7.3. Ajuste a un modelo teórico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
7.3.1. A ojo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
7.3.2. Mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
7.3.3. Probabilidad máxima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
7.4. Isotropı́a y anisotropı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
7.4.1. Anisotropı́a geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
7.4.2. Anisotropı́a zonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
8. Kriging 87
8.1. Kriging Ordinario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.1.1. Kriging Ordinario Puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.1.2. Kriging Ordinario por Bloques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
8.1.3. El variograma y el kriging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.1.4. El Kriging en la práctica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.1.5. Kriging con un variograma “falso” . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.1.6. Validación cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.1.7. Kriging con datos inciertos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.1.8. Kriging Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
8.2. Métodos no estacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
8.2.1. Kriging Universal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
8.2.2. Kriging con Deriva Externa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
8.3. Actualización Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
8.4. Kriging sobre Series Temporales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
8.4.1. Intrı́nsecas en el espacio-tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
8.4.2. Intrı́nsecas en el espacio e independientes del tiempo . . . . . . . . . . . . . . . . . 102
8.4.3. Intrı́nsecas en el espacio y dependientes del tiempo . . . . . . . . . . . . . . . . . . 103
i i
i i
i i

i i
ÍNDICE GENERAL 7
8.4.4. Series temporales interpretadas como diferentes realizaciones . . . . . . . . . . . . 103
Referencias Bibliográficas 104
i i
i i
i i

i i
8 ÍNDICE GENERAL
i i
i i
i i

i i
Índice de figuras
1.1. Coeficiente de Asimetrı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2. Coeficiente de Kurtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.3. Coeficiente de Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1. Distribución de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2. Función de Distribución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.1. Serie Temporal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2. Tendencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3. Medias Móviles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4. Método Analı́tico Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5. Método Analı́tico Polinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.6. Método Analı́tico Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.7. Alisado Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.8. IGVE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.9. Desestacionalización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.10. Ciclicidad por Medias Móviles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.1. Serie temporal de diferenciales anuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.2. Serie temporal de diferenciales mensuales . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
i i
i i
i i

i i
10 ÍNDICE DE FIGURAS
4.3. Ejemplo de mapa 2D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.1. La Hipótesis Intrı́nseca y la Estacionalidad de Segundo Orden . . . . . . . . . . . . . . . . 73
6.2. El variograma y la covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.1. Nube de puntos de un variograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
7.2. Variograma Experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
7.3. Variograma teórico con efecto pepita puro. . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
7.4. Variograma teórico del modelo esférico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
7.5. Variograma teórico del modelo exponencial. . . . . . . . . . . . . . . . . . . . . . . . . . . 81
7.6. Variograma teórico del modelo Gaussiano. . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.7. Variograma teórico del modelo potencial. . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
i i
i i
i i

i i
Parte I
Estadı́stica
11
i i
i i
i i

i i
i i
i i
i i

i i
13
Es la rama de la matemática que se ocupa del estudio, análisis y clasificación de datos aleatorios.
Se pueden clasificar dos tipos de estadı́sticas: la descriptiva[Ber, Men, Cap, Fer04a] y la inferencial.
i i
i i
i i

i i
14
i i
i i
i i

i i
Capı́tulo 1
Estadı́stica Descriptiva
Se encarga de la organización, presentación y sı́ntesis de datos. Para esto es necesario clasificar

cada uno de los datos xi (valores de la variable X medida) en clases o intervalos de clases C j , donde j
representa la j − esima clase o intervalo de clase. Esa disposición de datos clasificados en forma tabular
permite construir la distribución de frecuencias ( f ), la cual puede ser mostrada de forma:
Absoluta Cantidad de elementos xi pertenecientes a una clase o intervalo de clase C j . Se llama frecuencia
absoluta, o simplemente frecuencia y se representa mediante la función f j .
Relativa Porción de los elementos totales que pertenecen a una clase o intervalo de clase. Se calcula a partir
f
de la formula fR j = nj , siendo n la cantidad de elementos de la muestra y cumplirá con la ecuación
∑ fR j = 1.
Acumulada Número de veces que ha aparecido en la muestra un elemento (xi ) de una clase o intervalo
de clase menor o igual. Implica cierto orden entre las clases, y se representa mediante la función
j j
fA j = ∑ ft para las absolutas y fAR j = ∑ fRt para las relativas.
t=1 t=1
1.1. Propiedades de los Datos
En el análisis o interpretación de datos numéricos, se pueden utilizar medidas descriptivas que

representan las propiedades de posición, centralización, dispersión y forma, para resumir las carac-
terı́sticas sobresalientes del conjunto de datos. Si estas medidas se calculan con una muestra de datos
se denominan estadı́sticos, mientras que si se calculan con la población de datos, se denominan paráme-
tros.
15
i i
i i
i i

i i
16 CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA
1.1.1. Posición
Las propiedades de posición están representadas por los Percentiles, Quartiles y Deciles, detallados
a continuación.
Percentiles
Son 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Ejemplo, el
percentil de orden 15 (P15 (X)) deja por debajo al 15 % de las observaciones, y por encima queda el
85 %.
Quartiles
Son los tres valores que dividen al conjunto de datos ordenados en cuatro partes iguales, son un
caso particular de los percentiles:
El primer cuartil Q1 (X), es el menor valor xi que es mayor que una cuarta parte de los datos.
El segundo cuartil Q2 (X), es el menor valor xi que es mayor que la mitad de los datos.
El tercer cuartil Q3 (X), es el menor valor xi que es mayor que tres cuartas partes de los datos.
Deciles
Son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales, son tam-
bién un caso particular de los percentiles. Ejemplo, D1 (X) = P10 (X).
1.1.2. Centralización
Las propiedades de centralización están representadas por la Media Aritmética, Mediana y Moda,
detalladas a continuación.
Mediana
Aparece en el medio de una sucesión ordenada de valores.

Si el tamaño de la muestra (n) es un número impar, se representa por el valor numérico de la observa-
ción ordenada (coincidiendo en este caso con el percentil 50):
X̃ = x( n+1 ) (1.1)
2
i i
i i
i i

i i
1.1. PROPIEDADES DE LOS DATOS 17
Por otro lado, si el número de la muestra es par, se representa con la media de los dos valores
intermedios en el arreglo ordenado:
x( n ) + x( 2n +1)
X̃ = 2 (1.2)
2
Media Aritmética
Se encuentra al sumar todos los valores en la muestra y luego, al dividir el total por n (el número
de observaciones en la muestra).
1 n
X̄ = ∑ xi (1.3)
n i=1
Además se podrı́a calcular mediante las frecuencias absolutas, donde k representa a la cantidad de
clasificaciones de los datos realizadas.
1 k
X̄ = ∑ C˜ j f j (1.4)
n j=1
Siendo C˜ j la mediana entre los valores posibles dentro de una clase o intervalo de clase.
Si hay valores extremos, la Media Aritmética no es una buena medida de tendencia central. En estos
casos se preferirá la Mediana.
Moda
Es el valor más tı́pico o más observado. Es la clase con mayor frecuencia. Cuando se trabaja con
tablas de frecuencias para variables continuas existirá un intervalo modal.
X̂ = Ci ; (∀ j, fi ≥ f j ) (1.5)
1.1.3. Dispersión
Las propiedades de dispersión están representadas por el Rango, Varianza, Desvı́o Estándar y
Coeficiente de variación, detallados a continuación.
Rango
Definido como recorrido o amplitud, es la diferencia entre el mayor y el menor valor de los xi .
Rango(X) = Max(X) − Min(X) (1.6)
i i
i i
i i

i i
Varianza
Es el promedio de los cuadrados de las diferencias entre cada elemento de la muestra y la media
obtenida.
n
∑ (xi − X̄)2
i=1
S2 (X) = (1.7)
n−1
Si se utiliza n en el divisor se calcula un parámetro, mientras que con n − 1 se obtiene el estadı́stico

(ya que se tiene en cuenta la propiedad de los grados de libertad).
Desviación Estándar
La varianza está compuesta de las mismas unidades que la variable pero al cuadrado, para evitar
este problema podemos usar como medida de dispersión la desviación tı́pica que se define como la raı́z
cuadrada positiva de la varianza.
v
u n
u ∑ (xi − X̄)2
u
q
S(X) = S2 (X) = i=1
t
(1.8)
n−1
Coeficiente de variación
Es una medida relativa propuesta por Pearson que se utiliza para comparar la dispersión de dos o
más series de datos que están expresados en unidades diferentes. A menor diferencia entre los CV más
homogéneas son las variables.
S(X)
CV (X) = (1.9)
|X̄|
1.1.4. Forma
Las propiedades de forma están representadas por el Coeficiente de Asimetrı́a y Kurtosis, detalla-
das a continuación.
Coeficiente de asimetrı́a
Cuantifican el grado de asimetrı́a de la distribución en torno a una medida de centralización.

Una distribución es asimétrica a la derecha si las frecuencias (absolutas o relativas) descienden más
lentamente por la derecha que por la izquierda (valor positivo). Si las frecuencias descienden más
i i
i i
i i

i i
1.1. PROPIEDADES DE LOS DATOS 19
lentamente por la izquierda que por la derecha diremos que la distribución es asimétrica a la izquierda
(valor negativo). Es normal cuando la distribución es simétrica (valor nulo). Ver el ejemplo de la Figura
1.1.
Existen varias medidas de la asimetrı́a de una distribución de frecuencias.
Según Pearson:
X̄ − X̂
CAP (X) = (1.10)
S(X)
Según Fisher:
n
∑ [(xi − X̄)3 fRi ]
i=1
CAF (X) = (1.11)
S(X)3
Según Bowley:
Q3 (X) + Q1(X) − 2X̃ Q1 (X) − X̃
CAB (X) = = 1+2 (1.12)
Q3 (X) − Q1(X) Q3(X) − Q1(X)
1.6
Asimetrica a la derecha
Normal
Asimetrica a la izquierda
1.4
1.2
0.8
0.6
0.4
0.2
0
0 0.2 0.4 0.6 0.8 1
Figura 1.1: Disposición gráfica de acuerdo al Coeficiente de Asimetrı́a
Coeficiente de Kurtosis
Describe el grado de esbeltez de una distribución con respecto a la distribución normal. Se calcula
por:
n
∑ [(xi − X̄)4 fRi ]
i=1
CK(X) = (1.13)
S(X)4
i i
i i
i i

i i
Platicurtica
2.5 Mesocurtica (Normal)
Leptocurtica
1.5
0.5
0
0 0.2 0.4 0.6 0.8 1
Figura 1.2: Disposición gráfica de acuerdo al Coeficiente de Kurtosis.
La distribución normal tiene kurtosis igual a tres, es llamada mesocúrtica. A las distribuciones más
agudas, con colas relativamente anchas, se las llama leptocúrtica, tienen valores de kurtosis mayores
que tres, y las distribuciones achatadas en el centro se llaman platicúrticas, tienen valores menores que
tres. En ocasiones se acostumbra a definir la kurtosis como CK(X) − 3. Ver el ejemplo de la Figura 1.2.
1.2. Estadı́stica Bivariable
Al analizar modelos complejos que dependen de dos o más variables, se comienzan a buscar meto-
dologı́as que comiencen a analizar relaciones entre las diferentes distribuciones de frecuencias (repre-
sentadas por variables), en un intento por resumir los resultados.
Las más importantes son: la Covarianza y el Coeficiente de correlación.
1.2.1. Covarianza
Determina si existe una relación lineal entre dos variables. Se calcula promediando las puntuacio-
nes diferenciales por su tamaño muestral. El resultado fluctúa entre +∞ y −∞, por lo que la magnitud
del resultado carece de significado, y lo único importante es el signo que adopte.
1 n
Cov(X,Y ) = ∑ (xi − X̄)(yi − Ȳ )
n i=1
(1.14)
Si Cov(X,Y ) > 0 pendiente de la recta de regresión positiva. Indica que hay dependencia directa, es decir las
variaciones de las variables tienen el mismo sentido.
i i
i i
i i

i i
1.2. ESTADÍSTICA BIVARIABLE 21
Si Cov(X,Y ) < 0 pendiente de la recta de regresión negativa. Indica que hay dependencia inversa o negativa,
es decir las variaciones de las variables tienen sentido opuesto.
Si Cov(X,Y ) ≈ 0 no es posible determinar la pendiente de la recta de regresión, por lo que no existe relación
lineal entre las 2 variables. Podrı́a existir otro tipo de relación.
1.2.2. Coeficiente de correlación
Evalúa la relación lineal entre dos variables. Permite saber si el ajuste de la nube de puntos a la
recta de regresión obtenida es satisfactorio. Ver el ejemplo de la Figura 1.3.
Según Pearson:
Cov(X,Y )
CCP (X,Y ) = (1.15)
S(X)S(Y )
El coeficiente de correlación, CCP (X,Y ), presenta valores entre –1 y +1.
Cuando r ≈ 0 no hay correlación lineal entre las variables. La nube de puntos está muy dispersa y no se
puede trazar una recta de regresión.
Cuando r ≈ +1 hay una buena correlación positiva entre las variables según un modelo lineal y la recta de
regresión que se determine tendrá pendiente positiva.
Cuando r ≈ −1 hay una buena correlación negativa entre las variables según un modelo lineal y la recta de
regresión que se determine tendrá pendiente negativa.
CCP(X,Y)≈ +1 CCP(X,Y)≈ 0 CCP(X,Y)≈ -1
20
140 20
18
120 16 0
14
-20
100
12
-40
80
10
-60
60 8
6 -80
40
4
-100
20
2
-120
0 20 40 60 80 100 120 0 20 40 60 80 100 120 0 20 40 60 80 100 120
Figura 1.3: Disposición gráfica de acuerdo al Coeficiente de Correlación.
i i
i i
i i

i i
i i
i i
i i

i i
Capı́tulo 2
Estadı́stica Inferencial
Trata de generalizar la información obtenida en una muestra a una población. La bondad de

estas deducciones se mide en términos probabilı́sticos, es decir, toda inferencia se acompaña de su
probabilidad de acierto. Por esto se utilizan las probabilidades en las estimaciones, ya que permitirán
el avance sobre el Contraste de hipótesis y la Inferencia Bayesiana[Pé03].
2.1. Probabilidad
Mide la frecuencia con la que ocurre un suceso en un experimento bajo condiciones suficientemente
estables[Wik]. La notación utilizada es:
nA
P(A) = lı́m (2.1)
nc →∞ nc
Donde A es el suceso estudiado, nA el número de veces que el evento A ha ocurrido y nc el número

de veces que el experimento fue realizado. La tendencia de nc a infinito determina la estabilidad de las
condiciones del experimento.
Los resultados de la función se encuentran dentro del intervalo [0, 1] de tal forma que:
Al suceso imposible le corresponde el valor 0.
Al suceso seguro le corresponde el valor 1.
El resto de sucesos tendrán una probabilidad comprendida entre 0 y 1.
23
i i
i i
i i

i i
24 CAPÍTULO 2. ESTADÍSTICA INFERENCIAL
2.2. Probabilidad Condicional
Esta determinada por la posibilidad de que ocurra un suceso dado, como consecuencia de otro.
Esta se representa mediante:
P(A ∩ B)
P(A|B) = (2.2)
P(B)
A Suceso condicionado por B.

B Suceso independiente.
Si se cambia la forma de representar la ecuación

P(A|B)P(B) = P(A ∩ B) = P(B|A)P(A) (2.3)
P(B|A)P(A)
P(A|B) = (2.4)
P(B)
2.3. Variable Aleatoria
Se encuentra definida por una función real que asocia un resultado numérico a cada experimento
aleatorio. Por ejemplo, si el experimento aleatorio consiste en lanzar 4 veces un dado, y el objetivo es
determinar el número de veces que sale el 6 y se define una función X que asigna un valor numérico
(cantidad de 6 obtenidos) a cada resultado del experimento. De esta manera tenemos por ejemplo que
X(1632) = 1 o que X(1234) = 0, ya que en el primer experimento sale un 6 en el segundo lanzamiento,
mientras que en el último experimento no sale ninguna vez.
Las variables aleatorias y sus distribuciones de probabilidad pueden considerarse una generalización
del concepto de frecuencia. Se introducen como el modelo matemático ideal al que se aproximan las
distribuciones de frecuencias que se obtendrı́an en una repetición indefinida de pruebas de este expe-
rimento.
Usualmente se clasifican de acuerdo al número de valores que pueden asumir: las variables aleato-
rias discretas (solo pueden adoptar un número finito o contable de valores) y las variables aleatorias
continuas (surgen cuando tratamos con cantidades de una escala continua).
2.4. Distribución de probabilidad / Función de densidad
Dependiendo si la variable aleatoria es discreta (v.a.d) o continua (v.a.c.), se mencionará Distribución

de Probabilidad o Función de Densidad respectivamente.
i i
i i
i i

i i
2.5. FUNCIÓN DE DISTRIBUCIÓN 25
Sea X una v.a.d. que toma los valores x1 , x2 , x3 , .... Se define P(X = xi ) como la probabilidad siguiente:
P(X = xi ) = P(xi ) = P{ω ∈ E/X(ω) = xi } (2.5)
A la tabla formada por los valores que toma la variable junto con sus probabilidades recibe el nombre
de distribución de probabilidad de la variable:
X x1 x2 ... xn ...
P(X = x) P(X = x1 ) P(X = x2 ) . . . P(X = xn ) . . .
1.6
f(x)
P(ei)
1.4
1.2
0.8
0.6
0.4
0.2
-0.4 -0.2 0 0.2 0.4
Figura 2.1: Ejemplo de una Distribución de Probabilidad.
Ver el ejemplo de la Figura 2.1.
Por otra parte, dada una v.a.c. X, se dice que una función real f (x) no negativa es la función de densidad
de probabilidad (o simplemente función de densidad) de la variable aleatoria X si el área encerrada
entre la curva y el eje 0X es igual a la unidad y, además, la probabilidad de que X se encuentre entre
dos valores x1 y x2 con x1 < x2 es igual al área comprendida entre estos dos valores, es decir,
Z ∞
f (x)dx = 1 (2.6)
−∞
Z x2
P(x1 < X < x2 ) = f (x)dx (2.7)
x1
2.5. Función de distribución
Sea X una v.a., asociada a ella se define la función de distribucin F : R → [0, 1] de la siguiente manera:
F(x) = P{ω ∈ E/X(ω) ≤ x} = P(X ≤ x)∀x ∈ R (2.8)
i i
i i
i i

i i
Las propiedades de la función de distribución son:
1. 0 ≤ F(x) ≤ 1∀x ∈ R por representar F(x) la probabilidad de un suceso.
/ = 0.
2. F(−∞) = lı́mx→−∞ F(x) = 0; pues F(−∞) = P[X ≤ −∞] = P[0]
3. F(∞) = lı́mx→∞ F(x) = 1; pues F(∞) = P[X ≤ ∞] = P[E] = 1.
4. F es monótona creciente (no estrictamente), es decir, si x1 < x2 ⇒ F(x1 ) ≤ F(x2 ).
5. F es continua por la derecha, es decir, lı́mh→0+ F(x + h) = F(x).
La función de distribución puede ser especialmente útil para calcular probabilidades ya que:
P(X ≤ x) = F(x) (por definición).
P(X > x) = 1 − P(X ≤ x) = 1 − F(x).
P(x1 < X ≤ x2 ) = P(X ≤ x2 ) − P(X ≤ x1 ) = F(x2 ) − F(x1 ).
(a) Distribucion de probabilidad
1.6
f(x)
1.4 FX(a)-FX(b)
1.2 FX(a)
P(a)
1
0.8
0.6
0.4
0.2
0
0 0.2 0.4 0.6 0.8 1
(b) Funcion de distribucion
0.9 FX
0.8 b
a
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.2 0.4 0.6 0.8 1
Figura 2.2: Ejemplo de una Función de Distribución.
En el caso particular que dado X una v.a.d., representa a la función acumulativa
F(X) = P(X ≤ x) = ∑ P(X = xi ) (2.9)

xi ≤x
i i
i i
i i

i i
2.6. ESPERANZA MATEMÁTICA 27
Mientras que si X es una v.a.c. se encuentra representado por

Z x
F(X) = P(X ≤ x) = f (t)dt (2.10)
−∞
siendo f (t) = P(X = t); ∀t ∈ [−∞, ∞].
dF(x)
Luego se puede expresar f (x) = , que es la relación entre la función de distribución y la de
dx
densidad.
Además, si X toma valores en el intervalo (a, b), entonces las integrales infinitas anteriores se reducen
a integrales finitas, como se muestra a continuación.
Z b
f (x)dx = 1 (2.11)
a
 0 si x ≤ a



Z x
F(x) = f (t)dt si a < x < b (2.12)


 a

0 si x ≥ b
2.6. Esperanza Matemática
Sea X una v.a.d., la media o esperanza matemática se encuentra determinada por la expresión:
n
µX = E[X] = ∑ xi .P(X = xi ) (2.13)
i=1
A diferencia de la media definida en la estadı́stica descriptiva, los datos están probabilizados, por lo
que no son exactos.
Por otra parte si X es una v.a.c. quedarı́a determinada por la siguiente expresión:
Z ∞
µX = E[X] = x. f (x)dx (2.14)
−∞
El comportamiento de la esperanza matemática respecto de las transformaciones lineales es el siguiente:
Y = aX + b ⇒ E[Y ] = aE[X] + b (2.15)
i i
i i
i i

i i
2.7. Varianza y Desviación Tı́pica
Dada una v.a.d. X, la varianza viene dada por:

n
σ2X = V [X] = E[(X − µX )2 ] = ∑ (xi − µX )2 .P(X = xi ) (2.16)
i=1
y si se desarrolla el cuadrado y se aplican las propiedades de la esperanza, se obtiene:

n
σ2X = ∑ (x2i − 2xiµX + µ2X ).P(X = xi ) (2.17)
i=1
n n n
σ2X = ∑ x2i .P(X = xi ) − 2µX ∑ xi .P(X = xi ) + µ2X ∑ P(X = xi ) (2.18)
i=1 i=1 i=1
n
σ2X = ∑ x2i .P(X = xi ) − 2µX .µX + 1.µ2X (2.19)
i=1
n
σ2X = ∑ x2i .P(X = xi ) − 2µ2X + µ2X (2.20)
i=1
n
σ2X = ∑ x2i .P(X = xi ) − µ2X (2.21)
i=1
V [X] = E[X 2 ] − (E[X])2 (2.22)
Por otra parte, para una v.a.c. X la varianza se define como:

Z ∞
σ2X = V [X] = E[(X − µX )2 ] = (xi − µX )2 . f (x)dx (2.23)
−∞
Pudiendo simplificarse al igual que la v.a.d. mediante la siguiente formula:
V [X] = E[X 2 ] − (E[X])2 (2.24)
Por último, ya sea una v.a.d o una v.a.c, la desviación tı́pica se define como:
q
σX = + σ2X (2.25)
i i
i i
i i

i i
2.8. MOMENTOS 29
2.8. Momentos
Dada una v.a.d. X, se llama momento de orden k respecto del parámetro c a la esperanza matemática de
la variable (X − c)k , es decir:
n
Mk (c) = ∑ (xi − c)k .P(X = xi ) (2.26)
i=1
Si c = 0 se obtienen los momentos respecto al origen que se representan por mk .

n
mk = E[X k ] = ∑ xki .P(X = xi ) (2.27)
i=1
Si c = µX se obtienen los momentos centrales que se representan por µk .

n
µk = E[(X − µX )k ] = ∑ (xi − µX )k .P(X = xi ) (2.28)
i=1
Mientras que para una v.a.c. X, se llama momento de orden k respecto del parámetro c a la esperanza
matemática de la variable (X − c)k , es decir:
Z ∞
Mk (c) = (x − c)k . f (x)dx (2.29)
−∞
Si c = 0 se obtienen los momentos respecto al origen que se representan por mk .

Z ∞
mk = E[X k ] = xk . f (x)dx (2.30)
−∞
Si c = µX se obtienen los momentos centrales que se representan por µk .

Z ∞
µk = E[(X − µX )k ] = (x − µX )k . f (x)dx (2.31)
−∞
Por último, ya sea una v.a.d. o una v.a.c., se cumplen las propiedades de los momentos:
m0 = 1
m1 = µ X
m2 = σ2 + µ2X
µ0 = 1
i i
i i
i i

i i
µ1 = 0
µ2 = σ2 = m2 − µ2X
2.9. Distribuciones de Probabilidad conocidas
La ley de probabilidades de una v.a.d. X se define si se conoce su distribución de probabilidad P(xi ) =

P(X = xi ) con i = 1, 2, .., ó bien si se conoce su función de distribución F(x), cumpliéndose:
∑ P(X = xi ) = 1
i≥1
F(x) = P(X ≤ x) = ∑ P(X = xi )

xi ≤x
A continuación se listan algunas de las principales distribuciones de la v.a.d..
2.9.1. Distribución Uniforme
Una v.a.d. X que toma los valores enteros x1 , x2 , x3 , ..., xn con probabilidades
1
P[X = xk ] = con k = 1, 2, ..., n (2.32)
n
recibe el nombre de variable uniforme discreta, su distribución de probabilidad distribución uniforme

discreta y se denota por X U(x1 , x2 , ..., xn ).
En el caso particular de que la variable tomo como valores los primeros números naturales:
1
P[X = k] = con k = 1, 2, ..., n (2.33)
n
Luego, su media, varianza y desviación tı́pica son:
n+1
µx =
2
n2 − 1
σ2x =
12
r
n2 − 1
σx =
12
i i
i i
i i

i i
2.9. DISTRIBUCIONES DE PROBABILIDAD CONOCIDAS 31
2.9.2. Distribución de Bernoulli
Recibe el nombre de prueba de Bernoulli, aquel experimento que sólo admite 2 resultados posibles
excluyentes:
Suceso A (representa el éxito) con probabilidad P(A) = p.
Suceso Ac (representa el fracaso) con probabilidad P(Ac ) = 1 − p = q.
Dada la v.a.d. X asociada al experimento que asocia el valor 1 al suceso A con probabilidad p y el valor
0 al suceso Ac con probabilidad q. Esta variable recibe el nombre de variable de Bernoulli y se denota
por X Ber(p).
La distribución de probabilidad es:
P(X = 1) = p y P(X = 0) = 1 − p = q con p + q = 1 (2.34)
µx = p
σ2x = p.q
√
σx = p.q
2.9.3. Distribución Binomial
Si se supone que se realizan n pruebas de Bernoulli sucesivas e independientes. Entonces, a la v.a.d.

X, que representa el número de veces que ocurre el suceso A (éxito) en las n pruebas, se la denomina
variable binomial de parámetro n y p, y se denota por X B(n, p), siendo p la probabilidad de éxito de
cada prueba de Bernoulli.
La variable binomial X se la puede considerar como la suma de n variables independientes de Bernou-

lli, es decir:
X = X1 + X2 + ... + Xn con Xi Ber(p)∀i = 1, 2, ..., n (2.35)
i i
i i
i i

i i
La v.a. definida toma los valores 0, 1, 2, ..., n con la siguiente probabilidad:

n = 1, 2, 3, ...




n 
P(X = k) = .pk .qn−k con k = 1, 2, ..., n (2.36)
k 



0< p<1
µx = n.p
σ2x = n.p.q
√
σx = n.p.q
2.9.4. Distribución de Poisson
Una v.a.d. X sigue una distribución de probabilidad de Poisson de parámetro λ y se denota por X P(λ),
si puede tomar todos los valores enteros 0, 1, 2, ... con la siguiente probabilidad:
k = 0, 1, 2, ...
(
λk −λ
P(X = k) = .e con (2.37)
k!
λ>0
µx = λ
σ2x = λ
√
σx = λ
2.9.5. Distribución Hipergeométrica
Si se considera una población de N elementos de dos clases distintas de los cuales D elementos son de
la clase A y N − D elementos son de la clase Ac .
Al tomar un elemento de esta población, la probabilidad de que proceda de una u otra clase es:
D
P(A) = = p → D = p.N (2.38)
N
N −D
P(Ac ) = = q = 1 − p → N − D = q.N (2.39)
N
i i
i i
i i

i i
2.9. DISTRIBUCIONES DE PROBABILIDAD CONOCIDAS 33
Si se considera el experimento consistente en tomar n elementos consecutivos de una población sin

reemplazamiento. A la v.a.d. X, número de elementos de la clase A en una muestra de tamaño n, se la
denomina variable hipergeométrica.
Entonces, se denomina distribución hipergeométrica de parámetros N, D y n, y se denota con la expre-

sión X H(N, D, n), a la distribución de probabilidad que se detalla a continuación:
 N = 1, 2, 3, ...


D N−D p.N q.N 

k n−k k n−k
P[X = k] = N
= N
con n = 1, 2, ..., N (2.40)

n n 

p = 0, N1 , N2 , ..., 1

µx = n.p
N−n
σ2x = n.p.q.
N−1
r
N−n
σx = n.p.q.
N−1
2.9.6. Distribución Geométrica o de Pascal
Si se considera un experimento que consiste en realizar sucesivas pruebas de Bernoulli. A la v.a.d. X,

número de pruebas necesarias para obtener el primer éxito, se la denomina variable geométrica.
Entonces, se denomina distribución geométrica o de Pascal de parámetro p y se denota por X Ge(p),

a la distribución de probabilidad que se detalla a continuación:
( k = 1, 2, 3, ...
k−1
P[X = k] = p.q con (2.41)
0 < p < 1; q = 1 − p
1
µx =
p
q
σ2x =
p2
i i
i i
i i

i i
√
q
σ=
p
2.9.7. Distribución Binomial negativa
Si se considera un experimento que consiste en realizar sucesivas pruebas de Bernoulli. A la v.a.d. X,

número de fracasos antes de obtener el n-ésimo éxito, se la denomina binomial negativa.
Entonces, se denomina distribución binomial negativa de parámetros n y p, y se denota por X

BN(n, p), a la distribución de probabilidad que se detalla a continuación:
k = 0, 1, 2, 3, ...




n+k−1 
P[X = k] = .pn .qk con n = 1, 2, ... (2.42)
k 



0< p<1
n.q
µx =
p
n.q
σ2x =
p2
√
n.q
σx =
p
2.10. Funciones de Densidad conocidas
La ley de probabilidades de una v.a.c. X se define si se conoce su función de densidad f (x) o bien si se
conoce su función de distribución F(x), tal que:
Z b
P(a < X ≤ b) = f (x)dx
a
F(x) = P(X ≤ x)
Z ∞
f (x)dx = 1
−∞
i i
i i
i i

i i
2.10. FUNCIONES DE DENSIDAD CONOCIDAS 35
Además, cumple la siguiente relación:

Z x
F(x) = f (t)dt (2.43)
−∞
dF(x)
f (x) = (2.44)
dx
A continuación se listan algunas de las principales distribuciones de la v.a.c..
2.10.1. Distribución Uniforme
Una v.a.c. X sigue una distribución uniforme en el intervalo [a, b] y se denota por X U[a, b] cuando su
función de densidad es: 
 0 si x 6∈ [a, b]

f (x) = 1 (2.45)

 si x ∈ [a, b]
b−a
a+b
µx =
2
(b − a)2
σ2x =
12
b−a
σx = √
12
2.10.2. Distribución Normal o de Laplace-Gauss
Una v.a.c. X sigue una distribución normal de media µ y desviación tı́pica σ y se denota por X N(µ, σ)
cuando su función de densidad es:
−∞ < µ < ∞
(
1 − 12 ( x−µ ) 2
f (x) = √ e σ con (2.46)
σ 2π σ>0
µx = µ
σ2x = σ2
σx = σ
i i
i i
i i

i i
Variable normal tipificada
Si la v.a.c. X es N(µ, σ), la variable normal tipificada también será una distribución normal de media
µz = 0 y desviación tı́pica σz = 1:
X −µ
Z= (2.47)
σ
Entonces, Z N(0, 1) y su función de densidad es:
1 1 2
f (z) = √ e− 2 z con − ∞ < z < ∞ (2.48)
2π
2.10.3. Distribución Gamma
Una v.a.c. X sigue una distribución gamma y se denota por X G(α, p) cuando su función de densidad
es:
α p −αx p−1
f (x) = e x con x > 0 (2.49)
Γ(p)
Z ∞
Se define la función gamma Euler como Γ(p) = e−x x p−1 dx que resulta continua y convergente para
0
p > 0. Entre sus propiedades se destaca:
p.1) Γ(1) = 1
p.2) Γ(p) = (p − 1)Γ(p − 1)
p.3) Si p ∈ Z∗ entonces Γ(p) = (p − 1)!
2.10.4. Distribución Exponencial
Es un caso particular de la distribución gamma con p = 1.
αe
( −αx
si x > 0
X Exp(α) si f (x) = (2.50)
0 en el resto
1
µx =
α
i i
i i
i i

i i
2.10. FUNCIONES DE DENSIDAD CONOCIDAS 37
1
σ2x =
α2
1
σx =
α
2.10.5. Distribución χ2 de Pearson
Es un caso particular de la distribución gamma con α = 1/2 y p = n/2 que se genera mediante la suma
de los cuadrados de n v.a.c. N(0, 1) independientes entre si, es decir, si X1 , X2 , ..., Xn son n v.a.c. N(0, 1)
independientes entre si, entonces la v.a.c. positiva χ2n recibe el nombre χ2 de Pearson con n grados de
libertad.
χ2n = X12 + X22 + ... + Xn2 (2.51)
Entonces, su función de densidad es:
1
f (x) = e−x/2 x(n/2)−1 con x > 0 (2.52)
2n/2 Γ(n/2)
µx = n
σ2x = 2n
√
σx = 2n
2.10.6. Distribución Beta
Una v.a.c. X sigue una distribución beta y se denota por X β(p, q) si sigue la siguiente función de
distribución:
x p−1 (1 − x)q−1
f (x) = con x ∈ [0, 1] (2.53)
β(p, q)
Luego, se define la función beta como:
Γ(p).Γ(q)
Z 1
β(p, q) = = x p−1 (1 − x)q−1dx (2.54)
Γ(p + q) 0
i i
i i
i i

i i
2.10.7. Distribución t de Student
Se denomina t de Student con n grados de libertad, si las n + 1 v.a.c. X, X1 , X2 , ..., Xn se distribuyen según
una N(0, σ).
X Z
tn = s =p (2.55)
1 n Xn2 /n
∑ Xi
n i=1
2
Entonces, su función de densidad es:

n+1 (
n = 1, 2, ...
1 x2 − 2
f (x) = 1+ con (2.56)
√ 1 n
n
n.β , −∞ < x < ∞
2 2
µx = 0
n
σ2x = si n > 2
n−2
r
n
σx = si n > 2
n−2
2.10.8. Distribución F de Fisher-Snedecor
Sean χ2n1 y χ2n2 dos v.a.c. χ2 de Pearson con n1 y n2 grados de libertad respectivamente, independientes
entre si. Entonces se denomina F de Fisher-Snedecor con n1 y n2 grados de libertad a la variable:
χ2n1 /n1
Fn1 ,n2 = (2.57)
χ2n2 /n2
Luego, su función de densidad es:

Γ((n1 + n2)/2) n1 /2 n2 /2 x(n1 /2)−1
f (x) = n1 n2 con x > 0 (2.58)
Γ(n1 /2)Γ(n2/2) (n1 x + n2)(n1 +n2 )/2
2.11. Teorı́a de Muestras
La Estadı́stica tiene como objeto el estudio de un conjunto de personas, cosas o, en general, elementos
con alguna caracterı́stica común a todos ellos. Sin embargo, si se quiere obtener información sobre una
i i
i i
i i

i i
2.11. TEORÍA DE MUESTRAS 39
población, se puede obtener datos de la totalidad (censo) o bien de una parte (muestra). La parte de la
estadı́stica que estudia la relación entre las muestras de una población y la población misma recibe el
nombre de Teorı́a de Muestras.
En la práctica, suele ocurrir que no es posible estudiar los datos de toda la población, ya que:
el número de la población es muy elevado, el estudio llevarı́a tanto tiempo que serı́a impracticable o
económicamente inviable.
el estudio puede implicar la destrucción del elemento estudiado. Por ejemplo, vida útil de una lámpara.
los elementos pueden existir conceptualmente, pero no en la realidad. Por ejemplo, la proporción de
piezas defectuosas que producirá una máquina.
En estos casos se seleccionan muestras, que permiten obtener el comportamiento promedio para for-
mular leyes generales.
Los métodos mas destacados para obtener muestras son:
Muestreo aleatorio simple Se elige al azar con reemplazamiento (un elemento no puede ser elegido 2 ve-
ces).
Muestreo estratificado Los elementos de la población se dividen en clases o estratos. La muestra se toma
asignando un número o cuota de miembros a cada estrato (proporcional a su tamaño relativo o a su
variabilidad) y escogiendo los elementos por muestreo aleatorio simple dentro del estrato.
Muestreo sistemático Los elementos de la población están ordenados en listas. Se divide la población en
tantas partes como el tamaño muestral y se elige al azar un número de orden en cada parte de la
población.
En la teorı́a de muestras se distinguen dos tipos de objetivos:
1 Deducir caracterı́sticas (parámetros) de la población (Inferencia Estadı́stica).

2 Analizar la concordancia o no de los resultados muestrales con determinadas hipótesis (Contraste de
Hipótesis).
Censo




 

 ( Estimación Puntual

Población 
 Inferencia estadı́stica (2.59)


 Muestra Estimación por intervalos

 

 
Contraste de hipótesis
i i
i i
i i

i i
2.11.1. Inferencia Estadı́stica
Es evidente el hecho de que las medidas o caracterı́sticas de una muestra son variables aleatorias, ya
que dependen de los valores de la variable aleatoria de la población.
Por tanto, una muestra es un vector de valores x1 , x2 , ..., xn ∈ E n , teniendo asociado cada valor una
probabilidad de ser elegido.
Se llamará estadı́stico a una función F : E n → R, es decir, una formula de las variables que transforma
los valores tomados de la muestra en un número real. Además, a la distribución de F se la llama
distribución del estadı́stico en el muestreo.
Cuando se realiza una afirmación acerca de los parámetros de la población en estudio, basándose en
la información contenida en la muestra se realiza una estimación puntual, pero si se señala un intervalo
de valores dentro del cual se tiene confianza que esté el valor del parámetro, se realiza una estimación
por intervalos.
Estimación Puntual
El proceso de estimación puntual utiliza un estadı́stico para obtener algún parámetro de la población.
Como tal, el estadı́stico utiliza una variable aleatoria que tiene cierta distribución que depende, en
general, del parámetro en cuestión. Además, se utilizarán dos criterios esenciales para medir la bondad
del estimador:
que sea centrado o insesgado, es decir, que su media coincida con el parámetro a estimar.
que sea de mı́nima varianza o que tenga la menor varianza entre todos los estimadores del parámetro.
Estimación por Intervalos
En la práctica, no sólo interesa dar una estimación puntual de un parámetro X sino un intervalo de
valores dentro del cual se tiene confianza de que esté el parámetro. Por tanto, lo que se busca es un esti-
mador denominado estimador por intervalo compuesto de una pareja de estadı́sticos Li (lı́mite inferior)
y Ls (lı́mite superior), y siendo 1 − α el nivel de confianza, mientras que α es el nivel de significación,
tales que:
P(Li ≤ X ≤ Ls ) = 1 − α con 0 < α < 1 (2.60)
i i
i i
i i

i i
2.11. TEORÍA DE MUESTRAS 41
Es decir, se llama intervalo de confianza para el parámetro X con nivel de confianza 1 − α, a una
expresión del tipo Li ≤ X ≤ Ls donde los lı́mites Li y Ls dependen de la muestra y se calculan de manera
tal que si se construyen muchos intervalos, cada vez con distintos valores muestrales, el 100(1 − α) %
de ellos contendrán el verdadero valor del parámetro.
La amplitud del intervalo está ı́ntimamente relacionada con los niveles de confianza y significación. Si
la amplitud del intervalo es pequeña entonces la afirmación de que el parámetro pertenece al intervalo
tiene gran significación (α es grande) pero ofrece poca confianza (1 − α es pequeña). Pero si la amplitud
del intervalo es grande entonces la afirmación de que el parámetro pertenece al intervalo tiene menor
significación (α es pequeño) aunque ofrece mucha confianza (1 − α es grande).
Por ejemplo, la afirmación “la altura media de una población está entre 1, 68 y 1, 72 metros” con
α = 0, 25 es más significativa que la afirmación “la altura media de una población está entre 1, 60 y
1, 82 metros” con α = 0, 01, aunque esta última afirmación ofrece más confianza 1 − α = 0, 99 que la
primera 1 − α = 0, 75.
2.11.2. Contraste de Hipótesis
Otro objetivo fundamental de la teorı́a de muestras, es confirmar o rechazar hipótesis sobre un paráme-
tro poblacional, mediante el empleo de muestras. Es decir, contrastar una hipótesis estadı́sticamente
es juzgar si cierta propiedad supuesta para cierta población es compatible con lo observado en una
muestra de ella.
A continuación se pasan a definir algunos conceptos importantes:
Contraste de hipótesis Procedimiento estadı́stico mediante el cual se investiga la aceptación o rechazo de

una afirmación acerca de una o varias caracterı́sticas de una población.
Hipótesis nula, H0 Es la hipótesis que se quiere contrastar y es, por tanto, la que se acepta o rechaza como
conclusión del contraste.
Hipótesis alternativa, Ha Es la hipótesis que se opone a la H0 , de forma que si se acepta la Ha se descarta

la H0 , y recı́procamente, si se rechaza Ha se acepta H0 .
Estadı́stico de contraste Es una función de la muestra aleatoria simple, que aplica la muestra (x1 , x2 , ..., x3 )
en un punto de la recta real.
Región de aceptación Conjunto de valores del estadı́stico de contraste que lleva a la decisión de aceptar la
hipótesis nula H0 .
Región crı́tica o de rechazo Conjunto de valores del estadı́stico de contraste que lleva a la decisión de re-
chazar la hipótesis nula H0 .
i i
i i
i i

i i
Error tipo I, α Error que se comete en la decisión del contraste cuando se rechaza la hipótesis nula H0 ,
siendo cierta.
Error tipo II, β Error que se comete en la decisión del contraste cuando se acepta la hipótesis nula H0 ,
siendo falsa.
Nivel de significación Es la probabilidad de cometer el error de tipo I, y se denota por α. También se suele
denominar tamaño del contraste.
Potencia de un contraste, 1 − α Es la probabilidad de rechazar la hipótesis nula H0 , siendo falsa. Se utili-
zará siempre contrastes de máxima potencia (o máximo nivel de confianza), dentro de los que tienen
un determinado nivel de significación.
Contraste unilateral Es aquél cuya región crı́tica está formada por un solo intervalo de la recta real.
Contraste bilateral Es aquél cuya región crı́tica está formada por dos intervalos disjuntos de la recta real.
Por último, para realizar un contraste de hipótesis es conveniente seguir las siguientes fases:
1 Enunciado y determinación de las hipótesis H0 y Ha .

2 Elección del nivel de significación α.
3 Especificación del tamaño muestral.
4 Selección de estadı́stico o función de decisión.
5 Determinación de la región crı́tica.
6 Cálculo del valor del estadı́stico de contraste o función de decisión para la muestra particular.
7 Aceptar o rechazar la hipótesis H0 .
i i
i i
i i

i i
Parte II
Series Temporales
43
i i
i i
i i

i i
i i
i i
i i

i i
45
Hasta ahora las muestras se han analizado con el objetivo de ser comparadas contra una población en
un momento determinado, sin tener en cuenta la evolución de la variable en el tiempo.
Si se tuviese en cuenta la evolución de la variable, mediante una sucesión de muestras ordenadas en

el tiempo, al conjunto de datos resultante se lo denomina Serie Temporal, Histórica, Cronológica o de
Tiempo[Fer04b].
Luego, el análisis de una serie temporal implica el manejo conjunto de dos variables, la variable en
estudio y la variable temporal, que determina cuando se han realizado las observaciones.
Las observaciones de la variable en estudio pueden estar referidas a un:
Instante de tiempo: Se denominan magnitudes stock o niveles. Por ejemplo, cantidad de empleados de una
empresa al final de cada mes.
Intervalo de tiempo: Se denominan flujos. Por ejemplo, ventas de una empresa a lo largo de cada mes.
La diferencia entre una y otra es que la primera no es sumable, pues se incurrirı́a en duplicaciones,
mientras que la segunda es acumulable. Las ventas de un mes se pueden sumar con la del anterior y
ası́ se podrı́an obtener las ventas de los 2 últimos meses. Mientras que la observación de los empleados
de un mes, no se puede sumar a los empleados del mes anterior, porque se podrı́an estar sumando dos
veces los mismos empleados.
Esto último destaca la importancia de la Homogeneidad, ya que si la amplitud temporal variase serı́a
difı́cil hacer comparaciones entre las diferentes observaciones de una Serie Temporal. Por otra parte
esta homogeneidad se pierde de forma natural, con el transcurso del tiempo, de manera que cuando
las series son muy largas no hay garantı́a de que los datos iniciales y finales sean comparables.
Pero la necesidad de que las series temporales no sean muy largas, para que sus datos no pierdan
la homogeneidad, entra en contradicción con el objetivo más elemental de la Estadı́stica que es el de
detectar regularidades en los fenómenos de masas.
Lo que se pretende con una serie temporal es describir y predecir el comportamiento de un fenómeno
que cambia en el tiempo. Esas variaciones que experimenta una serie temporal pueden ser:
Evolutivas: El valor medio de la serie cambia, no permanece fijo en el tiempo.

Estacionales: El valor medio de la serie y su variabilidad no cambian, aunque sufra oscilaciones en torno a
ese valor medio fijo o constante.
i i
i i
i i

i i
46
Esta clasificación permite hablar de Series Temporales Evolutivas o Series Temporales Estacionales,
de acuerdo al resultado del análisis realizado.
Por otra parte, existen dos tipos de enfoques para analizar una Serie Temporal: el Enfoque Clásico y
el Enfoque Causal.
i i
i i
i i

i i
Capı́tulo 3
Enfoque clásico
Una forma de comenzar el análisis de una serie temporal, es mediante su representación gráfica. Para
ello se hará uso de un sistema cartesiano en el que los perı́odos de tiempo se ubican en el eje de las
abscisas y los valores de la variable aleatoria (yt ) se llevan al eje de ordenadas. El resultado es un
diagrama de dispersión, con la particularidad de que el eje de abscisas se reserva siempre a la misma
variable: el tiempo.
40
20
-20
-40
-60
-80
-100
0 0.2 0.4 0.6 0.8 1
Figura 3.1: Ejemplo de una serie temporal.
En este tipo de representación se pueden detectar las caracterı́sticas mas sobresalientes de una serie
temporal, tales como el movimiento a largo plazo de la variable aleatoria, la amplitud de las oscilaciones,
la posible existencia de ciclos, la presencia de valores atı́picos o anómalos, etc. Ver el ejemplo de la
Figura 3.1.
47
i i
i i
i i

i i
48 CAPÍTULO 3. ENFOQUE CLÁSICO
El enfoque clásico asume que el comportamiento de la serie temporal se puede explicar en función del
tiempo: yt = f (t). Bajo este esquema, la serie serı́a una variable dependiente y el tiempo una indepen-
diente o explicativa. Sin embargo, es necesario dejar bien claro que el tiempo, en si, no es una variable
explicativa, es simplemente el “soporte” o escenario en el que se realiza o tiene lugar la serie temporal.
Desde este enfoque, cualquier serie temporal se supone que es el resultado de cuatro componentes:
tendencia (T), variaciones estacionales (E), variaciones cı́clicas (C) y variaciones residuales o accidentales
(R). Pero esta descomposición de la serie no deja de ser un procedimiento diseñado para que el estudio
de la misma resulte más fácil, pues esas componentes no siempre existen.
3.1. Tendencia
La tendencia se define como aquella componente que recoge el comportamiento de la serie a largo
plazo, prescindiendo de las variaciones a corto y mediano plazo. Para poder detectarla es necesario que
la serie conste de un número de observaciones elevado, a lo largo de muchos años, para que se pueda
determinar si la serie muestra un movimiento a largo plazo que responda a una determinada ley de
crecimiento, decrecimiento (series evolutivas) o estabilidad (series estacionarias). Ese comportamiento
tendencial puede responder a distintos perfiles: lineal, exponencial, parabólico, logı́stico, etc.
A
200 B
C
150
100
50
0 0.2 0.4 0.6 0.8 1
Figura 3.2: Identificación de la tendencia.
Ver en el ejemplo de la Figura 3.2 como cambia la forma de percibir la tendencia si es que se toma el
intervalo de tiempo inadecuado.
Si se intenta establecer la tendencia teniendo en cuenta solo el intervalo comprendido entre A y B, la

tendencia pareciera descender, aunque como se ve claramente en la gráfica, cuando se toma un rango
i i
i i
i i

i i
3.1. TENDENCIA 49
mayor (por ejemplo desde A hasta C) la tendencia asciende.
El problema es que el concepto de largo plazo va ı́ntimamente relacionado a la naturaleza de la varia-

ble, por lo que la longitud utilizada para determinar una tendencia no es comparable entre variables.
Los métodos más habituales en la determinación de la tendencia son: el análisis gráfico, las medias
móviles, los métodos analı́ticos y los de alisado exponencial.
3.1.1. Análisis gráfico
Es el procedimiento mas simple, ya que no utiliza ningún procedimiento analı́tico que garantice la
objetividad del resultado, y deja la posibilidad que dos analistas distintos lleguen a distintos resultados.
Todo depende del conocimiento que tenga el investigador de la serie temporal estudiada. Ya que en una
primera instancia se realiza la representación gráfica, para luego trazar la tendencia a mano alzada.
Aunque no es aconsejable confiar en los resultados que pueda arrojar este tipo de análisis de tendencia,
suele utilizarse como un paso previo para cualquier tipo de análisis a realizarse en una serie.
3.1.2. Medias móviles
Consiste en promediar los valores de la variable aleatoria para perı́odos de tiempo fijos a lo largo de
todo el horizonte de la serie temporal.
El resultado de este proceso mecánico es la eliminación de los movimientos a corto y mediano plazo,
ası́ como las irregularidades debidas a factores no controlables ni predecibles. Es decir, a la serie se le
quitan dos de sus componentes, quedando con la tendencia y la ciclicidad1 .
La idea que subyace detrás de este método es que la media de cualquier conjunto de valores sirve para
eliminar la dispersión o variabilidad de la serie motivada por factores coyunturales o esporádicos.
Estos promedios serán las medias aritméticas de un conjunto k de valores consecutivos, con el requisito
de que k sea inferior al total de observaciones. El procedimiento especı́fico varı́a si k es par o impar.
1 En el caso de existir la ciclicidad, ver la sección 3.3 (página 58).
i i
i i
i i

i i
Si k es entero impar, entonces las sucesivas medias se obtendrı́an de la siguiente forma:

k−1
2
∑ yt+i
i=− k−1
yt∗ = 2
(3.1)
k
yt− k−1 + yt− k−1 +1 + yt− k−1 +2 + ... + yt + ... + yt+ k−2 −1 + yt+ k−1 −1 + yt+ k−1
yt∗ = 2 2 2 2 2 2
(3.2)
k
A la media yt∗ se la denomina centrada y se la hace corresponder con la observación del momento t,
que es el valor central de la suma.
Si k es entero par, no se podrı́a determinar el valor central de k, por lo que no se corresponderı́a

con ninguno de los observados en la serie original. Esto se supera al aplicar nuevamente el método
de medias móviles con k = 2, quedando ahora si los valores centrales relacionados con los valores
observados originalmente.
La fórmula que se utiliza para ambos casos, cuando k es un entero par, es la siguiente:
k
2 −1
∑ yt+i
∗ i=− 2k
yt−0,5 = (3.3)
k
Luego, sea k entero par o impar, es importante determinar el tamaño óptimo que suavice la serie
temporal y que deje expuesta la tendencia. Si k es muy grande entonces el proceso de suavizado puede
llegar a ser tan fuerte que se pierda más información de la deseada. Por otro lado, si k es muy pequeño
no se conseguirán eliminar todas las perturbaciones ajenas a la tendencia.
Si la serie demuestra estacionalidad, o algún tipo de ciclicidad, el valor de k deberı́a ser mayor o igual
al intervalo de tiempo necesario para que se produzca un ciclo. En caso de ser estacionalidad, k deberı́a
ser mayor o igual al año. Para cualquier otro caso, en donde exista incertidumbre se recomienda que k
sea igual a 3 o 5.
En el ejemplo de la Figura 3.3, se muestra una serie temporal y su tendencia calculada por medias
móviles. Además se muestra la serie original sin la tendencia calculada (filtrada por el método aditivo2 ).
2 La
unión de los componentes de una serie se realiza a partir de dos métodos, en el aditivo yt = Tt +Ct + Et + Rt , mientras que en el
multiplicativo yt = Tt ∗Ct ∗ Et ∗ Rt .
i i
i i
i i

i i
3.1. TENDENCIA 51
(a) Serie temporal original
50 tendencia (k=21)
serie temporal
0
-50
-100
-150
0 0.2 0.4 0.6 0.8 1
(b) Serie temporal original sin la tendencia
30
serie temporal sin tendencia
20
10
0
-10
-20
-30
-40
-50
-60
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Figura 3.3: Obtención de la tendencia por Medias Móviles.
Al igual que en el análisis gráfico se introduce subjetividad en la selección del valor de k. Además, no
se puede alcanzar el objetivo de la predicción en el análisis de las series temporales, pues la tendencia
obtenida mediante medias móviles no permite la proyección hacia el futuro.
3.1.3. Método analı́tico
Selecciona una función matemática que modelice de forma adecuada la tendencia de la serie temporal.
El procedimiento de ajuste suele ser el de los mı́nimos cuadrados, aunque para comenzar el análisis
se recurre a la representación gráfica que informa de manera aproximada el tipo de función. Otra
alternativa es hacer uso del conocimiento previo de la naturaleza de una serie temporal.
La utilización de este método con respecto a los anteriores tiene dos ventajas:
Se mide la bondad del ajuste, dejando de lado la subjetividad del analista.
Se determina una función explı́cita, que permite realizar predicciones.
A continuación se detalla: el modelo lineal, el polinomial y el exponencial.
i i
i i
i i

i i
Lineal
Modelo en el que la variable aleatoria se hace depender linealmente del tiempo, y en donde se presentan
variaciones constantes para periodos sucesivos de tiempo. La forma general del mismo es:
yt = yt∗ + Rt = a + bt + Rt (3.4)
Donde:
t Tiempo cronológico.
b Variación media entre periodos.
yt Serie temporal original.
yt∗ Estimación de la Tendencia.
Rt Resto de las componentes no identificadas, representadas como un residuo.
160
140 serie temporal
120
100
80
60
40
20
0
-20
0 0.2 0.4 0.6 0.8 1
(b) Tendencia con el modelo lineal
160
140 tendencia lineal (y = 110.55x+-5.0624)
120 serie temporal
100
80
60
40
20
0
-20
0 0.2 0.4 0.6 0.8 1
(c) Serie temporal original sin la tendencia calculada
60 serie temporal sin tendencia

40
20
0
-20
-40
-60
0 0.2 0.4 0.6 0.8 1
Figura 3.4: Obtención de la tendencia por el Método Analı́tico Lineal.
Polinomial
Modelo en el que la relación de la variable aleatoria con el tiempo se expresa a partir de un polinomio.
Las variaciones no son constantes, ni en términos absolutos ni relativos.
i i
i i
i i

i i
3.1. TENDENCIA 53
El grado del polinomio va a decidir la familia de funciones que se utilice en el modelo, aunque el mas
común de todos es el modelo de función parabólica. La forma general del mismo es:
yt = yt∗ + Rt = a + bt + ct 2 + Rt (3.5)
Donde:
35 serie temporal
30
25
20
15
10
5
0
0 0.5 1 1.5 2
(b) Tendencia con el modelo polinomial
35 2
tendencia polinomial 24.713x -48.907x+30.135
30 serie temporal
25
20
15
10
5
0
0 0.5 1 1.5 2
(c) Serie temporal original sin la tendencia

5
0
-5
-10
0 0.5 1 1.5 2
Figura 3.5: Obtención de la tendencia por el Método Analı́tico Polinomial.
Exponencial
Modelo en el que la relación de la variable aleatoria con el tiempo se expresa a partir de una función
exponencial, por lo que la serie temporal cambia a razón de una tasa constante. El ajuste por mı́nimos
cuadrados es fácilmente realizable, debido a que la función es linealizable. La forma general del modelo
es:
yt = yt∗ + Rt = aebt + Rt (3.6)
i i
i i
i i

i i
Donde:
a Tasa de variación inicial.
b Tasa de variación instantánea.
2
serie temporal
1.5
1
0.5
0
0 0.5 1 1.5 2
(b) Tendencia con el modelo exponencial
2.5 2
(1.30309-0.0485662i)x +(-0.538773-0.859227i)x
2 tendencia polinomial (-0.00371635+0.0421471i) e
serie temporal
1.5
1
0.5
0
0 0.5 1 1.5 2
(c) Serie temporal original sin la tendencia
0.6
0.4 serie temporal sin tendencia
0.2
0
-0.2
-0.4
-0.6
-0.8
0 0.5 1 1.5 2
Figura 3.6: Obtención de la tendencia por el Método Analı́tico Exponencial
3.1.4. Alisado exponencial
Los métodos para calcular la tendencia explicados hasta aquı́, ya sea el de medias móviles o alguno de
los métodos analı́ticos, se agrupan dentro del conjunto de técnicas para el alisado proporcional.
El alisado exponencial consiste, al igual que los métodos anteriores, en medias ponderadas; pero con
la particularidad que la ponderación decrece conforme nos alejamos del origen. Esto es útil para la
predicción de series no estacionales y con una tendencia no definida.
i i
i i
i i

i i
3.2. VARIACIÓN ESTACIONAL 55
Para el instante t, el valor medio de la serie (yt∗ ) se puede obtener de la siguiente forma:
yt∗ = αyt + (1 − α)yt−1

∗
(3.7)
yt∗ = αyt + (1 − α)[αyt−1 + (1 − α)yt−2

∗
] (3.8)
yt∗ = αyt + α(1 − α)yt−1 + (1 − α)2yt−2
∗
(3.9)
yt∗ = αyt + α(1 − α)yt−1 + (1 − α)2[αyt−2 + (1 − α)yt−3
∗
] (3.10)
yt∗ = αyt + α(1 − α)yt−1 + α(1 − α)2yt−2 + (1 − α)3yt−3
∗
(3.11)
yt∗ = αyt + α(1 − α)yt−1 + ... + α(1 − α)t−1y1 + (1 − α)t y∗0 (3.12)
yt∗ ∗
= yt−1 + α(yt ∗
+ yt−1 ) tal que (0 < α < 1) (3.13)
Donde:
t Instante de tiempo.
yt Valor de la serie temporal en t.
yt∗ Estimación de la Tendencia para t.
y∗0 La estimación de la tendencia en el origen es igual al valor de la serie temporal en ese punto (y0 ).
α Constante de suavizado.
Cuanto mas estable es la serie, α se acerca a la unidad; mientras que si la serie presenta gran volatilidad,
α tiende a cero. En cualquier caso, implica introducir cierta subjetividad en el análisis de la serie, lo que
no deja de ser un inconveniente.
En el ejemplo de la Figura 3.7 (a) se muestra una serie temporal y 2 tendencias calculadas por alisado
exponencial. Luego se muestra la serie original sin la tendencia calculada (a partir del método aditivo),
por cada una de las tendencias calculadas.
Por último, cuando la serie temporal tiene una tendencia definida y es estacional, el método que se
acaba de exponer se sustituye por otros procedimientos como el de Holt-Winters [Kal04, Cai08].
3.2. Variación Estacional
La variación estacional se define por aquella componente de la serie que contiene movimientos que se
repiten de forma periódica, siendo la periodicidad inferior al año, el mes, la semana o el dı́a.
i i
i i
i i

i i
60
40 serie temporal
20 tendencia (alpha0=0.1)
0
-20 tendencia (alpha1=0.7)
-40
-60
-80
-100
-120
0 0.2 0.4 0.6 0.8 1
(b) Serie temporal original sin la tendencia para alpha0
60
40 serie temporal sin tendencia (alpha0)
20
0
-20
-40
-60
0 0.2 0.4 0.6 0.8 1
(c) Serie temporal original sin la tendencia para alpha1
15 serie temporal sin tendencia (alpha1)

10
5
0
-5
-10
-15
-20
0 0.2 0.4 0.6 0.8 1
Figura 3.7: Obtención de la tendencia por Alisado Exponencial
La razón de estas variaciones se basa en causas de tipo climatológico (producción, turismo, etc.) o de
ordenación del tiempo (los dı́as de la semana condicionan el comportamiento de ciertas series tempo-
rales).
Estos movimientos que se repiten de forma sistemática, dificultan la posibilidad de hacer compara-
ciones entre los valores sucesivos de una misma serie temporal, pues el nivel medio de la misma se ve
alterado por la estacionalidad.
Para evitar esas distorsiones en los valores medios se recurre a lo que se conoce como desestacionaliza-
ción de la serie o corrección estacional. Para realizar esta operación es necesario aislar en primer lugar
la componente estacional, lo que posibilita su posterior eliminación.
Los distintos métodos de obtención de la componente estacional, asumen como precondición la elimi-
nación3 de la tendencia (T). Ver el ejemplo de la Figura 3.5 (página 53).
A partir de la serie temporal sin tendencia, se determina el lapso de tiempo mı́nimo en el cual el com-
portamiento parece repetirse.
Con el lapso de tiempo mı́nimo, se divide la serie temporal sin tendencia en series temporales del tamaño
del lapso mencionado. Por ejemplo, para una serie temporal sin tendencia de 48 meses, si el lapso
mı́nimo son 12 meses, entonces se tendrán 4 series temporales; tal que su comportamiento parece
repetirse para cada una de las series resultantes.
3 Se deberá tener en cuenta si el método de composición es aditivo o multiplicativo.
i i
i i
i i

i i
3.2. VARIACIÓN ESTACIONAL 57
Se definen como ı́ndices generales de variación estacional (IGVE) al promedio de las series temporales
obtenidas. La fórmula es:
∑ xi
i∈e;e∈l
IGV E(e) = (3.14)
ne
Siendo:
e Estación dentro de l.
l Lapso de tiempo mı́nimo en que se repite el ciclo.
nl Cantidad de elementos pertenecientes al conjunto e.
6
Ciclo de estacionalidad de 0.15
-2
-4
-6
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14
Figura 3.8: Ejemplo de IGVE de la Figura 3.5 (c).
Si la estacionalidad es anual (12 meses de lapso mı́nimo), el resultado del promedio será una serie
temporal de 12 meses de longitud, mientras que para la Figura 3.5 (c) los resultados se muestran en la
Figura 3.8.
Luego, como se detalla en la Figura 3.9, la eliminación de la variación estacional4 calculada se realiza
de forma semejante a lo hecho con la tendencia.
La serie temporal resultante en la Figura 3.9, se encuentra determinada por:
yt∗ = yt − (Ct + Rt ); Tt 6∈ yt (3.15)

4 Repetición sucesivas de IGVE hasta cubrir la longitud de la serie temporal sin tendencia.
i i
i i
i i

i i
Donde:
yt Serie temporal original sin tendencia.

yt∗ Estimación de la Estacionalidad.
Ct Estimación de la Ciclicidad.
Rt Estimación de la Residualidad.
Una vez eliminada la estacionalidad, la serie temporal queda homogeneizada y los valores sucesivos
podrán ser comparados en lo que a niveles medios se refiere.
Por último, es importante destacar que si se elimina la tendencia y la ciclicidad por medias móviles, solo
queda por aislar la estacionalidad del resto. En esta idea se basan los métodos de desestacionalización5
ampliamente utilizados como el X-9 y su posterior desarrollo el X-11[Mus67].
3.3. Variación Cı́clica
La variación cı́clica se define por aquella componente de la serie que contiene movimientos a mediano
plazo, periodos superiores al año, que se repiten de forma casi periódica, aunque no son tan regulares
como las variaciones estacionales.
Esta componente resulta difı́cil de aislar, por tres posibles razones: el periodo de la serie es pequeño, los
ciclos de la serie se superponen o simplemente no existe la componente. Esto, con frecuencia, conduce
a un análisis de las series temporales en el que se prescinde del estudio separado de los ciclos y, en su
lugar, se trabaja con la componente mixta ciclo-tendencia.
Por otra parte, se puede intentar aislar la componente mediante un proceso semejante al de las medias
móviles sobre una serie temporal sin tendencia ni estacionalidad. En la Figura 3.10 se continua con el
ejemplo de la Figura 3.9 (página 60).
3.4. Variación Residual (o Indeterminada)
La variación residual se define por aquella componente de la serie que no responde a ningún patrón de
comportamiento, sino que es el resultado de factores fortuitos o aleatorios que inciden de forma aislada
(inundaciones, huelgas, etc.). Ver la Figura 3.10 (c).
5 Desarrollados por el Boreau of the Census de Estados Unidos.
i i
i i
i i

i i
3.4. VARIACIÓN RESIDUAL (O INDETERMINADA) 59
La utilidad de esta componente se basa en poder verificar si satisface ciertos supuestos o hipótesis; por
ejemplo, que sea realmente aleatoria.
i i
i i
i i

i i
(a) Serie temporal original sin la tendencia

5
0
-5
-10
0 0.5 1 1.5 2
(b) Estacionalidad mediante IGVE
10 estacionalidad
0
-5
-10
0 0.5 1 1.5 2
(c) Serie temporal original sin la tendencia y desestacionalizada
6 serie temporal sin tendencia ni estacionalidad

4
2
0
-2
-4
-6
0 0.5 1 1.5 2
Figura 3.9: Ejemplo de una Desestacionalización de la Figura 3.5 (c)
(a) Serie temporal original sin la tendencia ni la estacionalidad
6 serie temporal con ciclicidad

4
2
0
-2
-4
-6
0 0.5 1 1.5 2
(b) Ciclicidad con el modelo de medias moviles
6 ciclicidad (k=3)
4 serie temporal filtrada con ciclicidad
2
0
-2
-4
-6
0 0.5 1 1.5 2
(c) Variacion Residual de una serie temporal
2 residualidad
1
0
-1
-2
0 0.5 1 1.5 2
Figura 3.10: Obtención de la variación cı́clica por Medias Móviles
i i
i i
i i

i i
Capı́tulo 4
Enfoque Causal
Otra forma de estudiar el comportamiento de una serie temporal es tratar de explicar sus variaciones
como consecuencia de las variaciones de otra u otras series temporales temporales. Esto impulsa la
búsqueda de una función que ligue esas variables para después poder cuantificarlas mediante el análisis
de regresión.
La cuantificación de la variación que experimenta la serie al pasar de un periodo de tiempo a otro, se

obtiene mediante:
∆yt = yt − yt−1 (4.1)
Esta relación determina si la serie está creciendo o decreciendo, dependiendo si el ∆yt es positivo o
negativo, respectivamente.
Por otra parte, la escala de medición se encuentra expresada en la misma unidad que la serie temporal,
impidiendo comparaciones con otras series temporales de distinta escala.
Al conjunto de todas las variaciones se lo considera a su vez una serie temporal. Si se obtienen estas
variaciones para datos anuales y tendencia lineal, se habla de una serie filtrada de tendencia (quedando
solo las componentes cı́clica y residual). Mientras que para datos con periodicidad inferior al año, si
la diferencia se realiza con respecto al mismo mes del año pasado, se obtiene una serie filtrada en
estacionalidad y tendencia. Ver los ejemplos de las Figuras 4.1 y 4.2.
6 Medir las variaciones en forma adimensional.
61
i i
i i
i i

i i
62 CAPÍTULO 4. ENFOQUE CAUSAL
45
serie temporal (valores anuales)
40 tendencia lineal (y = 1.0606x+-0.019774)
35
30
25
20
15
10
5
0
0 5 10 15 20 25 30 35
(b) Serie temporal de diferenciales
8 serie temporal de los diferenciales (∆ yt = yt - yt-1)

6 tendencia lineal (y = 0.037278x+0.48359)
4
2
0
-2
-4
-6
5 10 15 20 25 30 35
Figura 4.1: Serie temporal de diferenciales de valores anuales.
Para lograr que las series temporales de diferenciales sean homogéneas (o comparables), es necesario
cuantificar las variaciones en términos relativos6 , mediante las tasas de variación.
4.1. Tasas de variación
Las tasas de variación surgen al comparar la variación intertemporal de la variable aleatoria, y se

obtienen mediante:
n−1
∑ yt−i
i=0
T (h, n) = Thn = n−1
−1 (4.2)
∑ yt−h− j
j=0
Donde:
h Número de periodos que hay entre las observaciones comparadas7.
n Número de pares de observaciones (comparaciones) utilizadas para el cálculo.
Luego, si n = 1:
yt yt − yt−h ∆yt
T (h, 1) = Th1 = −1 = = (4.3)
yt−h yt−h yt−h
7 Cantidad de datos tomados hacia atrás.
i i
i i
i i

i i
4.1. TASAS DE VARIACIÓN 63
Serie temporal original
45 serie temporal (valores mensuales)

40 tendencia lineal (y = 1.0655x+0.087934)
35
30
25
20
15
10
5
0
0 5 10 15 20 25 30 35
Serie temporal de diferenciales
serie temporal de los diferenciales (∆ yt = yt - yt-12)

25
tendencia lineal (y = 0.21641x+7.3899)
20
15
10
0
15 20 25 30 35
Figura 4.2: Serie temporal de diferenciales de valores mensuales.
Las tasas se pueden expresar en tantos por uno, aunque lo mas habitual es que se multipliquen por
cien, o cualquier otra potencia de diez, cuyo caso se habları́a de porcentajes o lo que corresponda.
Por último, en función de h y n, las tasas más habituales que suelen calcularse son:
yt
T11 =

− 1 ∗ 100
yt−1
Se utiliza para datos anuales. Una periodicidad inferior al año, podrı́a conducir a que la serie resultante
se encuentre distorsionada por la estacionalidad.
1 yt
T12 = − 1 ∗ 100
yt−12
Se utiliza para datos mensuales, y una tasa de variación anual. La estacionalidad no lo afecta.
yt
T61 =

− 1 ∗ 100
yt−6
Se utiliza para datos mensuales, y una tasa de variación semestral. La estacionalidad lo afecta, debido
a que no es homogénea (enero-julio, febrero-agosto, etc.).
12 = yt + yt−1 + ... + yt−11
T12 − 1 ∗ 100
yt−12 + yt−13 + ... + yt−23
Se utiliza para datos mensuales, y se obtiene una tasa de variación anual. Solo se puede aplicar a las
variables que se miden por intervalos de tiempo8 .
yt + yt−1 + ... + yt−11
T112 =

− 1 ∗ 100
yt−1 + yt−2 + ... + yt−12
Se utiliza para datos mensuales, y se obtiene una tasa de variación mensual basada en medias móviles
anuales.
yt + yt−1 + yt−2
T13 =

− 1 ∗ 100
yt−1 + yt−2 + yt−3
Se utiliza para datos mensuales, y se obtienen tasas mensuales basada en medias móviles trimestrales.
i i
i i
i i

i i
64 CAPÍTULO 4. ENFOQUE CAUSAL
8 Variables que representan un flujo de datos.
i i
i i
i i

i i
Parte III
Geoestadı́stica
65
i i
i i
i i

i i
i i
i i
i i

i i
67
Las series temporales a diferencia de las distribuciones de frecuencias (Ver 2.4) relacionan los datos
con el tiempo.
Si en lugar del tiempo en que se realiza la medición, se contempla la ubicación en donde se realiza, se
podrı́a conformar un mapa a partir de los valores medidos y sus posiciones9 .
5 2 1 2 3 3
4 1 2
3 2 2 2 2
2 1 2 2
1 1 3 1 1
0
0 1 2 3 4 5 6
Figura 4.3: Ejemplo de mapa 2D.
Ver en la Figura 4.3, el ejemplo de mapa de dos dimensiones con los valores muestreados para cada
posición10 . La población de esta muestra estarı́a representada por una variable regionalizada.
9 Las posiciones (o ubicaciones) pueden ser ticks de tiempo, puntos georeferenciados, o una mezcla de ambos.
10 En las posiciones (1,2), (2,4), (3,3), (4,1), (4,2), (4,4) y (5,4) no se ha podido medir el valor, o es desconocido.
i i
i i
i i

i i
68
i i
i i
i i

i i
Capı́tulo 5
Variables regionalizadas
En la teorı́a de variables regionalizadas el concepto de función aleatoria juega un papel central. Una
función aleatoria es un conjunto de variables aleatorias que se corresponden con los puntos del dominio
D bajo estudio. Esto significa que para cada punto u en D existe una variable aleatoria correspondiente
Z(u)[Bá].
Una variable regionalizada es la realización de una función aleatoria. Esto significa que para cada punto
u en el espacio d-dimensional el valor del parámetro z(u) es una realización de la función aleatoria Z(u).
V R = {z(u)|u ∈ D} (5.1)
Esta interpretación de los parámetros reconoce el hecho de que no es posible describirlos completa-
mente usando solo métodos determinı́sticos. Es mas, en la mayorı́a de los casos es imposible verificar
la suposición que indica que el parámetro es una realización de la función aleatoria, debido a que solo
se trabaja con una única realización de la función.
Se puede describir a la función aleatoria a partir de sus funciones de probabilidad multidimensional.

Esto significa que para cada conjunto de puntos u1 , ..., un en el dominio D, una función de distribución
Fu1 ,...,un es asignada. Si se usa esta función para cada conjunto posible de valores w1 , ..., wn se podrı́a
encontrar la probabilidad P utilizando:
P(Z(u1 ) < w1 , ..., Z(un ) < wn ) = Fu1 ,...,un (w1 , ..., wn ) (5.2)
Esto significa que las probabilidades condicionales se podrı́an usar para estimar promedios locales o
globales. Por otra parte, hay infinitos subconjuntos en el dominio D, y para cada punto en D usualmente
69
i i
i i
i i

i i
70 CAPÍTULO 5. VARIABLES REGIONALIZADAS
un valor z(u) a evaluar. Aunque existan varias mediciones del parámetro para un punto, no será posible
realizar la evaluación de la función de distribución mencionada por la complejidad del calculo.
La alternativa es afirmarse en una hipótesis que reduzca la complejidad del problema.
i i
i i
i i

i i
Capı́tulo 6
Hipótesis estadı́stica
Si se plantea como hipótesis a la estacionalidad fuerte de la función aleatoria Z(u), tal que para cada
conjunto de puntos u1 , ..., un en el dominio D, para cada conjunto de valores posibles w1 , ..., wn y para
cada h se cumple:
P(Z(u1 ) < w1 , ..., Z(un ) < wn ) = P(Z(u1 + h) < w1 , ..., Z(un + h) < wn ) (6.1)
Esta ecuación determina que la distribución de la función aleatoria depende de la configuración de

los puntos (a partir de la distancia h) y no de la localización de los mismos. En otras palabras la
“naturaleza” se repite a si misma para una misma configuración (o esquema).
La suposición de la hipótesis general basada en la estacionalidad fuerte es útil, pero aún demasiado
compleja para ser apropiada. Para tratar este problema de forma efectiva se deben agregar algunas
suposiciones que simplifiquen los cálculos. Existen básicamente dos hipótesis simplificadoras: la esta-
cionalidad de segundo orden y la hipótesis intrı́nseca.
6.1. Estacionalidad de Segundo Orden
La estacionalidad es un concepto que se utilizó en el análisis de series temporales. En este caso la

estacionalidad de segundo orden se formula para espacios multidimensionales, consistiendo de dos con-
diciones:
El valor esperado de la función aleatoria Z(u) es constante sobre todo el dominio D.
E[Z(u)] = m (6.2)
71
i i
i i
i i

i i
72 CAPÍTULO 6. HIPÓTESIS ESTADÍSTICA
La covarianza de dos variables aleatorias correspondientes a dos localizaciones depende sólo del vec-
tor h que separa a los dos puntos.
E[(Z(u + h) − m)(Z(u) − m))] = Cov(h) (6.3)
Para el caso particular de h = 0:

Cov(0) = E[(Z(u) − m)(Z(u) − m)] = V [Z(u)] (6.4)
La ecuación 6.4 muestra que las variables aleatorias correspondientes a los diferentes puntos en el
dominio no sólo tienen la misma esperanza, sino que también tienen que tener la misma varianza
finita. Esta segunda condición no siempre es conocida, pero se pueden formular hipótesis más débiles
como la que se describe a continuación.
6.2. Hipótesis Intrı́nseca
La hipótesis intrı́nseca es mas débil que la estacionalidad de segundo orden, consistiendo de las dos
condiciones siguientes:
El valor esperado de la función aleatoria Z(u) es constante sobre todo el dominio D.

E[Z(u)] = m (6.5)
La varianza del incremento correspondiente a dos localizaciones diferentes depende sólo del vector que
las separa. A esta función dependiente del vector h se la denomina semivariograma11.
1 1
V [Z(u + h) − Z(u)] = E[(Z(u + h) − Z(u))2] = γ(h) (6.6)
2 2
En la ecuación 6.3 se puede apreciar el parecido con la 6.6, pero la suposición de una varianza finita
no está explı́cita en la 6.3. Además se puede demostrar que la estacionalidad de segundo orden implica
a la hipótesis intrı́nseca, pero lo opuesto no es verdad (Ver Figura 6.1).
6.3. Comparación de las dos hipótesis
La diferencia entre la hipótesis intrı́nseca y la estacionalidad de segundo orden, no es sólo el hecho

de que la primera es más general que la segunda (Ver Figura 6.1). La función de covarianza ( 6.3)
está definida usando el valor esperado m, mientras que el semivariograma ( 6.6) no depende de este
valor. Esto es una ventaja, porque las tendencias leves no influenciarán al semivariograma, mientras
que una mala estimación de la esperanza afectarı́a aún mas a la función de covarianza.
11 Suele ser confundido con el variograma, que serı́a dos veces el semivariograma.
i i
i i
i i

i i
6.3. COMPARACIÓN DE LAS DOS HIPÓTESIS 73
Hipotesis Intrinseca
Estacionalidad de Segundo Orden
Figura 6.1: Diagrama de Venn de la Hipótesis Intrı́nseca y la Estacionalidad de Segundo Orden.
La relación entre el variograma y la función de covarianza es:
2γ(h) = E[(Z(u + h) − Z(u))2] = E[((Z(u + h) − m) − (Z(u) − m))2] (6.7)
2γ(h) = V [Z(u)] + V [Z(u + h)] − 2E[Z(u + h) − m)(Z(u) − m)] (6.8)
2γ(h) = 2Cov(0) − 2Cov(h) (6.9)
γ(h) = Cov(0) − Cov(h) (6.10)
12
C(0)
f(h) = C(0)
γ(h)
C(h)
10
0
0 5 10 15 20 25 30
h
Figura 6.2: El variograma y la función de covarianza.
La Figura 6.2 muestra la relación desarrollada.
i i
i i
i i

i i
74 CAPÍTULO 6. HIPÓTESIS ESTADÍSTICA
6.4. Selección de la variable regionalizada
La variable regionalizada bajo estudio debe cumplir ciertas condiciones para poder utilizar los métodos
de análisis geoestadı́sticos:
Homogeneidad de los datos Los datos deberán reflejar un solo parámetro (Z(u)), medido por un método de
medición y si es posible con la misma tecnologı́a.
Aditividad de conjuntos El parámetro deberá tener la propiedad12 que 1n ∑ni=1 Z(ui ) tiene el mismo signifi-
cado que E[Z(u)].
12 Algunos parámetros naturales son claramente no aditivos, pero mediante transformaciones pueden ser llevados a parámetros aditi-
vos.
i i
i i
i i

i i
Capı́tulo 7
Variograma
El variograma se define como la varianza del incremento, es por eso que debe cumplir ciertas condi-
ciones. Estas serán explicadas en la sección 7.2. Naturalmente hay propiedades del variograma que
pueden ser explicadas sin una descripción matemática precisa.
γ(0) = 0
γ(h) ≥ 0; ∀0 < h < rango
γ(h) = tope; ∀h ≥ rango
γ(h) = γ(−h); ∀h
Z(u) es continuo ∴ hi+1 > hi =⇒ γ(hi+1 ) > γ(hi )
A menudo es discontinua con respecto al origen (lı́mh→0 γ(h) 6= 0), cumpliendo con el efecto pepita13.
La hipótesis acerca de la existencia de un variograma es el punto clave de la geoestadı́stica. La primera

pregunta a responder será si el parámetro bajo estudio cumple con la hipótesis intrı́nseca.
Si se supone que las mediciones Z(ui ) de un parámetro Z(u) son tomadas para las localizaciones ui ,
siendo i = 1, ..., n.
Como primer paso se puede calcular los valores (Z(ui ) − Z(u j ))2 para todos los pares formados, para
los puntos ui u u j . Luego se deberá graficar teniendo en cuenta la distancia (y tal vez la dirección) entre
las ubicaciones.
75
i i
i i
i i

i i
76 CAPÍTULO 7. VARIOGRAMA
35
30
25
(Z(u+h)-Z(u))2
20
15
10
0
0 1 2 3 4 5 6 7 8
h
Figura 7.1: Ejemplo de nube de puntos de un variograma.
La Figura 7.1 muestra un ejemplo de una nube de puntos de donde luego se obtendrá un variograma.
10
6
(Z(u+h)-Z(u))2
0
0 1 2 3 4 5 6 7 8
h
Figura 7.2: Ejemplo de un variograma experimenal.
Aunque la condición de la hipótesis intrı́nseca representada por la ecuación 6.6, no garantice que los
valores obtenidos se acerquen a cierta lı́nea, si se utiliza el valor esperado (calculado como la media
aritmética) para el ejemplo de la Figura 7.1, se obtendrá la Figura 7.2, la cual es posible aproximarla
a una función mediante mı́nimos cuadrados.
13 Causado por un error de medición, o una componente aleatoria que no depende de la ubicación.
i i
i i
i i

i i
7.1. VARIOGRAMA EXPERIMENTAL 77
7.1. Variograma Experimental
La función variograma tiene que ser estimada sobre la base de la información disponible. En el caso de
un conjunto finito de datos la estimación del variograma puede ser hecha sólo para un conjunto finito
de vectores.
1
γ∗ (h) = ∑ (Z(ui ) − Z(u j ))2
2N(h) ui −u
(7.1)
j =h
Donde:
ui Ubicación de una medición.
u j Ubicación de una medición.
h Distancia entre las ubicaciones ui y u j .
Z(ui ) Valor de la medición en la ubicación ui .
Z(u j ) Valor de la medición en la ubicación u j .
N(h) Cantidad de pares de ubicaciones para la distancia h.
γ∗ (h) Estimación del variograma para h.
Si los puntos se encuentren espaciados irregularmente la condición para la sumatoria ui − u j = h tiene

que ser debilitada, para poder obtener más pares por cada h. Esto significa que la sumatoria deberı́a
ser hecha sobre los pares que cumplen las siguientes condiciones14 :
|ui − u j | − |h| ≤ ε (7.2)
Angulo(ui − u j , h) ≤ δ (7.3)
La condición 7.3 es utilizada en el variograma direccional, cuando la muestra es grande y es difı́cil

encontrar un modelo teórico representativo del variograma experimental.
7.2. Variograma Teórico
Los variogramas experimentales son calculados para un número finito de vectores h. Si los valores para
el resto de los vectores h debe ser definido, se podrı́a realizar con una simple interpolación lineal. La
desventaja de esto es que el resultado de la función lineal no necesariamente satisface la ecuación 6.6.
14 En −
→
donde |a − b| denota el tamaño del vector ab.
i i
i i
i i

i i
Luego, para cualquier combinación lineal ∑ni=1 θi Z(ui ), tal que ∑ni=1 θi = 0; la varianza es finita15 y
puede calcularse como:
n n n
V [ ∑ θi Z(ui )] = − ∑ ∑ θ j θi γ(ui − u j ) (7.4)
i=1 j=1 i=1
Como el variograma no puede ser negativo, la ecuación 7.4 cumple con la condición necesaria:
n n
− ∑ ∑ θ j θi γ(ui − u j ) ≥ 0 (7.5)
j=1 i=1
Para relacionar los variogramas experimentales con las funciones matemáticas adecuadas, diferentes
modelos teóricos son desarrollados. Estos pueden ser clasificados en dos grupos: modelos con un tope y
modelos sin un tope.
7.2.1. Modelos con un tope
Si la estacionalidad de segundo orden es conocida16, se obtendrán variogramas que son constantes

después de cierta distancia (o rango). Esto se produce porque Z(u) y Z(u + h) son independientes, luego
si Cov(h) = 0 y por la ecuación 6.10 resulta:
γ(h) = Cov(0); h > rango (7.6)
Si además se tiene en cuenta la ecuación 6.4, entonces:
γ(h) = V [Z(u)]; h > rango (7.7)
A continuación se mencionan algunos modelos que cumplen con esta propiedad17 :
Efecto pepita puro
Se cumple cuando no existe correlación entre las variables aleatorias de diferentes localizaciones.
0 si h = 0
(
γ(h) = (7.8)
C si h > 0
15
Puede ser probado a partir de la hipótesis intrı́nseca.
16 Supone que para puntos muy distantes las variables aleatorias correspondientes son independientes.
17 Cualquier combinación lineal entre los modelos con tope, producirá nuevamente un modelo con tope.
i i
i i
i i

i i
7.2. VARIOGRAMA TEÓRICO 79
Donde:
h Distancia entre dos localizaciones.

C Tope igual a la varianza V [Z(u)].
γ(h) Variograma teórico.
5
γ(h)
0
0 2 4 6 8 10
h
Figura 7.3: Variograma teórico que modela el efecto pepita puro.
En la Figura 7.3 se muestra un modelo de variograma teórico con efecto pepita puro.
Esférico
Se encuentra descripto por dos parámetros: el rango y el tope. El rango determina a partir de que
distancia h las variables aleatorias de las distintas localizaciones no contienen relación.

 C 3 h − 1 h33 si h ≤ a

2a 2a
γ(h) = (7.9)

C si h > a
Donde:

a Rango.
C Tope igual a la varianza V [Z(u)].
i i
i i
i i

i i
5
γ(h)
tope
rango
0
0 2 4 6 8 10
h
Figura 7.4: Variograma teórico del modelo esférico.
En la Figura 7.4 se muestra un modelo esférico de variograma teórico.
Exponencial
A diferencia del modelo esférico todas las variables aleatorias se encuentran relacionadas en el ámbito
teórico. Aunque debido a lo diminuto de algunas relaciones, se considera un rango no teórico de 3a.
h
γ(h) = C(1 − e− a ) (7.10)
Donde:
a Parámetro que determina el rango (no teórico).
C Tope aproximado a V [Z(u)] (asintótica horizontalmente).
e Base de los logaritmos naturales.
En la Figura 7.5 se muestra un modelo exponencial de variograma teórico.
i i
i i
i i

i i
7.2. VARIOGRAMA TEÓRICO 81
5
γ(h)
tope
rango
0
0 2 4 6 8 10
h
Figura 7.5: Variograma teórico del modelo exponencial.
Gaussiano
A diferencia del modelo esférico todas las variables aleatorias se encuentran relacionadas en el ambito
√
teórico. Aunque debido a lo diminuto de algunas relaciones, se considera un rango no teórico de 3a.
A diferencia del modelo exponencial muestra un comportamiento cuadrático conforme tiende a 0.
2
− h2
γ(h) = C(1 − e a ) (7.11)
Donde:

a Parámetro que determina el rango (no teórico).
C Tope aproximado a V [Z(u)] (asintótica horizontalmente).
e Base de los logaritmos naturales.
En la Figura 7.6 se muestra un modelo gaussiano de variograma teórico.
7.2.2. Modelos sin un tope
Si la estacionalidad de segundo orden no es conocida (por ejemplo, la varianza V [Z(u)] no es finita), pero
la hipótesis intrı́nseca es verdadera, se obtendrán variogramas que no son constantes, ni se acercan a
una ası́ntota, después de cierta distancia.
i i
i i
i i

i i
5
γ(h)
tope
rango
0
0 2 4 6 8 10
h
Figura 7.6: Variograma teórico del modelo Gaussiano.
A continuación se mencionan algunos modelos que cumplen con esta propiedad:
Potencial
Se cumple cuando el modelo se puede representar mediante la potencia de un número λ.
γ(h) = Chλ (7.12)
Donde:

λ Definida en el intervalo (0, 2).
C Constante.
En la Figura 7.7 se muestra un modelo potencial de variograma teórico.
Complejos
Los modelos listados previamente satisfacen la condición 7.5. Desafortunadamente estos modelos no
siempre describen la variabilidad de las variables regionalizadas bajo estudio. La combinación de los
modelos anteriores amplı́a el conjunto de los variogramas teóricos.
i i
i i
i i

i i
7.3. AJUSTE A UN MODELO TEÓRICO 83
5
γ(h),λ=1
γ(h),λ=0.5
0
0 2 4 6 8 10
h
Figura 7.7: Variograma teórico del modelo potencial.
Si γ1 (h), ..., γK (h) son modelos de variogramas que cumplen la condición 7.5 y c1 , ..., cK son números
no negativos, luego la ecuación 7.13 satisface 7.5.
K
γ(h) = ∑ ck γk (h) (7.13)
k=1
7.3. Ajuste a un modelo teórico
Dado que los variogramas experimentales no cumplen con las propiedades estadı́sticas detalladas, es
necesario ajustarlos a un variograma teórico.
Existen varias aproximaciones: a ojo, mı́nimos cuadrados y probabilidad máxima.
7.3.1. A ojo
En este método se intenta calcular “a ojo” el ajuste del variograma empı́rico a un modelo teórico de
variograma.
Al igual que en 3.1.1, es subjetivo al experto que lo lleva a cabo. Aunque se lo suele usar para detectar
valores extremos, errores de medición, etc.
i i
i i
i i

i i
7.3.2. Mı́nimos cuadrados
Este método a diferencia del anterior, es automático. Aunque, por otra parte, los errores de medición
y valores extremos no pueden ser detectados.
Otra desventaja es que el método asume que los errores18 son independientes de la curva de ajuste (o
variograma teórico), y esto último no es cierto.
7.3.3. Probabilidad máxima
Este método postula para cada distancia hi una distribución fhi . Esta distribución describe la desvia-
ción entre el conjunto de valores obtenidos para un hi y el valor del modelo teórico.
A cada distribución se asocia una probabilidad que puede ser calculada a partir de la comparación de
la esperanza y el valor del modelo teórico.
E[ fhi (u)]
P(hi ) = (7.14)
γ∗ (hi )
La combinación de probabilidades que produce el mayor producto es la probabilidad máxima (PM):
n
PM = ∏ P(hi ) (7.15)
i=1
Dado que se desea maximizar la probabilidad máxima y minimizar el error (calculado por la diferencia
al cuadrado) al mismo instante, se puede minimizar la ecuación 7.16 para obtener el ajuste deseado.
n
ε = ∑ (γ∗ (hi ) − γ(hi ))2 (1 − P(hi)) (7.16)
i=1
Al igual que 7.3.2 es un estimador automático. Además supone independencia entre los diferentes
puntos, lo cual no es determinable en la mayorı́a de los casos.
18 Desviación entre el variograma experimental y el variograma teórico.
i i
i i
i i

i i
7.4. ISOTROPÍA Y ANISOTROPÍA 85
7.4. Isotropı́a y anisotropı́a
La variable regionalizada es isotrópica si su variograma depende sólo de el tamaño del vector h. En

este caso el variograma experimental puede ser calculado con la condición limitante:
|ui − u j | = |h| (7.17)
La isotropı́a puede ser probada si hay una cantidad suficiente de datos “bien espaciados”19 . En este
caso los variogramas experimentales correspondientes a diferentes direcciones pueden ser calculados
y comparados.
Aunque en muchos casos, cuando el conjunto de datos es pequeño, se debe asumir que el variográma
es istotrópico para mejorar la calidad del cálculo (del variograma) para cada distancia h.
Si una función no es isotrópica, entonces esta puede mostrar diferentes tipos de anisotropı́as, como la
geométrica o la zonal.
7.4.1. Anisotropı́a geométrica
La variable regionalizada tiene una anisotropı́a geométrica si hay una transformación de coordenadas
T tal que Z(u′ ) = Z(T (u)) es isotrópica. Esto significa que para la anisotropı́a geométrica una simple
transformación de coordenadas conduce a un caso donde sólo las distancias20 (del nuevo sistema de
coordenadas) juegan un rol.
Esta transformación debe ser aplicada cuando el valor del tope sea el mismo para cada dirección, pero
el rango varı́a en cada una de ellas.
Si se dibuja el rango para cada dirección y se obtiene una elipse21 , primero se deberá rotar y lue-
go se realizará la transformación T (a partir de las ecuaciones 7.18 y 7.19) para que se logre una
circunferencia.
x′ = λ(x cos ϕ + y sin ϕ) (7.18)
y′ = −x sin ϕ + y cosϕ (7.19)

19
No necesariamente alineados.
20 Dejando de depender del ángulo de la dirección en la cual se realiza el variograma.
21 En la tridimensión se utiliza una elipsoide.
i i
i i
i i

i i
Donde:
(x, y) Coordenada original.

λ Proporción de transformación.
ϕ Ángulo entre el eje de coordenadas x y el eje principal de la anisotropı́a (elipse).
(x′ , y′ ) Coordenada resultante de la transformación.
Una vez realizada la transformación se continúa con un análisis isométrico, y por último se deberá vol-
ver a realizar una transformación inversa, para obtener los resultados con el sistema de coordenadas
originales.
7.4.2. Anisotropı́a zonal
La variable regionalizada tiene una anisotropı́a zonal si los rangos no convergen a una elipse, o si los
valores de tope son diferentes.
En este caso se deberá utilizar un modelo de anisotropı́a complejo, para el que cada termino del modelo
puede mostrar diferentes anisotropı́as geométricas.
i i
i i
i i

i i
Capı́tulo 8
Kriging
El variograma es la herramienta principal para algunos cálculos geoestadı́sticos, como estimar el valor
del parámetro en lugares no muestreados o el valor promedio de un parámetro en un área determinada.
Estos tipos de cálculos pueden ser llevados a cabo a partir de procedimientos como el Kriging Ordinario
o los métodos no estacionales.
8.1. Kriging Ordinario
Es el más simple de todos los procedimientos. La estimación puede ser realizada para un punto parti-
cular o se podrı́a calcular un valor promedio para un bloque determinado.
8.1.1. Kriging Ordinario Puntual
El problema de la interpolación (y la extrapolación) es la estimación de un parámetro en una posición

no muestreada.
Un estimador lineal que combine los valores muestreados de las variables regionalizadas deberá ser
encontrado. Esto significa que el estimador es de la forma:
n
Z ∗ (u) = ∑ λi Z(ui ) (8.1)
i=1
87
i i
i i
i i

i i
88 CAPÍTULO 8. KRIGING
Donde:
Z ∗ (u) Estimación para cualquier localización u.

Z(ui ) Valor del parámetro muestreado en la localización ui .
λi Coeficientes de ajuste de la estimación al parámetro.
Existen infinitos valores para los coeficientes λi y es deseable seleccionarlos manteniendo insesgado al
estimador, generando la varianza de la estimación más baja posible.
Usando la estacionalidad de segundo orden o la hipótesis intrı́nseca se tiene:
E[Z(u)] = m∀u ∈ D (8.2)
Luego el estimador lineal queda como:

n
E[Z ∗ (u)] = ∑ λi E[Z(ui )] = m (8.3)
i=1
La condición que tienen que cumplir los coeficientes para que la estimación sea insesgada es:
n
∑ λi = 1 (8.4)
i=1
Luego, si se utiliza la hipótesis de estacionalidad de segundo orden la varianza de la estimación está dada
por la función cuadrática:
n
σ2 (u) = V [Z(u) − Z ∗ (u)] = E[(Z(u) − ∑ λi Z(ui ))2 ] (8.5)
i=1
n n n
σ2 (u) = E[Z(u)2 + ∑ ∑ λi λ j Z(ui )Z(u j ) − 2 ∑ λi Z(ui )Z(u)] (8.6)
i=1 j=1 i=1
n n n
σ2 (u) = Cov(0) + ∑ ∑ λi λ jCov(ui − u j ) − 2 ∑ λiCov(ui − u) (8.7)
i=1 j=1 i=1
El mejor estimador lineal insesgado (en inglés BLUE22 ) es aquel que hace mı́nima a la varianza de la
estimación, teniendo en cuenta la condición 8.4.
22 Best Linear Unbiased Estimator.
i i
i i
i i

i i
8.1. KRIGING ORDINARIO 89
Este problema de estimación restringida puede ser resuelto mediante el multiplicador de Lagrange µ
[Hoa84].
n
K(λ, µ) = σ2 (u) − 2µ( ∑ λi − 1)) (8.8)
i=1
Si se realizan las derivadas parciales para cada λi y con respecto a µ, y se iguala a cero se encontrará la
varianza mı́nima de la estimación.
dK(λi , µ)
= 0∀i; ui ∈ D (8.9)
dλi
dK(λ, µ)
=0 (8.10)
dµ
El sistema de kriging23 en términos de covarianzas queda compuesto por:

n
∑ λ jCov(ui − u j ) − µ = Cov(ui − u)∀i = 1, ..., n (8.11)
j=1
n
∑ λj = 1 (8.12)
j=1
Si en lugar de la estacionalidad de segundo orden se utiliza la hipótesis intrı́nseca, la varianza de la

estimación queda dada por:
n n n
σ2 (u) = V [Z(u) − Z ∗ (u)] = − ∑ ∑ λ j λi γ(ui − u j ) + 2 ∑ λi γ(ui − u) (8.13)
j=1 i=1 i=1
Y al minimizarla, el sistema de kriging en términos de variogramas es:

n
∑ λ j γ(ui − u j ) + µ = γ(ui − u)∀i = 1, ..., n (8.14)
j=1
n
∑ λj = 1 (8.15)
j=1
8.1.2. Kriging Ordinario por Bloques
Con frecuencia lo que se necesita es un promedio de los valores del parámetro sobre cierta área, en
lugar de un valor especı́fico de una ubicación. Esto podrı́a ser realizado estimando una gran cantidad
de puntos en el área y tomando el promedio de los valores.
23 Es un sistema de ecuaciones resultante de la minimización teniendo en cuenta al Multiplicador de Lagrange µ y a los coeficientes
λi .
i i
i i
i i

i i
Una forma más simple de hacerlo, es suponer que el promedio del parámetro sobre cierto volumen B
(o bloque) perteneciente al dominio D va a ser estimado.
1
Z
Z(B) = Z(u)du (8.16)
|B| B
Nuevamente, se debe encontrar un estimador de la forma:

n
Z ∗ (B) = ∑ λi Z(ui ) (8.17)
i=1
La condición que mantendrá a la estimación insesgada será:

n
∑ λi = 1 (8.18)
i=1
La varianza de la estimación será:

n n n
σ2 (B) = V [Z(B) − Z ∗ (B)] = −γ(B, B) − ∑ ∑ λ j λi γ(ui − u j ) + 2 ∑ λi γ(ui , B) (8.19)
j=1 i=1 i=1
Donde:
B Bloque, volumen.
γ(h) Variograma para una distancia h dada.
γ(B, B) Variograma promedio entre dos bloques.
γ(ui , B) Variograma promedio entre un punto y un bloque.
Si γ(ui , B) y γ(B, B) se calculan mediante:
1
Z
γ(ui , B) = γ(ui − u)du (8.20)
|B| B
1
Z Z
γ(B, B) = γ(u − v)dudv (8.21)
|B| B B
i i
i i
i i

i i
Luego, la minimización de σ2 (B) manteniendo la estimación insesgada produce el siguiente sistema de

ecuaciones:
n
∑ λ j γ(ui − u j ) + µ = γ(ui , B)∀i = 1, ..., n (8.22)
j=1
n
∑ λj = 1 (8.23)
j=1
8.1.3. El variograma y el kriging
Como la varianza de la estimación y las ecuaciones del kriging están calculadas con la ayuda del vario-
grama, es evidente que este último cumple un rol importante.
Utilizar el variograma en el kriging no sólo produce el valor esperado, sino que además calcula la
varianza de la estimación correspondiente. Esto último determina la calidad de la estimación, ya que
una varianza alta significa poca certeza en la estimación. Por otro lado, la varianza de la estimación
será cero para las estimaciones de las posiciones muestreadas.
Comparando las varianzas de las estimaciones que se obtienen al usar el kriging puntual y el kriging
por bloques, se puede ver que la varianza del último es notablemente menor.
Esto se debe al término adicional γ(B, B) de la varianza de la estimación por bloques. A medida que
γ(B, B) aumenta con el tamaño del bloque, la varianza de la estimación decrece, dando mayor exactitud
que una estimación puntual.
8.1.4. El Kriging en la práctica
Usualmente los puntos utilizados para el kriging puntual o por bloques son seleccionados dentro de
cierta distancia (o rango) teniendo en cuenta la anisotropı́a.
Si aún ası́ continúan quedando demasiados puntos, se selecciona un vecindario con los n puntos más
cercanos, donde n es un lı́mite preestablecido.
Es importante destacar que la selección de un vecindario falla si los puntos se encuentran esparcidos
irregularmente. En este último caso es necesario utilizar una búsqueda direccional.
i i
i i
i i

i i
8.1.5. Kriging con un variograma “falso”
Algunas veces, el kriging es obtenido mediante la utilización de variogramas teóricos en lugar de los
variogramas experimentales. En este caso al realizar la selección de los parámetros del variograma, se
debe tener en cuenta que se afecta directamente a los resultados del kriging.
Usualmente se suele utilizar un modelo complejo con dos elementos: un efecto pepita y un modelo simple
(esférico, exponencial, gaussiano o lineal).
8.1.6. Validación cruzada
Dado que la peculiaridad de las observaciones complica la utilización de pruebas estadı́sticas, y que la
subjetividad del ajuste “a ojo” en los variogramas teóricos deberı́a ser controlada para reducir su error,
la validación cruzada es un procedimiento que prueba al variograma teórico estimado.
Para cada localización de muestreo ui los valores son estimados (usando kriging) como si fueran des-
conocidos. Este estimador es representado por Z v (ui ) y su correspondiente desvı́o estándar σv (ui ).
Luego, los valores de la estimación son comparados con los valores verdaderos Z(ui ). Si la desviación
estándar del kriging es interpretada como un error de estimación con distribución normal (N(0, 1)),
entonces:
Z v (ui ) − Z(ui )
S(ui ) = ; S(u) N(0, 1) (8.24)
σv (ui )
En caso de diferir de N(0, 1) significa que el ajuste puede ser mejorado. Por otra parte, este procedi-
miento suele utilizarse para detectar valores extremos o atı́picos.
8.1.7. Kriging con datos inciertos
Frecuentemente un mismo parámetro es medido o estimado mediante diferentes métodos. Si estos

métodos producen resultados con diferentes precisiones, las mediciones deberı́an ser manejadas te-
niendo en cuenta estas diferencias.
Para cada ui existe un término de error ε(ui ) que cumple con las siguientes propiedades:
Insesgada
E[ε(ui )] = 0 (8.25)
i i
i i
i i

i i
Sin correlación
E[ε(ui )ε(u j )] = 0∀i 6= j (8.26)
Sin correlación con los valores del parámetro
E[ε(ui )Z(ui )] = 0 (8.27)
Por conveniencia se desarrolla sólo la estimación para un bloque B, que está dada por:
n
Z ∗ (B) = ∑ λi (Z(ui ) + ε(ui )) (8.28)
i=1
La condición que mantendrá insesgados a la variable aleatoria de la estimación seguirá siendo:

n
∑ λi = 1 (8.29)
i=1
Y la varianza de la estimación es:

σ2 (B) = V [Z(B) − Z ∗ (B)] (8.30)
n n n n
σ2 (B) = −γ(B, B) − ∑ ∑ λ j λi γ(ui − u j ) + 2 ∑ λi γ(ui , B) + ∑ λ2i E[ε(ui )2 ] (8.31)
j=1 i=1 i=1 i=1
Al minimizar la varianza de la estimación se obtiene un sistema de ecuaciones similar al sistema del

kriging ordinario:
n
∑ λ j γ(ui − u j ) + λiE[ε(ui )2 ] + µ = γ(ui , B)∀i = 1, ..., n (8.32)
j=1
n
∑ λj = 1 (8.33)
j=1
8.1.8. Kriging Simple
El kriging ordinario supone que el valor esperado es el mismo para cualquier posición del dominio D,
descartando la existencia de variables regionalizadas que posean una variabilidad en su valor esperado
para distintas posiciones del dominio.
El kriging simple es una alternativa al kriging ordinario que tiene en cuenta al valor medio esperado
m(u) (no necesariamente constante) en todo el dominio D.
i i
i i
i i

i i
La función de estimación queda expresada como:

n
Z ∗ (u) = m(u) + ∑ λi (Z(ui ) − m(ui )) (8.34)
i=1
La condición que mantendrá insesgados a la variable aleatoria de la estimación es:

n
E[Z ∗ (u) − Z(u)] = m(u) + ∑ λi E[Z(ui ) − m(ui)] − m(u) = 0 (8.35)
i=1
La varianza del estimador es:

V [Z ∗ (u) − Z(u)] = E[Z ∗ (u)2 + Z(u)2 − 2Z ∗ (u)Z(u)] (8.36)
n n n
V [Z ∗ (u) − Z(u)] = ∑ ∑ λi λ jCov(ui − u j ) + Cov(0) − 2 ∑ λiCov(ui − u) (8.37)
i=1 j=1 i=1
La varianza de la estimación es mı́nima si:

dV [Z ∗ (u) − Z(u)]
= 0∀i; ui ∈ D (8.38)
dλi
Por último el sistema de ecuaciones para el kriging simple tiene la siguiente forma:
n
∑ λ jCov(ui − u j ) = Cov(ui − u)∀i = 1, ..., n (8.39)
j=1
8.2. Métodos no estacionales
Desafortunadamente, muchos parámetros naturales no cumplen con la hipótesis intrı́nseca por causa
de cambios sistemáticos en el valor del parámetro medido.
Los cambios sistemáticos contaminan el variograma experimental y conducen a resultados inaceptables.
Si se supone que la primera condición ( 6.5) de la hipótesis intrı́nseca no es constante y en su lugar se

tiene una deriva sistemática no conocida. Y por otra parte, la diferencia entre la variable regionalizada
y la deriva es intrı́nseca, entonces:
Z(u) = f (u) + Y (u) (8.40)
Z(u) − f (u) = Y (u) (8.41)
i i
i i
i i

i i
8.2. MÉTODOS NO ESTACIONALES 95
Donde:
Z(u) Valor del parámetro (variable regionalizada).
Y (u) Función intrı́nseca, tal que E[Y (u)] = 0.
f (u) Función que representa la deriva.
El método de ajuste que se suele utilizar para estimar la deriva es el ajuste por mı́nimos cuadrados. Esto
requiere que no exista relación entre los residuos, quedando independientes entre si. Pero contradice
la ecuación mas general, dado que la variable regionalizada es la suma de una deriva f (u) y un residuo
intrı́nseco Y (u). Solo será verdadero si los residuos tienen variogramas con efecto pepita puro.
Para tratar con la deriva se presentarán dos métodos diferentes: el kriging universal y el kriging con
deriva externo.
8.2.1. Kriging Universal
El problema principal en los casos no estacionales es que la estimación de la deriva requiere del vario-
grama, pero la estimación del variograma requiere del conocimiento de la deriva.
El kriging universal es un método donde la deriva se obtiene de forma iterativa con el fin de estimar el
variograma, esto es posible porque en el kriging la deriva no se utiliza, y su efecto es filtrado.
El agregado de constantes a la variable regionalizada no afecta al variograma. Por lo que la deriva f (u)
debe ser contemplada como una constante aditiva:
S
f (u) = ∑ bs fs (u) (8.42)
s=0
Donde:
f0 (u) es igual a 1.
bs deben ser averiguados para s > 0.
i i
i i
i i

i i
La función anterior es cierta en un ámbito “local”, dentro de un vecindario. Los coeficientes bs son
estimados a partir de una combinación lineal de los valores medidos:
n
b∗s = ∑ di,s Z(ui ) (8.43)
i=1
Donde:
b∗s Estimación del los coeficientes bs .
di,s Coeficiente que determina la relación lineal con cada Z(ui ).
Z(ui ) Valor medido en la posición ui .
Estos estimadores deberı́an ser insesgados, por lo que deberán cumplir la condición:
n
E[b∗s ] = bs = ∑ di,s E[Z(ui )] (8.44)
i=1
Usando la ecuación 8.42 se tiene:

!
n S
bs = ∑ di,s ∑ bq fq (ui ) (8.45)
i=1 q=1
A partir de la ecuación anterior se obtiene:

!
S n
bs = ∑ bq ∑ di,s fq (ui ) (8.46)
q=1 i=1
Si las funciones fs (u) son linealmente independientes, de la ecuación anterior se deduce que:
n
(1 si q = s
∑ di,s fq (ui ) (8.47)
i=1 0 si q 6= s
La varianza para cada coeficiente estimado b∗s es:

" #
n
V [b∗s ] =V ∑ di,s Z(ui ) (8.48)
i=1
i i
i i
i i

i i
8.2. MÉTODOS NO ESTACIONALES 97
Y dado que la varianza de la estimación será finita, se cumple la condición:

n
∑ di,s = 0 (8.49)
i=0
Usando la ecuación 8.48 se calcula:

n n
V [b∗s ] = ∑ ∑ di,s d j,s γ(ui − u j ) (8.50)
i=1 j=1
Si se utiliza el multiplicador de Lagrange para agregar las condiciones 8.49 y 8.47; y luego se minimiza
la función, se obtiene un sistema de kriging semejante a los anteriores.
n S
∑ γ(ui − u j ) + µ0,s + ∑ µq,s fs (u) = 0∀i = 1, ..., n (8.51)
j=1 q=1
n
∑ di,s = 0 (8.52)
i=1
n
(1 si q = s
∑ di,s fq (ui ) (8.53)
i=1 0 si q 6= s
Al resolver el sistema de ecuaciones anterior para s = 1, ..., S se obtienen los coeficientes di,s y utilizando
a estos últimos los bs . Esta aproximación tiene el problema que el cálculo de los coeficientes necesita
de los variogramas. El procedimiento iterativo siguiente realiza una estimación del variograma teórico
para resolver el conflicto.
1 Determinar el tipo de la deriva (usualmente el orden del polinomio).

2 Desarrollar un variograma teórico γ y calcular los coeficientes de la deriva.
3 Calcular el variograma experimental de los residuos Y (u).
4 Comparar los variogramas teórico y experimentales desarrollados en los pasos 2 y 3. Parar si la correspon-
dencia entre las dos curvas es buena. Sino repetir el paso 2 con un nuevo variograma teórico reajustado
al variograma experimental.
Una vez que los variogramas hayan sido calculados se procede con la estimación para un punto o un
bloque de forma semejante a como se lleva a cabo el kriging ordinario:
n
Z ∗ (u) = ∑ λi Z(ui ) (8.54)
i=1
i i
i i
i i

i i
La condición de imparcialidad que mantiene a la variable aleatoria insesgada es:

" #
n
E ∑ λi Z(ui ) − Z(u) =0 (8.55)
i=1
Al usar las ecuaciones 8.40 y 8.42 se tiene:
n S S
∑ λi ∑ bs fs (ui ) − ∑ bs fs (u) (8.56)
i=1 s=0 s=0
Al sacar factor común se tiene:

" #
S n
∑ bs ∑ λi fs (ui ) − fs(u) =0 (8.57)
s=0 i=1
La ecuación anterior se deberı́a mantener para cualquier bs . Entonces se cumplirá si:

n
∑ λi fs (ui ) − fs (u) = 0∀s = 0, ..., S (8.58)
i=1
La varianza de la estimación es:

n n n
σ2 (u) = V [Z(u) − Z ∗ (u)] = − ∑ ∑ λ j λi γ(ui − u j ) + 2 ∑ λi γ(ui − u) (8.59)
j=1 i=1 i=1
Si se aplican los multiplicadores de Lagrange correspondientes y se minimiza la ecuación resultante se

obtiene el sistema de kriging:
n S
∑ λ j γ(ui − u j ) + ∑ µs fs (ui ) = γ(ui − u) ∀i = 1, ..., n (8.60)
j=1 s=0
n
∑ λi fs (ui ) = fs (u) ∀s = 0, ..., S (8.61)
i=1
El kriging universal fue el primer método geoestadı́stico para las funciones aleatorias no estacionarias.
La estimación iterativa del variograma consume una gran cantidad de tiempo y no hay garantı́as de
que los resultados converjan.
i i
i i
i i

i i
8.3. ACTUALIZACIÓN SIMPLE 99
8.2.2. Kriging con Deriva Externa
Si se supone que existe la variable aleatoria regionalizada Y (u) que está relacionada linealmente con
Z(u). La hipótesis del valor esperado constante es reemplazado por:
E[Z(u)|Y (u)] = a + bY(u) (8.62)
Dado que a y b son constantes desconocidas, el estimador lineal deberı́a ser insesgado para cualquier
valor de a y b:
n
Z ∗ (u) = ∑ λi Z(ui ) (8.63)
i=1
Minimizando la varianza de la estimación bajo las precondiciones que se mencionaron se tiene:

I
∑ λ j γ(ui − u j ) + µ1 + µ2Y (ui ) = γ(ui − u)∀i = 1, ..., I (8.64)
j=1
I
∑ λj = 1 (8.65)
j=1
I
∑ λ jY (u j ) = Y (u) (8.66)
j=1
Es deseable aplicar kriging con deriva externa24 si la información secundaria existe en una alta resolu-
ción espacial con respecto a la variable principal y se encuentra distribuida dentro de una grilla.
8.3. Actualización Simple
La actualización simple es un método de kriging que utiliza información adicional para mejorar sus
resultados.
Si se tiene en cuenta que la variable secundaria L(u) complementa a la variable primaria Z(u), dado
que L(u) está disponible para cada punto del dominio y se encuentra relacionada con Z(u) mediante la
esperanza condicional:
E[Z(u)|L(u) = l] = ml (8.67)
24 O External Drift Kriging (EDK) en inglés.
i i
i i
i i

i i
Y mediante la varianza condicional:

V [Z(u)|L(u) = l] = σ2l (8.68)
Una primera estimación de Z(u) basada solamente en L(u):

Z ′ (u) = ml + εl (8.69)
Donde:
εl Error aleatorio.
Tal que E[εl ] = 0 y su varianza es σ2l . Si se usa Z ′ (u) combinadas con las observaciones Z(ui ) para la
estimación de Z(u), se tiene:
n
Z ∗ (u) = λ0 Z ′ (u) + ∑ λi Z(ui ) (8.70)
i=1
Luego, la varianza de la estimación estarı́a dada por:

V [Z(u) − Z ∗ (u)] (8.71)
n n n
− ∑ ∑ λ j λi γ(ui − u j ) + 2 ∑ λi (1 − λ0)γ(ui − u) + λ20E[ε2l ] (8.72)
j=1 i=1 i=1
Y al minimizar la varianza de la estimación de forma que sea insesgada mediante el multiplicador de

Lagrange se tiene:
n
∑ λ j γ(ui − u j ) + µ = (1 − λ0)γ(ui − u)∀i = 1, ..., n (8.73)
j=1
n
∑ λ j γ(u − u j ) + µ = λ0σ2l (8.74)
j=1
n
∑ λj = 1 (8.75)
j=0
El la práctica la información adicional es de forma discreta y existe para cada localización. Para cada
clase l la media y la varianza pueden ser calculadas por:
∑ni=1 Z(ui )
ml = ; L(ui ) = l (8.76)
∑ni=1 1
∑ni=1 (Z(ui ) − ml )2
σ2l = ; L(ui ) = l (8.77)
(∑ni=1 1) − 1
i i
i i
i i

i i
8.4. KRIGING SOBRE SERIES TEMPORALES 101
8.4. Kriging sobre Series Temporales
Los métodos geoestadı́sticos fueron pensados para problemas mineros y geológicos, donde para cada
localización se realizaba una medición. Aunque en muchas otras aplicaciones la misma localización
puede ser usada para varias mediciones. Por ejemplo, las precipitaciones o la calidad del agua sub-
terránea son medidas regularmente en el tiempo. La cuestión es como modelar y utilizar de forma
geoestadı́stica estas mediciones.
Una forma posible de incluir el tiempo es extendiendo la hipótesis intrı́nseca con la dimensión del
tiempo. Esto significa que las localizaciones de la muestra consiste de dos partes: una espacial (1, 2
o 3 dimensiones) y una temporal. Esta aproximación es razonable para variables aleatorias de tiempo
continuo como la calidad del agua subterránea. Aunque no es apropiada para parámetros basados en
eventos (en las precipitaciones no se puede usar la precipitación del 1 de Junio y del 30 de Junio para
calcular la del 15 de Junio).
Otra posible extensión es el uso de los datos correspondientes a un mismo tiempo como una realización,
y suponer que las diferentes realizaciones corresponden a un mismo proceso. Este método no excluye al
primero, los instantes de un proceso espacio-temporal intrı́nseco son también intrı́nsecos en el espacio,
y los variogramas espaciales son los mismos.
8.4.1. Intrı́nsecas en el espacio-tiempo
La función aleatoria Z(u,t) es intrı́nseca en el espacio-tiempo si:

E[Z(u,t)] = m (8.78)
El semivariograma espacio temporal es independiente de la localización u y del tiempo t:

1
γ(h, ∆t) = V [Z(u + h,t + ∆t) − Z(u,t)] (8.79)
2
El problema que surge al calcular los semivariogramas espacio temporales es que no hay una función
de distancia en común. Las distancias espaciales pueden ser calculadas, al igual que las diferencias de
tiempo, pero lo que no se conoce es el equivalente espacial para una diferencia de tiempo. Esto se puede
obtener calculando los semivariogramas experimentales para el espacio y el tiempo de forma separada.
Para la componente temporal:

1
γ∗T (∆t) = ∑ (Z(ui ,ti ) − Z(u j ,t j ))2
2NT (∆t) (i, j)∈R
(8.80)
T (∆t)
i i
i i
i i

i i
Donde:
RT (g) {(i, j); g − ε ≤ |ti − t j | ≤ g + ε y (ui = u j )}
NT (g) Cantidad de elementos en RT (g).
Para la estructura espacial:
1
γ∗S (h) = ∑
2NS (h) (i, j)∈R
(Z(ui ,ti ) − Z(u j ,t j ))2 (8.81)
S (h)
Donde:
RS (g) {(i, j); g − ε ≤ |ui − u j | ≤ g + ε y |ti − t j | ≤ δ}
NS (g) Cantidad de elementos en RS (g).
Luego, existen dos situaciones:
El tipo de los dos variogramas experimentales son similares, tienen el mismo efecto pepita y el mismo
tope. Esto significa que cuanto mucho se observará una anisotropı́a geométrica que será tratada con
una transformación lineal, resultando un modelo isotrópico. La distancia de un vector (h, ∆t) se define
como: q
|(h, ∆t)| = |h|2 + kt |∆t|2 (8.82)
El tipo de los dos variogramas experimentales son diferentes, teniendo una forma diferente y/o un tope
distinto. En este caso se modelará un variograma teórico de acuerdo a una anisotropı́a zonal. En este
caso el variograma espacio temporal γST (h, ∆t) puede ser escrito como:
γST (h, ∆t) = γS (h) + γT (∆h) (8.83)
En ambos casos el sistema de kriging se calcula de igual manera que en casos anteriores.
8.4.2. Intrı́nsecas en el espacio e independientes del tiempo
La función aleatoria Z(u,t) es espacialmente intrı́nseca con el variograma independiente del tiempo si:
E[Z(u,t)] = m (8.84)
i i
i i
i i

i i
8.4. KRIGING SOBRE SERIES TEMPORALES 103
El variograma espacial es independiente de la localización u y del tiempo t si ∆t ≤ δ:

1
γ(h) = V [Z(u + h,t + ∆t) − Z(u,t)] (8.85)
2
8.4.3. Intrı́nsecas en el espacio y dependientes del tiempo
La función aleatoria Z(u,t) es espacialmente intrı́nseca con el variograma dependiente del tiempo si:
E[Z(u,t)] = m(t) (8.86)
El variograma espacial para un tiempo t es independiente de la localización u si ∆t ≤ δ y k(t) es una

función de tiempo dependiente:
1
γ(h,t) = k(t) V [Z(u + h,t + ∆t) − Z(u,t)] (8.87)
2
Por ejemplo:
Semivariograma proporcional con la media:

k(t) = m(t)2 (8.88)
Z(u,t)
Esto significa que m(t) es espacialmente intrı́nseca con un variograma independiente del tiempo.
Semivariograma proporcional con la varianza:
k(t) = V [Z(u,t)] con t fijo (8.89)
Esto significa que la estructura de correlación se preserva a través del tiempo.
8.4.4. Series temporales interpretadas como diferentes realizaciones
En el caso de parámetros basados en eventos o con cambios bruscos, las series temporales pueden ser
utilizadas para un análisis mas profundo de la estructura de correlación espacial. Esto requiere que se
asuman como similares aquellos procesos observados en instantes de tiempo cercanos, pero la similitud
es solo aceptada en la correlación de los eventos en la distribución espacial.
Si esto se cumple, puede ser detectado mediante el cálculo del coeficiente de correlación ρ para series
temporales de los distintos pares de localizaciones (ui , u j ):
CovT (Z(ui ,t), Z(u j ,t))
ρi j = p (8.90)
V [Z(ui ,t)]V [Z(u j ,t)]
i i
i i
i i

i i
Siendo la covarianza temporal:
CovT (Z(ui ,t), Z(u j ,t)) = E[Z(ui ,t) − E[Z(ui ,t)]Z(u j ,t) − E[Z(u j ,t)]] (8.91)
El coeficiente de correlación es el coeficiente temporal estandarizado entre dos series temporales, donde:
valor positivo (max: 1) Relación lineal positiva fuerte.
valor neutral 0 Sin relación lineal.

valor negativo (min: −1) Relación lineal negativa fuerte.
Si al coeficiente anterior se lo calcula para un numero de pares, de tal forma que denote una función
con respecto a la distancia entre los pares, mostrarı́a una figura similar a la obtenida por una función
de covarianza espacial (Función 6.3, Figura 6.2).
Si la hipótesis de similitud es conocida los coeficientes de correlación pueden utilizarse para:
Una nube de covarianzas, similar a la nube del variograma, que puede ser utilizada para el cálculo del
kriging.
La información contenida en la estructura de la correlación espacial, que puede ser utilizada para futu-
ras optimizaciones de la función de correlación teórica.
i i
i i
i i

i i
Bibliografı́a
[Ber] Levine Berenson. Estadı́stica para la Administración.

[Bá] András Bárdossy. Introduction to Geostatistics.
[Cai08] Amanda Walters; Qian Cai. Investigating the use of holt-winters time series model for forecasting
population at the state and sub-state levels. Febrero 2008. Demographics and Workforce Section,
Weldon Cooper Center for Public Service, University of Virginia.
[Cap] Carlos Capelletti. Elementos de Estadı́stica.
[Fer04a] Ignacio Cascos Fernández. Estadı́stica descriptiva. 2004.
[Fer04b] Jesús Sánchez Fernández. Introducción a la Estadı́stica Empresarial. 2004. ISBN: 84-688-9882-1.
[Hoa84] Nguyen Dinh Hoa. The lagrange multiplier function in the equation approach to constrained opti-
mization. Universitatis Iagellonicae Acta Matemática, XXIV:99–117, 1984.
[Kal04] Prajakta S. Kalekar. Time series forecasting using holt-winters exponential smoothing. Diciembre
2004. Kanwal Rekhi School of Information Technology.
[Men] William Mendenhall. Estadı́stica para administradores.
[Mus67] Julius Shiskin; Allan H. Young; John C. Musgrave. The x-11 variant of the census method ii
seasonal adjustement program. Technical report, Boreau of the Census Economic Research and
Analysis Division, Febrero 1967.
[Pé03] Luis Lechuga Pérez. Métodos estadı́sticos en la ingenierı́a. Departamento de Matemática Aplicada,
Universidad de Málaga, 2003.
[Wik] Wikipedia. Probabilidad.
105
i i
i i

Geoestadistica Book

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Geoestadistica Book

Uploaded by

Copyright:

Available Formats

i i

“Geoestadistica-book” — 2010/8/15 — 21:27 — page 1 — #1

Eloy Colell Juan Uribe Pablo Chale

“Geoestadistica-book” — 2010/8/15 — 21:27 — page 2 — #2

“Geoestadistica-book” — 2010/8/15 — 21:27 — page 1 — #3

Conceptos Básicos de Geoestadı́stica

“Geoestadistica-book” — 2010/8/15 — 21:27 — page 2 — #4

“Geoestadistica-book” — 2010/8/15 — 21:27 — page 1 — #5

Este trabajo es distribuido bajo la licencia Creative Commons

Impreso el dı́a 15 de agosto de 2010.

“Geoestadistica-book” — 2010/8/15 — 21:27 — page 2 — #6

“Geoestadistica-book” — 2010/8/15 — 21:27 — page 3 — #7

1.1. Propiedades de los Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.2. Estadı́stica Bivariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.2.2. Coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.2. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.3. Variable Aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.4. Distribución de probabilidad / Función de densidad . . . . . . . . . . . . . . . . . . . . . . 24

2.5. Función de distribución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.6. Esperanza Matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

“Geoestadistica-book” — 2010/8/15 — 21:27 — page 4 — #8

2.7. Varianza y Desviación Tı́pica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.9. Distribuciones de Probabilidad conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.9.1. Distribución Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.9.2. Distribución de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.9.3. Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.9.4. Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.9.5. Distribución Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.9.6. Distribución Geométrica o de Pascal . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.9.7. Distribución Binomial negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.10. Funciones de Densidad conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.10.1. Distribución Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.10.2. Distribución Normal o de Laplace-Gauss . . . . . . . . . . . . . . . . . . . . . . . 35

2.10.3. Distribución Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.10.4. Distribución Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.10.5. Distribución χ2 de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.10.6. Distribución Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.10.7. Distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.10.8. Distribución F de Fisher-Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.11. Teorı́a de Muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.11.1. Inferencia Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

2.11.2. Contraste de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

“Geoestadistica-book” — 2010/8/15 — 21:27 — page 5 — #9

3.1.1. Análisis gráfico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.1.2. Medias móviles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.1.3. Método analı́tico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.1.4. Alisado exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.2. Variación Estacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.3. Variación Cı́clica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.4. Variación Residual (o Indeterminada) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.1. Tasas de variación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

6.1. Estacionalidad de Segundo Orden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

6.2. Hipótesis Intrı́nseca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

6.3. Comparación de las dos hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

6.4. Selección de la variable regionalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

7.1. Variograma Experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

7.2. Variograma Teórico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

7.2.1. Modelos con un tope . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

7.2.2. Modelos sin un tope . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

“Geoestadistica-book” — 2010/8/15 — 21:27 — page 6 — #10

7.3. Ajuste a un modelo teórico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

7.3.2. Mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

7.3.3. Probabilidad máxima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84