You are on page 1of 114

Anlisis Geostadstico

de datos funcionales

Proyecto Fin de Mster - Mster en Tcnicas Estadsticas

Alumna: Mara Jos Ginzo Villamayor


Tutor: Manuel Febrero Bande
Resumen

El anlisis de datos funcional se ocupa de la modelizacin estadstica de variables aleatorias que


toman valores en un espacio de funciones (variables funcionales). Varias tcnicas estadsticas
estndares tales como la regresin, ANOVA o componentes principales, entre otros, han sido
considerados desde el punto de vista funcional. En general, estas metodologas se centran en
variables funcionales independientes e idnticamente distribuidas. Sin embargo, en varias disci-
plinas de las ciencias aplicadas, existe un gran inters en la modelizacin de datos funcionales
espacialmente correlados. En particular, la mayora de ellos estn interesados en el modelado
de datos funcionales espacialmente correlacionados. Este es el tema aqu tratado. En concreto,
este proyecto trata la prediccin de curvas, cuando se dispone de una muestra de las curvas de
una regin con continuidad espacial.

Se revisan tres mtodos para la prediccin espacial de los datos funcionales. Inicialmente,
se propone un predictor que tiene la misma forma que el predictor kriging clsico, pero teniendo
en cuenta las curvas en lugar de datos de una sola dimensin. Los otros predictores surgen
de adaptaciones de modelos lineales funcionales con respuesta funcional en el caso de datos
funcionales espacialmente correlacionados. Por un lado, se define un predictor que es una com-
binacin de kriging y del modelo funcional lineal point-wise (concurrente). Por otra parte, se
utiliza el modelo funcional lineal total para extender dos mtodos clsicos geoestadsticos mul-
tivariantes para el contexto funcional. El primer predictor se define en trminos de parmetros
escalares. En el resto de los casos, los predictores implican parmetros funcionales. Se adapta
un criterio de optimizacin, criterio utilizado en prediccin espacial multivariante para estimar
los parmetros escalares y funcionales que intervienen en los predictores propuestos. En todos
los casos se da un enfoque no paramtrico basado en la expansin en trminos de bases de fun-
ciones que se usa para obtener las curvas a partir de datos discretos.

Las metodologas propuestas se ilustran mediante el anlisis de un conjunto de datos real


correspondiente a la curva de temperatura que es funcin del tiempo.

Palabras clave: base de funciones; Cokriging; validacin cruzada; modelo lineal funcional;
Kriging; prediccin espacial multivariante.

iii
Contenidos

Introduccin 1

1 Geostadstica Univariante 5
1.1 Tipos de datos espaciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Anlisis estructural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1 Variable regionalizada . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.2 Hiptesis de estacionariedad . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Estudio del semivariograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Anisotropa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.1 Anisotropa geomtrica . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.2 Anisotropa zonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5 Condicin de positividad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6 Versiones muestrales de algunas medidas de variabilidad espacial . . . . . . . . 14
1.7 Factores a tener en cuenta para la modelizacin . . . . . . . . . . . . . . . . . 15
1.8 Mtodos de estimacin de los parmetros del variograma . . . . . . . . . . . . 16
1.8.1 Estimacin por mnimos cuadrados (MC) . . . . . . . . . . . . . . . . 16
1.8.2 Estimacin mximo verosmil (MV) . . . . . . . . . . . . . . . . . . . 17
1.9 Kriging: prediccin e interpolacin . . . . . . . . . . . . . . . . . . . . . . . . 18
1.9.1 Kriging Simple (SK) . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.9.2 Kriging Ordinario (OK) . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.9.3 Kriging universal(UK) . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.9.4 Cokriging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2 Geostadstica Multivariante 29
2.1 Anlisis estructural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2 Cokriging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.1 Cokriging simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.2 Cokriging ordinario . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3 Cokriging universal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.4 Condicin de insesgadez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

v
vi CONTENIDOS

3 Anlisis de datos funcionales 37


3.1 Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Tcnicas exploratorias para Datos Funcionales . . . . . . . . . . . . . . . . . . 40
3.2.1 Media, Varianza, covarianza, correlacin, covarianza cruzada y correlacin
cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.2 Componentes principales . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3 Bases para datos funcionales . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.1 Bases de Fourier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.2 Bases B-Splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3.3 Bases de Wavelets . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4 Suavizacin de datos funcionales . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.5 Eleccin de la suavizacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.5.1 Regresin - representacin en base . . . . . . . . . . . . . . . . . . . . 45
3.5.2 Regresin Lineal Funcional . . . . . . . . . . . . . . . . . . . . . . . 45

4 Ejemplo real de Kriging con datos reales funcionales 49


4.1 Conceptos bsicos de meteorologa . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2 Kriging ordinario para funciones-valores de datos espaciales . . . . . . . . . . 53
4.2.1 Prediccin y estimacin de los parmetros . . . . . . . . . . . . . . . . 54
4.2.2 Estimacin la traza del variograma . . . . . . . . . . . . . . . . . . . . 58
4.2.3 Enfoque no paramtrico . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.4 Resultados de la aplicacin . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3 Kriging variacin de tiempo continua para la prediccin espacial de datos fun-
cionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.3.1 Predictor y problema de minimizacin . . . . . . . . . . . . . . . . . . 68
4.3.2 Una solucin basada en bases de funciones . . . . . . . . . . . . . . . 69
4.3.3 Resultados: prediccin espacial de las curvas de temperatura en Galicia 72
4.4 De multivariante a geostadstica funcional . . . . . . . . . . . . . . . . . . . . 75
4.4.1 Cokriging basado en datos funcionales . . . . . . . . . . . . . . . . . . 76
4.4.2 Kriging funcional: modelo total . . . . . . . . . . . . . . . . . . . . . 80
4.4.3 Resultados: Prediccin espacial de la temperatura en las curvas Galicia 83
4.5 Comparacin de las tres tcnicas . . . . . . . . . . . . . . . . . . . . . . . . . 85

A Histogramas y boxplots de la Temperatura de Galicia ao 2009 99

Bibliografa 105

Glosario 107

Index 108
Introduccin

La mayora de los fenmenos naturales que se estudian son variables medidas tanto en el espacio
como en el tiempo. Considerando una superficie de un suelo, por ejemplo, en ocasiones se puede
observar una alta variabilidad en distancias pequeas. Esta variabilidad es el resultado de los
procesos naturales. Si se tienen datos de una de esas variables en n sitios de una regin con
continuidad espacial, implcitamente en cada uno de ellos hay una observacin funcional y as
usando tcnicas de suavizado los valores encontrados pueden convertirse en un dato funcional.
Por ello, en este proyecto se mostrar cmo las tcnicas de permiten identificar tendencia en
media y varianza y explorar la estructura de autocorrelacin inherente a un conjunto de datos
medidos en una regin con continuidad espacial mediante el uso de varios ejemplos. Muchos de
los datos recogidos en problemas de las ciencias aplicadas son curvas. Para modelizar este tipo
de informacin est el Anlisis de Datos Funcionales (FDA), (se puede ver en [26]) se utiliza
desde finales de los aos noventa. En ciencias como la agronoma, meteorologa, ecologa y
otras el anlisis geostadstico, (vase [6]) se utiliza, a menudo, para describir la distribucin
espacial.
La palabra geoestadstica se compone de dos partes, geo y estadstica de manera similar a
trminos como geofsica o geoqumica. Se usa con dos acepciones diferentes:

1. como una coleccin de todos los mtodos estadsticos y probabilsticos aplicados a las
geo-ciencias,

2. y como nombre para la teora de variables regionalizadas.

La geoestadstica fue usada primero por la industria minera, debido a los altos costes altos
que suponan las perforaciones que se hacan, de ah que el anlisis de los datos fuera de suma
importancia. De hecho muchos libros y publicaciones sobre geoestadstica estn en su mayora
orientados a problemas de minera.
La motivacin de este trabajo es ofrecer una solucin al problema de predecir curvas en
aquellas zonas no muestreadas de una regin, basndonos en estas dos ramas estadsticas, el
anlisis de datos funcionales y la estadstica espacial. Los captulos 1-3 recogen el fundamento
terico ms importante, necesario para este proyecto, para ambas ramas.

La modelizacin de variables medidas en diferentes sitios de una regin con continuidad


espacial,(vase en [6]) ha tenido desde los aos sesenta junto con el desarrollo del anlisis
geostadstico un gran uso en varias ciencias medioambientales, en minera, geologa, ecologa.

1
2 CONTENIDOS

Por convencin, el anlisis geostadstico es un procedimiento de dos pasos. El primero, la estruc-


tura espacial de la variable es examinada con el anlisis del varioagrama. Una vez se tiene una
estructura espacial y precisado un modelo adecuado (esfrico, exponencial o gasussiano, segn
sea el caso), se utiliza algn procedimiento kriging para interpolar la variable no muestreada.
En el contexto geostadstico multivariante consideramos simultneamente p procesos aleato-
rios espaciales, (vase en [6]). Es necesario encontrar un modelo para la covarianza espacial en
el que todas las variables estn incluidas en el anlisis. Se va a utilizar la informacin multivari-
ante para predecir cada uno de los puntos no muestreados. Un caso particular de geostadstica
multivariante es el mtodo cokriging bivariante, (en [6]).
Otra rama importante de la geostadstica es el anlisis de datos espacio-temporales. Los
modelos geostadsticos espacio-temporales proporcionan una herramienta probabilsstica para
el anlisis de datos y predicciones basadas en la dependencia temporal entre las observaciones.
En contraposicin a la geostadstica multivariante, donde a menudo hay unas cuantas variables
en cada ubicacin, los conjuntos espacio-temporales de datos pueden ser muy grandes.
La comunidad estadstica ha estado interesada en desarrollar modelos para datos funcionales,
ya desde trabajos publicados a finales de los aos setenta a otros ms actuales como el trabajo de
Ramsay, ([24]). Nuevas metodologas que combinan los modelos no paramtricos con los datos
funcionales se puenden consultar en [8].
De la misma manera que los mtodos estadsticos estndares han sido generalizados para ser
utilizados en FDA, es posible pensar que los mtodos geostadsticos pueden ser adaptados a este
tipo de datos.
El proyecto ha sido estructurado del siguiente modo, en el Captulo 1 se hace una breve de-
scripcin de la geostadstica univariante, en el Captulo 2 se generalizan los conceptos anteriores
en un contexto multivariante. En dicho contexto, m procesos aleatorios espaciales se consideran
simultneamente. Es necesario encontrar un modelo de covarianza espacial para todas las vari-
ables incluidas en el modelo. Por tanto, se usa la informacin multivariante para predecir en
cada uno de los puntos no muestreados. El Captulo 3 revisa la teora fundamental del anlisis
de datos funcionales. Las tcnicas habituales para la modelizacin de datos funcionales se cen-
tran en funciones independientes. Sin embargo, en varias reas de las ciencias aplicadas, existe
un gran inters por la modelizacin de datos funcionales correlados. De ah que mtodos estads-
ticos para la modelizacin de variables correladas, como por ejemplo el anlisis geostadstico,
hayan sido adaptadas al contexto funcional. Una vez que el lector est entrenado con todos es-
tos conceptos, en el Captulo 4, se le ofrece una aplicacin de los mismos combinando ambas
tcnicas a unos conjuntos de datos.
En resumen, lo que contiene este proyecto fin de mster es una revisin crtica de los mtodos
que se han considerado previamente, en estadstica espacial con datos funcionales y aplicados a
un conjunto de datos real como es el de la temperatura en Galicia.
Este conjunto de datos tiene tanto componente espacial y funcional.
Datos metereolgicos de Galicia
La prediccin espacial en datos meteorolgicos es un factor importante para muchos tipos de
modelos como los hidrolgicos, los de crecimiento y mortalidad de los ecosistemas forestales.
Como caso particular se tiene el modelado de datos de temperatura. A lo largo de la historia
geostadstica se han desarrollado y utilizado muchos mtodos para hacer prediccin espacial
CONTENIDOS 3

de temperatura, aunque, en la mayora de las ocasiones, no se ha tenido en cuenta su carcter


funcional. En este proyecto se usa un conjunto de datos meteorolgicos, se dispone de datos
de temperatura media del ambiente para Galicia en 66 estaciones distribuidas por Galicia del
siguiente modo:

13 (en 13 municipios distintos) en la provincia de A Corua (94 municipios)

20 (en 19 municipios distintos) en la provincia de Lugo (67 municipios)

15 (en 15 municipios distintos) en la provincia de Orense (92 municipios)

18 (en 16 municipios distintos) en la provincia de Pontevedra (62 municipios)

En particular se analiza la informacin de la temperatura promedio diaria durante el ao


2009 (Figura 1).
25
20
Temperatura (grados C)

15
10
5
0
5

0 100 200 300

Da

Figura 1: Valores medios de las curvas diarias de la temperatura media observado en 66 esta-
ciones meteorolgicas de Galicia.

Los datos de cada estacin se obtuvieron la pgina web de Meteogalicia - Xunta de Galicia
(http://www.meteogalicia.es/web/index.action). Las coordenadas geogrficas de estaciones me-
teorolgicas (Figura 2) tambin se han obtenido de esa pgina. Estos datos son analizados en el
Captulo 4.
Figura 2: Estaciones metereolgicas. El punto marcado en rojo corresponde a la Facultad de
Matemticas, punto no muestreado.
Captulo 1

Geostadstica Univariante

La Geostadstica es la ciencia que estudia los fenmenos que fluctan en el espacio y/o tiempo,
oferciendo una coleccin de herramientas estadsticas para la descripcin y modelizacin de la
variabilidad espacial (y temporal).
El trmino Estadstica Espacial se usa para describir una amplia variedad de modelos y
mtodos adecuados para el anlisis de datos referenciados espacialmente. En el libro [6] se
puede encontrar una descripcin general de stos.
El anlisis espacial comprende el conjunto de conceptos y procedimientos utilizados para
abordar el estudio de la estructura y las relaciones territoriales a partir del conocimiento de la
posicin de las entidades geogrficas y las caractersticas de las variables seleccionadas para su
investigacin.
Cuando la distribucin espacial de los datos es importante para su estudio e interpretacin,
la aplicacin de tcnicas especficas para datos espaciales cobra importancia puesto que puede
proporcionar mayor informacin que las tcnicas tradicionales.
Las bases de datos espaciales deben contener observaciones de una (o varias) variables es-
tadsticas de inters y una referencia cartogrfica. Estas variables van a ser continuas, la nica
condicin que se le impone es que exista alguna dependencia entre dos variables con distinta ref-
erencia cartogrfica, es decir, dos observaciones son ms similares cuanto ms cercanas son sus
realizaciones muestrales y a su vez, a medida que la distancia de las localizaciones muestrales
aumenta, la correlacin entre las variables tiende a anularse. La caracterstica de dependencia es
una diferencia importante respecto al anlisis estadstico efectuado con datos independientes lo
que va a suponer ventajas, ya que las predicciones sern ms precisas, como inconvenientes, las
estimaciones menos precisas.
No existe ninguna restriccin en las referencias cartogrficas, que pueden ser una referencia
territorial explcita como latitud y longitud (datos geogrficos) o una referencia implcita como
domicilio o cdigo postal (datos socio-econmicos).
En estadstica espacial se distinguen tres tipos de datos (vase [6]): datos geoestadsticos o
georreferenciados (geostatistical data), datos en rejilla o datos en un rea (lattice data), y datos
de procesos puntuales (point processes data).

5
6 C APTULO 1. G EOSTADSTICA U NIVARIANTE

1.1 Tipos de datos espaciales


1. Datos geoestadsticos o georreferenciados (geostatistical data)
Los datos espacialmente continuos son mediciones tomadas en puntos fijos con localiza-
ciones continuas en el espacio. Las mediciones clsicas en salud ambiental, tales como
contaminacin de suelos y de aire o la radiacin natural, suelen pertenecer a esta categora.
La variable medida, sin embargo, puede ser tanto continua como discreta. El objetivo es
el de, dados los valores tomados en puntos de muestreo fijos, extender la distribucin es-
pacial de los valores de un atributo sobre la regin total de estudio. Por lo tanto el anlisis
de los datos geoestadsticos puede contemplar tanto la modelizacin del patrn de vari-
abilidad, la determinacin de los factores con los que pueda estar relacionado, como la de
obtener una buena prediccin de la variable en puntos donde no se ha muestreado. Estos
mtodos son muy utilizados en estudios del rea de geociencias (suelo, clima, hidrologa,
geologa minera, etc) por lo que tambin suelen ser denominados datos geoestadsticos.

2. Datos en rejilla o datos en un rea (lattice data)


Los datos en rejilla son observaciones procedentes de un proceso aleatorio, observadas
sobre una coleccin contable de regiones espaciales, que pueden estar regular o irregular-
mente distribuidas, complementados con lo que se denomina estructura de vecindad, es
decir, informacin sobre las regiones vecinas. Matemticamente una rejilla queda definida
como un conjunto de lados y de vrtices, es decir, un conjunto de ndices de localizaciones
con un conjunto asociado de vecinos. Ya que los datos en rejilla estn definidos en re-
giones espaciales, las localizaciones concretas especificadas por el vector suelen referirse
al centroide de la regin.

3. Datos de procesos puntuales (point processes data)


Se denominan datos patrones de puntos o procesos puntuales, cuando las localizaciones
(y no las mediciones) son las variables de inters. Consisten en un nmero finito de local-
izaciones observadas en una regin determinada. El objetivo de los procesos puntuales es
el de conocer la variacin de la intensidad de los eventos sobre la regin de estudio y el de
buscar modelos que ayuden a explicar o comprender el fenmeno. Tan importante como
la variable estudiada suele ser el patrn de variacin espacial.

Independientemente del tipo de datos, los objetivos principales del estudio de la Estadstica
Espacial son, como en casi todos los campos de la Estadstica, dos:

1. Descripcin de los datos. Esto puede incluir no slo el estudio descriptivo del proceso
Z(u), tal como se entiende dentro de la estadstica clsica, sino tambin la modelizacin
del tipo de dependencia espacial.

2. Prediccin. Sin duda en muchas ocasiones la prediccin es el objetivo que motiva el


estudio de datos espaciales.
1.2 A NLISIS ESTRUCTURAL 7

1.2 Anlisis estructural


En geoestadstica los datos se observan en u localizaciones de un conjunto D Rd donde
d indica la dimensin del espacio. Las localizaciones se expresan en dos o tres coordenadas
espaciales, como por ejemplo, longitud, latitud, y/o altitud. Las observaciones se toman en cada
localizacin y se consideran como una realizacin de un proceso estocstico espacial denotado
generalmente por Z(u).
La funcin de distribucn acumulada de una variable aleatoria continua dependiente de la
localizacin espacial u, Z(u) viene definida por:

F (u; z) = P {Z(u) z}

siendo P la funcin de probabilidad asociada. En la prctica se suele trabajar con informacin


de n datos, por lo que la variable aleatoria se suele denotar por Z(ui ) = z(ui ), i = 1, . . . , n y
en ese caso se trabaja con la funcin de distribucin acumulada condicional dada por:

F (u; k|n) = P {Z(u) z|n}

En geostadstica es importante modelizar el grado de correlacin o dependencia espacial entre


una cierta variable Z(ui ), i = 1, . . . , n.

1.2.1 Variable regionalizada


Una variable medida en el espacio de forma que presente una estructura de correlacin, se dice
que es una variable regionalizada. De manera ms formal se puede definir como un proceso
estocstico con dominio contenido en un espacio D Rd . En trminos prcticos Z(u) puede
verse como una medicin de una variable aleatoria (por ejemplo concentracin de un contam-
inante) en un punto u de una regin de estudio. Un proceso estocstico es una coleccin de
variables aleatorias indexadas, esto es, para cada u en el conjunto de ndices D, Z(u) es una
variable aleatoria. En el caso de que las mediciones sean hechas en una superficie, entonces
Z(u) puede interpretarse como la variable aleatoria asociada a ese punto del plano (u representa
las coordenadas, planas o geogrficas, y Z la variable en cada una de ellas). Estas variables
aleatorias pueden representar la magnitud de una variable ambiental medida en un conjunto de
coordenadas de la regin de estudio.

1.2.2 Hiptesis de estacionariedad


Una variable aleatoria Z(u), u A se dice que es estacionaria en la regin A si la funcin de
distribucin acumulada es invariante bajo cualquier traslacin C efectuada sobre sus localiza-
ciones:

F (u1 , . . . , uk ; Z1 , . . . , Zk ) = F (u1 + C, . . . , uk + C; Z1 + C, . . . , Zk + C)

para cualquier vector de traslacin C. Es decir, esta hiptesis establece el grado de homogenei-
dad espacial del fenmeno.
8 C APTULO 1. G EOSTADSTICA U NIVARIANTE

Como slo se dispone de una realizacin discreta de la variable Z(u), es inevitable que haya
que asumir ciertas hiptesis para poder llevar a cabo algn tipo de estudio estadstico. El tipo de
estacionariedad asumido indica qu tipo de inferencia estadstica puede realizarse con el modelo
probabilstico.
Se considera un proceso estocstico {Z(u), u D}, donde D es un subconjunto de Rd
(espacio Eucldeo d-dimensional). El proceso Z se dice que es Gaussiano si, para cualquier
natural k 1 y las localizaciones u1 , . . . , uk , el vector (Z(u1 ), Z(u2 ), . . . , Z(uk )) tiene una
distribucin normal multivariante.

Estrictamente Estacionario
Si la correspondiente distribucin de (Z(u1 ), Z(u2 ), . . . , Z(uk )) es la misma que la del vector
(Z(u1 + h), Z(u2 + h), . . . , Z(uk + h)) para cualesquiera u1 , u2 , . . . , uk puntos espaciales y
cualquier h Rd , el proceso se dice que es estrictamente estacionario.

Estacionario de segundo orden


El proceso Z se dice que es estacionario de segundo orden, o estacionariamente dbil si (u)
, es decir, la media es la misma para todas las u y Cov {Z(u1 ), Z(u2 )} = C (u1 u2 ), para
todos u1 D, u2 D, donde C(u) es la funcin de covarianza entre una observacin u y
de otra en el 0. C(u) recibe el nombre de covariograma. Como consecuencia de la definicin
tenemos:

Z2 = C(0), x D.

C es una funcin simtrica: C(h) = C(h).

Aplicando la desigualdad de Cauchy-Schwarz puede demostrarse que


|C(h)| C(0).

C(h) es una funcin definida positiva.

Una funcin relacionada es el correlograma, (h) = C(h)/C(0), verificando que


|(h)| (0) = 1

Se puede ver que si todas las varianzas son finitas entonces un proceso estrictamente esta-
cionario es tambin estacionario de segundo orden. La afirmacin inversa es falsa, en general,
pero un proceso Gaussiano que es a la vez estacionario de segundo orden ser tambin estricta-
mente estacionario, ([6]).

Hiptesis intrnseca
Si se asume que (u) es una constante, la cual podemos suponer cero sin prdida de generalidad,
se puede definir:
2(u1 u2 ) = Var {Z(u1 ) Z(u2 )}
1.2 A NLISIS ESTRUCTURAL 9

La ecuacin anterior slo tiene sentido si la parte izquierda depende de u1 y u2 slo a travs
de su diferencia u1 u2 . Un proceso que satisface esta propiedad se llama intrnsicamente
estacionario. La funcin 2() se llama variograma y () semivariograma.

1. es una funcin simtrica (h) = (h).

2. |(h)| (0) = 0.

3. Variograma estandarizado: s (h) = (h)/Z2 , s (0) = 0.

La propiedad intrnsecamente estacionario es ms dbil que la estacionariedad de segundo


orden.
Si se supone que el proceso es estacionario de segundo orden se verifica que:

Var {Z(u1 ) Z(u2 )} = Var {Z(u1 )} + Var {Z(u2 )} 2Cov {Z(u1 ), Z(u2 )}
= 2C(0) 2C(u1 u2 )

y tambin si se verifica la condicin de estacionario de segundo orden, entonces:

(h) = C(0) C(h)

Como consecuencia,ambas funciones son equivalentes para caracterizar la dependencia espacial


de la variable regionalizada Z(h).
Adems el variograma debe cumplir:

1. (h) es una funcin condicionalmente definida negativa.

(h)
2. lim|h|+ |h|2
= 0.

Desde este punto de vista, las distintas formas (ms fuertes) de estacionariedad no son nece-
sarias. La estacionariedad tanto intrnseca como la de segundo orden son suposiciones ms
naturales. Por ello, hay que ser cauto cuando un anlisis preliminar de los datos indica que el
proceso es intrnsecamente estacionario y no estacionario.

Isotropa

Un concepto diferente es el de isotropa. Si se supone que el proceso es intrnsecamente esta-


cionario con semivariograma (h), h Rd . Si (h) = 0 (khk), es decir, si el semivariograma
depende del vector h slo a travs de su longitud khk, entonces el proceso es isotrpico.
Un proceso que es a la vez intrnsecamente estacionario e isotrpico se dice que es homog-
neo.
10 C APTULO 1. G EOSTADSTICA U NIVARIANTE

1.3 Estudio del semivariograma


El estudio del semivariograma, o variograma, es ms habitual que el estudio del covariograma.
Las razones son dos:

La hiptesis de intrnsecamente estacionaria incluye la condicin de estacionaria de se-


gundo orden.

Para el clculo del semivariograma no es necesario conocer la media de la variable.

Por otra parte, si la variable es estacionaria de segundo orden, siempre puede obtenerse la fun-
cin de covariograma a partir de la funcin de semivariograma: (h) = Z2 C(h).
De ahora en adelante, por facilidad de notacin, se denotar el variograma isotrpico por
(h), donde h representa la longitud del vector, en lugar del propio vector. El semivariograma
representa un ndice de cambio que muestra una variable con la distancia. Su forma describe el
patrn de variacin espacial en trminos de su magnitud y forma general.

La pediente del semivariograma indica la intensidad de cambio del atributo (variable) anal-
izado con la distancia al mismo tiempo que el porcentaje de disminucin en la dependencia
espacial. El mximo valor que alcanza un semivariograma se llama meseta (sill) o varianza a
priori, e indica la escala bajo la cual los datos definen un proceso estacionario de segundo orden.
La meseta puede ser o no finita. Los semivariogramas que tienen meseta finita cumplen con la
hiptesis de estacionariedad fuerte; mientras que cuando ocurre lo contrario, el semivariograma
define un fenmeno natural que cumple slo con la hiptesis intrnseca.

El lag o distancia para la que el sill es alcanzado se llama rango o alcance y define el
lmite de la dependencia espacial. El rango se interpreta como la zona de influencia. Existen
algunos modelos de semivariograma en los que no existe una distancia finita para la cual dos
observaciones sean independientes; por ello se llama rango efectivo a la distancia para la cual el
semivariograma alcanza el 95% de la meseta. Cuanto ms pequeo sea el rango, ms cerca se
est del modelo de independencia espacial. El rango no siempre aparece de manera explcita en
la frmula del semivariograma.

Finalmente un semivariograma con trmino independiente define la varianza llamada Efecto


Pepita (nugget), la cual define la variabilidad intrnseca en los datos y que no ha sido captada
por el rango de distancia analizadas as como cualquier variacin puramente aleatoria. Repre-
senta una discontinuidad puntual del semivariograma en el origen. Puede ser debido a errores
de medicin en la variable o a la escala de la misma. En algunas ocasiones puede ser indicativo
de que parte de la estructura espacial se concentra a distancias inferiores a las observadas.

Denotando por |h| = khk, algunos ejemplos de semivariogramas isotrpicos son:

1. Modelo Nugget effect.


1.3 E STUDIO DEL SEMIVARIOGRAMA 11

Es la estructura ms bsica del semivariograma indicando falta de estructura espacial.


Viene dado por:

0 si |h| = 0,
(|h|) =
1 en otro caso.

2. Modelo lineal.
Define un modelo no acotado en funcin de dos constantes positivas. La funcin tiende
a infinito para distancias grandes lo que hace que este modelo no se corresponda con un
proceso estacionario,

0 si |h| = 0
(|h|) =
c0 + c1 h si |h| > 0.

3. Modelo esfrico.
Definido por un rango actual a, una varianza a priori (sill) c1 y un efecto nugget c0 ,
  3 
|h|
c0 + c1 1.5 a 0.5 |h| a si |h| a
(|h|) =

c0 + c1 si |h| a.

4. Modelo Exponencial.
Definido por un rango efectivo a (rango integral a/3), una varianza a priori (sill) c1 y un
efecto nugget c0 ,
  
3 |h|
(|h|) = c0 + c1 1 exp .
a
5. Modelo Gaussiano.
Definido por un rango efectivo a, una varianza a priori c1 y un efecto nugget c0 ,
" !#
(3 |h|)2
(|h|) = c0 + c1 1 exp .
a2

6. Modelo potencial (Power).


Definido por un factor 0 < < 2, una pendiente positiva c1 y un efecto nugget c0 ,
(|h|) = c0 + c1 |h| .

7. Modelo del efecto Hole o sinusuidal.


Se utiliza para definir componentes cclicas subyacentes. Con una varianza a priori de c1
y un efecto nugget de c0 , se define como
  
|h|
(|h|) = c0 + c1 1.0 cos .
a
Para ser un modelo de variograma correctamente definido, este modelo de efecto hole
debe ser slo aplicado en una direccin.
12 C APTULO 1. G EOSTADSTICA U NIVARIANTE

8. Familia Matrn.
Esta clase se define mejor en trminos de la funcin de covarianza definida por
   
1 2 2 |h| 2 2 2 |h|
C0 (|h|) = 2 1 k2 .
2 (2 ) 1 1

En este caso, 1 > 0 define un parmetro de dependencia espcial y 2 > 0 es un parmetro


de forma. La funcin () representa la funcin gamma mientras que k2 es la funcin
modificada de Bessel de tercera clase de orden 2 . Como casos especiales se tiene que
2 21 tiende a la forma exponencial y el lmite de 2 dara lugar a la forma
Gaussiana.

Todos los modelos anteriores (excepto el lineal y el potencial) son acotados, lo que significa
que el sill (umbral) se alcanza realmente en el lmite a una cierta distancia marcada por el rango.
Adems se tienen las siguientes observaciones:
Para el modelo de efecto nugget, el sill es alcanzado tan pronto la distancia se hace posi-
tiva.

El modelo esfrico alcanza realmente el sill a una distancia equivalente a su rango.

Los modelos exponencial y Gaussiano alcanzan asintticamente el sill, definindose un


rango prctico como aquella distancia para la que el modelo se encuentra al 95% del sill.
Los modelos acotados tambin se suelen llamar modelos de transicin. Por otra parte, los mod-
elos potencial y lineal no tienen sill, y por tanto, carece de su correspondiente funcin de covar-
ianza.
Alrededor del origen podemos ditinguir tres tipos de comportamiento:

1. Comportamiento parablico: (modelo Gaussiano) tal comportamiento es caracterstico de


fenmenos altamente regulares.

2. Comportamiento lineal: (modelos esfrico o exponencial) tal comportamiento es carac-


terstico de aquellos fenmenos que muestran dependencias espaciales a cortas distancias
aumentndolas linealmente con las mismas.

3. Comportamiento discontnuo: (modelo de efecto nugget) evidencia de gran variabilidad


intrnseca a los datos que enmascara cualquier posible dependencia espacial.

El comportamiento cerca del origen del modelo potencial depende de los valores del parmetro
, siendo lineal para = 1 y parablico para valores de cercanos a 2.

1.4 Anisotropa
Hay varias formas de trabajar con procesos anistropicos considerando stos como generaliza-
ciones ms o menos directas de procesos isotrpicos.
1.5 C ONDICIN DE POSITIVIDAD 13

1.4.1 Anisotropa geomtrica


La forma ms simple es considerar la anisotropa geomtrica. Esta se refiere a un semivari-
ograma de la forma
(h) = 0 (kAhk)

donde 0 (kAhk) es un variograma isotrpico y A una matriz de dimensin d x d represen-


tando una transformacin lineal de Rd . Lgicamente si A es la identidad, esto se reduce al caso
isotrpico. La idea subyacente es esta situacin es que el proceso no es isotrpico en el espacio
original, pero s en algn espacio transformado linealmente, el cual puede, por ejemplo, corre-
sponder a una transformacin de las coordenadas. En el caso ms lgico y usual en el que A
es una matriz definida positiva, los contornos de igual covarianza se corresponden con elipses
inscritas en crculos.

1.4.2 Anisotropa zonal


Una posible generalizacin de anisotropa surge de la simple observacin de que si Z1 , . . . , Zp
son procesos independientes intrnsecamente estacionarios, entonces Z = Z1 + . . . + Zp , es
tambin intrnsecamente estacionario, con semivariograma dado por (h) = 1 (h)+. . .+p (h),
denotando 1 , . . . , p los semivariogramas de Z1 , . . . , Zp respectivamente. As,

p
X
(h) = 0 (Ai h) ,
i=1

siendo 0 un semivariograma isotrpico y A1 , . . . , Ap matrices, es un semivariograma vlido


que generaliza la anisotropa geomtrica. Esta anisotropa se llama anisotropa zonal.
Una idea ms complicada es asumir que, para alguna funcin no lineal g(u), el proceso
Z(g(u)), en lugar del original Z(u), es un proceso istropico estacionario. Esta idea puede, de
hecho analizar, tanto la no estacionariedad como la no isotropa.

1.5 Condicin de positividad


Una restriccin importante en geostadstica es que no se puede definir una covarianza espacial
o una funcin de semivariograma de forma arbitraria. Necesariamente la primera de ellas debe
cumplir con la condicin de positividad. En el caso ms general en el que Cov {Z (u1 ) , Z (u2 )} =
C (u1 , u2 ), el cual no supone ninguna condicin de estacionariedad, la condicin de positividad
significa que la relacin
XX
ai aj C (ui , uj ) 0
i j

se cumple para cualquier conjunto finito de puntos u1 , . . . , un y coeficientes reales


P arbitrarios
a1 , . . . , an . Es necesario que la parte izquierda de la ecuacin es la varianza de i ai Z (ui ).
Tambin se tienen estas mismas condiciones en la versin de variogramas. Supongamos que
14 C APTULO 1. G EOSTADSTICA U NIVARIANTE

() es el semivariograma
P de un proceso estacionario de segundo orden, entonces si a1 , . . . , an
son constantes con ai = 0, tenemos
XX
ai aj (ui uj ) 0
i j

Esta es la condicin de no positividad condicional,(explicada en [6]). La anterior condicin es


una condicin necesaria para que () sea un semivariograma vlido en el caso general.

1.6 Versiones muestrales de algunas medidas de variabilidad espa-


cial
Se considera ahora el problema de la estimacin del variograma y de otras medidas de variabil-
idad espacial. En general disponemos de un proceso {Z (u) , u D} observado en un nmero
finito de localizaciones u1 , . . . , uN .

El estimador ms simple viene dado por el mtodo de los momentos, el cual, suponiendo que
los puntos de muestreo u1 , . . . , uN estn definidos en un retculo regular, viene definido por

1 X
2(h) = {Z(ui ) Z(uj )}2 .
#N (h)
(ui ,uj )N (h)

N (h) denota todos aquellos pares (ui , uj ) para los que ui uj = h y #N (h) denota el cardinal
de N (h). En el caso, por otra parte ms comn, de que los puntos de muestreo no estn en un
retculo regular, se aplica la frmula anterior pero con la nueva definicin de N (h),

N (h) = {(ui , uj ) : ui uj T (h)} ,

siendo T (h) alguna vecindad o regin de tolerancia sobre h.


Si disponemos de dos atributos medidos sobre las mismas localizaciones espaciales, puede
ser de inters evaluar la variabilidad espacial (cruzada) entre ambos atributos Z, Y . La medida
adecuada viene de la mano del estimador del variograma cruzado dado por:

1 X
2ZY (h) = (Z(ui ) Z(uj )) (Y (ui ) Y (uj )).
#N (h)
(ui ,uj )N (h)

Una posible objecin al mtodo de los momentos es que no es robusto frente a valores extremos
de Z.
Otra objecin surge del hecho del sesgo de la distribucin: si suponemos que el proceso es
Gaussiano, para valores concretos de u y h, la distribucin de {Z (u + h) Z(u)}2 es de la
forma 2(h)21 , y la distribucin de 21 est sesgada. Sin embargo, si X 21 entonces X 1/4
tiene una distribucin casi simtrica y por tanto las medias muestrales de |Z(u1 ) Z(u2 )|1/2 se
comportarn mejor que las de {Z(u1 ) Z(u2 )}2 .
1.7 FACTORES A TENER EN CUENTA PARA LA MODELIZACIN 15

La funcin de covarianza muestral puede ser tambin obtenida mediante el mtodo de los
momentos se la siguiente forma:
1 X 
C(h) = Z(ui )Z(uj ) m2
#N (h)
(ui ,uj )N (h)
P P
donde m = #N1(h) i Z(ui ). Si adems definimos 2 = 1
#N (h) i Z(ui )
2 m2 , podemos
estandarizar la covarianza para definir el correlograma
C(h)
(h) =
2
Por otra parte, el madograma es una medida similar al variograma del mtodo de los momen-
tos en el que el cuadrado de las diferencias entre Z(ui ) y Z(uj ) es sustituido por la diferencia
absoluta, dando lugar a la siguiente expresin
1 X
2M (h) = |Z(ui ) Z(uj )|
#N (h)
(ui ,uj )N (h)

Algunas de las anteriores medidas de variacin espacial pueden ser usadas cualitativamente
para conseguir estructuras de continuidad espacial. Ms de un tipo de medidas puede ser
obtenida al mismo tiempo. En general, las caractersticas observadas a travs del eje de las
abcisas (distancias) son comunes para todas las medidas de variabilidad / continuidad. Sin em-
bargo los valores del eje de ordenadas que definen el variograma son especficos del tipo de
variograma elegido.
Se tienen dos reglas prcticas que deberan ser tenidas en cuenta al estimar un variograma:
1. el variograma emprico slo debe ser considerado para distancias para las que el nmero
de pares es superior a 30, (ver [? ]);
2. la distancia de fiabilidad para un variograma experimental es h < D/2 siendo D la dis-
tancia mxima que presentan las localizaciones muestreadas.

1.7 Factores a tener en cuenta para la modelizacin


En la prctica de la modelizacin tres son los puntos claves del problema:
1. Determinacin del variograma o covarianza experimental.
2. Anlisis de los posibles variogramas permisibles.
3. Utilizacin de informacin auxiliar, como el conocimiento fsico del rea y fenmeno bajo
estudio o medidas robustas tales como el madrograma.
La modelizacin consiste en la conjuncin de estas diferentes fuentes de informacin para
construir un modelo adecuado que retenga la mayora de las caractersticas de los atributos bajo
estudio.
Algunas decisiones importantes en una modelizacin se centran en:
16 C APTULO 1. G EOSTADSTICA U NIVARIANTE

1. Cmo obtener un modelo isotrpico o anisotrpico;


2. Cul es el nmero y tipo de estructuras bsicas que constituyan el variograma;
3. Eleccin adecuada de los parmetros asociados a los variogramas (sill, rango y nugget).
Respecto a la decisin sobre modelo isotrpico o anisotrpico, en la prctica se suele com-
parar diferentes variogramas experimentales calculados en distintas direcciones (para decidir si
existe anisotropa geomtrica, por lo menos, tres direcciones deben ser consideradas). Una op-
cin que nos puede ayudar para la deteccin de anisotropa direccional, es un scartterplot del
mapa del variograma en el sistema de coordenadas usual. El centro del mapa corresponde con el
origen del variograma (0) = 0. Cuando la variacin es isotrpica, el incremento es similar en
cada direccin y por contra, la anisotropa geomtrica aparece como lneas de contorno elpticas
indicando la direccin de mxima variabilidad espacial. Por esto, la evaluacin de un mapa de
semivariogramas requiere considerar algunas direcciones e intervalos de distancias (lags).
El ltimo peldao en el proceso de la modelizacin consiste en la determinacin de los
parmetros asociados a los modelos seleccionados.

1.8 Mtodos de estimacin de los parmetros del variograma


Asumamos que muestreamos a partir de un proceso espacial homogneo para el que el vari-
ograma ha sido estimado por alguno de los mtodos anteriores.
Los semivariogramas (h) y (h) carecen de la propiedad de no positividad condicional.
Como consecuencia, es posible que algunas predicciones espaciales derivadas a partir de tales
estimadores presenten varianzas negativas. La forma ms clara y comn de evitar esta dificultad
es reemplazando el semivariograma emprico (h) por algn modelo paramtrico, que se sabe
que cumple con la condicin de semidefinido negativo. En general, no es necesario restringirse
a modelos isotrpicos, aunque suelen ser los primeros a ser considerados. Se consideran tres
mtodos:
1. Estimacin por mnimos cuadrados (least squares estimation).
2. Estimacin por mxima verosimilitud (maximum likelihood).

1.8.1 Estimacin por mnimos cuadrados (MC)


Supongamos que tenemos estimado el semivariograma (h) en un conjunto finito de valores de
h, y queremos ajustar un modelo especificado por una funcin paramtrica (h; ) en trminos
de un vector finito de parmetros . Este vector suele contener tres parmetros, efecto nugget,
sill y rango. Supngase que se ha utilizado el estimador de los momentos y sea el vector
que contiene los valores estimados y () el vector de los valores derivados por el modelo sobre
los mismos valores de h.
Se tienen tres posibilidades para los mtodos de estimacin mnimo cuadrtica no lineal:

Mnimos cuadrados ordinarios (MCO), en los que se toma como aquel valor que mini-
miza { ()} { ()} . (donde indica la transposicin de matrices).
1.8 M TODOS DE ESTIMACIN DE LOS PARMETROS DEL VARIOGRAMA 17

Mnimos cuadrados ponderados (MCP), en los que se toma como aquel valor que mini-
miza { ()} W ()1 { ()}. En este caso W () es una matriz diagonal cuyos
elementos de la diagonal son las varianzas de , aunque no covarianzas como si lo hace
el MCG. Por tanto MCP admite varianzas de , aunque no covarianzas aunque si lo hace
el MCG.

Mnimos cuadrados generalizadoss (MCG), en los que se toma como aquel valor que
minimiza { ()} V ()1 { ()} . Aqu V () denota la matriz de covarianzas
de , la cual depende de .

En general, los tres estimadores MCO, MCP y MCG, aparecen en orden creciente de efi-
ciencia pero decreciente en simplicidad. Notar que MCO es fcilmente implementable por al-
gn procedimiento de mnimos cuadrados no lineales, mientras que MCP y MCG requieren la
especificacin de las matrices W () y V ().

1.8.2 Estimacin mximo verosmil (MV)


Si se asume que se muestrea a partir de un proceso Gaussiano, entonces es bastante sencillo
obtener la forma exacta de la verosimilitud y maximizarla numricamente. Consderese el pro-
ceso espacial Z N (X, ), con Z un vector de observaciones n-dimensional, X una matriz
n x q de covariables (q < n; X de rango completo), un vector de dimensin q de parmetros
desconocidos y la matriz de covarianzas de las observaciones. En la prctica se puede asumir
que = V () siendo un parmetro de escala conocido y V () es una matriz de covarian-
zas estandarizadas determinadas por el parmetro desconocido . Con Z, Z N (X, ), su
funcin de densidad es de la forma
 
n/2 1/2 1 1
(2) det () exp (Z X) (Z X) .
2

Y por tanto, la log-verosimilitud negativa ser:

n n 1 1
l(, , ) = log(2) + log() + logdet(V ()) + (Z X) V ()1 (Z X) .
2 2 2 2

Aunque este mtodo es computacionalmente factible, su mayor dificultad frente a por ejem-
plo el mtodo de MCP lo hace menos usado.
Supngase {Y1 , . . . , Yn } son variables aleatorias independientes y normales N (, 2 ) con
parmetros desconocidos y 2 . Los estimadores mximo verosmiles de y 2 son = Y =
1 P 2 1 P
2
n i Yi y = n i Yi Y . Pero este estimador resulta sesgado y se suele usar el esti-
2 1 P
2
mador insesgado de , n1 i Yi Y . Supngase ahora que en lugar de trabajar con el

vector Y1 , . . . , Yn lo hacemos con la densidad conjunta de Y1 Y , . . . , Yn Y , cuya distribu-
1 P
2
cin no depende de . Ahora el estimador verosmil de 2 es directamente n1 i Yi Y .
Esta idea puede ser extendida al modelo general, Z N (X, ). Si se define W = A Z

un vector de n q contrastes linealmente independientes, es decir, las n q columnas de A


18 C APTULO 1. G EOSTADSTICA U NIVARIANTE

son linealmente independientes y A X = 0, tenemos que W N (0, A A), y el logaritmo


negativo de la funcin de verosimilitud en W ser de la forma,
nq nq 1 1 
lW (, ) = log(2) + log() + log A V ()A + W A V ()A W.
2 2 2 2
Es posible elegir A que satisfaga A A = I X (X X)1 X , A A = I. En este caso la
expresin anterior se simplifica a:
nq nq 1
lW (, ) = log(2) + log() + log X X +
2 2 2
1 1 1 2
+ log X V () X + logdet (V ()) +
1
G (),
2 2 2
donde G2 () denota la suma de cuadrados generalizados de los residuos
   
G2 = Z X V 1 Z X
 
y = Z X X V 1 Z es el estimador MCG de basado en la matriz de covarianzas V .
La estimacin MVR proporciona mejores estimaciones que el MV pues, en general, da lugar
a estimadores con menores desviaciones para muestras con pocos datos. La estimacin MVR
es ampliamente utilizada en modelizacin geostadstica. Sin embargo, es ms sensible que el
estimador MV de mxima verosimilitud bajo incorrecta especificacin del vector de medias .
En general, como los variogramas estimados por los mtodos de verosimilitud (MV, MVR)
no estn basados en los variogramas empricos, hay claras diferencias entre stos y los esti-
madores MCO o MCP.

1.9 Kriging: prediccin e interpolacin


Una vez conocida la varianza especfica el objetivo es predecir e interpolar procesos espaciales.
El problema tiene los siguientes fundamentos dado un conjunto de observaciones de un
atributo espacial Z(u1 ), Z(u2 ), . . . , Z(un ), el objetivo es predecir el valor de Z(u0 ), para algn
u0 / {u1 , . . . , un }.
Kriging es un nombre genrico adoptado en geostadstica para dar nombre a una metodologa
de interpolacin basada en una familia de algoritmos de regresin generalizados por mnimos
cuadrados.
Todas las clases de estimaciones de krigings, no son ms que variantes de las estimaciones
de regresin lineal bsicas, las cuales para predecir el valor del atributo Z en la localizacin u0 ,
denotado por Z (u0 ), vienen definidas por
n(u0 )
X

Z (u0 ) m(u0 ) = (u0 ) [Z(u ) m(u )]
=1

donde define la ponderacin, peso asignado a los datos que intervienen en el sumatorio,
m(u0 ) y m(u ) son los correspondientes valores esperados de Z(u0 ) y Z(u ) respectivamente
1.9 K RIGING : PREDICCIN E INTERPOLACIN 19

y n(u0 ) + 1 elementos: n(u0 ) atributos. A partir de ahora y sin prdida de generalidad para que
la notacin resulte ms sencilla se usar n en lugar de n(u0 ).Obsrvese que slo actan aquellas
localizaciones u vecinas a la localizacin de prediccin de u0 .
Cualquier base de kriging tiene como objetivo la minimizacin de la varianza del error
E2 (u), la cual en su formato general viene dado por
E2 (u) = Var [Z (u) Z(u)]
donde el superndice * indica el valor estimado para esa localizacin.
Adems E2 (u) = Var [Z (u) Z(u)] se minimiza bajo la restriccin de insesgadez, es de-
cir, E [Z (u) Z(u)] = 0. Normalmente, la variable aleatoria que define el atributo en estudio
se descompone en una componente residual R(u) y otra determinista que define la tendencia
m(u),
Z(u) = R(u) + m(u)
La componente residual se modeliza como una variable aleatoria estacionaria de media cero y
covarianza Cr (h), siendo
E {R(u)} = 0
Cov {R(u), R(u + h)} = E {R(u) R(u + h)} = CR (h)
De esta forma, el valor esperado de la variable aleatoria Z en una cierta localizacin u viene
dado por el valor de la componente tendencia en esa localizacin E {Z(u)} = m(u).
De acuerdo con el modelo considerado para la tendencia, podemos considerar las siguientes
variantes kriging lineales: simple (SK), ordinario (OK), con modelo de tendencia o universal
(UT), en bloques y factorial. En cuanto a los no lineales se pueden mencionar: lognormal,
multi-Gaussiano, de rango, indicatriz y disyuntivo.
En la Tabla 1.1 se resumen los principales tipos de kriging lineal que detallaremos a contin-
uacin.
Kriging Media Anlisis estructural Propiedades
para Z(u) m(u) Y (u)
Simple Constante conocida Covariograma Son ptimos si hay normalidad
Ordinario Constante desconocida Semivariograma multivariada.
Universal No constante y desconocida Semivariograma Independiente de la distribucin
son los mejores predictores
linealmente insesgados.

Tabla 1.1: Principales tipos de kriging lineal y propiedades

Antes de comenzar el estudio de cada uno de ellos, se presentan dos particularidades impor-
tantes:
1. La condicin de estacionariedad, necesaria para el anlisis estructural, no es ahora impre-
scindible para la prediccin kriging. Por esta razn, en muchas de las expresiones que
se utilizarn se podemos encontrar (u u ) o C(u u ) en vez de (h) o C(h)
utilizadas anteriormente.
20 C APTULO 1. G EOSTADSTICA U NIVARIANTE

2. En la estapa de prediccin la dependencia espacial se supone totalmente modelizada por


las funciones (h) y/o C(h) obtenidas en la etapa de anlisis estructural.

1.9.1 Kriging Simple (SK)


Supngase que hay una variable regionalizada estacionaria con media m y covarianza conocidas.
De manera anloga a como se define en modelos lineales el modelo establecido en este caso es
igual a la media ms un error aleatorio con media cero. La diferencia es que en este caso los
errores no son independientes. Sea Z(u) la variable de inters medida en el sitio u.
E[Z(u)] = m
Z(u) = m + (u), con E[(u)] = 0.
El predictor de la variable de inters en un sitio u0 donde no se tiene informacin se define
como:
Z (u0 ) = m + (u0 ),
con (u0 ) que corresponde a la prediccin del error aleatorio en el sitio u0 . Despejando de la
ecuacin anterior (u0 ) = Z (u0 ) m. El predictor del error aleatorio se define por:
n
X n
X
(u0 ) = (u ) = (Z(u ) m)
=1 =1

de donde el predictor de la variable de estudio es:


" n # n
X X

Z (u0 ) = m + (Z(u ) m) = m + (u )
=1 =1

El predictor es insesgado si: E (Z(u 0 )) = E(Z(u0 ) = m. Luego el predictor ser insesgado


cuando E ( (u0 )) = 0.
n
X n
X

E ( (u0 )) = (u ) = (0) = 0.
=1 =1

Por tanto en este caso no existen restricciones para las ponderaciones tendientes al cumplimiento
de la condicin de insesgadez. La estimacin de los pesos del mtodo kriging simple se obtiene
de tal forma que se minimice V ( (u0 ) (u0 )).

V ( (u0 ) (u0 )) = E ( (u0 ) (u0 ))2


n
! !2
X
= E (u ) (u0 )
=1
n
XXn n
X
= E ((u )(u )) 2 E ((u )(u0 )) + E ((u0 ))2
=1 =1 =1

usando:
1.9 K RIGING : PREDICCIN E INTERPOLACIN 21

1. E [(u0 )] = 0

2. E ( (u ) (u )) = Cov ( (u ) , (u )) = C

3. E ( (u0 ))2 = 2

n X
X n n
X
V ( (u0 ) (u0 )) = E ((u )(u )) 2 C + 2
=1 =1 =1

derivando respecto a 1 se tiene:


n
X
V ( (u0 ) (u0 ))
= 2 C1 2C10
1
=1
Pn
igualando a cero =1 C1 = C10 . En general para cualquier , = 1, 2, . . . , n, se obtiene:

X n

= C = C0

=1

Con las n ecuaciones resultantes se construye el siguiente sistema de ecuaciones:



C11 C12 . . . C1n 1 C10
C21 C22 . . . C2n 2 C20

.. .. . . .. .. = ..
. . . . . .
Cn1 Cn2 . . . Cnn n Cn0

La varianza de prediccin Kriging Simple ser,


n
X
2
SK = 2 C0 .
=1

Finalmente, el peso asignado a la media m vendr dado por,


n
X
(u0 ) = 1 (u0 ).
=1

1.9.2 Kriging Ordinario (OK)


Supngase que se hacen mediciones de la variable de inters Z en los puntos u , = 1, . . . , n,
de la regin de estudio, es decir, se tienen realizaciones de las variables Z(u1 ), ..., Z(un ), y se
desea predecir Z(u0 ), en el punto u0 donde no hubo medicin. El Kriging Ordinario (OK) tiene
en cuenta las posibles fluctuaciones locales de la tendencia o media, limitando el dominio de
estacionariedad de la media a la vecindad local W (u) : m(u ) es una constante (desconocida)
para todo u W (u).
22 C APTULO 1. G EOSTADSTICA U NIVARIANTE

El estimador Kriging Ordinario puede predecirse como una combinacin lineal de las n
variables aleatorias as:
Z (u0 ) = 1 Z(u1 ) + 2 Z(u2 ) + . . . + n Z(un )
Xn
= Z(u )
=1
en donde los representan los pesos o ponderaciones de los valores originales. Dichos pesos
se calculan en funcin de la distancia entre los puntos muestreados y el punto donde se va a hacer
la correspondiente prediccin. La suma de los pesos debe ser igual a uno para que la esperanza
del predictor sea igual a la esperanza de la variable. Esto ltimo se conoce como el requisito de
insesgadez.
Estadsticamente la propiedad de insesgadez se expresa a travs de E (Z (u0 )) = E (Z(u0 )).
Asumiendo que el proceso es estacionario de media m (desconocida) y utilizando las propiedades
del
Pnvalor esperado, se demuestra que la suma de las ponderaciones debe ser igual a uno, es decir,
= 1. Se dice que Z (u ) es el mejor predictor, lineal en este caso, porque los pesos
=1 0
se obtienen de tal manera que minimicen la varianza del error de prediccin, es decir que min-
imicen la expresion V (Z (u0 ) Z(u0 )).
Esta ltima es la caracterstica distintiva de los mtodos kriging, ya que existen otros mtodos de
interpolacin como el de distancias inversas o el poligonal, que no garantizan varianza mnima
deP prediccin. La estimacin de los pesos se obtiene minimizando V (Z (u0 ) Z(u0 )) sujeto
a n=1 = 1.
Se tiene que V (Z (u0 ) Z(u0 )) = V (Z (u0 )) 2Cov [Z (u0 ), Z(u0 )] + V [Z(u0 )].
Desagregando las componentes de la ecuacion anterior se obtiene lo siguiente:
" n #
X

V [Z (u0 )] = V Z(u0 )
=1
n X
X n
= Cov [Z(u ), Z(u )]
=1 =1

En adelante se usar la siguiente notacin: Cov [Z(u ), Z(u )] = C y V [Z(u0 )] = 2 . De


lo anterior
" n #
X
Cov [Z (u ), Z(u )] = Cov Z(u , Z(u0 ))
=1
n
X
= Cov [ Z(u , Z(u0 ))]
=1
Xn
= C0
=1
Entonces reemplazando, se tiene que:
X n
n X n
X
V (Z (u0 ) Z(u0 )) = C 2 C0 + 2 (0)

1.9 K RIGING : PREDICCIN E INTERPOLACIN 23

P
Luego se debe minimizar la funcin anterior sujeta a la restriccin n=1 = 1. Este problema
de minimizacin con restricciones se resuelve mediante el mtodo de los Multiplicadores de
Lagrange.
n X n n n
!
X X X
k2 = C 2 C0 + 2 1
=1

Siendo los Multiplicadores de Lagrange. Siguiendo el procedimiento acostumbrado para


obtener valores extremos de una funcin, se deriva e iguala a cero, en este caso con respecto
a y a .
 n
k2 X
= 2 C1 2C10 + 2
1
=1
n
X
Por tanto C1 + = C10
=1

De manera anloga se determinan las derivadas con respecto a 2 , ..., n :


n
X
C2 + = C20
=1
..
.
n
X
Cn + = Cn0
=1

por ltimo derivamos con respecto a :


 n
k2 X
= 2 2

=1
n
X
Por tanto = 1
=1

De las ecuaciones anteriores resulta un sistema de (n + 1) ecuaciones con (n + 1) incgnitas,


que matricialmente puede ser escrito como:

C11 C12 . . . C1n 1 1 C10
C21 C22 . . . C2n 1 2 C20

.. .. . . .. .. .. = ..
. . . .
. . .

Cn1 Cn2 . . . Cnn 1 n Cn0
1 1 ... 1 0 1
El sistema anterior se puede plantear:
C = C0
24 C APTULO 1. G EOSTADSTICA U NIVARIANTE

por lo cual los pesos que minimizan el error de prediccin se determinan mediante la funcin de
covariograma a travs de
= (C )1 C0 .
Encontrando los pesos se calcula la prediccion en el punto u0 . De forma anloga se procede para
cada punto donde se quiera hacer prediccin. La varianza de prediccin del Kriging Ordinario
ser por tanto:
n
X
2
OK = 2 C0
=1

Validacin del kriging


Una modelizacin estadstica general exige una validacin a posteriori de sus resultados, y de
forma particular la modelizacin geostadstica requiere de dicha validacin y la basa en una
reestimacin de los valores conocidos bajo las condiciones de implementacin de los modelos
construidos. Estas implementaciones incluyen los modelos de variogramas, el tipo de kriging y
la eleccin de la estrategia general de modelizacin.

Existen diferentes mtodos para evaluar la bondad de ajuste del modelo de semivariograma
elegido con respecto a los datos muestrales y por ende de las predicciones hechas con kriging.
La tcnica ms empleada es la de Validacin Cruzada (cross-validation, CV) sirve para com-
parar valores estimados por los modelos con los reales. La idea consiste en un proceso iterativo
en el que cada vez se excluye un dato de la muestra y se estima con el resto de los datos el
modelo de semivariograma escogido, predecir va kriging el valor de la variable en estudio en la
ubicacin del punto que se excluy. Cada uno de estos valores se compara, por ejemplo medi-
ante regresin lineal, con el valor real. Buenos coeficientes de correlacin / determinacin sern
indicativos de una correcta modelizacin. Si el modelo de semivarianza elegido describe bien la
estructura de autocorrelacin espacial, entonces la diferencia entre el valor observado y el valor
predicho debe ser pequeo. Este procedimiento se realiza de forma secuencial con cada uno
de los puntos muestrales y as se obtiene un conjunto de n errores de prediccin. Lo usual es
calcular medidas que involucren a estos errores de prediccin para diferentes modelos de semi-
varianza y seleccionar aqul que optimice algn criterio como por ejemplo el del mnimo error
cuadrtico medio (MECM). Una forma descriptiva de hacer la validacin cruzada es mediante
un grfico de dispersin de los valores observados contra los valores predichos. En la medida
en que la nube de puntos se ajuste ms a una lnea recta que pase por el origen, mejor sera el
modelo de semivariograma utilizado para realizar el kriging.
Sin embargo, la utilizacin de la validacin cruzada para seleccionar modelos de semivariogra-
mas, tiene algunas restricciones:
1. Un remuestreo del modelo de semivariograma no influye en los pesos y krigings. As, los
valores de sill total no pueden ser obtenidos por validacin cruzada de valores restimados.
2. El sill relativo y el comportamiento del semivariograma en el origen nugget, no pueden
ser usados simultneamente con la validacin cruzada.
1.9 K RIGING : PREDICCIN E INTERPOLACIN 25

3. Si el modelo es inadecuado, entonces no est claro qu parmetros deben ser cambiados.

Representacin de las predicciones

Una vez se ha hecho la prediccin en un conjunto de puntos diferentes de los muestrales va


kriging, se debe elaborar un mapa que de una representacin global del comportamiento de
la variable de inters en la zona estudiada. Los ms empleados son los mapas de contornos,
los mapas de residuos y los grficos tridimensionales. En el caso de los mapas de contornos,
en primer lugar se divide el rea de estudio en un enmallado y se hace la prediccin en cada
uno de los nodos de este mismo. Posteriormente se unen los valores predichos con igual valor,
generando asi las lneas de contorno (isolneas de distribucin). Este grfico permite identificar
la magnitud de la variable en toda el rea de estudio. Es conveniente acompaar el mapa de
interpolaciones de la variable con los correspondientes mapas de isolneas de los errores y de
las varianzas de prediccin (posiblemente estimados a travs de mtodos matemticos), con el
propsito de identificar zonas de mayor incertidumbre respecto a las predicciones.

Intervalos de Confianza

Asumiendo que los errores de prediccin siguen una distribucin normal estndar y que son
hindependientes, un intervalo de confianza
i del 100(1 )%, 0 < < 1, para Z(u) es:

z (u) z1 2 k , z (u) + z1 2 k , con z el valor calculado de la prediccin y z1 2 el per-

centil de una normal estndar.

1.9.3 Kriging universal(UK)

Este tipo de kriging (UK) considera que la media local no es conocida y vara suavemente en
cada vecindad local W (u). La componente de tendencia se modeliza como una combinacin lin-
eal de funciones fl (u) de las coordenadas. Para tratar este tipo de variables es frecuente descom-
poner la variable Z(u) como la suma de la tendencia, tratada como una funcin determinstica,
ms una componente estocstica estacionaria de media cero. Asmase que Z(u) = m(u)+(u),
con E ((u)) = 0, V ((u)) = P 2 y por consiguiente E(Z(u)) = m(u). La tendencia puede
p
expresarse mediante m(u) = l=1 al fl (u) donde las funciones fl (u) son conocidas y p es
el nmero de trminos empleados para ajustar m(u). El predictor Kriging Universal se define
como:

n
X
Z (u0 ) = Z(u )
=1
26 C APTULO 1. G EOSTADSTICA U NIVARIANTE

este ser insesgado si:

E (Z (u0 )) = m (u0 )
n
!
X
E Z(u ) = m (u0 )
=1
n
!
X
m(u ) = m (u0 )
=1
n p
! p
X X X
al fl (u ) = al fl (u0 )
=1 l=1 l=1
p n
! p
X X X
al fl (u ) = al fl (u0 )
l=1 =1 l=1
Xn Xp
fl (u ) = fl (u0 )
=1 l=1

La obtencin de los pesos en el Kriging Universal, anlogo a los otros mtodos kriging, se hace
de tal forma que la varianza del error de prediccin sea mnima.

V (Z (u0 ) Z(u0 )) = E (Z (u0 ) Z(u0 ))2


n
! !2
X
= E (m(u ) (u )) (m(u0 ) (u0 ))
=1
n X
X n n
X
= =1 E ((u=1 )(u )) 2 E ((u )(u0 )) + E ((u0 ))2
=1

usando:

1. C = Cov((u ), (u ))

2. 2 = E ((u0 ))2

se tiene
n X
X n n
X
V (Z (u0 ) Z(u0 )) = C 2 C0 + 2
=1 =1 =1

Luego incluyendo la restriccin dada por la condicin de insesgadez, se debe minimizar:


n X
n n p
" n
#
X X X X
2 2
= C + 2 C0 + + l fl (u ) fl (u0 )
=1 =1 =1 l=1 =1
1.9 K RIGING : PREDICCIN E INTERPOLACIN 27

o en trminos de la funcion de semivarianza


n X n n p
" n #
X X X X
2 = + 2 + 2 + l fl (u ) fl (u0 )
=1 =1 =1 l=1 =1

derivando la expresion anterior respecto a 1 , 2 , . . . , n , 1 , 2 , . . . , p e igualando a cero las


correspondientes derivadas se obtienen las siguientes ecuaciones:
n
X p
X
+ l fl (u ) = 0 , = 1, 2, . . . , n
=1 l=1
Xn
fl (u ) = fl (u0 ), = 1, 2, . . . , p
=1

en trminos matriciales

11 12 ... 1n f11 ... f1n
21 1 10
22 ... 2n f21 ... f2n
.. 2 20
.. .. .. .. .. ..
. . . . . . . ... ...

n1 n2 . . . nn f1n . . . fpn n = n0

f11 f12 . . . f1n 0 ... 0 1 f10

.. .. .. .. .. .. .. ... ...
. . . . . . .
n fp0
fp1 fp2 . . . fpn 0 ... 0
donde fl = fl (u ) es la l-sima funcin en el punto j-simo. La varianza de prediccin del
Kriging Universal esta dada por:
n
X p
X
U2 K = 0 + l fl (u0 )
=1 l=1

Ntese que si p = 1 y fl (u) = 1, el sistema de ecuaciones del Kriging Universal y la varianza


de prediccin coinciden con las del Kriging Ordinario. En este orden de ideas puede decirse que
el Kriging Ordinario es un caso particular del Kriging Universal.

1.9.4 Cokriging
El trmino cokriging se utiliza para los mtodos de regresin en los que intervienen varios atrib-
utos. Supongamos, pues, que disponemos de dos variables regionalizadas Z, Y definidas en las
mismas localizaciones. La ecuacin para la estimacin del valor de la variable principal Z en la
localizacin u0 viene dada por
n1
X n2
X
Z (u0 ) = 1 (u0 )Z(u1 ) + 2 (u0 )Y (u2 )
1 =1 2 =1

Este tipo de kriging requiere un modelo para la matriz de funciones de covarianza, incluida la
covarianza de Z, CZ (h), la covarianza de Y , CY (h), la covarianza cruzada de Z Y , CZY (h) =
Cov {Z(u), Y (u + h)}, y la covarianza cruzada de Y Z, CY Z (h).
Captulo 2

Geostadstica Multivariante

Hasta ahora se ha estudiado como estimar una propiedad utilizando los valores conocidos de
dicha propiedad obtenidos en puntos vecinos o cercanos o bien como hacer uso de una funcin
de tendencia para guiar la estimacin de la propiedad.
 Se consideran entonces procesos espaciales multivariantes:
Z(U ) = (Z1 (u), Z2 (u), . . . , Zp (u)) /u D , D Rd De forma que:

Estos p procesos espaciales univariantes se suponen intercorrelacionados.

Cada Zi (u) se observa en un conjunto Si = {ui,1 , ui,2 , . . . , ui,ni } de ni > 0 localiza-


ciones. Dos conjuntos Si y Sj son, en general, diferentes para i 6= j.

Zi (u) = mi (u) + Yi (u), i = 1, 2, , p donde mi (u) es la componente determinista y rep-


resenta los cambios o evolucin a gran escala e Yi (u) es la componente aleatoria (errtica)
y representa el comportamiento local o evolucion a pequea escala.

Sin prdida de generalidad, suele suponerse que la variable de inters (variable a predecir) es Z1
mientras que las restantes se denominan variables secundarias.

2.1 Anlisis estructural


Al igual que en el caso univariante, slo se dispone de una realizacin del proceso multivariante
y por eso es necesario asumir ciertas hiptesis de estacionariedad sobre Z(u).

Proceso multivariante de segundo orden

Existe E [Zi(u)] = mi , i = 1, 2, . . . , p, u D.

Existe Cov (Zi (u), Zj (u + h)) = Ci,j (h); i, j = 1, 2, . . . , p, u D y h Rd .

Las funciones Ci,j (h) reciben el nombre de covariogramas cruzados.

29
30 C APTULO 2. G EOSTADSTICA M ULTIVARIANTE

1. En general los covariogramas cruzados, al contrario que en el caso unidimensional, no son


simtricos:
Ci,j (h) = Cov (Zi (u), Zj (u + h)) 6= Cov (Zj (u), Zi (u + h)) = Ci,j (h).

2. Se verifica que Ci,j (h) = Cj,i (h)

3. Por la desigualdad de Cauchy-Schwarz


|Ci,j (h)|2 |Ci,j (h)| |Cj,j (h)| |Ci,i (0)| |Cj,j (0)|,
por lo que los covariogramas cruzados estn siempre acotados superiormente.

Proceso multivariante intrnsecamente estacionario


Existe E [Zi(u) Zi(u + h)] = mi (h), i = 1, 2, . . . , p, u D.

Existe
1
2 Cov ((Zi (u) Zi (u + h)) , (Zj (u) Zj (u + h))) = i,j (h);
i, j = 1, 2, . . . , p, u D y h Rd .

Las funciones i,j (h) reciben el nombre de semivariogramas cruzados.

1. Los semivariogramas cruzados son simtricos: i,j (h) = i,j (h).

2. Los semivariogramas cruzados son nulos en el origen: i,j (0) = 0.

3. En el caso de variables estacionarias de segundo orden, existe una relacin entre semivar-
iograma y covariograma cruzados:
1
i,j (h) = Ci,j (0) [Ci,j (h) + Ci,j (h)]
2

4. El semivariograma cruzado es estimable slo si Si = Sj .

Es importante sealar que sta no es la nica definicin de semivarigrama cruzado que puede
encontrarse en la bibliografa ya que existen diversas formas de generalizar los semivariogra-
mas unidimensionales al caso multidimensional. As, por ejemplo, una segunda definicin muy
extendida es:
1
Var (Zi (u) Zj (u + h)) = i,j (h); i, j = 1, 2, . . . , p; u D y h Rd .
2
A esta segunda expresin se le suele denominar pseudosemivariograma cruzado.

1. Por lo general, los pseudosemivariograma cruzados no son simtricos:


i,j (h) = j,i (h) 6= i,j (h)

2. Los pseudosemivariograma cruzados pueden ser no nulos en el origen: i,j (0) 0.

3. En el caso de variables estacionarias de segundo orden, no existe una relacin entre pseu-
dosemivariograma y covariograma cruzados.
2.2 C OKRIGING 31

4. El pseudosemivariograma cruzado siempre es estimable, an cuando Si 6= Sj .

En todo caso, si los covariogramas, o los semivariogramas, o los pseudosemivariograma cruza-


dos son slo funcin de la distancia khk y no de la direccin del vector, se denominan isotrpi-
cos. En caso contrario se habla de anisotropa.
A continuacin estudiaremos algunas tcnicas geoestadsticas propuestas para obtener es-
timaciones de la propiedad de inters cuando se dispone de observaciones de otras variables
secunadarias relacionadas con la variable en estudio.
Entre este tipo de tcnicas se encuentran:

Cokriging Simple y Ordinario

Cokriging colocado (collocated cokriging)

Al igual que en el caso de geoestadstica univariada, lo fundamental es contar con una her-
ramienta que mida la correlacin espacial de las variables involucradas y su interrelacin.
La correlacin espacial de cada una de las variables involucradas se obtiene como antes a
travs de la funcin de covarianza o del variograma.
La correlacin espacial conjunta o la interrelacin se obtiene a travs de la funcin de covar-
ianza cruzada que se estudiar a continuacin

2.2 Cokriging
Planteamiento bsico de la estimacin por Cokriging:
Considerar la estimacin de Z1 (u) como una combinacin lineal de las observaciones disponibles
de Z1 ms combinaciones lineales de las observaciones de las variables relacionadas.

Ejemplo:

Z, propiedad o variable principal, por ejemplo porosidad.

Y , informacin o variable secundaria, por ejemplo impedancia acstica.

N
X M
X

Zcok (u) = (u)Z(u ) + (u)Y (x )
=1 =1

El primer sumando es una combinacin lineal de la variable principal y el segundo de la variable


secundaria.
En el caso general lo nico que se complica es la notacin:

Z, propiedad o variable principal, por ejemplo porosidad.

Yi , variables secundarias, por ejemplo atributos ssmicos.


32 C APTULO 2. G EOSTADSTICA M ULTIVARIANTE

N
X N1
X Nk
X

Zcok (u) = (u)Z(u ) + 1 (u)Y1 (x1 ) + . . . + k (u)Yk (xk )
=1 1 =1 k =1

El primer sumando es una combinacin lineal de la variable principal y los siguientes de las
variables secundarias.
N Nj
K X
X X

Zcok (u) = (u)Z(u ) + j (u)Yj (xj )
=1 j=1 j =1

2.2.1 Cokriging simple


El caso ms simple se denomina cokriging simple y la hiptesis bsica es la estacionaridad de
todas las variables junto con el hecho de que se asume que las medias de todas las variables son
conocidas. Esto es,

E(Z(u)) = m conocida
E(Yj (u)) = mj conocida j.

A continuacin se obtienen las ecuaciones de cokriging simple en el caso en que se considera


slo una variable secundaria. En este caso el estimador propuesto es,
N
X N1
X

Zcok (u) = m + (u)(Z(u ) m) + 1 (u)(Y1 (x1 ) m1 )
=1 j =1

Al igual que en el caso anterior, las condiciones de optimalidad son:


(u)) = E (Z(u)).
1. Estimador insesgado, E (Zcok
(u)] mnima.
2. Var [Z(u) Zcok
La primera condicin se obtiene automticamente al utilizar que:

E(Z(u ) m) = 0
E(Y1 (x )) m1 = 0

Con lo cual,

E(Zcok (u)) = m = E(Z(u))

La condicin de varianza mnima se obtiene derivando respecto a los parmetros y e


igualando a cero cada una de las derivadas obtenidas.
(u)]
Var [Z(u) Zcok
= 0, j = 1, 2, . . ., N
j
(u)]
Var [Z(u) Zcok
= 0, j = 1, 2, . . . , N1
j
2.2 C OKRIGING 33

Para calcular explcitamente la expresin de la varianza hay que proceder con cautela debido
a que aparecen nuevos trminos a considerar.

Var [Z(u) Zcok (u)] = Var [Z(u)] + Var [Zcok (u)] 2Cov (Z(u), Zcok (u))

T1 = Var [Z(u)] = 2

T2 = Var [Zcok (u)]
X  X 
= Var i (Z(ui m)) + Var j (Y (xj mj ))
X X 
+ 2Cov i (Z(ui m)), j (Y (xj mj ))
XX XX
= i j CZ (ui uj ) + i j CY (xi xj )
XX
+ 2 i j CZY (ui xj )

T3 = 2Cov (Z(u), Zcok (u))
X X
= 2 i CZ (u ui ) + 2 j CZY (u xj )

Al calcular las derivadas respectivas se obtiene que

(u)] N
X N
X
Var [Z(u) Zcok
= 2 j CZ (ui uj ) + 2 j CZY (ui xj )
i
j=1 j=1
2CZ (u ui ), i = 1, 2, . . ., N
(u)] N
X N
X
Var [Z(u) Zcok
= 2 j CY (xi xj ) + 2 j CZY (ui xj )
i
j=1 j=1
2CZY (u xi ), i = 1, 2, . . . , N1

Ahora la expresin detallada del sistema de ecuaciones es


    
CZ CZY CZU
=
CY Z CY CY U
Siendo cada una de las submatrices las siguientes:

CZ (0) CZ (u1 u2 ) . . . CZ (u1 uN )
CZ (u2 u1 ) C Z (0) . . . CZ (u2 uN )

.. .. .
  .
. . . . ..

CZ CZ (uN u1 ) CZ (uN u2 ) ... CZ (0)
= CY Z (x1 u1 ) CY Z (x2 u1 )

CY Z ... CY Z (x1 uN )

CY Z (x2 u1 ) CY Z (x2 u2 ) ... CY Z (x2 uN )

.. .. ..
. . ... .
CY Z (x1 uN ) CY Z (xN u2 ) . . . CY Z (xN uN )
34 C APTULO 2. G EOSTADSTICA M ULTIVARIANTE


CY Z (u1 x1 ) CY Z (u1 x2 ) . . . CY Z (u1 xN )
CY Z (u2 x1 ) CY Z (u2 x2 )
. . . CY Z (u2 xN )

.. .. .


 . . . . . ..

CZY CY Z (uN x1 ) CY Z (uN x2 ) . . . CY Z (uN xN )
=


CY CY (0) CY (x1 x2 ) . . . CY (x1 xN )

CZ (x2 x1 ) CY (0) . . . CY (x2 xN )

.. .. ..
. . ... .
CY (xN x1 ) CY (xN x2 ) . . . CY (0)

1 CZ (u u1 )
2 CZ (u u2 )

.. ..
. .
   
N C Y U CZ (u uN )
=
1
CY U = CY (u x1 )

2 CY (u x2 )

.. ..
. .
N CY (u xN )

2.2.2 Cokriging ordinario


Al igual que en el caso de kriging ordinario, se asume que las medias de las variables son
desconocidas y se imponen condiciones para filtrarlas.
El estimador propuesto es:
N Nj
K X
X X

Zcok (u) = (u)Z(u ) + j (u)Yj (xj )
=1 j=1 j =1

Con lo cual,
K Nj
X X X

E (Zcok (u)) = m + mj j
j=1 j =1

P PN
Y se obtienen las condiciones = 1, jj=1 j = 0, j = 1, 2, . . . , K.
Ahora se procede nuevamente como en el kriging ordinario pero con K + 1 parmetros
de Lagrange. Cuando se tiene tan solo una variable secundaria, el sistema de ecuaciones del
cokriging ordinario es,

CZ CZY 1 0 CZU
CY Z CY 0 1
= CY U
1 0 0 0 1 1
0 1 0 0 2 0
Obsevaciones:
2.3 C OKRIGING UNIVERSAL 35

1. Con slo 2 variables se requieren 4 funciones de covarianza. En general, con N variables


secundarias se requieren 2N +1 funciones de covarianza.

2. Debe existir una correlacin lineal entre las variable principal y las variables secundarias.

3. Las variables secundarias deben poseer un nmero mucho mayor de observaciones que la
variable principal.

4. Imposible estimar las covarianzas cruzadas con datos NO coincidentes.

5. Resultados satisfactorios se obtienen con datos parcialmente coincidentes.

6. Con datos totalmente coincidentes. Conveniente para estimar de manera consistente el


tope y la base de un yacimiento. No se obtiene una mejora sustancial sobre los mtodos
de kriging cuando la variable secundaria es la informacin ssmica.

Cuando las variables estn intrnsicamente relacionadas, es decir, cuando ocurre que los
modelos de variograma o covarianza de todas las variables son proporcionales a un mismo
modelo de variograma o covarianza, entonces el kriging y el cokriging con datos totalmente
coincidentes son iguales.

2.3 Cokriging universal


Representamos por {Zi (ui,j ), i = 1, . . . , p; j = 1, . . . , n1 } la muestra a partir de la cual pre-
tendemos predecir Z1 (u0 ), u0 D. Al igual que en el caso univariante, dependiendo de
las suposiciones sobre las funciones de tendencia m1 (u), ..., mp (u) se distinguen tres tipos de
prediccin lineal ptima multivariante:

1. Cokriging simple. Si las funciones de tendencia son conocidas.

2. Cokriging ordinario. Si las funciones de tendencia son desconocidas pero constantes.

3. Cokriging universal. Si las funciones de tendencia son desconocidas.

Evidentemente, el ltimo caso es el ms general y, por ello, el ms utilizado. En el caso de


cokriging universal se asume que cada tendencia mi (u) puede expresarse como combinacin
lineal de funciones regresoras conocidas:
Li
X
mi (u) = ai,l fil (u); i = 1, 2, . . . , p.
l=0

El predictor cokriging se define como el mejor predictor lineal insesgado (BLUP) calculado con
todas las variables observadas:
p X
X ni
Z1 (u0 ) = i,j Zi (ui,j ).
i=1 j
36 C APTULO 2. G EOSTADSTICA M ULTIVARIANTE

2.4 Condicin de insesgadez


Para que el predictor sea insesgado son condiciones necesarias:
n1
X
1,j f1l (u1,j ) = f1l (u0 ); l = 0, 1, . . . , L1 ; u1,j S1 .
j
ni
X
i,j fil (ui,j ) = 0; l = 0, 1, . . . , Li ; ui,j Si , i = 2, . . . , p.
j

Si ambas se verifican, entonces:


L1
X
E [Z1 (u0 )] = a1,l f1l (u) = E [Z1 (u0 )] .
l=0

Condicin de varianza mnima


Al igual que en el caso unidimensional, se trata de un problema de minimizacin de varianza
de prediccin sujeto a las restricciones necesarias para asegurar la insesgadez del predictor. La
funcin a minimizar se plantea utilizando L1 + . . . + Lp + p Multiplicadores de Lagange:

XL1 n1
X
Var (Z1 (u0 ) Z1 (u0 )) + 2 1,l 1,j f1l (u1,j ) f1l (u0 )
l=0 j=1

p X
X Li ni
X
+ 2 i,l i,j fil (ui,j )
i=2 l=0 j=1

Mediante derivadas parciales de la expresin anterior se obtiene la expresin matricial de la cual


se deduce el vector de pesos ptimo y la varianza de prediccin. A continuacin se muestra el
aspecto del sistema matricial a resolver en el caso de p = 2 variables estacionarias de segundo
orden y con tendencias m1 y m2 desconocidas pero constantes (Cokriging Ordinario).
Captulo 3

Anlisis de datos funcionales

En muchas reas se ha empezado a trabajar con grandes bases de datos, que cada vez con ms
frecuencia, corresponden a observaciones de una variable aleatoria tomadas a lo largo de un
intervalo continuo (o en discretizaciones cada vez ms extensas de este intervalo continuo).
En campos como la espectrometra, el resultado de la medicin es una curva que representa
a la muestra concreta que al menos se ha evaluado en una centena de puntos. Este tipo de datos,
que llamaremos datos funcionales, surgen de manera natural en muchas disciplinas, y como este
ejemplo podramos citar muchos otros en diversos campos como la economa, ingeniera, medio
ambiente, . . .. Ante estos nuevos retos surge como respuesta la estadstica de datos funcionales
que originalmente identificaba dato funcional con funcin en un intervalo continuo. Bsica-
mente, los problemas a los que se debe enfrentar la estadstica con datos funcionales responde
a las mismas necesidades que la estadstica clsica. Estos se podrian categorizar de la siguiente
manera:

1. Explorar y describir el conjunto de datos funcionales resaltando sus caractersticas ms


importantes.

2. Explicar y modelar la relacin entre una variable dependiente y una independiente (mod-
elos de regresin).

3. Mtodos de Clasificacin Supervisada o no Supervisada de un conjunto de datos respecto


a alguna caracterstica.

4. Contraste, validacion y prediccin.

En ambos casos todas las tcnicas includas estn restringidas al espacio de funciones L2 ,
es un espacio con caractersticas especficas que lo hacen especialmente tratable. Una variable
aleatoria X se dice que es una variable funcional si toma valores en un espacio funcional E
(Espacio normado o seminormado completo), como se puede ver en [8].
Un conjunto de datos funcionales {Xn . . . , Xn } es la observacin de n variables funcionales
X1 . . . , Xn idnticamente distribuidas.
La primera dificultad que siempre tendremos al analizar datos funcionales, es encontrar una
representacin adecuada para los datos.

37
38 C APTULO 3. A NLISIS DE DATOS FUNCIONALES

Estas defniciones se pueden aplicar a muchos tipos de espacios. En particular, Rp con las
mtricas usuales es un espacio funcional y por tanto puede deducirse que toda tcnica que se
desarrolle para datos funcionales puede ser aplicada con ciertas garantas en el entorno mul-
tivariante. El espacio ms comunmente usado cuando se habla de datos funcionales es el es-
pacio L2 [S], esto es, las funciones de cuadrado integrable en el intervalo S = [a, b] R.
p
Desde
 un punto de vista podemos tener datos funcionales en la familia: L [S, ] =
R msp general
f : S R tal que |f (t)| d , donde (S, ) es un espacio de medida y 1 < p < . Estos
espacios son semi-normados salvo el caso p = 2 que es el nico de esta familia que es un espacio
de Hilbert separable. Cuando se desarrolla una nueva tcnica para datos funcionales la primera
preocupacin es siempre determinar en que espacio funcional vamos a trabajar. Esto determi-
nar decisivamente el conjunto de herramientas que podremos usar. Una preocupacin similar
la tendremos al aplicar una tcnica de datos funcionales a un conjunto de datos. La mtrica del
espacio funcional que se elija para encuadrar estos datos debe ser coherente con la interpretacin
fsica del fenmeno que describan.
En general, la representacin de un dato funcional en una base ortonormal proporcionar
ventajas tanto desde el punto de vista terico como prctico sirviendo de puente entre la in-
evitable discretizacin del dato funcional y su verdadera forma funcional.
Una base es un conjunto de funciones conocidas e independientes {k }kN tales que cualquier
funcin puede ser aproximada, tan bien como se quiera, mediante una combinacin lineal de K
de ellas con K suficientemente
P grande. De esta forma, la observacin funcional puede aproxi-
marse como x(t) K c
k=1 k k (t).
Si los elementos de la base son fcilmente diferenciables hasta orden q tenemos x(q) (t)
PK (q)
k=1 ck k (t).
Bsicamente, la idea clave cuando se pueden usar bases ortonormales es representar cada
dato funcional en la base usando aquellas coordenadas que son ms significativas. Debido a la
alta dimensin de los datos funcionales, se elige en general un nmero K para representar los
datos en el subespacio, convirtiendo el problema de dimensin infinita en un problema multidi-
mensional. La eleccin del parmetro K y de la base ms adecuada para los datos observados
se antoja crucial y, en principio, no hay ninguna regla que permita hacer una seleccin ptima
de forma universal. El parmetro K es, en cierto modo, un parmetro de suavizacin de los
datos funcionales. Si K es bajo tendremos un modelo muy manejable pero posiblemente habre-
mos perdido informacin relevante. Si K es alto representaremos muy bien los datos pero el
problema de la dimensin cobra importancia. Si atendemos a la eleccin de la base, para datos
peridicos se suele emplear la base de Fourier y para datos no peridicos la base B-spline o la
Wavelet. Una base muy popular est basada en la expansin de Karhunen-Love que no es ms
que la extensin del anlisis de componentes principales multivariante a procesos estocsticos
y por aadidura a datos funcionales. Calculando a partir del operador momento de segundo
orden muestral las correspondientes autofunciones y autovalores es posible construir especfi-
camente una base ortonormal adaptada para cada conjunto de datos. Esta tcnica se denomina
Componentes Principales Funcionales (FPCA) y ha dado lugar a muchas tcnicas interesantes
para datos funcionales. Sin embargo, esta tcnica puede ser muy sensible a la aparicin de datos
atpicos y la representacin del dato funcional puede no ser relevante para el objetivo del estu-
dio como podra ser la relacin con otra variable funcional o no. La decisin sobre qu base
3.1 P RELIMINARES 39

elegir debe tomarse en funcin del objetivo del estudio y los datos y aprovechando las ventajas
e inconvenientes que presenta cada tipo de base. Si se trunca cualquiera de estas bases en un
nmero determinado de elementos obtendremos una semimtrica que tambin podremos usar
para manejar los datos funcionales. En este caso, cualquier mtrica o semi-mtrica en el espa-
cio no es ms que una forma de determinar qu elementos del espacio estn cercanos y cules
lejanos.
La estadstica con datos funcionales tiene frontera con otros campos relevantes de la estads-
tica como el anlisis multivariante, el anlisis de datos longitudinales o las series temporales.
Como se coment anteriormente, una tcnica de datos funcionales puede aplicarse con ciertas
garantas a datos multivariantes. Al revs, en general, no es cierto. Para la mayora de las tcni-
cas multivariantes que basan mucho de su trabajo en propiedades del lgebra matricial puede ser
un problema casi insalvable tratar datos funcionales de alta frecuencia con seguramente, muy
fuerte colinealidad. Segn aumenta el grado de resolucin con el que somos capaces de ver una
curva, ms difcil resulta para las tcnicas multivariantes obtener un resultado convirtiendo el
aumento de resolucin en una dificultad ms que en una oportunidad de obtener mejor informa-
cin. Algo similar podra decirse del anlisis de datos longitudinales. En este campo se obtienen
medidas repetidas a lo largo del tiempo para el mismo sujeto, pero en general, ste es un nmero
pequeo y las tcnicas multivariantes pueden adaptarse para trabajar con ellas. La principal di-
ficultad para tratar datos longitudinales como datos funcionales suele ser precisamente la baja
calidad de representacin de las curvas. La relacin con el campo de las series temporales es
totalmente diferente. As, ejemplos clsicos de datos funcionales se han construido a base de
cortar una serie temporal en ciclos homogneos. Por ejemplo, en [25] se usan los datos de un
ndice burstil estadounidense troceados por aos (como unidad funcional) para deducir a partir
de la forma de cada curva anual la tipologa de los distintos aos (de expansin, de crisis, ...).
Considerados los datos como una serie temporal, el objetivo es predecir alguno de los periodos
del prximo ao. Como conjunto de datos funcionales, el objetivo es resumir la informacin
y el resultado ser siempre un dato funcional, esto es, un ciclo anual completo. Por tanto, la
relacin entre estos dos campos es peculiar. Muchas veces trabajan sobre la misma informacin
pero desde pticas completamente diferentes.

3.1 Preliminares
Se presentan unas definiciones preliminares sobre medidas clsicas y distancias entre vectores
en Rp en contexto funcional. Se asume que X(t), Y (t), Z(t), t T son funciones definidas en
algn espacio de funciones.

Producto interior Z
hX(t), Y (t)i = X(t)Y (t)dt.
T

Propiedades:

1. Simetra: hX(t), Y (t)i = hY (t), X(t)i.


2. Positividad: hX(t), X(t)i 0.
40 C APTULO 3. A NLISIS DE DATOS FUNCIONALES

3. Bilinealidad: haX(t) + bY (t), Z(t)i = a hX(t), Z(t)i + b hY (t), Z(t)i, para cua-
lesquiera nmeros reales a y b.

Norma
q
kX(t)k = kX(t)k2 , donde
Z
kX(t)k2 = hX(t), X(t)i = X(t)X(t)dt.
T

Propiedades:

1. kX(t)k 0.
2. kaX(t)k = |a| kX(t)k, para cualquier nmero real a.
3. kX(t) + Y (t)k kX(t)k + kY (t)k.
p
4. |hX(t), Y (t)i| kX(t)k kY (t)k = |hX(t), X(t)i| |hY (t), Y (t)i|.
|hX(t),Y (t)i|
5. 1 (kX(t)k(Y (t))) 1

Un dato funcional i (t)t T , se representa generalmente como un conjunto finito de pares


(tj , yij ), tj T , j = 1, , M e yij = j (tj ) (si no hay ruido blanco) o yij = j (tj ) + j
(si hay ruido blanco), j tiene media cero. El conjunto de puntos {tj }M j=1 T puede ser con-
siderado el mismo para todas las funciones en un conjunto de datos funcionales. Mtodos de
interpolacin (si no hay ruido blanco) o mtodos no paramtricos de suavizacin (en caso con-
trario) son comunmente usados para representar los conjuntos discretos (tj , yij ), j = 1, , M ,
como una funcin real i . En este sentido se puede decir que el hereda la metodologa de la
estimacin no paramtrica funcional.

3.2 Tcnicas exploratorias para Datos Funcionales


En [25] se recogen como herramientas para resumir los datos: la media funcional, la varianza
funcional y la funcin de covarianza. En un captulo posterior se emplean las componentes prin-
cipales funcionales como herramientas del anlisis descriptivo. Bsicamente esto era todo el
anlisis descriptivo de un conjunto de datos funcionales. Sin embargo, el anlisis descriptivo se
revela decisivo para el tratamiento de datos funcionales. La cuestin se complica si pensamos
que nuestros datos pueden estar sujetos a mtricas no usuales y por tanto, las representaciones
usuales engaaran nuestra mirada. En este campo se echan en falta herramientas descriptivas
que en otros mbitos como el multivariante se han desarrollado expresamente. Manejando difer-
entes conceptos sobre profundidad estadstica tambin se han definido extensiones de medidas
robustas para datos funcionales, incluyendo incluso el bootstrap para datos funcionales como
herramienta para analizar la variabilidad de los distintos estimadores. Durante todo este trabajo
estamos en L2 (T ).
3.2 T CNICAS EXPLORATORIAS PARA DATOS F UNCIONALES 41

3.2.1 Media, Varianza, covarianza, correlacin, covarianza cruzada y correlacin


cruzada
1 Pn
Media: X t = n i=1 Xi (t).

1 Pn  
Varianza: Var(X) = n1 Xi (t) X(t) Xi (t) X(t) .
i=1

1 Pn
Covarianza: Cov(X(t1 ), X(t1 )) = n1 i=1 (Xi (t1 ) x(t1 )) (Xi (t2 ) x(t2 )).

Cov(X(t1 ),X(t1 ))
Correlacin: Corr(X(t1 ), X(t1 )) = .
Var(X(t1 ))Var(X(t2 ))

1 Pn  
Covarianza cruzada: Cov(X(t1 ), Y (t2 )) = n1 i=1 Xi (t1 ) X(t1 ) Yi (t2 ) Y (t2 ) .
Cov(X(t1 ),Y (t2 ))
Correlacin cruzada: Corr(X(t1 ), Y (t2 )) = .
Var(X(t1 ))Var(Y (t2 ))

3.2.2 Componentes principales


Componentes principales Multivariante
Las componentes principales son una herramienta bsica en el entorno multivariante diseada
para explicar un conjunto de datos X = (Xij )nxp mediante una combinacin de variables
ortonormales que cumplen la propiedad de maximizar la varianza. Es la solucin del siguiente
algoritmo:

Encontrar el vector 1 de norma 1 tal que la combinacin lineal f~1 = X maximice


P
p 2
i=1 fi1 .

Repetir el proceso anterior, exigiendo adems en el paso m que m k , k < m.

Componentes principales para FDA (FPCA)


Algoritmo adaptado para datos funcionales:
R  R
P la funcin 1 (s) de norma 1
Encontrar 1 (s)2 ds = 1 tal que f1 = 1 (s)Xi (s) max-
imice pi=1 fi1 2 .

Repetir el proceso anterior, exigiendo adems en el paso m que m (s)k (s), k < m.

La descomposicin en esta base ortonormal permite escribir cada dato como:

K
X
Xi (t) = fik k (t)
k=1
R
donde fik es el valor de la componente principal Xi k .
Las caractersticas ms notables de las componentes principales son las siguientes:
42 C APTULO 3. A NLISIS DE DATOS FUNCIONALES

Resumen rpidamente la informacin de la muestra.

Permiten obtener una base ortonormal emprica adaptada a los datos.

Pueden servir para detectar datos atpicos (aunque tambin pueden esconderlos).

La rotacin de las componentes pueden ayudar a encontrar mejores explicaciones de las


componentes.

Posibilidad de modificar el algoritmo para conseguir suavidad en las componentes.

3.3 Bases para datos funcionales


Una base es un conjunto de funciones conocidas e independientes {k }kN tales que cualquier
funcin puede ser aproximada, tan bien como se quiera, mediante una combinacin Plineal de K
de ellas. De esta forma, la observacin funcional puede aproximarse como (t) = kN ck k (t)
PK
k=1 ck k (t).
Si los elementos de la base son fcilmente diferenciables hasta orden q tenemos (q) (t) =
P (q) PK (q)
kN ck k k=1 ck k (t).
Las bases que se suelen usar para datos funcionales son las bases de Fourier si los datos son
perodicos, bases B-spline para clculos rpidos y flexibles, bases de Wavelets apropiada para
modelizar discontinuidades, exponencial, potencial, polonomial, .
Bibliografa adecuada, con respecto a esto se encuentra en los libros de [30] y [26].
Una vez que se ha decidido usar la representacin en bases de las funciones surgen las tres
preguntas siguientes:

1. Qu tipo de base de funcionaes son las ms adecuadas?.

2. Cuntas bases se deben seleccionar describir nuestros datos?.

3. Cmo se determinan los coeficientes c basados en las funciones parcialmente observada?.

En el libro [26] se encuentran detalladamente resueltas estas preguntas. A continuacin se


describen las bases ms habituales y a lo largo del captulo 4 se definen criterios tiles para la
eleccin del nmero de bases de funciones. El mtodo de mnimos cuadrados estndar se usa
para estimar el vector de coeficientes c, aunque, una matriz de penalizacin tambin puede ser
incluida en el problema de minimizacin.

3.3.1 Bases de Fourier


Una base de Fourier es una base peridica de perodo 2
que cuando se seleccionan datos {tj }
equiespaciados en T = [0, T ] y = 2
T est formada por las siguientes funciones ortonormales:
3.3 BASES PARA DATOS FUNCIONALES 43

1
0 (t) = ,
T
sin(rt)
2r1 (t) = q ,y
T
2
cos(rt)
2r (t) = q .
T
2

3.3.2 Bases B-Splines


Un spline es un conjunto de polinomios (de orden m) definidos en subintervalos construidos de
tal modo que al final del polinomio en un subintervalo coincida con el inicio del polinomio del
siguiente subintervalo (hasta derivada m 2). Los puntos de corte de subintervalos se llaman
nodos. = {l }Ll=0 . Los B-splines (Bases de splines) se calculan fcilmente con el algoritmo
de Boor. Entre ellos los ms utilizados son los cbicos. El nmero de parmetros para definir
una funcin spline es el nmero de nodos interiores (L 1) + el orden del polinomio (m).

m+L1
X
S(t) = ck Bk (t, )
k=1

3.3.3 Bases de Wavelets


La
R base de Wavelets se construye a partir de dos funciones.
R El wavelet padre que verifica que
(t)dt = 1 y el wavelet madre que verifica que (t)dt = 0. Los elementos de la base se
obtienen a partir de estas dos funciones ortogonales por traslacin y cambio de escala.

j 
j,k (t) = 2 2 2j t k ,
j 
j,k (t) = 2 2 2j t k ,
Z
j,k (t)j,k (t)dt = k,k ,
Z
j,k (t)j ,k (t)dt = 0,
Z
j,k (t)j ,k (t)dt = j,j k,k .

Elegida la base la aproximacin ortogonal wavelet de una funcin f (t) viene dada por:
44 C APTULO 3. A NLISIS DE DATOS FUNCIONALES

X X
f (t) SJ,k J,k (t) + dJ,k J,k (t)
k k
X X
+ dJ1,k J1,k (t) + + d1,k 1,k (t)
k k

Llamando:

X
SJ (t) = SJ,k J,k (t)
k
X
DJ (t) = dJ,k J,k (t)
k
X
DJ1 (t) = dJ1,k J1,k (t)
k
X
D1 (t) = d1,k 1,k (t)
k

A la funcin Sj (t) se la conoce como seal suave y a las funciones Dj (t) como las funciones
detalle. A esta descomposicin se la llama descomposicn multiresolucin.

3.4 Suavizacin de datos funcionales


Supongamos que obseervamos y(tj ) = x(tj ) + (tj ) donde el trmino (tj ) representa el ruido
originado al medir los datos. Para recuperar la seal original podemos usar un suavizador lineal,
es decir,

N
X
x(tj ) = sj (ti )y(ti ) X = SY
i=1
 
ti tj
Suavizacin tipo Kernel (h): sj (ti ) = h1 K h .

Representacin truncada (K) en una base: S = ( W )1 W .

Suavizacin penalizada (): S = ( W + R)1 W .

Grados de libertad del ajuste: df = traza(SS ).

3.5 Eleccin de la suavizacin


En general, se pretende minimizar el error cuadrtico medio:
3.5 E LECCIN DE LA SUAVIZACIN 45

h i
M SE [x(t)] = E {x(t) x(t)}2
= Sesgo2 (x(t)) + Var (x(t)) .

Minimizar (por ejemplo), tenemos el criterio del GCV:

n (y x ) W (y x )
GCV() = .
n df () n df ()
La varianza de la prediccin viene dada por:

y = Sy Var(y) = Se S .

3.5.1 Regresin - representacin en base


Observados los pares (X1 , y1 ), , (Xn , yn ), podemos escribir:

Kx
X
Xi (t) = cik k (t) X = C (t),
k
K
X
(t) = bk k (t) = b
k

donde resulta

1 1
b = Z Z Z y, y = CJ by = Zby = Z Z Z Z y = Sy
R
con J = (t) (t)dt.
Versin penalizada

1 1
b = Z Z + R0 Z y, y = CJ by = Zby = Z Z Z + R0 Z y = Sy

3.5.2 Regresin Lineal Funcional


Asmase que (X, Y ) es un par de variables aletorias con (X, Y ) L2 (T )L2 (T ). Suponiendo
que ambas variables est centradas, es decir, E [X(t)] = 0 para t T y E(Y (t)) = 0 establece-
mos la siguiente relacin entre X e Y .

Z
Yi (t) = X(s)(s, t)ds + i (t),
T
46 C APTULO 3. A NLISIS DE DATOS FUNCIONALES

donde ahora el parmetro es de cuadrado integrabe en S T y i (t) es una variable


funcional con media cero.
Escribiendo como una doble expansin en trminos de dos bases k y l se tiene:

k X
X L
(s, t) = bkl k (s)l (t) = (s) B(t).
k=1 l=1

Observados los pares (X1 , Y1 ), , (Xn , Yn ) para estimar el modelo previo, se sugiere es-
timar minimizando:

n 
Z X Z 2

LM SSE() = Yi (t) Xi (s)(s) B(t)ds dt,
i=1

Como antes debe restringirse el tamao de las bases para que la estimacin sea razonable.

Z
Y (t) = X(s) (s)B(t)ds + (t) = XB(t) + (t)
R
donde X es una matriz n K de la forma X = X(s) (s)ds.
Por tanto, de la ecuacin anterior, usando la representacin de (t)

Z Z

X XB (t) (t)dt = X Y (t) (t)dt,

que se puede reescribir:

 Z 


J (X X) vec(B) = vec X Y (t) (t)dt ,

R
donde J = (t) (t)dt. Si adems Y = C entonces:

 1 
vec(B) = J (X X) J X vec(C)
R
donde J = (t) (t)dt.
La penalizacin de estos estimadores puede hacerse tanto en s como en t. Sea

Z
 
R = [Ls s ] L (s) ds,
Z
 
S = [Lt t ] L (t) dt.
3.5 E LECCIN DE LA SUAVIZACIN 47

Con trminos de penalizacin pueden escribirse las anteriores ecuaciones como:

Z

X XBJ + s RBJ + t J BS = X Y (t) (t)dt
R
donde J = (t) (t)dt. Si como antes Y = C entonces:

 1 
vec(B) = J (X X) + s J R + t S J J X vec(C)
R
donde J = (t) (t)dt.
Captulo 4

Ejemplo real de Kriging con datos


reales funcionales

En los tres captulos anteriores se ha presentado el marco terico necesario para poder llevar
a cabo la aplicacin a datos reales combinando ambas tcnicas. Se usar para cada tcnica el
conjunto de datos de la temperatura descrito en la intoduccin.
Antes de describir las tcnicas kriging usadas se presenta una estadstica descriptiva bsica
y funcional de los datos junto con unos conceptos bsicos de meteorologa que ayudarn a
interpretar los resultados.
En la parte superior de la Figura (4.1) se tiene la temperatura de Galicia a lo largo del ao
2009 y en la inferior lo mismo salvo que destacando la temperatura en la Facultad de Matemti-
cas (Santiago de Compostela) punto no muestreado.
La Figura (4.2) presenta la temperatura en Galicia a lo largo del ao 2009 distribuida a lo
largo de las cuatro estaciones del ao (primavera, verano, otoo e invierno) destacando siempre
la temperatura en el punto no muestreado.
En el Captulo 3 se ha tratado con detalle la metodologa del Anlisis de Datos Funcionales,
pero como en cualquier anlisis estadstico es bsico conocer la media, la varianza, el mnimo,
mximo, de los datos, que es lo que se presenta en la Figura (4.3). El clculo de estos
estadsticos queda desarrollado en dicho captulo.

4.1 Conceptos bsicos de meteorologa


Se define el tiempo atmosfrico como el estado de la atmsfera en un determinado momento.
Para determinarlo se analizan algunas caractersticas como son la temperatura, humidad, pre-
sin atmosfrica y el viento. El clima es el conjunto de valores medios de estas condiciones
atmosfricas durante muchos anos. Depende fundamentalmente de 3 factores que son:
Latitud. Los rayos solares calientan ms a latitudes prximas al Ecuador (los rayos caen
ms perpendicularmente) que aquellas que se encuentran en los polos.
Relieve o altitud. La temperatura de la troposfera disminuye con la altitud (las capas altas
de la atmsfera son menos densas y non retienen el calor). Cuando una corriente de aire

49
50 C APTULO 4. E JEMPLO REAL DE K RIGING CON DATOS REALES FUNCIONALES

Temperaturas de Galicia ao 2009

10
C

10
0 100 200 300

das

Temperaturas de Galicia ao 2009


10
C

T Santiago
10

0 100 200 300

das

Figura 4.1: En la parte superior Temperatura de Galicia ao 2009. En la inferior la de Santiago.

circula por la superficie y se encuentra una cadena montaosa, asciende por ella y la enfra.
El vapor de agua que contiene el aire, se condensa y cae en forma de precipitaciones. En
las montaas hay temperaturas baijas y llueve ms.

Distancia al mar. El agua tiene una elevada capacidad calorfica (tarda mucho en calen-
tarse y luego tarda mucho tambin en enfriar). En el verano la Tierra se calienta con ms
intensidad (no transmite el calor, lo acumula en la superficie) con el mar. Por eso si el auga
del mar est ms fra, refresca el ambiente de las zonas costeras. En el invierno la Tierra
enfra ms que el mar, y el mar as modera el fro en las zonas costeras. (Por ejemplo: las
brisas costeras: terrestres y marinas, nocturnas y diurnas)
Otros conceptos que cabe citar son:
Isotrmicas. Son lneas que unen puntos de igual temperatura.

Isobaras. Son lneas que unen puntos de igual presin atmosfrica.

Vegetacin. La vegetacin tambin influye en el clima, cuanta ms vegetacin, mayor


cantidad de lluvia. (Hay que tener en cuenta que el movimiento del aire, viento, se produce
de las zonas fras, alta presin atmosfrica, a las calientes, poca presin atmosfrica, a ras
del suelo y al revs de las capas altas de la atmsfera.

Predicin meteorolgica. La predicin meteorolgica se hace en base a los datos sum-


inistrados por: las estaciones meteorolgicas (instalaciones que cuentan con instrumentos
de medicin, como barmetros, termmetros, pluvimetros y anemmetros), radares me-
teorolgicos (instrumentos que permiten conocer en tiempo real donde llueve y con que
4.1 C ONCEPTOS BSICOS DE METEOROLOGA 51

T primavera de Galicia ao 2009 T verano de Galicia ao 2009


(21 marzo a 20 junio) (21 junio a 20 septiembre)

25

25
20

20
15
C

15
10
5

10
0

T Santiago T Santiago

5
80 100 120 140 160 180 200 220 240 260

das das

T otoo Galicia ao 2009 T invierno de Galicia ao 2009


(21 septiembre a 20 diciembre) (21 diciembre a 20 marzo)
10 15 20 25

20
15
10
C

5
5

0
0

10 5
5

T Santiago T Santiago

280 300 320 340 360 380 400 420 440

das das

Figura 4.2: Temperatura de Galicia ao 2009.

intensidad lo hace) y satlites meteorolgicos (satlites artificiales que se situan en rbita


alrededor de la Tierra y permiten el anlisis de imgenes e informacin de la atmsfera
desde gran altura).

Todos estos factores determinan que en Galicia predomine el clima ocenico templado.
Este clima se caracteriza por unas temperaturas suaves en el verano y moderadamente fras en
el invierno, as como por unas precipitacions muy abundantes, sobre todo en el invierno. En
la Tabla (4.1) se recogen la temperaturas mnimas, medias y mximas en las 66 estaciones de
estudio.

Primavera Verano Otoo Invierno


Mnima -3.2 3.7 -8.2 -9.0
Media 26.0 16.9 11.7 7.2
Mxima 11.7 28.2 24.2 19.8

Tabla 4.1: Temperatura mnima, media y mxima en las 66 estaciones. Ao 2009.

Sin embargo, al estudiar con detalle las caractersticas climatolgicas de nuestra Comunidad,
podemos distinguir las siguintes variedades de clima: ocenico costero, ocenico continental,
ocenico mediterrneo y ocenico de montaa.

En el ocenico costero predomina en las zonas costeras de Pontevedra, A Corua y Lugo,


es decir, abarca toda la zona costera desde A Garda hasta Ribadeo. Se caracteriza por
52 C APTULO 4. E JEMPLO REAL DE K RIGING CON DATOS REALES FUNCIONALES

Media de la T Varianza de la T

12
20

10
15

8
C

C
10

6
4
5

2
0
0 100 200 300 0 100 200 300

da da

T mnima T mxima
15

25
10

20
C

C
5

15
0

10
5
10

0 100 200 300 0 100 200 300

da da

Figura 4.3: Estadsticos descriptivos para la temperatura de Galicia ao 2009.

tener temperaturas suaves en el verano y en el invierno y precipitaciones abundandantes,


que pueden alzanzar los 1.000 o 1.500mm anuales.

El ocenico continental se localiza en las zonas del interior. Se caracteriza por tener ve-
ranos clidos e inviernos fros con posibilidades de heladas. Las precipitacins alrededor
de los 1.000mm anuales, podiendo ser de nieve en el invierno.

El ocenico mediterrneo es propio de los valles del Mio y del Sil. Se caracteriza por
tener temperaturas elevadas en el verano e suaves en el invierno. Pluviosidad ms escasa,
sobre todo en el verano, oscilando entre los 600 y 1.000mm anuales.

El ocenico de montaa propio de las zonas montaosas como las sierras de los Ancares,
El Caurel, Queixa, . Se caracteriza por tener veranos frescos e inviernos menos fros
que en otras zonas montaosas ms alejadas del mar. Precipitaciones abundantes, de hasta
1.500mm anuales, que en el invierno pueden ser de nieve.
4.2 K RIGING ORDINARIO PARA FUNCIONES - VALORES DE DATOS ESPACIALES 53

4.2 Kriging ordinario para funciones-valores de datos espaciales


En esta seccin se considera un primer enfoque con respecto al problema de prediccin espacial
de datos funcionales. Se propone un procedimiento de kriging funcional donde la curva a pre-
decir es una combinacin lineal de las curvas observadas y donde los coeficientes son nmeros
reales.
Este problema ha sido estudiado inicialmente por Goulard y Voltz (1993), (vase [11]). En
su caso, las funciones eran conocidas solamente por un conjunto finito de puntos y el mod-
elo paramtrico los ajustaba para reconstruir la curva entera. En este contexto, el modelo
paramtrico se supona conocido y tanto el nmero de puntos conocidos para cada funcin como
el nmero de los parmetros en el modelo paramtrico, se asuma que eran pequeos.
En el caso que nos ocupa se propone aplicar un ajuste no paramtrico al pre-proceso de
las funciones observadas par ello se usarn bases de Fourier para la suavizacin. Por ello se
reconstruyen los datos a datos a continuo, es decir, representndolos en una base. Los valores
medios de temperatura, por la naturaleza de los sistemas atmosfricos, son una funcin continua
x(t) a lo largo perodo de tiempo t [1, 365]. En el seguimiento de la temperatura, el proceso
continuo es observado y registrado como discreto en intervalos de tj , j = 1, 2, ..., J. Para cada
da se tiene registrado 66 observaciones, una en cada estacin. Es decir, para una observacin de
cualquiera en un da i se tienen 66 registros discretos, XM,I,1 , ..., Xm,I,66 . Estos puntos discretos
se pueden utilizar para reconstruir una observacin continua mediante tcnicas de interpolacin,
de suavizado o el uso de bases, ([23]). Una base es un conjunto de funciones conocidas e
independientes k , k N tales que cualquier funcin puede ser aproximada, tan bien como se
quiera mediante una combinacin K de ellas. Mediante esta difinicin podemos expresar la
temperatura en una base para un da i del modo que sigue:
K
X
xm,i (t) = cm,i,k k (t)
k=1

Las bases ms usadas son las B-splines y las de Fourier. Las primeras se usan para clculos rpi-
dos y flexibles y las segundas para datos peridicos tales como los ciclos diarios de la temper-
atura como es el caso que nos ocupa. Una vez se tiene un dato expresado en la forma de la base de
Fourier se pueden expresar todos los datos como elementos de esa base. Si XM,I,1 , ..., Xm,I,66
son todas las observaciones de una de las variables, se puede obtener una representacin de la
base minimizando:
66
X
Q = [Xm,i,j xm,i (tj )]2
j=1

con respecto a los cm,i,k , (con K 66, ya que cada da se tienen 66 observaciones). El nmero
de bases K determina la suavidad resultante del ajuste, esto es, valores pequeos o grandes de
K proporccionan ms o menos suavidad en el ajuste. Hay que tener cuidado que no suceda se
que se est interpolando, ([23]).
54 C APTULO 4. E JEMPLO REAL DE K RIGING CON DATOS REALES FUNCIONALES

Para cada estacin y tanto para la temperatura se ha representado el 1 de enero del 2009
como elemento de una base de Fourier de 21, 33 y 65 elementos. Se ha determinado que en
ambos casos la base de Fourier de 65 proporcciona un nivel de ajuste aceptable para los datos
diarios. Despus de esta conversin el objeto de estudio es recontruir no slo el 1 de enero del
2009 sino los 365 das del ao. En la Figura 4.4 puede observarse el proceso seguido.

N bases: 21

20
N bases: 33
N bases: 65

15
C

10
5

0 100 200 300

01/01/2009

Figura 4.4: Representacin en bases.

Este enfoque est totalmente de acuerdo con las tendencias actuales del FDA, y, en partic-
ular, con la metodologa funcional de estimacin no paramtrica. La propuesta de Giraldo et
al. es hacer Kriging basado en prediccin espacial de curvas aleatorias formalmente coincide
con el Kriging funcional introducido por Goulard y Voltz, ([11]), pero la versin no paramtrica
desarrolla notables diferencias (por ejemplo, la representacin de los datos) y un problema adi-
cional cmo es el de la eleccin de los parmetros de suavizacin (la clave de los mtodos no
paramtricos). El predictor est basado en la filosofa bsica de los datos funcionales, esto es, las
curvas son entidades singulares, ms que una secuencia de observaciones individuales (Ramsay
y Silverman, 2005). El desarrollo de las frmulas en las tres tcnicas pueden consultarse con
detalle en los artculos de Giraldo et al.

4.2.1 Prediccin y estimacin de los parmetros


Se considera un proceso aleatorio funcional s : s D Rd , generalmente d = 2, tal que
s es una variable funcional para cualquier s D. Sean s1 , . . . , sn puntos arbitrarios en D, y
considerese que se puede observar una realizacin funcional del proceso aleatorio s en los n
lugares, s1 , . . . , sn . Se asume que se tiene un proceso aleatorio estacionario de segundo orden
4.2 K RIGING ORDINARIO PARA FUNCIONES - VALORES DE DATOS ESPACIALES 55

e isotrpico, es decir, la media y la varianza son funciones constantes y la covarianza depende


slo de la distancia entre los puntos muestreados. Formalmente se asume que:

E (s (t)) = m(t), t T, s D.

V (s (t)) = 2 (t), t T, s D.

Cov si (t), sj (t) = C(h, t) = Csi sj (t), si , sj D, t T, donde h = ksi sj k.

12 V si (t) sj (t) = (h; t) = si sj (t), si , sj D, t T, donde h = ksi sj k.

La funcin (h; t), es una funcin de h, llamada semivariograma de (t). Adems, se consid-
era la familia de predictores lineales para (t)s0 :
n
X
s0 (t) = i si (t), 1 , . . . , n R
i=1

El predictor, s0 (t), tiene la misma expresin que un kriging ordinario, pero considerando
curvas en vez de variables, es decir, la curva de prediccin es una combinacin lineal de las
curvas observadas. Se asume por tanto que cada curva medida es un dato completo. Este enfoque
trata la curva completa como una entidad singular. Los s en la ecuacin s0 (t) muestran la
influencia de las curvas que estn alrededor de la localizacin no muestreada donde se llevar a
cabo la prediccin. Las curvas de las ubicaciones ms cercanas al punto de prediccin tendrn
mayor influencia que las ms alejadas. Este es un primer paso y natural en el modelado de datos
espaciales funcionales.
Se considera la condicin insesgadez para encontrar el mejorPpredictor lineal insesgado
(BLU P ). De la condicin anterior, media constante, se exige que ni=1 i = 1. En geostads-
ticaclsica univariante se asume que las observaciones son Prealizaciones de una muestra aleato-
d n
ria Z(s) : s D, D R . El Kriging se define como i=1 i Z(si ) y el mejor predictor lin-
P
eal insesgado (BLU P ) se obtiene minimizando s20 = V (Z(si ) Z(si )) sujeto a ni=1 i = 1.
Por otro lado en geostadstica multivariante,
 ([28]), los datos, {Z(s1 ), . . . , Z(s
n )} se tienen de
observaciones de un proceso espacial Z(s) : s D, Z(s) Rm , D Rd . En este contexto
V (Z(s0 ) Z(s0 )) es una matriz y el BLU PPde m variables en una localizacin no muestreada
m
s0 se puede obtener minimizando s20 = i=1 V (Z(si ) Z(si )) sujeto a las restricciones
que garanticen la condicin de insesgadez, esto es, minimizar la traza de la matriz del error
cuadrtico medio sujeto a alguna restriccin dada por la condicin de insesgadez ([16]). Ex-
tendiendo el criterio al contexto funcional, es decir, remplazando el sumatorio por una integral,
los n parmetros en el Kriging de s0 considerados se obtienen como solucin del siguiente
problema de optimizacin:
Z
min V ((s0 )(t) (s0 )(t))dt,
1 ,...,n T
n
X
s.t. i = 1
i=1
56 C APTULO 4. E JEMPLO REAL DE K RIGING CON DATOS REALES FUNCIONALES

P
Donde ni=1 i = 1 son las restricciones de insesgadez. De las condiciones de insesgadez y del
teorema de Fubini se obtiene:

Z Z 
2
V (s0 (t) s0 (t)) = E (s0 (t) s0 (t)) dt
T T

Con lo que se necesita minimizar:


Z n
!
X
V (s0 (t) s0 (t)) + 2 i 1 ,
T i=1
Pn
donde el predictor s0 (t) = i=1 i (t)si (t) y es el multiplicador de Lagrange usado para
tener en cuenta la restriccin de insesgadez. La integral en la ecuacin anterior se puede escribir
como:

n X
X n Z Z n
X Z
s20 = i j Cij (t)dt + 2
(t) 2 i Ci0 (t)dt.
i=1 j=1 T T i=1 T

As, la funcin objetivo se puede escribir:


n X n Z Z n Z n
!
X X X
2
i j Cij (t)dt + (t) 2 i Ci0 (t)dt + 2 i 1 .
i=1 j=1 T T i=1 T i=1

Minimizando la ecuacin anterior con respecto a 1 , . . . , n y se obtienen el siguiente con-


junto de (n + 1) ecuaciones:
Xn Z Z
j C1j (t)dt + = C10 (t)dt
j=1 T T

Xn Z Z
j C2j (t)dt + = C20 (t)dt
j=1 T T

..
.
n
X Z Z
j Cnj (t)dt + = Cn0 (t)dt
j=1 T T
n
X
i = 1
i=j

Las cuales podemos expresar en notacin matricial como sigue:


R R R
T Cs1 s1 (t)dt . . . T Cs1 sn (t)dt 1 1 T Cs1 s0 (t)dt
.. . .. .
.. . .
.. .. ..
. .
R R = R
C s s (t)dt . . . C s s (t)dt 1 n C s n s0 (t)dt

T n 1 T n n T
1 ... 1 0 1
4.2 K RIGING ORDINARIO PARA FUNCIONES - VALORES DE DATOS ESPACIALES 57

Tambin se pueden obtener las estimaciones basadas en la traza del variograma. Asumiendo
estacionariedad, se tiene que

si sj (t) = 2 (t) Cij (t)

Entonces
Z Z Z
Cij (t)dt = 2 (t)dt si sj (t)dt
T T T

Reemplazando la ecuacin anterior en el sistema de ecuaciones, se obtiene el sistema:


R R R
T s1 s1 (t)dt . . . T s1 sn (t)dt 1 1 s1 s0 (t)dt
T
.. . .. .
.. .
.. ... ..
. .
R R = R
n
T sn s1 (t)dt . . . T sn sn (t)dt 1
T sn s0 (t)dt
1 ... 1 0 1

De las primeras n ecuaciones del primer sistema, se tiene la relacin

n X
X n Z n Z
X n
X
i j Cij (t)dt = Ci0 (t)dt i .
i=1 j=1 T i=1 T i=1

Reemplazando la ecuacin anterior en la ecuacin s20 , se obtiene:

Z n
X Z
2 2
= (t)dt i Ci0 (t)dt .
T i=1 T

R R R
Si adems se considera la relacin T Cij (t)dt = T 2 (t)dt T si sj (t)dt, la traza de la
varianza, de la prediccin del kriging ordinario funcional basado en la traza del variograma
vendr dado por

n
X
s20 = i (h)
i=1

El parmetro definido en la ecuacin anterior debera ser considerado como una medida global
de incerteza, en el sentido que es un versin integrada de la prediccin clsica point-wise de
la prediccin de la varianza del Kriging Ordinario. Bajo alguna especificacin en la traza del
modelo del variograma, se podrn usar estimaciones de este parmetro para identificar esas
zonas que presentan gran incerteza en las predicciones. Si se fija t T y se reemplaza la traza
del variograma en la ecuacin anterior por el variograma de una variable aleatoria (t), t T
se obtendra la varianza de prediccin del Kriging Ordinario (modelo clsico), (vase en [14]).
Este resultado se puede usar para calcular intervalos de confianza point-wise.
58 C APTULO 4. E JEMPLO REAL DE K RIGING CON DATOS REALES FUNCIONALES

4.2.2 Estimacin la traza del variograma


Para resolver el (4.2.1), es necesario un estimador de la traza del variograma. Ya que se asume
que s (t) tiene una funcin de media constante m sobre D,
 h 2 i
V si (t) sj (t) = E si (t) sj (t) .

Notar que, usando el teorema de Fubini,


Z 
1 2
(h) = E si (t) sj (t) dt , para si , sj D con h = ksi sj k
2 T

Entonces una adaptacin del modelo clsico de los momentos (M oM ) para esta cantidad da el
siguiente estimador

1 X Z 2
(h) = si (t) sj (t) dt
2 |N (h)| T
i,jN (h)

donde N (h) = {(si , sj ) : ksi sj k = h}, y |N (h)| es el nmero de elementos distintos en


N (h). Debido a la irregularidad de los datos espaciales, generalmente, no hay observaciones
sufiencientes separadas exactamente a una distancia h. Entonces N (h) se modifica por N (h) =
{(si , sj ) : ksi sj k (h , h + )}, con > 0 un valor pequeo. Una vez que se ha estimado
la traza del variograma para una secuencia de K valores hk , se propone un ajuste paramtrico
del modelo (h) (como el esfrico, el Gaussiano, el exponencial o el Matrn podran ser uti-
lizados) en los puntos (hk , (hk )), k = 1, . . . , K como si se obtuvieran bajo los argumentos
de la geostadstica clsica. Generalmente, este tipo de ajuste, se hace por mnimos cuadrado
ordinarios o mnimos cuadrados ponderados (ver, [6]). Notar que el ajuste paramtrico de la
traza del variograma es siempre un variograma vlido porque sus propiedades son las de un var-
iograma paramtrico ajustado por un conjunto geostadstico univariante.

Un procedimiento diferente, como alternativa al ajuste paramtrico, consiste en aplicar tc-


nicas de suavizacin (splines o regresin local lineal, ver Wasserman, 2006) al conjunto de datos
(hk , (hk )), k = 1, . . . , K para ser capaz de evaluar aproximadamente (h) mediante cualquier
valor de h R+ . Sin embargo, en este caso, si e(h) denota la versin suavizada de (h), la
condicin de semifinida negativa de e(h) merece ms atencin. Si (h) denota la traza del var-
iograma estimado paramtricamente, esta forma funcional se usa para obtener los coeficientes
i del Kriging en el sistema (4.2.1), y para estimar la traza de la varianza de prediccin a travs
de la ecuacin s20 .

4.2.3 Enfoque no paramtrico


En el artculo [11] tratan el mismo problema de geostadstica de interpolacin de curvas y es-
pecficamente consideran el predictor s0 (t). Consideran que las curvas son slo conocidas
por un conjunto finito de sus puntos: si (tj ) : j = 1, . . . , M , i = 1, . . . , n y muestran tres
argumentos para la prediccin de curvas en zonas no visitadas:
4.2 K RIGING ORDINARIO PARA FUNCIONES - VALORES DE DATOS ESPACIALES 59

Enfoque Multivariante 1: Cokrige First, Fit later (CFP). El vector de valores observados
si (t1 ) , . . . , si (tM ) se considera como la observacin de una variable aleatoria M -
dimensional en el sitio si . El Cokriging se aplica, entonces, para predecir  los valores de
este vector aleatorio en el sitio no muestreado s0 : si (t1 ) , . . . , si (tM ) . Por tanto,
 un
modelo paramtrico (; ), Rp se ajusta a los valores si (t1 ) , , si (tM ) para
reconstruir la funcin entera en s0 : (; s0 ).

Enfoque Multivariante 2: Fit first, Cokrige later (FCP). Primero, el modelo paramtrico
se ajusta a la curva observada: (; si ), i = 1, . . . , n. Los valores de los parmetros p-
dimensionales se consideran como observaciones de la variable aleatoria. El Cokriging se
aplica para predecir el valor del parmetro en la posicin s0 , decimos que s0 , y (; s0 )
es el resultado de predecir la funcin en s0 .

Enfoque de una curva kriging (CKP). Dado que las funciones si son slo conocidas para
M valores, Goulard y Voltz (1993) proponen un modelo paramtrico (; ), Rp para
estos datos para obtener (; si ) como una aproximacin de la funcin entera si . Por
tanto, el predictor s0 (t) se puede reescribir como
n
X  
s0 = i ; si
i=1

y las integrales en T para la estimacin de los coeficientes i se calculan usando (; si )


en vez de si .

Considrese ahora el caso comn donde un gran nmero de valores M son observados para
cada funcin muestreada y no hay un modelo paramtrico que los ajuste adecuadamente. En
este contexto el segundo propsito, CF P (Cokrige first, Fit later) que puede llegar a ser ex-
tremadamente caro en trminos de recursos computacionales. La razn es que CF P desarrolla
un primer paso del Cokriging donde la dimensin de la observacin multivariante es igual a M .
El coste computacional de este paso es razonable si M est en decenas, pero es inaceptable si
M es del orden de varios cientos o miles. Cuando un modelo paramtrico es adecuado para
representar las funciones observadas, la alternativa F CP (Fit first, Cokrige later) es factible,
porque en este caso el paso Cokriging tiene en cuenta p vectores dimensionales, donde p es el
nmero de parmetros en el modelos paramtrico. Aqu el problema aparece cuando el modelo
no paramtrico se considera para ajustar los valores observados. Entonces se podra hacer un
ajuste no paramtrico, pero este proceso es esencialmente equivalente al ajuste paramtrico con
nmero de parmetros pM creciente con el nmero de valores observados M . Sin embargo,
la flexibilidad extra proporcionada por un modelo no paramtrico es generalmente obtenida a
expensas de permitir grandes valores pM (incluso pM M ). Por tanto se concluye que el
coste computacional del argumento F CP podra tambin ser prohibitivo. As que nos limita-
mos a utilizar la curva de kriging predictor (CKP ). Del sistema (4.2.1) y la seccin anterior,
es evidente que, el paso crucial para la estimacin de la traza del variograma (h) y para cal-
cular los coeficientes Kriging i en el predictor s0 (t), est el clculo de integrales a travs de
R 2
T con la forma genrica T si (t) sj (t) . Cundo se ajusta bien un modelo paramtrico
60 C APTULO 4. E JEMPLO REAL DE K RIGING CON DATOS REALES FUNCIONALES

los valores de las funciones observadas estn disponibles. Se trata de sustituir esta integral
R  2
por T (t; si ) (t; sj ) , que por lo general tiene una expresin analtica cerrada. Cabe
plantearse qu es lo que se puede hacer si no existe un modelo paramtrico aceptable que ajuste
las funciones observadas. La propuesta que se plantea es la de sustituir el paso paramtrico del
ajuste por uno no paramtrico.

4.2.4 Resultados de la aplicacin


No es fcil proponer un modelo para estas curvas y que hay un cierto grado de ruido observa-
cional. Suavizamos las funciones observadas usando bases de funciones de Fourier.
En las Figuras 4.5 y 4.6 podemos ver una comparacin entre los datos sin suavizar y suaviza-
dos con 85 y 35 bases de Fourier.

T real. T suavizada con 85 bases.


Ao 2009 Galicia Ao 2009 Galicia

25
20
20

15
Temperatura (C)

Temperatura (C)

10
10

5
0

0
5
10

0 100 200 300 0 100 200 300

Das Das

Figura 4.5: Estadsticos descriptivos para la temperatura de Galicia ao 2009.


4.2 K RIGING ORDINARIO PARA FUNCIONES - VALORES DE DATOS ESPACIALES 61

T real. T suavizada con 35 bases.


Ao 2009 Galicia Ao 2009 Galicia

25
20
20

15
Temperatura (C)

Temperatura (C)

10
10

5
0

0
5
10

0 100 200 300 0 100 200 300

Das Das

Figura 4.6: Estadsticos descriptivos para la temperatura de Galicia ao 2009.

Visualmente los datos se representan bien con 35 bases de Fourier. Si tenemos muchas
bases se produce un sobrestimamiento y adems el coste computacional es mayor. Para decicir
el nmero de bases ms indicado se us la libreria f da.usc de Febrero-Bande, M. y Oviedo de
la Fuente, M.. Se ha usado el mtodo min.np. Este mtodo realiza una suavizacin funcional de
los datos usando una estimacin no paramtrica del kernel con mtodos de validacin cruzada
(CV) o mediante mtodos de validacin cruzada generalizada (GCV). En la seccin siguiente se
explicar ms en detalle la eleccin del nmero de bases por tratarse de una tcnica que expresa
la solucin basada en bases de funciones. El parmetro h de la ventana es 4.56. Cuando se han
obtenido que 85 era un buen nmero para considerar de bases en el mtodo de suavizacin se ha
usado un mtodo de validacin cruzada y la matriz de estimacin calculada mediante Regresin
Local Lineal (LLR), y la traza de la matriz vale 87.49. En el caso de 35 bases el mtodo
de validacin usado es de validacin cruzada generalizada y la matriz se calcula mediante la
62 C APTULO 4. E JEMPLO REAL DE K RIGING CON DATOS REALES FUNCIONALES

estimacin del kernel de Nadaraya-Watson. En este caso la traza obtenida es 32.37.

Criterio de evaluacin del Kriging


En cualquier problema de prediccin, el modelo ideal de evaluacin consiste en dividir el con-
junto de datos en dos partes: una muestra de entrenamiento (estimacin) para el modelo de
ajuste y otra muestra de test (validacin). Este planteaminto, sin embargo, no es eficiente, salvo
que el tamao de la muestra sea grande. La idea que est detrs es el de validacin cruzada,
donde se conmutan los papeles de muestra test y entrenamiento. En el contexto de datos fun-
cionales espacialmente correlacionados, donde la meta es predecir la curva entera de la funcin
s0 (t) en el punto s0 no muestreado, la tcnica de validacin cruzada de dejar uno fuera trabaja
del siguiente modo: cada dato de la localizacin se saca del conjunto de datos y mediante una
funcin de suavizacin se predice en esa localizacin usando Kriging funcional como predictor.
Llamamos a este procedimiento validacin cruzada funcional (F CV ). Calculamos el SSE de
F CV por:

n
X n 
X 
(i)
SSEF CV = SSEF CV (i) = si (tj ) si (tj ) | ,
i=1 i=1

donde isi (tj ) es la prediccin en si evaluada en tj , j = 1, . . . , M , sacando el sitio si tem-


poralmente fuera de la muestra.
Para decidir que modelo de semivariograma usar se han probado mediante validacin cruzada
cuatro ejemplos de semivariogramas isotrpicos, el Matrn, Exponencial, Esfrico y Circular de-
scritos en el Captulo 1. En la Figura 4.7 se muestran los resultados de prediccin en la Facultad
de Matemticas obtenidos al calcular el Kriging Ordinario mediante validacin cruzada para
elegir el modelo ms apropiado.
En la Tabla 4.2 se concluye que todos los modelos tienen un comportamiento similar. Por
tanto se trabajr con el esfrico de aqu en adelante. Suponemos que no se aprecian estas difer-
encias debido a que las distancias entre las estaciones no es muy grande, la mxima distancia
de una estacin a otra son 225.32Km y la mxima distancia de cualquier estacin al punto no
muestreado es 155.82Km.
Estadstico Matrn Exponencial Esfrico Circular
Mnimo 687.7 687.7 687.6 687.3
1st Qu. 1544.0 1544.0 1545.0 1552.0
Mediana 2394.0 2394.0 2394.0 2394.0
Media 2872.0 2872.0 2872.0 2876.0
3rd Qu. 3132.0 3132.0 3132.0 3127.0
Mximo 16290.0 16290.0 16290.0 16290.0

Tabla 4.2: Principales tipos de kriging lineal y propiedades.

En la Figura 4.8 se muestra el variograma obtenido al calcular la prediccin en el punto


no muestreado con el mtodo esfrico, como se explic con los otros modelos el resultado es
4.2 K RIGING ORDINARIO PARA FUNCIONES - VALORES DE DATOS ESPACIALES 63

Pred. F. Matemticas(Matern) Pred. F. Matemticas(Exponential)

25

25
KO KO

20

20
original original

Temperatura (C)

Temperatura (C)
15

15
10

10
5

5
0

0
5

5
0 100 200 300 0 100 200 300

da da

Pred. F. Matemticas(Spherical) Pred. F. Matemticas(Circular)


25

25
KO KO
20

20
original original
Temperatura (C)

Temperatura (C)
15

15
10

10
5

5
0

0
5

0 100 200 300 0 100 200 300

da da

Figura 4.7: Prediccin en funcin del tipo de modelo.

anlogo.
Una vez que se tiene determinado que modelo se va a usar se procede a hacer la predic-
cin. La Figura 4.9 muestra el variograma obtenido al calcular la prediccin en la Facultad de
Matemticas.
En la Figura 4.10 se muestran los resultados de prediccin comparados con el dato real, pues
aunque consideramos como no muestreado la Facultad de Matemticas, se tienen los resultados
para el mismo ao de la estacin Santiago-EOAS situada a excasos metros de nuestro punto de
inters. Se verifica que el mayor correponde a la estacin ms cercana geogrficamente al
punto no muestreado. En la Figura 4.11 se prensentan todos los s.
Sergude, (est en el ayuntamiento de Boqueixn), es la estacin con el mayor y la que
tiene el menor est en Malpica. En la Tabla 4.3 se presenta un resumen de los resultados
obtenidos.
Sergude Ro do Sol Punta Candieira Malpica
0.61 0.17 0.144 -0.02
Distancia en Km 9.78 26.89 101.08 56.13

Tabla 4.3: s y distancias ms representativos.

En la Figura 4.12 se ven las temperaturas de aquellas estaciones ms representativas, por un


lado se tiene la temperatura de Santiago, luego la de Sergude, Ro do Sol y Punta Candieira, por
ser las estaciones con mayores s y por ltimo Malpica la de menor . La temperatura media
anual de estas estaciones se ve en la Tabla 4.4
Del anlisis de validacin cruzada se concluye que la estacin ptima para la prediccin en
64 C APTULO 4. E JEMPLO REAL DE K RIGING CON DATOS REALES FUNCIONALES

30000
20000
semivariance

5000 10000
0

0 50 100 150 200

distance

Figura 4.8: Prediccin en funcin del tipo de modelo.

Santiago Sergude Ro do Sol Punta Candieira Malpica


13.28 13.28 11.02 13.20 13.18

Tabla 4.4: Temperaturas medias en el ao 2009.

la Facultad de Matemticas (s0 ) es la de Sergude, estacin ms cercana a s0 . Los coeficientes i


del kriging se obtuvieron resolviendo el sistema de ecuaciones 4.2.1 con h estimado mediante
el variograma esfrico h , como ha quedado justificado anteriormente. El mtodo de validacin
cruzada funcional (FCV) usado para para elegir el nmero de parmetros de suavizacin, tam-
bin puede ser considerado una herramienta til para comparar curvas observadas y predichas,
esto es, define una medida de distancia entre estas dos curvas. De hecho el SSS(i) puede
considerarse como una aproximacin al error cuadrtico medio integrado (MISE). Cuando se
usa validacin cruzada la idea es que los valores predichos deberan estan cerca de los obser-
vados (utilizando la tcnica de dejar uno fuera en cada iteracin). En la Figura 4.13 la parte
de la izquierda muestra una comparacin grfica entre las curva observadas (las reales) y la
predicha(utilizando FCV).
La Tabla 4.5 muestra el resumen de los residuos de validacin cruzada para el Kriging Or-
dinario y los datos suavizados mediante bases de Fourier.
Por ltimo antes de cambiar a la tcnica 2, debido a que no se aprecian cambios en el var-
iograma ni en las estimaciones dependiendo del modelo considerado se ha intentando hacer lo
mismo pero con Kriging Universal. Hemos credo que la altitud influye en la estimacin de la
temperatura e incluso la latitud. Por tanto se han creado 8 modelos diferentes con estas variables.
4.2 K RIGING ORDINARIO PARA FUNCIONES - VALORES DE DATOS ESPACIALES 65

30000
20000
semivariance

10000
5000
0

0 50 100 150 200

distance

Figura 4.9: Variograma.

Los modelos sern combinaciones T emp0 (t) = 0 (t) + 1 (t) Altitud0 + 0 (t) (modelo1)
y T emp0 (t) = 0 (t) + 1 (t) Altitud0 + 2 (t) Latitud0 + 0 (t) (modelo2). Es decir el
modelo1 considerando la temperatura centrada o no y modelo con constante o sin ella y de modo
anlogo el modelo2. En la Tabla 4.6 se presenta un resumen del coeficiente de determinacin
para esos modelos.
A continuacin se ha hecho la estimacin del Kriging Universal primero con los modelos que
usan com variable a la altitud. Los resultados obtenidos eran muy similares a los que se tenan
en el Kriging Ordinario, por ello, se han omitido para no hacer muy extenso este trabajo. De
la Tabla 4.6 los modelos que tienen mayor coeficiente determinacin (R-Squared) corresponden

Estadstico Kriging Ordinario


Mnimo 1326.0
1st Qu. 2931.0
Mediana 3861.0
Media 4306.0
3rd Qu. 4847.0
Mximo 12880.0
Desviacin tpica 2279.5
Suma 284222.1

Tabla 4.5: Resumen de los residuos de validacin cruzada para el Kriging Ordinario.
66 C APTULO 4. E JEMPLO REAL DE K RIGING CON DATOS REALES FUNCIONALES

Prediccin Santiago

KO
Original

20
Suavizada

15
Temperatura (C)

10
5
0

0 100 200 300

da

Figura 4.10: Prediccin en funcin del tipo de modelo.

a aquellos que usan adems la variable latitud. En la Tabla 4.7 se consideran los tres modelos
anteriores mejores y se muestra el nmero de veces que las variables han resultado significativas.
Si nos fijamos en la Tabla 4.7 los modelos de la dos primeras filas arrojan los mismos re-
sultados. En el ltimo modelo la variable latitud ha sido siempre significativa y debido a que
el R-Squared es el mayor hemos optado por este modelo. Se va a trabajar en vez de con la
temperatura con los residuos respecto a la media del modelo que tienen a su vez estructura de
dato funcional. Luego a estos residuos se les aplicarn las tcnicas del Kriging. La Figura 4.14
muestra los residuos del modelo con altitud y latitud junto con los residuos suavizados con una
base de Fourier de 35 elementos.

R-Squared
modelo1 - no centrado sin constante 0.48
modelo1 - centrado sin constante 0.17
modelo1 - no centrado con constante 0.56
modelo1 - centrado con constante 0.56
modelo2 - no centrado con constante 0.73
modelo2 - centrado con constante 0.73
modelo2 - no centrado sin constante 0.97
modelo2 - centrado sin constante 0.56

Tabla 4.6: R-Squared.


4.2 K RIGING ORDINARIO PARA FUNCIONES - VALORES DE DATOS ESPACIALES 67

Lambdas por KO

0.6
0.5
0.4
lambdas

0.3
0.2
0.1
0.0

50 100 150

da

Figura 4.11: Lambdas obtenidos por Kriging Ordinario.

R-Squared Constante Altitud Latitud


modelo2 - no centrado con constante 0.73 305 342 270
modelo2 - centrado con constante 0.73 275 342 270
modelo2 - no centrado sin constante 0.97 - 318 365

Tabla 4.7: R-Squared y nmero de veces que las variables han sido significativas.

En la Figura 4.15 se tiene el variograma con los distintos modelos, y como en el caso del
Kriging Ordinario se obtiene la misma estimacin, con lo cul se optar por el esfrico nueva-
mente. Lo que si que se observa es que la varianza ha disminuido.

Se tiene la prediccin para los residuos en la Figura 4.16. Hay que decir que las estaciones
que tiene los s representativos son las mismas que en el Kriging Ordinario, por tanto no se
incidir ms en eso. El siguiente paso es deshacer el cambio en el modelo para ver la prediccin
autntica en la la Facultad de Matemticas. Ya no se presentan estos resultados porque lo que se
pretenda era ver si la el efecto de la altitud y/o la latitud ayudaban a definir que modelo usar.

Tambin se ha aplicado Kriging Universal a los datos eliminndole a los residuos el efecto de
la latitud y longitud. Los resultados obtenidos se pueden consultar en la tabla (4.14) y servirn
para decidir al final con qu metodologa nos quedamos.
68 C APTULO 4. E JEMPLO REAL DE K RIGING CON DATOS REALES FUNCIONALES

Temperatura en las estaciones con


lambdas ms representativos

Santiago
Sergude
Ro do Sol

20
Punta Candieira
Malpica

Temperatura (C)

15
10
5

0 100 200 300

da

Figura 4.12: Estaciones con s representativos.

4.3 Kriging variacin de tiempo continua para la prediccin espa-


cial de datos funcionales
En esta tcnica se considera el problema de prediccin espacial de datos funcionales con pon-
deracin de cada curva observada por un parmetro funcional. Esta tcnica es una combinacin
del Kriging Ordinario y el modelo funcional lineal concurrente (punto-wise) tal y como se mues-
tra en [26]. Se propone una solucin basada en bases de funciones. Tanto las curvas como los
parmetros funcionales se expanden en trminos de un conjunto de bases de funciones. En-
tonces, el problema pasa a ser el de estimacin de los coeficientes de estas bases de funciones
para cada parmetro funcional. Para proporcionar una solucin, se usa el modelo lineal de cor-
regionalizacin para estimar la covarianza a travs de los coeficientes de cada curva.

4.3.1 Predictor y problema de minimizacin


Con esta tcnica se propone usar la familia lineal para predictores point-wise s0 (t), t T ,
dada por
n
X
s0 (t) = i (t)si (t), 1 (t), , n (t) : T R.
i=1

Este predictor fue mencionado en [11]. Se asumen las mismas afirmaciones dadas en la tc-
nica anterior. Para cada t T , el predictor, s0 (t), tiene la misma expresin que el predictor
del Kriging Ordinario. En el resto del proyecto a este predictor se le llamar Kriging Continuo
4.3 K RIGING VARIACIN DE TIEMPO CONTINUA PARA LA PREDICCIN ESPACIAL DE DATOS FUNCIONALES69

variable en el tiempo para datos funcionales (CTKFD). Este procedimiento del modelo es co-
herente con el modelo linal funcional concurrente ([12], [26]) tal como se ve en la ecuacin
Y (t) = X(t)(t) + (t), en la cul la influencia de cada covariable en la respuesta es simultnea
o point-wise. En este modelo, la respuesta Yi (t) y cada covariable Xij (t), j = 1, , q son
funciones con los mismos argumentos y Xj (t) slo influye en Y (t) a travs de su valor en el
tiempo t. La estimacin de parmetros funcionales (t), j (t), j = 1, , q, se lleva a cabo
resolviendo (Ramsay and Silverman, 2005)
2

min E Y (t) Y (t) .
(),1 (), ,q ()

En este contexto, las covariables son las curvas observadas en n sitios de una regin y la re-
spuesta funcional es un funcin no observada en una zona no muestreada. Consecuentemente,
el problema de optimizacin es

min E ks0 (t) s0 (t)k2 ,


1 (), ,n ()

o equivalentemente usando el teorema de Fubini


Z
min E (s0 (t) s0 (t))2 dt.
1 (), ,n () T

Si se consideran las afirmaciones estacionarias, el problema pasa a ser


Z
min V (s0 (t) s0 (t))2 dt. (4.1)
1 (), ,n () T

Como en la seccin anterior, el problema de minimizacin (4.1) es una extensin del cri-
terio de minimizacin dado por en [16] al contexto funcional, h reemplazando el sumatorio i por
la integral y los vectores aleatorios [Z1 (s0 ), , Zm (s0 )] y Z1 (s0 ), , Zm (s0 ) por las vari-
ables funcionales (t) y (t) respectivamente,Pn con t T . El predictor, s0 (t) es insesgado
si E (s0 (t)) = m(t), t T , esto es, si i=1 i (t) = 1, t T . Consecuentemente, para
encontrar el BLUP, los n parmetros funcionales en el predictor propuesto vendrn dados por la
solucin del siguiente problema de optimizacin
Z n
X
2
min V (s0 (t) s0 (t)) dt, sujeto a : i (t) = 1, t T. (4.2)
1 (), ,n () T
i=1

4.3.2 Una solucin basada en bases de funciones


Se asume que cada funcin observada puede ser expresada en trminos de K bases de funciones
por
K
X
si (t) = ail Bl (t) = aTi B(t), i = 1, , n.
l=1
70 C APTULO 4. E JEMPLO REAL DE K RIGING CON DATOS REALES FUNCIONALES

Teniendo en cuenta que si (t), i = 1, , n son funciones aleatorias con dependencia espacial,
se asume que la matriz

a11 a12 ... a1K
a21 a22 ... a2K

A= .. .. .. .. = (1 , , K )(nK)
. . . .
an1 an2 . . . anK

constituye un vector aleatorio K multivariante con E(i ) = vi(nx1) y matriz de covarianzas



11 12 . . . 1K
21 22 . . . 2K

= .. .. .. ..
. . . .
K1 k2 . . . KK (Kn)x(nK)

donde ij = C(i , j )nn . Los coeficientes aij se asumen como una realizacin del vector
aleatorio espacial j , j = 1, , K. Se propone usar geostadstica multivariante y espec-
ficamente un modelo lineal de corregionalizacin (LMC) para la estimacin de la matriz de
covarianzas . Para establecer la condicin de insesgadez y para llevar a cabo la estimacin de
los parmetros en s0 (t), se expande cada parmetro funcional i (t) por

K
X
i (t) = bil Bl (t) = bTi B(t).
l=1

Por tanto, con las expresiones de si (t) y i (t), se obtienen para la ecuacin del predictor s0 (t):
n
X
s0 (t) = bTi B(t)B(t)T ai .
i=1

PK
Mediante i (t) y la expansin de la funcin constante 1, l=1 cl Bl (t) = cT B(t) = 1, la
restriccin de insesgadez se puede expresar como
n
X n
X
bTi B(t) T
= c B(t), t, bi = c,
i=1 i=1

o ms especficamente por:
n
X n
X
bi1 = c1 , , biK = cK .
i=1 i=1

Desarrollando la varianza en la funcin objetivo en el problema de minimizacin (4.2) se


tiene:
4.3 K RIGING VARIACIN DE TIEMPO CONTINUA PARA LA PREDICCIN ESPACIAL DE DATOS FUNCIONALES71

V (s0 (t) s0 (t)) = V (s0 (t)) + V (s0 (t)) 2C (s0 (t), s0 (t))
n
!
X
= V bTi B(t)B T (t)ai + B T (t)V (a0 )B(t)
i=1
Xn
2 bTi B(t)B T (t)C(ai , a0 )B(t)
i=1
Xn
= bTi B(t)B T (t)V (ai )B(t)B T (t)bi
i=1
X
+ 2 bTi B(t)B T (t)C(ai , aj )B(t)B T (t)bj
i<j
n
X
+ B T (t)V (a0 )B(t) 2 bTi B(t)B T (t)C(a0 , ai )B(t).
i=1

En la ecuacin anterior, V (s0 (t) s0 (t)), para i < j, i, j = 0, 1, , n se tiene:



Var(ai1 ) Cov(ai1 , ai2 ) . . . Cov(aiK , aiK )
Cov(ai2 , ai1 ) Var(ai2 ) . . . Cov(ai2 , aiK )

V (ai ) = .. .. .. ..
. . . .
Cov(aiK , ai1 ) Cov(aiK , ai2 ) . . . Var(aiK ) (KK)
y
Cov(ai1 , aj1 ) Cov(ai1 , aj2 ) ... Cov(ai1 , ajK )
Cov(ai2 , aj1 ) Cov(ai2 , aj2 ) ... Cov(ai2 , ajK )

C(ai , aj ) = .. .. .. ..
. . . .
Cov(aiK , aj1 ) Cov(aiK , aj2 ) . . . Cov(aiK , ajK ) (KK)
Si se definen:
Z

Qi = B(t)B T (t)V (ai )B(t)B T (t) dt
ZT

Qij = B(t)B T (t)C(ai , aj )B(t)B T (t) dt
ZT
D = B(t)V (a0 )B(t)dt
ZT

Ji = B(t)B T (t)C(a0 , ai )B(t) dt
T

y considerando K multiplicadores de Lagrange mT = (m1 , , mK ) la funcin objetivo en el


problema de minimizacin (4.2) puede expresarse como:
n n n
!
X X X X
T T T T
min bi Q i bi + 2 bi Qij bj + D 2 bi Ji + 2m bi c
b1 , ,bn ,m
i=1 i<j i=1 i=1
72 C APTULO 4. E JEMPLO REAL DE K RIGING CON DATOS REALES FUNCIONALES

T
Teniendo en cuenta = bT1 , , bTn , mT (K(n+1)x1)
, la expresin anterior an se puede
resumir a:

min T Q + D 2 T J (4.3)

donde
Q11 Q12 ... Q1n I J1
Q21 Q22 ... Q2n I J2

.. .. .. .. .. ..
Q= . . . . . ,J = .

Qn1 Qn2 . . . Qnn I Jn
I I ... I 0 c
La matriz identidad en la ecuacin anterior es de orden K. Minimizando la ecuacin del prob-
lema de minimizacin (4.3) con respecto a se obtiene:

min = Q1 J.

En la prctica, se empieza estimando ambos mediante un LMC para la variable aleatoria mul-
tivariante A = (1 , , K ) y la matriz de covarianzas . Consecuentemente, se pueden
calcular las matrices Q y J. Reemplazando estas matrices en = Q1 J, se pueden estimar bi ,
i = 1, , n y los parmetros funcionales dadosR de i (t). Por otro lado, una estimacin plug-in
de la varianza de la prediccin integrada s20 = T V (s0 (t) s0 (t)) dt vendr dada por

s20 = T Q + D 2 T J,

donde la matriz D se calcula usando, V (a0 ) el cul se obtiene por el ajuste LMC.
La prediccin integrada de la varianza s20 es una medida de incerteza en la prediccin
de toda la curva. Basados en los parmetros estimados y usando el desarrollo de la varianza,
V (s0 (t) s0 (t)), se puede estimar la varianza de prediccin point-wise.

4.3.3 Resultados: prediccin espacial de las curvas de temperatura en Galicia


En este apartado se muestra esta tcnica aplicada al conjunto de los datos de temperatura de
Galicia. Inicialmente se seleccoina un nmero apropiado de bases funcionales. En un segundo
paso se realiza la prediccin en un punto no visitado usando el predictor propuesto y se describen
los resultados desde un punto de vista prctico. Para evitar un gran trabajo computacional se han
elegido el nmero de bases usando la metodologa explicada en la tcnica anterior y posterior-
mente se hace validacin cruzada funcional con el K elegido, es decir K = 35.
Como ha quedado explicado con la otra tcnica los datos de Galicia quedan bien represen-
tados en una base de 35. No se considera penalizacin robusta en este caso, es decir, se supone
= 0 en:

min M
X Z
k 2 2
cR (yj (tj )) + (t) + 2 (t) dt.
j=1 T
4.3 K RIGING VARIACIN DE TIEMPO CONTINUA PARA LA PREDICCIN ESPACIAL DE DATOS FUNCIONALES73

Cuando los datos son peridicos, las bases de Fourier con un nmero impar de bases funcionales
son la opcin ms apropiada ([26]). Por tanto una base de Fourier con 35 bases de funciones ser
una buena eleccin para los datos de Galicia. Aunque que se pueden expresar en funcin de una
base de Fourier con nmero infinito de sinusoides, tomamos 365 como el lmite porque este es el
nmero de datos discretos de cada sitio en nuestro conjunto de datos. Frecuencias superiores a
365 en este caso distorsionarn la seal. Esto se conoce como el problema de aliasing (Lfeachor
y Jervis, 1993).
Se trata de predecir la curva de la temperatura en un sitio no visitado con coordenadas
536.07 (Este) y 4747.02 (Norte), que corresponde a la Facultad de Matemticas. La Facul-
tad de Matemticas est situada casi en el centro geogrfico de Galicia. El clima de Santiago se
aproxima al ocenico costero, que se caracteriza por tener temperaturas suaves en el verano y
en el invierno y precipitacins abundandantes.
En esta seccin se sigue la misma metodologa de la seccin anterior, es decir, se hace la
prediccin en el lugar no visitado y despus un anlisis de validacin cruzada. Teniendo en
cuenta que en los datos de Galicia para ajustar la media de la funcin no es constante, los
datos suavizados estn inicialmente sin tendencia usando un modelo de regresin funcional con
respuesta funcional (suavizando las curvas de temperatura) y dos covariables escalares (las co-
ordenadas: longitud y la latitud), es decir, se considera que el modelo de regresin funcional
es

si (t) = (t) + 1 (t)Longitud + 2 (t)Latitud + si (t). (4.4)

Posteriormente, el residuo, si (t), en un sitio no visitado se predice por CT KF D y por ltimo,


la prediccin de la temperatura en s0 se obtiene mediante la adicin a la prediccin del kriging
a la tendencia del modelo dado (4.4).
Los parmetros estimados para el modelo ajustado se muestran en la Figura 4.17.
La variables latitud y longitud en el modelo (4.4) fueron estandarizados anteriormente. La
Figura 4.18 muesta la influencia de la constante, de la longitud y de la latitud en el modelo. Los
parmetros estimados muestran claramente que la temperatura est mucho ms influenciada por
las coordenadas en invierno que en verano para la longitud y al revs para la latitud.
Las Figuras 4.19, 4.20 y 4.21 muestan respectivamente los efectos de la variable longitud,
latitud y residuos del modelo (4.4), al que se le aplicar el Kriging
En la Figura 4.22 se muestran las curvas de temperatura suavizadas. La Tabla (4.8 se presenta
un resumen estadstico de las variables longitud y latitud despus de centrarlas.

Estadstico Longitud Latitud


Mnimo -88.74 -88.67
1st Qu. -51.57 -41.98
Mediana 2.19 -12.93
Media 0.00 0.00
3rd Qu. 45.88 45.80
Mximo 91.10 111.20

Tabla 4.8: Resumen estadstico de las variables longitud y latitud.


74 C APTULO 4. E JEMPLO REAL DE K RIGING CON DATOS REALES FUNCIONALES

En la Figura 4.24 se muestran los correspondientes residuos de este modelo, es decir los
residuos obtenidos al aplicar el Kriging a los residuos del modelo de regresin funcional de la
temperatura frente a las coordenadas, (longitud y latitud).
Deshaciendo el cambio, se obtiene la curva de prediccin para la Facultad de Matemticas
(Figura 4.17). De las Figuras 4.17 y 4.24 se puede concluir que el modelo de regresin ajustado
tiene un buen rendimiento.
Altos residuos en la Figura 4.24 se deben a malas estimaciones en las estaciones se trata de
Cabeza de Manzaneda (ayuntamiento de Manzaneda (Ourense)) y Pedro Murias (ayuntamiento
de Ribadeo (Lugo), 7124.53 y 6509.01, respectivamente. Cabeza de Manzaneda est al sur este
de Galicia, la diferencia entre la temperatura mxima y la mnima es de 28.5 C. El clima se
encuadra dentro de lo que se ha definido por ocenico de montaa que se caracteriza por tener
veranos frescos e inviernos menos fros. Por el contrario en la estacin de Pedro Murias en
Ribadeo, noreste de Galicia, posee clima ocenico costero, que se caracteriza por tener temper-
aturas suaves en el verano y en el invierno y precipitacins abundandantes. La diferencia de
temperaturas mxima y mnima es esta estacin es 25.5 C.
Por el contrario las estaciones de las Vigo-Campus (ayuntamiento de Vigo (Pontevedra)) y
Melide (A Corua), son las estaciones con menores residuos por validacin cruzada, 254.13 y
397.53, respectivamente. La diferencias entre el mximo y el mnimo son de 21.5 C y 23.4,
para cada una. En Vigo-Campus el clima es ocenico costero y en Melide ocenico continental,
se caracteriza por tener veranos clidos e inviernos fros con posibilidades de heladas.
La Figura 4.23 muestra un grfico de los parmetros funcionales estimados. El mayor
parmetro funcional estimado corresponde a la estacin de Sergude (ayuntamiento de Boqueixn
(A Corua)) que es la estacin ms cercana al punto a estimar.
Otras estaciones cercanas a la Facultad de Matemticas, y por tanto con influencia en la
prediccin, son Muralla (ayuntamiento de Lousame (A Corua)) (valores en torno a 0.16), Ro
do Sol (ayuntamiento de Coristanto (A Corua)) (alrededor de 0.13 pesos), Fontecada (ayun-
tamiento de Santa Comba (A Corua)) valores en torno a 0.009, en la Figura 4.23. La suma de
los parmetros funcionales estimados es igual a 1 para todo t (Figura 4.23)), lo que indica que la
restriccin de insesgadez se cumple. La estacin que proporcciona menos informacin es la de
Malpica, igual que sucede con la tcnica 1. La prediccin en la Facultad de Matemticas 4.17,
es consistente con los valores reales registrados.
Una comparacin entre la prediccin en validacin cruzada y las curvas suavizadas (Figuras
4.17 y 4.24) muestran que las predicciones tienen el mismo comportamiento en el tiempo que
las curvas suavizadas.
Se puede observar que hay algunas estaciones con grandes curvas residuales positivas o
negativa. Se aprecia que la desviacin estndar residual es menor en la primavera y en el verano
donde las curvas suavizadas y pronosticadas tienen menor variacin y se comprueba con los
datos de los promedios de la desviacin tpica en la Tabla 4.9.

Primavera Verano Otoo Invierno


Promedio de la desviacin tpica 2.77 2.42 2.91 2.91

Tabla 4.9: Promedios de la desviacin tpica.


4.4 D E MULTIVARIANTE A GEOSTADSTICA FUNCIONAL 75

La media residual vara alrededor de cero, lo que indica que las predicciones son insesgadas.
En la Tabla 4.10 se obtienen los promedios por estacin del ao.

Primavera Verano Otoo Invierno


Promedios 5.6 9.06 1.25 1.62

Tabla 4.10: Promedios de la media.

En la Tabla (4.11) se muestran los estadsicos de la suma de los errores al cuadrado por
validacin cruzada para las 66 estaciones.

Estadstico CTKFD
Mnimo 865.3
1st Qu. 2373.8
Mediana 2768.0
Media 3212.3
3rd Qu. 3793.2
Mximo 10061.0
Desviacin tpica 1474.8
Suma 212009.0

Tabla 4.11: Resumen estadstico de la suma de los cuadrados de los errores de validacin
cruzada.

4.4 De multivariante a geostadstica funcional


En esta tcnica, se propone un predictor Cokriging para hacer la prediccin univariante (como
en el sentido del Cokriging multivariante), pero considerando como informacin auxiliar curvas
en vez de observaciones de vectores aleatorios. Del mismo modo, se ampla el Kriging multi-
variante de vectores aleatorios al contexto funcional definiendo un Kriging predictor funcional,
que permite hacer predicciones de la curva entera en la estacin no visitada.
Esto mismo ha sido tambin estudiado por Nerini y Monestiez (2008), [17]. Ellos proponen
una solucin basada en bases de funciones ortonormales, condicin no requerida en este trabajo.
En estadstica espacial y especficamente en geoestadstica, tanto en el anlisis Cokriging
([? ], [4]) como en el Kriging multivariante ([13]) se utilizan para modelar observaciones del
vector aleatorias. En este trabajo se adaptan estas metodologas al contexto funcional. Se pro-
pone un predictor Cokriging haciendo una prediccin univariante (como en el sentido del Cok-
riging multivariante), pero considerando como informacin auxiliar funciones en lugar de ob-
servaciones de vectores aleatorios. Del mismo modo, se extiende el Kriging multivariante de
vectores aleatorios al contexto funcional mediante la definicin de un predictor Kriging fun-
cional que permite hacer una prediccin de la curva completa de la zona no muestreada me-
diante el uso de la informacin de las curvas muestreadas a sitios cercanos al sitio de predic-
cin. En ambos casos (Cokriging basado en funciones y Kriging funcional) da una solucin no-
paramtrica basada en bases de funciones, y se prueba que ambos propsitos coinciden cuando
76 C APTULO 4. E JEMPLO REAL DE K RIGING CON DATOS REALES FUNCIONALES

se utiliza este enfoque. Las metodologas propuestas con esta tcnica son del mismo modo a
las soluciones dadas en la tcnica anterior, es decir, cada curva observada es ponderada por
un parmetro funcional. Sin embargo aqu la flexibilidad aumenta porque se estima el doble
ndice de los parmetros funcionales. Ahora, cada curva se pondera por un parmetro funcional
para llevar a cabo la realizacin de la prediccin en cada momento. Esta metodologa sigue la
filosofa bsica del
R modelo lineal funcional de respuesta funcional (modelo total) de la ecuacin
Yi (t) = 0 (t) + T Xi (v) (v, t) dv + i (t), donde se debe estimar el coeficiente de regresin
bivariante (Malfait y Ramsay, 2003).

4.4.1 Cokriging basado en datos funcionales



Sean s (t), t T, s D Rd una funcin aleatoria definida en algn conjunto compacto T
de R. Supongamos una muestra de curvas s1 (t), , sn (t) definidas t T, si D, i =
1, , n. Se asume que estas curvas pertenecen a un espacio separable Hilbert H de fun-
ciones integrables definidas en T . Considrese que para cada t T se tiene un segundo
proceso aleatorio istropo y estacionario, es decir, la media y la varianza son funciones con-
stantes y la covarianza slo depende de la distancia entre los puntos de muestreo. Se quiere
predecir una nica variable en un nico lugar de una muestra de datos funcionales espacial-
mente correlados s1 (t), , sn (t). Sea s0 (v) la variable aleatoria a predecir en una lo-
calizacin no observada P s0 en P v T . Para llevar a cabo esta tarea se extiende el Cokrig-
n m k
ing predictor Zk (s0 ) = i=1 j=1 ij Zj (si ), reemplazando los n m parmetros ij por
v
n parmetros funcionales i (t) y las n m variables aleatorias Zj (si ) por n variables fun-
cionales si (t), i = 1, , n, j = 1, , m. En el esquema siguiente se ven claramente estas
transformaciones:

Parmetros

Cokriging multivariante Cokriging BC


11 1m v1 (t), t T
21 2m v2 (t), t T
.. .. ..
. . .
n1 nm vn (t), t T

Variables

Cokriging multivariante Cokriging BC


Z1 (s1 ) Zm (s1 ) s1 (t), t T
Z1 (s2 ) Zm (s2 ) s2 (t), t T
.. .. ..
. . .
Z1 (s1 ) Zm (sn ) sn (t), t T
4.4 D E MULTIVARIANTE A GEOSTADSTICA FUNCIONAL 77

Por lo tanto, el predictor Cokriging de s0 (v) basado en datos funcionales (CBFD) viene
dado por
n Z
X
s0 (v) = vi (t)si (t)dt
i=1 T

Para cada v T especfico, los parmetros funcionales vi (t), i = 1, , n se estiman teniendo


en cuenta las restricciones clsicas de geoestadstica, es decir, insesgadez y mnima varianza
de prediccin. Este problema se resuelve utilizando un enfoque basado bases de funciones.
Ampliamos las variables funcionales mediante la expresin

si (t) = aTi B(t), i = 1, , n

y los parmetros funcionales por


vi (t) = bTiv B(t)
Por lo tanto el predictor se expresa como
n
X
si (v) = bTiv W ai
i=1

donde
Z
W = B(t)B T (t)dt
T

Para cualquier base ortonormal como la base de Fourier, la matriz W de Gram es la matriz
identidad. Para otras bases de funciones tales como las bases B-Splines, W debe ser calcu-
lada usando integracin numrica. Asumiendo la hiptesis de estacionariedad de las funciones
aleatorias la matriz:

a11 a12 . . . a1K
a21 a22 . . . a2K

A= . .. . .. = (1 , , K )(nK)
.
. . . . .
an1 an2 . . . anK

constituyen un vector aleatorio multivariante K con



E(a1j ) j
E(a2j ) j

E(j ) = . = .. , j = 1, , k,
.. .
E(anj ) j

y matriz de covarianzas
11 12 . . . 1K
21 22 . . . 2K

= .. .. .. ..
. . . .
K1 k2 . . . KK
78 C APTULO 4. E JEMPLO REAL DE K RIGING CON DATOS REALES FUNCIONALES

donde ij = C(i , j )nn , obtenindose as:



E(ai1 ) 1
E(ai2 ) 2

E(ai ) = . = .. =
.. .
E(aik ) K
Entonces, la media del predictor est dada por:
n
X
E (s0 (v)) = bTiv W
i=1

Por otro lado, la media de la funcin en el sitio s0 no observado en el instante v es

E (s0 (v)) = B T (v)E(a0 ) = B T (v)

Consecuentemente el predictor propuesto es insesgado si


n
X
bTiv = B T (v)W 1
i=1
R
La matriz Gram es en general semidefinida positiva, la matriz W Gram, W = T B(t)B T (t)dt,
es definida positiva porque las funciones Bl (t), l = 1, , K, son linealmente independientes.
Consecuentemente el predictor propuesto est bien definido. Para encontrar el mejor predictor
lineal insesgado (BLUP), los n parmetros funcionales propuestos en el predictor se dan como
solucin al siguiente problema de optimizacin:

min V (s0 (v) s0 (v)) sujeto a : E (s0 (v)) = E (s0 (v)) (4.5)
v1 (), ,vn ()

Desarrollando la varianza en la funcin objetivo se tiene la siguiente expresin:


n
X X
V (s0 (v) s0 (v)) = bTiv W V (ai )W T biv + 2 bTiv W C(ai , aj )W T bjv
i=1 i<j
n
X
+ B T (v)V (a0 )B(v) 2 bTiv W C(a0 , ai )B(v)
i=1

V (ai ), C(ai , aj ) y C(a0 , ai ) se pueden calcular si , la matriz de covarianzas, ha sido previa-


mente estimada. Podemos usar geostadstica multivariante ([28]) y especficamente un modelo
lineal de corregionalizacin (LMC) para estimar estas matrices. Si se definen:

Mi = W V (ai )W T (KK)

Mij = W C(ai , aj )W T (KK)
Ni (v) = (W C(a0 , ai )B(v))(K1)
D(v) = B T (v)V (a0 )B(v)
4.4 D E MULTIVARIANTE A GEOSTADSTICA FUNCIONAL 79

la funcin objetivo est dada por

n
X X n
X
V (s0 (v) s0 (v)) = bTiv Mi biv + 2 bTiv Mij bjv + D(v) 2 bTiv Ni (v) (4.6)
i=1 i<j i=1

De (4.6) y considerando los K multiplicadores de Lagrange mTv = (m1v , , mKv ) el prob-


lema de optimizacin (4.5) puede ser expresado como:

n n n
!
X X X X
min bTiv Mi biv + 2 bTiv Mij bjv + D(v) 2 bTiv Ni (v) + 2mTv biv W 1 B(v)
b1v , ,bnv ,mv
i=1 i<j i=1 i=1

T
Tomando v = bT1v , , bTnv , mTv (K(n+1)x1)
, se puede reescribir la ecuacin anterior de la
forma:

minvT M v + D(V ) 2vT N (V ) (4.7)


v

donde
M11 M12 ... M1n I
M21 M22 ... M2n I

.. .. .. .. ..
M = . . . . .

Mn1 Mn2 . . . Mnn I
I I ... I 0 [K(n+1)][K(n+1)]

y

N1 (v)
N2 (v)

..
N (v) = .

Nn (v)
W 1 B(v) [K(n+1)]1

Finalmente, si se minimiza la ecuacin reducida respecto a v , se obtiene:

v = M 1 N (v)

Una estimacin plug-in de la varianza de prediccin s20 (v) = V (s0 (v) s0 (v)) est dada
por

s20 (v) = vT M v + D(v) 2vT N (v)

donde la matriz D(v) se calcula usando una estimacin de V (a0 ) obtenida mediante el ajuste de
medias del modelo linal de corregionalizacin (LMC).
80 C APTULO 4. E JEMPLO REAL DE K RIGING CON DATOS REALES FUNCIONALES

4.4.2 Kriging funcional: modelo total


Para definir el Kriging funcional (modelo total) predictor (FKTM), se asumen los mismos supuestos
de estacionariedad e isotropa que Pen el Cokriging basado en datos funcionales. El Cokriging
n R
predictor definido all, s0 (v) = i=1 T vi (t)si (t)dt, est definido para un v T especfico.
Si se quiere predecir la curva completa en s0 , el parmetro funcional vi (t) se reemplaza por un
parmetro que depende de dos ndices i (t, v). As, el predictor para toda la curva est dada por
n Z
X
s0 (v) = i (t, v)si (t)dt, v T,
i=1 T

tal que 1 (t, v), , n (t, v) : T xT R. Notar que de acuerdo a los reemplazamientos
dados en los esquemas tanto para parmetros P como para variables en el caso del Cokriging
basado en datos funcionales, el predictor ni=1 bTiv = B T (v)W 1 se extiende al contexto
 T
funcional mediante la sustitucin del vector Z1 (s0 ), , Zm (s0 ) por s0 (v), v T , y
1 1
 
el vector de parmetros 11 1m 11 1m , , n1 nm m
m m 1 1 m
n1 nm por
11 (t) m 1 m
1 (t) , , n (t) n (t) , t T , respectivamente.
Adems, teniendo en cuenta que v vara  de forma continua en T , el conjunto discreto de
parmetros funcionales 1i (t) m i (t) , i = 1, , n se sustituye por el doble ndice del
parmetro funcional i (t, v), t, v T . Es evidente que para un fijo v T la expresin del
predictor FKTM es igual a la del Cokriging basado en datos funcionales (CBFD). El parmetro
funcional i (t, v) determina el impacto de la i-sima funcin observada en el tiempo t en la
funcin no observada al tiempo v. Este modelo es coherente con el modelo funcional lineal con
respuesta funcional (modelo total):
Z
Yi (t) = 0 (t) + Xi (v)(v, t)dv + i (t).
T

La estimacin funcional de los parmetros se lleva a cabo mediante la resolucin (Ramsay y


Silverman, 2005) de:
2

min E Y (v) Y (v) .
(),1 (,), ,q (,)

En nuestro contexto las covariables son las curvas observadas en n lugares de una regin y la
respuesta funcional es una funcin no observada en un lugar no visitado. Por lo tanto la funcin
objetivoR es E ks0 (v) s0 (v)k2 , dependiendo de 1 (, ), , n (, ) o usando el Teorema de
Fubini T E (s0 (v) s0 (v))2 dv. Teniendo en cuenta la estacionalidad de la funcin objetivo
R
se tiene, T V (s0 (v) s0 (v))2 dv.
Una vez ms, los parmetros funcionales i (t, v) de s0 (v) se calculan teniendo en cuenta
las restricciones de insesgadez y la prediccin con mnima varianza. Por lo tanto el problema de
optimizacin es
Z
min V (s0 (v) s0 (v)) sujeto a : E (s0 (v)) = E (s0 (v)) , v T. (4.8)
1 (,), ,n (,) T
4.4 D E MULTIVARIANTE A GEOSTADSTICA FUNCIONAL 81

Resolvemos el problema utilizando un enfoque basado en bases de funciones. Se extienden las


variables funcionales de la ecuacin:

si (t) = aTi B(t), i = 1, , n

y los parmetros funcionales bivariantes:

i (t, v) = B T (t)Ci B(v)

donde
ci11 ci12 ci1K
ci21 ci22 ci2K

Ci = .. .. .. ..
. . . .
ciK1 ciK2 ciKK (KK)

Con estas consideraciones el predictor s0 (v) se expresa:

s0 (v) = B T (v)a0 ,
R
donde la matriz de producto interior W , definida, W = T B(t)B T (t)dt. El predictor s0 (v)
tambin ha sido considerado por Nerini y Monestiez (2008). En su trabajo de Nerini y Monestiez
(2008) se supone que W es una matriz de identidad ya que consideran una solucin basada en
expansiones de bases ortonormales, en este caso no es una condicin necesaria. Se consideran
las propiedades de insesgadez y mnima varianza del predictor propuesto, se supone que los
coeficientes ai en la ecuacin anterior son un vector aleatorio multivariante estacionario. En
consecuencia, el valor esperado de la la curva en el sitio no visitado s0 viene dado por

E (s0 (v)) = B T (v)v T.

Por otro lado, teniendo en cuenta el valor esperado para el estimado se tiene:
n
X
E (s0 (v)) = B T (v) CiT W v T.
i=1

Consecuentemente de las ecuaciones E (s0 (v)) y E (s0 (v)), se observa que el predictor s0 (v)
es insesgado si y slo si
n
X
B T (v) CiT W = B T (v)v T,
i=1

esto es, si y slo si,


n
X
CiT W = .
i=1
Pn
Esta condicin es equivalente a i=1 Ci = W 1 .
82 C APTULO 4. E JEMPLO REAL DE K RIGING CON DATOS REALES FUNCIONALES

Los n parmetros funcionales en el predictor, s0 (v), vienen dados por la solucin del sigu-
iente problema de optimizacin
Z n
X

min V B T (v)a0 B T (v)a0 dv sujeto a : Ci = W 1 . (4.9)
C1 , ,Cn T i=1

Desarrollando la integral en la funcin objetivo se obtiene que


Z
B T (v)V (a0 a0 ) B(v)dv = T rV (a0 a0 ) W.
T

La varianza en la expresin anterior es


n
X n
X n
X
V (a0 a0 ) = CiT W V (ai )W Ci + 2 CiT W V (ai , aj )W Cj + V (a0 ) 2 CiT W C(ai , a0 ).
i=1 i<j i=1

Definiendo las siguientes matrices Qii = (W V (ai )W ), Qij = (W C(ai , aj )W ), Ni =


W C(ai , a0 ). El problema de optimizacin (4.3) puede ser expresado como
n
X n
X
 
min T r CiT Qii Ci W + 2 T r CiT Qij Cj W (4.10)
C1 , ,Cn ,m
i=1 i<j
n
X 
+ T r (V (a0 )W ) 2 T r CiT Ni W (4.11)
i=1
n
!
X
1
+ 2m Ci W (4.12)
i=1

Derivando con respecto a Ci , i = 1, , n y m:


n
X

= 2 Qij Cj W 2Ni W + 2m
Ci
j=1
n
X

= Ci W 1 .
m
i=1

La solucin del problema se obtiene igualando a cero estas derivadas. Esta solucin en notacin
matricial queda:

Q11 Q12 ... Q1n I C1 N1
Q21 Q22 ... Q2n I C2 N2

.. .. .. .. .. .. ..
. . . . . . = .

Qn1 Qn2 . . . Qnn I Cn Nn
I I ... I 0 m W 1
4.4 D E MULTIVARIANTE A GEOSTADSTICA FUNCIONAL 83

donde m = mW 1 . De V (a0 a0 ) y de las matrices Qii , Qij y Ni , una estimacin de la


prediccin de la varianza integrada
Z
2
int = V (s0 (v) s0 (v)) dv
T
viene dada por
n
X   n
X  
2
int = Tr CiT Q Ci W +2 T r CiT Qij Cj W
i=1 i<j
n
X  
+ T r (V (a0 )W ) 2 T r CiT Ni W
i=1

donde las matrices C1 , , Cn se obtienen resolviendo el sistema matricial anterior.


En el resto de esta seccin, se discute sobre la conexin entre los dos mtodos introduci-
dos en el proyecto. La relacin entre CBFD y FKTM es anloga al anlisis del Cokriging y la
prediccin espacial multivariante, en el sentido de que la prediccin obtenida por CBFD es a la
vez idntica a la prediccin obtenida por FKTM al mismo tiempo. Las expresiones de estos pre-
dictores, las restricciones de insesgadez y la respectiva funcin objetivo, son equivalentes para
cada v fijo. De hecho, la siguiente proposicin establece la equivalencia entre ambas alternativas
cuando, se usa la expansin bases.
Proposicin 1:
Supongamos que la representacin si (t) = aTi B(t) es correcta para si (t). Permitamos
C T
s0 (t), v T sea el conjunto de predictores para s0 (v) derivados de las si (t) = ai B(t)
v T
y i (t) = biv B(t), donde los coeficientes biv , i = 0, 1, , n son una solucin al problema
F
(4.7)
Pn para R cada v T . Sea s0 (v), v T T el predictor dado por las ecuaciones s0 (v) =
i=1 T i (t, v)si (t)dt y i (t, v) = B (t)Ci B(v), donde los coeficientes de las matrices Ci ,
i = 0, 1, , n son la solucin al problema (4.12). Entonces
C F
s0 (v) = s0 (v)

para todo v T y para todo s0 D.


La diferencia entre resolver un nmero infinito predicciones punto a punto (point-wise) me-
diante CBFD y hacerlo slo mediante una prediccin de una curva completa por FKTM se debe
a la utilizacin de un doble expansin en trminos de bases de funciones para los parmetros
funcionales de FKTM. Una caracterstica distintiva entre estas metodologas se da en trminos
de la varianza de prediccin. La prediccin de la varianza estimada por FKTM en la expresin
2 , se puede utilizar como una medida global de la incertidumbre en la prediccin de una
de int
curva completa, mientras que la varianza de prediccin estimada de CBFD s20 (v) se puede uti-
lizar en un sentido clsico, es decir, podemos, por ejemplo, calcular intervalos de confianza para
la prediccin.

4.4.3 Resultados: Prediccin espacial de la temperatura en las curvas Galicia


En la seccin anterior se concluy que una base con 35 funciones era adecuada para suavizar
este conjuntos de datos, por tanto ahora usamos ese mismo nmero de bases de funciones. De
84 C APTULO 4. E JEMPLO REAL DE K RIGING CON DATOS REALES FUNCIONALES

la Proposicin 1 sabemos que las predicciones obtenidas por CBFD coinciden con aquellas
dadas por FKTM. As que slo muestran los resultados obtenidos por FKTM por no hacer muy
extensivo este trabajo. Para cada caso, se estim una LMC y se utiliza para el clculo de las
matrices Qij , Ni , i, j = 1, , 66 en la ecuacin matricial
    
Q I C N
=
I 0 m W 1
y consecuentemente para la estimacin de los parmetros indicados en dicho sistema. Para ajus-
tar el LMC todos los variogramas simples (directos)y variogramas cruzados fueron modelados
como una combinacin lineal de modelos con efecto pepita (nugget) y modelo exponencial. Se
ha usado para ello la librera gstat, (Pebesma, 2004), del lenguaje R.
La Figura 4.25 muestra la prediccin en Facultad de Matemticas (punto no muestreado),
junto con una comparacin grfica entre curvas suavizadas y predichas, lo que muestra un buen
resultado de las predicciones.
La Figura 4.26 presenta los residuos obtenidos por validacin cruzada, la media y la desviacin
tpica. Se puede ver en esta Figura que hay buenas predicciones en una alta proporcin de los
sitios (teniendo residuos cercanos a cero). Residuos grandes, negativos o positivos se obtienen
en tan slo un nmero pequeo de estaciones. No se observa, dependiendo de la estacin del
ao en la que estemos que los residuos sean ms grandes o pequeos que en otras estaciones.
A final del ao se aprecian residuos superiores a 6 C, se podra decir que se tiene una mayor
incertidumbre en la prediccin durante este perodo, pero como no se nota al principio y es un
dato peridico ms bien se trate de un atpico. Si se recuerda en la Figura 1 parece que se entrev
una curva que sobresal al final del ao, lo que se sugiere que pueda tratarse de un atpico.
Se aprecia que la desviacin estndar residual es menor en el otoo y en el invierno donde
las curvas suavizadas y pronosticadas tienen menor variacin y se comprueba con los datos de
los promedios de la desviacin tpica en la Tabla 4.12.

Primavera Verano Otoo Invierno


Promedio de la desviacin tpica 2.07 2.03 1.91 1.92

Tabla 4.12: Promedios de la desviacin tpica.

La media residual vara alrededor de cero, lo que indica que las predicciones son insesgadas.
En la Tabla 4.13 se obtienen los promedios por estacin del ao.

Primavera Verano Otoo Invierno


Promedios 0.00 -0.11 0.05 0.12

Tabla 4.13: Promedios de la media.

Las estaciones Lardeira (ayuntamiento de Carballeda de Valdeorras (Ourense)) y Alto do


Rodicio (ayuntamiento de Maceda (Ourense)) estn al sur este de Galicia son las estaciones
con mayores residuos por validacin cruzada, 10474.70 y 10227.14, respectivamente. Aunque
la temperatura media diaria en estas estaciones tiene un comportamiento muy similar todo el
tiempo, en Lardeira la diferencia entre el mximo y el mnimo es de 28.1 C y en Alto do
4.5 C OMPARACIN DE LAS TRES TCNICAS 85

Rodicio es de 27.7 C. Esto genera residuos altos en ambos casos. En estas dos estaciones el
clima que tienen se encuadra dentro de lo que se ha definido por ocenico de montaa que se
caracteriza por tener veranos frescos e inviernos menos fros que en otras zonas montaosas ms
alejadas del mar.
Por el contrario las estaciones de las Islas Ces (ayuntamiento de Vigo (Pontevedra)) e Isla
de Ons (ayuntamiento de Bueu (Pontevedra)) estn al sur oeste de Galicia son las estaciones con
menores residuos por validacin cruzada, 1040.85 y 1053.69, respectivamente. La diferencias
entre el mximo y el mnimo son de 9.3 C y 18.7, para cada una.
Con respecto a la prediccin en la Facultad de Matemticas, observamos en la Figura 4.26
que la curva predicha muestra un comportamiento estacional similar a las curvas suavizadas y
es consistente con los valores reales registrados en la estacin de Santiago.
Tres de los parmetros estimados para hacer esta prediccin se muestran en las Figuras 4.27
y 4.28, corresponden a las estaciones de A Pontenova (Lugo),Monte Aloia (ayuntamiento de Tui
(Pontevedra)), Malpica (A Corua) y Sergude (ayuntamiento de Boqueixn (A Corua)).
De la Figura 4.28 se puede destacar que los parmetros de Malpica son casi nulos, son
los ms pequeos y por el contrario en Sergude son los ms grandes. Otra vez se pone de
manifiesto la cercana al punto no muestreado. Por tanto esto quiere decir que Sergude tiene una
mayor influencia sobre la prediccin que Malpica (cuyos parmetros funcionales son casi nulos).
Adems la estimacin funcional de los parmetros revela que hay un efecto a corto temporal en la
prediccin. Ambos resultados eran de esperar. Por un lado, el primer resultado es coherente con
la filosofa de geoestadstica, es decir, los sitios ms cerca de la ubicacin de prediccin tienen
una mayor influencia que otros ms alejados. Al igual que en el caso de Malpica, otras estaciones
muy separadas de la Facultad de Matemticas tienen una baja influencia en la prediccin.
Finalemente se ha aplicado esta tcnica a los datos de la temperatura de Galicia (2009),
eliminndole a los residuos el efecto de la latitud y longitud. Los resultados obtenidos se pueden
consultar en la tabla (4.14) y servirn para concluir en la comparacin con qu metodologa nos
quedamos.

4.5 Comparacin de las tres tcnicas


Para llevar a cabo la comparacin se usa el resumen estadstico de SSEF CV (i):

n
X M 
n X
X 2
(i)
SSEF CV = SSEF CV (i) = si (tj ) si (tj )
i=1 i=1 j=1

para comparar las metodologas propuestas en el proyecto. Evaluamos en j = 1, , 365 las


predicciones obtenidas por validacin cruzada para OKFD,
Pn CTKFD
R v y FKTM. Para incluir el
predictor CBFD en este anlisis calculamos s0 (v) = i=1 T i (t)si (t)dt. Los valores del
estadstico resumen SSEF CV obtenidos por CBFD y FKTM coinciden porque las predicciones
por CBFD se calculan con los mismos argumentos donde se evalan las curvas predichas por
FKTM. Para el conjunto de datos, que inicialmente se elimina la tendencia de los datos mediante
un modelo de regresin funcional. Aplicamos los mtodos de prediccin espacial propuestos
86 C APTULO 4. E JEMPLO REAL DE K RIGING CON DATOS REALES FUNCIONALES

para los residuos de la regresin. Las predicciones de temperatura para estos conjunto de datos
se obtienen agregando las predicciones residual a la tendencia.

Estadstico OKFD OKFD* CTKFD FKTM FKTM*


Mnimo 1326.0 812.6 865.3 1041.0 805.3
1st Qu. 2931.0 2017.0 2373.8 1971.0 1951.0
Mediana 3861.0 2626.0 2768.0 2554.0 2499.0
Media 4306.0 2990.0 3212.3 3030.0 3009.0
3rd Qu. 4847.0 3403.0 3793.2 3261.0 3468.0
Mximo 12880.0 11090.0 10061.0 10470.0 10180.0
Desviacin tpica 2279.5 1551.3 1474.8 1852.1 1780.6
Suma 284222.1 197345.3 212009.0 199959.1 198569.1

Tabla 4.14: Resumen estadstico de la suma de los cuadrados de los errores de validacin
cruzada. (Nota: , mtodo de la columna anterior sin los efectos de la longitud y la latitud.)

Se observa en la Tabla (4.14) que donde existen las mayores diferencias entre los mtodos
son en trminos de los valores mnimos o mximos y tambin influenciadas por el efecto de la
longitud y la latitud.
Los predictores tienen un comportamiento similar cuando las curvas son relativamente ho-
mogneas y las diferencias entre los mismos con los datos de temperatura para Galicia son
fundamentalmente debidas a su desempeo en las estaciones con temperaturas extremas como
se explic anteriormente.
Los resultados mostrados en la Tabla (4.14) indican que la inclusin de un doble ndice
funcional en los parmetros (efecto temporal en el conjuntos de datos) no reflejan cambios sus-
tanciales en las predicciones del anlisis. Es decir, el trabajo de estimar tantos parmetros no
revierte mejores resultados, aunque, si a los datos se les elimina el efecto de la latitud y la longtud
se obtienen mejores
En principio si las curvas son homogneos podramos usar cualquiera de los tres enfoques.
Sin embargo, si lo observado en los datos tiene una variabilidad alta CTKFD podra ser la mejor
opcin.
En resumen, podemos concluir que OKFD sin los efectos de la longitud y la latitud es la
mejor opcin para llevar a cabo la prediccin espacial de datos funcionales en Galicia. Por
lo tanto todos ellos son buenas alternativas para hacer la prediccin espacial de los datos fun-
cionales. Teniendo en cuenta que es ms simple OKFD sin los efectos de la longitud y la latitud
que otros desde un punto de vista prctico y computacional en aplicaciones con grandes conjun-
tos de datos este mtodo puede ser preferible.
Residuos

10
Media
Desviacin tpica
20

5
Temperatura (C)

Residuos
10

0
5
0

10
10

0 100 200 300 0 100 200 300

Da Da

Figura 4.13: Izquierda: muestra una comparacin grfica entre las curva observadas (las reales)
y la predicha(utilizando FCV). Derecha: la de la derecha lo residuos de validacin cruzada
funcional, media residual y desviacin tpica residual.
Residuos Residuos suavizados

10
10

5
5
residuos

X(t)

0
0
5

0 100 200 300 0 100 200 300

Figura 4.14: Residuos del modelo con altitud y latitud.


Mat
Exp
Sph
8000
6000 Cir
semivariance

4000
2000
0

0 50 100 150 200

distance

Figura 4.15: Variograma para los residuos.

Prediccin de los residuos


enSantiago
6

KO
Original
Suavizada
4
2
Temperatura (C)

0
2
4
6

0 100 200 300

da

Figura 4.16: Prediccin para los residuos.


20

Smoothed
Temperature (degrees C)

Prediction
Real data
10
0
10

0 100 200 300


Day
Figura 4.17: Datos suavizados, prediccin en Santiago y datos reales en Santiago.
0.02
20

0.00

0.01
0.01
15
Influencia de la constante

Influencia de la longitud

0.00
Influencia de la latitud
0.02
10

0.01
0.03

0.02
5

0.04

0.03
0 100 200 300 0 100 200 300 0 100 200 300
time time time
Figura 4.18: Influencia de la constante, de la longitud y latitud en el modelo.
Efecto de la longitud

1
23
4 m
c5
6
8
9
7 0a
b de c5ghm aw
vnxp
o
k2iyq
e zg u
s0
ffB
A
lC
D
G E
H iJyq
p
xW
vn
o cjF
zg
rQu
ttP
lTJIq
U 3
1
234 56
cg
m
8
9
7 a
0
b e
d g
h w
n3
k2
1
o4
pq 6 8
9
7
u
A
C
D
G s0
fBb
ME
H d
3
1W
4 jF
O
5 h
rQ
6K
N
7m
8
9M
tb
a
RPU
L
de
S O hK
N
VR
A
B
E
G
ML
S
p
ko
w
n
X
YZ OT
V
X
Q
K
u
3
2
1sY
fB
A
C
D
G vZ
P
4
E
H
MLiyIIq
S
xW O 1
zrV
jF Q2
X
lK
N 4
YtP
R U
LSJV 13
2
T
X4
Y ZI13
24
2
1m
5
3
6
8
9
7
40a
bde h w
np
koqu
A
C
D
G sM
fB E
H iyO
vxW jF
zrQ
lR
K
N tP U
LJV
S T
XY Z
3
1
24 I5 6m
7a
8
9
0
be
d cg
h ko
w
n p usM
fB
A
C
D
G E
H iyO
vxW jF
zrQ
lK
N tP
R JV
U
L
S T
XY Z I1 3
24
3
1
2
45a
m
6
8
9
0
7
bg
e
c
d
h w
no
kCpq u
A
D
G s
fB
Mv
E
Hy
x
iO
W j
z
r
Q
lR
F
K
N tPU
LSJV T
X Y Z I1 3
242 13
4 5m
6
8
9
7 a
0
bde cgh w
no
kCpq us
fB
A
D
GMv
E
Hy
x
Wj
iO
Fz
r
Q
lK
N tP
R U
LJV
S T
XY Z I1 3
24
0.00

5
3
1
2
4e
a
m
6
8
9
0
7
d
bcg
n
hp
q
u
ko
w sM
fB
A
C
D
G E
H iyO
vxW jF
zrQ
lR
K
N tPJV
U
L
S T
X Y Z I1 3
2 42 134 56 7m
8
90a
b de g
ch np
ko
w q usM
fB
A
C
D
G E
H y
vxWjF
iOzrQ
lK
N tP
R U
LJV
S T
XY Z I1 3
2
4
g
p
q y 1
234 56 7m
8
9a
0
b e
dcg
h ko
w
n pq usM
fB
A
C
D
G E
H iyO
vxW jF
zrQ
lK
N tP
R U
LSJV T
X
Y Z I1 3
24
g p iJyIcO 5
3
1
2
4e
c
a
m
6
8
9
0
7
d
bo
w
n
h
k u
s
v
f
A
B
C
D
E
G
H
Mj
x
z
r
Q
i
l
F
K
N
O
W t
P
RU
LSJ T
V
X Y ZI3
2
1 4
1
234 56
g m
8
9
7a
0
b1
25
3
4
e
c
dm
6
8
9
7
g
h0a
1
2
b
w
n
k3
d
oe
4
pc5
q
y
g
6hm
8
9
7
u
A
C
D
Ga
0
b
s
f
B
Mn
v
E
Hp
yq
e
ko
wd
x
i
WcjF
O u
h
fB
A
C
D
G
z
r
Q
l
K
N w
sM
E
H
t
P
Rko
vn
1
2U
L
3iJyq
xW
S
4
jF
O
5
zV
6
rQ
K
N
7
u
T
X
m
8
9
sY
fB
A
lC
D
G M
a
0
E
H
tb
RPxW
vZ
U
L
dS
e
jF
zg
r1
V
h
QtP
l2
K
NR
T
X
Y
3
4JIq
U
L
S
Z
p
o
w
n
k
T
V
X
Y
Z
3
2
1
4
y
u
s
x
v
i
f
A
B
C
D
E
G
H
M
WF
O Q
3
Ijzr1
2
4
l
K
Nt
P
RU
LJ
S T
V
XY Z I 3
2
14 1
23
456
7m
8
90a
b decgh ko
w
n pq usM
fB
A
C
D
G E
H iyO
vxW jF
zrQ
lK
N tP
R U
LJV
S T
XY Z I1 3
2
4
1
25
3
4m
6
8
9
70a
bde ch w
np
q
kou
DsM
fB
A
C
G vxW
E
H iOjF
zrQ
K
NtP
lR JV
U
L
S T
XY Z I1 3
2 4 cg
p
q yO cg
p
qyO m a e cg ko
w
n pq u
sM iyO
vxW jF
zrQ
cg3
k2
1
4
p5m
6
8
9
7 a
s0
vd
b e
iJycOzg
h w
np
JIq
o
k2 usY
fB
A
C
D
G E
H
M iyIcO
xW
vd jF
zg
rQ
K
NtP
l2
RJq
U
L
ST
V
X
Y
Z3
IO
2
1
4 3
1
2
45a
m
6
8
9
0
7
b
cg
g
e
c
d
p
qh w
n
kopq
iyO
u
A
C
D
Gs
f
B
Mv
E
Hy
j
x
z
i
F
O
Wr
Q
l
K
N t
P
RU
LJ
S VT
XY ZI 3
2
14 1
234 5 6m
7a
8
9
0
be
d o
w
n
h
k
cg
u
sM
f
A
B
C
D
GvxW
E
H i
p
q
jF
zrQ
l
K
N t
P
RU
LJ
S
iyO
VT
XYI
Z3
2
1
4 1
234 56 7a
m
8
9
0
be
do
w
n
h
ku
s
x
v
i
f
A
B
C
D
E
G
H
M
WjF
z
r
t
Q
l
K
N
P
RJ
U
L
S
T
V
XY Z I 3
2
1 4 1
23456 78
90b d h
m a e cg
f
A
B
C
D
G E
H
ko
w
n pq
l
K
N
u
tP
R
sM
U
LSJ
iyq
vxW jF
V
zrQ
T
X
YZI1 3
2
42 1
41
2
a
m
c5
36
8
9
0
7
b
g4
e
d
p
q
m
c5
36
8
9
7
g
h0a
b
w
vn
3
k2
1
d
oe
4
p qc5
iJyO
g
6h7m
8
9
u
fB
A
C
D
G a
s0
b
Mw
vn
E
H xp
o
d
k2
3
1iJyq
e
4
W cO
5zg
jFh
67
rV
Qu
ms0
fB
A
C
D
G
8
9
lK
N a
M
Rw
E
H
tb
Pko
vnd
U
L
3
p
iJyq
xW
e
S O
I5
zg
cjFrQ
h
6
u
lK
N
V
7T
X
m
8
9
sY
fB
A
C
D
G M
R
a
0
vn
E
H
w
tPko
U
L
ZiJyIq
xW
p
S
e
jF
cO
zg
rV
Q
lK
N
1u
T
X
fB
A
C
D
G
3
2 tP
R
sY
M
4vn
E
H
w U
L
Z
koiJyIq
S
xp
W OzrV
jF 1
QT
X
3
2
lK
Nu Y
s4vZ
tP
R U
L IjzrV
iJyO
S
xW 13
2
4
T
X
Y
tPJIV
Z 3
2
14
1
23456 m
8
9
7 0a
b1
23
d4
e 5
c6
ghm
8
9
7a
0
be
d
p
q
o
w
n
kw
n
h
u
s
v
f
A
B
C
D
E
G
H
Myq
o
x
i
Wj
z
F
Ou
fB
A
C
D
G
r
Q
l
K
N E
H
M
t
P
RxW
U
LS jFrQ
VK
NtP
lT
R
X
Y U
L
S
3
1
4
Z T
V
X
m
5
6
8
9
7
2
1 a
0
b
4Ze
f3 i5h1
j6
m3
4
l7
a
8
9
0
b
p
o
w
n
k
e
d
y
u
s
x
v
A
B
C
D
E
G
H
M
W
g
p
q
c
o
w
n
h
kz
r
t
Q
J
U
F
K
L
N
P
R
S
T
V
X
Y
y
j
u
s
x
v
z
r
t
Q
i
l
f
A
B
C
D
E
F
G
H
K
M
N
O
P
R
WI
Z
J
U
L
S3
2
1
T
V
X4
Y
ZI
13
2
4 1
25
3
4m
6
8
9
70
1
2
a
b
3
d
4
e
5
c
6
gh
m
7a
8
9
0
be
d
p
o
w
n
kqko
w
n
h
u
s
v
f
A
B
C
D
E
G
H
My
j
x
z
i
F
O
W
u
r
Q
l
K
N
sM
fB
A
C
D
G vxW
E
H
t
P
RU
LJ
S
jF
zrQ
VT
X
tP
lR
K
N
Y
JV
U
L
S
I
Z
T
X
3
2
1
Y
4
Z I1 3
242 3
1
4 5e
a
m
6
8
9
0
7
d
b h ko
w
n u
D
GsM
fB
A
C vxW
E
H jF
zrQ
K
NtP
lRJV
U
L
SI1
T
X
Y
Z 3
2
4
3
1
2
45
6
7m
8
90a e cg p
q
o
w
ny
j
u
s
x
v
zr
t
1
234 56 78
90b
1
2
d
34 56
h
7m
8
9
0a
b de cgh
fB
A
C
D
G E
H
w
n
kop O
g
NtP
lK
R
u
s
f
A
B
C
D
G
M
JyjzV
U
L
S
x
v
i
E
H
W
pqF
O
T
X
Y
Z
r
t
Q
l
J
U
K
L
N
P
R
S
y
5
3
1
2
3
I1
2
4
m
5
3
6
8
7
1
2
4
I
T
V
X
Y
Z
g
e
c
a
m
6
8
9
0
7
m
5
3
6
8
9
7
1
2
4
g
e
c
a
9
0
d
b
h
p
q
u
o
s
w
n
e
a
0
d
b
p
q
o
w
n
k
y
x
v
ko
w
n
h
u
s
v
f
A
B
C
D
E
G
H
M
j
z
r
t
y
x
i
O
W
u
C
D
G
j
z
r
Q
l
F
K
NsM
fB
A E
H
t
P
R xW
U
LS
jF
zrQ
lK
N
VT
X tP
R
Y U
L
ZS I 1T
X
3
2 Y
4
1
2Z4 b
1
2
d
34 5
h
67m
8
9 a
0
b de cgh
fB
A
C
D
G ME
H
w
n
kop q
F QlK
NR
u
s
f
A
B
C
D
G
Mv
E
H
U
L
S
x
i
WyO
j
F
T
X
z
r
Q
l
K
N
Y
tP
R
Z
U
L
I1
JV
S
3
2
4
T
X
Y ZI1 3
2
4
1
23456 m
8
9
7 0a
b decgjh w
nop
rkCq us
tG
A
Df
B
My
x
v
i
E
F
H
O
Wz
Q
l
K
N
P
RJ
U
L
S T
V
X YZ I 13
2
4 3
1
2
4e
a
m
5
6
8
9
0
7
d
bg
p
q
u
c
o
s
w
v
n
h
k
f
A
B
C
D
E
G
H
My
x
i
O
Wj
z
r
Q
l
F
K
Nt
J
U
L
P
R
SVT
X
Y Z I 3
2
1
4 1
23
45
gm
6
8
9
701
2
a
b3
d4
e
p qcg
6h7m
8
9a
0
be
p
d
o
w
n
kq
yg
p
c
o
w
n
5
3
1
2
4
h
k
u
s
x
v
i
f
A
B
C
D
E
G
H
M
Wq
y
5
j
z
F
Og
y
e
c
a
m
j
u
s
x
v
z
r
6
8
9
0
7
d
b
h
Q
i
l
f
A
B
C
D
E
F
G
H
K
M
N
O
W
m
r
5
3
6
8
7
1
2
4
t
Q
l
J
U
K
L
N
P
R
S
T
Vp
q
u
o
w
n
g
t
k
f
A
B
C
D
G
J
U
L
P
R
e
S
c
T
a
V
X
9
0
d
b
h
3
I
X
Y
Zy
j
s
x
v
z
r
y
p
q
t
Q
i
l
J
U
E
F
H
K
L
M
N
O
P
R
S
W
3
I
2
1
4
u
Y
Z
o
s
x
w
v
n
i
k
g
f
A
B
C
D
E
G
H
M
O
p
q
WT
V
X
Y
j
z
r
t
Q
l
F
K
N
P
RI
Z
J
y
U
L
S3
2
1
T
V
X4
Y Z I 13
2
4 3
1
2
4 5m
6
7a
8
9
0
b e
c
dg
h w
n
kop q Cu
s
f
A
B
D
G
Mx
v
i
E
H
Wy
j
F
Oz
r
t
Q
l
K
N
P
RJ
U
L
ST
V
XY Z I 3
2
14 3
1
2
456 m
8
9
0
7a
bdecgh w
n
kopq u
A
C
D
Gs
f
B
My
j
x
v
z
i
E
F
H
O
Wr
t
Q
l
J
U
K
L
N
P
R
S T
V
X
YI
Z3
2
14 b d h ki
f
A
B
C
D
E
F
G
H
M
O
WQ
J
l
U
K
L
N
P
R
S T
V
X
Y3
I
2
1
Z4 3
1
24 56 m
8
9
70a
b de c h o
w
n
k
3
1
2
4 564
j
u
s
x
v
z
e
c
a
m
i
f
A
B
C
D
E
F
G
H
M
O
W
8
9
0
7
d
bd
b
h
g
p
q
r
t
o
Q
w
n
l
J
U
K
L
N
P
R
S
T
V
h
k
A
C
D
Gk
f
A
B
C
D
G
y
j
u
s
x
v
z
3
r
I
2
1
X
Y
Z
Q
i
l
f
B
E
F
H
K
M
N
O
Wi
E
H
M
O
W
4
t
J
U
L
P
R
SQ
l
F
K
N
P
R
T
V
X
YJ
U
L
S
I
ZT
V
X
3
2
1Y
4 Z I 13
2 4
cg p q iyO 42 3
1
4g
e
c
a
w
m
n
5
6
8
9
0
7
d
b
hp
q
o
kdus
x
v
fBy
j
z
r
Q
iq
lCtP JyO 3 3
1
2
45a
m
6
8
9
0
7
be
dch w
n
ko us
fB
A
lC
D
GMx
v
i
E
H
W j
z
r
t
Q
l
JIV
U
F
K
L
N
JIO
P
R
S m
5
6
8
9
7
1
2
4
3
I2
T
X
Y
Z e
c
a
o
w
n
0
d
b
h
ku
s
v
f
A
B
C
D
E
G
H
M
gx
i
O
W
p
qj
z
r
Q
l
F
K
N t
P
RU
LJ
S
iyq V T
X
Y Z I 3
2
1
4 g pq y
0.01

1
23456 m
8
9
70a
bde h ko
w
n u
A
C
D
G sM
fB vxW
E
H jF
zrQtP
lR
K
N JV
U
L
ST
X
YZ 3
I1
2 a
m
5
3
6
8
9
0
7
1
2
4
beA
C
D
G
g
c5
hE
H
M
W
p
o
w
n
kF
K
N
OuR
sM
f
A
B
D
G E
HU
LS
xW
vni jF T
V
X
Y
zrQ
tP
l
K
N
R IV
Z
J
U
L
S2
1
T
X4
Y Z I 13
2 4 1
234 56 7m
8
9 a
0
b1
23
d4
e 5
c6
ghm
7a
8
9
0
be
d
p
o
w
n
kcg
qh
u
s
v
f
A
Cp
yq
ko
w
nx
ij
zu
r
Q
lsM
fB
A
C
D
G E
H
t iJyO
xW
vU jF
zrQ
K
N tP
RU
L
S T
V
X
Y
Z
3 3
2
1
4 e
c5
a
m
5
3
6
8
9
0
7
1
4
d
b
3
1
2
4ko
w
n
h
a
m
6
8
9
0
7
beu
c5
dhsM
fB
A
C
D
G
g E
H
wxp
vn
o
kW jF
Ozg
rQ
lC
K
NutP
R
sM
f
A
B
D
G E
HU
LJyq
S
xW
vni
p jF
OzgT
V
X
Y
rQ
t
l
K
N
P
RJ
U
L
S
y 3
IjzV
Z 2
1
T
X4
YZI
13
2 4 1
23
45m
6
8
9
7
ge
a
0
d
b
pqcg
h np
q
ko
wy
jusM
fB
A
C
D
G E
H iJyO
xW
vU jF
zrQtP
lT
K
NRJIV
U
L
S T
X
YZ3
I1
242 13456 m
8
9
70a
bde cgh p
q
o
w
n
kyO
u
s
x
v
i
f
A
B
C
D
E
G
Hj
Fz
r
t
Q
lJ
U I 13
24 1
234 56 7m
8
9 a
0
b de ch ko
w
n u
D
GsM
fB
A
C vxW
E
H jF
iOzrQ
lK
N tP
R U
LJV
S 3
I1
T
X
Y
Z2
4
g pq y 1
23
4m
6
8
9
7e
a
0
d
bg
c
h wo
kpq g u
s
f
A
B
C
D
G
Mv
E
Hy
j
x
i
F
O
W
p
qz
r
Q
l
K
N t
P
R U
LSJ
y VT
X Y Z I 13
2
4 5
gm
6
8
9
7 a
0
b de
p qcgh w
n
kp
o q
y Cu
s
f
A
B
D
G
Mx
v
i
E
H
Wy
j
F
OB
D
E
G
H
M
z
r
t
Q
l
K
N
P
RW
J
U
L
SF
OK
N
T
V
XYP
RL
ZS I V
1T
X
3
2Y
4Z 2
1
4 1
23
4m
6
8
9
70a
bd
3e c
5 h
67m
8
9
0awo
ke c u
s
v
f
A
B
C
D
E
G
H
M
w
nx
i
p
q
W
oF
Ogr
Q
l
K
N
ut
P
R
s
vJ
U
L
S
x
p
3
k2
1
4y
V
j
z
r
q
5
6
7T
X
m
8
9 Y
a
tb
s0 Zey5
I
c6
g m
7
1a
8
9
0
b
3
2
4w
ne
d
p
oc
qh
uo
w
n
k
s
x
vyjC
z
ru
s
f
A
B
D
G
Mv
E
H
tPx
z
i
F
O
Wr
Q
l
K
N t
P
RLS VX
YZ 3
2
1
4 M
W K
N
P
RL
ST
V
XY Z 3
1
2
45m
6
8
9
7a
0
be
dg
c
h w
n
kopq u
s
f
A
B
C
D
G
My
j
x
v
i
E
F
H
O
Wz
r
t
Q
J
l
U
K
L
N
P
R
SI
T
V
X
Y
Z 3
2
1
4
5
3
1
2
4m
6
8
9
0
7a
bdech ko
w
n u
A
C
D
G sM
fB vxW
E
H jF
iOzrQ
lR
K
N tPU
LSJV T
XY 3
42
I1
Z2 3
1
45
6
7m
8
9
0a
b d
3
1
2e
4 c56ha
m
8
9
0
7
bko
w
ne
du
cgsM
fB
A
C
D
G
h vn
E
H
w xW
o
3
k2
1p
4jF
iq
O
5z6
rQ
lC
K
N
7m
u
8
9
fB
A
D
G tb
R
a
s0
MP
E
H3
v2
1
U
L
d4
S
e
xW 5
iJycOzg
jF6
V7
rQ
hK
Na
lm
8
9
0
tb
T
X
Y
RPe
p
Z
ko
w
nU
L
S ch
JIq
d 3
2
1
u
T
V
X w
s4
fB
A
C
D
G E
H
M
Yko
vn iyIO
xW
Z jF
zrQ
K
N
1u
3
2s4
fB
A
lC
D
G ME
H
tP
R xW
vU
LS jF
iJOzV
rQ
K
NtP
lT
R
X
YJIV
U
L
S
Z T
X
Y
3
2
1
4Z 3
I1
242 14 b d
3
1
24 5 h
6kd
a
m
8
9
0
7
bechfB
A
C
D
GE
H
M
w
nW
oQ
iO
lC
F
K
Nu
fB
A
D
G R
Mvd
P
E
HU
LiJO
S
xW zh
jFVlT
rQ
K
NX
YkZ
tP
R U
L
S 3
A
D
JIV
2
1
T
XiIO
fB
C
GE
H
M
4
W
Y
Z FQ
l2
K
N
1R
3
4 JV
U
L
ST
XY Z I1 3
2
4 gp
5 mae
cq
o
w
n u
s
vy
j
xz
r 1
234 56 7a
m
8
9
0
b e
d cg
h w
n
kopq u
sM
f
A
B
C
D
G E
H yO
vxW
ijF
zrQ
t
l
J
U
K
L
N
P
R
ST
V
X
YZ3
I1
24
5
3
1
2
4g
e
ch
a
m
6
8
9
0
7
d
b ko
w
n p
q usM
fB
A
C
D
G vxW
E
H y
jF
iOzrQ
lR
K
N tPU
LJV
S T
X Y Z I1 3
24 1
234 6 8
9
70
bdh
k f
A
B
C
D
E
G
H
Mi
F
O
WQ
l
K
N t
P
RU
LJ
S V T
XY Z I 1 3
2
4 m
5
3
6
7
1
2
4e
a
8
9
0
d
bcg
h p
ko
w
n qusM
fB iyO
vxW jF
zrQtP
lKJV
U 3
cg A
C
D
G E
H NRL
SI1
T
X
Y
Z2
4 cg pq iJycO
3
1
2
4 cg
e
a
m
5
6
8
9
0
7
d
bp
q
o
w
n
h
ku
sM
f
A
B
C
D
GE
H yO
vxW
ijF
zrQ
l
K
N t
P
RU
LJ
S VT
X Y Z I 13
2 4 5
3
1
2
4e
a
m
6
8
9
0
7
d
b w
n
hp
q
kousM
fB
A
C
D
G E
H iyO
vxW jF
zrQ
lK
N tP
R U
LJV
S T
X
YZ 3
I1
2
4mg
e
c
ap
o
w
nqus
vy
xj
z
r 1
23
4 5m
6
8
9
70a
b decgh w
n
kop
q y
j
u
s
x
v
i
f
A
B
C
D
E
F
G
H
M
O
Wz
r
t
Q
l
K
N
P
RJ
U
L
ST
V
XY Z I1 3
24 2 134 56 7a
m
8
9
0
be
d
a
m
c5
3
1
2
46
8
9
0
7
b
g
n
h
e
d
p
q
ko
w h
u w
vn
sM
fB
A
C
D
G E
H
o
k2
3
14
xW 5
iyOz6
jF 7
rQu
m
8
9
lK
N
s0
fB
A
C
D
G M
a
RE
H
tb
P
xW
vd
U
Le
S
jF
zg
rQ
h
V tP
lK
NR
T
X
Y JIq
U
L
S
p
ko
w
nZ T
V
X
u
3
2
1 Y
vZ
s4
fB
A
C
D
G E
H
M iyIq
xW jF
O 1
zrQ3
2
lK
N 4tP
R U
LJV
S T
X
YZ3
I1
2
4
5
g
3cjzg
e
a
m
1
2
4
6
8
9
0
7
p
q p
q
m
o
w
n
d
b
h
5
3
6
8
7
1
2
4
yua
s0
9vk2
b d jzg
yc5
xe hp
iIq
o
w
n
r7
f
A
B
C
D
E
G
H
M
W
t
k Qu
s4
lC
F
K
N
O
gf
A
B
D
GP
R
E
H
MU
LJyq
xW
vnS
p
i jF
Ozg
rQ
VI
2
1
T
X
Y
Z
y
t
J
l
U
K
L
N
P
R
S
T
V
j3
4
3
I
2
1
X
Y
Z4 g 3
1
2
45a
m
6
8
9
0
7
bcg
e
dh ko
w
n pq usM
fB
A
C
D
G E
H iyq
vxW jF
OzrQ
NtP
lK
RJyV
U
L
S T
X
Y
Z5
3
6
1
2
4
3
I5
2
1
48
9
0
7
d
b
hkCfB
A
D
GE
H
MWQ
iO
lK
F
N tP
R U
LSJV T
X
YZ3
I1
2
4 g p
q y 1
234 5 67a
m
8
9
0
b e
d cg
h ko
w
n p u
A
C
D
GsM
fB E
H iyO
vxW jF
zrQ
NtP
lK
RJV
U
L
S 3
I1
T
X
Y
Z2
4
3
1
2
4 m
5
6
7
ga
8
9
0
b3
1
2
4
e
d5
ce
c
a
m
6
8
9
0
7
d
b
g
p
q
o
w
n
h
k
yo
w
n
h
k
y
u
s
x
v
i
f
A
B
C
D
E
G
H
M
O
WF j
u
s
x
v
z
r
Q
i
l
f
A
B
C
D
E
F
G
H
K
M
N
O
W
r
t
Q
J
l
U
K
L
N
P
R
S
T
VXt
P
R
Y 3
1
U
L
Z4
J
S
I 6
Ve
a
m
8
9
0
d
b
T
X
Y
Z
1
2
4
3 c
h
1
5
6
73
2
m
8
9w
a
0
bo
k
de c hu
s
x
v
z
r
Q
i
l
f
A
B
C
D
E
F
G
H
K
M
N
O
W
p
q
o
w
n
k
A
C
D
Gt
J
U
L
P
R
S
T
V
X
y
j
u
s
x
v
z
r
Q
i
l
f
B
E
F
H
K
M
N
O
WI
Y
Z
t
J
U
L
P
R
S3
2
1
4
I
2
1
T
V
X
Y
Z3
4 1
234 56 m
7a
8
9
0
be
d p
q
c
o
w
n
h
ky
j
u
s
x
v
z
i
f
A
B
C
D
E
F
G
H
M
O
Wr
Q
l
K
Nt
P
RU
LJ
S T
V
XY Z I 3
2
1 4 1
25
3
4m
6
8
9
70a
bde cg w
nop u
sx
vj
z3
1
2
4
r
tg
e
c
a
m
6
8
9
0
7
d
bp
q
o
w
n
h
k
Cu
s
x
v
i
f
A
B
D
E
G
H
M
Wy
j
F
Oz
r
Q
l
K
Nt
P
RJ
U
L
SVT
XY Z I 13
2
4 1
234 56 7m
8
90a
b de c h o
w
n
ku
s
v
f
A
B
C
D
E
G
H
Mj
x
i
F
O
Wz
r
Q
l
K
N t
P
R U
LSJ VT
X Y Z I 13
2
4
m a1
234
e 5
c6
g 7m
8
9a
0
be
d
p
o
w
nqc
hu
sp
o
w
n
k
x
vq
y
j
zj
u
s
x
v
z
i
f
A
B
C
D
E
F
G
H
M
O
W
rr
t
Q
J
l
U
K
L
N
P
R
S I
2
1
T
V
X
Y
Z34 3
1
24 5 6g
e
c
a
m
8
9
0
7
d
b
hp
q
u
o
w
n
k
f
A
B
C
D
Gy
j
s
x
v
i
E
F
H
M
O
Wz
r
t
Q
J
l
U
K
L
N
P
R
S
T
VX
Y Z I 3
2
14 m a e cg p
o
w
nqy
j
u
s
x
vz
r 1
234 56h7m
8
90a
bkde cgh f
A
B
C
D
G
Mi
E
H
W
p
o
w
n
3
1
2
4
kF
O
q
5Q
J
l
U
K
L
N
P
R
S
y
e
a
m
u
s
x
v
6
8
9
0
7
d
b
i
f
A
B
C
D
E
G
H
M
WI
T
V
X
Y
Z
g
p
q
c
o
w
n
j
z
r
h
k
t
Q
l
J
U
F
K
L
N
O
P
R
S3
2
1
4
y
j
u
s
x
v
z
r
Q
i
l
f
A
B
C
D
E
F
G
H
K
M
N
O
W
I
1
T
V
X
Y
Zt
J
U
L
P
R
S
3
2
4 T
V
XYZI
13
24 1
23456 7m
8
9
0a
b decghp
q
o
w
n
ku
s
v
f
A
B
C
D
E
G
H
My
j
x
i
F
O
Wz
r
Q
l
K
N t
P
RU
LSJ VT
XY Z I 13
24 1
23

You might also like