Professional Documents
Culture Documents
Apuntes
ii
ndice temtico
1
INTRODUCIN Y OBJETIVOS.......................................................................................................13
3.2.4
3.2.4.1
3.2.4.2
3.2.4.3
3.2.5
Media aritmtica...................................................................................................................... 50
Mediana................................................................................................................................... 51
Moda. ...................................................................................................................................... 51
Valores mximos y mnimos registrados................................................................................. 51
Primer y tercer cuartiles. ......................................................................................................... 51
Deciles, percentiles y cuantiles. .............................................................................................. 52
Varianza, sx2, y desviacin tpica, sx........................................................................................ 52
Rango intercuartlico ............................................................................................................... 54
Mediana de las desviaciones absolutas.................................................................................... 54
3.2.5.1
3.2.5.2
Coeficiente de sesgo................................................................................................................ 54
Coeficiente de sesgo cuartlico................................................................................................ 55
3.2.6
Tabla de estadsticos ................................................................................................................55
3.2.7
Grfico caja ..............................................................................................................................55
3.3
ANLISIS BIVARIADO ....................................................................................................................56
3.3.1
Distribuciones conjuntas de frecuencia..................................................................................58
3.3.2
Comparacin de cuantiles .......................................................................................................60
3.3.3
Diagrama de dispersin...........................................................................................................61
3.3.4
Coeficientes de correlacin simple: Pearson y Spearman ....................................................62
3.3.5
El mtodo de las dobles acumulaciones .................................................................................64
3.4
COMPONENTES EN LAS SERIES TEMPORALES ...............................................................................68
iii
3.4.1
Tendencias, ciclos y estaciones ...............................................................................................68
3.4.2
Consideraciones sobre la autocorrelacin temporal ............................................................74
3.5
CONTEXTO ESPACIAL ....................................................................................................................74
4
4.3.5
Transformacin de variables aleatorias.................................................................................80
4.4
VARIABLE ALEATORIA BIVARIADA ................................................................................................81
4.4.1
Funcin de distribucin conjunta ...........................................................................................81
4.4.2
Variable aleatoria marginal. Funcin de distribucin marginal .........................................83
4.4.3
Dependencia e independencia de variables aleatorias. Funcin de distribucin
condicionada ...........................................................................................................................................84
4.5
ESPERANZA Y MOMENTOS DE LAS FUNCIONES DE DISTRIBUCIN ..............................................86
4.5.1
Esperanza matemtica .............................................................................................................86
4.5.1.1
4.5.1.2
4.5.2
Varianza....................................................................................................................................87
4.5.2.1
4.5.2.2
4.5.3
4.5.4
5
Definicin ............................................................................................................................... 86
Propiedades ............................................................................................................................. 86
Definicin ............................................................................................................................... 87
Propiedades ............................................................................................................................. 87
5.4.1.1
5.4.1.2
5.4.1.3
5.5
OTRAS FUNCIONES DE DISTRIBUCIN....................................................................................117
5.5.1
TCEV.......................................................................................................................................117
5.5.2
Funcin de distribucin SQRT ET-mx................................................................................117
6
iv
6.2.1
6.2.1.1
6.2.1.2
6.2.2
Regresin mltiple en series mensuales sin persistencia ....................................................127
6.3
COMPLETADO DE SERIES MENSUALES CON PERSISTENCIA .......................................................130
6.4
GENERACIN DE NMEROS ALEATORIOS....................................................................................131
6.4.1
Generacin de nmeros aleatorios de una funcin de distribucin uniforme. Modelo
lineal. 131
6.4.2
Generacin de nmeros aleatorios de una funcin de distribucin normal ......................132
6.4.3
Generacin de nmeros aleatorios de una funcin de distribucin normal. Transformacin
de Box-Muller........................................................................................................................................132
7
INTRODUCCIN .............................................................................................................................133
MTODOS DE ESTIMACIN DEL MODELO .....................................................................................133
BIBLIOGRAFA.................................................................................................................................167
ndice de figuras
vi
vii
ndice de tablas
TABLA 1. ESTACIONALIDAD DE LOS MXIMOS ANUALES DE UNA ESTACIN PLUVIOMTRICA. ....................42
TABLA 2. VALORES ANUALES DE PRECIPITACIN EN UN PLUVIMETRO A. ....................................................43
TABLA 3, TIPOS DE TRANSFORMACIONES .........................................................................................................44
TABLA 4. HISTOGRAMA DE FRECUENCIAS ........................................................................................................47
TABLA 5. HISTOGRAMA DE FRECUENCIAS ACUMULADAS................................................................................48
TABLA 6. FRMULAS NO PARAMTRICAS DE PROBABILIDAD ..........................................................................48
TABLA 7. ASIGNACIN DE PROBABILIDAD DE OCURRENCIA............................................................................49
TABLA 8. ESTADSTICOS DE LA ESTACIN PLUVIOMTRICA ............................................................................55
TABLA 9. ESTADSTICOS DESCRIPTIVOS DE LAS SERIES DE LLUVIA REGISTRADA...........................................56
TABLA 10. COMPARACIN DE FRECUENCIAS RELATIVAS DE CAUDALES Y PRECIPITACIONES MXIMAS ......57
TABLA 11. EVOLUCIN DE LAS SERIES PLUVIOMTRICAS REGISTRADAS EN LOS PLUVIMETROS A Y B.......57
TABLA 12. TABLA DE CONTINGENCIA DE LAS VARIABLES PRECIPITACIN MXIMA, CAUDAL MXIMO.......59
TABLA 13. PROBABILIDAD CONDICIONAL ........................................................................................................60
TABLA 14. COMPARACIN DE CUANTILES ........................................................................................................61
TABLA 15. DEDUCCIN DE LOS RANGOS DE LAS SERIES PLUVIOMTRICAS ....................................................64
TABLA 16. SERIES PLUVIOMTRICAS ACUMULADAS EN LAS ESTACIONES A Y B ...........................................65
TABLA 17. ESTADSTICOS DE LA DISTRIBUCIN NORMAL................................................................................91
TABLA 18. FUNCIN DE DISTRIBUCIN NORMAL .............................................................................................93
TABLA 19. ESTADSTICOS DE LA DISTRIBUCIN LOGARTMICO NORMAL ( Y , MEDIAS Y DESVIACIONES
TPICAS DE LOS LOGARITMOS DE LA VARIABLE X)..................................................................................95
TABLA 20. ESTADSTICOS DE LA DISTRIBUCIN 2 (CHI-CUADRADO) DE PEARSON ........................................97
TABLA 21. ESTADSTICOS DE LA DISTRIBUCIN T DE STUDENT ......................................................................99
TABLA 22. ESTADSTICOS DE LA DISTRIBUCIN F DE FISHER .......................................................................100
TABLA 23. ESTADSTICOS DE LA DISTRIBUCIN DE BERNOULLI ...................................................................101
TABLA 24. ESTADSTICOS DE LA DISTRIBUCIN BINOMIAL ...........................................................................102
TABLA 25. ESTADSTICOS DE LA DISTRIBUCIN GEOMTRICA ......................................................................103
TABLA 26. ESTADSTICOS DE LA DISTRIBUCIN DE POISSON ........................................................................105
TABLA 27. ESTADSTICOS DE LA DISTRIBUCIN EXPONENCIAL.....................................................................107
TABLA 28. ESTADSTICOS DE LA DISTRIBUCIN GAMMA ..............................................................................108
TABLA 29. ESTADSTICOS DE LA DISTRIBUCIN PEARSON III .......................................................................109
TABLA 30. ESTADSTICOS DE LOS LOGARITMOS EN LA DISTRIBUCIN LOG-PEARSON III ............................111
TABLA 31. TIPOS DE FUNCIONES DE DISTRIBUCIN GEV..............................................................................112
TABLA 32. ESTADSTICOS DE LA DISTRIBUCIN DE GUMBEL ........................................................................114
TABLA 33. AJUSTE MEDIANTE UNA CONDICIN POR INTERVALOS ................................................................124
TABLA 34. FRMULAS DE GRFICO ................................................................................................................134
TABLA 35. ESTIMADOR MS EMPLEADO PARA CADA TIPO DE FUNCIN DE DISTRIBUCIN ..........................147
TABLA 36. OPCIONES POSIBLES EN UN CONTRASTE DE HIPTESIS (HENSEL-HIRSCH, 2002).......................150
TABLA 37. CONTRASTES SOBRE LA MEDIA DE UNA POBLACIN NORMAL. ...................................................152
TABLA 38. CONTRASTES SOBRE LA VARIANZA DE UNA POBLACIN NORMAL..............................................153
TABLA 39. DISTRIBUCIN DE KOLMOGOROV-SMIRNOV (SINGH) .................................................................158
TABLA 40. VALORES CRTICOS TEST DE ALEXANDERSSON ...........................................................................165
viii
ndice de ecuaciones
ix
xi
xii
INTRODUCIN Y OBJETIVOS
13
14
2
2.1
TEORA DE LA PROBABILIDAD
FENMENOS ALEATORIOS Y DEFINICIONES
15
2.2
2.2.1
DEFINICIN DE PROBABILIDAD
Definicin de Laplace
Algunos experimentos aleatorios sencillos tienen la propiedad de que todos los sucesos
elementales que lo componen tienen la misma probabilidad de ocurrencia. En ese caso
la distribucin de la probabilidad es uniforme y se dice que el experimento posee
simetra. Un ejemplo tpico sera el caso del lanzamiento de un dado. Cada uno de los
sucesos elementales, es decir, cada una de las seis caras del dado posee la misma
probabilidad de ser el resultado de uno de los lanzamientos.
En un experimento dotado de simetra y compuesto por n sucesos elementales (e1, e2, ...,
en) la probabilidad de ocurrencia de cada uno de los sucesos elementales ser igual a la
probabilidad total (uno) dividida por el nmero de sucesos elementales (n):
Ec. 1. Probabilidad de un suceso elemental con simetra
P(ei ) =
1
n
En el caso del ejemplo del dado existen seis sucesos elementales (las seis caras del
dado) y, por lo tanto, la probabilidad de obtener una cara determinada en un
lanzamiento ser:
Punacara =
1
6
PA = P (U efavorables ei ) =
P (e ) = n =
i
efavorables
i =1
m
n
P( A) =
n casos favorables
n casos posibles
16
4 2
= = 0,67
6 3
Se puede demostrar que la definicin propuesta por Laplace cumple los axiomas de
Kolmogorov (que se expondrn en el prximo apartado) y, por lo tanto, es una funcin
de probabilidad.
2.2.2
nA
n
P=
nA
n
17
probabilidad tiende a un valor lmite en la que se estabilizan las relativas con un nmero
n de casos suficientemente grande. Esta convergencia de la frecuencia relativa hacia el
valor real de la probabilidad no es en absoluto evidente, aunque su existencia es
imprescindible para que se pueda estimar el valor de la probabilidad a partir del estudio
de una muestra. Como se ver en el apartados posteriores, la Ley Fuerte de los Grandes
Nmeros garantiza desde un punto de vista matemtico dicha convergencia.
No obstante, la definicin de Von Mises sigue teniendo dos inconvenientes bsicos
(Pea, 2000). La experimentacin nunca es indefinida, especialmente en aquellos casos
en que est limitada, por lo que se tiene una incertidumbre asociada a la estimacin de
la frecuencia relativa. Adems, a lo largo del tiempo el sistema puede variar y las
frecuencias relativas tambin, con lo que resulta difcil obtener una muestra
suficientemente larga con las propiedades homogneas de la poblacin.
Al igual que para el caso de la definicin de Laplace, se puede demostrar que el criterio
de Von Mises cumple los axiomas de Kolmogorov y, por tanto, constituye una funcin
de probabilidad.
2.2.3
La probabilidad subjetiva
Otros autores como Keynes, Jeffreys, Savage y De Fenetti han propuesto una definicin
de la probabilidad basada en un criterio subjetivo. Esta concepcin de probabilidad no
requiere de repeticin de pruebas, ni de estabilidad de las frecuencias, sino que est
basada en el grado de creencia que un determinado individuo pueda tener en un hecho
determinado o en el resultado de un determinado experimento. La probabilidad de cada
suceso ser diferente para cada persona porque cada uno dispondr de distinta
informacin y la valorar de forma diferente.
Si la valoracin subjetiva se realiza siguiendo determinados axiomas, definidos por De
Fenetti, se puede llegar a una medida cuantitativa de la probabilidad que cumple los
axiomas de Kolmogorov.
2.2.4
18
Esta ley garantiza, por tanto, la viabilidad de emplear la definicin de Von Mises como
mtodo para estimar la probabilidad de un suceso. La demostracin matemtica de la
ley no se incluye en este curso debido a su complejidad. La misma demostracin
matemtica permite conocer que la frecuencia relativa, no solo converge hacia el valor
real de la probabilidad, sino que lo hace con bastante rapidez. Debido a esa rapidez en la
convergencia, se la llama ley fuerte, a diferencia de la ley dbil en la que la
convergencia es mucho ms lenta. Esta circunstancia permite realizar estimaciones
bastante precisas de la probabilidad con un nmero no muy elevado de datos.
2.3
2.3.1
Teora de conjuntos
Espacio muestral o universo (suceso seguro). Es aquel suceso que contiene todos
los posibles resultados del fenmeno aleatorio. Se representa como E.
19
AU B = BU A
2. Asociativa
Ec. 9. Propiedad asociativa
A I B I C = A I (B I C ) = ( A I B ) I C
A U B U C = A U (B U C ) = ( A U B ) U C
3. Distributiva
Ec. 10. Propiedad distributiva
A I (B U C ) = ( A I B ) U ( A I C )
A U (B I C ) = ( A U B ) I ( A U C )
4. Del mdulo
Ec. 11. Propiedad del mdulo
AI =
A U = A
5. Idempotencia
Ec. 12. Propiedad idempotencia
AI A = A
AU A = A
6. Otras
Ec. 13. Otras propiedades
AI B = AU B
20
AU B = AI B
2.3.2
Axiomas de Kolmogorov
P( A) = 1 P ( A)
3. Teorema 3. La probabilidad del suceso imposible es nula.
Ec. 19. Teorema 3 derivado de los axiomas de Kolmogorov
P( ) = 0
4. Teorema 4. Si el suceso A es un subconjunto de B, la probabilidad de A es menor
o igual que la de B.
Ec. 20. Teorema 4 derivado de los axiomas de Kolmogorov
A B P ( A) P( B)
21
((
) (
))
P A I B U A I B = P( A) + P( B) 2P( A I B)
2.3.3
Postulado de indiferencia
Bi I B j = (i j )
P( Bi ) = P( B j ) = p
P( B1 ) U ...P( Bn ) = P ( E ) = 1 = n p P( Bi ) =
1
n
m
n
22
2.4
2.4.1
n2
n2
P ( A I B)
P=
= n =
n1 n1
P( A)
n
Tal como aparece en la ecuacin anterior, se puede a su vez considerar la frecuencia de
cada uno de estos sucesos respecto al nmero n total de experimentos y expresar la
probabilidad de B condicionada a A en funcin del cociente entre la probabilidad de la
interseccin de sucesos y la del suceso A (teorema del producto).
Dados dos sucesos A y B, se llama probabilidad del suceso B condicionada por el suceso
A, representado por P(B/A), a la probabilidad del suceso B supuesto que ha ocurrido A.
Ec. 25. Expresin de la probabilidad condicionada
P (B A) =
P( A I B )
P( A)
De la misma manera:
Ec. 26. Expresin de la probabilidad condicionada
P( A B ) =
P( B I A)
P( B )
Quedando:
Ec. 27. Relaciones entre la probabilidad condicionada y la interseccin de sucesos
P( A I B) = P( A)P( B A) = P ( B )P( A B )
En el caso de manejar tres sucesos, se tendra:
23
P(C A I B) =
P(C I A I C ) P(C I A I C )
=
P( A I B)
P( A)P( B A)
P( A) = P( A B) o P( B) = P( B A)
se dice que los sucesos son independientes. Es decir, la probabilidad de un suceso A es
la misma que condicionada a B, por lo que B no condiciona el suceso A.
Una segunda propiedad de los sucesos independientes es que la probabilidad del suceso
interseccin es el producto de probabilidades de los sucesos individuales:
Ec. 31. Propiedad de los sucesos independientes
P( A I B ) = P( A)P( B A) = P( B)P( A B)
P( B A) = P( B)
P ( A I B) = P ( A)P( B)
P( A B) = P( A)
A I B = P( A I B) = 0 P ( A B) =
P( A I B)
= 0 P( A) P( A B)
P ( B)
24
Ind P( A1 I A2 ) = P ( A1 )P( A2 )
P( A1 ) = 1 P( A1 )
P( A1 )P ( A2 ) = 1 P( A1 ) P( A2 ) + P( A1 )P ( A2 )
P( A2 ) = 1 P( A2 )
P ( A1 )P( A2 ) = 1 P ( A1 U A2 ) = P( A1 U A2 ) = P( A1 I A2 )cqd
2.4.3
U ( Bi ) = B
i
Bi I B j = (i j )
Sea A un suceso que solo se puede dar dentro de B, para el cual se conocen las
probabilidades condicionadas P(A/Bi) y supongamos que se conocen tambin las
probabilidades P(Bi). Se verifica:
Ec. 33. Probabilidad total o compuesta
P( A) = P( A / Bi ) P ( Bi )
i
P( A) = P( A I B) = P A I U Bi = P U[A I Bi ]
i
P( A) = P( A I Bi )
i
P( A) = P( A / Bi ) P ( Bi )
i
25
P(Q q Q = 0) = 0
P (Q q) = P(Q q Q 0)P(Q 0)
P(Q q ) = k P (Q q Q 0)
m
P(Q 0) = = k
n
donde n es el nmero total de caudales mnimos seleccionados, m es el nmero de
caudales distintos de cero y se cumple que la probabilidad de obtener un caudal q menor
que uno dado Q igual a cero es nula.
2.4.4
U( Bi ) = E
i
Bi I B j = (i j )
Sea A un suceso para el cual se conocen las probabilidades condicionadas P(A/Bi). Se
verifica:
Teorema de Bayes
P( Bi / A) =
P ( Bi ) P( A / Bi )
P( Bi ) P( A / Bi )
i
P( Bi / A) =
P( Bi A)
P( A)
P( Bi A) = P ( Bi ) P( A / Bi )
Por el teorema de la probabilidad total:
P( A) = P( A / Bi ) P ( Bi )
i
26
Y sustituyendo las dos ltimas expresiones en la obtenida para P(Bi/A), se obtiene el resultado
buscado:
P( Bi / A) =
P ( Bi ) P( A / Bi )
P( Bi ) P( A / Bi )
i
Ejemplo: En una determinada zona se pueden registrar tormentas generadas por dos
tipos de fenmenos meteorolgicos: lluvias de carcter convectivo y lluvias producidas
por frentes de bajas presiones (ciclones o borrascas). La probabilidad de que la
precipitacin registrada por un pluvimetro durante un aguacero sea una u otra depende
del tipo de fenmeno meteorolgico que ocurra. A partir del estudio de las
precipitaciones producidas por distintos tipos de aguaceros, se ha llegado a determinar
las siguientes probabilidades para las precipitaciones:
P < 100 mm
P > 100 mm
Lluvia convectiva
0,96
0,04
Lluvia ciclnica
0,99
0,01
Tambin se sabe que solo un tercio de los aguaceros de la zona son de tipo ciclnico. Si
la precipitacin registrada en el pluvimetro durante un aguacero es inferior a 100 mm:
a) Calcular la probabilidad de que el aguacero haya sido de tipo convectivo.
b) Lo mismo para un aguacero de tipo ciclnico, si la precipitacin
registrada ha sido mayor de 100 mm.
a) Si llamamos suceso B1 a que el aguacero sea de tipo convectivo y suceso B2 a que sea
de tipo ciclnico, se verifica:
U( Bi ) = E
i
Bi I B j = (i j )
La probabilidad de estos sucesos Bi es:
P( B1 ) = 2 / 3
P ( B2 ) = 1 / 3
Por tanto, si definimos el suceso A1 como el registro de una precipitacin inferior a 100
mm durante un aguacero, se tendr:
27
P( A1 / B1 ) = 0,96
P( A1 / B2 ) = 0,99
Y, por tanto, aplicando el teorema de Bayes:
P( B1 / A1 ) =
P( B1 ) P( A1 / B1 )
( 2 / 3)0,96
=
= 0,66
P( B1 ) P( A1 / B1 ) + P( B2 ) P( A1 / B2 ) (2 / 3)0,96 + (1 / 3)0,99
P( A2 / B1 ) = 0,04
P( A2 / B2 ) = 0,01
Y aplicando el teorema de Bayes:
P( B2 / A2 ) =
2.5
P ( B2 ) P( A2 / B2 )
(1 / 3)0,01
=
= 0,11
P ( B1 ) P( A2 / B1 ) + P( B2 ) P( A2 / B2 ) ( 2 / 3)0,04 + (1 / 3)0,01
Vrn = n( n 1)...( n r + 1) =
2.5.2
n!
(n r )!
Permutaciones
28
Pn = n!
2.5.3
VRrn = n r
2.5.4
PRn = n n
2.5.5
Combinaciones
Si se tiene el mismo caso anterior, pero sin importar el orden en que se escogen los r
elementos, se pasa a un problema de combinaciones. Si se considera que el nmero total
de permutaciones de r elementos es r!, el nmero de combinaciones ser el de
variaciones de n elementos tomados de r en r, dividido entre r!.
Ec. 38. Combinaciones
C rn =
2.5.6
Prn n
n!
= =
r! r r!( n r )!
n
n 1
n 1
+ ... + n
CRrn = + n
r
r 1
n r + 1
2.6
2.6.1
OBSERVACIONES REPETIDAS
Observaciones con reemplazamiento
Se quiere estimar la probabilidad de extraer de una urna con n1 bolas blancas y n2 negras
(N=n1+n2), r bolas blancas. Siendo n el total de bolas extradas. Considerando las
posibles combinaciones con xito, queda:
29
n r
nr
P = p (1 p )
n2
r
1 p = P (negra ) =
N
p = P (blanca) =
n1
N
2.6.2
En este caso el problema vara porque con cada extraccin, cambian las condiciones de
experimentacin. El nmero total de casos posibles de extracciones de r elementos de
N
una urna con un total de N es . Si de estos casos se pretende calcular la
n
n1 n 2
.
probabilidad de que m1 sean blancas, el nmero de casos favorables ser
m1 r m1
La probabilidad buscada es:
Ec. 42. Probabilidad de las observaciones sin reemplazamiento
n1 n 2
m1 n m1
P=
N
n
Este ejemplo se puede extender al caso de ms de dos clases (Gmez Espadas).
Ec. 43. Probabilidad de las observaciones sin reemplazamiento y ms de dos clases
n1 n 2 nk
...
mk
m m
P = 1 2
N
n
2.6.3
30
P( A I ... A) = p p.. p = p n
2. La probabilidad de que A no se presente en ninguno de los n ensayos es:
Ec. 45. Probabilidad de que no se presente A en n repeticiones
1 P( A I ... A) = 1 (1 p ) n
4. La probabilidad de que A se presente r veces del total n es, como se ha indicado
en el apartado 2.6.1:
Ec. 47. Probabilidad de que A se presente r veces de n
n r
p (1 p ) n r
r
5. La probabilidad de que A se presente entre r1 y r2 veces es:
Ec. 48. Probabilidad de que A se presente entre r1y r2 veces de n
r2
r = r1
r p
(1 p) n r
Ejemplo: Calcular el riesgo de que un caudal mximo anual con periodo de retorno
asociado T sea superado alguna vez durante los t aos siguientes.
1. Probabilidad de que en un ao esa avenida sea superada si corresponde a un
periodo de retorno de T aos
P(Q QT ) =
1
T
1
T
31
P = 1
T
R = 1 1
T
32
PRCTICA I
Se tienen los siguientes datos de caudal mximo anual medidos en una estacin de
aforos:
AO
CAUDAL (m3/s)
376
464
454
254
120
105
186
398
1600
10
410
11
142
12
80
13
100
14
380
15
214
16
137
17
207
18
464
19
138
20
964
33
Solucin:
1. El espacio muestral ser cualquier resultado posible al realizar una medida de caudal
en un ro, es decir, todos los nmeros reales positivos y el cero:
E = + + {0}
2. a) A partir de los datos de la tabla, se divide el nmero de aos en los que se ha
medido un caudal superior a 200 m3/s. por el nmero total de datos:
P(Q > 200) =
12
= 0,6
20
b) Igual que el apartado anterior pero considerando el nmero de aos en los que se ha
medido un caudal inferior a 500 m3/s.:
P(Q < 500) =
18
= 0,9
20
b) Se resuelve igual que el apartado anterior pero con las probabilidades del suceso
complementario:
P( 200 > Q5aos ) = P (i =1 200 > Qaoi ) = i =1 P( 200 > Qaoi ) = (1 0,6) 5 = 0,01
5
34
c) El suceso que durante cinco aos se supere el caudal de 200 m3/s. al menos una vez
es el complementario del suceso que no se supere nunca en los cinco aos. Por tanto, su
probabilidad se puede obtener como:
P( 200 < Qalmenosunao ) = 1 P (200 > Q5 aos ) = 1 0,01 = 0,99
d) Se resuelve aplicando la frmula expuesta en el apartado 2.6.1. o en el 2.6.3., para el
caso de que el nmero de experimentos sea 5 y el nmero de casos favorables 3.
n
5
P( 200 < Q3aos ) = p r (1 p ) nr = 0,6 3 (1 0,6) 2 = 0,346
r
3
35
PRCTICA II
Junto con los datos de caudal del ejercicio anterior, se tienen los siguientes datos de
precipitacin mxima diaria medidos en un pluvimetro:
AO
PRECIPITACIN (mm)
120
205
180
100
50
40
105
125
400
10
210
11
55
12
20
13
35
14
150
15
95
16
70
17
155
18
220
19
75
20
310
36
5
= 0,556
9
0
=0
11
P(300 < Q 200 < P ) = P (200 < P / 300 < Q )P(300 < Q )
La probabilidad condicionada se ha calculado en el primer apartado y la probabilidad
P(300<Q) se puede obtener a partir de los datos de caudal de la prctica I.
P(300 < Q) =
9
= 0,45
20
P(300 < Q 200 < P ) = P (200 < P / 300 < Q)P(300 < Q ) = 0,5560,45 = 0,25
3. Se resuelve mediante el teorema de Bayes, dividiendo el espacio muestral en dos
sucesos disjuntos: (300<Q) y (300>Q).
E = (300 < Q) (300 > Q)
(300 < Q) (300 > Q) =
Por tanto, se tendr:
P (300 < Q / 200 < P ) =
37
38
3
3.1
ESTADSTICA DESCRIPTIVA
INTRODUCCIN
39
40
3.2
ANLISIS UNIVARIADO
Este apartado se centra en la descripcin de los datos de una variable. Con generalidad,
las variables pueden ser cualitativas o cuantitativas, discretas o continuas. Cada tipo de
variable permite un tipo de ordenacin para trabajar numricamente con ellas. Las
ordenaciones y escalas se establecen en funcin de criterios como mayor/menor que,
igualdad/desigualdad, valoracin numrica de las diferencias entre dos modalidades y
distancias al origen absoluto de la variable (Bosque Sendra, 1997). Estos criterios
constituyen las herramientas sobre las que se basan las descripciones de elementos.
3.2.1
Herramientas grficas
Con variables cualitativas o cuantitativas, el primer paso para su descripcin puede ser
la ordenacin de los registros en tablas. Estas tablas se construyen al conocer una
cualidad y ordenar el nmero de casos registrados para cada caso de la cualidad
identificada. Por ejemplo, si se piensa en conocer qu estacin es la ms proclive a la
presentacin de mximos anuales, se pueden ordenar los datos en una tabla donde
aparezcan el nmero de mximos asociados a cada mes y utilizar un diagrama circular
para su descripcin. En la figura se aprecia que la mayora de los casos se dan entre los
meses de septiembre a diciembre, con nula aparicin de mximos, en la serie disponible,
durante los meses de junio a agosto.
Mes
Nmero de mximos
Oct Nov Dic Ene Feb Mar Abr May Jun Jul Ago Sep TOTAL
12
36
41
Oct Nov Dic Ene Feb Mar Abr May Jun Jul Ago Sep TOTAL
Mes
Junio
0%
Julio
0%
Mayo
3%
Agosto
0%
Septiembre
8%
Abril
8%
Octubre
34%
Marzo
8%
Febrero
0%
Enero
6%
Diciembre
14%
Noviembre
19%
Pluvio
31
20
21
23
22
21
29
34
22
17
22
38
18
15
12
33
22
27
(mm)
Ao 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976
Pluvio
(mm)
42
34
29
32
26
35
34
25
27
27
28
36
23
34
26
35
36
25
24
40
35
30
25
20
15
10
1976
1975
1974
1973
1972
1971
1970
1969
1968
1967
1966
1965
1964
1963
1962
1961
1960
1959
1958
1957
1956
1955
1954
1953
1952
1951
1950
1949
1948
1947
1946
1945
1944
1943
1942
1941
Tiempo (aos)
En el caso anterior se ha dibujado una serie anual de 36 datos por lo que hay espacio
suficiente para poder contemplar las propiedades generales de la serie. Si se dispone de
una serie mensual con un mayor nmero de datos, se puede, bien utilizar los datos
anuales para obtener conclusiones desde la escala superior o bien, utilizar una o varias
grficas, dividiendo el dominio en varios tramos a costa de impedir la visin general.
800
700
600
500
400
300
200
100
ene-00
ene-97
ene-94
ene-91
ene-88
ene-85
ene-82
ene-79
ene-76
ene-73
ene-70
ene-67
ene-64
ene-61
ene-58
ene-55
ene-52
ene-49
ene-46
ene-43
ene-40
ene-37
ene-34
ene-31
ene-28
43
100
10
ene-00
ene-96
ene-92
ene-88
ene-84
ene-80
ene-76
ene-72
ene-68
ene-64
ene-60
ene-56
ene-52
ene-48
ene-44
ene-40
ene-36
ene-32
ene-28
Las transformaciones se usan con tres objetivos (Hensel y Hirsch, 2002): reducir la
asimetra de las variables, linealizarlas o buscar la homocedasticidad, es decir, hacer de
la variabilidad en la variacin algo constante. Utilizando la informacin de estos dos
autores, las caractersticas de las principales transformaciones son:
Tipo de
transformacin
Utilizada para
x3
x2
x 3
log(x )
1
x
1
x2
Reducir el sesgo
negativo
Reducir el sesgo
negativo
Reducir el sesgo
positivo
Reducir el sesgo
positivo
Reducir el sesgo
positivo
Reducir el sesgo
positivo
Reducir el sesgo
positivo
Reducir el sesgo
positivo
44
Comentarios
Si la serie tiene muchos puntos, puede ser conveniente agregar los datos en valores o
elegir estadsticos que simplifiquen la serie. En el caso del ejemplo de la Figura 4, se
pueden agregar los datos en totales anuales. Para tener una primera idea de cules son
los movimientos que hay en la serie, se puede aadir una curva suavizada que destaque
adecuadamente los cambios en la serie. La Figura 5 incorpora una curva suavizada
obtenida a partir de una media mvil de 11 aos. Esta lnea suavizada permite
contemplar una oscilacin y definir las caractersticas de un periodo. La determinacin
de este tipo de curvas se tantea buscando describir adecuadamente la serie analizada.
1800
1600
1400
1200
1000
800
600
400
200
19
40
19 41
43
19 44
46
19 47
49
19 -50
52
19 53
55
19 56
58
19 59
61
-6
19 2
64
19 65
67
19 68
70
19 71
73
-7
19 4
76
19 77
79
19 80
82
19 -83
85
19 86
88
-8
19 9
91
19 92
94
19 95
97
-9
20 8
00
-0
1
224,50
224,00
224,00
223,50
223,50
223,00
223,00
222,50
222,50
222,00
222,00
221,50
221,50
221,00
28/08/76
221,00
17/09/78
06/10/80
26/10/82
14/11/84
04/12/86
23/12/88
12/01/91
31/01/93
20/02/95
11/03/97
28/08/76
17/09/78
06/10/80
26/10/82
14/11/84
04/12/86
23/12/88
12/01/91
31/01/93
20/02/95
11/03/97
45
3.2.2
Asignacin de frecuencias
30
25
20
15
10
Se
pt
ie
m
br
e
go
sto
io
Ju
l
io
Ju
n
M
ay
o
br
il
A
o
M
ar
z
o
Fe
br
er
En
er
o
br
e
iem
br
e
ov
ctu
N
ici
em
br
e
46
Intervalo
Nmero de ocurrencias
Frecuencia observada
x < 17
5,6
Intervalo
Nmero de ocurrencias
Frecuencia observada
17 x < 20
20 x < 23
23 x < 26
26 x < 29
29 x < 32
32 x < 35
35 x
2
7
5
6
3
6
5
5,6
19,4
13,9
16,7
8,2
16,7
13,9
25
20
15
10
0
<17
> 35
Definicin de los
lmites de clase
Estimacin de
frecuencias relativas
47
Nmero de ocurrencias
x < 17
x < 20
x < 23
x < 26
x < 29
x < 32
x < 35
x < 38
Frecuencia acumulada
2
4
11
16
22
25
31
36
5,6
11,2
30,6
44,5
61,2
69,4
86,1
100,0
100
90
80
70
60
50
40
30
20
10
> 35
32-35
29-32
26-29
23-26
20-23
17-20
< 17
Es tambin usual utilizar frmulas que asignan una probabilidad de igualar o superar un
valor de la serie xm en funcin del orden m que ocupa en la misma. Es decir, asignan la
probabilidad a cada uno de los valores de la serie y no por intervalos. Para ello, se ha de
proceder a ordenar la serie de mayor a menor y aplicar una de las frmulas existentes
que, con carcter general, pueden expresarse en funcin de un parmetro b (Chow,
1994). Como se puede comprobar, estas frmulas corrigen la asignacin de
probabilidades a los extremos por otras ligeramente distintas, tal y como se puede
comprobar en el ejemplo donde se ha aplicado la formulacin de Gringorten:
P( X < x m ) = 1
mb
n +1 2b
Mtodo
Hazen
Chegodayev
Valor de b
0,5
0,3
Weibull
Blom
3/8
Tukey
1/3
Gringorten
0,44
48
P(X<xm)
Serie de valores
P(X<xm)
Gringorten, %
Gringorten, %
38
36
36
35
35
34
34
34
34
33
32
31
29
29
28
27
27
27
98
96
93
90
87
85
82
79
76
74
71
68
65
62
60
57
54
51
26
26
25
25
24
23
23
22
22
22
22
21
21
20
18
17
15
12
49
46
43
40
38
35
32
29
26
24
21
18
15
13
10
7
4
2
40
35
Precipitacin (mm)
30
25
20
15
10
5
0
0
20
40
60
80
100
120
49
40
100
35
Precipitacin (mm)
Precipitacin (mm)
30
25
20
15
10
10
5
1
0
-3
-2
-1
-3
-2
-1
Medidas de localizacin.
Son valores estadsticos que pretenden dar una idea de cul es el rango de valores
ocupado por la muestra y, en los casos de la media aritmtica, mediana y moda, de la
tendencia central de la distribucin:
3.2.3.1 Media aritmtica.
Es el equivalente al centro de gravedad de la muestra. Para calcularla se utiliza el
sumatorio sobre todos los valores de la muestra, n:
Ec. 49. Media aritmtica
n
mx =
i =1
xi
n
En la frmula anterior, el trmino 1/n es el peso asociado a cada valor xi y coincide con
su frecuencia. Cuando se disponga de datos discretos, la media puede calcularse
utilizando la frecuencia relativa de cada uno de ellos:
Ec. 50. Media para datos discretos
n
i =1
i =1
mx = xi f ( xi ) = xi
ni
n
Y cuando los datos estn agrupados en clases, se calcula tomando un valor central de
cada clase, mi:
Ec. 51. Media con datos agrupados en n clases
n
i =1
i =1
mx = mi f ( xi ) = mi
50
ni
n
Por tanto, la media aritmtica es muy sencilla de obtener, pero es sensible a valores
extremos con lo que puede dar una idea errnea del centro de la muestra cuando existen
valores extremos dispersos y distantes respecto al cuerpo central de la misma.
3.2.3.2 Mediana.
Es el valor tal que ordenada la muestra, deja a cada lado la mitad de observaciones. Es
decir, es el valor que presenta una probabilidad del 50%. Si el nmero total de datos en
la muestra es impar, coincidir con el que ocupa la posicin (n+1)/2, mientras que en
las muestras con un nmero de datos par, se puede obtener como la media de los valores
anterior y posterior al centro, (xn/2+x1+n/2)/2.
Al trabajar con rangos, esta medida filtra la sensibilidad a los valores de extremos. Se
tiene entonces una medida robusta de la tendencia central. Adems, las diferencias entre
media y mediana describen la asimetra de la muestra. Con muestras simtricas,
tendern a dar valores similares, mientras que cuanto ms asimtrica sea una
distribucin de valores, ms diferirn sus valores.
3.2.3.3 Moda.
Es el valor que se presenta con mayor frecuencia. Como la mediana es ms robusta ante
la presencia de valores extremos, pero su estimacin se dificulta con variables continuas
para las que hay que definir los intervalos en los que agrupar los datos. Su utilidad es
mayor cuando se trabaja con variables discretas.
3.2.3.4 Valores mximos y mnimos registrados.
3.2.3.5 Primer y tercer cuartiles.
Los cuartiles son valores representativos de la divisin en cuartos del rango de
frecuencias. Es decir, son los valores que tienen una probabilidad de ocurrencia del 25%
(primer cuartil) y 75% (cuartil superior).
51
Funcin de densidad
50%
50%
25%
25%
modax ax
mx
Valores de x
Medidas de dispersin.
s x2 =
i =1
( xi m x ) 2
n
sx =
( xi m x ) 2
n
i =1
n
Como en el caso de las medias, cuando los datos estn agrupados se pueden aplicar las
siguientes frmulas:
Ec. 53. Desviacin tpica con datos agrupados en n clases
sx =
(mi mx )2 f ( xi ) =
i =1
52
ni
(m m ) n
2
i =1
CV =
sx
mx
1001 2 %
k
de las observaciones (Pea, 2000).
Ec. 55. Desigualdad de Tchebychev
f ( xi m x k s x ) 1
1
k2
Demostracin: se basa en seleccionar las observaciones que estn a una distancia respecto a
la media mayor que ksx de las que estn a menos distancia y aplicar la definicin de
varianza:
( xi m x ) 2
( xi m x ) 2
( xi m x ) 2
( xi m x ) 2
=
+
n
n
n
n
i : x i m x > k s x
i : xi m x k s x
i : x i m x > k s x
I =1
2
2
2 2
xi m x > k s x ( xi m x ) > k 2 s x2
(
x
m
)
>
n
s
i x
i
x
i : xi m x > k s x
s x2 =
s x2
( xi m x ) 2
1
> k 2 s x2 f ( xi m x > k s x ) f ( xi m x > k s ) < 2
n
k
i : x i m x > k s x
f ( x i m x k s ) 1
1
k2
De lo que se sigue que entre la media y dos desviaciones tpicas estn al menos el 75% de las
observaciones; y entre la media y 3 desviaciones tpicas, el 89%.
53
IQR = Q3 Q1
3.2.4.3 Mediana de las desviaciones absolutas
Tampoco se ve afectada por los valores extremos de las desviaciones respecto a la
media. Se calcula como la mediana de las desviaciones absolutas respecto a la mediana.
Ec. 57. MEDA
MEDA = mediana xi a x
3.2.5
CS =
1 n ( xi m x ) 3
n i =1
3
Un valor positivo del coeficiente de sesgo indicar la existencia de una cola con valores
superiores a la media y, al contrario, un valor negativo, la existencia de una cola con
valores inferiores a la media. En caso de existir una simetra alrededor de la media, el
coeficiente de sesgo tendr valor nulo. Como desventaja hay que citar la elevada
sensibilidad de este estadstico a la presencia de valores extremos y al escaso nmero de
datos.
54
Funcin de densidad
Valores de x
mx
CSQ =
3.2.6
(Q3 a ) (Q1 a )
IRQ
Tabla de estadsticos
27
26
Tercer cuartil
Varianza
33
42,4
Moda
22
Desviacin tpica
6,5
Mximo
38
Coeficiente de variacin
0,24
Mnimo
12
Rango intercuartlico
11
Primer cuartil
22
Coeficiente de sesgo
-0,19
3.2.7
Grfico caja
Con estas variables se pueden construir los denominados grficos en caja donde
aparecen de forma ms intuitiva las caractersticas mencionadas anteriormente a
propsito de la localizacin, tendencia central, existencia de valores errticos,
dispersin y forma. Para ello se indica sobre un eje convenientemente escalado entre los
valores mximo y mnimo, la posicin de la media aritmtica m y mediana a, los dos
cuartiles y para los casos de distribuciones normales, las denominadas vallas inferior y
superior, utilizadas como referencia de valores anmalos (outliers) que hay que estudiar
con especial detenimiento. Sus expresiones son:
55
3
Vi = Q1 IQR
4
3
Vs = Q3 + IQR
4
El grfico en caja parece indicar la existencia de una cola hacia los valores mnimos. En
este mismo sentido se manifiesta el coeficiente de sesgo o asimetra, negativo, aunque
posiblemente manifieste cierta la sensibilidad a los valores extremos bajos.
3.3
ANLISIS BIVARIADO
El estudio de las relaciones entre dos series de valores facilita y ampla el conocimiento
de fenmenos que en el apartado anterior solo se contemplaban unilateralmente. Este
nuevo terreno es el del anlisis bivariado y la extensin a ms de dos variables el
multivariado.
Como en el caso anterior, el primer paso consiste en la organizacin de los datos en
tablas. Estas tablas se pueden acompaar de los estadsticos obtenidos mediante un
anlisis univariado de cada una de las variables. La comparacin permite empezar a
extraer consecuencias.
Parmetros estadsticos
Media aritmtica
Mediana
Pluvimetro A Pluvimetro B
27
29
26
28
Moda
22
23
Mximo
38
39
Mnimo
12
23
Primer cuartil
22
25
Tercer cuartil
33
32
42,4
24,9
Varianza
Desviacin tpica
6,5
5,0
0,24
0,17
Rango intercuartlico
11
7,50
Coeficiente de sesgo
-0,19
0,53
Coeficiente de variacin
Tambin las frecuencias pueden compararse mediante tablas o con ayuda de grficos
buscando comprobar si hay o no concordancia entre las series. La Tabla 10 compara las
frecuencias asignadas a series de mximos de precipitacin y caudales en funcin de su
estacionalidad.
Mes
N mximos
anuales de
precipitacin
N caudales
mximos
anuales
56
Oct
12
Nov
7
Dic
5
Ene
2
Feb
0
Mar
3
Abr
3
May
1
Jun
0
11
Jul
0
Ago
0
Sep TOTAL
3
36
44
Mes
Oct
Nov
Dic
Ene
Feb
Mar
Abr
May
Jun
Jul
Ago
Sep
TOTAL
35
30
25
20
15
10
5
io
Ju
l
go
sto
Se
pt
ie
m
br
e
Ju
ni
o
A
br
il
M
ay
o
ctu
br
N
e
ov
ie
m
br
e
D
ici
em
br
e
En
er
o
Fe
br
er
o
M
ar
zo
1942
20
1943
21
1944
23
1945
22
1946
21
1947
29
1948
34
1949
22
1950
17
1951
22
1952
38
1953
18
1954
15
1955
12
1956
33
1957
22
1958
27
28
32
28
31
23
35
30
27
27
28
36
28
25
24
39
23
36
1960
29
1961
32
1962
26
1963
35
1964
34
1965
25
1966
27
1967
27
1968
28
1969
36
1970
23
1971
34
1972
26
1973
35
1974
36
1975
25
1976
24
23
23
23
33
26
25
28
29
23
37
23
35
28
30
39
23
26
40
Precipitacin (mm)
35
30
25
20
Pluvimetro A
15
Pluvimetro B
10
1940
1945
1950
1955
1960
1965
1970
1975
Siempre que sea posible se deben comparar series registradas en distintos puntos con
cierta proximidad geogrfica. Esto facilita y da consistencia a la identificacin de
patrones comunes. Y al contrario, tambin permite la deteccin de errores. La
comparacin de varias series se puede realizar con varias grficas temporales, con las
mismas escala en abscisas y ordenadas. Cuando los valores de las series sean
57
226,00
224,00
224,00
222,00
222,00
220,00
220,00
218,00
218,00
216,00
216,00
214,00
214,00
212,00
212,00
210,00
210,00
28/08/1976 17/09/1978 06/10/1980 26/10/1982 14/11/1984 04/12/1986 23/12/1988 12/01/1991 31/01/1993 20/02/1995 11/03/1997
28/08/1976 17/09/1978 06/10/1980 26/10/1982 14/11/1984 04/12/1986 23/12/1988 12/01/1991 31/01/1993 20/02/1995 11/03/1997
226,00
226,00
224,00
224,00
222,00
222,00
220,00
220,00
218,00
218,00
216,00
216,00
214,00
214,00
212,00
212,00
210,00
210,00
28/08/1976 17/09/1978 06/10/1980 26/10/1982 14/11/1984 04/12/1986 23/12/1988 12/01/1991 31/01/1993 20/02/1995 11/03/1997
28/08/1976 17/09/1978 06/10/1980 26/10/1982 14/11/1984 04/12/1986 23/12/1988 12/01/1991 31/01/1993 20/02/1995 11/03/1997
3.3.1
58
mximos instantneos anuales (Tabla 12), en las filas y columnas se tendrn cada uno
de los meses considerados (clases de cada variable) y en cada cuadrcula de la matriz, la
frecuencia relativa calculada como cociente del nmero de casos en los que se dan a la
vez precipitaciones mximas y caudales mximos de cada combinacin de meses entre
el total de meses. La interpretacin de estos resultados tiene que hacer referencia a la
similitud existente en la estacionalidad del fenmeno.
caudales
oct
oct
nov
dic
ene
feb
mar
abr
may
jun
jul
ago
sep
nov
dic
ene
feb
precipitaciones
mar
abr
may
jun
jul
ago
sep
21%
0%
0%
3%
3%
0%
0%
0%
0%
0%
3%
0%
0%
14%
3%
3%
0%
0%
0%
0%
0%
0%
0%
0%
3%
0%
3%
0%
0%
3%
0%
0%
0%
0%
0%
0%
0%
0%
3%
3%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
3%
0%
0%
0%
7%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
3%
3%
3%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
3%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
7%
31%
21%
10%
7%
0%
10%
10%
3%
0%
0%
0%
7%
24%
17%
10%
10%
3%
14%
3%
3%
0%
0%
3%
10%
Tabla 12. Tabla de contingencia de las variables precipitacin mxima, caudal mximo.
25%
20%
15%
10%
5%
sep
ago
jul
jun
may
abr
mar
feb
ene
dic
nov
oct
0%
oct nov
dic ene
feb mar
abr may
jun
jul ago
sep
La distribucin conjunta de las dos variables expresada en la tabla anterior sirve para
definir la distribucin marginal de cada una de las variables. Esta distribucin marginal
expresa las frecuencias de una de las variables independientemente de la ocurrencia o
no de la segunda variable. Como se expresa en la tabla anterior, estas distribuciones
marginales se pueden calcular por suma de las frecuencias correspondientes a la
variabilidad de la segunda variable en cada clase de la primera. Es decir,:
59
j =1
i =1
f ( xi ) = f ( xi , y j ) f ( y j ) = f ( xi , y j )
As, en la ltima fila de la Tabla 12 se tiene la distribucin marginal de la estacionalidad
de las precipitaciones mximas; y en la ltima columna, la distribucin marginal de la
estacionalidad de los caudales mximos.
La distribucin condicional ser expresin de las frecuencias correspondientes a una
variable supuesto el cumplimiento de una clase de la segunda:
Ec. 62. Distribucin condicional
f ( y j xi ) =
f ( xi , y j )
f ( xi )
Clculo
=0,21/0,31
=0,03/0,31
=0,03/0,31
=0,03/0,31
3.3.2
Comparacin de cuantiles
60
Cuantil
(%)
c0
c5
Pluvimetro A (mm)
12
17
Pluvimetro B (mm)
23
23
c10
19
23
c15
21
23
40
c20
22
23
35
c25
22
25
c30
23
26
c35
23
26
c40
25
27
c45
26
28
c50
26
28
c55
27
28
c60
28
29
c65
29
30
c70
32
31
c75
33
32
c80
34
34
c85
34
35
c90
35
36
c95
36
38
c100
38
39
Comparacin de cuantiles
Pluvimetro B
45
30
25
20
15
10
10
15
20
25
30
35
40
45
Pluvimetro A
Si los puntos se alinean sobre la recta x=y, se puede deducir que las dos series siguen
idntica funcin de distribucin. Si el alineamiento sigue otra recta cualquiera, se
deduce la existencia de una funcin de distribucin similar, pero con distintos
parmetros estadsticos. En otros casos expresar la relacin no lineal entre las
distribuciones de ambas series.
3.3.3
Diagrama de dispersin
61
Diagrama de dispersin
45
Pluvimetro B (mm)
40
35
30
25
20
15
10
10
15
20
25
30
35
40
45
Pluvimetro A (mm)
Con carcter general, las correlaciones entre variables pueden ser positivas, negativas o
inexistentes. Dos variables estn positivamente correlacionadas cuando a los valores
altos de una corresponden valores altos en la segunda, y a los valores bajos de una, los
valores bajos de la segunda. Cuando la correlacin es negativa, a los valores altos de
una, corresponden los valores bajos en la otra. Por ltimo, las variables no estarn
correlacionadas cuando no se pueden estimar tendencias como las anteriores.
Los diagramas de dispersin se pueden utilizar de mltiples maneras para ver diferentes
correlaciones con diferentes variables. En el siguiente ejemplo se muestran las
dispersiones entre distintas series de tres en tres, lo que permite comparar las distintas
correlaciones.
3.3.4
62
rxy =
( x i m x ) ( yi m y )
n
i =1
x y
rRxy =
i =1
Rx Ry
1941
1942
Rangos en el
pluvimetro A (mm)
25,0
5,0
1943
7,0
1944
12,0
1945
8,5
Rangos en el
pluvimetro B (mm)
Ao
Rangos en el
pluvimetro A (mm)
Rangos en el
pluvimetro B (mm)
29,0 1959
18,5 1960
27,0 1961
28,5
24,0
25,5
4,5
26,0
4,5
18,5 1962
25,5 1963
17,0
4,5
32,5
28,0
28,5
12,5
16,0
10,5
20,5
18,5
19,0
22,0
1946
6,0
1947
23,0
1948
30,5
4,5 1964
30,5 1965
23,5 1966
1949
10,0
14,5 1967
63
Ao
Rangos en el
pluvimetro A (mm)
Rangos en el
pluvimetro B (mm)
1950
1951
3,0
8,5
1952
36,0
1953
4,0
1954
2,0
1955
1,0
1956
27,0
1957
11,0
1958
20,5
Ao
Rangos en el
pluvimetro A (mm)
Rangos en el
pluvimetro B (mm)
14,5 1968
18,5 1969
32,5 1970
22,0
34,0
4,5
34,0
13,0
4,5
18,5 1971
10,5 1972
30,5
30,5
18,0
18,5
9,0 1973
35,5 1974
32,5
23,5
35,0
35,5
4,5 1975
32,5 1976
15,0
4,5
14,0
12,5
coeficiente de autocorrelacin
0,80
0,60
0,40
0,20
0,00
-0,20
-0,40
0
10
11
12
13
14
m eses
3.3.5
El mtodo de las dobles acumulaciones es una tcnica sencilla cuyo objetivo es valorar
la consistencia de una serie temporal en funcin de otra serie de referencia. Para su
aplicacin se toman las dos series de datos durante el periodo comn de registro,
comparndose en un diagrama x, y sus series acumuladas. Si la relacin entre las dos
series se ha mantenido estable, es decir, a los incrementos de una corresponden los
proporcionales en la de referencia, la representacin mostrar una tendencia lineal. En
caso contrario, la presencia de quiebros y saltos indica cambios en la relacin entre las
series de datos.
64
Ao
1941
1942
1943
1944
1945
1946
1947
1948
1949
1950
1951
1952
1953
1954
1955
1956
1957
1958
Estacin
pluviomtrica
A
(mm)
Serie
acumulada
estacin A
(mm)
36
25
26
28
27
26
34
39
27
22
27
43
23
20
22
33
27
27
36
62
87
115
142
168
202
240
268
290
317
360
384
403
425
458
485
513
Serie
Serie
pluviomacumulada
trica
de (mm)
referencia
(mm)
34
28
32
28
31
23
35
30
27
27
28
36
28
25
24
39
23
36
34
62
94
122
153
176
211
241
268
295
323
359
387
412
436
475
498
534
Ao
Estacin
pluviomtrica
A
(mm)
Serie
acumulada
estacin A
(mm)
34
29
32
26
35
34
25
27
27
28
36
23
34
26
35
36
25
24
546
575
607
633
667
701
726
754
780
808
844
867
901
926
961
997
1021
1045
1959
1960
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
Serie
Serie
pluviomacumulada
trica
de (mm)
referencia
(mm)
31
23
23
23
33
26
25
28
29
23
37
23
35
28
30
39
23
26
565
588
611
634
667
693
718
746
775
798
835
858
893
921
951
990
1013
1039
1000
800
600
400
200
0
0
200
400
600
800
1000
1200
65
1200
1000
1000
800
800
600
600
400
400
200
200
0
0
200
400
600
800
1000
1200
200
400
600
800
1000
1200
yi =
j: j i
j: j i
y est _ i = b xi
i = y i b xi
-
66
90
80
70
60
50
40
30
20
10
1940
1942
1944
1946
1948
1950
1952
1954
1956
1958
1960
1962
1964
1966
1968
1970
1972
1974
1976
1978
Pc =
c
P
r r
67
3.4
3.4.1
68
lineal : y = at + b
polinmica : y = a + bt + ct 2
exp onencial : y = ae bt
potencial : y = at b
log stica : y =
a
1 + e b t
yi =
(x
j: j i
yi =
j : j i
(x
69
Las medias mviles se calculan utilizando los datos adyacentes a uno dado con una
ponderacin adecuada. Siendo m el orden de la media mvil y utilizando como ndice i,
con recorrido total de m valores, distribuidos, mitad y mitad, entre anteriores y
posteriores, la estimacin centrada de la media mvil es:
Ec. 68. Medias mviles
yi =
i
j(i ,i + k 1)
yi = i xi
i =1
Los pesos asociados a los valores intervinientes en una media mvil suelen ser
decrecientes conforme aumenta la distancia al punto central o iguales a la inversa del
total de valores utilizados, que es el caso de la media aritmtica. Por otro lado, a medida
que el orden de la media mvil es mayor, ms suavizada ser la curva finalmente
obtenida y mayor ser la componente de fluctuacin cclica filtrada. Esto puede ser
interesante si lo que se intenta es filtrar conjuntamente el ciclo y la componente de
tendencia.
Al no tener los ciclos una frecuencia fija se ha de trabajar con datos anuales, medias
anuales o medias mviles sobre un ao completo, 12 meses que filtren el efecto
estacional, o mltiplos enteros de ese ciclo bajo la hiptesis de que los residuos no
tendrn componentes con autocorrelacin y que la media de varios datos eliminar las
fluctuaciones aleatorias. Por ejemplo, se pueden utilizar medias calculadas desde el
inicio del ciclo hidrolgico durante cada doce meses.
70
350
300
250
200
150
100
50
oc
t -8
0
oc
t -8
1
oc
t -8
2
oc
t -8
3
oc
t -8
4
oc
t -8
5
oc
t -8
6
oc
t -8
7
oc
t -8
8
oc
t -8
9
oc
t -9
0
oc
t -9
1
oc
t -9
2
oc
t -9
3
oc
t -9
4
oc
t -9
5
oc
t -9
6
oc
t -9
7
oc
t -9
8
oc
t -9
9
oc
t -0
0
oc
t -0
1
Figura 28. Serie de precipitaciones con valores medios anuales y media mvil de 12 meses.
En el siguiente paso aparecen las variaciones estacionales de cada ao. Esta fluctuacin
es regular y se da como consecuencia del giro de la Tierra alrededor del Sol, as como el
ciclo diario aparece como efecto de la rotacin terrestre. Estas componentes se
identifican de distintas maneras y aparecern en los residuos que queden del filtrado de
la informacin anterior. La forma en que aparece esta estacionalidad es variable,
dependiendo de las condiciones hidrolgicas. Por ejemplo, los caudales o series
hidrolgicas agregadas (Figura 30) de grandes cuencas dan un ciclo anual bien definido
por la agregacin de factores implicados. Si se trabaja con muestras individualizadas
(Figura 29), la sensibilidad a condiciones particulares con eventos extremos y la
aleatoriedad es mayor, por lo que podra deducirse un ciclo estacional menos definido.
200,0
150,0
100,0
50,0
0,0
0
100
200
300
400
500
600
700
-50,0
-100,0
-150,0
OCT
NOV
DIC
ENE
FEB
M AR
ABR
M AY
JUN
JULIO
AGO
SEP
71
y = Aseno(2 f t + )
Tratadas las componentes de tendencia, ciclo y estacin, queda un trmino residual de
que como aleatorio, con una variabilidad que obedece a causas desconocidas o
incontrolables. Existen varias posibilidades para descomponer una serie temporal en
cada uno de los trminos anteriores y obtener el residuo. Son clsicos los modelos
aditivos, multiplicativos o mixtos. Siendo xi el dato original, ti el correspondiente a la
tendencia, ci el del ciclo plurianual, ei el estacional y ri el residuo final, la expresin de
estos modelos es la siguiente:
Ec. 70. Modelo aditivo de descomposicin
xi = ti + ci + ei + ri
Ec. 71. Modelo multiplicativo de descomposicin
xi = ti ci ei ri
Para valorar la eleccin entre uno y otro modelo hay que tener en cuenta la interaccin
impuesta entre los trminos de las expresiones anteriores. En el modelo aditivo no hay
interaccin, mientras que en el modelo multiplicativo hay una relacin proporcional
entre los trminos.
Un procedimiento de descomposicin basado en la utilizacin del modelo multiplicativo
es el conocido como de Macauley. Se resume en los siguientes puntos para valores
mensuales:
1. Estimacin de una tendencia por ajuste lineal a la serie completa.
72
Tendencia
50.00
50.00
5.00
q8005
Componente cclica
q8005
Lineal (q8005)
45.00
45.00
4.50
40.00
40.00
4.00
35.00
35.00
3.50
30.00
30.00
3.00
25.00
2.50
20.00
20.00
2.00
15.00
15.00
1.50
10.00
10.00
1.00
5.00
5.00
0.50
0.00
0.00
0.00
25.00
y = -0.0085x + 10.252
2
R = 0.1359
4. Clculo del ratio entre el valor real de cada mes y el valor de la media mvil. La
componente estacional se obtiene como el promedio de estos ratios
correspondientes a cada mes; es decir, seleccionando los ratios de cada mes y
calculando su media.
Estacionalidad
Ratio ValorActual/MediaMvil
1.20
3.50
Ratio ValorActual/MediaMvil
3.00
1.00
2.50
0.80
2.00
0.60
1.50
0.40
1.00
0.20
0.50
0.00
Oct
0.00
Nov
Dic
Ene
Feb
Mar
Abr
May
Jun
Jul
Ago
Sep
zi , j =
yi , j i
73
3.4.2
3.5
CONTEXTO ESPACIAL
74
4.1
Cada uno de los sucesos probabilsticos que hemos definido en el captulo anterior se
representa matemticamente mediante una variable, que se denomina aleatoria porque
sus valores vienen determinados por el azar. Es decir, una variable aleatoria es la
representacin matemtica de los posibles resultados de un determinado experimento
probabilstico.
Cada vez que se realice el experimento, la variable adquirir un determinado valor que
ser el resultado del mismo y al que corresponder una determinada probabilidad.
4.2
4.2.1
Una variable aleatoria se denomina discreta cuando el nmero de valores que se pueden
obtener como resultado del experimento aleatorio asociado a la misma es finito1. Un
ejemplo tpico de variable aleatoria discreta es la asociada al resultado obtenido en el
lanzamiento de un dado. Dicha variable solo puede tomar seis valores diferentes, los
correspondientes a las seis caras del dado.
Una variable aleatoria ser continua cuando tenga un nmero infinito de valores
posibles, es decir, el nmero de resultados posibles de su experimento aleatorio
asociado es infinito. Las variables aleatorias habitualmente empleadas en hidrologa son
de tipo continuo. Por ejemplo, la variable aleatoria asociada a la medida del caudal en
un punto determinado de un ro es continua puesto que existe un nmero infinito de
resultados posibles (cualquier nmero real positivo).
4.2.2
Estrictamente tambin sera una variable aleatoria discreta aquella que tiene un nmero infinito de
resultados posibles si ese infinito es numerable.
75
4.3
Funcin de distribucin
F ( xo ) = P( x xo )
76
P( a < x b) = F (b) F (a )
Demostracin:
Teniendo en cuenta que los sucesos ax y a<xb son mutuamente excluyentes,
P( x a) = F (a)
4.3.2
Funcin de probabilidad
p ( xo ) = P( x = xo )
Esta definicin es vlida para una variable aleatoria discreta, para la cual solo son
posibles determinados valores aislados. En el caso de una variable aleatoria continua se
define la funcin de probabilidad en el punto xo como la que, multiplicada por dx, nos
da la probabilidad de que la variable tome un valor en un entorno diferencial del valor xo
(entre xo y xo+d x). Por este motivo, a la funcin de probabilidad en el caso de variable
aleatoria continua se la denomina funcin de densidad de probabilidad (f(xo)).
Ec. 76. Funcin de densidad de probabilidad para una variable aleatoria unidimensional
f ( xo ) = P( xo x < x o + dx )
77
F ( +) F ( ) =
f ( x)dx = 1
F ( +) F ( ) = f ( x ) = 1
F ( xo ) = P( x xo ) =
p( x )
i
xi xo
F ( xo ) = P( x xo ) = f ( x )dx
xo
o lo que es lo mismo:
f (x ) =
dF (x )
dx
78
xT = + xT
La desviacin respecto a la media es expresable como la desviacin tpica multiplicada
por un determinado factor (factor de frecuencia), que ser funcin del periodo de
retorno y del tipo de distribucin que siga la poblacin.
xT = K T
Por tanto:
Ec. 80 Expresin del cuantil en funcin del factor de frecuencia
xT = + K T
La ecuacin del factor de frecuencia fue propuesta por Chow en 1951 y se aplica a
muchas funciones de distribucin empleadas en hidrologa. Para cada funcin de
distribucin se puede calcular el factor de frecuencia en funcin del periodo de retorno,
bien expresndolo como una expresin matemtica, bien mediante una tabla. Una vez
que se conoce el factor de frecuencia, se estima el valor de la media y la desviacin
tpica a partir de la muestra y se aplica la expresin anterior.
4.3.4
s = x+ y
79
s = x y
El experimento aleatorio asociado a la variable s es el conjunto de los experimentos
asociados a las variables x e y, siendo el valor del experimento asociado a s el producto
de los resultados obtenidos para los dos experimentos parciales.
4.3.5
G ( y o ) = P ( y y o ) = P[h( x) y o ] = P ( x A)
siendo A el conjunto de valores de x para los cuales h(x)=yo.
En el caso de que la funcin h(x) sea montona creciente la relacin anterior se puede
concretar algo ms. El conjunto A de valores x para los cuales h(x)yo, sern:
x xo
siendo:
x o = h 1 ( y o )
Por lo tanto:
Ec. 84 Relacin entre funciones de distribucin: Transformacin montona creciente
G ( y o ) = P [x x o ] = F ( x o )
por lo que las funciones de distribucin de x e y son idnticas.
En el caso de que la funcin h(x) sea montona decreciente se tendr:
80
G ( y o ) = P ( x x o ) = 1 P ( x xo ) = 1 F ( x o )
En cuanto a la funcin de probabilidad, la probabilidad de obtener un valor de yo
para la variable y ser igual a la probabilidad de obtener uno de los valores de x para los
cuales h(xo)=yo.
Ec. 86 Relacin entre las funciones de probabilidad de una variable y su transformada
P( y o ) = P( y = y o ) =
P( x )
i
y o = h ( xi )
dG ( y )
dF ( x ) dx
dx
= g ( y) =
= f ( x)
dy
dx dy
dy
f ( x) = g ( y )h '
si la funcin h(x) es montona creciente. Y:
Ec. 88 Relacin entre las funciones de densidad. Transformacin montona decreciente
dG ( y )
dF ( x ) dx
dx
= g ( y) =
= f ( x)
dy
dx dy
dy
f ( x) = g ( y )h '
si la funcin h(x) es montona decreciente.
4.4
4.4.1
81
P ( x o ) = P [x = x o = ( x o , y o ) ]
Al igual que en el caso univariado se debe verificar:
Ec. 90 Propiedades de la funcin de probabilidad bivariada
P( xo ) 0
P( x ) = 1
i
La probabilidad de cualquier valor de la variable debe ser mayor o igual que cero y la
suma de las probabilidades de todos los posibles valores de la variable debe ser igual a
uno, como consecuencia de la definicin de probabilidad.
Si la variable es continua, se emplear la funcin de densidad de probabilidad
conjunta, que se define como la que multiplicada por dxdy da la probabilidad de que la
variable adopte un valor en un entorno diferencial de xo e yo.
Es decir:
x o = ( x o , y o ) x x o + dx = ( x o + dx, y o + dy )
Como antes, se verifica:
Ec. 91 Propiedades de la funcin de densidad de probabilidad bivariada
f ( x ) = f ( x, y ) 0
f ( x, y )dxdy = 1
F ( x o ) = F [x ( x o , y o ) ] =
xo
yo
82
f ( x, y ) dxdy
4.4.2
P ( x ) = P ( x, y )
y
P ( y ) = P ( x, y )
x
f ( x, y )dy
f ( x) =
f ( x, y)dx
f ( y) =
xo
F ( x o ) = P ( x xo ) =
f ( x )dx =
yo
yo
F ( y o ) = P( y y o ) =
f ( x, y)dxdy
f ( y ) dy =
f ( x, y )dxdy
83
4.4.3
F ( x, y ) = F ( x )F ( y )
P ( x, y ) =
donde:
84
P ( x, y o )
P( yo )
P ( y o ) = P ( x, y o )
x
Se divide por P(y) para que la suma de todas las probabilidades de los valores de x sea
igual a uno, condicin que debe cumplir cualquier funcin de probabilidad.
P ( x, y
P ( x, y
o
)=
P( yo )
)
=
P( y o )
=1
P( y o )
f ( x, y o ) =
f ( x, y o )
f ( yo )
con:
f ( x, y )dx
f ( yo ) =
f ( x / y o ) dx =
f ( yo )
1
=1
f ( x, y o )dx =
f ( y o )
f ( yo )
F ( x / yo ) =
f ( x, y o )
dx
f ( yo )
F ( x / y) =
F ( x )F ( y )
= F ( x)
F ( y)
85
4.5
Esperanza matemtica
4.5.1.1 Definicin
Se denomina esperanza matemtica de una variable aleatoria al valor medio ponderado
por su probabilidad:
Ec. 101. Esperanza de una variable continua
+
E ( x) =
x f ( x)dx
E ( x) = x f ( x )
E [g ( x ) ] =
g ( x) f ( x)dx
E [g ( x)] = g ( x) f ( x)
4.5.1.2 Propiedades
1. La esperanza de una constante es la constante
Ec. 104. Esperanza de una constante
+
E (b) = b f ( x ) = b f ( x) = b1 = b
86
y = a x + b
+
E ( y ) = E ( a x + b) = (a x + b) f ( y ) = a x f ( x) + b f ( x) = aE ( x ) + b
y = x1 + .. + xn
+
E ( y ) = E ( x1 + .. + xn ) = ( x1 + .. + xn ) p ( x1 ,..., xn ) = x1 p( x1 ) + .. xn p ( xn )
= E ( x1 ) + .. + E ( xn )
y = x1 .. x n
E ( y ) = E ( x1 .. x n ) = E ( x1 )..E ( x n )
4.5.2
Varianza
4.5.2.1 Definicin
La medida de la dispersin de la poblacin conocidas la funcin de probabilidad y el
dominio de la variable viene dada por la esperanza de las desviaciones cuadrticas sobre
la media:
Ec. 108. Varianza de la poblacin
V ( x) = E ( x E ( x)) 2 = E ( x 2 ) (E ( x) )
4.5.2.2 Propiedades
1. La varianza de una constante es nula
Ec. 109. Varianza de una constante
V (b) = E (b E (b)) 2 = E (b b) 2
87
y = a x + b
y = x1 + .. + x n
V ( y ) = V ( x1 + .. + x n ) = V ( x1 ) + .. + V ( x n )
4.5.3
M n ( x ) = E ( x E ( x)) n = ( x E ( x)) n p ( x )
4.5.4
i , j = x i y j p ( x, y )
++
i, j =
x y
i
f ( x, y )dxdy
M i , j = E ( x 10 ) i ( y 01 ) j = ( x 10 ) i ( y 01 ) j p ( x, y )
+ +
M i , j = E ( x 10 ) ( y 01 )
i
) = (x
88
10
) i ( y 01 ) j f ( x, y )dxdy
M 2, 0 = 20 102
2
M 0, 2 = 02 01
M 1,1 = 11 10 01
89
90
5.1
f ( x) =
1 x 2
2
2
1
P(Y y ) = F ( y ) =
e
2
dx
Media
Desviacin tpica
Sesgo
Curtosis
91
-4
-3
-2
-1
1,00
0,95
0,90
0,85
0,80
0,75
0,70
0,65
0,60
0,55
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
Funcin de distribucin
Funcin de distribucin
1,00
0,95
0,90
0,85
0,80
0,75
0,70
0,65
0,60
0,55
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
-7
-6
-5
-4
-3
-2
-1
Variable
Desviacin tpica= 1
Desviacin tpica= 2
0
Variable
-4
-3
-2
-1
Funcin de densidad
Funcin de densidad
1,00
0,95
0,90
0,85
0,80
0,75
0,70
0,65
0,60
0,55
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
0
-7
-6
-5
-4
-3
-2
1,00
0,95
0,90
0,85
0,80
0,75
0,70
0,65
0,60
0,55
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
-1
0
Desviacin tpica= 1
Desviacin tpica= 2
Variable
Variable
z=
f ( z) =
1
2
1 2
z
2
F ( z) =
x
1
e 2 dx
2
1
2
3
4
B = 1 + 0,196854 z + 0,115194 z + 0,000344 z + 0,019527 z
2
z < 0 P (Z z ) = F ( z ) = B
z 0 P (Z z ) = F ( z ) = 1 B
92
0,0013
0,0026
0,0047
0,0082
0,0139
0,0228
0,0359
0,0548
0,0808
0,1151
0,1587
0,2119
0,2743
0,3446
0,4207
0,0
0,5000
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2,4
2,6
2,8
3,0
0,5793
0,6554
0,7257
0,7881
0,8413
0,8849
0,9192
0,9452
0,9641
0,9772
0,9861
0,9918
0,9953
0,9974
0,9987
La distribucin normal se utiliza en hidrologa con variables de las que cabe esperar
simetra alrededor de la media. Es una funcin de distribucin muy utilizada para
multitud de procesos. En la siguiente figura se muestra un ejemplo con el ajuste de
precipitaciones totales anuales de una estacin pluviomtrica.
93
Papel normal:
Para poder dibujar una funcin de distribucin normal como una recta, se transforman
adecuadamente los valores del eje de abscisas, probabilidad. Se tendran que despejar los
valores de z en funcin de la probabilidad, pero debido a la imposibilidad de manejar una
expresin explcita de la integral de la distribucin, se manejan expresiones aproximadas.
A continuacin se muestran las expresiones utilizadas para transformar las abscisas en
funcin de la probabilidad de excedencia, p, y de una variable auxiliar w (Chow, 1994).
p = 1 F ( z) =
1
T
1
0 < p 0,5 w = ln 2
p
p > 0,5 w = ln
2
(1 p )
5.1.1
z = w
1
Este teorema establece (Pea, 2000) que si x1, ..., xn son variables aleatorias
independientes con media i, desviacin tpica i y distribucin cualquiera, sin ser
necesariamente la misma, entonces, si n crece, la variable Y= x1+ ...+ xn tiende a una
funcin de distribucin N(,2). La variable Y se tipifica y quedara ZN(0,1):
Ec. 120. Variable tipificada
Z=
94
Se dice que una variable aleatoria x sigue una funcin de distribucin logartmica
normal si sus logaritmos siguen una distribucin normal. La variable x tiene que ser
estrictamente positiva. La normal, al contrario, admite un dominio de valores positivo y
negativo. Utilizando los logaritmos neperianos y los parmetros y , media y
desviacin tpica de los logaritmos de la variable transformada y, la expresin de la
funcin de densidad es la que sigue.
Ec. 121. Densidad logartmico normal
x LN y = ln x N ( , )
1 ln x 2
2
1
f ( x) =
e
x 2
x>0
Media
Desviacin tpica
e(
+ 2
) (e
) e 1
2
Sesgo
2
+2 e
Curtosis
2
95
2,40
2,20
2,00
Funcin de densidad
1,80
1,60
1,40
1,20
1,00
0,80
0,60
0,40
0,20
0,00
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
5,5
1,00
0,95
0,90
0,85
0,80
0,75
0,70
0,65
0,60
0,55
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
6,0
2,40
Desviacin tpica de la muestra= 0,2
2,20
Funcin de distribucin
2,00
Funcin de densidad
1,80
1,60
1,40
1,20
1,00
0,80
0,60
0,40
0,20
0,00
0,0
0,5
1,0
1,5
2,0
2,5
3,0
Variable
Variable
3,5
4,0
4,5
5,0
5,5
6,0
1,00
0,95
0,90
0,85
0,80
0,75
0,70
0,65
0,60
0,55
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
Variable
Variable
Esta distribucin ampla el campo de aplicacin del teorema central del lmite al caso de
variables generadas como el producto de n variables aleatorias independientes, x1, ..., xn,
Y= x1 ... xn. Entonces, el logaritmo de Y seguir una poblacin normal.
En hidrologa se utiliza tambin una funcin de distribucin logartmica normal de tres
parmetros (NERC, 1975). Al tomar logaritmos se puede aadir un lmite inferior que
pasa a denominarse factor de localizacin.
Ec. 122. Planteamiento de la funcin logartmica normal de tres parmetros
z = ln( x xo )
Quedando una funcin de densidad:
Ec. 123. Densidad logartmico normal de tres parmetros
1 ln ( x x )
o
z
z
2
1
f ( x) =
e
( x xo ) z 2
5.1.3
Si x1, ..., xn son variables aleatorias independientes, con distribucin N(0,1), la variable
aleatoria suma de los cuadrados de las n variables sigue la distribucin chi-cuadrado de
96
xi N (0,1)
n 1
2
y
2
e
f ( y) = n
2 2 n
( 2)
y>0
Media
Desviacin tpica
Sesgo
2n
Curtosis
3 + 12
Funcinde densidad
0,20
Grados de libertad 10
Grados de libertad 30
0,15
0,10
0,05
0,00
0,0
5,0
10,0
15,0
20,0
25,0
30,0
35,0
40,0
97
1,0000
0,9000
0,8000
Probabilidad
0,7000
Grados de libertad 1
2
3
4
5
6
7
8
9
10
15
20
30
40
50
60
70
80
90
100
0,6000
0,5000
0,4000
0,3000
0,2000
0,1000
0,0000
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
Variable aleatoria
( f ri f ti )2
i =1
f ti
5.1.4
n21
Distribucin t de Student
Dadas n+1 variables aleatorias independientes, x, x1, ..., xn con distribucin idntica
N(0,), Gosset plante la siguiente variable aleatoria:
98
tn =
1 n 2
xi
n i =1
Esta variable aleatoria depende del nmero de grados de libertad, n del denominador.
Tiene la ventaja de que la distribucin no depende de la varianza comn 2, adems de
ser simtrica, a diferencia de la chi-cuadrado.
Ec. 128. Densidad t de Student
n +1
1
2
f ( y) =
n n
2
< y <
Media
( )
Desviacin tpica
)1 + y
Sesgo
Curtosis
( n +1)
3+ 6
n4
n>4
n2
n>2
Grados de libertad 5
Funcinde densidad
0,35
Grados de libertad 10
Grados de libertad 100
0,30
0,25
0,20
0,15
0,10
0,05
0,00
-9 -8 -7 -6 -5 -4 -3 -2 -1 0
5.1.5
Distribucin F de Fisher
Dadas n1+n2 variables aleatorias independientes, x1, ..., xn1 y y1, ..., yn2 con distribucin
idntica N(0,), se plantea la siguiente variable aleatoria:
99
Fn1 ,n2
1 n1 2
xi
n1 i =1
=
1 n2 2
y j
n 2 j =1
n + n2
1
n1 n2 n1
n1 + n2
1
2
f ( x) =
n12 n22 x 2 (n2 + n1 x ) 2
n n
1 2
2 2
x>0
Esta variable aleatoria depende del nmero de grados de libertad del numerador y
denominador. Su funcin de distribucin no depende de , aunque s de los grados de
libertad mencionados.
Media
n2
n2 2
n2 > 2
Desviacin tpica
2n (n1 + n 2 2)
2
2
Sesgo
Curtosis
n1 (n 2 2 ) (n 2 4)
2
n2 > 4
5.2
PROCESO DE BERNOULLI
El proceso de Bernoulli es aquel que cumple las siguientes caractersticas (Pea, 2000):
1. Para cualquier suceso solo existen dos posibles resultados, verdadero o falso,
aceptable o defectuoso, llueve o no llueve.
2. La proporcin de elementos de cada categora (V o F) en la poblacin se mantiene
constante.
3. Las observaciones son independientes unas de otras y cada realizacin no contiene
informacin sobre la siguiente.
Se asume que son procesos de Bernoulli aquellos en los que se dan observaciones con
reemplazamiento en una poblacin finita o infinita que cumpla las condiciones
anteriores, estabilidad e independencia en las observaciones. En este proceso se pueden
definir diferentes variables aleatorias de inters, con sus funciones de distribucin
asociadas.
100
5.2.1
Distribucin de Bernoulli
La variable aleatoria es en este caso la definida por los posibles resultados, verdadero o
falso, 0 1, llueve o no llueve. Cada una de las dos posibilidades tiene una probabilidad
de ocurrencia constante. Si el resultado es aceptable, la probabilidad de ocurrencia es el
porcentaje fijo de sucesos aceptables o verdaderos, q. El caso contrario se define por el
porcentaje asociado, p, igual al complementario del anterior, 1-q. Considerando la
variable aleatoria definida con 0 para el caso del suceso aceptable y con 1 para el falso o
rechazable, la funcin de probabilidad puede expresarse:
Ec. 131. Distribucin de Bernoulli
P( x) = p x q 1 x
x = 0,1
Esta funcin de distribucin tienen los estadsticos asociados a la poblacin:
Media Desviacin tpica
pq
Sesgo
Curtosis
q p
pq
CA( X ) =
=
=
E (x E (x ))
] = ((x p ) P( x )) =
3
(0 p )3 q + (1 p )3 p = p3 + p 4 + p 3 p 2 + 3 p3 p 4
pq
p 1 3 p + 2 p 2
5.2.2
pq
pq
p 3 p 2 + 2 p 3
) = p(1 p )( 1 2 p ) = pq(q p ) = (q p )
pq
pq
pq
pq
Distribucin Binomial
En el mismo proceso (Pea, 2000) puede definirse otra variable aleatoria, distinta de la
anterior, que represente el nmero de elementos rechazables (valor 1 y con probabilidad
de ocurrencia p) al observar n. Entonces, la nueva variable aleatoria puede tomar
valores desde 0, es decir, todas las observaciones de n son aceptables, hasta n, todas
rechazables. La probabilidad de que dadas las n observaciones, r sean rechazables,
supuesta la independencia entre las observaciones, ser:
Ec. 132. Probabilidad de obtener r rechazables en un orden determinado
P( x = r ) = p r q n r
101
n
P( x = r ) = p r q n r
r
Con los estadsticos asociados que se muestran en la siguiente tabla:
Media
Desviacin tpica
n p
Sesgo
Curtosis
q p
n pq
3+
n pq
1 6 pq
n pq
E ( X ) = E ( X 1 + X 2 + ... + X n )
E ( X ) = n p
E ( X i ) = 0q + 1 p = p
V ( X ) = E ( X 1 + X 2 + ... + X n )
V ( X i ) = E ( X i E ( X i ))
V ( X ) = n pq
= (0 p ) q + (1 p ) p = p q + q p = q p
2
p= 0,1
0,12
0,14
0,12
0,1
Probabilidad
Probabilidad
0,1
0,08
0,06
0,04
0,08
0,06
0,04
0
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
0,02
0
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
0,02
p= 0,5
0,09
0,09
0,08
0,08
0,07
0,07
0,06
0,06
Probabilidad
Probabilidad
p= 0,4
0,05
0,04
0,03
0,05
0,04
0,03
0,02
0,02
0,01
0,01
0
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
102
5.2.3
Distribucin Geomtrica
P( x = n) = pq n 1
Media
Desviacin tpica
q
p
Sesgo
1+ q
Curtosis
3+
p 2 + 6q
q
1
p
103
p= 0,1
p= 0,4
0,12
0,45
0,40
0,10
Probabilidad
Probabilidad
0,35
0,08
0,06
0,04
0,30
0,25
0,20
0,15
0,10
0,02
0,05
36
40
44
48
40
44
48
32
28
24
36
Nmero de elementos
20
16
12
48
44
40
36
32
28
24
20
16
12
0,00
0
0,00
Nmero de elementos
p= 0,5
p= 0,7
0,60
0,80
0,70
0,50
Probabilidad
Probabilidad
0,60
0,40
0,30
0,20
0,50
0,40
0,30
0,20
0,10
0,10
Nmero de elementos
32
28
24
20
16
12
48
44
40
36
32
28
24
20
16
12
0,00
0
0,00
Nmero de elementos
P( x = 5) = pq 51 = 0,20,8 4 = 0,08
5.3
PROCESO DE POISSON
Todas las variables del proceso anterior son discretas. El proceso de Poisson
corresponde a la observacin de sucesos puntuales sobre un soporte continuo, tiempo,
longitud, rea, etc. (Pea, 2000). Por ejemplo, se podran considerar as la ocurrencia de
tormentas en el tiempo. Este proceso se caracteriza por:
1. El nmero medio de sucesos es constante por unidad de observacin. Es decir, el
nmero de tormentas por unidad de tiempo es constante. La proporcin se
representa por en la formulacin que sigue.
2. Los sucesos aparecen aleatoriamente de forma independiente y un nmero de
tormentas no condiciona la aparicin de otras.
104
5.3.1
Distribucin de Poisson
P( x = r ) =
r
r!
Demostracin:
r
n
P( x = r ) = 1
n
r n
nr
n
lim 1
n r
n n
nr
1
n
r
n( n 1)...(n r + 1)
r
n(n 1)...(n r + 1) n
= lim
= lim
r
1 n =
r! n
r! n
(n ) r
nr
1
n
r
r!
Desviacin tpica
Sesgo
Curtosis
3+
105
landa= 2
0,70
0,30
0,60
0,25
45
50
50
0,20
45
landa= 10
40
landa= 5
35
Nmero de elementos
40
Nmero de elementos
35
30
50
45
40
35
30
25
20
15
0,00
10
0,05
0,00
0
0,10
25
0,10
20
0,20
0,15
15
0,30
0,20
10
0,40
0,50
Probabilidad
Probabilidad
landa= 0,5
0,14
0,18
0,12
0,14
Probabilidad
Probabilidad
0,16
0,12
0,10
0,08
0,06
0,10
0,08
0,06
0,04
0,04
0,02
0,02
Nmero de elementos
30
25
20
15
10
50
45
40
35
30
25
20
15
10
0,00
0
0,00
Nmero de elementos
P( x = r ) =
= 20
r = 10
e
r!
2010 20
e = 0,006
P ( x = 10) =
10!
e
r!
20
10 5 10
=
= 10
e = 0,038
P( x = 5) =
2
5!
r =5
P( x = r ) =
106
5.3.2
Distribucin exponencial
En este caso la variable aleatoria se define como el intervalo de tiempo entre dos
ocurrencias consecutivas. En este caso ya se trata de una variable continua. Para hallar
la funcin de probabilidad de la variable continua tiempo se utiliza la anterior
distribucin de Poisson. Para ello, se considera que la probabilidad de tener un intervalo
de tiempo entre dos ocurrencias consecutivas de duracin mayor que t, es igual que la
probabilidad de que no tengamos ningn suceso en el intervalo t. La constante de
Poisson ser ahora t y r es 0, quedando:
Ec. 136. Distribucin exponencial
F (t ) = P(T t ) = 1 e t
Demostracin: utilizando la funcin de distribucin de Poisson,
Desviacin tpica
1/
Sesgo
Curtosis
0,60
2
f(x)
0,50
0,2
0,40
0,30
0,20
0,10
30
25
20
15
10
0,00
Tiempo
107
F ( x) = 1 e
x x0
Distribucin Gamma
f (t ) =
1
r t r 1 e t
(r 1)!
r>0
Demostracin:
r 1
F (t ) = 1 P( x > t ) = 1
x=0
f (t ) =
( t )x e t F (t ) = 1 r 1 ( t )x e t
x!
x =0
x!
1
F
=
r t r 1e t
t (r 1)!
Desviacin tpica
Sesgo
Curtosis
f (t ) =
1
t k 1e
( )
k
k >0
108
0,12
k=5;alfa=2
k=10;alfa=2
0,10
k=5;alfa=4
f(x)
0,08
0,06
0,04
0,02
0,00
0
10
15
20
25
30
35
40
45
50
5.3.4
f ( x) =
1
k 1
( x u ) e
k
(k )
( x u )
k >0
Los estadsticos en funcin de los parmetros de localizacin, escala y forma, se
muestran en la siguiente tabla:
Media
Desviacin tpica
u + k
Sesgo
Curtosis
-
2
k
5.3.5
109
f ( x) =
1
ln x u
x (k )
k 1
ln x u
Media
Desviacin tpica
Sesgo
68,71
35,04
3,53
1,80
0,15
1,70
Figura 47. Ajustes de una funcin log-Pearson III a lluvias mximas anuales
Media
Desviacin tpica
Sesgo
1525,33 3,17
354,11 0,11
0,02 -0,43
Figura 48. Ajustes de una funcin log-Pearson III a lluvias mximas anuales.
110
Media
Desviacin tpica
Sesgo
2569,58 3,40
428,20 0,08
-1,37 -1,94
Figura 49. Ajustes de una funcin log-Pearson III a lluvias mximas anuales
u + k
Desviacin tpica
Sesgo
Curtosis
2signo( )
k
Tabla 30. Estadsticos de los logaritmos en la distribucin log-Pearson III
5.4
111
G ( x) = P( X x)
La serie anterior puede estar representada por precipitaciones mensuales. Se divide la
serie total en subseries de longitud fija, k, para elegir el mximo o mnimo de cada una
de ellas. La longitud total de la serie es n y las longitudes parciales son k por lo que se
tiene un nmero n/k de mximos y mnimos.
Las funciones de distribucin de los mximos y mnimos se denotan por M(x) y m(x).
M ( x ) = P( X Mx x)
m( x) = P( X mn x)
Tanto el mximo y mnimo de cada subserie, son mximos o mnimos de todos los
valores de cada subserie, por lo que:
= 1 P (X i x) = 1 (1 G ( x ) )
F ( x) = e
k
1 k x u
recta
cncava
convexa
112
10000
10
25
50 100
5000 10000
9000
GEV2
8000
7000
mm
6000
GEV1
5000
4000
3000
GEV3
2000
1000
0
GEV1
densidad
0,0008
0,0006
0,0004
0,0002
0,0000
0
500
1000
1500
2000
2500
3000
3500
4000
4500
113
F ( x) = e
f ( x) =
x u
e
x u
x u e
u + 0,5772
1,14
6
Tabla 32. Estadsticos de la distribucin de Gumbel
G( y) = 1 e
= 1 e P( X Mx x) = P( X Mx y + ln( k )) = 1 e y ln( k
x = y + ln( k )
M ( x ) = G ( x) k
ey
= 1
k
x u
lim P( X Mx x) = e e = e e
k
114
periodo de retorno T
1
y
F ( x) = e e y = ln ln
F ( x) y = ln ln T
T 1
F ( x) = P( x < X T ) F ( x) = 1
y=
xu
F ( x) = e
k
1 k x u
1
xu
f ( x) = 1 k
k < 0, > 0, u +
1 1
k
k
1 k x u
115
F ( x) = e
f ( x) =
k
1 k x u
1
xu
1 k
1 1
k
k > 0, > 0, x u +
k
1 k x u
F ( x) = 1 e
x u 1k
k > 0, > 0, u x
en funcin de los parmetros de forma k, escala y lmite inferior u. Se supone que este
lmite mnimo tiene un valor positivo. Si se toma un valor nulo, queda la distribucin
Weibull de dos parmetros:
Ec. 147. Funcin de distribucin Weibull de dos parmetros
F ( x) = 1 e
x 1k
> 0, u x
116
10
25
50 100
200
400
380
360
340
320
300
280
260
240
220
200
180
160
140
120
100
80
60
40
20
0
500 1000
5000 10000
5.5
5.5.1
TCEV
La ley TCEV, Two Component Extreme Value, se plantea con la posibilidad de resolver
el problema de la condicin de separacin de sesgo (Ferrer, 1996). Este problema
consiste en que las desviaciones tpicas de los coeficientes de sesgo de los valores
observados son mayores que los correspondientes a las derivadas de la utilizacin de
modelos tradicionales. La ley TCEV depende de cuatro parmetros y su expresin
deriva de la consideracin de dos mecanismos generadores de las tormentas,
denominados bsico y extraordinario (Ferrer, 1996). Ambos se modelan con una
distribucin de Gumbel y suponiendo la independencia de procesos, la distribucin
TCEV queda como producto de dos funciones Gumbel y 4 parmetros.
Ec. 148. Funciones de distribucin TCEV
F ( x) = e
5.5.2
x u1
e 1
x u 2
e 2
117
F ( x) = e k [(1+
x e
x0
Esta funcin de distribucin es de fcil manejo por tener nicamente dos parmetros y
eleva los valores de los cuantiles de precipitacin mxima respecto a los dados por la
Gumbel gracias a la raz cuadrada del segundo trmino exponencial (Etoh, 1987).
118
119
6.1
120
xi = di + ei
La parte determinista es funcin de las caractersticas que extraigamos de la serie como
la media, la variabilidad de la muestra y los tipos de correlacin que mantenga la propia
serie consigo misma o con otras registradas en el entorno. La parte aleatoria tiene
asociada una funcin de distribucin, por ejemplo, una funcin uniforme, la normal,
logartmico normal, etc. Es decir, este diseo, vlido para completado y generacin de
series sintticas, ha de considerar las siguientes cuestiones (Fiering-Jackson, 1971):
a. Un valor anterior guarda o no informacin del siguiente o siguientes
valores?. Si es as cmo?. Es el inmediatamente anterior o es una serie de
valores anteriores?. Los modelos han de considerar la informacin
contenida en cuntos pasos anteriores?
b. Qu variables se pueden seleccionar con informacin sobre una dada?.
Podemos disear un modelo estocstico que permita prever, por ejemplo,
una serie de caudales con los registrados en otros puntos del territorio o con
series de precipitacin?. Se pueden aprovechar las caractersticas regionales
del fenmeno?.
Una serie temporal quedara caracterizada con el conocimiento de las funciones de
distribucin correspondientes a cada paso t en que se realiza y las relaciones entre ellas.
En cada paso, son posibles multitud de resultados con una distribucin de probabilidad
asociada. Con suficientes realizaciones a lo largo del tiempo, podramos manejar la
distribucin conjunta, la de dos variables consecutivas o la de cualquier subconjunto de
variables. En la prctica esta caracterizacin se simplifica a conocer el vector de las
medias correspondientes a cada instante, las varianzas y las covarianzas.
La estacionariedad hace referencia al mantenimiento de estas propiedades en el tiempo
y, en concreto, se denomina estacionariedad dbil cuando media y varianza se
mantienen constantes y las covarianzas solamente dependen del paso o intervalo de
tiempo considerado:
1. Media: (t)=
2. Desviacin tpica: (t)=
3. Covarianzas, (xt+k,xt)= k o si se prefiere en trminos del coeficiente de
autocorrelacin, k= k/ o.
Otro estadstico de la serie temporal es el coeficiente de sesgo, representativo de la falta
de simetra de las distribuciones hidrolgicas. Desde la perspectiva en que se estudian
aqu las series temporales, su influencia es importante para elegir el tipo de funcin de
distribucin o la transformacin necesaria en los datos. Se suele tener como referencia
por aplicacin del teorema central del lmite la funcin de distribucin normal o la
logartmico normal y cuando los sesgos son pronunciados, se recurre a funciones tipo
gamma como las expuestas en captulos anteriores.
En Fiering-Jackson (1971) se destaca el papel que tiene la persistencia de los datos
hidrolgicos en la seleccin del nmero de datos para estimar las propiedades
121
las
6.2
Pi , 4 =
P
P
1 P4
Pi ,1 + 4 Pi , 2 + 4 Pi , 3
3 P1
P2
P3
en la que el subndice i es indicativo del dato a rellenar en una estacin 4 a partir de los
datos contemporneos registrados en las estaciones 1, 2 y 3 y de las relaciones entre las
122
medias de las series registradas en cada uno de las cuatro estaciones; el inverso
distancia al cuadrado y aquellos mtodos que aprovechan superficies de interpolacin
representativas del dato en una regin, como las isoyetas para las precipitaciones; hasta
los mtodos de regresin simple y mltiple, que permiten la obtencin de los valores
incgnita en funcin del grado de asociacin entre series de datos.
6.2.1
Regresin simple
Trmino independiente
40
Pluvimetro B (mm)
Pendiente
yest = a x + b
35
30
25
20
15
Variable independiente
Variable dependiente
10
10
15
20
25
30
35
40
45
Pluvimetro A (mm)
Son tambin posibles otros mtodos de ajuste, como asignar valores medios de la
variable dependiente y a cada intervalo de la independiente x. Viene a ser una condicin
que determina una curva de ajuste discontinua, por escalones, pero con mejor
adaptacin a la nube de puntos. En todo caso, una vez realizado el proceso previo, se
pueden buscar polinomios de aproximacin que suavicen las discontinuidades.
123
Intervalo de
precipitaciones en el
pluvimetro A (mm)
Valor medio de la
precipitacin en el
pluvimetro B (mm)
x < 17
17 x < 20
20 x < 23
23 x < 26
26 x < 29
29 x < 32
32 x < 35
35 x
24,5
27,5
27,4
25,0
27,8
30,7
30,7
35,0
15
20
25
30
35
40
45
Pluvimetro A (mm)
(yi-yesti)
n
ECM = ( yi yesti )2
i =1
ECM
=0
a
ECM
=0
b
Pluvimetro B (mm)
40
yest = a x + b
35
30
25
20
15
10
10
15
20
25
30
35
40
Pluvimetro A (mm)
ECM = ( yi y esti ) 2
i =1
124
k (1, n )
ECM
=0
ak
45
Permitiendo obtener los parmetros ak de la funcin f(x). Las siguientes expresiones dan
la estimacin de los coeficientes a y b aplicando la condicin de mnimos cuadrados si
se adopta una relacin lineal entre x e y.
Ec. 152. Ajuste por mnimos cuadrados
n
i =1
i =1
yest = a x + b
= yi2 + (a xi + b ) 2 yi (a xi + b )
2
i =1
n
n
ECM
= (2(a xi + b )xi 2 yi xi ) = 2 a xi2 + b xi yi xi = 0
a
i =1
i =1
i =1
i =1
i =1
i =1
i =1
i =1
a xi2 + bn x = xi yi a xi2 + n yx na x = xi yi
i =1
x y
i
i =1
a=
i =1
n
xi2
i =1
n
y x
2
x
x y
i
i =1
b= y
xi2
i =1
n
y x
2
x
Finalmente,
a = rxy
y COV ( x, y ) y COV ( x, y )
=
=
x
x y x
x2
b = m y a mx
yest y =
COV ( x, y )
x2
xx
125
(x x) = COV( x, y) (y
2
y
est
= rxy =
COV ( x, y )
=
2x 2y
( x i mx ) ( yi m y )
i =1
x y
El uso de estas relaciones debe considerar varios factores. El primero hace referencia a
que no se deben extrapolar los resultados fuera de los lmites de estudio. Por ejemplo, si
las relaciones se han planteado con 200 nios entre 8 y 14 aos y una correlacin
positiva edad altura; se puede extrapolar esta relacin para calcular la altura de una
persona 80 aos?. En segundo lugar tambin hay que destacar que las dependencias han
de plantearse razonablemente: una buena relacin puede surgir entre dos variables
independientes pero relacionadas con una tercera, pero puede no ser razonable plantear
la regresin entre la primera y la tercera. Por ejemplo, hay buena correlacin entre
nmero de enfermedades y nivel econmico; lo mismo cabe decir entre el parque
automovilstico y nivel econmico; habr una buena relacin entre el nmero de
enfermedades y el parque automovilstico?, es razonable plantearla en estos trminos?.
Las expresiones anteriores sobre un ajuste por mnimos cuadrados se pueden ampliar al
caso de considerar un elemento aleatorio en la relacin entre dos variables. Entonces, la
ecuacin de regresin se expresa como sigue,
Ec. 156. Expresin de la recta de regresin considerando el trmino aleatorio
yest ,i = a xi + b + i
La distribucin del error est condicionada a las de las variables utilizadas. Para una
distribucin simtrica, se estimaran la tendencia central y desviacin tpica, del error,
dependiente de las condiciones de ajuste. En el caso del ajuste por mnimos cuadrados,
la esperanza del error es nula y la varianza depende de la desviacin tpica de la variable
dependiente y del coeficiente de correlacin.
Ec. 157. Condicin esperanza nula del error
E [yi yest ,i ] = E [ yi b a xi ] = y b a x = 0
Ec. 158. Trmino de varianza del error
E ( yi yest ,i ) = y2 (1 rxy2 )
Es decir, partiendo de unas variables x e y pertenecientes a una distribucin normal, el
2
126
Las ecuaciones anteriores se han obtenido utilizando los datos sin transformacin
alguna. Sin prdida de generalidad, se pueden expresar los resultados anteriores en
funcin de los residuos normalizados:
Ec. 159. Ajuste por mnimos cuadrados en funcin de los residuos normalizados
yest y =
COV ( x, y )
2
x
x x +
yest y
= rxy
xx
yest y
= rxy
xx
+ 1 rxy2
1 rxy3
(1 r )
2 1, 5
xy
2
2 t
2
1 +
6
36
cuya utilizacin est desaconsejada (Fiering-Jackson, 1971) por la sensibilidad de los
coeficientes de sesgo a la informacin disponible.
6.2.2
127
tij =
xij x j
Sj
2
1
1
xij x j ;
xij ; S j =
N 1 i =1
N i =1
donde j es el ndice mensual de 1 a 12, xij es el dato meteorolgico correspondiente al
ao i y mes j, x j media de los datos del mes j, N nmero de aos de la serie, Sj
xj =
a 2 = 3 23 13 2 12
2
s1 1 r12
s2 1 r12
donde s1, s2 y s3 son las desviaciones tpicas de las series tij correspondientes a cada
estacin y, dado que estas series han sido previamente estacionarizadas, su valor ser 1,
r12 es el coeficiente de correlacin simple entre los residuos de las estaciones 1 y 2; r13
es el coeficiente de correlacin simple entre los residuos de las estaciones 1 y 3; r23 es el
coeficiente de correlacin simple entre los residuos de las estaciones 2 y 3, segn la
expresin siguiente donde m y n representaran las diferentes combinaciones entre las
estaciones mencionadas:
a1 =
128
(t
rmn =
m
ij
t m ) (tijn t n )
ij
(t
ij
m
ij
tm)
2
(t
n
ij
tn)
ij
Se puede comprobar que la media del ruido ij es cero, mientras que su desviacin tpica
sera funcin del error cuadrtico cometido en la ecuacin de regresin. Se puede
estimar a partir de la expresin:
Ec. 167. Varianza del ruido
S2 = S 32 (1 ( R123 ) 2 )
siendo R123 el coeficiente de correlacin mltiple entre las estaciones 1 y 2 con la
nmero 3, que para valores de desviacin tpica s1, s2 y s3 unitarios toma la expresin:
Ec. 168. Coeficiente de correlacin mltiple
R123 = 13 23
1 r122
k
Pmn = Rmn
mnk
12
Halladas las matrices de priorizacin de cada estacin, se puede elegir cul es la mejor
pareja para rellenar un mes en cuestin. En principio se escoger para cada estacin k la
pareja de referencia con un mayor valor de priorizacin, pero la existencia de los
129
xij = x j + S j tij
Para aplicar esta metodologa es preciso agrupar previamente las estaciones
meteorolgicas en grupos homogneos o afines, estableciendo un control previo de las
estaciones que sirven de referencia para el completado de una dada. Se evita as la
transmisin de heterogeneidades y errores de unas estaciones a otras.
6.3
y ij = log xij
N
y
yj =
i =1
ij
j =
(y
i =1
yj)
ij
N
gj =
(N 1) (N 2)
(y
yj)
ij
i 1
j
N 1
N ;
;
donde yij es el logaritmo de las aportaciones en el mes j del ao i, y j es la media de la
serie logartmica de las aportaciones en el mes j y N es el nmero de aos de la serie.
130
gj
6 g j tij
3
+ 1 1 +
gj 2
j
6
;
donde tij es una serie estacionaria a la que se han suprimido las tendencias estacionales.
A sus valores podra ajustarse, en primera aproximacin una distribucin normal, ya
que los xij han sufrido una transformacin logartmica normalizante previa. Este
tratamiento se debe al hecho suficientemente conocido de que las aportaciones no
siguen una distribucin normal. A los valores tij, el modelo HEC-4 no les ajusta una
normal, sino una distribucin Pearson-III en la que se hace intervenir el coeficiente de
sesgo peridico g j , resultando una nueva variable ki,j.
tij =
y ij y j
k ij =
6.4
Parmetros:
131
(a xi 1 + c )
xi = resto
6.4.2
132
1
cos(2 u2 )
u1
7.1
INTRODUCCIN
7.2
7.2.1
Mtodos no paramtricos
133
basadas en unos parmetros que es preciso ajustar a partir de la muestra, sino que
suponen que esa expresin matemtica es desconocida.
El mtodo no parmetrico ms simple consiste en el ajuste grfico de una curva a los
datos de la muestra representados en papel de probabilidad, aunque tiene el
inconveniente de su subjetividad.
La aplicacin de este mtodo exige asignar a cada uno de los datos una determinada
probabilidad muestral que permita representarlos en un determinado papel de
probabilidad (habitualmente papel Gumbel). Esta asignacin se realiza, como se
coment en el captulo 3, mediante las denominadas frmulas de grfico que
corresponden a la expresin general:
Ec. 173. Frmulas de grfico
F ( xi ) = Pr ob( x xi ) =
i
N + 1 2
siendo:
= parmetro de la frmula.
Distintos valores del parmetro conducen a distintas expresiones, siendo algunas de
las ms empleadas las mostradas en la tabla siguiente (tambin en captulo 3).
Nombre
Expresin
Weibull
Gringorten
0,44
Hazen
0,5
i
N +1
i 0.44
F ( xi ) =
N + 0.12
i 0 .5
F ( xi ) =
N
F ( xi ) =
134
F ( xi ) =
i 0.44
N + 0.12
En la tabla adjunta se indica la probabilidad muestral de cada dato de la serie una vez ordenada
de menor a mayor.
135
distribucin.
7.3
7.3.1
E [ est ] =
Esta es una propiedad deseable en cualquier estimador puesto que significa que la
distribucin del valor del parmetro obtenida a partir de las muestras esta centrada en el
valor real. No obstante, no es la nica propiedad a tener en cuenta, puesto que tan
importante como el valor alrededor del cual est centrada la distribucin de las
estimaciones es la dispersin o varianza de las mismas.
Se denomina sesgo del estimador respecto al parmetro a la magnitud:
Ec. 175 Sesgo de un estimador
136
7.3.2
Estimadores consistentes
[ ]
n
E est
Estimadores invariantes
T ( x1 + c, x 2 + c, x3 + c,..., x n + c ) = T ( x1 , x 2 , x3 ,..., x n ) + c
T (cx1 , cx 2 , cx3 ,..., cx n ) = cT ( x1 , x 2 , x3 ,..., x n )
Esta propiedad no es imprescindible para un estimador, ni tiene relacin con la bondad
de sus estimaciones, simplemente puede ser interesante en algunas situaciones en las
que se prevea la necesidad de revisar las estimaciones ante cambios en el sistema de
referencia.
137
7.3.4
Estimadores eficientes
eficiencia( est ) =
Var ( est )
ER =
7.3.5
( )
( )
( )
( )
2
1
eficiencia est
Var est
=
1
2
eficiencia est
Var est
Estimadores robustos
138
7.4
ESTIMACIN PUNTUAL
Supongamos que se dispone de una muestra de una variable aleatoria x, que sigue una
distribucin de probabilidad correspondiente a una expresin matemtica conocida,
aunque dependiente de unos parmetros desconocidos, y que no disponemos de ninguna
informacin inicial sobre el valor de dichos parmetros. Veremos a continuacin
diferentes tcnicas matemticas que permitirn estimar el valor de los parmetros ms
apropiado para reflejar las caractersticas estadsticas de la muestra
7.4.1
Este estimador para los parmetros de la distribucin fue propuesto por K. Pearson a
finales del siglo XIX. Consiste en suponer que el valor de los momentos de la poblacin
(media, varianza, sesgo, ...) es igual al de los momentos muestrales. El valor de los
parmetros se obtiene planteando el sistema de ecuaciones que resulta de igualar la
expresin terica de los momentos de la poblacin en funcin de los parmetros y los
valores obtenidos a partir de la muestra. Es necesario disponer de tantas ecuaciones
como parmetros se quiere estimar, por lo que ser necesario igualar los momentos
hasta un orden igual al nmero de parmetros desconocidos. Una funcin de
distribucin dependiente de un solo parmetro requerir igualar nicamente el valor de
la media, mientras que una dependiente de cuatro parmetros necesitar igualar el valor
de la media, varianza, sesgo y curtosis.
Si hay que estimar k parmetros (1, ... , k) y se conocen los k primeros momentos
muestrales de la poblacin (m1, ... , mk), se plantear el siguiente sistema de ecuaciones:
Ec. 180 Mtodo de los momentos
M 1 (1 ,..., k ) = m1
M
M k (1 ,..., k ) = mk
Siendo Mi(1, ... , k) la expresin terica de los momentos de la poblacin que son
funcin de los parmetros.
Una ventaja importante de este mtodo es su sencillez aunque no aprovecha toda la
informacin disponible en la muestra. Otra ventaja es que el resultado es menos sensible
que en otros mtodos a una eleccin incorrecta de la funcin de distribucin.
Ejemplo: Ajustar a la serie de caudales mximos del ejemplo del apartado 6.2.2. una funcin de
distribucin tipo Gumbel mediante el mtodo de los momentos y calcular el valor del caudal
correspondiente a un periodo de retorno de 200 aos.
139
F ( x) = e e
xu
x
M =
16887
= 844.4
20
(x
=
(x
M ) 2
N 1
844.4) 2
19
5280872.6
= 527,2
19
M = u + 0.5772
Y la desviacin tpica:
140
M = u + 0.5772 = 844.4
= 527.2
De donde se obtiene:
527.2 6
= 411.1
F ( x) = e
x 607.1
411,1
F ( x) = 1
1
1
= 1
= 0.995
T
200
F ( x) = e
x 607.1
411,1
= 0.995
7.4.2
141
M ijk = E x i F j (1 F )
1
M 10 k =
N
i 0.35
x i 1
i =1
1
M 1 j 0 =
N
i 0.35
x
i
i =1
donde los xi son los N valores de la muestra ya ordenados siendo i=1 el menor valor.
A partir de las expresiones anteriores, la estimacin de los parmetros se realiza de
forma similar a la empleada en el mtodo de los momentos convencionales siguiendo
los siguientes pasos:
142
F ( x) = e
x u k
1 k
1
M 1 j 0 =
N
i 0.35
xi
N
i =1
N
donde xi son los datos de la muestra, i el puesto que ocupa el dato en la serie ordenada de menor
a mayor y N el nmero total de datos.
El valor de los tres primeros momentos para la muestra es:
143
M 100 = 59,989
M 110 = 38,243
M 120 = 29,167
La expresin terica de los momentos para una poblacin tipo GEV es:
M 1 j0 =
1
1+
1 ( j + 1) k (1 + k )
u +
j
k
Igualando las expresiones anteriores al valor de los momentos muestrales se tiene un sistema de
tres ecuaciones que nos permitir conocer el valor de los parmetros. La resolucin de dicho
sistema de ecuaciones es compleja por lo que se han establecido unas expresiones que permiten
encontrar su solucin:
C=
k = 7,8590C + 2,9554C 2
u = M 100 +
((1 + k ) 1)
k
De donde se obtiene:
u = 44,0020
= 17,9668
k = 0,2430
Por lo que la funcin de distribucin buscada ser:
F ( x) = e
7.4.3
x 44 , 0020 0 , 2430
1+ 0 , 2430
17
,
9668
144
Como hemos dicho, el objeto del mtodo de mxima verosimilitud es obtener el valor
de los parmetros que hace mxima la probabilidad de obtener el conjunto de los N
valores de la muestra. La probabilidad conjunta de los N valores de la muestra, al ser
cada uno de los N valores independiente del resto, ser:
Ec. 184 Probabilidad del conjunto de una muestra
N
L( , X ) = L( ) = P( X , )
con X fijo y variable. A esta funcin L se la denomina funcin de verosimilitud.
Una vez definida la funcin de verosimilitud, el valor de los parmetros se obtiene
derivando dicha funcin respecto a cada uno de los parmetros e igualando las
derivadas a cero (condicin matemtica para maximizar el valor de la funcin y, por
tanto, de la probabilidad conjunta de la muestra). Se obtendr de esta manera un sistema
de ecuaciones, tantas como parmetros tenga la funcin de distribucin, cuya resolucin
proporcionar el valor buscado de los parmetros:
Ec. 186 Mtodo de mxima verosimilitud
L( , X )
=0
1
L( , X )
=0
2
M
Puesto que el mximo de una funcin y el de su logaritmo se alcanza en el mismo
punto, es frecuente maximizar el logaritmo de la funcin de verosimilitud en lugar de la
propia funcin, lo que frecuentemente conduce a expresiones ms sencillas. Por tanto,
un sistema de ecuaciones equivalente ser:
145
ln L( , X )
=0
1
ln L( , X )
=0
2
M
El mtodo de mxima verosimilitud es considerado habitualmente como el ms
eficiente, es decir, aquel que produce una varianza menor en los parmetros estimados,
pero tiene el inconveniente de ser bastante sensible a una incorrecta eleccin de la
funcin de distribucin. Otro inconveniente de este mtodo es la mayor dificultad
numrica frente a otro tipo de mtodos.
En general puede decirse que este mtodo proporciona estimadores con las siguientes
propiedades:
Asintticamente centrados
Suficientes
Invariantes
Ejemplo: Supongamos que se dispone de una muestra X=(x1, ..., xN) que se supone sigue
una distribucin exponencial. Calcular el valor del parmetro de la distribucin mediante
el mtodo de mxima verosimilitud.
Solucin: La funcin de distribucin exponencial corresponde a la siguiente expresin:
F ( x ) = 1 e x
Y la de densidad de probabilidad a:
f ( x ) = e x
La funcin de verosimilitud ser, por tanto:
N
i =1
i =1
L( , X ) = f ( xi , ) = e xi
Tomando el logaritmo de la funcin de verosimilitud:
N
i =1
i =1
ln L( , X ) = ln f ( xi , ) = ln e xi = N ln xi
Derivando el logaritmo del funcional respecto a e igualndolo a cero:
146
i =1
ln L( , X ) N N
= xi = 0
i =1
Resolviendo la ecuacin se obtiene el valor buscado para el parmetro :
1
N
=x
i =1
Por tanto:
7.4.4
1
x
Aunque cada modelo de ley puede ajustarse por varios mtodos, existen ciertas
combinaciones que son las ms habitualmente empleadas. Estas combinaciones se
detallan en la tabla adjunta.
DISTRIBUCIN
Normal
Gumbel
Valores Extremos Generalizados
(GEV)
Log Pearson III (LP3)
SQRT-ET max
Valores extremos de dos componentes
(TCEV)
MTODO
Momentos
Momentos y Mxima Verosimilitud
Momentos ponderados
probabilsticamente
Momentos en el espacio de los
logaritmos
Mxima verosimilitud
Mxima verosimilitud
7.5
7.6
ESTIMACIN BAYESIANA
147
f ( , X ) =
f ( X , ) f ( )
f ( X , ) f ( )d
148
8
8.1
Los tests de contraste de hiptesis constituyen una herramienta numrica para comparar
las hiptesis realizada con la realidad y evaluar el acierto de las primeras. Esta tcnica
es apropiada cuando las hiptesis planteadas son simples y cuando haya variabilidad en
los datos que induzca a manejar criterios estadsticos. Las hiptesis que normalmente se
plantean se refieren a la distribucin de la muestra, a la independencia de los datos o a la
homogeneidad-heterogeneidad de los grupos de datos.
Ejemplo: se pueden plantear contrastes sobre la consistencia y homogeneidad de las
series meteorolgicas que se utilizan en un estudio de recursos. Las razones a las que
obedece la aparicin de heterogeneidades en las series son mltiples, dependientes de
factores tales como alteraciones naturales o inducidas por el hombre (cambio en la
instrumentacin, cambios de las instrucciones y momento de observacin o en las
condiciones de medicin por crecimiento de la vegetacin, colocacin de
construcciones, vallas, etc..., deterioro del equipo, errores en la calibracin del equipo,
cambios en la localizacin de los sensores, etc.) que habrn de ser corregidas. El efecto
en los datos de casos como stos debe ser detectado y considerado si se pretende
obtener conclusiones vlidas acerca del comportamiento de una variable. Las dobles
acumulaciones sirven para identificar estos efectos, pero si nicamente se utiliza la
herramienta grfica, queda como decisin basada en la propia experiencia del tcnico
el decidir qu grado de cambio es el que ha de corregirse. Mediante los tests de
contraste de hiptesis se puede establecer un procedimiento objetivo y una medida que
sirva para rechazar o aceptar la homogeneidad de una serie.
8.2
149
Error tipo I
P(error tipo I)=
Nivel de significacin
Ho es falsa
Error tipo II
P(error tipo II)=
P(decisin correcta)=1-
Potencia del test
Ejemplo:
1. Planteamiento de hiptesis:
a. Hiptesis nula: en la serie temporal no hay tendencias
b. Hiptesis alternativa: hay tendencia en la serie temporal
2. Seleccin de un estadstico: pendiente de la recta de regresin ajustada a la serie
temporal
3. Nivel de significacin: probabilidad de que el test detecte una tendencia cuando
no la hay
a. Al estadstico se le debe asociar una probabilidad sobre los valores de la
pendiente (baja para valores bajos de la pendiente; alta para valores altos
de la pendiente). Esta probabilidad representa el % de sucesos que tienen
tendencia dado un valor de la pendiente.
b. Nivel de significacin: probabilidad anterior
4. Errores y potencia del test:
a. Error tipo I: se toma como referencia un valor de pendiente asociado al
nivel de significacin o riesgo que aceptamos. Con pendientes mayores,
rechazar la hiptesis nula, aunque puede que tenga un valor raro
asociado al error tipo I y nivel de significacin.
b. Potencia del test: probabilidad de detectar una tendencia cuando est
presente. Para pendientes pequeas, la probabilidad de cometer un error
tipo II aumenta. Un contraste alternativo puede discriminar mejor estas
situaciones y tener mayor potencia.
150
8.2.1
k
k + 0,5
k +1
p=
p=
s
s +1
s+2
Teoremas de Fisher
x N ( ,
2. Teorema de Fisher
151
(x
n
( n 1)s
n21 con s 2 =
i =1
(n 1)
x
N (0,1)
n
Ec. 192 Criterio para contrastes cuando es desconocida
x
n
( n 1)s /
n 1
2
tn 1
x
tn 1
s
n
Muestra
Poblacin
x1,...xn
N(,)
Contraste
Condiciones
Regin crtica
conocida
desconocida
conocida
desconocida
conocida
desconocida
C = x o > z
2
n
C = x o > tn 1,
2
n
C = x o > z
n
C = x o > tn 1,
n
C = x o < z1
n
C = x o < tn 1,1
n
152
Ejemplo: Problema:
Se tiene caracterizada una serie de caudales anuales de una cuenca A mediante una
distribucin normal de media 3,56 m3/s y desviacin tpica 2,14 m3/s.
Durante un periodo reciente (27 aos) se han extrado por bombeo caudales en una
cuenca prxima B y no se conoce si este hecho ha afectado o no a la hidrologa de A. La
media de caudales anuales en A durante los ltimos 27 aos es de 1,51 m3/s. Se pide
contrastar si hay o no un cambio significativo en la media.
Ho: no hay cambio en la media; H1 hay cambio en la media. Se toma como nivel de
significacin 5%, repartido en dos tramos de 2,5% ambos lados de la media, por lo que
la regin de aceptacin se encuentra comprendida entre (-1,96, 1,96). Al realizar las
operaciones, el valor del estadstico queda fuera de esta regin, es decir, cae en la regin
crtica:
1,51 3,56
= 4,96 > 1,96 = z 2,5%
2,14
27
por lo que no se puede aceptar la hiptesis de la homogeneidad de la serie.
Evidentemente, se ha comprobado la falta de homogeneidad, pero no la causa.
Ttulo
Muestra
Poblacin
x1,...xn
N(,)
Contraste
Condiciones
Regin crtica
desconocida
2 o2 ;
desconocida
Unilateral. Ho:
H1
> o2
2 o2 ;
2
2
H1 < o
Unilateral. Ho:
desconocida
(n 1)s 2
(n 1)s 2 2
n 1,1 , n21,
C=
2
2
2
2
(n 1)s
C=
< n21,
2
o
(n 1)s 2
C=
< n21,1
2
o
2
( xi )
por
o2
153
Ejemplo: bajo la hiptesis de apoyarse en series que siguen distribuciones normales sin
una varianza conocida, una forma de valorar si hay cambios en la media significativos
entre dos periodos distintos es plantear el siguiente contraste de hiptesis:
Ho: 1=2; H1: 12
La aplicacin del primer teorema de Fisher nos dara:
x
N (0,1)
n
Del segundo teorema
( n 1)s 2
n21
Y el cociente de los trminos anteriores ser por definicin una t de Student con n-1
grados de libertad, que queda:
x
t n 1
S
n
Al plantear el test sobre la diferencia de las medias se tiene:
(x
x 2 ( 1 2 )
S12 S 22
+
n1 n2
tf
S12 S 22
+
n1 nn
S12 S 22
+
} siendo f =
{ x1 x2 > tf, /2
2
2
2
n1 n2
1 S12
1 S 22
+
n1 + 1 n1 n2 + 1 n2
tf /2 es el cuantil correspondiente al valor de probabilidad /2 de la distribucin t de
Student para f grados de libertad dados por la aproximacin de Welch, el entero ms
prximo a la expresin anterior. Esta correccin tiene en cuenta el efecto de la
simplificacin realizada en las varianzas que han desaparecido del cociente que define la
variable aleatoria t de Student en una diferencia de variables aleatorias. Con muestras
grandes se puede simplificar y tomar la distribucin normal estndar z/2 por la
distribucin de Student tf, /2.
Este test se puede aplicar al ejemplo siguiente para el contraste de medias entre dos
periodos de mediciones en una misma estacin pluviomtrica:
154
Estacin
pluviomtrica C
(mm)
40
35
30
25
20
15
10
1974
1971
1968
1965
1962
1959
1956
1953
1950
34
29
32
26
35
34
25
27
27
28
36
23
34
26
35
36
25
24
1947
1959
1960
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
Estacin pluviomtrica C.
Periodo de medidas 1941-1976.
Nmero total de datos: 36
1944
31
20
21
23
22
21
29
34
22
17
22
38
18
15
12
33
22
27
Estacin
pluviomtrica C
(mm)
1941
1941
1942
1943
1944
1945
1946
1947
1948
1949
1950
1951
1952
1953
1954
1955
1956
1957
1958
Ao
Ao
Tiempo (aos)
8.2.2
El test de 2 se utiliza para valorar la bondad del ajuste con una funcin de distribucin
comparando las frecuencias de la muestra clasificada en clases con las de la distribucin
terica. Es un contraste aplicable a variables discretas o continuas.
Como hiptesis nula, Ho, se toma el que la variable x sigue una determinada funcin de
distribucin terica F(x) o que tiene al menos su forma. El estadstico que se utiliza es el
de Pearson:
Ec. 193. Estadstico de Pearson
k
=
i =1
k
n ni
(n n pi )2 = k ni2 n = k (Observadasi Tericasi )2
pi = i
pi n
n pi
Tericasi
i =1
i =1 n pi
i =1
155
Ec. 194. Regin crtica para aplicacin del test de bondad de ajuste
C = > k21,
El tamao muestral debe ser, por tanto, grande, n > 25, 30 elementos.
=
i =1
( n n p
i
0,5)
n pi
Ejemplo:
Contrastar el posible ajuste de una funcin de distribucin normal a una serie de
mximos anuales registrados en una estacin pluviomtrica. El ejercicio se puede
realizar utilizando las herramientas del anlisis de datos de la hoja excel. Para activarlas
se debe ir al men Complementos dentro del correspondiente de Herramientas. Una vez
activado el anlisis de datos, se utiliza la aplicacin Histograma, que a su vez pide
seleccionar la matriz de los datos cuyas frecuencias hay que ordenar y la matriz con los
lmites de los intervalos. En la solucin que se muestra a continuacin, se han tomado
finalmente 6 intervalos.
156
Con formato
Media
63,83 (calculadas de la muestra)
Desviacin tpica
25,06 Nmero total de datos: 53
Nmero de clases
6
Nmero de grados de libertad
3
Clases Observadas Probabilidad Probabilidad
Puntos Aplicacin Probabilidad
npi
acumulada
parcial
medio
de la
parcial Tericas
por
normal
intervalo
40
7
13,21%
13,21%
32,5
10,56%
10,56%
5,60
55
18
47,17%
33,96%
47,5
25,73%
15,17%
8,04
70
11
67,92%
20,75%
62,5
47,88%
22,15%
11,74
85
7
81,13%
13,21%
77,5
70,73%
22,85%
12,11
100
5
90,57%
9,43%
92,5
87,37%
16,64%
8,82
y
5
100,00%
9,43%
107,5
95,93%
8,56%
4,54
mayor...
SUMA
Referencia chi cuadrado al 5% alfa
Estadstico de
Pearson
0,352
12,337
0,047
2,156
1,654
0,047
16,593
7.815
Histograma inicial
Frecuencia
40%
35%
% Observado
30%
% Terico-Normal
25%
20%
15%
10%
5%
0%
menor 40
40-55
55-70
70-85
85-100
100-y
mayor...
Clase
8.2.3
Este test se puede aplicar como la 2 para conocer si unos datos siguen una funcin de
distribucin determinada. Tambin es til cuando se quiere contrastar la falta de
homogeneidad de las distribuciones de datos entre dos periodos. Para aplicar este test la
funcin de distribucin debe ser continua.
Considerando como hiptesis nula el que la muestra siga una distribucin terica, FT, se
procede de la siguiente manera:
1. Ordenar la muestra de menor a mayor y asociar una frecuencia observada
correspondiente al orden de observacin (para el orden r, probabilidad r/n)
2. Obtener las diferencias de estas probabilidades de los valores observados con las
correspondientes a la funcin de distribucin terica. El estadstico del test de
Kolmogorov-Smirnov es el mximo valor absoluto de estas diferencias. Sigue
una distribucin de Kolmogorov-Smirnov que se puede consultar en tablas para
la que hay que considerar el trmino n .
157
n max ( FO ( x) FT ( x) ) Kolmogorov
siendo n el tamao de la muestra, FO las frecuencias acumuladas de los valores
observados y FT las tericas. Si el estadstico calculado es mayor que el correspondiente
a las tablas, se rechaza la hiptesis de comportamiento de la muestra segn la
distribucin seleccionada.
10
20
30
40
50
100
1,05
1,10
1,12
1,13
1,14
1,17
1,22
1,14
1,22
1,24
1,26
1,27
1,29
1,36
1,29
1,42
1,46
1,50
1,52
1,55
1,63
S k = ( yi y )
i =1
S2 =
1 n
( yi y ) 2
n i =1
S ka =
Sk
S
P = mx S ka
0 k n
158
).
8.2.4
Para aplicar el test, se mezclan las dos muestras y se asigna un rango a cada uno de los
valores de la nueva serie nica. Siendo el estadstico Rx la suma de los rangos ocupados
por la serie xi:
Ec. 199. Estadstico del test de Wilcoxon o Mann-Whitney
n
Rx =
xi
i =1
i =
i =1
1+ n + m
N +1
(n + m ) = N
el valor esperado del rango de una observacin xi que puede tomar los valores de 1..N
con idntica probabilidad
1
es:
N
i N
1
i =1
N +1
n m
y 2 =
(N + 1)
2
12
159
Rx < Rx =
Rx + 0,5
Rx = Rx = 0
Rx > Rx =
Rx 0,5
En el caso planteado como ejemplo, con dos muestras de 18 valores tal y como aparecen
en el ejemplo del apartado 8.2.1, Rx toma un valor de 237, de 333 y 2 de 999 con lo
que el valor estandarizado es 3,07, entre los lmites de confianza al 95% de la normal,
(-1,96, +1,96) y la homogeneidad no se puede aceptar.
8.2.5
Una variacin del anterior es el denominado test de Wilcoxon con signos, que tambin
se plantea sobre la homogeneidad de la serie. Esta vez el estadstico de referencia se
obtiene como suma de los rangos de los valores negativos de las diferencias entre datos
de dos series. Estas diferencias han de ser ordenadas de forma ascendente segn el valor
absoluto de las mismas.
8.2.6
Test de la de Kendall
Este test mide la correlacin entre dos series de variables utilizando los rangos de los
valores de las mismas. El estadstico se obtiene contabilizando el nmero de veces en
que a un incremento de una variable, y, le corresponde un aumento en la otra, x, P; y el
nmero de veces en que a un decremento de y le corresponde un incremento de x, M. Es
decir, estas dos cantidades se calculan ordenando las series de parejas de manera
creciente en x y contabilizando, para cada valor de y, el nmero de veces en que los
valores subsiguientes de la serie y son mayores y menores. La diferencia entre ambas
cantidades, S=P-M, permite obtener el estadstico , valor estandarizado de S por el
nmero total de comparaciones posibles de n pares de datos,
Ec. 204. Estadstico de Kendall.
PM
n(n 1) )
2
160
S 1
S > 0 :
z = S = 0 : 0
S +1
S < 0 :
8.2.7
n
(n 1)(
2n + 5)
18
Este es un test basado tambin en los rangos para determinar si la correlacin entre dos
variables es significativa. La hiptesis nula es que las series son independientes y no
hay correlacin entre los pares de rangos.
El estadstico es el coeficiente de Spearman (Ec. 64) de las series. Para determinar la
regin de aceptacin y regin crtica se considera que, con muestras de ms de 20
valores, el estadstico siguiente sigue una normal de media nula y desviacin tpica
unidad (Kundzewicz, 2000).
Ec. 206. Estandarizacin del estadstico de Spearman.
rRxy n 1
8.2.8
Test de rachas
Este test se aplica para conocer si la muestra est constituida por datos aleatorios e
independientemente distribuidos contrastando el nmero de rachas. Una racha est
constituida por una sucesin de valores por encima o por debajo de un determinado
nivel, por ejemplo la mediana. Longitud de una serie es el nmero de valores de cada
racha.
Se supone que los datos hidrolgicos de partida son independientes y se contrasta como
hiptesis nula la independencia de los registros utilizando el estadstico constituido por
el nmero de rachas de la serie, que para un nmero suficientemente alto de valores, 40,
se aproxima a una normal. La hiptesis alternativa es que los datos no son
independientes. Si n es el nmero total de datos en la serie, los valores de la media y
varianza del numero de rachas para un nmero total de datos par e impar son los
siguientes,
Ec. 207. Media y varianza del test de rachas.
=1+
n
2
2 =
n(n 2 )
4(n 1)
=1+
(n 1)( n 3)
n 1
2 =
2
4(n 2)
161
Estos valores permiten estandarizar el nmero total de rachas de la serie y calcular las
regiones de aceptacin y crticas por medio de una normal de media 0 y desviacin
tpica 1.
Se dispone de una serie de caudales mximos anuales y se desea aplicar un test de
rachas para comprobar si las presas construidas en cabecera a mediados de los aos 60
tienen influencia en la reduccin de avenidas. Se supone que la existencia de lagunas no
afecta a la aplicacin del test.
Ao
1946-47
1947-48
1948-49
1949-50
1950-51
1951-52
1952-53
1953-54
1954-55
1955-56
1956-57
1957-58
1958-59
1959-60
1960-61
1961-62
m3/s
464,2
447,0
880,0
181,0
860,0
315,0
92,9
375,0
134,2
177,3
954,0
440,4
800,0
302,0
114,0
143,5
Racha
+
+
+
+
+
+
+
+
+
+
-
Ao
1962-63
1963-64
1964-65
1965-66
1966-67
1967-68
1968-69
1969-70
1970-71
1971-72
1972-73
1973-74
1974-75
1975-76
1976-77
1977-78
m3/s
207,4
128,3
Racha
-
362,0
161,0
154,7
161,4
460,5
133,6
556,5
377,5
163,2
70,9
347,8
319,5
524,2
+
+
+
+
+
+
+
Ao
1978-79
1979-80
1980-81
1981-82
1982-83
1983-84
1984-85
1985-86
1986-87
1987-88
1988-89
1989-90
1990-91
m3/s
87,0
226,2
87,0
45,5
Racha
-
270,1
311,4
413,0
800,1
208,2
372,7
221,1
+
+
+
+
-
1200,0
1000,0
m /s
800,0
600,0
400,0
200,0
1946-47
1947-48
1948-49
1949-50
1950-51
1951-52
1952-53
1953-54
1954-55
1955-56
1956-57
1957-58
1958-59
1959-60
1960-61
1961-62
1962-63
1963-64
1964-65
1965-66
1966-67
1967-68
1968-69
1969-70
1970-71
1971-72
1972-73
1973-74
1974-75
1975-76
1976-77
1977-78
1978-79
1979-80
1980-81
1981-82
1982-83
1983-84
1984-85
1985-86
1986-87
1987-88
1988-89
1989-90
1990-91
0,0
Si las presas causan una disminucin en las avenidas, durante el segundo periodo habr
un predominio de rachas negativas, es decir, valores por debajo de esa media. El
contraste es unilateral. El total de datos es 42, las rachas son 20 y el valor crtico para un
nivel de significacin del 2,5% es 16, asumiendo que el nmero de rachas sigue una
normal y despreciando las lagunas existentes en la serie. De lo anterior se sigue que los
datos son aleatorios y la influencia de presas de cabecera no es significativa.
McCuen (2003) destaca dos factores a considerar en la aplicacin del test de rachas:
1. La aplicabilidad del test depende de si el cambio introducido es suficientemente
importante respecto a la variabilidad introducida por otros componentes
aleatorios. En el caso del ejemplo aplicado a la generacin de avenidas, es
posible que el test no pueda detectar efectos sobre los cambios de usos de suelo
162
Test de Mann-Kendall
u = ni
i =1
u 1
S > 0 : V
z = 0
u +1
S < 0 :
V
n(n 1)(
2n + 5) ti (ti 1)(
2ti + 5)
V=
i =1
18
163
N ( xi xi +1 ) 2
V=
i =1
n
(N 1) ( xi x )2
i =1
V =
2N
N 1
2 =
4(N 2)
(N 1)2
2 N
N 1 = V (N 1) 2 N
4(N 2)
2 N 2
2
(N 1)
V
v=
( y
V=
( y
i =1
164
yi +1 ) 2
i =1
n
y )2
tal que para que sea aceptada la hiptesis de homogeneidad en los datos, V debe estar
comprendido entre un valor correspondiente al nivel escogido y 2, es decir la
pertenencia a un intervalo {V, 2},
Ec. 214. Definicin de la regin de aceptacin del test
V = 2 2
N 2
( N 1) ( N + 1)
q=
i =1
S2 =
1 n
(qi q ) 2
n i =1
zi =
1 n
1 k
t k = zi +
zi
k i =1 n k i =k +1
qi q
S
T = mx t k
25
50
75
100
150
200
Valor
crtico
7,75
8,85
8,95
9,15
9,35
9,55
0 k n
165
166
BIBLIOGRAFA
Allen, R.G., Pereira, L.S., Raes, D. y Smith, M. 1998. Anejo IV, Statistical Analisis of
Weather data sets en Crop Evapotranspiration. Guidelines for computing crop water
requirements. FAO Irrigation and Drainage Paper 56. Roma.
Almarza Mata, C, Lpez Daz, J. A., Flores Herrez C. 1996. Homogeneidad y
variabilidad de los registros histricos de precipitacin de Espaa. Direccin General
del Instituto Nacional de Meteorologa.
Bosque Sendra, J., 1997. Sistemas de Informacin Geogrfica. Segunda edicin. Ed.
Rialp, S.A. Madrid.
Bras R. L, Rodriguez-Iturbe I. 1985. Random Functions and Hydrology. Reading,
Massachusetts: Addison-Wesley.
CEDEX. Estudio de recursos hidrulicos del Per, Zona Titicaca.
Chow Ven Te, Maidment, D. R.; Mays, L. W., 1994. Hidrologa Aplicada. McGrawHill Interamericana. Santaf de Bogot, Colombia.
Etoh Takeraku, Murota, Akira, Nakanishi, Masanori, 1987. SQRT Exponential Type
Distribution of Maximum. En Hydrologic Frequency Modelling. Proceedings of the
International Symposium on Flood Frequency an d Risk Analyses, 14-17 Amy, 1986.
Louisiana State University, Baton Rouge, USA. Pginas 253-264. Editado por Vijay P
Singh. Reidel Publishing Company.
Ferrer Polo, Javier, 1992. Anlisis Estadstico de Caudales de Avenida. Centro de
Estudios Hidrogrficos del CEDEX. Serie Monografas del MOPT, Ministerio de Obras
Pblicas y Transportes, n 26. Madrid
Ferrer Polo, Javier, 1996. El modelo de funcin de distribucin SQRT-ET MAX en el
anlisis regional de mximos hidrolgicos: aplicaciones a las lluvias diarias. Tesis
Doctoral. Universidad Politcnica de Madrid. Escuela Tcnica Superior de Ingenieros
de Caminos, Canales y Puertos.
Fiering, Myron B; Jackson, Brbara B, 1971. Synthetic Streamflows. Water Resources
Monograph, 1. American Geophysical Union. Washington, D.C.
Garca Prez, A., Navarro Veguillas, H., Vlez Ibarrola, R. 1995. Estadstica II.
Universidad Nacional de Educacin a Distancia. Madrid.
Gmez Espadas, J. L. Estadstica. Curso Internacional de Hidrologa General y
Aplicada. CEDEX. Madrid.
HEC-4. U.S. Army Corps of Engineers. The Hydrologic Engineering Center. California.
EE.UU.
167
Helsel, D.R. y Hirsch, R.M. 2002. Statistical Methods in Water Resources. Book 4.
Hydrologic Analysis and Interpretation. Techniques of Water Resources Investigations
of the United States Geological Survey. USGS
Kite, G.W., 1977. Frequency and Risk Analyses in Hydrology. Water Resources
Publications, Fort Collins, Colorado.
Kundzewicz, Z.W.; Robson, A. 2000. Detecting trend and other changes in hydrological
data. World Climate Programme Water. WMO/TD-N 1013. United Nations
Educational Scientific and Cultural Organization. World Meteorological Organization.
Ginebra, mayo 2000.
Llamas, Jos, 1993. Hidrologa General, Principios y Aplicaciones. Servicio Editorial
Universidad del Pas Vasco.
Martn Jadraque, V. Estadstica Matemtica. Recordatorio de conceptos bsicos. CSIC.
Instituto de Hidrologa. Escuela de Hidrologa.
McCuen, Richard. 2003. Modeling Hydrologic Change: Statistical Methods. Lewis
Publishers. CRC Press Company.
NERC, 1975. Flood Studies Report. Volume I. Hydrological Studies. Natural
Environmental Research Council. London
Rodrguez Barrera, R., Llasat Botija, C. y Martn Vide J.. Anlisis de series temporales
en climatologa: modelizacin y homogeneidad. Universitat de Barcelona. Textos
Docentes 165.
Salas, J.D., Delleur, J. W., Yevjevich, V., Lane W. L. 1988. Applied Modeling of
Hydrologic Time Series. Water Resources Publications.
San Miguel, J. M., 1990. Estadstica Radical. Servicio de Publicaciones de la ETSI
Caminos, Canales y Puertos de la Universidad Politcnica de Madrid.
Singh V. P.,1985. Hydrologic Systems. Volume II. Watershed Modelling. Prentice Hall,
Englewood Cliffs, New Jersey.
Pea, D. 2000. Estadstica, Modelos y mtodos. 2 tomos. 1. Fundamentos. Alianza
universidad textos. Alianza Editorial, Madrid.
Spiegel, M. R. 1990. Probabilidad y Estadstica. Teora y 760 problemas resueltos. Serie
Schaum. McGraw-Hill.
168