Professional Documents
Culture Documents
2 (a0 , a1 , . . . an ) = !
sea mnima.
7.1.
En primer lugar, hay que definir el concepto de proximidad de dos funciones en un intervalo.
Para ello hay que introducir una distancia entre las dos funciones. Las distancias se suelen definir
mediante normas. Si tenemos una norma definida para funciones " f (x)", se define la distancia
entre dos funciones f (x) y g(x) como d( f (x), g(x)) = " f (x) g(x)". Hay diversas normas utilizadas frecuentemente. La ms utilizada es la norma de mnimos cuadrados o L2 definida como
" f (x) g(x)"2 =
! b
a
en un intervalo y como
( f (x) g(x))2 dx
! b
a
| f (x) g(x)| p dx
7.2.
7.2.1.
! b
a
f (x)g(x)dx
117
sobre un intervalo y
N
sobre un conjunto discreto de puntos. La norma L2 se puede escribir en funcin del producto
escalar como
" f (x) g(x)"2 =< f (x) g(x)| f (x) g(x) >
tanto sobre un intervalo como un conjunto discreto de puntos.
f (x) =
! ar r (x)
r=0
r=0
r,s=0
Las condiciones que se deben de cumplir para que exista un mnimo son, en primer lugar, la
anulacin de las derivadas primeras con respecto de los parmetros, y en segundo lugar que la
matriz de derivadas segundas o Hessiano sea definida positiva
E(a0 , a1 , . . . , an )
= 0
ai
# 2
#
# E(a0 , a1 , . . . , an ) #
#
# > 0
#
#
ai a j
n
E(a0 , a1 , . . . , an )
= 2 < f (x)|i (x) > +2 ! ar < r (x)|i (x) >= 0
ai
r=0
(7.1)
r=0
que se conocen como ecuaciones normales. Constituyen un sistema lineal para los parmetros
Aa = b
donde a es el vector de parmetros, b el vector de trminos independientes y A la matriz de coeficientes. La segunda condicin se cumple siempre, lo que se puede ver explcitamente suponiendo
que variamos los parmetros ar ar + ar y calculamos la diferencia
E(a0 + a0 , a1 + a1 , . . . , an + an ) E(a0 , a1 , . . . , an ) =
n
r=0
r=0
r=0
r=0
s=0
r=0
r=0
a0
a1
#
# < 0 | f >
#
# < 1 | f >
= ##
# < 0 |0 >
# < 1 |0 >
#
# < 0 |0 >
#
# < 1 |0 >
= ##
# < 0 |0 >
# < 1 |0 >
#
< 1 |0 > ##
< 1 |1 > #
#
< 0 |1 > ##
< 1 |1 > #
#
< 0 | f > ##
< 1 | f > #
#
< 0 |1 > ##
< 1 |1 > #
119
< 0 |0 >= ! 1 = N,
i=1
N
< 0 |1 >= !N
i=1 xi ,
< 1 | f >= !N
i=1 xi f (xi )
Poniendo yi = f (xi ) tenemos las frmulas usuales del ajuste de un conjunto de puntos por mnimos cuadrados:
a0 =
N
N
N
2
!N
i=1 yi !i=1 xi !i=1 xi !i=1 xi yi
$ N
%2
2
N !N
i=1 xi !i=1 xi
a1 =
N
N
2
!N
i=1 yi !i=1 xi N !i=1 xi yi
$ N
%2
2
N !N
i=1 xi !i=1 xi
En el caso de aproximaciones polinmicas de orden ms elevado (parablicas, cbicas, o combinaciones lineales de varias potencias distintas) procederamos de forma anloga, resolviendo
las ecuaciones por uno de los mtodos vistos en el captulo 4, en vez de por la regla de Cramer.
Podemos pensar que podemos continuar de esta forma hasta cualquier orden de aproximacin
aunque este no es el caso. De hecho para ms de 10 funciones, las ecuaciones normales estn
mal condicionadas, y dan resultados imprecisos con doble precisin. Para orden 100, incluso
con cudruple precisin en procesadores de 64 bits se obtienen resultados muy imprecisos. Sin
embargo no es raro que sea necesario aproximar una funcin por varios centenares de funciones
base. Esto ocurre por ejemplo cuando se descompone una onda sonora en armnicos o cuando se
estudian imgenes. Si obtenemos una solucin imprecisa de las ecuaciones normales los agudos
de una onda seran incorrectos y la imagen no sera ntida. Por ello hace falta un mtodo eficaz
de evitar el mal condicionamiento. Ello se consigue con funciones ortogonales. Decimos que las
funciones r son ortogonales si
< r |s >= nr rs
< r | f >
< r |r >
La utilizacin de funciones ortogonales tiene dos ventajas: la primera es que desaparece el mal
condicionamiento, y la segunda es que cada coeficiente es independiente de los dems. Por lo
tanto, si deseamos extender la aproximacin a un orden superior, los coeficientes ya calculados
no varan, por lo se dice que tienen la propiedad de permanencia. Esta independencia es muy
importante en el caso de datos experimentales, puesto que implica que los distitos coeficientes
obtenidos ajustando mediante funciones ortogonales no estan correlacionados esdadsticamente.
7.2.3.
Series de Fourier
Sin duda alguna, las funciones ortogonales ms utilizadas son las funciones trigonomtricas
sin(x) y cos(x). El conjunto de funciones {1, cos(x), sin(x), cos(2x), . . .} son ortogonales en el
intervalo [, ] con las relaciones de ortogonalidad
!
dx cos kx cos mx =
dx cos kx sin mx =
dx cos kx =
2
dx(cos kx) =
dx sin kx sin mx = 0
dx sin kx = 0
dx(sin kx) =
2
m $= k
k>0
!
dx = 2
"
a0
+ ! (ar cos rx + br sin rx)
2 r=1
se conoce como serie de Fourier. Converge en la norma de mnimos cuadrados siempre que la
funcin sea peridica en [, ] y continua. Cuando la serie se trunca a un nmero finito de
trminos, frecuentemente grande, tenemos la aproximacin de Fourier. Los coeficientes vienen
dados por
!
1
1
1
a0 =
dx f (x)
ar =
dx f (x) cos rx
br =
dx f (x) sin rx
En casos analticamente sencillos los coeficientes de Fourier se calculan fcilmente. Consideremos por ejemplo una onda cuadrada, que se utiliza frecuentemente en electrnica.
&
1 x < 0
f (x) =
1
0x<
Esta funcin es una funcin impar. Tambin es discontinua, pero a pesar de esto la serie de
Fourier converge. Como cos x es par, los coeficientes ar se anulan. Los coeficientes br vienen
dados por
# ' 0
!
!
r par
#
1
2
2
4
br =
dx f (x) sin rx =
dx sin rx = cos rx## =
r impar
0
0
r
2 " sin[(2r + 1)x]
f (x) !
r=0
2r + 1
En el caso de una funcin peridica de perodo T , el desarrollo toma la forma
con
2
a0 =
T
! T /2
T /2
dt f (t)
f (x)
"
a0
2rt
2rt
+ ! (ar cos
+ br sin
)
2 r=1
T
T
2
ar =
T
! T /2
2rt
dt f (t) cos
T
T /2
2
br =
T
! T /2
T /2
dt f (t) sin
2rt
(7.2)
T
121
0
N
2mt
2ms
2kt
2ks
N +1
< cos
| cos
>= ! cos
cos
=
2
T
T
N
+
1
N
+
1
s=0
N +1
El desarrollo
k $= m
k = m $= 0, N + 1
k = m = 0, N + 1
,
n +
a0
2ks
2ks
f (t) + ! ak cos
+ bk sin
2 k=1
N +1
N +1
sT
N +1
+
,
a0 N/2
2ks
2ks
= + ! ak cos
+ bk sin
2 k=1
N +1
N +1
,
sT
2ks
cos
N +1
N +1
+
,
2 N
sT
2ks
=
f
sin
!
N + 1 s=0
N +1
N +1
2 N
=
!f
N + 1 s=0
Es interesante notar que ak y bk vienen dados por la evaluacin numrica mediante la regla
trapezoidal para N + 1 intervalos (N + 2 puntos, ampliando con el extremo del t = T ) de las
integrales de las ecuaciones 7.2, notando que f (0) = f (T ), T = (N + 1)h, y que los senos se
(7.3)
s=0
ya que (pk+1 (x) xpk (x)) es un polinomio de grado k, y por lo tanto siempre se puede expresar
como combinacin lineal de p0 (x), . . . , pk (x). Vamos a suponer nicamente la existencia de un
producto escalar sobre un intervalo [a, b] o sobre un conjunto discreto de N + 1 puntos. Dicho
producto escalar los supondremos de la forma ms general con una funcin peso w(x) en el caso
continuo y un conjunto de pesos ws en el caso discreto
< pk (x)|p j (x) >=
& /b
de donde
ck+1
=
r
Como < pr |xpk >=< pr x|pk > y xpr (x) es un polinomio de grado r + 1, que se puede expresar
como una combinacin lineal de p0 , . . . , pr+1 , < pr |xpk >= 0 para r = 0, 1, . . . , k 2. Por lo tanto
k+1
slo ck+1
pueden ser distintos de 0. Vienen dados por
k1 y ck
ck+1
k1 =
123
y
ck+1
=
k
Para que esta relacin se cumpla tambin para p1 (x) se define p1 (x) = 0. Para obtener el ajuste
por mnimos cuadrados de una funcin dada f (x) , slo tenemos que calcular los coeficientes
y ck+1
ck+1
k
k1 mediante las ecuaciones anteriores para obtener los polinomios necesarios mediante
la relacin de recurrencia. El ajuste de mnimos cuadrados de orden n viene dado por
n
! ar pr (x)
r=0
donde ar se obtiene de
ar =
El incremento del orden de aproximacin en una unidad implica, por lo tanto, el clculo de un
nuevo polinomio y un coeficiente, lo que equivale a realizar 6 productos escalares, que se reducen
a 4 dado las constantes de normalizacin de los polinomios < pr |pr > se han calculado durante la
obtencin del coeficiente previo. Esta es la forma ms eficiente de ajustar datos mediante polinomios de orden elevado, tanto para datos discretos como continuos, pues se evitan errores debidos
al mal condicionamiento de las ecuaciones normales, y por otro lado el esfuerzo numrico es
menor, y se puede elevar el orden aprovechando los clculos realizados para un orden inferior.
En el caso de datos discretos, el nico inconveniente es la dependencia de los polinomios del
conjunto de puntos, lo cual no es importante, pues la suma de polinomios ortogonales se puede
expresar de forma inmediata como un polinomio ordinario.
Para datos definidos en intervalos continuos hay polinomios ortogonales bien conocidos para
diversos pesos e intervalos, algunos de los cuales se dan en la tabla 7.1
Tabla 7.1: Principales polinomios ortogonales
Nombre
Peso
Intervalo Smbolo
Legendre
1
[1, 1]
Pn (x)
Hermite
exp(x)
[", "]
Hn (x)
2)
Laguerre
exp(x
[0, "]
Ln (x)
2
Chebychev
1/
[1, 1]
Tn (x)
1x
2
Chebychev 2 especie
1x
[1, 1]
Un (x)
Si la funcin f se conoce analticamente o se puede calcular con facilidad en cualquier punto
que se desee, los coeficientes del desarrollo de la funcin en serie de polinomios ortogonales se
pueden calcular por cualquiera de los mtodos de integracin vistos en el captulo anterior.
7.3.1.
7.4.
Aproximacin minimax
7.5.
7.6.
7.6.1.
Una variable aleatoria es una variable que puede tomar un conjunto de valores (continuo o
discreto) y que cada valor aparece con una probabilidad determinada. Por ejemplo el valor de la
cara de un dado puede tomar 6 valores con probabilidad 1/6. El nmero de desintegraciones de
una muestra radioactiva en la unidad de tiempo toma valores enteros. La variable puede tomar
valores continuos, en cuyo caso existe una distribucin de probabilidad o densidad de probabilidad p(x), definida en [", +"]. La probabilidad de que x tome un valor comprendido entre dos
valores a y b viene dada por
P(a < x < b) =
! b
a
p(x)dx
! "
"
xp(x)dx
! "
"
(x x)2 p(x)dx
! "
"
Si dos variables son independientes, su covarianza se anula, ya que en este caso p(x1 , x2 ) =
p(x1 )p(x2 ) y la integral anterior se descompone en el producto de dos integrales que se anulan,
lo cual se demuestra fcilmente teniendo en cuenta la definicin del valor medio.
Los datos experimentales se comportan como variables aleatorias. Cada vez que medimos
una magnitud fsica con suficiente precisin obtenemos un valor distinto. El conjunto de valores
de una serie de medidas se distribuye con una funcin de distribucin de probabilidad. Una serie
de medidas xi se caracteriza por su valor medio x y su desviacin tpica x .
7.6.2.
125
Un caso particularmente importante es cuando deseamos ajustar datos experimentales mediante una funcin dependiente de parmetros ajustables. Esta funcin puede estar inspirada en
un modelo terico, o bien puede ser de carcter emprico, motivada nicamente por el comportamiento de los datos.
Los datos experimentales vienen siempre afectados de errores de medida. Estos errores pueden ser sistemticos o aleatorios. Los errores sistemticos son debidos al sistema o aparato de
medida y generalmente slo actan en una direccin. Tienen un nmero reducido de causas y
se pueden determinar frecuentemente a partir del anlisis del mtodo de medida, comparando
con otras medidas conocidas, o mediante un procedimiento de calibrado. Un ejemplo de error
sistemtico es el error de la medida de una longitud con una regla debido a la variacin de la
longitud de la regla con la temperatura. La correccin de este error se consigue conociendo el
coeficiente de dilatacin trmica de la regla con la temperatura (anlisis del mtodo de medida) o
comparando la longitud medida con una longitud conocida. Los errores aleatorios por otro lado
tienen un nmero muy elevado de causas, difciles de identificar por separado, y que producen
una contribucin aleatoria en cada medida independiente. Cada una de las causas produce una
pequea contribucin y el error aleatorio total es la suma de todas las causas por separado. El
error aleatorio se puede representar matemticamente por una suma de variables aleatorias.
El teorema del lmite central establece que una suma de variables aleatorias independientes
con distribuciones arbitrarias tiende a la distribucin normal. En trminos matemticos:
Si x1 , x2 , x3 , . . . es una sucesin de variables aleatorias independientes, con distribuciones de
probabilidad arbitrarias con medias i y desviaciones tpicas i , y formamos la nueva sucesin
de variables aleatorias yk definidas por
!ki=1 (xi i )
yk = $
%1/2
!ki=1 i2
la funcin de distribucin de yk tiende a una distribucin normal con media 0 y desviacin tpica
1 cuando k tiende a ".
La distribucin de probabilidad de una distribucin normal de media y desviacin tpica
viene dada por
1
(x )2
P(x) =
exp
2 2
2
7.6.3.
2
1
!N
i=1 (xi )
exp
2 2
(2 2 )N/2
P(x1 , x2 , . . . , xN )
= 0
2 ! (xi ) = 0
i=1
!N
i=1 xi
N
N
2
2
2
!N
!N
N !i=1 (xi )
i=1 (xi )
i=1 (xi )
+
exp
=0
2 2
3
2 2
(xi )2
N !N
+ i=1 3
=0
2
!N
i=1 (xi )
N
que son los estimadores usuales de la media y desviacin tpica.
Vamos a aplicar ahora el principio de mxima verosimilitud a un conjunto de datos experimentales que satisfacen una ley que depende de n parmetros:
2 =
y = f (x, a0 , . . . , an )
Si medimos N puntos (xi , yi ) entonces el principio de mxima verosimilitud establece que
+
,
1
1 N yi f (xi , a0 , . . . , an ) 2
P(x1 , x2 , . . . , xN ) =
exp !
2 i=1
i
(2)N/2 1 2 N
es mximo lo que implica que el trmino
N
(a0 , a1 , . . . an ) = !
2
i=1
yi f (xi , a0 , . . . , an )
i
! ar r (xi)
r=0
,2
127
obtenemos, derivando con respecto de los parmetros de forma anloga al caso de un conjunto
de puntos, las ecuaciones normales
n
N
r (xi )s (xi )
yi s (xi )
=
!
2
i
i2
i=1
i=1
N
! ar !
r=0
< r |s >= !
Vemos que la condicin de que 2 sea mnimo implica unas ecuaciones normales con un producto escalar cuyos pesos son los inversos de las varianzas de los errores de los puntos. El producto
escalar con pesos se puede escribir como
1
1 2
0
..
.
1
2 2
.. . .
.
.
0
0
r (x1 )
..
r (x2 )
.
..
.
0
1
r (xN )
N 2
Definiendo
1
W =
1 2
0
..
.
0
0
1
2 2
..
.
..
.
0
0
..
.
1
N 2
y=
1
1 2
0
..
.
0
1
2 2
..
.
0 (x1 )
1 (x1 )
..
.
n (x1 )
y1
y2
..
.
yN
0
0 (x1 ) 1 (x1 )
..
0 (x2 ) 1 (x2 )
.
..
..
..
..
.
.
.
. 0
1
0 (xN ) 1 (xN )
0 N 2
1
0
1 2
0 (x2 ) 0 (xN )
1 (x2 ) 1 (xN )
0 1 2
..
..
..
.
..
.
.
.
..
.
n (x2 ) n (xN )
0
#=
0 (x1 )
0 (x2 )
..
.
1 (x1 ) n (x1 )
1 (x2 ) n (x2 )
..
..
..
.
.
.
0 (xN ) 1 (xN ) n (xN )
n (x1 )
n (x2 )
..
.
n (xN )
..
.
0
a0
a1
..
.
an
0
y1
..
y2
.
..
.
0
1
yN
N 2
a=
a0
a1
..
.
an
7.6.4.
! Si j y j
j=1
! Si j yj
j=1
lm
T
(ai , a j ) = E[(ai ai )(a j aj )] = Sil S jm E[(yl yl )(ym ym )] = Sil S jm lm 2 (ym ) = Smi
S jm m2 =
[SW 1 ST ]i j
La matriz SW 1 ST cumple
SW 1 ST = #1W 1 (#1 )T = (#T W #)1 = A1
por lo que que la matriz de covarianzas es la inversa de la matriz de coeficientes. Podemos
expresar los parmetros con su error como
7
ai [A1 ]
ii
129
ai
1
xi
N
?
!i=1 2 >
i2
i
S Sx
A=
2 =
xi
Sx Sxx
N xi
N
!i=1 2 !i=1 2
i
i
!N
i=1
yi
>
?
Sy
i2
b = N xi yi =
Sxy
!i=1 2
i
Las soluciones de los parmetros son
Sy Sxx Sx Sxy
SSxy Sx Sy
a0 =
a1 =
2
SSxx Sx
SSxx Sx2
y la matriz de covarianzas es
>
?
1 Sxx Sx
1
A =
$ Sx S
!N
i=1
2
donde el determinante de la matriz de
@coeficientes $ =@SSxx Sx . Si el ajuste es y = a0 + a1 x
Sxx
S
los errores de a0 y a1 valen (a0 ) =
y (a1 ) =
mientras que la covarianza de a0 y
$
$
a1 viene dada por
Sx
2 (a0 , a1 ) =
$
Se define el coeficiente de correlacin de los parmetros r(a0 , a1 ) como la covarianza dividida
por el producto de desviaciones tpicas
2 (a0 , a1 )
Sx
=
(a0 ) (a1 )
SSxx
y est comprendido entre 1 y 1. Si es positivo los errores de a0 y a1 tienen el mismo signo y si
es negativo, signo contrario.
r(a0 , a1 ) =
7.6.5.
La distribucin 2
La variable aleatoria
N
(a0 , a1 , . . . an ) = !
2
i=1
yi f (xi , a0 , . . . , an )
i
,2
se distribuye segn la distribucin 2 con k grados de libertad. Esta distribucin depende de dos
parmetros, la variable 2 y el nmero de grados de libertad , que en nuestro caso es el nmero
de puntos menos el nmero de parmetros, = N n 1. La distribucin 2 est definida como
2
$
%
1
/21
f ( 2 , ) = /2 $ % 2
e 2
2 % 2
2 > 0
donde %(x) = 0" dueu ux1 . Esta funcin de distribucin tiene media = y varianza 2 = 2,
con un mximo en 2. En la figura se muestra la distribucin 2 con 6 grados de libertad.
La distribucin 2 se aproxima de la distribucin normal para grandes valores de . En la
prctica, para > 30 es aproximadamente normal. La probabilidad de que 2 < 02 es
F(02 , ) =
! 2
0
0
f ( 2 , )d 2
7.7.
La distribucin 2 es una herramienta poderosa para decidir si una ley determinada describe
adecuadamente unos datos experimentales. Si tenemos N datos con n + 1 parmetros, el valor de
0.14
131
"chi2-nu6"
0.12
0.1
0.08
0.06
0.04
0.02
0
0
10
15
20
25
30
7.8.
En diversas ciencias aparecen frecuentemente leyes con una dependencia no lineal de los
parmetros. En este caso, no existe un sistema de ecuaciones cuya solucin de el valor ptimo
de los parmetros. En el caso no lineal, la solucin a menudo no es nica, sino que existen varios
mnimos relativos.
7.8.1.
En lagunas ocasiones una ley no lineal se puede reducir a otra lineal mediante un cambio de
variables. Esto sucede por ejemplo en el caso de leyes exponenciales
y = ceax
7.8.2.
2 (a0 , a1 , ..., an ) = !
1 2 2 (a)
(ai0 ai )(a j0 a j ) +
2 ai a j
y retener los tres trminos escritos explcitamente. El tercer trmino del segundo miembro es una
forma cuadrtica construida con el Hessiano de 2 . Podemos escribir esta ecuacin como una
funcin de la diferencia d = a0 a:
1
2 (a0 ) = 2 (a) + &a 2 (a) d + dT Hd
2
donde la matriz H viene dada por
Hi j =
1 2 2 (a)
2 ai a j
Reteniendo estos dos trminos y calculando el gradiente a ambos lados, imponiendo la condicin
&d 2 (a0 ) = 0
obtenemos una estimacin de d = a0 a:
&a 2 (a) + Hd = 0
de donde obtenemos
d = H 1 &a 2 (a)
a0 = a H 1 &a 2 (a)
Si estamos cerca del mnimo podemos intentar obtener el mnimo mediante el siguiente esquema
iterativo inspirado en la anterior ecuacin:
anew = aold H 1 &a 2 (aold )
que suele converger si estamos suficientemente prximos del mnimo. Cada iteracin implica el
clculo del gradiente y del Hessiano de 2 . Vamos ahora a obtener las expresiones explcitas del
gradiente y Hessiano de 2 . Tenemos
(yi f (xi ,a)2
(a0 , a1 , ..., an ) = !
i2
i=1
2
7.9. EJERCICIOS
135
a
ak al
k
l
i=1 i
El trmino
1
2 f (xi ,a)
(y
f
(x
,a)
i
i
2
ak al
i=1 i
N
2 !
es una suma de valores aleatorios, ya que yi f (xi ,a) se distribuye normalmente,por lo que en
general es despreciable. De hecho se encuentra que frecuentemente las iteraciones convergen
mejor si se elimina este trmino, por lo que se toma
>
?
N
2 2 (a)
1 f (xi ,a) f (xi ,a)
=2! 2
ak al
a
al
k
i=1 i
El mtodo iterativo queda por lo tanto como
al,new = al + 2Hlk1
con
>
?
1 f (xi ,a) f (xi ,a)
Hlk = 2 ! 2
a
al
k
i=1 i
N
con lo que cada paso implica slo el clculo de f (xi ,a), y su gradiente, o sea la evaluacin de
n + 2 funciones para cada punto yi .
7.9.
Ejercicios
3
1
1 0.2 1
2
4
4. Ajustar minimizando 2 la curva y = A + Bex a la siguiente tabla de valores. Presentar
los valores de los parmetros ajustados, sus errores y el valor de 2. Se trata de un buen
ajuste?
x 0.0 1.0 1.5
2.0
2.5
y 5.1 8.2 22.0 112.1 1039.0
0.2 0.1 0.2
0.1
0.3