You are on page 1of 22

Captulo 7

Aproximacin de funciones y ajuste de


datos experimentales
En este captulo trataremos dos problemas ntimamente ligados. El primero es el problema
de la aproximacin de funciones que lo podemos enunciar como:
Dada una funcin f (x) definida en [a, b] y una serie de funciones base r (x) definidas tambin en [a, b], encontrar los coeficientes ar de forma que la suma !nr=0 ar r (x) sea lo ms prxima posible a f (x) en el intervalo [a, b].
El concepto de proximidad lo definiremos ms adelante. El problema de la aproximacin es
esencial cuando queremos representar una funcin en serie de otras ms sencillas, como potencias o funciones trigonomtricas.
El segundo problema surge cuando medimos datos que satisfacen una ley que se comporta
como una funcin. Tpicamente medimos un conjunto de N puntos (xi , yi ), donde la variable
independiente xi se supone exacta y todo el error de medida de cada punto se atribuye a la
variable dependiente yi , que viene afectada de un error experimental i . Suponemos que la ley
que satisfacen los datos se puede describir mediante un modelo de la forma y = f (x) que depende
de una serie de parmetros ai . Nos limitaremos al caso particular en que la dependencia de los
parmetros es lineal, es decir f (x) = !nr=0 ar r (x) donde r (x) son funciones base convenientes
para describir nuestro modelo terico de los datos. Podemos enunciar el segundo problema como:
Determinar los valores de los parmetros ai que hacen que la cantidad
(yi !nr=0 ar r (xi ))2
i2
i=1
N

2 (a0 , a1 , . . . an ) = !
sea mnima.

Este es el problema del modelado de datos experimentales. Ambos problemas, aproximacin


de funciones y modelado de datos, estn ntimamente ligados y comparten las mismas tcnicas
de resolucin.
115

116CAPTULO 7. APROXIMACIN DE FUNCIONES Y AJUSTE DE DATOS EXPERIMENTALES

7.1.

Proximidad de funciones: Distancias y Normas

En primer lugar, hay que definir el concepto de proximidad de dos funciones en un intervalo.
Para ello hay que introducir una distancia entre las dos funciones. Las distancias se suelen definir
mediante normas. Si tenemos una norma definida para funciones " f (x)", se define la distancia
entre dos funciones f (x) y g(x) como d( f (x), g(x)) = " f (x) g(x)". Hay diversas normas utilizadas frecuentemente. La ms utilizada es la norma de mnimos cuadrados o L2 definida como
" f (x) g(x)"2 =

! b
a

en un intervalo y como

( f (x) g(x))2 dx

" f (x) g(x)"2 = ! ( f (xi ) g(xi ))2


i=0

sobre un conjunto discreto de puntos. En general la norma L p se define como


" f (x) g(x)" p =

! b
a

| f (x) g(x)| p dx

sobre un intervalo y como


N

" f (x) g(x)" p = ! | f (xi ) g(xi )| p


i=1

sobre un conjunto discreto de puntos. En aproximacin de funciones, aparte de la norma L2 , se


utilizan usualmente la norma L1 y la llamada norma L" , definida como
" f (x) g(x)"" = max | f (x) g(x)|
sobre un intervalo o conjunto discreto de puntos. La aproximacin de funciones que minimiza
la norma L" se conoce como aproximacin minimax. Cuando deseamos una aproximacin a
una funcin en un intervalo por otra ms sencilla, la aproximacin minimax es quizs la ms
razonable, ya que limita el error mximo cometido en un punto arbitrario del intervalo. Sin
embargo, cuando tenemos puntos experimentales afectados de un error estadstico, entonces la
aproximacin de mnimos cuadrados, en la versin de mnimo 2 , es la nica justificada desde
el punto de vista estadstico.

7.2.

Aproximacin de mnimos cuadrados

7.2.1.

Normas a partir de productos escalares

Si definimos el producto escalar de dos funciones como


< f (x)|g(x) >=

! b
a

f (x)g(x)dx

7.2. APROXIMACIN DE MNIMOS CUADRADOS

117

sobre un intervalo y
N

< f (x)|g(x) >= ! f (xi )g(xi )


i=1

sobre un conjunto discreto de puntos. La norma L2 se puede escribir en funcin del producto
escalar como
" f (x) g(x)"2 =< f (x) g(x)| f (x) g(x) >
tanto sobre un intervalo como un conjunto discreto de puntos.

7.2.2. Las ecuaciones normales de mnimos cuadrados


En general deseamos aproximar una funcin f (x) por una combinacin lineal de un conjunto
de n + 1 funciones base r (x)
n

f (x) =

! ar r (x)

r=0

El caso ms frecuente es cuando r (x) = xr , que se denomina aproximacin polinmica. Para


lleva a cabo la aproximacin tenemos que encontrar los coeficientes a0 , a1 , . . . , an que hacen la
funcin
"
"
"
"
n
"
"
E(a0 , a1 , . . . , an ) = " f (x) ! ar r (x)"
"
"
r=0
mnimo. Tenemos que minimizar E considerada como una funcin de los parmetros ar ,
n

E(a0 , a1 , . . . , an ) = < f (x) ! ar r (x)| f (x) ! ar r (x) >=


r=0

r=0

< f (x)| f (x) > 2 ! ar < f (x)|r (x) > +


r=0

ar as < s (x)|r (x) >

r,s=0

Las condiciones que se deben de cumplir para que exista un mnimo son, en primer lugar, la
anulacin de las derivadas primeras con respecto de los parmetros, y en segundo lugar que la
matriz de derivadas segundas o Hessiano sea definida positiva
E(a0 , a1 , . . . , an )
= 0
ai
# 2
#
# E(a0 , a1 , . . . , an ) #
#
# > 0
#
#
ai a j

La primera de las condiciones da

n
E(a0 , a1 , . . . , an )
= 2 < f (x)|i (x) > +2 ! ar < r (x)|i (x) >= 0
ai
r=0

118CAPTULO 7. APROXIMACIN DE FUNCIONES Y AJUSTE DE DATOS EXPERIMENTALES


Esta condicin implica el cumplimiento de un sistema de ecuaciones
n

! ar < r (x)|i(x) >=< f (x)|i(x) >

(7.1)

r=0

que se conocen como ecuaciones normales. Constituyen un sistema lineal para los parmetros
Aa = b
donde a es el vector de parmetros, b el vector de trminos independientes y A la matriz de coeficientes. La segunda condicin se cumple siempre, lo que se puede ver explcitamente suponiendo
que variamos los parmetros ar ar + ar y calculamos la diferencia
E(a0 + a0 , a1 + a1 , . . . , an + an ) E(a0 , a1 , . . . , an ) =
n

< f (x) ! (ar + ar )r (x)| f (x) ! (ar + ar )r (x) >


r=0

r=0

r=0

r=0

< f (x) ! ar r (x)| f (x) ! ar r (x) > =


n

r=0

s=0

= 2 ! ar < r (x)| f (x) ! as s (x) > + <

r=0

r=0

! ar r (x)| ! ar s(x) >

El primer trmino se anula por el cumplimiento de las ecuaciones normales y el segundo es


estrictamente positivo, puesto que es la norma de un vector no nulo.
El caso ms simple es cuando tenemos nicamente dos funciones base 0 y 1 . Entonces las
ecuaciones normales quedan como
a0 < 0 |0 > +a1 < 0 |1 >=< 0 | f >
a0 < 1 |0 > +a1 < 1 |1 >=< 1 | f >
cuyas soluciones, aplicando la frmula de Cramer son

a0

a1

#
# < 0 | f >
#
# < 1 | f >
= ##
# < 0 |0 >
# < 1 |0 >
#
# < 0 |0 >
#
# < 1 |0 >
= ##
# < 0 |0 >
# < 1 |0 >

#
< 1 |0 > ##
< 1 |1 > #
#
< 0 |1 > ##
< 1 |1 > #
#
< 0 | f > ##
< 1 | f > #
#
< 0 |1 > ##
< 1 |1 > #

7.2. APROXIMACIN DE MNIMOS CUADRADOS

119

Si consideramos el caso del ajuste lineal, 0 = 1 y 1 = x, en el caso de un conjunto discreto de


puntos tenemos
N

< 0 |0 >= ! 1 = N,
i=1
N

< 0 | f >= ! f (xi )


i=1

< 0 |1 >= !N
i=1 xi ,

< 1 |1 >= ! xi2 ,


i=1

< 1 | f >= !N
i=1 xi f (xi )

Poniendo yi = f (xi ) tenemos las frmulas usuales del ajuste de un conjunto de puntos por mnimos cuadrados:
a0 =

N
N
N
2
!N
i=1 yi !i=1 xi !i=1 xi !i=1 xi yi
$ N
%2
2
N !N
i=1 xi !i=1 xi

a1 =

N
N
2
!N
i=1 yi !i=1 xi N !i=1 xi yi
$ N
%2
2
N !N
i=1 xi !i=1 xi

En el caso de aproximaciones polinmicas de orden ms elevado (parablicas, cbicas, o combinaciones lineales de varias potencias distintas) procederamos de forma anloga, resolviendo
las ecuaciones por uno de los mtodos vistos en el captulo 4, en vez de por la regla de Cramer.
Podemos pensar que podemos continuar de esta forma hasta cualquier orden de aproximacin
aunque este no es el caso. De hecho para ms de 10 funciones, las ecuaciones normales estn
mal condicionadas, y dan resultados imprecisos con doble precisin. Para orden 100, incluso
con cudruple precisin en procesadores de 64 bits se obtienen resultados muy imprecisos. Sin
embargo no es raro que sea necesario aproximar una funcin por varios centenares de funciones
base. Esto ocurre por ejemplo cuando se descompone una onda sonora en armnicos o cuando se
estudian imgenes. Si obtenemos una solucin imprecisa de las ecuaciones normales los agudos
de una onda seran incorrectos y la imagen no sera ntida. Por ello hace falta un mtodo eficaz
de evitar el mal condicionamiento. Ello se consigue con funciones ortogonales. Decimos que las
funciones r son ortogonales si
< r |s >= nr rs

donde nr es la normalizacin de la funcin y i j es la delta de Kronecker. En este caso las


ecuaciones normales se simplifican a
ar < r |r >=< r | f >
con la solucin
ar =

< r | f >
< r |r >

La utilizacin de funciones ortogonales tiene dos ventajas: la primera es que desaparece el mal
condicionamiento, y la segunda es que cada coeficiente es independiente de los dems. Por lo
tanto, si deseamos extender la aproximacin a un orden superior, los coeficientes ya calculados
no varan, por lo se dice que tienen la propiedad de permanencia. Esta independencia es muy
importante en el caso de datos experimentales, puesto que implica que los distitos coeficientes
obtenidos ajustando mediante funciones ortogonales no estan correlacionados esdadsticamente.

120CAPTULO 7. APROXIMACIN DE FUNCIONES Y AJUSTE DE DATOS EXPERIMENTALES

7.2.3.

Series de Fourier

Sin duda alguna, las funciones ortogonales ms utilizadas son las funciones trigonomtricas
sin(x) y cos(x). El conjunto de funciones {1, cos(x), sin(x), cos(2x), . . .} son ortogonales en el
intervalo [, ] con las relaciones de ortogonalidad
!

dx cos kx cos mx =

dx cos kx sin mx =

dx cos kx =
2

dx(cos kx) =

El desarrollo de una funcin como


f (x)

dx sin kx sin mx = 0

dx sin kx = 0

dx(sin kx) =
2

m $= k

k>0
!

dx = 2

"
a0
+ ! (ar cos rx + br sin rx)
2 r=1

se conoce como serie de Fourier. Converge en la norma de mnimos cuadrados siempre que la
funcin sea peridica en [, ] y continua. Cuando la serie se trunca a un nmero finito de
trminos, frecuentemente grande, tenemos la aproximacin de Fourier. Los coeficientes vienen
dados por
!

1
1
1
a0 =
dx f (x)
ar =
dx f (x) cos rx
br =
dx f (x) sin rx



En casos analticamente sencillos los coeficientes de Fourier se calculan fcilmente. Consideremos por ejemplo una onda cuadrada, que se utiliza frecuentemente en electrnica.
&
1 x < 0
f (x) =
1
0x<

Esta funcin es una funcin impar. Tambin es discontinua, pero a pesar de esto la serie de
Fourier converge. Como cos x es par, los coeficientes ar se anulan. Los coeficientes br vienen
dados por
# ' 0
!
!
r par
#
1
2
2
4
br =
dx f (x) sin rx =
dx sin rx = cos rx## =
r impar

0

0
r
2 " sin[(2r + 1)x]
f (x) !
r=0
2r + 1
En el caso de una funcin peridica de perodo T , el desarrollo toma la forma

con
2
a0 =
T

! T /2

T /2

dt f (t)

f (x)

"
a0
2rt
2rt
+ ! (ar cos
+ br sin
)
2 r=1
T
T

2
ar =
T

! T /2

2rt
dt f (t) cos
T
T /2

2
br =
T

! T /2

T /2

dt f (t) sin

2rt
(7.2)
T

7.2. APROXIMACIN DE MNIMOS CUADRADOS

121

Serie de Fourier discreta


Las funciones trigonomtricas tambin son ortogonales sobre un conjunto finito de puntos.
Dada una funcin f (t) peridica con perodo T , si tomamos un conjunto de N + 1 puntos igualmente espaciados entre 0 y T (ts = sT /(N + 1), s = 0, . . . , N) se satisfacen las siguientes relaciones de ortogonalidad
'
N
0
k $= m, k = m = 0, N + 1
2kt
2mt
2ks
2ms
< sin
| sin
>= ! sin
sin
=
N +1
k = m $= 0, N + 1
T
T
N +1
N +1
s=0
2
N
2kt
2mt
2ks
2ms
< sin
| cos
>= ! sin
cos
= 0
T
T
N +1
N +1
s=0

0
N
2mt
2ms
2kt
2ks
N +1
< cos
| cos
>= ! cos
cos
=
2

T
T
N
+
1
N
+
1
s=0
N +1

El desarrollo

k $= m
k = m $= 0, N + 1
k = m = 0, N + 1

,
n +
a0
2ks
2ks
f (t) + ! ak cos
+ bk sin
2 k=1
N +1
N +1

converge a f (t) sobre el conjunto de N + 1 puntos en el sentido de mnimos cuadrados. Cuanto


tomamos N + 1 coeficientes, el desarrollo interpola a la funcin f (t) en el conjunto de N + 1
puntos. Si N es par (nmero de puntos impar), la funcin interpoladora es
FN+1

sT
N +1

+
,
a0 N/2
2ks
2ks
= + ! ak cos
+ bk sin
2 k=1
N +1
N +1

mientras que si N es impar (nmero par de puntos)


+
,
a(N+1)/2
sT
a0 (N1)/2
2ks
2ks
FN+1 (
)= + !
ak cos
+ bk sin
+
cos s
N +1
2
N +1
N +1
2
k=1
Los coeficientes del desarrollo vienen dados por
ak
bk

,
sT
2ks
cos
N +1
N +1
+
,
2 N
sT
2ks
=
f
sin
!
N + 1 s=0
N +1
N +1
2 N
=
!f
N + 1 s=0

Es interesante notar que ak y bk vienen dados por la evaluacin numrica mediante la regla
trapezoidal para N + 1 intervalos (N + 2 puntos, ampliando con el extremo del t = T ) de las
integrales de las ecuaciones 7.2, notando que f (0) = f (T ), T = (N + 1)h, y que los senos se

122CAPTULO 7. APROXIMACIN DE FUNCIONES Y AJUSTE DE DATOS EXPERIMENTALES


anulan en los extremos del intervalo:
.
+
,
N
2
f (0) + f (T )
sT
2ks
ak =
+! f
cos
N +1
2
N +1
N +1
s=1
.
+
,
N
2
sT
2ks
f
sin
bk =
!
N + 1 s=1
N +1
N +1

7.3. Polinomios ortogonales


El conjunto ms sencillo de funciones ortogonales son los polinomios. Se pueden definir
sobre un conjunto discreto de puntos o sobre un intervalo continuo. Vamos a definirlos por ahora
con coeficiente de la potencia ms elevada igual a la unidad. De esta forma siempre existe una
relacin de recurrencia del tipo (pk+1 (x) xpk (x))
k

pk+1 (x) = xpk (x) + ! ck+1


ps (x)
s

(7.3)

s=0

ya que (pk+1 (x) xpk (x)) es un polinomio de grado k, y por lo tanto siempre se puede expresar
como combinacin lineal de p0 (x), . . . , pk (x). Vamos a suponer nicamente la existencia de un
producto escalar sobre un intervalo [a, b] o sobre un conjunto discreto de N + 1 puntos. Dicho
producto escalar los supondremos de la forma ms general con una funcin peso w(x) en el caso
continuo y un conjunto de pesos ws en el caso discreto
< pk (x)|p j (x) >=

& /b

dxw(x)pk (x)p j (x)


N
!s=1 ws pk (xs )p j (xs )
a

Tenemos que determinar los coeficientes ck+1


s . Para ello multiplicamos escalarmente la ec. 7.3
por un polinomio dado pr (x), r k,
k

< pr |pk+1 >= 0 =< pr |xpk > + ! ck+1


< pr |ps >=< pr |xpk > +ck+1
< pr |pr >
s
r
s=0

de donde
ck+1
=
r

< pr |xpk >


< pr |pr >

Como < pr |xpk >=< pr x|pk > y xpr (x) es un polinomio de grado r + 1, que se puede expresar
como una combinacin lineal de p0 , . . . , pr+1 , < pr |xpk >= 0 para r = 0, 1, . . . , k 2. Por lo tanto
k+1
slo ck+1
pueden ser distintos de 0. Vienen dados por
k1 y ck
ck+1
k1 =

< pk1 |xpk >


< pk1 |pk1 >

7.3. POLINOMIOS ORTOGONALES

123

y
ck+1
=
k

< pk |xpk >


< pk |pk >

Los polinomios ortogonales satisfacen por lo tanto la relacin de recurrencia


k+1
pk+1 (x) = (x + ck+1
k )pk (x) + ck1 pk1 (x)

Para que esta relacin se cumpla tambin para p1 (x) se define p1 (x) = 0. Para obtener el ajuste
por mnimos cuadrados de una funcin dada f (x) , slo tenemos que calcular los coeficientes
y ck+1
ck+1
k
k1 mediante las ecuaciones anteriores para obtener los polinomios necesarios mediante
la relacin de recurrencia. El ajuste de mnimos cuadrados de orden n viene dado por
n

! ar pr (x)

r=0

donde ar se obtiene de
ar =

< f |pr >


< pr |pr >

El incremento del orden de aproximacin en una unidad implica, por lo tanto, el clculo de un
nuevo polinomio y un coeficiente, lo que equivale a realizar 6 productos escalares, que se reducen
a 4 dado las constantes de normalizacin de los polinomios < pr |pr > se han calculado durante la
obtencin del coeficiente previo. Esta es la forma ms eficiente de ajustar datos mediante polinomios de orden elevado, tanto para datos discretos como continuos, pues se evitan errores debidos
al mal condicionamiento de las ecuaciones normales, y por otro lado el esfuerzo numrico es
menor, y se puede elevar el orden aprovechando los clculos realizados para un orden inferior.
En el caso de datos discretos, el nico inconveniente es la dependencia de los polinomios del
conjunto de puntos, lo cual no es importante, pues la suma de polinomios ortogonales se puede
expresar de forma inmediata como un polinomio ordinario.
Para datos definidos en intervalos continuos hay polinomios ortogonales bien conocidos para
diversos pesos e intervalos, algunos de los cuales se dan en la tabla 7.1
Tabla 7.1: Principales polinomios ortogonales
Nombre
Peso
Intervalo Smbolo
Legendre
1
[1, 1]
Pn (x)
Hermite
exp(x)
[", "]
Hn (x)
2)
Laguerre
exp(x
[0, "]
Ln (x)

2
Chebychev
1/
[1, 1]
Tn (x)
1x
2
Chebychev 2 especie
1x
[1, 1]
Un (x)
Si la funcin f se conoce analticamente o se puede calcular con facilidad en cualquier punto
que se desee, los coeficientes del desarrollo de la funcin en serie de polinomios ortogonales se
pueden calcular por cualquiera de los mtodos de integracin vistos en el captulo anterior.

124CAPTULO 7. APROXIMACIN DE FUNCIONES Y AJUSTE DE DATOS EXPERIMENTALES

7.3.1.

Serie de Chebychev discreta

Otro conjunto de funciones que satisfacen relaciones de ortogonalidad sobre un conjunto


discreto de puntos son los polinomios de Chebychev.

7.4.

Aproximacin minimax

7.5.

Aproximacin por funciones racionales

7.6.

Modelado de datos experimentales

7.6.1.

Variables aleatorias, valores esperados y varianzas

Una variable aleatoria es una variable que puede tomar un conjunto de valores (continuo o
discreto) y que cada valor aparece con una probabilidad determinada. Por ejemplo el valor de la
cara de un dado puede tomar 6 valores con probabilidad 1/6. El nmero de desintegraciones de
una muestra radioactiva en la unidad de tiempo toma valores enteros. La variable puede tomar
valores continuos, en cuyo caso existe una distribucin de probabilidad o densidad de probabilidad p(x), definida en [", +"]. La probabilidad de que x tome un valor comprendido entre dos
valores a y b viene dada por
P(a < x < b) =

! b
a

p(x)dx

Se define el valor esperado de x, E[x], tambin denominado valor medio, como


E[x] = x =
y la varianza 2 (x) como

! "

"

2 (x) = E[(x x)2 ] =

xp(x)dx

! "

"

(x x)2 p(x)dx

Frecuentemente tenemos varias variables aleatorias que pueden aparecer simultneamente.


En este caso tenemos una distribucin de probabilidad conjunta p(x1 , x2 , ..., xn ). Si tenemos dos
variables aleatorias x1 y x2 , se define la covarianza (x1 , x2 ) como
(x1 , x2 ) = E[(x1 x1 )(x2 x2 ] =

! "

"

(x1 x1 )(x2 x2 )p(x1 , x2 )dx1 dx2

Si dos variables son independientes, su covarianza se anula, ya que en este caso p(x1 , x2 ) =
p(x1 )p(x2 ) y la integral anterior se descompone en el producto de dos integrales que se anulan,
lo cual se demuestra fcilmente teniendo en cuenta la definicin del valor medio.
Los datos experimentales se comportan como variables aleatorias. Cada vez que medimos
una magnitud fsica con suficiente precisin obtenemos un valor distinto. El conjunto de valores
de una serie de medidas se distribuye con una funcin de distribucin de probabilidad. Una serie
de medidas xi se caracteriza por su valor medio x y su desviacin tpica x .

7.6. MODELADO DE DATOS EXPERIMENTALES

7.6.2.

125

Comportamiento estadstico de los datos experimentales

Un caso particularmente importante es cuando deseamos ajustar datos experimentales mediante una funcin dependiente de parmetros ajustables. Esta funcin puede estar inspirada en
un modelo terico, o bien puede ser de carcter emprico, motivada nicamente por el comportamiento de los datos.
Los datos experimentales vienen siempre afectados de errores de medida. Estos errores pueden ser sistemticos o aleatorios. Los errores sistemticos son debidos al sistema o aparato de
medida y generalmente slo actan en una direccin. Tienen un nmero reducido de causas y
se pueden determinar frecuentemente a partir del anlisis del mtodo de medida, comparando
con otras medidas conocidas, o mediante un procedimiento de calibrado. Un ejemplo de error
sistemtico es el error de la medida de una longitud con una regla debido a la variacin de la
longitud de la regla con la temperatura. La correccin de este error se consigue conociendo el
coeficiente de dilatacin trmica de la regla con la temperatura (anlisis del mtodo de medida) o
comparando la longitud medida con una longitud conocida. Los errores aleatorios por otro lado
tienen un nmero muy elevado de causas, difciles de identificar por separado, y que producen
una contribucin aleatoria en cada medida independiente. Cada una de las causas produce una
pequea contribucin y el error aleatorio total es la suma de todas las causas por separado. El
error aleatorio se puede representar matemticamente por una suma de variables aleatorias.
El teorema del lmite central establece que una suma de variables aleatorias independientes
con distribuciones arbitrarias tiende a la distribucin normal. En trminos matemticos:
Si x1 , x2 , x3 , . . . es una sucesin de variables aleatorias independientes, con distribuciones de
probabilidad arbitrarias con medias i y desviaciones tpicas i , y formamos la nueva sucesin
de variables aleatorias yk definidas por
!ki=1 (xi i )
yk = $
%1/2
!ki=1 i2

la funcin de distribucin de yk tiende a una distribucin normal con media 0 y desviacin tpica
1 cuando k tiende a ".
La distribucin de probabilidad de una distribucin normal de media y desviacin tpica
viene dada por
1
(x )2

P(x) =
exp
2 2
2

7.6.3.

Principio de mxima verosimilitud

El principio de mxima verosimilitud establece que si obtenemos los valores x1 , x2 , . . . , xn en


N medidas de una variable aleatoria x, ese conjunto de valores tena una probabilidad mxima
de ocurrir. Vamos a ver como podemos utilizar este principio para obtener parmetros de distribuciones. La probabilidad de obtener el anterior conjunto de medidas la podemos escribir, en el
caso de que la variable x satisface la distribucin normal, como
P(x1 , x2 , . . . , xN ) =

2
1
!N
i=1 (xi )
exp

2 2
(2 2 )N/2

126CAPTULO 7. APROXIMACIN DE FUNCIONES Y AJUSTE DE DATOS EXPERIMENTALES


Si esta probabilidad es mxima, los parmetros y deben ser tales que se satisfagan las
ecuaciones
P(x1 , x2 , . . . , xN )
= 0

P(x1 , x2 , . . . , xN )
= 0

La primera de las ecuaciones da


N

2 ! (xi ) = 0
i=1

y por lo tanto la solucin es


=

!N
i=1 xi
N

La segunda ecuacin queda como


N (N+1) exp

N
2
2
2
!N
!N
N !i=1 (xi )
i=1 (xi )
i=1 (xi )
+

exp

=0
2 2
3
2 2

(xi )2
N !N
+ i=1 3
=0

dando como solucin

2
!N
i=1 (xi )
N
que son los estimadores usuales de la media y desviacin tpica.
Vamos a aplicar ahora el principio de mxima verosimilitud a un conjunto de datos experimentales que satisfacen una ley que depende de n parmetros:

2 =

y = f (x, a0 , . . . , an )
Si medimos N puntos (xi , yi ) entonces el principio de mxima verosimilitud establece que
+
,
1
1 N yi f (xi , a0 , . . . , an ) 2
P(x1 , x2 , . . . , xN ) =
exp !
2 i=1
i
(2)N/2 1 2 N
es mximo lo que implica que el trmino
N

(a0 , a1 , . . . an ) = !
2

i=1

yi f (xi , a0 , . . . , an )
i

es mnimo. En el caso de una funcin lineal de los parmetros


f (xi , a0 , . . . , an ) =

! ar r (xi)

r=0

,2

7.6. MODELADO DE DATOS EXPERIMENTALES

127

obtenemos, derivando con respecto de los parmetros de forma anloga al caso de un conjunto
de puntos, las ecuaciones normales
n

N
r (xi )s (xi )
yi s (xi )
=
!
2
i
i2
i=1
i=1
N

! ar !

r=0

que se pueden poner en la forma 7.1 con la definicin de producto escalar


r (xi )s (xi )
i2
i=1
N

< r |s >= !

Vemos que la condicin de que 2 sea mnimo implica unas ecuaciones normales con un producto escalar cuyos pesos son los inversos de las varianzas de los errores de los puntos. El producto
escalar con pesos se puede escribir como

< r |s >= ( r (x1 ) r (x2 ) r (xN ) )

1
1 2

0
..
.

1
2 2

.. . .
.
.
0

0
r (x1 )
..
r (x2 )
.

..

.
0
1
r (xN )

N 2

con lo que las ecuaciones normales se pueden escribir como

0 (x1 ) 0 (x2 ) 0 (xN )


1 (x1 ) 1 (x2 ) 1 (xN )
..
..
..
..
.
.
.
.
n (x1 ) n (x2 ) n (xN )

Definiendo
1

W =

1 2

0
..
.
0

0
1
2 2

..
.

..
.
0

0
..
.

1
N 2

y=

1
1 2

0
..
.
0

1
2 2

..
.

0 (x1 )
1 (x1 )
..
.
n (x1 )

y1
y2
..
.
yN

0
0 (x1 ) 1 (x1 )
..
0 (x2 ) 1 (x2 )
.

..
..
..

..
.
.
.
. 0
1
0 (xN ) 1 (xN )
0 N 2
1
0
1 2
0 (x2 ) 0 (xN )

1 (x2 ) 1 (xN )
0 1 2

..
..
..
.
..

.
.
.
..
.
n (x2 ) n (xN )
0

#=

0 (x1 )
0 (x2 )
..
.

1 (x1 ) n (x1 )
1 (x2 ) n (x2 )
..
..
..
.
.
.
0 (xN ) 1 (xN ) n (xN )

la matriz de coeficientes de las ecuaciones normales queda como


A = #T W #

n (x1 )
n (x2 )
..
.

n (xN )

..
.
0

a0
a1
..
.
an

0
y1
..
y2
.

..
.
0
1
yN

N 2

a=

a0
a1
..
.
an

128CAPTULO 7. APROXIMACIN DE FUNCIONES Y AJUSTE DE DATOS EXPERIMENTALES


y podemos escribir las ecuaciones normales en forma compacta como
#T W #a = #T Wy
con lo que

a = (#T W #)1 #T Wy = #1W 1 (#T )1 #Wy = #1 y

Obtenenos una ley lineal para la dependencia de a co y. Llamando


S = #1
podemos escribir la ley lineal como
a = Sy

7.6.4.

Errores de los parmetros

Si tenemos una ley lineal


ai =

! Si j y j

j=1

los valores medios de los parmetros viene dado por


ai =

! Si j yj

j=1

Las medidas yi son independientes, y por lo tanto, sus covarianzas


2 (yl , ym ) = E[(yl yl )(ym ym ) = lm l2
son nulas. Las varianzas y covarianzas de los parmetros vienen dadas por
T
2 (ai ) = E[(ai ai )2 ] = ! Sil Sim E[(yl yl )(ym ym )] = ! Sil Sim lm 2 (ym ) = ! Smi
Sim m2 = [SW 1 ST ]ii
lm

lm

T
(ai , a j ) = E[(ai ai )(a j aj )] = Sil S jm E[(yl yl )(ym ym )] = Sil S jm lm 2 (ym ) = Smi
S jm m2 =

[SW 1 ST ]i j

La matriz SW 1 ST cumple
SW 1 ST = #1W 1 (#1 )T = (#T W #)1 = A1
por lo que que la matriz de covarianzas es la inversa de la matriz de coeficientes. Podemos
expresar los parmetros con su error como
7
ai [A1 ]
ii

7.6. MODELADO DE DATOS EXPERIMENTALES

129

Si el trmino (i, j) de A1 es elevado, entonces los parmetros ai y ai estn muy correlacionados,


y la supresin de uno de ellos debe ser considerada. Notemos que, en el caso de ajuste por
funciones ortogonales, la matriz de coeficientes es diagonal y por lo tanto tambin su inversa,
la matriz de covarianzas. Por lo tanto, los coeficientes de los ajustes por funciones ortogonales
no estn correlacionados, lo cual es una ventaja adicional obtenida en el empleo de este tipo de
funciones. Los errores de los parmetros vienen dados, en el caso de ajustes mediante funciones
ortogonales, por
7
< pi |pi >1

ai

Ajuste de puntos experimentales mediante una lnea recta


En el caso del ajuste lineal tenemos el sistema de ecuaciones para el vector de parmetros a
Aa = b
donde

1
xi
N
?
!i=1 2 >

i2
i
S Sx

A=
2 =
xi
Sx Sxx
N xi
N
!i=1 2 !i=1 2
i
i
!N
i=1

yi
>
?
Sy
i2

b = N xi yi =
Sxy
!i=1 2
i
Las soluciones de los parmetros son
Sy Sxx Sx Sxy
SSxy Sx Sy
a0 =
a1 =
2
SSxx Sx
SSxx Sx2
y la matriz de covarianzas es
>
?
1 Sxx Sx
1
A =
$ Sx S
!N
i=1

2
donde el determinante de la matriz de
@coeficientes $ =@SSxx Sx . Si el ajuste es y = a0 + a1 x
Sxx
S
los errores de a0 y a1 valen (a0 ) =
y (a1 ) =
mientras que la covarianza de a0 y
$
$
a1 viene dada por
Sx
2 (a0 , a1 ) =
$
Se define el coeficiente de correlacin de los parmetros r(a0 , a1 ) como la covarianza dividida
por el producto de desviaciones tpicas

2 (a0 , a1 )
Sx
=
(a0 ) (a1 )
SSxx
y est comprendido entre 1 y 1. Si es positivo los errores de a0 y a1 tienen el mismo signo y si
es negativo, signo contrario.
r(a0 , a1 ) =

130CAPTULO 7. APROXIMACIN DE FUNCIONES Y AJUSTE DE DATOS EXPERIMENTALES

7.6.5.

La distribucin 2

La variable aleatoria
N

(a0 , a1 , . . . an ) = !
2

i=1

yi f (xi , a0 , . . . , an )
i

,2

se distribuye mediante un distribucin de probabilidad bien conocida en Estadstica, conocida


como distribucin 2 (de ah nuestra notacin). Su valor nos indica la bondad del ajuste.
En general, si tenemos k variables aleatorias yi distribuidas normalmente con media i y
desviacin tpica i , la variable
,
k +
yi i 2
2
=!
i
i=1

se distribuye segn la distribucin 2 con k grados de libertad. Esta distribucin depende de dos
parmetros, la variable 2 y el nmero de grados de libertad , que en nuestro caso es el nmero
de puntos menos el nmero de parmetros, = N n 1. La distribucin 2 est definida como

2
$
%

1
/21
f ( 2 , ) = /2 $ % 2
e 2
2 % 2

2 > 0

donde %(x) = 0" dueu ux1 . Esta funcin de distribucin tiene media = y varianza 2 = 2,
con un mximo en 2. En la figura se muestra la distribucin 2 con 6 grados de libertad.
La distribucin 2 se aproxima de la distribucin normal para grandes valores de . En la
prctica, para > 30 es aproximadamente normal. La probabilidad de que 2 < 02 es
F(02 , ) =

! 2
0
0

f ( 2 , )d 2

y la probabilidad de que 2 > 02 es


P( 2 > 02 ) = 1 F(02 , )

Si P( 2 > 02 ) < 0,01 tenemos menos un 1 % de probabilidad de encontrar este valor de 02 y


podemos rechazar el ajuste con un nivel de confianza de un 1 %. En general si 2 / > 2 podemos
pensar que el ajuste no es aceptable para > 30. Generalmente esto significa que nuestro modelo
no describe adecuadamente los datos, sea porque el nmero de funciones base empleadas es
insuficiente o porque las funciones
base empleadas son inadecuadas. El valor medio de 2 / es
A
1 y su desviacin tpica es 2/. Si obtenemos 2 ( 1 entonces lo ms probable es que estemos
sobreestimando los errores experimentales.

7.7.

Tests estadsticos basados en la distribucin 2

La distribucin 2 es una herramienta poderosa para decidir si una ley determinada describe
adecuadamente unos datos experimentales. Si tenemos N datos con n + 1 parmetros, el valor de

7.7. TESTS ESTADSTICOS BASADOS EN LA DISTRIBUCIN 2

0.14

131

"chi2-nu6"

0.12

0.1

0.08

0.06

0.04

0.02

0
0

10

15

20

Figura 7.1: Distribucin 2 con 6 grados de libertad

25

30

132CAPTULO 7. APROXIMACIN DE FUNCIONES Y AJUSTE DE DATOS EXPERIMENTALES


2 debe de satisfacer la distribucin 2 con = N n 1 grados de libertad. Esto quiere decir
que si obtenemos un valor de 2 muy pequeo o muy grande, este valor es muy poco probable
y la ley no es satisfactoria. Cuando se obtienen valores muy pequeos, lo que sucede en general
es que los errores estn sobreestimados. Por lo tanto se presta atencin en general a los valores
muy grandes de 2 . Si por ejemplo, obtenemos un valor 02 tal que
P( 2 > 02 ) = 0,05
este valor slo tiene un 5 % de probabilidad de ocurrir. En este caso, podemos rechazar la ley (el
conjunto de parmetros) con un nivel de significacin del 5 %. Decimos que 2 est fuera del
intervalo de confianza de 95 %. En el ajuste de datos experimentales se suele prestar atencin slo
a valores de 2 grandes, por lo que decimos que hacemos un test de una cola. Sin embargo, si no
hay evidencias de sobreestimacin de los errores, se debe hacer un test de dos colas. Elegimos
un nivel de significacin (generalmente de 0.05 o 0.01) y determinamos (mediante tablas
2 y 2
estadsticas o un programa) los valores de /2
1/2 tales que
2
2
P( 2 < /2
) = P( 2 > 1/2
) = /2
2 , 2
Al intervalo [/2
1/2 ] le denominamos intervalo de confianza de nivel 1 . Si el valor
2
de obtenido cae dentro de este intervalo, aceptamos la ley con un nivel de confianza 1
mientras que si cae fuera la rechazamos con un nivel de significacin de (normalmente se
expresa en %). Por ejemplo, si tenemos 13 puntos ajustados por una parbola, tenemos = 10.
Si queremos hacer un test con un intervalo de confianza del 5 %, encontramos en las tablas que
2
2
para = 10 0,025
= 3,25 y 0,975
= 20,5 . Por lo tanto, si obtenemos valores de 2 menores
que 3.25 o mayores que 20.5, rechazamos los parmetros con un nivel de significacin del 5 %,
mientras que si 2 cae en este intervalo, aceptamos los parmetros con un nivel de confianza del
95 %. Valores de 2 muy pequeos pueden ser indicativos de datos fraudulentos (amaados).

7.8.

Ajuste de funciones que dependen en forma no lineal de


los parmetros

En diversas ciencias aparecen frecuentemente leyes con una dependencia no lineal de los
parmetros. En este caso, no existe un sistema de ecuaciones cuya solucin de el valor ptimo
de los parmetros. En el caso no lineal, la solucin a menudo no es nica, sino que existen varios
mnimos relativos.

7.8.1.

Reduccin a la forma lineal mediante cambio de variables

En lagunas ocasiones una ley no lineal se puede reducir a otra lineal mediante un cambio de
variables. Esto sucede por ejemplo en el caso de leyes exponenciales
y = ceax

7.8. AJUSTE DE FUNCIONES QUE DEPENDEN EN FORMA NO LINEAL DE LOS PARMETROS133


En este caso el cambio de variables de y a y) = ln y reduce el problema a la ley lineal
y) = c) + ax
con c) = ln c. Este cambio de variables tiene la ventaja adicional de resalta los detalles de la ley
para valores pequeos de y ( si y vara entre 1 y 106 , y) vara entre 0 y 6). En el caso de datos
experimentales afectados de errores, tambin hay que transformar los errores. En el caso de la
ley exponencial
dy)
y
y) =
y =
dy
y

7.8.2.

Mtodo de la mxima pendiente

Frecuentemente tenemos una ley no lineal


y = f (x, a)
donde a = (a0 , a1 , ..., an ) es el vector de parmetros y x = (x1 , x2 , ..., xm ) es un vector de coordenadas que toma valores en un espacio de m dimensiones (no necesariamente coordenadas fsicas).
La funcin f es una funcin no lineal de los parmetros ai . Si realizamos una serie de N medidas
yi con errores experimentales i en N puntos xi , la funcin 2 es tambin no lineal
(yi f (xi ,a)2
i2
i=1
N

2 (a0 , a1 , ..., an ) = !

El conjunto ptimo de parmetros a es aquel que minimiza 2 . Sin embargo no tenemos un


sistema de ecuaciones para calcularlo. La forma de encontrar el mnimo es avanzar en la direccin
del espacio de los parmetros en la direccin en la que 2 disminuye, considerando 2 como una
superficie en un espacio de n + 1 dimensiones. Como la direccin de mximo aumento viene
dada por el gradiente, la direccin de mxima disminucin u es la direccin opuesta al gradiente:
+
,
2 2 2
2
2
u = &a (x, a) =
,
,
, ...,
a0
a1
a2
an
Partimos de un punto inicial a0 dado por razonamientos fenomenolgicos o tericos o incluso
arbitrario. Las derivadas se pueden calcular numricamente si no conocemos la forma analtica
de f . Si estamos lejos del mnimo, avanzamos una distancia h en el espacio de los parmetros
a1 =a0 +hu
y recalculamos el valor de 2 . Si 2 disminuye, aumentamos h por un factor F de xito (10 es
una opcin frecuente, pero tambin se puede elegir un valor menor como por ejemplo 2) mientras
que si 2 aumenta dividimos h por un factor de fracaso (2 es un valor comn). De esta manera
nos vamos aproximando al mnimo. Tendremos en nuestro programa una actualizacin de los
valores de h y a dadas por
h = hold F

134CAPTULO 7. APROXIMACIN DE FUNCIONES Y AJUSTE DE DATOS EXPERIMENTALES


anuevo =aactual +hu
La funcin 2 es aproximadamente parablica cerca del mnimo. Si el mnimo es a0 , podemos
desarrollar 2 (a0 ) en serie de potencias alrededor de a
2 (a0 ) = 2 (a) + &a 2 (a) (a0 a) +

1 2 2 (a)
(ai0 ai )(a j0 a j ) +
2 ai a j

y retener los tres trminos escritos explcitamente. El tercer trmino del segundo miembro es una
forma cuadrtica construida con el Hessiano de 2 . Podemos escribir esta ecuacin como una
funcin de la diferencia d = a0 a:
1
2 (a0 ) = 2 (a) + &a 2 (a) d + dT Hd
2
donde la matriz H viene dada por
Hi j =

1 2 2 (a)
2 ai a j

Reteniendo estos dos trminos y calculando el gradiente a ambos lados, imponiendo la condicin
&d 2 (a0 ) = 0
obtenemos una estimacin de d = a0 a:
&a 2 (a) + Hd = 0
de donde obtenemos

d = H 1 &a 2 (a)

de donde obtenemos una estimacin de a0 :

a0 = a H 1 &a 2 (a)
Si estamos cerca del mnimo podemos intentar obtener el mnimo mediante el siguiente esquema
iterativo inspirado en la anterior ecuacin:
anew = aold H 1 &a 2 (aold )
que suele converger si estamos suficientemente prximos del mnimo. Cada iteracin implica el
clculo del gradiente y del Hessiano de 2 . Vamos ahora a obtener las expresiones explcitas del
gradiente y Hessiano de 2 . Tenemos
(yi f (xi ,a)2
(a0 , a1 , ..., an ) = !
i2
i=1
2

con lo que tenemos para las componentes del gradiente


N
2 (a)
(yi f (xi ,a) f (xi ,a)
= 2 !
ak
ak
i2
i=1

7.9. EJERCICIOS

135

Volviendo a derivar, tenemos para las componentes del Hessiano


>
?
N
2 2 (a)
1 f (xi ,a) f (xi ,a)
2 f (xi ,a)
=2! 2

(yi f (xi ,a)


ak al

a
ak al

k
l
i=1 i
El trmino

1
2 f (xi ,a)
(y

f
(x
,a)

i
i
2
ak al
i=1 i
N

2 !

es una suma de valores aleatorios, ya que yi f (xi ,a) se distribuye normalmente,por lo que en
general es despreciable. De hecho se encuentra que frecuentemente las iteraciones convergen
mejor si se elimina este trmino, por lo que se toma
>
?
N
2 2 (a)
1 f (xi ,a) f (xi ,a)
=2! 2

ak al

a
al

k
i=1 i
El mtodo iterativo queda por lo tanto como
al,new = al + 2Hlk1

con

(yi f (xi ,a) f (xi ,a)


ak
i2
i=1
N

>
?
1 f (xi ,a) f (xi ,a)
Hlk = 2 ! 2

a
al

k
i=1 i
N

con lo que cada paso implica slo el clculo de f (xi ,a), y su gradiente, o sea la evaluacin de
n + 2 funciones para cada punto yi .

7.9.

Ejercicios

1. Determnese los parmetros a y b que ajustan la curva y = a + b sin(x) a la tabla de valores


adjunta. Obtener el valor de 2 y los errores con los que se determinan los parmetros.
Hgase una representacin grfica de los valores ajustados y empricos.
x 0,0 0,3 0,5 0,7 0,9 1,0
y 1,80 1,71 1,50 1,45 1,17 1,17
0,2 0,2 0,2 0,2 0,2 0,2

2. Se desea ajustar la funcin modelo y = ax2 + b al conjunto de datos especificado en la


tabla adjunta. Hacer las transformaciones de variables adecuadas para que el ajuste sea
lineal, realizando las transformaciones correspondientes para los errores.
x 0.1 0.6 1.0 1.5 2.0 2.5
y 1.0 1.4 2.1 2.8 3.6 4.4
0.05 0.2 0.05 0.1 0.2 0.1

136CAPTULO 7. APROXIMACIN DE FUNCIONES Y AJUSTE DE DATOS EXPERIMENTALES


3. Ajustar minimizando 2 la curva y = Aex + Bex a la siguiente tabla de valores. Presentar
los valores de los parmetros ajustados, sus errores y el valor de 2 Se trata de un buen
ajuste?
x
-4 -3 -1 0
1
2
4
y 163 61 11 8 15 37 270

3
1
1 0.2 1
2
4
4. Ajustar minimizando 2 la curva y = A + Bex a la siguiente tabla de valores. Presentar
los valores de los parmetros ajustados, sus errores y el valor de 2. Se trata de un buen
ajuste?
x 0.0 1.0 1.5
2.0
2.5
y 5.1 8.2 22.0 112.1 1039.0
0.2 0.1 0.2
0.1
0.3

5. Ajustar minimizando 2 la curva y = a x + b ln(1 + x) a la siguiente tabla de valores.


Presentar los valores de los parmetros ajustados, sus errores y el valor de 2 Se trata de
un buen ajuste?
x
1
2
4
8
10 12
y
4
6
9
12 14 15
0.3 0.3 0.3 0.3 0.3 0.3
2

6. Ajustar minimizando 2 la curva y = ax + bex /2 a la siguiente tabla de valores. Presentar


los valores de los parmetros ajustados, sus errores y el valor de 2 Se trata de un buen
ajuste?
x -2 -1
0
1
2
y -1
5
10
7
4
0.4 0.2 0.2 0.2 0.4

You might also like