Minimos Cuadrados 1

M
ETODOS MATEM
ATICOS (Curso 2010-2011)

Cuarto Curso de Ingeniero Industrial
Departamento de Matematica Aplicada II. Universidad de Sevilla
Leccion 3: Problemas de Mnimos Cuadrados.
Optimizacion No Lineal
PROBLEMAS SOBREDETERMINADOS: SOLUCI
ON DE M
INIMOS
CUADRADOS.
Introduccion. Hay muchas situaciones donde se plantea la obtencion de un cierto modelo
matem atico lineal que ajuste a un conjunto de datos dados. Esto conduce usualmente a la res-
olucion de un sistema de ecuaciones lineales con mas ecuaciones que incognitas, o problema
sobredeterminado, que casi siempre resulta ser incompatible. Para dichos sistemas se introduce
un concepto nuevo de solucion (que coincide con el usual cuando el sistema es compatible),
denominado solucion en el sentido de los mnimos cuadrados, determinando vectores que min-
imicen la norma eucldea del correspondiente vector residual.
Problemas sobredeterminados. Cuando un sistema lineal tiene mas ecuaciones que incogni-
tas es facil que sea incompatible, esto es, que no posea solucion.
Dada una matriz A real de orden mn y un vector b R
m
, si m > n se dice que el sistema
Ax = b es sobredeterminado. En la practica es improbable que este sistema sea compatible.
Por ello, introducimos un nuevo concepto de solucion: se dice que x R
n
es una solucion en el
sentido de los mnimos cuadrados del sistema Ax = b si se verica que
|b A x| |b Ax| , para todo x R
n
,
o, equivalentemente, si x es un mnimo de la funcion real de n variables,
x R
n
f(x) =
n
j=1
(b
j
(Ax)
j
)
2
. (1)
De hecho, la solucion proporcionada por Matlab en el ejemplo mostrado es la solucion de
mnimos cuadrados del sistema incompatible Ax = b.
Desde un punto de vista geometrico, estamos buscando la mejor aproximacion en norma
eucldea del vector b al subespacio vectorial col(A) generado por las columnas de A. El teorema
de la mejor aproximacion establece que la solucion de mnimos cuadrados siempre existe y es
justamente la proyeccion ortogonal de b sobre col(A).
En particular, Si x es solucion de mnimos cuadrados, entonces tenemos que
b A x col(A) A
T
(b A x) = 0 A
T
A x = A
T
b.
1
Por ultimo, comentemos que si A no tiene rango maximo siempre existen vectores x R
n
no
nulos tales que Ax = 0 (observe que este sistema es compatible indeterminado). En este caso,
si x es solucion de mnimos cuadrados tambien lo son x+x, pues A( x +x) = A x. En cambio, si
A es una matriz mn, con m > n y rg(A) = n, la solucion de mnimos cuadrados s es unica.
Resumimos todo lo anterior en el siguiente resultado:
Teorema 1. (Ecuaciones normales de Gauss). Sea A una matriz real m n y b R
m
. Las
siguientes armaciones son equivalentes:
x es una solucion en el sentido de los mnimos cuadrados del sistema Ax = b.
x es solucion del sistema A
T
Ax = A
T
b (ecuaciones normales de Gauss).
b A x es ortogonal a col(A).
Ademas, si el rango de A es maximo, rg(A) = n, entonces la solucion de mnimos cuadrados es
unica.
Nota 1. A las ecuaciones normales de Gauss tambien se llega sin necesidad de argumentos
geometricos. De hecho, la solucion de mnimos cuadrados x es un mnimo de la funcion f
denida en (1) y por tanto, el gradiente de esta funcion debe anularse en x:
f(x) = |b Ax|
2
= (bAx)
T
(bAx) = x
T
A
T
Ax2x
T
A
T
b+b
T
b f(x) = 2(A
T
AxA
T
b).
Las ecuaciones normales de Gauss estan peor condicionadas que otros sistemas que tam-
bien permiten encontrar la solucion de mnimos cuadrados, por lo que no conviene usarlas en
los problemas de mnimos cuadrados. En realidad, las tecnicas ecientes para la resolucion de
los problemas de mnimos cuadrados suelen basarse en transformar las ecuaciones normales
mediante ciertas factorizaciones matriciales que recordamos a continuacion.
Descomposicion QR de una matriz. Del mismo modo que el metodo de eliminacion de Gauss
se traduce en la factorizacion LU de una matriz A, en la asignatura de

Algebra de primer curso
se mostr o que cuando el metodo de ortogonalizacion de Gram-Schmidt se aplica a las columnas
de una matriz A, se obtiene otro tipo de factorizacion para dicha matriz:
Teorema 2. (Descomposicion QR) Sea A una matriz real m n, de rango n m. Entonces,
podemos factorizar la matriz en la forma:
A = QR,
donde Q es una matriz mm ortogonal (esto es, Q
1
= Q
T
o equivalentemente, las columnas
de Q son ortonormales), y R es una matriz m n, de rango n, cuyas m n ultimas las son
nulas, y sus n primeras las forman una matriz cuadrada triangular superior.
Si se conoce una descomposicion QR de la matriz A, entonces las soluciones en el sentido de
los mnimos cuadrados de Ax = b se pueden calcular resolviendo (tambien en el sentido de los
mnimos cuadrados) el sistema
Rx = Q
T
b. (2)
2
Ello es debido a que A
T
A x = A
T
b R
T
Q
T
QR x = R
T
Q
T
b R
T
R x = R
T
Q
T
b.
El uso de la descomposicion QR para resolver por mnimos cuadrados el sistema Ax = b
presenta ventajas desde el punto de vista numerico: observe que el procedimiento llevado a cabo
involucra el producto por matrices ortogonales y este proceso conserva la norma matricial y el
n umero de condicion.
No obstante, la obtencion de la factorizacion QR tal como se menciono en la asignatura de
Algebra (a traves del metodo de ortogonalizacion de Gram-Schmidt aplicado a las columnas de

la matriz A) es un metodo inestable numericamente. A continuacion, presentamos un metodo
para obtener dicha descomposicion que no presenta esta dicultad.
Metodo de Householder para la descomposicion QR. Un hiperplano V es un subespacio
de R
m
de dimension m 1. Si una ecuacion implcita de dicho hiperplano es v
T
x = 0 (para
cierto vector no nulo v de R
m
), entonces V = lin(v)
o bien V

= lin(v).
Una simetra especular es una transformacion de R
m
en s mismo que a cada punto le hace
corresponder su simetrico respecto de un hiperplano V . Si V = lin(v)
, la simetra especular en
torno a V es
x
_
I 2
vv
T
v
T
v
_
x.
La matriz H
v
= I 2
vv
T
v
T
v
de la simetra especular se denomina matriz reectora de Householder.
Esta matriz es simetrica y ortogonal. Ademas, dado un vector cualquiera x R
m
, siempre es
posible encontrar una matriz de Householder que lo transforma en uno proporcional al primer
vector coordenado e
1
= [1, 0, . . . , 0]
T
:
Teorema 3. Sea x = [x
1
, . . . , x
m
]
T
R
m
(m > 1), x ,= 0. Sea =
_
sign(x
1
), si x
1
,= 0
1, si x
1
= 0
_
,
y denamos v = x + |x| e
1
. Entonces, la matriz de Householder H
v
asociada a este vector,
verica:
H
v
x =
_
_
|x|
0
.
.
.
0
_
_
.
Pasemos a describir como se puede obtener la factorizacion QR de una matriz A mn
(m n > 1) con rango rg(A) = n.
Consideramos la primera columna de la matriz A:
b
1
=
_
_
a
11
.
.
.
a
m1
_
_
,
Aplicando el teorema anterior, podemos determinar una matriz de Householder H
1
(de orden
3
m) tal que la primera columna de H
1
A tenga las componentes nulas por debajo de la diagonal:
H
1
A = A
(2)
=
_
_
a
(2)
11
a
(2)
12
. . . a
(2)
1n
0 a
(2)
22
. . . a
(2)
2n
.
.
.
.
.
.
.
.
.
0 a
(2)
m2
. . . a
(2)
mn
_
_
.
Denotemos Q
(1)
= H
1
. Ahora nos jamos en la segunda columna de la matriz A
(2)
a partir de
la diagonal, en concreto en el vector
b
2
=
_
_
a
(2)
22
.
.
.
a
(2)
m2
_
_
.
Volvemos a aplicar el teorema anterior y obtenemos una matriz de Householder

H
2
(de orden
m 1) de modo que

H
2
b
2
tenga las componentes nulas por debajo de la primera. Por tanto si
denimos
H
2
=
_
1 0
T
0

H
2
_
, tenemos que H
2
A
(2)
= A
(3)
=
_
_
a
(2)
11
a
(2)
12
a
(2)
13
. . . a
(2)
1n
0 a
(3)
22
a
(3)
23
. . . a
(3)
2n
0 0 a
(3)
33
. . . a
(3)
3n
.
.
.
.
.
.
.
.
.
.
.
.
0 0 a
(3)
m3
. . . a
(3)
mn
_
_
,
y denotamos
Q
(2)
= H
2
.
Si continuamos el proceso sucesivamente, obtenemos el siguiente resultado:
Teorema 4. Si A es una matriz m n con 1 < rg(A) = n m, el metodo anterior genera
una matriz mm ortogonal Q =
_
H
1
. . . H
m1
, si m = n
H
1
. . . H
n
, si m > n
, y una matriz mn, R = A
(m)
cuyas mn ultimas las son nulas y cuyas n primeras forman una matriz triangular superior
de rango n, y tales que
A = QR.
El coste computacional del metodo de Householder descrito anteriormente requiere
2m
2
n
n
3
3
ops, (3)
es decir, para matrices cuadradas es aproximadamente el doble que el de efectuar la factorizacion
LU de A con el metodo de eliminacion gaussiana.
4
MATRICES DE RANGO DEFICIENTE.
Introduccion. Anteriormente hemos tratado el caso de sistemas lineales Ax = b donde A tiene
mas las que columnas, pero de rango maximo. Tratamos ahora el caso en que el rango no es
maximo. En este caso, la matriz A de coecientes del sistema se dice que es de rango deciente.
En el caso matrices de rango deciente es posible tambien obtener la descomposicion QR.
El siguiente resultado es analogo al que hemos visto anteriormente:
Teorema 5. Sea A una matriz real mn, de rango r. Entonces, podemos factorizar la matriz
en la forma:
A = QR,
donde Q es una matriz m m cuyas columnas son ortogonales, y R es una matriz m n
trapezoidal superior de rango r.
Ademas, eliminando en Q las columnas nulas, puede obtenerse una factorizacion A = Q
1
R
1
tal que Q
1
es una matriz mr con columnas ortonormales y R
1
es una matriz trapezoidal superi-
or rn (este ultimo tipo de factorizaciones QR se denominan factorizaciones QR normalizadas
o reducidas).
Comentemos, por ultimo, que la descomposicion QR puede obtenerse mediante el metodo
de Householder.
Para matrices de rango deciente es estandar aceptar como solucion la que se conoce como
solucion optima, que se dene como la solucion x
en el sentido de mnimos cuadrados de norma

mnima, es decir, |x
| | x| para toda solucion de mnimos cuadrados x de Ax = b.

El calculo efectivo de la solucion optima pasa por la descomposicion en valores singulares de
la matriz A. Antes de ver como se calcula la solucion optima x
, terminamos esta introduccion

con un resultado de caracterizacion de la misma:
Teorema 6. Sea A matriz mn con rg(A) = r < n m y b R
n
.
Si x es una solucion de mnimos cuadrados del problema Ax = b, entonces el conjunto de
soluciones de mnimos cuadrados es
y = x + z[z Nul(A), donde Nul(A) = z R
n
[Az = 0.
La solucion optima x
es la unica que satisface que z

T
x
= 0, para todo z Nul(A).

Descomposicion en valores singulares (SVD). Si A es una matriz mn (m n) de rango
r, la matriz A
T
A (que es simetrica y semidenida positiva) tiene sus autovalores reales y no
negativos:
1
. . .
r
> 0 =
r+1
= . . . =
n
.
Consideremos la correspondiente base de autovectores asociados de la matriz A
T
A:
v
1
, . . . , v
n
, (es decir: A
T
Av
j
=
j
v
j
, j = 1, . . . , n).
Esta base puede elegirse ortonormal (esto es: v
T
j
v
k
= 0 si j ,= k, y |v
j
| = 1, j = 1, . . . , n).
5
Los valores singulares de la matriz A se denen como:
j
=
_
j
, j = 1, . . . , r.
Los vectores singulares derechos (o por la derecha) son v
1
, . . . , v
n
.
Los vectores singulares izquierdos o por la izquierda son
u
1
=
1
1
Av
1
, . . . , u
r
=
1
r
Av
r
.
(note que solo incluimos los correspondientes a los autovalores no nulos). Puede compro-
barse que u
1
, ..., u
r
es un sistema ortonormal en R
m
. Dicho sistema puede ampliarse
hasta una base ortonormal de R
m
: u
1
, . . . , u
r
, u
r+1
, . . . , u
m
.
Denimos ahora las matrices:
U = [u
1
, . . . , u
m
]
mm
, V = [v
1
, . . . , v
n
]
nn
,
y la matriz:
=
_
1
0 . . . 0 0 . . . 0
0
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 0 0 . . . 0
0 . . . 0
r
0 . . . 0
0 . . . 0 0 0 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 . . . 0 0 0 . . . 0
_
_
=
_

1
O
O O
_
mn
.
Entonces, se tiene que AV = U, y por tanto, obtenemos la siguiente factorizacion de la matriz
A (conocida como descomposicion en valores singulares, abreviada SVD del ingles singular value
decomposition):
A = UV
T
.
El siguiente teorema recoge la existencia y unicidad de la factorizacion SVD:
Teorema 7. Sea A una matriz mn con m n, y de rango r n. Entonces, existen dos
matrices ortogonales U mm y V n n, y otra matriz mn tales que
A = UV
T
= U
_

1
O
O O
_
V
T
, donde
1
=
_
1
0 . . . 0
0
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 0
0 . . . 0
r
_
_
,
con
1
. . .
r
> 0. La matriz esta determinada de forma unica. Los n umeros
i
son
necesariamente los valores singulares de A (las races cuadradas de los autovalores no nulos de
la matriz A
T
A).
6
Si tenemos la SVD para una matriz A mn de rango r:
A = U
_

1
O
O O
_
V
T
,
1
= diag(
1
, . . . ,
r
),
se denomina matriz inversa generalizada de Moore-Penrose o pseudoinversa de A, a la matriz A
+
n m dada por
A
+
= V
_

+
O
O O
_
U
T
, donde
+
=
1
1
= diag(1/
1
, . . . , 1/
r
).
Si la matriz A es cuadrada y no singular, se verica que A
+
= A
1
, lo cual justica el nombre
de pseudoinversa. Por otro lado si A es mn con rg(A) = n m, entonces A
+
= (A
T
A)
1
A
T
.
Es decir, la pseudoinversa permite resolver las ecuaciones normales de Gauss, A
T
A x = A
T
b,
cuando estas tienen solucion unica. En el caso de que la solucion no sea unica se tiene el siguiente
resultado:
Teorema 8. Sean A matriz m n con (m n), y b R
m
. Entonces el vector x
R
n
es
la solucion optima del problema de mnimos cuadrados asociado al sistema Ax = b si y solo si
x
= A
+
b.
El metodo con el que hemos obtenido aqu la SVD no se debe emplear para su calculo efectivo
en el ordenador. Hay otros procedimientos mas ecaces que no seran tratados en este curso. Nos
bastar a con saber que el costo de computacional es de
4m
2
n + 8mn
2
+ 9n
3
ops.
y que, en Matlab, se puede calcular con el comando svd.
Son muchas las aplicaciones de la SVD. Ademas de las aplicaciones obvias (por ejemplo,
el calculo de |A| =
1
, o el calculo de bases ortonormales de Col(A) y Nul(A)), incluimos a
continuacion algunas de las mas importantes.
Rango aproximado de una matriz. El problema de calcular el rango de una matriz es
un problema delicado desde el punto de vista numerico, ya que el condicionamiento de dicho
problema es muy malo. Este mal condicionamiento conduce a replantear la cuestion del rango
en terminos de los valores singulares de la matriz dada. Este cambio de enfoque se basa en que,
si tenemos la SVD para una matriz A mn de rango r, podemos escribir:
A = UV
T
=
1
u
1
v
T
1
+ +
r
u
r
v
T
r
,
es decir, la matriz de rango r puede expresarse como suma de r matrices de rango 1.
El siguiente teorema muestra la distancia que hay entre la matriz A y las matrices de rango
p r:
Teorema 9. Si p r, denimos A
p
:=
1
u
1
v
T
1
+ +
p
u
p
v
T
p
. Entonces, A
p
es la matriz de
rango p mas cercana a A (es decir, |A A
p
| |A B|, para cualquier matriz B de rango
p)
Ademas, |AA
p
| =
p+1
.
7
Este resultado permite denir lo que se conoce como rango aproximado de una matriz A: el
n umero de valores singulares mayores que una cierta magnitud prejada.
Compresion de datos. Una aplicacion importante de la SVD es la de condensar informacion
para su almacenamiento, transmision o procesamiento. Esto es especialmente relevante en situa-
ciones donde los tiempos de transmision son largos como es el caso de las comunicaciones va
satelite.
Supongamos que una matriz A de dimensiones m n representa una imagen digitalizada
compuesta por los correspondientes pixels o cuadrados en que se divide la imagen (aparte de una
fotografa discretizada, la matriz A podra representar, por ejemplo, un cuadro de temperaturas
de una cierta supercie, etc).
El hecho crucial es que los valores singulares
j
suelen decaer rapidamente con j, de manera
que si obtenemos la SVD de A = UV
T
=
1
u
1
v
T
1
+ +
r
u
r
v
T
r
, la estimacion A A
p
es
bastante precisa desde un punto de vista graco. La matriz A
p
puede ser guardada, transmitida
o procesada como
A
p
[
1
;
2
; . . . ;
p
; u
1
; u
2
; . . . ; u
p
; v
1
; v
2
; . . . ; v
p
],
en forma de p(m+n+1) datos, en lugar de los mn iniciales (en la practica, este tipo de matrices
s olo tiene unos pocos valores singulares signicativos: por ejemplo, para m = n = 1000, una
aproximacion de este tipo con p = 10 necesita 20010 datos (o sea, el 2 % de los datos iniciales
con un ahorro del 98 %).
OPTIMIZACI
ON NO LINEAL.
En las secciones anteriores se han resuelto dos problemas: determinar la solucion en el sen-
tido de los mnimos cuadrados y obtener la solucion optima, que consisten en minimizar una
determinada funcion de varias variables. En el primer caso se trataba de la norma del vector
residuo y en el segundo caso se buscaba entre el conjunto de soluciones en el sentido de los
mnimos cuadrados el vector de norma mnima. En esta seccion abordamos el problema mas
general de minimizar una funcion de varias variables.
Un problema de optimizacion suele constar de dos componentes:
una funcion objetivo que se desea maximizar o minimizar, y
un conjunto de restricciones.
La funcion objetivo y las restricciones dependen de un conjunto de incognitas o variables para
las que se desea encontrar aquellos valores que optimicen la funcion objetivo y cumplan las
restricciones.
No obstante, hay algunas excepciones en cuanto a la funcion objetivo. En primer lugar, en
algunos casos no se pretende optimizar nada sino solo encontrar un conjunto de valores que
satisfagan las restricciones del modelo; estos problemas se llaman de factibilidad. En segundo
lugar, es frecuente encontrarse con problemas en los que hay varias funciones a optimizar si-
mult aneamente y los valores que optimizan un objetivo no coinciden con los que optimizan otros.
8
Este tipo de problema se encuadra en lo que se conoce como optimizacion multi-objetivo, que
se encuentra fuera del alcance de esta asignatura.
En general, un problema de optimizacion no lineal tiene la forma
_
_
_
mn
x
f(x), x R
n
,
c
j
(x) 0, j D,
c
j
(x) = 0, j I.
Sin embargo, los metodos que se desarrollan posteriormente se reeren unicamente a opti-
mizacion sin restricciones, es decir, al caso en el que los conjuntos D e I son vacos. La opti-
mizacion con restricciones no se tratara en este curso, si bien el conocimiento de los conceptos
y metodos que a continuacion se desarrollan es util cuando se tratan de resolver problemas con
restricciones.
En primer lugar, introduciremos conceptos y resultados elementales relativos a optimizacion.
Para ello consideremos el problema de optimizacion:
mn
xSR
n
f(x).
Un punto x
S se dice que es un mnimo global si f(x) f(x
), x S, en tanto que se dice

que es un mnimo local si > 0, tal que f(x) f(x
), x S que verique [[x x
[[ < .
De forma an aloga se denen maximos locales y globales. La b usqueda de extremos globales
constituye la rama llamada optimizacion global.
Una de las propiedades que garantizan que todo mnimo local sea global es la convexidad. En
general se asume que el conjunto S donde se desea minimizar es convexo. Una funcion f : S R,
donde S R
n
es no vaco y convexo, se dice que es convexa sobre S si:
f(x + (1 )y) f(x) + (1 )f(y),
para cada x, y S y (0, 1). Se dice que f es estrictamente convexa si la desigualdad es
estricta x ,= y, (0, 1), en cuyo caso un mnimo local es mnimo global unico. Una funcion
es c oncava si f es convexa. Observese que, desde el punto de vista geometrico, la condicion
de convexidad para una funcion signica que el segmento de recta que une dos puntos de la
graca est a por encima de la propia graca. Las funciones convexas son tales que sus conjuntos
de nivel, es decir, los conjuntos x S : f(x) a, son convexos.
Las funciones convexas sobre conjuntos convexos tienen la propiedad de que los mnimos
locales son tambien mnimos globales. Si ademas la funcion es estrictamente convexa, entonces
tiene a lo sumo un mnimo global. En el siguiente teorema se resumen los resultados mas rele-
vantes.
Teorema.
1. Sea f : S R
n
R, donde S es un conjunto convexo no vaco.
Si f es diferenciable en S, entonces f es convexa si y solo si
f(y) f(x) + f(x)
T
(y x), x, y S.
9
Si f (
2
(S), entonces f es convexa si y solo si la matriz hessiana de f, H
f
(x) =
(

2
f
x
i
x
j
) es semidenida positiva x S.
2. Condiciones necesarias: Sea f : S R
n
R, donde S es abierto.
Si f es diferenciable y x
es un mnimo local, entonces f(x
) = 0.
Si f (
2
(S) y x
es un mnimo local, entonces H

f
(x
) es semidenida positiva.
3. Condici on suciente: Si f (
2
(S) donde S es un conjunto abierto, y x
S cumple que
f(x
) = 0 y H
f
(x
) es denida positiva, entonces x
es un mnimo local.
El teorema anterior puede aplicarse al caso de maximos sin mas que cambiar f por f.
M
ETODOS DE DESCENSO DE MAYOR PENDIENTE Y DE NEWTON

En esta seccion consideramos el problema no restringido: mn
xR
n f(x), y suponemos que
tenemos garantizada la existencia de mnimo global. Por ejemplo, si f es continua y f(x) +
para [[x[[ + podemos garantizar dicha existencia: bastara con restringirnos a un conjunto
cerrado y acotado (por ejemplo, x R
n
: f(x) f( x)), y utilizar que toda funcion continua
tiene un mnimo sobre un conjunto compacto.
Los algoritmos numericos usualmente consisten en generar, a partir de un punto inicial x
(0)
,
una sucesion de puntos x
(1)
, x
(2)
, . . . , x
(k)
, x
(k+1)
, . . ., tal que f(x
(k+1)
) < f(x
(k)
). En cada x
(k)
,
se elige una direccion d = d
k
, y se determina un paso t
k
de forma que x
(k+1)
= x
(k)
+ t
k
d
k
.
El metodo del descenso mas rapido. En este metodo, la direccion d
k
que se elige es la
de m aximo decrecimiento de la funcion (que se produce, como ya se estudio en la asignatura de
C alculo, en la direccion opuesta al gradiente de la funcion). Los metodos de descenso son, por
tanto, de la forma:
Paso 0 (Inicializacion). Se escogen el punto inicial x
(0)
, la tolerancia > 0, y (posiblemente)
el n umero maximo de iteraciones. Se inicializa el contador de la sucesion: k = 0.
Paso 1 (Test de parada). Calculamos f(x
(k)
); si [[f(x
(k)
)[[ , PARAR.
Paso 2 (Determinacion de la direccion). Elegimos la direccion de descenso mas rapido:
d
k
= f(x
(k)
).
Paso 3 (Calculo del paso: b usqueda lineal). Encontramos un valor de paso t
k
> 0 apropiado,
que satisfaga
f(x
(k)
+ t
k
d
k
) < f(x
(k)
).
Paso 4 (Iteracion). Hacemos x
(k+1)
= x
(k)
+ t
k
d
k
, incrementamos k y volvemos al Paso 1.
10
Observemos que en el paso 1 se pueden utilizar otros criterios de parada como el n umero m aximo
de iteraciones o [[f(x
(k+1)
f(x
(k)
[[ < . Si en el Paso 3 se determina t
k
de forma que minimice
la funci on q(t) = f(x
(k)
+td
k
), se habla del metodo del descenso mas rapido con b usqueda lineal
exacta. Sin embargo, este metodo, a pesar de gozar de propiedades teoricas de convergencia
en determinadas condiciones, suele ser muy lento en la practica, de hecho solo de convergencia
lineal. Realmente, descender por la direccion opuesta al gradiente impone pasos muy peque nos,
con lo que la sucesion suele ser zigzagueante. El metodo se debera olvidar a no ser porque es la
base de todos los metodos que se utilizan actualmente.
B usqueda lineal. Supongamos que se ha determinado una buena direccion de b usqueda d
y que queremos determinar el paso de avance. Consideremos, como hicimos anteriormente, la
funcion q : R R, q(t) := f(x + td) y supongamos que q
(0) < 0.
El problema que ahora tenemos es encontrar el valor de t en el que la funcion q alcanza el
mnimo. Este proceso da lugar a lo que se conoce como b usqueda lineal exacta. No obstante,
nuestro objetivo principal es minimizar f, y la minimizacion de q es un problema subsidiario:
aplicar un algoritmo de minimizacion para q en cada paso puede ser muy costoso en relacion al
objetivo planteado.
Para evitar este problema se pueden utilizar algoritmos de b usqueda lineal imprecisa, en los
que se establece un test con tres opciones: dado un valor de t > 0, el test decide si: (a) t es
satisfactorio, (b) t es muy grande o, (c) t es muy peque no.
Si el valor de t no es satisfactorio, se utiliza un metodo para calcular un nuevo valor de t
(por ejemplo, mediante biseccion, utilizando un ajuste c ubico de la funcion q, etc.).
Para el test se han desarrollado distintas reglas de b usqueda, siendo la mas usada la denom-
inada regla de Wolfe: en primer lugar se escogen dos coecientes 0 < m
1
<
1
2
< m
2
< 1 (valores
comunes para m
1
y m
2
son 0.001 y 0.9, respectivamente) y:
(a) t es satisfactorio si q(t) q(0) + m
1
tq
(0) y q
(t) m
2
q
(0).
(b) t es muy grande si q(t) > q(0) + m
1
tq
(0).
(c) t es muy peque no si q(t) q(0) + m
1
tq
(0) y q
(t) < m
2
q
(0).
Las condiciones anteriores implican que la funcion f no decrezca demasiado (con lo que
x
(k+1)
no estara muy lejos de x
(k)
) y que la derivada se incremente bastante (con lo que x
(k+1)
no estar a muy cerca de x
(k)
).
El metodo de Newton. Si suponemos que la funcion a minimizar f (
2
(R
n
), podemos
sustituirla por su aproximacion de segundo orden mediante el desarrollo de Taylor:
f(x
(k)
+ d) f(x
(k)
) + d
T
f(x
(k)
) +
1
2
d
T
H
f
(x
(k)
) d.
En el metodo de Newton, se toma x
(k+1)
= x
(k)
+ d
k
, donde d
k
se obtiene imponiendo que el
gradiente de la aproximacion de Taylor se anule, es decir:
f(x
(k)
) + H
f
(x
(k)
) d = 0. (4)
11
Es inmediato comprobar que, si la matriz hessiana H
f
es invertible en x
(k)
, entonces la direccion
de b usqueda que utiliza el metodo de Newton es d
k
= (H
f
(x
(k)
))
1
f(x
(k)
).
La ventaja del metodo de Newton es su convergencia cuadratica:
Teorema. Sea f (
3
(R
n
) y supongamos que H
f
es invertible cerca de la solucion x
.
Entonces, el metodo de Newton converge cuadraticamente ([[x
(k+1)
x
[[ [[x
(k)
x
[[
2
, para
alg un > 0) si se parte de un punto x
(0)
sucientemente cercano a x
.
Observese que la convergencia del metodo de Newton no es global, en general diverge. Tam-
bien requiere calcular el hessiano en cada iteracion, lo cual es costoso. Una vez calculado el
hessiano hay que resolver un sistema de ecuaciones para obtener (H
f
(x
(k)
))
1
f(x
(k)
). El calcu-
lo del hessiano requiere la evaluacion de O(n
2
) derivadas parciales en el punto en cuestion, el
gradiente la evaluacion de n derivadas y la resolucion de un sistema de n ecuaciones O(n
3
)
operaciones. Finalmente, la sucesion generada por este metodo probablemente tendera al punto
estacionario m as cercano; si este es un maximo local, la propiedad de descenso f(x
(k+1)
) < f(x
(k)
)
no esta garantizada.
Mnimos cuadrados no lineales: Gauss-Newton. Muchos problemas de optimizacion
consisten en ajustar una determinada funcion a un conjunto de datos: se pretende encontrar
aquella funcion que minimice la suma de los cuadrados de los residuos (diferencia entre el valor
teorico y el observado o experimental). En este apartado trataremos este tipo de problemas, el
de minimizar funciones f : R
n
R de la forma:
f(x) =
1
2
_
F
2
1
(x) + + F
2
m
(x)
_
.
Si denimos F : R
n
R
m
: F(x) = (F
1
(x), . . . , F
m
(x))
T
, entonces
f(x)
x
j
=
m
i=1
F
i
(x)
F
i
(x)
x
j
.
As:
f(x) =
m
i=1
F
i
(x)F
i
(x) = J
F
(x)
T
F(x).
Derivando de nuevo, obtenemos
2
f(x)
x
k
x
j
=
m
i=1
F
i
(x)
x
k
F
i
(x)
x
j
+
m
i=1
F
i
(x)

2
F
i
(x)
x
k
x
j
,
o matricialmente:
H
f
(x) = J
F
(x)
T
J
F
(x) +
m
i=1
F
i
(x) H
F
i
(x),
donde J
F
(x) =
_
F
i
(x)
x
j
_
ij
denota a la matriz jacobiana de la funcion F.
Si las funciones F
i
(x) son casi lineales, o bien la solucion en mnimos cuadrados proporciona
un buen ajuste y, por tanto, las F
i
(x) son peque nas, entonces el segundo sumando se puede
12
despreciar, con lo que nos resulta un metodo donde H
f
(x) G(x) = J
F
(x)
T
J
F
(x). De esta
forma, la ecuacion (4), en este caso particular, resulta:
J
F
(x
(k)
)
T
J
F
(x
(k)
) d
k
= G(x
(k)
) d
k
= J
F
(x
(k)
)
T
F(x
(k)
)
cuya direccion d
k
es la direccion del metodo de Gauss-Newton en el paso k-esimo. Observe que
el metodo de Gauss-Newton esta bien denido siempre que G(x
(k)
) sea denida positiva.
El metodo de Gauss-Newton es aplicable a la resolucion de sistemas de ecuaciones no lineales:
cualquier solucion del sistema
_
_
F
1
(x
1
, x
2
, . . . , x
n
) = 0
F
2
(x
1
, x
2
, . . . , x
n
) = 0
. . .
F
m
(x
1
, x
2
, . . . , x
n
) = 0
es un mnimo global de la funcion
[[F(x)[[
2
=
m
i=1
F
2
i
(x).
M
ETODOS CUASI-NEWTON
Ya comentamos anteriormente que uno de los inconvenientes del metodo de Newton es el alto
coste del c alculo del hessiano en cada iteracion y la resolucion del correspondiente sistema lineal
(4), que proporciona la direccion del metodo de Newton. Para solventar este inconveniente, una
posibilidad es sustituir la inversa del hessiano por una matriz a calcular en cada iteracion:
W
k
(H
f
(x))
1
.
Esto da lugar a una familia de metodos, denominados cuasi-Newton. En concreto, en estos
metodos se escoge una matriz inicial denida positiva W
1
. En la etapa k-esima, se calcula
d
k
= W
k
f(x
(k)
), para posteriormente calcular la nueva matriz W
k+1
recursivamente de la
forma: W
k+1
= W
k
+ B
k
. Las correcciones B
k
se escogen de forma que W
k
sea simetrica denida
positiva para todo k.
En lo que sigue denotaremos por s
k
:= x
(k+1)
x
(k)
e y
k
:= f(x
(k+1)
) f(x
(k)
). La
llamada ecuacion cuasi-Newton: W
k+1
y
k
= s
k
, se impone por analoga con la que verica el
valor medio de H
f
(x) entre x
(k)
y x
(k+1)
, es decir,
H
f
(x) s
k
= H
f
(x) (x
(k+1)
x
(k)
) = f(x
(k+1)
) f(x
(k)
) = y
k
,
forzando as a que W
k+1
act ue como (H
f
(x))
1
en el subespacio de dimension 1 determinado
por y
k
.
El primer metodo cuasi-Newton fue el llamado de Davidon-Fletcher-Powell (DFP) que tiene
la forma:
W
k+1
= W
k
+
s
k
s
T
k
y
T
k
s
k
W
k
y
k
y
T
k
W
k
y
T
k
W
k
y
k
.
13
Hoy en da sin embargo, es mas usado el metodo encontrado independientemente por Broy-
den, Fletcher, Goldfarb y Shanno (BFGS):
W
k+1
= W
k

s
k
y
T
k
W
k
+ W
k
y
k
s
T
k
y
T
k
s
k
+
_
1 +
y
T
k
W
k
y
k
y
T
k
s
k
_
s
k
s
T
k
y
T
k
s
k
.
CUESTIONES
Ejercicio 1. Determinar la solucion de mnimos cuadrados, va las ecuaciones normales, de los
sistemas sobredeterminados
_
_
x
1
+ x
2
= 0
x
1
+ x
2
= 1
x
1
+ x
3
= 1
x
1
+ x
2
= 1
_
_
,
_
_
_
3x
1
x
2
= 0
4x
1
+ 2x
2
= 2
x
2
= 1
_
_
_
.
Ejercicio 2. Probar que los autovalores de toda matriz ortogonal son de modulo unidad. De-
mostrar que = 1 es siempre un autovalor de cualquier matriz de Householder. Interpretar
geometricamente este hecho, para las matrices de orden dos.
Ejercicio 3. Utilizando transformaciones de Householder, obtener una factorizacion QR de las
matrices
A =
_
1 1
1 0
_
, B =
_
_
0 1 1
1 1 1
0 1 0
_
_
, C =
_
_
0 1 1
0 0 1
1 2 1
_
_
.
Ejercicio 4. Obtener la descomposicion en valores singulares de las matrices:
A =
_
_
1 1 1
1 1 1
1 1 1
1 1 1
_
_
, B =
_
_
1 0 0
1 0 0
1 1 0
_
_
, C =
_
_
0.0 1.6 0.6
0.0 1.2 0.8
0.0 0.0 0.0
0.0 0.0 0.0
_
_
.
Ejercicio 5. Aplicar el resultado del ejercicio anterior para encontrar la solucion optima del
problema de mnimos cuadrados Ax = b con b = [1, 2, 3, 4]
T
.
Ejercicio 6. Repetir los dos ejercicios anteriores con
A =
_
_
1 0 1
0 1 1
1 0 1
0 1 1
_
_
, b =
_
_
1
2
3
4
_
_
.
Ejercicio 7. Considere la matriz
A =
_
_
1 1
1 0
0 1
_
_
.
14
Calcule su descomposicion en valores singulares.
Calcule la solucion optima del sistema Ax = b con b = [ 1 2 3 ]
T
.
Sin realizar ning un calculo adicional, cual es el rango y la norma de la matriz A?
Ejercicio 8. Probar que efectivamente A
+
b es la solucion optima del problema de mnimos
cuadrados Ax = b.
Ejercicio 9. Mostrar que la pseudoinversa de una matriz A n n verica que
(AA
+
)
T
= AA
+
, (AA
+
)
2
= AA
+
.
Interpretar el signicado de las igualdades anteriores desde el punto de vista de la teora de
aplicaciones lineales.
Ejercicio 10. Analizar la convexidad de la funcion
f(x, y) = 2(y x
2
)
2
10
sobre los siguientes conjuntos
1. S
1
= [1, 1] [1, 1],
2. un subconjunto convexo de S
2
= (x, y) R
2
: x
2
y.
Ejercicio 11. Calcule analticamente los puntos crticos (donde el gradiente se anula) de las
funciones:
f(x, y) = x
4
2x
2
+ y
2
, g(x, y, z) = 2x
2
+ xy + y
2
+ yz + z
2
6x 7y 8z + 9
y clasique el comportamiento de f y g en ellos mediante el hessiano.
Ejercicio 12. Estimar el mnimo en R
2
de la funcion cuadratica
f(x, y) = x
2
xy + y
2
3y
mediante un paso del metodo de descenso de mayor pendiente con b usqueda lineal exacta y
partiendo del origen. Determinar el error cometido en norma eucldea.
Ejercicio 13. Obtener el punto resultante de aplicar b usqueda lineal, partiendo del punto (0, 0)
y con direccion (1, 2), a la funcion
f(x, y) = 5x
2
+ 5y
2
xy 11x + 11y + 11.
Es dicho punto mnimo local de f en R
2
?
Ejercicio 14. Considere la funcion de dos variables
f(x, y) = (x 2)
4
+ (x 2y)
2
.
Estimar el mnimo de f mediante un paso del metodo de Newton partiendo del punto (0, 3).
Calcular el error cometido en norma eucldea.
15
Ejercicio 15. Realizar b usqueda lineal exacta para la funcion f(x, y) = xy 2x, partiendo de
(0, 0) y siguiendo la bisectriz de los cuatro cuadrantes.
Ejercicio 16. Estimar el mnimo de la funcion f(x, y) = x
2
+y
2
, mediante un paso del metodo
de Newton, partiendo de (1, 3).
Ejercicio 17. Estimar una solucion del sistema
_
x
2
+ y
2
= 4
xy = 2
mediante un paso del metodo de Gauss-Newton sin b usqueda lineal y partiendo de (1, 0).
16
PROBLEMAS
Problema 1. Se desea ajustar a un conjunto de datos bidimensionales, Z = (x
i
, y
i
), i =
1, 2, . . . , n, curvas polinomicas y trigonometricas mediante el metodo de los mnimos cuadrados.
1. Dise ne una funcion en Matlab que ajuste la funcion y = a
1
sen(x) + a
2
cos(x) +
a
3
sen(2x) + a
4
cos(2x), en el sentido de los mnimos cuadrados, al conjunto de puntos
Z, es decir, que encuentre los valores de los parametros a
1
, a
2
, a
3
, a
4
que resuelven el sis-
tema sobredeterminado:
_
_
a
1
sen(x
1
) + a
2
cos(x
1
) + a
3
sen(2x
1
) + a
4
cos(2x
1
) = y
1
a
1
sen(x
2
) + a
2
cos(x
2
) + a
3
sen(2x
2
) + a
4
cos(2x
2
) = y
2

a
1
sen(x
n
) + a
2
cos(x
n
) + a
3
sen(2x
n
) + a
4
cos(2x
n
) = y
n
Los argumentos de entrada deben ser los vectores de abscisas, X = (x
1
, x
2
, . . . , x
n
)
T
, y de
ordenadas, Y = (y
1
, y
2
, . . . , y
n
)
T
, y los argumentos de salida deben ser el vector solucion
a y la matriz A del sistema sobredeterminado.
2. Considere ahora el problema de ajustar un polinomio de grado N al mismo conjunto de
datos Z, es decir, se trata de encontrar un polinomio p
N
(x) = c
0
+ c
1
x + c
2
x
2
+ +
c
N
x
N
, cuyo vector de coecientes c
N
= (c
0
, c
1
, c
2
, . . . , c
N
)
t
sea solucion en el sentido de los
mnimos cuadrados del sistema A
N
c
N
= Y :
_
_
c
0
+ c
1
x
1
+ + c
N
x
N
1
= y
1
c
0
+ c
1
x
2
+ + c
N
x
N
2
= y
2

c
0
+ c
1
x
n
+ + c
N
x
N
n
= y
n
Los argumentos de entrada deben ser los vectores de abscisas, X = (x
1
, x
2
, . . . , x
n
)
T
, y de
ordenadas, Y = (y
1
, y
2
, . . . , y
n
)
T
, y el grado N del polinomio, y los argumentos de salida
deben ser la solucion c
N
y la matriz A
N
de coecientes del sistema sobredeterminado.
3. Aplique las funciones de los apartados (1) y (2) (para N = 1, 2, 3, 4, 5) al siguiente conjunto
de datos: (0, 6), (
4
, 2), (
2
, 5), (
3
4
, 1), (, 2), (
5
4
, 1), (
3
2
, 3), (
7
4
, 5), (2, 6).
4. Compare los residuos, [[Aa
Y [[ en el caso del ajuste trigonometrico y [[A

N
c
N
Y [[, N =
1, 2, 3, 4, 5 en el polinomico, que resultan cuando se utilizan las funciones de los apartados
(1) y (2), respectivamente (a
y c
N
son las correspondientes soluciones en el sentido de los
mnimos cuadrados).
Problema 2. Considere la matriz
A =
_
_
1 2 3 4
5 6 7 8
9 10 11 12
13 14 15 16
17 18 19 20
_
_
.
17
1. Cual es el rango de A? Considere el vector b = [1, 1, 1, 1, 0]
T
. Estudie la compatibilidad del
sistema Ax = b. Resuelva el sistema con la orden de Matlab. Resuelva las ecuaciones
normales de Gauss. Que obtiene?
2. Construya una funcion de Matlab que devuelva la solucion optima en el sentido de
los mnimos cuadrados. Los argumentos de entrada deben ser la matriz A y el vector b y
la salida debe ser la solucion. Puede emplear la orden svd de Matlab para calcular la
descomposicion en valores singulares.
Calcule la norma de la solucion y comparela con las del apartado anterior. Explique el
resultado.
3. Genere matrices aleatorias A
n
de orden n y vectores aleatorios b
n
R
n
con n = 40, 80, 160,
320, 640 y calcule los tiempos de ejecucion para resolver los problemas A
n
x = b
n
,
con la orden de Matlab, y
con la descomposicion en valores singulares.
Escriba una tabla con los valores de n y los tiempos correspondientes, dibuje (de manera
aproximada) una graca en escala logartmica y estime (tambien de manera aproximada)
el orden de los dos metodos. Le parece razonable que el comando de Matlab no calcule
la solucion optima por defecto? Justique su respuesta.
Problema 3. En este problema se aborda la relacion entre la descomposicion en valores singu-
lares y la compresion de imagenes digitales. Se recomienda consultar previamente la ayuda de
Matlab sobre las ordenes image y colormap.
1. Localice y cargue el chero binario clown.mat. Este chero permite visualizar la fotografa
de un payaso. Sera capaz de mostrar la foto solamente con tonalidades rosas? y lograr
que mire hacia la izquierda? Utilizando la paleta de colores gray, proponga razonadamente
alguna operacion matricial que oscurezca la foto.
2. Dise ne una funcion en Matlab que muestre gracamente la aproximacion a los k valores
singulares mayores de una cierta imagen digital. Los argumentos de entrada deben ser la
matriz dada, el n umero k y la matriz de la paleta de colores.
3. Ejecute la funcion anterior con la foto del payaso para diversos valores de k, usando como
paleta de colores gray. Proponga un valor de k lo mas peque no posible de modo que la
imagen aproximada del payaso reproduzca razonablemente la foto original. Como elegira
dicho valor k con medios puramente analticos?
4. Supongamos que queremos transmitir la foto anterior a un satelite y que la transmision
se hace pixel a pixel (esto supone usualmente 4 pixels por segundo). Determine el tiempo
que tardara en enviarse la foto completa y la aproximacion a k
0
valores singulares, con
el valor k
0
obtenido en el apartado anterior. Cuantique el tanto por ciento de ahorro en
tiempo de transmision.
18
5. Suponga que se conoce la factorizacion SVD de una matriz que representa una foto digi-
tal. Como podra utilizar la factorizacion para distorsionar razonablemente la imagen?
Verique su hipotesis con la fotografa del payaso.
Problema 4. Considere la funcion cuadratica f(x) =
1
2
x
T
Qx b
T
x, siendo
Q =
_
_
1 1 1 1
1 2 3 4
1 3 6 10
1 4 10 20
_
_
, b =
_
_
18
189
114
151
_
_
.
1. Demuestre analticamente que el problema de minimizar la funcion f en todo R
4
tiene
solucion unica y obtenga dicho mnimo mediante la resolucion del correspondiente sistema
de ecuaciones lineales.
2. Compruebe analticamente que para funciones cuadraticas denidas positivas
x R
n
1
2
x
T
Qx b
T
x R,
la formula para determinar la b usqueda lineal exacta, partiendo de un vector w y usando
como direccion (se supone que no nula) d = b Qw, es
t =
d
T
d
d
T
Qd
.
3. Dise ne una funcion en Matlab que implemente el metodo de descenso con b usqueda
lineal exacta y tal que las iteraciones se paren cuando la tolerancia tomada como la nor-
ma eucldea de la diferencia de dos puntos consecutivos sea menor que un cierto valor.
Los argumentos de entrada deben ser la matriz Q, el vector b, el vector inicial x
(0)
y la
tolerancia.
4. Utilizando la funcion anterior, partiendo del origen y con tolerancia 10
3
, 10
4
estime el
mnimo global de f. Cuantas iteraciones fueron necesarias en ambos casos? era previsible
dicho n umero?
5. En la expresion de f, cambie la matriz Q por la matriz Q 0.5I, y repita el apartado
anterior para la nueva funcion con las mismas especicaciones que antes. Por que el
resultado ahora no es razonable?
Problema 5. Considere la funcion de Rosenbrock
f(x, y) = 100(x
2
y)
2
+ (1 x)
2
.
1. Determine analticamente los mnimos de la funcion anterior. Es f convexa en todo el
plano?
19
2. Utilizando las ordenes meshgrid y contour, obtenga un esquema de las curvas de nivel
de la funcion anterior en el rectangulo [2, 2] [1, 3]. Por que cree que se considera
a esta funcion un buen test para medir la eciencia de algoritmos de optimizacion sin
restricciones?
3. Partiendo del punto (1.9, 2), aplique la orden fminsearch para estimar el mnimo de
f, primero sin imponer vector de opciones y despues exigiendo que la terminacion por
tolerancia en el vector sea 10
8
. Repita el proceso pero partiendo ahora del punto (1.9, 2).
4. Dise nar sendas funciones de Matlab para evaluar el gradiente y la matriz hessiana en
cada punto, aplicando formulas de derivacion aproximada:
f
(x)
f(x + h) f(x h)
2h
, f
(x)
f(x + h) 2f(x) + f(x h)
h
2
.
5. Dise ne una funcion que implemente el metodo de Newton en la que los argumentos de
entrada sean la funcion, el punto inicial y la tolerancia y los de salida, la aproximacion
al mnimo y el n umero de iteraciones. Aplique dicha funcion al calculo del mnimo de la
funci on de Rosenbrock.
20
EJERCICIOS DE EX
AMENES DE CURSOS ANTERIORES

Segundo Parcial. Curso 2008-2009.
Ejercicio 4. Considere la funcion
f(x, y, z) = (x y z)
_
_
4 1 0
1 2 1
0 1 2
_
_
_
_
x
y
z
_
_
_
4 0 2
_
_
_
x
y
z
_
_
+ 2 .
Determine y clasique los extremos locales y globales. Donde es convexa esta funcion?
Efect ue un paso del metodo del descenso mas rapido con b usqueda lineal exacta partiendo
del origen y obtenga el error cometido.
Examen Final. Curso 2008-2009.
Ejercicio 2. Considere la matriz:
A =
_
_
4 0 0
0 0 0
0 0 7
0 0 0
_
_
.
Calcule su descomposicion en valores singulares.
Calcule la matriz pseudoinversa A
+
.
Calcule la solucion optima del sistema Ax = b con b = [1, 0, 0, 0]
T
.
Ejercicio 4. Utilizando matrices de Householder, obtenga una factorizacion QR de
A =
_
_
3 4 4
0 0 1
0 4 4
_
_
.
Ejercicio 7. Dada la funcion
f(x, y) = x
2
+ 2y
2
2xy 2x,
demuestre que tiene un unico mnimo global y halle el punto en el que se alcanza. Aproxime
este punto mediante un paso del metodo del descenso mas rapido con b usqueda lineal exacta,
partiendo del punto (1, 1).
Examen de Septiembre. Curso 2008-2009.
Ejercicio 2. Utilizando matrices de Householder, obtenga una factorizacion QR de
A =
_
_
0 1 1
0 0 1
1 2 1
_
_
.
21
Utilcela para resolver el sistema Ax = b, siendo b = [0, 1, 1]
T
.
Ejercicio 4. Se sabe que la funcion
f(x, y) = x
3
+ kxy + y
2
x
tiene un mnimo local en el punto (x, y) = (1, 1).
1. Determine el valor de k. Justique que es un mnimo calculando la matriz hessiana.
2. Realice un paso del metodo de descenso de mayor pendiente con b usqueda lineal exacta,
partiendo del punto (x
0
, y
0
) = (0, 1). Compare los valores de f(x, y) en los tres puntos:
(x, y), (x
0
, y
0
) y el hallado (x
1
, y
1
).
3. Determine la direccion de b usqueda para la cual, realizando un unico paso con b usqueda
lineal exacta, partiendo del punto (x
0
, y
0
) = (0, 1), obtenemos el valor mnimo exacto.
Cu al es el valor del paso?
Primer Parcial. Curso 2009-2010.
Ejercicio 2.
(a) Calcule la factorizacion QR de la matriz
A =
_
_
1 0 0
2 1 1
2 2 2
_
_
.
empleando transformaciones de Householder.
(b) Calcule una matriz de Householder que transforme el vector x =
_
_
2
0
1
_
_
en el vector y =
_
_
0
2
1
_
_
.
Ejercicio 3. Calcule todas las soluciones en el sentido de los mnimos cuadrados del sistema
A =
_
_
_
x
1
x
2
= 4
2x
1
2x
2
= 3
x
1
+ x
2
= 2
Determine la solucion optima y compruebe el resultado hallando la matriz pseudoinversa.
Ejercicio 4. Sea la funcion
f(x, y) = x
3
+ y
2
6xy + 9x + 2y.
(1) Calcule y clasique sus puntos crticos.
22
(2) Determine un semiplano en el que la funcion anterior sea convexa.
(3) Efect ue un paso del metodo del descenso mas rapido con b usqueda lineal exacta partiendo
del punto (0,
3
2
).
Examen Final. Curso 2009-2010.
Ejercicio 2. Sean la matriz y el vector
A =
_
_
1 1 2
0 3 3
0 4 4
_
_
, b =
_
_
0
1
2
_
_
.
(1) Encuentre las ecuaciones normales de Gauss del sistema de ecuaciones Ax = b y resuelvalas.
(2) Calcule las soluciones en el sentido de los mnimos cuadrados del sistema Ax = b utilizando
el metodo de Householder.
Ejercicio 3. Sean la matriz y el vector
A =
_
_
1 1
1 1
1 1
1 1
_
_
, b =
_
_
3
2
0
1
_
_
.
(1) Calcule A
+
, la matriz pseudoinversa de A.
(2) Obtenga la solucion optima del sistema Ax = b.
f(x, y, x) = x
3
+ y
3
+ z
3
3x 3y 3z.
(1) Demuestre que esta funcion es convexa en el conjunto
_
(x, y, z) R
3
: x 0, y 0, z 0
_
.
(2) Obtener todos sus puntos crticos, y demostrar que solo uno de ellos es un mnimo local.
(3) Dar un paso del metodo de descenso partiendo del origen, con b usqueda lineal exacta.
Examen de Septiembre. Curso 2009-2010.
f(x, y) = x
2
+ y
2
log(x + y), con x + y > 0.
(1) Estudiar si la funcion es convexa.
(2) Obtener los mnimos locales.
(3) Efectuar un paso del metodo de descenso mas rapido con b usqueda lineal exacta, partiendo
de (x
0
, y
0
) = (0, 1). Determinar el error absoluto de la aproximacion obtenida.
23

Minimos Cuadrados 1

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Minimos Cuadrados 1

Uploaded by

Copyright:

Available Formats

M

ATICOS (Curso 2010-2011)

Algebra (a traves del metodo de ortogonalizacion de Gram-Schmidt aplicado a las columnas de

en el sentido de mnimos cuadrados de norma

| | x| para toda solucion de mnimos cuadrados x de Ax = b.

, terminamos esta introduccion

es la unica que satisface que z

= 0, para todo z Nul(A).

S se dice que es un mnimo global si f(x) f(x

), x S, en tanto que se dice

), x S que verique [[x x

es un mnimo local, entonces f(x

es un mnimo local, entonces H

) es denida positiva, entonces x

ETODOS DE DESCENSO DE MAYOR PENDIENTE Y DE NEWTON

Y [[ en el caso del ajuste trigonometrico y [[A

AMENES DE CURSOS ANTERIORES

You might also like