Professional Documents
Culture Documents
Estimation linéaire
Quelques remarques
30 mai 2007
Plan
1 Rappels de probas
Variables et vecteurs aléatoires
Loi normale
2 Estimation linéaire
Cas d’école
Généralisation
Avec le formalisme de l’assimilation de données
3 Quelques remarques
Filtrage de Kalman
Et la loi normale dans tout ça ?
Difficultés pratiques
Plan
1 Rappels de probas
Variables et vecteurs aléatoires
Loi normale
2 Estimation linéaire
Cas d’école
Généralisation
Avec le formalisme de l’assimilation de données
3 Quelques remarques
Filtrage de Kalman
Et la loi normale dans tout ça ?
Difficultés pratiques
Définition
Variable aléatoire : résultat d’une épreuve aléatoire
Définition
Deux v.a.r. X et Y sont indépendantes ssi
P ((X ∈ I) ∩ (Y ∈ J)) = P(X ∈ I).P(Y ∈ J) ∀I, J ⊂ R
I
Définition
n
X
xi pi si X discrète
Espérance : E(X ) = Zi=1b
x f (x) dx si X continue
a
Définition
h i
2
Variance : Var (X ) = E (X − E(X ))
p
Ecart-type : σ(X ) = Var (X )
Covariance
Définitions
Soient X et Y deux v.a.r.
Covariance : Cov (X , Y ) = E(XY ) − E(X )E(Y )
= E [(X − E(X )) (Y − E(Y ))]
Cov (X , X ) = Var (X )
Cov (X , Y )
Coefficient de corrélation : ρ(X , Y ) =
σX σY
Propriété
X et Y indépendantes =⇒ Cov (X , Y ) = 0
Vecteur aléatoire
Définition
X1
Vecteur aléatoire : X = ... où chaque Xi est une v.a.r.
Xn
Définitions
Matrice de covariance C = (Cov (Xi , Xj ))1≤i,j≤n (Cii = σ 2 (Xi ) )
Propriété
Toute matrice de covariance est symétrique semi-définie positive.
(définie si les v.a.r. forment une famille libre)
Plan
1 Rappels de probas
Variables et vecteurs aléatoires
Loi normale
2 Estimation linéaire
Cas d’école
Généralisation
Avec le formalisme de l’assimilation de données
3 Quelques remarques
Filtrage de Kalman
Et la loi normale dans tout ça ?
Difficultés pratiques
Définition
N (m, σ 2 ) : loi normale de moyenne m et de variance σ 2
1 (x−m)2
f (x) = √ e− 2σ 2
2π σ
Propriétés
Plan
1 Rappels de probas
Variables et vecteurs aléatoires
Loi normale
2 Estimation linéaire
Cas d’école
Généralisation
Avec le formalisme de l’assimilation de données
3 Quelques remarques
Filtrage de Kalman
Et la loi normale dans tout ça ?
Difficultés pratiques
Position du problème
On dispose de 2 mesures différentes pour une même quantité.
Comment trouver une bonne estimation de la vraie valeur ?
Exemple : 2 obs y1 = 1 et y2 = 2 d’une quantité x inconnue.
3
Min (x − 1)2 + (x − 2)2 −→ x̂ =
2
Problèmes :
Sensibilité au changement d’unité :
1 obs y1 = 1 de x, et 1 obs y2 = 4 de 2x
9
Min (x − 1)2 + (2x − 4)2 −→ x̂ =
5
Pas de sensibilité à la précision de la mesure :
même estimation si y1 est plus précise que y2
GT MOISE, 30 mai 2007
Rappels de probas Cas d’école
Estimation linéaire Généralisation
Quelques remarques Avec le formalisme de l’assimilation de données
Position du problème
On dispose de 2 mesures différentes pour une même quantité.
Comment trouver une bonne estimation de la vraie valeur ?
Exemple : 2 obs y1 = 1 et y2 = 2 d’une quantité x inconnue.
3
Min (x − 1)2 + (x − 2)2 −→ x̂ =
2
Problèmes :
Sensibilité au changement d’unité :
1 obs y1 = 1 de x, et 1 obs y2 = 4 de 2x
9
Min (x − 1)2 + (2x − 4)2 −→ x̂ =
5
Pas de sensibilité à la précision de la mesure :
même estimation si y1 est plus précise que y2
GT MOISE, 30 mai 2007
Rappels de probas Cas d’école
Estimation linéaire Généralisation
Quelques remarques Avec le formalisme de l’assimilation de données
On pose : Yi = x + εi avec
Hypothèses :
E(εi ) = 0 (i = 1, 2) appareils de mesure sans biais
Var (εi ) = σi2 (i = 1, 2) de précisions connues
Cov (ε1 , ε2 ) = 0 i.e. E(ε1 ε2 ) = 0 mesures indépendantes
Alors :
E(X̂ ) = (α1 + α2 )x + E(ε1 ) + E(ε2 ) =⇒ α1 + α2 = 1
h i
Var (X̂ ) = E (X̂ − x)2 = E (α1 ε1 + α2 ε2 )2
∂ σ2
= 0 =⇒ α1 = 2 2 2
∂α1 σ 1 + σ2
BLUE
1 1
Y1 + Y2
σ12 σ22
X̂ =
1 1
+
σ12 σ22
σ12 σ22 1 1 1
Et on a : Var (X̂ ) = , soit : = + 2
σ12 + σ22 Var (X̂ ) 2
σ1 σ2
Equivalence variationnelle
C’est équivalent au problème :
(x − y1 )2 (x − y2 )2
1
Minimiser J(x) = +
2 σ12 σ22
Remarques :
Ca résout les pbs de sensibilité aux unités et d’insensibilité à la
précision
Ca rationalise le choix de la norme pour J
1 1 1 concavité de J ≡ précision
J 00 (x) = + 2 =
σ12 σ2 Var (X̂ ) de l’estimation
σb2
X̂ = Xb + (Y − Xb )
σb2 + σo2 | {z }
| {z } innovation
gain
Hypothèses :
E(εi ) = bi 6= 0 appareil de mesure biaisé
Cov (ε1 , ε2 ) = c 6= 0 mesures dépendantes
Plan
1 Rappels de probas
Variables et vecteurs aléatoires
Loi normale
2 Estimation linéaire
Cas d’école
Généralisation
Avec le formalisme de l’assimilation de données
3 Quelques remarques
Filtrage de Kalman
Et la loi normale dans tout ça ?
Difficultés pratiques
Généralisation à m observations y1 , . . . , ym
On pose : Yi = x + εi avec
Hypothèses :
E(εi ) = 0 (i = 1, . . . , m) appareils de mesure sans biais
Var (εi ) = σi2 (i = 1, . . . , m) de précisions connues
Cov (εi , εj ) = 0 i.e. E(εi εj ) = 0 (i 6= j) mesures indpdtes
m
X 1
Y
2 i m
σ
i=1 i 1 X 1
BLUE X̂ = m
avec = 2
X 1 Var (X̂ ) σ
i=1 i
σ 2
i=1 i
m
1 X (x − yi )2 1
Equivaut à minimiser J(x) = 2
, et on a J 00 (x) =
2 σ i Var (X̂ )
i=1
xn
y1
Observations : y = ... ∈ RI m
ym
Hypothèse
On suppose que le mapping entre x et y est linéaire : y ≡ Hx, avec
H(m, n) matrice d’observation.
On pose : Y = Hx + e I m
avec e vecteur aléatoire de R
Hypothèses :
E(e) = 0 appareils de mesure sans biais
T
Cov (e) = E(ee ) = Σ précisions et covariances connues
BLUE :
linéaire : X̂ = AY avec A(n, m)
sans biais : AH = In
car E(X̂) = E(AHx + Ae) = AHx + AE(e) = AHx = x
Théorème de Gauss-Markov
A = (HT Σ−1 H)−1 HT Σ−1 et Cov (X̂) = (HT Σ−1 H)−1
Définition
Soit M une matrice de taille (m, n). On appelle inverse généralisée ou
pseudo-inverse ou inverse de Moore-Penrose de M l’unique matrice
M+ de taille (n, m) qui vérifie :
MM+ M = M
M+ MM+ = M+
(MM+ )T = MM+
(M+ M)T = M+ M
Propriétés
Moindres carrés
x̂ = (MT NM)−1 MT N b
1 1
J(x) = kHx − yk2Σ−1 = (Hx − y)T Σ−1 (Hx − y)
2 2
Remarques
On retrouve le fait que :
la vision "estimation statistique" rationalise le choix de la norme
de minimisation
concavité de J ≡ précision de l’estimation :
h i−1
Hess(J) = HT Σ−1 H = Cov (X̂)
Plan
1 Rappels de probas
Variables et vecteurs aléatoires
Loi normale
2 Estimation linéaire
Cas d’école
Généralisation
Avec le formalisme de l’assimilation de données
3 Quelques remarques
Filtrage de Kalman
Et la loi normale dans tout ça ?
Difficultés pratiques
On pose : Xb = x + eb et Z = Ho x + eo
Hypothèses :
E(eb ) = 0 ébauche sans biais
E(eo ) = 0 appareils de mesure sans biais
Cov (eb , eo ) = 0 erreurs d’ébauche et de mesure indépendantes
Cov (eb ) = B et Cov (eo ) = R précisions et covariances connues
Analyse
1 1
J(x) = (x − xb )T B−1 (x − xb ) + (Ho x − z)T R−1 (Ho x − z)
|2 {z } |2 {z }
Jb Jo
h i−1
et on a : Hess(J) = B−1 + HTo R−1 Ho = Cov (X̂)
Plan
1 Rappels de probas
Variables et vecteurs aléatoires
Loi normale
2 Estimation linéaire
Cas d’école
Généralisation
Avec le formalisme de l’assimilation de données
3 Quelques remarques
Filtrage de Kalman
Et la loi normale dans tout ça ?
Difficultés pratiques
Hypothèses
e(tk ) est sans biais et de matrice de covariance connue Qk
e(tk ) et e(tl ) sont indépendantes pour k 6= l
Obs yk sans biais, de matrice de covariance d’erreur connue Rk
e(tk ) et erreur d’analyse xa (tk ) − xt (tk ) sont indépendantes
1
J(x) = (x − x0 )T P−1
0 (x − x0 )
2
N
1 X
+ (Hk M(t0 , tk )x − yk )T R−1
k (Hk M(t0 , tk )x − yk )
2
k =0
au sens où, s’il n’y a pas d’erreur modèle, on obtient dans les 2 cas la
même solution à t = tN .
Plan
1 Rappels de probas
Variables et vecteurs aléatoires
Loi normale
2 Estimation linéaire
Cas d’école
Généralisation
Avec le formalisme de l’assimilation de données
3 Quelques remarques
Filtrage de Kalman
Et la loi normale dans tout ça ?
Difficultés pratiques
Hypothèses :
Fonction de vraisemblance :
L(x) = dP(Y1 = y1 et Y2 = y2 et . . . et Yn = yn )
On cherche :
x̂ = Argmax L(x) estimateur du max. de vraisemblance
n n (yi −x)2
Y Y 1 −
2σ 2
Ici : L(x) = dP(Yi = yi ) = √ e i
i=1 i=1
2π σi
m
X 1
yi
σ2
i=1 i
D’où : x̂ = m
On retrouve le BLUE
X 1
σ2
i=1 i
Théorème
Si les statistiques d’erreurs sont gaussiennes, le BLUE est aussi
l’estimateur du maximum de vraisemblance.
Fn de vraisemblance a priori
z }| { z }| {
dP(Y = y |X = x) dP(X = x)
dP(X = x|Y = y ) =
dP(Y = y )
P(B|A)P(A)
(th de Bayes : P(A|B) = )
P(B)
GT MOISE, 30 mai 2007
Rappels de probas Filtrage de Kalman
Estimation linéaire Et la loi normale dans tout ça ?
Quelques remarques Difficultés pratiques
Remarque
Si les statistiques ne sont pas gaussiennes, l’approche bayesienne
est toujours valide. Simplement, on ne sait pas forcément mener les
calculs au bout, et elle ne redonne pas forcément le BLUE.
Plan
1 Rappels de probas
Variables et vecteurs aléatoires
Loi normale
2 Estimation linéaire
Cas d’école
Généralisation
Avec le formalisme de l’assimilation de données
3 Quelques remarques
Filtrage de Kalman
Et la loi normale dans tout ça ?
Difficultés pratiques