You are on page 1of 4

1

Une méthode statistique de détection d’anomalie


pour les modèles à espace d’état non linéaires
Ghislain Verdier1,2 , Nadine Hilgert1 et Jean-Pierre Vila1

1 UMR Analyse des Systèmes et Biométrie - SUPAGRO/INRA - 2 place Viala, 34060 Montpellier, France
2 I3M, UMR CNRS 5149, Université Montpellier II, cc 51, Place Eugène Bataillon, 34095 Montpellier, France
{ghislain.verdier,nadine.hilgert,jean-pierre.vila}@supagro.inra.fr

Résumé : Le test CUSUM est un des tests statistiques un même changement de valeur dans un modèle dynamique.
les plus efficaces pour la détection d’anomalie dans les Cette règle nécessite pour sa construction, la connaissance
systèmes dynamiques. Ce test repose sur la connaissance de la densité conditionnelle des observations par rapport à
de la forme analytique de la densité conditionnelle des leurs valeurs passées. La forme analytique de cette densité
observations par rapport à leurs valeurs passées. Cette conditionnelle n’est généralement pas accessible pour toute
forme n’est généralement pas connue pour toute une classe une classe de modèles souvent rencontrés en pratique : les
de modèles largement rencontrés dans l’industrie : les modèles dynamiques non linéaires à espace d’état.
modèles à espace d’état non linéaires. Nous proposons L’objet de cette communication est de présenter une
ici une règle de décision de type CUSUM construite à méthode de détection de changement de valeur de paramètre
partir d’estimations des vraisemblances conditionnelles dans des modèles à espace d’état non linéaires, correspondant
inconnues. Ces estimations sont obtenues en utilisant un à une anomalie dans le processus modélisé. Notre approche
filtre particulaire à noyaux de convolution, plus efficace consiste à utiliser conjointement la théorie du filtrage par-
qu’un filtre de Kalman étendu. La règle obtenue est ticulaire, et plus particulièrement une méthode de filtrage
appliquée sur un procédé de dépollution biologique en vue originale basée sur une estimation non paramétrique du filtre
de détecter un biais sur un capteur de concentration en optimal, avec des intégrations de Monte Carlo, pour estimer la
biomasse. vraisemblance conditionnelle des observations. Nous sommes
Mots clés : Détection d’anomalie, Règle du CUSUM, alors en mesure de construire une règle de décision statistique
Filtre particulaire, Procédé de dépollution. construite sous la forme du CUSUM. Dans ce travail, la
procédure de détection obtenue est appliquée sur un problème
réel, à savoir la détection d’anomalie sur un procédé de
I. I NTRODUCTION
digestion anaérobie.

D EPUIS de nombreuses années, la détection d’anomalie,


ou détection de panne, occupe une grande place dans
la supervision de processus, dans des applications de type
Dans un premier temps, nous présentons le contexte de
la détection de changement d’un point de vue statistique et
nous rappelons l’écriture du CUSUM. Le cas des modèles
industrie agro-alimentaire, sismologie, système de guidage dynamiques à espace d’état est ensuite évoqué et l’algorithme
ou encore pour la surveillance de procédés de dépollution de filtrage-détection est introduit. Enfin, dans une dernière
biologique. Les grandes disciplines traitant ce problème partie, des résultats sur des données réelles sont présentés.
sont l’Automatique et l’Intelligence Artificielle, mais depuis
quelques années, l’intérêt pour l’utilisation de méthodes sta-
II. D ÉTECTION DE CHANGEMENT ET R ÈGLE DU CUSUM
tistiques, complémentaires des méthodes traditionnelles, n’a
cessé d’augmenter (voir Basseville et Nikiforov [1]). Ces L’objectif de la détection de changement de valeur de
approches stochastiques permettent de prendre en compte une paramètre, ou de panne, est de pouvoir repérer, le plus rapide-
partie de l’incertitude sur le système par des bruits sur le ment possible, le passage d’un état de fonctionnement normal,
modèle. Elles permettent de plus, de construire des règles appelé régime H0 , à un état de fonctionnement anormal, ou
de décision statistiques en fonction de contraintes fixées par panne, appelé régime H1 , pour le système sous surveillance.
l’expérimentateur : temps moyen entre deux fausses alarmes On peut caractériser ce changement de régime par un chan-
fixé, probabilité de faux diagnostic fixée... gement de valeur d’un paramètre θ dans la modélisation du
Une des toutes premières règles de décision statistiques système, qui va passer de la valeur θ0 sous H0 à la valeur
mises au point est la règle des sommes cumulées (règle du θ1 sous H1 . Plus précisément, considérons le cadre suivant :
CUSUM). Elle fut proposée par Page [3] en 1954, pour sous régime de fonctionnement normal, la densité condition-
détecter un changement de valeur d’un paramètre dans la nelle des observations Yn sachant le passé Y1 , ..., Yn−1 est
densité d’une suite d’observations indépendantes. Elle a été par pθ0 (Yn |Y1 , ..., Yn−1 ). A un instant tp inconnu, le paramètre θ
la suite adaptée à des données dépendantes, de sorte à détecter prend la valeur θ1 et les observations ont alors pour densité
e-STA copyright © 2008 by see
Volume 5 (2008), N°2 pp 13-16
2

conditionnelle pθ0 ,θ1 ,tp (Yn |Y1 , ..., Yn−1 ) pour n ≥ tp , densité moyenne dans une suite de variables gaussiennes. Il s’agit
qui dépend de l’instant de changement tp . On suppose pour d’un problème classique qui peut se traiter à l’aide de la
l’instant que les valeurs θ0 et θ1 sont connues. Le temps d’arrêt règle du CUSUM. Lorsque le modèle est non linéaire, on
de la règle du CUSUM est alors défini comme le premier peut envisager d’utiliser la même approche à l’aide d’un
instant où la statistique de test gn , en moyenne proche de 0 filtre de Kalman étendu. Mais cette méthode n’a plus aucune
sous H0 , positive et croissante sous H1 , franchit un seuil h justification théorique et se montre alors inefficace si la non
fixé par l’expérimentateur : linéarité est trop forte.

ta = inf{n : gn ≥ h},
C. L’algorithme de filtrage-détection
avec La théorie du filtrage, qui permet de reconstruire l’état Xn
n
du processus en fonction des observations Y1 , ..., Yn dans le
 
X pθ0 ,θ1 ,j (Yi |Y1 , ..., Yi−1 )
gn = max log . modèle (1), est largement utilisée dans l’industrie, notamment
1≤j≤n
i=j
pθ0 (Yi |Y1 , ..., Yi−1 )
les outils de type filtre de Kalman. Récemment, de nouvelles
Cette règle de décision est assez efficace et possède de méthodes de filtrage ont été mises au point pour les modèles
plus des propriétés d’optimalité (Lai [2]). Cependant, elle non linéaires, il s’agit des filtres à particules dont le principe
nécessite pour son utilisation, la connaissance analytique des est le suivant : un grand nombre de trajectoires (X̃, Ỹ ) sont
vraisemblances conditionnelles des observations par rapport à simulées suivant le modèle (1) et des poids sont associés à
leurs valeurs passées sous H0 et sous H1 . ces trajectoires à partir des observations Y . A l’instant n,
l’ensemble des particules pondérées X̃n forment une mesure
III. D ÉTECTION DANS LES MOD ÈLES DYNAMIQUES À empirique de la distribution de l’état conditionnellement aux
ESPACE D ’ ÉTAT observations.
Nous considérons ici un filtre particulaire original, le filtre
A. Modèles dynamiques à espace d’état
à noyaux de convolution (Rossi et Vila [4]), qui permet, non
Un modèle dynamique à espace d’état est constitué de va- pas d’obtenir une mesure empirique de l’état du système,
riables non observées, Xn , les variables d’état, et de variables mais une estimation fonctionnelle de la densité prédictive
d’observation, Yn , qui permettent d’obtenir de l’information pθ (Xn |Y1 , ..., Yn−1 ), notée p̂N
θ (Xn |Y1 , ..., Yn−1 ), où N est
sur l’état du système. Dans un cadre stochastique, un tel le nombre de particules utilisés pour l’estimation non pa-
modèle s’écrit sous la forme : ramétrique de pθ . Cette estimation, combinée à une méthode

Xn = f (Xn−1 , θ, vn ) d’intégration de Monte Carlo classique, permet d’estimer la
(1)
Yn = g(Xn , θ, wn ) , densité conditionnelle des observations pθ (Yn |Y1 , ..., Yn−1 ).
Il suffit donc de considérer l’ensemble des modèles qui vont
où v et w sont respectivement les bruits des équations d’état et
caractériser tous les états de fonctionnement possibles du
d’observation. Nous supposons que f et g sont des fonctions
système : d’une part un modèle décrivant le fonctionnement
connues et θ est le paramètre caractérisant la panne. Nous
normal du procédé, ∀ n ≥ 1 :
supposons par ailleurs que la valeur θ0 est connue et que
la valeur θ1 , qui est fixe, est inconnue mais appartient à un

Xn = f (Xn−1 , θ0 , vn )
intervalle Θ1 . Il s’agit du cadre d’application généralement (2)
Yn = g(Xn , θ0 , wn ) ,
rencontré en pratique. On peut en effet supposer que dans une
phase préliminaire à la surveillance, le paramètre caractérisant et d’autre part à l’instant n, n modèles caractérisant le fonc-
le fonctionnement normal du système a été bien estimé. tionnement sous régime de panne, chacun relié à un instant de
L’intensité d’une panne étant souvent inconnue au préalable, panne possible j, 1 ≤ j ≤ n :
la valeur du paramètre caractérisant ce régime de panne est la modèle j :
plupart du temps inconnue.

Xi = f (Xi−1 , θ0 , vi )
Pour ce type de modèle, la densité conditionnelle des (3)
Yi = g(Xi , θ0 , wi ) , pour i < j
observations par rapport à leurs valeurs passées n’étant
généralement pas accessible même quand les lois des bruits et
    
sont connues, il est impossible d’appliquer la règle du CUSUM Xi f (Xi−1 , θ1 , vi )
=

originelle. θi θi−1 (4)
Yi = g(Xi , θ1 , wi ) , pour i ≥ j.

B. La règle de Willsky et Jones Remarque : En théorie du filtrage, une approche classique pour
Lorsque le modèle à espace d’état est linéaire et la panne ad- traiter les paramètres inconnus est de les considérer comme
ditive, une des approches les plus efficaces consiste à appliquer des variables aléatoires, que l’on rajoute à l’état du système.
un filtre de Kalman. Cette approche a été étudiée par Willsky et On estime alors ces paramètres à partir du filtre à particules.
Jones [8] qui définissent un processus d’innovation gaussien C’est l’approche suivie ici en posant θi = θi−1 (puisque θ1
de moyenne nulle sous H0 et de moyenne non nulle sous est supposé constant) dans l’état du système (modèle (4)).
H1 . Le problème de la détection de changement de paramètre Le modèle (2) va nous permettre d’estimer la vraisemblance
dans ce modèle revient donc à détecter un changement de conditionnelle des observations pθ0 (Yi |Y1 , ..., Yi−1 ) pour tout
e-STA copyright © 2008 by see
Volume 5 (2008), N°2 pp 13-16
3

40
i ≥ 1. En effet, puisque,
Z
35
pθ0 (Yi |Y1 , ..., Yi−1 ) = pθ0 (Yi |xi ).pθ0 (xi |Y1 , ..., Yi−1 ) dxi ,
30
la vraisemblance conditionnelle sera donc estimée par
intégration de Monte Carlo : 25

m
N,m 1 X 20
l̂0,i = pθ0 (Yi |xi,0 (k)) ' pθ0 (Yi |Y1 , ..., Yn−1 ),

Qin (L/h)
m
k=1 15

quand N et m sont grands, où xi,0 (k) sera un échantillon


aléatoire issu de l’estimation p̂N
θ0 (Xi |Y1 , ..., Yi−1 ). Cette es-
10

timation est obtenue grâce au filtre à noyau de convolution 5


appliqué au modèle (2). N correspond au nombre de parti-
cules du filtre et m représente la taille de l’échantillon pour 0

l’intégration de Monte Carlo.


−5
De la même façon, tous les autres modèles (3)-(4) ca- 0 500 1000 1500 2000
temps, t
2500 3000 3500 4000

ractérisant les comportements possibles sous régime de panne,


permettent d’obtenir les estimations des vraisemblances condi- Fig. 1. Tracé du débit théorique (en foncé) et du débit mesuré (en clair)
tionnelles : pour tout j ≥ 1 et i ≥ j : Qin

pH1 ,j (Yi |Y1 , ..., Yi−1 ) =


Z
pH1 (Yi |xi , θ).pH1 ,j (xi , θ|Y1 , ..., Yi−1 ) dxi dθ. où X1 et S1 sont les concentrations en bactéries acidogènes et
en substrat organique respectivement. v 1 et v 2 sont des bruits
et alors, blancs gaussiens de variances respectives 10−6 et 10−4 . D est
m le taux de dilution :
ˆlN,m 1 X Qin
1,i,j = pH1 ,j (Yi |xi,j (k), θi,j (k)) D=
m V
k=1
' pH1 ,j (Yi |Y1 , ..., Yi−1 ) où Qin et V sont respectivement le débit d’alimentation (voir
figure 1) et le volume de travail du bioréacteur (constant et
où (xi,j (k), θi,j (k))k=1,...,m est un échantillon aléatoire de égal à 350L). D est la variable de contrôle du système (6).
p̂N
H1 ,j (xi , θ|Y1 , ..., Yi−1 ). µ1 est le taux de croissance de la biomasse et suit une loi de
Nous proposons alors une règle de décision construite de la
Monod :
même façon que celle du CUSUM : S1
µ1 (S1 ) = µmax ,
K S 1 + S1
 
 n
X ˆ N,m
l1,i,j 
t̂a = inf n : max log N,m ≥ h . (5) avec µmax = 1.2 et KS1 = 8.875. S1in est la concentration
 1≤j≤n
i=jl̂0,i 
initiale en substrat et vaut 9g/L. T est le pas de discrétisation,
où h est choisi tel que le temps moyen entre deux fausses l’intervalle de temps entre deux mesures étant de deux mi-
alarmes soit égal à une constante fixée par l’expérimentateur. nutes. Le terme α représente la proportion de biomasse non
Nous avons démontré les propriétés optimales de cette règle soumise à l’effet de dilution et vaut 0.5. k1 est un rendement
de décision (Verdier et al. [7]) dans le cas simplifié où le de conversion et est fixé à 42.12.
paramètre θ1 est connu. Nous nous sommes intéressés à des dysfonctionnements sur
le capteur mesurant la concentration en substrat. Le modèle
IV. A PPLICATIONS (6) représente ainsi l’équation d’état du modèle à espace d’état
Nous avons étudié le comportement de la règle t̂a sur et l’équation d’observation est donnée par :
des données réelles provenant d’un procédé de digestion
CS1 (i + 1) = S1 (i + 1) − θ + wi+1 (7)
anaérobie. Le système dynamique que nous avons considéré
modélise le fonctionnement d’un bioréacteur de traitement des où CS1 représente la mesure du capteur, w est le bruit sur le
boues de vinification après les vendanges. Ce modèle a été mis capteur supposé gaussien et de variance 10−3 , et θ caractérise
au point au Laboratoire de Biotechnologie de l’Environnement le dysfonctionnement, à savoir ici l’apparition d’un biais entre
(LBE) de l’INRA à Narbonne au cours des dix dernières la concentration réelle S1 et la mesure fournie par le capteur.
années. Le modèle original (Steyer et Bernard [5]) met en jeu On suppose que sous H0 , θ = θ0 = 0, le biais est nul. Et sous
deux biomasses (X1 et X2 ) et deux substrats (S1 et S2 ). Nous H1 , θ = θ1 qui est inconnue mais appartient à l’intervalle
nous sommes intéressés à la première réaction qui consiste en [0.6; 1.5].
la dégradation du substrat S1 par la biomasse X1 , selon le Le premier graphe de la figure 2 représente les données
modèle : mesurées de la concentration S1 (en clair) ainsi que des
 1
 X1 (i + 1) = X1 (i) + T (µ1 − αD(i))X1 (i) + vi+1 données simulées suivant le modèle à espace d’état (6)-(7) sous
in
S1 (i + 1) = S1 (i) + T (D(i)(S1 − S1 (i)) (6) l’hypothèse qu’il n’y a pas de dysfonctionnement du capteur
2
−k1µ1 X1 (i)) + vi+1 , (en foncé). On voit donc apparaı̂tre un biais entre le capteur

e-STA copyright © 2008 by see
Volume 5 (2008), N°2 pp 13-16
4

Concentration en substrat S1
3

2.5

2
1
CS

1.5

0.5
2600 2800 3000 3200 3400 3600 3800 4000 4200 4400
temps, t
Statistique de test
1500

1000
gt

500

0
2600 2800 3000 3200 3400 3600 3800 4000 4200 4400
temps, t

Fig. 2. Détection de l’apparition d’un biais sur le capteur à l’aide de l’algorithme de filtrage-détection

et le modèle vers le pas de temps t = 4000 (voir aussi Steyer possibles sur le procédé, est directe. L’objectif est alors de
et Bernard [5]). Le deuxième graphe de la figure 2 représente détecter une panne et de la localiser parmi les K. Il suffit
l’évolution de la statistique de test de la règle de décision de considérer autant de modèles (3)-(4) qu’il y a de pannes
proposée. On voit que la statistique de test augmente de façon possibles, chacun étant relié à un type de panne.
significative à partir de t = 3950, ce qui permet de détecter la
panne très rapidement, à l’aide d’un seuil obtenu par exemple, R EFERENCES
de manière adaptative (Verdier et al. [6]). [1] M. Basseville and I. Nikiforov, Detection of Abrupt Changes. Theory and
Application. Prentice-Hall, 1993.
[2] T. L. Lai, “Information bounds and quick detection of parameter changes
V. C ONCLUSION in stochastic systems,” IEEE Trans. Inform. Theory, vol. 44, pp. 2917–
2929, Nov. 1998.
Nous proposons une méthode de détection d’anomalie pour [3] E. S. Page, “Continuous inspection schemes,” Biometrika, vol. 41, pp.
les modèles dynamiques à espace d’état non linéaires ins- 100–115, 1954.
pirée de la règle du CUSUM. Cette approche utilise une [4] V. Rossi and J.-P. Vila, “Nonlinear filtering in discrete time : a particle
méthode de filtrage particulaire originale qui peut s’appliquer convolution approach,” An. Inst. Stat. Univ. Paris, vol. 3, pp. 71–102,
2006.
dans des conditions plus générales que les filtres usuels. La [5] J.-P. Steyer and O. Bernard, “An exemple of the benefits obtained from
procédure proposée possède des propriétés d’optimalité et son the long term use of mathematical models in wastewater biological
comportement en simulation montre qu’elle est globalement treatment,” in Proc. of the 4th MATHMOD International Symposium on
Mathematical Modelling, Vienna, Austria, 2003, pp. 245–251.
plus efficace que la règle classique de Willsky et Jones dans [6] G. Verdier, N. Hilgert, and J.-P. Vila, “Adaptive threshold computation
le cas de modèles non linéaires (voir Verdier et al. [7]). for CUSUM-type procedures in change detection and isolation problems,”
La mise en place de cette règle de décision sur un procédé Computational Statistics and Data Analysis, En révision.
de dépollution donne des résultats encourageants puisque la [7] ——, “Optimality of CUSUM rule approximations in change-point de-
tection problems - applications to nonlinear state-space systems,” IEEE
panne considérée, l’apparition d’un biais sur le capteur, est Trans. Inform. Theory, Soumis.
détectée très rapidement. [8] A. S. Willsky and H. L. Jones, “A generalized likelihood ratio approach
L’adaptation de cette règle de décision au cas du diagnostic, to detection and estimation of jumps in linear systems,” IEEE Trans.
Automat. Contr., vol. AC-21, pp. 108–112, Feb. 1976.
c’est à dire lorsqu’on considère un ensemble de K > 1 pannes
e-STA copyright © 2008 by see
Volume 5 (2008), N°2 pp 13-16

You might also like