Professional Documents
Culture Documents
T HSE
Prsente par
Sbastien G URIF
Spcialit : Informatique
Sbastien G URIF
I Etat de lart
2 Classification non-supervise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1 Concepts et dfinitions utiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Quest-ce quune classification ? . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.2 Quest-ce quun groupe dobjets similaires ? . . . . . . . . . . . . . . . . . . . . 6
2.1.3 Comment reprsenter un objet ? . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Quelques approches classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.1 Mthodes hirarchiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.2 Nues dynamiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.3 Modles de mlange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Approche neuromimtique : les cartes auto-organises de Kohonen . . . . . . . . . . . . 12
2.3.1 Sources historiques et principes . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.2 Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.3 Algorithme dapprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 Connaissances du domaine et contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4.1 Contraintes sur les groupes : forme et taille . . . . . . . . . . . . . . . . . . . . 15
2.4.2 Contraintes sur les objets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.3 Contraintes sur les attributs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.5 Evaluation et critres de validit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.5.1 Erreur Quadratique Moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5.2 Indice de Dunn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5.3 Indice de Davies-Bouldin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5.4 Indice de compacit Wemmert et Ganarski . . . . . . . . . . . . . . . . . . . . 18
2.5.5 Indices propres aux cartes auto-organises . . . . . . . . . . . . . . . . . . . . . 18
3 Comparaison de partitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1 Espace des partitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.1 Quelques dfinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.2 Outil de comparaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Comparaison par comptage de paires et distances binaires . . . . . . . . . . . . . . . . . 26
3.2.1 Prcision, Rappel et Critres associs . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.2 Indice de Rand & Mtrique de Mirkin . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.3 Similarit & hasard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3 Comparaison par mise en correspondance densembles . . . . . . . . . . . . . . . . . . 29
3.3.1 Critre de Larsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3.2 Critre de Meila & Heckerman . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3.3 van Dongen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3.4 Indice de Wemmert & Ganarski . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4 Proprits souhaitables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
vii
viii SOMMAIRE
3.5
Variation dinformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.5.1 Dfinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.5.2 Proprits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4 Rduction de dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2.1 Critres dvaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2.2 Procdures de recherche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2.3 Critres darrt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.4 Slection de variables et apprentissage connexionniste . . . . . . . . . . . . . . 41
4.3 Extraction de caractristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3.1 Mthodes linaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3.2 Mthodes non linaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
II Approches proposes
5 Traitement des attributs redondants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2 Approche propose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.1 Principes et algorithmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.2 Mcanisme de pondration propos . . . . . . . . . . . . . . . . . . . . . . . . 59
5.3 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.3.1 Donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.3.2 Amlioration de la qualit topologique de la carte des observations . . . . . . . . 60
5.3.3 Dtection du bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.3.4 Application aux donnes marketing . . . . . . . . . . . . . . . . . . . . . . . . 61
5.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.4.1 Distances entre profils de variables . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.4.2 Importance potentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.4.3 Algorithme doptimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6 Slection de variables et du nombre de groupes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.2 Approche propose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.2.1 Principes et algorithmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.2.2 Mesures dvaluations proposes . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.2.3 Stratgie de recherche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.2.4 Critre darrt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.3 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.3.1 Donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.3.2 Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6.4.1 Segmentation de la carte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6.4.2 Stratgie de recherche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
SOMMAIRE ix
III Applications
8 Applications aux traitements de donnes comportementales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.1 Application aux Marketing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.1.1 Problmatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.1.2 Collecte des donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.1.3 Codage des rponses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
8.1.4 Exemple dtude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
8.1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.2 Application lEthologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
8.2.1 Problmatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
8.2.2 Constitution de la base de donnes . . . . . . . . . . . . . . . . . . . . . . . . . 90
8.2.3 Approche thologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.2.4 Approche propose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
8.2.5 Conclusion et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
IV Conclusion et perspectives
9 Conclusion et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
V Annexes
C HAPITRE 1
Introduction
La classification automatique - clustering - est une tape importante du processus dextraction de
connaissances partir de donnes (ECD). Elle vise dcouvrir la structure intrinsque dun ensemble
dobjets en formant des regroupements - clusters - qui partagent des caractristiques similaires. La com-
plexit de cette tche sest fortement accrue ces deux dernires dcennies lorsque les masses de donnes
disponibles ont vu leur volume exploser. La taille des donnes peut tre mesure selon deux dimensions,
le nombre de variables et le nombre dexemples. Ces deux dimensions peuvent prendre des valeurs trs
leves, ce qui peut poser un problme lors de lexploration et lanalyse de ces donnes. Pour cela, il est
fondamental de mettre en place des outils de traitement de donnes permettant une meilleure comprhen-
sion de la valeur des connaissances disponibles dans ces donnes. La rduction des dimensions est lune
des plus vieilles approches permettant dapporter des lments de rponse ce problme. Son objectif
est de slectionner ou dextraire un sous-ensemble optimal de caractristiques pertinentes pour un critre
fix auparavant. La slection de ce sous-ensemble de caractristiques permet dliminer les informations
non-pertinentes et redondantes selon le critre utilis. Cette slection/extraction permet donc de rduire
la dimension de lespace des exemples et rendre lensemble des donnes plus reprsentatif du problme.
En effet, les principaux objectifs de la rduction de dimension sont :
faciliter la visualisation et la comprhension des donnes,
rduire lespace de stockage ncessaire,
rduire le temps dapprentissage et dutilisation,
identifier les facteurs pertinents.
Les algorithmes dapprentissage artificiel requirent typiquement peu de traits - features - ou de
variables - attributs - trs significatifs caractrisant le phnomne tudi. Dans le domaine de la recon-
naissance des formes et de la fouille de donnes, il pourrait encore tre bnfique dincorporer un module
de rduction de la dimension dans le systme global avec comme objectif denlever toute information
inconsquente et redondante. Cela a un effet important sur la performance du systme. En effet le nombre
de caractristiques utilises est directement li lerreur finale. Limportance de chaque caractristique
dpend de la taille de la base dapprentissage - pour un chantillon de petite taille, llimination dune
caractristique importante peut diminuer lerreur. Il faut aussi noter que des caractristiques individuel-
lement peu pertinentes peuvent tre trs informatives si on les utilise conjointement.
La rduction de la dimension est un problme complexe qui permet de rduire le volume dinforma-
tions traiter et faciliter le processus de lapprentissage.
Nous pouvons classer toutes les techniques mathmatiques de rduction des dimensions en deux
grandes catgories :
la slection de variables : qui consiste choisir des caractristiques dans lespace de mesure,
(figure 1.1)
et lextraction de traits : qui vise slectionner des caractristiques dans un espace transform -
dans un espace de projection (figure 1.2)
Dans cette thse, nous nous intressons la rduction de dimension dans le cadre de la classification
non supervise. Il sagit dun domaine de recherche encore peu explor qui est plus difficile que dans
1
2 C HAPITRE 1 Introduction
La dfinition prcdente impose deux contraintes fortes ; dune part, tous les objets doivent appartenir
une classe et dautre part, cette classe doit tre unique. Lorsquon autorise certains objets rester sans
affectation, on parle de classification partielle. Ensuite, si la deuxime contrainte est relche, un objet
peut alors se trouver dans diffrentes classes et on parle de classification douce. Enfin, en ajoutant la
6 C HAPITRE 2 Classification non-supervise
notion de degr dappartenance une classe, on se place dans le contexte des ensembles flous et on
parle de classification floue. Avant de dfinir le concept de classification hirarchique, commenons par
introduire une relation dordre sur les partitions .
Dfinition 2.1.2 (Relation dordre ) On dit quune partition C est plus fine ou gale une partition
C , si chacune de ses parties Ci est incluse dans une partie Cj de C et on note C 4 C .
C 4 C ( Ci C) Cj C : Ci Cj
Si de plus les partitions C et C sont diffrentes, on note C C .
Une classification hirarchique est une suite de partitions embotes C (0) C (1) . . . C (N ) = {}
dont le premier terme C (0) est la partition la plus fine qui ne contient que des singletons et dont le dernier
terme est la partition la plus grossire qui ne comporte quune seule partie. La figure 2.1 illustre ce
concept dans le cas dun ensemble de quatre objets.
Figure 2.1 Exemple de classification hirarchique dun ensemble de quatre objets. La base de la hi-
rarchie correspond la classification la plus fine et on monte dun niveau en fusionnant deux parties.
Lhomognt des individus regroups au sein dun groupe est souvent value laide dun critre
statistique appele variance dont la dfinition est rappele ci-dessous.
Dfinition 2.1.6 (Variance) On dfinit la variance V (Ci ) dun groupe dobjets Ci ainsi :
1 X 2
V (Ci ) = d (xj i )
Ni
xj Ci
reprsentation des connaissances est encore un domaine de recherche actif ; le lecteur intress trouvera
une introduction ce domaine dans [Kay97]. Une reprsentation peut prendre diverses formes plus ou
moins complexes (tables, arbres, graphes, etc.) mais nous ne considrerons dans cette thse que la repr-
sentations des donnes sous forme de table qui est la plus largement rpandue dans les applications de la
fouille de donnes2 .
Un tableau de donnes peut contenir des variables continues, qui servent mesurer un caractre
quantitatif, et des variables discrtes qui spcifient un caractre qualitatif. On distingue gnrale-
ment les variables discrtes ordinales, dont les diffrentes valeurs ou modalits sont ordonnes, des
variables discrtes nominales pour lesquelles aucun ordre nest dfini.
Exemple 2.1.2 Prenons pour exemple le tableau de donnes suivant quun vtrinaire pourrait tenir
jour pour le suivi de ces patients :
De prime abord, le type des diffrents attributs prsents dans le tableau peut sembler vident, mais il est
en fait souvent discutable. Lattribut Nom sera gnralement considr comme une variable nominale
bien quelle puisse tre porteuse dune information concernant lge relatif des sujets dans le cas des
chiens de races ; en effet, la premire lettre du nom correspond la plus souvent lanne de naissance
et dans ce cas nous sommes en prsence dune variable ordinale. Une discussion analogue du caractre
nominal de la variable Race est plus difficile et comme le caractre continu des variables Hauteur et
Poids, le caractre ordinal de lattribut Taille sera moins souvent remis question. En revanche, lattribut
Groupe ne doit pas tre considr comme ordinal mais comme nominal car il correspond au groupe
dutilisation des races canines que nous rappelons dans le tableau ci-dessous :
Groupe Description
I Les bergers et les bouviers
II Les pinshers, les shnauzers et les molosses
III Les terriers
IV Les teckels
V Les chiens nordiques et les spitz
VI Les chiens courants
VII Les chiens darrt
VIII Les leveurs de gibiers, les retrievers et les chiens deau
IX Les chiens de compagnie
X Les lvriers
2
Source : rsultats denqutes disponibles sur http ://www.kdnuggets.com
C HAPITRE 2 Classification non-supervise 9
Elles considrent lensemble des observations et procdent par division successive jusqu obtenir
une partition forme de singletons. Nous ne dtaillerons pas davantage ces mthodes qui sont trop
coteuses pour tre utilises sur les volumes de donnes manipuls aujourdhui. En effet, la division
dune partie N lments ncessitent lvaluation des (2N 1 1) divisions possibles.
Elles commencent avec la partition de lensemble la plus fine et procdent ensuite par fusion
progressive des parties jusqu obtention de la partition la plus grossire. On obtient ainsi un arbre binaire
dont la racine correspond la partition ne comportant quune seule partie et dont les feuilles sidentifient
aux diffrents singletons. Les diffrents noeuds intermdiaires correspondent la fusion de deux parties.
La Classification Ascendante Hirarchique (CAH) est sans nulle doute la mthode la plus largement
utilise de cette catgorie. Diffrents indices dagrgation de groupes ont t proposs :
Lindice du saut minimum est dfini comme la distance minimale qui spare deux lments issus
de groupes diffrents.
Lindice du saut maximum correspond la distance maximale qui spare deux lments issus de
groupes diffrents.
Lindice du saut moyen est lesprance de la distance qui spare deux lments issus de groupes
diffrents.
La distance entre les centrodes des groupes qui se calcule au plus en temps linaire O(N ) contrai-
rement aux indices prcdents dont la complexit est quadratique (N 2 ).
Lindice de Ward est dfini comme laugmentation de la variance intra-classe rsultant de la fusion
des deux groupes considrs.
Comme lillustre les figures 2.3 et 2.4, il convient de souligner que le rsultat dune CAH est forte-
ment conditionn par le choix du critre dagrgation. Par ailleurs, on souhaite gnralement que la
hirarchie obtenue, indice par la valeur du critre dagrgation soit monotone3 , cette proprit nest
pas vrifie lorsquon utilise la distance entre les centrodes comme critre dagrgation. Rappelons en-
fin que dautres mthodes de classification hirarchique ont t proposes ; le lecteur intress trouvera
notament une prsentation des algorithmes BIRCH (Balanced Iterative Reducing and Clustering using
Hierarchies) et CURE (Clustering Using REpresentative) dans [Azz05].
3
On peut associer une suite (ri R)0iN une hirarchie de partition C (0) . . . C (N) . On dit alors que la hirarchie
C (i) indice par la suite (ri R)0iN est monotone si cette suite dindice est soit croissante, soit dcroissante.
0iN
10 C HAPITRE 2 Classification non-supervise
2.2.2.1 K-moyennes
Lalgorithme des K-moyennes consiste choisir alatoirement des centres initiaux et amliorer la
partition obtenue de manire itrative en alternant les deux tapes suivantes jusqu stabilisation :
tape daffectation : chaque objet x est affect au centre le plus proche, not (x),
tape doptimisation : chaque centre est remplac par le barycentre de lensemble des objets quil
reprsente.
Le critre optimis par cet algorithme est dfini par :
X
RKmoyennes = kx (x)k2 (2.1)
x
Bien que beaucoup plus rapide que la CAH, cet algorithme est trs instable et converge vers des
minima locaux. On choisit gnralement la meilleure solution obtenue aprs plusieurs excutions de
lalgorithme sans toutefois avoir de garantie doptimalit globale de la partition retenue. Nanmoins,
de nombreuses modifications de lalgorithme initial ont t proposes pour essayer de palier ces pro-
blmes. Lalgorithme des K-moyennes globales - global kmeans - propose dans [LVV03] commence en
considrant le barycentre des objets comme centre initial. Ensuite, lobjet qui maximise la diminution
de lerreur est ajout comme nouveau prototype aprs chaque convergence de lalgorithme qui sarrte
lorsque le nombre de groupes souhait est atteint. Bien que les solutions obtenues par cette approche
soient stables, [HNCM05] montrent quelles ne sont en gnral pas optimales.
Outre les problmes dinstabilit et doptimalit que nous venons de soulever, cette approche nces-
site de connatre priori le nombre de centres. En pratique, on ignore souvent le nombre de groupes pr-
sents dans lensemble des objets et il est donc ncessaire dexcuter lalgorithme pour diffrentes valeurs
de ce paramtre. Notons que le critre RKmoyennes dcrot lorsque le nombre de groupes augmente
C HAPITRE 2 Classification non-supervise 11
et quil nest donc pas adapt pour choisir le nombre de groupe optimal. Nous verrons au paragraphe
2.5 quil convient dutiliser cet effet lun des nombreux critres de qualit proposs dans la littrature.
Malgr les multiples excutions requises par lutilisation de la mthode des K-moyennes, cette approche
conserve lavantage sur la CAH lorsque le nombre de centres K reste faible devant le nombre dobjets ;
sa complexit est en (N.K) contre une complexit en O(N 2 ) pour la CAH.
Il convient de remarquer quen faisant appel la notion de barycentre, lalgorithme dcrit ci-dessus
suppose implicitement que les objets sont reprsents par un ensemble de valeurs continues. Lorsque les
objets sont dcrits par des variables nominales, ou plus gnralement, lorsque lutilisateur souhaite quun
prototype corresponde un objet observable le barycentre utilis pour la mise jour des prototypes peut
tre remplac par lobjet mdian ou lobjet le plus proche du barycentre ; ces alternatives sont appeles
respectivement K-mdianes et K-mdodes.
Lestimation du nombre et des paramtres de composantes est un problme difficile et dans la plupart
des applications seuls les mlanges de lois normales sont considrs. Lorsquon impose de plus que
toutes les lois normales du mlange aient la matrice identit comme matrice de covariance, on retrouve
le cas des k-moyennes.
2.2.3.2 Algorithme EM
Lalgorithme le plus rpandu pour estimer les paramtres dun mlange est lalgorithme EM - Ex-
pectation Maximization - introduit par Dempster et al. en 1977 [DHG01, MB88]. Il consiste itrer les
deux phases suivantes jusqu ce que lamlioration de la log vraisemblance du modle soit infrieure
un seuil > 0 fix :
1. Estimation : on suppose fixs les paramtres = 1 , 1 , 2 , 2 , . . . du modle et on calcule
la probabilit p(x|i ) quun objet x ait t gnr par la composante correspondant la
sous-population Ci :
i p(x|i )
p(x|i ) = P (2.5)
k k p(x|k )
2. Maximisation : on suppose cette fois fixe la partition floue de lensemble des objets x dont
les degrs dappartenance sont donns par les probabilits p(x|i ). On cherche alors les paramtres
e du modle qui maximisent sa log vraisemblance
X
log L(|) = p(x|) (2.6)
x
o N est le nombre dobjets prsents dans . Et dans le cas dun mlange de lois normales
N (i , i ), les paramtres optimaux ei = (ei ,
fi ) sont obtenus ainsi :
1 X
ei = x p(x|i )
N ei
x
fi = 1
(x ei )(x ei )T p(x|i )
N ei
2.3.2 Description
Le procd dauto-organisation propos par Kohonen cherche transformer des signaux de dpart de
dimension quelconque, en gnral assez grande, en signaux une ou deux dimensions. Le but principal
du rseau est ici de reproduire en sortie du rseau les corrlations qui sont prsentes dans les donnes
prsentes lentre. Dune manire gnrale, les cartes auto-organisatrices vont projeter les donnes
initiales sur un espace discret et rgulier de faible dimension (en gnral 1 ou 2). Les espaces utiliss
sont des treillis rguliers dont chacun des noeuds est occup par un automate (neurone formel), la notion
de voisinage entre neurones dcoule alors directement de la structure et dfinie une topologie de la carte.
Grce au procd dauto-organisation, la topologie qui lie les donnes initiales est conserve au niveau
des rponses proposes par le rseau. La localisation des neurones actifs reproduit les liens existants
au niveau des donnes initiales. La plupart du temps, puisquil sagit dun procd dapprentissage non
supervis, les relations de voisinages entre formes dentre sont inconnues. Cest lobservation des voi-
sinages produits par la carte qui vont permettre linterprtation des donnes initiales. En particulier, ils
vont dfinir la notion de formes proches dans lespace initial.
Les rseaux SOM sont constitus de deux couches (figure 2.6) :
la couche dentre o les donnes classer sont prsentes. Les tats de tous les neurones de cette
couche sont forcs aux valeurs des caractristiques dcrivant les formes dentres ;
la couche (topologique) dadaptation est compose du treillis de neurones selon une gomtrie
prdfinie.
Chaque neurone i de la couche topologique est totalement connect aux neurones de la couche dentre.
Le vecteur poids .i = (1i , . . . , ni ) de ces connexions forme le rfrent ou le prototype associ au
neurone, il est de la mme dimension que les formes dentre.
Pendant la phase dapprentissage, le processus dauto-organisation permet de concentrer ladaptation
des poids des connexions essentiellement sur la rgion de la carte la plus active. Cette rgion dactivit
est choisie comme tant le voisinage associ au neurone dont ltat est le plus actif. Le critre de slection
du neurone le plus actif est de chercher celui dont le vecteur de poids est le plus proche au sens de la
distance euclidienne de la forme prsente. Il sagit dun critre qui est lheure actuelle utilis dans
lalgorithme de ces cartes topologiques. Cest lutilisation de cette notion de voisinage qui introduit les
14 C HAPITRE 2 Classification non-supervise
contraintes topologiques dans la gomtrie finale de la carte. Les recherches effectues par les neuro-
physiologistes dans ltude du systme visuel humain ont montr lexistence de ce type de phnomne
au niveau des cellules du cortex et le rle important quil joue dans la vision humaine.
o M reprsente le nombre de neurones de la carte, b(i) est le neurone dont le rfrent est le plus
proche de la forme dentre xi , et h la fonction de voisinage. La version stochastique de lalgorithme
dapprentissage de ce modle se droule essentiellement en trois phases :
la phase dinitialisation o des valeurs alatoires sont affectes aux poids des connexions (rfrents
ou prototypes) de chaque neurone de la carte ;
la phase de comptition pendant laquelle, pour toute forme dentre xi , un neurone b(i), de voi-
sinage Vb(i) , est slectionn comme gagnant. Ce neurone est celui dont le vecteur de poids est le
plus proche au sens de la distance euclidienne de la forme prsente :
b(i) = arg min kj xi k2 (2.13)
1jM
C HAPITRE 2 Classification non-supervise 15
la phase dadaptation o les poids de chaque neurone de la carte sont mis jour selon les rgles
dadaptation suivantes : si .j Vb(i) ajuster les poids selon la formule :
.j .j hb(i)j (.j xi ) (2.14)
Ce processus dadaptation est rpt jusqu stabilisation de lauto-organisation.
Une version batch de cet algorithme a t propose : les vecteurs poids ne sont mis jour quaprs
la prsentation de toutes les formes dentres et on remplace alors le prototype des neurones par le
barycentre pondr laide de la fonction de voisinage des formes dentres qui les ont activs.
plus communment recherches sont la compacit et la sparabilit des groupes dcouverts. Les critres
relatifs sintressent la troisime et dernire question et dfaut de donner une apprciation abso-
lue de la validit dune partition, ils permettent dordonner plusieurs classifications et den choisir une
meilleure.
o K est le nombre de groupes et o cij = 1|Cj (i) indique si xi Cj . Lorsquon tend cette mesure au
cas des partitions floues, on retrouve ( un coefficient multiplicateur prs) la fonction de cot optimise
par lalgorithme des K-moyennes floues donne par lquation (2.2) :
N K
1 XX
F M SE = (j (xi ))f kxi j k2 (2.16)
N
i=1 j=1
min{Dmin (Ci , Cj ) : i 6= j}
IDunn = (2.17)
max{Smax (Ci )}
o Dmin (Ci , Cj ) est la distance minimale qui spare un objet du groupe Ci dun objet du groupe Cj et o
Smax (Ci ) est la distance maximale qui spare deux objets du groupe Ci :
o Sc (Ci ) est la distance moyenne entre un objet du groupe Ci et son centre, et o Dce (Ci , Cj ) est la
distance qui spare les centres des groupes Ci et Cj :
Ni
1 X
Sc (Ci ) = kx i k
Ni
i=1
Dce (Ci , Cj ) = ki j k
et la valeur de cet indice pour une partition correspond la moyenne pondre de lindice de chacun des
groupes :
K
1 X
IW G = Ni IW G (Ck ) (2.20)
N
i=1
o 1|N (b(i)) est la fonction indicatrice de lensemble des voisins du prototype le plus proche de lobser-
vation xi .
o hb(i)j est la fonction de voisinage. Rappelons que cette mesure peut tre dcompose en trois termes
[VSH03] qui correspondent la variance des donnes dans la rgion de Vorono de chaque unit, la
qualit topologique de la carte et la pression lie au compromis entre quantification et conservation
topologique.
20 C HAPITRE 2 Classification non-supervise
Figure 2.3 Cas dune couronne : dans le cas dune couronne, une CAH utilisant lindice du saut mini-
mum identifiera parfaitement les deux groupes, en revanche lutilisation de la distance entre les centrodes
conduira une classification sans rel intrt.
Figure 2.4 Cas de deux anneaux : lorsque les groupes ne sont pas suffisamment spars, lutilisation
de lindice du saut minimum est proscrire car elle conduirait ce quon appelle effet de chane :
les groupes sont fusionns de proche en proche et la CAH se rvle incapable de mettre en exergue
les deux anneaux. La distance entre les centrodes ou le critre de Ward conduisent dans ce cas des
classifications plus pertinentes.
Figure 2.5 Algorithme des K-moyennes : chaque groupe est reprsent par un prototype, encore appel
centre, et chaque objet est affect au groupe dont il est le plus proche.
C HAPITRE 2 Classification non-supervise 21
Figure 2.7 La rpartition des observations dans lespace des formes est donne par la figure la plus
gauche. Les 3 autres figures montrent le droulement de lapprentissage et de lauto-organisation des
rfrents associs aux neurones de la carte topologique.
C HAPITRE 3
Comparaison de
partitions
La comparaison de partitions est un problme clef de la classification automatique. Elle est notam-
ment la base des critres externes dvaluation de partitions voqus au chapitre prcdent et elle permet
galement dvaluer la stabilit dun algorithme de classification automatique. Nous lui consacrons ce
chapitre qui synthtise et complte les travaux rcents de Marina Meila [Mei03, Mei05, Mei06].
Dfinition 3.1.1 (Partition) Une partition C dun ensemble est une famille finie de parties non vides
de disjointes deux deux dont lunion est . Ceci sexprime formellement de la manire suivante :
( K
)
M
C = Ci P() \ {} : Ci = (3.1)
i=1
Du point de vue de la thorie des graphes, une partition C de lensemble des objets est reprsente
par la fermeture transitive1 dun graphe partiel de G = (, ) que lon notera (C).
Dfinition 3.1.2 (Raffinement) Une partition C est un raffinement dune partition C si elle est obtenue
en divisant une partie Ci en deux sous-parties Ci et Ci . Formellement, on a :
Le graphe (C) est alors gal la fermeture transitive dun graphe obtenu en ajoutant une arrte unique
au graphe (C ).
Lextension par transitivit de la notion de raffinement introduite ci-dessus permet de dfinir une relation
dordre partiel sur lensemble des partitions :
1
La fermeture transitive dun graphe est obtenue en saturant lensemble des arrtes sans diminuer le nombre de composantes
connexes.
24 C HAPITRE 3 Comparaison de partitions
Figure 3.1 Treillis des partitions dun ensemble de donnes comportant quatre exemples.
Dfinition 3.1.3 (Ordre partiel sur lensemble des partitions ) On dit quune partition C est plus
fine quune partition C, si celle-ci est obtenue par raffinement successif de C et on note C C. Le
graphe (C ) est alors un sous-graphe de (C).
Lensemble des partitions de muni de la relation dordre partiel (cf. dfinition 3.1.3) est un treillis ; la
figure 3.1 en donne une illustration pour le cas dun ensemble de donnes comportant quatre exemples.
Les bornes infrieure et suprieure de ce treillis sont notes respectivement 0 et 1 ; elles comportent
respectivement tous les singletons de P() et lensemble .
Dfinition 3.1.4 (Produit de partitions) Le produit de p partitions C (i) est la borne suprieure de len-
semble des partitions qui sont simultanment plus fines que toutes les partitions C (i) :
p
( p )
Y \
(i) (i)
C = sup {C : C C } (3.3)
i=1 i=1
C HAPITRE 3 Comparaison de partitions 25
Autrement dit, le produit dun ensemble de partitions C (i) est la partition forme de lunion des inter-
(i) Qp
sections non vides des classes Ck . Si E (i) est lensemble des arrtes de (C (i) ), alors i=1 C (i) =
T
, pi=1 E (i) est un sous-graphe de chaque (C (i) ).
Tableau de contingence
Dun point de vue ensembliste, pour comparer deux partitions C et C dun mme ensemble de don-
nes , on commence gnralement par construire un tableau de contingence C = (nij ), o nij est le
nombre dobjets qui appartiennent simultanment la classe Ci et Cj . Un exemple en est donn la figure
3.2, o ni. , n.j et N dsignent respectivement les marges de la ligne i et de la colonne j, et la somme des
marges.
C1 ... Cj ... CK
Lorsquon se place dans le cadre de la thorie des graphes, pour comparer deux graphes (C) et (C )
on commence gnralement par comptabiliser le nombre dartes du graphe complet qui sont absentes
ou prsentes dans les deux graphes, ou encore celle qui napparaissent que dans un des deux graphes. On
Partition C
1 0
1 N11 = # E E N10 = # E E
Partition C
0 N01 = # E E N00 = # E E
obtient alors le tableau de la figure 3.3 o E, E , E et E sont respectivement les ensembles darrtes
de (C) et (C ), et les ensembles darrtes du graphe complet absentes de (C) et (C ). Notons que
la somme des quatre valeurs N11 , N00 , N10 et N01 satisfait la relation suivante :
1
N11 + N00 + N10 + N01 = N (N 1) (3.4)
2
26 C HAPITRE 3 Comparaison de partitions
Il convient de rappeler que le tableau 3.3 peut tre construit partir du tableau de contingence 3.2 en
utilisant les formules suivantes [HA85] :
K K
1 XX
N11 = nij (nij 1) (3.5)
2
i=1 j=1
X K XK X K XK
1 2
N00 = n + n2ij n2i. + n2.j (3.6)
2
i=1 j=1 i=1 j=1
K K K
1 X 2 X X 2
N01 = n.j nij (3.7)
2
j=1 i=1 j=1
XK XK X K
1
N10 = n2i. n2ij (3.8)
2
i=1 i=1 j=1
Les deux types de tableau introduits ci-dessus permettent dapprcier qualitativement la similarit de
deux partitions et de construire de nombreux critres quantitatifs de comparaison de partitions auquels
sont consacrs les les deux prochaines sections.
Dfinition 3.2.1 (Indice de prcision) Lorsque la partition C sert de rfrence, lindice de prcision
indique la probabilit que deux objets soient regroups dans la partition C sils le sont dans la partition
C:
N11
prec(C, C ) = (3.10)
N11 + N01
C HAPITRE 3 Comparaison de partitions 27
1
N
2 11 N10 +N01 1
Sokal & Sneath (I) 1
N +N10 +N01 1
N +N10 +N01 2 0 oui
2 11 2 11
1
2
(N11 +N00 ) N10 +N01 1 1
Rogers & Tanimoto 1
(N11 +N00 )+N10 +N01 1
(N11 +N00 )+N10 +N01 2 2 oui
2 2
N11 N11
Ochiai 1 nd nd
(N11 +N10 )(N11 +N01 ) (N11 +N10 )(N11 +N01 )
N11 N11
Russel & Rao N11 +N10 +N01 +N00 1 N11 +N10 +N01 +N00 nd nd oui
Dfinition 3.2.2 (Coefficient de rappel) Lorsque la partition C sert de rfrence, le coefficient de rap-
pel indique la probabilit que deux objets soient regroups dans la partition C sils le sont dans la
partition C :
N11
rapp(C, C ) = (3.11)
N11 + N10
Ces deux critres prennent leurs valeurs sur lintervalle [0; 1], mais une valeur de 1 de lun ou lautre de
ces indices ne doit pas tre interprte comme lidentit des partitions. Un moyen simple de combiner ces
deux critres consistent prendre leurs moyennes arithmtique, gomtrique et harmonique. Nous obte-
nons ainsi respectivement le deuxime coefficient de Kulczynski, lindice de Folkes & Mallows qui nest
autre que le coefficient de Ochiai et la F1 -mesure qui sidentifie au coefficient de Czekanowski-Dice,
galement appel coefficient de Srensen. Ces trois mesures sont symtriques, prennent leurs valeurs sur
lintervalle [0; 1] et sont gales 1 si et seulement si les deux partitions sont identiques.
Dfinition 3.2.3 (2me coefficient de Kulczynski) Le deuxime coefficient de Kulczynski se dfinit comme
la moyenne arithmtique de lindice de prcision et du coefficient de rappel :
1
K(C, C ) = prec(C, C ) + rapp(C, C ) (3.12)
2
A lorigine propos pour comparer deux classifications hirarchiques [FM83], lindice de Folkes & Mal-
lows peut tre utilis pour comparer deux partitions dun mme ensemble dobjets. Dans un commentaire
28 C HAPITRE 3 Comparaison de partitions
de larticle original, David L. Wallace remarque quil sexprime comme la moyenne gomtrique du co-
efficient de rappel et de lindice de prcision [HA85, Mei03, Mei06, Wal83].
Dfinition 3.2.4 (Indice de Folkes & Mallows) Lindice de Folkes & Mallows est dfini comme la moyenne
gomtrique de lindice de prcision et du coefficient de rappel :
p
F M (C, C ) = prec(C, C ) rapp(C, C ) (3.13)
Dfinition 3.2.5 (F -mesure) La F -mesure est dfinie comme la moyenne harmonique de lindice de
prcision et du coefficient de rappel :
2 prec(C, C ) rapp(C, C )
F (C, C ) = (3.14)
prec(C, C ) + rapp(C, C )
En utilisant une moyenne harmonique pondre, on dfinit la F -mesure qui gnralise la F -mesure de
la manire suivante :
(1 + ) prec(C, C ) rapp(C, C )
F (C, C ) = (3.15)
prec(C, C ) + rapp(C, C )
o est un coefficient de pondration strictement positif dont les valeurs les plus couramment utilises
sont 1, 12 et 2. Notons que pour tout 6= 1, la F -mesure est asymtrique.
o E[indice] dsigne son esprance sous lhypothse dindpendance des partitions compares. On sup-
pose alors que les deux partitions sont obtenues de faon indpendante et quelles sont choisies alatoi-
rement parmi lensemble des partitions respectant les sommes marginales ni. et n.j du tableau de contin-
gence 3.2. Outre le fait que cette normalisation peut conduire thoriquement des valeurs ngatives de
lindice normalis, la vraisemblance de lhypothse utilise peut tre remise en cause [Mei06, Wal83].
En effet, la plupart des algorithmes de classification supposent le nombre de classes connu mais ne
permettent den spcifier les effectifs. Soulignons par ailleurs que dans le cadre dune dmarche explo-
ratoire, il semblerait bien peu naturel de devoir indiquer la rpartition des effectifs dans les diffrents
groupes dobjets.
Test de Mc Nemar
Le test de Mc Nemar est un test non paramtrique qui peut tre utilis pour comparer lgalit de deux
proportions dans des chantillons apparis [You04]. En ladaptant lensemble des accords et dsaccords
entre deux partitions, on peut vrifier lhypothse nulle que les dsaccords entre ces dernires sont le fruit
de regroupements ou de sparations dobjets ds au hasard. On obtient un nouveau critre de comparaison
de partitions.
Dfinition 3.2.8 (Test de Mc Nemar) tant donnes deux partitions C et C , la statistique de Mc Nemar
suit approximativement une loi normale sous lhypothse nulle et est dfinie ainsi
N10 N01
MN = (3.20)
N10 + N01
K
1 X 2nij
L(P, P ) = max (3.21)
K j=1,...,K ni. + n.j
i=1
30 C HAPITRE 3 Comparaison de partitions
Lassymtrie du critre propos par Larsen nest pas sans poser de problme [Mei06]. Considrons la
situation o la partition P comporte pour seule partie lensemble de tous les objets et o la partition
P est obtenue partir de P en sparant de deux petites parties comportant chacune N.f objets, avec
0 < f 12 . On obtient alors :
1 2f
L(P, P ) =
1f
> (1 2f )
ce qui apparat raisonnable, en revanche :
1 1 + 2f
L(P , P ) =
3 1f
1
lim L(P, P ) =
f 0 3
Contre toute attente, le critre de Larsen converge vers 31 lorsque f tend sannuler et que les partitions
P et P nous paraissent intuitivement de plus en plus semblables.
Le coefficient de rpartition prend ses valeurs sur lintervalle [ K1 ; 1] ; la valeur minimale est atteinte2
lorsque les objets de la classe Pi sont rpartis uniformment dans les diffrentes classes de la partition
P et une valeur de 1 indique que les objets de Pi sont regroups au sein dune mme classe de la partition
P .
Dfinition 3.3.5 (Critre local de similitude) Le critre local de similitude dune classe Pi dans une
partition P value si Pi est similaire lune des classes de P . Il est dfini de la manire suivante :
P P nij
wgi = i max (3.25)
j=1,...,K ni.
2
Le critre local de similitude prend ses valeurs sur lintervalle [ K1 ; 1] ; il prend sa valeur minimale3
lorsque les objets de la classe Pi sont rpartis uniformment dans les diffrentes classes de la partition
P et la valeur 1 si une des classes de la partition P est gale Pi .
Dfinition 3.3.6 (Indice de Wemmert & Ganarski) Lindice de Wemmert & Ganarski est la moyenne
des critres locaux de similitude des classes de la partition P dans la partition P et des classes de P
dans la partition P ; il sexprime ainsi :
XK K
X
1 1 1
W G(P, P ) = wgiP + wgjP (3.26)
2 K K
i=1 j=1
+K 2 2
Lindice de Wemmert & Ganarski prend ses valeurs sur lintervalle [ K 2K 2 K 2
; 1]. La valeur minimale est
atteinte lorsque les classes de P se rpartissent uniformment dans P et rciproquement ; cette situation
est illustre par la figure 3.4. La valeur de 1 est atteinte si les deux partitions sont identiques.
P P P P
Figure 3.4 Cas de deux partitions dont les classes se rpartissent uniformment lune dans lautre.
Il est communment admis que lesprit humain est gnralement plus familier avec une mtrique
quavec une fonction quelconque de deux variables. Les proprits dune mtrique, et tout particulire-
ment la symtrie et lingalit triangulaire, facilitent alors sa perception. Ensuite, lingalit triangulaire
nous indique que deux lments de lespace proches dun troisime ne peuvent pas tre trs loigns lun
de lautre. Cette particularit est intressante pour concevoir des structures de donnes et des algorithmes
efficaces. Enfin, cette proprit nous ne limite plus la comparaison de deux classifications mais permet
denvisager une analyse fine dun ensemble plus important de classifications.
Ensuite, dans loptique de comparer les rsultats obtenus sur diffrents jeux de donnes, par un ou
plusieurs algorithmes de classification4 , il est ncessaire de disposer dun critre dont la valeur ne dpend
pas du nombre dobjets prsents dans lensemble partitionner. Cette considration nous amne dfinir
la proprit suivante :
Dfinition 3.4.1 (N -invariance) Un critre d est N -invariant si sa valeur ne dpend pas directement du
nombre total dobjets.
Dfinissons maintenant trois proprits dadditivit par rapport aux diffrentes oprations disponibles
sur les partitions :
Dfinition 3.4.2 (Additivit par raffinement) On dit quun critre d respecte la proprit dadditivit
par raffinement si et seulement si pour toutes partitions C, C et C telles que C C et C C, on a :
Dfinition 3.4.3 (Additivit par jointure) On dit quun critre d respecte la proprit dadditivit par
jointure si et seulement si pour toutes partitions C et C on a :
Dfinition 3.4.4 (Additivit par composition) On dit quun critre d respecte la proprit dadditivit
par composition si et seulement si pour toutes partitions C et C on a :
K
X nk
d(C, C ) = d(Ck , Ck C ) (3.29)
N
k=1
Les trois proprits dadditivit dfinies ci-dessus permettent calculer les critres entre diffrentes parti-
tions prises deux deux de manire incrmentale, ceci peut tre particulirement intressant lorsque son
calcul est coteux et quon souhaite tudier le parcours dun algorithme dans lespace des partitions. Au
del de cet aspect purement calculatoire, ces proprits sappuient sur la structure de treillis et facilitent
ainsi la comprhension du critre de comparaison et de la structure quil engendre.
3.5.1 Dfinitions
Dfinition 3.5.1 (Entropie associe une partition) Lentropie associe une partition C = {C1 , . . . , CK }
mesure lincertitude de la variable alatoire X dont la valeur correspond lindice de la classe dun
objet prlev alatoirement dans lensemble . Elle est dfinie ainsi :
K
X
H(C) = P (X = i) log2 P (X = i) (3.30)
i=1
Notons que lentropie dune partition est toujours positive et prend la valeur 0 lorsquil ny a aucune
incertitude quant lappartenance dun objet une classe ; ce cas de figure se prsente lorsque C = 1.
La valeur maximale de 1 est atteinte lorsque les objets se rpartissent de manire uniforme dans deux
classes diffrentes.
Dfinition 3.5.2 (Information mutuelle entre deux partitions) Linformation mutuelle entre deux par-
titions C et C quantifie linformation apporte par la variable alatoire X associe C sur la variable
alatoire X associe C et rciproquement. Elle se dfinit de la manire suivante :
K
K X
X P (X = i, X = i )
I(C, C ) = P (X = i, X = i ) log2 (3.31)
P (X = i)P (X = i )
i=1 i =1
Daprs la dfinition ci-dessus, linformation mutuelle entre deux partitions est symtrique et toujours
positive. Ajoutons quelle ne peut en aucun cas dpasser lentropie de lune ou lautre des partitions.
I(C, C ) 0 (3.32)
I(C, C ) = I(C , C) (3.33)
I(C, C ) min{H(C), H(C )} (3.34)
Dfinition 3.5.3 (Variation dInformation) La variation dinformation entre C et C peut tre vue comme
la somme de linformation sur C que lon perd et de linformation sur C que lon gagne lorsquon passe
de la partition C la partition C . Ceci est formul de manire quivalente par les diffrentes expressions
suivantes :
3.5.2 Proprits
Une mtrique sur lensemble des partitions
Proprit 3.5.1 La variation dinformation est une mtrique sur lensemble des partitions ; ainsi, pour
toutes partitions C, C et C , elle prsente les proprits suivantes
34 C HAPITRE 3 Comparaison de partitions
Bornes suprieures
Proprit 3.5.2 La valeur de V I(C, C ) ne dpend que des tailles relatives des classes et non du nombre
total dobjets.
Proprit 3.5.3 La borne suprieure suivante est atteinte quel que soit le nombre total dobjets N :
o X est la variable alatoire associe la partition C et o H|i est lentropie associe la partition
Ci1 , . . . , Cik de la classe Ci .
1
V I(C, C ) = [ni log2 ni (ni 1) log2 (ni 1)] (3.42)
N
Proprit 3.5.6 (Additivit par jointure) La variation dinformation est additive par jointure, ainsi
pour toute partition C et C , on a :
Corollaire 3.5.2 Le plus proche voisin C dune partition C quelconque est comparable avec celle-ci ;
soit C C soit C C .
C HAPITRE 3 Comparaison de partitions 35
6 C,
Corollaire 3.5.4 Pour toutes partitions C =
2
V I(C, C ) (3.45)
N
avec lgalit lorsque C est obtenue en fusionnant deux classes de C ou linverse.
Proprit 3.5.7 (Additivit par composition) tant donnes trois partitions C = {C1 , . . . , CK }, C C
et C C, la variation dinformation est additive par composition et vrifie :
K
X
V I(C , C ) = P (X = i)V I(Ck C , Ck C ) (3.46)
i=1
Proprit 3.5.8 (Unicit) La variation dinformation est le seul critre de comparaison de partition d
qui :
est additif par composition,
est additif par jointure,
pour toute partition C, vrifie d(1, C) + d(C, 0) = d(1, 0)
lorsque la partition CKU avec K classes de mme effectif existe, vrifie d(1, C U ) = log K.
K
Remarque : La proprit qui snonce pour toute partition C, d(1, C) + d(C, 0) = d(1, 0) peut
tre vue comme une version affaiblie de ladditivit par raffinement dont elle est un cas particulier.
Nanmoins, on peut montrer quun critre qui vrifie galement ladditivit par composition est additif
par raffinement.
3.6 Conclusion
Au cours de ce chapitre consacr la problmatique de comparaison de partitions, nous avons in-
troduit les notions ncessaires lapprhension des critres classiques qui ont t prsents. La liste des
proprits que Marina Meila a proposes comme tant intressantes a ensuite t rappele avant din-
troduire la variation dinformation qui nous semble un critre de comparaison trs pertinent. Rappelons
que la comparaison de partitions est la base de nombreux critres externes dvaluation de partitions et
quelle permet galement dvaluer la stabilit dun algorithme de classification automatique. Ce dernier
point est particulirement intressant lorsquon utilise des techniques de rchantillonnage pour fixer les
paramtres dun algorithme comme le nombre de classes.
C HAPITRE 4
Rduction de dimension
4.1 Introduction
La taille des donnes peut tre mesure selon deux dimensions, le nombre de variables et le nombre
dexemples. Ces deux dimensions peuvent prendre des valeurs trs leves, ce qui peut poser un problme
lors de lexploration et lanalyse de ces donnes. Pour cela, il est fondamental de mettre en place des ou-
tils de traitement de donnes permettant une meilleure comprhension de la valeur des connaissances
disponibles dans ces donnes. La rduction des dimensions est lune des plus vieilles approches permet-
tant dapporter des lments de rponse ce problme. Son objectif est de slectionner ou dextraire un
sous-ensemble optimal de caractristiques pertinentes pour un critre fix auparavant. La slection de
ce sous-ensemble de caractristiques permet dliminer les informations non-pertinentes et redondantes
selon le critre utilis. Cette slection/extraction permet donc de rduire la dimension de lespace des
exemples et de rendre lensemble des donnes plus reprsentatif du problme. En effet, les principaux
objectifs de la rduction de dimension sont :
faciliter la visualisation et la comprhension des donnes,
rduire lespace de stockage ncessaire,
rduire le temps dapprentissage et dutilisation,
identifier les facteurs pertinents.
Les algorithmes dapprentissage artificiel requirent typiquement peu de traits - features - ou de
variables - attributs - trs significatives caractrisant le processus tudi. Dans le domaine de la recon-
naissance des formes et de la fouille de donnes, il pourrait encore tre bnfique dincorporer un module
de rduction de la dimension dans le systme global avec comme objectif denlever toute information
inconsquente et redondante. Cela a un effet important sur la performance du systme. En effet le nombre
de caractristiques utilises est directement li lerreur finale. Limportance de chaque caractristique
dpend de la taille de la base dapprentissage - pour un chantillon de petite taille, llimination dune
caractristique importante peut diminuer lerreur. Il faut aussi noter que des caractristiques individuel-
lement peu pertinentes peuvent tre trs informatives si on les utilise conjointement.
La rduction de la dimension est un problme complexe qui permet de rduire le volume dinforma-
tions traiter et de faciliter le processus de lapprentissage.
Nous pouvons classer toutes les techniques mathmatiques de rduction de dimension en deux
grandes catgories :
la slection de variables : qui consiste choisir des caractristiques dans lespace de mesure,
(figure 4.1)
et lextraction de traits : qui vise slectionner des caractristiques dans un espace transform -
dans un espace de projection (figure 4.2)
Dfinition 4.1.1 (Variables et Traits [Ben01]) Nous appelons "variables" les descripteurs dentre et
"traits" des caractristiques construites partir des variables dentre.
38 C HAPITRE 4 Rduction de dimension
La distinction est ncessaire dans le cas des mthodes noyaux pour lesquelles les traits ne sont pas
explicitement calculs.
La premire catgorie est approprie quand lacquisition de mesures des formes est coteuse. Ainsi
lobjectif principal de la slection de caractristiques dans ce cas est de rduire le nombre de mesures
requises. Par contre, les techniques dextraction de traits (deuxime catgorie) utilisent toute linforma-
tion contenue dans les formes pour la compresser et produire un vecteur de plus petite dimension. Ces
techniques projettent un vecteur forme de lespace de reprsentation dans un espace de dimension plus
petite. Les systmes dapprentissage connexionniste sont un bon exemple de cette catgorie. En effet,
les modles connexionnistes conus pour une tache de discrimination fournissent un systme avec des
aptitudes intressantes pour lanalyse du processus. Les cellules caches dun Perceptron multi-couches
apprennent comment extraire les caractristiques significatives du signal dentre.
Dfinition 4.2.1 (Slection de variables [Ben01]) La slection de variables est un procd permettant
de choisir un sous-ensemble optimal de variables pertinentes, partir dun ensemble de variables origi-
nal, selon un certain critre de performance.
Dfinition 4.2.2 (Pertinence dune variable [Ben01]) Une variable pertinente est une variable telle
que sa suppression entrane une dtrioration des performances - pouvoir de discrimination en clas-
sement ou la qualit de prdiction en rgression - du systme dapprentissage.
Plusieurs critres dvaluation ont t proposs, bass sur des hypothses statistiques ou sur des
heuristiques. Pour un problme de classement - discrimination -, les critres dvaluation sont souvent
bass sur les matrices de dispersion intra et inter classes. En effet, ces matrices sont directement lies la
gomtrie des classes et donnent une information significative sur la rpartition des classes dans lespace
des formes.
On trouve aussi des critres dvaluation qui utilisent des distances probabilistes ou des mesures
dentropie. Le critre dans ce cas est bas sur linformation mutuelle entre le classement et lensemble
de variables. Dans le cas des systmes dapprentissage connexionnistes, lvaluation des variables se fait
en fonction de limportance des poids qui est dfinie comme le changement de lerreur - de classement
ou de rgression - d la suppression de ces poids.
40 C HAPITRE 4 Rduction de dimension
Lordre dadjonction des variables lensemble des variables slectionnes produit une liste ordon-
ne des variables selon leur importance. Les variables les plus importantes sont les premires variables
ajoutes la liste. Nanmoins, il faut aussi se rappeler que des variables individuellement peu pertinentes
peuvent tre trs informatives si on les utilise conjointement.
La mthode BS est une procdure inverse de la prcdente - par retraits successifs de variables. On
part de lensemble X complet des variables et on procde par limination. chaque tape la variable la
moins importante selon le critre dvaluation est limine. Le procd continue jusqu ce quil reste
quune seule variable dans lensemble des variables de dpart. ltape k, on supprime la variable xi
telle que :
J (Xk ) = maxxi Xk+1 \ {xi } (4.4)
Une liste ordonne selon lordre dlimination des variables est ainsi obtenue. Les variables les plus
pertinentes sont alors les variables qui se trouvent dans les dernires positions de la liste.
La procdure BiS effectue sa recherche dans les deux directions - Forward et Backward - dune
manire concurrentielle. La procdure sarrte dans deux cas : (1) quand une des deux directions a trouv
C HAPITRE 4 Rduction de dimension 41
le meilleur sous-ensemble de variables avant datteindre le milieu de lespace de recherche ; ou (2) quand
les deux directions arrivent au milieu. Il est clair que les ensembles de variables slectionnes trouvs
respectivement par FS et par BS ne sont pas gaux cause de leurs diffrents principes de slection.
Nanmoins, cette mthode rduit le temps de recherche puisque la recherche seffectue dans les deux
directions et sarrte ds quil y a une solution quelle que soit la direction.
lerreur caus par la suppression de ce poids. Lemploi des drives premires pour la slection de va-
riables peut tre trouv par exemple dans [DPJ+ 96, Moo94, RRK90]. Dautres mthodes de slection de
variables utilisent les paramtres du systme dapprentissage. Certaines de ces mthodes emploient : des
tests statistiques pour valuer un intervalle de confiance pour chaque poids [CGG+ 95], linformation mu-
tuelle pour valuer un ensemble de caractristiques et slectionner un sous-ensemble pertinent [Bat94],
des mesures heuristiques bases sur lestimation de la contribution des variables dans la prise de dci-
sion du systme [BB95, YB97]. Dans le cadre de lapprentissage baysien MacKay et Neal proposent
une mthode de slection de variables Automatic Relevance Determination (ARD) [Mac94, Nea94]. Cette
mthode utilise des hypothses de normalit sur la rpartition des poids du rseau.
Dans les paragraphes qui suivent, nous allons dtailler quelques mthodes en les regroupant par type.
Les mthodes connexionnistes de slection de variables sont en gnral de type backward. Lide
gnrale est de faire converger un rseau jusqu un minimum local en utilisant toutes les variables et
de faire ensuite la slection. Ltape de slection consiste trier les variables par ordre croissant de per-
tinence, supprimer la ou les variables les moins pertinentes et r-entran le rseau avec les variables
restantes. Ce processus continue tant quun certain critre darrt nest pas satisfait. Les mthodes qui
suivent cette procdure comportent donc deux phases : une phase dapprentissage et une phase dla-
gage qui peuvent tre alternes. On peut dire quune vraie procdure connexionniste de slection de
variables suit lalgorithme gnral suivant :
1. Atteindre un minimum local
2. Calculer la pertinence de chaque entre
3. Trier les entres par ordre croissant de pertinence
4. Supprimer les entres dont la pertinence cumule est infrieure un seuil fix
5. Recommencer en 1. Tant que les performances estimes sur une base de validation ne chutent pas
Les mthodes de slection de variables en apprentissage connexionniste peuvent se regrouper en trois
grandes familles :
Les mthodes dordre zro
Les mthodes du premier ordre
Les mthodes du second ordre
P | | P |kj |
pertinence dune variable i = P ji
|ji |
P
|kj |
jHidden kOutput
i Input j Hidden
P
critre dvaluation J(Xk ) = i
xi Xk
procdure de recherche Backward + rapprentissage
critre darrt test statistique
C HAPITRE 4 Rduction de dimension 43
Une autre mthode dordre zro trs efficace a t propose par [Mac94] : Automatic Relevance
Determination (ARD). Dans cette mthode la pertinence dune variable est estime par la variance de ses
poids : la variable est limine si la variance correspondante est faible.
N est la taille de la base dapprentissage. Quand cette taille est trs grande, Moody propose dutiliser
une approximation qui donne la mthode de slection suivante :
N 1 PN k k
x kx y (x k , ) (x , )
pertinence dune variable i = i
N k=1 i xi
P
critre dvaluation J(Xk ) = i
xi Xk
procdure de recherche Backward
critre darrt variation des performances en test
Ruck et al. [RRK90] proposent la mthode suivante :
P N P j (xk , )
pertinence dune variable i =
k=1 jOutput xi
P
critre dvaluation J(Xk ) = i
xi Xk
procdure de recherche Backward
critre darrt seuil : moyenne des pertinences
44 C HAPITRE 4 Rduction de dimension
Refenes et al. [RZ99] utilisent llasticit moyenne de la sortie par rapport chaque variable :
PN (xk , ) xi
pertinence dune variable i = 1
k=1
N xi (xk , )
P
critre dvaluation J(Xk ) = xi Xk i
procdure de recherche
Backward
critre darrt seuil : moyenne des pertinences
Dans le cas des rseaux fonctions radiales RBF - Radial Basis Functions -, Dorizzi et al. [DPJ+ 96]
utilisent le quantile 95% de la distribution des valeurs absolues des drives de chaque variable.
(x, )
pertinence dune variable i = q.95
x
i
P
critre dvaluation J(X ) =
k i
xi Xk
procdure de recherche Backward
critre darrt seuil : moyenne des pertinences
Pour un problme de discrimination, Fabrice Rossi propose de ne considrer que les exemples qui
sont prs des frontires interclasses [Ros96] :
xk f rontier
xk (xk , )
>
j (xk ,)
P xi
P
pertinence dune variable 1
i = |Output|
j (xk ,)
xk f rontier jOutput
x
P
critre dvaluation J(Xk ) = i
xi Xk
procdure de recherche Backward
critre darrt seuil : moyenne des pertinences
Pour estimer la pertinence dune variable, les mthodes du second ordre calculent la drive seconde
de la fonction de cot par rapport aux poids. Ces mesures sont des extensions des techniques dlagage
des poids. La technique dlagage la plus populaire est Optimal Brain Damage (OBD) propose par
Le Cun et al. [LCDS90]. OBD est base sur lestimation de la variation de la fonction de cot R(w)
lorsquun poids est supprim du rseau. Cette variation peut tre approxime laide dun dveloppement
C HAPITRE 4 Rduction de dimension 45
en srie de Taylor :
X R() 1 X X 2 R()
R(i ) = i + i j + O 3
i 2 i j
i i j
Sous lhypothse que le rseau connexionniste a atteint un minimum local, le premier terme de droite
de cette formule est nul. Pour simplifier les calculs, Le Cun et al. [LCDS90] supposent en outre que la
matrice Hessienne est nulle et le cot est localement quadratique. On obtient alors la formule simplifie
suivante :
1 X 2 R() 2
R(i ) 2 i + O 3
2 i
i
1
Hii i2
2
1
pertinence(i ) Hii i2
2
La mthode de slection de variables Optimal Cell Damage (OCD) dveloppe par Cibas et al. dans
[CFGR94] est base sur la mesure de pertinence ci-dessus. Dans OCD, limportance de chaque variable
sobtient en sommant les importances des connexions qui partent de celle-ci :
1 P 2 R(w) 2
pertinence dune variable i = 2 2 ji
jf anOut(i) ji
P
critre dvaluation J(Xk ) = i
xi Xk
procdure de recherche
Backward
critre darrt test statistique
o f an Out(i) est lensemble des neurones qui utilisent comme entre la sortie du neurone i.
Dans OBD et OBS, la sensibilit dun poids ne peut tre value correctement quautour dun mi-
nimum local de la fonction de cot. Tresp et al. [TNZ96] proposent deux extensions dOBD et dOBS :
Early Brain Damage (EBD) et Early Brain Surgeon (EBS). EBD et EBS peuvent tre utilises avec le
early stopping comme critre darrt de lapprentissage. Dans EBD, par exemple, la sensibilit dun
poids est donne par la formule suivante :
!2
R(w)
1 2 R(w) 2 R(w) ji
pertinence(i ) = 2 ji ji + (4.5)
2 ji ji 2 R(w)
ji2
46 C HAPITRE 4 Rduction de dimension
A partir de cette dfinition de pertinence et de la mme faon que OCD, [LG] propose la mthode
ECD (Early Cell Damage) :
!2
R(w)
ji
1 P 2 R(w) 2 R(w)
pertinence dune variable = +
i
2 jf anOut(i) ji 2 ji
ji
ji
2 R(w)
2
ji
P
critre dvaluation J(Xk ) = i
xi Xk
procdure de recherche Backward
critre darrt test statistique
Pour cette mthode on supprime les variables une par une et on peut utiliser la technique de early stopping
pour arrter lapprentissage.
: H
x 7 (x)
Les donnes dapprentissage sont un ensemble fini de points xi , ou bien, dans le cas de lapprentissage
supervis, un ensemble fini de couples (point, tiquette) {(xi , yi )}.
qui maximisent la variance explique. Dans la base forme par ces axes, les coordonnes ne sont pas
corrles. LACP maximise la variance de la projection dans lespace de caractristiques, ce qui est qui-
valent minimiser lerreur quadratique moyenne de reconstruction.
LACP se calcule en diagonalisant la matrice de corrlations, le plus souvent en utilisant une dcom-
position en valeurs singulires (SVD). Elle est trs utilise car elle est simple mettre en oeuvre. Elle est
limite par son caractre linaire : il est facile dimaginer des situations dans lesquelles lACP napporte
aucune information utilisable (par exemple, des donnes rparties sur un tore en dimension n). A titre
illustratif, la figure 4.3 prsente les Iris de Fisher dans la base obtenue par une ACP sous forme de nuages
de points.
2
1
0
1
2
0.5
0.5
5 0 5 5 0 5 2 0 2 0.5 0 0.5
Figure 4.3 Visualisation des Iris de Fisher sous forme de nuages de points dans la base fournie par
lACP.
Plusieurs variantes de lACP ont t proposes pour faciliter linterprtation de la projection obtenue ;
ainsi, les mthodes varimax, quartimax et equamax sappuient sur une rotation orthogonale des axes et
les approches oblimin et promax utilisent des rotations obliques. La plus utilise de ces variantes est sans
nul doute la mthode varimax qui effectue une rotation orthogonale des axes pour obtenir des facteurs
fortement corrls quelques variables et faiblement aux autres ; ainsi, chaque variable est identifie
un - ou un petit nombre de facteurs - et les axes sont facilement interprtables.
Propose par Ronald A. Fisher en 1936 [Fis36], lAnalyse Factorielle Discriminante - Fisher Dis-
criminant Analysis (FDA) - appele aussi analyse discriminante linaire de Fisher, sapplique lorsque
les classes des individus sont connues. Elle consiste chercher un espace vectoriel de faible dimension
qui maximise la variance inter-classe. Une base de cet espace est obtenue en appliquant une Analyse
en Composantes Principales sur les centrodes des diffrentes classes pondrs par leffectif de la classe
correspondante avec 1 comme mtrique. On conservera, au plus, (C 1) axes discriminants o C est
48 C HAPITRE 4 Rduction de dimension
le nombre de classes.
Dans de nombreux cas, on connat les distances entre les points dun ensemble dapprentissage (on
peut utiliser une mesure de similarit plus sophistique que la distance euclidienne, comme indique
dans la section suivante), et on cherche obtenir une reprsentation en faible dimension de ces points.
La mthode de positionnement multidimensionnel1 - Multi-Dimensional Scaling (MDS) - permet de
construire cette reprsentation. Lexemple classique est dobtenir la carte dun pays en partant de la
connaissance des distances entre chaque paire de villes. Lalgorithme MDS est bas sur une recherche
de valeurs propres
MDS permet de construire une configuration de m points dans Rd partir des distances entre m ob-
jets. On observe donc m(m 1)/2 distances. Il est toujours possible de gnrer un positionnement de m
points en m dimensions qui respecte exactement les distances fournies. MDS calcule une approximation
en dimension d < m. Lalgorithme est le suivant :
1 P
1. Moyennes des distances carres par ranges : i = dij
N j
1 P
2. Double centrage (distance carre vers produit scalaire) : Pij = (dij i j + i i )
2
3. Calcul des vecteurs propres vj et valeurs propres j principales de la matrice P (avec les j les
plus grands).
p
4. La i-me coordonne rduite de lexemple j est j vij
Notons que la matrice de distance D = (dij ) doit tre semi dfinie positive.Les mthodes linaires
comme lACP et le MDS ne donnent des rsultats intressants que si les donnes sont situes sur un
sous-espace linaire. Elles ne peuvent traiter le cas o les donnes sont sur une varit trs non linaire.
Figure 4.4 Principe de lalgorithme Isomap. Les godsiques sont construites en cherchant un chemin
de proche en proche sur les points de lchantillon (daprs [TdSL00]).
La premire approche permettant dappliquer lACP au cas de donnes situes sur une varit non
linaire est deffectuer des approximations locales : on calcule une ACP pour un groupe de points proches
les uns des autres. Cette approche pose le problme de la dfinition des voisinages et du traitement des
points nouveaux rencontrs loin des exemples connus.
Une autre approche, formalise par B. Schlkopf en 1998, utilise le le truc du noyau - kernel trick
- pour rendre non linaire lACP traditionnelle. En effet, le calcul de lACP ne fait intervenir que des
produits scalaires entre les points (pour le calcul de la matrice de covariance) et ne considre jamais
les coordonnes dun point isol. Si lon remplace le produit scalaire par un noyau, on calcule donc les
composantes principales dans lespace de caractristiques H, et on peut ainsi accder des corrlations
dordre suprieur entre les variables observes. Remarquons que lon peut calculer la projection dun
point ne faisant pas partie de lensemble dapprentissage, ce qui nest pas le cas de toutes les mthodes
de rduction de dimension non linaires.
4.3.2.2 Isomap
Isomap [TdSL00] est une techniques de rduction de dimension qui comme la mthode de posi-
tionnement multidimensionnel (MDS) part de la connaissance dune matrice de dissimilarits entre les
paires dindividus. Le but est cette fois de trouver une varit (non linaire) contenant les donnes. On
exploite le fait que pour des points proches, la distance euclidienne est une bonne approximation de la
distance godsique sur la varit. On construit un graphe reliant chaque point ses k plus proches voi-
sins. Les longueurs des godsiques sont alors estimes en cherchant la longueur du plus court chemin
entre deux points dans le graphe. On peut alors appliquer MDS aux distances obtenues afin dobtenir un
positionnement des points dans un espace de dimension rduite.
La mthode du plongement localement linaire [RS00] - Local Linear Embedded (LLE) - a t pr-
sent en mme temps quIsomap et aborde le mme problme par une voie diffrente. Chaque point est
ici caractris par sa reconstruction partir de ses plus proches voisins. LLE construit une projection vers
un espace linaire de faible dimension prservant le voisinage. Les diffrentes tapes de lalgorithme LLE
sont rappeles la figure 4.6.
50 C HAPITRE 4 Rduction de dimension
Figure 4.5 Le problme de rduction de dimension : les points de lchantillon, de dimension 3, (fi-
gure du milieu) sont situs sur la varit reprsente gauche. On cherche une reprsentation en deux
dimensions ( droite) qui prserve la topologie (le voisinage de chaque point) (daprs [RS00]).
4.4 Conclusion
Au cours de ce chapitre, nous avons prsent les problmatiques de la slection de variables et de
lextraction de caractristiques et nous avons rappel les principes de quelques mthodes. Avant de pour-
suivre, rappelons que cette thse sinscrit dans le cadre de lapprentissage non supervis et que dans
ce contexte, nous nous intressons aux mthodes de rductions de dimensions pour la classification au-
tomatique. Les techniques dextraction de caractristiques non supervises sont, soit limites par leur
caractre linaire (ACP, MDS), soit difficilement utilisables cause de leur complexit algorithmique
lorsque lon travaille sur de grandes bases donnes (LLE, Isomap). Bien que ce dernier point mrite
dtre nuanc avec lapparition de mthodes de calcul incrmental [BDL+ 04], il nous semble malgr
tout naturel de se focaliser sur les techniques de slection de variables qui, linstar des mthodes dex-
traction de caractristiques, permettent de rester dans lespace des observations et de ne pas imposer
deffort dinterprtation de nouvelles variables lutilisateur.
La slection de variables en apprentissage non supervis est un domaine encore peu explor et les
techniques existantes reposent pour beaucoup sur des mesures de similarit entre attributs ou sur des
mesures de variances. Il sagit dun problme qui est plus difficile que dans le cas supervis car au-
cune information nest disponible pour guider la procdure. La dtermination automatique du nombre de
groupes est un problme associ trs important et ces deux problmes interfrent lun avec lautres.
C HAPITRE 4 Rduction de dimension 51
Figure 4.7 Un exemple dapplication de lalgorithme LLE : les points initiaux reprsentent des images
de visages. Dans lespace de dimension 2, ces images sont regroupes selon la position, lclairage et
lexpression. Les images places en bas de la figure correspondent aux points successifs rencontrs sur
la ligne en haut droite, balayant un continuum dexpression du visage. (daprs [RS00]).
C HAPITRE 4 Rduction de dimension 53
Figure 4.8 Exemple de rseau auto-rgressif : projection non-linaire dindividus en 4 dimensions dans
un espace de dimension 2.
PARTIE II
Approches proposes
C HAPITRE 5
Traitement des attributs
redondants
5.1 Motivations
Les donnes utilises par les applications relles qui intgrent des techniques de fouille de donnes
renferment souvent de nombreux attributs redondants. Si dun cot cette redondance facilite la prise en
compte de valeurs manquantes [CIL03] ou la dtection de valeurs aberrantes, elle peut nuire par ailleurs
la dcouverte de structures intressantes par les algorithmes de classification automatique bass sur
lutilisation de la distance euclidienne. Intuitivement, une information redondante, qui est reprsente
par de nombreux attributs, risque den occulter une autre qui bien quelle soit potentiellement pertinente
est moins prsente. Dans le pire cas, linformation pertinente est noye parmi de nombreux attributs qui
expriment tous une mme ide sans intrt pour lutilisateur. Cette situation extrme risque de conduire
une classification sans rel intrt pour lutilisateur. Trois types dapproches sont gnralement utilises
pour palier ce problme : lextraction de caractristiques, la slection et la pondration de variables.
Bien quelles soient souvent plus performantes que les mthodes de slection de variables pour les
problmes de rgression ou de prdiction, les mthodes dextraction de caractristiques imposent un
effort important lutilisateur pour interprter et comprendre la nouvelle reprsentation de ses donnes.
La slection de variables constitue donc une alternative trs intressante car lutilisateur peut interprter
directement les rsultats obtenus. Nanmoins, le fait dliminer compltement des variables complique
la prise en compte des valeurs manquantes et nous navons pas retenu cette approche non plus. Nous
nous sommes intresss la pondration des variables qui permet un ajustement plus fin de limportance
relative que lon accorde aux diffrents attributs.
Nous proposons dans cette partie une nouvelle approche baptise -SOM base sur une classifica-
tion simultane des individus et des variables laide de cartes auto-organises qui sont connues pour
permettre une bonne reprsentation de donnes en grande dimension. Un mcanisme de pondration
sappuyant sur la classification des variables est intgr lalgorithme dapprentissage pour diminuer
linfluence des attributs redondants.
57
58 C HAPITRE 5 Traitement des attributs redondants
/* Apprentissage grossier */
Apprentissage grossier de la carte des observations SOM (obs)
Extraction des profils des variables f pi partir de SOM (obs)
Apprentissage grossier de la carte des variables SOM (var)
Calcul de la pondration correspondante new i
Mise jour de la pondration i 0 .i + (1 0 ).new
i
/* Apprentissage fin */
pour t = 1, . . . , Tmax faire
Epoque(s) dapprentissage de la carte des observations SOM (obs)
Extraction des profils des variables partir de SOM (obs)
Epoque(s) dapprentissage de la carte des variables SOM (var)
Calcul de la pondration correspondante new i
Mise jour de la pondration i t .i + (1 t ).new
i
fin pour
les auteurs en montrent galement la pertinence sur diffrents jeux de donnes artificiels et rels. Dans la
perspective de dtecter visuellement les corrlations entre variables, les auteurs proposent de prsenter
lutilisateur les diffrentes composantes en les rorganisant selon leurs corrlations ; ils construisent pour
cela une carte auto-organise dont chaque unit reprsente au plus une variable et affichent les diffrentes
composantes en respectant lordre topologique ainsi dcouvert.
Dans notre approche, la carte des observations et la carte des variables sont construites simultan-
ment sans imposer de contrainte deffectif pour la carte des variables. La carte des variables est ensuite
utilise pour calculer le poids de chaque dimension en tenant compte de leur redondance : un poids po-
tentiel est attribu chaque unit en fonction de lhomognit des prototypes dans son voisinage et ces
poids potentiels sont ensuite partags entre les variables qui se projettent dans le voisinage de lunit
correspondante.
Lalgorithme 1 rappelle les grandes lignes de lalgorithme dapprentissage -SOM. La carte des
observations SOM (obs) est constitue de lensemble de M units not U (obs) = {1, . . . , M }. De manire
analogue, la carte des variables SOM (var) se compose des m units notes U (var) = {1, . . . , m}. Les
prototypes respectifs des units i U (obs) et j U (var) sont dsigns par i Rn et j RM .
Prcisons maintenant quelques points de lalgorithme propos :
La recherche de lunit gagnante sur p la P
carte des observations seffectue
Pn laide de la distance
n
euclidienne pondre d(obs) (x, j ) = (x
i=1 i i ji )2 , avec
i=1 i = 1.
Le paramtre t permet une prise en compte progressive de la pondration induite par la carte des
variables au fur et mesure quelle devient plus reprsentative.
Les profils des diffrentes variables sont donns par les lignes de la matrice dont les colonnes sont
les prototypes des units de la carte des observations.
C HAPITRE 5 Traitement des attributs redondants 59
o cij {0, 1} indique si les units i et j sont voisines ou non. Gnralement, on fixe un seuil et
on considre que deux units sont voisines lorsque la distance qui les spare est infrieure ce seuil :
cij = d(var) (i, j) < , o d(var) (i, j) est la distance qui spare les units i U (var) et j U (var) sur
la carte des variables et est la taille du voisinage pris en compte. On calcule ensuite la contribution de
chaque unit i :
i
ei = m (5.2)
P
j
j=1
o b(i) correspond au rfrent de la variable i. Limportance potentielle de chaque unit j U (var) est
ensuite rpartie entre les variables i F au prorata de leurs degrs dappartenance aux supports des
diffrentes units :
Xm
new j (i)
i = ej n (5.4)
P
j=1 j (k)
k=1
60 C HAPITRE 5 Traitement des attributs redondants
5.3 Evaluation
5.3.1 Donnes
Pour valider notre approche, nous avons utilis diffrents jeux de donnes mis la disposition de
la communaut dapprentissage artificiel par luniversit de Californie Irvine (UCI) [DNM98], ainsi
quune base de donnes issue du domaine du marketing.
Isolet1 : Cette base issue du domaine de la reconnaissance de la parole comporte prs de 7800
exemples qui sont dcrits par 617 attributs et issus de 26 classes quiprobables.
Waveform : Ce jeu de donnes artificielles comporte 5000 exemples rpartis en trois classes obte-
nues par combinaison de deux des trois vagues de base et ajout dun bruit gaussien de moyenne
nulle et de variance 1 chacune des 21 variables originales. Dans leur version bruite, les vagues
de Breiman comportent 19 dimensions supplmentaires qui suivent une loi normale de moyenne
nulle et de variance 1.
Marketing : Ce jeu de donnes comporte les rponses dun millier de consommateurs interrogs
sur leur apprciation dune centaine de produits et sur leurs attentes. Cette base contient gale-
ment des informations dordre socio-dmographique comme lge, le sexe ou la catgorie socio-
professionnelle des individus interrogs.
Figure 5.1 Qualit relative des cartes construites par -SOM (indice 100 pour SOM). Qerr, T err et
Distortion correspondent respectivement lerreur de quantification (2.22), le taux derreurs topolo-
giques (2.23) et la mesure de distortion (2.24)
1
Isolated Letter Speech Recognition
C HAPITRE 5 Traitement des attributs redondants 61
Lors de notre premire exprimentation avec le jeu de donnes waveform, la carte des variables
comportait plus dunits que de variables et tait inutilisable pour identifier des corrlations intressantes.
Nous avons donc men une deuxime srie dexprience en diminuant la taille de la carte. La figure 5.1
montre les valeurs relatives des critres de qualit que nous avons obtenues ; lindice 100 correspond aux
cartes construites par lalgorithme de Kohonen. On nobserve quil ny a pas de diffrences significatives
en ce qui concerne lerreur de quantification moyenne et la mesure de distortion mais quen revanche le
taux derreurs topologiques chute de manire significative.
Figure 5.2 Rpartition des consommateurs sur la carte des observations segmente.
Les figures 5.5 et 5.2 montrent respectivement les catgories de produits et les segments de consom-
mateurs mis en vidence. Ensuite, la figure 5.6 indique la rpartition des poids sur la carte des variables.
62 C HAPITRE 5 Traitement des attributs redondants
Enfin, les figures 5.3 et 5.4 montrent des anomalies de regroupement de variables.
5.4 Discussion
5.4.1 Distances entre profils de variables
Pour construire la cartes des variables, nous avons transform les profils de variables pour que les
valeurs de chaque dimension soient dans lintervalle [0; 1] et nous avons ensuite utilis une distance
euclidienne ; cela nous a conduits observer un certain nombre danomalies et nous pensons que ce
point fort criticable de lalgorithme mrite dtre amlior. En outre, la distance euclidienne ne permet
pas de rapprocher deux variables trs corrles ngativement comme le ferait par exemple le coefficient
de corrlation de Pearson. Ensuite, les profils des variables sont extraits de la carte des observations et
une mesure de dissimilarit approprie devrait galement prendre en compte lorganisation spatiale de
cette dernire.
Les remarques prcdentes nous amnent revoir notre dfinition de la similarit de deux profils de
variable ; ainsi, en considrant que deux variables sont dautant plus proches quelles induisent des d-
coupages similaires de la carte des observations, on pallie ainsi aux deux lacunes majeures de la distance
euclidienne nonces au paragraphe ci-dessus. Nous proposons de ramener ce problme de comparaison
de profils de variable au problme de comparaison des partitions quils induisent. On procde alors au
dcoupage de la carte des observations selon les diffrentes dimensions prises une une et on mesure la
dissimilarit entre les partitions obtenues. Il convient de souligner ici quen procdant ainsi, il est gale-
ment possible de mesurer la dissimilarit entre deux sous-ensembles non vides quelconques de variables.
On utilisera par exemple une classification ascendante hirarchique et la variation dinformation.
des prototypes sur les bords est plus faibles : limportance potentielle qui en rsulte est donc plus faible.
Il conviendrait donc dajouter un terme de pnalisation lexpression (5.1) pour remdier ce problme.
Ensuite, nous avons mis en vidence au paragraphe prcdent que la distance euclidienne nest vrai-
semblablement pas la mesure de dissimilarit optimale pour notre problme. Ceci nous conduit critiquer
galement lutilisation dun indice statistique qui lutilise dans sa dfinition. Ainsi, la mesure de lho-
mognit des prototypes dans une rgion de la carte des variables mrite galement notre attention ; on
pourra par exemple dfinir une mesure base sur la variation dinformation entre les partitions induites
par les diffrents prototypes.
Enfin, le mode de calcul de limportance potentielle que nous avons utilis ne sintresse quaux
aspects lis la redondance et ne prend pas en compte explicitement la pertinence des variables. La
notion de pertinence dune variable nest pas clairement dfinie dans le cadre de lapprentissage non su-
pervis mais nous pouvons propos ici de considrer quune variable est dautant plus pertinente quelle
met en exergue une structure spatialement marque sur la carte des observations qui soit en cohrence
avec la structure globale mergente. Un indice dauto-corrlation spatiale locale dune variable proto-
type peut mettre en vidence lexistence dune structure spatiale marque mais ne permet pas de vrifier
sa cohrence avec la structure globale mergente ; nous proposons une fois de plus dutiliser la varia-
tion dinformation cet effet pour comparer les partitions induites par les diffrentes composantes la
structure globale mergente.
X M
N X n
X n X
X m M
X
RSOM = hb(i)j k (xik jk )2 + b(k)l (jk lj )2 (5.5)
i=1 j=1 k=1 k=1 l=1 j=1
5.5 Conclusion
Une approche originale baptise -SOM et base sur une classification simultane des individus
et des variables laide de cartes auto-organises a t prsente au cours de ce chapitre. Elle intgre
un mcanisme de pondration sappuyant sur la classification des variables pour diminuer linfluence
des attributs redondants pendant lapprentissage. Bien que lapplication de cette mthode des donnes
relles issues du domaine du marketing nous aie donn satisfaction, elle a aussi permis de mettre en
vidence un certain nombre danomalies. Ce dernier point, discut la fin du chapitre, a t loccasion
denvisager diffrentes amliorations possibles de notre mthode.
64 C HAPITRE 5 Traitement des attributs redondants
Figure 5.5 Rpartition des attributs et des ca- Figure 5.6 Rpartition des poids (103 ) des
tgories sur la carte. attributs.
C HAPITRE 6
Slection de variables et
du nombre de groupes
6.1 Motivations
La fouille de donnes est avant tout une dmarche exploratoire et lutilisateur na gnralement dide
prcise ni sur le nombre de groupes prsents dans ses donnes, ni sur les attributs qui les dcrivent
au mieux. Sil existe dune part des approches filtres de slection de variables non supervise [ML01,
MMP02] et dautre part de nombreux critres pour choisir une meilleure classification parmi plusieurs
classifications possibles [HBV01], la slection simultane du nombre de groupes et dun sous-ensemble
dattributs pertinents demeure un des nombreux dfis de la classification automatique.
Nous proposons dans ce chapitre une approche originale de slection simultane du nombre de
groupes et dun sous-ensemble de variables pertinentes au regard des groupes identifis. Celle-ci re-
pose sur une classification deux niveaux et utilise deux mesures de pertinence bases sur lindice de
Davies-Bouldin : la premire quantifie la pertinence individuelle de chaque variable et la seconde permet
de tenir compte de la pertinence mutuelle des variables.
65
66 C HAPITRE 6 Slection de variables et du nombre de groupes
perte dinformation significative au sens de la statistique de Wilks. Lalgorithme 2 rappelle les grandes
lignes de notre approche.
Comme nous lavons rappel au chapitre 5, la notion de pertinence dune variable nest pas claire-
ment dfinie dans le cadre de lapprentissage non supervis et nous avons propos de considrer quune
variable est dautant plus pertinente quelle met en vidence une structure marque de lespace des ob-
servations qui soit en cohrence avec la structure globale mergente. Dans cet esprit, nous proposons ici
dutiliser un indicateur statistique, appel valeur test [Mor84], qui est permet habituellement didentifier
les meilleurs descripteurs dun groupe relativement la population dont il est issu. La valeur test dune
variable pour un groupe est dfinie comme la diffrence entre la moyenne du groupe et la moyenne de
la population exprime en nombre dcart-type du groupe. La valeur absolue cette mesure quantifie la
pertinence du choix dune variable comme descripteur dune sous-population.
Nous dfinissons alors la pertinence individuelle dune variable comme le maximum en valeur abso-
lue de ses valeurs tests sur lensemble des groupes identifis ; dans ces conditions, ds lors quelle permet
de mettre en avant un groupe dobjets, une variable est considre comme individuellement pertinente.
C HAPITRE 6 Slection de variables et du nombre de groupes 67
Etant donn un dcoupage en C groupes, la pertinence individuelle de la variable j sexprime donc ainsi :
kj j
Rindividuelle (j) = max (6.1)
k=1,...,C kj
o kj et kj sont respectivement la moyenne et lcart-type de la variable j dans le groupe k, et o j
est la moyenne de la population totale.
avec k 6= h = 1, . . . , C. Le test de cette hypothse repose sur la statistique de Wilks. Dfinissons les
matrices de covariance inter-classe B - pour between - et intra-classe W - pour within - de la manire
suivante :
C
X T
B = N (k) (k) (k)
k=1
(k)
X (k)
C N
X
(k)
T
W = xi (k) xi (k)
k=1 i=1
o N (k) est le nombre dobjets prsents dans le groupe k et est la moyenne globale des attributs de F .
Les matrices B, W et leur somme T = B + W peuvent se dcomposer en bloc de la mme manire que
:
B11 B12
B =
B21 B22
W11 W12
W =
W21 W22
T11 T12
T = B+W =
T21 T22
Ensuite, on note :
W22 W21 W 1 W12
11
K= (6.7)
T22 T21 T 1 T12
11
Cr)
qui a (N(C1) degrs de libert. En utilisant les notations dfinies ci-dessus, la statistique de Wilks pour
n variables sexprime :
|W |
F =
|T |
|W11 |
= K.
|T11 |
= K.R
ce qui indique que, pour de petite valeur de K, les groupes sont mieux spars avec n variables quavec
r. Ainsi, lhypothse nulle (6.6) est vraie si et seulement si les attributs de R permettent la mme s-
parabilit des groupes que lensemble complet des attributs F . Pour finir, la statistique de Wilks est
C HAPITRE 6 Slection de variables et du nombre de groupes 69
(N C r) 1 K
Fs = (6.8)
(C 1) K
6.3 Evaluation
6.3.1 Donnes
Luniversit de Californie Irvine (UCI) met la disposition de la communaut dapprentissage
artificiel de nombreux jeux de donnes pour valider leurs approches [DNM98]. Nous en avons retenu
quatre de taille et de complexit variables pour valider notre algorithme :
Wisconsin Diagnostic Breast Cancer (WDBC) : Les donnes de cette base de donnes ont t
recueillies partir dimages numrises dun prlvement par biopsie dune masse ventuellement
cancreuse. Elles dcrivent les caractristiques de noyaux de cellule prsents dans limage. Les
exemples sont rpartis en deux classes selon quil sagit de tumeurs malignes (212 exemples) ou
bnines (357 exemples). On notera quil sagit dun problme relativemement simple : les classes
sont linairement sparable et ltat de lart fait mention dune prcision suprieure 97 % en
classement.
Glass : Cette base contient les caractristiques de 214 chantillons de verres suivantes : indice
de rfraction, oxyde de sodium, oxyde magnsium, oxyde daluminium, oxyde de silicium, oxyde
de potassium, oxyde de calcium, oxyde de baryum et oxyde de fer. Les diffrentes instances se
rpartissent dans les 7 classes suivantes : 70 dans la classe 1 (verre trait utilis en construction),
76 dans la classe 2 (verre trait utilis dans les vhicules), 17 dans la classe 3 (verre non trait
utilis en construction), 0 dans la classe 4 (verre non trait utilis dans les vhicules), 13 dans la
classe 5 (bocaux), 9 dans la classe 6 (vaisselle) et 29 dans la classe 7 (tte dampoule). La classe 4
ntant pas reprsente, on peut considrer quil sagit dun problme 6 classes.
Waveform : Ce jeu de donnes artificielles comporte 5000 exemples rpartis en trois classes obte-
nues par combinaison de deux des trois vagues de base et ajout dun bruit gaussien de moyenne
nulle et de variance 1 chacune des 21 variables originales. Dans leur version bruite, les vagues
de Breiman comportent 19 dimensions supplmentaires qui suivent une loi normale de moyenne
nulle et de variance 1.
Wine : Cette base recense les rsultats dune analyse chimique de diffrents vins produits dans
une mme rgion dItalie partir de diffrents cpages. La concentration de 13 constituants est
indique pour chacun des 178 vins analyss qui se rpartissent ainsi : 59 dans la classe 1, 71 dans
la classe 2 et 48 dans la classe 3.
6.3.2 Rsultats
Nous avons utilis la version batch de lalgorithme de Kohonen et lalgorithme global k-means qui
sont tous les deux dterministes pour nos exprimentations. Les rsultats prsents dans le tableau 6.1
sont les moyennes et cart-type obtenus aprs cinq validations croises ; lensemble des donnes a t
spar en dix parties dont neuf ont servi lapprentissage et la dernire a t utilise pour le test. Les
70 C HAPITRE 6 Slection de variables et du nombre de groupes
Apprentissage Test
CT [CT ] nF S [nF S ] IRand [IRand ] PR [ PR ] IRand [IRand ] PR [ PR ]
Glass F 7.04 [0.73] 9.0 [ ] 0.301 [ 0.012 ] 56.25 [ 2.56 ] 0.295 [ 0.068 ] 67.52 [ 9.01 ]
189 - 21 R 5.10 [1.83] 2.84 [ 1.46 ] 0.376 [ 0.082 ] 50.83 [ 6.54 ] 0.382 [ 0.121 ] 58.38 [10.40]
Wine F 6.86 [0.81] 13.0 [ ] 0.171 [ 0.022 ] 93.59 [ 1.97 ] 0.165 [ 0.064 ] 95.28 [ 5.11 ]
189 - 21 R 5.70 [2.34] 6.3 [ 2.1 ] 0.247 [ 0.060 ] 80.32 [12.02] 0.239 [ 0.096 ] 83.44 [13.78]
WDBC F 9.72 [0.67] 30.0 [ ] 0.414 [ 0.014 ] 93.83 [ 1.56 ] 0.417 [ 0.026 ] 94.16 [ 3.03 ]
242 - 27 R 2.72 [1.96] 12.4 [ 3.3 ] 0.182 [ 0.077 ] 91.53 [ 1.04 ] 0.184 [ 0.091 ] 91.60 [ 3.49 ]
Wave F 6.18 [2.56] 40.0 [ ] 0.304 [ 0.016 ] 68.64 [ 8.48 ] 0.309 [ 0.014 ] 66.17 [ 7.82 ]
500 - 4500 R 4.82 [1.55] 28.2 [ 9.56 ] 0.304 [ 0.020 ] 66.93 [ 6.62 ] 0.306 [ 0.018 ] 65.97 [ 6.68 ]
Table 6.1 Les deux nombres situs sous le nom des jeux de donnes indiquent respectivement la taille
des ensembles dapprentissage et de test. Lensemble de tous les attributs est not F et lensemble des
attributs slectionns par R.
critres utiliss pour lvaluation sont des critres externes et font intervenir les tiquettes qui sont dispo-
nibles pour les jeux de donnes utiliss. Lindice de Rand a t prsent au paragraphe 3.2.2 et lindice
de puret correspond la moyenne de la part de la classe majoritaire au sein des groupes dcouverts.
6.4 Discussion
6.4.1 Segmentation de la carte
Pour segmenter la carte auto-organise, nous avons utilis lalgorithme des k-moyennes associ
lindice de Davies Bouldin comme cela est propos dans [VA00]. Plus prcisement, pour viter les pro-
blme dinstabilit dont souffre la mthode des k-moyennes, nous utilis lalgorithme global kmeans qui
en est une version dterministe. Malheureusement, un article rcent montre que cette approche mne
gnralement des rsultats sous-optimaux [HNCM05] et il convient denvisager dautres mthodes de
dcoupage de la carte. Les prototypes sont gnralement beaucoup moins nombreux que les observations
et une classification ascendante hirarchique peut donc tre utilise pour la segmentation de la carte. On
saffranchit alors des problmes dinstabilit en conservant une complexit raisonnable puisque la mme
hirarchie est utilise pour valuer diffrents dcoupages. Nanmoins, quelles soient bases sur une
tude de la continuit [Mur95] ou sur la matrice des distances unifies [MU05, OM04, US90, Ult05],
dautres mthodes de segmentation spcifiquement dveloppes pour les cartes auto-organises mrite-
rait dtre utilises pour complter lvaluation de notre mthode.
0.7
0.65
0.622
0.610
0.6
IndiceDB
0.604
0.58
0.582
0.577
0.55
0.5
0.45
0.4
0 5 10 15 20 25 30 35
Nombre dattributs supprimes
Figure 6.1 Evolution de lindice de Davies-Bouldin pendant la procdure dlimination arrire : la ligne
vertical en pointille indique le modle retenu par notre critre darrt.
72 C HAPITRE 6 Slection de variables et du nombre de groupes
Ce point de lalgorithme peut tre amliorer de diffrentes manire ; on pourrait, par exemple, uti-
liser des mthodes de recherche bi-directionnelles ou des mthodes de parcours alatoire comme les
algorithmes gntiques, mais nous pensons que la pondration de variables est galement une alternative
intressante car elle permet lapprentissage progressif dune mesure de pertinence et une erreur dappr-
ciation au dbut de la procdure nest alors plus irrversible.
6.5 Conclusion
Une mthode de slection de variables intgre un algorithme de classification a t prsente dans
ce chapitre. Elle sappuie sur la robustesse et lefficacit des mthodes de classification deux niveaux et
combine une mesure de pertinence individuelle un critre dvaluation des attributs au sein dun groupe.
Notre approche permet dune part de slectionner le nombre de groupes en utilisant un critre de qualit
de partition et dautre part de renforcer progressivement la structuration des donnes en slectionnant les
attributs qui y contribue. Les limites de cette approche ont t mentionnes la fin du chapitre.
C HAPITRE 7
Pondration et Slection
de variables
7.1 Motivations
Comme nous lavons soulign la fin du chapitre prcdent, llimination dune variable pertinente
au dbut dune procdure squentielle de slection de variables, sans que cette dcision ne puisse tre
remise en cause ensuite, risque de conduire lutilisateur des rsultats sans rel intrt. Nous proposons
dans ce chapitre une approche de slection de variables qui sappuie sur loptimisation dune pondration
qui permet dvaluer progressivement la pertinence des diffrentes dimensions.
Notre approche consiste tendre la mthode de pondration des variables propose par Huang
[HNRL05] pour les algorithmes de type k-moyennes au cas des cartes auto-organises. A cet effet, nous
proposons dintroduire une contrainte de prservation de la topologie locale de lespace dentre laide
dune fonction de voisinage. La pondration obtenue permet dordonner les variables en fonction de
leur pertinence et peut tre utilise comme critre dvaluation dans une approche filtre de slection de
variables.
X C
n X
N X
P (U, Z, W ) = uik j (xij zkj )2 (7.1)
i=1 j=1 k=1
73
74 C HAPITRE 7 Pondration et Slection de variables
1. Minimiser P U, Z, W en fixant Z = Z et W = W : chaque objet xi est affect au centre zj
dont il est le plus proche au sens de la distance euclidienne pondre par W .
Pn
1, si k = arg min j (xij zlj )2
l=1,...,K j=1
uik = (7.2)
0, sinon
2. Minimiser P U , Z, W en fixant U = U et W = W : chaque centre est remplac par le bary-
centre de lensemble des objets qui lui sont affects.
N
X
1
zk = PN uik xi (7.3)
i=1 uik i=1
3. Minimiser P U , Z, W en fixant U = U et Z = Z : Huang montre quon minimise ce problme
de la manire suivante
Lorsque 6= 1, la fonction de cot P U , Z, W est minimise si et seulement si
0,
si Dj = 0
1 1
j = P Dj 1
m (7.4)
Dt si Dj 6= 0
t=1
C
XX n
avec Dj = uil d(xij , zlj ) (7.5)
l=1 i=1
Lorsque = 1, la fonction de cot P U , Z, W est minimise si et seulement si
j = 1, si (j) Dj Dj
(7.6)
j = 0 sinon
o hkl est la fonction de voisinage entre les prototypes. Le thorme propos ainsi que sa dmonstration
restent valables en modifiant seulement la dfinition de Dj de la faon suivante :
C X
X n C
X
Dj = uik hkl d(xij zlj ) (7.8)
k=1 i=1 l=1
C HAPITRE 7 Pondration et Slection de variables 75
W nx (nx + ny + 1)/2
px (7.9)
nx ny (nx + ny + 1)/12
o nx et ny dsignent respectivement la taille du premier et du second chantillon, converge vers une loi
normale N (0, 1) lorsque les chantillons ont des tailles suffisantes.
7.3 Evaluation
7.3.1 Donnes
Luniversit de Californie Irvine (UCI) met la disposition de la communaut dapprentissage
artificiel de nombreux jeux de donnes pour valider leurs approches [DNM98]. Nous en avons retenu
quatre de taille et de complexit variables pour valider notre algorithme :
Iris : Ce jeu de donnes, lorigine propos par Fisher, est lun des plus connus dans le domaine
de la reconnaissance de formes. Il contient 3 classes de 50 instances qui correspondent chacune
une espce diris : setosa, versicolor et virginica. Lune des classes est linairement sparable des
autres qui se chevauchent. Chaque fleur est dcrite par les dimensions de ses ptales et spales.
Glass : Cette base contient les caractristiques de 214 chantillons de verres suivantes : indice
de rfraction, oxyde de sodium, oxyde magnsium, oxyde daluminium, oxyde de silicium, oxyde
de potassium, oxyde de calcium, oxyde de baryum et oxyde de fer. Les diffrentes instances se
rpartissent dans les 7 classes suivantes : 70 dans la classe 1 (verre trait utilis en construction),
76 dans la classe 2 (verre trait utilis dans les vhicules), 17 dans la classe 3 (verre non trait
utilis en construction), 0 dans la classe 4 (verre non trait utilis dans les vhicules), 13 dans la
classe 5 (bocaux), 9 dans la classe 6 (vaisselle) et 29 dans la classe 7 (tte dampoule). La classe 4
ntant pas reprsente, on peut considrer quil sagit dun problme 6 classes.
Waveform : Ce jeu de donnes artificielles comporte 5000 exemples rpartis en trois classes obte-
nues par combinaison de deux des trois vagues de base et ajout dun bruit gaussien de moyenne
nulle et de variance 1 chacune des 21 variables originales. Dans leur version bruite, les vagues
de Breiman comportent 19 dimensions supplmentaires qui suivent une loi normale de moyenne
nulle et de variance 1.
76 C HAPITRE 7 Pondration et Slection de variables
Wine : Cette base recense les rsultats dune analyse chimique de diffrents vins produits dans
une mme rgion dItalie partir de diffrents cpages. La concentration de 13 constituants est
indique pour chacun des 178 vins analyss qui se rpartissent ainsi : 59 dans la classe 1, 71 dans
la classe 2 et 48 dans la classe 3.
Les jeux de donnes dcrits ci-dessus contiennent de 150 5000 instances dcrites par 4 40 va-
riables. Nous souhaitions galement montrer que notre algorithme est adapt aux donnes de dimension
suprieure ; cet effet, nous avons utilis un jeu de donnes parmi ceux proposs lors de la comptition
NIPS 2003 sur la slection de variables pour la discrimination :
Madelon : Cette base de donnes artificielles comporte 2000 instances rparties en deux classes
quiprobables et qui sont dcrites par 500 variables dont seulement 20 sont pertinentes. Les 480
attributs restants ont des distributions similaires mais napportent aucune information quant la
classe des exemples.
7.3.2 Rsultats
Pour valuer lalgorithme prsent au dbut de ce chapitre, nous avons ralis dix simulations pour
chacun des cinq jeux de donnes et pour des valeurs du paramtre variant de 0 10 lexception de la
valeur 1. Nous prsentons les rsultats obtenus ci-dessous.
Le tableau 7.1 montre la faible dispersion des valeurs de la fonction objectif aprs la convergence de
lalgorithme.
Donnes SOM =2 =3 =4 =5 =6 =7 =8 =9 = 10
Iris 5.82 3.41 2.84 2.33 2.43 2.50 2.12 4.37 2.53 4.96
Glass 4.00 1.59 3.72 1.33 3.68 3.16 4.33 3.50 4.12 4.57
Waveform 0.22 0.12 0.09 0.06 0.10 0.07 0.07 0.09 0.10 0.13
Wine 1.22 3.14 1.52 1.76 1.25 1.47 1.64 2.45 1.79 1.35
Madelon 0.56 1.23 0.53 0.81 0.81 0.36 0.63 0.98 0.40 0.59
Table 7.1 Indice de dispersion /x (100) de la fonction objectif pour 10 excutions de lalgorithme
-SOM
Les tableaux 7.2, 7.3 et 7.4 montrent respectivement les indices de dispersion des poids de chaque
attributs aprs convergence de lalgorithme pour les jeux de donnes Iris, Glass et Wine. On note glo-
balement une plus grande stabilit des pondrations calcules que celle rapport dans [HNRL05] pour
lalgorithme w-kmeans.
Sur les vagues de Breiman, notre approche slectionne de manire systmatique les variables 4
18 et la slection des variables 3 et 19 dpend uniquement de la valeur du paramtre . Ainsi, la m-
thode propose permet dune part dliminer le bruit gaussien additionnel et dautre part didentifier les
variables qui sont habituellement reconnues comme pertinentes par des techniques supervises comme
Optimal Cell Damage (OCD) ou Heuristic for Variable Selection (HVS) [Ben01]. Le bruit gaussien est
C HAPITRE 7 Pondration et Slection de variables 77
x1 x2 x3 x4
2 8.06 7.02 1.44 2.95
3 3.79 3.71 0.30 1.79
4 2.34 1.70 0.17 1.86
5 1.53 1.33 0.10 0.82
6 1.31 1.34 0.29 0.57
7 0.87 0.68 0.24 0.57
8 1.31 1.25 0.26 0.39
9 0.74 0.76 0.23 0.31
10 0.79 0.83 0.27 0.30
Table 7.2 Indice de dispersion /x (100) des poids des attributs pour la base IRIS au cours de 10
excutions.
x1 x2 x3 x4 x5 x6 x7 x8 x9
2 14.51 10.40 18.25 10.00 4.55 18.51 16.81 11.51 36.37
3 2.35 5.40 8.25 4.01 5.54 14.02 6.48 5.87 9.58
4 1.04 2.24 2.38 1.20 2.17 6.81 2.82 2.59 3.52
5 0.70 1.89 4.88 1.53 1.67 5.29 3.80 2.09 6.05
6 0.79 1.18 2.04 1.20 1.31 3.98 2.15 2.04 2.93
7 0.33 0.77 2.28 0.58 1.31 3.25 1.92 1.53 1.73
8 0.97 1.35 2.12 0.82 1.34 3.08 2.00 1.58 2.14
9 0.65 0.95 1.81 0.48 0.40 2.23 1.05 0.88 1.79
10 0.73 0.72 1.85 0.56 1.12 2.15 1.32 1.73 0.98
Table 7.3 Indice de dispersion /x (100) des poids des attributs pour la base GLASS au cours de 10
excutions.
Table 7.4 Indice de dispersion /x (100) des poids des attributs pour la base WINE au cours de 10
excutions.
78 C HAPITRE 7 Pondration et Slection de variables
gnralement considr comme facile dtecter, nous avons donc rpt nos simulations en rempla-
ant les dimensions 22 40 par des permutations des variables 1 21. Le mme comportement de la
mthode a t observ dans ces conditions moins favorables.
Sur la base madelon dont seulement 4% des dimensions sont pertinentes, notre approche slectionne
12 variables de manire systmatique et jusqu 5 variables supplmentaires ; toutes correspondent ef-
fectivement des dimensions intressantes.
7.4 Discussion
7.4.1 Pondration
Dans ce chapitre, nous avons propos une mthode de pondration pour les cartes auto-organises ;
cette mthode sest rvle efficace pour dtecter le bruit et identifier les variables pertinentes. Nan-
moins, nous avons utilis une pondration globale qui suppose que les attributs pertinents sont les mmes
pour tous les groupes dindividus prsents au sein de lensemble dapprentissage. Cette hypothse nous
semble forte et nous pensons quil serait intressant dtudier lextension de lalgorithme propos au
cas dune pondration locale. Ce type dapproche permettrait en outre de faciliter la caractrisation des
groupes identifis et ainsi de faciliter la comprhension des donnes.
7.5 Conclusion
Une extension de lalgorithme w-kmeans propos par Huang [HNRL05] a t prsente ; elle per-
met notament dapprendre progressivement une pondration qui peut tre utilise dans une procdure
de slection de variable. Lintrt majeur de commencer par un calcul de pondration est de permettre
lmergence progressive dune partition de lensemble des observations et dviter que la suppression
par erreur dune variable pertinente en dbut dapprentissage nempche la dcouverte dune structure
intressante. Les rsultats obtenus par cette mthode sont trs encourageant et nous pensons quil serait
opportun de ltendre au cas dune pondration locale qui permettrait en outre de faciliter linterprtation
C HAPITRE 7 Pondration et Slection de variables 79
des groupes mis en vidence. Ensuite, le critre darrt que nous retenu a t mis en dfaut sur la base
des Iris et il conviendrait dvaluer les performances de notre approche en le remplaant par un T-test.
Enfin, la mthode propose reste coteuse dun point de vue computationnel et le dveloppement dune
approche intgre dans laquelle la valeur du paramtre diminuerait progressivement mrite dtre tu-
dier, car il permettrait certainement damliorer ce point critique.
PARTIE III
Applications
C HAPITRE 8
Applications aux
traitements de donnes
comportementales
8.1 Application aux Marketing
8.1.1 Problmatique
Dans un contexte conomique toujours plus concurentiel, une entreprise qui souhaite perdurer et se
dvelopper doit savoir adapter sa stratgie aux volutions de son march. Pour y parvenir, ses dcideurs
ont leur disposition diffrents outils dont lanalyse des rsultats de sondage auprs de consommateurs
qui est abord dans la suite de cet article. Les objectifs dune enqute peuvent se rsumer en trois ques-
tions :
Qui ? : Connatre ses clients et ses prospects est essentiel pour dterminer les canaux de com-
munications utiliser par exemple.
Quoi ? : Identifier les produits qui les intressent et leurs attentes permet dadapter sa gamme
pour toujours mieux les satisfaire ?
Pourquoi ? : Cette question est sans nul doute la fois la plus intressante et la plus difficile.
Il sagit en effet de comprendre le comportement de nos clients et prospects afin de prendre les
dcisions les mieux adaptes.
Dans ce qui suit, nous allons montrer comment les mthodes connexionnistes peuvent tre mises en
uvre pour mettre en vidence la structure dun march et permettre aux dcideurs de se concentrer sur
la dernire question.
83
84 C HAPITRE 8 Applications aux traitements de donnes comportementales
types de questions en fonction des rponses autorises ; ainsi, on parle de questions fermes si la liste des
rponses possibles est fixe et de question ouvertes lorsque la personne interroge est libre de formuler
sa rponse comme elle le souhaite. Dans le cadre de cet article, nous ne traiterons pas de ce dernier type
de questionnaire dont ltude est lobjet dun champs de recherche part entire en statistique.
Il est important de noter que malgr lensemble des prcautions prises pendant la phase de collecte
des rponses, celles-ci demeurent entches de nombreux biais lis par exemple au contexte de receuil
des donnes ou lactualit. Imaginons un instant que lon ralise un sondage sur la consommation
de viande et quune nouvelle infection touchant certains animaux dlevage soit annonce au journal
tlvis en plein milieu de la priode de receuil des rponses. Il y a fort parier que les rponses des
consommateurs interrogs avant et aprs cette annonce diffrent de faon significative. Par ailleurs, le
sens dune mme rponse varie dun individu lautre. Ainsi, la prise en compte de ces diffrentes
considrations lors du codage des donnes recueuillies est un lment de succs dterminant dune tude
de march.
concernant les rponses des personnes interroges. Ainsi, plutt que dinitialiser la variable correspon-
dant une modalit diffrente de celle choisie par le rpondant, elle est initialise avec une valeur de
lintervalle [0; 1] correspondant aux incertitudes lies sa rponse.
Le codage des rponses laide dune variable numrique quillustre le tableau 8.3 est sans doute
le plus simple que lon puisse imagin. Nanmoins, il fait lhypothse forte dune diffrence constante
entre deux modalits successives. On pourra bien entendu adapter la diffrence entre les modalits en
faisant appel un expert du domaine.
Enfin, en modifiant lgrement la smantique des variables du codage disjonctif associes aux diff-
rentes modalits on obtient le codage binaire dit additif. Pour illustrer notre propos, si on considre la
troisime et la quatrime variable logique dans le tableau 8.4, elles ont respectivement les smantiques
suivantes Au moins peut-tre et Au moins probablement.
donnes portait sur une centaine de produits et autant dattentes ou besoins. Afin de garantir la confi-
dentialit des donnes stratgiques utilises dans le cadre de cet exemple, les rponses dune partie des
consommateurs ont t retires et le nom des produits ainsi que lintitul des attentes ont t modifis
fast-global-kmeans pour douze centres, est prsente la figure 8.2. Chaque segment de consommateurs
1.6
1.4
1.2
2 3 4 5 6 7 8 9 10 11 12
Nombre de groupes
Figure 8.1 Qualit des segmentations des consommateurs en fonction du nombre de groupes et de
lalgorithme utilis.
identifi peut ensuite tre caractris par un sous-ensemble de variables dont les valeurs sont caractris-
tiques du groupe considr. On peut utiliser la valeur test qui est un indicateur statistique propos par A.
Morineau [Mor84] cette fin ; elle sera prsente au paragraphe 8.2.4.5.
8.1.5 Conclusion
Nous avons prsent ici une mthode systmatique danalyse de donnes issues denqutes auprs
de consommateurs o le questionnaire ne comporte que des questions fermes. Lorsquelle est utilise
pendant la phase exploratoire de lanalyse, cette approche permet de dgager rapidement les premiers
lments de comprhension dun march et de rpondre aux deux premires questions fondamentales :
88 C HAPITRE 8 Applications aux traitements de donnes comportementales
Qui ? et Quoi ?. Cette premire perception du march permet ensuite daborder le Pourquoi ? et
dainsi apprhender les comportements de nos consommateurs. Ce nest qualors, que des modifications
de la stratgie marketing pourront tre envisages sereinement.
p041 p016
a
p065 08 p017
a
p 09 p
067 p a 019
p 078 p 20 p p
071 p 001 a 011 020
p 089 a 72 a p
099 a53 88 au_moins25a 37 022
a p p
25 au_moins35a 024 018
a p p
26 au_moins p012 026 027
a p 45a p p
52 060 p a a 038 029
p097 002 veuf_ou_divorce 12 87 p036
a
73 p037
p039
p a
043 p p 07 p p
p091 006 009 a65 010 034
a p p p
p093 17 013 a69 014 035
p
a 023
a 41 p
a a a 80 a a 028
p049 35 67 60 a85 77 76 p033
a
p063 81 a06
p p
066 070 a
p p 11 a a
069 p090 088 a78 59 54 a47 a
p a a a 01
075 13 a84 68 66 a03
p a
079 14 a05
p
080 p061 a15 p098 a16
sans p
enfant 045 p p a a a a
p 072 096 39 43 40 22
051 a a a a
62 89 82 23
a
p054 50
a p a
04 p095 082 p048 74
homme p a a p a
047 a 27 55 a 007 79
celibataire 36 a 21
a 56
38 a32 p004
a46 a33 p055 p003 a18
a a a a p p a
63 64 34 61 030 005 19
a a a a a
70 42 86 10 44
a a
p073 57 a28 45
p
p a a 015 p p
081 p 71 29 p p 008 031
p p 040 a a 025 p 021 p p
084 042 83 30 052 p053 032 046
a p a p p
49 050 p044 a48 31 056 062
p p femme
057 p068 a 059
p 51 p avec
064 p a p 085 enfant
p 077 58 058 p au_moins
074 a a 087 2pers
p076 02 75 p092 au_moins3pers
a vie_conjugale
p083 24 p094 au_moins4pers
p086 p100 au_moins5pers
marie
4. dutiliser les mme donnes pour mettre en oeuvre une approche connexionniste,
5. de confronter les premiers rsultats des deux approches.
Nous commenons par dcrire le recueil des donnes avant de prsenter les approches thologique et
connexionniste mises en oeuvre. Nous poursuivons par une discussion gnrale des rsultats obtenus
avant dindiquer les futurs travaux envisags.
90 C HAPITRE 8 Applications aux traitements de donnes comportementales
1.3
Indice de DaviesBouldin
1.2
1.1
0.9
0.8
0.7
0.6
2 3 4 5 6 7 8 9 10 11 12
Nombre de groupes
Figure 8.4 Qualit des segmentation de la carte des produits et des attentes en fonction du nombre de
groupes.
Figure 8.5 Segmentation de la carte des produits et des attentes en huit segments.
On choisit de travailler sur des squences de courte dure en prvision du travail de relev ultrieur,
particulirement long. Lanalyse prvue ncessitant la rptition de mouvements faciaux par un mme
individu, on slectionne 3 squences de 3 secondes chacune par sujet. Dans un souci de standardisation,
les squences sont centres sur une rponse facile objectiver du sujet, savoir une rponse verbale.
On chantillonne une seconde avant le dbut dnonciation de la rponse, et deux secondes aprs. On
dispose alors de 3 squences par sujet dont le contexte est respectivement semblable dun sujet lautre.
Enfin, les extraits sont segments en images, raison de 13 images par seconde, ce qui produit 39 images
par squence, chronologiquement indices (analyse du mouvement la prcision de 0,08s). A ce stade,
les donnes consistent en 10 jeux, un jeu par sujet, de 3 sries chronologiques de 39 images (soit un total
de 1170 images).
pointage, on connat pour une squence individuelle, les coordonnes prises par chacun des points sur
chacune des 39 images. Ces coordonnes constituent les donnes brutes.
Des diffrences qualitatives, lies au genre, dans la composition des T-patterns sont galement mises en
vidence : les hommes produisent des motifs simples impliquant lextrmit temporale du sourcil gauche
et la narine gauche, alors que les femmes produisent des motifs simples impliquant les parties interne et
mdiane du sourcil droit.
Nos rsultats prliminaires indiquent que les mouvements faciaux des hommes et des femmes dif-
frent quantitativement, et quau moins pour certain dentres eux, ils diffrent galement qualitativement
lors de la ralisation dune tche cognitive dans un contexte social.
Les cartes auto-organises (Self-Organizing Maps ou SOM), souvent appeles cartes topologiques
ou carte de Kohonen, ont t introduites au dbut des annes 80 comme une mthode de classification
automatique et de visualisation de donnes multidimensionnelles. Elles implmentent une forme particu-
lire de rseaux de neurones, dits rseaux de neurones comptition, o le succs dun neurone de sortie
(neurone de la couche de comptition) reconnatre une entre, conduit inhiber les autres neurones,
donc renforcer le neurone vainqueur. Par consquent, le neurone vainqueur pour un exemple tend
se spcialiser dans la reconnaissance de cet exemple. On note que dans ces modles lapprentissage est
non-supervis car ni les classes ni leur nombre nest donn priori. Ce type de rseau est organis en
une couche deux dimensions (figure 8.7). Chaque neurone k est connect un nombre n dentres
travers n connexions de poids respectifs k . Les connexions latrales qui assurent la comptition entre
les neurones sont de poids fixes et excitatrices dans un voisinage proche.
Ces cartes sorganisent par rapport aux exemples prsents en respectant les contraintes topologiques
de lespace dentre. Il y a mise en correspondance de lespace dentre avec lespace du rseau. Les
zones voisines de lespace dentre sont voisines sur la carte auto-organise.
Les informations reues par le rseau neuronal dterminent un arrangement spatial optimal des neu-
rones. Lorsque la dimension de lespace dentre est infrieure ou gale 3, il est possible de reprsenter
visuellement la position des vecteurs poids et les relations de voisinage direct entre deux cellules. Cette
prsentation permet de faire une apprciation visuelle de la carte. Elle fournit une information qualitative
de la carte et le choix de son architecture.
94 C HAPITRE 8 Applications aux traitements de donnes comportementales
la phase dadaptation o les poids de chaque neurone de la carte sont mis jour selon les rgles
dadaptation suivantes : si .j Vb(i) ajuster les poids selon la formule :
La phase dapprentissage prsente prcdemment est totalement non supervise. Cependant, les
donnes dont nous disposons sont tiquetes, nous pouvons utiliser cette information supplmentaire
pour tiqueter les diffrents neurones de la carte obtenue en procdant par vote majoritaire. Ainsi, chaque
neurone se voit attribuer ltiquette majoritaire au sein de sa rgion de Vorono. Il convient de noter que
lon peut amliorer la robustesse de ltiquetage en utilisant un test du 2 [WW98] pour vrifier que la
distribution des tiquettes parmi les observations de la rgion de Vorono du neurone considr diffre
de manire significative de la distribution au sein de lchantillon complet.
Une carte auto-organise peut tre vue comme une mthode de classification automatique dont rsulte
une partition de lespace des observations qui comporte autant de partie quil y a de neurones. Il est
souvent souhaitable de diminuer le nombre de clusters pour en faciliter lanalyse. Plusieurs mthodes de
dcoupage automatique ont ainsi t propose [VA00]. Nous avons retenu la mthode des k-moyennes
associe lindice de Davies-Bouldin [DB79] pour dcouper notre carte.
La mthode des k-moyennes est une autre mthode de classification. Son principe consiste choisir
arbitrairement une partition. Ensuite, les exemples sont examins un un. Si un exemple devient plus
proche du centre dune classe autre que la sienne, il est dplac vers cette nouvelle classe. On recalcule,
ensuite, les centres des nouvelles classes et on raffecte les exemples aux partitions, et ainsi de suite
jusqu obtenir une partition stable.
Le critre minimiser dans ce cas est dfini par :
C
1 XX
RKmoyennes = kx k k2 (8.7)
C
k=1 xCk
Lalgorithme initial ncessite de fixer priori le nombre C de clusters souhaits. Nanmoins, [VA00]
ont propos de dterminer automatiquement une valeur de C en retenant la partition qui minimise lindice
de Davies-Bouldin [DB79] dfini par :
K
X
Sc (Ck ) + Sc (Cl )
IDB = max (8.8)
l6=k Dce (Ck , Cl
k=1
o Sc (Ci ) est la distance moyenne entre un objet du groupe Ci et son centre, et o Dce (Ci , Cj ) est la
distance qui spare les centres des groupes Ci et Cj :
1 X
Sc (Ci ) = kx k k
|Ck |
xCk
Dce (Ci , Cj ) = ki j k
La mthode des k-moyennes associe lindice de Davies-Bouldin recherche une partition de les-
pace des observations dont les diffrentes parties sont compactes et bien spares.
8.2.4.6 Exprimentations
Codage des donnes : Notre tude sintresse avant tout au mouvements faciaux, nous calculons donc
les distances entre deux positions successives de chacun des points. Les observations disponibles sous
forme de squences de longueurs de dplacement, sont en nombre rduit. Cela nous conduit utiliser
une fentre glissante pour dune part augmenter le nombre dobservations et dautre part, amliorer la
robustesse aux dcalages temporels des mouvements. Cependant, ce pr-traitement impose dutiliser un
paramtre supplmentaire : la largeur de la fentre W . Ltude de la dynamique des mouvements faciaux
C HAPITRE 8 Applications aux traitements de donnes comportementales 97
impose que lon intresse aux dplacements simultans de lensemble des points du visages retenus pour
ltude. Ainsi, nous avons utilis la matrice de covariance dynamique de chacune de nos sous-squences
comme entres du rseau. La matrice de covariance dynamique dune squence S = (xi Rn )i=1,...,W
est dfinie dans [ZB04b, ZB04a] de la manire suivante :
W
!
1 X
d = x1 xT1 + (xi xi ) (xi xi )T (8.10)
W
i=2
Choix de la largeur de la fentre glissante : Sachant que notre objectif est didentifier une struc-
ture intrinsque de nos donnes qui soit relative au genre. Ainsi, il est pertinent de choisir une largeur
de la fentre glissante qui permette de bien sparer les femmes des hommes. Nous valuons donc les
performances dun classificateur bas sur une carte auto-organise tiquete. Nous procdons donc par
validation croise ; les donnes recodes de neuf des dix sujets de ltude sont utilises pour construire
et tiqueter une carte. A titre de test, les donnes relatives au dernier sujet sont projetes sur la carte et
ltiquette la plus souvent rencontre est attribue chacune de ses 3 squences. Lopration est ralise
5 fois pour chacune des valeurs possible de W. Les rsultats des classificateurs dont les taux de recon-
naissance de chacun des deux genres sont suprieurs 50% sont prsents la figure 8.9 laide dun
graphe de ROC [Faw03]. Les graphes de ROC permettent de visualiser et de comparer les performance
de diffrents classificateurs ; le meilleur dentre eux est celui dont les performances se trouvent le plus
proche du coin suprieur gauche. Dans notre cas, il sagit du classificateur construit partir des donnes
recodes en utilisant une fentre glissante de largeur 33. Nous retenons donc cette valeur pour la suite de
lanalyse.
Construction et dcoupage dune carte auto-organise : Nous construisons donc une carte auto-
organise avec les donnes recodes en utilisant une fentre glissante de largeur 33. Un dcoupage auto-
matique est ralis.
Les valeurs de lindice de Davies-Bouldin sont donnes par la figure 8.8. Nous retenons le dcoupage
en 3 classes qui minimise lindice de Davies-Bouldin. La segmentation de la carte est donne gauche
de la figure 8.10. La rpartition des donnes correspondant aux 2 genres est galement indique droite
de cette dernire figure ; le nombre de donnes recodes est indiqu entre parenthses derrire le numro
de la classe. Les classes 1 et 2 correspondent respectivement aux hommes et aux femmes. Les 3 clusters
obtenus par le dcoupage de notre carte sont tiquets suivant la mthode prsente prcdemment. Les
clusters situs en haut et en bas de la carte correspondent respectivement aux femmes et aux hommes.
Le cluster reprsent en noir reste sans tiquette car il nest ni clairement fminin, ni clairement mas-
culin, il reste donc sans tiquette. La carte obtenue nous permet de conclure lexistence dun structure
intrinsque de nos donnes lie au genre.
Caractrisation des clusters obtenus : Seul les clusters sexus nous intresse, nous ne caractrisons
donc pas le cluster laiss sans tiquette. Dans la mesure o il nous semble plus naturel dinterprter nos
rsultats partir de squences de dplacements quavec les coefficients dune matrice de covariance,
98 C HAPITRE 8 Applications aux traitements de donnes comportementales
Qualite de la segmentation
0.6
0.59
0.58 0.57638
Indice de DavieBouldin
0.57 0.56753
0.56
0.55
0.54
0.53 0.53419
0.52 0.52345
0.51
0.5
2 2.5 3 3.5 4 4.5 5
Nombre de Classes
nous caractrisons les deux clusters retenus en utilisant les valeurs tests associes aux longueurs des
dplacements (qui peuvent tre considres comme des variables illustratives).
Nous obtenons ainsi une valeur test par point et par dplacement qui se trouve dans la fentre glis-
sante. Nous choisissons de ne reprsenter que les valeurs test qui sorte de lintervalle de confiance 95%
de la moyenne de lensemble des valeurs test qui est donn par
I 1, 96 (8.12)
o , et N sont respectivement la moyenne, lcart type et la taille de lchantillon. Les valeurs sup-
rieures et infrieures la moyenne sont reprsentes respectivement en haut et en bas de la figure 8.11.
Les femmes et les hommes sont respectivement reprsents droite et gauche de cette mme figure.
Un examen rapide de ces graphique met en vidence une plus forte structuration des mouvement chez
les hommes que chez les femmes.
Nous souhaitons maintenant identifier les points qui permettent de diffrencier les deux genres. Pour
cela, nous calculons pour chaque cluster et chacun des 36 points du visage retenus pour ltude la
moyenne des valeurs tests significatives. Nous retenons comme points caractristiques dun genre ceux
C HAPITRE 8 Applications aux traitements de donnes comportementales 99
0.8
W=33
W=36
0.75
0.7
W=32
W=35 W=37
W=34
0.65 W=30
W=31
W=29
W=28 W=38
0.6 W=26
W=19
W=9
W=5 W=27
0.55
W=2
W=3
W=4
W=12
W=8
W=15
0.5
0.3 0.35 0.4 0.45 0.5 0.55
Specificite (taux de classification correcte des femmes)
dont la valeur test sort de lintervalle de confiance 95% des deux cots. Les tableaux 8.5 et 8.6 montrent
les points retenus. Notons que le point 21 est prsent dans les deux tableaux, nous ne le conserverons
donc pas.
Carte segmentee
dune latralisation des mouvements faciaux lie au genre devra tre confirme sur un chantillon plus
important et dans diffrentes situations. Il serait alors intressant de comparer diffrents groupes culturels
de faon dterminer si les diffrences lies au genre sont communes diffrents groupes.
Dautre part, lapproche connexionniste que nous avons utilise sappuie sur le modle des cartes
auto-organises propos au dbut des anne 80. Ce dernier ne traite pas spcifiquement la dimension
temporelle. Depuis plusieurs modles tenant compte des spcificits des donnes temporelles ont t in-
troduits [Str04, ZB04b, ZB04a]. Leur utilisation pourrait permettre une analyse plus fine de nos donnes.
C HAPITRE 8 Applications aux traitements de donnes comportementales 101
107
108 BIBLIOGRAPHIE
[Bla06] Alexandre Blansch. Classification non supervise avec pondration dattributs par des
mthodes volutionnaires. PhD thesis, Universit Louis Pasteur - Strasbourg I, September
2006.
[BLP05] Fernando Bao, Victor Lobo, and Marco Painho. Geo-som and its integration with geo-
graphic information systems. In Marie Cottrell, editor, WSOM, pages 505512, 2005.
[Bot91] Lon Bottou. Une Approche thorique de lApprentissage Connexionniste : Applications
la Reconnaissance de la Parole. PhD thesis, Universit de Paris XI, Orsay, France, 1991.
[BY98] Vicki Bruce and Andrew Young. In the Eye of the Beholder : The Science of Face Percep-
tion. Oxford University Press, USA, December 1998.
[Can06] Laurent Candillier. Contextualisation, visualisation et valuation en apprentissage non su-
pervis. PhD thesis, Universit Charles de Gaulle - Lille 3, Lille, France, 2006.
[CB02] Dusan Cakmakov and Younes Bennani. Feature Selection for Pattern Recognition. Informa
Press, Ed., 2002.
[CFGR94] T. Cibas, F. Fogelman, P. Gallinari, and S. Raudys. Variable selection with optimal cell
damage. In Proceeding of the ICANN94, volume 1, pages 727730, 1994.
[CGG+ 95] M. Cottrell, B. Girard, Y. Girard, M. Mangeas, and C. Muller. Neural modeling for time
sseries : A statistical stepwise method for weight elimination. IEEE Transactions on Neural
Networks, 6(6), 1995.
[Cib96] Tautvydas Cibas. Contrle de la complexit dans les rseaux de neurones : rgularisation
et slection de caractristiques. PhD thesis, University of Paris XI Orsay, Paris, France,
December 1996.
[CIL03] Marie Cottrell, Smail Ibbou, and Patrick Letrmy. Traitement des donnes manquantes au
moyen de lalgorithme de kohonen. In Actes de la dixime confrence ACSEG, Nantes,
2003.
[DB79] David L. Davies and Donald W. Bouldin. A cluster separation measure. IEEE Transactions
on Pattern Analysis and Machine Intelligence, PAMI, 1(2) :224227, 1979.
[DHG01] Richard O. Duda, Peter E. Hart, and Stork David G. Pattern Classification, Second Edition.
John Wiley and Sons, Inc., 2001.
[DLC03] Bi-Ru Dai, Cheng-Ru Lin, and Ming-Syan Chen. On the techniques for data clustering with
numerical constraints. In Daniel Barbar and Chandrika Kamath, editors, SDM. SIAM,
2003.
[DNM98] C.L. Blake D.J. Newman, S. Hettich and C.J. Merz. UCI repository of machine learning
databases, 1998.
[DPJ+ 96] B. Dorizzi, G. Pellieux, F. Jacquet, T. Czernikov, and A. Munoz. Variable selection using
generalized rbf networks : Application to forecast french t-bonds. 1996.
[Faw03] T. Fawcett. Roc graphs : Notes and practical considerations for data mining researchers.
Technical Report HPL-2003-4, HP Labs, 2003.
[Fis36] Ronald A. Fisher. The use of multiple measurements in taxonomic problems. Annals of
Eugenics, 7 :179188, 1936.
[FLC02] J.-C. Fort, P. Letremy, and M. Cottrell. Advantages and drawbacks of the batch koho-
nen algorithm. In 10th European Symposium on Artificial Neural Networks, ESANN2002,
Bruges, Belgium, April 2002.
BIBLIOGRAPHIE 109
[FM83] E. B. Fowlkes and C. L. Mallows. A Method for Comparing Two Hierarchical Clusterings.
Journal of the American Statistical Association, 78(383) :553569, September 1983.
[Fun01] Glenn Fung. A comprehensive overview of basic clustering algorithms, May 2001.
[GGNZar] I. Guyon, S. Gunn, M. Nikravesh, and L. Zadeh. Feature Extraction, Foundations and
Applications, Editors. Series Studies in Fuzziness and Soft Computing, Physica-Verlag.
Springer, 2006, to appear.
[GTPF03] P. Giovanoli, C-H. J. Tzou, M. Ploner, and M. Frey. Three-dimensional video analysis of
facial movements in healthy volunteers. British Journal of Plastic Surgery, 56(7) :644652,
October 2003.
[HA85] Lawrence Hubert and Phipps Arabie. Comparing partitions. Journal of Classification,
2(1) :193218, December 1985.
[HBV01] Maria Halkidi, Yannis Batistakis, and Michalis Vazirgiannis. On clustering validation tech-
niques. Journal of Intelligent Information Systems, 17(2-3) :107145, 2001.
[HJ01] H. Hill and A. Johnston. Categorizing sex and identity from the biological motion of faces.
Current Biology, 11(11) :880885, August 2001.
[HNCM05] Pierre Hansen, Eric Ngai, Bernard K. Cheung, and Nenad Mladenovic. Analysis of glo-
bal k-means, an incremental heuristic for minimum sum-of-squares clustering. Journal of
Classification, 22(2), September 2005.
[HNRL05] Joshua Zhexue Huang, Michael K. Ng, Hongqiang Rong, and Zichen Li. Automated va-
riable weighting in k-means type clustering. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 27(5) :657668, 2005.
[HS93] B. Hassibi and D.G. Stork. Second order derivatives for networks pruning : Optimal brain
surgeon. In Advances in Neural Information Processing Systems 5, pages 164171. Morgan
Kaufmann Publishers, 1993.
[JD88] Anil K. Jain and Richard C. Dubes. Algorithms for clustering data. Prentice-Hall, Inc.,
Upper Saddle River, NJ, USA, 1988.
[JKV01] Bertrand Jouve, Pascale Kuntz, and Franois Velin. Extraction de structures macrosco-
piques dans des grands graphes par une approche spectrale. Extraction des Connaissances
et Apprentissage, 1(4), 2001.
[JMF99] A. K. Jain, M. N. Murty, and P. J. Flynn. Data clustering : a review. ACM Computing
Surveys, 31(3) :264323, 1999.
[Kay97] Daniel Kayser. La reprsentation des connaissances. Herms, 1997.
[Koh01] Teuvo Kohonen. Self-Organizing Maps, volume 30 of Springer Series in Informa-
tion Sciences. Springer, Berlin, Heidelberg, New York, third extended edition edition,
1995,1997,2001.
[LCDS90] Y. Le Cun, J.S. Denker, and S.A Solla. Optimal brain damage. In Advances in Neural
Information Processing Systems 2, pages 598605. Morgan Kaufmann Publishers, 1990.
[LG] P. Leray and P. Gallinari. De lutilisation dobd pour la slection de variables dans les per-
ceptrons multicouches. Systmes dapprentissage connexionnistes : slection de variables,
Numro spcial de la Revue dIntelligence Artificielle, 15(3-4) :373.
[Li06] Tao Li. A Unified View on Clustering Binary Data. Machine Learning, 62(3) :199215,
March 2006.
110 BIBLIOGRAPHIE
[LLB04] Fernando Loureno, Victor Lobo, and Fernando Bao. Binary-based similarity measures
for categorical data and their application in self-organizing maps, April 2004.
[LM98] H. Liu and H. Motoda. Feature Selection for Knowledge Discovery and Data Mining.
Kluwer Academic Publishers, 1998.
[LVV03] A. Likas, N. Vlassis, and J. Verbeek. The Global k-means Clustering Algorithm. Pattern
Recognition, 36(2) :451461, 2003.
[Mac94] D.J.C. MacKay. Bayesian methods for backpropagation networks, chapter 6. Springer-
Verlag, New York, USA, 1994.
[Mag00] MS. Magnusson. Discovering hidden time patterns in behaviour : T-patterns and their detec-
tion. Behavior research methods, instruments and computers : a journal of the Psychonomic
Society, Inc., 32(1) :93110, Febrary 2000.
[MB88] Geoffrey J. McLahlan and Kaye E. Bashord. Mixture Models : Inference and Applications
to Clustering. Marcel Dekker, Inc., New York, 1988.
[Mei03] Marina Meila. Comparing clusterings by the variation of information. In Bernhard Schl-
kopf and Manfred K. Warmuth, editors, COLT, volume 2777 of Lecture Notes in Computer
Science, pages 173187. Springer, 2003.
[Mei05] Marina Meila. Comparing clusterings : an axiomatic view. In Luc De Raedt and Stefan
Wrobel, editors, ICML, pages 577584. ACM, 2005.
[Mei06] Marina Meila. Comparing clusterings - an information based distance. in print, 2006.
[ML01] Vladimir Makarenkov and Pierre Legendre. Optimal Variable Weighting for Ultrametric
and Additive Trees and K-means Partitioning : Methods and Software. Journal of Classifi-
cation, 18(2) :245271, February 2001.
[MMP02] P. Mitra, C.A. Murthy, and S.K. Pal. Unsupervised Feature Selection Using Feature Simi-
larity. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(4), 2002.
[Moo94] J. Moody. Prediction risk and architecture selection for neural networks. In V. Cherkassky,
J.H. Friedmann, and H. Wechsler, editors, From Statistics to Neural Networks - Theory and
Pattern Recognition Application, 1994.
[Mor84] Andr Morineau. Note sur la caractrisation statistique dune classe et les valeurs-tests.
Bulletin technique 2, Centre international de statistique et dinformatique appliques, Saint-
Mand, France, 1984.
[MU05] F. Moutarde and A. Ultsch. U*F clustering : a new performant cluster-mining method
based on segmentation of Self-Organizing Maps. In Proceedings of the 5th Workshop On
Self-Organizing Maps (WSOM05), pages 2532, Paris 1 Panthon-Sorbonne University,
France, September 2005.
[Mur95] F. Murtagh. Interpreting the Kohonen self-organizing feature map using contiguity-
constrained clustering. Pattern Recognition Letters, 16(4) :399408, April 1995.
[Nea94] R.M. Neal. Bayesian learning for neural networks. PhD thesis, University of Toronto,
Canada, 1994.
[OM04] D. Opolon and F. Moutarde. Fast semi-automatic segmentation algorithm for Self-
Organizing Maps. In Proceedings of ESANN2004 , European Symposium on Artificial
Neural Networks, Bruges (Belgium), pages 507512, 2004.
BIBLIOGRAPHIE 111
[P04] Georg Plzlbauer. Survey and comparison of quality measures for self-organizing maps.
In Jn Paralic, Georg Plzlbauer, and Andreas Rauber, editors, Proceedings of the Fifth
Workshop on Data Analysis (WDA04), pages 6782, Sliezsky dom, Vysok Tatry, Slovakia,
June 2427 2004. Elfa Academic Press.
[PHL96] M.W. Pedersen, L.K. Hansen, and J. Larsen. Pruning with generalization based weight
saliencies : obd, obs. In Advances in Neural Information Processing Systems 8. Morgan
Kaufmann Publishers, 1996.
[Ros96] F. Rossi. Attribute suppression with multi-layer perceptron. In Proceedings of IEEEI-
MACS96, Lille, France., 1996.
[Rou85] Maurice Roux. Algorithmes de classification. Masson, Paris, 1985.
[RRK90] D. W. Ruck, S. K. Rogers, and M. Kabrisky. Feature selection using a multilayer perceptron.
International Journal on Neural Network Computing, 2(2) :4048, 1990.
[RS00] Sam T. Roweis and Lawrence K. Saul. Nonlinear Dimensionality Reduction by Local Linear
Embedding. Science, 290 :23232326, December 2000.
[RZ99] A-P. N. Refenes and A.D. Zapranis. Neural model identification, variable selection and
model adequacy. Journal of Forecasting, 18(5) :299332, Sep 1999.
[Str04] Marc Strickert. Self-Organizing Neural Networks for Sequence Processing. PhD thesis,
University of Osnabrck, Germany, June 2004.
[TdSL00] J.B. Tenenbaum, V. de Silva, and J.C. Langford. A Global Geometric Framework for Non-
linear Dimensionality Reduction. Science, 290 :23192323, December 2000.
[TGPF05] C.H.J. Tzou, P. Giovanoli, M. Ploner, and M. Frey. Are there ethnic differences of facial
movements between europeans ans asians ? British Journal of Plastic Surgery, 58(2) :183
195, March 2005.
[TK02] IM. Thornton and Z. Kourtzi. A matching advantage for dynamic human faces. Perception,
31(1) :113132, 2002.
[TNZ96] V. Tresp, R. Neuneier, and H. G. Zimmermann. Early brain damage. In M. Mozer, M. Jor-
dan, and Th. Petsche, editors, Advances in Neural Information Processing Systems (NIPS
1996), pages 669675. MIT Press, 1996.
[Ult05] A. Ultsch. Clustering with SOM : U*C. In Proceedings of the 5th Workshop On Self-
Organizing Maps (WSOM05), pages 7582, Paris 1 Panthon-Sorbonne University, France,
September 2005.
[US90] A. Ultsch and H.P. Siemon. Kohonens self organizing feature maps for exploratory data
analysis. In Proceedings of the International Neural Networks Conferences (INNC90),
pages 305308. Kluwer Academic Press, Paris, 1990.
[VA99] Juha Vesanto and Jussi Ahola. Hunting for Correlations in Data Using the Self-Organizing
Map. In H. Bothe, E. Oja, E. Massad, and C. Haefke, editors, Proceeding of the Internatio-
nal ICSC Congress on Computational Intelligence Methods and Applications (CIMA 99),
pages 279285. ICSC Academic Press, 1999.
[VA00] Juha Vesanto and Esa Alhoniemi. Clustering of the self-organizing map. IEEE Transactions
on Neural Networks, 11(3) :586600, 2000.
[VSH03] Juha Vesanto, Mika Sulkava, and Jaakko Hollmn. On the decomposition of the self-
organizing map distortion measure. In Proceedings of the Workshop on Self-Organizing
Maps (WSOM03), pages 1116, Kitakyushu, Japan, September 2003.
112 BIBLIOGRAPHIE
[Wag02] Kiri Lou Wagstaff. Intelligent Clustering With Instance-Level Constraints. PhD thesis,
Cornell University, August 2002.
[Wal83] David L. Wallace. A Method for Comparing Two Hierarchical Clusterings : Comment.
Journal of the American Statistical Association, 78(383) :569576, September 1983.
[WW98] Thomas-H. Wonnacott and Ronald-J. Wonnacott. Statistique, Economie - Gestion - Sciences
- Mdecine. Economica, Paris, 1998.
[XW05] Rui Xu and D. Wunsch. Survey of clustering algorithms. IEEE Transactions on Neural
Networks, 16(3) :645678, 2005.
[YB97] M. Yacoub and Y. Bennani. Hvs : A heuristics for variables selection in multilayer neural
network classifiers. In C. H. Dagli, M. Akay, C. L. Chen, B. R. Fernandez, and J. Ghosh, edi-
tors, ANNIE97, volume 7, pages 527532, St. Louis, Missouri, USA, 1997. ASME Press.
[You04] Genane Youness. Contributions une mthodologie de comparaison de partitions. PhD
thesis, Universit Paris 6, July 2004.
[Zan05] Jean-Marc Zanimetti. Statisque spatiale, mthodes et applications gomatiques. Herms
Sciences Publications, Lavoisier, Paris, 2005.
[ZB04a] Farida Zehraoui and Youns Bennani. M-SOM-ART : Growing Self Organizing Map for
Sequences Clustering and Classification. In Ramon Lpez de Mntaras and Lorenza Saitta,
editors, ECAI, pages 564570. IOS Press, 2004.
[ZB04b] Farida Zehraoui and Youns Bennani. M-SOM : Matricial Self Organizing Map for se-
quences clustering and classification. In Proceeding of the International Joint Conference
on Neural Network, IJCNN04, Budapest, Hungary, July 2004.
PARTIE V
Annexes
-SOM : Weighting features during clustering
Sebastien Guerif, Younes Bennani
LIPN - CNRS - University of Paris 13
Villetaneuse. France
{sebastien.guerif, younes.bennani}@lipn.univ-paris13.fr
Eric Janvier
Numsight Consulting France
Boulogne Billancourt. France
e.janvier@numsight.com
Abstract - Real life datasets used in marketing studies contain a lot of redundant features
which may prevent data-mining techniques such as self-organizing maps from discovering
relevant clusters. An extension of the batch Kohonens algorithm is proposed in this paper
to avoid the large amount of work which is required by data preprocessing if redundancy isnt
treated explicitly by the training method. The proposed approach integrates a weighting of
variables built on a simultaneous clustering of both observations and variables and avoids the
side effects of redundancy. An application to market segmentation is then briefly described to
validate the learning algorithm introduced; identified clusters of products and motivations are
used to simplify the analysis of the consumer segmentation by giving the user a first rough
description of the different groups.
1 Introduction
In real life application, data-mining techniques are applied to datasets which contain numer-
ous redundant features. On the one hand, strong correlations between variables may be useful
to deal with missing values [2] or to detect outliers. On the other hand, clustering algorithms
built on Euclidean distance may be prevented from discovering correct clusters if data are
not preprocessed. Intuitively, redundancy gives more importance to some information which
are represented by many features and may occult others that are less present. In the worst
case, some irrelevant informations would be expressed by many dimensions and some rele-
vant knowledge by very few variables; this extreme situation may lead to a less interesting
clustering of the data. To address this problem, different ways are proposed, in which three
categories can be distinguished: selection of variables, extraction of features or weighting of
features [1].
Some methods for unsupervised selection of variables using similarity of features have been
proposed in [7, 8]. It is well known that Euclidean distance can be approximated when few
dimensions compared with the data dimension are missing, but then eliminating some fea-
WSOM 2005, Paris
tures makes it harder to treat correctly missing values. Principal component analysis (PCA)
[6, 9] and factor analysis [13] address efficiently this problem by reducing the attribute space
from a large number of variables to a smaller number of orthogonal factors which preserve the
maximum of variance. However, they require an important effort from the user to interpret
and understand the new representation of ones data. Moreover, these techniques are built
on the correlation matrix computation which requires the whole data to be known, and the
computation of its eigenvalues and associated eigenvector which may suffer from numerical
instabilities. The Mahalanobis distance has been introduced to take care of correlations be-
tween dimensions but suffers from the same numerical instabilities as PCA or factor analysis,
because it requires the computation of the correlation matrix inverse.
The proposed approach is built on a simultaneous clustering of both observations and vari-
ables using self-organizing maps [4] which are well known for their ability to make good
representation of data in large dimension. A weighting mechanism which decrease the weight
of redundant features has been integrated to the learning algorithm.
The remainder of this paper is organized as follows. Section 2 presents the new algorithm
designed to reduce redundancy side effects during the construction of self-organizing maps.
Section 3 discusses obtained results and application of our approach to market segmentation
while section 4 concludes the paper.
The map of observations is first roughly trained to organize neurons according to topological
ordering. Then profiles of features are extracted and used to roughtly train the map of
variables. Finally, fine tuning epoches of both maps are alternated and weighting is computed
after each update of the map of features.
1. Each unit i U (attr) receives a potential weight to share between the different features
that is computed using Geary local spatial auto-correlation index [3, 5]:
1 P 2
2.Li (t) jU (attr) cij (t) .ki (t) j (t) k
Gi (t) = 1 P 2
m(attr) 1 jU (attr) ki (t) j (t) k
P
where Li (t) = jU (attr) cij (t). cij (t) {1, 0} indicates whether units i and j are
(attr) (i, j) < 1 , where d(attr) (i, j) is the distance
neighbors or not. Typically, cij (t) = d
between units i U (attr) and j U (attr) on the map of features.
2. Then, each variables i F asks each units j U (attr) in the neighborhood of its best
2 !
(attr) i,j
(j) d ( )
matching units i for a part of its potential weight : parti (t) = exp 12 (t)
The Geary local spatial auto-correlation index has been chosen for its ability to measure the
similarity of a unit and its neighbors compared to the global variance of units prototype.
Indeed, areas of the map which represent highly similar features have a lower potential weight
than areas with high distortion. It has been noticed that units on the border of the map are
slightly penalized because they have less neighbors than the other, leading to a lower local
variance is for units in the middle of the map.
It must be pointed out that the set of features F can be replaced by any of its subsets;
actually the proposed approach is ready to deal with missing values.
3. For each cluster i, compute the mean posi = meanjF (posij ) and standard deviation
posi = stdjF (posij ) of the normalized means posij .
4. For each cluster i, select all dimensions j such posi j posi + posi
The figure 2 presents both the distributions of consumers over the map and the different
identified groups. Then the whole classes of features are presented figure 5 and a zoom on
WSOM 2005, Paris
two diferent areas is proposed figure 3 and 4. Finally, figure 6 shows the distribution of
features weights.
Acknowledgement
We would like to thank Mark Kerslake from Numsight Consulting France for our discussion
about the relevance of revealed classes of both products and consumers, his review and english
correction.
References
[1] Y. Bennani (1999), Adaptive weighting of pattern features during learning, International
Joint Conference on Neural Networks, IJCNN99, vol. 5, p. 3008-3013.
[3] R. C. Geary (1954), The contiguity ratio and statistical mapping, The Incorporated
Statistician, p. 115-145.
[7] P. Mitra, C.A. Murthy and Sankar K. Pal (2002), Unsupervised Feature Selection Using
Feature Similarity, IEEE Transactions on Pattern Analysis and Machine Intelligence,
vol. 24-3, p. 301-312.
[8] Sankar K. Pal, Rajat K. De and J. Basak (2000), Unsupervised Feature Evaluation: A
Neuro-Fuzzy Approach, IEEE Transactions on Neural Networks, vol. 11-2, p. 366-376.
[9] G. Saporta (1990), Probabilites, analyse de donnees et statistiques, Paris, Editions Tech-
nip.
[11] J. Vesanto and J. Ahola (1999), Hunting for Correlations in Data Using the Self-
Organizing Map, In Proceeding of the International ICSC Congress on Computational
Intelligence Methods and Applications (CIMA99), ICSC Academic Press, p. 279-285.
[12] J. Vesanto and E. Alhoniemi (2000), Clustering of the Self-Organizing Map, In IEEE
Transactions on Neural Networks, vol. 11-3 p. 586-600.
[13] N. Wu and J. Zhang (2005), Factor-analysis based anomaly detection and clustering,
Decision Support Systems, to appear.
Connectionist and Ethological Approaches for Discovering Salient Facial
Movements Features in Human Gender Recognition
Claude Baudoin
University of Paris 13, CNRS UMR 7153 - LEEC, F-93430 Villetaneuse
claude.baudoin@leec.univ-paris13.fr
Abstract. Individual Facial movements signal uation with young adult subjects confronted to a
various social information to other persons, like cognitive task without direct interacting partners
the gender of the sender. We used an ethological but with a female experimenter welcoming them
and a connectionist approaches in order to detect before testing and video recording their behaviour
these movements and their characteristics in men from a contiguous room. This situation was not
and in women. Behavioural results indicate both social but the context was social. Our aims were
qualitative and quantitative differences between (i) to constitute a database allowing further com-
men and women. The connectionist approach in- parisons between men and women, (ii) to code fa-
volves similar and complementary conclusions. cial movements using an objective method, (iii) to
The ethological study has been focused on the detect and to characterize the temporal organiza-
main movement differences as well as did the con- tion of the facial movements, (iv) to use the same
nectionist one but this last approach showed im- data base for studying salient facial features with
portant differences between men and women in a connectionist approach, (v) to compare emerg-
motionless events. These pilot results leads to a ing results from ethological and connectionist ap-
re-examination of behavioural events and a check- proaches.
ing of lateralization of movements correlated with The rest of this paper is organized as follows.
the gender. After, a brief presentation of the protocol used to
collect the data, we present both ethological and
Keywords. Facial movements, gender recog- connectionist approaches. Then, experiments and
nition, unsupervised learning, clustering, self- results are presented and discussed. Finally, we
organizing maps conclude and we give some point that will we de-
veloped in further research.
1. Introduction
Social life in human groups involves constant reg- 2. Collection of data base
ulatory processes like social categorization of in-
teracting partners. One type of social category Our purpose was to obtain a video recording from
among the most obvious is the gender. Various women and men in a standardized situation that
body parts are used in signaling gender and the permits expression of various facial movements:
face is an important area as it has been demon- labial movement related to verbal answer, emo-
strated in previous studies [2, 3, 4]. Several au- tional reaction, etc. The experimental situation
thors showed the role of facial movements in gen- was a cognitive task realized in an indirect social
der categorization [9, 13]. Curiously only few context (reception followed by task instructions,
studies concern the production of facial move- filmed by a video camera operated by a female ex-
ments and their temporal organization [1, 8, 14]. perimenter in the next room).
Moreover the use of complex experimental sys- A total of 20 students (11 women and 9 men)
tems for facial recording induces unnatural situ- from the University of Paris XIII volunteered to
ations. Our study concerns an experimental sit- participate in the study. All were naive to the true
WK,QW&RQI,QIRUPDWLRQ7HFKQRORJ\,QWHUIDFHV,7,-XQH&DYWDW&URDWLD
purpose of the study and were not paid for their ments was studied comparatively between men
participation. and women. Then we detected how distance vari-
Subjects were received by an experimenter and ations from origin of the 36 facial points occurred
then left alone in a room where they followed in- during the 3 seconds periods for men and for
structions given by a laptop screen. The task con- women using the Magnussons THEME 5.0 soft-
sisted in looking at pictures and saying whether it ware (http://www.noldus.com). This software al-
was ambiguous/normal or not. No time limit had lowed to detect T-patterns of facial movements,
been imposed and the experiments lasted between which are defined as repetitive real time organized
1.5 and 4.5 minutes (mean duration was 2.75 min- behavioural structures [11]. Only some results are
utes). Some subjects were set aside because of presented below.
particular situations (important movements of the We observed a higher mean number of move-
body or the head, wearing glasses or a beard, etc.) ments produced per 3 seconds period by men com-
Only 5 subjects of each gender were selected for paratively to women (n = 86 vs. 69, p < .05, exact
the remaining part of the study. permutation test) as well as a tendency to present a
With a view to standardizing the database we higher number of T-patterns in men (on a basis of
chose 3 sequences of 3 seconds centred on an easy 100 movements, men produced 66 T-patterns vs.
to locate verbal answer from the subjects. Thus 3 46 in women, p = .055, exact permutation test).
sequences with a similar context are available per T-patterns involved on average 4 different facial
subject. We defined 36 face points involved in the points in men and 3 in women (p = .079). More-
facial movements that were easy to identify [8,14]. over we discovered qualitative differences in the
Figure 1 indicates the positions of the face points T-pattern composition linked to gender: men pro-
considered. duced simple patterns involving temporal left eye-
brow and left nostril, and women produced simple
patterns involving internal and median parts of the
right eyebrow.
Our pilot results indicated that man and woman
facial movements were quantitatively and, at least
for some of them, qualitatively different during a
cognitive task performed in a social context.
4. Connectionist approach
Figure 1: Position of the face points Two different approaches are available to exploit
our dataset: classification and clustering. The first
The sequences were sampled at 13 images per one falls into supervised learning and builds a clas-
second, and an operator recorded the 36 face sifier. The latter approach detects groups of sim-
points coordinates. This selection was repeated at ilar observations, called clusters. Our purpose is
least twice and the mean position was retained to to determine whether the intrinsic structure of the
reduce errors due to tiredness of the operator. The data space is related to the gender of subjects or
coordinates of the points were relative to the sub- not. So, our interest has been focused on unsu-
jects face. Actually, the x axis is the line between pervised learning approaches and Self-Organizing
points 3 and 4, and the y axis the orthogonal line Maps (SOM) [10] were chosen to carry out our
crossing through point 20. analysis. On one hand, SOM provides a conve-
nient way to visualize the structure of our data
3. Ethological approach [15]. On the other hand, the different clusters can
be labeled according the gender of grouped ob-
For a given facial point (fig. 1), a salient move- servations and then be used as a classifier whose
ment was defined as the distance from origin evaluation may give us some interesting informa-
which was higher than the mean distance calcu- tion. First SOM are briefly introduced, then our
lated during a 3 seconds period (39 images) ma- methodology is explained and finally, the experi-
jored by the standard error. The number of move- mental results obtained using the Matlab somtool-
box [16] are given and discussed. minimized is defined by:
1 N M 2
4.1. Connectionist model : Self- (k)
Organizing Maps RSOM = jNN(x ) j
N k=1
h (k) x (1)
j=1
SOM was introduced by Pr. Teuvo Kohonen in
N represents the number of learning samples, M
the early 80s as a convenient clustering and vi-
the number of neurons in the map, NN(x(k) is
sualization tool. High-dimensional data are pro-
the neuron having the closest referent to the input
jected on a low dimension discrete space, called
form x(k) , and h the neighbourhood function.
the topological map, preserving the local topology
The weights of all the neurons are updated until
of the initial space; thus, the observations which
stabilization according to the following adaptation
are close to each other are projected on a localized
rules: If j VNN(x(k) ) then adjust the weights us-
area. A map should be viewed as a set of neu-
ing:
rons (or units), organized according to a grid that
defines their neighbourhood relationships. Each j (t + 1) = j (t) (t)h jNN(x(k) ) j x(k) (2)
neuron is associated to one point of the observa-
tions space: its profile.
Self-Organizing Maps (SOM) implement a 4.3. Labelling the map
particular form of competitive artificial neural net- Training of the self-organizing map is totally unsu-
works; when an observation is recognized, acti- pervised; and actually, it does not make use of the
vation of an output cell competition layer leads data labels (namely female or male). Therefore, at
to inhibit activation of other neurons and reinforce the end of the training phase we only had a topo-
itself. It is said that it follows the so called Win- logical map based on the transformed coordinate
ner Takes All rule. Actually, neurons are special- data without any additional information. Never-
ized in the recognition of one kind of observations. theless, it should be emphasized that the map de-
The learning is unsupervised because neither the fined a partition of the dataset which can be used
classes nor their number is fixed a priori. to assign each neuron a label. Actually, each neu-
A SOM consists in a two dimensional layer of ron is labelled using the most represented gen-
neurons which are connected to n inputs according der associated with that neuron. As such, the la-
n exciting connections of respective weights w and belling is very sensitive to small changes in gender
to their neighbors with inhibiting links. distribution. Therefore, to increase robustness of
The training set is used to organize these maps the labelling, a chi-square test was used to check
under topological constraints of the input space. whether the distribution of that part is significantly
Thus, a mapping between the input space and the different from that of the whole dataset. There-
network space is constructed; closed observations with, it should be emphasized that some neurons
in the input space would activate two closed units remained unlabeled.
of the SOM.
An optimal spatial organization is determined 4.4. SOM segmentation
by the SOM from the received information, and
when the dimension of the input space is lower We segment the SOM using the K-means algo-
than three, both position of weights vectors and rithm. It is another clustering method. It consists
direct neighbourhood relations between cells can in choosing arbitrarily a partition. Then, the sam-
be represented visually. ples are treated one by one. If one of them be-
comes closer to the center of another class, it is
4.2. Learning algorithm moved into this new class. We calculate the cen-
ters of new classes and we reallocate the samples
Connectionist learning is often presented as a min- to the partitions. We repeat this procedure until
imization of a risk function (cost function). In our having a stable partition.
case, it will be carried out by the minimization The criterion to be minimized in this case, is
of the distance between the input samples and the defined by:
map prototypes (referents), weighted by a neigh-
bourhood function hi j . To do that, we use a gradi- 1 C
ent algorithm for optimization. The criterion to be
RKmeans = x ck 2
C k=1
(3)
xQk
where C represents the number of clusters, Qk is 5. Data pre-processing
the cluster k, ck is the center of the cluster Qk or
the referent. Analysis was focused on facial motion; therefore,
The basic algorithm requires fixing K, the num- the gradients of the coordinate points were com-
ber of clusters wished. However, there is an algo- puted. Then, to eliminate the structural cue to
rithm to calculate the best value for K assuring an individuals with a larger face who have a longer
optimal clustering. It is based principally on the shift, the gradients were normalized. Thereafter,
minimization of Davies-Bouldin index, defined as sequences of movements were resampled using a
follows : sliding window to improve robustness to the time
lag of the selected video recording. Nevertheless,
1 C Sc (Qk ) + Sc (Ql ) it introduced an additional parameter that had to be
IDB = maxk=l (4)
C k=1 dce (Qk , Ql ) chosen carefully, namely the width of the tempo-
ral window. The observations then had too many
where Sc (Qk ) = i x|Qi c
k|
k
is the intracluster disper- dimensions to be used. So, the dynamic covari-
sion of cluster Qk and dce (Qk , Ql ) = ck cl is ance matrix of each sub-sequence was computed
the distance (centroid linkage) between the center according the following expression [18, 19]:
of clusters k and l. This clustering procedure aims
T
to find internally compact spherical clusters which x(1) xT(1) + W
i=2 x(i) x(i) x(i) x(i)
are widely separated. d = (6)
W
There are several methods to segment the
SOMs [17]. Usually, they are based on the vi- with x(i) = 1i ij=1 x( j) . Thus, the dimension of
sual observations and the manual assignment of the data only depends only on the number of face
the map cells to the clusters. Several methods points considered.
use the K-means algorithm with given ranges for
K value. Our work is based on the approach of 6. Experiments and results
Davies-Bouldin index minimization [5].
Our objective was to verify whether facial move-
4.5. Statistical measure for cluster char- ments are related to the subject gender or not.
acterization Thus, it appeared relevant to select the parame-
In the sequel, the word cluster refers to a group ter value that involved the best separation between
of neurons that share the same label and which the two classes. A cross-validation was adopted to
define a contiguous area on the map. The test- evaluate values from 1 to 38 and each evaluation
value, proposed in [12] was used to identify di- was repeated 5 times. The SOM that were trained
mensions that were relevant for each cluster. Intu- with the dynamic covariance matrices from nine of
itively, it indicates how different a cluster is from the ten subjects was labelled. Then, the labelling
the whole population according to the feature con- of the map was evaluated by comparing the label
sidered. Thus, the more different is the feature from the remaining data with their best matching
from the whole population the more relevant it is unit label.
to describe that cluster. It is defined by
Classification performance of labelled SOM in ROC space
(z zk )
Sensibility (correct classification rate of male subjects)
tk = (5)
k 0.8
W=33
because the algorithm that uses the data is taken into ac-
count. First, a Self-Organizing Maps (SOM), trained using
the original data sets, is clustered using k-means and the 5
1
KEY WORDS
5 0 5 1 0.5 0 0.5 1
Clustering, feature selection, self-organizing maps, model
selection
Figure 1. The feature variance is not always a relevant
pertinence measure; actually, in this example, whereas
1 Introduction 2 (X) = 1.03 and 2 (Y ) = 0.25, the best separation is
provided by the Y axis.
During the last decade, it became obvious that adapted
tools are needed to exploit more and more huge companies
databases. Actually, databases contain important hidden had been widely studied in the context of supervised learn-
knowledge and the matter of data mining is to emphasize ing, it gains researchers interest more recently in the con-
it. The curse of dimensionality problem states that the num- text of unsupervised learning. In the context of supervised
ber of needed examples for training grows exponentionnaly learning, feature selection is driven by the main purpose :
with the dimensionality of the data. That way, whereas achieve better accuracy on unseen data. Nevertheless, in
Knowledge Discovery from Database (KDD) is only pos- the unsupervised learning framework, the issue is very dif-
sible because of the data redundancy, too many redundant ferent because neither the data labels nor their number are
features stand in the way of the nuggets discovery. This is- available. Therefore, the notion of feature relevance is not
sue can be addressed by one of the two main approaches, as obvious the latter context as in the former context. Any-
namely, features extraction or feature selection. way, selection of a relevant features subset remains a cru-
The former presents a major drawback, actually, an impor- cial stake for the data-mining techniques. In this paper, we
tant effort from the user is required to interpret and under- propose an original method to find both the right number
stand the new representation his data. Among the tech- of clusters and the respective subset of features. Our ap-
niques of this category, the most widely used are proba- proach is based on both the Davies-Bouldin index [4, 5]
bly Principal Component Analysis (PCA) [1, 2] which suf- and the Test Values [6]. It is assumed that features that
fers from numerical instabilities whenever the correlation does not participate in the structure identified are irrelevant
of the data is ill-conditionned. Moreover, this methods as- and should be thrusted away from the subset of features se-
sume that the most relevant dimensions are those with the lected.
The rest of this paper is organized as follows. The two- mized is defined by:
levels clustering approache used is presented in section 2. 1 X X
Then, the feature selection method proposed is presented RSOM = hbi j . kj xi k2 (1)
N
in section 3. Finally, some experimental results are given xi jU
befor to conclude. where bi is the Best Matching Unit (BMU) of the sample
point xi and is defined as the unit with the closest
prototype:
2 Method 2
bi = arg min{kj xi k }
jU
2.1 Self-Organizing Maps
In our experiments, we use the gaussian neighbor-
hood function h defined
SOM was introduced by Pr. Teuvo Kohonen in the early 2
80s as a convenient clustering and visualization tool. d (i, j)
hij = exp
High-dimensional data are projected on a low dimension 2. 2 (t)
discrete space, called the topological map, preserving the where d (i, j) is the distance between units i and j on the
local topology of the initial space; thus, the observations map and (t) is a decreasing function that defines the size
which are close to each other are projected on a localized of the neighborhood considered at step t.
area. A map should be viewed as a set of neurons (or units), Two main approaches can be used to optimize the crite-
organized according to a grid that defines their neighbour- rion mentionned above, namely the on-line algorithm and
hood relationships. Each neuron is associated to one point the batch algorithm. Whereas the latter suffers from sev-
of the observations space: its prototype. eral drawbacks [7], it provides faster convergence. So we
Self-Organizing Maps (SOM) implement a particular form choose the batch Kohonens algorithm [8] because our ap-
of competitive artificial neural networks; when an observa- proach necessitates several running of the learning of the
tion is recognized, activation of an output cell competition learning algorithm. The weights of all the neurons are up-
layer leads to inhibit activation of other neurons and re- dated until stabilization according to the following adapta-
inforce itself. It is said that it follows the so called Win- tion rules:
ner Takes All rule. Actually, neurons are specialized in the P
hb j xi
recognition of one kind of observations. The learning is un- j (t + 1) = Pi i (2)
supervised because neither the classes nor their number is i hbi j
fixed a priori. A SOM consists in a two dimensional layer
of neurons which are connected to the inputs with exciting 2.3 SOM segmentation
connections and to their neighbors with inhibiting links.
The training set is used to organize these maps under topo- Whereas both agglomerative and partitive clustering algo-
logical constraints of the input space. Thus, a mapping be- rithm have been successfully applied to the segmentation
tween the input space and the network space is constructed; of SOM [9], several specific approaches have been pro-
closed observations in the input space would activate two posed to take into account the topological ordering of the
closed units of the SOM. An optimal spatial organization is unit maps. They rely on either the contiguity study [10] or
determined by the SOM from the received information, and the U-matrix (the matrix of distances between adjacent map
when the dimension of the input space is lower than three, units) [11, 12, 13]. We adopted the kmeans based approach
both position of weights vectors and direct neighbourhood proposed by J. Vesanto [9]. Although the number of clus-
relations between cells can be represented visually. ters is needed to run the kmeans algorithm, it is not known
in the unsupervised learning framework. So several values
should be tried and the best one according to the Davies-
2.2 Learning algorithms Bouldin index [4] is selected. Assuming that C, Sc (k) and
dce (k, l) respectively refers to the number of clusters, the
mean quantization error in cluster k and the distance be-
For convenience, let us mention some notations : let N be
tween the centers of clusters k and l, the Davies-Bouldin
the number of sample points in the data set , n be the
index is defined by
number of features in the original feature set F , r be the
number of features in the reduced feature set FR , M be the C
1 X (Sc (k) + Sc (l))
size of the map units set U and j be the prototype of the IDB = max
C l6=k dce (k, l)
j th unit. k=1
Connectionist learning is often presented as a minimiza- It should be noticed that the kmeans algorithm is a special
tion of a risk function (cost function). In our case, it will be case of the SOM training algorithm when no neighborhood
carried out by the minimization of the distance between the constraints are imposed to the center. In other words, the
input samples and the map prototypes (referents), weighted neighborhood function hbi j is replaced by the chronecker
by a neighbourhood function hij . The criterion to be mini- symbol bi j .
3 Feature Selection 3.2 Search procedure
Feature Selection necessitates three essential elements To find an optimal solution requires either an exhaustive
[14]: search or the monotonicity of the pertinence measure. On
A pertinence measure the ones hand, the former involves the pertinence evalua-
tion of 2n subsets where n is the number of features and it
A search procedure becomes infeasible since n is large. On the other hand, the
A stop criterion latter is difficult to insure. We propose a Backward Elimi-
nation procedure that takes into account both the individual
and the collective pertinence measures defined in the pre-
3.1 Pertinence measure vious section. It begins with the whole features set and
progressively eliminates the less interesting features. The
Whereas in the supervised learning case, a pertinence mea-
individual measure guides the selection and the collective
sure can be easily defines using the performance of the
pertinence insures that the removing of the feature candi-
model in the task it has been designed to, in the unsuper-
date do not alter the quality of the model. The threshold
vised learning framework, it is not possible anymore.
in the algorithm 1 is used to balance the relative importance
So we have to define new criteria. We propose to use two
of the two pertinence measures.
different feature evaluation criteria : an individual criteria,
Rindividual (j), to guide the search procedure and a collec-
tive criteria, Rcollective (j), to take the mutual relevance of Algorithm 1 Feature Selection Procedure
features. FR F
We propose to select features that involve a good cluster- while (stopping criterion) do
ing; thus, the SOM is segmented using the method pre- Build a model.
sented above and the test-values [6] of each feature accord- Evaluate individual relevance Rindividual (j)
ing each cluster are computed. Therefore, the maximum of Sort features according ascending individual rele-
absolute test values along the the different clusters is used vance ordering
as an individual relevance measure. The first individual rel- f ound f alse
evance criteria is defined by while (f ound) do
kj j Evaluate the collective criterion Rcollective (j) of
Rindividual (j) = max (3) the less relevant feature according individual crite-
k=1,...,C kj rion
where C, j , kj and kj are respectively the number of if (Rcollective (j) ) then
clusters, the mean values of the feature j in the whole data f ound true
set and in the cluster k, and the standard deviation of feature R R \ {j}
j in the cluster k. end if
Then, whenever the removing of a feature involves an in- end while
creasing of the IDB , we consider that it is relevant accord- if (f ound) then
ing the current clustering. Thus, we define the collective j arg minkR {Rcollective (k)}
relevance of a feature as the increasing of the IDB involved R R \ {j}
by its removing : end if
end while
Rcollective (j) = IDB IDB |FR \{j} (4)
where IDB |FR \{j} is the Davies-Bouldin index evaluated
without taking in account the feature j.
Whereas these criteria have been successfully apply to sev-
eral data set from UCI [15], they present some drawbacks.
3.3 Stop criterion
On the one hand, they rely on the kmeans algorithm which
is well known for its strong dependance with the initial We use the statistic criterion proposed by T. Cibas [16] to
centers. So, to insure the reliability of the result several evaluate whether a feature subset gives any additionnal in-
running of the algorithm have to be done at each step of formation according another one. Therefore, the backward
the feature selection procedure and for each possible num- elimination procedure is stopped since the removing of the
ber of clusters. On the other hand, when many features are feature selected involves a loss of information.
noisy or irrelevant, they may prevent kmeans algorithm and Assuming that F , the set of features, and F \ FR , the re-
Davies-Bouldin to identified the right clusters; therefore moved features subset, are distributed according a gaussian
the feature selection procedure might fail. Two other cri- law
teria which avoid the additional computational cost due to N ((k) , ) : k = 1, . . . , C
the map segmentation and the possible weak of robustness
of the above criteria are presented in the next paragraph. where (k) , the mean of the features from F in the cluster
k, and , the covariance matrices, are defined as follows the null hypothesis (5) is true if and if only features from
FR involve the same separability as the whole features set
11 12
(k) (k) F . Then, the Wilks statistic is equivalent to the Fisher-
(k) = 1 , 2 , =
21 22 Snedecor one :
where 1 and 2 as index respectively stand for FR and (N C r) 1 K
F \ FR . Then, the null hypothesis which says that F \ FR Fs =
(C 1) K
does not give any additionnal information than FR is ex-
pressed as follows : which is distributed according F (C 1, N C r)
(k) (h) (k) (h)
H0 : 2 2 21 1 11 1 1 =0 (5)
4 Experiments and results
with k 6= h = 1, . . . , C.
A test of this hypothesis is based on Wilks statistics. Let B The method presented above has been apply to several
and W be respectively the between and the within covari- commonly used UCI machine learning data sets [15].
ance matrices : Whereas the data labels haventt been used during the
C
learning stage, they can be used for evaluation purpose;
T
actually, the ability of our approach to identified the true
X
B = N (k) (k) (k)
k=1
clusters can be measured using the following criterion :
(k)
C N
X X (k)
(k)
T the number of identified clusters refered by CT
W = xi (k) xi (k)
k=1 i=1
the couple error which measures how far the discov-
(k)
where N is the number of elements in the cluster k and ered partition is from
P the true classes and is defined
is the mean of the features from F for the whole sam- by EC = N (N21) (i,j){1,...,N }2 , i<j ij where ij
ple. Then, the same block decomposition as for can be is null when samples points i and j are either grouped
applied to the matrices B, W and their sum T : or separated in both true and discovered partitions.
the Purity P
of clusters in term of known classes
B11 B12
B = PR = N1 k=1
CT
maxMk where M is the confusion
B21 B22
matrix.
W11 W12
W =
W21 W22
In our experiments, we used the batch Kohonens algorithm
T11 T12 and the fast global k-means algorithm [17] which are both
T = B+W =
T21 T22 deterministic. For each of the data sets considered, we run
five 10-folds validation and we summarized the results ob-
Therefore, the determinants of the matrices W and T can tained in Table 1. Then, the figure 4 shows the evolution of
be written the Davie-Bouldin index during the feature selection pro-
1
cess. The last model index value can be considered as an
|W | = |W11 | W22 W21 W11 W12
outlier, therefore, the best model according to the Davies-
|T | = |T11 | T22 T21 T 1 T12
11 Bouldin index is obtained when five features have been re-
moved. Nevertheless, our stop criterion indicates that the
Thus, we denote model with eleven removed features should be retained.
W22 W21 W 1 W12
11
K=
T22 T21 T 1 T12
11 5 Conclusion
which has (N(C1)
Cr)
degrees of freedom. With the above A new approach to select both the number of clusters and
notations, the Wilks statistics for n variables are : the related features subset has been proposed in an unsuper-
vised learning framework. Whereas the preliminary results
|W | are encourageous, the stop criterion proposed can not al-
F =
|T | ways be uses. For instance, it requires that N c p,
|W11 | where N , c and p are respectively the number of map units,
= K.
|T11 | the number of identified clusters and the total number of
= K.FR features, to insure that the within covariance matrix W is
not singular. Research work are on the way to enhance the
which shows that, with a small value of K, the clusters proposed method to data sets with more features than ob-
separability is larger with n than r features. Therefore, servations.
Training set Testing set
CT [CT ] nF S [nF S ] EC [ EC ] PR [ PR ] EC [ EC ] PR [ PR ]
Glass F 7.04 [0.73] 9.0 [ ] 0.301 [0.012] 56.25 [ 2.56 ] 0.295 [0.068] 67.52 [ 9.01 ]
189 - 21 FR 5.10 [1.83] 2.84 [ 1.46 ] 0.376 [0.082] 50.83 [ 6.54 ] 0.382 [0.121] 58.38 [10.40]
Wine F 6.86 [0.81] 13.0 [ ] 0.171 [0.022] 93.59 [ 1.97 ] 0.165 [0.064] 95.28 [ 5.11 ]
189 - 21 FR 5.70 [2.34] 6.3 [ 2.1 ] 0.247 [0.060] 80.32 [12.02] 0.239 [0.096] 83.44 [13.78]
Cancer F 9.72 [0.67] 30.0 [ ] 0.414 [0.014] 93.83 [ 1.56 ] 0.417 [0.026] 94.16 [ 3.03 ]
242 - 27 FR 2.72 [1.96] 12.4 [ 3.3 ] 0.182 [0.077] 91.53 [ 1.04 ] 0.184 [0.091] 91.60 [ 3.49 ]
Wave F 6.18 [2.56] 40.0 [ ] 0.304 [0.016] 68.64 [ 8.48 ] 0.309 [0.014] 66.17 [ 7.82 ]
500 - 4500 FR 4.82 [1.55] 28.2 [ 9.56 ] 0.304 [0.020] 66.93 [ 6.62 ] 0.306 [0.018] 65.97 [ 6.68 ]
Table 1. The two numbers under the data set name indicates the size of the training and testing sets respectively. Then F and
FR stands for the whole features set and the reduced subset selected.
0.7
0.65
0.622
0.610
0.6 0.604
DBindex
0.58
0.582
0.577
0.55
0.5
0.45
0.4
0 5 10 15 20 25 30 35
number of removed features
Figure 2. Evolution of the Davies-Bouldin index during the backward features elimination procedure : the vertical dash line
indicates the model retained by our stop criterion and some of the best index values are indicated too.
References [14] D. Cakmakov and Y. Bennani. Feature Selection for
Pattern Recognition. Informa, Skopje, Macedonia,
[1] L. Lebart, A. Morineau, and M. Piron. Statistique 2002.
exploratoire multidimensionnelle. Editions Dunod,
1995. [15] C.L. Blake D.J. Newman, S. Hettich and C.J. Merz.
UCI repository of machine learning databases, 1998.
[2] G. Saporta. Probabilites, analyse des donnees et
statistique. Editions Technip, Paris, France, 1990. [16] T. Cibas. Controle de la complexite dans les reseaux
de neurones : regularisation et selection de car-
[3] S. K. Pal, R. K. De, and J. Basak. Unsupervised acteristiques. PhD thesis, University of Paris XI Or-
feature evaluation: A neuro-fuzzy approach. IEEE say, Paris, France, December 1996.
Transactions on Neural Networks, 11(2):366376,
2000. [17] J. J. Verbeek. Mixture Models for Clustering and Di-
mension Reduction. PhD thesis, University of Am-
[4] D. Davies and D. Bouldin. A cluster separation mea- sterdam, Amsterdam, The Netherlands, December
sure. IEEE Transactions on Pattern Recognition and 2004.
Machine Intelligence, 1(2):224227, 1979.