You are on page 1of 148

U NIVERSIT PARIS 13

T HSE

Prsente par

Sbastien G URIF

pour obtenir le titre de

Docteur de lUniversit Paris 13

Spcialit : Informatique

Rduction de dimension en Apprentissage


Numrique Non Supervis

Soutenue publiquement le 11 dcembre 2006


devant le jury compos de

Directeur : Pr. Youns B ENNANI, LIPN, Universit Paris 13


Rapporteurs : Pr. Cyrille B ERTELLE LITIS, Universit du Havre
Pr. Gilles V ENTURINI LIUT, Ecole Polytechnique de lUniversit de Tours
Examinateurs : Pr. Pascale K UNTZ LINA, Ecole Polytechnique de Nantes
Pr. Magnus S. M AGNUSSON HBL, University of Iceland
Pr. Jean-Daniel Z UCKER LIM&Bio, Universit Paris 13
Invit : M. Emmanuel E COSSE INSERM, Paris
M. Eric JANVIER Numsight, Boulogne Billancourt
R DUCTION DE DIMENSION EN A PPRENTISSAGE N UMRIQUE
N ON S UPERVIS

Dimension Reduction for Unsupervised Numerical Learning

Sbastien G URIF

favet neptunus eunti

Universit de Paris Nord


Sbastien G URIF
Rduction de dimension en Apprentissage Numrique Non Supervis
xii+116 p.
Remerciements
Jadresse toute ma reconnaissance Youns Bennani qui ma permis de raliser cette thse pour sa
disponibilit, ses encouragements, ses conseils et sa confiance.
Je remercie Claude Baudoin, professeur lUniversit Paris 13, pour sa disponibilit, ses encourage-
ments et nos changes toujours trs enrichissants.
Jadresse mes sincres remerciements Monsieur Cyrille Bertelle, professeur lUniversit du
Havre, et Monsieur Gilles Venturini, professeur lUniversit de Tours, qui ont accept dvaluer ce
travail.
Je remercie galement Pascale Kuntz, professeur lUniversit de Nantes, Magnus Magnusson, pro-
fesseur lUniversit dIslande, et Jean-Daniel Zucker, professeur lUniversit Paris 13, davoir accept
de participer mon jury de thse.
Je tiens consacrer quelques lignes aux personnes sans qui cette aventure naurait vraisemblement
jamais commenc : Mohamed Quafafou, qui avait accept dencadrer mon mmoire de matrise et qui
ma fait connatre lUniversit Paris 13, Daniel Kayser et Henry Soldano pour leur soutien lorsque cette
thse ntait encore quun projet lointain.
Jadresse ma gratitude la socit Numsight qui a financ la deuxime moiti de ce travail, et mes
remerciements mes anciens collgues : Eric Janvier, Marc Kerslake, Thierry Couronne, Emmanuel
Ecosse et tous les autres qui sont trop nombreux pour tre tous cits.
La ralisation dune thse sappuie aussi sur un environnement qui est essentiel et qui va au-del des
murs de notre laboratoire ; je tiens remercier tous les membres de notre laboratoire, mais galement
Colette et Daniel du service de reprographie, Faiza pour ces encourageants quotidiens. Je consacre une
mention particulire Hakima et Anass pour leur soutien un moment o jen avais grand besoin,
Sophie pour sa compagnie nocturne et dominicale, Cline et Dominique pour ces nombreuses pauses
caf qui sont toujours loccasion dchanges tant personnels que scientifiques et Franoise, Touria et
Antoine pour avoir accept de partager leur bureau avec lhorrible bavard que je suis.
Last but not least, je remercie ma famille et mes amis pour leur soutien et leurs encourageants.
Trop nombreux sont ceux que je nai pu nomms, quils trouvent ici lexpression de ma gratitude.
Rsum
La classification automatique - clustering - est une tape importante du processus dextraction de
connaissances partir de donnes (ECD). Elle vise dcouvrir la structure intrinsque dun ensemble
dobjets en formant des regroupements - clusters - qui partagent des caractristiques similaires. La
complexit de cette tche sest fortement accrue ces deux dernires dcennies lorsque les masses de
donnes disponibles ont vu leur volume exploser. En effet, le nombre dobjets prsents dans les bases
de donnes a fortement augment mais galement la taille de leur description. Laugmentation de la
dimension des donnes a des consquences non ngligeables sur les traitements classiquement mis en
oeuvre : outre laugmentation naturelle des temps de traitements, les approches classiques savrent
parfois inadaptes en prsence de bruit ou de redondance. Dans cette thse, nous nous intressons
la rduction de dimension dans le cadre de la classification non supervise. Diffrentes approches de
slection ou de pondration de variables sont proposes pour traiter les problmes lis la prsence
dattributs redondants ou dattributs fortement bruits :
Nous proposons dabord lalgorithme -SOM qui limite leffet de la prsence dattributs redon-
dants en calculant une pondration des attributs partir dune classification simultane des objets
et des attributs.
Nous prsentons ensuite une approche intgre embedded de slection de variables pour la
classification automatique qui permet de dcouvrir la fois le nombre de groupes dobjets prsents
dans les donnes mais aussi un sous-ensemble dattributs pertinents.
Nous terminons en prsentant lalgorithme -SOM qui introduit une pondration des attributs
dans la fonction de cot des cartes auto-organisatrices - Self Organizing Maps - qui est ensuite
optimise itrativement en alternant trois tapes : optimisation des affectations, optimisation des
prototypes et optimisation des poids. La pondration obtenue aprs convergence est ensuite utilise
pour proposer une approche filtre - Filter - de slection de variables.
Nous concluons cette thse en indiquant les limites des approches proposes et envisageant quelques
axes dvelopper lors de la poursuite ces recherches.
Sommaire
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

I Etat de lart
2 Classification non-supervise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1 Concepts et dfinitions utiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Quest-ce quune classification ? . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.2 Quest-ce quun groupe dobjets similaires ? . . . . . . . . . . . . . . . . . . . . 6
2.1.3 Comment reprsenter un objet ? . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Quelques approches classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.1 Mthodes hirarchiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.2 Nues dynamiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.3 Modles de mlange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Approche neuromimtique : les cartes auto-organises de Kohonen . . . . . . . . . . . . 12
2.3.1 Sources historiques et principes . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.2 Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.3 Algorithme dapprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 Connaissances du domaine et contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4.1 Contraintes sur les groupes : forme et taille . . . . . . . . . . . . . . . . . . . . 15
2.4.2 Contraintes sur les objets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.3 Contraintes sur les attributs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.5 Evaluation et critres de validit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.5.1 Erreur Quadratique Moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5.2 Indice de Dunn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5.3 Indice de Davies-Bouldin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5.4 Indice de compacit Wemmert et Ganarski . . . . . . . . . . . . . . . . . . . . 18
2.5.5 Indices propres aux cartes auto-organises . . . . . . . . . . . . . . . . . . . . . 18
3 Comparaison de partitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1 Espace des partitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.1 Quelques dfinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.2 Outil de comparaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Comparaison par comptage de paires et distances binaires . . . . . . . . . . . . . . . . . 26
3.2.1 Prcision, Rappel et Critres associs . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.2 Indice de Rand & Mtrique de Mirkin . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.3 Similarit & hasard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3 Comparaison par mise en correspondance densembles . . . . . . . . . . . . . . . . . . 29
3.3.1 Critre de Larsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3.2 Critre de Meila & Heckerman . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3.3 van Dongen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3.4 Indice de Wemmert & Ganarski . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4 Proprits souhaitables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

vii
viii SOMMAIRE

3.5
Variation dinformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.5.1 Dfinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.5.2 Proprits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4 Rduction de dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2.1 Critres dvaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2.2 Procdures de recherche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2.3 Critres darrt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.4 Slection de variables et apprentissage connexionniste . . . . . . . . . . . . . . 41
4.3 Extraction de caractristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3.1 Mthodes linaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3.2 Mthodes non linaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

II Approches proposes
5 Traitement des attributs redondants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2 Approche propose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.1 Principes et algorithmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.2 Mcanisme de pondration propos . . . . . . . . . . . . . . . . . . . . . . . . 59
5.3 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.3.1 Donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.3.2 Amlioration de la qualit topologique de la carte des observations . . . . . . . . 60
5.3.3 Dtection du bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.3.4 Application aux donnes marketing . . . . . . . . . . . . . . . . . . . . . . . . 61
5.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.4.1 Distances entre profils de variables . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.4.2 Importance potentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.4.3 Algorithme doptimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6 Slection de variables et du nombre de groupes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.2 Approche propose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.2.1 Principes et algorithmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.2.2 Mesures dvaluations proposes . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.2.3 Stratgie de recherche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.2.4 Critre darrt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.3 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.3.1 Donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.3.2 Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6.4.1 Segmentation de la carte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6.4.2 Stratgie de recherche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
SOMMAIRE ix

6.4.3 Critre darrt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72


6.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7 Pondration et Slection de variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.2 Approche Propose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.2.1 Algorithme w-kmeans . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.2.2 Extension aux cartes auto-organisatrices . . . . . . . . . . . . . . . . . . . . . . 74
7.2.3 Utilisation pour la slection de variables . . . . . . . . . . . . . . . . . . . . . . 75
7.3 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
7.3.1 Donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
7.3.2 Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
7.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
7.4.1 Pondration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
7.4.2 Critre darrt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
7.4.3 Approche intgre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
7.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

III Applications
8 Applications aux traitements de donnes comportementales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.1 Application aux Marketing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.1.1 Problmatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.1.2 Collecte des donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.1.3 Codage des rponses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
8.1.4 Exemple dtude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
8.1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.2 Application lEthologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
8.2.1 Problmatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
8.2.2 Constitution de la base de donnes . . . . . . . . . . . . . . . . . . . . . . . . . 90
8.2.3 Approche thologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.2.4 Approche propose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
8.2.5 Conclusion et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

IV Conclusion et perspectives
9 Conclusion et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

V Annexes
C HAPITRE 1
Introduction
La classification automatique - clustering - est une tape importante du processus dextraction de
connaissances partir de donnes (ECD). Elle vise dcouvrir la structure intrinsque dun ensemble
dobjets en formant des regroupements - clusters - qui partagent des caractristiques similaires. La com-
plexit de cette tche sest fortement accrue ces deux dernires dcennies lorsque les masses de donnes
disponibles ont vu leur volume exploser. La taille des donnes peut tre mesure selon deux dimensions,
le nombre de variables et le nombre dexemples. Ces deux dimensions peuvent prendre des valeurs trs
leves, ce qui peut poser un problme lors de lexploration et lanalyse de ces donnes. Pour cela, il est
fondamental de mettre en place des outils de traitement de donnes permettant une meilleure comprhen-
sion de la valeur des connaissances disponibles dans ces donnes. La rduction des dimensions est lune
des plus vieilles approches permettant dapporter des lments de rponse ce problme. Son objectif
est de slectionner ou dextraire un sous-ensemble optimal de caractristiques pertinentes pour un critre
fix auparavant. La slection de ce sous-ensemble de caractristiques permet dliminer les informations
non-pertinentes et redondantes selon le critre utilis. Cette slection/extraction permet donc de rduire
la dimension de lespace des exemples et rendre lensemble des donnes plus reprsentatif du problme.
En effet, les principaux objectifs de la rduction de dimension sont :
faciliter la visualisation et la comprhension des donnes,
rduire lespace de stockage ncessaire,
rduire le temps dapprentissage et dutilisation,
identifier les facteurs pertinents.
Les algorithmes dapprentissage artificiel requirent typiquement peu de traits - features - ou de
variables - attributs - trs significatifs caractrisant le phnomne tudi. Dans le domaine de la recon-
naissance des formes et de la fouille de donnes, il pourrait encore tre bnfique dincorporer un module
de rduction de la dimension dans le systme global avec comme objectif denlever toute information
inconsquente et redondante. Cela a un effet important sur la performance du systme. En effet le nombre
de caractristiques utilises est directement li lerreur finale. Limportance de chaque caractristique
dpend de la taille de la base dapprentissage - pour un chantillon de petite taille, llimination dune
caractristique importante peut diminuer lerreur. Il faut aussi noter que des caractristiques individuel-
lement peu pertinentes peuvent tre trs informatives si on les utilise conjointement.
La rduction de la dimension est un problme complexe qui permet de rduire le volume dinforma-
tions traiter et faciliter le processus de lapprentissage.
Nous pouvons classer toutes les techniques mathmatiques de rduction des dimensions en deux
grandes catgories :
la slection de variables : qui consiste choisir des caractristiques dans lespace de mesure,
(figure 1.1)
et lextraction de traits : qui vise slectionner des caractristiques dans un espace transform -
dans un espace de projection (figure 1.2)
Dans cette thse, nous nous intressons la rduction de dimension dans le cadre de la classification
non supervise. Il sagit dun domaine de recherche encore peu explor qui est plus difficile que dans

1
2 C HAPITRE 1 Introduction

Figure 1.1 Principe de la slection de variables.

Figure 1.2 Principe de lextraction de caractristiques.

le contexte de lapprentissage supervis o lon dispose dinformation pouvant guide la procdure de


rduction de dimension. Diffrentes approches de slection ou de pondration de variables sont proposes
pour traiter les problmes lis la prsence dattributs redondants ou dattributs fortement bruits :
Nous proposons dabord lalgorithme -SOM qui limite leffet de la prsence dattributs redon-
dants en calculant une pondration des attributs partir dune classification simultane des objets
et des attributs.
Nous prsentons ensuite une approche intgre embedded de slection de variables pour la
classification automatique qui permet de dcouvrir la fois le nombre de groupes dobjets prsents
dans les donnes mais aussi un sous-ensemble associ dattributs pertinents.
Nous terminons en prsentant lalgorithme -SOM qui introduit une pondration des attributs
dans la fonction de cot des cartes auto-organisatrices - Self Organizing Maps - qui est ensuite
optimise itrativement en alternant trois tapes : optimisation des affectations, optimisation des
prototypes et optimisation des poids. La pondration obtenue aprs convergence est ensuite utilise
pour proposer une approche filtre - Filter - de slection de variables.
Nous concluons cette thse en indiquant les limites des approches proposes et en envisageant
quelques axes dvelopper lors de la poursuite ces recherches.
PARTIE I
Etat de lart
C HAPITRE 2
Classification
non-supervise
La classification non supervise ou classification automatique - clustering - est une tape importante
de lanalyse de donnes ; elle consiste identifier des groupes dobjets ou dindividus similaires - clusters
- partir dun ensemble de donnes sans en connatre au pralable la structure. Elle ne doit pas tre
confondue avec la classification supervise ou classement - classification - qui consiste dterminer les
rgles qui ont permis de sparer un ensemble dindividus en classes connues priori. Lobjectif de ce
chapitre est dintroduire les concepts et les notions ncessaires la comprhension du reste du manuscrit
au travers dun survol rapide du domaine. Le lecteur intress est invit consulter lune des nombreuses
rfrences disponibles [Ber02, Fun01, JD88, JMF99, XW05] pour appronfondir son tude.
Nous commenons par rappeler quelques concepts et dfinitions avant de prsenter quelques ap-
proches utilises en classification automatique. La classification sous contrainte est ensuite prsente
comme un moyen dintroduire des connaissances priori aux algorithmes de classification automatique.
Nous terminons ce chapitre sur la question de lvaluation dune classification laide de critre de
validit.

2.1 Concepts et dfinitions utiles


2.1.1 Quest-ce quune classification ?
Le concept de classification est troitement li la notion de partition dun ensemble fini et nous
utiliserons ces deux termes de manire interchangeable tout au long de ce manuscrit. La dfinition qui
suit correspond la notion de classification dure mais ce qualificatif ne sera plus prcis dans la suite
du document.
Dfinition 2.1.1 (Partition dun ensemble fini) tant donn un ensemble fini dobjets , on appelle
partition de toute famille de parties non vides de disjointes deux deux dont lunion forme len-
semble . Ainsi, si C est une partition de , alors :
( K
)
M
C = Ci P() \ {} : Ci =
i=1

La dfinition prcdente impose deux contraintes fortes ; dune part, tous les objets doivent appartenir
une classe et dautre part, cette classe doit tre unique. Lorsquon autorise certains objets rester sans
affectation, on parle de classification partielle. Ensuite, si la deuxime contrainte est relche, un objet
peut alors se trouver dans diffrentes classes et on parle de classification douce. Enfin, en ajoutant la
6 C HAPITRE 2 Classification non-supervise

notion de degr dappartenance une classe, on se place dans le contexte des ensembles flous et on
parle de classification floue. Avant de dfinir le concept de classification hirarchique, commenons par
introduire une relation dordre sur les partitions .
Dfinition 2.1.2 (Relation dordre ) On dit quune partition C est plus fine ou gale une partition
C , si chacune de ses parties Ci est incluse dans une partie Cj de C et on note C 4 C .

C 4 C ( Ci C) Cj C : Ci Cj
Si de plus les partitions C et C sont diffrentes, on note C C .
Une classification hirarchique est une suite de partitions embotes C (0) C (1) . . . C (N ) = {}
dont le premier terme C (0) est la partition la plus fine qui ne contient que des singletons et dont le dernier
terme est la partition la plus grossire qui ne comporte quune seule partie. La figure 2.1 illustre ce
concept dans le cas dun ensemble de quatre objets.

Figure 2.1 Exemple de classification hirarchique dun ensemble de quatre objets. La base de la hi-
rarchie correspond la classification la plus fine et on monte dun niveau en fusionnant deux parties.

2.1.2 Quest-ce quun groupe dobjets similaires ?


Comme nous lavons mentionn au dbut de ce chapitre, la classification automatique vise former
des groupes dindividus similaires. Cette notion de similarit est un lment essentiel de la classification
automatique et lexemple ci-dessous rappelle que cest le biais introduit par la mesure de similarit qui
permet de former des groupes.
Exemple 2.1.1 Considrons un ensemble de quatre animaux : une baleine, un bar, une poule et une
vache. Selon le point de vue adopt, toutes les partitions de cet ensemble sont acceptables comme clas-
sification : on peut vouloir distinguer les petits des gros animaux, les mammifres des ovipares, les
animaux terrestres des animaux marins, etc.
Il est commun de dfinir le concept de similarit laide de la notion duale de dissimilarit ; on dit de deux
individus quils sont dautant plus similaires quils sont proches au sens dune mesure de dissimilarit.
Nous rappelons ci-dessous la dfinition gnrale dune mesure de dissimilarit (dfinition 2.1.3) avant
de considrer le cas des mtriques et des ultramtriques qui sont deux types de mesures particulires.
Dfinition 2.1.3 (Mesure de dissimilarit) On appelle indice ou mesure de dissimilarit sur un en-
semble , une application d : R+ qui vrifie les proprits suivantes pour tout couple
(x, y) :
d(x, y) = d(y, x) (symtrie)
d(x, y) = 0 x = y (sparabilit)
C HAPITRE 2 Classification non-supervise 7

Dfinition 2.1.4 (Mtrique) On appelle mtrique sur un ensemble , une application d : R+


qui vrifie les proprits suivantes pour tout couple (x, y) :

d(x, y) = d(y, x) (symtrie)


d(x, y) = 0 x = y (sparabilit)
d(x, y) d(x, z) + d(z, y) (ingalit triangulaire)

Dfinition 2.1.5 (Ultramtrique) On appelle ultramtrique sur un ensemble , une application d :


R+ qui vrifie les proprits suivantes pour tout couple (x, y) :

d(x, y) = d(y, x) (symtrie)


d(x, y) = 0 x = y (sparabilit)
d(x, y) max{d(x, z), d(z, y)} (ingalit ultramtrique)

Lhomognt des individus regroups au sein dun groupe est souvent value laide dun critre
statistique appele variance dont la dfinition est rappele ci-dessous.

Dfinition 2.1.6 (Variance) On dfinit la variance V (Ci ) dun groupe dobjets Ci ainsi :
1 X 2
V (Ci ) = d (xj i )
Ni
xj Ci

o Ni et i sont respectivement le nombre dobjets et le centrode du groupe Ci .

Dans le contexte de la classification automatique, on distingue gnralement la variance intra-classe


Vintra , que lon souhaite minimiser, de la variance inter-classe Vinter , que lon cherche maximiser :
1 X
Vintra = Ni V (Ci )
N
Ci C
1 X
Vinter = Ni (i )2
N
Ci C

o Ni et i sont respectivement le nombre dobjets et le centrode du groupe Ci , et de manire analogue,


N et dsignent respectivement le nombre dobjets et le centrode de . La premire value lhomo-
gnt moyenne des groupes dune partition et la seconde permet de quantifier la diffrence entre les
groupes. La formule de Knig-Huyghens permet de relier la variance intra-classe et inter-classe la
variance totale Vtotale = V () :
Vtotale = Vintra + Vinter

2.1.3 Comment reprsenter un objet ?


Comme le suggre lexemple 2.1.1, le concept de similarit ou le concept dual de dissimilarit repose
sur la notion de reprsentation des objets. Si seule une matrice de similarit (ou de dissimilarit) entre les
objets pris deux deux est disponible, on parle de reprsentation implicite1 . Lorsquune reprsentation
est disponible, on parle de reprsentation explicite et lorsque celle-ci napporte pas toute linformation
souhaite on parle de reprsentation incomplte. De nombreux formalismes ont t dvelopps et la
1
La mthode de positionnement multidimensionnel - Multi Dimensional Scaling (MDS) - permet de construire une repr-
sentation vectorielle explicite partir dune matrice de dissimilarit (voir section 4.3.1.3)
8 C HAPITRE 2 Classification non-supervise

reprsentation des connaissances est encore un domaine de recherche actif ; le lecteur intress trouvera
une introduction ce domaine dans [Kay97]. Une reprsentation peut prendre diverses formes plus ou
moins complexes (tables, arbres, graphes, etc.) mais nous ne considrerons dans cette thse que la repr-
sentations des donnes sous forme de table qui est la plus largement rpandue dans les applications de la
fouille de donnes2 .
Un tableau de donnes peut contenir des variables continues, qui servent mesurer un caractre
quantitatif, et des variables discrtes qui spcifient un caractre qualitatif. On distingue gnrale-
ment les variables discrtes ordinales, dont les diffrentes valeurs ou modalits sont ordonnes, des
variables discrtes nominales pour lesquelles aucun ordre nest dfini.

Exemple 2.1.2 Prenons pour exemple le tableau de donnes suivant quun vtrinaire pourrait tenir
jour pour le suivi de ces patients :

Nom Race Groupe Hauteur Poids Taille


Belle Montagne des Pyrnes II 71 cm 45 kg grand
Bilitis Berger Allemand I 59 cm 32 kg grand
Ector Boxer II 63 cm 38 kg grand
.. .. .. .. .. ..
. . . . . .
Hindy Berger Belge Malinois I 56 cm 20 kg moyen
Milou Fox Terrier poil dur III 33 cm 8 kg petit
Nimbus Yorkshire III 20 cm 1 kg petit

De prime abord, le type des diffrents attributs prsents dans le tableau peut sembler vident, mais il est
en fait souvent discutable. Lattribut Nom sera gnralement considr comme une variable nominale
bien quelle puisse tre porteuse dune information concernant lge relatif des sujets dans le cas des
chiens de races ; en effet, la premire lettre du nom correspond la plus souvent lanne de naissance
et dans ce cas nous sommes en prsence dune variable ordinale. Une discussion analogue du caractre
nominal de la variable Race est plus difficile et comme le caractre continu des variables Hauteur et
Poids, le caractre ordinal de lattribut Taille sera moins souvent remis question. En revanche, lattribut
Groupe ne doit pas tre considr comme ordinal mais comme nominal car il correspond au groupe
dutilisation des races canines que nous rappelons dans le tableau ci-dessous :

Groupe Description
I Les bergers et les bouviers
II Les pinshers, les shnauzers et les molosses
III Les terriers
IV Les teckels
V Les chiens nordiques et les spitz
VI Les chiens courants
VII Les chiens darrt
VIII Les leveurs de gibiers, les retrievers et les chiens deau
IX Les chiens de compagnie
X Les lvriers

2
Source : rsultats denqutes disponibles sur http ://www.kdnuggets.com
C HAPITRE 2 Classification non-supervise 9

2.2 Quelques approches classiques


2.2.1 Mthodes hirarchiques
Au dbut de ce chapitre, nous
 avons dfini une classification hirarchique comme une suite ordonne
de partitions embotes C (n) (0)
dont le premier terme C est la partition la plus fine qui ne contient que
des singletons, et le dernier terme est la partition la plus grossire qui ne comporte quune seule partie.
On distingue deux types dapproches de classification hirarchique : les mthodes descendantes - divisive
- et les mthodes ascendantes - agglomerative.

2.2.1.1 Mthodes descendantes

Elles considrent lensemble des observations et procdent par division successive jusqu obtenir
une partition forme de singletons. Nous ne dtaillerons pas davantage ces mthodes qui sont trop
coteuses pour tre utilises sur les volumes de donnes manipuls aujourdhui. En effet, la division
dune partie N lments ncessitent lvaluation des (2N 1 1) divisions possibles.

2.2.1.2 Mthodes ascendantes

Elles commencent avec la partition de lensemble la plus fine et procdent ensuite par fusion
progressive des parties jusqu obtention de la partition la plus grossire. On obtient ainsi un arbre binaire
dont la racine correspond la partition ne comportant quune seule partie et dont les feuilles sidentifient
aux diffrents singletons. Les diffrents noeuds intermdiaires correspondent la fusion de deux parties.
La Classification Ascendante Hirarchique (CAH) est sans nulle doute la mthode la plus largement
utilise de cette catgorie. Diffrents indices dagrgation de groupes ont t proposs :
Lindice du saut minimum est dfini comme la distance minimale qui spare deux lments issus
de groupes diffrents.
Lindice du saut maximum correspond la distance maximale qui spare deux lments issus de
groupes diffrents.
Lindice du saut moyen est lesprance de la distance qui spare deux lments issus de groupes
diffrents.
La distance entre les centrodes des groupes qui se calcule au plus en temps linaire O(N ) contrai-
rement aux indices prcdents dont la complexit est quadratique (N 2 ).
Lindice de Ward est dfini comme laugmentation de la variance intra-classe rsultant de la fusion
des deux groupes considrs.
Comme lillustre les figures 2.3 et 2.4, il convient de souligner que le rsultat dune CAH est forte-
ment conditionn par le choix du critre dagrgation. Par ailleurs, on souhaite gnralement que la
hirarchie obtenue, indice par la valeur du critre dagrgation soit monotone3 , cette proprit nest
pas vrifie lorsquon utilise la distance entre les centrodes comme critre dagrgation. Rappelons en-
fin que dautres mthodes de classification hirarchique ont t proposes ; le lecteur intress trouvera
notament une prsentation des algorithmes BIRCH (Balanced Iterative Reducing and Clustering using
Hierarchies) et CURE (Clustering Using REpresentative) dans [Azz05].

3
On peut associer une suite (ri R)0iN une hirarchie de partition C (0) . . . C (N) . On dit alors que la hirarchie

C (i) indice par la suite (ri R)0iN est monotone si cette suite dindice est soit croissante, soit dcroissante.
0iN
10 C HAPITRE 2 Classification non-supervise

Figure 2.2 Classification Ascendante Hirarchique.

2.2.2 Nues dynamiques


Les diffrentes partitions obtenues par les mthodes hirarchiques prsentes au paragraphe prc-
dent sont reprsentes explicitement. Dans le cas des mthodes de type nues dynamiques, chaque
groupe est reprsent par un prototype, encore appel centre, et chaque objet est affect au groupe dont
il est le plus proche (figure 2.5). La partition obtenue est alors reprsente implicitement par le pavage
de Vorono engendr par lensemble des prototypes. Nous commenons par introduire lalgorithme des
K-moyennes avant den prsenter une extension aux classifications floues.

2.2.2.1 K-moyennes
Lalgorithme des K-moyennes consiste choisir alatoirement des centres initiaux et amliorer la
partition obtenue de manire itrative en alternant les deux tapes suivantes jusqu stabilisation :
tape daffectation : chaque objet x est affect au centre le plus proche, not (x),
tape doptimisation : chaque centre est remplac par le barycentre de lensemble des objets quil
reprsente.
Le critre optimis par cet algorithme est dfini par :
X
RKmoyennes = kx (x)k2 (2.1)
x

Bien que beaucoup plus rapide que la CAH, cet algorithme est trs instable et converge vers des
minima locaux. On choisit gnralement la meilleure solution obtenue aprs plusieurs excutions de
lalgorithme sans toutefois avoir de garantie doptimalit globale de la partition retenue. Nanmoins,
de nombreuses modifications de lalgorithme initial ont t proposes pour essayer de palier ces pro-
blmes. Lalgorithme des K-moyennes globales - global kmeans - propose dans [LVV03] commence en
considrant le barycentre des objets comme centre initial. Ensuite, lobjet qui maximise la diminution
de lerreur est ajout comme nouveau prototype aprs chaque convergence de lalgorithme qui sarrte
lorsque le nombre de groupes souhait est atteint. Bien que les solutions obtenues par cette approche
soient stables, [HNCM05] montrent quelles ne sont en gnral pas optimales.
Outre les problmes dinstabilit et doptimalit que nous venons de soulever, cette approche nces-
site de connatre priori le nombre de centres. En pratique, on ignore souvent le nombre de groupes pr-
sents dans lensemble des objets et il est donc ncessaire dexcuter lalgorithme pour diffrentes valeurs
de ce paramtre. Notons que le critre RKmoyennes dcrot lorsque le nombre de groupes augmente
C HAPITRE 2 Classification non-supervise 11

et quil nest donc pas adapt pour choisir le nombre de groupe optimal. Nous verrons au paragraphe
2.5 quil convient dutiliser cet effet lun des nombreux critres de qualit proposs dans la littrature.
Malgr les multiples excutions requises par lutilisation de la mthode des K-moyennes, cette approche
conserve lavantage sur la CAH lorsque le nombre de centres K reste faible devant le nombre dobjets ;
sa complexit est en (N.K) contre une complexit en O(N 2 ) pour la CAH.
Il convient de remarquer quen faisant appel la notion de barycentre, lalgorithme dcrit ci-dessus
suppose implicitement que les objets sont reprsents par un ensemble de valeurs continues. Lorsque les
objets sont dcrits par des variables nominales, ou plus gnralement, lorsque lutilisateur souhaite quun
prototype corresponde un objet observable le barycentre utilis pour la mise jour des prototypes peut
tre remplac par lobjet mdian ou lobjet le plus proche du barycentre ; ces alternatives sont appeles
respectivement K-mdianes et K-mdodes.

2.2.2.2 K-moyennes floues


Lalgorithme des K-moyennes prsent ci-dessus conduit une partition dure et Dunn en a propos
une extension qui conduit une partition floue. Celle-ci minimise la fonction de cot suivante :
K
XX
RKmoyennesf loues = (i (x))f kx i k2 (2.2)
x i=1

o K, i (x) et i sont respectivement le nombre de centres, le degr dappartenance de lobjet x au


groupe Ci , le centre du groupe Ci . Le paramtre f > 1 permet dajuster le niveau dimportance accord
aux degrs dappartenance.
Pour optimiser le critre donn ci-dessus, on utilise une procdure itrative similaire celle utilise
dans le cas des K-moyennes ; les deux phases suivantes sont rptes :
calcul des degrs dappartenance : le degr dappartenance dun objet x au groupe Ci est dfinie
par :
"K  2 #1
X kx i k  f 1
i (x) = (2.3)
kx k k
k=1
tape doptimisation : chaque centre est remplac par le barycentre pondr par les degrs dap-
partenance de lensemble des objets.

2.2.3 Modles de mlange


2.2.3.1 Principe
On suppose que lensemble dobjets dont on dispose a t obtenu en fusionnant plusieurs sous-
populations qui suivent chacune une loi de probabilit propre. La probabilit quun objet x soit issu de
ce mlange de paramtres = (1 , 1 , . . . , i , i , . . .) est alors donne par :
X
p(x|) = i pi (x|i ) (2.4)
i
P
o les coefficients de mlange i satisfont i i = 1, et o les densits de probabilit de chaque
sous-population Ci sont donnes par les lois pi (x|i ) de paramtres i . Rappelons que toute distribution
continue peut tre approxime laide dun modle de mlange ds lors que ses composantes sont assez
nombreuses et que leurs paramtres sont bien choisis.
12 C HAPITRE 2 Classification non-supervise

Lestimation du nombre et des paramtres de composantes est un problme difficile et dans la plupart
des applications seuls les mlanges de lois normales sont considrs. Lorsquon impose de plus que
toutes les lois normales du mlange aient la matrice identit comme matrice de covariance, on retrouve
le cas des k-moyennes.

2.2.3.2 Algorithme EM
Lalgorithme le plus rpandu pour estimer les paramtres dun mlange est lalgorithme EM - Ex-
pectation Maximization - introduit par Dempster et al. en 1977 [DHG01, MB88]. Il consiste itrer les
deux phases suivantes jusqu ce que lamlioration de la log vraisemblance du modle soit infrieure
un seuil > 0 fix :  
1. Estimation : on suppose fixs les paramtres = 1 , 1 , 2 , 2 , . . . du modle et on calcule
la probabilit p(x|i ) quun objet x ait t gnr par la composante correspondant la
sous-population Ci :
i p(x|i )
p(x|i ) = P (2.5)
k k p(x|k )

2. Maximisation : on suppose cette fois fixe la partition floue de lensemble des objets x dont
les degrs dappartenance sont donns par les probabilits p(x|i ). On cherche alors les paramtres
e du modle qui maximisent sa log vraisemblance
X
log L(|) = p(x|) (2.6)
x

e = arg max {log L(|)} (2.7)


Les coefficients optimaux du mlange sont dfinis par :


1 X
ei = x p(x|i ) (2.8)
N
x

o N est le nombre dobjets prsents dans . Et dans le cas dun mlange de lois normales
N (i , i ), les paramtres optimaux ei = (ei ,
fi ) sont obtenus ainsi :

1 X
ei = x p(x|i )
N ei
x

fi = 1
(x ei )(x ei )T p(x|i )
N ei

2.3 Approche neuromimtique : les cartes auto-organises de Kohonen


2.3.1 Sources historiques et principes
Lalgorithme des cartes auto-organises, ou cartes topologiques - Self-Organizing Maps (SOM) -
a t introduit par Kohonen au dbut des annes 80 pour modliser un phnomne, couramment observ
dans le cerveau : la formation de cartes.
Dans le cortex crbral, on peut remarquer une organisation en rgions qui correspondent diff-
rentes modalits sensorielles : pour chaque rgion corticale, la structure topologique est la mme que la
C HAPITRE 2 Classification non-supervise 13

structure topologique du capteur correspondant. On a ainsi des cartes rtinotopiques, somato-sensorielles,


etc. Ces cartes se distinguent par la proprit commune suivante : pour un espace de donnes fix, par
exemple les signaux lumineux sur la rtine, la carte corticale est une reprsentation deux dimensions
telle que des donnes voisines aient des reprsentations voisines. Par exemple, la structure spatiale
des rponses des cellules dans le cortex auditif correspond la frquence des sons perus. Un certain
nombre des fonctions sensorielles sont donc dpendantes de la ralisation dapplications qui conservent
la topologie entre lespace des donnes (sur les capteurs) et lespace des reprsentations (dans la zone
corticale correspondante).
Du point de vue informatique, on peut traduire cette proprit de la faon suivante : supposons que
lon dispose de donnes que lon dsire classifier. On cherche un mode de reprsentation tel que des
donnes voisines soient classes dans la mme classe ou dans des classes voisines. Lalgorithme propos
par Kohonen produit un rseau qui a cette proprit : on obtient grce au rseau une reprsentation de
lensemble dapprentissage telle que des exemples proches, mesurs dans le rfrentiel dentre, aient des
reprsentations proches, mesures dans le rseau. Cest une technique dapprentissage non supervis :
les exemples sont prsents au rseau qui rorganise progressivement de lui-mme ses poids de faon
produire lorganisation recherche.

2.3.2 Description
Le procd dauto-organisation propos par Kohonen cherche transformer des signaux de dpart de
dimension quelconque, en gnral assez grande, en signaux une ou deux dimensions. Le but principal
du rseau est ici de reproduire en sortie du rseau les corrlations qui sont prsentes dans les donnes
prsentes lentre. Dune manire gnrale, les cartes auto-organisatrices vont projeter les donnes
initiales sur un espace discret et rgulier de faible dimension (en gnral 1 ou 2). Les espaces utiliss
sont des treillis rguliers dont chacun des noeuds est occup par un automate (neurone formel), la notion
de voisinage entre neurones dcoule alors directement de la structure et dfinie une topologie de la carte.
Grce au procd dauto-organisation, la topologie qui lie les donnes initiales est conserve au niveau
des rponses proposes par le rseau. La localisation des neurones actifs reproduit les liens existants
au niveau des donnes initiales. La plupart du temps, puisquil sagit dun procd dapprentissage non
supervis, les relations de voisinages entre formes dentre sont inconnues. Cest lobservation des voi-
sinages produits par la carte qui vont permettre linterprtation des donnes initiales. En particulier, ils
vont dfinir la notion de formes proches dans lespace initial.
Les rseaux SOM sont constitus de deux couches (figure 2.6) :
la couche dentre o les donnes classer sont prsentes. Les tats de tous les neurones de cette
couche sont forcs aux valeurs des caractristiques dcrivant les formes dentres ;
la couche (topologique) dadaptation est compose du treillis de neurones selon une gomtrie
prdfinie.
Chaque neurone i de la couche topologique est totalement connect aux neurones de la couche dentre.
Le vecteur poids .i = (1i , . . . , ni ) de ces connexions forme le rfrent ou le prototype associ au
neurone, il est de la mme dimension que les formes dentre.
Pendant la phase dapprentissage, le processus dauto-organisation permet de concentrer ladaptation
des poids des connexions essentiellement sur la rgion de la carte la plus active. Cette rgion dactivit
est choisie comme tant le voisinage associ au neurone dont ltat est le plus actif. Le critre de slection
du neurone le plus actif est de chercher celui dont le vecteur de poids est le plus proche au sens de la
distance euclidienne de la forme prsente. Il sagit dun critre qui est lheure actuelle utilis dans
lalgorithme de ces cartes topologiques. Cest lutilisation de cette notion de voisinage qui introduit les
14 C HAPITRE 2 Classification non-supervise

contraintes topologiques dans la gomtrie finale de la carte. Les recherches effectues par les neuro-
physiologistes dans ltude du systme visuel humain ont montr lexistence de ce type de phnomne
au niveau des cellules du cortex et le rle important quil joue dans la vision humaine.

2.3.3 Algorithme dapprentissage


Diffrents algorithmes dapprentissage ont t proposs pour ladaptation des poids de la carte, nous
ne prsentons que le plus simple dentre eux et renvoyons [Koh01] pour les variantes. Nous commen-
cerons dabord par dfinir la notion de voisinage sur la carte topologique. Le voisinage Vi dun neurone i
est compos des neurones de la carte qui se situent lintrieur dune zone dinfluence. Cest le choix de
la fonction h (une fonction noyau positive et symtrique de type gaussien) qui permet dintroduire des
zones dinfluence autour de chaque neurone. La fonction de voisinage h peut tre de la forme suivante :
 2 
1 d (r, s)
hrs = exp (2.9)
(t) 2 (t)
o (t) est la fonction temprature modlisant ltendue du voisinage :
  t
f Tmax
(t) = i (2.10)
i
avec i et f sont respectivement la temprature initiale et la temprature finale (par exemple i = 2 et
f = 0, 5) et Tmax le nombre maximum attribu au temps (nombre ditrations x nombre dexemples
dapprentissage), et la distance de Manhattan d1 est dfinie, entre deux neurones de la carte r et s de
coordonnes respectives (k, m) et (i, j) par :
d1 (r, s) = |i k| + |j m| (2.11)
La fonction h qui est une gaussienne introduit pour chaque neurone de la carte un voisinage global. La
taille de ce voisinage est limite par lcart type (t) de la gaussienne. Les neurones se trouvant au-del
de cette tendue ont une influence ngligeable mais non nulle sur le neurone considr. Ltendue (t)
est une fonction dcroissante dans le temps, la fonction voisinage h aura donc la mme volution avec
un cart type dcroissant dans le temps. Lapprentissage sera ralis par la minimisation de la distance,
entre formes dentres et prototypes de la carte, pondre par la fonction de voisinage hij . On pourra
employer pour cela un algorithme de gradient.
Le critre minimiser dans ce cas est dfini par :
X X
RSOM = hb(i)j kxi j k2 (2.12)
xi j U

o M reprsente le nombre de neurones de la carte, b(i) est le neurone dont le rfrent est le plus
proche de la forme dentre xi , et h la fonction de voisinage. La version stochastique de lalgorithme
dapprentissage de ce modle se droule essentiellement en trois phases :
la phase dinitialisation o des valeurs alatoires sont affectes aux poids des connexions (rfrents
ou prototypes) de chaque neurone de la carte ;
la phase de comptition pendant laquelle, pour toute forme dentre xi , un neurone b(i), de voi-
sinage Vb(i) , est slectionn comme gagnant. Ce neurone est celui dont le vecteur de poids est le
plus proche au sens de la distance euclidienne de la forme prsente :
b(i) = arg min kj xi k2 (2.13)
1jM
C HAPITRE 2 Classification non-supervise 15

la phase dadaptation o les poids de chaque neurone de la carte sont mis jour selon les rgles
dadaptation suivantes : si .j Vb(i) ajuster les poids selon la formule :
.j .j hb(i)j (.j xi ) (2.14)
Ce processus dadaptation est rpt jusqu stabilisation de lauto-organisation.
Une version batch de cet algorithme a t propose : les vecteurs poids ne sont mis jour quaprs
la prsentation de toutes les formes dentres et on remplace alors le prototype des neurones par le
barycentre pondr laide de la fonction de voisinage des formes dentres qui les ont activs.

2.4 Connaissances du domaine et contraintes


La classification non supervise permet de former des groupes dobjets susceptibles dtre intres-
sants pour lutilisateur. Notons quil est frquemment possible de construire diffrentes partitions dun
mme ensemble dobjets et en absence dinformations complmentaires, le choix de lune ou lautre est
ncessairement arbitraire. La prise en compte des attentes de lutilisateur est donc un facteur de succs
dterminant de lapplication de ce type de mthodes. Nous rappelons dans cette section diffrentes ap-
proches proposes cet effet ; elles procdent par introduction de contraintes qui portent sur les groupes,
sur les objets ou encore sur les attributs.

2.4.1 Contraintes sur les groupes : forme et taille


2.4.1.1 Contraintes de forme
La forme des groupes est trs souvent impose par le choix de lalgorithme et de la mesure de
(dis)similarit. Ainsi, lalgorithme des K-moyennes utilisant une distance euclidienne a tendance for-
mer des groupes hyper-sphriques. Plus gnralement, les modles de mlange permettent dimposer la
forme du nuage de points des diffrentes sous population en contraignant les paramtres des diffrentes
lois ; dans le cas dun mlange de lois normales, il est commun dimposer la matrice de covariance
dtre diagonale : les groupes forms sont ainsi hyper-ellipsodaux.
Dans certaines applications, les donnes revtent un caractre spatial et il est parfois ncessaire dob-
tenir des groupes contigus. La dimension spatiale peut tre utilise soit en ajoutant des variables de
position que lon traite ensuite comme les autres descripteurs, soit en utilisant une phase dextraction de
linformation spatiale en remplaant par exemple la valeur dun attribut par sa moyenne dans le voisinage
(au sens spatial) de lobjet. Lapplication de ces approches la segmentation dimage est illustre dans
[Amb96] et [BLP05] prsente lalgorithme Geo-SOM en montrant la plus value apporte dans le cadre
des Systmes dInformations Gographiques (SIG).

2.4.1.2 Contraintes de taille


Il est parfois souhaitable dobtenir des groupes de taille plus ou moins homogne et il est possible
dintroduire des contraintes sur la taille des clusters. Dans cet esprit une version modifie de lalgorithme
des K-moyennes est propose dans [BBD00] et [VA99] propose une adaptation de lalgorithme de Koho-
nen pour les cartes auto-organises. Il est relativement simple dimposer une contrainte de ce type une
hirarchie de partitions, cela revient en effet dfinir une hauteur maximale de coupure chaque branche
du dendrogramme. Pour finir, dans le contexte des modles de mlanges une telle contrainte peut tre
applique en ajoutant un terme de rgularisation qui fixe une probabilit priori maximale quaucune
classe ne peut dpasser.
16 C HAPITRE 2 Classification non-supervise

2.4.2 Contraintes sur les objets


2.4.2.1 Fusion et Exclusion
Du point de vue de lutilisateur, un moyen simple de prciser la partition quil attend consiste
indiquer quels sont les objets qui doivent tre regroups et quels sont ceux qui doivent sexclure mutuel-
lement. Ainsi, lors dun apprentissage actif, lutilisateur peut affiner progressivement le rsultat dune
classification automatique en prcisant progressivement les regroupements ou sparations dobjets quil
considre comme des anomalies. Deux versions modifies de lalgorithme des K-moyennes sont ainsi
proposes dans [Wag02] pour intgrer ce type de contraintes : lalgorithme COP-KMeans qui applique
strictement lensemble des contraintes de fusion et dexclusion mutuelle dobjets lors de la phase daf-
fectation des objets un groupe et lalgorithme SCOP-KMeans qui utilise une version relaxe en ajoutant
un terme de pnalisation la fonction de cot optimise.

2.4.2.2 Etiquetage partiel


Lorsquune partition dun sous-ensemble des objets est connue, il est possible dappliquer les ap-
proches dcrite ci-dessus ou dadopter lune des approches dveloppes dans [Bas05]. Dans lalgorithme
Seeded-KMeans les prototypes initiaux ne sont pas choisis alatoirement mais comme tant les bary-
centres des classes connues. Lalgorithme des K-moyennes est ensuite appliqu normalement sans tenir
compte des tiquettes connues. Lalgorithme Constrained-KMeans initialise les prototypes de la mme
manire mais ne modifie pas laffectation des objets dont la classes est connue pendant lapprentissage.

2.4.3 Contraintes sur les attributs


Il est parfois souhaitable dobtenir des groupes dans lesquels les valeurs prises par un attribut restent
dans un intervalle de faible amplitude. Cest dans ce cadre que [DLC03] propose deux versions de la
CAH utilisant lindice du saut maximum comme critre dagrgation. La premire version, Constrained
Clustering with Complete-Link, qui procde aux regroupements des objets en respectant la contrainte,
est sensible lordre des regroupements et laissent gnralement de cot certains objets qui ne peuvent
tre ajouts aucun groupe sans violer la contrainte. Une deuxime version, Progressive Constraint
Relaxation Technique, est propose pour corriger ce problme. La contrainte impose lintervalle de
valeur dpend alors du niveau auquel le regroupement intervient dans la hirarchie ; elle est relche
progressivement.

2.5 Evaluation et critres de validit


Dans le contexte de la classification automatique, il est naturel de sinterroger sur la validit de la par-
tition obtenue. Les groupes dcouverts correspondent-ils nos connaissances priori ? Correspondent-ils
vraiment lensemble dobjets dont on dispose ? De deux classifications, laquelle est la plus pertinente ?
Ces diffrentes questions permettent de distinguer trois catgories de critres : les critres externes, les
critres internes et les critres relatifs.
Les critres externes permettent de rpondre la premire question et de mesurer ladquation entre
une partition et les connaissances priori dont on dispose. Nous ne les dtaillerons pas ici car on se rap-
proche alors de la classification sous contraintes voque la section 2.4 ou du problme de comparaison
de partitions auquel nous consacrons le chapitre 3. Les critres internes quantifient ladquation entre
une partition et lide subjective que lon se fait dune bonne classification. Ainsi, les proprits les
C HAPITRE 2 Classification non-supervise 17

plus communment recherches sont la compacit et la sparabilit des groupes dcouverts. Les critres
relatifs sintressent la troisime et dernire question et dfaut de donner une apprciation abso-
lue de la validit dune partition, ils permettent dordonner plusieurs classifications et den choisir une
meilleure.

2.5.1 Erreur Quadratique Moyenne


Lerreur quadratique moyenne - Mean Squared Error, MSE - est une mesure de compacit trs r-
pandue, elle est notamment quivalente la fonction de cot de lalgorithme de K-moyennes prsent au
paragraphe 2.2.2.1 :
XN X K
1
M SE = cij kxi j k2 (2.15)
N
i=1 j=1

o K est le nombre de groupes et o cij = 1|Cj (i) indique si xi Cj . Lorsquon tend cette mesure au
cas des partitions floues, on retrouve ( un coefficient multiplicateur prs) la fonction de cot optimise
par lalgorithme des K-moyennes floues donne par lquation (2.2) :
N K
1 XX
F M SE = (j (xi ))f kxi j k2 (2.16)
N
i=1 j=1

2.5.2 Indice de Dunn


Dans le cas dune classification dure, lindice de Dunn tient compte la fois de la compacit et de la
sparabilit des groupes : la valeur de cet indice est dautant plus faible que les groupes sont compacts et
bien spars. Notons que la complexit de lindice de Dunn devient prohibitive ds quon manipule de
grands ensembles dobjets ; il est par consquent rarement utilis.

min{Dmin (Ci , Cj ) : i 6= j}
IDunn = (2.17)
max{Smax (Ci )}

o Dmin (Ci , Cj ) est la distance minimale qui spare un objet du groupe Ci dun objet du groupe Cj et o
Smax (Ci ) est la distance maximale qui spare deux objets du groupe Ci :

Dmin (Ci , Cj ) = min {kx yk : x Ci et y Cj }


Smax (Ci ) = max {kx yk : (x, y) Ci Ci }

2.5.3 Indice de Davies-Bouldin


Dans le cas dune classification dure, lindice de Davies-Bouldin [DB79] tient compte la fois de la
compacit et de la sparabilit des groupes : la valeur de cet indice est dautant plus faible que les groupes
sont compacts et bien spars. Cet indice dont la complexit en (K (N + K)) est raisonnable favo-
rise les groupes hypersphriques et il est donc particulirement bien adapt pour une utilisation avec la
mthode des K-moyennes.
K  
1 X Sc (Ck ) + Sc (Cl )
IDB = max (2.18)
K l6=k Dce (Ck , Cl
k=1
18 C HAPITRE 2 Classification non-supervise

o Sc (Ci ) est la distance moyenne entre un objet du groupe Ci et son centre, et o Dce (Ci , Cj ) est la
distance qui spare les centres des groupes Ci et Cj :
Ni
1 X
Sc (Ci ) = kx i k
Ni
i=1
Dce (Ci , Cj ) = ki j k

2.5.4 Indice de compacit Wemmert et Ganarski


Lindice Wemmert et Ganarski considre la fois la compacit et la sparabilit des groupes et
sappuie sur le rapport entre deux distances [Bla06] : la distance dun objet au centre de son groupe et la
distance minimale au centre dun autre groupe. Il se dfinit ainsi pour un groupe :

1 X kx i k
IW G (Ci ) = max 0 ; 1 (2.19)
Ni min{kx j k : j 6= i}
xCi

et la valeur de cet indice pour une partition correspond la moyenne pondre de lindice de chacun des
groupes :
K
1 X
IW G = Ni IW G (Ck ) (2.20)
N
i=1

2.5.4.1 Indice de Xie et Beni


Dans le cas dune classification floue, il est frquent dutiliser lindice de Xie et Beni pour prendre
en considration la fois la compacit et la sparabilit des groupes. On le dfinit partir de lerreur
quadratique moyenne floue FMSE pour une valeur du paramtre f = 2 de la manire suivante :
F M SE
IXB = (2.21)
min{kx yk2 : (x, y) Ci Cj }
Notons que ce critre peut galement tre utilis avec une classification dure en remplaant lerreur
quadratique floue par lerreur quadratique moyenne.

2.5.5 Indices propres aux cartes auto-organises


De nombreux indices de qualit ont t dvelopps pour les cartes auto-organises et nous nintro-
duisons ici que les plus utiliss ; le lecteur intress est invit consulter [P04] pour approfondir cette
question.

2.5.5.1 Erreur de quantification


Les cartes auto-organises font partie des mthodes de quantification vectorielle et il semble donc
naturel de les valuer laide de lerreur de quantification moyenne que lon dfinit ainsi :
X N
1
Qerr = xi b(i) (2.22)
N
i=1

o b(i) est lindice du prototype le plus proche de lobservation xi .


C HAPITRE 2 Classification non-supervise 19

2.5.5.2 Taux derreurs topologiques


Les cartes auto-organises sont aussi une mthode de projection de donnes multidimensionnelles sur
un espace de faible dimension et le taux derreurs topologiques permet de quantifier la conservation de la
topologie locale de lespace des observations par la carte. On considre quil y a une erreur topologique
chaque fois que les deux prototypes les plus proches dune observation ne sont pas voisins sur la carte.
Le taux derreur topologique peut se dfinir ainsi :
N
!
1 X
Terr = 1 1|N (b(i)) arg min kx j k (2.23)
N j6=i
i=1

o 1|N (b(i)) est la fonction indicatrice de lensemble des voisins du prototype le plus proche de lobser-
vation xi .

2.5.5.3 Mesure de distortion


La mesure de distortion permet de prendre en considration les deux aspects voqus dans les para-
graphes prcdents (qualit de la quantification et conservation de la topologie locale) et elle sapparente
lerreur quadratique floue o les degrs dappartenance seraient remplacs par la fonction de voisinage :
N X
X
distortion = hb(i)j kx j k2 (2.24)
i=1 j

o hb(i)j est la fonction de voisinage. Rappelons que cette mesure peut tre dcompose en trois termes
[VSH03] qui correspondent la variance des donnes dans la rgion de Vorono de chaque unit, la
qualit topologique de la carte et la pression lie au compromis entre quantification et conservation
topologique.
20 C HAPITRE 2 Classification non-supervise

Figure 2.3 Cas dune couronne : dans le cas dune couronne, une CAH utilisant lindice du saut mini-
mum identifiera parfaitement les deux groupes, en revanche lutilisation de la distance entre les centrodes
conduira une classification sans rel intrt.

Figure 2.4 Cas de deux anneaux : lorsque les groupes ne sont pas suffisamment spars, lutilisation
de lindice du saut minimum est proscrire car elle conduirait ce quon appelle effet de chane :
les groupes sont fusionns de proche en proche et la CAH se rvle incapable de mettre en exergue
les deux anneaux. La distance entre les centrodes ou le critre de Ward conduisent dans ce cas des
classifications plus pertinentes.

Figure 2.5 Algorithme des K-moyennes : chaque groupe est reprsent par un prototype, encore appel
centre, et chaque objet est affect au groupe dont il est le plus proche.
C HAPITRE 2 Classification non-supervise 21

Figure 2.6 Architecture du rseau pour lalgorithme des cartes topologiques.

Figure 2.7 La rpartition des observations dans lespace des formes est donne par la figure la plus
gauche. Les 3 autres figures montrent le droulement de lapprentissage et de lauto-organisation des
rfrents associs aux neurones de la carte topologique.
C HAPITRE 3
Comparaison de
partitions
La comparaison de partitions est un problme clef de la classification automatique. Elle est notam-
ment la base des critres externes dvaluation de partitions voqus au chapitre prcdent et elle permet
galement dvaluer la stabilit dun algorithme de classification automatique. Nous lui consacrons ce
chapitre qui synthtise et complte les travaux rcents de Marina Meila [Mei03, Mei05, Mei06].

3.1 Espace des partitions


3.1.1 Quelques dfinitions
La notion de partition peut tre aborde selon deux approches complmentaires : on peut soit adopter
une vision ensembliste, soit se placer dans le cadre de la thorie des graphes. Dans le dernier cas, len-
semble des objets est reprsent par un graphe complet non orient G = (V, E) dont lensemble des
sommets V est en bijection avec lensemble des objets. Dans un soucis de simplification des notations,
on identifie les sommets aux objets et on a ainsi : V = et E = .

Dfinition 3.1.1 (Partition) Une partition C dun ensemble est une famille finie de parties non vides
de disjointes deux deux dont lunion est . Ceci sexprime formellement de la manire suivante :
( K
)
M
C = Ci P() \ {} : Ci = (3.1)
i=1

Du point de vue de la thorie des graphes, une partition C de lensemble des objets est reprsente
par la fermeture transitive1 dun graphe partiel de G = (, ) que lon notera (C).

Dfinition 3.1.2 (Raffinement) Une partition C est un raffinement dune partition C si elle est obtenue
en divisant une partie Ci en deux sous-parties Ci et Ci . Formellement, on a :

C = {Cj C : j 6= i} {Ci , Ci : Ci Ci = Ci } (3.2)

Le graphe (C) est alors gal la fermeture transitive dun graphe obtenu en ajoutant une arrte unique
au graphe (C ).

Lextension par transitivit de la notion de raffinement introduite ci-dessus permet de dfinir une relation
dordre partiel sur lensemble des partitions :
1
La fermeture transitive dun graphe est obtenue en saturant lensemble des arrtes sans diminuer le nombre de composantes
connexes.
24 C HAPITRE 3 Comparaison de partitions

Figure 3.1 Treillis des partitions dun ensemble de donnes comportant quatre exemples.

Dfinition 3.1.3 (Ordre partiel sur lensemble des partitions ) On dit quune partition C est plus
fine quune partition C, si celle-ci est obtenue par raffinement successif de C et on note C C. Le
graphe (C ) est alors un sous-graphe de (C).
Lensemble des partitions de muni de la relation dordre partiel (cf. dfinition 3.1.3) est un treillis ; la
figure 3.1 en donne une illustration pour le cas dun ensemble de donnes comportant quatre exemples.
Les bornes infrieure et suprieure de ce treillis sont notes respectivement 0 et 1 ; elles comportent
respectivement tous les singletons de P() et lensemble .

Notations : Introduisons quelques notations additionnelles utilises par la suite :


Ci1 = { \ {xi }, {xi }}
0
C{i,j} = {{{xk } : k / {i, j}} , {xi , xj }}

Dfinition 3.1.4 (Produit de partitions) Le produit de p partitions C (i) est la borne suprieure de len-
semble des partitions qui sont simultanment plus fines que toutes les partitions C (i) :
p
( p )
Y \
(i) (i)
C = sup {C : C C } (3.3)
i=1 i=1
C HAPITRE 3 Comparaison de partitions 25

Autrement dit, le produit dun ensemble de partitions C (i) est la partition forme de lunion des inter-
(i) Qp 
sections non vides des classes Ck . Si E (i) est lensemble des arrtes de (C (i) ), alors i=1 C (i) =
T 
, pi=1 E (i) est un sous-graphe de chaque (C (i) ).

3.1.2 Outil de comparaison

Tableau de contingence

Dun point de vue ensembliste, pour comparer deux partitions C et C dun mme ensemble de don-
nes , on commence gnralement par construire un tableau de contingence C = (nij ), o nij est le
nombre dobjets qui appartiennent simultanment la classe Ci et Cj . Un exemple en est donn la figure
3.2, o ni. , n.j et N dsignent respectivement les marges de la ligne i et de la colonne j, et la somme des
marges.

C1 ... Cj ... CK

C1 n11 ... n1j ... n1K n1.


.. .. .. .. .. .. ..
. . . . . . .
Ci ni1 ... nij ... niK ni.
.. .. .. .. .. .. ..
. . . . . . .
CK nK1 ... nKj ... nKK nK.
n.1 ... n.j ... n.K N

Figure 3.2 Tableau de contingence de deux partitions

Tableau de comptage des accords et des dsaccords

Lorsquon se place dans le cadre de la thorie des graphes, pour comparer deux graphes (C) et (C )
on commence gnralement par comptabiliser le nombre dartes du graphe complet qui sont absentes
ou prsentes dans les deux graphes, ou encore celle qui napparaissent que dans un des deux graphes. On

Partition C
1 0
1 N11 = # E E N10 = # E E
Partition C
0 N01 = # E E N00 = # E E

Figure 3.3 Tableau de comptage des paires

obtient alors le tableau de la figure 3.3 o E, E , E et E sont respectivement les ensembles darrtes
de (C) et (C ), et les ensembles darrtes du graphe complet absentes de (C) et (C ). Notons que
la somme des quatre valeurs N11 , N00 , N10 et N01 satisfait la relation suivante :

1
N11 + N00 + N10 + N01 = N (N 1) (3.4)
2
26 C HAPITRE 3 Comparaison de partitions

Relation entre les deux types de tableau

Il convient de rappeler que le tableau 3.3 peut tre construit partir du tableau de contingence 3.2 en
utilisant les formules suivantes [HA85] :

K K
1 XX
N11 = nij (nij 1) (3.5)
2
i=1 j=1

X K XK X K XK
1 2
N00 = n + n2ij n2i. + n2.j (3.6)
2
i=1 j=1 i=1 j=1


K K K
1 X 2 X X 2
N01 = n.j nij (3.7)
2
j=1 i=1 j=1

XK XK X K
1
N10 = n2i. n2ij (3.8)
2
i=1 i=1 j=1

Les deux types de tableau introduits ci-dessus permettent dapprcier qualitativement la similarit de
deux partitions et de construire de nombreux critres quantitatifs de comparaison de partitions auquels
sont consacrs les les deux prochaines sections.

3.2 Comparaison par comptage de paires et distances binaires


Lorsquon adopte une reprsentation des partitions sous forme de graphe, il convient de remarquer
que les critres de comparaison que lon peut construire partir de N11 , N10 , N01 et N00 correspondent
des mesures de dissimilarit binaires dont un grand nombre peuvent sexprimer sous la forme suivante
[Li06] :
N10 + N01
d, = (3.9)
N11 + N10 + N01 + N00
o et sont deux paramtres qui permettent de pondrer la prise en compte respective des prsences
ou absences simultanes dune arrte dans deux partitions. La table 3.1 rappelle la dfinition de quelques
mesures et le lecteur intress en trouvera une prsentation plus complte de ces mesures ou de leur
proprit dans [JKV01, LLB04, Rou85, Li06].

3.2.1 Prcision, Rappel et Critres associs


Lindice de prcision et le coefficient de rappel sont des mesures asymtriques de similarit entre
deux partitions dont lune sert de rfrence.

Dfinition 3.2.1 (Indice de prcision) Lorsque la partition C sert de rfrence, lindice de prcision
indique la probabilit que deux objets soient regroups dans la partition C sils le sont dans la partition
C:
N11
prec(C, C ) = (3.10)
N11 + N01
C HAPITRE 3 Comparaison de partitions 27

Mesure Similarit Dissimilarit Mtrique

1
N
2 11 N10 +N01 1
Sokal & Sneath (I) 1
N +N10 +N01 1
N +N10 +N01 2 0 oui
2 11 2 11

1
2
(N11 +N00 ) N10 +N01 1 1
Rogers & Tanimoto 1
(N11 +N00 )+N10 +N01 1
(N11 +N00 )+N10 +N01 2 2 oui
2 2

N11 N10 +N01


Jaccard N11 +N10 +N01 N11 +N01 +N10 1 0 oui

N11 +N00 N10 +N01


Simple corresp. N11 +N10 +N01 +N00 N11 +N10 +N01 +N00 1 1 oui

2N11 N10 +N01


Czekanowski-Dice 2N11 +N10 +N01 2N11 +N10 +N01 2 0 non

2(N11 +N00 ) N10 +N01


Sokal & Sneath (II) 2(N11 +N00 )+N10 +N01 2(N11 +N00 )+N10 +N01 2 2 non
   
1 N11 N11 1 N11 N11
Kulczynski (II) 2 N11 +N10 + N11 +N01 1 2 N11 +N10 + N11 +N01 nd nd

N11 N11
Ochiai 1 nd nd
(N11 +N10 )(N11 +N01 ) (N11 +N10 )(N11 +N01 )

N11 N11
Russel & Rao N11 +N10 +N01 +N00 1 N11 +N10 +N01 +N00 nd nd oui

Table 3.1 Quelques mesures de similarit et de dissimilarit binaire.

Dfinition 3.2.2 (Coefficient de rappel) Lorsque la partition C sert de rfrence, le coefficient de rap-
pel indique la probabilit que deux objets soient regroups dans la partition C sils le sont dans la
partition C :
N11
rapp(C, C ) = (3.11)
N11 + N10

Ces deux critres prennent leurs valeurs sur lintervalle [0; 1], mais une valeur de 1 de lun ou lautre de
ces indices ne doit pas tre interprte comme lidentit des partitions. Un moyen simple de combiner ces
deux critres consistent prendre leurs moyennes arithmtique, gomtrique et harmonique. Nous obte-
nons ainsi respectivement le deuxime coefficient de Kulczynski, lindice de Folkes & Mallows qui nest
autre que le coefficient de Ochiai et la F1 -mesure qui sidentifie au coefficient de Czekanowski-Dice,
galement appel coefficient de Srensen. Ces trois mesures sont symtriques, prennent leurs valeurs sur
lintervalle [0; 1] et sont gales 1 si et seulement si les deux partitions sont identiques.

Dfinition 3.2.3 (2me coefficient de Kulczynski) Le deuxime coefficient de Kulczynski se dfinit comme
la moyenne arithmtique de lindice de prcision et du coefficient de rappel :
1 
K(C, C ) = prec(C, C ) + rapp(C, C ) (3.12)
2
A lorigine propos pour comparer deux classifications hirarchiques [FM83], lindice de Folkes & Mal-
lows peut tre utilis pour comparer deux partitions dun mme ensemble dobjets. Dans un commentaire
28 C HAPITRE 3 Comparaison de partitions

de larticle original, David L. Wallace remarque quil sexprime comme la moyenne gomtrique du co-
efficient de rappel et de lindice de prcision [HA85, Mei03, Mei06, Wal83].

Dfinition 3.2.4 (Indice de Folkes & Mallows) Lindice de Folkes & Mallows est dfini comme la moyenne
gomtrique de lindice de prcision et du coefficient de rappel :
p
F M (C, C ) = prec(C, C ) rapp(C, C ) (3.13)

Dfinition 3.2.5 (F -mesure) La F -mesure est dfinie comme la moyenne harmonique de lindice de
prcision et du coefficient de rappel :
2 prec(C, C ) rapp(C, C )
F (C, C ) = (3.14)
prec(C, C ) + rapp(C, C )
En utilisant une moyenne harmonique pondre, on dfinit la F -mesure qui gnralise la F -mesure de
la manire suivante :
(1 + ) prec(C, C ) rapp(C, C )
F (C, C ) = (3.15)
prec(C, C ) + rapp(C, C )
o est un coefficient de pondration strictement positif dont les valeurs les plus couramment utilises
sont 1, 12 et 2. Notons que pour tout 6= 1, la F -mesure est asymtrique.

3.2.2 Indice de Rand & Mtrique de Mirkin


Lindice de Rand, qui indique la proportion des paires dobjets pour lesquelles deux partitions sont
concordantes, correspond la mesure de similarit binaire simple correspondance et prend ainsi ses
valeurs sur [0; 1].
Dfinition 3.2.6 (Indice de Rand) Lindice de Rand qui prend ses valeurs sur lintervalle [0; 1] est d-
fini de la manire suivante :
N11 + N00
R(C, C ) = (3.16)
N11 + N00 + N10 + N01
Il convient dintroduire ici la mtrique de Mirkin qui est une forme normalise de la mesure de dissimi-
larit associe lindice de Rand [Mei05, Mei06] :
Dfinition 3.2.7 (Mtrique de Mirkin) La mtrique de Mirkin est dfinie comme le nombre dartes
qui nexistent que dans une seule des deux partitions :
M (C, C ) = 2(N10 + N10 ) (3.17)
 
= N (N 1) 1 R(C, C ) (3.18)

3.2.3 Similarit & hasard


Similarit due au hasard
Comme cela a t soulign par de nombreux auteurs [FM83, HA85, Mei06], les valeurs prises par
les diffrents indices prsents au dbut de cette section ne prennent gnralement pas toutes les valeurs
de lintervalle [0; 1] et une part de la similarit entre deux partitions peut tre attribue au hasard. Il est
nanmoins possible de corriger la valeur dun indice pour liminer la part de similarit due au hasard :
indice E[indice]
indice = (3.19)
1 E[indice]
C HAPITRE 3 Comparaison de partitions 29

o E[indice] dsigne son esprance sous lhypothse dindpendance des partitions compares. On sup-
pose alors que les deux partitions sont obtenues de faon indpendante et quelles sont choisies alatoi-
rement parmi lensemble des partitions respectant les sommes marginales ni. et n.j du tableau de contin-
gence 3.2. Outre le fait que cette normalisation peut conduire thoriquement des valeurs ngatives de
lindice normalis, la vraisemblance de lhypothse utilise peut tre remise en cause [Mei06, Wal83].
En effet, la plupart des algorithmes de classification supposent le nombre de classes connu mais ne
permettent den spcifier les effectifs. Soulignons par ailleurs que dans le cadre dune dmarche explo-
ratoire, il semblerait bien peu naturel de devoir indiquer la rpartition des effectifs dans les diffrents
groupes dobjets.

Test de Mc Nemar

Le test de Mc Nemar est un test non paramtrique qui peut tre utilis pour comparer lgalit de deux
proportions dans des chantillons apparis [You04]. En ladaptant lensemble des accords et dsaccords
entre deux partitions, on peut vrifier lhypothse nulle que les dsaccords entre ces dernires sont le fruit
de regroupements ou de sparations dobjets ds au hasard. On obtient un nouveau critre de comparaison
de partitions.

Dfinition 3.2.8 (Test de Mc Nemar) tant donnes deux partitions C et C , la statistique de Mc Nemar
suit approximativement une loi normale sous lhypothse nulle et est dfinie ainsi

N10 N01
MN = (3.20)
N10 + N01

En prenant la valeur absolue de la statistique, on obtient un critre de comparaison positif et symtrique


dont la nullit ne doit pas tre interprte comme lgalit des partitions.

3.3 Comparaison par mise en correspondance densembles


La section prcdente tait consacre la prsentation de mesures de similarit bases sur un comp-
tage des paires dobjets regroups (ou spars) en accord ou en dsaccord entre deux partitions. On
sintresse dans cette section une famille plus riche de mesures dfinies partir du tableau de contin-
gence C = (nij ) o nij est le nombre dobjets qui appartiennent simultanment la classe Pi et la
classe Pj . On notera respectivement ni. et n.j les marges de la ligne i et de la colonne j. La figure 3.2
illustre notre propos et les quations (3.5) (3.8) montrent comment calculer les indices de la section
prcdente partir du tableau de contingence.

3.3.1 Critre de Larsen


Dfinition 3.3.1 (Critre de Larsen) Pour chaque classe Pi , on recherche la classe Pj qui maximise la
moyenne harmonique de la part respective des objets de Pi Pj dans les classes Pi et Pj . Le critre de
Larsen sexprime alors comme la moyenne arithmtique de ces moyennes harmoniques maximales :

K
1 X 2nij
L(P, P ) = max (3.21)
K j=1,...,K ni. + n.j
i=1
30 C HAPITRE 3 Comparaison de partitions

Lassymtrie du critre propos par Larsen nest pas sans poser de problme [Mei06]. Considrons la
situation o la partition P comporte pour seule partie lensemble de tous les objets et o la partition
P est obtenue partir de P en sparant de deux petites parties comportant chacune N.f objets, avec
0 < f 12 . On obtient alors :
1 2f
L(P, P ) =
1f
> (1 2f )
ce qui apparat raisonnable, en revanche :
1 1 + 2f
L(P , P ) =
3 1f
1
lim L(P, P ) =
f 0 3
Contre toute attente, le critre de Larsen converge vers 31 lorsque f tend sannuler et que les partitions
P et P nous paraissent intuitivement de plus en plus semblables.

3.3.2 Critre de Meila & Heckerman


Dfinition 3.3.2 (Critre de Meila & Heckerman) Le critre de Meila & Heckerman est une mtrique
qui repose sur le taux derreurs de classement commises par une partition P relativement une partition
P [Mei05, Mei06]. Il sexprime ainsi :
X K
1
H =1 max ni(i) (3.22)
N :P P
i=1

o est une injection de P dans P .

Signalons que la recherche de la mise en correspondance optimale des classes de P et de P ne ncessite


pas dnumrer toutes les injections possibles (min{K!, K !}) mais quelle peut tre calcule en temps
polynomial [Mei05].

3.3.3 van Dongen


Dfinition 3.3.3 (Critre de van Dongen)
K K
X X

D(P, P ) = 2N max nij max nij (3.23)
j=1,...,K i=1,...,K
i=1 j=1

3.3.4 Indice de Wemmert & Ganarski


Dfinition 3.3.4 (Coefficient de rpartition) Intuitivement, le coefficient de rpartition i mesure la
propension des objets de la classe Pi se regrouper dans la partition P . Plus formellement, il est
dfini comme la somme des parts de la classe Pi prsentes dans la classe Pj au carr :
K  

X nij 2
Pi = (3.24)
ni.
j=1
C HAPITRE 3 Comparaison de partitions 31

Le coefficient de rpartition prend ses valeurs sur lintervalle [ K1 ; 1] ; la valeur minimale est atteinte2
lorsque les objets de la classe Pi sont rpartis uniformment dans les diffrentes classes de la partition
P et une valeur de 1 indique que les objets de Pi sont regroups au sein dune mme classe de la partition
P .

Dfinition 3.3.5 (Critre local de similitude) Le critre local de similitude dune classe Pi dans une
partition P value si Pi est similaire lune des classes de P . Il est dfini de la manire suivante :
 
P P nij
wgi = i max (3.25)
j=1,...,K ni.
2
Le critre local de similitude prend ses valeurs sur lintervalle [ K1 ; 1] ; il prend sa valeur minimale3
lorsque les objets de la classe Pi sont rpartis uniformment dans les diffrentes classes de la partition
P et la valeur 1 si une des classes de la partition P est gale Pi .

Dfinition 3.3.6 (Indice de Wemmert & Ganarski) Lindice de Wemmert & Ganarski est la moyenne
des critres locaux de similitude des classes de la partition P dans la partition P et des classes de P
dans la partition P ; il sexprime ainsi :

XK K
X
1 1 1
W G(P, P ) = wgiP + wgjP (3.26)
2 K K
i=1 j=1

+K 2 2
Lindice de Wemmert & Ganarski prend ses valeurs sur lintervalle [ K 2K 2 K 2
; 1]. La valeur minimale est

atteinte lorsque les classes de P se rpartissent uniformment dans P et rciproquement ; cette situation
est illustre par la figure 3.4. La valeur de 1 est atteinte si les deux partitions sont identiques.

P P P P

Figure 3.4 Cas de deux partitions dont les classes se rpartissent uniformment lune dans lautre.

3.4 Proprits souhaitables


Bien que lespace des partitions dun ensemble fini dexemples soit fini, sa cardinalit est super
exponentielle et sa structure est suffisamment complexe pour dfier notre intuition. Marina Meila propose
diffrentes proprits qui permettent de rendre plus intuitive une mesure de dissimilarit entre partitions
notament en lalignant sur la structure de treillis dfinie la section prcdente [Mei05, Mei06].
2
On suppose ici que le nombre dobjets n.i de chaque classe Pi est un multiple de K .
3
On suppose ici que le nombre dobjets n.i de chaque classe Pi est un multiple de K et que le nombre dobjets nj. de
chaque classe Pj est un multiple de K.
32 C HAPITRE 3 Comparaison de partitions

Il est communment admis que lesprit humain est gnralement plus familier avec une mtrique
quavec une fonction quelconque de deux variables. Les proprits dune mtrique, et tout particulire-
ment la symtrie et lingalit triangulaire, facilitent alors sa perception. Ensuite, lingalit triangulaire
nous indique que deux lments de lespace proches dun troisime ne peuvent pas tre trs loigns lun
de lautre. Cette particularit est intressante pour concevoir des structures de donnes et des algorithmes
efficaces. Enfin, cette proprit nous ne limite plus la comparaison de deux classifications mais permet
denvisager une analyse fine dun ensemble plus important de classifications.
Ensuite, dans loptique de comparer les rsultats obtenus sur diffrents jeux de donnes, par un ou
plusieurs algorithmes de classification4 , il est ncessaire de disposer dun critre dont la valeur ne dpend
pas du nombre dobjets prsents dans lensemble partitionner. Cette considration nous amne dfinir
la proprit suivante :
Dfinition 3.4.1 (N -invariance) Un critre d est N -invariant si sa valeur ne dpend pas directement du
nombre total dobjets.
Dfinissons maintenant trois proprits dadditivit par rapport aux diffrentes oprations disponibles
sur les partitions :
Dfinition 3.4.2 (Additivit par raffinement) On dit quun critre d respecte la proprit dadditivit
par raffinement si et seulement si pour toutes partitions C, C et C telles que C C et C C, on a :

d(C, C ) = d(C, C ) + d(C , C ) (3.27)

Dfinition 3.4.3 (Additivit par jointure) On dit quun critre d respecte la proprit dadditivit par
jointure si et seulement si pour toutes partitions C et C on a :

d(C, C ) = d(C, C C ) + d(C , C C ) (3.28)

Dfinition 3.4.4 (Additivit par composition) On dit quun critre d respecte la proprit dadditivit
par composition si et seulement si pour toutes partitions C et C on a :
K
X nk
d(C, C ) = d(Ck , Ck C ) (3.29)
N
k=1

o nk est le cardinal de la classe Ck et N est le nombre total dobjets.

Les trois proprits dadditivit dfinies ci-dessus permettent calculer les critres entre diffrentes parti-
tions prises deux deux de manire incrmentale, ceci peut tre particulirement intressant lorsque son
calcul est coteux et quon souhaite tudier le parcours dun algorithme dans lespace des partitions. Au
del de cet aspect purement calculatoire, ces proprits sappuient sur la structure de treillis et facilitent
ainsi la comprhension du critre de comparaison et de la structure quil engendre.

3.5 Variation dinformation


Un nouveau critre de comparaison de partitions issu de la thorie de linformation est propos
dans [Mei03, Mei05, Mei06] : la Variation dInformation (V I). La V I quantifie linformation que la
connaissance dune partition apporte sur une autre.
4
en comparant par exemple le rsultat une partition de rfrence
C HAPITRE 3 Comparaison de partitions 33

3.5.1 Dfinitions
Dfinition 3.5.1 (Entropie associe une partition) Lentropie associe une partition C = {C1 , . . . , CK }
mesure lincertitude de la variable alatoire X dont la valeur correspond lindice de la classe dun
objet prlev alatoirement dans lensemble . Elle est dfinie ainsi :
K
X
H(C) = P (X = i) log2 P (X = i) (3.30)
i=1

Notons que lentropie dune partition est toujours positive et prend la valeur 0 lorsquil ny a aucune
incertitude quant lappartenance dun objet une classe ; ce cas de figure se prsente lorsque C = 1.
La valeur maximale de 1 est atteinte lorsque les objets se rpartissent de manire uniforme dans deux
classes diffrentes.

Dfinition 3.5.2 (Information mutuelle entre deux partitions) Linformation mutuelle entre deux par-
titions C et C quantifie linformation apporte par la variable alatoire X associe C sur la variable
alatoire X associe C et rciproquement. Elle se dfinit de la manire suivante :
K
K X
X P (X = i, X = i )

I(C, C ) = P (X = i, X = i ) log2 (3.31)
P (X = i)P (X = i )
i=1 i =1

Daprs la dfinition ci-dessus, linformation mutuelle entre deux partitions est symtrique et toujours
positive. Ajoutons quelle ne peut en aucun cas dpasser lentropie de lune ou lautre des partitions.

I(C, C ) 0 (3.32)

I(C, C ) = I(C , C) (3.33)

I(C, C ) min{H(C), H(C )} (3.34)

Notons que lorsque C 4 C on a alors

I(C, C ) = H(C ) H(C )

Ainsi, lorsque deux partitions C et C sont gales, on a : I(C, C ) = H(C ) = H(C )

Dfinition 3.5.3 (Variation dInformation) La variation dinformation entre C et C peut tre vue comme
la somme de linformation sur C que lon perd et de linformation sur C que lon gagne lorsquon passe
de la partition C la partition C . Ceci est formul de manire quivalente par les diffrentes expressions
suivantes :

V I(C, C ) = H(C|C ) + H(C |C) (3.35)



= [H(C) I(C, C )] + [H(C ) I(C, C )] (3.36)

= H(C) + H(C ) 2I(C, C ) (3.37)

3.5.2 Proprits
Une mtrique sur lensemble des partitions
Proprit 3.5.1 La variation dinformation est une mtrique sur lensemble des partitions ; ainsi, pour
toutes partitions C, C et C , elle prsente les proprits suivantes
34 C HAPITRE 3 Comparaison de partitions

1. Positivit : V I(C, C ) est toujours positif


2. Sparabilit : V I(C, C ) sannule si et seulement si les deux partitions sont gales.
3. Symtrie : V I(C, C ) = V I(C , C).
4. Ingalit triangulaire : V I(C, C ) + V I(C , C ) V I(C, C )

Bornes suprieures
Proprit 3.5.2 La valeur de V I(C, C ) ne dpend que des tailles relatives des classes et non du nombre
total dobjets.

Proprit 3.5.3 La borne suprieure suivante est atteinte quel que soit le nombre total dobjets N :

V (C, C ) log N (3.38)



Proprit 3.5.4 Si C et C sont deux partitions formes dau plus K classes chacune, avec K N ,
alors :
V I(C, C ) = 2 log K (3.39)

Le voisinage local induit


Proprit 3.5.5 (Partage dune classe) La variation dinformation entre une partition C et la partition
C obtenue en partageant la classe Ci en sous-groupes Ci1 , . . . , Cik est gale :

V I(C, C ) = P (X = i)H|i (3.40)

o X est la variable alatoire associe la partition C et o H|i est lentropie associe la partition
Ci1 , . . . , Cik de la classe Ci .

Corollaire 3.5.1 Daprs la proprit 3.5.5, nous avons :


1. Si la partition C est obtenue en partageant la classe Ci en k sous-groupes de mme taille, alors :

V I(C, C ) = P (X = i) log2 k (3.41)

o X est la variable alatoire associe la partition C.


2. Si la partition C est obtenue en sparant un point de la classe Ci pour former un singleton, alors

1
V I(C, C ) = [ni log2 ni (ni 1) log2 (ni 1)] (3.42)
N

Proprit 3.5.6 (Additivit par jointure) La variation dinformation est additive par jointure, ainsi
pour toute partition C et C , on a :

V I(C, C ) = V I(C, C C ) + V I(C , C C ) (3.43)

Corollaire 3.5.2 Le plus proche voisin C dune partition C quelconque est comparable avec celle-ci ;
soit C C soit C C .
C HAPITRE 3 Comparaison de partitions 35

Corollaire 3.5.3 Pour toutes partitions C et C ,

V I(C, C ) V I(C, C C ) (3.44)

avec lgalit si et seulement si C = C .

6 C,
Corollaire 3.5.4 Pour toutes partitions C =
2
V I(C, C ) (3.45)
N
avec lgalit lorsque C est obtenue en fusionnant deux classes de C ou linverse.

Proprit 3.5.7 (Additivit par composition) tant donnes trois partitions C = {C1 , . . . , CK }, C C
et C C, la variation dinformation est additive par composition et vrifie :
K
X
V I(C , C ) = P (X = i)V I(Ck C , Ck C ) (3.46)
i=1

Proprit 3.5.8 (Unicit) La variation dinformation est le seul critre de comparaison de partition d
qui :
est additif par composition,
est additif par jointure,
pour toute partition C, vrifie d(1, C) + d(C, 0) = d(1, 0)
lorsque la partition CKU avec K classes de mme effectif existe, vrifie d(1, C U ) = log K.
K

Remarque : La proprit qui snonce pour toute partition C, d(1, C) + d(C, 0) = d(1, 0) peut
tre vue comme une version affaiblie de ladditivit par raffinement dont elle est un cas particulier.
Nanmoins, on peut montrer quun critre qui vrifie galement ladditivit par composition est additif
par raffinement.

3.6 Conclusion
Au cours de ce chapitre consacr la problmatique de comparaison de partitions, nous avons in-
troduit les notions ncessaires lapprhension des critres classiques qui ont t prsents. La liste des
proprits que Marina Meila a proposes comme tant intressantes a ensuite t rappele avant din-
troduire la variation dinformation qui nous semble un critre de comparaison trs pertinent. Rappelons
que la comparaison de partitions est la base de nombreux critres externes dvaluation de partitions et
quelle permet galement dvaluer la stabilit dun algorithme de classification automatique. Ce dernier
point est particulirement intressant lorsquon utilise des techniques de rchantillonnage pour fixer les
paramtres dun algorithme comme le nombre de classes.
C HAPITRE 4
Rduction de dimension
4.1 Introduction
La taille des donnes peut tre mesure selon deux dimensions, le nombre de variables et le nombre
dexemples. Ces deux dimensions peuvent prendre des valeurs trs leves, ce qui peut poser un problme
lors de lexploration et lanalyse de ces donnes. Pour cela, il est fondamental de mettre en place des ou-
tils de traitement de donnes permettant une meilleure comprhension de la valeur des connaissances
disponibles dans ces donnes. La rduction des dimensions est lune des plus vieilles approches permet-
tant dapporter des lments de rponse ce problme. Son objectif est de slectionner ou dextraire un
sous-ensemble optimal de caractristiques pertinentes pour un critre fix auparavant. La slection de
ce sous-ensemble de caractristiques permet dliminer les informations non-pertinentes et redondantes
selon le critre utilis. Cette slection/extraction permet donc de rduire la dimension de lespace des
exemples et de rendre lensemble des donnes plus reprsentatif du problme. En effet, les principaux
objectifs de la rduction de dimension sont :
faciliter la visualisation et la comprhension des donnes,
rduire lespace de stockage ncessaire,
rduire le temps dapprentissage et dutilisation,
identifier les facteurs pertinents.
Les algorithmes dapprentissage artificiel requirent typiquement peu de traits - features - ou de
variables - attributs - trs significatives caractrisant le processus tudi. Dans le domaine de la recon-
naissance des formes et de la fouille de donnes, il pourrait encore tre bnfique dincorporer un module
de rduction de la dimension dans le systme global avec comme objectif denlever toute information
inconsquente et redondante. Cela a un effet important sur la performance du systme. En effet le nombre
de caractristiques utilises est directement li lerreur finale. Limportance de chaque caractristique
dpend de la taille de la base dapprentissage - pour un chantillon de petite taille, llimination dune
caractristique importante peut diminuer lerreur. Il faut aussi noter que des caractristiques individuel-
lement peu pertinentes peuvent tre trs informatives si on les utilise conjointement.
La rduction de la dimension est un problme complexe qui permet de rduire le volume dinforma-
tions traiter et de faciliter le processus de lapprentissage.
Nous pouvons classer toutes les techniques mathmatiques de rduction de dimension en deux
grandes catgories :
la slection de variables : qui consiste choisir des caractristiques dans lespace de mesure,
(figure 4.1)
et lextraction de traits : qui vise slectionner des caractristiques dans un espace transform -
dans un espace de projection (figure 4.2)

Dfinition 4.1.1 (Variables et Traits [Ben01]) Nous appelons "variables" les descripteurs dentre et
"traits" des caractristiques construites partir des variables dentre.
38 C HAPITRE 4 Rduction de dimension

Figure 4.1 Principe de la slection de variables.

Figure 4.2 Principe de lextraction de caractristiques.

La distinction est ncessaire dans le cas des mthodes noyaux pour lesquelles les traits ne sont pas
explicitement calculs.
La premire catgorie est approprie quand lacquisition de mesures des formes est coteuse. Ainsi
lobjectif principal de la slection de caractristiques dans ce cas est de rduire le nombre de mesures
requises. Par contre, les techniques dextraction de traits (deuxime catgorie) utilisent toute linforma-
tion contenue dans les formes pour la compresser et produire un vecteur de plus petite dimension. Ces
techniques projettent un vecteur forme de lespace de reprsentation dans un espace de dimension plus
petite. Les systmes dapprentissage connexionniste sont un bon exemple de cette catgorie. En effet,
les modles connexionnistes conus pour une tache de discrimination fournissent un systme avec des
aptitudes intressantes pour lanalyse du processus. Les cellules caches dun Perceptron multi-couches
apprennent comment extraire les caractristiques significatives du signal dentre.

4.2 Slection de variables


La slection de variable est un problme difficile qui a t tudi depuis les annes 70. Il revient
dans lactualit scientifique avec lapparition des grandes bases de donnes et les systmes de fouille de
donnes Data Mining [LM98, CB02, GGNZar].
La slection de variables a fait lobjet de plusieurs recherches en statistique, et plus particulire-
ment dans des domaines comme la reconnaissance des formes, la modlisation de sries chronologiques
et lidentification de processus. Dans le domaine de lapprentissage, ltude de la problmatique de la
slection de variables est assez rcente. En apprentissage symbolique, de nombreuses mthodes ont t
proposes pour des tches de classement - discrimination. Dans le domaine de lapprentissage connexion-
niste [Ben01, Ben06], la slection de variables a t aborde partir dun problme doptimisation et de
choix darchitectures des modles, ainsi des approches trs intressantes ont merg.
La slection de variables est une problmatique complexe et dune importance cruciale pour les sys-
tmes dapprentissage. Afin de mettre en vidence les deux aspects du processus de la slection de va-
riables, difficult et importance, nous allons prsenter les lments essentiels que ncessite gnralement
C HAPITRE 4 Rduction de dimension 39

ce processus. Une dfinition de la slection de variables peut snoncer de la faon suivante :

Dfinition 4.2.1 (Slection de variables [Ben01]) La slection de variables est un procd permettant
de choisir un sous-ensemble optimal de variables pertinentes, partir dun ensemble de variables origi-
nal, selon un certain critre de performance.

A partir de cette dfinition, on peut se poser trois questions essentielles :


Comment mesurer la pertinence des variables ?
Comment former le sous-ensemble optimal ?
Quel critre doptimalit utiliser ?
Ces trois questions dfinissent les lments essentiels dune procdure de slection de variables. En
effet, le problme de la slection de variables consiste identifier les variables permettant une meilleure
sparation entre les diffrentes classes dans le cas dun classement et une meilleure qualit de prdiction
dans le cas dune rgression. On parle alors de pouvoir discriminant dans le premier cas et de pouvoir
prdictif dans le deuxime cas, pour dsigner la pertinence dune variable. La rponse la premire
question consiste trouver une mesure de pertinence ou un critre dvaluation J(X) permettant de
quantifier limportance dune variable ou dun ensemble de variables X. La deuxime question voque
le problme du choix de la procdure de recherche ou de constitution du sous-ensemble optimal des
variables pertinentes. La dernire question demande la dfinition dun critre darrt de la recherche. Le
critre darrt est gnralement dtermin travers une combinaison particulire entre la mesure de
pertinence et la procdure de recherche.

4.2.1 Critres dvaluation


Lamlioration des performances dun systme dapprentissage par une procdure de slection de
variables ncessite dans un premier temps la dfinition dune mesure de pertinence. Dans le cas dun
problme de classement, on teste, par exemple, la qualit de discrimination du systme en prsence
ou en absence dune variable. Par contre, pour un problme de rgression, on teste plutt la qualit de
prdiction par rapport aux autres variables.
Commenons dabord par dfinir ce qui est la pertinence dune variable (ou dun ensemble de va-
riables).

Dfinition 4.2.2 (Pertinence dune variable [Ben01]) Une variable pertinente est une variable telle
que sa suppression entrane une dtrioration des performances - pouvoir de discrimination en clas-
sement ou la qualit de prdiction en rgression - du systme dapprentissage.

Plusieurs critres dvaluation ont t proposs, bass sur des hypothses statistiques ou sur des
heuristiques. Pour un problme de classement - discrimination -, les critres dvaluation sont souvent
bass sur les matrices de dispersion intra et inter classes. En effet, ces matrices sont directement lies la
gomtrie des classes et donnent une information significative sur la rpartition des classes dans lespace
des formes.
On trouve aussi des critres dvaluation qui utilisent des distances probabilistes ou des mesures
dentropie. Le critre dans ce cas est bas sur linformation mutuelle entre le classement et lensemble
de variables. Dans le cas des systmes dapprentissage connexionnistes, lvaluation des variables se fait
en fonction de limportance des poids qui est dfinie comme le changement de lerreur - de classement
ou de rgression - d la suppression de ces poids.
40 C HAPITRE 4 Rduction de dimension

4.2.2 Procdures de recherche


En gnral, on ne connat pas le nombre optimal m de variables slectionner. Ce nombre dpendra
de la taille et de la qualit de la base dapprentissage - la quantit et la qualit dinformation disponible
- et de la rgle de dcision utilise - le modle. Pour un ensemble de n variables il existe (2n 1)
combinaisons de variables possibles o 2 reprsente deux choix : slectionner ou ne pas slectionner une
variable. La recherche dun sous-ensemble de m variables parmi n engendre un nombre de combinaison
gal :  
n n!
= (4.1)
m (n m)! m!
En grande dimension - trs grande -, le nombre de combinaison examiner devient trs lev et une
recherche exhaustive nest pas envisageable. La recherche dun sous-ensemble optimal de variables est
un problme NP-difficile. Une alternative consiste utiliser une mthode de recherche de type Branch
& Bound, [LM98]. Cette mthode de recherche permet de restreindre la recherche et donne le sous-
ensemble optimal de variables, sous lhypothse de monotocit du critre de slection J(X). Le critre
J(X) est dit monotone si :

Xi X2 . . . Xm :J(X1 ) < J(X2 ) < . . . < J(Xm ) (4.2)

o Xk est lensemble contenant k variables slectionnes.


Cependant, la plupart des critres dvaluation utiliss pour la slection ne sont pas monotones et dans
ce cas on a recours la seule alternative base sur des mthodes sous-optimales comme les procdures
squentielles :
Stratgie ascendante : Forward Selection (FS),
Stratgie descendante : Backward Selection (BS),
Stratgie bidirectionnelle : Bidirectional Selection (BiS).
La mthode FS procde par agrgations successives - par ajouts successifs de variables. Au dpart
lensemble des variables slectionnes est initialis lensemble vide. chaque tape k, on slectionne
la variable qui optimise le critre dvaluation J(Xk ) et on la rajoute lensemble des variables slec-
tionnes Xk . Soit X lensemble des variables, on slectionne la variable xi telle que :

J (Xk ) = max J (Xk1 \ {xi }) (4.3)


xi X\Xk1

Lordre dadjonction des variables lensemble des variables slectionnes produit une liste ordon-
ne des variables selon leur importance. Les variables les plus importantes sont les premires variables
ajoutes la liste. Nanmoins, il faut aussi se rappeler que des variables individuellement peu pertinentes
peuvent tre trs informatives si on les utilise conjointement.
La mthode BS est une procdure inverse de la prcdente - par retraits successifs de variables. On
part de lensemble X complet des variables et on procde par limination. chaque tape la variable la
moins importante selon le critre dvaluation est limine. Le procd continue jusqu ce quil reste
quune seule variable dans lensemble des variables de dpart. ltape k, on supprime la variable xi
telle que :
J (Xk ) = maxxi Xk+1 \ {xi } (4.4)
Une liste ordonne selon lordre dlimination des variables est ainsi obtenue. Les variables les plus
pertinentes sont alors les variables qui se trouvent dans les dernires positions de la liste.
La procdure BiS effectue sa recherche dans les deux directions - Forward et Backward - dune
manire concurrentielle. La procdure sarrte dans deux cas : (1) quand une des deux directions a trouv
C HAPITRE 4 Rduction de dimension 41

le meilleur sous-ensemble de variables avant datteindre le milieu de lespace de recherche ; ou (2) quand
les deux directions arrivent au milieu. Il est clair que les ensembles de variables slectionnes trouvs
respectivement par FS et par BS ne sont pas gaux cause de leurs diffrents principes de slection.
Nanmoins, cette mthode rduit le temps de recherche puisque la recherche seffectue dans les deux
directions et sarrte ds quil y a une solution quelle que soit la direction.

4.2.3 Critres darrt


Le nombre optimal de variables nest pas connu a priori, lutilisation dune rgle pour contrler
la slection-limination de variables permet darrter la recherche lorsque aucune variable nest plus
suffisamment informative. Le critre darrt est souvent dfini comme une combinaison de la procdure
de recherche et du critre dvaluation. Une heuristique, souvent utilise, consiste calculer pour les
diffrents sous-ensembles de variables slectionnes une estimation de lerreur de gnralisation par
validation croise. Le sous-ensemble de variables slectionnes est celui qui minimise cette erreur de
gnralisation. Les diffrentes approches de slection Il existe trois grandes familles dapproches :
Approches Filtres - Filters : ces mthodes slectionnent les variables indpendamment de la m-
thode qui va les utiliser, elles se basent sur les caractristiques de lensemble des donnes afin de slec-
tionner certaines variables et dliminer dautres sous forme de pr-traitement des donnes.
Approches Symbioses - Wrappers : contrairement aux approches filtre qui ignorent totalement
linfluence des variables slectionnes sur la performance de lalgorithme dapprentissage, les approches
enveloppantes utilisent lalgorithme dapprentissage comme une fonction dvaluation.
Approches Intgres - Embedded : ces mthodes excutent la slection variable pendant le pro-
cessus de lapprentissage. Le processus de la slection de variables est effectu paralllement au proces-
sus de classement - ou de la rgression. Le sous-ensemble de variables ainsi slectionnes sera choisi de
faon optimiser le critre dapprentissage utilis.

4.2.4 Slection de variables et apprentissage connexionniste


La slection de variables dans le domaine connexionniste est trs attrayante et soulve de nombreux
enjeux la fois thoriques et applicatifs fondamentaux [Ben01, Ben06]. En effet, dans le cas des rseaux
connexionnistes, le processus de la slection de variables peut tre effectu paralllement au processus de
classement - ou de la rgression. Le sous-ensemble de variables ainsi slectionnes sera choisi de faon
optimiser le critre dapprentissage. En plus, le nombre de variables est directement li larchitecture
et la complexit de la fonction ralisable par le systme connexionniste.
Dans le cas des systmes dapprentissage connexionniste, le nombre de variables est directement
li larchitecture et la complexit de la fonction ralisable par le modle connexionniste. Plusieurs
approches ont t proposes dans la littrature. La plupart de ces techniques emploient la premire ou la
deuxime drive de la fonction de cot par rapport aux poids pour estimer limportance des connexions.
Les mthodes les plus largement employes sont : Optimal Brain Damage (OBD) propose par Le
Cun et al. [LCDS90], et Optimal Brain Surgeon (OBS) [HS93] par Hassibi et Stork qui est une amliora-
tion de la prcdente. Pedersen et al. ont propos OBD et OBS [PHL96], o lestimation de limpor-
tance dun poids est base sur le changement associ dans lerreur de gnralisation si le poids est lagu.
Dautres variantes dOBD et dOBS ont t proposes : Early Brain Damage (EBD) et Early Brain Sur-
geon (EBS) [TNZ96]. On peut citer aussi Optimal Cell Damage (OCD) dveloppe par Cibas et al. dans
[CFGR94] qui est une extension de OBD pour llagage des variables dentre. Ces mthodes se basent
sur lestimation systmatique de limportance dune connexion qui est dfinie comme le changement de
42 C HAPITRE 4 Rduction de dimension

lerreur caus par la suppression de ce poids. Lemploi des drives premires pour la slection de va-
riables peut tre trouv par exemple dans [DPJ+ 96, Moo94, RRK90]. Dautres mthodes de slection de
variables utilisent les paramtres du systme dapprentissage. Certaines de ces mthodes emploient : des
tests statistiques pour valuer un intervalle de confiance pour chaque poids [CGG+ 95], linformation mu-
tuelle pour valuer un ensemble de caractristiques et slectionner un sous-ensemble pertinent [Bat94],
des mesures heuristiques bases sur lestimation de la contribution des variables dans la prise de dci-
sion du systme [BB95, YB97]. Dans le cadre de lapprentissage baysien MacKay et Neal proposent
une mthode de slection de variables Automatic Relevance Determination (ARD) [Mac94, Nea94]. Cette
mthode utilise des hypothses de normalit sur la rpartition des poids du rseau.
Dans les paragraphes qui suivent, nous allons dtailler quelques mthodes en les regroupant par type.
Les mthodes connexionnistes de slection de variables sont en gnral de type backward. Lide
gnrale est de faire converger un rseau jusqu un minimum local en utilisant toutes les variables et
de faire ensuite la slection. Ltape de slection consiste trier les variables par ordre croissant de per-
tinence, supprimer la ou les variables les moins pertinentes et r-entran le rseau avec les variables
restantes. Ce processus continue tant quun certain critre darrt nest pas satisfait. Les mthodes qui
suivent cette procdure comportent donc deux phases : une phase dapprentissage et une phase dla-
gage qui peuvent tre alternes. On peut dire quune vraie procdure connexionniste de slection de
variables suit lalgorithme gnral suivant :
1. Atteindre un minimum local
2. Calculer la pertinence de chaque entre
3. Trier les entres par ordre croissant de pertinence
4. Supprimer les entres dont la pertinence cumule est infrieure un seuil fix
5. Recommencer en 1. Tant que les performances estimes sur une base de validation ne chutent pas
Les mthodes de slection de variables en apprentissage connexionniste peuvent se regrouper en trois
grandes familles :
Les mthodes dordre zro
Les mthodes du premier ordre
Les mthodes du second ordre

4.2.4.1 Mthodes dordre zro


Pour estimer la pertinence dune variable, les mesures dordre zro utilisent les valeurs des para-
mtres du systme dapprentissage (les valeurs des connexions, la structure, . . . ). Par exemple la mesure
de pertinence HVS [YB97] repose sur les paramtres et la structure du rseau connexionniste. Dans le
cas dun Perceptron multicouches une seule couche cache, cette mesure est dfinie par :



P | | P |kj |

pertinence dune variable i = P ji

|ji |
P
|kj |

jHidden kOutput

i Input j Hidden



P
critre dvaluation J(Xk ) = i
xi Xk







procdure de recherche Backward + rapprentissage





critre darrt test statistique
C HAPITRE 4 Rduction de dimension 43

Une autre mthode dordre zro trs efficace a t propose par [Mac94] : Automatic Relevance
Determination (ARD). Dans cette mthode la pertinence dune variable est estime par la variance de ses
poids : la variable est limine si la variance correspondante est faible.

4.2.4.2 Mthodes du premier ordre


La drive de la fonction que reprsente un systme dapprentissage connexionniste - un rseau -
par rapport chacune de ses variables est trs utilise comme mesure de pertinence des variables. Si une
drive est proche de zro pour tous les exemples, alors la variable correspondante nest pas utilise par
le rseau, et peut donc tre supprim.
Dans le cas des PMC - Perceptrons multicouches -, cette drive peut se calculer comme une ex-
tension de lalgorithme dapprentissage. Comme ces drives peuvent prendre aussi bien des valeurs
positives que ngatives, produisant une moyenne proche de zro, cest la moyenne des valeurs abso-
lues qui est gnralement utilise - ce sont les grandeurs des drives qui nous intressent. On trouve
beaucoup de mesures de pertinences bases sur cette approche.
La sensibilit de lerreur la suppression de chaque variable est utilise par Moody dans [Moo94].
Une mesure de sensibilit est calcule pour chaque variable xi pour valuer la variation de lerreur en
apprentissage si cette variable est supprime du rseau. Le remplacement dune variable par sa moyenne
supprime son influence sur la sortie du rseau. La dfinition de la pertinence est :
i = R() R(xi , )
1 X 2
N
k
avec R(xi , ) = y (xk1 , . . . , xki , . . . , xkn )
N
k=1

N est la taille de la base dapprentissage. Quand cette taille est trs grande, Moody propose dutiliser
une approximation qui donne la mthode de slection suivante :


N 1 PN  k  k


x kx y (x k , ) (x , )
pertinence dune variable i = i


N k=1 i xi



P

critre dvaluation J(Xk ) = i
xi Xk





procdure de recherche Backward







critre darrt variation des performances en test
Ruck et al. [RRK90] proposent la mthode suivante :


P N P j (xk , )

pertinence dune variable i =

k=1 jOutput xi





P
critre dvaluation J(Xk ) = i
xi Xk







procdure de recherche Backward





critre darrt seuil : moyenne des pertinences
44 C HAPITRE 4 Rduction de dimension

Refenes et al. [RZ99] utilisent llasticit moyenne de la sortie par rapport chaque variable :

PN (xk , ) xi

pertinence dune variable i = 1
k=1



N xi (xk , )



P

critre dvaluation J(Xk ) = xi Xk i




procdure de recherche
Backward





critre darrt seuil : moyenne des pertinences

Dans le cas des rseaux fonctions radiales RBF - Radial Basis Functions -, Dorizzi et al. [DPJ+ 96]
utilisent le quantile 95% de la distribution des valeurs absolues des drives de chaque variable.
 
(x, )

pertinence dune variable i = q.95

x

i



P

critre dvaluation J(X ) =
k i
xi Xk





procdure de recherche Backward






critre darrt seuil : moyenne des pertinences

Pour un problme de discrimination, Fabrice Rossi propose de ne considrer que les exemples qui
sont prs des frontires interclasses [Ros96] :


xk f rontier xk (xk , ) >


j (xk ,)

P xi
P

pertinence dune variable 1
i = |Output|

j (xk ,)

xk f rontier jOutput

x



P
critre dvaluation J(Xk ) = i

xi Xk







procdure de recherche Backward





critre darrt seuil : moyenne des pertinences

4.2.4.3 Mthodes du second ordre

Pour estimer la pertinence dune variable, les mthodes du second ordre calculent la drive seconde
de la fonction de cot par rapport aux poids. Ces mesures sont des extensions des techniques dlagage
des poids. La technique dlagage la plus populaire est Optimal Brain Damage (OBD) propose par
Le Cun et al. [LCDS90]. OBD est base sur lestimation de la variation de la fonction de cot R(w)
lorsquun poids est supprim du rseau. Cette variation peut tre approxime laide dun dveloppement
C HAPITRE 4 Rduction de dimension 45

en srie de Taylor :

X R() 1 X X 2 R() 
R(i ) = i + i j + O 3
i 2 i j
i i j

Sous lhypothse que le rseau connexionniste a atteint un minimum local, le premier terme de droite
de cette formule est nul. Pour simplifier les calculs, Le Cun et al. [LCDS90] supposent en outre que la
matrice Hessienne est nulle et le cot est localement quadratique. On obtient alors la formule simplifie
suivante :

1 X 2 R() 2 
R(i ) 2 i + O 3
2 i
i
1
Hii i2
2

La pertinence dune connexion est alors estime par :

1
pertinence(i ) Hii i2
2

La mthode de slection de variables Optimal Cell Damage (OCD) dveloppe par Cibas et al. dans
[CFGR94] est base sur la mesure de pertinence ci-dessus. Dans OCD, limportance de chaque variable
sobtient en sommant les importances des connexions qui partent de celle-ci :


1 P 2 R(w) 2

pertinence dune variable i = 2 2 ji

jf anOut(i) ji





P
critre dvaluation J(Xk ) = i
xi Xk






procdure de recherche
Backward





critre darrt test statistique

o f an Out(i) est lensemble des neurones qui utilisent comme entre la sortie du neurone i.
Dans OBD et OBS, la sensibilit dun poids ne peut tre value correctement quautour dun mi-
nimum local de la fonction de cot. Tresp et al. [TNZ96] proposent deux extensions dOBD et dOBS :
Early Brain Damage (EBD) et Early Brain Surgeon (EBS). EBD et EBS peuvent tre utilises avec le
early stopping comme critre darrt de lapprentissage. Dans EBD, par exemple, la sensibilit dun
poids est donne par la formule suivante :
!2
R(w)
1 2 R(w) 2 R(w) ji
pertinence(i ) = 2 ji ji + (4.5)
2 ji ji 2 R(w)
ji2
46 C HAPITRE 4 Rduction de dimension

A partir de cette dfinition de pertinence et de la mme faon que OCD, [LG] propose la mthode
ECD (Early Cell Damage) :
!2

R(w)



ji

1 P 2 R(w) 2 R(w)

pertinence dune variable = +

i
2 jf anOut(i) ji 2 ji
ji
ji
2 R(w)



2

ji

P

critre dvaluation J(Xk ) = i



xi Xk





procdure de recherche Backward







critre darrt test statistique

Pour cette mthode on supprime les variables une par une et on peut utiliser la technique de early stopping
pour arrter lapprentissage.

4.3 Extraction de caractristiques


Les mthodes utilises pour lextraction de traits sont trs varies. Nous rappellerons brivement les
principes des mthodes linaires (ACP, MDS), puis nous dcrirons quelques mthodes non linaires qui
ont fait lobjet de nombreuses tudes depuis cinq ans. Nous nous intressons en particulier aux mthodes
utilisant des graphes, comme Isomap, LLE et leurs variantes.
On considre un espace dobservations , qui nest pas ncessairement Rn , ce qui permet de gnra-
liser les mthodes proposes aux cas o lon ne dispose pas dune reprsentation vectorielle des donnes
traiter, par exemple les donnes structures (arbres ou graphes). Lespace de caractristiques H est reli
lespace dobservation par une application :

: H
x 7 (x)

Les donnes dapprentissage sont un ensemble fini de points xi , ou bien, dans le cas de lapprentissage
supervis, un ensemble fini de couples (point, tiquette) {(xi , yi )}.

4.3.1 Mthodes linaires


Nous rappelons brivement les principes de trois mthodes classiques danalyse de donnes, qui sont
le fondement de plusieurs mthodes non linaires plus rcentes.

4.3.1.1 Analyse en Composantes Principales


Lanalyse en composantes principales (ACP) - Principal Component Analysis (PCA) - est une an-
cienne approche, qui effectue une rduction de dimension par projection des points originaux dans un
sous-espace vectoriel de dimension plus rduite. LACP dtermine des axes de projections orthogonaux,
C HAPITRE 4 Rduction de dimension 47

qui maximisent la variance explique. Dans la base forme par ces axes, les coordonnes ne sont pas
corrles. LACP maximise la variance de la projection dans lespace de caractristiques, ce qui est qui-
valent minimiser lerreur quadratique moyenne de reconstruction.
LACP se calcule en diagonalisant la matrice de corrlations, le plus souvent en utilisant une dcom-
position en valeurs singulires (SVD). Elle est trs utilise car elle est simple mettre en oeuvre. Elle est
limite par son caractre linaire : il est facile dimaginer des situations dans lesquelles lACP napporte
aucune information utilisable (par exemple, des donnes rparties sur un tore en dimension n). A titre
illustratif, la figure 4.3 prsente les Iris de Fisher dans la base obtenue par une ACP sous forme de nuages
de points.

2
1
0
1
2

0.5

0.5
5 0 5 5 0 5 2 0 2 0.5 0 0.5

Figure 4.3 Visualisation des Iris de Fisher sous forme de nuages de points dans la base fournie par
lACP.

Plusieurs variantes de lACP ont t proposes pour faciliter linterprtation de la projection obtenue ;
ainsi, les mthodes varimax, quartimax et equamax sappuient sur une rotation orthogonale des axes et
les approches oblimin et promax utilisent des rotations obliques. La plus utilise de ces variantes est sans
nul doute la mthode varimax qui effectue une rotation orthogonale des axes pour obtenir des facteurs
fortement corrls quelques variables et faiblement aux autres ; ainsi, chaque variable est identifie
un - ou un petit nombre de facteurs - et les axes sont facilement interprtables.

4.3.1.2 Analyse Discriminante

Propose par Ronald A. Fisher en 1936 [Fis36], lAnalyse Factorielle Discriminante - Fisher Dis-
criminant Analysis (FDA) - appele aussi analyse discriminante linaire de Fisher, sapplique lorsque
les classes des individus sont connues. Elle consiste chercher un espace vectoriel de faible dimension
qui maximise la variance inter-classe. Une base de cet espace est obtenue en appliquant une Analyse
en Composantes Principales sur les centrodes des diffrentes classes pondrs par leffectif de la classe
correspondante avec 1 comme mtrique. On conservera, au plus, (C 1) axes discriminants o C est
48 C HAPITRE 4 Rduction de dimension

le nombre de classes.

4.3.1.3 Positionnement Multi-Dimensionnel

Dans de nombreux cas, on connat les distances entre les points dun ensemble dapprentissage (on
peut utiliser une mesure de similarit plus sophistique que la distance euclidienne, comme indique
dans la section suivante), et on cherche obtenir une reprsentation en faible dimension de ces points.
La mthode de positionnement multidimensionnel1 - Multi-Dimensional Scaling (MDS) - permet de
construire cette reprsentation. Lexemple classique est dobtenir la carte dun pays en partant de la
connaissance des distances entre chaque paire de villes. Lalgorithme MDS est bas sur une recherche
de valeurs propres
MDS permet de construire une configuration de m points dans Rd partir des distances entre m ob-
jets. On observe donc m(m 1)/2 distances. Il est toujours possible de gnrer un positionnement de m
points en m dimensions qui respecte exactement les distances fournies. MDS calcule une approximation
en dimension d < m. Lalgorithme est le suivant :
1 P
1. Moyennes des distances carres par ranges : i = dij
N j
1 P
2. Double centrage (distance carre vers produit scalaire) : Pij = (dij i j + i i )
2
3. Calcul des vecteurs propres vj et valeurs propres j principales de la matrice P (avec les j les
plus grands).
p
4. La i-me coordonne rduite de lexemple j est j vij
Notons que la matrice de distance D = (dij ) doit tre semi dfinie positive.Les mthodes linaires
comme lACP et le MDS ne donnent des rsultats intressants que si les donnes sont situes sur un
sous-espace linaire. Elles ne peuvent traiter le cas o les donnes sont sur une varit trs non linaire.

4.3.2 Mthodes non linaires


Les mthodes linaires reposent (au moins implicitement) sur lutilisation dune distance euclidienne
(lie au produit scalaire ordinaire). Dans de nombreuses applications, la distance euclidienne na pas
grand sens ; elle suppose en particulier que toutes les variables sont comparables entre elles (elles doivent
donc avoir t convenablement normalises). La thorie des espaces de Hilbert permet de dfinir dautres
produits scalaires, bass sur des fonctions noyaux k(x, y). k est alors une mesure de similarit entre les
points de lensemble traiter. Le noyau k dfini implicitement une application de lespace dorigine
vers un "espace de caractristiques" H. La dimension de lespace H est ventuellement infinie. De
nombreuses mthodes statistiques peuvent sexprimer en ne recourant qu des produits scalaires entre
les points traiter et les exemples dapprentissage. Si lon remplace le produit scalaire habituel par un
noyau k, on rend la mthode non-linaire ; cest le truc du noyau - kernel trick -, qui a fait lobjet
de nombreuses recherches depuis son introduction par Vapnik [BGV92] dans le cadre des machines
vecteurs de support (SVM).
1
On trouvera galement dans la littrature les termes Mise lchelle multidimentionnelle et Echelonnement multidimen-
sionnel ; en labsence de consensus, nous avons retenu Positionnement multidimensionnel qui traduit le mieux lobjectif de la
mthode.
C HAPITRE 4 Rduction de dimension 49

Figure 4.4 Principe de lalgorithme Isomap. Les godsiques sont construites en cherchant un chemin
de proche en proche sur les points de lchantillon (daprs [TdSL00]).

4.3.2.1 ACP kernelise

La premire approche permettant dappliquer lACP au cas de donnes situes sur une varit non
linaire est deffectuer des approximations locales : on calcule une ACP pour un groupe de points proches
les uns des autres. Cette approche pose le problme de la dfinition des voisinages et du traitement des
points nouveaux rencontrs loin des exemples connus.
Une autre approche, formalise par B. Schlkopf en 1998, utilise le le truc du noyau - kernel trick
- pour rendre non linaire lACP traditionnelle. En effet, le calcul de lACP ne fait intervenir que des
produits scalaires entre les points (pour le calcul de la matrice de covariance) et ne considre jamais
les coordonnes dun point isol. Si lon remplace le produit scalaire par un noyau, on calcule donc les
composantes principales dans lespace de caractristiques H, et on peut ainsi accder des corrlations
dordre suprieur entre les variables observes. Remarquons que lon peut calculer la projection dun
point ne faisant pas partie de lensemble dapprentissage, ce qui nest pas le cas de toutes les mthodes
de rduction de dimension non linaires.

4.3.2.2 Isomap

Isomap [TdSL00] est une techniques de rduction de dimension qui comme la mthode de posi-
tionnement multidimensionnel (MDS) part de la connaissance dune matrice de dissimilarits entre les
paires dindividus. Le but est cette fois de trouver une varit (non linaire) contenant les donnes. On
exploite le fait que pour des points proches, la distance euclidienne est une bonne approximation de la
distance godsique sur la varit. On construit un graphe reliant chaque point ses k plus proches voi-
sins. Les longueurs des godsiques sont alors estimes en cherchant la longueur du plus court chemin
entre deux points dans le graphe. On peut alors appliquer MDS aux distances obtenues afin dobtenir un
positionnement des points dans un espace de dimension rduite.

4.3.2.3 Plongement localement linaire

La mthode du plongement localement linaire [RS00] - Local Linear Embedded (LLE) - a t pr-
sent en mme temps quIsomap et aborde le mme problme par une voie diffrente. Chaque point est
ici caractris par sa reconstruction partir de ses plus proches voisins. LLE construit une projection vers
un espace linaire de faible dimension prservant le voisinage. Les diffrentes tapes de lalgorithme LLE
sont rappeles la figure 4.6.
50 C HAPITRE 4 Rduction de dimension

Figure 4.5 Le problme de rduction de dimension : les points de lchantillon, de dimension 3, (fi-
gure du milieu) sont situs sur la varit reprsente gauche. On cherche une reprsentation en deux
dimensions ( droite) qui prserve la topologie (le voisinage de chaque point) (daprs [RS00]).

4.3.2.4 Approche neuromimtique : Rseaux de neurones auto-regressifs


Les rseaux de neurones auto-rgressifs - Auto-encoders - sont parfois considrs comme une exten-
sion neuronale non linaire de lACP. En effet, ils visent minimiser lerreur moyenne de reconstruction
dun individus partir de sa projection sur un espace de dimension rduite. Comme lillustre la figure
4.8, ce modle neuronal comporte trois couches caches :
une couche dencodage qui extrait une reprsentation non-linaire des individus,
une couche de compression qui compresse linformation,
une couche de dcodage qui permet de retrouver la reprsentation initiale dun individus.

4.4 Conclusion
Au cours de ce chapitre, nous avons prsent les problmatiques de la slection de variables et de
lextraction de caractristiques et nous avons rappel les principes de quelques mthodes. Avant de pour-
suivre, rappelons que cette thse sinscrit dans le cadre de lapprentissage non supervis et que dans
ce contexte, nous nous intressons aux mthodes de rductions de dimensions pour la classification au-
tomatique. Les techniques dextraction de caractristiques non supervises sont, soit limites par leur
caractre linaire (ACP, MDS), soit difficilement utilisables cause de leur complexit algorithmique
lorsque lon travaille sur de grandes bases donnes (LLE, Isomap). Bien que ce dernier point mrite
dtre nuanc avec lapparition de mthodes de calcul incrmental [BDL+ 04], il nous semble malgr
tout naturel de se focaliser sur les techniques de slection de variables qui, linstar des mthodes dex-
traction de caractristiques, permettent de rester dans lespace des observations et de ne pas imposer
deffort dinterprtation de nouvelles variables lutilisateur.
La slection de variables en apprentissage non supervis est un domaine encore peu explor et les
techniques existantes reposent pour beaucoup sur des mesures de similarit entre attributs ou sur des
mesures de variances. Il sagit dun problme qui est plus difficile que dans le cas supervis car au-
cune information nest disponible pour guider la procdure. La dtermination automatique du nombre de
groupes est un problme associ trs important et ces deux problmes interfrent lun avec lautres.
C HAPITRE 4 Rduction de dimension 51

Figure 4.6 Principe de fonctionnement de lalgorithme LLE (daprs [RS00]).


52 C HAPITRE 4 Rduction de dimension

Figure 4.7 Un exemple dapplication de lalgorithme LLE : les points initiaux reprsentent des images
de visages. Dans lespace de dimension 2, ces images sont regroupes selon la position, lclairage et
lexpression. Les images places en bas de la figure correspondent aux points successifs rencontrs sur
la ligne en haut droite, balayant un continuum dexpression du visage. (daprs [RS00]).
C HAPITRE 4 Rduction de dimension 53

Couche d'Entre Couche de Compression Couche de Sortie

Couche d'Encodage Couche de Dcodage

Figure 4.8 Exemple de rseau auto-rgressif : projection non-linaire dindividus en 4 dimensions dans
un espace de dimension 2.
PARTIE II
Approches proposes
C HAPITRE 5
Traitement des attributs
redondants
5.1 Motivations
Les donnes utilises par les applications relles qui intgrent des techniques de fouille de donnes
renferment souvent de nombreux attributs redondants. Si dun cot cette redondance facilite la prise en
compte de valeurs manquantes [CIL03] ou la dtection de valeurs aberrantes, elle peut nuire par ailleurs
la dcouverte de structures intressantes par les algorithmes de classification automatique bass sur
lutilisation de la distance euclidienne. Intuitivement, une information redondante, qui est reprsente
par de nombreux attributs, risque den occulter une autre qui bien quelle soit potentiellement pertinente
est moins prsente. Dans le pire cas, linformation pertinente est noye parmi de nombreux attributs qui
expriment tous une mme ide sans intrt pour lutilisateur. Cette situation extrme risque de conduire
une classification sans rel intrt pour lutilisateur. Trois types dapproches sont gnralement utilises
pour palier ce problme : lextraction de caractristiques, la slection et la pondration de variables.
Bien quelles soient souvent plus performantes que les mthodes de slection de variables pour les
problmes de rgression ou de prdiction, les mthodes dextraction de caractristiques imposent un
effort important lutilisateur pour interprter et comprendre la nouvelle reprsentation de ses donnes.
La slection de variables constitue donc une alternative trs intressante car lutilisateur peut interprter
directement les rsultats obtenus. Nanmoins, le fait dliminer compltement des variables complique
la prise en compte des valeurs manquantes et nous navons pas retenu cette approche non plus. Nous
nous sommes intresss la pondration des variables qui permet un ajustement plus fin de limportance
relative que lon accorde aux diffrents attributs.
Nous proposons dans cette partie une nouvelle approche baptise -SOM base sur une classifica-
tion simultane des individus et des variables laide de cartes auto-organises qui sont connues pour
permettre une bonne reprsentation de donnes en grande dimension. Un mcanisme de pondration
sappuyant sur la classification des variables est intgr lalgorithme dapprentissage pour diminuer
linfluence des attributs redondants.

5.2 Approche propose


5.2.1 Principes et algorithmes
J. Vesanto et J. Ahola [VA99] ont propos une mthode de dtection visuelle des corrlations entre
variables base sur lalgorithme des cartes auto-organises propos par Teuvo Kohonen [Koh01]. Leur
approche dbute par la construction dune carte des observations dont sont ensuite extraits des profils
de variables : chaque variable est reprsente par le vecteur qui contient les valeurs quelle prend au
niveau de chaque unit. Outre la robustesse aux valeurs aberrantes de cette reprsentation des variables,

57
58 C HAPITRE 5 Traitement des attributs redondants

Algorithm 1 Algorithme dapprentissage -SOM


/* Initialisation */
i n1 , i {1, . . . , n},
i Rn , i U (obs) = {1, . . . , M },
i RM , i U (var) = {1, . . . , m}

/* Apprentissage grossier */
Apprentissage grossier de la carte des observations SOM (obs)
Extraction des profils des variables f pi partir de SOM (obs)
Apprentissage grossier de la carte des variables SOM (var)
Calcul de la pondration correspondante new i
Mise jour de la pondration i 0 .i + (1 0 ).new
i

/* Apprentissage fin */
pour t = 1, . . . , Tmax faire
Epoque(s) dapprentissage de la carte des observations SOM (obs)
Extraction des profils des variables partir de SOM (obs)
Epoque(s) dapprentissage de la carte des variables SOM (var)
Calcul de la pondration correspondante new i
Mise jour de la pondration i t .i + (1 t ).new
i
fin pour

les auteurs en montrent galement la pertinence sur diffrents jeux de donnes artificiels et rels. Dans la
perspective de dtecter visuellement les corrlations entre variables, les auteurs proposent de prsenter
lutilisateur les diffrentes composantes en les rorganisant selon leurs corrlations ; ils construisent pour
cela une carte auto-organise dont chaque unit reprsente au plus une variable et affichent les diffrentes
composantes en respectant lordre topologique ainsi dcouvert.
Dans notre approche, la carte des observations et la carte des variables sont construites simultan-
ment sans imposer de contrainte deffectif pour la carte des variables. La carte des variables est ensuite
utilise pour calculer le poids de chaque dimension en tenant compte de leur redondance : un poids po-
tentiel est attribu chaque unit en fonction de lhomognit des prototypes dans son voisinage et ces
poids potentiels sont ensuite partags entre les variables qui se projettent dans le voisinage de lunit
correspondante.
Lalgorithme 1 rappelle les grandes lignes de lalgorithme dapprentissage -SOM. La carte des
observations SOM (obs) est constitue de lensemble de M units not U (obs) = {1, . . . , M }. De manire
analogue, la carte des variables SOM (var) se compose des m units notes U (var) = {1, . . . , m}. Les
prototypes respectifs des units i U (obs) et j U (var) sont dsigns par i Rn et j RM .
Prcisons maintenant quelques points de lalgorithme propos :
La recherche de lunit gagnante sur p la P
carte des observations seffectue
Pn laide de la distance
n
euclidienne pondre d(obs) (x, j ) = (x
i=1 i i ji )2 , avec
i=1 i = 1.

Le paramtre t permet une prise en compte progressive de la pondration induite par la carte des
variables au fur et mesure quelle devient plus reprsentative.
Les profils des diffrentes variables sont donns par les lignes de la matrice dont les colonnes sont
les prototypes des units de la carte des observations.
C HAPITRE 5 Traitement des attributs redondants 59

5.2.2 Mcanisme de pondration propos


Le mcanisme de pondration propos repose sur le partage de limportance des diffrentes variables
F = {1, . . . , n} en fonction de leur similarit. On commence par attribuer une importance potentielle
chaque unit de la carte des variables que lon partage ensuite entre les diffrents attributs ; les dtails de
ces deux tapes sont donns ci-dessous.

5.2.2.1 Importance potentielle


Lobjectif de notre approche est de diminuer limportance relative des dimensions trs redondantes,
nous souhaitons donc attribuer une importance potentielle plus faible aux rgions de la carte o les proto-
types sont trs similaires car elles correspondent aux zones de forte densit dans lespace des variables. A
cet effet, nous avons retenu lindice dauto-corrlation spatiale locale de Geary pour sa capacit mesu-
rer lhomognit relative des prototypes dans le voisinage dune unit de la carte des variables. Chaque
unit de la carte des variables se voit attribuer une importance potentielle qui correspond la part de sa
contribution lindice dauto-corrlation spatiale de Geary [Zan05]. Cet indice est approximativement
gal au rapport de la variance locale sur la variance globale et la contribution de lunit i se dfinit ainsi :
P
m
cij ki j k2
(m 1) j=1
i = m m (5.1)
P P
cij ki j k2
j=1 j=1

o cij {0, 1} indique si les units i et j sont voisines ou non. Gnralement, on fixe un seuil et
on considre que deux units sont voisines lorsque la distance qui les spare est infrieure ce seuil :
cij = d(var) (i, j) < , o d(var) (i, j) est la distance qui spare les units i U (var) et j U (var) sur
la carte des variables et est la taille du voisinage pris en compte. On calcule ensuite la contribution de
chaque unit i :
i
ei = m (5.2)
P
j
j=1

5.2.2.2 Partage des importances potentielles


Pendant la phase dapprentissage, la contribution de chaque profil de variable aux prototypes des
diffrentes units est contrle par la fonction de voisinage . On peut alors considrer que la partition
des profils de variables utilise pour la mise jour des rfrents est la partition floue dont chaque partie
correspond au support dune unit de la carte des variables. Le degr dappartenance j (i) dune variable
i au support de lunit j peut tre calcul de la manire suivante :
b(i)j
j (i) = Pm (5.3)
b(i)k
k=1

o b(i) correspond au rfrent de la variable i. Limportance potentielle de chaque unit j U (var) est
ensuite rpartie entre les variables i F au prorata de leurs degrs dappartenance aux supports des
diffrentes units :
Xm
new j (i)
i = ej n (5.4)
P
j=1 j (k)
k=1
60 C HAPITRE 5 Traitement des attributs redondants

5.3 Evaluation
5.3.1 Donnes
Pour valider notre approche, nous avons utilis diffrents jeux de donnes mis la disposition de
la communaut dapprentissage artificiel par luniversit de Californie Irvine (UCI) [DNM98], ainsi
quune base de donnes issue du domaine du marketing.
Isolet1 : Cette base issue du domaine de la reconnaissance de la parole comporte prs de 7800
exemples qui sont dcrits par 617 attributs et issus de 26 classes quiprobables.
Waveform : Ce jeu de donnes artificielles comporte 5000 exemples rpartis en trois classes obte-
nues par combinaison de deux des trois vagues de base et ajout dun bruit gaussien de moyenne
nulle et de variance 1 chacune des 21 variables originales. Dans leur version bruite, les vagues
de Breiman comportent 19 dimensions supplmentaires qui suivent une loi normale de moyenne
nulle et de variance 1.
Marketing : Ce jeu de donnes comporte les rponses dun millier de consommateurs interrogs
sur leur apprciation dune centaine de produits et sur leurs attentes. Cette base contient gale-
ment des informations dordre socio-dmographique comme lge, le sexe ou la catgorie socio-
professionnelle des individus interrogs.

5.3.2 Amlioration de la qualit topologique de la carte des observations


Une procdure de validation croise a t utilise pour comparer la qualit des cartes obtenues par
notre approche celle auxquelles conduit lalgorithme de Kohonen. Les jeux de donnes waveform et
isolet on t spars en cinq parties dont quatre ont t utilises pour lapprentissage et la dernire pour
lvaluation de la qualit de la carte laide de lerreur moyenne de quantification, du taux derreurs
topologiques et de la mesure de distortion.

Figure 5.1 Qualit relative des cartes construites par -SOM (indice 100 pour SOM). Qerr, T err et
Distortion correspondent respectivement lerreur de quantification (2.22), le taux derreurs topolo-
giques (2.23) et la mesure de distortion (2.24)
1
Isolated Letter Speech Recognition
C HAPITRE 5 Traitement des attributs redondants 61

Lors de notre premire exprimentation avec le jeu de donnes waveform, la carte des variables
comportait plus dunits que de variables et tait inutilisable pour identifier des corrlations intressantes.
Nous avons donc men une deuxime srie dexprience en diminuant la taille de la carte. La figure 5.1
montre les valeurs relatives des critres de qualit que nous avons obtenues ; lindice 100 correspond aux
cartes construites par lalgorithme de Kohonen. On nobserve quil ny a pas de diffrences significatives
en ce qui concerne lerreur de quantification moyenne et la mesure de distortion mais quen revanche le
taux derreurs topologiques chute de manire significative.

5.3.3 Dtection du bruit


Au cours de nos exprimentation avec la version bruite des vagues de Breiman, nous avons not
que les variables additionnelles qui correspondent un bruit gaussien taient regroupes au centre de
la carte des variables. Nous navons pas tudi en dtail ce phnomne, mais nous pouvons nanmoins
en donner une explication probable. Une dimension bruite ne participe pas ltablissement de lordre
topologique de la carte des observations et sa moyenne est quasiment nulle dans chacune des rgions
de Vorono des units de la carte des observations. Ainsi, les profils suivent approximativement une loi


normale N ( 0 , I) o I est la matrice identit et 0 < 1. Ensuite, le processus dauto-organisation
de la carte des variables conduit un gradient spatial des valeurs et les prototypes du centre de la carte
sont approximativement gaux au vecteur nul. Enfin, le rfrent qui a la plus grande probabilit dtre le
plus proche dun profil de variable qui ne correspond aucune structuration de la carte des observations
est le vecteur nul.

5.3.4 Application aux donnes marketing


Nous avons appliqu lalgorithme -SOM une base de donnes issue du domaine du marketing
afin didentifier dune par des segments de consommateurs et dautre part des catgories de produits et
dattentes. Les cartes obtenues ont t dcoupes laide de la mthode des k-moyennes et le nombre de
classes a t slectionn laide de lindice de Davies Bouldin.

Figure 5.2 Rpartition des consommateurs sur la carte des observations segmente.

Les figures 5.5 et 5.2 montrent respectivement les catgories de produits et les segments de consom-
mateurs mis en vidence. Ensuite, la figure 5.6 indique la rpartition des poids sur la carte des variables.
62 C HAPITRE 5 Traitement des attributs redondants

Enfin, les figures 5.3 et 5.4 montrent des anomalies de regroupement de variables.

Figure 5.4 Carte des variables : zoom sur la


Figure 5.3 Carte des variables : zoom sur la
rgion situe mi hauteur et droite de la figure
rgion situe en haut droite de la figure 5.5.
5.5.

5.4 Discussion
5.4.1 Distances entre profils de variables
Pour construire la cartes des variables, nous avons transform les profils de variables pour que les
valeurs de chaque dimension soient dans lintervalle [0; 1] et nous avons ensuite utilis une distance
euclidienne ; cela nous a conduits observer un certain nombre danomalies et nous pensons que ce
point fort criticable de lalgorithme mrite dtre amlior. En outre, la distance euclidienne ne permet
pas de rapprocher deux variables trs corrles ngativement comme le ferait par exemple le coefficient
de corrlation de Pearson. Ensuite, les profils des variables sont extraits de la carte des observations et
une mesure de dissimilarit approprie devrait galement prendre en compte lorganisation spatiale de
cette dernire.
Les remarques prcdentes nous amnent revoir notre dfinition de la similarit de deux profils de
variable ; ainsi, en considrant que deux variables sont dautant plus proches quelles induisent des d-
coupages similaires de la carte des observations, on pallie ainsi aux deux lacunes majeures de la distance
euclidienne nonces au paragraphe ci-dessus. Nous proposons de ramener ce problme de comparaison
de profils de variable au problme de comparaison des partitions quils induisent. On procde alors au
dcoupage de la carte des observations selon les diffrentes dimensions prises une une et on mesure la
dissimilarit entre les partitions obtenues. Il convient de souligner ici quen procdant ainsi, il est gale-
ment possible de mesurer la dissimilarit entre deux sous-ensembles non vides quelconques de variables.
On utilisera par exemple une classification ascendante hirarchique et la variation dinformation.

5.4.2 Importance potentielle


Il est important de souligner ici un biais induit par la structure de la carte : les units du bord de la
carte sont dfavorises par rapport aux autres. En effet, elles ont moins de voisines et la variance locale
C HAPITRE 5 Traitement des attributs redondants 63

des prototypes sur les bords est plus faibles : limportance potentielle qui en rsulte est donc plus faible.
Il conviendrait donc dajouter un terme de pnalisation lexpression (5.1) pour remdier ce problme.
Ensuite, nous avons mis en vidence au paragraphe prcdent que la distance euclidienne nest vrai-
semblablement pas la mesure de dissimilarit optimale pour notre problme. Ceci nous conduit critiquer
galement lutilisation dun indice statistique qui lutilise dans sa dfinition. Ainsi, la mesure de lho-
mognit des prototypes dans une rgion de la carte des variables mrite galement notre attention ; on
pourra par exemple dfinir une mesure base sur la variation dinformation entre les partitions induites
par les diffrents prototypes.
Enfin, le mode de calcul de limportance potentielle que nous avons utilis ne sintresse quaux
aspects lis la redondance et ne prend pas en compte explicitement la pertinence des variables. La
notion de pertinence dune variable nest pas clairement dfinie dans le cadre de lapprentissage non su-
pervis mais nous pouvons propos ici de considrer quune variable est dautant plus pertinente quelle
met en exergue une structure spatialement marque sur la carte des observations qui soit en cohrence
avec la structure globale mergente. Un indice dauto-corrlation spatiale locale dune variable proto-
type peut mettre en vidence lexistence dune structure spatiale marque mais ne permet pas de vrifier
sa cohrence avec la structure globale mergente ; nous proposons une fois de plus dutiliser la varia-
tion dinformation cet effet pour comparer les partitions induites par les diffrentes composantes la
structure globale mergente.

5.4.3 Algorithme doptimisation


Loptimisation des prototypes des deux cartes est ralise laide de la version batch de lalgorithme
de Kohonen qui, linstar de sa version stochastique, prsente lavantage dtre dterministe. Mais bien
que motiv, ce choix ne conduit pas des rsultats optimaux pour des raisons inhrentes la version
lalgorithme batch dune part [FLC02] et une optimisation spare de deux fonctions de cot diffrentes
dautre part. La fonction de cot de notre algorithme -SOM peut scrire comme la somme des fonctions
de cot des deux cartes auto-organises

X M
N X n
X n X
X m M
X
RSOM = hb(i)j k (xik jk )2 + b(k)l (jk lj )2 (5.5)
i=1 j=1 k=1 k=1 l=1 j=1

o h et sont respectivement les fonctions de voisinage de la carte des observations et de la carte


des variables, et o les poids k des diffrents attributs sont dtermins laide de lquations (5.4).
On pourra alors utiliser le formalisme lagrangien doptimisation de systmes modulaires propos dans
[BG91, Bot91] pour optimiser les paramtres des deux cartes simultanment.

5.5 Conclusion
Une approche originale baptise -SOM et base sur une classification simultane des individus
et des variables laide de cartes auto-organises a t prsente au cours de ce chapitre. Elle intgre
un mcanisme de pondration sappuyant sur la classification des variables pour diminuer linfluence
des attributs redondants pendant lapprentissage. Bien que lapplication de cette mthode des donnes
relles issues du domaine du marketing nous aie donn satisfaction, elle a aussi permis de mettre en
vidence un certain nombre danomalies. Ce dernier point, discut la fin du chapitre, a t loccasion
denvisager diffrentes amliorations possibles de notre mthode.
64 C HAPITRE 5 Traitement des attributs redondants

Figure 5.5 Rpartition des attributs et des ca- Figure 5.6 Rpartition des poids (103 ) des
tgories sur la carte. attributs.
C HAPITRE 6
Slection de variables et
du nombre de groupes
6.1 Motivations
La fouille de donnes est avant tout une dmarche exploratoire et lutilisateur na gnralement dide
prcise ni sur le nombre de groupes prsents dans ses donnes, ni sur les attributs qui les dcrivent
au mieux. Sil existe dune part des approches filtres de slection de variables non supervise [ML01,
MMP02] et dautre part de nombreux critres pour choisir une meilleure classification parmi plusieurs
classifications possibles [HBV01], la slection simultane du nombre de groupes et dun sous-ensemble
dattributs pertinents demeure un des nombreux dfis de la classification automatique.
Nous proposons dans ce chapitre une approche originale de slection simultane du nombre de
groupes et dun sous-ensemble de variables pertinentes au regard des groupes identifis. Celle-ci re-
pose sur une classification deux niveaux et utilise deux mesures de pertinence bases sur lindice de
Davies-Bouldin : la premire quantifie la pertinence individuelle de chaque variable et la seconde permet
de tenir compte de la pertinence mutuelle des variables.

6.2 Approche propose


6.2.1 Principes et algorithmes
Nous avons rappel dans la section 4.2 quune procdure de slection de variables se compose de trois
lments essentiels : une mesure dvaluation, une stratgie de recherche et un critre darrt. La plupart
des approches proposes pour la slection de variables non supervise sont des approches filtres qui se
basent sur la similarit ou la redondance des attributs. Nous proposons dans ce chapitre une approche
intgre de slection de variables pendant un processus de classification automatique deux niveaux :
construction dune carte auto-organise et segmentation de cette carte. Les mthodes de classification
deux niveaux prsentent deux intrts majeurs : dune part elles amliorent la robustesse la prsence
de valeurs aberrantes et dautres part elles permettent dvaluer la qualit de nombreuses partitions com-
portant diffrents nombres de groupes sans que les temps de calcul ne deviennent prohibitifs [VA00].
Nous commenons par construire une carte auto-organise que lon dcoupe par la mthode des K-
moyennes combine lindice de Davies-Bouldin comme cela est suggr dans [VA00]. Nous utilisons
ensuite un indicateur statistique appel valeur test qui a t propose par [Mor84] pour caractriser les
diffrentes parties dune partition. Les variables sont ensuite limines tour tour selon lordre tabli
par cette mesure condition que leur suppression ne dgrade pas la qualit de la partition au sens de
lindice de Davies-Bouldin. Si les suppressions conduisent une perte de qualit de la partition, on
choisit la dgradation minimale. Ce processus dlimination arrire est rpt tant quon observe pas

65
66 C HAPITRE 6 Slection de variables et du nombre de groupes

perte dinformation significative au sens de la statistique de Wilks. Lalgorithme 2 rappelle les grandes
lignes de notre approche.

Algorithm 2 Procdure de slection de variables


/* Initialisation */
RF

/* Procdure de recherche : limination arrire */


tant que (critre darrt) faire
Construction dun modle
Evaluation de la pertinence individuelle Rindividuelle (j)
Tri des variables selon la pertinence individuelle croissante
trouve f alse
tant que (trouve) faire
Evaluation de la pertinence collective Rcollective (j) de la variable la moins pertinente individuel-
lement
si (Rcollective (j) ) alors
trouve true
R R \ {j}
fin si
fin tant que
si (trouve) alors
j arg minkR {Rcollective (k)}
R R \ {j}
fin si
fin tant que

6.2.2 Mesures dvaluations proposes

6.2.2.1 Pertinence individuelle

Comme nous lavons rappel au chapitre 5, la notion de pertinence dune variable nest pas claire-
ment dfinie dans le cadre de lapprentissage non supervis et nous avons propos de considrer quune
variable est dautant plus pertinente quelle met en vidence une structure marque de lespace des ob-
servations qui soit en cohrence avec la structure globale mergente. Dans cet esprit, nous proposons ici
dutiliser un indicateur statistique, appel valeur test [Mor84], qui est permet habituellement didentifier
les meilleurs descripteurs dun groupe relativement la population dont il est issu. La valeur test dune
variable pour un groupe est dfinie comme la diffrence entre la moyenne du groupe et la moyenne de
la population exprime en nombre dcart-type du groupe. La valeur absolue cette mesure quantifie la
pertinence du choix dune variable comme descripteur dune sous-population.
Nous dfinissons alors la pertinence individuelle dune variable comme le maximum en valeur abso-
lue de ses valeurs tests sur lensemble des groupes identifis ; dans ces conditions, ds lors quelle permet
de mettre en avant un groupe dobjets, une variable est considre comme individuellement pertinente.
C HAPITRE 6 Slection de variables et du nombre de groupes 67

Etant donn un dcoupage en C groupes, la pertinence individuelle de la variable j sexprime donc ainsi :
 
kj j
Rindividuelle (j) = max (6.1)
k=1,...,C kj
o kj et kj sont respectivement la moyenne et lcart-type de la variable j dans le groupe k, et o j
est la moyenne de la population totale.

6.2.2.2 Pertinence collective


La mesure de pertinence individuelle dfinie ci-dessus nest pas suffisante car elle ne tient pas compte
de la pertinence mutuelle au sein dun ensemble de variable. Ainsi, elle pourrait nous conduire liminer
une variable qui nest pas pertinence en elle-mme mais qui associe aux autres est trs intressante. Nous
proposons dutiliser une mesure de pertinence collective pour mesurer lintrt dune variable lorsquelle
est associe une sous-ensemble de variable R F .
Rappelons que nous disposons dune partition optimale relativemement notre critre dvaluation :
lindice de Davies-Bouldin. Nous dfinissons la pertinence collective dune variable comme la perte en
qualit quengendre sa suppression ; notre mesure est alors dfinie comme la diffrence entre la valeur
de lindice de Davies-Bouldin avec et sans la variable j :
Rcollective (j) = IDB |R IDB |R\{j} (6.2)
o IDB |R et IDB |R\{j} sont respectivement les indices de Davies-Bouldin valus en prenant en compte
la variable j et sans la prendre en considration.

6.2.3 Stratgie de recherche


Bien que la stratgie de slection avant soit gnralement plus efficace dun point de vue compu-
tationnel, nous avons adopt la stratgie dlimination arrire car elle permet de prendre en compte la
pertinence mutuelle des variables. Notre procdure de recherche est guide par la mesure de pertinence
individuelle qui permet dtablir un ordre dintrt relativemement une partition. Et la mesure de per-
tinence collective sert lever un vto si la suppression dune variable engendre un dgradation de la
qualit de la partition ; on considre dans ce cas quassocie aux autres variables, elle est importante. Si
toutes les variables du sous-ensemble sont pertinentes, la moins intressante est limine.

6.2.4 Critre darrt


T. Cibas utilise la statistique de Wilks pour valuer si un sous-ensemble dattributs apporte une
information supplmentaire par rapport un autre [Cib96]. Nous avons retenu cette approche pour arrter
le procdure dlimination arrire lorsque la suppression dun attribut entrane une perte dinformation
significative.
Sous lhypothse que lensemble des attributs F suivent une loi normale
N ((k) , ) : k = 1, . . . , C (6.3)
o (k) est la moyenne des attributs de F dans le groupe k et o est la matrice de covariance. On peut
dcomposer cette matrice et ces vecteurs de la manire suivante :
 
(k) (k)
(k) = 1 , 2 , (6.4)
 
11 12
= (6.5)
21 22
68 C HAPITRE 6 Slection de variables et du nombre de groupes

o les indices 1 et 2 correspondent respectivement aux sous-ensemble dattributs R et F \ R. Lhypo-


thse nulle qui exprime que lensemble F \ R ne donne pas dinformation supplmentaire par rapport
lensemble R scrit ainsi :
 
(k) (h) (k) (h)
H0 : 2 2 21 1 11 1 1 =0 (6.6)

avec k 6= h = 1, . . . , C. Le test de cette hypothse repose sur la statistique de Wilks. Dfinissons les
matrices de covariance inter-classe B - pour between - et intra-classe W - pour within - de la manire
suivante :
C
X   T
B = N (k) (k) (k)
k=1
(k)
X  (k)
C N
X 
(k)
T
W = xi (k) xi (k)
k=1 i=1

o N (k) est le nombre dobjets prsents dans le groupe k et est la moyenne globale des attributs de F .
Les matrices B, W et leur somme T = B + W peuvent se dcomposer en bloc de la mme manire que
:
 
B11 B12
B =
B21 B22
 
W11 W12
W =
W21 W22
 
T11 T12
T = B+W =
T21 T22

Ainsi, le dterminant des matrices W et T scrivent



|W | = |W11 | W22 W21 W11 1
W12

|T | = |T11 | T22 T21 T 1 T12
11

Ensuite, on note :
W22 W21 W 1 W12
11
K= (6.7)
T22 T21 T 1 T12
11
Cr)
qui a (N(C1) degrs de libert. En utilisant les notations dfinies ci-dessus, la statistique de Wilks pour
n variables sexprime :
|W |
F =
|T |
|W11 |
= K.
|T11 |
= K.R

ce qui indique que, pour de petite valeur de K, les groupes sont mieux spars avec n variables quavec
r. Ainsi, lhypothse nulle (6.6) est vraie si et seulement si les attributs de R permettent la mme s-
parabilit des groupes que lensemble complet des attributs F . Pour finir, la statistique de Wilks est
C HAPITRE 6 Slection de variables et du nombre de groupes 69

quivalente celle de Fisher-Snedecor et :

(N C r) 1 K
Fs = (6.8)
(C 1) K

suit la loi de Fisher suivante F (C 1, N C r) o C est le nombre de groupes, N le nombre din-


dividus et r le nombre dattributs conservs.

6.3 Evaluation
6.3.1 Donnes
Luniversit de Californie Irvine (UCI) met la disposition de la communaut dapprentissage
artificiel de nombreux jeux de donnes pour valider leurs approches [DNM98]. Nous en avons retenu
quatre de taille et de complexit variables pour valider notre algorithme :
Wisconsin Diagnostic Breast Cancer (WDBC) : Les donnes de cette base de donnes ont t
recueillies partir dimages numrises dun prlvement par biopsie dune masse ventuellement
cancreuse. Elles dcrivent les caractristiques de noyaux de cellule prsents dans limage. Les
exemples sont rpartis en deux classes selon quil sagit de tumeurs malignes (212 exemples) ou
bnines (357 exemples). On notera quil sagit dun problme relativemement simple : les classes
sont linairement sparable et ltat de lart fait mention dune prcision suprieure 97 % en
classement.
Glass : Cette base contient les caractristiques de 214 chantillons de verres suivantes : indice
de rfraction, oxyde de sodium, oxyde magnsium, oxyde daluminium, oxyde de silicium, oxyde
de potassium, oxyde de calcium, oxyde de baryum et oxyde de fer. Les diffrentes instances se
rpartissent dans les 7 classes suivantes : 70 dans la classe 1 (verre trait utilis en construction),
76 dans la classe 2 (verre trait utilis dans les vhicules), 17 dans la classe 3 (verre non trait
utilis en construction), 0 dans la classe 4 (verre non trait utilis dans les vhicules), 13 dans la
classe 5 (bocaux), 9 dans la classe 6 (vaisselle) et 29 dans la classe 7 (tte dampoule). La classe 4
ntant pas reprsente, on peut considrer quil sagit dun problme 6 classes.
Waveform : Ce jeu de donnes artificielles comporte 5000 exemples rpartis en trois classes obte-
nues par combinaison de deux des trois vagues de base et ajout dun bruit gaussien de moyenne
nulle et de variance 1 chacune des 21 variables originales. Dans leur version bruite, les vagues
de Breiman comportent 19 dimensions supplmentaires qui suivent une loi normale de moyenne
nulle et de variance 1.
Wine : Cette base recense les rsultats dune analyse chimique de diffrents vins produits dans
une mme rgion dItalie partir de diffrents cpages. La concentration de 13 constituants est
indique pour chacun des 178 vins analyss qui se rpartissent ainsi : 59 dans la classe 1, 71 dans
la classe 2 et 48 dans la classe 3.

6.3.2 Rsultats
Nous avons utilis la version batch de lalgorithme de Kohonen et lalgorithme global k-means qui
sont tous les deux dterministes pour nos exprimentations. Les rsultats prsents dans le tableau 6.1
sont les moyennes et cart-type obtenus aprs cinq validations croises ; lensemble des donnes a t
spar en dix parties dont neuf ont servi lapprentissage et la dernire a t utilise pour le test. Les
70 C HAPITRE 6 Slection de variables et du nombre de groupes

Apprentissage Test
CT [CT ] nF S [nF S ] IRand [IRand ] PR [ PR ] IRand [IRand ] PR [ PR ]
Glass F 7.04 [0.73] 9.0 [ ] 0.301 [ 0.012 ] 56.25 [ 2.56 ] 0.295 [ 0.068 ] 67.52 [ 9.01 ]
189 - 21 R 5.10 [1.83] 2.84 [ 1.46 ] 0.376 [ 0.082 ] 50.83 [ 6.54 ] 0.382 [ 0.121 ] 58.38 [10.40]
Wine F 6.86 [0.81] 13.0 [ ] 0.171 [ 0.022 ] 93.59 [ 1.97 ] 0.165 [ 0.064 ] 95.28 [ 5.11 ]
189 - 21 R 5.70 [2.34] 6.3 [ 2.1 ] 0.247 [ 0.060 ] 80.32 [12.02] 0.239 [ 0.096 ] 83.44 [13.78]
WDBC F 9.72 [0.67] 30.0 [ ] 0.414 [ 0.014 ] 93.83 [ 1.56 ] 0.417 [ 0.026 ] 94.16 [ 3.03 ]
242 - 27 R 2.72 [1.96] 12.4 [ 3.3 ] 0.182 [ 0.077 ] 91.53 [ 1.04 ] 0.184 [ 0.091 ] 91.60 [ 3.49 ]
Wave F 6.18 [2.56] 40.0 [ ] 0.304 [ 0.016 ] 68.64 [ 8.48 ] 0.309 [ 0.014 ] 66.17 [ 7.82 ]
500 - 4500 R 4.82 [1.55] 28.2 [ 9.56 ] 0.304 [ 0.020 ] 66.93 [ 6.62 ] 0.306 [ 0.018 ] 65.97 [ 6.68 ]

Table 6.1 Les deux nombres situs sous le nom des jeux de donnes indiquent respectivement la taille
des ensembles dapprentissage et de test. Lensemble de tous les attributs est not F et lensemble des
attributs slectionns par R.

critres utiliss pour lvaluation sont des critres externes et font intervenir les tiquettes qui sont dispo-
nibles pour les jeux de donnes utiliss. Lindice de Rand a t prsent au paragraphe 3.2.2 et lindice
de puret correspond la moyenne de la part de la classe majoritaire au sein des groupes dcouverts.

6.4 Discussion
6.4.1 Segmentation de la carte
Pour segmenter la carte auto-organise, nous avons utilis lalgorithme des k-moyennes associ
lindice de Davies Bouldin comme cela est propos dans [VA00]. Plus prcisement, pour viter les pro-
blme dinstabilit dont souffre la mthode des k-moyennes, nous utilis lalgorithme global kmeans qui
en est une version dterministe. Malheureusement, un article rcent montre que cette approche mne
gnralement des rsultats sous-optimaux [HNCM05] et il convient denvisager dautres mthodes de
dcoupage de la carte. Les prototypes sont gnralement beaucoup moins nombreux que les observations
et une classification ascendante hirarchique peut donc tre utilise pour la segmentation de la carte. On
saffranchit alors des problmes dinstabilit en conservant une complexit raisonnable puisque la mme
hirarchie est utilise pour valuer diffrents dcoupages. Nanmoins, quelles soient bases sur une
tude de la continuit [Mur95] ou sur la matrice des distances unifies [MU05, OM04, US90, Ult05],
dautres mthodes de segmentation spcifiquement dveloppes pour les cartes auto-organises mrite-
rait dtre utilises pour complter lvaluation de notre mthode.

6.4.2 Stratgie de recherche


La mthode de slection de variables propose utilise une procdure de type limination arrire -
backward - qui nous permet de prendre en considration les interactions entre variables. Nanmoins,
ce type de procdure est coteux et un attribut trs intressant pourraient tre limin ds le dbut de
la procdure de slection sans que cette dcision ne soit remise en cause par la suite. En outre, les
mesures de pertinence proposes sappuient sur un dcoupage de la carte auto-organise que lon cherche
renforcer sans que sa pertinence ne soit garantie ; en particulier, au dbut de la procdure il est possible
les structures intressante prsentes dans les donnes ne soient difficiles dtecter.
C HAPITRE 6 Slection de variables et du nombre de groupes 71

Evolution de lindice DB Wave


0.75

0.7

0.65

0.622
0.610
0.6
IndiceDB

0.604

0.58
0.582
0.577
0.55

0.5

0.45

0.4
0 5 10 15 20 25 30 35
Nombre dattributs supprimes

Figure 6.1 Evolution de lindice de Davies-Bouldin pendant la procdure dlimination arrire : la ligne
vertical en pointille indique le modle retenu par notre critre darrt.
72 C HAPITRE 6 Slection de variables et du nombre de groupes

Ce point de lalgorithme peut tre amliorer de diffrentes manire ; on pourrait, par exemple, uti-
liser des mthodes de recherche bi-directionnelles ou des mthodes de parcours alatoire comme les
algorithmes gntiques, mais nous pensons que la pondration de variables est galement une alternative
intressante car elle permet lapprentissage progressif dune mesure de pertinence et une erreur dappr-
ciation au dbut de la procdure nest alors plus irrversible.

6.4.3 Critre darrt


Le critre darrt que nous avons retenu est un facteur limitant majeur de lapproche prsente dans
ce chapitre, car outre sa complexit importante lie au calcul de dterminant de matrice, il impose que la
condition suivante doit tre vrifie :
N C n (6.9)
pour garantir que la matrice de covariance intra-classe ne soit pas singulire. En dautres termes, le
nombre de variables ne peut dpass le nombre dindividus moins le nombre de classes ; lutilisation de
notre approche sur des donnes spectromtriques ou sur des donnes gnomiques qui comptent souvent
davantage de variables quelles ne comportent dindividus nest donc pas possible sans une modification
pralable de ce point essentiel.

6.5 Conclusion
Une mthode de slection de variables intgre un algorithme de classification a t prsente dans
ce chapitre. Elle sappuie sur la robustesse et lefficacit des mthodes de classification deux niveaux et
combine une mesure de pertinence individuelle un critre dvaluation des attributs au sein dun groupe.
Notre approche permet dune part de slectionner le nombre de groupes en utilisant un critre de qualit
de partition et dautre part de renforcer progressivement la structuration des donnes en slectionnant les
attributs qui y contribue. Les limites de cette approche ont t mentionnes la fin du chapitre.
C HAPITRE 7
Pondration et Slection
de variables
7.1 Motivations
Comme nous lavons soulign la fin du chapitre prcdent, llimination dune variable pertinente
au dbut dune procdure squentielle de slection de variables, sans que cette dcision ne puisse tre
remise en cause ensuite, risque de conduire lutilisateur des rsultats sans rel intrt. Nous proposons
dans ce chapitre une approche de slection de variables qui sappuie sur loptimisation dune pondration
qui permet dvaluer progressivement la pertinence des diffrentes dimensions.
Notre approche consiste tendre la mthode de pondration des variables propose par Huang
[HNRL05] pour les algorithmes de type k-moyennes au cas des cartes auto-organises. A cet effet, nous
proposons dintroduire une contrainte de prservation de la topologie locale de lespace dentre laide
dune fonction de voisinage. La pondration obtenue permet dordonner les variables en fonction de
leur pertinence et peut tre utilise comme critre dvaluation dans une approche filtre de slection de
variables.

7.2 Approche Propose


7.2.1 Algorithme w-kmeans
Commenons par introduire les notationsutilises dans ce chapitre :
0, si xi
/ Ck
U = (uik ) est une matrice binaire o
1, si xi Ck
W = (1 , 2 , . . . , n ) est le vecteur qui regroupe le poids des diffrents attributs,
Z = {zk Rn : k = 1, . . . , C} est lensemble des centres.
Lalgorithme w-kmeans propos par Huang [HNRL05] optimise la fonction de cot suivante :

X C
n X
N X
P (U, Z, W ) = uik j (xij zkj )2 (7.1)
i=1 j=1 k=1

o est un paramtre de la pondration appel coefficient ou exposant de discrimination. Rappelons que


lorsque tend vers 1 par valeur suprieure, les j tendent vers 0 ou vers 1 et on retrouve le cas de la
slection de variables.
La minimisation de P (U, Z, W ) est possible en itrant la minimisation des trois sous problmes
suivants [HNRL05] :

73
74 C HAPITRE 7 Pondration et Slection de variables

 
1. Minimiser P U, Z, W en fixant Z = Z et W = W : chaque objet xi est affect au centre zj
dont il est le plus proche au sens de la distance euclidienne pondre par W .

Pn

1, si k = arg min j (xij zlj )2
l=1,...,K j=1
uik = (7.2)


0, sinon

 
2. Minimiser P U , Z, W en fixant U = U et W = W : chaque centre est remplac par le bary-
centre de lensemble des objets qui lui sont affects.
N
X
1
zk = PN uik xi (7.3)
i=1 uik i=1
 
3. Minimiser P U , Z, W en fixant U = U et Z = Z : Huang montre quon minimise ce problme
de la manire suivante  
Lorsque 6= 1, la fonction de cot P U , Z, W est minimise si et seulement si

0,
 si Dj = 0
  1 1
j = P Dj 1
m (7.4)
Dt si Dj 6= 0
t=1
C
XX n
avec Dj = uil d(xij , zlj ) (7.5)
l=1 i=1
 
Lorsque = 1, la fonction de cot P U , Z, W est minimise si et seulement si
 
j = 1, si (j) Dj Dj
(7.6)
j = 0 sinon

7.2.2 Extension aux cartes auto-organisatrices


Lapproche propose par Huang peut tre tendue aux cartes auto-organises en introduisant une
contrainte de prservation de la topologie locale de lespace des donnes ; la fonction de cot modifie
fait intervenir une fonction de voisinage et sexprime ainsi :
C X
X n
N X C
X
P (U, Z, W ) = uik j hkl d(xij zlj ) (7.7)
k=1 i=1 j=1 l=1

o hkl est la fonction de voisinage entre les prototypes. Le thorme propos ainsi que sa dmonstration
restent valables en modifiant seulement la dfinition de Dj de la faon suivante :
C X
X n C
X
Dj = uik hkl d(xij zlj ) (7.8)
k=1 i=1 l=1
C HAPITRE 7 Pondration et Slection de variables 75

7.2.3 Utilisation pour la slection de variables


Huang suggre dutiliser la pondration obtenue par lalgorithme w-kmeans comme critre dva-
luation dans une procdure de slection de variables. Dans cet esprit, nous proposons de dfinir une
approche filtre base sur une stratgie dlimination arrire guide par la pondration calcule par op-
timisation de notre fonction de cot tendue (7.7). La procdure sarrte lorsque la suppression de la
variable modifie de manire significative la topologie locale de lespace des donnes. Lvaluation de la
pertubation induite par la suppression dune variable peut se faire en testant lhypothse nulle suivante :
On nobserve pas de diffrence significative entre les distances dune observation son rfrent
aprs la suppression de la variable.
laide dun test de Wilcoxon. Ce test statistique est un test non paramtrique : il ne fait pas dhypothse
sur la distribution des valeurs des deux chantillons que lon souhaite comparer. Il repose sur le principe
suivant : si on rassemble deux chantillons tirs dune mme population et quon ordonne les individus,
alors ils sintercalent de faon rgulire. On calcule alors la statistique de Wilcoxon Wx qui est dfinie
comme la somme des rangs des individus du premier chantillon. Les valeurs de cette statistique sont
tabules pour de petits chantillons et on dispose dun thorme qui dit que la distribution de

W nx (nx + ny + 1)/2
px (7.9)
nx ny (nx + ny + 1)/12

o nx et ny dsignent respectivement la taille du premier et du second chantillon, converge vers une loi
normale N (0, 1) lorsque les chantillons ont des tailles suffisantes.

7.3 Evaluation
7.3.1 Donnes
Luniversit de Californie Irvine (UCI) met la disposition de la communaut dapprentissage
artificiel de nombreux jeux de donnes pour valider leurs approches [DNM98]. Nous en avons retenu
quatre de taille et de complexit variables pour valider notre algorithme :
Iris : Ce jeu de donnes, lorigine propos par Fisher, est lun des plus connus dans le domaine
de la reconnaissance de formes. Il contient 3 classes de 50 instances qui correspondent chacune
une espce diris : setosa, versicolor et virginica. Lune des classes est linairement sparable des
autres qui se chevauchent. Chaque fleur est dcrite par les dimensions de ses ptales et spales.
Glass : Cette base contient les caractristiques de 214 chantillons de verres suivantes : indice
de rfraction, oxyde de sodium, oxyde magnsium, oxyde daluminium, oxyde de silicium, oxyde
de potassium, oxyde de calcium, oxyde de baryum et oxyde de fer. Les diffrentes instances se
rpartissent dans les 7 classes suivantes : 70 dans la classe 1 (verre trait utilis en construction),
76 dans la classe 2 (verre trait utilis dans les vhicules), 17 dans la classe 3 (verre non trait
utilis en construction), 0 dans la classe 4 (verre non trait utilis dans les vhicules), 13 dans la
classe 5 (bocaux), 9 dans la classe 6 (vaisselle) et 29 dans la classe 7 (tte dampoule). La classe 4
ntant pas reprsente, on peut considrer quil sagit dun problme 6 classes.
Waveform : Ce jeu de donnes artificielles comporte 5000 exemples rpartis en trois classes obte-
nues par combinaison de deux des trois vagues de base et ajout dun bruit gaussien de moyenne
nulle et de variance 1 chacune des 21 variables originales. Dans leur version bruite, les vagues
de Breiman comportent 19 dimensions supplmentaires qui suivent une loi normale de moyenne
nulle et de variance 1.
76 C HAPITRE 7 Pondration et Slection de variables

Wine : Cette base recense les rsultats dune analyse chimique de diffrents vins produits dans
une mme rgion dItalie partir de diffrents cpages. La concentration de 13 constituants est
indique pour chacun des 178 vins analyss qui se rpartissent ainsi : 59 dans la classe 1, 71 dans
la classe 2 et 48 dans la classe 3.
Les jeux de donnes dcrits ci-dessus contiennent de 150 5000 instances dcrites par 4 40 va-
riables. Nous souhaitions galement montrer que notre algorithme est adapt aux donnes de dimension
suprieure ; cet effet, nous avons utilis un jeu de donnes parmi ceux proposs lors de la comptition
NIPS 2003 sur la slection de variables pour la discrimination :
Madelon : Cette base de donnes artificielles comporte 2000 instances rparties en deux classes
quiprobables et qui sont dcrites par 500 variables dont seulement 20 sont pertinentes. Les 480
attributs restants ont des distributions similaires mais napportent aucune information quant la
classe des exemples.

7.3.2 Rsultats
Pour valuer lalgorithme prsent au dbut de ce chapitre, nous avons ralis dix simulations pour
chacun des cinq jeux de donnes et pour des valeurs du paramtre variant de 0 10 lexception de la
valeur 1. Nous prsentons les rsultats obtenus ci-dessous.

7.3.2.1 Stabilit de lalgorithme de pondration

Le tableau 7.1 montre la faible dispersion des valeurs de la fonction objectif aprs la convergence de
lalgorithme.

Donnes SOM =2 =3 =4 =5 =6 =7 =8 =9 = 10
Iris 5.82 3.41 2.84 2.33 2.43 2.50 2.12 4.37 2.53 4.96
Glass 4.00 1.59 3.72 1.33 3.68 3.16 4.33 3.50 4.12 4.57
Waveform 0.22 0.12 0.09 0.06 0.10 0.07 0.07 0.09 0.10 0.13
Wine 1.22 3.14 1.52 1.76 1.25 1.47 1.64 2.45 1.79 1.35
Madelon 0.56 1.23 0.53 0.81 0.81 0.36 0.63 0.98 0.40 0.59

Table 7.1 Indice de dispersion /x (100) de la fonction objectif pour 10 excutions de lalgorithme
-SOM

Les tableaux 7.2, 7.3 et 7.4 montrent respectivement les indices de dispersion des poids de chaque
attributs aprs convergence de lalgorithme pour les jeux de donnes Iris, Glass et Wine. On note glo-
balement une plus grande stabilit des pondrations calcules que celle rapport dans [HNRL05] pour
lalgorithme w-kmeans.

7.3.2.2 Pertinence et stabilit du sous-ensemble de variables slectionnes

Sur les vagues de Breiman, notre approche slectionne de manire systmatique les variables 4
18 et la slection des variables 3 et 19 dpend uniquement de la valeur du paramtre . Ainsi, la m-
thode propose permet dune part dliminer le bruit gaussien additionnel et dautre part didentifier les
variables qui sont habituellement reconnues comme pertinentes par des techniques supervises comme
Optimal Cell Damage (OCD) ou Heuristic for Variable Selection (HVS) [Ben01]. Le bruit gaussien est
C HAPITRE 7 Pondration et Slection de variables 77

x1 x2 x3 x4
2 8.06 7.02 1.44 2.95
3 3.79 3.71 0.30 1.79
4 2.34 1.70 0.17 1.86
5 1.53 1.33 0.10 0.82
6 1.31 1.34 0.29 0.57
7 0.87 0.68 0.24 0.57
8 1.31 1.25 0.26 0.39
9 0.74 0.76 0.23 0.31
10 0.79 0.83 0.27 0.30

Table 7.2 Indice de dispersion /x (100) des poids des attributs pour la base IRIS au cours de 10
excutions.

x1 x2 x3 x4 x5 x6 x7 x8 x9
2 14.51 10.40 18.25 10.00 4.55 18.51 16.81 11.51 36.37
3 2.35 5.40 8.25 4.01 5.54 14.02 6.48 5.87 9.58
4 1.04 2.24 2.38 1.20 2.17 6.81 2.82 2.59 3.52
5 0.70 1.89 4.88 1.53 1.67 5.29 3.80 2.09 6.05
6 0.79 1.18 2.04 1.20 1.31 3.98 2.15 2.04 2.93
7 0.33 0.77 2.28 0.58 1.31 3.25 1.92 1.53 1.73
8 0.97 1.35 2.12 0.82 1.34 3.08 2.00 1.58 2.14
9 0.65 0.95 1.81 0.48 0.40 2.23 1.05 0.88 1.79
10 0.73 0.72 1.85 0.56 1.12 2.15 1.32 1.73 0.98

Table 7.3 Indice de dispersion /x (100) des poids des attributs pour la base GLASS au cours de 10
excutions.

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13


2 9.35 3.24 6.04 3.24 4.50 4.59 8.19 4.35 2.79 18.39 2.20 2.93 7.51
3 0.67 1.77 6.03 4.40 4.66 2.23 2.18 2.64 3.85 10.66 1.24 1.23 2.11
4 1.16 1.34 4.63 3.44 3.12 1.45 1.67 1.56 2.87 6.59 0.81 1.31 1.05
5 0.98 1.04 2.63 2.01 1.91 1.07 1.06 1.36 1.98 3.76 0.65 0.68 0.59
6 1.23 0.75 2.73 1.78 1.58 0.64 0.97 0.74 0.80 3.46 0.52 0.70 0.69
7 0.71 0.67 2.26 1.54 0.99 0.68 1.07 0.80 1.25 3.17 0.45 0.60 0.68
8 0.35 0.47 1.78 1.43 0.80 0.37 0.56 0.91 1.42 2.64 0.36 0.36 0.21
9 0.79 0.45 1.97 1.29 0.97 0.43 0.83 0.76 0.52 2.49 0.28 0.53 0.56
10 0.45 0.32 1.59 0.98 0.83 0.44 0.55 0.54 0.58 2.01 0.36 0.53 0.25

Table 7.4 Indice de dispersion /x (100) des poids des attributs pour la base WINE au cours de 10
excutions.
78 C HAPITRE 7 Pondration et Slection de variables

gnralement considr comme facile dtecter, nous avons donc rpt nos simulations en rempla-
ant les dimensions 22 40 par des permutations des variables 1 21. Le mme comportement de la
mthode a t observ dans ces conditions moins favorables.
Sur la base madelon dont seulement 4% des dimensions sont pertinentes, notre approche slectionne
12 variables de manire systmatique et jusqu 5 variables supplmentaires ; toutes correspondent ef-
fectivement des dimensions intressantes.

7.4 Discussion
7.4.1 Pondration
Dans ce chapitre, nous avons propos une mthode de pondration pour les cartes auto-organises ;
cette mthode sest rvle efficace pour dtecter le bruit et identifier les variables pertinentes. Nan-
moins, nous avons utilis une pondration globale qui suppose que les attributs pertinents sont les mmes
pour tous les groupes dindividus prsents au sein de lensemble dapprentissage. Cette hypothse nous
semble forte et nous pensons quil serait intressant dtudier lextension de lalgorithme propos au
cas dune pondration locale. Ce type dapproche permettrait en outre de faciliter la caractrisation des
groupes identifis et ainsi de faciliter la comprhension des donnes.

7.4.2 Critre darrt


Le test statistique (Wilcoxon) utilis dans notre algorithme de classification non supervise pour
faire la slection est bas sur lanalyse des rangs des distances des donnes par rapport aux prototypes
de la carte sans tenir compte ni de la notion de groupes ni de leur rpartition. En outre, ce test sest
rvl inadapt sur la base de donnes Iris pour laquelle aucun attribut na t limin. Il serait opportun
dutiliser un autre type de test (par exemple le test de Fisher) en analysant plutt la variance intra et inter
clusters. Dans ce dernier cas, le test permettra de slectionner les variables pertinentes minimisant par
exemple le rapport variance intra/variance inter clusters.

7.4.3 Approche intgre


Au cours de ce chapitre, nous avons propos une approche filtre de slection de variables et il sem-
blerait intressant de modifier la mthode propose pour en faire une approche intgre. Nous avons
mentionn au dbut du chapitre quon peut montrer que lorsque 1+ , les poids j tendent devenir
binaires. Ainsi, nous envisageons de modifier le paramtre pendant lapprentissage, au mme titre que
la taille du voisinage qui diminue progressivement.

7.5 Conclusion
Une extension de lalgorithme w-kmeans propos par Huang [HNRL05] a t prsente ; elle per-
met notament dapprendre progressivement une pondration qui peut tre utilise dans une procdure
de slection de variable. Lintrt majeur de commencer par un calcul de pondration est de permettre
lmergence progressive dune partition de lensemble des observations et dviter que la suppression
par erreur dune variable pertinente en dbut dapprentissage nempche la dcouverte dune structure
intressante. Les rsultats obtenus par cette mthode sont trs encourageant et nous pensons quil serait
opportun de ltendre au cas dune pondration locale qui permettrait en outre de faciliter linterprtation
C HAPITRE 7 Pondration et Slection de variables 79

des groupes mis en vidence. Ensuite, le critre darrt que nous retenu a t mis en dfaut sur la base
des Iris et il conviendrait dvaluer les performances de notre approche en le remplaant par un T-test.
Enfin, la mthode propose reste coteuse dun point de vue computationnel et le dveloppement dune
approche intgre dans laquelle la valeur du paramtre diminuerait progressivement mrite dtre tu-
dier, car il permettrait certainement damliorer ce point critique.
PARTIE III
Applications
C HAPITRE 8
Applications aux
traitements de donnes
comportementales
8.1 Application aux Marketing
8.1.1 Problmatique
Dans un contexte conomique toujours plus concurentiel, une entreprise qui souhaite perdurer et se
dvelopper doit savoir adapter sa stratgie aux volutions de son march. Pour y parvenir, ses dcideurs
ont leur disposition diffrents outils dont lanalyse des rsultats de sondage auprs de consommateurs
qui est abord dans la suite de cet article. Les objectifs dune enqute peuvent se rsumer en trois ques-
tions :
Qui ? : Connatre ses clients et ses prospects est essentiel pour dterminer les canaux de com-
munications utiliser par exemple.
Quoi ? : Identifier les produits qui les intressent et leurs attentes permet dadapter sa gamme
pour toujours mieux les satisfaire ?
Pourquoi ? : Cette question est sans nul doute la fois la plus intressante et la plus difficile.
Il sagit en effet de comprendre le comportement de nos clients et prospects afin de prendre les
dcisions les mieux adaptes.
Dans ce qui suit, nous allons montrer comment les mthodes connexionnistes peuvent tre mises en
uvre pour mettre en vidence la structure dun march et permettre aux dcideurs de se concentrer sur
la dernire question.

8.1.2 Collecte des donnes


La qualit des donnes collectes auprs des consommateurs conditionne la validit et la pertinence
des conclusions dune analyse de march. Il est ainsi essentiel dapporter le plus grand soin aux diff-
rentes tapes du recueil de donnes.

8.1.2.1 Rdaction du questionnaire


La rdaction du questionnaire est un compromis difficile entre diffrentes exigences contradictoires.
Dun cot, le spectre des questions retenues doit tre suffisament large pour couvrir lensemble des
caractrisques du march tudi. De lautre, la longueur du questionnaire doit rester raisonnable pour
limiter les cots de collecte des rponses. Signalons par ailleurs que lon distingue gnralement deux

83
84 C HAPITRE 8 Applications aux traitements de donnes comportementales

types de questions en fonction des rponses autorises ; ainsi, on parle de questions fermes si la liste des
rponses possibles est fixe et de question ouvertes lorsque la personne interroge est libre de formuler
sa rponse comme elle le souhaite. Dans le cadre de cet article, nous ne traiterons pas de ce dernier type
de questionnaire dont ltude est lobjet dun champs de recherche part entire en statistique.

8.1.2.2 Dfinition de la population cible


Gnralement ralise conjointement avec la rdaction du questionnaire, la dfinition de la popu-
lation cible ncessite un certain niveau dexpertise pour assurer la validit des rsultats des analyses
menes partir de lchantillon de la population retenu.

8.1.2.3 Collecte des rponses


La collecte des donnes peut tre ralise de diffrentes manires : par des enquteurs, par courrier,
par tlphone ou encore par voie lectronique. Chaque canal de communications apporte ses biais propres
qui doivent tre pris en considration lors de la phase danalyse des donnes. Ainsi, un enquteur peut
apparatre plus ou moins sympathique une personne interroge et cel peut introduire un biais dans les
donnes receuillies.

Il est important de noter que malgr lensemble des prcautions prises pendant la phase de collecte
des rponses, celles-ci demeurent entches de nombreux biais lis par exemple au contexte de receuil
des donnes ou lactualit. Imaginons un instant que lon ralise un sondage sur la consommation
de viande et quune nouvelle infection touchant certains animaux dlevage soit annonce au journal
tlvis en plein milieu de la priode de receuil des rponses. Il y a fort parier que les rponses des
consommateurs interrogs avant et aprs cette annonce diffrent de faon significative. Par ailleurs, le
sens dune mme rponse varie dun individu lautre. Ainsi, la prise en compte de ces diffrentes
considrations lors du codage des donnes recueuillies est un lment de succs dterminant dune tude
de march.

8.1.3 Codage des rponses


Comme nous lavons soulign dans le paragraphe prcdent, le traitement des questions ouvertes
sort du cadre de cet article et nous nous intressons dans ce qui suit quau codage des rponses aux
questions fermes. Les questions poses lors dune enqutes attendent soit des rponses quantitatives,
soit des rponses qualitatives. Dans ce dernier cas, si les diffrentes modalits peuvent tre ordonnes on
parle de valeur ordinale et le cas chant on parle de valeur nominale.

8.1.3.1 Codage des valeurs nominales


Pour un certain nombre de questions fermes, les diffrentes modalits de rponses ne peuvent pas
tre facilement ordonnes. A titre illustratif, considrons les diffrents statuts maritals possibles dune
personne suivants : Clibataire, Divorc, Mari, Veuf ou Vie maritale. Il est difficile dordon-
ner ces diffrentes modalits et dans ce cas de figure, on utilise souvent un codage binaire disjonctif ;
comme lillustre le tableau 8.1, une variable logique est affecte chaque modalits et est fixe 1 si la
modalit correspond la rponse de lindividu et 0 sinon. Le passage du cadre de la logique classique
celui de la logique floue offre davantage de souplesse et permet notament de modliser les incertitudes
C HAPITRE 8 Applications aux traitements de donnes comportementales 85

concernant les rponses des personnes interroges. Ainsi, plutt que dinitialiser la variable correspon-
dant une modalit diffrente de celle choisie par le rpondant, elle est initialise avec une valeur de
lintervalle [0; 1] correspondant aux incertitudes lies sa rponse.

Modalit Codage disjonctif


Clibataire h1; 0; 0; 0i
Mari h0; 1; 0; 0i
Veuf h0; 0; 1; 0i
Vie maritale h0; 0; 0; 1i

Table 8.1 Exemple de codage binaire disjonctif dune valeur nominale.

8.1.3.2 Codage des valeurs ordinales


Le codage propos ci-dessus pourrait tre appliqu des valeurs ordinales mais au prix dune perte
dinformation importante. A titre dexemple, considrons la liste suivante : Certainement, Probable-
ment, Peut-tre, Probablement pas ou Certainement pas. En faisant abstraction de lordre, les
rponses Certainement et Probablement sont considres comme aussi diffrentes que Certaine-
ment et Certainement pas. Cet exemple simple montre linquation du codage binaire disjonctif dans
le cas des valeurs ordinales ; nanmoins, le passage la logique floue permet dobtenir un premier codage
satisfaisant si on dispose de lexpertise ncessaire pour fixer les diffrents coefficients ; un exemple en
est donn par le tableau 8.2.

Modalit Codage disjonctif flou


Certainement h1, 0 ; 0, 8 ; 0, 4 ; 0, 2 ; 0, 0i
Probablement h0, 8 ; 1, 0 ; 0, 8 ; 0, 4 ; 0, 2i
Peut-tre h0, 4 ; 0, 8 ; 1, 0 ; 0, 8 ; 0, 4i
Probablement pas h0, 2 ; 0, 4 ; 0, 8 ; 1, 0 ; 0, 8i
Certainement pas h0, 0 ; 0, 2 ; 0, 4 ; 0, 8 ; 1, 0i

Table 8.2 Exemple de codage disjonctif flou dune valeur ordinale.

Le codage des rponses laide dune variable numrique quillustre le tableau 8.3 est sans doute
le plus simple que lon puisse imagin. Nanmoins, il fait lhypothse forte dune diffrence constante
entre deux modalits successives. On pourra bien entendu adapter la diffrence entre les modalits en
faisant appel un expert du domaine.
Enfin, en modifiant lgrement la smantique des variables du codage disjonctif associes aux diff-
rentes modalits on obtient le codage binaire dit additif. Pour illustrer notre propos, si on considre la
troisime et la quatrime variable logique dans le tableau 8.4, elles ont respectivement les smantiques
suivantes Au moins peut-tre et Au moins probablement.

8.1.4 Exemple dtude


Nous prsentons ici un exemple dtude portant sur les intentions dachats et les attentes exprimes
par un panel original dun millier de consommateurs. Le questionnaire utilis lors de la collecte des
86 C HAPITRE 8 Applications aux traitements de donnes comportementales

Modalit Codage numrique


Certainement 5
Probablement 4
Peut-tre 3
Probablement pas 2
Certainement pas 1

Table 8.3 Exemple de codage numrique dune valeur ordinale.

Modalit Codage additif


Certainement h1; 1; 1; 1; 1i
Probablement h1; 1; 1; 1; 0i
Peut-tre h1; 1; 1; 0; 0i
Probablement pas h1; 1; 0; 0; 0i
Certainement pas h1; 0; 0; 0; 0i

Table 8.4 Exemple de codage binaire additif dune valeur ordinale.

donnes portait sur une centaine de produits et autant dattentes ou besoins. Afin de garantir la confi-
dentialit des donnes stratgiques utilises dans le cadre de cet exemple, les rponses dune partie des
consommateurs ont t retires et le nom des produits ainsi que lintitul des attentes ont t modifis

8.1.4.1 Choix du codage des rponses


Pour cette tude, nous avons retenu un codage numrique des rponses aux questions portant sur les
intentions dachats ou sur les attentes. Pour les rponses aux questions signaltiques, un codage binaire
additif a t employ chaque fois que les modalits taient ordonnes et un codage binaire disjonctif dans
les autres cas.

8.1.4.2 Pr-traitement des donnes


Le tableau de donnes obtenu aprs le codage des rponses a ensuite t pr-trait avant de commen-
cer son analyse. Les rponses aux questions portant sur les intentions dachat ou sur les attentes sont trs
lies lchelle individuelle de notation utilise par chacune des personnes interroges. Pour limiter le
biais rsultant, les rponses ont t centres par individus ; ce qui revient sintresser aux prfrences
des consommateurs plutt quaux rponses brutes.

8.1.4.3 Segmentation des consommateurs


Lapprentissage dune carte topologique a t ralis en utilisant la version squentielle de lalgo-
rithme de Kohonen. Celle-ci a ensuite
t segmente laide de lalgorithme de k-moyennes pour un
nombre de centres variant de 2 M , o M est le nombre de neurones sur la carte. Les indices de
Davies-Bouldin indiqus sur la figure 8.1 pour les versions hors-ligne et en-ligne de lalgorithme corres-
pondent aux meilleures valeurs obtenues aprs dix excutions. La version fast-global-kmeans est dter-
ministe et na donc t xcute quune seule fois. La meilleure segmentation, obtenue avec la mthode
C HAPITRE 8 Applications aux traitements de donnes comportementales 87

fast-global-kmeans pour douze centres, est prsente la figure 8.2. Chaque segment de consommateurs

Qualite de la segmentation des consommateurs


2
Version "hors ligne"
Version "en ligne"
Fastglobalkmeans
1.8
Indice de DaviesBouldin

1.6

1.4

1.2

2 3 4 5 6 7 8 9 10 11 12
Nombre de groupes

Figure 8.1 Qualit des segmentations des consommateurs en fonction du nombre de groupes et de
lalgorithme utilis.

identifi peut ensuite tre caractris par un sous-ensemble de variables dont les valeurs sont caractris-
tiques du groupe considr. On peut utiliser la valeur test qui est un indicateur statistique propos par A.
Morineau [Mor84] cette fin ; elle sera prsente au paragraphe 8.2.4.5.

8.1.4.4 Segmentation des attentes, produits et informations signaltiques


Des profils de produits, dattentes et de variables signaltiques ont ensuite t extraits partir de la
carte des consommateurs. En effet, les prototypes des units reprsentent des consommateurs moyens
et le vecteur des valeurs dune variable (produit, attente ou signaltique) sur lensemble des units en
donne un profil reprsentatif [VA99]. Les reprsentations ainsi obtenues ont t utilises pour construire
une carte des produits, attentes et variables signaltiques dont les projections sont reprsentes la figure
8.3.
La carte obtenue a ensuite t segmente en suivant le protocole dcrit prcdement ; le meilleur
dcoupage est cette fois obtenu pour huit segments laide de la version en-ligne de lalgorithme des k-
moyennes (cf. figure 8.4). Linterprtation des segments mis en vidence (cf. figure 8.5) est trs intuitive
lorsque lon dispose des noms de variables originales, mais le caractre stratgique de ce type de donnes
ne nous permet pas de la dtailler davantage ici.

8.1.5 Conclusion
Nous avons prsent ici une mthode systmatique danalyse de donnes issues denqutes auprs
de consommateurs o le questionnaire ne comporte que des questions fermes. Lorsquelle est utilise
pendant la phase exploratoire de lanalyse, cette approche permet de dgager rapidement les premiers
lments de comprhension dun march et de rpondre aux deux premires questions fondamentales :
88 C HAPITRE 8 Applications aux traitements de donnes comportementales

Figure 8.2 Segmentation de la carte des consommateurs en douze segments.

Qui ? et Quoi ?. Cette premire perception du march permet ensuite daborder le Pourquoi ? et
dainsi apprhender les comportements de nos consommateurs. Ce nest qualors, que des modifications
de la stratgie marketing pourront tre envisages sereinement.

8.2 Application lEthologie


8.2.1 Problmatique
La vie sociale dans les groupes structurs implique une rgulation constante des relations entre
membres du groupe. La signalisation par lindividu de son appartenance des sous-groupes (genre,
statut, etc.) est un moyen de rguler les interactions. Par ailleurs, dans diverses situations sociales, la
signalisation du genre est de loin la plus importante. Plusieurs parties du corps sont utilises dans le
signalement du genre et des tudes antrieures [Ber91, BBH+ 93, BY98] ont montr que le visage tait
une rgion importante. Plusieurs auteurs ont mis en vidence la rle des mouvements faciaux dans la
catgorisation du genre [HJ01, TK02].
Curieusement, peu dtudes ont t consacres la production des mouvements faciaux et leur orga-
nisation temporelle [ADMR05, GTPF03, TGPF05]. De plus, lutilisation de systmes denregistrements
ncessitant la pose de marqueurs sur le visage tend rendre la situation peu naturelle. Notre tude sint-
resse une situation exprimentale faisant intervenir de jeunes adultes confronts une tche cognitive
ne ncessitant pas dinteraction sociale directe. Les sujets ont cependant t accueillis par une expri-
mentatrice avant lenregistrement vido de leur comportement depuis une pice voisine. Cette situation
nest pas sociale bien que son contexte le soit. Nos objectifs taient
1. de constituer une base de donnes permettant de nouvelles comparaisons entre hommes et femmes,
2. dencoder les mouvement faciaux laide dun mthode objective,
3. de dtecter et de caractriser lorganisation temporelle des mouvements faciaux,
C HAPITRE 8 Applications aux traitements de donnes comportementales 89

p041 p016
a
p065 08 p017
a
p 09 p
067 p a 019
p 078 p 20 p p
071 p 001 a 011 020
p 089 a 72 a p
099 a53 88 au_moins25a 37 022
a p p
25 au_moins35a 024 018
a p p
26 au_moins p012 026 027
a p 45a p p
52 060 p a a 038 029
p097 002 veuf_ou_divorce 12 87 p036
a
73 p037
p039
p a
043 p p 07 p p
p091 006 009 a65 010 034
a p p p
p093 17 013 a69 014 035

p
a 023
a 41 p
a a a 80 a a 028
p049 35 67 60 a85 77 76 p033
a
p063 81 a06
p p
066 070 a
p p 11 a a
069 p090 088 a78 59 54 a47 a
p a a a 01
075 13 a84 68 66 a03
p a
079 14 a05
p
080 p061 a15 p098 a16
sans p
enfant 045 p p a a a a
p 072 096 39 43 40 22
051 a a a a
62 89 82 23
a
p054 50
a p a
04 p095 082 p048 74
homme p a a p a
047 a 27 55 a 007 79
celibataire 36 a 21
a 56
38 a32 p004
a46 a33 p055 p003 a18
a a a a p p a
63 64 34 61 030 005 19
a a a a a
70 42 86 10 44
a a
p073 57 a28 45
p
p a a 015 p p
081 p 71 29 p p 008 031
p p 040 a a 025 p 021 p p
084 042 83 30 052 p053 032 046
a p a p p
49 050 p044 a48 31 056 062
p p femme
057 p068 a 059
p 51 p avec
064 p a p 085 enfant
p 077 58 058 p au_moins
074 a a 087 2pers
p076 02 75 p092 au_moins3pers
a vie_conjugale
p083 24 p094 au_moins4pers
p086 p100 au_moins5pers
marie

Figure 8.3 Projection des produits, attentes et des variables signaltiques.

4. dutiliser les mme donnes pour mettre en oeuvre une approche connexionniste,
5. de confronter les premiers rsultats des deux approches.
Nous commenons par dcrire le recueil des donnes avant de prsenter les approches thologique et
connexionniste mises en oeuvre. Nous poursuivons par une discussion gnrale des rsultats obtenus
avant dindiquer les futurs travaux envisags.
90 C HAPITRE 8 Applications aux traitements de donnes comportementales

Qualite de la segmentation de la carte des produits/attentes


1.5
Version "hors ligne"
Version "en ligne"
1.4
Fastglobalkmeans

1.3
Indice de DaviesBouldin

1.2

1.1

0.9

0.8

0.7

0.6
2 3 4 5 6 7 8 9 10 11 12
Nombre de groupes

Figure 8.4 Qualit des segmentation de la carte des produits et des attentes en fonction du nombre de
groupes.

8.2.2 Constitution de la base de donnes


Lobjectif est dobtenir des enregistrements vido dhommes et de femmes dans une situation stan-
dardise permettant lexpression de mouvements faciaux divers : mouvements labiaux lis aux rponses
verbales, ractions motionnelles, etc. Les sujets recruts acceptent dtre films mais sont nafs quand
la thmatique relle de lexprience laquelle ils participent. La situation exprimentale est une tche
cognitive ralise dans un contexte social indirect (accueil et consignes, prsence de la camra et dun
exprimentateur de sexe fminin dans la salle voisine).
Les sujets (11 femmes et 9 hommes, entre 19 et 25 ans) sont des tudiants volontaires de lUniversit
Paris 13 de Villetaneuse. Ils sont recruts pour participer une courte exprience portant sur la perception
visuelle dimages quils doivent juger soit normales (non ambigus), soit anormales (ambigus). Ils ne
sont pas rmunrs.
Les sujets sont accueillis par les exprimentateurs, puis sont introduits et laisss seuls dans une salle,
avec pour consigne de suivre les instructions donnes via un cran dordinateur. Le sujet sassied sur une
chaise, face lordinateur portable pos sur une table. Il dispose dune souris qui lui permet de grer le
droulement de lexprience (pas de temps limit). Une camra vido numrique permet denregistrer
le sujet (visage et paules) pendant toute lexprience. Cette camra est place dans une salle contigu,
derrire une vitre, et situe au-dessus du niveau de lcran dordinateur. Seul lobjectif du camscope est
visible par le sujet. Les rponses verbales des sujets sont enregistres laide dun magntophone.
La tche des sujets consiste visionner des images et verbaliser voix haute une rponse quant leur
caractre anormal/ambigu ou normal/non ambigu. La dernire diapositive les informe que lexprience
est finie. La passation dure de 1 min 30 s 4 min 30 s, selon les sujets (2 min 45 s en moyenne). En
raison de caractristiques particulires des sujets films (mouvements importants du corps ou de la tte,
port de lunettes ou de barbe, etc.), ne sont finalement conservs pour la suite de ltude que 10 sujets (5
femmes et 5 hommes).
C HAPITRE 8 Applications aux traitements de donnes comportementales 91

Figure 8.5 Segmentation de la carte des produits et des attentes en huit segments.

On choisit de travailler sur des squences de courte dure en prvision du travail de relev ultrieur,
particulirement long. Lanalyse prvue ncessitant la rptition de mouvements faciaux par un mme
individu, on slectionne 3 squences de 3 secondes chacune par sujet. Dans un souci de standardisation,
les squences sont centres sur une rponse facile objectiver du sujet, savoir une rponse verbale.
On chantillonne une seconde avant le dbut dnonciation de la rponse, et deux secondes aprs. On
dispose alors de 3 squences par sujet dont le contexte est respectivement semblable dun sujet lautre.
Enfin, les extraits sont segments en images, raison de 13 images par seconde, ce qui produit 39 images
par squence, chronologiquement indices (analyse du mouvement la prcision de 0,08s). A ce stade,
les donnes consistent en 10 jeux, un jeu par sujet, de 3 sries chronologiques de 39 images (soit un total
de 1170 images).

8.2.2.1 Recueil des donnes sur des sries chronologiques dimages


Sur chaque image, le recueil des donnes se fait par pointage. Le principe de cette tape est dobtenir
les coordonnes successives, cest--dire au fil des 39 images, dun nombre dtermin de points du
visage. Lvolution des coordonnes des points au cours du temps fournit une information quant leur
dplacement.
Nous dfinissons 36 points du visage, impliqus dans les mouvements faciaux [GTPF03, TGPF05]
et facilement dsignables. Ces 36 points sont situs au niveau des sourcils, des yeux, du nez, de la bouche
et du menton. La figure 1 prsente leur disposition, ainsi que leur dsignation par des numros.
On ralise 3 sessions de pointage de 3 s. par sujet (total : 117 images). Le pointage est ralis image
par image. Par exemple, on commence par pointer lcran, laide du curseur, le point 1, de limage 1
limage 39.
Par mesure de prcaution et pour garantir une plus grande prcision des mesures, on effectue de deux
quatre rptitions par relev, par point et par image. Les quatre valeurs des deux coordonnes (x, y)
ainsi obtenues sont moyennes, et cest cette moyenne qui est prise en compte par la suite. A lissue du
92 C HAPITRE 8 Applications aux traitements de donnes comportementales

pointage, on connat pour une squence individuelle, les coordonnes prises par chacun des points sur
chacune des 39 images. Ces coordonnes constituent les donnes brutes.

Figure 8.6 Localisation et numrotation des points sur le visage.

8.2.2.2 Codage des donnes en coordonnes faciales


Les coordonnes issues du pointage, relatives limage, sont ensuite transformes en coordonnes
faciales. On dfinit pour cela un nouveau repre partir de trois points fixes du visage : le premier axe
de ce repre passe par les coins internes des yeux (points 3 et 4), le second axe lui est perpendiculaire et
passe par le bout du nez (point 20).
On dispose maintenant pour une squence donne de 3 s, des coordonnes faciales des 36 points au
long des 39 images successives.

8.2.3 Approche thologique


Pour un point du visage donn, un mouvement saillant correspond un changement significatif de sa
distance lorigine du repre facial. Nous avons considr quune diffrence de plus ou moins un cart
type par rapport la distance moyenne pendant la priode de 3 secondes retenue tait significative. Une
tude comparative du nombre de mouvements saillants chez les hommes et chez les femmes est mise
en oeuvre. Nous dcouvrons ensuite comment varient la distance lorigine des 36 points du visage au
cours de la priode de 3 trois secondes chacun des genre laide du logiciel THEME 5.0 dvelopp
par Magnusson (http ://www.noldus.com). Ce logiciel nous permet de dtecter les motifs temporels des
mouvements faciaux qui sont dfinis comme une rptition en temps rel de structure comportementale
organise [Mag00]. Seuls quelques rsultats sont prsents ci-dessous.
Nous observons un nombre moyen de mouvements saillants produits pendant une priode de 3 se-
condes plus important chez les hommes que chez les femmes (n=86 contre 69, p<.05, test de permutation
exacte). Nous observons galement un nombre de T-patterns plus lev chez les hommes que chez les
femmes (sur une base de 100, les hommes en produisent 66 contre 46 pour les femmes, p=.05). Les T-
patterns impliquent en moyenne 4 points du visage chez les hommes contre 3 chez les femmes (p=.07).
C HAPITRE 8 Applications aux traitements de donnes comportementales 93

Des diffrences qualitatives, lies au genre, dans la composition des T-patterns sont galement mises en
vidence : les hommes produisent des motifs simples impliquant lextrmit temporale du sourcil gauche
et la narine gauche, alors que les femmes produisent des motifs simples impliquant les parties interne et
mdiane du sourcil droit.
Nos rsultats prliminaires indiquent que les mouvements faciaux des hommes et des femmes dif-
frent quantitativement, et quau moins pour certain dentres eux, ils diffrent galement qualitativement
lors de la ralisation dune tche cognitive dans un contexte social.

8.2.4 Approche propose

La base de donnes constitue comporte un ensemble dobservations tiquetes, deux alternatives


sont donc envisageables en vue de son exploitation : lapproche supervise et lapproche non-supervise.
Notre objectif tant de dgager une structure intrinsque de nos donnes qui soit lie au genre, nous
optons donc pour une approche non supervise. La classification automatique, ou clustering, consiste
identifier des groupes dobservations similaires que nous appellerons clusters par la suite. Nous nous
focalisons sur une approche de type fouille de donnes et nous retenons les cartes auto-organises pour
mener bien notre analyse. Ces dernires nous fournissent un moyen pratique pour visualiser nos don-
nes sur un espace de faible dimension. Notons galement que ltiquetage de la carte obtenue nous
permettra de vrifier visuellement lmergence dune structure lie au genre.
Nous rappelons dabord brivement le principe des cartes auto-organises et une mthode dcoupage,
avant de prsenter une mesure statistique pour la caractrisation des clusters. Nous terminerons enfin par
la prsentation de nos rsultats exprimentaux qui seront brivement discuts.

8.2.4.1 Les cartes auto-organises

Les cartes auto-organises (Self-Organizing Maps ou SOM), souvent appeles cartes topologiques
ou carte de Kohonen, ont t introduites au dbut des annes 80 comme une mthode de classification
automatique et de visualisation de donnes multidimensionnelles. Elles implmentent une forme particu-
lire de rseaux de neurones, dits rseaux de neurones comptition, o le succs dun neurone de sortie
(neurone de la couche de comptition) reconnatre une entre, conduit inhiber les autres neurones,
donc renforcer le neurone vainqueur. Par consquent, le neurone vainqueur pour un exemple tend
se spcialiser dans la reconnaissance de cet exemple. On note que dans ces modles lapprentissage est
non-supervis car ni les classes ni leur nombre nest donn priori. Ce type de rseau est organis en
une couche deux dimensions (figure 8.7). Chaque neurone k est connect un nombre n dentres
travers n connexions de poids respectifs k . Les connexions latrales qui assurent la comptition entre
les neurones sont de poids fixes et excitatrices dans un voisinage proche.
Ces cartes sorganisent par rapport aux exemples prsents en respectant les contraintes topologiques
de lespace dentre. Il y a mise en correspondance de lespace dentre avec lespace du rseau. Les
zones voisines de lespace dentre sont voisines sur la carte auto-organise.
Les informations reues par le rseau neuronal dterminent un arrangement spatial optimal des neu-
rones. Lorsque la dimension de lespace dentre est infrieure ou gale 3, il est possible de reprsenter
visuellement la position des vecteurs poids et les relations de voisinage direct entre deux cellules. Cette
prsentation permet de faire une apprciation visuelle de la carte. Elle fournit une information qualitative
de la carte et le choix de son architecture.
94 C HAPITRE 8 Applications aux traitements de donnes comportementales

Figure 8.7 Architecture du rseau pour lalgorithme des cartes topologiques.

8.2.4.2 Algorithme dapprentissage


Lapprentissage connexionniste se prsente souvent comme la minimisation dune fonction de risque.
Dans notre cas, il sera ralis par la minimisation de la distance, entre exemples dentres et prototypes
(rfrents) de la carte, pondre par une fonction de voisinage hij . On pourra employer pour cela un
algorithme de descente de gradient. Le critre minimiser dans ce cas est dfini par :
N X
X M
RSOM = hb(i)j kxi j k2 (8.1)
i=1 j=1

o N , M et h reprsentent respectivement le nombre dexemples dapprentissage, le nombre de neurones


de la carte et la fonction de voisinage, enfin b(i) est le neurone dont le rfrent est le plus proche de la
forme dentre xi . La fonction de voisinage h peut tre de la forme suivante :
 2 
1 d (r, s)
hrs = exp (8.2)
(t) 2 (t)
o d(r, s) est la distance sur la carte entre les neurones r et s, et (t) est la fonction temprature modli-
sant ltendue du voisinage :
  t
t Tmax
(t) = i (8.3)
i
avec i et f sont respectivement la temprature initiale et la temprature finale (par exemple i = 2 et
f = 0, 5) et Tmax le nombre maximum attribu au temps (nombre ditrations x nombre dexemples
dapprentissage), et la distance de Manhattan d1 est dfinie, entre deux neurones de la carte r et s de
coordonnes respectives (k, m) et (i, j) par :
d1 (r, s) = |i k| + |j m| (8.4)
C HAPITRE 8 Applications aux traitements de donnes comportementales 95

La version stochastique de lalgorithme dapprentissage de ce modle se droule essentiellement en


trois phases :
la phase dinitialisation o des valeurs alatoires sont affectes aux poids des connexions (rfrents
ou prototypes) de chaque neurone de la carte ;
la phase de comptition pendant laquelle, pour toute forme dentre xi , un neurone b(i), de voi-
sinage Vb(i) , est slectionn comme gagnant. Ce neurone est celui dont le vecteur de poids est le
plus proche au sens de la distance euclidienne de la forme prsente :

b(i) = arg min kj xi k2 (8.5)


1jM

la phase dadaptation o les poids de chaque neurone de la carte sont mis jour selon les rgles
dadaptation suivantes : si .j Vb(i) ajuster les poids selon la formule :

.j .j hb(i)j (.j xi ) (8.6)

Ce processus dadaptation est rpt jusqu stabilisation de lauto-organisation.

8.2.4.3 Etiquetage de la carte

La phase dapprentissage prsente prcdemment est totalement non supervise. Cependant, les
donnes dont nous disposons sont tiquetes, nous pouvons utiliser cette information supplmentaire
pour tiqueter les diffrents neurones de la carte obtenue en procdant par vote majoritaire. Ainsi, chaque
neurone se voit attribuer ltiquette majoritaire au sein de sa rgion de Vorono. Il convient de noter que
lon peut amliorer la robustesse de ltiquetage en utilisant un test du 2 [WW98] pour vrifier que la
distribution des tiquettes parmi les observations de la rgion de Vorono du neurone considr diffre
de manire significative de la distribution au sein de lchantillon complet.

8.2.4.4 Dcoupage automatique

Une carte auto-organise peut tre vue comme une mthode de classification automatique dont rsulte
une partition de lespace des observations qui comporte autant de partie quil y a de neurones. Il est
souvent souhaitable de diminuer le nombre de clusters pour en faciliter lanalyse. Plusieurs mthodes de
dcoupage automatique ont ainsi t propose [VA00]. Nous avons retenu la mthode des k-moyennes
associe lindice de Davies-Bouldin [DB79] pour dcouper notre carte.
La mthode des k-moyennes est une autre mthode de classification. Son principe consiste choisir
arbitrairement une partition. Ensuite, les exemples sont examins un un. Si un exemple devient plus
proche du centre dune classe autre que la sienne, il est dplac vers cette nouvelle classe. On recalcule,
ensuite, les centres des nouvelles classes et on raffecte les exemples aux partitions, et ainsi de suite
jusqu obtenir une partition stable.
Le critre minimiser dans ce cas est dfini par :

C
1 XX
RKmoyennes = kx k k2 (8.7)
C
k=1 xCk

o C , Ck et k reprsentent respectivement le nombre de clusters, le cluster k et son centre.


96 C HAPITRE 8 Applications aux traitements de donnes comportementales

Lalgorithme initial ncessite de fixer priori le nombre C de clusters souhaits. Nanmoins, [VA00]
ont propos de dterminer automatiquement une valeur de C en retenant la partition qui minimise lindice
de Davies-Bouldin [DB79] dfini par :
K
X  
Sc (Ck ) + Sc (Cl )
IDB = max (8.8)
l6=k Dce (Ck , Cl
k=1

o Sc (Ci ) est la distance moyenne entre un objet du groupe Ci et son centre, et o Dce (Ci , Cj ) est la
distance qui spare les centres des groupes Ci et Cj :
1 X
Sc (Ci ) = kx k k
|Ck |
xCk
Dce (Ci , Cj ) = ki j k

La mthode des k-moyennes associe lindice de Davies-Bouldin recherche une partition de les-
pace des observations dont les diffrentes parties sont compactes et bien spares.

8.2.4.5 Indicateur statistique pour la caractrisation des clusters


Les diffrents clusters identifis par le dcoupage de la carte peuvent tre caractriss laide de
lindicateur statistique introduit par Morineau [Mor84] : la valeur test. Cet indicateur utilise le fait quune
variable alatoire qui suit la mme loi au sein dun cluster et au sein de lchantillon dans son ensemble
est sans intrt pour caractriser ce cluster ; plus lhypothse dun tirage alatoire semble douteuse, plus
pertinente sera la variable pour caractriser le cluster. La valeur test dune variable pour le cluster Ck est
dfinie ainsi :
(k )
t= (8.9)
k
o , k et k sont respectivement la moyenne au sein de lensemble des observations, la moyenne et
lcart type au sein du cluster Ck .
Sous lhypothse dun tirage alatoire sans remise des observations composant le cluster Ck , les
valeurs de la moyenne et de la variance dune variable au sein du cluster devrait tre sensiblement les
mme que les valeurs observes pour lchantillon dans son ensemble. Daprs le thorme central limite,
la valeur test dfinie ci-dessus suit donc approximativement une loi de Laplace-Gauss centre et rduite.
Elle permet dvaluer la distance entre la moyenne du cluster et la moyenne de lchantillon en nombre
dcart type dune loi normale.
Il convient de prciser que cette interprtation nest valable que pour des variables illustratives. Pour
les variables actives, la valeur absolue dune valeur test ne peut tre vue que comme une mesure de
similarit entre une variable et un cluster.

8.2.4.6 Exprimentations
Codage des donnes : Notre tude sintresse avant tout au mouvements faciaux, nous calculons donc
les distances entre deux positions successives de chacun des points. Les observations disponibles sous
forme de squences de longueurs de dplacement, sont en nombre rduit. Cela nous conduit utiliser
une fentre glissante pour dune part augmenter le nombre dobservations et dautre part, amliorer la
robustesse aux dcalages temporels des mouvements. Cependant, ce pr-traitement impose dutiliser un
paramtre supplmentaire : la largeur de la fentre W . Ltude de la dynamique des mouvements faciaux
C HAPITRE 8 Applications aux traitements de donnes comportementales 97

impose que lon intresse aux dplacements simultans de lensemble des points du visages retenus pour
ltude. Ainsi, nous avons utilis la matrice de covariance dynamique de chacune de nos sous-squences
comme entres du rseau. La matrice de covariance dynamique dune squence S = (xi Rn )i=1,...,W
est dfinie dans [ZB04b, ZB04a] de la manire suivante :
W
!
1 X
d = x1 xT1 + (xi xi ) (xi xi )T (8.10)
W
i=2

o la moyenne des vecteurs prcdents xi est donne par


i
1X
xi = xj (8.11)
i
j=1

Choix de la largeur de la fentre glissante : Sachant que notre objectif est didentifier une struc-
ture intrinsque de nos donnes qui soit relative au genre. Ainsi, il est pertinent de choisir une largeur
de la fentre glissante qui permette de bien sparer les femmes des hommes. Nous valuons donc les
performances dun classificateur bas sur une carte auto-organise tiquete. Nous procdons donc par
validation croise ; les donnes recodes de neuf des dix sujets de ltude sont utilises pour construire
et tiqueter une carte. A titre de test, les donnes relatives au dernier sujet sont projetes sur la carte et
ltiquette la plus souvent rencontre est attribue chacune de ses 3 squences. Lopration est ralise
5 fois pour chacune des valeurs possible de W. Les rsultats des classificateurs dont les taux de recon-
naissance de chacun des deux genres sont suprieurs 50% sont prsents la figure 8.9 laide dun
graphe de ROC [Faw03]. Les graphes de ROC permettent de visualiser et de comparer les performance
de diffrents classificateurs ; le meilleur dentre eux est celui dont les performances se trouvent le plus
proche du coin suprieur gauche. Dans notre cas, il sagit du classificateur construit partir des donnes
recodes en utilisant une fentre glissante de largeur 33. Nous retenons donc cette valeur pour la suite de
lanalyse.

Construction et dcoupage dune carte auto-organise : Nous construisons donc une carte auto-
organise avec les donnes recodes en utilisant une fentre glissante de largeur 33. Un dcoupage auto-
matique est ralis.
Les valeurs de lindice de Davies-Bouldin sont donnes par la figure 8.8. Nous retenons le dcoupage
en 3 classes qui minimise lindice de Davies-Bouldin. La segmentation de la carte est donne gauche
de la figure 8.10. La rpartition des donnes correspondant aux 2 genres est galement indique droite
de cette dernire figure ; le nombre de donnes recodes est indiqu entre parenthses derrire le numro
de la classe. Les classes 1 et 2 correspondent respectivement aux hommes et aux femmes. Les 3 clusters
obtenus par le dcoupage de notre carte sont tiquets suivant la mthode prsente prcdemment. Les
clusters situs en haut et en bas de la carte correspondent respectivement aux femmes et aux hommes.
Le cluster reprsent en noir reste sans tiquette car il nest ni clairement fminin, ni clairement mas-
culin, il reste donc sans tiquette. La carte obtenue nous permet de conclure lexistence dun structure
intrinsque de nos donnes lie au genre.

Caractrisation des clusters obtenus : Seul les clusters sexus nous intresse, nous ne caractrisons
donc pas le cluster laiss sans tiquette. Dans la mesure o il nous semble plus naturel dinterprter nos
rsultats partir de squences de dplacements quavec les coefficients dune matrice de covariance,
98 C HAPITRE 8 Applications aux traitements de donnes comportementales

Qualite de la segmentation
0.6

0.59

0.58 0.57638
Indice de DavieBouldin

0.57 0.56753

0.56

0.55

0.54

0.53 0.53419

0.52 0.52345
0.51

0.5
2 2.5 3 3.5 4 4.5 5
Nombre de Classes

Figure 8.8 Indice de Davies-Bouldin.

nous caractrisons les deux clusters retenus en utilisant les valeurs tests associes aux longueurs des
dplacements (qui peuvent tre considres comme des variables illustratives).
Nous obtenons ainsi une valeur test par point et par dplacement qui se trouve dans la fentre glis-
sante. Nous choisissons de ne reprsenter que les valeurs test qui sorte de lintervalle de confiance 95%
de la moyenne de lensemble des valeurs test qui est donn par

I 1, 96 (8.12)

o , et N sont respectivement la moyenne, lcart type et la taille de lchantillon. Les valeurs sup-
rieures et infrieures la moyenne sont reprsentes respectivement en haut et en bas de la figure 8.11.
Les femmes et les hommes sont respectivement reprsents droite et gauche de cette mme figure.
Un examen rapide de ces graphique met en vidence une plus forte structuration des mouvement chez
les hommes que chez les femmes.

Point Mouvements Immobilit


8 0.14 0.23
17 0.14 0.19
21 0.14 0.21
33 0.14 0.28

Table 8.5 Points caractristiques des Hommes.

Nous souhaitons maintenant identifier les points qui permettent de diffrencier les deux genres. Pour
cela, nous calculons pour chaque cluster et chacun des 36 points du visage retenus pour ltude la
moyenne des valeurs tests significatives. Nous retenons comme points caractristiques dun genre ceux
C HAPITRE 8 Applications aux traitements de donnes comportementales 99

Sensibilite (taux de classification correcte des hommes)


Performances de la carte etiquetees en classement

0.8
W=33

W=36
0.75

0.7
W=32
W=35 W=37
W=34
0.65 W=30
W=31
W=29
W=28 W=38
0.6 W=26
W=19
W=9
W=5 W=27
0.55
W=2
W=3
W=4
W=12
W=8
W=15
0.5
0.3 0.35 0.4 0.45 0.5 0.55
Specificite (taux de classification correcte des femmes)

Figure 8.9 Performances des classificateurs.

Point Mouvements Immobilit


1 0.06 0.10
3 0.07 0.08
6 0.07 0.09
13 0.09 0.09
21 0.08 0.10

Table 8.6 Points caractristiques des Femmes.

dont la valeur test sort de lintervalle de confiance 95% des deux cots. Les tableaux 8.5 et 8.6 montrent
les points retenus. Notons que le point 21 est prsent dans les deux tableaux, nous ne le conserverons
donc pas.

8.2.5 Conclusion et perspectives


Sur notre chantillon, les approches comportementale et connexionniste conduisent des conclu-
sions semblables : dans une tche ralise hors contexte social immdiat certains mouvements faciaux
permettent de discriminer les hommes des femmes. Ainsi, les mouvements masculins sont localiss au
niveau du sourcil, de la narine et de la lvre infrieure gauche, alors que chez la femme ils se situent
principalement au niveau du sourcil et de loeil droit. Cependant, on ne peut exclure que les diffrences
quantitatives observes soient lies la nature de la tche et/ou de la situation. En effet les sujets savaient
que les films seraient analyss par une observatrice, ce qui pourrait expliquer le biais quantitatif en faveur
des hommes dans la production de mouvements faciaux.
Au plan mthodologique, la confrontation des rsultats des deux approches conduit un rexamen
des priodes dimmobilit par les mthodes comportementales. Du point de vue thologique l existence
100 C HAPITRE 8 Applications aux traitements de donnes comportementales

Carte segmentee

Figure 8.10 Carte finale.

dune latralisation des mouvements faciaux lie au genre devra tre confirme sur un chantillon plus
important et dans diffrentes situations. Il serait alors intressant de comparer diffrents groupes culturels
de faon dterminer si les diffrences lies au genre sont communes diffrents groupes.
Dautre part, lapproche connexionniste que nous avons utilise sappuie sur le modle des cartes
auto-organises propos au dbut des anne 80. Ce dernier ne traite pas spcifiquement la dimension
temporelle. Depuis plusieurs modles tenant compte des spcificits des donnes temporelles ont t in-
troduits [Str04, ZB04b, ZB04a]. Leur utilisation pourrait permettre une analyse plus fine de nos donnes.
C HAPITRE 8 Applications aux traitements de donnes comportementales 101

Hommes Mouvements importants Femmes Mouvements importants


9 9
10
13
Sourcil D. 10
13
Sourcil D.
7 7
8
16
Sourcil G. 8
16
Sourcil G.
1 1
2 2
3
11
Oeil D. 3
11
Oeil D.
12 12
4 4
5 5
6
14
Oeil G. 6
14
Oeil G.
15 15
23 23
22 22
21 21
20
19
Nez 20
19
Nez
18 18
17 17
24 24
32 32
30 30
29 29
25 25
31 Bouche 31 Bouche
28 28
27 27
33 33
26 26
36 36
34
35
Menton 34
35
Menton

Hommes Immobilit Femmes Immobilit


9 9
10
13
Sourcil D. 10
13
Sourcil D.
7 7
8
16
Sourcil G. 8
16
Sourcil G.
1 1
2 2
3
11
Oeil D. 3
11
Oeil D.
12 12
4 4
5 5
6
14
Oeil G. 6
14
Oeil G.
15 15
23 23
22 22
21 21
20
19
Nez 20
19
Nez
18 18
17 17
24 24
32 32
30 30
29 29
25 25
31 Bouche 31 Bouche
28 28
27 27
33 33
26 26
36 36
34
35
Menton 34
35
Menton

Figure 8.11 Valeurs tests significatives.


PARTIE IV
Conclusion et perspectives
C HAPITRE 9
Conclusion et
perspectives
Nous avons commenc en proposant lalgorithme -SOM qui sappuie sur une classification simul-
tane des individus et des variables pour pondrer les variables en diminuant linfluence des dimensions
redondantes. Bien que satisfaisant, les rsultats obtenus nous amnent envisager diffrentes amliora-
tions :
La mesure de similarit entre variables est un point essentiel de cette approche et mrite toute
notre attention : nous envisageons de remplacer la distance euclidienne qui sest rvle inadapte
par la distance entre les partitions quinduisent ; nous envisageons plus prcisement dutiliser la
variation dinformation propose par Marina Meila [Mei06].
Ensuite, nous avions retenu la version batch de lalgorithme de Kohonen pour loptimisation de
nos deux fonctions de cot, il conviendrait dutiliser le formalisme lagrangien doptimisation des
systmes modulaires introduit par Lon Bottou [BG91, Bot91] pour amliorer loptimalit de nos
solutions.
Une approche intgre de slection de variables et du nombre de groupes a ensuite t prsente ; son
utilisation est limite au cas le nombre de dimensions n est infrieure au nombre dindividus moins le
nombre de groupes. Cette limitation est lie au critre darrt retenu et il conviendrait de ladapter pour
pouvoir traiter galement des donnes en grande dimension pour lesquelles il y a a peu dindividus ; cela
est typiquement le cas en bio-informatique ou en spectromtrie.
Enfin, nous avons prsent lalgorithme -SOM qui tend lalgorithme w-kmeans propos par
[HNRL05] au cas des cartes topologiques. Cet algorithme a montr sa capacit a identifier correctement
les dimensions pertinentes et sa grande stabilit. Nous avons galement introduit une approche filtre de
slection de variable qui sappuie sur la pondration obtenue ; le choix du test de Wilcoxon quelle uti-
lise est peut-tre reconsidrer et nous envisageons de le remplacer par une test de Fisher. Un deuxime
point mrite notre intrt, tous les groupes mis en exergue sappuient sur un mme sous ensemble dat-
tributs mais rien ne nous assure que tous les regroupements pertinents sappuient sur le mme ensemble
de descripteurs. Ainsi, il nest pas exclu que, sans tre totalement pertinentes, les partitions dcouvertes
comportent des regroupements dobjets intressants. Un moyen de pallier ce problme est dtendre nos
travaux sur la slection de variable au cas de la classification contextuelle [Can06] - subspace clustering
- et dutiliser des prondrations locales plutt que globales [Bla06].
Dans le cadre de cette thse, nous avons pu identifier diffrents problmes lis la rduction de
dimension dans le cadre de lapprentissage non supervis. Dans ce contexte, la problmatique de lva-
luation est un enjeu majeur, car contrairement aux problmes de prdiction ou de regression il est difficile
de dfinir ce qui est pertinent et ce qui ne lest pas puisquon ne dispose pas de rfrence. Les diffrentes
approches proposes pour la slection de variables sappuient sur la dfinition suivante de la pertinence
dun sous-ensemble de variables :
106 C HAPITRE 9 Conclusion et perspectives

Dans le contexte de la classification automatique, un sous-ensemble de variables est


pertinent ds lors quil participe lmergence dune structuration en groupes dun
ensemble dobjets.
Mais cette dfinition ne constitue quune amorce de la rsolution du problme ; en outre, il nous reste
exhiber ce qui constitue une structuration en groupes ou une partition pertinente. La littrature est
abondante en critres de qualit de partition mais il nexiste hlas pas de consensus autour dun cri-
tre particulier ; ainsi, il est difficile de choisir un critre adquat. Une tude approfondie des diffrents
critres au travers la structure en treillis propose par Marina Meila nous semblerait pertinente ; cela
nous conduirait soit confirmer que la topologie induite est adapte lvaluation de partition, soit au
contraire constater quil est ncessaire den tablir une autre.
Ensuite, comme nous lavons rappel au chapitre 2, il peut exister plusieurs partitions intressantes
dun mme ensemble dobjets et dans ce cas il nest pas possible de dterminer automatiquement celles
qui sont intressantes pour lutilisateur sans avoir recours des informations supplmentaires. Celle-ci
peuvent tre fournies au systme dapprentissage sous diffrentes formes et le premier mode dacquisi-
tion qui vient lesprit consiste sans doute interagir avec lutilisateur ; on parle alors dapprentissage
actif. Lorsque des connaissances priori sont disponibles et quon dcide de les intgrer directement au
processus dapprentissage on parle dapprentissage semi-supervis [Bas05, Wag02].
Une approche propose rcemment par Jain et Law consiste utiliser diffrents algorithmes de clas-
sification et utiliser les partitions obtenues pour dfinir une nouvelle mesure de similarit qui traduit la
propension des objets se regrouper. Nous pensons que ce type dapproches est une alternative intres-
sante aux formes dapprentissage que nous venons dvoquer. En outre, elle pourrait permettre de traiter
les donnes complexes en utilisant diffrentes reprsentation et en combinant les diffrentes partitions
obtenues pour former un consensus.
Pour finir, lun des enjeux actuels de lapprentissage artificiel est la capacit traiter de grandes
masses de donnes. Une premire approche consiste dfinir des algorithmes incrmentaux qui per-
mettent dviter un r-apprentissage complet lorsque de nouvelles donnes sont disponibles ; il est alors
ncessaire dintroduire les proprits de stabilit et de plasticit des modles construits. Ce travail a t
ralis par Farida Zehraoui [ZB04b, ZB04a] et il semble pertinent dtendre notre pondration au modle
quelle a propos.
Bibliographie
[ADMR05] L. Anolli, S. JR Duncan, M.S. Magnusson, and G. Riva, editors. The hidden structure
of interaction : from neurons to culture patterns, volume 7 of Emerging Communication :
Studies on New Technologies and Practices in Communication. IOS Press, Amsterdam, The
Netherlands, April 2005.
[Amb96] Christophe Ambroise. Approche probabiliste en classification automatique et contraintes
de voisinage. PhD thesis, UTC, Compigne, 1996.
[Azz05] Hanene Azzag. Classification hirarchique par des fourmis artificielles : applications la
fouille de donnes et de textes pour le web. PhD thesis, Universit Franois Rabelais, Tours,
December 2005.
[Bas05] Sugato Basu. Semi-supervised Clustering : Probabilistics Models, Algorithms and Experi-
ments. PhD thesis, University of Texas, Austin - USA, August 2005.
[Bat94] R. Battiti. Using mutual information for selecting features in supervised neural net learning.
IEEE Transactions on Neural Networks, 5(4) :537550, 1994.
[BB95] Y. Bennani and F. Bossaert. A neural network based variable selector. In C. H. Dagli,
M. Akay, C. L. Chen, B. R. Fernandez, and J. Ghosh, editors, ANNIE95, 1995.
[BBD00] P. S. Bradley, K. P. Bennett, and A. Demiriz. Constrained k-means clustering. Technical
Report MSR-TR-2000-65, Microsoft Research, May 2000.
[BBH+ 93] V. Bruce, AM. Burton, E. Hanna, P. Healey, O. Mason, A. Coombes, R. Fright, and A. Lin-
ney. Sex discrimination : how do we tell the difference between male and female faces ?
Perception, 22(2) :131152, 1993.
[BDL+ 04] Y. Bengio, O. Delalleau, N. Le Roux, J.-F. Paiement, P. Vincent, and M. Ouimet. Lear-
ning eigenfunctions links spectral embedding and kernel PCA. Neural Computation,
16(10) :21972219, 2004.
[Ben01] Youns Bennani. Systmes dapprentissage connexionnistes : slection de variables, vo-
lume 15(3-4) of Revue dIntelligence Artiticielle. Hermes Science Publications, Paris,
France, 2001.
[Ben06] Youns Bennani. Apprentissage Connexionniste. Editions Herms Science, 2006.
[Ber91] Diane S. Berry. Child and adult sensitivity to gender information in patterns of facial motion.
Ecological Psychology, 3(4) :349366, 1991.
[Ber02] Pavel Berkhin. Survey of clustering data mining techniques. Technical report, Accrue
Software, San Jose, CA, 2002.
[BG91] Lon Bottou and Patrick Gallinari. A framework for the cooperation of learning algorithms.
In D. Touretzky and R. Lippmann, editors, Advances in Neural Information Processing
Systems, volume 3, Denver, 1991. Morgan Kaufmann.
[BGV92] B. E. Boser, I. M. Guyon, and V. N. Vapnik. A training algorithm for optimal margin
classifiers. In COLT 92 : Proceedings of the fifth annual workshop on Computational
learning theory, page 144152, New York, NY, USA, 1992. ACM Press.

107
108 BIBLIOGRAPHIE

[Bla06] Alexandre Blansch. Classification non supervise avec pondration dattributs par des
mthodes volutionnaires. PhD thesis, Universit Louis Pasteur - Strasbourg I, September
2006.
[BLP05] Fernando Bao, Victor Lobo, and Marco Painho. Geo-som and its integration with geo-
graphic information systems. In Marie Cottrell, editor, WSOM, pages 505512, 2005.
[Bot91] Lon Bottou. Une Approche thorique de lApprentissage Connexionniste : Applications
la Reconnaissance de la Parole. PhD thesis, Universit de Paris XI, Orsay, France, 1991.
[BY98] Vicki Bruce and Andrew Young. In the Eye of the Beholder : The Science of Face Percep-
tion. Oxford University Press, USA, December 1998.
[Can06] Laurent Candillier. Contextualisation, visualisation et valuation en apprentissage non su-
pervis. PhD thesis, Universit Charles de Gaulle - Lille 3, Lille, France, 2006.
[CB02] Dusan Cakmakov and Younes Bennani. Feature Selection for Pattern Recognition. Informa
Press, Ed., 2002.
[CFGR94] T. Cibas, F. Fogelman, P. Gallinari, and S. Raudys. Variable selection with optimal cell
damage. In Proceeding of the ICANN94, volume 1, pages 727730, 1994.
[CGG+ 95] M. Cottrell, B. Girard, Y. Girard, M. Mangeas, and C. Muller. Neural modeling for time
sseries : A statistical stepwise method for weight elimination. IEEE Transactions on Neural
Networks, 6(6), 1995.
[Cib96] Tautvydas Cibas. Contrle de la complexit dans les rseaux de neurones : rgularisation
et slection de caractristiques. PhD thesis, University of Paris XI Orsay, Paris, France,
December 1996.
[CIL03] Marie Cottrell, Smail Ibbou, and Patrick Letrmy. Traitement des donnes manquantes au
moyen de lalgorithme de kohonen. In Actes de la dixime confrence ACSEG, Nantes,
2003.
[DB79] David L. Davies and Donald W. Bouldin. A cluster separation measure. IEEE Transactions
on Pattern Analysis and Machine Intelligence, PAMI, 1(2) :224227, 1979.
[DHG01] Richard O. Duda, Peter E. Hart, and Stork David G. Pattern Classification, Second Edition.
John Wiley and Sons, Inc., 2001.
[DLC03] Bi-Ru Dai, Cheng-Ru Lin, and Ming-Syan Chen. On the techniques for data clustering with
numerical constraints. In Daniel Barbar and Chandrika Kamath, editors, SDM. SIAM,
2003.
[DNM98] C.L. Blake D.J. Newman, S. Hettich and C.J. Merz. UCI repository of machine learning
databases, 1998.
[DPJ+ 96] B. Dorizzi, G. Pellieux, F. Jacquet, T. Czernikov, and A. Munoz. Variable selection using
generalized rbf networks : Application to forecast french t-bonds. 1996.
[Faw03] T. Fawcett. Roc graphs : Notes and practical considerations for data mining researchers.
Technical Report HPL-2003-4, HP Labs, 2003.
[Fis36] Ronald A. Fisher. The use of multiple measurements in taxonomic problems. Annals of
Eugenics, 7 :179188, 1936.
[FLC02] J.-C. Fort, P. Letremy, and M. Cottrell. Advantages and drawbacks of the batch koho-
nen algorithm. In 10th European Symposium on Artificial Neural Networks, ESANN2002,
Bruges, Belgium, April 2002.
BIBLIOGRAPHIE 109

[FM83] E. B. Fowlkes and C. L. Mallows. A Method for Comparing Two Hierarchical Clusterings.
Journal of the American Statistical Association, 78(383) :553569, September 1983.
[Fun01] Glenn Fung. A comprehensive overview of basic clustering algorithms, May 2001.
[GGNZar] I. Guyon, S. Gunn, M. Nikravesh, and L. Zadeh. Feature Extraction, Foundations and
Applications, Editors. Series Studies in Fuzziness and Soft Computing, Physica-Verlag.
Springer, 2006, to appear.
[GTPF03] P. Giovanoli, C-H. J. Tzou, M. Ploner, and M. Frey. Three-dimensional video analysis of
facial movements in healthy volunteers. British Journal of Plastic Surgery, 56(7) :644652,
October 2003.
[HA85] Lawrence Hubert and Phipps Arabie. Comparing partitions. Journal of Classification,
2(1) :193218, December 1985.
[HBV01] Maria Halkidi, Yannis Batistakis, and Michalis Vazirgiannis. On clustering validation tech-
niques. Journal of Intelligent Information Systems, 17(2-3) :107145, 2001.
[HJ01] H. Hill and A. Johnston. Categorizing sex and identity from the biological motion of faces.
Current Biology, 11(11) :880885, August 2001.
[HNCM05] Pierre Hansen, Eric Ngai, Bernard K. Cheung, and Nenad Mladenovic. Analysis of glo-
bal k-means, an incremental heuristic for minimum sum-of-squares clustering. Journal of
Classification, 22(2), September 2005.
[HNRL05] Joshua Zhexue Huang, Michael K. Ng, Hongqiang Rong, and Zichen Li. Automated va-
riable weighting in k-means type clustering. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 27(5) :657668, 2005.
[HS93] B. Hassibi and D.G. Stork. Second order derivatives for networks pruning : Optimal brain
surgeon. In Advances in Neural Information Processing Systems 5, pages 164171. Morgan
Kaufmann Publishers, 1993.
[JD88] Anil K. Jain and Richard C. Dubes. Algorithms for clustering data. Prentice-Hall, Inc.,
Upper Saddle River, NJ, USA, 1988.
[JKV01] Bertrand Jouve, Pascale Kuntz, and Franois Velin. Extraction de structures macrosco-
piques dans des grands graphes par une approche spectrale. Extraction des Connaissances
et Apprentissage, 1(4), 2001.
[JMF99] A. K. Jain, M. N. Murty, and P. J. Flynn. Data clustering : a review. ACM Computing
Surveys, 31(3) :264323, 1999.
[Kay97] Daniel Kayser. La reprsentation des connaissances. Herms, 1997.
[Koh01] Teuvo Kohonen. Self-Organizing Maps, volume 30 of Springer Series in Informa-
tion Sciences. Springer, Berlin, Heidelberg, New York, third extended edition edition,
1995,1997,2001.
[LCDS90] Y. Le Cun, J.S. Denker, and S.A Solla. Optimal brain damage. In Advances in Neural
Information Processing Systems 2, pages 598605. Morgan Kaufmann Publishers, 1990.
[LG] P. Leray and P. Gallinari. De lutilisation dobd pour la slection de variables dans les per-
ceptrons multicouches. Systmes dapprentissage connexionnistes : slection de variables,
Numro spcial de la Revue dIntelligence Artificielle, 15(3-4) :373.
[Li06] Tao Li. A Unified View on Clustering Binary Data. Machine Learning, 62(3) :199215,
March 2006.
110 BIBLIOGRAPHIE

[LLB04] Fernando Loureno, Victor Lobo, and Fernando Bao. Binary-based similarity measures
for categorical data and their application in self-organizing maps, April 2004.
[LM98] H. Liu and H. Motoda. Feature Selection for Knowledge Discovery and Data Mining.
Kluwer Academic Publishers, 1998.
[LVV03] A. Likas, N. Vlassis, and J. Verbeek. The Global k-means Clustering Algorithm. Pattern
Recognition, 36(2) :451461, 2003.
[Mac94] D.J.C. MacKay. Bayesian methods for backpropagation networks, chapter 6. Springer-
Verlag, New York, USA, 1994.
[Mag00] MS. Magnusson. Discovering hidden time patterns in behaviour : T-patterns and their detec-
tion. Behavior research methods, instruments and computers : a journal of the Psychonomic
Society, Inc., 32(1) :93110, Febrary 2000.
[MB88] Geoffrey J. McLahlan and Kaye E. Bashord. Mixture Models : Inference and Applications
to Clustering. Marcel Dekker, Inc., New York, 1988.
[Mei03] Marina Meila. Comparing clusterings by the variation of information. In Bernhard Schl-
kopf and Manfred K. Warmuth, editors, COLT, volume 2777 of Lecture Notes in Computer
Science, pages 173187. Springer, 2003.
[Mei05] Marina Meila. Comparing clusterings : an axiomatic view. In Luc De Raedt and Stefan
Wrobel, editors, ICML, pages 577584. ACM, 2005.
[Mei06] Marina Meila. Comparing clusterings - an information based distance. in print, 2006.
[ML01] Vladimir Makarenkov and Pierre Legendre. Optimal Variable Weighting for Ultrametric
and Additive Trees and K-means Partitioning : Methods and Software. Journal of Classifi-
cation, 18(2) :245271, February 2001.
[MMP02] P. Mitra, C.A. Murthy, and S.K. Pal. Unsupervised Feature Selection Using Feature Simi-
larity. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(4), 2002.
[Moo94] J. Moody. Prediction risk and architecture selection for neural networks. In V. Cherkassky,
J.H. Friedmann, and H. Wechsler, editors, From Statistics to Neural Networks - Theory and
Pattern Recognition Application, 1994.
[Mor84] Andr Morineau. Note sur la caractrisation statistique dune classe et les valeurs-tests.
Bulletin technique 2, Centre international de statistique et dinformatique appliques, Saint-
Mand, France, 1984.
[MU05] F. Moutarde and A. Ultsch. U*F clustering : a new performant cluster-mining method
based on segmentation of Self-Organizing Maps. In Proceedings of the 5th Workshop On
Self-Organizing Maps (WSOM05), pages 2532, Paris 1 Panthon-Sorbonne University,
France, September 2005.
[Mur95] F. Murtagh. Interpreting the Kohonen self-organizing feature map using contiguity-
constrained clustering. Pattern Recognition Letters, 16(4) :399408, April 1995.
[Nea94] R.M. Neal. Bayesian learning for neural networks. PhD thesis, University of Toronto,
Canada, 1994.
[OM04] D. Opolon and F. Moutarde. Fast semi-automatic segmentation algorithm for Self-
Organizing Maps. In Proceedings of ESANN2004 , European Symposium on Artificial
Neural Networks, Bruges (Belgium), pages 507512, 2004.
BIBLIOGRAPHIE 111

[P04] Georg Plzlbauer. Survey and comparison of quality measures for self-organizing maps.
In Jn Paralic, Georg Plzlbauer, and Andreas Rauber, editors, Proceedings of the Fifth
Workshop on Data Analysis (WDA04), pages 6782, Sliezsky dom, Vysok Tatry, Slovakia,
June 2427 2004. Elfa Academic Press.
[PHL96] M.W. Pedersen, L.K. Hansen, and J. Larsen. Pruning with generalization based weight
saliencies : obd, obs. In Advances in Neural Information Processing Systems 8. Morgan
Kaufmann Publishers, 1996.
[Ros96] F. Rossi. Attribute suppression with multi-layer perceptron. In Proceedings of IEEEI-
MACS96, Lille, France., 1996.
[Rou85] Maurice Roux. Algorithmes de classification. Masson, Paris, 1985.
[RRK90] D. W. Ruck, S. K. Rogers, and M. Kabrisky. Feature selection using a multilayer perceptron.
International Journal on Neural Network Computing, 2(2) :4048, 1990.
[RS00] Sam T. Roweis and Lawrence K. Saul. Nonlinear Dimensionality Reduction by Local Linear
Embedding. Science, 290 :23232326, December 2000.
[RZ99] A-P. N. Refenes and A.D. Zapranis. Neural model identification, variable selection and
model adequacy. Journal of Forecasting, 18(5) :299332, Sep 1999.
[Str04] Marc Strickert. Self-Organizing Neural Networks for Sequence Processing. PhD thesis,
University of Osnabrck, Germany, June 2004.
[TdSL00] J.B. Tenenbaum, V. de Silva, and J.C. Langford. A Global Geometric Framework for Non-
linear Dimensionality Reduction. Science, 290 :23192323, December 2000.
[TGPF05] C.H.J. Tzou, P. Giovanoli, M. Ploner, and M. Frey. Are there ethnic differences of facial
movements between europeans ans asians ? British Journal of Plastic Surgery, 58(2) :183
195, March 2005.
[TK02] IM. Thornton and Z. Kourtzi. A matching advantage for dynamic human faces. Perception,
31(1) :113132, 2002.
[TNZ96] V. Tresp, R. Neuneier, and H. G. Zimmermann. Early brain damage. In M. Mozer, M. Jor-
dan, and Th. Petsche, editors, Advances in Neural Information Processing Systems (NIPS
1996), pages 669675. MIT Press, 1996.
[Ult05] A. Ultsch. Clustering with SOM : U*C. In Proceedings of the 5th Workshop On Self-
Organizing Maps (WSOM05), pages 7582, Paris 1 Panthon-Sorbonne University, France,
September 2005.
[US90] A. Ultsch and H.P. Siemon. Kohonens self organizing feature maps for exploratory data
analysis. In Proceedings of the International Neural Networks Conferences (INNC90),
pages 305308. Kluwer Academic Press, Paris, 1990.
[VA99] Juha Vesanto and Jussi Ahola. Hunting for Correlations in Data Using the Self-Organizing
Map. In H. Bothe, E. Oja, E. Massad, and C. Haefke, editors, Proceeding of the Internatio-
nal ICSC Congress on Computational Intelligence Methods and Applications (CIMA 99),
pages 279285. ICSC Academic Press, 1999.
[VA00] Juha Vesanto and Esa Alhoniemi. Clustering of the self-organizing map. IEEE Transactions
on Neural Networks, 11(3) :586600, 2000.
[VSH03] Juha Vesanto, Mika Sulkava, and Jaakko Hollmn. On the decomposition of the self-
organizing map distortion measure. In Proceedings of the Workshop on Self-Organizing
Maps (WSOM03), pages 1116, Kitakyushu, Japan, September 2003.
112 BIBLIOGRAPHIE

[Wag02] Kiri Lou Wagstaff. Intelligent Clustering With Instance-Level Constraints. PhD thesis,
Cornell University, August 2002.
[Wal83] David L. Wallace. A Method for Comparing Two Hierarchical Clusterings : Comment.
Journal of the American Statistical Association, 78(383) :569576, September 1983.
[WW98] Thomas-H. Wonnacott and Ronald-J. Wonnacott. Statistique, Economie - Gestion - Sciences
- Mdecine. Economica, Paris, 1998.
[XW05] Rui Xu and D. Wunsch. Survey of clustering algorithms. IEEE Transactions on Neural
Networks, 16(3) :645678, 2005.
[YB97] M. Yacoub and Y. Bennani. Hvs : A heuristics for variables selection in multilayer neural
network classifiers. In C. H. Dagli, M. Akay, C. L. Chen, B. R. Fernandez, and J. Ghosh, edi-
tors, ANNIE97, volume 7, pages 527532, St. Louis, Missouri, USA, 1997. ASME Press.
[You04] Genane Youness. Contributions une mthodologie de comparaison de partitions. PhD
thesis, Universit Paris 6, July 2004.
[Zan05] Jean-Marc Zanimetti. Statisque spatiale, mthodes et applications gomatiques. Herms
Sciences Publications, Lavoisier, Paris, 2005.
[ZB04a] Farida Zehraoui and Youns Bennani. M-SOM-ART : Growing Self Organizing Map for
Sequences Clustering and Classification. In Ramon Lpez de Mntaras and Lorenza Saitta,
editors, ECAI, pages 564570. IOS Press, 2004.
[ZB04b] Farida Zehraoui and Youns Bennani. M-SOM : Matricial Self Organizing Map for se-
quences clustering and classification. In Proceeding of the International Joint Conference
on Neural Network, IJCNN04, Budapest, Hungary, July 2004.
PARTIE V
Annexes
-SOM : Weighting features during clustering
Sebastien Guerif, Younes Bennani
LIPN - CNRS - University of Paris 13
Villetaneuse. France
{sebastien.guerif, younes.bennani}@lipn.univ-paris13.fr

Eric Janvier
Numsight Consulting France
Boulogne Billancourt. France
e.janvier@numsight.com

Abstract - Real life datasets used in marketing studies contain a lot of redundant features
which may prevent data-mining techniques such as self-organizing maps from discovering
relevant clusters. An extension of the batch Kohonens algorithm is proposed in this paper
to avoid the large amount of work which is required by data preprocessing if redundancy isnt
treated explicitly by the training method. The proposed approach integrates a weighting of
variables built on a simultaneous clustering of both observations and variables and avoids the
side effects of redundancy. An application to market segmentation is then briefly described to
validate the learning algorithm introduced; identified clusters of products and motivations are
used to simplify the analysis of the consumer segmentation by giving the user a first rough
description of the different groups.

Key words - Data-mining, Market segmentation, Redundant features, Self-


Organizing Map, Weighting

1 Introduction
In real life application, data-mining techniques are applied to datasets which contain numer-
ous redundant features. On the one hand, strong correlations between variables may be useful
to deal with missing values [2] or to detect outliers. On the other hand, clustering algorithms
built on Euclidean distance may be prevented from discovering correct clusters if data are
not preprocessed. Intuitively, redundancy gives more importance to some information which
are represented by many features and may occult others that are less present. In the worst
case, some irrelevant informations would be expressed by many dimensions and some rele-
vant knowledge by very few variables; this extreme situation may lead to a less interesting
clustering of the data. To address this problem, different ways are proposed, in which three
categories can be distinguished: selection of variables, extraction of features or weighting of
features [1].
Some methods for unsupervised selection of variables using similarity of features have been
proposed in [7, 8]. It is well known that Euclidean distance can be approximated when few
dimensions compared with the data dimension are missing, but then eliminating some fea-
WSOM 2005, Paris

tures makes it harder to treat correctly missing values. Principal component analysis (PCA)
[6, 9] and factor analysis [13] address efficiently this problem by reducing the attribute space
from a large number of variables to a smaller number of orthogonal factors which preserve the
maximum of variance. However, they require an important effort from the user to interpret
and understand the new representation of ones data. Moreover, these techniques are built
on the correlation matrix computation which requires the whole data to be known, and the
computation of its eigenvalues and associated eigenvector which may suffer from numerical
instabilities. The Mahalanobis distance has been introduced to take care of correlations be-
tween dimensions but suffers from the same numerical instabilities as PCA or factor analysis,
because it requires the computation of the correlation matrix inverse.
The proposed approach is built on a simultaneous clustering of both observations and vari-
ables using self-organizing maps [4] which are well known for their ability to make good
representation of data in large dimension. A weighting mechanism which decrease the weight
of redundant features has been integrated to the learning algorithm.
The remainder of this paper is organized as follows. Section 2 presents the new algorithm
designed to reduce redundancy side effects during the construction of self-organizing maps.
Section 3 discusses obtained results and application of our approach to market segmentation
while section 4 concludes the paper.

2 -SOM: weighting features during clustering


2.1 Outlines and algorithm of -SOM
Two self-organizing maps are constructed simultaneously, the first one represents observations
and the second one the features profile. [11] suggests to first realize a clustering of obser-
vations and then a clustering of component planes to detect correlations between variables,
it is the starting point of our approach. The first basic idea used here is that components
planes are a good representation of features, robust to outliers. The second basic idea is that
the total weight of variables could be shared between the different dimensions according to
the distribution of their best matching units over the map.
The high-level algorithm 1 gives outlines of the -SOM learning. The map of observations
SOM (data) is made up of m(data) units noted U (data) = {1, . . . , m(data) }. Analogously, the
map of features SOM (attr) comprises m(attr) units noted U (attr) = {1, . . . , m(attr) }. The unit
(data)
i U (data) (resp. j U (attr) ) has i (t) Rn (resp. i (t) Rm ) as profile at iteration t.
Some details of the -SOM learning algorithm have to be defined:

The distance used to find the best matching unit of an observation th


qP at the t iteration
n 2
is the following weighted Euclidean distance d(data) (x, y) = i=1 i (t) (xi yi ) ,
Pn
where i (t) R+ are such that i=1 i (t) = 1.

The profile of features i {1,. . . , n} at iteration


 t is given by the corresponding compo-
(data)
nent plane, that is f pi (t) = ji (t) (data)
, which are normalized to unit range.
jU

: {0, . . . , TM ax } [0, 1], where TM ax is the number of iterations, increases from 0


to 1 and is used to avoid oscillations of weights during the learning process. A linear
t
function such (t) = (TM ax 1) is appropriated.
-SOM : Weighting features during clustering

Algorithm 1 -SOM learning


Initialize i (0) = n1 , for i = 1, . . . , n
(data)
Initialize i (0) Rn , for i U (data) = {1, . . . , m(data) }
Rough training of SOM (data)
Extract profile of attributes f pi (t) from SOM (data)
(attr) (data)
Initialize i (0) Rm , for i U (attr) = {1, . . . , m(attr) }
Rough training of SOM (attr)
Compute new weights new i (0)
Update weights i (1) (0) .i (0) + (1 (0)).new i (0)
Initialize t 1
while (t < Tmax ) do
Fine training epoch on SOM (data)
Extract profile of attributes from SOM (data)
Fine training epoch on SOM (attr)
Compute new weights new i (t)
Update weights i (t) (t) .i (t) + (1 (t)).new i (t)
tt+1
end while

The map of observations is first roughly trained to organize neurons according to topological
ordering. Then profiles of features are extracted and used to roughtly train the map of
variables. Finally, fine tuning epoches of both maps are alternated and weighting is computed
after each update of the map of features.

2.2 Details of the weighting mechanism


The basic idea of the integrated weighting mechanism is to share total weight between a set
of features F = {1, . . . , n} according to their similarity. It proceeds as follows :

1. Each unit i U (attr) receives a potential weight to share between the different features
that is computed using Geary local spatial auto-correlation index [3, 5]:
1 P 2
2.Li (t) jU (attr) cij (t) .ki (t) j (t) k
Gi (t) = 1 P 2
m(attr) 1 jU (attr) ki (t) j (t) k
P
where Li (t) = jU (attr) cij (t). cij (t) {1, 0} indicates whether units i and j are
(attr) (i, j) < 1 , where d(attr) (i, j) is the distance

neighbors or not. Typically, cij (t) = d
between units i U (attr) and j U (attr) on the map of features.

2. Then, each variables i F asks each units j U (attr) in the neighborhood of its best
 2 !
(attr) i,j
(j) d ( )
matching units i for a part of its potential weight : parti (t) = exp 12 (t)

3. Finally, the potential weight of each units is shared between


 features according
 to the
(j)
1 part (t)
requested part: new
P
i (t) = P Gj (t) jU (attr) Gj . P
i
(j)
jU (attr) kF partk (t)
WSOM 2005, Paris

The Geary local spatial auto-correlation index has been chosen for its ability to measure the
similarity of a unit and its neighbors compared to the global variance of units prototype.
Indeed, areas of the map which represent highly similar features have a lower potential weight
than areas with high distortion. It has been noticed that units on the border of the map are
slightly penalized because they have less neighbors than the other, leading to a lower local
variance is for units in the middle of the map.
It must be pointed out that the set of features F can be replaced by any of its subsets;
actually the proposed approach is ready to deal with missing values.

2.3 Cluster analysis


When using self-organizing maps, more or less as many clusters as units on the map are
obtained so it is impracticable to analyze each one separately. A clustering of unit prototypes
permits to reduce the number of clusters. Hierarchical Ascending Classification (HAC) or
k-means are often used to perform this task. We have chosen to apply the method proposed
in [12] to cluster our maps. Several k-means clustering are computed for varying number of
centers and then the Davies-Bouldin index is used to choose the best one.
Thus, a first rough description of identified clusters of observations can be made using features
groups. In the same way, class of observations should be used to roughly describe clusters of
attributes. we proposed to proceed as follow:
1. For each cluster i of observations, compute the mean xij of each dimension j.
xij mini {xij }
2. Then, normalize to unit range each mean per dimension posij = maxi {xij }mini {xij } .

3. For each cluster i, compute the mean posi = meanjF (posij ) and standard deviation
posi = stdjF (posij ) of the normalized means posij .

4. For each cluster i, select all dimensions j such posi j posi + posi

5. Representation ratios of each classes of features is a useful rough description of the


cluster i.
Rough descriptions given by representation ratios are useful to give the user a first idea
of relationships between observations and features clusters and facilitate a cross analysis of
revealed groups.

3 Application and results


3.1 Results
Our approach has been evaluated using various dataset and obtained results on the waveform
and the isolet datasets from the UCI Machine Learning Repository [10] are presented here.
Cross validation has been used to compare the quality of maps obtained using SOM to those
built with the batch version of Kohonens algorithm. Each dataset has been divides in five
parts; four subsets has been used by the training algorithm and the last one to evaluate the
quality of the map. Three indexes has been used to evaluate the quality of topological maps:
mean quantification error (Qerr)
-SOM : Weighting features during clustering

Figure 1: Relative quality of SOM (index 100 for SOM)

topological error rate (Terr)


distortion measures
In our first experiments on the waveform dataset (waveform 1st), the number of neurons
on the map of features was greater than the number of variables. The resulting map was
unusable to identify correct correlations between features. Then, the number of units has
been decreased (waveform 2nd). Observed differences on quantification error and distortion
measure between topological maps obtained using SOM and the standard algorithm are not
significant. Nevertheless, it should be noticed that the topological error rate has been greatly
improved on both dataset.

3.2 Application to marketing


The aim of market studies is to understand the behavior of consumers and identify groups
which share the same interests. Data are generally collected by a sample survey of consumers
and contains typically several hundred of observations described by several tens of variables.
A segmentation of both observations and variables allows us to identify group of consumers,
categories of products and relationship between them.
Our dataset contains some 230 answers from 1006 consumers. The application of -SOM
algorithm and the clustering of the obtained map have permitted to identify 17 categories
of products and 14 groups of consumers. The segmentation of products has been analyzed
first and then rough descriptions of groups of consumers have been computed. They are
very helpful in practice because they give a first idea of what a cluster contains and gives a
pertinent axis of analysis.

The figure 2 presents both the distributions of consumers over the map and the different
identified groups. Then the whole classes of features are presented figure 5 and a zoom on
WSOM 2005, Paris

Figure 2: Distribution and classes of observations over the map

two diferent areas is proposed figure 3 and 4. Finally, figure 6 shows the distribution of
features weights.

Figure 3: Upper right corner of the map of fea-


Figure 4: Middle right area of the map of features.
tures.

4 Conclusions and further research


A novel learning algorithm for Self-Organizing Map is presented in this paper. It leads to
better quality maps than the batch version of the Kohonens batch algorithm. Actually, it
has been successfully applied on market studies datasets and appears to be useful for both
avoiding a large amount of work needed to preprocess data and providing rough descriptions
of clusters which could be used as starting point for the analysis. Experiments are under
way to evaluate the ability of the proposed algorithm to deal with missing values and noisy
data. Future work includes adaptation of this method to the on-line version of Kohonens
algorithm and improvement of the quality of the distance used with features profile.
-SOM : Weighting features during clustering

Figure 5: Distribution of features and categories.


Component planes of th map of observations are Figure 6: Distribution of weight (103 ) of fea-
represented at the position of their best match- tures. Each features is given a weight according
ing units. This visualization is useful to analysis to it best matching unit.
features correlations.
WSOM 2005, Paris

Acknowledgement
We would like to thank Mark Kerslake from Numsight Consulting France for our discussion
about the relevance of revealed classes of both products and consumers, his review and english
correction.

References
[1] Y. Bennani (1999), Adaptive weighting of pattern features during learning, International
Joint Conference on Neural Networks, IJCNN99, vol. 5, p. 3008-3013.

[2] M. Cottrell, S. Ibbou et P. Letremy (2003), Traitement des donnees manquantes au


moyen de lalgorithme de Kohonen, Actes de la dixieme conference ACSEG, Nantes.

[3] R. C. Geary (1954), The contiguity ratio and statistical mapping, The Incorporated
Statistician, p. 115-145.

[4] T. Kohonen (2001), Self-Organizing Maps 3rd edition, Heidelberg, Springer.

[5] L. Lebart (1969), Analyse statistique de la contiguite, Publications de lISUP, p. 81-112.

[6] L. Lebart, A. Morineau et M. Piron (2000), Statistique exploratoire multidimensionnelle


3e edition, Dunod.

[7] P. Mitra, C.A. Murthy and Sankar K. Pal (2002), Unsupervised Feature Selection Using
Feature Similarity, IEEE Transactions on Pattern Analysis and Machine Intelligence,
vol. 24-3, p. 301-312.

[8] Sankar K. Pal, Rajat K. De and J. Basak (2000), Unsupervised Feature Evaluation: A
Neuro-Fuzzy Approach, IEEE Transactions on Neural Networks, vol. 11-2, p. 366-376.

[9] G. Saporta (1990), Probabilites, analyse de donnees et statistiques, Paris, Editions Tech-
nip.

[10] UCI Machine Learning Repository, http://www.ics.uci.edu/ mlearn/MLRepository.html.

[11] J. Vesanto and J. Ahola (1999), Hunting for Correlations in Data Using the Self-
Organizing Map, In Proceeding of the International ICSC Congress on Computational
Intelligence Methods and Applications (CIMA99), ICSC Academic Press, p. 279-285.

[12] J. Vesanto and E. Alhoniemi (2000), Clustering of the Self-Organizing Map, In IEEE
Transactions on Neural Networks, vol. 11-3 p. 586-600.

[13] N. Wu and J. Zhang (2005), Factor-analysis based anomaly detection and clustering,
Decision Support Systems, to appear.
Connectionist and Ethological Approaches for Discovering Salient Facial
Movements Features in Human Gender Recognition

Sebastien Guerif, Younes Bennani


University of Paris 13, CNRS UMR 7030 - LIPN, F-93430 Villetaneuse
{sebastien.guerif, younes.bennani}@lipn.univ-paris13.fr

Claude Baudoin
University of Paris 13, CNRS UMR 7153 - LEEC, F-93430 Villetaneuse
claude.baudoin@leec.univ-paris13.fr

Abstract. Individual Facial movements signal uation with young adult subjects confronted to a
various social information to other persons, like cognitive task without direct interacting partners
the gender of the sender. We used an ethological but with a female experimenter welcoming them
and a connectionist approaches in order to detect before testing and video recording their behaviour
these movements and their characteristics in men from a contiguous room. This situation was not
and in women. Behavioural results indicate both social but the context was social. Our aims were
qualitative and quantitative differences between (i) to constitute a database allowing further com-
men and women. The connectionist approach in- parisons between men and women, (ii) to code fa-
volves similar and complementary conclusions. cial movements using an objective method, (iii) to
The ethological study has been focused on the detect and to characterize the temporal organiza-
main movement differences as well as did the con- tion of the facial movements, (iv) to use the same
nectionist one but this last approach showed im- data base for studying salient facial features with
portant differences between men and women in a connectionist approach, (v) to compare emerg-
motionless events. These pilot results leads to a ing results from ethological and connectionist ap-
re-examination of behavioural events and a check- proaches.
ing of lateralization of movements correlated with The rest of this paper is organized as follows.
the gender. After, a brief presentation of the protocol used to
collect the data, we present both ethological and
Keywords. Facial movements, gender recog- connectionist approaches. Then, experiments and
nition, unsupervised learning, clustering, self- results are presented and discussed. Finally, we
organizing maps conclude and we give some point that will we de-
veloped in further research.
1. Introduction

Social life in human groups involves constant reg- 2. Collection of data base
ulatory processes like social categorization of in-
teracting partners. One type of social category Our purpose was to obtain a video recording from
among the most obvious is the gender. Various women and men in a standardized situation that
body parts are used in signaling gender and the permits expression of various facial movements:
face is an important area as it has been demon- labial movement related to verbal answer, emo-
strated in previous studies [2, 3, 4]. Several au- tional reaction, etc. The experimental situation
thors showed the role of facial movements in gen- was a cognitive task realized in an indirect social
der categorization [9, 13]. Curiously only few context (reception followed by task instructions,
studies concern the production of facial move- filmed by a video camera operated by a female ex-
ments and their temporal organization [1, 8, 14]. perimenter in the next room).
Moreover the use of complex experimental sys- A total of 20 students (11 women and 9 men)
tems for facial recording induces unnatural situ- from the University of Paris XIII volunteered to
ations. Our study concerns an experimental sit- participate in the study. All were naive to the true

WK,QW&RQI,QIRUPDWLRQ7HFKQRORJ\,QWHUIDFHV,7,-XQH&DYWDW&URDWLD
purpose of the study and were not paid for their ments was studied comparatively between men
participation. and women. Then we detected how distance vari-
Subjects were received by an experimenter and ations from origin of the 36 facial points occurred
then left alone in a room where they followed in- during the 3 seconds periods for men and for
structions given by a laptop screen. The task con- women using the Magnussons THEME 5.0 soft-
sisted in looking at pictures and saying whether it ware (http://www.noldus.com). This software al-
was ambiguous/normal or not. No time limit had lowed to detect T-patterns of facial movements,
been imposed and the experiments lasted between which are defined as repetitive real time organized
1.5 and 4.5 minutes (mean duration was 2.75 min- behavioural structures [11]. Only some results are
utes). Some subjects were set aside because of presented below.
particular situations (important movements of the We observed a higher mean number of move-
body or the head, wearing glasses or a beard, etc.) ments produced per 3 seconds period by men com-
Only 5 subjects of each gender were selected for paratively to women (n = 86 vs. 69, p < .05, exact
the remaining part of the study. permutation test) as well as a tendency to present a
With a view to standardizing the database we higher number of T-patterns in men (on a basis of
chose 3 sequences of 3 seconds centred on an easy 100 movements, men produced 66 T-patterns vs.
to locate verbal answer from the subjects. Thus 3 46 in women, p = .055, exact permutation test).
sequences with a similar context are available per T-patterns involved on average 4 different facial
subject. We defined 36 face points involved in the points in men and 3 in women (p = .079). More-
facial movements that were easy to identify [8,14]. over we discovered qualitative differences in the
Figure 1 indicates the positions of the face points T-pattern composition linked to gender: men pro-
considered. duced simple patterns involving temporal left eye-
brow and left nostril, and women produced simple
patterns involving internal and median parts of the
right eyebrow.
Our pilot results indicated that man and woman
facial movements were quantitatively and, at least
for some of them, qualitatively different during a
cognitive task performed in a social context.

4. Connectionist approach

Figure 1: Position of the face points Two different approaches are available to exploit
our dataset: classification and clustering. The first
The sequences were sampled at 13 images per one falls into supervised learning and builds a clas-
second, and an operator recorded the 36 face sifier. The latter approach detects groups of sim-
points coordinates. This selection was repeated at ilar observations, called clusters. Our purpose is
least twice and the mean position was retained to to determine whether the intrinsic structure of the
reduce errors due to tiredness of the operator. The data space is related to the gender of subjects or
coordinates of the points were relative to the sub- not. So, our interest has been focused on unsu-
jects face. Actually, the x axis is the line between pervised learning approaches and Self-Organizing
points 3 and 4, and the y axis the orthogonal line Maps (SOM) [10] were chosen to carry out our
crossing through point 20. analysis. On one hand, SOM provides a conve-
nient way to visualize the structure of our data
3. Ethological approach [15]. On the other hand, the different clusters can
be labeled according the gender of grouped ob-
For a given facial point (fig. 1), a salient move- servations and then be used as a classifier whose
ment was defined as the distance from origin evaluation may give us some interesting informa-
which was higher than the mean distance calcu- tion. First SOM are briefly introduced, then our
lated during a 3 seconds period (39 images) ma- methodology is explained and finally, the experi-
jored by the standard error. The number of move- mental results obtained using the Matlab somtool-
box [16] are given and discussed. minimized is defined by:

1 N M  2
4.1. Connectionist model : Self-  (k) 
Organizing Maps RSOM = jNN(x ) j
N k=1
h (k)  x  (1)
j=1
SOM was introduced by Pr. Teuvo Kohonen in
N represents the number of learning samples, M
the early 80s as a convenient clustering and vi-
the number of neurons in the map, NN(x(k) is
sualization tool. High-dimensional data are pro-
the neuron having the closest referent to the input
jected on a low dimension discrete space, called
form x(k) , and h the neighbourhood function.
the topological map, preserving the local topology
The weights of all the neurons are updated until
of the initial space; thus, the observations which
stabilization according to the following adaptation
are close to each other are projected on a localized
rules: If j VNN(x(k) ) then adjust the weights us-
area. A map should be viewed as a set of neu-
ing:
rons (or units), organized according to a grid that
 
defines their neighbourhood relationships. Each j (t + 1) = j (t) (t)h jNN(x(k) ) j x(k) (2)
neuron is associated to one point of the observa-
tions space: its profile.
Self-Organizing Maps (SOM) implement a 4.3. Labelling the map
particular form of competitive artificial neural net- Training of the self-organizing map is totally unsu-
works; when an observation is recognized, acti- pervised; and actually, it does not make use of the
vation of an output cell competition layer leads data labels (namely female or male). Therefore, at
to inhibit activation of other neurons and reinforce the end of the training phase we only had a topo-
itself. It is said that it follows the so called Win- logical map based on the transformed coordinate
ner Takes All rule. Actually, neurons are special- data without any additional information. Never-
ized in the recognition of one kind of observations. theless, it should be emphasized that the map de-
The learning is unsupervised because neither the fined a partition of the dataset which can be used
classes nor their number is fixed a priori. to assign each neuron a label. Actually, each neu-
A SOM consists in a two dimensional layer of ron is labelled using the most represented gen-
neurons which are connected to n inputs according der associated with that neuron. As such, the la-
n exciting connections of respective weights w and belling is very sensitive to small changes in gender
to their neighbors with inhibiting links. distribution. Therefore, to increase robustness of
The training set is used to organize these maps the labelling, a chi-square test was used to check
under topological constraints of the input space. whether the distribution of that part is significantly
Thus, a mapping between the input space and the different from that of the whole dataset. There-
network space is constructed; closed observations with, it should be emphasized that some neurons
in the input space would activate two closed units remained unlabeled.
of the SOM.
An optimal spatial organization is determined 4.4. SOM segmentation
by the SOM from the received information, and
when the dimension of the input space is lower We segment the SOM using the K-means algo-
than three, both position of weights vectors and rithm. It is another clustering method. It consists
direct neighbourhood relations between cells can in choosing arbitrarily a partition. Then, the sam-
be represented visually. ples are treated one by one. If one of them be-
comes closer to the center of another class, it is
4.2. Learning algorithm moved into this new class. We calculate the cen-
ters of new classes and we reallocate the samples
Connectionist learning is often presented as a min- to the partitions. We repeat this procedure until
imization of a risk function (cost function). In our having a stable partition.
case, it will be carried out by the minimization The criterion to be minimized in this case, is
of the distance between the input samples and the defined by:
map prototypes (referents), weighted by a neigh-
bourhood function hi j . To do that, we use a gradi- 1 C
ent algorithm for optimization. The criterion to be
RKmeans = x ck 2
C k=1
(3)
xQk
where C represents the number of clusters, Qk is 5. Data pre-processing
the cluster k, ck is the center of the cluster Qk or
the referent. Analysis was focused on facial motion; therefore,
The basic algorithm requires fixing K, the num- the gradients of the coordinate points were com-
ber of clusters wished. However, there is an algo- puted. Then, to eliminate the structural cue to
rithm to calculate the best value for K assuring an individuals with a larger face who have a longer
optimal clustering. It is based principally on the shift, the gradients were normalized. Thereafter,
minimization of Davies-Bouldin index, defined as sequences of movements were resampled using a
follows : sliding window to improve robustness to the time
  lag of the selected video recording. Nevertheless,
1 C Sc (Qk ) + Sc (Ql ) it introduced an additional parameter that had to be
IDB = maxk=l (4)
C k=1 dce (Qk , Ql ) chosen carefully, namely the width of the tempo-
ral window. The observations then had too many
where Sc (Qk ) = i x|Qi c
k|
k
is the intracluster disper- dimensions to be used. So, the dynamic covari-
sion of cluster Qk and dce (Qk , Ql ) = ck cl  is ance matrix of each sub-sequence was computed
the distance (centroid linkage) between the center according the following expression [18, 19]:
of clusters k and l. This clustering procedure aims
  T
to find internally compact spherical clusters which x(1) xT(1) + W
i=2 x(i) x(i) x(i) x(i)
are widely separated. d = (6)
W
There are several methods to segment the
SOMs [17]. Usually, they are based on the vi- with x(i) = 1i ij=1 x( j) . Thus, the dimension of
sual observations and the manual assignment of the data only depends only on the number of face
the map cells to the clusters. Several methods points considered.
use the K-means algorithm with given ranges for
K value. Our work is based on the approach of 6. Experiments and results
Davies-Bouldin index minimization [5].
Our objective was to verify whether facial move-
4.5. Statistical measure for cluster char- ments are related to the subject gender or not.
acterization Thus, it appeared relevant to select the parame-
In the sequel, the word cluster refers to a group ter value that involved the best separation between
of neurons that share the same label and which the two classes. A cross-validation was adopted to
define a contiguous area on the map. The test- evaluate values from 1 to 38 and each evaluation
value, proposed in [12] was used to identify di- was repeated 5 times. The SOM that were trained
mensions that were relevant for each cluster. Intu- with the dynamic covariance matrices from nine of
itively, it indicates how different a cluster is from the ten subjects was labelled. Then, the labelling
the whole population according to the feature con- of the map was evaluated by comparing the label
sidered. Thus, the more different is the feature from the remaining data with their best matching
from the whole population the more relevant it is unit label.
to describe that cluster. It is defined by
Classification performance of labelled SOM in ROC space
(z zk )
Sensibility (correct classification rate of male subjects)

tk = (5)
k 0.8
W=33

where, z is the mean of the whole dataset and, zk 0.75


W=36

and k are respectively the mean and standard de- 0.7


viation of the class k. Therefore, to interpret sub-
W=32
W=35 W=37
W=34
0.65 W=30
sequences seemed to us more natural than to in-
W=31
W=29
W=28 W=38
terpret the dynamic covariance matrices. So rather 0.6 W=26
W=19
than directly use subsets of the covariance matri- 0.55
W=9
W=5 W=27
W=2
W=3
ces, we used subsets of the corresponding sub- W=4
W=12
W=8
W=15
0.5
sequences. Thus we are able to quantify the rela- 0.3 0.35 0.4 0.45 0.5
Specificity (classification errors rate of female subjects)
0.55

tive importance of each point, at each step in time,


for the different clusters. Figure 2: SOM based classifiers performance
Point Important Move Motionless Point Important Move Motionless
1 0.06 0.10 8 0.14 0.23
3 0.07 0.08 17 0.14 0.19
6 0.07 0.09 21 0.14 0.21
13 0.09 0.09 33 0.14 0.28
21 0.08 0.10
Table 2: Significant test values for Male
Table 1: Significant test values for Female

Receiver Operating Characteristics (ROC)


graphs are a useful technique for visualizing, orga-
nizing and selecting classifiers based on their per-
formance [7]. Thus, performances of SOM based
classifiers are given in the ROC space. For con-
venience, only ones with more than 50% correct
classification rate of both gender have been repre-
sented on figure 2. The nearest point W=33 from
the upper left corner corresponds to a 33 time units
sliding window. So this value has been retained for
the remaining exploratory analysis of our data.
Figure 3 shows the distribution of subse-
quences gender over the final map and the segmen-
tation obtained using the Davies-Bouldin index.
On the left hand side, dark and light grey repre-
sents respectively female and male neurons, while Figure 4: Test values for Female
black colour stands for unlabelled neurons. On
the right hand side, 1 and 2 respectively stands for
male and female, and the number between paren- and 33 are on the left part.
thesis indicates the number of hits.
7. General discussion

The two approaches presented above had involved


similar conclusions. On one hand, male facial
movements appear more structured than female
ones. On the other hand, points the more impli-
cated in movements seems to differ from one gen-
der to an other. Our results led us to hypothesise
that the lateralization of facial movements should
be an important feature to discriminate ones gen-
Figure 3: Final map der. Anyway, experiments should be repeated with
a larger sample of population and with subjects
The tables 1 and 2, and the figures 4 and 5 show from more different culture to confirm our hypoth-
the significant test values for each points consid- esis.
ered at each time step. Columns on the right, in-
dicate the significance of the corresponding points 8. Conclusion and further research
for the whole subsequences. A visual inspection
of the test values indicates that male produce more In this paper, we have presented results from a pi-
structured movement than female. lot study with both an ethological and a connec-
A deeper analysis of the test values emphasized tionist approaches which had involved similar and
that female cluster (respectively male cluster) is complementary conclusions. Moreover, we chose
characterized by more structured movements of a quite simple connectionist model for this first
points 1, 3, 6, and 13 (respectively 8, 17 and 33). study, nevertheless, more elaborated connectionist
It should be highlighted that points 1, 3 and 13 are model have been developed to integrate the tem-
from the right part of the face whereas points 8, 17 poral dimension of our data [6, 18, 19] and should
cial movements in healthy volunteers. British
Journal of Plastic Surgery 2003, 56(7): 644-
652.
[9] Hill H, Johnston A. Categorizing sex and
identity from the biological motion of faces.
Current Biology 2001, 11(11):880-885.
[10] Kohonen T. Self-Organizing Maps, Third
Extended Edition. Berlin, Heidelberg, New
York: Springer; 2001.
[11] Magnusson MS. Discovering hidden time
patterns in behaviour: T-patterns and their
detection. Behavior research methods, in-
struments and computers : a journal of the
Psychonomic Society, Inc. 2000, 32(1):93-
110.
[12] Morineau A. Note sur la caracterisation
statistique dune classe et les valeurs-tests.
Figure 5: Test values for Male Bulletin technique n 2, p.20-27. Centre inter-
national de statistique et dinformatique ap-
be considered in future work. pliquees, Saint-Mande, France; 1984.
[13] Thornton IM, Kourtzi Z. A matching advan-
tage for dynamic human faces. Perception
2002, 31(1):113-132.
9. References [14] Tzou C-H J, Giovanoli P, Ploner M, Frey
M. Are there ethnic differences of facial
movements between Europeans ans Asians?
[1] Anolli L, Duncan S, Magnusson M, Riva G, British Journal of Plastic Surgery 2005,
editors. The hidden structure of interaction: 58(2):186-195.
from neurons to culture patterns. IOS Press; [15] Vesanto J. SOM-Based Data Visualization
2005. Methods. Intelligent Data Analysis 1999,
[2] Berry D. S. Child and adult sensitivity to 3(2):111-126.
gender information in patterns of facial mo- [16] Vesanto J, Himberg J, Alhoniemi E,
tion. Ecological Psychology 1991; 3(4):349- Parhankangas J. Self-Organizing Map in
366. Matlab: the SOM Toolbox. In: Proceedings
[3] Bruce V, Burton AM, Hanna E, and al. Sex of the Matlab DSL Conference; Espoo,
discrimination : how do we tell the differ- Finland; 1999. p. 35-40.
ence between male and female faces ? Per- [17] Vesanto J, Alhoniemi E. Clustering of the
ception 1993, 22(2):131-152. Self-Organizing Map. IEEE Transactions on
[4] Bruce V, Young A. In the Eye of the Be- Neural Networks 2000, 11(3):586-600.
holder: The Science of Face Perception. Ox- [18] Zehraoui F, Bennani Y. M-SOM: Matricial
ford: Oxford University Press; 1998. Self Organizing Map for sequences clus-
[5] Davies DL, Bouldin DW. A Cluster Separa- tering and classification. In: Proceeding of
tion Measure. IEEE Transactions on Pattern the International Joint Conference on Neu-
Analysis and Machine Intelligence, PAMI ral Network, IJCNN04; Budapest, Hungary.
1979, 1(2):224227. 2004.
[6] Euliano N. Temporal Self-Organization for [19] Zehraoui F, Bennani Y. M-SOM-ART:
Neural Networks. PhD Thesis, University of Growing Self Organizing Map for Sequences
Florida, USA; 1998. Clustering and Classification. In: Proceed-
[7] Fawcett T. ROC Graphs: Notes and Practical ings of the 16th Eureopean Conference on
Considerations for Data Mining Researchers. Artificial Intelligence, ECAI2004; 2004
HP Labs Tech Report HPL-2003-4; 2003. Aug 22-27; Valencia, Spain; 2004. p. 564-
[8] Giovanoli P, Tzou C-H J, Ploner M, Frey 570.
M. Three-dimensional video analysis of fa-
SELECTION OF CLUSTERS NUMBER AND FEATURES SUBSET DURING A
TWO-LEVELS CLUSTERING TASK
Sebastien Guerif and Younes Bennani
Universite Paris 13, LIPN - CNRS UMR 7030
F-93430 Villetaneuse, France
{sebastien.guerif,younes.bennani}@lipn.univ-paris13.fr

ABSTRACT largest variance which not always the case as it is showed


Simultaneous selection of the number of clusters and of by the figure 1. Other approaches that does not suffer from
a relevant subset of features is part of data mining chal- the same numerical instabilities has been proposed [3] al-
lenges. A new approach is proposed to address this dif- though the features extracted are not as intuitive as the orig-
ficult issue. It takes benefits of both two-levels clustering inal features. Whereas, the problem of feature selection
approaches and wrapper features selection algorithms. On
the one hands, the former enhances the robustness to out- 5

liers and to reduce the running time of the algorithm. On


the other hands, wrapper features selection (FS) approaches
are known to given better results than filter FS methods 0

because the algorithm that uses the data is taken into ac-
count. First, a Self-Organizing Maps (SOM), trained using
the original data sets, is clustered using k-means and the 5

Davies-Bouldin index to determinate the best number of 1


a clusters. Then, an individual pertinence measure guides
0.5
the backward elimination procedure and the feature mutual
pertinence is measure using a collective pertinence based 0

on the quality of the clustering. 0.5

1
KEY WORDS
5 0 5 1 0.5 0 0.5 1
Clustering, feature selection, self-organizing maps, model
selection
Figure 1. The feature variance is not always a relevant
pertinence measure; actually, in this example, whereas
1 Introduction 2 (X) = 1.03 and 2 (Y ) = 0.25, the best separation is
provided by the Y axis.
During the last decade, it became obvious that adapted
tools are needed to exploit more and more huge companies
databases. Actually, databases contain important hidden had been widely studied in the context of supervised learn-
knowledge and the matter of data mining is to emphasize ing, it gains researchers interest more recently in the con-
it. The curse of dimensionality problem states that the num- text of unsupervised learning. In the context of supervised
ber of needed examples for training grows exponentionnaly learning, feature selection is driven by the main purpose :
with the dimensionality of the data. That way, whereas achieve better accuracy on unseen data. Nevertheless, in
Knowledge Discovery from Database (KDD) is only pos- the unsupervised learning framework, the issue is very dif-
sible because of the data redundancy, too many redundant ferent because neither the data labels nor their number are
features stand in the way of the nuggets discovery. This is- available. Therefore, the notion of feature relevance is not
sue can be addressed by one of the two main approaches, as obvious the latter context as in the former context. Any-
namely, features extraction or feature selection. way, selection of a relevant features subset remains a cru-
The former presents a major drawback, actually, an impor- cial stake for the data-mining techniques. In this paper, we
tant effort from the user is required to interpret and under- propose an original method to find both the right number
stand the new representation his data. Among the tech- of clusters and the respective subset of features. Our ap-
niques of this category, the most widely used are proba- proach is based on both the Davies-Bouldin index [4, 5]
bly Principal Component Analysis (PCA) [1, 2] which suf- and the Test Values [6]. It is assumed that features that
fers from numerical instabilities whenever the correlation does not participate in the structure identified are irrelevant
of the data is ill-conditionned. Moreover, this methods as- and should be thrusted away from the subset of features se-
sume that the most relevant dimensions are those with the lected.
The rest of this paper is organized as follows. The two- mized is defined by:
levels clustering approache used is presented in section 2. 1 X X
Then, the feature selection method proposed is presented RSOM = hbi j . kj xi k2 (1)
N
in section 3. Finally, some experimental results are given xi jU
befor to conclude. where bi is the Best Matching Unit (BMU) of the sample
point xi and is defined as the unit with the closest
prototype:
2 Method 2
bi = arg min{kj xi k }
jU
2.1 Self-Organizing Maps
In our experiments, we use the gaussian neighbor-
hood function h defined
SOM was introduced by Pr. Teuvo Kohonen in the early  2 
80s as a convenient clustering and visualization tool. d (i, j)
hij = exp
High-dimensional data are projected on a low dimension 2. 2 (t)
discrete space, called the topological map, preserving the where d (i, j) is the distance between units i and j on the
local topology of the initial space; thus, the observations map and (t) is a decreasing function that defines the size
which are close to each other are projected on a localized of the neighborhood considered at step t.
area. A map should be viewed as a set of neurons (or units), Two main approaches can be used to optimize the crite-
organized according to a grid that defines their neighbour- rion mentionned above, namely the on-line algorithm and
hood relationships. Each neuron is associated to one point the batch algorithm. Whereas the latter suffers from sev-
of the observations space: its prototype. eral drawbacks [7], it provides faster convergence. So we
Self-Organizing Maps (SOM) implement a particular form choose the batch Kohonens algorithm [8] because our ap-
of competitive artificial neural networks; when an observa- proach necessitates several running of the learning of the
tion is recognized, activation of an output cell competition learning algorithm. The weights of all the neurons are up-
layer leads to inhibit activation of other neurons and re- dated until stabilization according to the following adapta-
inforce itself. It is said that it follows the so called Win- tion rules:
ner Takes All rule. Actually, neurons are specialized in the P
hb j xi
recognition of one kind of observations. The learning is un- j (t + 1) = Pi i (2)
supervised because neither the classes nor their number is i hbi j
fixed a priori. A SOM consists in a two dimensional layer
of neurons which are connected to the inputs with exciting 2.3 SOM segmentation
connections and to their neighbors with inhibiting links.
The training set is used to organize these maps under topo- Whereas both agglomerative and partitive clustering algo-
logical constraints of the input space. Thus, a mapping be- rithm have been successfully applied to the segmentation
tween the input space and the network space is constructed; of SOM [9], several specific approaches have been pro-
closed observations in the input space would activate two posed to take into account the topological ordering of the
closed units of the SOM. An optimal spatial organization is unit maps. They rely on either the contiguity study [10] or
determined by the SOM from the received information, and the U-matrix (the matrix of distances between adjacent map
when the dimension of the input space is lower than three, units) [11, 12, 13]. We adopted the kmeans based approach
both position of weights vectors and direct neighbourhood proposed by J. Vesanto [9]. Although the number of clus-
relations between cells can be represented visually. ters is needed to run the kmeans algorithm, it is not known
in the unsupervised learning framework. So several values
should be tried and the best one according to the Davies-
2.2 Learning algorithms Bouldin index [4] is selected. Assuming that C, Sc (k) and
dce (k, l) respectively refers to the number of clusters, the
mean quantization error in cluster k and the distance be-
For convenience, let us mention some notations : let N be
tween the centers of clusters k and l, the Davies-Bouldin
the number of sample points in the data set , n be the
index is defined by
number of features in the original feature set F , r be the
number of features in the reduced feature set FR , M be the C  
1 X (Sc (k) + Sc (l))
size of the map units set U and j be the prototype of the IDB = max
C l6=k dce (k, l)
j th unit. k=1

Connectionist learning is often presented as a minimiza- It should be noticed that the kmeans algorithm is a special
tion of a risk function (cost function). In our case, it will be case of the SOM training algorithm when no neighborhood
carried out by the minimization of the distance between the constraints are imposed to the center. In other words, the
input samples and the map prototypes (referents), weighted neighborhood function hbi j is replaced by the chronecker
by a neighbourhood function hij . The criterion to be mini- symbol bi j .
3 Feature Selection 3.2 Search procedure
Feature Selection necessitates three essential elements To find an optimal solution requires either an exhaustive
[14]: search or the monotonicity of the pertinence measure. On
A pertinence measure the ones hand, the former involves the pertinence evalua-
tion of 2n subsets where n is the number of features and it
A search procedure becomes infeasible since n is large. On the other hand, the
A stop criterion latter is difficult to insure. We propose a Backward Elimi-
nation procedure that takes into account both the individual
and the collective pertinence measures defined in the pre-
3.1 Pertinence measure vious section. It begins with the whole features set and
progressively eliminates the less interesting features. The
Whereas in the supervised learning case, a pertinence mea-
individual measure guides the selection and the collective
sure can be easily defines using the performance of the
pertinence insures that the removing of the feature candi-
model in the task it has been designed to, in the unsuper-
date do not alter the quality of the model. The threshold
vised learning framework, it is not possible anymore.
in the algorithm 1 is used to balance the relative importance
So we have to define new criteria. We propose to use two
of the two pertinence measures.
different feature evaluation criteria : an individual criteria,
Rindividual (j), to guide the search procedure and a collec-
tive criteria, Rcollective (j), to take the mutual relevance of Algorithm 1 Feature Selection Procedure
features. FR F
We propose to select features that involve a good cluster- while (stopping criterion) do
ing; thus, the SOM is segmented using the method pre- Build a model.
sented above and the test-values [6] of each feature accord- Evaluate individual relevance Rindividual (j)
ing each cluster are computed. Therefore, the maximum of Sort features according ascending individual rele-
absolute test values along the the different clusters is used vance ordering
as an individual relevance measure. The first individual rel- f ound f alse
evance criteria is defined by while (f ound) do
 
kj j Evaluate the collective criterion Rcollective (j) of
Rindividual (j) = max (3) the less relevant feature according individual crite-
k=1,...,C kj rion
where C, j , kj and kj are respectively the number of if (Rcollective (j) ) then
clusters, the mean values of the feature j in the whole data f ound true
set and in the cluster k, and the standard deviation of feature R R \ {j}
j in the cluster k. end if
Then, whenever the removing of a feature involves an in- end while
creasing of the IDB , we consider that it is relevant accord- if (f ound) then
ing the current clustering. Thus, we define the collective j arg minkR {Rcollective (k)}
relevance of a feature as the increasing of the IDB involved R R \ {j}
by its removing : end if
end while
Rcollective (j) = IDB IDB |FR \{j} (4)
where IDB |FR \{j} is the Davies-Bouldin index evaluated
without taking in account the feature j.
Whereas these criteria have been successfully apply to sev-
eral data set from UCI [15], they present some drawbacks.
3.3 Stop criterion
On the one hand, they rely on the kmeans algorithm which
is well known for its strong dependance with the initial We use the statistic criterion proposed by T. Cibas [16] to
centers. So, to insure the reliability of the result several evaluate whether a feature subset gives any additionnal in-
running of the algorithm have to be done at each step of formation according another one. Therefore, the backward
the feature selection procedure and for each possible num- elimination procedure is stopped since the removing of the
ber of clusters. On the other hand, when many features are feature selected involves a loss of information.
noisy or irrelevant, they may prevent kmeans algorithm and Assuming that F , the set of features, and F \ FR , the re-
Davies-Bouldin to identified the right clusters; therefore moved features subset, are distributed according a gaussian
the feature selection procedure might fail. Two other cri- law
teria which avoid the additional computational cost due to N ((k) , ) : k = 1, . . . , C
the map segmentation and the possible weak of robustness
of the above criteria are presented in the next paragraph. where (k) , the mean of the features from F in the cluster
k, and , the covariance matrices, are defined as follows the null hypothesis (5) is true if and if only features from
  FR involve the same separability as the whole features set
11 12
 
(k) (k) F . Then, the Wilks statistic is equivalent to the Fisher-
(k) = 1 , 2 , =
21 22 Snedecor one :
where 1 and 2 as index respectively stand for FR and (N C r) 1 K
F \ FR . Then, the null hypothesis which says that F \ FR Fs =
(C 1) K
does not give any additionnal information than FR is ex-
pressed as follows : which is distributed according F (C 1, N C r)
 
(k) (h) (k) (h)
H0 : 2 2 21 1 11 1 1 =0 (5)
4 Experiments and results
with k 6= h = 1, . . . , C.
A test of this hypothesis is based on Wilks statistics. Let B The method presented above has been apply to several
and W be respectively the between and the within covari- commonly used UCI machine learning data sets [15].
ance matrices : Whereas the data labels haventt been used during the
C
learning stage, they can be used for evaluation purpose;
T
actually, the ability of our approach to identified the true
X  
B = N (k) (k) (k)
k=1
clusters can be measured using the following criterion :
(k)
C N
X X  (k) 
(k)
T the number of identified clusters refered by CT
W = xi (k) xi (k)
k=1 i=1
the couple error which measures how far the discov-
(k)
where N is the number of elements in the cluster k and ered partition is from
P the true classes and is defined
is the mean of the features from F for the whole sam- by EC = N (N21) (i,j){1,...,N }2 , i<j ij where ij
ple. Then, the same block decomposition as for can be is null when samples points i and j are either grouped
applied to the matrices B, W and their sum T : or separated in both true and discovered partitions.

the Purity P
of clusters in term of known classes
 
B11 B12
B = PR = N1 k=1
CT
maxMk where M is the confusion
B21 B22
  matrix.
W11 W12
W =
W21 W22
  In our experiments, we used the batch Kohonens algorithm
T11 T12 and the fast global k-means algorithm [17] which are both
T = B+W =
T21 T22 deterministic. For each of the data sets considered, we run
five 10-folds validation and we summarized the results ob-
Therefore, the determinants of the matrices W and T can tained in Table 1. Then, the figure 4 shows the evolution of
be written the Davie-Bouldin index during the feature selection pro-
1
cess. The last model index value can be considered as an
|W | = |W11 | W22 W21 W11 W12
outlier, therefore, the best model according to the Davies-
|T | = |T11 | T22 T21 T 1 T12

11 Bouldin index is obtained when five features have been re-
moved. Nevertheless, our stop criterion indicates that the
Thus, we denote model with eleven removed features should be retained.
W22 W21 W 1 W12

11
K=
T22 T21 T 1 T12

11 5 Conclusion
which has (N(C1)
Cr)
degrees of freedom. With the above A new approach to select both the number of clusters and
notations, the Wilks statistics for n variables are : the related features subset has been proposed in an unsuper-
vised learning framework. Whereas the preliminary results
|W | are encourageous, the stop criterion proposed can not al-
F =
|T | ways be uses. For instance, it requires that N c p,
|W11 | where N , c and p are respectively the number of map units,
= K.
|T11 | the number of identified clusters and the total number of
= K.FR features, to insure that the within covariance matrix W is
not singular. Research work are on the way to enhance the
which shows that, with a small value of K, the clusters proposed method to data sets with more features than ob-
separability is larger with n than r features. Therefore, servations.
Training set Testing set
CT [CT ] nF S [nF S ] EC [ EC ] PR [ PR ] EC [ EC ] PR [ PR ]
Glass F 7.04 [0.73] 9.0 [ ] 0.301 [0.012] 56.25 [ 2.56 ] 0.295 [0.068] 67.52 [ 9.01 ]
189 - 21 FR 5.10 [1.83] 2.84 [ 1.46 ] 0.376 [0.082] 50.83 [ 6.54 ] 0.382 [0.121] 58.38 [10.40]
Wine F 6.86 [0.81] 13.0 [ ] 0.171 [0.022] 93.59 [ 1.97 ] 0.165 [0.064] 95.28 [ 5.11 ]
189 - 21 FR 5.70 [2.34] 6.3 [ 2.1 ] 0.247 [0.060] 80.32 [12.02] 0.239 [0.096] 83.44 [13.78]
Cancer F 9.72 [0.67] 30.0 [ ] 0.414 [0.014] 93.83 [ 1.56 ] 0.417 [0.026] 94.16 [ 3.03 ]
242 - 27 FR 2.72 [1.96] 12.4 [ 3.3 ] 0.182 [0.077] 91.53 [ 1.04 ] 0.184 [0.091] 91.60 [ 3.49 ]
Wave F 6.18 [2.56] 40.0 [ ] 0.304 [0.016] 68.64 [ 8.48 ] 0.309 [0.014] 66.17 [ 7.82 ]
500 - 4500 FR 4.82 [1.55] 28.2 [ 9.56 ] 0.304 [0.020] 66.93 [ 6.62 ] 0.306 [0.018] 65.97 [ 6.68 ]

Table 1. The two numbers under the data set name indicates the size of the training and testing sets respectively. Then F and
FR stands for the whole features set and the reduced subset selected.

Waveform DBindex evolution


0.75

0.7

0.65

0.622
0.610
0.6 0.604
DBindex

0.58
0.582
0.577
0.55

0.5

0.45

0.4
0 5 10 15 20 25 30 35
number of removed features

Figure 2. Evolution of the Davies-Bouldin index during the backward features elimination procedure : the vertical dash line
indicates the model retained by our stop criterion and some of the best index values are indicated too.
References [14] D. Cakmakov and Y. Bennani. Feature Selection for
Pattern Recognition. Informa, Skopje, Macedonia,
[1] L. Lebart, A. Morineau, and M. Piron. Statistique 2002.
exploratoire multidimensionnelle. Editions Dunod,
1995. [15] C.L. Blake D.J. Newman, S. Hettich and C.J. Merz.
UCI repository of machine learning databases, 1998.
[2] G. Saporta. Probabilites, analyse des donnees et
statistique. Editions Technip, Paris, France, 1990. [16] T. Cibas. Controle de la complexite dans les reseaux
de neurones : regularisation et selection de car-
[3] S. K. Pal, R. K. De, and J. Basak. Unsupervised acteristiques. PhD thesis, University of Paris XI Or-
feature evaluation: A neuro-fuzzy approach. IEEE say, Paris, France, December 1996.
Transactions on Neural Networks, 11(2):366376,
2000. [17] J. J. Verbeek. Mixture Models for Clustering and Di-
mension Reduction. PhD thesis, University of Am-
[4] D. Davies and D. Bouldin. A cluster separation mea- sterdam, Amsterdam, The Netherlands, December
sure. IEEE Transactions on Pattern Recognition and 2004.
Machine Intelligence, 1(2):224227, 1979.

[5] J. Vesanto and E. Alhoniemi. Clustering of the


self-organizing map. IEEE-NN, 11(3):586600, May
2000.

[6] A. Morineau. Note sur la caracterisation statistique


dune classe et les valeurs-tests, 1984.

[7] J-C. Fort, P. Letremy, and M. Cottrell. Advantages


and drawbacks of the batch kohonen algorithm. In
M.Verleysen Ed., editor, ESANN2002 Proceedings,
European Symposium on Artificial Neural Networks,
Bruges (Belgium), pages 223230, Bruxelles, Bel-
gium, 2002. Editions D Facto.

[8] T. Kohonen. Self-Organizing Maps. Springer-Verlag


New York, Inc., Secaucus, NJ, USA, 2001.

[9] J. Vesanto and E. Alhoniemi. Clustering of the self-


organizing map. IEEE Transactions on Neural Net-
works, 11(3):586600, 2000.

[10] F. Murtagh. Interpreting the Kohonen self-organizing


feature map using contiguity-constrained clustering.
Pattern Recognition Letters, 16(4):399408, April
1995.

[11] F. Moutarde and A. Ultsch. U*F clustering: a new


performant cluster-mining method based on segmen-
tation of Self-Organizing Maps. In Proceedings of the
5th Workshop On Self-Organizing Maps (WSOM05),
pages 2532, Paris 1 Pantheon-Sorbonne University,
France, September 2005.

[12] D. Opolon and F. Moutarde. Fast semi-automatic


segmentation algorithm for Self-Organizing Maps.
In Proceedings of ESANN2004 , European Sym-
posium on Artificial Neural Networks, Bruges (Bel-
gium), pages 507512, 2004.

[13] A. Ultsch. Clustering with SOM: U*C. In Pro-


ceedings of the 5th Workshop On Self-Organizing
Maps (WSOM05), pages 7582, Paris 1 Pantheon-
Sorbonne University, France, September 2005.
Rduction de dimension en Apprentissage Numrique
Non Supervis
Sbastien G URIF
Rsum
La classification automatique - clustering - est une tape importante du processus dextraction de
connaissances partir de donnes (ECD). Elle vise dcouvrir la structure intrinsque dun ensemble
dobjets en formant des regroupements - clusters - qui partagent des caractristiques similaires. La
complexit de cette tche sest fortement accrue ces deux dernires dcennies lorsque les masses de
donnes disponibles ont vu leur volume exploser. En effet, le nombre dobjets prsents dans les bases
de donnes a fortement augment mais galement la taille de leur description. Laugmentation de la
dimension des donnes a des consquences non ngligeables sur les traitements classiquement mis en
oeuvre : outre laugmentation naturelle des temps de traitements, les approches classiques savrent
parfois inadaptes en prsence de bruit ou de redondance. Dans cette thse, nous nous intressons
la rduction de dimension dans le cadre de la classification non supervise. Diffrentes approches de
slection ou de pondration de variables sont proposes pour traiter les problmes lis la prsence
dattributs redondants ou dattributs fortement bruits :
Nous proposons dabord lalgorithme -SOM qui limite leffet de la prsence dattributs redon-
dants en calculant une pondration des attributs partir dune classification simultane des objets
et des attributs.
Nous prsentons ensuite une approche intgre embedded de slection de variables pour la
classification automatique qui permet de dcouvrir la fois le nombre de groupes dobjets prsents
dans les donnes mais aussi un sous-ensemble dattributs pertinents.
Nous terminons en prsentant lalgorithme -SOM qui introduit une pondration des attributs
dans la fonction de cot des cartes auto-organisatrices - Self Organizing Maps - qui est ensuite
optimise itrativement en alternant trois tapes : optimisation des affectations, optimisation des
prototypes et optimisation des poids. La pondration obtenue aprs convergence est ensuite utilise
pour proposer une approche filtre - Filter - de slection de variables.
Nous concluons cette thse en indiquant les limites des approches proposes et envisageant quelques
axes dvelopper lors de la poursuite ces recherches.

You might also like