Mellakh PHD

Thse de doctorat prpare au Dpartement lectronique et Physique de l'Institut National des Tlcommunications dans le cadre de l'cole Doctorale SITEVERY
en co-accrdidation avec l'universit d'Evry-Val d'Essonne Thse N
00000000000
THSE
pour l'obtention du grade de Docteur de l'Institut National des Tlcommunications Spcialit : Traitement d'image et de signal Prsente et soutenue publiquement par:
Anouar Mellakh
Titre:
Reconnaissance des visages en conditions dgrades

Soutenue le 07 Avril 2009 devant le jury compos de :
Prsident du jury Rapporteur Rapporteur Examinateur Directeur de thse Encadrant de thse
M. M. M.
Maurice Milgram Faouzi Gorbel Andr Gagalowicz
Mme. Sylvie Lelandais Mme. Bernadette Dorizzi Mme. Dijana Petrovska-Delacrtaz
ma femme Tiphaine mes parents mon frre et ma soeur En souvenir de Christine
Rsum
De nos jours, les algorithmes de reconnaissance du visage proposs dans la littrature ont atteint un niveau de performance correct lorsque les conditions d'acquisition des images compares sont contrles, mais les performances chutent lorsque ces conditions sont dgrades. Les conditions d'acquisition contrles correspondent un bon quilibre d'illumination, ainsi qu'une haute rsolution et une nettet maximale de l'image du visage. An de bien cerner le problme de dgradation des performances dans les conditions d'acquisition diciles et de proposer par la suite des solutions adaptes, nous avons eectu plusieurs tudes dirents niveaux de la chane de la reconnaissance. Ces tudes concernent le comportement des algorithmes bass sur les approches globales. Elles concernent galement les direntes mthodes de normalisation photomtrique ainsi que des stratgies de reconnaissance bases sur la qualit des images du visage. Les solutions proposes chaque niveau de cette chane ont apport une amlioration signicative des performances par rapport aux approches classiques. Pour les algorithmes de reconnaissance, nous avons propos l'utilisation de la fusion de la phase et de l'amplitude des reprsentations de Gabor de l'image du visage comme nouveau gabarit, la place de l'image des pixels. Bien que les reprsentations de Gabor aient t largement utilises, particulirement dans les algorithmes bass sur les approches globales, la phase n'a jamais t exploite jusqu' ce jour. Nous expliquons dans cette thse les problmes lis l'utilisation de cette phase de Gabor et nous proposons une solution pour y remdier. Direntes mthodes de normalisation photomtrique de l'image du visage ont t tudies et compares. Nous avons, par la suite, propos une nouvelle approche de normalisation base sur la correction de la composante luminance. Enn, nous
avons prsent une stratgie de reconnaissance se basant sur la mesure de qualit du visage. Cette mesure est une fusion de plusieurs critres de qualit et selon nos expriences, cette stratgie permet une amlioration notable des performances par rapport aux mthodes classiques. Les direntes tudes, la validation de nos mesures de qualit ainsi que la validation de la stratgie de reconnaissance ont t eectues sur les deux bases de donnes publiques de visage FRGCv2 et BANCA largement utilises par la communaut.
Mot-clefs
Biomtrie, Reconnaissance de visage, Illumination, Normalisation photomtrique, ltres de Gabor, Qualit.
Summary
Nowadays, the algorithms of face recognition, proposed in the literature, reached a correct performance level when the acquisition's conditions for the tested images are controlled, but this performances fall when these conditions degraded. The controlled conditions of acquisition correspond to a good balance of illumination, as well as a high-resolution and a maximum sharpness of the face image. In order to determine the problem of degradation of performances under difcult capture's conditions and also to propose adapted solutions, we carried out several studies at various levels of the recognition's chain. These studies relate to the behavior of the algorithms based on global approaches. They also relate to the various methods of photometric standardization as well as strategies of recognition based on the quality of the face images. The solutions suggested on each level of this chain resulted in a signicant improvement of the performances compared to the traditional approaches. For the recognition algorithms, we proposed to fuse the phase and magnitude of Gabor's representations of the face as a new representation, in the place of the raster image. Although the Gabor representations were largely used, particularly in the algorithms based on global approaches, the Gabor phase was never exploited. We explain in this thesis the problems involved in the use of this phase and we propose a solution to solve this problem. Various methods of photometric normalization for face were studied and compared. We, thereafter, proposed a new approach of normalization based on the correction of the brightness component. Lastly, we presented a strategy of recognition based on the quality measure of face. This measurement is a fusion of several quality standards and according to our experiments ; this strategy oers an improvement of the verication rate
compared to the classical methods. The various studies, the validation of our quality measurements as well as the validation of the recognition strategy were carried out on the two public and largely used databases of FRGCv2 face and BANCA.
Keywords
Biometrics, Face Recognition, Illumination, Photometric Normalisation, Gabor lters, Quality.
Table des matires

Table des matires Table des gures Liste des tableaux 1 Introduction
1.1 1.2 1.3 1.4 Biomtrie du visage
1 5 9 13
. . . . . . . . . . . . . . . . . . . . . . . . . . 14
Variabilit de la modalit visage . . . . . . . . . . . . . . . . . . . . 16 Motivation et contributions . . . . . . . . . . . . . . . . . . . . . . 18 Structure de la thse . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2 tat de l'art de la reconnaissance de visage

2.1 2.2
21
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 tat de l'art des techniques de reconnaissance . . . . . . . . . . . . 23 2.2.1 2.2.2 Mthodes de rduction d'espace . . . . . . . . . . . . . . . . 24 Approches par points caractristiques . . . . . . . . . . . . 27
2.3 2.4 2.5
Inuence des variations environnementales sur la reconnaissance par le visage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Les approches utilisant le ltrage de Gabor . . . . . . . . . . . . . 34 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3 Outils d'valuation, bases de donnes et protocoles

3.1 3.2 3.3
37
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Scores et protocoles d'valuation des systmes biomtriques . . . . 40 valuation des systmes de reconnaissance . . . . . . . . . . . . . . 42 3.3.1 valuation des systmes de vrication biomtrique . . . . . 42 1
TABLE DES MATIRES
3.3.2 3.4 3.4.1 3.4.2 3.4.3 3.5
valuation des systmes d'identication biomtrique . . . . 49 Face Recognition Grand Challenge [NIST] . . . . . . . . . . 51 BANCA [SURREY] . . . . . . . . . . . . . . . . . . . . . . 55 IV2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Bases de donnes publiques . . . . . . . . . . . . . . . . . . . . . . 51
Conclusion
4 Les algorithmes de reconnaissance de visage

4.1 4.2 4.3
61
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Dimensionalit de l'espace visage . . . . . . . . . . . . . . . . . . . 62 Analyse en composantes principales . . . . . . . . . . . . . . . . . . 63 4.3.1 4.3.2 Rduction d'espace par ACP . . . . . . . . . . . . . . . . . 64 Application de l'ACP la reconnaissance de visage . . . . . 67 Analyse Linaire Discriminante . . . . . . . . . . . . . . . . 73 La LDA directe (DLDA) . . . . . . . . . . . . . . . . . . . . 74 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.4
Fisher Discriminant Analysis . . . . . . . . . . . . . . . . . . . . . 72 4.4.1 4.4.2
4.5 4.6
Tests et comparaisons des algorithmes . . . . . . . . . . . . . . . . 76 Conclusion
5 Normalisation de l'illumination
5.1 5.2 5.3 5.4
87
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 Normalisation gomtrique . . . . . . . . . . . . . . . . . . . . . . . 88 Extraction de l'intensit du pixel de l'espace couleur . . . . . . . . 90 Normalisation de l'illumination . . . . . . . . . . . . . . . . . . . . 93 5.4.1 5.4.2 5.4.3 5.4.4 5.4.5 galisation d'histogramme . . . . . . . . . . . . . . . . . . . 93 Correction Gamma . . . . . . . . . . . . . . . . . . . . . . . 94 MultiScale-Retinex . . . . . . . . . . . . . . . . . . . . . . . 96 Lissage anisotropique . . . . . . . . . . . . . . . . . . . . . . 97 Nouvelle mthode de correction de l'image par transformation de l'illumination . . . . . . . . . . . . . . . . . . . . . . 99
5.5
Rsultats et analyses . . . . . . . . . . . . . . . . . . . . . . . . . . 105 5.5.1 5.5.2 Comparaison entre les direntes transformations en niveaux de gris . . . . . . . . . . . . . . . . . . . . . . . . . . 105 Comparaison des direntes mthodes de normalisation . . 106 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.6
Conclusion
TABLE DES MATIRES
6 Analyse globale par ltrage de Gabor

6.1 6.2 6.3
109
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 Filtrage de Gabor et extraction des caractristiques . . . . . . . . . 110 Reprsentation du visage et choix des ltres de Gabor . . . . . . . 112 6.3.1 6.3.2 6.3.3 6.3.4 Inuence des caractristiques de la famille des ltres de Gabor sur les performances de la reconnaissance . . . . . . . . 113 tudes des performances suivant le choix des reprsentations de Gabor . . . . . . . . . . . . . . . . . . . . . . . . . 116 Fusion de l'amplitude et de la phase des reprsentations de Gabor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 Validation de la fusion de l'amplitude et de la phase corrige sur des algorithmes de rduction d'espace base de noyau . 120
6.4 6.5
Rsultats sur la base FRGC . . . . . . . . . . . . . . . . . . . . . . 121 Rsultats sur d'autres bases . . . . . . . . . . . . . . . . . . . . . . 122 6.5.1 6.5.2 Rsultats sur la base BANCA . . . . . . . . . . . . . . . . . 123 Rsultats sur la base IV2 . . . . . . . . . . . . . . . . . . . 123 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
6.6
Conclusion
7 Mesures de qualit pour le visage

7.1 7.1.1 7.1.2 7.1.3 7.1.4 7.1.5 7.2 Mesure du dsquilibre de l'illumination par distributions
127
Mesures de qualit . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 locales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 Mesure de la qualit de l'illumination par SVM . . . . . . . 133 Mesure de la nettet . . . . . . . . . . . . . . . . . . . . . . 136 Classication par fusion des mesures de qualit . . . . . . . 140 Validation des mesures de qualit sur la base de dveloppement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 Qualit et stratgie de reconnaissance . . . . . . . . . . . . . . . . 144 7.2.1 7.2.2 7.2.3 7.2.4 Protocoles et bases de donnes . . . . . . . . . . . . . . . . 145 Scnario : rfrences Passeport . . . . . . . . . . . . . . . . 147 Scnario : rfrences dgrades . . . . . . . . . . . . . . . . 153 Rcapitulatif des tests . . . . . . . . . . . . . . . . . . . . . 157 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
7.3 7.4
Validation de la stratgie sur la base BANCA . . . . . . . . . . . . 159 Conclusion
8 Conclusion et Perspectives
161
TABLE DES MATIRES
Bibliographie
169
Table des gures
1.1 1.2
Exemples de variation d'illumination de la base YaleB [24] . . . . . . . 16 Exemple de rexion diuse de la lumire (a) et de rexion spculaire (b) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1
Exemples des 5 premiers visages propres construits avec l'approche ACP (a) et Exemples des 5 premiers visages propres construits avec l'approche LDA (b) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9
Structure des approches EGM et EBGM . . . . . . . . . . . . . . . . . 28 Exemple de distributions thoriques des scores "intra-classes" et "interclasses" pour un systme biomtrique thoriquement parfait . . . . . . 41 Exemple de distributions thoriques des scores "intra-classes" et "interclasses" pour un systme biomtrique rel . . . . . . . . . . . . . . . . 42 Variation des taux FAR, FRR et TER en fonction du seuil de dcision 44 Exemple de courbes ROC (Source NIST reconnaissance de la parole) . 47 Exemple de courbes DET (Source NIST reconnaissance de la parole) . 47 Courbe de rang en fonction du taux de bonne identication (Source NIST valuation du visage FERET) . . . . . . . . . . . . . . . . . . . 51 Exemple de sessions d'acquisition de la base de donnes FRGCv2 . . . 52 Premiers rsultats obtenus lors des expriences de visage 2D de la base FRGCv2 (Source NIST Biometrics Consortium Conference) . . . . . . 54 Exemples d'image de la base de donnes BANCA selon trois scnarios : (a) contrl, (b) dgrad et (c) non contrl . . . . . . . . . . . . . . . 55
3.10 Exemples de donnes de la base IV2 . . . . . . . . . . . . . . . . . . . 59 5
TABLE DES FIGURES
3.11 Exemples d'acquisition d'images 2D : (a) image haute rsolution et (b) image dgrade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 Exemple de distribution d'un nuage de points dans un espace 2D . . . 64 Exemple d'image de visage normalis (nombre de pixels xe) . . . . . 66 volution de la mesure du taux d'nergie rsiduelle en fonction de la variance de l'espace pour la sous-base apprentissage de FRGC . . . . . 69 volution du EER en fonction de la variance pour l'exprience 1 et l'exprience 4 de FRGC . . . . . . . . . . . . . . . . . . . . . . . . . . 70 volution du EER en fonction de la variance pour le protocole P de BANCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 Comparaison entre les projections de deux classes de points ("class 1" et "class 2") sur les axes principaux construits par ACP et par LDA . 74 Diagramme de l'algorithme de la LDA directe (DLDA) . . . . . . . . . 76 Exemple d'image de brillance normalise gomtriquement . . . . . . . 78 Courbes ROC des algorithmes ACP, LDA et DLDA pour les expriences 1 et 4 de FRGC : avec galisation d'histogramme, base d'apprentissage BA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4.10 Courbes ROC des algorithmes ACP, LDA et DLDA pour les expriences Mc et P de la base BANCA : avec galisation d'histogramme, base d'apprentissage BA . . . . . . . . . . . . . . . . . . . . . . . . . . 82 4.11 Comparaison des performances pour les algorithmes ACP, LDA et DLDA pour l'exprience 1 sur la base FRGC . . . . . . . . . . . . . . 83 4.12 Comparaison des performances pour les algorithmes ACP, LDA et DLDA pour l'exprience 4 sur la base FRGC . . . . . . . . . . . . . . 84 4.13 Variation des performances de la DLDA en fonction de la variation du nombre d'images acquises en conditions non contrles . . . . . . . . . 85 4.14 Variation des performances de la DLDA en fonction de la variation proportionnelle du nombre d'images acquises en conditions contrles et non contrles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 5.1 5.2 5.3 Exemple d'une normalisation gomtrique de visage de la base FRGC Variation du taux de EER de l'algorithme de la DLDA en fonction de la normalisation gomtrique sur la base FRGC pour l'exprience 1 . . 89 Dirents systmes colorimtriques . . . . . . . . . . . . . . . . . . . . 91 88
TABLE DES FIGURES
5.4 5.5 5.6 5.7 5.8 5.9
Direntes transformations de l'image couleur d'un exemple de la base FRGC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 Exemple d'galisation d'histogramme . . . . . . . . . . . . . . . . . . . 94 Schmatisation de la rexion diuse . . . . . . . . . . . . . . . . . . . 96 Discrtisation au voisinage d'un pixel . . . . . . . . . . . . . . . . . . . 98 Normalisations photomtriques du visage . . . . . . . . . . . . . . . . 99 Schma des modles de l'illumination : (a) modle de l'illumination originale, (b) modle d'illumination aprs alignement . . . . . . . . . . 101
5.10 Dcomposition de l'illumination rfrence en somme de deux illuminations verticalement symtriques. . . . . . . . . . . . . . . . . . . . . . 101 5.11 Exemple d'une illumination originale en (a) et d'une illumination symtrique en (b) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 5.12 Exemples de correction de l'illumination par symtrie axiale . . . . . . 103 5.13 Correction de l'image du visage par transformation de l'illumination . 104 5.14 Courbes ROC de l'exprience 1 (a) et de l'exprience 4 (b) de la base FRGC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 6.1 6.2 6.3 Partie relle (a) et imaginaire (b) du ltre de Gabor . . . . . . . . . . 111 Parties relles (a) et imaginaires (b) du ltre de Gabor 4 niveaux de rsolution et selon 4 orientations . . . . . . . . . . . . . . . . . . . . . 111 Rsultats de la convolution d'une image de visage avec une famille de 16 ltres de Gabor (4 orientations (horizontales) et 4 rsolutions (verticales)) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 6.4 6.5 6.6 6.7 7.1 7.2 Mesure de similarits entre les axes principaux de la DLDA construits par les 4,5 et 6 premiers niveaux . . . . . . . . . . . . . . . . . . . . . 116 volution des taux de EER (a) et de VR@0.1% de FAR (b) en fonction du seuil Th pour le protocole PEG . . . . . . . . . . . . . . . . . . . . 118 Courbes ROC des direntes reprsentations de Gabor pour le protocole PEG avec une famille de ltres 4 rsolutions et 8 orientations . 119 Courbes ROC des direntes mthodes pour le protocole PEG . . . . 121 Principe de calcul d'une mesure de qualit globale (Q1a ou Q1b ) partir des mesures locales (moyennes ou mdianes, respectivement) Distributions de l'illumination par mesure des moyennes locales, Q1a , pour les bases [BQC] et [BQN] . . . . . . . . . . . . . . . . . . . . . . 132 . 131
TABLE DES FIGURES
7.3 7.4 7.5
Distributions de l'illumination par mesure des mdianes locales, Q1b , pour les bases [BQC] et [BQN] . . . . . . . . . . . . . . . . . . . . . . 133 Exemples des histogrammes des images de type contrl (A) et de type non contrl (B) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 Variations du taux de classication correcte pour le classieur SVM noyau polynomial suivant le rang du polynme sur la base de dveloppement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
7.6 7.7 7.8 7.9
Variations du taux de classication correcte pour le classieur SVM noyau radial sur la base de dveloppement . . . . . . . . . . . . . . . . 135 Distributions des mesures de nettet Q3a de [BQC] et de [BQN] par mthode du gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 Mesure du ou par approche frquentielle locale pondre . . . . . . . 138 Distributions des mesures de nettet Q3b de [BQC] et de [BQN] par l'approche frquentielle globale . . . . . . . . . . . . . . . . . . . . . . 139
7.10 Distributions des mesures de nettet Q3c de [BQC] et de [BQN] par l'approche frquentielle locale pondre . . . . . . . . . . . . . . . . . . 139 7.11 volution de l'inertie intra-classes en fonction du nombre des centrodes pour la base d'apprentissage . . . . . . . . . . . . . . . . . . . 142 7.12 Distribution de la mesure q pour les images de la base de dveloppement [[BQC] + [BQN]] . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 7.13 Exemples d'images de type contrl (A), de type dgrad (B) et de type non contrl (C) de la base de donnes BANCA . . . . . . . . . . 143 7.14 Dcoupage de la base FRGCv2 . . . . . . . . . . . . . . . . . . . . . . 147 7.15 Courbes ROC de Test1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 7.16 Courbes ROC de Test2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 7.17 Courbes ROC de Test3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 7.18 Courbes ROC de Test4 . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 7.19 Courbes ROC de Test5 . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 7.20 Courbes ROC de Test6 . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 7.21 Courbes ROC de Test7 . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 7.22 Distribution des scores intra-classes (A) et Distribution des scores inter-classes (B) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 7.23 Courbes ROC des Tests 8-9 et 10 (D1, D2 et D3) . . . . . . . . . . . . 157
Liste des tableaux

2.1 3.1 3.2 3.3 4.1 4.2 4.3 Liste des participants aux campagnes FRVT . . . . . . . . . . . . . . . 22 Nombre de tests pour les 3 protocoles dans les expriences 1, 2 et 4 de la base FRGC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Rsultats du protocole P sur la base BANCA . . . . . . . . . . . . . . 57 Protocoles d'valuation pour la base IV2 . . . . . . . . . . . . . . . . . 58 Caractristiques des sous-ensembles d'apprentissage de l'espace de rduction par ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Rsultats en EER de l'exprience 4 de FRGC pour les direntes bases d'apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Rsum des rsultats aux points de fonctionnement ( EER et VR@0.1% de FAR) des 3 algorithmes (ACP, LDA, DLDA) pour les deux types d'exprience sur les bases FRGC et BANCA 5.1 . . . . . . . . . . . . . . 80
Rsultats de la DLDA donns pour les direntes mthodes d'extraction des niveaux de gris (RVB, TSL, TSV) sur la base FRGC aux deux points de fonctionnement EER et VR@0.1% de FAR (Exprience 1) . 105
5.2
Rsultats de la DLDA donns pour les direntes mthodes d'extraction des niveaux de gris sur la base BANCA au point de fonctionnement EER (Protocole Mc) . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.3
Rsultats de reconnaissance de la DLDA applique direntes mthodes de pr-traitement. Les rsultats sont prsents au point de fonctionnement VR @0.1% de FAR sur la base FRGC pour les expriences 1 et 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 9
10
LISTE DES TABLEAUX
5.4
Rsultats de reconnaissance de la DLDA appliqu direntes mthodes de pr-traitement. Les rsultats sont prsents au point de fonctionnement EER sur la base BANCA pour les protocoles Mc et P. 106
6.1
Performances en EER [CC] pour chaque niveau de rsolution en fonction du nombre d'orientations choisi par le ltrage de Gabor sur le protocole PEG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
6.2
Rsultats en EER et en VR@0.1% de FAR des combinaisons cumulatives des dirents niveaux de rsolution avec 8 orientations pour le protocole de test PEG . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.3 6.4 6.5 6.6
Moyenne et cart-types des similarits entre les axes principaux de la DLDA construits par les 4, 5 et 6 premiers niveaux . . . . . . . . . . . 115 Rsultats en EER et en VR@0.1% de FAR des direntes reprsentations de Gabor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 Rsultats en EER et en VR@0.1% de FAR des direntes fusions des reprsentations de Gabor . . . . . . . . . . . . . . . . . . . . . . . . . 120 Rsultats de la reconnaissance par fusion amplitude-phase en taux de VR@0.1% de FAR pour les deux expriences 1 et 4 de la base FRGC ainsi que quelques rsultats de la littrature . . . . . . . . . . . . . . . 122
6.7
Rsultat en WER (Weighted Error Rate ) de la DLDA applique la fusion amplitude-phase de rponses de la famille de 32 ltres de Gabor sur la base BANCA (protocole P) . . . . . . . . . . . . . . . . . . . . . 123
6.8 6.9
Protocoles d'valuation pour la base IV2
. . . . . . . . . . . . . . . . 123
Taux de EER pour les dirents algorithmes sur la base IV2 (visage 2D) participant la premire valuation . . . . . . . . . . . . . . . . . 124
7.1 7.2 7.3 7.4
Taux de Bonne Classication (TBC) pour chaque type de noyau pour les deux bases [BQC] et [BQN] . . . . . . . . . . . . . . . . . . . . . . 136 Taux d'Erreur de Classication (TEC) suivant la mthode de mesure du ou . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 Taux de Classication Correcte (TCC) pour les deux classes slectionnes de la base BANCA avec notre mesure q . . . . . . . . . . . . . . . 144 Tableau rcapitulatif des divers scnarios et protocoles avec les rsultats des performances donns en VR@0.1% de FAR . . . . . . . . . . . 158
LISTE DES TABLEAUX
11
7.5
Rsultats de la stratgie de reconnaissance sur la base BANCA, Protocole P et G, utilisant l'algorithme de reconnaissance DLDA appliqu aux reprsentations Gabor du visage. . . . . . . . . . . . . . . . . . . . 159
Chapitre 1
Introduction
Dans la civilisation babylonienne, au VIme sicle avant J.-C., l'empreinte du pouce laisse sur une poterie d'argile permettait de sceller des accords commerciaux. Les gyptiens utilisaient les descriptions physiques des commerciaux pour direncier ceux qui sont connus de ceux qui sont nouveaux sur le march. Ces exemples montrent que les caractristiques physiques ont toujours t utilises par l'Homme, bien avant l'avnement des sciences modernes et des ordinateurs, pour identier les personnes. En ralit la Biomtrie, comme elle est connue de nos jours, dcoule directement de l'anthropomtrie moderne. Cette technique permet de reconnatre des personnes partir de leurs caractristiques physiques et comportementales. L'anthropomtrie a vu le jour au XIXme sicle avec Alphonse Bertillon (1853-1914). Ce criminologue franais fonda en 1870 le premier laboratoire de police scientique d'identication criminelle et inventa l'anthropomtrie judiciaire appele "systme Bertillon" ou "bertillonnage". Le systme de reconnaissance des personnes, propos par Bertillon, est bas sur la mesure de dirents paramtres du corps humain [8]. Dans ses travaux, Bertillon arme qu'en prenant quatorze mensurations (taille, pieds, mains, nez, oreilles, etc.) sur n'importe quel individu, il n'y a qu'une seule chance sur deux cent quatre-vingt-six millions pour qu'on retrouve les mmes mesures chez une autre personne. Ce systme a t adopt rapidement dans toute l'Europe, puis aux tats-Unis. La premire utilisation des empreintes digitales comme moyen d'identication remonte 1877 aux Indes o le britannique William Herschel eut l'ide de les 13
14
CHAPITRE 1. INTRODUCTION
utiliser pour viter que les bnciaires de pension de l'arme ne la touchent plusieurs fois. cette poque, les empreintes digitales servent aussi authentier des documents ociels. Sir Francis Galton amliora cette technique et publia des travaux dtaills sur la reconnaissance par l'empreinte digitale, base sur des caractristiques particulires de la texture, appeles les minuties [13]. Suite ces publications, Scotland Yard a ouvert le premier chier d'empreintes digitales en 1901, sous la direction du commissaire Edward Henry. Ce procd mergea ensuite en Asie, en Afrique du Sud et en Europe. La premire utilisation des empreintes digitales en France fut le 24 octobre 1902 pour confondre le criminel Henri-Lon Scheer, deux ans aprs sa disparition. Aux Etats-Unis, les prisons commencrent rendre obligatoire l'enregistrement des empreintes des dtenus ds 1903. Alors que la mthode de Bertillon ft abandonne partir de 1970, l'enregistrement systmatique des empreintes connut en revanche un essor mondial. Ds le dbut des annes 60, dirents moyens physiques et comportementaux, permettant une reconnaissance de l'individu, ont t utiliss. Parmi ces moyens, communment appels "modalit biomtrique", on trouve le visage, l'empreinte digitale, l'iris et la forme de la main. Rcemment, d'autres modalits ont t introduites comme les veines de la main, le rseau veineux de la rtine, l'empreinte de l'oreille et l'ADN. Pour ce qui est des modalits comportementales, on peut citer la signature (dynamique ou statique), la dmarche... Avec l'avnement des ordinateurs, l'ide d'une reconnaissance automatique est ne ; c'est le dbut de la biomtrie moderne. Depuis les annes 60, plusieurs travaux sur des algorithmes automatiques ou semi-automatiques furent publis ; citons le cas du visage, de la signature, de la voix et bien sr, des empreintes digitales. Grce cet lan de recherche et ces travaux trs prometteurs, le FBI lana en 1969 une campagne scientique an de dvelopper un systme automatique de reconnaissance par les empreintes digitales. La gomtrie de la main, dont les balbutiements remontent au milieu du XIXme sicle, connut dans les annes 70 un regain d'intrt avec la commercialisation du premier produit biomtrique de contrle d'accs et d'identication.
1.1 Biomtrie du visage

De nos jours, le visage peut tre utilis pour identier une personne dans une base mais il est plus communment utilis pour vrier l'identit. Il s'agit alors
1.1. BIOMTRIE DU VISAGE
15
de dterminer si une identit rclame est correcte ou fausse. Pour la vrication des visages, ce processus est eectu en comparant un modle du demandeur (une ou plusieurs images de test), avec un modle stock (une ou plusieurs images de rfrence). Le processus complet de vrication des visages est dcrit ci-dessous : Capture du visage : le visage d'une personne est numris par des capteurs comme des appareils photo numriques pour la reprsentation 2D du visage, des scanners 3D pour avoir l'information de profondeur de l'image combine avec l'image de la texture ou aussi des capteurs infrarouge ou proche infrarouge. Des informations spciques la capture peuvent tre dtermines aussi lors de l'acquisition de l'image, comme la pose de la personne par rapport la camra, l'expression ou aussi les conditions d'illumination de la capture de l'image. Dans cette thse nous nous consacrons l'tude exclusive du problme de la reconnaissance des visages 2D. Dtection : L'image 2D acquise peut contenir la fois le visage de la personne et ventuellement, un arrire-plan. Dans le processus de dtection, le visage est localis dans l'image. Souvent, la sortie de cette tape est la localisation des centres des yeux. Normalisation : La normalisation est constitue de deux processus : gomtrique et photomtrique. La normalisation gomtrique est ncessaire parce que la taille du visage l'intrieur de l'image acquise peut varier en fonction de la distance entre le module d'acquisition et la personne. Le visage doit donc tre extrait partir de l'image et une transformation gomtrique, pour obtenir une taille xe, est applique. L'approche standard consiste dnir l'emplacement des centres des yeux dans une position constante au sein de l'image de sortie. L'tape de normalisation photomtrique tente d'liminer ou de rduire les eets de l'illumination de l'image. Dans certains cas, l'tape de normalisation photomtrique peut tre applique avant, ou avant et aprs l'tape de normalisation gomtrique. Elle peut aussi tre applique pendant la phase de dtection. Calcul de score : L'image normalise est ensuite compare une ou plusieurs images stockes (si un modle utilisant une galerie d'images est utilis). Cette comparaison produit un score, reprsentant la similarit ou la distance de l'image test par rapport l'image ou au modle rfrence. Dcision : Le score est compar un seuil qui dtermine si l'image est
16
accepte ou rejete en tant que reprsentant de l'identit proclame.
1.2 Variabilit de la modalit visage

La dirence d'apparence d'un mme visage captur dans deux conditions d'acquisition distincte pose un norme problme dans le domaine de la reconnaissance faciale. Cette dirence est d, gnralement, des facteurs d'environnement comme les conditions d'clairage, les caractristiques des capteurs et aussi leur positionnement par rapport au visage lors de l'acquisition. Cette variation peut aussi tre ds aux modications du visage lies aux expressions ou aux changements de poids ainsi qu' l'ge. Gnralement, il est admis que la distance entre deux visages de personnes direntes acquis dans des conditions propres est plus faible que celle qui existe pour une mme personne dans des conditions variables d'clairage et de mise au point .
Figure 1.1: Exemples de variation d'illumination de la base YaleB [24]
Comme le montre la gure 1.1, une variation de l'clairage peut srieusement altrer l'apparence d'un visage dans l'image, dans la mesure o les images l'extrme droite semblent plus proches les unes des autres que de leurs correspondants avec un clairage frontal (extrme gauche). Une formalisation les observations qualitative prcdentes, on peut remarquer qu'il existe deux formes de rexion de la lumire par une surface. La rexion peut tre spculaire ou bien diuse, suivant la nature de la surface (Figure 1.2). Les lois gomtriques de la rexion ne s'appliquent qu' la rexion spculaire ;
1.2. VARIABILIT DE LA MODALIT VISAGE
17
il faut faire appel des modlisations plus complexes pour traiter la rexion diuse.
(a) laire (b)
(b)
Figure 1.2: Exemple de rexion diuse de la lumire (a) et de rexion spcu-
La rexion diuse intervient sur les interfaces irrgulires, la lumire est rchie dans un grand nombre de directions et l'nergie du rayon incident est redistribue dans une multitude de rayons rchis. La rexion est dite spculaire lorsque le rayon incident donne naissance un rayon rchi unique. Idalement, l'nergie du rayon incident se retrouve totalement dans le rayon rchi, en pratique une partie de l'nergie peut tre absorbe ou diuse au niveau de l'interface. Ces deux types de rexion peuvent donner lieu un eet indsirable de l'illumination : les ombres. On distingue deux types d'ombres, les ombres propres et les ombres portes : Une ombre propre se produit lorsque la lumire arrive sur une surface avec un changement de pente. La luminosit des pixels correspondante cette zone diminue mesure que l'angle d'incidence s'carte de la normale de la surface. Cette luminosit atteint son minimum lorsque l'angle entre la lumire incidente et la normale de la surface est gale 90). Une ombre porte se produit lorsque la source de lumire est occulte par un objet avant la rexion de la lumire sur la surface. En traitement d'images, une ombre est considre comme tant une rgion faible luminosit et ayant des contours fort gradient. Dans cette thse j'tudie et je dveloppe particulirement l'aspect variation d'illumination et je propose des solutions divers niveaux de la chane de traitement qui permettront d'amliorer les performances de reconnaissance.
18
1.3 Motivation et contributions

Les systmes de reconnaissance par le visage ont atteint pendant cette dernire dcennie des performances leves lorsque les images de rfrence et de test sont acquises dans des conditions propres. Ces performances se dgradent de faon signicative lorsque les conditions d'acquisition sont trs variables. Ceci a t constat dans plusieurs campagnes d'valuation internationales (FRGC 2005 , FRVT 2006 et MBGC 2008). En ralit, l'information (qui peut tre considre comme du bruit), introduite par l'eet de la variation de l'illumination ou des conditions d'acquisition, ne peut pas tre facilement spare de l'information discriminante entre les visages. Diverses solutions ont t proposes dans la littrature an d'attnuer l'impact de ce bruit sur les performances de la reconnaissance. C'est dans ce contexte de variabilit d'illumination qu'intervient cette thse. Nous avons propos de nouveaux algorithmiques allis des stratgies originales pour amliorer les rsultats de la reconnaissance par le visage, dans ce contexte. En eet, mme si plusieurs solutions pour rduire l'inuence des eets de l'illumination ont dj t proposes dans la littrature elle se insusantes dans la pratique. Nous nous sommes intresss tout d'abord des mthodes permettant de corriger les eets d'illumination et nous avons propos un algorithme original dans ce cadre. Nous avons aussi propos un algorithme de reconnaissance de visage original que nous avons compar dirents algorithmes de la littrature sur des images prsentant des illuminations variables issues des grandes bases de donnes largement diuses dans la communaut biomtrique. Des tudes ont montr aussi que des critres de qualit comme la nettet de l'image, le contraste, l'illumination ou bien la pose et l'expression sont des facteurs qui inuencent, divers degrs, les performances des systmes de reconnaissance [12,22]. Ainsi, lors du "Biometric Quality Workshop " en 2006, Werner et Brauckmann ont montr la corrlation entre les dirents critres de qualit (nettet, contraste et pose) et les rsultats des systmes de reconnaissance. L'tude a t eectue sur la base FRGCv2 et sur deux types d'algorithmes, un algorithme bas sur une approche globale et un deuxime sur une approche par points caractristiques [12]. Lors du mme workshop, Weber [98] a galement prsent les rsultats d'une tude semblable celle de Werner et il est arriv aux mmes conclusions de corrlation.
1.4. STRUCTURE DE LA THSE
19
En nous basant sur ces constatations, nous avons introduit de nouvelles mesures de qualit sur les visages, principalement orientes vers la mesure de l'illumination et du ou et nous avons propos par la suite de nouvelles stratgies de reconnaissance bases sur ces mesures de qualit.
1.4 Structure de la thse

Cette thse se compose de 6 grands chapitres et elle est organise de la manire suivante : Dans le chapitre 2, nous voquerons les grandes lignes de l'volution de la reconnaissance des visages. Ce chapitre n'a pas pour nalit de dcrire tous les algorithmes de reconnaissance par le visage car cet objectif ne serait pas raliste, mais nous prsenterons les algorithmes qui ont marqu ce domaine et tout au long du chapitre, nous observerons la progression de la recherche dans ce domaine ainsi que l'amlioration des performances. Une deuxime partie de ce chapitre sera consacre aux solutions apportes aux dirents problmes que rencontre la reconnaissance par le visage, tandis que la dernire partie de ce chapitre prsentera l'utilisation des ltres de Gabor dans la biomtrie du visage. Dans le chapitre 3, nous prsenterons les outils ncessaires l'valuation des performances des algorithmes biomtriques. Nous dtaillerons les notions de vrication et didentication ainsi que les bases de donnes publiques que nous avons utilises tout au long de la thse, savoir : la grande base de visages FRGC (Face
Recognition Grand Challenge ) et la base BANCA. Nous prsenterons galement

une nouvelle base d'valuation qui complte les prcdentes, la base IV2 . Dans le chapitre 4, plusieurs algorithmes de reconnaissance, bass sur l'approche par rduction d'espace, sont tudis. Nous nous focaliserons sur plusieurs problmatiques comme le choix des conditions adquates d'apprentissage ainsi que le choix du meilleur algorithme pour le reste de nos tudes. Dans le chapitre 5, nous voquerons la normalisation gomtrique des images des visages mais nous tudierons principalement les direntes normalisations photomtriques. Nous proposerons galement une nouvelle mthode de normalisation de l'illumination qui donne de meilleurs rsultats que les direntes mthodes couramment utilises dans la littrature, lorsque les conditions d'acquisition sont dgrades. Dans le chapitre 6, nous introduirons l'utilisation des ltres de Gabor dans la
20
reconnaissance. Plusieurs travaux font rfrence cette approche dans la littrature, en utilisant classiquement l'amplitude. Notre travail principal est de montrer que l'utilisation de la phase des rponses de Gabor apporte une contribution dans l'amlioration des performances. L'utilisation de la phase sera dtaille dans ce chapitre et les rsultats comparatifs par rapport l'utilisation de l'amplitude seule seront donns dans ce mme chapitre. Nous avons test notre approche sur la base d'valuation internationale organise par le NIST, FRGC. Paralllement ces valuations, nous avons test notre mthode sur une base franaise provenant du projet national, IV2 ("Identication par l'Iris et le Visage via la Vido"). Cette mthode a dmontr sa robustesse dans les conditions dgrades ainsi que les conditions contrles. Dans le chapitre 7, nous introduirons de nouvelles mesures de qualit des images de visages et nous prsenterons direntes stratgies an d'amliorer les rsultats de la reconnaissance. Ces stratgies se basent sur la classication de types d'images suivant les mesures de qualit des images de test. Une introduction de ces mesures de qualit dans le calcul du score de comparaison montrera un apport eectif, en terme de performance, de cette nouvelle approche dans le cadre d'une utilisation d'un modle de rfrence et d'un modle de test utilisant plusieurs images. Une validation sur la base BANCA de cette stratgie sera faite dans la dernire partie de ce chapitre.
Chapitre 2
tat de l'art de la reconnaissance de visage

2.1 Introduction
L'identication et/ou la vrication des visages ont attir l'attention des chercheurs depuis quelques dcennies, et restent encore et toujours un sujet de recherche attractif et trs ouvert. Beaucoup de connaissances dans les domaines de la reconnaissance des formes, du traitement d'images, des statistiques ont t appliques au domaine de la reconnaissance du visage. En plus, les capacits grandissantes des moyens informatiques et l'existence de bases de donnes de grande taille ont permis de mettre au point des algorithmes et des approches de plus en plus complexes et par consquent, les performances de reconnaissance se sont trouves amliores. Dans les annes 90, le but de la recherche dans ce domaine se concentrait sur l'identication des visages enregistrs dans de bonnes conditions, dans des bases de taille relativement rduite. Les protocoles d'valuation, qui en ont dcoul, ont permis de mettre en place les premiers outils d'valuation et de comparaison des algorithmes. Il faut savoir que les moyens informatiques de l'poque ne permettaient pas d'eectuer des valuations sur des grandes bases de donnes. Ds le milieu des annes 90, des campagnes d'valuations des systmes de reconnaissance des visages ont t mises en place avec les 3 campagnes d'valuations FERET (1994, 1995, 1996) [32,37,71]. Les conclusions de ces campagnes sont que 21
22
CHAPITRE 2. TAT DE L'ART DE LA RECONNAISSANCE DE VISAGE
les systmes proposs taient encore au stade de dveloppement et que les performances de reconnaissance montraient que le domaine n'tait pas encore assez mature. la n des annes 90, la reconnaissance par le visage connat un grand essor avec le dveloppement de nouvelles approches et de nouveaux algorithmes, permettant ainsi de passer du domaine de la recherche la commercialisation. Les premiers systmes de reconnaissance du visage sont commercialiss ds la n des annes 90 avec les produits des entreprises [Table 2.1]. Dans le mme temps, des campagnes d'valuations plus grande chelle sont mises en place et les valuations FRVT (Face Recognition Vendor Test ) voient le jour, avec FRVT2000 et FRVT2002 [31, 36]. Les conclusions de ces valuations sont trs intressantes et mettent jour de nouveaux problmes qui accompagnent la recherche dans le domaine de la reconnaissance par le visage, savoir que les performances des systmes d'identication sont sensibles la taille des bases de donnes et que la reconnaissance des visages dans des conditions diciles a encore besoin d'amlioration. Produits commerciaux FaceIt de Visionics Viisage Technology FaceVACS de Plettac FaceKey Corp. Cognitec Systems Keyware Technologies Passfaces de ID-arts ImageWare Sofware Eyematic Interfaces Inc. BioID sensor fusion Visionsphere Technologies Biometric Systems, Inc. FaceSnap Recoder SpotIt de face composite Sites http ://www.FaceIt.com http ://www.viisage.com http ://www.plettac-electronics.com http ://www.facekey.com http ://www.cognitec-systems.de http ://www.keywareusa.com/ http ://www.id-arts.com/ http ://www.iwsinc.com/ http ://www.eyematic.com/ http ://www.bioid.com http ://www.visionspheretech.com/menu.htm http ://www.biometrica.com/ http ://www.facesnap.de/htdocs/english/index2.html http ://spotit.itc.it/SpotIt.html
Table 2.1: Liste des participants aux campagnes FRVT (source [36])
Les campagnes d'valuations ont accompagn l'volution des systmes de reconnaissance et un besoin d'valuation statistique plus signicative s'est fait ressentir. Par consquent, des bases de donnes de visages de plus en plus grandes, avec des conditions de capture plus diciles et plus complexes ont t acquises. La base de donnes d'valuations FERET se composait de 4000 images en 1996, de prs de 14000 images en 2000 et d'environ 121 000 images en 2002. Toutes ces
2.2. TAT DE L'ART DES TECHNIQUES DE RECONNAISSANCE
23
campagnes d'valuations ont permis la communaut scientique d'obtenir des bases de donnes utiles pour la recherche thorique. La dernire campagne d'valuations FRVT2006 a t prcde par la distribution de la base de donnes FRGC version 1 et version 2, qui reste la plus importante base de visages publique. Cette campagne tait dirente de la campagne FRVT2002 dans le sens o elle tait ouverte des entreprises ainsi qu'aux laboratoires de recherche. Les organisateurs se sont intresss dans cette campagne deux problmes majeurs dans la vrication des visages, la vrication des visages de face dans les conditions contrles et dans les conditions dgrades et la variation des performances suivant la rsolution des images de test.
2.2 tat de l'art des techniques de reconnaissance

Les avances applicatives de la reconnaissance par le visage ont suivi rapidement les avances de la recherche thorique. Nous commenons la description de l'volution de la recherche par une description de l'objet reconnatre. Le visage est un objet nature tridimensionnel. Cet objet peut tre sujet diverses rotations, non seulement planes mais aussi spatiales, et galement sujet des dformations dues aux expressions faciales. La forme et les caractristiques de cet objet voluent aussi dans le temps. Les informations de cet objet tridimensionnel sont captures l'aide de camras et la sortie, nous obtenons une image bi-dimensionnelle qui le caractrise. Cette rduction de la dimension de l'information permet dj de faire ressortir quelques problmes qui se posent lorsque les images 2D ne sont pas parfaitement frontales. D'autres problmes qui se posent la reconnaissance des visages sont les conditions environnementales d'acquisition. Dans l'tat de l'art, trois familles d'algorithmes ressortent. Une premire famille, la plus populaire, est base sur une approche globale qui s'appuie sur des mthodes de rduction d'espace. Une deuxime famille d'algorithmes est base sur des approches locales, appeles aussi "approches par points caractristiques" et enn, des algorithmes bass sur des approches hybrides comme l'ACP modulaire (Analyse en Composante Principale) [66], la LFA (local feature analysis ) et l'analyse des caractristiques locales [65]. Partant de ces mthodes classiques de reconnaissance, des mthodes plus la-
24
bores et plus robustes ont t proposes. Comme exemples d'extension des approches globales, on peut citer les mthodes base de noyaux [56, 57, 81], qui ont permis d'amliorer de faon signicative les performances de la reconnaissance et dans le cas d'extension des approches locales, la mthode LBP (local binary
pattern ), qui a considrablement amlior les performances et la rapidit de la

reconnaissance [1, 27, 61]. Dans cette description de l'tat de l'art et vu le grand nombre de mthodes appliques la reconnaissance du visage, la citation de la totalit des approches et des mthodes ne peut tre complte. Je me suis donc intress dcrire la plupart des grandes mthodes classiques et la majorit des approches qui ont apport une vraie originalit et une avance sensible dans le domaine. Dans la premire section, je commencerai par un rsum des algorithmes lis aux mthodes de rduction d'espace ainsi que les rsultats qui ont t publis. Dans la deuxime partie, je rsumerai les mthodes les plus populaires des algorithmes bass sur les points caractristiques.
2.2.1 Mthodes de rduction d'espace

Les mthodes de classication par rduction d'espace restent parmi les techniques les plus utilises et les plus populaires dans le domaine de la reconnaissance du visage 2D. Ces mthodes considrent l'image entire du visage comme un vecteur dans un espace multidimensionnel. L'objectif de ces mthodes est de trouver une base rduite de projections qui optimise un certain critre et l'espace original est ensuite projet sur cette base de dimension infrieure. De ce fait on rduit considrablement la complexit des calculs tout en conservant l'information discriminante entre les images . La classication est habituellement eectue selon une mesure de distance simple dans l'espace multidimensionnel nal. Divers critres ont t utiliss an de trouver les bases des espaces de dimensions rduites. Certains d'entre eux ont t dnis an de trouver les bases de projections qui gardent le maximum de variance entre les donnes, en mettant l'ide que les caractristiques discriminatoires sont les informations les plus communes entre les donnes. Le point faible de cette approche est qu'elle n'emploie pas l'information de sparabilit entre les direntes classes. Une deuxime classe de critres est celle qui traite directement la discrimination entre les classes, et la dernire utilise le critre d'indpendance statistique des donnes originales dans l'espace de dimension rduite. Une des mthodes les plus
25
anciennes et les mieux tudies, pour la reprsentation des visages dans un espace de dimension rduite, reste l'analyse en composante principale (ACP). Elle appartient la premire classe d'algorithme [39]. Cette reprsentation a t applique au visage en 1991 par Mattiew Turk [93]. L'ide est de trouver une transformation linaire dans un espace de dimension rduite qui maximise la variance des projections des chantillons originaux. En 1996, l'approche de l'ACP a t tendue la version non linaire par l'introduction des fonctions noyaux non linaires, appele "Kernel Principal Component Analysis " (KPCA) [81]. L'hypothse est que si les visages ne sont pas linairement sparables dans l'espace d'entre, ils seront linairement sparables dans un espace non linaire, d'o l'introduction de notion de noyau de projection non linaire. Une autre mthode qui vise reprsenter le visage sans employer la notion de classe est la factorisation non ngative des matrices (Non Negative Matrix Factorization, NMF) [46]. L'algorithme de la NMF, comme celui de l'ACP, reprsente le visage comme combinaison linaire de vecteurs de la base de l'espace rduit. La dirence est que la NMF n'autorise pas les lments ngatifs dans les vecteurs de la base ni dans les poids de la combinaison linaire. Au nal, certains vecteurs de l'espace rduit par l'ACP, appels "visages propres", ressemblent des versions distordues du visage entier alors que ceux rduit par la NMF sont des objets localiss qui correspondent mieux la notion de parties du visage [46]. L'analyse discriminante linaire (Linear Discriminant Analaysis, LDA), appele galement "Fisher Linear Discriminant ", est parmi l'une des mthodes les plus utilises pour la reconnaissance de visage. Elle utilise le critre de rduction qui se base sur la notion de sparabilit des donnes par classe. L'ide de la rduction par sparation des classes date de 1936 [21]. Elle a t applique aux visages en 1996 [89]. Cette mthode comporte deux tapes : une rduction de l'espace d'origine par l'ACP, puis les vecteurs de l'espace de projection nal, appels "sherfaces ", sont calculs sur le critre de sparabilit des classes mais dans l'espace rduit. Ce besoin de rduction de l'espace d'entre est d un critre de singularit de la matrice d'parpillement totale de l'approche LDA (pour plus de dtails, voir le chapitre 4). Rcemment, des algorithmes pour l'application directe de la LDA, pour l'extraction des informations discriminantes, ont t proposs. Ces solutions ont pour but d'viter la perte d'information discriminante qui se produit aprs une rduction par ACP. On cite la DLDA (Direct LDA) [103] et la RLDA (Regression
26
Figure 2.1: Exemples des 5 premiers visages propres construits avec l'approche
ACP (a) et Exemples des 5 premiers visages propres construits avec l'approche LDA (b)
LDA) [50]. Toutes ces mthodes proposent des approches de diagonalisation directe pour trouver les "sherfaces ". Le cadre thorique de la LDA classique, la DLDA et la RLDA, sera tudi en dtails dans le chapitre 4. De mme que l'ACP, la LDA a t gnralise pour le cas non linaire, savoir l'analyse discriminante gnralise (General Discriminant Analysis, GDA) [56] et l'analyse non linaire discriminante de Fisher (Kernel Fisher Discriminant Ana-
lysis, KFDA) [57]. L'ide est d'appliquer la LDA un espace de plus grande
dimension (que celui des visages d'entre), dans lequel les classes des visages sont censes tre linairement sparables. Cet espace est construit par une transformation non linaire de l'espace d'entre par des fonctions noyaux non linaires. Le cadre thorique de ces deux mthodes et leurs dirences seront brivement prsents dans le chapitre 6. L'inconvnient principal des mthodes qui emploient des critres discriminants est qu'elles peuvent tre sujettes un surentranement et la gnralisation sur les classes, qui n'appartiennent pas la base d'apprentissage des vecteurs de projection, peut se trouver aaiblie. D'ailleurs, dans [52], l'auteur montre que dans des conditions d'apprentissage sur des petits ensembles, les vecteurs discriminants n'ont aucune capacit de gnralisation et que, dans ce cas, l'utilisation de l'ACP
27
est plus recommande. Il a montr, par ailleurs, que la LDA surpasse en termes de performance l'ACP quand de grands ensembles reprsentatifs de chaque classe de visage sont disponibles. La dernire classe de critre de rduction, qui a t propose, est base sur la rduction d'espace par minimisation de la dpendance statistique des projections, appele ICA (Independent Component Analysis ) [6]. Une version non linaire de cette mthode, appele KICA (Kernel Independant Component Analysis ), a aussi t propose dans [3].
2.2.2 Approches par points caractristiques

Une autre classe trs connue des approches utilises pour la reconnaissance par le visage est la classe des algorithmes de reconnaissance par points caractristiques. Les premires mthodes de reconnaissance du visage par ordinateur ont t proposes par Kelly en 1971 [38] et Kanade en 1973. Ces mthodes utilisent la mesure des distances entre les dirents points du visage an de calculer la similarit entre deux visages comparer. Une autre mthode qui se base sur les points caractristiques a t propose en 1994 [78]. Cette mthode utilise les modles de Markov cach pour l'identication des visages. La mthode la plus populaire et la plus ecace, dans les approches par points caractristiques, reste de loin la correspondance lastique des graphes (Elastic
Graph Matching, EGM). L'ide originale, qui se base sur une architecture de
liens dynamiques pour la reconnaissance des objets, a t propose par Lades en 1993 [44] et a t applique, avec succs, la reconnaissance par le visage, par Wiskott en 1996 [101]. Une variante a galement t propose par le mme auteur dans [100]. Cette mthode consiste construire un graphe de rfrence en recouvrant l'image du visage rfrence par une grille et en calculant les rponses des ltres de Gabor chaque noeud du graphe. Le processus de comparaison est mis en application par une optimisation stochastique d'une fonction de cot, qui tient compte des similitudes des rponses des ltres et de la dformation du graphe. La gure 2.2(a) montre un exemple d'un graphe de visage. Depuis son application, l'EGM pour la reconnaissance de visage est devenu un champ de recherche trs actif. Dans [104], l'auteur a montr que l'EGM surpasse, en termes de performances, l'ACP et des rseaux neurones appliqus l'identication du visage. Dans [100], l'approche du graphe a t amliore en introduisant une structure de pile pour chaque noeud. En d'autres termes, chaque noeud
28
contient des rponses des ltres avec dirents tats du noeud. Cette approche est appele "Elastic Bench graph matching " (EBGM). La gure 2.2(b) montre un exemple d'un EBGM d'une image de visage. Par exemple, dans le cas de noeuds identiant les coins de la bouche, les rponses des ltres de Gabor seront calcules sur la bouche ouverte, ferme, souriante..., et ceci pour tous les noeuds.
Figure 2.2: Structure des approches EGM et EBGM
Dans [99], Wiskott a utilis l'approche du graphe an de dterminer certaines caractristiques du visage tel que la barbe ou les lunettes ou encore le sexe du sujet. Dans le mme article, l'auteur a prsent une recherche sur l'inuence du cot de l'lasticit des graphes. An d'augmenter la robustesse de l'approche par EGM, des solutions pour corriger les problmes de translations et de dformation ont t proposes dans [102]. Une variante trs connue de l'EGM est "la correspondance lastique des graphes morphologiques", appele "MGEM" (Morphological Elastic Graph Matching ). L'ide originale de cette variante a t propose dans [33]. Dans [40, 41], l'auteur a appliqu cette approche pour la reconnaissance des images de visages prises de face dans des conditions d'acquisition diverses. Cette mthode consiste remplacer les rponses des ltres multi-rsolutions de Gabor par des coecients obtenus par dilatation et par rosion de l'image du visage par un lment structurant [41]. Dans [41], les rsultats montrent que l'approche MGEM donne des rsultats comparables ceux obtenus par l'approche classique mais avec l'avantage que cette mthode ne ncessite pas le calcul des banques des coecients des ltres de Gabor [100]. Une autre mthode se basant sur l'ide des graphes a t prsente dans [92]. La dcomposition par approche morphologique a t utilise comme remplacement de l'analyse par ltres de Gabor et l'auteur a introduit aussi une slection des pa-
2.3. INFLUENCE DES VARIATIONS ENVIRONNEMENTALES SUR LA RECONNAISSANCE PAR LE VISAGE
29
ramtres discriminants par SVM (Sparateur Vaste Marge, appel aussi "Machine Vecteurs de Support"(Support Vector Machine )) [75]. D'autres mthodes de slection ont t tudies dans [41,100]. Dirents schmas de pondration des noeuds ont t tudis dans [41, 42, 91, 92]. Comme indiques dans le paragraphe 2.2.1, les approches globales considrent le visage comme un vecteur dans un espace multidimensionnel. Le point faible de ces approches est le fait que les images du visage doivent tre normalises avant la phase de mise en correspondance, avec un alignement parfait des dirents composants du visage tels que les yeux, le nez et la bouche. Cependant, cet alignement ne peut tre parfait qu'avec une bonne dtection (automatique ou manuelle) de ces parties. L'avantage avec l'approche EGM et ses variantes est qu'une dtection parfaite des parties du visage n'est pas requise. Le point faible de ces mthodes reste le temps de calcul des paramtres et la complexit de la comparaison entre rfrence et test.
2.3 Inuence des variations environnementales sur la reconnaissance par le visage

L'inuence de la dirence d'illumination entre une image de rfrence d'un visage et une image de test est bien connue dans le domaine de la reconnaissance faciale. La variation de l'illumination pose beaucoup de problmes la majorit des algorithmes de reconnaissance. L'inuence de la gomtrie du visage et surtout le passage d'une information 3D une information 2D pose galement des problmes aux chercheurs. Dans le cas d'une comparaison entre un visage de rfrence et un visage de test avec une orientation spatiale dirente, la tche de reconnaissance devient beaucoup plus dicile. Dans cette section, je prsente les solutions les plus connues et les plus ecaces qui ont t prsentes dans la littrature. Pour remdier aux problmes de l'illumination dans le cadre de la reconnaissance par le visage, trois approches sont proposes dans la littrature : la premire s'appuie sur la correction de l'illumination dans l'image, la deuxime sur l'alignement de l'illumination entre l'image de rfrence et l'image de test, la troisime sur l'laboration d'algorithmes de reconnaissance robustes aux problmes de l'illumination. Le premier algorithme utilis pour corriger les problmes de la variation de
30
l'illumination est l'galisation d'histogramme. Le point faible de cette mthode rside dans le fait qu'elle ne prend pas en compte les caractristiques locales du visage. Elle transforme la distribution globale des niveaux du gris d'une forme une autre sans tenir compte des caractristiques locales du visage. En 2003, Wang [97] prsente une mthode pour modliser un visage sous plusieurs conditions d'illumination variables. Il dmontre que l'espace de l'illumination d'un visage peut tre construit partir d'au moins 3 images du mme visage avec des angles d'illumination non planaires. L'illumination de n'importe quelle image du visage peut tre reprsente par un point dans cet espace d'illumination. Il montre galement que les illuminations des angles extrmes, appels aussi "les rayons d'illumination extrmes", couvrent toute la sphre de l'espace de l'illumination. En pratique, les images avec les rayons extrmes peuvent ne pas exister. Dans cet article, l'auteur dmontre qu'il sut de quelques images du mme visage avec des illuminations diverses pour synthtiser n'importe quelles conditions d'illumination. Lors de cette tude, une mthode d'alignement de l'illumination est galement propose. Cette mthode permet d'appliquer les conditions d'illumination d'une image de visage une autre image de visage. Ce travail a permis d'introduire le concept d'espace d'illumination. Les rsultats exprimentaux ont montr qu'eectivement, la synthse d'un visage sous direntes conditions d'illumination est possible et que l'alignement de l'illumination amliore sensiblement les performances de reconnaissance. Bien que les auteurs aient montr que la construction d'un espace d'illumination est possible partir d'un chantillon d'images, la mthode de construction d'un espace d'illumination optimal reste un sujet de recherche. Le fait de construire un espace d'illumination partir d'exemples de chaque personne ou la construction d'un espace gnral partir de plusieurs visages reste aussi un sujet ouvert. Les travaux, prsents dans [97], ont suivi les travaux de Shashua et Tammy [76,83] qui ont propos la premire approche pour s'aranchir de la luminosit en utilisant l'image quotient. En supposant qu'un visage est un objet surface lambertienne sans ombres, ils ont montr que le rapport entre l'image de visage test et une combinaison linaire de trois images du mme visage avec des illuminations non-coplanaires aboutit une image de texture indpendante des variations d'illumination. L'avantage de cette mthode est qu'elle propose une approche simple et robuste pour les algorithmes de reconnaissance. Cependant, cette mthode n'est plus ecace lorsque les visages portent des ombres.
31
Les travaux sur le cne d'illumination de Belhumeur et Georghiades [7, 23, 24] ont permis d'expliquer les variations des proprits du visage suivant les directions de l'illumination. La prise en compte des ombres dans cette approche a aid l'amlioration des rsultats de la reconnaissance d'une faon signicative par rapport aux prcdentes approches. Les points faibles sont que cette approche a besoin d'au moins sept images du mme visage pour synthtiser le modle et qu'elle est trs coteuse en temps de calcul. Terence et al [86] ont propos une mthode statistique pour modliser le visage mais cette mthode require un grand nombre d'images avec des illuminations direntes an de construire l'espace d'illumination des visages. Pour s'aranchir des problmes d'illumination, les auteurs dans [73] ont propos une nouvelle mthode pour ajuster l'illumination des images de visages vers une illumination standard. Cet ajustement est bas sur la ressemblance des visages. Cette approche se base sur la constatation que la forme de la surface des visages humains est quasiment identique. Dans l'algorithme, une estimation des 9 plus basses composantes frquentielles de l'illumination est faite, ensuite l'illumination du visage est rajuste une illumination standard en se basant sur l'image quotient [76]. Dans le cas de la reconnaissance des visages, deux illuminations standards ont t proposes : une illumination uniforme et une illumination ponctuelle frontale. La premire illumination rajuste l'information de la texture et la deuxime rajuste non seulement celle de la texture mais aussi l'information des zones d'ombre. Les rsultats exprimentaux ont montr que l'approche propose amliore sensiblement les rsultats et que les performances de l'illumination uniforme sont un peu mieux que celle de l'ajustement avec une illumination ponctuelle frontale. Ce rsultat, inattendu par les auteurs, s'explique par le fait que l'illumination ponctuelle frontale a besoin d'une lablisation prcise entre les zones de texture et les zones d'ombre. Cela peut ne pas tre le cas pour un systme de lablisation automatique. Les rsultats de cette approche se dgradent beaucoup dans les conditions d'illumination extrmes. Dans [74], le mme auteur a propos une mthode de reconnaissance base sur la drive de l'image logarithmique (obtenue par le gradient de la transforme logarithmique de l'image originale) . Il a aussi dcrit une mesure de distance qui se base sur le minimum entre les drives de deux images comparer. Les rsultats de cette distance , applique la base de visage CMU-PIE [85], montrent que cette mthode est beaucoup plus performante que la corrlation de l'image d'intensit
32
et qu'elle donne de meilleurs rsultats que la simple distance euclidienne entre les drives des images logarithmiques. La normalisation de l'illumination a t trs bien explore dans la littrature. Direntes approches pour compenser les variations de l'illumination pour les visages ont t dcrites. Une des premires constatations est que la normalisation de l'illumination peut dgrader les rsultats lorsque les visages dans la base sont illumins de faon uniforme. En eet, dans ce cas, une normalisation de l'illumination peut supprimer l'information discriminante entre les visages ; Ceci est aussi vrai dans le cas o la base de donnes contient des visages de personnes avec des couleurs de peau direntes. Concernant les autres variabilits qui peuvent aecter la reconnaissance par le visage (pose, expressions ...) , je ne cite ici que quelques rfrences, sachant que c'est un domaine o la recherche est foisonnante et o les problmes sont encore mal rsolus En 2004, Chang et Bowyer [14] ont prsent leurs travaux sur la combinaison de l'image 3D et de l'image 2D du visage. Cette combinaison de l'image de profondeur et de l'image de texture a montr une amlioration signicative par rapport l'utilisation de chaque modalit toute seule. L'apport de ce travail s'appuie sur l'utilisation d'une base de donnes de grande taille et sur l'existence d'une grande dirence temporelle entre les sessions d'acquisitions (13 semaines en moyenne entre les donnes de rfrence et les donnes de test). Les mmes auteurs ont publi, en 2005 [15], leurs travaux en utilisant des espaces de rduction indpendants entre la 2D et la 3D. Leurs conclusions sont les suivantes : Les rsultats de performances pour la 2D et la 3D sont quivalents Une fusion 2D+3D amliore les rsultats de faon signicative par rapport la 3D ou la 2D utilise seule. La fusion des scores de plusieurs images 2D par modle amliore les rsultats par rapport l'utilisation d'une seule image 2D par modle. Mme en utilisant plusieurs images par modle, la reconnaissance en utilisant la fusion 2D+3D reste meilleure. Cependant, l'amlioration des performances devient moins signicative lorsqu'on n'utilise qu'une seule image. Les rsultats prsents utilisent la mthode de rduction d'espace PCA pour les deux modalits fusionnes(2D et 3D). Les auteurs prcisent qu'une utilisation d'algorithmes plus adapts pour chacune des modalits peut amliorer les performances d'une modalit par rapport l'autre. Selon leur conclusion, l'utilisation de plusieurs images du mme visage, sous direntes conditions d'illumination
33
et d'expression, reste la solution la plus able pour amliorer la reconnaissance. Dans cette approche, le problme de pose n'est pas pris en compte mais les auteurs prcisent qu'il faut traiter le problme de l'illumination et de la pose simultanment . La mthode, exploitant les modles multi-images pour reprsenter une personne, est peu explore dans le domaine de la reconnaissance par le visage. Dans [28], les auteurs proposent une autre mthode pour palier le problme de variation de la position du visage. Leur algorithme, bas sur la transformation discrte par cosinus (DCT, Discrete Cosine Transform ), reste robuste face aux variations de pose, de taille et d'alignement des visages. Le systme avait t test sur direntes bases de donnes de rfrence. Cet algorithme utilise une transformation ane des coecients de la DCT an de corriger ces problmes gomtriques. Un des problmes majeurs qui inuence la reconnaissance par le visage reste l'expression faciale. On s'intressera, par la suite, la description de deux tapes importantes qui sont l'extraction des caractristiques de l'expression et la reconnaissance et la classication de cette expression faciale suivant des rgles de classications. La majorit des travaux de dtection et de classication des expressions, dcrits dans la littrature, se basent sur les rseaux de neurones. Ces rseaux sont appliqus soit directement l'image du visage, soit l'image rduite par l'ACP ou par l'ICA ou soit l'image convolue par des ltres de Gabor. Leur but est de classier les direntes expressions. Dans [20], Fasel a dvelopp un systme bas sur des rseaux de neurones convolution an d'augmenter la robustesse face aux problmes de translation et de taille. Dans [17], l'auteur a propos une mthode base sur les rseaux de neurones. La mthode s'applique en 3 tapes : une extraction des caractristiques est eectue en appliquant un ltrage de Gabor sur des points xes du visage, puis une rduction de la dimension par l'ACP est entreprise sur les rponses des ltres et enn, les donnes rduites sont appliques l'entre d'un rseau de neurones six sorties, correspondant aux 6 expressions faciales. Dans [82], une autre approche a t exploite. Elle se base sur la machine support de vecteur (SVM) pour classier les direntes expressions. Des mthodes d'apparence et des mthodes bases sur la gomtrie du visage ont aussi t proposes. Pour les mthodes d'apparence, des points de rfrence sont slectionns manuellement ou automatiquement. Des ltres de Gabor sont
34
appliqus ces points et les rponses de ces ltres formeront un vecteur de caractristique, une classication de ce vecteur est ensuite faite. Le ltrage de Gabor peut aussi tre appliqu sur toute l'image au lieu des points de rfrence. Pour les mthodes bases sur la gomtrie des visages, les positions de points de rfrence sont utilises an de classier les direntes expressions. Les mthodes d'apparences semblent donner des rsultats de classication satisfaisants. La combinaison des deux approches, prsente dans [47], montre de bien meilleures performances que la mthode d'apparence seule, base sur les ondelettes de Gabor. Une technique de rfrence trs utilise pour la classication des expressions est base sur la discrimination des coecients de projection sur l'espace ICA soit par un classieur de similarit cosinus (appel aussi "mesure cosinus") ou soit par un classieur se basant sur le maximum de corrlation. Deux systmes hybrides pour la classication de sept expressions faciales ont t proposs dans [30]. Le premier systme combine l'ICA et le SVM. L'image de visage est projete sur l'espace construit par l'ICA et le vecteur des coecients de projection est ensuite appliqu l'entre du SVM. Les performances du systme sont meilleures que celles du systme de rfrence. Le deuxime systme est bas sur la convolution de l'image du visage par des ltres de Gabor et la nouvelle reprsentation du visage est utilise comme vecteur d'entre pour le classieur. Trois classieurs ont t tudis : le SVM, la similarit cosinus et le maximum de corrlation. Les rsultats ont montr que la classication par le SVM est meilleure que les deux autres approches.
2.4 Les approches utilisant le ltrage de Gabor

tant donn qu'une partie de mon travail consiste proposer une nouvelle mthode globale de vrication par le visage reposant sur l'extraction des caractristiques par ltrage de Gabor, je cite ici l'tat de l'art dans ce domaine . En 1993, Martin Lades [44] a propos pour la premire fois l'utilisation des ltres de Gabor comme outils d'identication de visage. Il a dcrit une approche neuronale base sur la rponse d'une famille de ltres de Gabor (la premire version du EGM). La raison d'employer seulement l'amplitude est de fournir une mesure monotone des proprits de l'image. De nombreux travaux ont employ les ondelettes de Gabor. Par exemple, Winskott [101] les utilise dans la comparaison lastique
2.5. CONCLUSION
35
des graphes (EGM), Ayinde [2] dans la corrlation des reprsentations des ltres de Gabor. D'autres travaux emploient les approches bases sur la rduction de l'espace comme l'ACP, la LDA, la GDA, la KPCA sur les reprsentations de Gabor du visage, en exploitant l'amplitude et la partie relle de la rponse des ltres. En 2004, Liu a employ la KPCA avec un noyau polynomial puissance partielle applique aux reprsentations de Gabor [48]. Dans [49], le mme auteur a utilis l'approche de rduction d'espace noyau non lineaire (KFA (Kernel Fisher
Analysis ), applique aux reprsentations de Gabor. Cela a permis d'amliorer les

rsultats de l'valuation FRGCv2 du visage 2D de 12% VR (taux de vrication, ou "Verication Rate ") 0.1% de FAR (taux de fausses acceptations, ou "False
acceptance Rate ") du systme de rfrence 78% VR 0.1%. C'tait de loin

l'amlioration la plus importante publie pour cette base de donnes. Dans [84], de nombreuses mthodes de rduction base de noyaux non linaires (GDA, KPCA . . .) ont t tudies et compares aux rductions d'espace classiques. L'extraction de l'information par les ltres de Gabor a t montre dans toutes ces publications comme trs pertinente au vu des performances obtenues.
2.5 Conclusion
Dans ce chapitre, nous avons prsent les grandes lignes de l'volution de la reconnaissance par les visages. Comme dj voqu dans l'introduction, ce chapitre n'a pas pour nalit de dcrire tous les algorithmes de reconnaissance faciale mais nous nous sommes contents de prsenter les algorithmes qui ont introduit une nette volution dans le domaine de cette biomtrie, permettant ainsi une vritable amlioration des performances. Une deuxime partie de ce chapitre a t consacre aux solutions apportes aux problmes spciques rencontrs dans ce domaine de recherche, comme les problmes de variabilit d'expression, d'illumination ou bien de pose. Au vu des rsultats performants obtenus par la modlisation des visages par analyse de Gabor mulitrsolution, nous avons choisi d'utiliser cet outil d'analyse associ une mthode de projection linaire an de construire notre mthode de reconnaissance.
Chapitre 3
Outils d'valuation, bases de donnes et protocoles

3.1 Introduction
Comme dj prsent dans le chapitre prcdent, l'engouement pour les systmes biomtriques a connu un grand essor au dbut des annes 2000. Les dpts de brevet dans ce domaine se sont multiplis et des systmes applicatifs grande chelle ont t mis en place, comme le systme utilis lors des lections prsidentielles au Vnzuela en 2004 ou le systme US Visit, devenu oprationnel depuis 2004. Ces systmes restent bass sur les empreintes digitales, et ceci est d aux volutions techniques des algorithmes pour la biomtrie base sur les empreintes digitales. Devant une telle expansion des applications, les outils d'valuation de ces systmes se devaient alors de suivre cette expansion an d'assurer une bonne gnralisation des performances. Dans l'absolu, pour qu'une valuation d'un systme biomtrique soit ecace, elle doit prendre en compte plusieurs critres, qui sont non seulement des critres techniques mais aussi des critres oprationnels. Les performances et la rapidit d'excution restent les deux critres techniques les plus importants pour une application biomtrique. La facilit d'utilisation et la convivialit sont des critres oprationnels qui commencent avoir leur place dans les valuations. Par exemple, dans le cas d'un systme base d'empreintes digitales, il devra avoir les meilleures performances de reconnaissance possibles 37
38
CHAPITRE 3. OUTILS D'VALUATION, BASES DE DONNES ET PROTOCOLES
aussi bien sur des empreintes normales que sur des empreintes abmes ou peu textures. Il devra aussi dtecter les faux doigts tout en donnant une rponse rapide et en restant simple l'utilisation. Comme indiqus dans le chapitre 2, plusieurs eorts d'valuation et de standardisation des algorithmes bass sur le visage ont vu le jour ds le dbut des annes 90. Ils ont surtout t mens par le gouvernement amricain travers l'organisme du NIST (National Institue of Standards Technology ) avec les campagnes FERET. Des campagnes d'valuations sont rgulirement organises sur le visage [70], la voix [59], les empreintes digitales [60] et l'iris [70]. Toutes ces campagnes entre autres ont propos dirents outils de mesure des performances algorithmiques des systmes. La dirence entre la biomtrie et les techniques classiques de vrication de l'identit rside dans le fait qu'en biomtrie, il est impossible d'obtenir une correspondance parfaite entre une reprsentation de rfrence et une reprsentation acquise au moment du test. Ceci est d aux variations intrinsques ou extrinsques des reprsentations. Pour les autres techniques de vrication telles que l'utilisation de code condentiel, la correspondance doit tre parfaite. En biomtrie, une reprsentation d'une identit, aussi appele "gabarit", est un ensemble de caractristiques extraites de la donne biomtrique (empreinte, visage, iris, voix...). Ces caractristiques sont sujettes des variations entre le moment de la capture de la rfrence et la phase de test. Ces variations sont dues plusieurs facteurs, tels que des facteurs temporels ou environnementaux. Par exemple, pour les donnes biomtriques comme le visage, l'ge, la prise de poids et la coiure jouent un rle dans cette dissimilarit entre deux moments de capture. L'empreinte digitale est aussi une biomtrie qui peut tre sujette des variations. Une coupure au doigt ou mme des maladies peuvent inuencer la correspondance entre les deux reprsentations. A ces variations intrinsques des chantillons, nous pouvons ajouter l'inuence de l'acquisition et les erreurs de capture. Un capteur ne peut pas restituer une acquisition parfaite d'un mme chantillon biomtrique, ce qui introduit encore plus de variation pour le mme chantillon. Par exemple, pour le visage, les conditions de luminosit ou le positionnement par rapport la camra, ou mme le changement des capteurs entre les deux phases d'acquisition (rfrence et test) sont des exemples de facteurs environnementaux. Pour l'em-
3.1. INTRODUCTION
39
preinte, le vieillissement et le salissement des capteurs peuvent galement induire des variations entre le moment de la capture de l'empreinte rfrence et la phase de test. Ce type d'erreurs est d gnralement la nature mme du systme biomtrique. Cependant, d'autres types d'erreur existent, correspondant des tentatives d'impostures ou des tentatives de contournement de la vrication. Un exemple de tentatives d'imposture est l'utilisation de copie d'empreintes et un exemple de tentatives de contournement est le changement d'apparence pour le visage (ajout de barbe ou port de lunettes...). Tous ces facteurs sont cits pour expliquer qu'en pratique, une correspondance parfaite entre les deux reprsentations (rfrence et test) pour le mme chantillon biomtrique n'est pas possible et qu'un systme biomtrique peut mme tre induit en erreur par des tentatives de contournements et d'impostures. En conclusion, en biomtrie, les dirences, qui peuvent exister entre la reprsentation du signal de rfrence et celle du signal de test, engendrent forcment des erreurs du systme biomtrique. Par la suite, nous listerons les direntes mthodologies an de comparer les direntes modalits entre elles, notamment en termes de taux d'erreur, ce qui n'est pas la seule mesure de performance considrer. En biomtrie, nous utilisons le terme "systme de reconnaissance" pour dsigner, sans distinction particulire, un systme biomtrique de vrication ou un systme biomtrique d'identication. Il faut savoir que les systmes biomtriques peuvent tre classs en deux grandes familles :
Le systme de vrication d'identit : Dans ce cas, le systme biomtrique vrie que l'identit proclame par la personne devant le systme est bien la bonne. Ce mode de test est appel un test en "un contre un".
Le systme d'identication : Dans ce cas, le systme doit trouver dans

une base de donnes l'identit de la personne qui se prsente devant lui sans aucune connaissance a priori sur son identit. Ce mode de test est appel un test "un contre N". En mode d'identication, plusieurs modes de fonctionnement sont possibles. Nous les dtaillerons plus tard dans ce chapitre.
40
3.2 Scores et protocoles d'valuation des systmes biomtriques

Par la suite, nous ne citerons pas la totalit des outils d'valuation d'un systme biomtrique car la liste serait trs exhaustive. En revanche, nous prsenterons les outils les plus utiliss par la communaut ainsi que ceux utiliss lors de cette thse. Le rsultat de comparaison entre deux reprsentants biomtriques par un systme de reconnaissance est appel "score". Ce "score" peut tre une mesure de similarit ou une mesure de distance (ou dissimilarit) entre les chantillons compars. Plus la valeur du score de similarit est grande, plus la probabilit que les deux reprsentants biomtriques appartiennent la mme identit est forte. Respectivement, plus cette mesure est faible, plus la probabilit que les deux reprsentants biomtriques proviennent de deux identits direntes est faible. Inversement, plus la mesure de distance entre deux chantillons est faible, plus la probabilit qu'ils appartiennent la mme identit est grande et vice versa. En gnral, la mesure de similarit est utilise pour avoir une indication sur la corrlation entre les chantillons alors que la mesure de distance est plus souvent utilise pour mesurer le degr d'loignement entre l'chantillon de rfrence et l'chantillon de test. Le but derrire le calcul de ce score est de pouvoir assigner une identit une personne (identication) ou conrmer ou inrmer l'identit de celle-ci (vrication) en prenant une dcision par rapport la mesure calcule. Cette dcision est prise en xant un seuil, dit "de dcision", par rapport au score calcul. Plus concrtement, si S1 et S2 sont les deux signaux caractristiques comparer, si est le seuil de dcision et si d(S1, S2) est infrieur , alors S1 et S2 sont considrs comme un signal de la mme personne. Sinon, ils sont considrs comme deux signaux dirents. Gnralement, les valuations dans le domaine de la biomtrie sont bases sur deux types de score. Nous parlons de scores "intra-classes" et de scores "inter-classes". Les scores "intra-classes", comme leur nom l'indique, rsultent de la comparaison d'chantillons provenant de la mme classe (personne). Les scores "inter-classes" rsultent eux de comparaisons d'chantillons biomtriques de personnes direntes. En mettant en place ce que nous appelons, communment, des protocoles d'valuation, nous obtenons des distributions pour chaque type de score. Les pro-
3.2. SCORES ET PROTOCOLES D'VALUATION DES SYSTMES BIOMTRIQUES
41
tocoles d'valuation sont, en ralit, des listes de comparaisons "intra-classes" et "inter-classes". Plus le nombre de classes, le nombre d'chantillons par classe et le nombre de tests de comparaison est grand, plus l'valuation est considre statistiquement signicative. Dans le cas d'un nombre susant de classes, d'chantillons et de tests, les distributions des deux types de score convergent vers des distributions normales. Ceci s'explique par le "Thorme Central Limite". La gure 3.1 reprsente une distribution thorique des scores "intra-classes" et "inter-classes" pour un systme biomtrique thoriquement parfait. Il est dit parfait dans le sens o si nous choisissons un seuil de dcision situ dans la zone "A", aucune erreur de classication n'est faite.
1.2 Distribution scores intraclasse Distribution scores interclasses 1
0.8
Distribution
0.6
0.4
0.2
0.1
0.2
0.3
0.4
0.5 Scores
0.6
0.7
0.8
0.9
Figure 3.1:
Exemple de distributions thoriques des scores "intra-classes" et "inter-classes" pour un systme biomtrique thoriquement parfait Dans la plupart des applications biomtriques et dans le cas o on a un nombre assez lev de test de comparaisons direntes, les deux distributions "intraclasses" et "inter-classes" se chevauchent. La gure 3.2 prsente cette conguration et la zone d'intersection "B" des deux distributions est considre comme la zone critique de la reconnaissance. En eet, si on considre un seuil de dcision l'intrieur de cette zone, il existera toujours des scores qui seront du mauvais ct de la frontire ainsi dnie.
42
1.2 Distribution scores intraclasse Distribution scores interclasses 1
0.8
Distribution
0.6
0.4
0.2
0.1
0.2
0.3
0.4
0.5 Scores
0.6
0.7
0.8
0.9
Figure 3.2: Exemple de distributions thoriques des scores "intra-classes" et "inter-classes" pour un systme biomtrique rel
En conclusion, pour qu'un systme biomtrique soit considr comme ecace, il faut que le chevauchement entre les scores "intra-classes" et "inter-classes" soit minimal.
3.3 valuation des systmes de reconnaissance

Les performances des systmes biomtriques sont values diremment selon que l'on considre un mode de fonctionnement en vrication ou en identication.
3.3.1 valuation des systmes de vrication biomtrique

Deux types d'erreurs peuvent survenir dans un systme de vrication d'identit, le faux rejet et la fausse acceptation. Le premier type a lieu lorsque le rsultat de comparaison des chantillons d'une mme personne est considr par le systme comme un rsultat d'une comparaison "inter-classes". La fausse acceptation se produit lorsque le systme considre un test d'imposture comme test "intraclasses".
3.3. VALUATION DES SYSTMES DE RECONNAISSANCE
43
En cumulant sur une base de donnes et avec un protocole d'valuation spcique (dnition des accs clients et imposteurs pour chaque personne) les direntes erreurs de dcision commises par le systme de vrication, nous obtenons les taux d'erreur correspondant ces deux types d'erreur, une fois un seuil de dcision x. Le taux de faux rejets, dnomm FRR (False Rejection Rate ) ou FNMR (False Non Match Rate ) ou "False Alarm Rate", est le pourcentage des donnes de test authentiques qui ont t rejetes par rapport au nombre total de comparaisons "intra-classes". Le taux de fausses acceptations, dnomm FAR (False Acceptance Rate ) ou FMR (False Match Rate ) ou "Miss Probability ", est le pourcentage des comparaisons d'impostures qui ont t acceptes par rapport au nombre total de comparaisons "inter-classes". On considre un systme de vrication produisant une mesure de distance entre deux chantillons biomtriques. Soit Sij , le rsultat de comparaison de ces deux chantillons pour deux identits i et j . Les taux de FRR et FAR pour un seuil donn sont calculs de la manire suivante :
FRR() =
card({Sij /Sij > }) avec i=j card{Sij } card({Sij /Sij < }) avec i=j card{Sij }
(3.1)
FAR() =
(3.2)
avec card le cardinal de l'ensemble ou le nombre d'lments de l'ensemble. Un autre taux d'erreur peut tre considr, c'est le taux d'erreur total TER (Total
Error Rate ). Ce taux est le pourcentage d'erreur totale que commet le systme
par rapport tous les tests de comparaison. En ralit, c'est une fusion des deux taux FAR et FRR, il est calcul par :
TER(s) =
card({Sij /Sij > avec i=j; Sij /Sij < avec i=j) card{Sij }
(3.3)
Le problme majeur de cette formulation du TER rside dans le fait que dans une valuation biomtrique relle, le nombre d'chantillons par personne est gnralement faible. Ce faible nombre d'chantillons impose un nombre limit de comparaisons intra-classes par rapport au nombre de comparaisons "inter-classes" ou impostures qui sont en gnral gnrs par la comparaison des chantillons de direntes personnes de la base. Cette situation conduit alors une variation asymptotique du TER par rapport au taux d'erreur FAR. Pour viter ce problme, on considre, dans la pratique, une autre expression du
44
TER qui est moins sensible ce phnomne :
TER() =
FAR() + FRR() 2
(3.4)
Cette nouvelle formulation est indpendante du rapport relatif entre le nombre de tests intra-classes et celui des tests inter-classes. Dans tout systme biomtrique, la variation des taux d'erreur FAR et FRR en fonction du seuil est inverse. On se place toujours dans le cas d'un systme qui produit une distance comme rsultat de comparaison. Plus le seuil de dcision augmente, plus le taux de FAR diminue et celui du FRR augmente. La gure 3.3 donne un exemple de ces variations.
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 EER 0.1 0 0 0.2 0.4 Score
Figure 3.3: Variation des taux FAR, FRR et TER en fonction du seuil de dcision
FAR FRR TER
pourcentage derreur
0.6
0.8
On peut remarquer que dans les zones o le seuil est faible, le taux de FAR est grand et celui du faux rejet est faible et inversement, dans les zones o la valeur du seuil est grande. Pour chaque valeur du seuil, une valeur particulire de FAR et de FRR sont associs. Un choix particulier d'un seuil de dcision
45
impose un fonctionnement particulier du systme biomtrique. Plusieurs points de fonctionnement particuliers sont utiliss pour comparer les systmes biomtriques entre eux : EER (Equal Error Rate ) : c'est le point de fonctionnement historique de la biomtrie. Il correspond un choix de seuil o le taux de FAR est gal au taux de FFR. Ce point est celui de l'intersection entre les deux courbes dans la gure 3.3. Dans la littrature, on parle souvent d'un systme biomtrique X% de EER, pour dire qu'il est performant ou pas. Mais on omet souvent de citer la base de donnes sur laquelle a t test le systme ou le protocole d'valuation, ce qui rend les comparaisons entre les systmes impossibles. Ce point de fonctionnement est souvent utilis comme point de comparaison dans les comptitions biomtriques internationales. Min HTER ou HTER (Half Total Error Rate ) : c'est le point particulier o l'erreur totale du systme est minimale. Ceci correspond un minimum global dans la courbe du TER de la gure 3.3. Si les variations des taux FAR et FRR sont comparables, la valeur du HTER sera trs proche de celle du EER. VR @ 0.1% de FAR : le taux de vrication (quivalent 1-FRR) est calcul pour un FAR = 0.1%. Ce point de fonctionnement est trs utilis lorsque le nombre de comparaisons pour les tests "inter-classes" (ou "tests d'imposture") est trs grand, 1000, an qu'il y ait au moins une erreur pour obtenir 0.1%. Ce point est important pour tudier le comportement des systmes faible taux de FAR (scurit accrue) sur une grande base de donnes ou pour simuler une application grande chelle. Ce point de fonctionnement tait exclusivement utilis pour les empreintes digitales, mais en raison des amliorations des systmes de reconnaissance du visage et la mise en place de bases de donnes trs grandes, il est devenu la nouvelle norme pour cette biomtrie. Comparer plusieurs systmes entre eux, en s'appuyant sur les rsultats d'un seul point de fonctionnement, ne peut en aucun cas caractriser le fonctionnement de ce systme ou donner une ide sur le meilleur systme lors d'une valuation. Pour remdier ce problme, une analyse plus globale est faite et des courbes de performance ont t proposes.
46
Courbes de performances
On utilise, le plus souvent, les courbes ROC (Receiver Operating Characteris-
tics ou Relative Operating Characteristic ) qui reprsentent la variation du taux

de vrication (100 - FAR(%)) en fonction du taux de FRR(%). La gure 3.4 montre des courbes ROC de trois systmes de vrication du locuteur (donnes NIST). Les courbes ROC doivent tre les plus asymptotiques possibles aux axes des abscisses et ordonnes. Dans l'exemple montr dans la gure 3.4, l'algorithme reprsent en violet () 1 surpasse ceux reprsents en noir () 1 et en vert ( ) 1 , qui semblent quant eux avoir des performances similaires. Les courbes ROC ont elles aussi leurs limites. Comme montr dans la gure 3.4, la courbe ROC reprsente la variation du taux de bonne reconnaissance uniformment, quelque soit le taux de FRR. Or, ce comportement devient asymptotique partir d'un certain taux de FRR qu'il soit trs faible ou trs fort. Nous pouvons d'ailleurs facilement noter d'aprs la gure que seul 10% du graphe est utile et informatif. Pour pallier ce problme, on utilise une autre courbe, appele "courbe DET" (Detection Error Trade-o ) [51] o les valeurs FAR et FRR sont normalises de faon non linaire (logarithmique) an de permettre la courbe de s'adapter au fonctionnement du systme. La gure 3.5 montre un exemple de courbes DET correspondant aux mmes systmes et aux mmes donnes que ceux qui ont permis de gnrer les courbes ROC montres la gure 3.5. Gnralement, la fonction non linaire de normalisation des axes utilise est le logarithme nprien. Avec cette normalisation, dans la majorit des cas, la courbe DET d'un systme est presque linaire, surtout pour les modalits biomtriques pour lesquelles les distributions des taux d'erreurs FAR et FRR sont normales. Plus la courbe DET est proche de l'origine, meilleur est le systme considr. Dans la gure 3.5, nous pouvons remarquer un avantage des courbes DET par rapport aux courbes ROC. En eet, bien que lors de l'analyse des courbes ROC, les systmes en noir () et en vert( ) semblaient avoir un comportement quasi-identique, l'analyse des courbes DET montre qu' faible taux de FRR, le systme en noir () est nettement suprieur celui reprsent en vert ( ) .
1. Pour la copie en noir et blanc du manuscrit
47
Figure 3.4: Exemple de courbes ROC o le taux de vrication correcte est trac
en fonction du taux de FRR (Source NIST reconnaissance de la parole) en chelle linaire
Figure 3.5: Exemple de courbes DET o le taux de FAR est trac en fonction du
taux de FRR (Source NIST reconnaissance de la parole) en chelle logarithmique
48
Intervalle de conance
Outre le choix des critres d'valuation des performances des systmes biomtriques, nous devons faire face une autre dicult de l'valuation d'un systme biomtrique. En gnral, on ne dispose que de peu de donnes de chaque personne et de peu de personnes dans les bases. Certaines bases sont composes de quelques dizaines de personnes seulement et on a peu de donnes par personne, mme si rcemment des bases de l'ordre de centaines de personnes ont fait leur apparition (par exemple FRGC, MBGC). Il est alors impratif de mesurer en plus des taux d'erreurs calculs, une mesure de conance associe. Deux types de mesure des intervalles de conance sont introduits dans [10] : une base sur une mthode non-paramtrique appele "bootstrap " et une base sur une mthode paramtrique. S'ajoutant ces deux mthodes, la mthode classique du "leave one out " n'est pas adapte aux protocoles d'valuation biomtrique, o les bases d'apprentissage et les listes des tests sont xes l'avance (type BANCA, FRGC, XM2VTS...). En eet, cette mthode considre plusieurs dcoupages des bases d'apprentissage et de tests.
mthode non-paramtrique
Pour utiliser la mthode d'estimation d'intervalles de
conance par le "bootstrap", il faut raliser un r-chantillonnage de l'ensemble de test. Ce r-chantillonnage consiste en un tirage alatoire avec replacement de M exemples. Dans notre cas, on prendra M gal au nombre d'exemples. Pour l'estimation du FRR, on prendra donc M = Nc avec Nc le nombre de scores "client" et pour le FAR, on prendra M = Ni, Ni tant le nombre de scores "imposteur". Pour chaque tirage, on va donc choisir M exemples avec replacement, c'est dire que les exemples peuvent tre utiliss plusieurs fois ou jamais. Pour chaque tirage, on estime ensuite les valeurs du FRR et du FAR pour une valeur du seuil . On rpte ensuite cette procdure T fois avec T tirages (en gnral, 1000 tirages sont susants). A partir de ces T valeurs de FAR() et de ces T valeurs de FRR(), on peut estimer alors l'intervalle de conance 90% ou 95% autour de la mdiane. Le problme de cette mthode reste le mme que celui du "leave one out" savoir que pour les nouveaux protocoles d'valuation biomtrique, les bases d'apprentissage et les listes des tests sont xes l'avance.
49
mthode paramtrique
L'hypothse principale qui est faite lorsqu'on utilise cette
mthode d'estimation de l'intervalle de conance est que les scores sont issus de variables indpendantes et identiquement distribues mme pour les scores d'une personne, c'est--dire que tous les scores sont issus de la mme loi et sont mutuellement indpendants. Cette hypothse semble trs stricte mais est ncessaire pour l'application des thormes. Ceci dit, elle n'est gnralement pas vrie en pratique. Il s'agit ensuite d'estimer les taux d'erreur FAR() et FRR() pour une ou plusieurs valeurs du seuil . Pour estimer ces erreurs, l'estimation des fonctions de rpartition, appeles "fonctions de rpartition empiriques", pour les deux classes "client" et "imposteur" doit tre ralise par une loi normale (voir [10]). L'estimation des intervalles de conance des taux d'erreur FAR et FRR un seuil est obtenue par :
FAR() FAR() FRR() [FRR()
FAR()(1 FAR()) , FAR() + Ni FRR()(1 FRR()) , FRR() + Nc
FAR()(1 FAR()) ] Ni FRR()(1 FRR()) ] Nc
avec FAR() et FRR() les valeurs calcules pour un test donn et Nc les scores "client" et Ni les scores "imposteur" du test. Pour des intervalles de conance 90%, on a = 1, 96 et pour des intervalles de conance de 95%, on a = 1, 645. Cette mthode non paramtrique sera utilise dans la suite an de calculer les intervalles de conance. Ce choix est justi par le nombre important de tests qui seront considrs pour la base FRGC, ce qui permet une bonne estimation des fonctions de rpartition par une loi normale.
3.3.2 valuation des systmes d'identication biomtrique

Contrairement la vrication, un seul type d'erreur peut survenir en mode identication savoir le FMR (False Match Rate ), c'est--dire dans le cas o il est assign une fausse identit la personne considre, que cette personne fasse eectivement partie ou pas de la base de donnes. L'valuation d'un systme biomtrique en mode identication est bien plus exigeante que celle des systmes de vrication. Seuls des systmes qui produisent des taux de EER faibles sont capables d'tre dploys en mode identication. Ainsi, les protocoles d'valuation dirent dans le mode identication et le mode vrication. Il faut savoir qu'en
50
mode identication, deux scnarios sont possibles qui induisent deux protocoles dirents. Si l'identication se fait dans ce qui est appel un monde ferm, c'est--dire que chaque personne est reprsente dans la base de donnes par au moins une rfrence, alors le systme n'est pas oblig de faire du rejet. Il peut assigner l'identit de la personne qui a le score le plus lev (dans le cas de mesure de score de similitude). L'valuation doit se faire sur toutes les comparaisons possibles entre les lments de la base des rfrences et les autres lments de la base an de simuler au mieux le cas d'un processus d'identication. Le systme qui a le taux de FMR le plus faible est considr comme le meilleur. L'valuation peut se faire en utilisant des courbes de rang, c'est--dire que le FMR n'est pas mesur sur la premire dcision mais sur k dcisions avec k variant de 1
N ; N tant infrieur ou gal au nombre de personnes enregistres dans la base de

rfrence. La gure 3.6 montre un exemple de courbe de rang tire de l'valuation FERET des systmes de visage o le taux de bonne identication (1 FMR) est reprsent en fonction du rang pour trois algorithmes dirents. Plusieurs interprtations de ces courbes sont possibles. En eet, nous pouvons considrer que le systme, qui obtient le meilleur taux de FMR pour les rangs infrieurs ou gaux N, est considr comme le meilleur. Une autre stratgie consiste comparer les systmes un rang prcis k infrieur ou gal N. En mme temps, une troisime stratgie consisterait considrer que le meilleur systme est celui qui atteint sa meilleure performance le plus rapidement possible. Un deuxime scnario est possible en mode identication, c'est le mode ouvert. Dans ce cas, toutes les personnes de la base de test ne sont pas reprsentes dans la base de rfrence. En mode valuation, il est primordial de regrouper les personnes de la base de donnes considre en deux groupes, celles disposant de rfrences et celles qui n'en ont pas. Ensuite, le systme doit pouvoir prendre deux dcisions distinctes : soit rejeter un chantillon test ou soit lui assigner une identit reprsente dans la base des rfrents. Pour mettre en place une stratgie de rejet, il est impratif de xer un seuil de dcision analogue celui x en mode vrication.
3.4. BASES DE DONNES PUBLIQUES
51
Figure 3.6: Courbe de rang en fonction du taux de bonne identication (Source
NIST valuation du visage FERET)
3.4 Bases de donnes publiques

3.4.1 Face Recognition Grand Challenge [NIST]
La base de donnes FRGCv2 est la plus importante base de donnes publique de visage [69]. Elle est compose de deux types d'images. Des images acquises dans des conditions d'illumination contrles et des images acquises dans des conditions d'illumination non contrles (respectivement FIG 3.7 (haut) et (bas)) et avec divers arrires plans (bureaux, couloirs,...). La totalit des images des visages sont prises de face. La base FRGC est divise en deux sous-ensembles : un ensemble d'images de dveloppement form de 12.776 images de 222 sujets, dont 6.388 images de visage prises dans des conditions non contrles un ensemble d'images de test form d'images de 24.032 images de 466 sujets, dont 16028 images de visage prises dans des conditions contrles et 8014 images dans des conditions non contrles. La gure 3.7 montre un exemple d'une session d'acquisition. Il est noter que la base FRGCv2 contient des donnes 3D des visages, mais nous nous intressons ici qu' la partie des images 2D de cette base.
NB : Dans la suite de la thse, nous utiliserons une sous-partie de la base

de dveloppement des ns d'apprentissage. Cette sous-base qu'on nommera "BA" est constitue de 220 personnes avec 10 images de visage acquises dans des conditions contrles et 10 images acquises dans des conditions non contrles. Nous avons limin de la base deux personnes pour lesquelles le nombre d'images
52
acquises tait insusant.

Protocoles d'valuation
Plusieurs expriences ont t dnies dans le but d'tu-
dier dirents problmes lis la reconnaissance par le visage 2D et 3D [69]. Pour les images 2D, trois expriences sont dnies 2 . Exprience 1 : Les ensembles de rfrence et de test sont composs d'images acquises dans des conditions contrles. Le modle d'un sujet est constitu d'une seule image de rfrence et d'une seule image de test.
Exprience 2 : Les ensembles de rfrence et de test sont composs

d'images acquises dans des conditions contrles. Le modle d'un sujet est constitu de quatre images de rfrence et de quatre images de test.
Exprience 4 : L'ensemble des images de rfrence est compos d'images acquises dans des conditions contrles, alors que l'ensemble des images de test correspond des images de visage acquises dans des conditions non contrles. Le modle d'un sujet est constitu d'une seule image de rfrence et d'une seule image de test.
Images haute rsolution type contrl
Images haute rsolution type non contrl

Figure 3.7: Exemple de sessions d'acquisition de la base de donnes FRGCv2
2. L'exprience 3 de la base FRGC est une exprience qui concerne les donnes 3D
53
Enn, an de pouvoir analyser l'inuence de la variation temporelle sur les performances des algorithmes pour chacune des trois expriences, des protocoles d'valuation sont dnis pour les trois expriences. Un premier protocole value les performances de comparaison d'images (rfrences et tests) appartenant des sessions d'acquisition d'un mme semestre. Un deuxime protocole value les performances des tests d'image appartenant des sessions d'acquisition de deux semestres conscutifs et un dernier, les performances des tests d'image de rfrence et de test, spares d'une anne. Les dirents protocoles sont dnomms "masque" dans les valuations sur la base FRGC. Le tableau 3.1 rsume les dirents protocoles d'valuation des trois expriences avec le nombre de tests "intra-classes" et "inter-classes" correspondants. Expriences Exprience 1 Protocole 1 2 3 1 2 3 1 2 3 NTests intra-classes 196 672 369 824 173 152 12 292 23 114 10 822 98 336 184 912 86 576 NTests inter-classes 55 217 232 119 072 912 63 855 680 3 451 077 7 442 057 3 990 980 27 608 616 59 536 456 31 927 840
Exprience 2
Exprience 4
Table 3.1: Nombre de tests pour les 3 protocoles dans les expriences 1, 2 et 4
de la base FRGC
Rsultats de la littrature
Les premiers rsultats sur la base FRGC ont t prsents lors du "Biometrics Consortium Conference" en 2005. Les rsultats prsents par Jonathon Phillips montrent une grande dirence entre les performances des deux types d'expriences (exprience 1 et exprience 4) (Figure 3.8). La premire conclusion de cette prsentation est que les conditions d'acquisition dgrades inuencent de manire signicative les performances. La deuxime conclusion est que les performances des systmes de reconnaissance faciale ont bien progress depuis la dernire campagne d'valuations FRVT 2002. Le meilleur rsultat, prsent lors de ce consortium pour l'exprience 4, est donn par l'approche KFA (Kernel Fisher Analysis ) applique aux reprsentations de Gabor du visage [49]. L'algorithme a atteint un taux de 78% de VR@0.1% de
54
FAR. Le deuxime meilleur rsultat pour cette exprience est celui de la socit Cognitec avec 62% de VR@0.1% de FAR. La mdiane des rsultats des algorithmes proposs est de 35% pour l'exprience 4, ce qui dmontre la dicult de cette exprience. En ce qui concerne l'exprience 1, la plupart des algorithmes proposs ont des rsultats corrects (lorsque les images de rfrence et de test sont de bonne qualit). Les rsultats atteignent des taux de VR de 90% et 95% 0.1% de FAR.
Figure 3.8: Premiers rsultats obtenus lors des expriences de visage 2D de la
base FRGCv2 (Source NIST Biometrics Consortium Conference)
Depuis 2005, des dizaines de travaux ont t publis sur la base FRGCv2. Les meilleurs rsultats de l'exprience 1 restent tous quivalents. Les rsultats les plus intressants restent ceux publis sur l'exprience 4 par NIST. En 2006, Savvides prsente dans [79] ses rsultats sur FRGC avec l'approche se basant sur les ltres de corrlation noyaux. Les rsultats sur l'exprience 4 ont atteint 72% de VR@0.1% de FAR. Cette mthode est une drive de l'approche MACE (Minimum Average Correlation Energy ), prsente par le mme auteur
55
dans [80]. Dans [29], l'auteur a rapport un taux de VR@0.1% de FAR, qui est gal 75.70%. La mthode utilise est base sur une rduction d'espace par LDA sur les rponses de trois ltres de Fourier direntes bandes de frquence. En 2007, dans [88], l'auteur prsente une approche base sur une stratgie d'analyse et de fusion hirarchique de plusieurs classieurs. Ces classieurs sont construits partir des rponses des ltres de Gabor sur des parties de visage ainsi que sur la transformation de Fourier de l'image globale. Une rduction d'espace est applique en se basant sur une FDA (Fisher Discriminant Analysis ). La classication nale est faite par une dcision hirarchique des dirents classieurs. L'auteur rapporte un taux de VR@0.1% de FAR de l'ordre de 86%.
3.4.2 BANCA [SURREY]

La base de donnes BANCA est une base qui contient deux modalits (visage et voix) [4] [55]. Deux types d'acquisition ont t eectus pour cette base : une acquisition des images et de la voix en haute dnition et une acquisition en mode dgrad. Les personnes ont t enregistres selon trois scnarios dirents (contrls, dgrads et non contrls) comme prsents sur la gure 3.9, lors de 12 sessions direntes (4 sessions par scnario). Ces acquisitions s'talent sur trois mois. Au total, les modalits de 208 personnes ont t captures, la moiti sur des hommes et la moiti sur des femmes. Les donnes disponibles pour la communaut scientique sont celles acquises sur 52 personnes, dont 26 sont des femmes et 26 sont des hommes.
(a)
(b)
(c)
Figure 3.9: Exemples d'image de la base de donnes BANCA selon trois scna-
rios : (a) contrl, (b) dgrad et (c) non contrl
Un nouveau point de fonctionnement a t introduit avec la base BANCA. C'est le point de fonctionnement WER (Weighted Error Rate ), donn par la formule 3.5, correspondant direntes conditions de fonctionnement. Ces conditions
56
correspondent 3 direntes valeurs du rapport de cot de fausse acceptation (CFA ) et de faux rejet (CFR ), r = CFA /CFR , avec r = 0.1, r = 1 et r =10.
WER(r) =
PFA + r PFR 1+r
(3.5)
PFA : probabilit de (FA) et PFR : probabilit de (FR).
Protocoles d'valuations
En utilisant les 12 sessions d'acquisitions, plusieurs protocoles ont t mis en place an de comparer les dirents algorithmes des participants la comptition ICPR2004 [55]. Pour chacune des 52 personnes, 5 images sont utilises pour les tests "clients" et 5 images sont utilises pour les tests "imposteurs". Le modle (rfrence ou test) de chaque sujet est donc constitu de 5 images et, chaque sujet, il est assign un "imposteur" particulier. Deux groupes de test (G1 et G2) sont considrs. Chacun de ces groupes est constitu de 26 personnes (13 hommes et 13 femmes). Les paramtres des dirents algorithmes sont alors optimiss sur le premier groupe G1 et sont ensuite utiliss pour le deuxime groupe G2 et vice-versa. Plusieurs protocoles de tests sont proposs pour la base BANCA mais les deux protocoles P et Mc sont les plus frquemment prsents dans la littrature. Le protocole P est le protocole le plus dicile du point de vue des conditions de test. En eet, les images de rfrence sont acquises dans des conditions contrles alors que celles des tests (client ou imposteur) sont acquises dans des conditions contrles, dgrades et diverses. Le protocole Mc est le protocole le plus facile car les images de rfrences, ainsi que les images des tests "clients" et "imposteurs", sont acquises dans des conditions contrles.
Quelques rsultats d'valuation

Le tableau 3.4.2 rsume les rsultats du protocole P (extrait de [55]). L'algorithme de l'universit de Tsinghua donne les meilleurs rsultats, avec un taux moyen WER de 1.39%. L'approche utilise se base sur une correction de l'illumination par lissage anisotropique et en appliquant une rduction d'espace par LDA sur l'amplitude des rponses de Gabor. Le systme de rfrence de Biosecure [68], bas sur l'ACP sur les pixels de l'image, n'a pas particip cette comptition
57
mais le rsultat sur cette base a t rajout dans le tableau pour avoir une ide sur la performance de l'ACP sur cette base. WER(0.1) G1 G2 8.69 8.15 8.15 7.43 7.70 8.53 5.82 6.18 1.55 1.77 7.56 8.22 4.67 7.22 8.24 9.49 6.05 6.01 6.40 6.50 1.13 0.73 5.79 4.75 8,95 10,23 WER(1) G1 G2 25.43 20.25 21.85 16.88 18.08 16.12 12.29 14.56 6.67 7.11 21.44 27.13 12.46 13.66 14.96 16.51 12.61 13.84 12.10 10.80 2.61 1.85 12.44 11.61 26,85 26,59 WER(10) G1 G2 8.84 6.24 6.94 6.06 6.50 4.83 5.55 4.96 1.32 1.58 7.42 11.33 4.82 5.10 4.80 6.45 4.72 4.10 6.50 4.30 1.17 0.84 6.61 7.45 8,35 6,62 Av. WER %
IDIAP- HMM IDIAP - FUSION QUT UPV Univ Nottingham Univ Taiwan UniS UCL - LDA UCL - Fusion NeuroInformatik Tsinghua Univ CMU BIOSECURE RefSys
12.93 11.22 10.29 8.23 3.33 13.85 7.99 10.08 7.89 7.77 1.39 8.11 14,60
Table 3.2: Rsultats du protocole P sur la base BANCA extrait de [55]
NB : Dans la suite de cette thse, nous utiliserons cette base an de valider nos rsultats obtenus. Les protocoles P et Mc seront les plus souvent invoqus.
3.4.3 IV2
Le projet IV2 est un projet d'valuation biomtrique franais. Il a pour but de crer des ressources et des conditions d'une valuation l'chelle nationale et internationale de dirents systmes lis l'information du visage, de l'iris et de la voix, dans des milieux semi-contraints. Pour constituer la base de donnes IV2 , une cabine d'acquisition trs semblable une cabine de type photomaton a t utilise et est reprsente dans la gure 3.10. An d'obtenir un clairage optimal dans la cabine, nous disposons de plusieurs lampes halognes qui seront pilotes depuis un ordinateur l'aide de tlvariateurs de puissance. La base IV2 est une base multimodale comportant une squence de 2 minutes de visage parlant qui est acquise avec des camras direntes dont une "Webcam ", des donnes du visage 3D avec direntes expressions et sous diverses conditions d'illumination, des donnes de visage acquises par strovision et des images d'iris
58
acquises en proche infrarouge. Cette base de donnes a t acquise sur trois sites dirents : l'INT (EVRY), l'universit d'Evry et l'cole Centrale de Lyon (LYON).
Protocoles d'valuation
La base d'valuation comporte 482 identiants, correspondant 315 personnes dont 268 personnes sont enregistres sur une session, 77 enregistres sur 2 sessions, et 19 enregistres sur 3 sessions. Sa taille est de 19 Go, correspondant 7651 dossiers et 56111 chiers. Les tests se font sur des images xes, extraites des vidos. L'extraction se fait de manire automatique. Les images sont au format jpg, avec un facteur de qualit de 95. Les collections d'image sont ralises de la manire suivante : images camescope ("dv") : premire squence : 8 images, espaces de 4 secondes, partir de l'instant 0 seconde deuxime squence : 8 images, espaces de 4 secondes, partir de l'instant (n de l'enregistrement - 37 secondes) images camra numrique ("dcam") : premire squence : 8 images, espaces de 1 seconde, partir de l'instant 2 secondes deuxime squence : 8 images, espaces de 2 secondes, partir de l'instant 26 secondes images webcam ("wcam") : une squence de 8 images, espaces de 5 secondes, partir de l'instant 1 seconde Les donnes disponibles sont utilises pour construire plusieurs sries de tests, prsentes dans le tableau 3.3 : Experience Sessions qualit Expression V. Illumination V. N. Intra-classe N. Interclasse 2D-Exp1 Mono Haute faible Non 2595 2454 2D-Exp2 Mono Haute Non Oui 2502 2362 2D-Exp3 Mono Basse Non Non 1654 1598 2D-Exp4 Multi Haute Non Non 1796 1796
Table 3.3: Protocoles d'valuation pour la base IV2
Trois algorithmes ont t compars dans cette valuation, dont celui que j'ai
59
Vue externe de la cabine IV2
Vue interne de la cabine IV2
Exemple d'image d'iris
Exemple d'images par strovision
Exemple d'acquisition 3D
Figure 3.10: Exemples de donnes de la base IV2
60
(a)
(b)
Figure 3.11: Exemples d'acquisition d'images 2D : (a) image haute rsolution et (b) image dgrade
dvelopp dans cette thse, c'est pour cette raison que j'ai choisi de prsenter les rsultats de cette valuation dans le chapitre 6 ou je dcrit mon approche.
3.5 Conclusion
Dans ce chapitre, nous avons list les outils ncessaires l'valuation des performances des algorithmes biomtriques en identication et en vrication ainsi que les bases de donnes publiques de visage (FRGC, BANCA et IV2 ) et les protocoles de tests associs. Ces bases et leurs protocoles seront utiliss tout au long du reste de cette thse.
Chapitre 4
Les algorithmes de reconnaissance de visage

4.1 Introduction
Plusieurs approches pour la reconnaissance par le visage ont t prsentes dans le chapitre 2. Comme nous l'avons prcis dans ce chapitre, il y a deux grandes familles : les algorithmes bass sur les approches globales par rduction d'espace et les algorithmes bass sur les approches par points caractristiques. Nous allons nous limiter la premire famille tant donn que nous allons utiliser dans notre travail une mthode globale. Dans ce chapitre, nous prsenterons donc trois algorithmes de rduction d'espace : l'ACP, la LDA et la DLDA. Une prsentation thorique de ces approches, et surtout leur application au domaine du visage, est faite dans la premire partie de ce chapitre. Une tude comparative entre ces algorithmes est prsente dans la deuxime partie de ce chapitre. Nous nous focaliserons ensuite sur plusieurs particularits que rencontrent ce type d'algorithmes comme le choix des conditions adquates d'apprentissage. L'objectif de ce chapitre est de comparer les direntes mthodes an de pouvoir choisir le meilleur algorithme pour la suite de nos tudes. 61
62
CHAPITRE 4. LES ALGORITHMES DE RECONNAISSANCE DE VISAGE
4.2 Dimensionalit de l'espace visage

Une image du visage est un signal 2 dimensions, acquis par un capteur digital (camra numrique, scanner...). Ce capteur codera la couleur ou l'intensit des dirents points de l'image dans une matrice de pixels deux dimensions 1 . Aprs une normalisation de l'image et une mise l'chelle vers une taille xe (ex : m n), l'image du visage peut tre considre comme un vecteur dans un espace multi-dimensionnel Rmn . Ce vecteur est obtenu en mettant, simplement, dans un ordre xe les lments de la matrice des pixels. An de dnir une image (ou un point) dans l'espace des images, nous devons spcier une valeur pour chaque pixel de cette image. Le nombre de points constituant cet espace devient rapidement trs grand, mme pour les images de petite dimension. Cette dimensionalit pose un certain nombre de problmes pour les algorithmes de reconnaissance, qui se basent sur cette reprsentation de l'image, savoir : dans un contexte de la reconnaissance, travailler dans un grand espace pose un problme de complexit de calcul. pour les mthodes paramtriques, le nombre de paramtres estimer peut rapidement dpasser le nombre d'chantillons d'apprentissage, ce qui pnalise l'estimation. pour les mthodes non paramtriques, le nombre d'exemples ncessaires an de reprsenter ecacement la distribution des donnes peut tre insusant. Le cas du visage est assez particulier. Le visage est form par des surfaces lisses et une texture rgulire. Il possde une forte symtrie (dans le cas des images frontales) et il est form partir de mmes objets (yeux, nez et bouche), qui ont les mmes positions pour tous les visages. Ces spcicits donnent lieu plusieurs constatations : les dirents pixels de l'image du visage sont fortement corrls. les images des dirents visages sont aussi corrles. un important nombre de points dans l'espace des images ne reprsentent pas des visages. D'aprs ces constatations, nous pouvons dduire que les visages forment une classe particulire dans l'espace des images. L'ensemble des images de visage forment alors un sous-espace de l'espace des images. D'une faon plus formelle, si on considre l'espace des images 2D d'une taille xe, l = n m. On a Rl . No1. Dans ce chapitre, nous allons nous intresser l'image de l'intensit de l'illumination, appele aussi image en niveaux de gris
4.3. ANALYSE EN COMPOSANTES PRINCIPALES
63
tons F l'espace des images des visages normaliss une taille n m. Nous avons
F , Rl .
En 1994, Ruderman a dmontr que les images naturelles possdent une grande redondance statistique [77]. En 1996, Penev [65] a dmontr que dans le cas prcis des images normalises des visages, cette redondance statistique est d'autant plus forte. L'appartenance un mme sous-espace et la redondance statistique qui caractrise les visages expliquent l'intrt des chercheurs pour les mthodes de reconnaissance bases sur les approches par rduction d'espace, appeles galement "les approches globales". Le fait que les visages soient conns dans un sousespace permet de dnir une base (orthogonale, ou non orthogonale) dans cet espace. Cette base devrait reprsenter de faon plus pertinente n'importe quel point de l'espace des visages. L'avantage de la redondance statistique est qu'elle permet une extraction d'une structure simple des caractristiques importantes et pertinentes de l'image du visage. Cette structure permettrait de reprsenter le visage tout en gardant l'information la plus importante, et par consquent, de rduire la dimensionalit de l'espace visage. Tout l'intrt des approches globales est la construction de cette base de projection qui permettra de comparer, de reconnatre ou d'analyser l'information essentielle des visages.
4.3 Analyse en composantes principales

En 1987 et 1990, Sirovich et Kirby [39, 87] publient leurs travaux sur la reconstruction de visage partir de vecteurs de projection par ACP (Analyse en Composantes Principales) ou KL (Karhunen-Love ). Ils montrent la validit de la rduction de dimensionalit de l'espace des visages et aussi qu'une reconstruction de visage partir de la nouvelle base est mme meilleure sur le plan visuel, car elle corrige une grande partie des bruits ou des zones occults lors de la capture. Cette approche a t reprise par Turk en 1991 [93] et applique la reconnaissance des visages. Cette mthode reste d'actualit et mme considre comme une mthode de base. Elle est intgre dans les deux systmes de rfrence de FRGCv2 [69] et de Biosecure [53, 68].
64
4.3.1 Rduction d'espace par ACP

L'ide fondamentale de l'ACP est la suivante : considrant un nuage de N points en P dimensions, on cherche trouver le plan dans lequel la projection des points du nuage est la moins dforme possible, donc la plus able possible. Quand on projette un ensemble de points dans un espace ayant moins de dimensions (le cas pour toutes les mthodes de rduction d'espace), la distance entre les points ne peut que diminuer. Pour trouver le meilleur plan de projection, on cherche le plan dans lequel la distance entre les points projets demeurent en moyenne maximale. Ce plan est quali de "principal".
Figure 4.1: Exemple de distribution d'un nuage de points dans un espace 2D
Plus gnralement, on dnit P droites orthogonales les unes aux autres qui permettent de dnir un repre orthonorm. Ces P droites sont les P "axes principaux" d'un repre dans lequel sont situs les chantillons de manire les dcrire de la faon la plus concise. L'objectif est que la plupart des coordonnes d'un chantillon soient presque nulles et que seules quelques coordonnes aient une valeur importante. Les coordonnes d'un chantillon i de coordonnes (aj;j1,..,p ) dans ce nouveau repre s'expriment par rapport de nouveaux attributs appels "composantes principales ". Notons zj1,..,p les composantes principales, zi,j dnotant le j -me caractre principal de l'chantillon i. On a naturellement une relation reliant les attributs originaux aux nouveaux attributs. La meilleure reprsentation des donnes au moyen de q < P attributs s'obtient en ne prenant en compte que les q premires composantes principales. L'ACP est une mthode factorielle car elle construit de nouvelles coordonnes par combinaison des coordonnes initiales. Les N chantillons dcrits par leur P attributs peuvent tre mis sous forme
65
d'une matrice ayant N colonnes et P lignes : 1 colonne dcrit un chantillon et chaque ligne correspond un attribut. Notons cette matrice X. On dnit la matrice de variance V de la manire suivante :
covar(a2 , a1 ) var(a2 ) . . . covar(a2 , ap ) V= . . . .. . . . . . . . covar(ap , a1 ) covar(ap , a2 ) . . . var(ap )

et la matrice de corrlation R : 1 r(a1 , a2 ) . . . r(a1 , ap ) 1 . . . r(a2 , ap ) R= . .. . . . 1 qui est symtrique puisque r(aj, ak) = r(ak, aj).
var(a1 )
covar(a1 , a2 ) . . . covar(a1 , ap )

(4.1)

(4.2)
Pour des chantillons centrs et rduits, ces deux matrices sont gales R =
V. On a la relation : R =
1 PX
XT . L'analyse de la matrice de corrlation est
intressante car elle permet de reprer immdiatement les caractres fortement corrls et ceux qui ne le sont pas. Le calcul des valeurs propres et des vecteurs propres de R fournit alors toutes les informations recherches. Notons i1,..,p les P valeurs propres de R ordonnes de manire dcroissante 1 > 2 > ... > p , et V i1,..,p leurs P vecteurs propres associs. R est par nature symtrique et dnit positive. Ses valeurs propres sont relles et positives et ses vecteurs propres ont des coordonnes relles. S'il existe une ou des valeurs propres nulles, cela signie que les attributs ne sont pas linairement indpendants les uns des autres : un ou plusieurs attributs sont obtenus par combinaison linaire des autres. Ces vecteurs propres sont unitaires et orthogonaux deux deux. Ils forment donc une base orthonorme. Ce sont les axes principaux recherchs. De plus, l'axe principal est celui associ la valeur propre la plus grande. Ainsi, les q axes principaux sont les droites dont les vecteurs unitaires sont les vecteurs propres associs aux q valeurs propres les plus grandes. On obtient alors les coordonnes principales des chantillons en les projetant dans cet espace, c'est--dire en faisant le produit scalaire des coordonnes (centres rduites) d'un chantillon par chacun des q vecteurs propres choisis.
66
Slection des vecteurs propres

L'ordre de grandeur des valeurs propres les unes par rapport aux autres indique leur importance. Si quelques valeurs propres ont des valeurs bien plus importantes que les autres, cela signie que l'essentiel des informations est donne par ces axes principaux et que les autres axes donnent peu d'information. Au contraire, si toutes les valeurs propres ont sensiblement la mme valeur, alors aucun axe principal ne peut tre laiss de cot. Voulant extraire l'information essentielle, la situation idale est lorsque q valeurs propres sont trs importantes par rapport aux autres. Il est facile de dmontrer que
i1,..,P i
= P. L'importance d'une
valeur propre par rapport aux autres est alors mesure par son inertie :
Ii =
i P
(4.3)
o i est la variance le long de l'axe principal port par le vecteur propre V i donc
c'est la variance de la composante principale zi . On dnit aussi la variance de l'espace rduit la dimension q par
i1,..,q i .
Turk et Pentland ont appliqu l'ACP (Analyse en Composantes Principales) au problme de reconnaissance de visage en 1991 [93], connue aussi sous le nom de mthode de Kerhunen-Love. An de pouvoir appliquer l'ACP la modalit visage, les images de la base d'apprentissage de l'espace de rduction doivent tre normalises gomtriquement. En d'autres termes, nous transformons la rgion du visage an d'avoir un mme nombre de pixels pour tous les visages de la base. Dans la littrature, une distance xe entre les centres des yeux pour l'image de sortie est impose [11].
Figure 4.2: Exemple d'image de visage normalis (nombre de pixels xe)
On cherche les axes qui maximisent la variance entre ces visages. Les n images sont donc transformes d'une matrice 2D en un vecteur de dimension l an de construire la matrice de donnes M Rln . On calcule la matrice de covariance CM
67
ainsi que la moyenne M . Toutes les images de la base sont centres par rapport M . An de retrouver les axes de la base orthogonale (base de projection), le problme est ramen au calcul du problme des valeurs propres :
CM Vi = i Vi
(4.4)
avec i valeur propre correspondant au vecteur propre Vi . L'ensemble des vecteurs propres, correspondants aux valeurs propres non nulles, formeront une base orthogonale. Les valeurs propres sont ensuite classes dans l'ordre dcroissant et seules sont gardes les vecteurs propres correspondants une certaine valeur de la variance. Dans la pratique, on garde les vecteurs propres qui conservent les 95% de la variance de l'espace. On notera par la suite = {Vi }i{1,..,r} , avec la matrice de transformation de l'espace d'entre de dimension l vers l'espace rduit de dimension r avec l
r.
4.3.2 Application de l'ACP la reconnaissance de visage

Si on considre deux images des visages (1 , 2 ) normalises et centres (moyenne nulle et variance gale 1 pour les valeurs des pixels), la comparaison entre les deux images est faite par une mesure mtrique entre les projets des images dans l'espace rduit : d(1 , 2 ) = (1 ), (2 ) , avec la mesure mtrique considre. Direntes mesures ont t proposes dans la littrature, comme la distance
L1, la distance euclidienne L2, la similarit cosinus (ou "mesure cosinus"), la

distance de Mahalanobis. Voici leurs dnitions : L1 :
r
d(1 , 2 ) = |(1 ) (1 )| =
i=1
|ai bi |
(4.5)
avec ai et bi les coordonnes de projection de (1 ) et (2 ) L2 :

r
d( , ) = ( ) ( ) =
i=1
(ai bi )2
(4.6)
Angle :
d(1 , 2 ) =
Mahalanobis :
(1 ) (1 ) = (1 ) (2 )
r
r i=1 ai bi r r 2 2 i=1 (ai ) i=1 (bi )
(4.7)
d(1 , 2 ) =
i=1
1 ai bi i
(4.8)
68
Moon et Phillips ont tudi dans [58] les performances de ces 4 mesures sur la base FERET [32]. Une autre tude [95], faite en 2002, a repris les travaux de Moon et Phillips et a conrm aussi que la distance de Mahalanobis dpassait les autres distances en terme de performance et qu'une fusion de ces mesures amliorait la reconnaissance. Ces valuations ont t faites sur la mme base FERET.
Dimensionalit optimale de l'espace de rduction construit par ACP

Direntes tudes de la littrature [32, 64, 95] proposent de xer de manire empirique la variance de l'espace de rduction entre 92% et 98%. Cet intervalle est bien justi dans la reconstruction des images par ACP mais ne l'est pas dans le contexte de reconnaissance. Le but de l'utilisation de l'ACP en reconstruction d'image est d'avoir une erreur quadratique moyenne minimale entre l'image d'origine et l'image reconstruite. En reconnaissance, la rduction d'espace n'est pas lie cette mme erreur quadratique mais la quantit d'information utile que la nouvelle reprsentation peut avoir. An de dterminer la dimensionalit de l'espace de rduction construit par ACP, Penev et Sirovich dans [64] ont utilis des critres visuels de reconstruction. Ils ont arm que pour des images de visage de taille rduite (25) de pixels entre les yeux, la dimensionalit adquate pour une bonne reconnaissance se situe entre 400 et 700 vecteurs propres. Dans [54], nous avons propos une mthode de slection de la dimension optimale de l'espace de rduction en se basant sur l'tude du rapport entre l'nergie de l'information et l'nergie de l'information rsiduelle. Cette approche est intressante dans le sens o elle montre une corrlation entre ce rapport d'nergies et les performances du systme de reconnaissance. Soit PW l'nergie de l'espace construit avec toutes les composantes principales de l'espace :
n
PW =
i=1
2 i
(4.9)
avec n le nombre total des valeurs propres de . Soit Sr l'apport nergtique de la composante principale r dnit par :
Sr =
2 r PW
(4.10)
69
Le rapport Rr entre l'nergie rsiduelle partir de la composante principale r et l'nergie totale du systme PW est dnit par :
n 2 i=r i
Rr =
PW
(4.11)
On considre le rapport (r) entre l'apport nergtique de la composante principale r et l'nergie rsiduelle partir de cette composante. On appellera (r) le taux d'nergie rsiduelle exprim par l'quation suivante :
(r) = Sr /Rr =
n 2 i=r i
2 r
(4.12)
6 20
30
40
50
60
70
80
90
100
Figure 4.3: volution de la mesure du taux d'nergie rsiduelle en fonction de
la variance de l'espace pour la sous-base apprentissage de FRGC
70
(Exprience1)
12 11 30 10 29 9 EER 8 7 27 6 26 5 4 20 25 20 EER 28 31
(Exprience4)
30
40
50
60 Variance
70
80
90
100
30
40
50 60 70 Variance de lespace rduit
80
90
100
Figure 4.4: volution du EER en fonction de la variance pour l'exprience 1 et
l'exprience 4 de FRGC
12 11 10 9 EER 8 7 6 5 4 20
30
40
50
60 Variance
70
80
90
100
Figure 4.5: volution du EER en fonction de la variance pour le protocole P de
BANCA
71
Les rsultats des valuations sur la base FRGC (gure 4.4) et ceux sur la base BANCA (gure 4.5) montrent que l'utilisation des premiers axes principaux seuls dtriore les rsultats de la reconnaissance (les axes principaux qui expriment moins de 40% de la variance de l'espace) . Cette dtrioration est due au faite que l'information discriminante se situe non seulement dans les premiers axes principaux mais aussi dans le reste des axes. En plus, l'ajout d'un surplus d'axes principaux peut aussi dgrader la reconnaissance (Figure 4.3 (Les axes faible apport de variance qui donnent une variance suprieure 75%) . Dans cette tude, nous nous sommes aussi intresss l'inuence des chantillons d'apprentissage sur les performances de la reconnaissance de visage. Nos expriences ont montr galement que la prsence des variabilits comme l'expression ou l'illumination dans la base d'apprentissage de l'espace de rduction est plus importante que la variabilit des personnes. On considre la base de dveloppement 2 de FRGC et un sous-ensemble de la base BANCA. Les sous-ensembles d'apprentissage construits partir de ces deux bases sont rsums ci-dessous et dans le tableau 4.1 : F1 : un sous-ensemble de la base d'apprentissage (BA) de FRGC, construit avec 18 personnes et 512 images acquises en conditions contrles et 512 en conditions non contrles F2 : un sous-ensemble de BA de FRGC, construit avec 35 personnes et 1024 images en conditions contrles et 1024 en conditions non contrles. F3 : un sous-ensemble de BA de FRGC, construit avec 222 personnes et 1110 images de conditions contrles et 1110 en non contrles. B1 : l'ensemble de la base BANCA , construit avec 52 personnes et 1020 images dont 40% sont acquises en conditions contrles, 40% en non contrles et 20% en dgrades. Le sous-ensemble d'apprentissage de la base de BANCA a t choisi an de mesurer les performances de l'ACP lorsque l'espace de rduction est construit partir d'une base d'apprentissage compltement dirente de la base d'valuation (en termes de personnes). On peut aussi voir l'impact de l'utilisation de plusieurs bases d'apprentissage sur les performances de la reconnaissance (F1 + B1, union des deux bases F1 et B1). La dimensionalit de l'espace de rduction est choisie par rapport la zone de
2. Dans le chapitre prcdent, nous avons prsent la base FRGC 3.4. La base d'apprentissage (BA) est un ensemble d'images, forme de 12.776 images de 222 sujets dont 6.388 images de visage prises dans des conditions non contrles.
72
BA FRGCv2 BANCA
Sous-ensemble F1 F2 F3 B1
Nd'images 1024 2048 2220 1020
Nde personnes 18 35 222 52
C/NC/D 50% / 50% / 0% 50% / 50% / 0% 50% / 50% / 0% 40%/ 40% /20%
C : Images acquises en conditions contrles NC : Images acquises en conditions non contrles D : Images acquises en conditions dgrades
Table 4.1: Caractristiques des sous-ensembles d'apprentissage de l'espace de
rduction par ACP
stabilit du taux d'nergie rsiduelle qui se situe 80% de la variance de l'espace total. Le tableau 4.2 donne les rsultats de l'exprience 4 de FRGC suivant les dirents espaces de rduction construits partir des bases d'apprentissage du tableau 4.1. EER IC 90%
B1 28,2% [2.1%]
F1 23,24% [1.4%]
F1 + B1 22,9% [1.4%]
F2 23,4% [1.4%]
F3 26,9% [1.9%]
Table 4.2: Rsultats en EER de l'exprience 4 de FRGC pour les direntes
bases d'apprentissage (IC : Intervalle de Conance).
Le premier point notable de ces expriences est que l'apprentissage de l'ACP pose un problme de gnralisation, retrouv dans toutes les mthodes de reconnaissance par rduction d'espace. Sachant que si l'espace de rduction est construit partir de personnes qui ne sont pas dans la base d'valuation FRGC, les performances sont dgrades de faon signicative. Pour ces expriences le taux d'erreur EER passe de 28.2% 23.4%. On remarque que la variabilit des personnes est moins importante que la variabilit des situations environnementales. En eet, pour F3, nous avons 220 personnes avec 5 images de type non contrl par personne alors que pour F1, nous avons 18 personnes avec en moyenne 28 images de type non contrl. Les performances de la PCA passent de 26% en utilisant F3 23.2% en utilisant F1.
4.4 Fisher Discriminant Analysis

Dans le cas o on possde l'information d'appartenance des donnes des classes prdnies, il est intressant d'utiliser une approche qui permet de prendre
4.4. FISHER DISCRIMINANT ANALYSIS
73
en compte cet lment, ce que l'ACP ne permet pas de faire . En 1936, Fisher propose une mthode de classication base sur la maximisation de la distance "inter-classes" et la minimisation de la distance "intra-classes".
4.4.1 Analyse Linaire Discriminante

L'Analyse Linaire Discriminante (LDA, Linear Discriminant Analysis ou Fi-
sher Discriminant Analysis ) permet de rechercher, dans l'espace des donnes, les
axes qui permettent de discriminer au mieux les direntes classes (plutt que les axes qui dcrivent au mieux les donnes, tel est le cas de l'ACP). En d'autres termes, si on considre un certain nombre de paramtres indpendants, la LDA permet de crer une combinaison linaire de ces derniers qui aboutit un maximum de distance entre les moyennes des direntes classes. Concrtement, pour tous les chantillons de toutes les classes, on dnit deux mesures. La premire mesure est la matrice d'parpillement intra-classes Sw ("within-class scatter ma-
trix ") qui est dnie par :

c Nj
Sw =
j=1 i=1
(xj j )(xj j )T i i
(4.13)
avec xj le ime chantillon de la classe j , j la moyenne de la classe j , c le nombre i de classes et Nj le nombre d'chantillons de la classe j . La deuxime mesure est la matrice d'parpillement inter-classes Sb ("between-class scatter matrix ") qui est dnie par :
c
Sb =
j=1
(j )(j )T
(4.14)
avec la moyenne de tous les chantillon. Le but est de maximiser les distances inter-classes tout en minimisant les distances intra-classes, ce qui revient retrouver la matrice de transformation W WT Sb W [21] donc W est optimale pour : qui maximise le critre J(W) = T W Sw W
Wopt = arg max(

W
|WT Sb W| ) = [w1 , w2 , ..., wm ] |WT Sw W|
Ce problme est ramen un problme de recherche des vecteurs propres de la matrice S1 Sb . w La gure 4.6 reprsente un exemple de classication de deux nuages de points. L'axe principal de la LDA est l'axe de projection qui maximise la sparation entre
74
les deux classes. Il est clair que cette projection est optimale pour la sparation des deux classes par rapport la projection sur l'axe principal calcul par ACP.
Figure 4.6: Comparaison entre les projections de deux classes de points ("class
1" et "class 2") sur les axes principaux construits par ACP et par FLD=LDA (Figure tire de [7])
La maximisation de J(W) n'est possible que si la matrice Sw est singulire (inversible). Cette condition pose un problme pour les applications de reconnaissance du visage 3 . Pour remdier ce problme, Swets [89] a propos d'utiliser l'espace ACP rduit comme espace intermdiaire. On commence par rechercher les axes principaux des donnes par la ACP. On rduit les donnes de dpart dans cet espace (projection dans une base orthogonale) et enn, on applique la LDA sur ces donnes rduites.
4.4.2 La LDA directe (DLDA)

L'ide de la LDA est de maximiser le critre de Fisher. Cela revient rechercher une matrice A qui diagonalise simultanment les deux matrices d'parpille3. Le nombre d'images est gnralement trs infrieur la dimension de l'image donc la matrice Sw est de rang infrieur C donc non inversible. Ce problme est connu sous le nom de problme de la taille rduite des chantillons SSS ("Small Sample Size".)
4.4. FISHER DISCRIMINANT ANALYSIS
75
ment Sw et Sb :
ASw AT = I, ASb AT =
Avec matrice diagonale ordonne par ordre dcroissant.
(4.15)
Dans [16], Chen a dmontr que l'espace nul de Sw 4 contient de l'information discriminante et qu'un passage par une rduction d'espace par ACP supprime cette information. Concrtement, si pour un vecteur "a" de l'espace d'entre, |aT Sb aT | Sw a = 0, et Sb a = 0, alors T est maximise. Il sut alors de garder |a Sw aT | l'espace nul de la matrice d'parpillement inter-classes Sw . Cette mthode est bien meilleure que la LDA classique dans le sens o les vecteurs de projection obtenue maximisent le critre de Fisher sans supprimer l'information discriminante. Une nouvelle approche, appele la DLDA directe, a t propose dans [103] an de maximiser le critre de Fisher. La premire tape de cette approche est la diagonalisation de la matrice Sb par le calcul de la matrice V :
VT Sb V =
avec VT V = I. Le problme est alors ramen la rsolution d'un problme de valeurs propres. Chaque vecteur de la matrice V est un vecteur propre de la matrice
Sb et contient toutes les valeurs propres de Sb . Comme la matrice Sb peut tre

singulire, peut contenir des valeurs propres nulles ou trs faibles. Ces valeurs ainsi que les vecteurs propres associs doivent tre carts car une projection dans la direction de ces vecteurs n'apporte aucune information discriminante entre les classes. Soit Y la sous-matrice compose des m premires colonnes de V (Y tant de dimension mxn et n tant la taille de l'chantillon d'entre) :
YT Sb Y = Db > 0
avec Db la sous-matrice de , de dimension mxm. En multipliant par Db
1/2 T
et Db
1/2
de part et d'autre on aboutit :

1/2
(YDb
En posant Z = YT Db
1/2
1/2 T
) Sb (YT Db
)=I
, nous obtenons :
ZT Sb Z = Db
4. L'espace nul de Sw = {x|Sw x = 0, x Rn }.
(4.16)
76
On constate que Z permet de rduire la dimension de Sb de nxm mxm. Considrons la diagonalisation de la matrice ZT Sw Z par la rsolution du problme des valeurs propres :
UT ZT Sw ZU = Dw
avec UT U = I. Dw peut contenir des valeurs nulles sur la diagonale.
(4.17)
L'objectif est de minimiser l'parpillement des inter-classes. Il est donc important de garder les vecteurs de projection associs aux valeurs propres les plus faibles, spcialement les valeurs nulles, et d'carter ceux associs aux valeurs propres les plus fortes. En posant la matrice A = UT ZT , A permet la diagonalisation du numrateur et du dnominateur du critre de Fisher :
ASw AT = Dw ,
En posant = Dw
1/2
ASw AT = I
(4.18)
A, nous obtenons la matrice de projection qui rpond
au critre de Fisher. La gure 4.7 montre la chaine de l'algorithme de la DLDA.
Figure 4.7: Diagramme de l'algorithme de la LDA directe (DLDA). La gure est
tire de [103].
4.5 Tests et comparaisons des algorithmes

Dans ce chapitre, nous avons vu les bases thoriques des algorithmes de reconnaissance de visage les plus utiliss. Ces algorithmes se basent sur l'approche globale par combinaison linaire des composantes. Chacune de ces mthodes propose des solutions certains problmes rencontrs lors de la reconnaissance de
4.5. TESTS ET COMPARAISONS DES ALGORITHMES
77
visage. Nous avons test les dirents algorithmes et les rsultats qui en rsulte conrment dans la plupart des cas les rsultats de la littrature. Ces rsultats prsentent aussi quelques claircissements de comportement non attendu pour certains types d'exprience. Cette tude justiera aussi le choix exclusif de l'algorithme de la DLDA comme algorithme d'tude dans la suite de cette thse.
Bases de donnes, protocoles et rsultats

Dans cette partie du chapitre, les rsultats des 3 algorithmes, dcrits dans la section prcdente, sont prsents. Les bases de donnes de visage considres sont les bases publiques FRGC et BANCA. Pour la base FRGC, nous avons choisi d'utiliser les deux protocoles d'valuation : Exprience 1 et Exprience 4. Ces deux protocoles permettront d'tudier le comportement des dirents algorithmes face aux problmes des variabilits des conditions d'acquisition. Les mmes prols d'exprience sont choisis pour la base BANCA. En considrant les protocoles Mc et P, les tests permettront de voir si les algorithmes gardent le mme comportement avec un changement de la base d'valuation. Le choix d'utiliser ces deux bases de donnes est justi aussi par la dirence sensible en terme de qualit car mme si les prols des expriences des deux bases sont les mmes, la rsolution des images entre les deux bases dire sensiblement. En eet, pour la base FRGC, la moyenne des distances entre les centres des yeux est de 250 pixels alors que celle de la base BANCA est de 100 pixels. Un autre point de divergence entre les expriences des deux bases est la validit statistique des rsultats, savoir que le nombre de tests de comparaison pour la base FRGC est beaucoup plus grand que celui de la base BANCA. Par consquent, les rsultats des expriences de la base FRGC devraient tre gnralisables sur la base BANCA. Le point commun (ou le prol commun) entre ces dirents protocoles est que la qualit de l'image de rfrence est considre comme de bonne qualit car cette image est acquise dans des conditions contrles 5 alors que les images de test sont de qualit variable. Par la suite, nous considrons l'image du visage normalise 6 comme reprsentation du visage (ex : voir Figure 4.8). An de pouvoir analyser et comparer les
5. Le chapitre 3 section 3.4 dtaille les dirents protocoles pour chacune des deux bases. 6. Dans ce chapitre, nous utiliserons une normalisation gomtrique avec une simple galisation d'histogramme de la composante brillance de l'image comme mesure de l'illumination. Cette composante est extraite de l'espace colorimtrique (TSV). Une tude approfondie sur la normalisation est prsente dans le chapitre 5
78
dirents algorithmes, nous avons choisi : de xer la base d'apprentissage. Cette base servira pour le calcul des espaces rduits. d'utiliser les mmes conditions exprimentales des protocoles d'valuation. d'utiliser les mmes conditions de pr-traitement des images des visages. Ce choix permettra d'tudier la dirence de comportements entre les dirents algorithmes. Mme tant dans les mmes conditions de test, les dirents algorithmes n'ont pas besoin des mmes informations pour l'apprentissage. L'ACP qui est une mthode de rduction non supervise n'a pas besoin d'information sur les classes (dans notre cas, les images d'un sujet forment une classe) alors que la LDA et la DLDA, qui sont des mthodes supervises, en ont besoin.
Figure 4.8: Exemple d'image de brillance normalise gomtriquement
La base d'apprentissage BA (dnit dans le chapitre 3) est une sous-partie de la base de dveloppement de FRGC. Elle est constitue de 220 personnes avec 10 images de visage acquises dans des conditions contrles et 10 images acquises dans des conditions non contrles. Cette mme base d'apprentissage sera galement utilise pour les protocoles de reconnaissance P et Mc de BANCA.
Rsultats de reconnaissance sur les bases FRGC et BANCA pour les approches globales linaires
Les rsultats prsents par la suite corroborent, dans la plupart des cas, des rsultats dj constats dans la littrature. On prsente ici ces rsultats an de montrer les volutions en performance des dirents algorithmes par rduction d'espace et valider ainsi leur utilisation. Le choix de prsenter les rsultats sur la base FRGC se justie par le fait que les rsultats des protocoles de test sont statistiquement signicatifs, compars toutes les bases publiques existantes. Le
79
protocole de l'exprience 1 comporte, par exemple, plus de 55.000.000 de tests inter-classes et prs de 200 000 tests intra-classes pour 466 personnes.
Performances des algorithmes ACP, LDA et DLDA sur FRGC et BANCA :
An de mieux comprendre l'inuence de la qualit des tests sur les dirents algorithmes de reconnaissance de visage, bass sur la rduction d'espace, on propose d'observer les rsultats de la reconnaissance de l'ACP, de la LDA et de la DLDA sur les 2 types d'exprience de FRGC (Exprience 1 et Exprience 4) ainsi que pour les deux protocoles P et Mc de BANCA. La base BA est utilise comme base d'apprentissage des dirents espaces de rduction (axes de projection) pour les direntes expriences. Les courbes ROC de la gure de 4.9 prsentent les rsultats de l'exprience 1 et 4 de FRGC pour les 3 algorithmes cits (ACP, LDA et DLDA). Ceci nous permet de comparer les performances en fonction du caractre dgrad ou pas des donnes de test . Les courbes de la gure 4.10 reprsentent les courbes ROC pour les protocoles P et Mc de BANCA sur les deux groupes G1 et G2 (en utilisant la mme base d'apprentissage BA) (voir chapitre 3 pour plus de dtails sur les protocoles) 7 . Le tableau 4.3 rsume les performances aux deux points de fonctionnement VR @0.1% de FAR et EER pour les deux bases selon les dirents protocoles. En comparant les rsultats de reconnaissance pour les deux types de protocoles contrls et non contrls (Exp1 contre Exp4 pour FRGC et Mc contre P pour BANCA), nous constatons que les performances de l'ACP, de la LDA et de la DLDA sont bien meilleures (pour des rfrences contrles) lorsque les images de test sont contrles que lorsqu'elles sont dgrades. En eet, par exemple le taux de VR @0.1% de FAR passe de 76% 17% pour l'ACP entre l'exprience 1 et l'exprience 4. Cette tendance est bien vrie pour les 3 algorithmes sur les 2 type de protocoles. Un deuxime point que nous pouvons constater est l'amlioration des performances obtenues par la DLDA par rapport aux deux autres mthodes. Ce rsultat est visible dans tous les tests. Ainsi pour l'exprience 1 de FRGC nous observons une dirence signicative entre la DLDA (83% de VR) et l'ACP et la LDA (respectivement 76% et 58%). Le mme comportement peut tre observ pour tous les tests.
7. Notons que je prsente ici les rsultats en terme de courbes ROC et non pas en WER ("Weigthed Error Rate )"
80
Finalement nous notons aussi une dirence de performances entre la LDA et l'ACP. Les performances de l'ACP sont suprieurs ceux de la LDA pour tous les tests sauf pour l'exprience 4 de FRGC. Les performances de l'ACP sont meilleures lorsque le test est fait en conditions contrles. L'espace de rduction dans l'exprience 1 n'est adapt ni la LDA ni la PCA, car on apprend cet espace sur des images contrles et des images non contrles (5 images acquises en conditions contrls et 5 images dans des conditions non contrles) et dans ce cas on a pas assez d'images des conditions contrles [52]. L'ACP reste insensible ce problme que la LDA, parce qu'elle tend maximiser la variance des chantillons et non maximiser la sparation entre les classes comme pour la LDA. Les donnes tant mal dnis dans l'espace de projection l'erreur induite par la LDA est donc plus grande que l'ACP. Par contre dans le contexte de l'exprience 4, le caractre discriminant entre les classes amen par la LDA montre toute son ecacit. Dans le cas des expriences sur BANCA, la base d'apprentissage des espaces de projection (BA de FRGC) ne correspond pas aux personnes de la base de test. On retrouve les mmes rsultats que dans [52] savoir que dans ce cas l'ACP est meilleure que la LDA et ceci indpendamment des conditions de tests contrles ou pas. Algorithme ACP LDA DLDA Algorithme ACP LDA DLDA Algorithme ACP LDA DLDA Exprience 1 (VR/EER) 76.37%[0.18] / 5.23[0.09]% 58.90%[0.21] / 7.73[0.11]% 83.19%[0.15] / 2.93[0.07]% Protocole Mc (VR/EER) 64.3%[4.5%] / 12.1%[3.0%] 50%[4.9%] / 15.3%[3.4%] 66.4%[4.6%] / 11.7%[3.0%] Protocole Mc (VR/EER) 81.5%[3.8%] / 4.0[2.0%] 55.1%[4.9%] / 13.5[3.4%] 88.9%[3.1%] / 4.3[1.9%]
Rsultats de la base FRGC
Rsultats de la base BANCA pour G1
Exprience 4(VR/EER) 17.14%[0.23] /26.40[0.27] 25.29%[0.27] /15.51[0.22] 33.17%[0.29] /10.69[0.19]
Rsultats de la base BANCA pour G2
Protocole P(VR/EER) 29.9%[2.6%] /19.2%[2.3%] 22.73%[2.4%] /24.7%[2.4%] 29.9%[2.6%] /18.6%[2.2%]
Protocole P(VR/EER) 34.1%[2.7%] /21.7%[2.3%] 25.0%[2.5%] /22.9%[2.4%] 42.5%[2.8%] /20.1%[2.2%]
Table 4.3: Rsum des rsultats aux points de fonctionnement ( EER et
VR@0.1% de FAR) des 3 algorithmes (ACP, LDA, DLDA) pour les deux types d'exprience sur les bases FRGC et BANCA
81
ACP
1 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.001
Verification Rate
PCA-Histeq Experiment 1-BA PCA-Histeq Experiment 4-BA 0.01 False Accept Rate 0.1 1
LDA
1 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.001
Verification Rate
LDA-Histeq Experiment 1-BA LDA-Histeq Experiment 4-BA 0.01 False Accept Rate 0.1 1
DLDA
1 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.001
Verification Rate
DLDA-Histeq Experiment 1-BA DLDA-Histeq Experiment 4-BA 0.01 False Accept Rate 0.1 1
Figure 4.9: Courbes ROC des algorithmes ACP, LDA et DLDA pour les exp-
riences 1 et 4 de FRGC : avec galisation d'histogramme, base d'apprentissage BA
82
ACP
1 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.001
Verification Rate
PCA-Histeq-G1-Mc PCA-Histeq-G2-Mc PCA-Histeq-G1-P PCA-Histeq-G2-P 0.01 False Accept Rate 0.1 1
LDA
1 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.001
Verification Rate
LDA-Histeq-G1-Mc LDA-Histeq-G2-Mc LDA-Histeq-G1-P LDA-Histeq-G2-P 0.01 False Accept Rate 0.1 1
DLDA
1 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.001
Verification Rate
DLDA-Histeq-G1-Mc DLDA-Histeq-G2-Mc DLDA-Histeq-G1-P DLDA-Histeq-G2-P 0.01 False Accept Rate 0.1 1
Figure 4.10: Courbes ROC des algorithmes ACP, LDA et DLDA pour les expriences Mc et P de la base BANCA : avec galisation d'histogramme, base d'apprentissage BA
83
Comparaison des algorithmes ACP, LDA et DLDA sur la base FRGC :
En analysant les rsultats de l'exprience 1 (Figure 4.11), nous remarquons que les rsultats de la LDA se dgradent par rapport ceux de l'ACP. Ceci s'explique par le fait que l'ACP perd une partie de l'information discriminante entre les classes, qui est plus importante lorsque les conditions d'acquisition sont contrles (absence de bruit) que lorsque ces conditions sont non contrles. Les rsultats de la DLDA sont bien meilleurs que ceux de l'ACP ou ceux de la LDA. Cela conrme que la rduction par ACP avant le calcul des axes de projection par LDA supprime une quantit importante d'information discriminante. Les performances de l'ACP sont meilleures que la LDA dans cette exprience en conditions contrles. L'analyse de la courbe Roc de la gure 4.12 nous donne des rsultats comparables.
1 0.95 0.9 Verification Rate 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.001 ACP-Histeq Experiment 1-BA LDA-Histeq Experiment 1-BA DLDA-Histeq Experiment 1-BA 0.01 False Accept Rate 0.1 1
Figure 4.11: Comparaison des performances pour les algorithmes ACP, LDA et
DLDA pour l'exprience 1 sur la base FRGC
Comme pour l'exprience 1, les performances de la DLDA sont meilleures pour l'exprience 4 (gure 4.12) que celle de l'ACP et de la LDA ce qui dmontre la robustesse de cette mthode lorsque les conditions d'acquisition sont diciles. Par contre les performances de la LDA sont meilleures que l'ACP dans cette exprience. Ces rsultats sont en accord avec d'autres travaux publis qui comparent LDA et PCA [52].
volution des performances de la DLDA en fonction du type de base d'apprentissage :
Un autre point connu pour les mthodes de rduction de l'espace, mais souvent omis dans la littrature, est l'inuence de la base d'apprentissage sur les perfor-
84
1 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.001
Verification Rate
ACP-Histeq Experiment 4-BA LDA-Histeq Experiment 4-BA DLDA-Histeq Experiment 4-BA 0.01 False Accept Rate 0.1 1
Figure 4.12: Comparaison des performances pour les algorithmes ACP, LDA et
DLDA pour l'exprience 4 sur la base FRGC
mances de l'valuation. On prsente ici les performances de l'algorithme DLDA en fonction du type de base d'apprentissage et du protocole de test. An d'tudier l'inuence de la base d'apprentissage, on considre les protocoles suivants : Exprience 1 (image de rfrence contrle et image de test contrle) et Exprience 4 (image de rfrence contrle et image de test non contrle). Nous construisons plusieurs espaces de rduction partir de sous-bases de la base d'apprentissage BA (220 personnes et 10 images de type contrl et 10 images de type non contrl par personne). Deux ensembles d'espace sont alors construits. Dans le premier ensemble, nous xons le nombre d'images acquises en conditions contrles C = 10 et nous varions le nombre d'images acquises dans les conditions non contrles NC =
1, 2, ..10. Dans le deuxime ensemble, nous varions le nombre d'images acquises

en conditions contrles ainsi que le nombre d'images acquises dans les conditions non contrles tel que C + NC = 10. Les gures 4.13 et 4.14 montrent les performances de l'algorithme DLDA en fonction du type de l'espace d'apprentissage. Nous pouvons constater que pour l'exprience 1 (images rfrence et de test acquises dans des conditions contrles), un apport de bruit dans la base d'apprentissage dgrade les performances du systme. Pour l'exprience 4 (images rfrence acquises en conditions contrles et images de test acquises en conditions non contrles), nous pouvons remarquer qu'un mlange des deux types d'images dans la base d'apprentissage est trs important an d'amliorer les rsultats. Ces rsultats montrent une forte dpendance entre la qualit des images de
85
Exp1
87
Exp4
35
86.5
30 taux de verification @0.1% de FAR

86 taux de verification @0.1% de FAR
85.5
25
85
20
84.5
84
15
83.5
83
3 4 5 6 7 Nombre dimages non contrl/personne (C=10)
10
10
3 4 5 6 7 Nombre dimages non contrl/personne (C=10)
10
Figure 4.13: Variation des performances de la DLDA en fonction de la variation
du nombre d'images acquises en conditions non contrles
Exp1
88 28 86 26
Exp4
84 24 taux de verification @0.1% de FAR 82 taux de verification @0.1% de FAR 0 1 2 3 4 5 6 7 8 Nombre dimages non contrl /personne [( C + NC )/personne =10] 9 10
80
22
78
20
76
18
74
16 72 14
70
68
12
2 3 4 5 6 7 8 Nombre dimages non contrl /personne [( C + NC )/personne =10]
10
Figure 4.14: Variation des performances de la DLDA en fonction de la varia-
tion proportionnelle du nombre d'images acquises en conditions contrles et non contrles
86
test, la qualit des images constituant la base d'apprentissage et les performances du systme. Cette constatation est trs importante pour la suite de nos tudes et cette dpendance sera tudie plus en dtails dans le dernier chapitre pour le choix de la stratgie de reconnaissance.
4.6 Conclusion
Dans ce chapitre, nous avons tudi trois algorithmes de reconnaissance de visage permettant de raliser des rductions linaire d'espace. Nous avons expos, dans la premire partie, la thorie de ces dirents algorithmes et nous avons expliqu les raisons de l'ecacit de ce type d'approches pour la reconnaissance de visage. Nous nous sommes concentrs sur plusieurs problmes que rencontrent les approches par rduction d'espace telle que le choix des bases de donnes d'apprentissage ou le problme de la slection de la dimensionalit de l'espace de rduction. Nous avons tudi l'impact du choix des bases d'apprentissage sur les performances des algorithmes suivant la nature des images (contrles ou dgrades). Notre choix s'est nalement port sur l'algorithme DLDA qui a dmontr de meilleures performances que l'ACP et la LDA, notamment sur les donnes dgrades.
Chapitre 5
Normalisation de l'illumination
5.1 Introduction
La normalisation des images de visages est une tape trs importante pour les algorithmes de reconnaissance. Gnralement, les algorithmes se basant sur les approches par points caractristiques ont recours des normalisations photomtriques alors que les approches bases sur la rduction d'espace (les approches globales) ont besoin en plus d'une normalisation gomtrique. Dans ce chapitre, nous nous concentrerons sur certaines normalisations photomtriques des images du visage et nous prsenterons et analyserons les rsultats de reconnaissance par l'approche DLDA base sur ces mthodes. Les mthodes tudies dans ce chapitre sont : l'galisation d'histogramme, la correction Gamma, la mthode "multiretinex" et le lissage anisotropique. Nous avons choisi d'utiliser ces mthodes car elles n'ont besoin que d'un seul exemple de l'image pour tre appliques. Les deux bases de donnes FRGC et BANCA ont t utilises an de pouvoir comparer les performances de l'algorithme de reconnaissance DLDA (voir chapitre prcdent), suivant les direntes mthodes de normalisation. la n de ce chapitre, nous prsentons une nouvelle mthode de normalisation de l'illumination qui amliore de faon signicative les rsultats de la reconnaissance dans les conditions dgrades. 87
88
CHAPITRE 5. NORMALISATION DE L'ILLUMINATION
5.2 Normalisation gomtrique

En utilisant un algorithme de reconnaissance se basant sur la rduction de l'espace, nous ne pouvons pas ngliger un point trs important qui est la normalisation gomtrique des images de visage. Cette normalisation gomtrique consiste extraire la zone du visage de l'image originale, ensuite une rotation du visage est eectue an d'aligner l'axe des yeux avec l'axe horizontal. Enn, une rduction proportionnelle la distance entre les centres des deux yeux est applique. On obtient alors une image de visage dont la distance entre les centres des yeux est xe. Les dimensions de l'image du visage sont calcules partir de la distance obtenir entre les centres des deux yeux.
heightNorm = EyeDistance WidthNorm = EyeDistance

avec heightNorm et WidthNorm la hauteur et la largeur de l'image du visage,
EyeDistance la distance entre les centres des yeux de l'image normalise. Nous
xons galement, lors de cette tape, la position du centre de la bouche dans l'image normalise an d'avoir une bonne normalisation verticale et d'tre sr que les dirents composants du visage (yeux, nez et bouche) soient situs dans les mmes positions pour tous les visages. L'exemple de la gure 5.1 illustre une normalisation gomtrique d'un visage de la base FRGC.
Figure 5.1: Exemple d'une normalisation gomtrique de visage de la base FRGC
Un accroissement de la dynamique est aussi appliqu l'image normalise. Cet accroissement est bas sur un centre-rduction de l'histogramme de l'image pour aboutir des images avec les mmes plages de rpartition des niveaux de gris ainsi qu'un alignement des moyennes de ces niveaux.
5.2. NORMALISATION GOMTRIQUE
89
Evolution des performances de la DLDA en fonction de la normalisation gomtrique

La gure 5.2 reprsente la variation du taux de EER de l'algorithme de la DLDA en fonction de la distance sparant les centres des yeux. Ces expriences sont les rsultats du protocole Exprience 1 de la base FRGC. La base d'apprentissage utilise est la base BA (un sous-ensemble de la partie dveloppement de FRGC, voir chapitre prcdent).
24 22 20 18 EER 16 variation de EER
14 12
10
20
40
60 80 Distance de normalisation
100
120
140
Figure 5.2: Variation du taux de EER de l'algorithme de la DLDA en fonction
de la normalisation gomtrique sur la base FRGC pour l'exprience 1
La courbe de variation 5.2 montre que les rsulats pour les images normalises de petite taille (<20 pixels) ne sont pas trs satisfaisants. Une distance de normalisation de > 25 pixels amliore sensiblement les rsultats, nous passons d'un EER de 24% 15% pour la distance de normalisation de 30 pixels. Les performances de la DLDA se stabilisent partir d'une distance de normalisation suprieure 45 pixels (12% de EER). Le EER atteint une valeur minimum de 9.1% pour une distance de normalisation de 150 pixels. Nous avons choisi une distance de normalisation de 50 pixels entre les centres des yeux. Ce choix nous semble bon pour quilibrer le rapport performance et complexit du systme.
NB : Dans la suite de la thse, le terme normalisation indiquera implicitement

une normalisation gomtrique avec accroissement de la dynamique.
90
5.3 Extraction de l'intensit du pixel de l'espace couleur

La plupart des images des bases de donnes publiques de visage sont en couleurs (BANCA, XM2VTS, FRGCv1, FRGCv2, FERET..). Cette quantication de la couleur est faite dans le systme RVB (Rouge, Vert et Bleu). Les algorithmes de reconnaissance de visages utilisent, gnralement, le niveau de gris comme mesure d'intensit de cette couleur. L'utilisation de la couleur pose un certain nombre de problmes savoir que la couleur dpend fortement de la calibration du capteur. Les niveaux des couleurs ne sont pas perus de la mme manire pour un mme objet sous direntes conditions de l'illumination et la correction de cette variation est trs dicile mettre en oeuvre. En utilisant la mesure de l'intensit d'illumination, nous vitons de travailler avec les composantes couleurs et ainsi de chercher l'espace couleurs optimal qui reprsente les visages. La mesure d'intensit peut tre obtenue par plusieurs transformations du systme RVB [19], je prsente ici les trois transformations les plus utilises dans la littrature : Par moyenne des 3 composantes (Rouge, Vert et Bleu) de l'image ; Par passage un autre espace de couleur TSV (Teinte, Saturation, Valeur) (voir gure 5.3(b)) ; Par passage l'espace de couleur TSL (Teinte, Saturation, Luminance) (voir gure 5.3(c)). La premire solution prsente un grand inconvnient, car mme si l'aspect visuel de l'image reste correct, cette transformation linaire ne prend pas en compte la prpondrance d'une composante couleur par rapport aux autres et le contraste de l'image est alors rduit. La deuxime et la troisime solution expriment mieux, en gnral, le niveau d'intensit des couleurs que le systme RGB. Il ne faut pas confondre le modle TSL avec le modle TSV. En TSV, les couleurs pures et le blanc ont la mme "valeur". En TSL, seul le blanc est considr comme une lumire de 100% [25].
Passage de RVB TSV et TSL

Le passage du systme de couleurs RVB au systme TSV ou TSL se fait par une fonction de transfert non linaire. La dirence entre les systmes de couleurs TSV et TSL, qui nous intressent, rside principalement dans la dnition des composantes "Valeur" et "Luminance".
5.3. EXTRACTION DE L'INTENSIT DU PIXEL DE L'ESPACE COULEUR
91
RVB
TSV
TSL
Figure 5.3: Dirents systmes colorimtriques : (a) plan du systme de couleurs
RVB, (b) cylindre du systme de couleurs TSV, (c) cne du systme de couleurs TSL
Soient min et max, respectivement, les valeurs minimales et maximales des composantes R,V et B (min = minimum(R, V, B) et max = maximum(R, V, B)) et soient x et y les coordonnes d'un pixel de l'image. Les transformations des espaces RVB vers TSV et TSL (Teinte (T), Saturation
92
(S), Valeur (V) et Luminance (L)) sont donnes par les quations suivantes :
non dni, si min = max 60 V B , si max = R et V B max min VB + 360, si max = R et V < B T(x, y) = 60 max min BR 60 + 120, si max = V max min 60 R V + 240, si max = B max min 0, si max = 0 S(x, y) = 1 min , sinon max
Pour le TSV :
V(x, y) = max
Pour le TSL :
L(x, y) =
max + min 2
pour plus de dtails sur ces transformations, voir [25]. Ayant besoin de l'intensit de la couleur, nous allons nous intresser aux composantes "Valeur" et "Luminance", correspondant respectivement aux systmes TSV et TSL. Nous montrerons dans la dernire partie de ce chapitre que pour l'application de reconnaissance des visages, la composante "Valeur" de l'espace TSV donne de meilleurs rsultats que la composante "Luminance" du systme colorimtrique TSL.
(a)
(b)
(c)
(d)
Figure 5.4: Direntes transformations de l'image couleur d'un exemple de la
base FRGC (a) image couleur, (b) niveaux de gris par moyenne des 3 composantes RVB, (c) niveaux de gris par TSL, (d) niveaux de gris par TSV.
5.4. NORMALISATION DE L'ILLUMINATION
93
5.4 Normalisation de l'illumination

Dans le domaine de la reconnaissance par le visage, un certain nombre de mthodes de normalisation de l'illumination ont t prsentes. Ces mthodes peuvent tre classes en 2 grandes catgories, les mthodes bases sur la modication de la dynamique (galisation d'histogramme, galisation d'histogramme adaptative, transformation linaire ou non linaire de l'histogramme ...) [35] et des mthodes bases sur l'estimation de la rectance de l'image (Retinex, MultiScaleRetinex, ltrage homomorphique, mthodes bases sur l'isotropie de la luminance et d'autres sur l'anisotropie de la rectance) [26, 94]. Les 4 normalisations de l'tat de l'art prsentes dans ce chapitre sont les plus utilises dans la reconnaissance du visage et font partie de ces deux catgories. Il s'agit de : L'galisation d'histogramme : Le but de cette normalisation est de rpartir uniformment les niveaux de gris de l'image an d'amliorer son contraste. La correction Gamma [] : cette normalisation permet de rduire l'cart entre les zones sombres et claires du visage par une transformation non linaire des niveaux de gris. Le MultiScale-Retinex [94] : L'objectif de cette mthode est d'estimer la partie luminance de l'image pour en dduire la rectance. Le lissage anisotropique [26] : cette approche estime aussi la luminance de l'image mais en se basant sur l'anisotropie de la rectance. Nous prsentons la n de ce chapitre une mthode originale, qui se base sur l'approche par lissage anisotropique, elle permet de corriger les dfauts de cette mthode et de s'aranchir des problmes d'illumination en prservant l'information texture.
5.4.1 galisation d'histogramme

Cette normalisation appartient la catgorie des mthodes bases sur l'amlioration de la dynamique de l'image. Le but de l'galisation est d'harmoniser la rpartition des niveaux de gris de l'image. Elle permet de tendre vers un mme nombre de pixels pour chacun des niveaux de l'histogramme. Cette opration vise augmenter les nuances dans l'image et donc son contraste [Figure 5.5]. Plus concrtement, si ni est le nombre de pixels un niveau i de gris, la probabilit
94
qu'un pixel x de l'image ait un niveau i est :
p(xi ) =
ni , i 0, .., L n
(5.1)
avec n le nombre total des pixels de l'image et L le nombre des niveaux de gris. La probabilit p reprsente dans ce cas l'histogramme de l'image normalise [0, 1]. Soit c la distribution cumulative de l'histogramme normalis p, elle est donne par :
i
c(i) =
j=0
p(xj )
(5.2)
L'ide est de trouver une transformation y = T(x) qui, pour chaque niveau x de l'image, produira un niveau y de telle faon que la distribution cumulative des dirents niveaux de l'image transforme soit linaire. Cette fonction est dnie c(i) par yi = T(xi ) = L avec L le niveau maximal de gris. n Image originale Image galise
Histogramme original
Histogramme galis
Figure 5.5: Exemple d'galisation d'histogramme
5.4.2 Correction Gamma

Cette normalisation appartient la catgorie des mthodes bases sur la modication de la dynamique de l'image. A l'histogramme original de l'image, on applique une transformation non linaire dans le but de corriger des grandes variations de contraste. Les zones les plus sombres seront alors rehausses alors que les zones brillantes seront rduites :
1
y = x , x 0, .., L
(5.3)
95
avec x le niveau de gris, L le maximum des niveaux de gris, le facteur de correction (en gnral, ce facteur dpend de l'application) et une constante de gain. Pour nos tests, la constante de gain a t xe empiriquement 1 et le facteur de correction a t optimis sur la base de dveloppement de FRGC. Les exemples (1.c) et (2.c) de la gure 5.8 illustrent une correction gamma de l'image du visage. Les deux mthodes MultiRetinex et lissage anisotropique qui seront prsentes la suite, se basent sur la sparation des deux composantes de l'image : la luminance et la rectance. La modlisation de l'image par combinaison de la rectance et de la luminance a t propose par Barrow et Tenenbaum en 1978 [5]. Ceci dit, en raison des dirents facteurs qui peuvent entrer en jeu pour la construction de l'image (l'illumination de l'objet, la gomtrie de la scne acquise, les paramtres de la camra...), une telle modlisation reste trs dicile mettre en uvre. En 1999, Laszlo [90] a propos un modle gnratif de l'image, bas sur la combinaison de l'intgrale de Fredholm et d'une modlisation des paramtres de la camra. Cette modlisation reste assez complexe mettre en uvre 1 . La modlisation par rection diuse de l'image [90] reste la plus utilise :
I(x, y) = L(x, y) R(x, y) cos (x, y)
(5.4)
avec x et y les coordonnes d'un pixel de l'image, I(x, y) le niveau de gris du pixel, L(x, y) l'amplitude de l'illumination en ce point (dpendante de la source),
R(x, y) la rectance du point ou le coecient de rectance (dpendante de la

nature intrinsque de la surface de l'objet) et cos (x, y) le cosinus de l'angle entre le rayon lumineux incident et la surface normale au point de l'objet [Figure 5.6]. En traitement d'image, cette modlisation a t encore plus simplie en intgrant cos (x, y) dans la composante L(x, y). Le modle nal devient alors :
I(x, y) = L(x, y) R(x, y)
(5.5)
Cette modlisation de l'image est loin d'tre parfaite, car elle ne prend pas en compte ni les problmes lis la gomtrie de l'objet (prsence de surfaces qui peuvent crer des ombres sur l'objet...), ni les bruits, ni les facteurs externes la formation de l'image. L'avantage de cette modlisation simple est de pouvoir estimer la rectance d'un objet partir d'une approximation de sa luminance.
1. Le document [90] prsente un grand nombre d'autres modlisations de l'image
96
Figure 5.6: Schmatisation de la rexion diuse. C'est la quantit de lumire I
reu par l'oeil (ou par un capteur). Pour un objet lambertien, c'est la projection de LR sur l'axe vertical, avec LR la rexion du vecteur luminance L sur la surface de l'objet pondr par son coecient de reectance .
L'estimation de la rectance est trs importante, car nous avons ici une possibilit de caractriser un objet indpendamment des problmes lis l'illumination.
5.4.3 MultiScale-Retinex
La luminance peut tre considre comme une version lisse de l'image originale. En eectuant une convolution de l'image originale par un ltre gaussien, nous obtenons une estimation de la luminance. Propose par Edwin H. Land en 1937, cette mthode est appele "retinex " ou "Single Scale Retinex ". Cette ide n'a pas vraiment de preuves physique mais elle a le mrite de donner des rsultats assez exceptionnels.
L(x, y) = I(x, y) G(x, y)
(5.6)
La mthode MSR (MutliScale-Retinex ) est un driv de la mthode "Single Scale Retinex". En 1997, Rahman [94] a propos une estimation de la luminance comme combinaison pondre d'images ltres de l'image originale. Les ltrages se font par des noyaux gaussiens avec direntes variances (dans un sens, c'est une analyse multi-rsolution, d'o le terme "multi-scale").
S
L(x, y) =
j=1
ws (I(x, y) Gs (x, y))
(5.7)
97
avec ws un coecient de pondration et Gs un noyau gaussien avec un cart type
s .
Une fois la luminance dtermine, on peut dduire la rectance de l'objet en divisant l'image des niveaux du gris par l'image luminance.
R(x, y) =
I(x, y) L(x, y)
(5.8)
5.4.4 Lissage anisotropique

Comme pour la mthode multiRetinex l'objectif de cette approche est d'extraire la rectance aprs modlisation de la luminance. La luminance L est aussi considre, pour cette approche, comme une fonction lisse de l'image originale. Cette fonction peut tre construite de faon avoir une image similaire l'originale en imposant une contrainte sur la fonction de lissage. La luminance est construite alors en minimisant la fonctionnelle J :
J(L) =
y x
(L I)2 dxdy + c
y x
(L2 + L2 )dxdy x y
(5.9)
Le premier terme de la fonctionnelle J modlise la ressemblance entre I et L et le deuxime terme modlise la contrainte de lissage avec c le coecient de contrle de la contrainte de lissage et Lx et Ly les drivs de L dans les deux directions x et y . Le problme 5.9 correspond un problme de minimisation de fonctionnelle qui se rsout par l'quation d'Euler-Lagrange qui a comme solution :
(L I) + c(Lx + Ly = 0)
(5.10)
En discrtisant cette solution sur le voisinage de chaque pixel [Figure 5.7], on aboutit la solution discrte suivante :
Ii,j = Li,j + c(
avec :
N Li,j S Li,j E Li,j W Li,j
N Li,j
S Li,j
E Li,j
W Li,j )
(5.11)
= Li,j Li1,j = Li,j Li+1,j = Li,j Li,j+1 = Li,j Li,j1
Gross et Brajovic [26] ont propos de gnraliser la fonctionnelle J de l'quation 5.9 en ajoutant un poids (i, j) au premier terme pour modliser au mieux
98
Figure 5.7: Discrtisation au voisinage d'un pixel
la perception relle de l'il humain (d'aprs les travaux de Weber en vision et neurobiologie).
J(L) =
y x
(L I)2 dxdy + c
y x
(L2 + L2 )dxdy x y
(5.12)
La solution pour l'quation 5.12 est donne par
c I = L + (Lx + Ly )
(5.13)
En discrtisant cette solution sur le voisinage de chaque pixel, on aboutit :
Ii,j = Li,j + c(
Avec :
1 N
N Li,j
1 S
S Li,j
1 E
E Li,j
1 W
W Li,j )
(5.14)
|Ii,j Ii1,j | min(Ii,j , Ii1,j ) |Ii,j Ii+1,j | S = min(Ii,j , Ii+1,j ) |Ii,j Ii,j+1 | E = min(Ii,j , Ii,j+1 ) |Ii,j Ii,j1 | W = min(Ii,j , Ii,j ) N =
Ce coecient est appel "coecient de weber". Une fois la luminance dtermine, on peut dduire la rectance, comme pour la mthode MultiRetinex, en divisant l'image des niveaux du gris par l'image luminance.
R(x, y) =
I(x, y) L(x, y)
(5.15)
99
Normalisations d'une image sans problmes d'illumination (1.a) (1.b) (1.c) (1.d) (1.e)
Normalisations d'une image avec problmes d'illumination (2.a) (2.b) (2.c) (2.d) (2.e)
Figure 5.8: Normalisation du visage : (x.a) gomtrique, (x.b) galisation d'his-
togramme, (x.c) Gamma, (x.d) MultiScale-Retinex et (x.e) lissage anisotropique
5.4.5 Nouvelle mthode de correction de l'image par transformation de l'illumination

Comme prsent dans la premire partie de ce chapitre, les deux approches utilises dans la reconnaissance par le visage se basent sur la correction de la dynamique ou sur la sparation de la luminance et de la rectance de l'image. Chacune de ces approches prsente des avantages et des inconvnients. Les normalisations utilisant la correction de la dynamique considrent l'image comme une matrice de pixels indpendants, comme c'est le cas pour l'galisation d'histogramme ou la correction. Pour les approches de normalisation qui se basent sur l'extraction de la rectance, l'inconvnient rside dans la perte d'information lie la suppression de la composante luminance. Comme nous l'avons dj cit, l'estimation de la luminance est faite sur une modlisation assez simpliste de l'image. La suppression de cette composante entrane invitablement une suppression d'une information importante pour la discrimination des visages. Nous pouvons mme remarquer qu'en ne se basant que sur la rectance du visage, l'information sur la texture est limine (Figure 5.8, (x.d) et (x.e)). Fort de ces remarques, nous proposons, dans la suite du chapitre, une nouvelle mthode de normalisation qui tire avantage de ces deux types d'approches, savoir
100
que la correction de la dynamique ne se fera que sur la luminance de l'image 2 . La mthode que nous proposons est applique en plusieurs tapes : sparation de la luminance et de la rectance. correction de la luminance par symtrie et transformation non linaire. reconstruction de l'image partir de la luminance corrige et de la rectance originale. Les formulations de ces tapes sont dcrites ci-dessous :
Io = Lo Ro Ls = T(Lo ) Is = Ls Ro
(5.16) (5.17) (5.18)
avec Io l'image originale, Lo la luminance, Ro la rectance et T la transformation de la luminance. An d'eectuer la sparation de la luminance et de la rectance du visage, nous nous basons sur la mthode du lissage anisotropique [26]. Pour comparer deux images de visage, l'idal serait d'avoir des images acquises dans exactement les mmes conditions d'illumination. En gnral, dans les applications relles, cette condition ne peut tre satisfaite et les conditions d'acquisition, et surtout celle de l'illumination, sont gnralement alatoires. Plusieurs tudes ont propos des mthodes d'alignement de l'illumination entre l'image rfrence et l'image test [7,23,24,97]. L'inconvnient de ces mthodes est la ncessit d'utiliser plusieurs images sous plusieurs conditions d'illumination pour crer un modle de la personne. La mthode que nous proposons a pour but d'aligner l'illumination des images des visages suivant une direction unique. Par ailleurs, l'objet "visage" prsente une symtrie axiale verticale ainsi qu'une forme qui peut tre approxime une forme cylindrique ou sphrique. Cet objet peut donc tre approxim un objet surface lambertienne. En partant d'une direction d'illumination quelconque (Figure 5.9, (a)), notre but est de transformer l'illumination de l'image originale an d'avoir une direction d'illumination de rfrence, comme montr par la gure 5.9, (b). Le vecteur d'illumination L peut tre dcompos en somme de deux vecteurs :
L = ( L a + L a )
(5.19)
2. La rectance est une information intrinsque du visage due la nature de la peau, calcule sur chaque pixel de l'image. Une modication de l'information luminance entranera une modication importante sur le visage.
101
Figure 5.9: Schma des modles de l'illumination : (a) modle de l'illumination
originale, (b) modle d'illumination aprs alignement
avec L a le vecteur d'illumination originale, L a = L a et un coecient de

gain (Figure 5.10).
Figure 5.10: Dcomposition de l'illumination rfrence en somme de deux illu-
minations verticalement symtriques.
Soit I l'image du visage avec une illumination verticale de rfrence L. D'aprs le modle (Eq. (5.5)), I = L R et (Eq. (5.19))
I = R L2 + La2 a
(5.20)
La composante La peut facilement tre obtenue en considrant l'image symtrique de l'image du visage. En eet, si on considre le visage comme un objet parfaitement symtrique partir de l'information luminance sur la moiti du vi-
102
sage l'image miroir, nous permet d'obtenir l'illumination des pixels de l'autre moiti, comme prsente dans l'exemple de la Figure 5.11. (a) (b)
Figure 5.11: Exemple d'une illumination originale en (a) et d'une illumination
symtrique en (b)
Nous considrons la n de cette tape, une transformation logarithmique de l'intensit de l'illumination, ce qui revient appliquer une correction gamma sur l'image de l'illumination. Notre nouvelle approche est base, sur l'hypothse que le visage est un objet surfaces parfaitement lambertiennes, sauf que cette caractristique n'est pas vraie et le visage peut comporter des zones et des surfaces non lambertiennes qui induisent donc invitablement des ombres (portes ou propres 3 ). Mme si notre approche ne prend pas en compte les parties non lambertiennes, elle permet de corriger de manire importante l'illumination de l'image du visage, comme le montrent les exemples de la gure 5.12. La gure 5.13 montre deux exemples de toute la chane de correction de l'image du visage.
3. Une ombre porte est l'ombre d'un objet sur une autre surface et l'ombre propre est l'ombre qui apparat sur le mme objet lorsque un volume de celui-ci se soustrait aux rayons incidents.
103
(a)
(b)
Figure 5.12: Exemples de correction de l'illumination par symtrie axiale : (a)
l'illumination originale et (b) l'illumination aprs correction
104
Correction d'une image sans problmes d'illumination
Correction d'une image avec problmes d'illumination
Figure 5.13: Correction de l'image du visage par transformation de l'illumination
5.5. RSULTATS ET ANALYSES
105
5.5 Rsultats et analyses

An de comparer les direntes approches, nous avons considr les deux bases de donnes publiques FRGCv2 et BANCA. Pour la base FRGC, nous avons utilis les deux protocoles de reconnaissance, Experience 1 et Exprience 4, et nous avons valid les rsultats sur la base BANCA en considrant les deux protocoles P et Mc (voir le chapitre 3 section 3.4 pour plus de dtails).
5.5.1 Comparaison entre les direntes transformations en niveaux de gris

Dans la premire partie du chapitre, nous avons prsent les direntes mthodes d'extraction des niveaux de gris partir d'une image couleur. Les tableaux 5.1 et 5.2 montrent les rsultats de reconnaissance de l'algorithme DLDA appliqu aux direntes approches. Les rsultats sont donns sur la base FRGC (Exprience 1) ainsi que sur la base BANCA (protocole Mc). Ces protocoles "propres" ont t choisis an de pouvoir comparer les rsultats indpendamment des problmes d'illumination qui peuvent entacher les analyses. Point de fonctionnement EER VR RVB 10.1 55.2 TSL 7.5 64.5 TSV 6.5 68.2
Table 5.1: Rsultats de la DLDA donns pour les direntes mthodes d'extrac-
tion des niveaux de gris (RVB, TSL, TSV) sur la base FRGC aux deux points de fonctionnement EER et VR@0.1% de FAR (Exprience 1)
Point de fonctionnement EER
RVB 15.2
TSL 13.2
TSV 11.1
Table 5.2: Rsultats de la DLDA donns pour les direntes mthodes d'extrac-
tion des niveaux de gris sur la base BANCA au point de fonctionnement EER (Protocole Mc) Les performances obtenues en utilisant la composante "Valeur" du systme de couleurs TSV prsentent un avantage net par rapport l'approche par moyenne des composantes RVB et un lger avantage par rapport de la composante luminance du systme colorimtrique TSL.
106
La dirence de rsultats entre le tableau 4.3 et les tableaux 5.1 et 5.2 s'explique par l'utilisation d'un prtraitement par galisation d'histogramme pour les images de tests du tableau 4.3. Dans la suite, nous allons considrer la composante "Valeur" du systme de couleurs TSV comme mthode d'extraction des niveaux de gris pour les dirents tests et protocoles.
5.5.2 Comparaison des direntes mthodes de normalisation

Les rsultats de l'algorithme DLDA appliqu aux direntes mthodes de normalisation de l'illumination (galisation d'histogramme, correction Gamma, Multiretinex, lissage anisotropique et correction de la luminance par symtrie) sont prsents dans le tableau 5.3 pour les protocoles de test de FRGC en terme de VR@0.1% de FAR et dans les gures 5.14 (a) et (b) en terme de courbes ROC. Le tableau 5.4 prsente les rsultats de la DLDA applique la base BANCA pour les deux protocoles P et Mc. Les rsultats sont donns en terme de EER. Exprience 1 Exprience 4 EH 86%[0.5] 32%[1.1] Gamma 81%[0.4] 33%[1.1] Multiretinex 75%[0.8] 36[1.1] L. anisotropique 77%[0.8] 38% [1.0] C.L.S 83%[] 44%[0.9]
EH : galisation d'histogramme C.L.S : Correction de la luminance par symtrie.
Table 5.3: Rsultats de reconnaissance de la DLDA applique direntes m-
thodes de pr-traitement. Les rsultats sont prsents au point de fonctionnement VR @0.1% de FAR sur la base FRGC pour les expriences 1 et 4.
Protocole Mc Protocole P
EH 12.1%[1.2] 16.1%[1.5]
Gamma 11.5%[1.2] 15.5%[1.4]
Multiretinex 10.1%[1.1] 13.2[1.3]
L. anisotropique 9.3%[0.9] 11.1% [1.2]
C.L.S 6.5%[0.6] 9.8%[0.9]
Table 5.4: Rsultats de reconnaissance de la DLDA appliqu direntes m-
thodes de pr-traitement. Les rsultats sont prsents au point de fonctionnement EER sur la base BANCA pour les protocoles Mc et P. Nous pouvons dduire de ces rsultats l'importance du choix du pr-traitement,
lorsque les conditions d'acquisition sont non contrles. En eet une attnuation de la variation de l'illumination entre les images de rfrence et les images de test est ncessaire an d'amliorer les performances de la reconnaissance. Lorsque la variation de l'illumination entre l'image de rfrence et celle de test n'est pas trs grande, comme c'est le cas pour l'exprience 1 de FRGC et le protocole Mc
5.6. CONCLUSION
107
(a) base FRGC
(b)
Figure 5.14: Courbes ROC de l'exprience 1 (a) et de l'exprience 4 (b) de la
de BANCA, une simple galisation d'histogramme est susante. Dans le cas de l'exprience 4 de FRGC et du protocole P de BANCA, les algorithmes de prtraitement se basant sur la rectance de l'image ont montr leur robustesse. La robustesse de la mthode de pr-traitement que nous avons propose est dmontre par les performances de l'algorithme DLDA.
5.6 Conclusion
Dans ce chapitre nous avons prsent les mthodes de pr-traitement de l'image du visage, qui sont les plus utilises dans la littrature, savoir l'galisation d'histogramme, la correction gamma, le multiscale-retinex et le lissage anisotropique. Nous avons aussi propos une nouvelle mthode de pr-traitement base sur la sparation de la rectance et de la luminance dans un premier temps, puis sur une correction de la luminance par symtrie et par transformation non linaire et enn, sur la reconstruction de l'image du visage partir de la rectance originale et la luminance corrige. Cette mthode a montr sa robustesse dans les conditions d'illumination diciles. En eet, les tests pour les protocoles diciles de FRGC et de BANCA ont montr que notre approche couple la DLDA apporte une relle amlioration des performances. Finalement, lorsque les images de rfrence et de test sont acquises dans des conditions d'illumination et de qualit contrles, une simple galisation d'histogramme permet d'avoir les meilleurs rsultats et aucun autre pr-traitement
108
n'est alors ncessaire. Lorsqu'une variation de l'illumination est prsente entre l'image de rfrence et l'image de test (l'exprience 4 de FRGC et le protocole P de BANCA), un pr-traitement est ncessaire pour limiter l'inuence de cette variation.
Chapitre 6
Analyse globale du visage base sur le ltrage de Gabor

6.1 Introduction
Dans le domaine de la reconnaissance des formes, l'analyse par ltrage de Gabor s'est avre particulirement approprie pour la reprsentation et la discrimination de la texture. Les caractristiques directement extraites par ltrage de Gabor, partir des images des pixels, ont t largement utilises dans l'identication d'empreintes digitales [45], la segmentation de la texture [34], et particulirement dans l'identication de l'iris [18]. Comme cites dans le chapitre 2, elles ont t galement employes pour l'identication de visage [49, 84, 105]. Dans ce chapitre, nous rappelons tout d'abord la dnition des ondelettes de Gabor et nous proposons une tude approfondie des dirents paramtres caractrisant ces ondelettes qui permettent d'optimiser les analyses suivant les caractristiques de l'image du visage analyser (dimensions, texture..). Dans la deuxime partie, nous introduisons l'utilisation de la phase de Gabor. Nous expliquons le problme principal li l'utilisation de cette phase et nous proposons une solution pour remdier ce problme. Le systme de reconnaissance que nous avons adopt dans notre tude est bas sur l'algorithme de rduction d'espace par DLDA (Direct Linear Discriminant
Analysis, chapitre 4), appliqu la reprsentation d'amplitude et de phase de

Gabor. Nous montrons que le couplage de l'amplitude et de la phase corrige de 109
110
CHAPITRE 6. ANALYSE GLOBALE PAR FILTRAGE DE GABOR
la reprsentation de Gabor apporte une relle amlioration des performances par rapport une simple utilisation de l'amplitude. La dernire partie de ce chapitre est consacre l'analyse des rsultats des direntes expriences que nous avons eectues sur les bases FRGC et BANCA et nous donnons les rsultats de l'valuation visage 2D de la campagne IV2 .
6.2 Filtrage de Gabor et extraction des caractristiques

La mthode de reconnaissance que nous avons adopte repose, principalement, sur l'extraction des caractristiques du visage par ltrage de Gabor 2D. Les ltres de Gabor sont connus comme un moyen d'analyse espace-frquence trs robuste. Cette spcicit a fait des ltres de Gabor un moyen puissant d'analyse de texture et de classication. Les ltres de Gabor analysent la texture d'un objet suivant direntes rsolutions et dirents angles. Dans le domaine spatial, un ltre de Gabor 2D est une fonction noyau gaussien module par une onde sinusodale plane complexe :
G(x, y) =
1 [ (xx0 )2 + (yy0 )2 ] i[0 x+0 y] 2 2 e e 2
(6.1)
o (x0 , y0 ) est le centre du ltre de Gabor dans le domaine spatial, 0 et 0 les frquences spatiales du ltre, et et les cart-types spatiaux de la gaussienne elliptique le long de x et de y (Figure 6.1). Tous les ltres peuvent tre produits partir d'une ondelette mre par dilatation et par rotation de celle-ci. Chaque ltre a la forme d'une onde plane avec une frquence f , limite par un cart-type correspondant l'enveloppe gaussienne.
Extraction des caractristiques

La reprsentation de Gabor d'une image de visage est obtenue par la convolution de l'image avec la famille des ltres de Gabor, dnie par IG(r,o) = I G(r,o) o IG(r, o) est le rsultat de la convolution de l'image par le ltre de Gabor une certaine rsolution r et une orientation o. La famille de ltres de Gabor est alors caractrise par un certain nombre de rsolutions, d'orientations et de frquences, qui seront appeles "caractristiques" par la suite. Comme on peut le remarquer dans l'quation 6.1, les ltres de Gabor ont une forme complexe qu'il est possible d'exploiter. En eet, tant en quadrature de
6.2. FILTRAGE DE GABOR ET EXTRACTION DES CARACTRISTIQUES
111
(a)
(b)
Figure 6.1: Partie relle (a) et imaginaire (b) du ltre de Gabor
(a)
(b)
Figure 6.2: Parties relles (a) et imaginaires (b) du ltre de Gabor 4 niveaux
de rsolution et selon 4 orientations (les colonnes reprsentent les orientations et les lignes, les rsolutions)
phase, il est important d'utiliser les informations donnes par la partie relle et la partie imaginaire des coecients de Gabor. Deux choix triviaux s'orent nous : l'tude de l'amplitude et l'tude de la phase de Gabor. Dans [62], Oppenheim a dmontr que la phase des analyses multi-rsolutions est plus informative que les amplitudes qui peuvent sourir des problmes d'illumination.
112
L'amplitude et la phase seront notes respectivement par :
M(IGr,o (x, y)) =

et
Im(IGr,o (x, y))2 + Real(IGr,o (x, y))2 Im(IGr,o (x, y)) ) Real(IGr,o (x, y))
(6.2)
P(IGr,o (x, y)) = arctan(
(6.3)
(a)
(b)
Figure 6.3: Rsultats de la convolution d'une image de visage avec une famille
de 16 ltres de Gabor (4 orientations (horizontales) et 4 rsolutions (verticales)). l'ensemble (a) reprsente les amplitudes et (b) les phases de cette convolution
6.3 Reprsentation du visage et choix des ltres de Gabor

La majorit des approches se basant sur le ltrage de Gabor pour la reconnaissance de visage (approches globales par rduction d'espace ou approches locales par points caractristiques) utilisent uniquement l'amplitude de la rponse ou la fusion de l'amplitude et de la partie relle [49, 84, 105]. L'utilisation de ces reprsentations est rarement argumente et la non-utilisation de la phase de Gabor est, dans la plupart des cas, justie par une instabilit temporelle de la rponse. Par exemple, pour l'EGM (Elastic Graph Matching [100]) et ses variantes, le calcul de similarit entre deux images de visage se base sur les amplitudes
6.3. REPRSENTATION DU VISAGE ET CHOIX DES FILTRES DE GABOR 113
des rponses des ltres de Gabor. La phase est seulement utilise pour aner la dtection des noeuds. Dans [49], l'auteur a publi les meilleurs rsultats connus pour la base de donnes FRGC pour l'exprience 4 avec un taux de VR@0.1% qui s'lve 78%. Dans son tude, l'auteur utilise la fusion entre amplitude et partie relle des rponses du ltrage comme reprsentation du visage, en se basant sur l'approche par rduction d'espace KFA (Kernel Fisher Analysis ) comme algorithme de reconnaissance.
6.3.1 Inuence des caractristiques de la famille des ltres de Gabor sur les performances de la reconnaissance
Nous commencerons par tudier l'inuence des caractristiques des familles des ltres de Gabor sur les performances de la reconnaissance pour en dduire le choix optimal. La reprsentation de l'image considre, ce stade du chapitre, est l'amplitude des rponses des ltres de Gabor. L'image d'entre est une image de visage normalise gomtriquement en xant une distance de 50 pixels entre les yeux, ce qui quivaut une taille d'image de 128x128 (pixels). Nous considrons la composante "Valeur" de l'image couleur dans l'espace HSV comme mesure d'intensit du pixel (voir chapitre 5). Une simple galisation d'histogramme est considre comme tape de pr-traitement. L'algorithme de reconnaissance utilis dans ce chapitre est la DLDA (voir chapitre 4) applique l'amplitude des rponses des ltres de Gabor (gure 6.3(a)). Chacune des 16 images amplitude correspondant une orientation/chelle est transforme en un vecteur par balayage des colonnes. Ces 16 vecteurs sont ensuite concatns dans un unique vecteur qui sera considr comme la nouvelle reprsentation du visage. La mesure de similarit utilise est le cosinus entre les reprsentations projetes sur le sous espace adquat. An de simplier l'optimisation du choix des ltres, nous mettons en place un protocole d'valuation rduit par rapport aux protocoles d'valuation de FRGC. Pour cela, nous allons considrer un ensemble de 220 personnes avec 10 images par personne (5 images seront utilises comme rfrence et 5 images comme test). Pour chaque client, 10 imposteurs, choisis alatoirement parmi les 219 personnes restantes, lui sont associs. Ce protocole, qui sera not par la suite PEG (Protocole
d'Evaluation de Gabor) comporte 5000 tests intra-classes et 50.000 tests interclasses.
114
La base d'apprentissage de l'espace de rduction par DLDA est constitue des donnes des mmes 220 personnes. Nous choisissons 5 images par personne, n'appartenant pas la base de test pour construire les 200 classes d'apprentissage. Dans cette premire phase, nous choisissons de limiter le nombre des niveaux de rsolution et d'orientation des ltres de Gabor respectivement 6 rsolutions et 8 orientations. Le tableau 6.1 prsente les dirents rsultats de reconnaissance en terme d'EER pour chaque niveau de rsolution considr indpendamment des autres niveaux et en variant le nombre d'orientations des ltres par niveau. Niveau de rsolution 1 2 3 4 5 6 2 orientations 5.94[0.45] 3.46[0.41] 3.95[0.42] 7.62[0.54] 18.56[1.5] 28.6[2.5] 4 orientations 2.65[0.35] 1.56[0.36] 3.05[0.4] 6.47[0.51] 15.86[1.1] 27.8[2.3] 8 orientations 1.41[0.35] 1.31[0.32] 3.09[0.4] 6.68[0.52] 13.16[0.8] 26.6[2.3]
fonction du nombre d'orientations choisi par le ltrage de Gabor sur le protocole PEG Les rsultats de cette premire exprience montrent clairement que les niveaux de rsolution les plus ns (niveau 1 3) analysent mieux les caractristiques discriminantes que les niveaux les plus "grossiers" (niveau 4 6). Une augmentation du nombre des orientations ajoute dans la majorit des cas de la robustesse l'analyse ; pour les niveaux 3 et 4 l'augmentation des orientations reste stable au vue de l'intervalle de conance . Il est donc utile d'exploiter un nombre maximal d'orientations et de plus l'utilisation des niveaux d'analyse les plus ns (infrieurs 3 niveaux) favorise la discrimination entre les visages. L'intrt de l'utilisation du ltrage de Gabor rside dans la complmentarit des niveaux d'analyse (appele aussi "analyse multi-rsolution"). Le tableau 6.2 prsente les rsultats de combinaison des dirents niveaux en choisissant de xer 8 le nombre d'orientation. Si on considre le point EER comme le point de fonctionnement de notre systme, il est clair que les niveaux de rsolution suprieurs 2 n'apportent pas d'amlioration (au vu des rsultats dans l'intervalle de conance). Le comportement du systme change radicalement au point de fonctionnement de VR@0.1% de FAR (une scurit accrue contre l'imposture). Les rsultats montrent que deux
Table 6.1: Performances en EER [CC] pour chaque niveau de rsolution en
Nombre de niveaux 1 2 3 4 5 6
EER [IC] 1.41[0.35] 0.75[0.23] 0.76[0.24] 0.68[0.23] 0.69[0.24] 0.71[0.25]
VR @0.1% de FAR [IC] 80.2[2.3] 87.2[2.1] 89.5[2.1] 97.2[0.4] 97.3[0.4] 96.8[0.4]
Table 6.2: Rsultats en EER et en VR@0.1% de FAR des combinaisons cumula-
tives des dirents niveaux de rsolution avec 8 orientations pour le protocole de test PEG
niveaux de rsolution ne sont pas susants mais qu' partir de 4 niveaux de rsolution, les rsultats se stabilisent. Nous choisissons d'tudier notre systme aux points de fonctionnement VR@0.1% de FAR an de pouvoir comparer nos rsultats ceux de la littrature. De plus, la stabilit de ces rsultats partir d'un certain niveau de rsolution s'explique par la capacit de l'algorithme de la DLDA extraire les vecteurs de l'espace de rduction en se basant sur les donnes discriminantes. On remarque, en outre, qu' partir du niveau 4 de rsolution, l'analyse par ltrage de Gabor n'est plus trs discriminante (en d'autres termes, il n'y a plus d'information supplmentaire qui permet de sparer les classes). Pour conrmer cette hypothse, nous avons mesur la similarit des axes principaux produits par la DLDA partir du 4me niveau de rsolution. La gure 6.4 montre les mesures de similarit (cosinus de l'angle) des axes construits par les 4, 5 et 6 premiers niveaux. Le tableau 6.3 donne les moyennes et les cart-types entre les niveaux 4-5 et 4-6. Niveaux 4-5 4-6 Moyenne 0.95 0.96 cart-type 0.01 0.01
Table 6.3: Moyenne et cart-types des similarits entre les axes principaux de la
DLDA construits par les 4, 5 et 6 premiers niveaux
Les rsultats de la gure 6.4 (rsums dans le tableau 6.3) qu' partir d'un certain niveau de rsolution (niveau 4), l'information rajoute n'est plus discriminante. Au vu des rsultats, nous avons x 4 le niveau maximal de rsolution et 8 le nombre d'orientations. Ces caractristiques seront utilises par la suite.
116
mesure de similarites
0.95
0.9
Similarites 45 Similarites 46 moyenne 45 moyenne 46
0.85
20
40
60
80
100 120 Axes principaux
140
160
180
200
220
Figure 6.4: Mesure de similarits entre les axes principaux de la DLDA construits
par les 4,5 et 6 premiers niveaux
6.3.2 tudes des performances suivant le choix des reprsentations de Gabor

Dans la partie prcdente, nous avons choisi uniquement l'amplitude des rponses des ltres de Gabor comme reprsentation du visage. Nous prsentons dans cette section les direntes performances obtenues en fonction des reprsentations de Gabor possibles.
Problme de l'utilisation de la phase de Gabor pour les visages

Lorsque nous considrons une image normalise du visage (distance xe entre les centres des yeux), certaines parties du visage n'ont aucune texture informative qui pourrait tre analyse par les basses rsolutions des ltres de Gabor. Pour ces rgions, l'analyse par ltrage de Gabor donne Real(IGs,o ) 0 et Im(IGs,o ) 0. Mme si ces valeurs sont trs prs de 0, l'amplitude de la convolution n'est pas aecte par ce problme, alors que la phase devient une forme indtermine pour ces rgions spciques. Pour viter les formes indtermines, nous proposons de slectionner les rgions informatives par seuillage de l'amplitude chaque point d'analyse.
arctan( Im(IGs,o (x, y)) ) si M(IG )(x, y) > Th s,o Real(IGs,o (x, y)) P(IGs,o (x, y)) = 0 si
(6.4)
o (x, y) sont les coordonnes du point analys et Th est le seuil de slection de la phase.
Optimisation du seuil pour la slection de la phase

An d'tudier l'inuence du seuillage de la phase en fonction des performances, nous exploitons encore une fois le mme protocole d'valuation not PEG construit dans la premire partie du chapitre. La gure 6.5 montre l'volution des taux de EER et de VR@0.1% de FAR en fonction du seuil Th. Les courbes de la gure 6.5 montrent que la variation du taux de reconnaissance en utilisant la phase de Gabor est bien lie aux seuils du ltrage. En ne xant pas de seuil de ltrage, les rsultats de la reconnaissance se dgradent considrablement (gure 6.5), ils dcroissent 79% de VR@0.1% de FAR depuis la valeur maximale de 93%. La mme tude a t publie dans [68] mais avec les tests pour l'exprience 1 et l'exprience 4 de FRGC et le mme comportement est observ pour le taux de VR@0.1% de FAR.
Comparaison des performances suivant la reprsentation du visage

Le tableau 6.4 et la gure 6.6 rsument les performances en EER de la DLDA applique aux direntes reprsentations de Gabor (amplitude, phase, partie relle et partie imaginaire) pour le protocole PEG. Nous xons les paramtres de la famille des ltres de Gabor 4 niveaux de rsolution et 8 orientations. Reprsentation de Gabor Amplitude Phase Relle Imaginaire tions de Gabor EER 0.68% 1.76% 2.12% 2.11% VR@0.1% de FAR 93.4% 89.20% 80.40% 80.41%
Table 6.4: Rsultats en EER et en VR@0.1% de FAR des direntes reprsenta-
Les rsultats montrent clairement que l'utilisation de la partie relle ou de la partie imaginaire est beaucoup moins discriminante si les deux parties sont
118
(a)
5.5
4.5
4 EER
3.5
2.5
1.5 3 10
10
10 Seuil de filtrage de la phase
10
(b)
90
85 VR @0.1% de FAR 80 75 3 10
10
10 Seuil de filtrage de la phase
10
Figure 6.5: volution des taux de EER (a) et de VR@0.1% de FAR (b) en
fonction du seuil Th pour le protocole PEG
Verification Rate
0.95
0.9 DLDA (Amplitude 4-8) DLDA (Phase 4-8) DLDA (Imaginaire 4-8) DLDA (Reelle 4-8) 0.01 False Accept Rate 0.1 1
0.85 0.001
Figure 6.6: Courbes ROC des direntes reprsentations de Gabor pour le pro-
tocole PEG avec une famille de ltres 4 rsolutions et 8 orientations
utilises sparment. La combinaison de la partie relle et de la partie imaginaire (en amplitude ou en phase) amliore les performances de faon signicative.
6.3.3 Fusion de l'amplitude et de la phase des reprsentations de Gabor

Pour notre approche, nous avons tudi la combinaison de l'amplitude et de la phase, motive par le fait que l'information utile de la texture est situe dans la phase de l'analyse par ltres de Gabor [63] ainsi que par le succs de l'utilisation de la phase en identication de l'iris [18] . La fusion de l'amplitude et de la phase se fait par concatnation dans un seul vecteur de ces deux informations comme expliqu dans la section 6.3.1. Ce vecteur est ensuite rduit par chantillonnage 1 et sera considr comme la nouvelle reprsentation du visage. Le tableau 6.5 prsente les direntes rsultats de fusion obtenus sur le protocole PEG. Les rsultats montrent clairement que la fusion avec la phase de Gabor apporte une relle amlioration des performances. Une validation de ces rsultats avec
1. pour des raisons de limitation de mmoire nous ne gardons qu'un huitime de l'information.
120
Reprsentation de Gabor Amplitude Amplitude + Phase Amplitude + Partie Relle Amplitude + Partie Imaginaire reprsentations de Gabor
EER 0.68%[ 0.08%] 0.45%[0.02%] 0.64%[0.05%] 0.67%[0.08%]
VR@0.1% de FAR 93.4%[0.18%] 96.9%[0.11%] 94.2%[0.15%] 93.4%[0.18%]
Table 6.5: Rsultats en EER et en VR@0.1% de FAR des direntes fusions des
d'autres mthodes de classication est ncessaire pour conrmer l'apport rel de la fusion amplitude-phase.
6.3.4 Validation de la fusion de l'amplitude et de la phase corrige sur des algorithmes de rduction d'espace base de noyau
Les algorithmes de reconnaissance des visages par projection dans les espaces rduits ont connu une volution signicative avec l'application des noyaux non linaires partir de 2000 [56, 57, 81]. Ces mthodes ont dmontr, dans la littrature, leur supriorit par rapport aux approches linaires classiques. Nous pouvons citer comme mthode la GDA (General Discriminant Analysis ) [56] et l'analyse non linaire discriminante de Fisher (KFDA ou KFA, Kernel Fisher Discriminant
Analysis ) [57]. L'ide principale qui soutend ces approches non linaires est que
les reprsentations des visages sont non linairement sparables. Une projection par noyaux non linaires des visages dans un espace de plus grande dimension, devrait donc permettre de mieux les sparer. L'ecacit de cette technique a t conrme par l'amlioration des rsultats dans les tudes dj cits ainsi que dans [49]. Dans cette dernire publication Liu en 2006 a utilis la KFA applique aux reprsentations constitues par l'amplitude et la partie relle des rponses de Gabor.
NB :La complexit algorithmique et les longs dlais d'excution de ces algorithmes (dvelopps l'INT et non optimiss), ne nous permettent pas d'exploiter de faon ecace ces approches sur des grandes base de donnes comme FRGC. Toute fois, nous prsentons, dans la suite, les rsultats de performance de la GDA, de la KFA ainsi que les deux approches globales classiques, la LDA et la DLDA, appliques aux paramtres rsultants de la fusion de l'amplitude et de la phase corrige pour le protocole PEG. Les courbes ROC de la gure 6.7 conrment la supriorit des approches se basant sur la rduction d'espace par noyaux non linaires par rapport aux
6.4. RSULTATS SUR LA BASE FRGC
121
Verification Rate
0.95
0.9 0.001
DLDA(Amplitude,phase) GDA(Amplitude,phase) KFA(Amplitude,phase) LDA(Amplitude) LDA(Amplitude,phase) 0.01 False Accept Rate 0.1 1
Figure 6.7: Courbes ROC des direntes mthodes pour le protocole PEG
approches linaires. Nous pouvons constater aussi que l'algorithme de la DLDA, appliqu la fusion de l'amplitude et de la phase, rduit de faon signicative l'cart de performance avec les approches non linaires. L'adoption de cette approche (DLDA applique la fusion de l'amplitude et de la phase) nous semble un bon compromis entre performance et complexit algorithmique.
6.4 Rsultats sur la base FRGC et positionnement de notre systme par rapport la littrature
La base FRGC est la base publique la plus importante en terme de donnes disponibles. Nous avons appliqu notre approche (fusion amplitude et phase de Gabor) sur les deux expriences 1 et 4 an de pouvoir comparer correctement nos rsultats par rapport ceux de la littrature. Pour ces expriences, nous avons choisi d'utiliser la normalisation photomtrique par lissage anisotropique (voir chapitre 5 ou [26]) car la plupart des algo-
122
rithmes de la littrature prsents utilisent cette mme normalisation. Algorithme Exprience Rsultats de la fusion (amplitude et phase) LDA Exp1 Exp4 DLDA Exp1 Exp4 GDA Exp1 Exp4 KFA Exp1 Exp4 Rsultats de la littrature sur la base FRGC KFA [49] Exp1 Exp4 HEGM (Cognitec) Exp1 Exp4 Fusion hirarchique de classieurs [88] Exp1 Exp4 VR@0.1% de FAR [IC] 87.62%[0.14] 50.22%[0.31] 92.62%[0.1] 60.25% [0.31] 94.9% [0.08] 72.2% [0.21] 95.3% [0.08] 74.2% [0.20] 78.2% 60.2% 86%
Table 6.6: Rsultats de la reconnaissance par fusion amplitude-phase en taux de
VR@0.1% de FAR pour les deux expriences 1 et 4 de la base FRGC ainsi que quelques rsultats de la littrature Les rsultats du tableau 6.6 conrment les rsultats obtenus dans la section prcdente. Les approches base de noyaux apportent une relle amlioration des performances de reconnaissance des visages dans les deux conditions de tests. Exemple pour un gain relatif de performance de 38% entre la LDA et la KFA pour l'exprience 1 et de 35% pour l'exprience 4. Nous constatons aussi une dirence de rsultats entre notre approche par
KFA applique la fusion de l'amplitude et de la phase et les rsultats de l'approche de Liu [49] qui se base sur l'amplitude et la partie relle (74.2% de VR@0.1% de FAR contre 78.2%). Ceci pourrait s'expliquer par une dirence d'implmentation de l'algorithme ou dans les paramtres de la normalisation photomtrique utilise.
6.5 Rsultats sur d'autres bases

Nous prsentons dans cette section les rsultats sur la base BANCA ainsi que sur la base IV2 .
6.5. RSULTATS SUR D'AUTRES BASES
123
6.5.1 Rsultats sur la base BANCA

Le tableau 6.7 rsume les rsultats de la DLDA applique la fusion amplitudephase de rponses de la famille de 32 ltres de Gabor de 4 rsolutions et de 8 orientations pour le protocole P. WER(0.1) G1 G2 DLDA fusion 4.3 4.5 Rsultats de la littrature Univ Nottingham 1.55 1.77 Univ Tsinghua 1.13 0.73 WER(1) G1 G2 10.30 11.75 6.67 2.61 7.11 1.85 WER(10) G1 G2 3.80 4.53 1.32 1.17 1.58 0.84 Av.WER%
6.53 3.33 1.39
Table 6.7: Rsultat en WER (Weighted
Error Rate ) de la DLDA applique la fusion amplitude-phase de rponses de la famille de 32 ltres de Gabor sur la base BANCA (protocole P)
D'aprs le tableau 6.7, les deux seuls systmes qui surpassent notre approche sont les systmes de l'universit de Nottingham et celui de l'universit de Tsinghua.
6.5.2 Rsultats sur la base IV2

Comme voqu dans le chapitre 3, nous prsentons ici les rsultats comparatifs de la premire valuation IV2 . Nous rappelons, dans le tableau 6.8, les caractristiques des dirents protocoles d'valuation dnis et nous donnons, dans le tableau 6.9, les rsultats publis dans [67]. Exprience Sessions Qualit Variation d'expression Variation d'illumination N. Intra-classes N. Inter-classes 2D-Exp1 Mono Haute Faible Non 2595 2454 2D-Exp2 Mono Haute Non Oui 2502 2362 2D-Exp3 Mono Basse Non Non 1654 1598 2D-Exp4 Multi Haute Non Non 1796 1796
Table 6.8: Protocoles d'valuation pour la base IV2
Les rsultats de cette premire valuation indpendante (Tableau 6.9) conrment les rsultats que nous avons obtenus tout au long de ce chapitre, savoir que l'utilisation des reprsentations de Gabor apporte un relle amlioration des rsultats
124
Participants Participant-1(PCA) BioSecure(PCA) Participant-2(Mod PCA) Participant-3(LDA) Rsultats de notre approche (LDA Amplitude de Gabor) (LDA Amplitude et Phase de Gabor) (DLDA Amplitude et Phase de Gabor) 2D) participant la premire valuation
2D-Exp1 6,6 7,3 5,3
3,7
4,4 4,2 3,2
2D-Exp2 20,7 21,6 20,9 22,5
2D-Exp3 26,5 17,8 27,0 27,3
2D-Exp4 20,2 13,6 19,4 21,7 10,2
12,0
10,1
15,1
12,5
10,2
15,9
8,3
6,4
Table 6.9: Taux de EER pour les dirents algorithmes sur la base IV2 (visage
et ceci, pour les diverses conditions de tests. La fusion de l'amplitude et de la phase corrige de Gabor amliore sensiblement les rsultats par rapport ceux obtenus par l'utilisation de l'amplitude seule. A noter ici que pour l'valuation nous avons particip avec l'algorithme LDA. Les rsultats sur la DLDA applique aux reprsentations de Gabor ont t obtenus aprs l'valuation ocielle.
6.6 Conclusion
Dans ce chapitre, nous avons propos d'utiliser l'analyse espace-frquence du visage l'aide des ondelettes de Gabor. Cette information est extraite de l'image des pixels par application d'une famille de ltres direntes rsolutions et diverses orientations. Dans la majorit des tudes de la littrature, seule l'amplitude de la rponse des ltres de Gabor a t employe alors que la phase est omise. Dans ce chapitre, nous avons aussi expliqu les raisons de la limitation de l'utilisation de cette phase et nous avons fourni une solution simple pour pallier cette limitation. Nous nous sommes galement intresss aux paramtres des dirents ltres de Gabor comme les orientations, les rsolutions et les frquences. Nous avons observ que l'algorithme de la DLDA est capable d'extraire l'information discriminante de cette nouvelle reprsentation mme si une redondance de l'analyse spatio-frquentielle apparat partir d'une certaine rsolution d'analyse, ce qui permet de limiter naturellement le nombre de niveaux utiliser lors du traitement. Nous avons galement propos d'utiliser une nouvelle reprsentation du visage base sur la fusion de l'amplitude et de la phase corrige. Les rsultats des di-
6.6. CONCLUSION
125
rentes valuations sur les deux bases de donnes FRGC et BANCA ont conrm la robustesse de cette fusion. Dans la premire campagne d'valuation de la base IV2 , cette mthode a montr sa supriorit par rapport plusieurs algorithmes classiques comme la LDA, la PCA et la PCA modulaire. L'amlioration est surtout remarquable lorsque les conditions des tests sont dgrades. Les taux de performance de l'approche que nous avons adopte sont bien meilleurs lorsque les images de rfrence et de test sont de bonne qualit, que lorsqu'elles sont acquises dans des conditions dgrades. Nous tudierons dans le chapitre suivant de nouvelles stratgies de reconnaissance adaptes la qualit des images, tout en utilisant la mme approche que celle tudie dans ce chapitre.
Chapitre 7
Mesures de qualit pour le visage

Qu'entendons-nous par qualit ? En biomtrie, deux dnitions ressortent de la littrature gnrale : pour la premire dnition, un chantillon biomtrique est considr de bonne qualit s'il convient un test de reconnaissance. Ce point de vue peut ne pas tre en accord avec une conception humaine de la qualit. L'exemple le plus reprsentatif reste celui de l'empreinte digitale. Si, par exemple, un observateur voit une image d'empreinte avec des crtes claires, un faible niveau de bruit et un bon contraste, il peut raisonnablement dire que l'chantillon est de bonne qualit. Toutefois, si cette image ne contient pas assez de minuties, cet chantillon peut ne pas tre exploitable par la plupart des systmes de reconnaissance bass sur les minuties. La deuxime dnition se rapporte plus la qualit de la perception de l'chantillon biomtrique la sortie des capteurs, comme par exemple, les images de visages sont classes de bonne ou de mauvaise qualit suivant la nettet, le niveau du contraste et l'quilibre de l'illumination. Plusieurs tudes ont prsent des approches pour la mesure de la qualit d'un visage dans une image. La majorit des critres tudis dans la littrature traitent deux aspects de la qualit : l'aspect gomtrique et l'apparence. Le premier aspect regroupe des critres comme la pose, la distance entre les yeux, la prsence ou l'absence de lunettes. Le deuxime aspect traite des problmes de contraste, de nettet et d'illumination. Dans [22], par exemple, Gao a propos une mthode de mesure de qualit base 127
128
CHAPITRE 7. MESURES DE QUALIT POUR LE VISAGE
sur 2 niveaux. Le premier niveau concerne la symtrie du visage et le deuxime concerne la symtrie de l'illumination en se basant sur les histogrammes LBP (Local Binary Pattern ). Son tude montre une bonne classication des direntes situations par cette approche. L'tude publie par Krzysztof [43] propose une approche pour estimer la conance du score de vrication en se basant sur la qualit de l'chantillon. Pour cela, il propose une mesure de qualit standard pour la nettet de l'image et une nouvelle mesure de qualit base sur la corrlation entre une image du visage test et celle du visage moyen calcul partir d'une base d'apprentissage, dont la qualit est considre comme rfrence. Dans [72], l'auteur prsente une approche pour intgrer les mesures de qualit du visage dans la fusion des scores de plusieurs systmes de reconnaissance par le visage. Il introduit pour cela une composante appele "tat de qualit" qui est un groupement des chantillons par classe de qualit. Il utilise cette information pour la normalisation des scores avant leur fusion. Cette approche semble amliorer les rsultats par rapport aux fusions classiques utilises. Mme si les tudes acadmiques sur les mesures de qualit, spciques aux images du visage, ne sont pas trs nombreuses, la mesure de la qualit des chantillons biomtriques est considre, en gnral, comme une composante part entire des systmes biomtriques. Des normes internationales ont vu le jour an de dnir certains critres de qualit. Pour le moment, ces normes comme les ISO/IEC WD 19794-[4,5,6,11,13 et 14] qui concernent respectivement les empreintes, le visage, l'iris, la signature, la voix et l'ADN, proposent une normalisation des formats d'changes de donnes et donnent des recommandations trs strictes pour l'acquisition de chaque type d'chantillon biomtrique. Pour la norme ISO/IEC WD 19794-5 spcique aux visages, les recommandations concernent les rapports gomtriques du visage dans l'image, la distance entre les yeux, la pose, l'utilisation d'un arrire plan uniforme, la mise au point de la camra ainsi que la calibration des couleurs. Dans cette norme, une tude sur l'inuence de la pose (rotation planaire ou spatiale) ainsi que l'inuence de la distance minimale entre les deux yeux sont prsentes et cette norme recommande une rotation planaire maximale de 5, une rotation spatiale maximale de 8 ainsi qu'une distance minimale de 90 pixels entre les centres des deux yeux. Pour la suite du chapitre, on notera "image passeport", une image qui possde ces caractristiques. De nouvelles normes ISO spciques la quantication de la qualit des chan-
129
tillons biomtriques sont en cours de dveloppement. Dans les rapports techniques pour l'laboration de la norme ISO/IEC CD 29794-5 spcique aux images de visages, les auteurs recommandent la quantication de direntes caractristiques de l'image du visage : la mesure de la symtrie de l'illumination du visage : cette symtrie pourra tre calcule sur les niveaux des pixels des images, ou sur les images aprs ltrage par des ltres de Gabor ou par LBP (Local Binary Pattern ) ou aussi des ltres ordinaux. la mesure de la symtrie de la pose du visage. la luminosit de l'image : en tudiant direntes statistiques de l'histogramme (moyenne, variance, asymtrie, coecient d'aplatissement (coefcient Kurtosis)..). le contraste de l'image : les auteurs proposent d'utiliser le coecient de Weber, le coecient de Mickelson ou de travailler sur l'nergie de l'image par transformation de Fourier. la nettet de l'image par calcul du gradient. Les auteurs du rapport prconisent la quantication de certaines caractristiques du visage relatives l'apparence comme l'expression, le maquillage, le port des lunettes, sans proposer des recommandations pour cette quantication. La stratgie pour la reconnaissance du visage dans la littrature est base sur le dveloppement d'algorithmes qui sont supposs tre robustes face aux sources de bruit et de dgradation. Nous proposons, dans cette tude, une stratgie qui permet d'adapter les systmes de reconnaissance en fonction de la qualit des images rencontres. De cette faon, nous esprons un gain en performance, videmment aux prix d'une complexit un peu plus importante du systme complet. Ce chapitre sera organis de la faon suivante : nous prsenterons direntes mesures de qualit pour caractriser certaines dgradations possibles de l'image du visage (comme le ou et l'illumination). Ces mesures seront ensuite fusionnes pour aboutir une mesure de qualit unique du visage. Les trois mesures sont le dsquilibre de l'illumination dans une image de visage, la caractrisation de l'histogramme de la luminance d'un visage par SVM et la mesure de la nettet par approche frquentielle locale pondre. Ces nouvelles mthodes de quantication de la qualit, que nous proposons, seront compares des mthodes classiques dj utilises. Le critre de la pose n'est pas pris en compte dans cette tude car
130
nous nous intressons essentiellement l'tude de la reconnaissance de l'image de visage de face. Pour la variation d'expression, nous montrons que dans le cas d'une lgre expression, les performances de la reconnaissance restent stables. Dans la deuxime partie de ce chapitre, nous montrons l'inuence de la qualit de l'image du visage sur les performances en reconnaissance et nous prsentons une stratgie de reconnaissance base sur la qualit. Dans cette partie, nous analyserons l'amlioration des rsultats grce cette approche. Dans la dernire partie de ce chapitre, nous prsentons les rsultats de reconnaissance du visage dans le cas o l'image de rfrence et l'image de test sont de type dgrad et nous analyserons l'apport de l'utilisation des direntes mesures de qualit dans ce cas dicile. Le cas d'une valuation avec plusieurs images de rfrence et de test par personne est aussi tudi dans cette dernire partie. Tout au long du chapitre, nous validerons nos dirents rsultats sur la partie valuation de la base FRGCv2 et nous tudierons aussi la pertinence de nos mesures ainsi que notre stratgie de reconnaissance sur la base BANCA.
7.1 Mesures de qualit

Pour tudier les direntes mesures de qualit, nous avons choisi la partie dveloppement de la base de visage FRGCv2. Cette partie de la base est constitue de 12760 images au total. Deux sous-bases de visage, de type dirent, seront utilises pour l'tude des direntes mesures de qualit [Figure 7.14]. La premire base est constitue de 4600 images contrles [[BQC] ("Base Qualit Contrle")] de 220 personnes et la deuxime est constitue de 4600 images non contrles (illumination et nettet diverses) de 220 personnes [[BQN] ("Base Qualit Non Contrle"]. Les bases [BQC] et [BQN] contiennent chacune 50% d'images dans lesquelles le visage prsente une expression neutre et 50% avec un lger sourire. L'algorithme de reconnaissance de visage DLDA appliqu aux analyses par ltres de Gabor (voir chapitre 4) est utilis pour cette tude.
7.1.1 Mesure du dsquilibre de l'illumination par distributions locales

La premire mesure de qualit que nous proposons est base sur la mesure des distributions de l'illumination sur le visage. L'image considre est une image de
7.1. MESURES DE QUALIT
131
visage normalise gomtriquement avec centrage de l'histogramme. Un visage avec une illumination homogne aura une distribution uniforme des niveaux d'intensit des pixels de la peau. Les mesures statistiques des niveaux d'intensit par zone donnent une indication sur les distributions de l'illumination sur la totalit du visage. Les mesures statistiques tudies sont la moyenne des niveaux de gris et la mdiane. Soit Zi les zones du visage [Figure 7.1]. La mesure de qualit Q1 est dnie par Q1 = std(i ) avec i , la mesure statistique sur les intensits de la zone Zi . Par la suite, on notera Q1a la mesure de qualit se basant sur les distributions des moyennes et Q1b la mesure de qualit se basant sur les distributions des mdianes.
Figure 7.1: Principe de calcul d'une mesure de qualit globale (Q1a ou Q1b )
partir des mesures locales (moyennes ou mdianes, respectivement)
La mesure de la moyenne des niveaux locaux, bien qu'elle semble la plus intuitive, pose un certain nombre de problmes, savoir que les zones Zi slectionnes ne contiennent pas que de l'information sur la texture du visage. Elles contiennent entre autres des parties du visage, comme la bouche, les yeux, les sourcils, qui peuvent induire une erreur sur la caractrisation du niveau de l'illumination de la peau.
132
L'aspect 3D du visage implique aussi une introduction de bruit, comme les ombres projetes des parties qui constituent le visage. Les rsultats de la gure 7.2 montrent les distributions de la mesure de qualit Q1a des deux bases d'images [BQC] et [BQN].
150 Images controlees sans expression Images controlees avec expression Images non controlees sans expression Images non controlees avec expression 100 Nombre dimages 50 0
0.4
0.5 0.6 0.7 0.8 Niveau du desequilibre de lillumination locale
0.9
Figure 7.2: Distributions de l'illumination par mesure des moyennes locales, Q1a ,
pour les bases [BQC] et [BQN]
La deuxime mesure statistique considre est la mdiane locale. Cette mesure est plus proche d'une quantication relle de la texture de la peau si on considre que dans chaque zone Zi , la peau couvre plus de 50% de la zone. L'utilisation de la mdiane donne une indication plus prcise sur le niveau de l'illumination de la zone. Les rsultats de la gure 7.3 montrent les distributions de la mesure de qualit par le dsquilibre des mdianes locales, Q1b , pour les deux bases d'images [BQC] et [BQN]. Le point faible de cette approche est qu'elle quantie les distributions des niveaux d'intensit, mais cette quantication peut, dans certains cas, ne pas tre trs ecace. Une image sature et une image compltement sombre en sont des exemples. Cette image aura une distribution homogne des illuminations locales et dans ce cas, une erreur de classication peut se produire, puisqu'une telle image ne peut tre considre comme tant de bonne qualit. Dans la suite nous choisissons la mesure de la variance des mdianes locales, comme mesure du dsquilibre de l'illumination.
133
140 Images controlees sans expression Images controlees avec expression Images non controlees sans expression Images non controlees avec expression
120
100 Nombre dimages
80
60
40
20
0 0.1
0.2
0.3 0.4 0.5 0.6 0.7 0.8 0.9 Niveau du desequilibre de lillumination locale
1.1
Figure 7.3: Distributions de l'illumination par mesure des mdianes locales, Q1b ,
pour les bases [BQC] et [BQN]
7.1.2 Mesure de la qualit de l'illumination par SVM

En observant les histogrammes de la luminance (voir Chapitre 5, paragraphe 5.4.3) des images de type contrl et ceux des images acquises en conditions diverses, nous avons constat une nette dirence de comportement. Pour les images de type contrl, ces histogrammes sont plus proches d'une distribution normale alors que ceux des images de type non contrl peuvent avoir des formes diverses. La gure 7.4 montre des exemples de ces histogrammes pour les deux types d'images. An de classier les histogrammes des images de type contrl par rapport aux histogrammes des images acquises dans des conditions diverses, nous proposons d'utiliser l'outil de classication par SVM ("Sparateur Vaste Marge", appel aussi "Machine Vecteurs de Support" [75]). En quelques mots, un SVM cherche le meilleur hyperplan sparateur qui minimise le taux d'erreur total (TER) de classication dans un espace de grande dimension. L'apprentissage du SVM a t ralis sur une base de donnes ddie. Pour la partie apprentissage, deux classes d'images de visage sont considres. La premire classe est constitue d'images acquises dans des conditions d'illumination contrles et la deuxime classe est constitue d'images acquises dans des conditions d'illumination diverses. L'tiquetage des images a t fait par "NIST " suivant les conditions d'acquisition de
134
l'image, savoir qu'une image d'une session contrle est considre comme de bonne qualit et une image acquise dans une session non contrle est considre comme dgrade. La mesure de qualit considre est la distance entre l'chantillon l'hyperplan sparateur calcul par SVM. Cette mesure sera note Q2 dans la suite du chapitre.
(A) Histogramme de la luminance d'un visage de type contrl

250 200 150 100 50 0 0 100 200
(B) Histogramme de la luminance d'un visage de type non contrl

300 250 200 150 100 50 0 0 100 200
type non contrl (B)
Figure 7.4: Exemples des histogrammes des images de type contrl (A) et de
Apprentissage du SVM
Des deux bases [BQC] et [BQN], nous choisissons 1000 images de type contrl et 1000 images de type non contrl pour calculer l'hyperplan sparateur. Le reste des images constituant [BQC] et [BQN], sera utilis pour optimiser la classication (cette base sera appele "base de dveloppement"). La luminance de chaque image est extraite, ensuite l'histogramme de cette luminance est calcul. Nous obtenons un vecteur de 255 composantes qui caractrise la distribution de l'illumination sur l'image. Les noyaux slectionns pour cette tude sont : noyau linaire : k(x, x ) = x.x
135
noyau polynomial : k(x, x ) = (x.x )d noyau radial (RBF) : k(x, x ) = exp( x x )2 Pour les noyaux polynomial et radial, une optimisation des paramtres d et est faite sur cette base de dveloppement. La gure 7.5 reprsente la variation du taux de bonne classication en fonction du rang d du polynme. La gure 7.6 reprsente la variation du taux de bonne classication en fonction du coecient
du noyau radial.
Taux de Bonne Classification
100
[BQC] [BQN] Base totale
95
90
85
50
100 d
150
200
250
Figure 7.5: Variations du taux de classication correcte pour le classieur SVM
noyau polynomial suivant le rang du polynme sur la base de dveloppement
100 Taux de Bonne Classification
[BQC] [BQN] [Base totale]
95
90
85
80
75
0.5
1.5 Gamma
2.5
Figure 7.6: Variations du taux de classication correcte pour le classieur SVM
noyau radial sur la base de dveloppement
136
Le tableau 7.1 prsente les meilleurs rsultats de classication suivant le type de noyau choisi par rapport l'hyperplan. On peut constater que les taux de classication des images non contrles atteignent les 100% de bonne classication. Ce taux s'explique par le fait que le SVM cherche sparer des histogrammes avec des allures quelconques (comme dans le cas des images non contrles) par rapport des histogrammes avec une forme spcique (le cas des images contrles). Noyau TBC([BQC]) TBC([BQN]) TBC(Base totale) les deux bases [BQC] et [BQN] Linaire 82,1% 100% 91% RBF(1.0) 82% 100% 90.5% Polynomial(120) 95,5% 100% 97,2%
Table 7.1: Taux de Bonne Classication (TBC) pour chaque type de noyau pour
Pour cette classication, l'tiquetage des deux classes est fait suivant les conditions d'acquisition de l'image. Dans certains cas, une image annote non contrle peut donc avoir une forme d'histogramme qui correspond un histogramme d'image contrle et vice-versa, dans certains cas, les images acquises dans des conditions contrles peuvent prsenter un dsquilibre d'illumination, produisant ainsi une erreur de classication qui n'a pas lieu d'tre.
7.1.3 Mesure de la nettet

An de dtecter le ou dans les images, plusieurs mthodes sont disponibles dans la littrature. Nous avons test les deux mthodes les plus classiques : la mesure de nettet par gradient et l'analyse dans le domaine frquentiel de Fourier. la mesure de nettet par mthode du gradient est la dirence en moyenne entre le gradient d'une image et la moyenne du gradient de la mme image lisse. Si l'image est oue, les deux moyennes seront comparables. En revanche, si l'image est nette, le lissage fait perdre beaucoup de contours et la dirence est grande. La mesure de nettet, qu'on notera Q3a , peut tre calcule de la manire suivante :
Q3a =
moyenne(grad(I)) moyenne(grad(I G)) moyenne(grad(I))
(7.1)
137
o I est l'image analyse, grad est l'image du gradient obtenue, par exemple, en appliquant le ltre de Sobel et G est un ltre Gaussien.
900 800 700 600 Nombre dimages 500 400 300 200 100 0 Images controlees sans expression Images controlees avec expression Images non controlees sans expression Images non controlees avec expression
0.02
0.04
0.06 0.08 0.1 0.12 Mesure du flou par gradient
0.14
0.16
0.18
Figure 7.7: Distributions des mesures de nettet Q3a de [BQC] et de [BQN] par
mthode du gradient
La gure 7.7 montre clairement une distinction entre les 2 classes (images acquises dans des conditions de mise au point contrle (arrire-plan uniforme et distance du visage assez proche de l'objectif de la camra) et des images acquises dans des conditions diverses (arrire-plan textur et distance grande entre le visage et la camra). Ces deux distributions montrent que la mesure du ou est un critre ne pas ngliger pour une classication automatique d'une image de visage. le domaine de Fourier est intensivement utilis comme moyen d'estimer le ou d'une image. En particulier, l'amplitude de la transforme de Fourier est un bon indicateur du niveau de ou dans l'image. En eet, une grande partie de l'information d'une image oue est localise dans les basses frquences et inversement, pour une image nette. Ceci se traduit dans le domaine de Fourier par un rapport lev pour les images oues entre les amplitudes des basses frquences et la somme totale des amplitudes et inversement, par un rapport faible pour les images nettes. Dans notre tude, nous allons tudier la mesure de qualit Q3b qui est calcule comme suit :
R =0 F(, ) , F(, )
Q3b =
(7.2)
138
o F(, ) est la transforme de Fourier de l'image en coordonnes polaires et R est le rayon du disque des basses frquences considres. Plus la mesure du critre Q3b est faible, plus l'image est nette car l'information est alors bien tale entre les hautes et les basses frquences. A l'inverse, si le critre est lev (proche de 1), l'image est oue car l'information est en grande partie localise dans les basses frquences. Nous avons considr une variante de cette mesure qui consiste mesurer la moyenne de ce critre de nettet sur des imagettes du visage. La mesure de nettet Q3c s'crit sous la forme :
N
Q3c =
i=1
wi
R =0 FZi (, ) , FZi (, )
(7.3)
Le poids wi , de la zone Zi, a t optimis sur la base de dveloppement an de maximiser la sparation entre les deux classes pr-tiquetes. La gure 7.8 montre le choix du dcoupage d'une image de visage et la mthodologie de la mesure du critre.
Figure 7.8: Mesure du ou par approche frquentielle locale pondre
Les gures 7.9 et 7.10 montrent une distinction dans les deux distributions des 2 bases selon que l'on utilise Q3b ou Q3c . L'approche frquentielle locale pondre montre un net avantage sur l'approche frquentielle globale classique. Ceci s'explique par la nature de l'image du visage. Le visage prsente, en eet, une grande variation en terme de
139
500
400 Nombre dimages
300
200
100
0 0.2
0.25
0.3 0.35 0.4 0.45 0.5 0.55 Mesure de nettete par approche frequentielle globale
0.6
0.65
Figure 7.9: Distributions des mesures de nettet Q3b de [BQC] et de [BQN] par l'approche frquentielle globale
120
100 Nombre dimages
80
60
40
20
0 6.8
7 7.2 7.4 7.6 7.8 8 8.2 Mesure de nettete par approche frequentielle locale ponderee
8.4
Figure 7.10: Distributions des mesures de nettet Q3c de [BQC] et de [BQN] par
l'approche frquentielle locale pondre
140
texture suivant direntes zones. Par exemple, certaines zones du visage comme le front ou les joues ont une texture lisse qui peut altrer la mesure de nettet par l'approche frquentielle globale. Mesure de nettet TEC AG% 10,1% AFG 22,5% AFLP 7%
Table 7.2: Taux d'Erreur de Classication (TEC) suivant la mthode de me-
sure (AG : Approche Gradient, AFG : Approche Frquentielle Globale, AFLP : Approche Frquentielle Locale Pondre)
Pour le reste de l'tude, nous considrons la mesure de qualit base sur l'approche frquentielle locale pondre car elle prsente les meilleures performances de classication.
7.1.4 Classication par fusion des mesures de qualit

Nous allons nous positionner, dans ce travail, dans une optique de classication de la qualit des images de visage par les mesures dj tudies. Plusieurs mthodes s'orent nous. Nous pouvons citer deux types d'approches : les mthodes de classication par apprentissage supervis et les mthodes par apprentissage non supervis [9, 75]. Dans notre tude, nous nous sommes intresss exclusivement l'apprentissage non supervis qui va nous permettre de catgoriser les bases de faon automatique sans ncessiter de pr-tiquetage a priori. Le seul paramtre xer reste le nombre de classes chercher. Dans la panoplie des algorithmes de classication par apprentissage non supervis, nous pouvons citer la mthode des nues dynamiques, le regroupement hirarchique, l'algorithme EM, l'analyse en composantes principales et galement la mthode des k-moyennes. Nous n'allons pas nous attarder ici sur le principe de fonctionnement de ces mthodes [75]. Nous prsentons ici nos rsultats de classication avec la mthode des kmoyennes 1 . Pour la recherche des paramtres des centrodes, nous avons utilis une partie des deux bases [BQC] et [BQN] : 1000 images de [BQC] et 1000 images de [BQN].
1. L'algorithme des k-moyennes est galement dnomm "algorithme des centres mobiles" ou "centrodes". L'objectif est de segmenter les donnes en k groupes, k tant x a priori. L'ide de cet algorithme est trs intuitive et, de fait, cet algorithme a t rinvent plusieurs reprises. Il en existe de nombreuses variantes, en particulier l'algorithme bien connu des "nues dynamiques".
141
Pour chaque chantillon x de la base, nous notons le vecteur Qx = {Q1, Q2, Q3}, avec Q1, Q2 et Q3 : les trois mesures de qualit, tudies dans la section prcdente. Sur cette base d'apprentissage, nous avons eectu plusieurs tests an de dterminer le nombre optimal des classes de qualit (centrodes). La mthode se base sur la variation de l'inertie intra-classes en fonction du nombre de classe.
Dnition : L'inertie intra-classes d'un ensemble est dnie comme suit :

K
wi
Ni j=1
d(xj , Gi )
(7.4)
Iw =
i=1
avec : K le nombre de classes wi le poids du groupe Gi , wi = Ni /N o N est le total des chantillons de l'ensemble et Ni le cardinal du groupe Gi d(xj , gi ) la distance euclidienne de l'chantillon xj au centre de gravit du groupe Gi . An de dterminer le nombre minimal de groupes susceptibles d'exister dans un ensemble, on peut tester plusieurs valeurs de K en excutant plusieurs fois l'algorithme avec des K croissants. Pour chaque valeur de K, on calcule l'inertie intra-classes. Cette valeur dcrot quand K augmente. En faisant un graphique reprsentant l'inertie intra-classes en fonction de K, on voit la bonne valeur de
K : c'est celle partir de laquelle Iw ne dcrot plus de faon signicative.

La gure 7.11 montre l'volution de l'inertie intra-classes en fonction du nombre de classes choisi. Nous constatons une stabilisation de l'inertie partir de 3 centrodes, sachant que la dirence entre 2 ou 3 centrodes n'est pas norme. Par la suite, nous xons le nombre de classe 2. An de classier un chantillon de test dans un groupe (en terme de qualit), nous aecterons cet chantillon la classe la plus proche (en terme de distance par rapport au centre de gravit des direntes classes de qualit). Nous dnissons pour la suite la mesure de qualit globale q d'un chantillon par :
q=
d(Qx , Qg2 ) d(Qx , Qg1 ) d(Qg1 , Qg2 )
(7.5)
avec d(Qx , Qgj ) la mesure de distance entre le vecteur de qualit de l'chantillon x et le vecteur de qualit du centre de gravit de la classe j . Cette mesure prsente
142
1200 1190 1180 1170 Inertie intraclasse 1160 1150 1140 1130 1120 1110 1100 2 3 4 nombre de centroids 5 6
Figure 7.11: volution de l'inertie intra-classes en fonction du nombre des centrodes pour la base d'apprentissage (1000 images de [BQC] + 1000 images de [BQN])
deux tats de l'chantillon :
q > 0 x g1 q < 0 x g2
Par la suite, on pose g1 la classe des chantillons de bonne qualit et g2 la classe des images dgrades. Plus q est grand, plus l'chantillon est considr de bonne qualit et inversement, plus q est petit, plus l'chantillon est considr de qualit dgrade. La gure 7.12 nous montre les distributions de la mesure q pour les images de la base d'apprentissage [[BQC] + [BQN]]. Nous pouvons noter que les 2 bases [BQC] et [BQN] sont bien spares mais qu'il existe tout de mme un recouvrement.
Remarques :
la mesure q n'est valable que pour les problmes deux classes. nous avons eectu une autre tude de classication par fusion des mesures de qualit Q1, Q2 et Q3 en se basant sur les SVM, mais cette tude a montr des limites de gnralisation sur des bases de validation en particulier sur la base BANCA, dues un manque d'chantillon d'apprentissage.
143
400 350 300 nombre dimages 250 200 150 100 50 0 3 BQC BQN
0 mesure de qualite q
Figure 7.12: Distribution de la mesure q pour les images de la base de dvelop-
pement [[BQC] + [BQN]]
7.1.5 Validation des mesures de qualit sur la base de dveloppement

Validation des mesures sur la base BANCA
La base BANCA comme prsente dans le chapitre 3 prsente 3 scnarios d'acquisition : une acquisition en mode contrl en illumination et en mise au point, une acquisition en mode dgrad (webcam ) et en illumination non contrle et un dernier scnario d'acquisition en mode non contrl en illumination. Les exemples de la gure 7.13 montrent la dirence entre les dirents scnarios.
(A)
(B)
(C)
Figure 7.13: Exemples d'images de type contrl (A), de type dgrad (B) et de
type non contrl (C) de la base de donnes BANCA
Nous divisons la base BANCA en deux sous-bases d'image de visage. La premire sous-base est compose des sessions [s01s04] et sera considre comme l'ensemble de la classe des images de bonne qualit (Classe 1). La deuxime sous-
144
base sera compose des images des sessions [s05s12] et sera considre comme l'ensemble de la classe des images de qualit dgrade (Classe 2). Un r-apprentissage des centrodes est ncessaire dans le cas de base de BANCA. Ce r-apprentissage est ncessaire d la dirence de qualit des capteurs. Pour cela, nous avons considr la base de dveloppement de la base BANCA, qui contient des chantillons de 30 personnes ne participant pas l'valuation. Ces chantillons proviennent des sessions s01,s05 et s09. Pour la base FRGCv2, la mme camra a t utilise pour les direntes sessions d'acquisition, alors que pour BANCA, le mme type de camra a t utilis pour les sessions [s01-s04 et s09-s12] et une webcam a t utilise pour l'acquisition des sessions [s05-s08]. Le tableau 7.3 donne les rsultats de bonne classication des direntes classes avec notre mesure de qualit Q dnie prcdemment. Sessions TCC Classe 1 [s01s04] 85% Classe 2 [s05s12] 99.2%
Table 7.3: Taux de Classication Correcte (TCC) pour les deux classes slec-
tionnes de la base BANCA avec notre mesure q
Les rsultats de classication de la base BANCA conrment les rsultats obtenus dans la premire partie, savoir qu'il est plus facile de dtecter des images de type dgrad que des images de type contrl avec nos critres de qualit.
7.2 Qualit et stratgie de reconnaissance

Dans la majorit des protocoles d'valuation des bases de visage (voir chapitre 3), on constate une mise en place des protocoles de test suivant les conditions d'acquisition des chantillons, an d'tudier la robustesse des algorithmes suivant certain type de dgradation. Ainsi, pour la base FRGCv2, deux protocoles d'valuation de visage 2D sont mis en place : l'exprience 1 et l'exprience 4. Ces deux protocoles se basent sur la qualit des chantillons en test et en rfrence. Aussi pour la base BANCA, les dirents protocoles d'valuation proposs sont bass sur la qualit d'acquisition des chantillons. Rcemment, les protocoles de tests mis en place pour la campagne d'valuations de visage 2D pour les campagnes FRVT2006 et MBGC se basent sur la mme stratgie. Dans cette partie du chapitre, nous prsentons des rsultats qui conrment
7.2. QUALIT ET STRATGIE DE RECONNAISSANCE
145
cette dirence de performance. Nous proposons galement des stratgies de reconnaissance bases sur les mesures de qualit des images du visage et nous validons cette approche sur la base BANCA.
7.2.1 Protocoles et bases de donnes

La base de donnes utilise dans cette tude est la base FRGCv2. Elle sera dcoupe dans le but d'tudier plusieurs types de scnarios. Le premier type de scnarios est l'tude du comportement du classieur lorsque les images de rfrence sont de type passeport (suivant les mesures des qualits dj tudies). Le deuxime type de scnarios est ddi l'tude du comportement du classieur lorsque les images de rfrence sont dgrades. Pour le premier type de scnario, plusieurs protocoles sont mis en place suivant la nature des images de test : Test1 : images de test de type passeport Test2 : images de test acquises dans un environnement non contrl et sans expression Test3 : images de test de bonne qualit (illumination, nettet) et avec expressions Test4 : images de test acquises dans un environnement non contrl et avec expressions Les images de rfrence sont de type passeport 2 .
Dcoupage de la base de donnes

La base FRGCv2 se compose de 2 parties distinctes (dveloppement et validation, voir Fig 7.14). La partie dveloppement est ddie la construction des espaces de rduction 3 et l'optimisation des systmes. Elle contient les enregistrements de 222 personnes et 12736 images au total, dont 4200 sont acquises en environnement non contrl et 8500 en conditions d'illumination et de mise au point contrles. La partie validation de la base FRGC contient les enregistrements de 466 personnes (dont 222 sont dans la base de dveloppement). Cette partie de la base est elle-mme divise en 2 parties (suivant la nature des images) : une premire
2. Voir l'introduction du chapitre pour une dnition 3. Les espaces de rduction sont les espaces relatifs l'algorithme de reconnaissance par DLDA utilis dans cette tude.
146
partie contient 16028 images de type contrl (en illumination et en nettet), dont la moiti sont avec une expression neutre, et 8014 images acquises en conditions non contrles dont, aussi, la moiti sont avec une expression neutre. Pour cette tude, les 220 personnes de la base de dveloppement seront utilises pour crer 2 types d'espaces de rduction. P0 : 10 images par personne, de type contrl. P1 : 20 images par personne, dont 10 sont de type contrl et 10 de type non contrl. Pour la slection de la base de rfrence (nomm [B0] issue de la base de validation), la mesure de qualit dnie dans le paragraphe 7.1.4 sera exploite. Parmi les 8014 images contrles et sans expression, 6414 images appartenant 441 personnes sont slectionnes, suivant des mesures de qualit trs strictes. Les 4 meilleures images (du point de vue mesure de qualit) de chaque personne sont ensuite utilises comme images de rfrence. La base B0 est alors constitue de 884 images de rfrence de 441 personnes. An d'eectuer le protocole Test1, 4 autres images, type contrl, des 441 personnes sont slectionnes alatoirement partir des 5530 images de type passeport restantes. Cette base est nomme [BT1] et elle est constitue aussi de 884 images. Pour le protocole Test2, la base de test [BT2] est constitue des 441 personnes avec 4 images par personne, les images sont de type non contrl et sans expression. Elles sont choisies alatoirement partir des 4007 images non contrles et sans expression. Pour le protocole Test3, la base de test [BT3] est constitue des 441 personnes avec 4 images par personne. Les images sont slectionnes partir des 4007 images contrles et avec expressions. Pour le protocole Test4, la base de test [BT4] est constitue des 441 personnes avec 4 images par personne. Les images sont slectionnes partir des 4007 images non contrles et avec expressions. Le graphe de la gure 7.14 rsume les dirents dcoupages et la constitution des bases de test partir de la base originale de FRGCv2.
Remarque : Il faut savoir que les 222 personnes de la base de dveloppement sont incluses dans la base de validation mais que les donnes de la base de validation et ceux de la base de dveloppement sont compltement direntes.
147
Figure 7.14: Dcoupage de la base FRGCv2
7.2.2 Scnario : rfrences Passeport

L'algorithme utilis dans cette tude est la DLDA (voir chapitre 4 et chapitre 6), appliqu aux transformations de Gabor de l'image de visage. Pour cette tude, 2 types de pr-traitement sont considrs : l'galisation d'histogramme et le lissage anisotropique. Le premier type de pr-traitement est appliqu aux images, considres comme acquises dans des conditions contrles. Le lissage anisotropique est appliqu lorsque l'image de test est de type non contrl.
Test1
Les images de [B0] et de [BT1] sont des images de type contrl (illumination et ou), une simple galisation d'histogramme sera applique aux images en entre, avant le ltrage de Gabor. Dans une premire exprience, la rduction de dimension par DLDA sera applique en utilisant l'espace P0 (l'espace de rduction est appris sur des images contrles seulement). Dans une deuxime exprience, l'espace P1 (appris sur des
148
images contrles + des images non contrles) sera utilis. La gure 7.15 montre clairement la dirence de performances entre les 2 expriences. Le fait d'utiliser un espace de rduction, appris sur des donnes propres et des donnes bruites, dgrade de faon signicative les performances. Le taux de vrication 0.1% de FAR passe de 96,2% de reconnaissance en utilisant l'espace P0 93,1% avec l'espace P1 avec des intervalles de conance de 0,5% (voir chapitre 3) pour plus de dtails sur la mesure de conance. Le rsultat de
1
Verification Rate
0.95
0.9 0.001
DLDA-(Amplitude,Phase)-P0 DLDA-(Amplitude,Phase)-P1 0.01 False Accept Rate 0.1 1
Figure 7.15: Courbes ROC de Test1
96,2% de VR@0.1% de FAR de ce protocole donne une ide sur le maximum de performance qu'on peut atteindre avec l'algorithme DLDA dans les meilleures conditions : un espace de rduction appris sur des donnes propres, des donnes de tests de qualit optimale et des visages avec des expressions neutres.
Test2
Ce protocole a pour but l'tude des performances de l'algorithme de reconnaissance DLDA, dans des conditions dgrades d'acquisition de l'image de test. Les deux types d'expriences, du protocole Test1, sont repris an d'tudier aussi l'inuence des espaces de rduction. L'inuence de l'espace de rduction est d'autant plus importante dans ce protocole, tant donn la nature des images de test. Lorsque l'espace de rduction est appris sur des images de type contrl, il ne prend pas en compte les dif-
149
1 0.95 0.9 0.85 0.8 0.75 Verification Rate 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.001 0.01 False Accept Rate DLDA(Amplitude,Phase)-P0 DLDA(Amplitude,Phase)-P1 0.1 1
frentes variations qui peuvent subvenir sur une image de type dgrad, et ceci mme en utilisant un pr-traitement assez complexe pour rduire l'inuence de l'illumination. Dans ce type de condition de test, l'apprentissage des dgradations est indispensable. Le taux de vrication 0.1% de FAR passe de 59,6% [1.5%] avec P1 27,4% [2.5%] avec P0.
Test3
Le Test3 est consacr l'tude de l'inuence des variations d'expression dans la phase de test sur les performances du mme algorithme. Il faut noter que dans la base d'apprentissage, une partie des visages comporte des expressions, en l'occurrence des lgers sourires. L'espace de rduction considr est P0. La base BT3 utilise est une base d'images contrles en illumination et en nettet. Le taux de vrication 0.1% de FAR passe de 96,2% de reconnaissance (Test1) 95,8% pour le Test3 avec des intervalles de conance de 0,5%. Les courbes ROC de la gure 7.17 montrent que l'inuence d'une lgre expression n'est pas vraiment trs signicative et que les performances de l'algorithme restent stables.
150
Verification Rate
0.95 0.001
DLDA-Sans Expression-Histeq-Cont DLDA-Expression-Histeq-Cont 0.01 False Accept Rate 0.1 1
Test4
Le Test4 est quivalent au Test3, appliqu aux conditions dgrades d'acquisition. L'espace de rduction est construit partir de P1, et le pr-traitement reste le lissage anisotropique.
1
0.95
0.9
0.85 Verification Rate
0.8
0.75
0.7
0.65
0.6 DLDA-Sans Expression-LA-NonCont DLDA-Expression-LA-NonCont 0.01 False Accept Rate 0.1 1
0.55 0.001
Le taux de vrication 0.1% de FAR passe de 59,6% [1.4%] 54,7%
151
[1.6%]. Les courbes ROC de la gure 7.18 montrent que l'inuence d'une lgre expression est un peu plus sensible dans les conditions dgrades par rapport aux conditions non dgrades. Cependant, la dgradation des rsultats reste assez faible, compare celle induite par des variations de l'illumination et de la nettet de l'image.
Test5 ou choix de la stratgie

Dans le Test5, le but est de dmontrer qu'il est plus judicieux d'adapter le classieur qualit du test, plutt que d'utiliser le mme classieur pour n'importe quel type de test (bonne qualit contre bonne qualit ou bonne qualit contre image dgrade). Cette ide semble simple et intuitive, ce protocole permet de valider cette stratgie. Pour cela, nous considrons [B0] comme une base de rfrence et les bases [BT1] et [BT2] sont mlanges pour crer la base de test. Une premire exprience consiste appliquer l'algorithme de la DLDA en se basant sur l'espace construit avec P0 et en utilisant une galisation d'histogramme comme pr-traitement. Une deuxime exprience consiste utiliser l'espace construit partir de P1 en utilisant le lissage anisotropique comme pr-traitement. La troisime exprience consiste utiliser le meilleur espace pour le type de test considr. En d'autres termes, si le test est une comparaison entre une image de type contrl contre une image de type contrl, l'espace P0 sera utilis comme espace de rduction. Dans le cas d'une comparaison entre une image de type contrl et une image de type non-contrl, l'espace de rduction construit partir de P1 sera appliqu. La dirence de performance [gure 7.19], suivant la stratgie choisie, dmontre l'importance du choix de l'espace de rduction suivant la nature du test. Le taux de vrication 0.1% de FAR passe de 58,2% [1.4%] pour la premire exprience 78.4% [1.2%] pour la deuxime et nalement 84,9% pour une stratgie base sur l'espace adapt aux types de tests.
Test6
Pour le Test5, le choix de l'espace de rduction pour la troisime exprience tait bas sur une connaissance a priori du type de test (tiquetage fourni par NIST). Dans ce protocole (Test6), j'exploite les mesures de qualit que j'ai dni
152
0.95
0.9
0.85 Verification Rate
0.8
0.75
0.7
0.65
0.6 DLDA-(Amplitude,phase)-Melange-Meilleur espace DLDA-(Amplitude,phase)-Melange-P0 DLDA-(Amplitude,phase)-Melange-P1 0.01 False Accept Rate 0.1 1
0.55 0.001
sur l'image test pour dcider de la nature du test de comparaison 4 .

1
0.95 Verification Rate 0.9
0.85 0.001
DLDA-(Amplitude,phase)-Melange-Annotation DLDA-(Amplitude,phase)-Melange-Qualitee 0.01 False Accept Rate 0.1 1
La gure 7.20 montre une lgre amlioration des rsultats grce l'usage des mesures de qualit. Le taux de vrication 0.1% de FAR passe de 84,9% [1.1%]
4. Comme expliqu dans la section prcdente : mme si les annotations des images de visage restent dpendantes du type de l'acquisition, cette annotation peut ne pas correspondre la ralit (voir gure 7.12)
153
avec une annotation manuelle des images 86.9% [0.9%]. Mme si cette amlioration n'est pas trs signicative, elle dmontre que les mesures de qualit choisies ont une inuence sur les performances et qu'elles contribuent au choix de la stratgie pour l'application du classieur. Ce qui est intressant est surtout le fait de pouvoir exploiter ces mesures de qualit pour le cas o on ne disposerait pas d'tiquetage a priori des donnes comme dans des conditions relles d'application. qualit. La stratgie dont l'ecacit est dmontre sur les images annotes la main est corrobore par l'utilisation de la mesure automatique de
7.2.3 Scnario : rfrences dgrades

Ce scnario est choisi pour sa ressemblance l'application de reconnaissance du visage partir de deux squences vido de surveillance. Les images de rfrence sont des images de type dgrad et les images de test sont de qualit diverse. Les images de la base rfrence [BT3] tant de qualit dgrade, nous considrons l'espace de rduction construit partir de P1 comme espace de projection et le pr+-traitement par lissage anisotropique sera considr.
Test7
Pour ce premier protocole du nouveau scnario, on considre la base [BT4] comme base de test. Le modle de chaque personne est constitu d'une seule image de rfrence. La gure 7.21 montre les rsultats du Test7. Un taux de vrication de 75% 0.1% de FAR peut sembler non conforme aux attentes car les performances sont trs correctes vu la nature dgrade des images des rfrences et celle des tests. En analysant les distributions des histogrammes du Test2 et celui du Test7 [Figure 7.22], nous pouvons constater un comportement stable des scores inter-classes alors que les scores intra-classes sont plus ressemblants dans le cas d'images de visage de nature semblable.
Test8
Dans les protocoles dj prsents, le modle d'une personne est constitu par une seule image de rfrence. Dans le protocole du Test8, le modle de rfrence est constitu des 4 images de rfrence d'une personne. La distance minimale
154
0.95
Verification Rate
0.9
0.85
0.8
0.75 0.001
-P1 0.01 False Accept Rate 0.1 1
entre l'image de test et les 4 images de rfrence est considre comme le score du test. Le taux de VR passe de 75% pour le Test7 78.1% en utilisant un modle plusieurs rfrences. Les rsultats sont donns par les courbes ROC de la gure 7.23.
Protocole : Test9
Nous reprenons le mme protocole que celui du Test8 mais la distance entre l'image de test et les 4 images de rfrence est calcule comme une somme pondre par les mesures de qualit de chaque image de rfrence. Dans ce protocole, la mesure de qualit de l'image de test n'est pas considre. Le taux de VR 0.1% de FAR est de 80.2% en utilisant un modle plusieurs rfrences. Les rsultats sont donns par les courbes ROC de la gure 7.23.
Protocole : Test10
Dans ce protocole, nous considrons les modles rfrence et test d'une personne forms chacun des 4 images des visages disponibles.
Remarque : An d'intgrer la mesure de qualit (quation (7.5), comme poids

de pondration pour les distances tudies par la suite, une modication de la mesure de la qualit q est ncessaire. Et an de donner un poids proche de 1 pour
155
(A)
7 6 5 4 Distribution 3 2 1 0 -1 -1 -0.8 -0.6 -0.4 Scores -0.2 0 0.2 0.4 Espace P1 Espace P0
(B)
40 35 30 25 Distribution 20 15 10 5 0 -5 -1 -0.8 -0.6 -0.4 Scores -0.2 0 0.2 0.4 Espace P1 Espace P0
Figure 7.22: Distribution des scores intra-classes (A) et Distribution des scores
inter-classes (B)
les images de bonne qualit et un poids proche de 0 pour les images de qualit dgrade, nous considrons cette fonction :
156
d(Qx , Qg1 ) d(Qx , Qg2 ) d(Qg1 , Qg2 ) q = f (x) if 0 f (x) 1 f (x) = 1 q = 0 if f (x) < 0 q = 1 if f (x) > 1
Dans ce Test10, nous avons compar 3 distances :
(7.6)
D1 : le minimum des 16 distances (4 images rfrence contre 4 images test),
D1 = min(di ) avec di le score de comparaison i = {1 16}.

D2 : le minimum des 4 distances pondres (4 images rfrence contre 1 image test)
4
D2 = mint (
i=1
i qr di )
(7.7)
i avec qr la mesure de la qualit de l'image de rfrence et di le score de
comparaison i. D3 : la distance totale pondre par la qualit des chantillons (4 images rfrence contre 4 images de test)
D3 =
i i (wt qr di )
(7.8)
i avec qt la mesure de la qualit de l'image de test et di le score de comparaison
i.
Les rsultats du Test10 sont illustrs dans la gure 7.23 pour les direntes distances choisies. On constate une amlioration des performances entre l'utilisation de plusieurs images par modle pour la rfrence et le test et l'utilisation d'une seule image par modle de test. Ce rsultat conrme aussi des rsultats bien connus de Phillips sur la base FRGCv2 [69], avec l'amlioration des performances de la PCA entre l'exprience 1 (utilisant une seule image rfrence par personne) et l'exprience 2 (utilisant 4 images de rfrence par personne). Ce qui est intressant dans ces rsultats est l'amlioration signicative apporte par la distance D3 par rapport l'approche classique utilisant la distance D1. Les rsultats passent de 82% [0.9%] de VR@0.1 de FAR 88.3% [0.7%]. Ceci conrme encore que l'approche base sur les mesures de qualit tudies dans la premire partie du chapitre est trs robuste.
157
100
95 Test8 Test9 Test10 (D1) Test10 (D2) Tets10 (D3)
Taux de verification
90
85
80
75 0.1
1 Taux de fausse acceptation
10
100
Figure 7.23: Courbes ROC des Tests 8-9 et 10 (D1, D2 et D3)
7.2.4 Rcapitulatif des tests

En rsum, plusieurs tests ont t eectus an de valider nos approches de reconnaissance. Pour le premier scnario qui consiste comparer des images de rfrence de type contrl contre des images de test de qualits diverses, nous avons exploit la classication par mesure de qualit, tudie dans la premire partie du chapitre, an de choisir la meilleure approche de comparaison. La deuxime stratgie est prsente dans le cadre d'une reconnaissance de visage lorsque les images de rfrences et de test sont de type dgrad. Dans ce cadre, nous avons une connaissance a priori de la qualit des images utilises et nous avons opt alors pour une stratgie de fusion par pondration des mesures de qualit car elle amliore sensiblement les performances. Le tableau 7.4 rcapitule les dirences entre les scnarios et les protocoles ainsi que les rsultats des divers tests.
158
Scnarios
rfrence passeport
rfrence dgrad
Test 1 2 3 4 5 6 7 8 9 10
N Ref/mod 1 1 1 1 1 1 1 4 4 4 4 4
N Test/mod 1 1 1 1 1 1 1 1 1 4 4 4
pr-trait. EH LA EH LA EH/LA EH/LA LA LA LA LA LA LA
Projection P0 P1 P0 P1 P0/P1 P0/P1 P1 P1 P1 P1 P1 P1
Rsultats 96,2% 59,6% 95,8% 54,7% 84,9% 86.9% 75% 78.1% 80.2% 82% 85% 88.3%
Table 7.4: Tableau rcapitulatif des divers scnarios et protocoles avec les r-
sultats des performances donns en VR@0.1% de FAR (EH : galisation d'Histogramme, LA : Lissage Anisotropique). La mesure de distance est le cosinus. P0 : Espace de projection construit avec des images de type contrl, P1 : Espace de projection construit avec un mlange d'images de type contrl et non contrl, Nref/mod : nombre d'images de rfrence par modle, NTest/mod : nombre d'images de test par modle.
7.3. VALIDATION DE LA STRATGIE SUR LA BASE BANCA
159
7.3 Validation de la stratgie sur la base BANCA

Nous montrons ici la validit de la stratgie base sur la pondration par les mesures de qualit sur la base BANCA. Les protocoles P et G de la base sont tudis [4]. L'intrt de ces deux protocoles est qu'ils correspondent aux protocoles construits pour notre tude savoir, pour le protocole P, nous avons pour chaque modle de rfrence 5 images de qualit contrle et le modle de test peut avoir diverses qualits. Pour le protocole G, les modles de rfrence et de test sont aussi composs de 5 images de visage mais les modles de rfrence peuvent tre de qualits diverses. An de pouvoir comparer avec les rsultats de l'tat de l'art, nous avons utilis le point de fonctionnement WER (Weighted Error Rate ). Les dtails du calcul des performances ainsi que les rsultats des autres valuations peuvent tre retrouvs dans le chapitre 3 paragraphe 3.4.2 et l'article de Messer [55]. La table 7.5 prsente les rsultats de notre stratgie (base sur la mesure de qualit) et en la comparant la stratgie sans exploitation des mesures de qualits. Protocole Distance D1 P D3 D1 G D3 WER(0.1) G1 G2 4,3 4,5 3,5 3,10 2,49 2,66 1,4 1,6 WER(1) G1 G2 10,30 11,75 7,30 6,50 4,20 5,63 2,05 2.2 WER(10) G1 G2 3,80 4,53 3,25 3,30 2,85 2,32 1,6 1,52 Av.WER% 6,53 3,35
4,49 1,72
Table 7.5: Rsultats de la stratgie de reconnaissance sur la base BANCA, Pro-
tocole P et G, utilisant l'algorithme de reconnaissance DLDA appliqu aux reprsentations Gabor du visage.
Les rsultats du tableau montrent clairement une amlioration des rsultats en s'appuyant sur les mesures de qualit des dirents chantillons et conrme que la stratgie adopte est robuste et gnralisable sur d'autres bases d'valuation.
7.4 Conclusion
An d'tudier l'apport des stratgies de reconnaissance bases sur la qualit, nous avons utilis un systme de reconnaissance de visage classique bas sur la DLDA, appliqu aux reprsentations d'amplitude et de phase de Gabor, le systme a t prsent en dtail dans le chapitre 6. Ce chapitre commence par une tude
160
de plusieurs mesures de qualit comme la nettet et l'illumination. Trois mesures de qualit ont t adoptes et nous avons valid ces mesures sur les deux bases FRGCv2 et BANCA. Ces deux bases prsentent des caractristiques intressantes pour notre tude, savoir des conditions d'acquisition diverses et des qualits direntes. Une deuxime partie de ce chapitre concerne l'apport de ces mesures dans le cadre de protocoles de reconnaissance de visage en mode dgrad. Deux types de scnarios ont t tudis. Le premier consiste comparer un modle de rfrence de type "passeport" un modle de test de type inconnu et utiliser la mesure de qualit des images an de dterminer le choix du pr-traitement et de l'espace de rduction utiliser. Cette approche a montr son ecacit dans le Test5 o un gain de performance est constat, en se basant sur cette stratgie et sur une connaissance a priori de la qualit. Dans le Test6, nous avons utilis la mme stratgie, mais en se basant sur une classication par les mesures de qualit prsentes. Nous avons constat que cette stratgie de reconnaissance combine cet tiquetage automatique des images permet de s'aranchir ecacement d'un tiquetage manuel sans aucune dgradation des performances. Il est ainsi envisageable d'utiliser cette stratgie dans des applications relles pour lesquelles aucune information a priori de la qualit des images n'existe. Le deuxime type de scnario concerne la reconnaissance du visage en utilisant images de rfrence de qualit dgrade et des images de test de qualit diverse. Pour les direntes tudes de ce scnario, nous avons utilis le mme espace de rduction P1 et un pr-traitement bas sur le lissage anisotropique. Les tudes prsentent diverses stratgies de fusion des mesures de qualit et des scores de reconnaissance. La stratgie la plus ecace pour ce type de scnario est nalement l'utilisation de plusieurs images pour les modles de rfrence et de test ainsi que la pondration des scores de comparaison par la qualit de images de test (Test10-D3).
Chapitre 8
Conclusion et Perspectives
Dans cette thse, nous avons prsent un certain nombre de mthodes et d'approches permettant d'amliorer la reconnaissance du visage en 2D sous des conditions d'illumination et de qualit variables. Nous avons commenc dans le chapitre 2 par exposer un tat de l'art non exhaustif des mthodes de reconnaissance de visage 2D. Les outils d'valuation biomtrique ainsi que les bases de donnes publiques de visages, utiliss lors de nos valuations, sont prsents dans le chapitre 3. Une tude comparative des dirents algorithmes de reconnaissance (ACP, LDA et DLDA), qui sont bass sur l'approche globale par rduction d'espace, a t prsente dans le chapitre 4. Notre choix s'est nalement port sur l'algorithme DLDA qui a dmontr de meilleures performances que l'ACP et la LDA. Le chapitre 5 fut consacr l'tude du comportement des algorithmes de reconnaissance du visage suivant les paramtres de normalisations gomtrique et photomtrique. Pour la normalisation gomtrique, les expriences ont montr que les performances de la reconnaissance se stabilisent partir d'une taille susante des images aprs normalisation, calcule en terme de distance entre les centres des deux yeux. Au del d'une distance de 50 pixels entre les centres des yeux, la variation des performances de reconnaissance n'est plus signicative. La deuxime partie de ce chapitre est consacre la normalisation photomtrique. Dans une premire phase, nous avons commenc par tudier l'inuence de trois mthodes de transformation de l'image couleur en niveaux de gris. La transformation utilise est rarement cite dans la littrature bien que les rsultats de la reconnaissance 161
162
CHAPITRE 8. CONCLUSION ET PERSPECTIVES
soient trs sensibles ce choix. Nous avons ensuite tudi les principales mthodes de correction de l'illumination qui ont t prsentes dans la littrature. Dans des conditions d'acquisition dgrades, la mthode base sur le lissage anisotropique a montr sa supriorit, en terme de performances, par rapport l'galisation d'histogramme, la correction Gamma et l'approche MultiRetinex. Cette dirence de performance n'est plus vrie lorsque les images de rfrence et les images de test sont de bonne qualit (illumination et rsolution). A la n de ce chapitre, nous avons prsent une nouvelle approche de normalisation photomtrique qui a montr son ecacit par rapport aux mthodes classiques tudies dans le cas de tests en conditions dgrades. Cette normalisation photomtrique est base sur la reconstruction de la luminance du visage en exploitant son aspect symtrique. Les rsultats des valuations sur les bases FRGC et BANCA ont montr que dans le cas d'images acquises dans des conditions d'illumination et de mise au point contrles, un pr-traitement simple, comme l'galisation d'histogramme, est largement susant. En revanche, une dgradation des performances peut subvenir lorsqu'un pr-traitement non adapt la qualit des images de rfrence et des images de test est appliqu. C'est donc dans ce contexte que la nouvelle mthode propose a toute son importance. Dans le chapitre 6, nous avons propos d'utiliser l'information spatio-frquentielle du visage pour obtenir une bonne reprsentation. Cette information est extraite de l'image des pixels par application de ltres de Gabor direntes rsolutions et diverses orientations. Cette reprsentation a largement t utilise et tudie dans la littrature. Dans la majorit de ces tudes, seule l'amplitude de la rponse des ltres de Gabor a t employe alors que la phase est omise. Nous avons expliqu les raisons de la limitation de l'utilisation de cette phase et nous avons fourni une solution simple pour pallier cette limitation. Nous avons galement propos d'utiliser une nouvelle reprsentation du visage base sur la fusion de l'amplitude et de la phase corrige. Les rsultats des direntes valuations sur les deux bases de donnes FRGC et BANCA ont conrm la robustesse de cette fusion. Dans la premire campagne d'valuation de la base IV2 , cette mthode a montr sa supriorit par rapport plusieurs algorithmes classiques comme la LDA, la PCA modulaire. L'amlioration est surtout remarquable lorsque les conditions des tests sont dgrades. Nous nous sommes aussi intresss l'inuence du choix des paramtres des dirents ltres de Gabor comme les orientations, les rsolutions et les frquences sur les performances. Nous avons observ que l'algorithme de la DLDA
163
est capable d'extraire l'information discriminante de cette nouvelle reprsentation mme si une information non discriminante est rajoute partir d'une certaine rsolution d'analyse. Nous avons ainsi propos un systme complet comprenant prtraitement et codage global avec ltres de Gabor, prsentant d'excellentes performances mme en conditions dgrades. En nous basant sur les observations du chapitre 5, lies l'apport des dirents pr-traitements selon la qualit des images, nous avons propos, dans le chapitre 7, une stratgie de reconnaissance lie la qualit des images de rfrence et de test. Nous avons commenc par tudier direntes mesures an de pouvoir classer les images selon leur qualit en terme de nettet et d'illumination. Le premier critre mesure le dsquilibre de l'illumination par calcul des distributions locales des statistiques des niveaux de gris. Plusieurs statistiques locales ont t tudies et la mdiane a donn les meilleures performances de sparation sur la base d'apprentissage. Un deuxime critre exploite la dirence des histogrammes des images de luminance entre les images acquises dans des conditions d'illumination contrles et les images acquises dans des conditions d'illumination variables. On mesure alors la distance du vecteur de l'histogramme de l'image luminance l'hyperplan sparateur calcul par SVM. L'apprentissage de cet hyperplan est eectu sur une partie de la base d'apprentissage de la base de donnes de FRGC. Ces deux mesures de l'illumination sont intressantes parce qu'elles sont complmentaires. Enn, an de pouvoir mesurer le niveau du ou de l'image du visage, nous avons propos une mthode base sur une approche frquentielle locale pondre. Cette mthode a donn des rsultats meilleurs que deux autres mthodes classiques de calcul du ou, savoir une mthode base sur l'approche gradient et une deuxime base sur l'approche frquentielle globale. Ceci s'explique par le fait que ce nouveau critre est plus adapt la nature des images du visage que les deux autres mesures. La classication des images, en terme de qualit, par fusion de ces dirents critres est ralise par la mthode non-supervise des k-moyennes. Nous avons valid notre systme de classication sur la base BANCA. Un bon accord sur les donnes considres comme dgrades est obtenu par notre classicateur et par celui des organisateurs des valuations. Par contre sur les images considres comme contrles dans les valuations, nous notons quelques
164
dirences avec notre classication. En s'appuyant sur cette mthode de classication des images par la qualit, nous avons tudi, par la suite, plusieurs stratgies de reconnaissance. Pour cela, un nouveau dcoupage de la base FRGC a t ncessaire et plusieurs scnarios de tests ont t construits. Lors de l'utilisation de plusieurs images en test, nous avons obtenu une amlioration relative de 40% dans les performances grce l'utilisation d'une information de qualit pour pondrer les scores rsultant de chaque test. Nous amliorons ainsi signicativement les performances par cette stratgie au regard de la seule utilisation des coecients de Gabor, sans tenir compte de la qualit. Les perspectives de ce travail de thse restent nombreuses. Nous n'avons fait qu'eeurer l'apport qui peut tre attendu dans le traitement d'images vido (application de vido surveillance par exemple) o plusieurs images de la personne sont disponibles. Dans cette direction, il serait intressant de considrer d'autres moyens d'introduire la mesure de qualit dans le calcul des scores. Nous avons eectivement propos une mthode de fusion de score par simple moyenne pondre des scores o la mesure de la qualit sert de poids. Cependant, d'autres mthodes utilisant des modles statistiques comme les GMM ou les SVM seraient intressantes tudier. Un autre point explorer est l'utilisation d'une modlisation synthtique du visage an de caractriser un visage de bonne ou de mauvaise qualit. Ncessitant une phase d'apprentissage, le point faible de notre approche reste l'tiquetage manuel de la base d'apprentissage. Cet tiquetage est assez subjectif et sujet des erreurs dues l'apprciation des oprateurs. L'utilisation d'un modle de synthse gnratif d'un visage de bonne ou de mauvaise qualit, permettrait sans doute de diminuer, et voir liminer, l'inuence des erreurs d'tiquetage qui peuvent entacher notre mthode. Les dernires avances de la technologie de capture 3D des images de visage ont permis de mettre en place des systmes de reconnaissance assez robustes par rapport la pose, s'appuyant sur les informations supplmentaires que le modle 3D peut fournir pour l'identication. En principe, la modlisation 3D d'un visage est considre comme robuste, voir mme indpendante des problmes environne-
165
mentaux d'acquisition. En pratique, la capture d'un modle prcis du visage 3D est sujette toutefois des variations dans les conditions d'illumination. Il serait intressant d'tudier, dans ce cas, l'inuence de l'illumination sur les performances et d'introduire de nouvelles mesures qui correspondent aux problmes que rencontre l'acquisition 3D, tels que le pourcentage d'occultation des parties du visage et les erreurs de reconstruction du modle. Une autre piste pour pallier aux problmes de variabilit de l'illumination est l'utilisation des images en proche infrarouge. Une tude avec ce type d'image a t entame au cours de ma thse en collaboration de Walid Hizem et les rsultats sont encourageants [96]. Finalement, une voie que nous souhaitons explorer est celle de l'implmentation de notre systme complet sur une plate-forme nomade. Une tude prliminaire a t ralise dans le cadre du projet franais OPPIDUM VINSI "Vrication d'Identit Numrique Scurise Itinrante" coordonn par Thales. Pour cela, le choix automatique de la stratgie de reconnaissance ainsi que l'introduction de nos mesures de qualit dans le calcul du score doivent tre optimiss. Les problmes rsoudre sont essentiellement lis la complexit du systme actuel en terme de calcul et de mmoire pour des intgrations futures. Une partie de ce travail d'optimisation a nanmoins t dj eectue an de pouvoir obtenir des rsultats dans des temps convenables pour les protocoles de la grande base de donnes FRGC.
Liste des publications

Chapitre de livre :
(2008) Massimo Tistarelli, Manuele Bicego, Jose L. Alba-Castro, Daniel GonzalezJimenez, Mohamed-Anouar Mellakh, Albert Ali Salah, Dijana PetrovskaDelacrtaz, and Bernadette Dorizzi.2D Face Recognition. Dijana PetrovskaDelacrtaz,editor, Guide to Biometric Reference Systems and Per-
formance Evaluation,chapter 8,Springer, 2009.
Articles de journaux
(2009) Walid Hizem, Lorne Allano, Anouar Mellakh and Bernadette Dorizzi : Face recognition from synchronized visible and near infrared
images. IET Signal Processing, 2009.
Confrences internationales :
(2004) Emine Krichen, M. Anouar Mellakh, Sonia Garcia-Salicetti, Kamel Hamrouni, Nouredine Ellouze and Bernadette Dorizzi : Iris Identication
Using Wavelet Packet for Images in Visible Light Illumination.

ICBA 2004 : 491-497 (2004) Emine Krichen, M. Anouar Mellakh, Sonia Garcia-Salicetti and Bernadette Dorizzi : Iris Identication Using Wavelet Packets. ICPR (4) 2004 : 335-338
167
168
(2005) S. Garcia-Salicetti, Anouar Mellakh, L. Allano and B. Dorizzi : A Ge-
neric Protocol for Multibiometric Systems Evaluation On Virtual and Real Subjects. Workshop AVBPA 2005, USA, July 2005.
(2005) S. Garcia-Salicetti, Anouar Mellakh, L. Allano and B. Dorizzi : Mul-
timodal biometric score fusion : the mean rule vs. support vector classiers..EUSIPCO 2005, Antalya, Turkey.
(2006) M.A. Mellakh, D. Petrovska-Delacretaz, and B. Dorizzi : Using si-
gnal/residual information of eigenfaces for pca face space dimensionality characteristics. Pattern Recognition, 2006. ICPR 2006. 18th
International Conference on Pattern Recognition, 4 pages :574-577, 2006. (2007) M. Anouar Mellakh, Dijana Petrovska-Delacraz, and Bernadette Dorizzi : Combinaison de classieurs pour la reconnaissance du visage. TAIMA'07 : Traitement et Analyse de l'Information : mthodes et applications, 22-26 mai , Hammamet, Tunisie, 2007 (2008) D. Petrovska Delacretaz, S. Lelandais, J. Colineau, L. Chen, B. Dorizzi, M. Ardabilian, E. Krichen, M.A. Mellakh, A. Chaari, S. Guer, J. D Hose, and B.B. Amor : The IV2 multimodal biometric database (in-
cluding iris, 2d, 3d, stereoscopic, and talking face data), and the
iv2-2007 evaluation campaign. In BTAS08, pages 1-7, 2008.
Bibliographie
[1] Timo Ahonen, Abdenour Hadid, and Matti Pietikainen. Face Recognition
with Local Binary Patterns. 2004.

[2] O. Ayinde and Y.H. Yang. Face recognition approach based on rank correlation of gabor-ltered images. Pattern Recognition, 35(6) :12751289, June 2002. [3] FR Bach and MI Jordan. Kernel independent component analysis. Journal
of Machine Learning Research, pages 148, 2002.

[4] E. Bailly-Baillire, S. Bengio, F. Bimbot, M. Hamouz, J. Kittler, J. Marithoz, J. Matas, K. Messer, V. Popovici, F. Pore, B. Ruiz, and J.-P. Thiran. The BANCA Database and Evaluation Protocol. In 4th Interna-
tional Conference on Audio-and Video-Based Biometric Person Authentication (AVBPA'03), volume 2688 of Lecture Notes in Computer Science,
pages 625638, Guildford, UK, January 2003. Springer. [5] H.G. Barrow and J.M. Tenenbaum. Recovering intrinsic scene characteristics from images. In CVS78, pages 326, 1978. [6] A. Bartlett and JR Movellan. Face recognition by independent component analysis. TRANSACTIONS ON NEURAL NETWORKS, 13 :303321, November 2002. [7] P.N. Belhumeur and D.J. Kriegman. What is the set of images of an object under all possible lighting conditions ? Computer Vision and Pattern
Recognition, 1996. Proceedings CVPR '96, 1996 IEEE Computer Society Conference on, pages 270277, Jun 1996.
[8] Alphonse Bertillon. Ethnographie moderne : les races sauvages. 1883. 169
170
BIBLIOGRAPHIE
[9] [10]
Christopher M. Bishop. Information Theory, Inference, and Learning Algo-
rithms. Springer, 2006.

R. M. Bolle, N. K. Ratha, and S. Pankanti. Error analysis of pattern recognition systems-the subsets bootstrap. Computer Vision and Image Unders-
tanding, 93(1) :133, January 2004.

[11] David S. Bolme, J. Ross Beveridge, Marcio Teixeira, and Bruce A. Draper. The csu face identication evaluation system : Its purpose, features, and structure. In ICVS, pages 304313, 2003. [12] [13] Michael Brauckmann and Martin Werner. Quality values for face recognition. Technical report, VIISAGE, 2006. Michael Bulmer. Francis Galton : pioneer of heredity and biometry, volume 1. Baltimore, Md. London , Johns Hopkins University Press cop, 2003. [14] Kyong I. Chang, Kevin W. Bowyer, and Patrick J. Flynn. Face recognition using 2d and 3d facial data. Workshop in Multimodal User Authentication, pages 2532, 2003. [15] Kyong I. Chang, Kevin W. Bowyer, and Patrick J. Flynn. An evaluation of multimodal 2d+3d face biometrics. IEEE Trans. Pattern Anal. Mach.
Intell., 27(4) :619624, 2005.

[16] L.F. Chen, H.Y.M. Liao, M.T. Ko, J.C. Lin, and G.J. Yu. A new lda-based face recognition system which can solve the small sample size problem.
Pattern Recognition, 33(10) :17131726, October 2000.

[17] M. N. Dailey, W. C. Cottrell, C. Padgett, and R. Adolphs. A neural network that categorizes facial expressions. Journal of Cognitive Science, pages 11581173, 2002. [18] [19] [20] J. Daugman. How iris recognition works. Circuits and Systems for Video
Technology, IEEE Transactions on, 14(1) :2130, Jan. 2004.

R.L. de Queiroz and K.M. Braun. Color embedding into gray images. pages III : 944947, 2005. B. Fasel. Multiscale facial expression recognition using convolutional neural networks. in Proc. of the third Indian Conference on Computer Vision
(ICVGIP), 2002.
BIBLIOGRAPHIE
171
[21]
R.A Fisher. The use of multiple measures in taxonomic problems. Ann.
Eugenics, 7 :179188, 1936.

[22] X.F. Gao, S.Z. Li, R. Liu, and P.R. Zhang. Standardization of face image sample quality. In ICB07, pages 242251, 2007. [23] A. S. Georghiades, D. J. Kriegman, and P. N. Belhumeur. Illumination cones for recognition under variable lighting : Faces. In CVPR '98 : Proceedings
of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, page 52, Washington, DC, USA, 1998. IEEE Computer Society.
[24] A.S. Georghiades, P.N. Belhumeur, and D.J. Kriegman. From few to many : illumination cone models for face recognition under variable lighting and pose. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 23(6) :643660, Jun 2001. [25] Rafael C. Gonzalez and Richard E. Woods. Digital Image Processing (2nd
Edition). Prentice Hall, January 2002.

[26] Ralph Gross and Vladimir Brajovic. An image preprocessing algorithm for illumination invariant face recognition. In 4th International Conference
on Audio- and Video-Based Biometric Person Authentication (AVBPA).

Springer, June 2003. [27] Abdenour Hadid. Face description with local binary patterns : Application to face recognition. IEEE Trans. Pattern Anal. Mach. Intell., 28(12) :2037 2041, 2006. [28] Ziad M. Hafed and Martin D. Levine. Face recognition using the discrete cosine transform. Int. J. Comput. Vision, 43(3) :167188, 2001. [29] Wonjun Hwang, Gyutae Park, Jongha Lee, and Seok-Cheol Kee. Multiple face model of hybrid fourier feature for large face image set. In CVPR '06 :
Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pages 15741581, Washington, DC, USA,
2006. IEEE Computer Society. [30] Buciu I., kotropoulos C., and Pitas I. Ica and gabor representation for facial expression recognition. Image Processing, 2003. ICIP 2003. Proceedings.
2003 International Conference on, 2 :II8558 vol.3, 14-17 Sept. 2003.
172
BIBLIOGRAPHIE
[31]
Phillips J., H. Moon, S. Rizvi, and P. Rauss. The feret evaluation methodology for face-recognition algorithms. IEEE Trans. Pattern Analysis and
Machine Intelligence, 22, 2000.

[32] Phillips P. J., Wechsler H., Huang J., and Rauss P. The feret database and evaluation procedure for face-recognition algorithms. Image and Vision
Computing, 1998.
[33] Paul T. Jackway and Mohamed Deriche. Scale-space properties of the multiscale morphological dilation-erosion. IEEE Transactions on Pattern Ana-
lysis and Machine Intelligence, 18(1) :3851, 1996.

[34] Anil K. Jain and Farshid Farrokhnia. Unsupervised texture segmentation using gabor lters. Pattern Recogn., 24(12) :11671186, 1991. [35] Anil K. Jain and Stan Z. Li. Handbook of Face Recognition. Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2005. [36] Phillips Jonathon, P. Grother, and ROSS J. Face recognition vendor test 2002. Technical report, NIST, 2003. [37] Phillips Jonathon, H. Wechsler, J. Huang, and P. Rauss. The feret database and evaluation procedure for face-recognition algorithms. Image and Vision
Computing, 16 :295306, 1998.

[38] Michael David Kelly. Visual identication of people by computer. PhD thesis, Stanford, CA, USA, 1971. [39] Kirby and M Sirovich. Application of the karhunen-loeve procedure for the characterization of human faces. Pattern Analysis and Machine Intelligence, 12 :103108, Jan 1990. [40] C. Kotropoulos, A. Tefas, and I. Pitas. Morphological elastic graph matching applied to frontal face authentication under optimal and real conditions.
Multimedia Computing and Systems, 1999. IEEE International Conference on, 2 :934938 vol.2, Jul 1999.
[41] C.L. Kotropoulos, A. Tefas, and I. Pitas. Frontal face authentication using discriminating grids with morphological feature vectors. Multimedia Com-
puting and Systems, IEEE Transactions on, 2(1) :1426, Mar 2000.
BIBLIOGRAPHIE
173
[42]
Norbert Krger. An algorithm for the learning of weights in discrimination functions using a priori constraints. IEEE Trans. Pattern Anal. Mach.
Intell., 19(7) :764768, 1997.

[43] K. Kryszczuk and A. Drygajlo. On face image quality measures. Multimodal
User Authentication, May 2006.

[44] M. Lades, J.C. Vorbruggen, J. Buhmann, J. Lange, C. von der Malsburg, R.P. Wurtz, and W. Konen. Distortion invariant object recognition in the dynamic link architecture. Transactions on Computers, 42(3) :300311, Mar 1993. [45] C J Lee and S D Wang. Fingerprint feature extraction using gabor lters.
Electronics Letters, 1999.

[46] D. D. Lee and H. S. Seung. Learning the parts of objects by non-negative matrix factorization. Nature, 401(6755) :788791, October 1999. [47] Ying li Tian, Takeo Kanade, and Jerey F. Cohn. Evaluation of gaborwavelet-based facial action unit recognition in image sequences of increasing complexity. In FGR '02 : Proceedings of the Fifth IEEE International Confe-
rence on Automatic Face and Gesture Recognition, page 229, Washington,

DC, USA, 2002. IEEE Computer Society. [48] Chengjun Liu. Gabor-based kernel pca with fractional power polynomial models for face recognition. 26(5) :572581, 2004. [49] Chengjun Liu. Capitalize on dimensionality increasing techniques for improving face recognition grand challenge performance. Pattern Analysis and
IEEE Trans. Pattern Anal. Mach. Intell.,
Machine Intelligence, 28 :725737, May 2006.

[50] J. Lu, K.N. Plataniotis, and A.N. Venetsanopoulos. Regularization studies of linear discriminant analysis in small sample size scenarios with application to face recognition. PRL, 26(2) :181191, January 2005. [51] A. Martin, G. Doddington, T. Kamm, M. Ordowski, and M. Przybocki. The det curve in assessment of detection task performance. In Eurospeech, pages 18951898, 1997. [52] AM Martinez and AC Kak. Pca versus lda. Pattern Analysis and Machine
Intelligence, 23 :228233, 2001.
174
BIBLIOGRAPHIE
[53]
Aurlien Mayoue and Dijana Petrovska-Delacrtaz. Open source reference systems for biometric verication of identity. The 4th International Confe-
rence on Open Source Systems, September 2008.

[54] M.A. Mellakh, D. Petrovska-Delacretaz, and B. Dorizzi. Using signal/residual information of eigenfaces for pca face space dimensionality characteristics. Pattern Recognition, 2006. ICPR 2006. 18th International
Conference on, 4 :574577, 0-0 2006.

[55] Kieron Messer and al. Face authentication test on the banca database. In ICPR '04 : Proceedings of the Pattern Recognition, 17th International
Conference on (ICPR'04) volume 4, pages 523532, Washington, DC, USA,

2004. IEEE Computer Society. [56] S. Mika, G. Ratsch, J. Weston, B. Scholkopf, and K.R. Mullers. Fisher discriminant analysis with kernels. Neural Networks for Signal Processing
IX, 1999. Proceedings of the 1999 IEEE Signal Processing Society Workshop,
pages 4148, Aug 1999. [57] [58] [59] [60] S. Mika, G. Rtsch, J. Weston, B. Schlkopf, A. Smola, and K. Mller. Invariant feature extraction and classication in kernel spaces, 2000. H. Moon and P.J. Phillips. Analysis of pca-based face recognition algorithms. Empirical Evaluation Techniques in Computer Vision, 1998. NIST. The 2008 nist speaker recognition evaluation, June 2008. University of Bologna, Michigan State University, San Jose State University, and Universidad Autonoma de Madrid. the fourth international ngerprint verication competition, June 2006. [61] Timo Ojala, Matti Pietikinen, and Topi Menp. Multiresolution grayscale and rotation invariant texture classication with local binary patterns.
IEEE Trans. Pattern Anal. Mach. Intell., 24(7) :971987, 2002.

[62] [63] [64] A. V. Oppenheim and J. S. Lim. The importance of phase in signals. Pro-
ceedings of the IEEE, 69(5) :529541, May 1981.

A.V. Oppenheim and J.S. Lim. The importance of phase in signals. Pro-
ceedings of the IEEE, 69(5) :529541, May 1981.

P Penev and L Sirovich. The global dimensionality of face space. Face and
Gesture, pages 264270, 2000.
BIBLIOGRAPHIE
175
[65]
P.S. Penev and J.J. Atick. Local feature analysis : A general statistical theory for object representation. Network : Computation in Neural Systems, 7(3) :477500, 1996.
[66]
A. Pentland, B. Moghaddam, and T. Starner. View-based and modular eigenspaces for face recognition. Computer Vision and Pattern Recognition,
1994. Proceedings CVPR '94., 1994 IEEE Computer Society Conference on,
pages 8491, Jun 1994. [67] D. Petrovska Delacretaz, S. Lelandais, J. Colineau, L. Chen, B. Dorizzi, M. Ardabilian, E. Krichen, M.A. Mellakh, A. Chaari, S. Guer, J. D'Hose, and B.B. Amor. The iv2 multimodal biometric database (including iris, 2d, 3d, stereoscopic, and talking face data), and the iv2-2007 evaluation campaign. In BTAS08, pages 17, 2008. [68] Dijana Petrovska-Delacrtaz, Grard Chollet, and Bernadette Dorizzi.
Guide to Biometric Reference Systems and Performance Evaluation. Springer, 2009. [69] Jonathon Phillips and Patrick J Flynn. Overview of the face recognition grand challenge. Computer Vision and Pattern Recognition, june 2005. [70] P. Jonathon Phillips, W. Todd Scruggs, Alice J. O Toole, Patrick J. Flynn, Kevin W. Bowyer, Cathy L. Schott5, and Matthew Sharpe. Frvt 2006 and ice 2006 large-scale results evaluation report. Technical, National Institute of Standards and Technology, March 2007. [71] S. Der Phillips J., P. J. Rauss. Feret recognition algorithm development and test results. Army Research Laboratory technical report, ARL-TR-995, 1996. [72] Norman Poh, Guillaume Heusch, and Josef Kittler. On combination of face authentication experts by a mixture of quality dependent fusion classiers. In MCS, pages 344356, 2007. [73] Laiyun Qing, Shiguang Shan, and Xilin Chen. Face relighting for face recognition under generic illumination. Acoustics, Speech, and Signal Processing,
2004. Proceedings. (ICASSP '04). IEEE International Conference on, 5 :V

7336 vol.5, 17-21 May 2004.
176
BIBLIOGRAPHIE
[74]
Laiyun Qing, Shiguang Shan, and Wen Gao. Face recognition under varying lighting based on derivates of log image. In SINOBIOMETRICS, pages 196 204, 2004.
[75] [76]
David G. Stork Richard O. Duda, Peter E. Hart. Pattern Classication. Wiley-Interscience, 2001. Tammy Riklin-Raviv and Amnon Shashua. The quotient image :class based recognition and synthesis under varying illumination conditions. cvpr, 02 :2566, 1999.
[77] [78] [79]
Daniel L. Ruderman. The statistics of natural images. Network : Compu-
tation in Neural Systems, pages 517548., 1994.

F.S. Samaria and S. Young. Hmm-based architecture for face identication.
IVC, 12(8) :537543, October 1994.

M. Savvides, R. Abiantun, J. Heo, S. Park, C. Xie, and B.V.K. Vijaya Kumar. Partial and holistic face recognition on frgc-ii data using support vector machine. In Biometrics06, page 48, 2006. [80] M. Savvides and B.V.K. Vijaya Kumar. Quad phase minimum average correlation energy lters for reduced memory illumination tolerant face authentication. In AVBPA03, pages 1926, 2003. [81] [82] [83] B Scholkopf, A Smola, and KR Muller. Nonlinear component analysis as a kernel eigenvalue problem. Technical Report No 44, December 1996. M. Schulze, K. Scheer, and K. W. Omlin. Recognizing facial actions with support vector machines. in Proc. PRASA, pages 9396, 2002. A. Shashua and T. Riklin-Raviv. The quotient image : class-based rerendering and recognition with varying illuminations. Pattern Analysis and
Machine Intelligence, IEEE Transactions on, 23(2) :129139, Feb 2001.

[84] [85] [86] L.L. Shen and L. Bai. Gabor feature based face recognition using kernel methods. In AFGR04, pages 170175, 2004. Terence Sim, Simon Baker, and Maan Bsat. The cmu pose, illumination, and expression (pie) database, 2002. Terence Sim and Takeo Kanade. Illuminating the face. Technical Report CMU-RI-TR-01-31, Robotics Institute, Carnegie Mellon University, Pittsburgh, PA, September 2001.
BIBLIOGRAPHIE
177
[87] [88] [89]
L. Sirovich and M. Kirby. Low-dimensional procedure for the characterization of human faces. J. Opt. Soc. Am. A, 4(3) :519, 1987. Y. Su, S.G. Shan, X.L. Chen, and W. Gao. Hierarchical ensemble of global and local classiers for face recognition. In ICCV07, pages 18, 2007. Daniel L. Swets and John (Juyang) Weng. Using discriminant eigenfeatures for image retrieval. IEEE Transactions on Pattern Analysis and Machine
Intelligence, 18(8) :831836, 1996.

[90] [91] L. Szirmay-Kalos. Monte-carlo methods in global illumination, 1999. Anastasios Tefas, Constantine Kotropoulos, and Ioannis Pitas. Using support vector machines to enhance the performance of elastic graph matching for frontal face authentication. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 23(7) :735746, 2001.

[92] Anastasios Tefas, Constantine Kotropoulos, and Ioannis Pitas. Face verication using elastic graph matching based on morphological signal decomposition. Signal Process., 82(6) :833851, 2002. [93] [94] M. Turk and A. Pentland. Eigenfaces for recognition. journal of Cognitive
Neuroscience, 3 :7186, 1991.

Zia ur Rahman, Glenn A Woodell, and Daniel J Jobson. A comparison of the multiscale retinex with other image enhancement techniques. In Proceedings
of the IST 50th Annual Conference, 1997.

[95] B. Draper W. Yambor and R. Beveridge. Analyzing pca-based face recognition algorithms : Eigenvector selection and distance measures. Empirical
Evaluation Methods in Computer Vision, World Scientic Press, 2002.

[96] Anouar Mellakh Walid Hizem, Lorne Allano and Bernadette Dorizzi. Face recognition from synchronized visible and near infrared images. IET Signal
Processing, 2009.
[97] Haitao Wang, Stan Z. Li, Yangsheng Wang, and Weiwei Zhang. Illumination modeling and normalization for face recognition. In AMFG '03 : Proceedings
of the IEEE International Workshop on Analysis and Modeling of Faces and Gestures, page 104, Washington, DC, USA, 2003. IEEE Computer Society.
[98] Frank Weber. Some quality measures for face images and their relationship to recognition performance. Technical report, Cognitec, 2006.
[99]
L. Wiskott. Phantom faces for face analysis. In ICIP '97 : Proceedings of the
1997 International Conference on Image Processing (ICIP '97) 3-Volume Set-Volume 3, page 308, Washington, DC, USA, 1997. IEEE Computer Society. [100] Laurenz Wiskott, Jean-Marc Fellous, Norbert Kruger, and Christoph von der Malsburg. Face recognition by elastic bunch graph matching. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 19(7) :775779,

1997. [101] Laurenz Wiskott and Christoph von der Malsburg. Recognizing faces by dynamic link matching. In Axel Wismller and Dominik R. Dersch, editors,
Symposion ber biologische Informationsverarbeitung und Neuronale Netze - SINN '95, pages 6368, Mnchen, 1996.
[102] Rolf P. Wrtz. Object recognition robust under translations, deformations, and changes in background. IEEE Trans. Pattern Anal. Mach. Intell., 19(7) :769775, 1997. [103] Hua Yu and Jie Yang. A direct lda algorithm for high-dimensional data - with application to face recognition. Pattern Recognition, 34(10) :2067 2070, 2001. [104] J. Zhang, Y. Yan, and M. Lades. Face recognition : Eigenface, elastic matching, and neural nets. PIEEE, 85(9) :14231435, September 1997. [105] Mian Zhou and Hong Wei. Face verication using gaborwavelets and adaboost. In ICPR '06 : Proceedings of the 18th International Conference on
Pattern Recognition, pages 404407, Washington, DC, USA, 2006. IEEE

Computer Society.
Remerciements
Certaines personnes trouveront peut tre inadquat que mes remerciements soient mis la n de ce manuscrit. Pour moi, c'est leur place idale, ils s'inscrivent dans la continuit de cette thse. Aprs des annes de travail, je trouve que nir ces pages en remerciant les personnes qui mritent de l'tre est plus valorisant et sincre. Pour ne pas droger la tradition et en toute sincrit, je tiens remercier les membres du jury qui ont accept d'valuer mon travail. Juger un travail est loin d'tre une tche des plus faciles. Je tiens donc remercier mon rapporteur le Professeur Sylvie Lelandais pour la prcision, pour la pertinence de ses critiques et pour ses conseils qui ont permis d'amliorer la comprhension de ce manuscrit. Mes remerciements s'adressent galement au Professeur Faouzi Gorbel pour ses critiques trs constructives et les ides trs intressantes qu'il a formules dans son rapport et lors de la prsentation. Je remercie au mme titre le Professeur Andr Gagalowicz d'avoir accept de faire parti du jury pour juger mon travail et enn, un grand merci au Professeur Maurice Milgram d'avoir accept de prsider le jury et pour ses critiques lors de la soutenance. Je tiens particulirement remercier ma directrice de thse, le Professeur Bernadette Dorizzi, avec qui j'ai eu le plaisir, la chance et l'honneur de travailler, de discuter et d'avancer dans ma thse. Je tiens sincrement la remercier pour son soutien, non seulement, sur le plan scientique mais aussi sur le plan humain. Mes remerciements s'adressent aussi mon encadreur de thse, le Docteur Dijana Petrovska ,qui m'a appris analyser, critiquer et m'exprimer le plus clairement possible : en particulier, penser et agir comme un scientique et non pas comme l'ingnieur dbutant que j'tais au commencement de ma thse. Je tiens bien sr remercier mes parents pour leur patience et leur dvoue181
ment. Je pense que la distance est d'autant plus dure pour eux que pour moi, mais sans leurs encouragements, je ne serais pas entrain d'crire ces quelques mots. Alors merci maman, merci papa. Je n'oublie pas non plus de remercier mon frre et ma petite soeur pour leur patience. Mes remerciements s'adressent galement tous mes collgues et amis de l'Institut National des Tlcommunications que j'ai eu la chance de ctoyer pendant des annes et qui m'ont permis de grer des moments de stress et de fatigue. Je pense particulirement Yann, Murielle, Yanneck, Patricia, Yollande, Aurlien, Franois et Marie-Thrse. J'ai eu la chance de faire la rencontre d'un ami, il y a prs d'une dizaine d'anne, sur qui j'ai pu compter tout moment et que je considre comme un frre. Mon ami Emine (avec un E, s'il vous plat) est et restera pour moi l'ami de conance qu'on a intrt avoir. Mme si je ne lui conrais pas mes cls. Merci Emine et au plaisir de re-travailler avec toi. Lors des Doctoriales 2005, j'ai fais la connaissance de jeunes doctorants de disciplines direntes qui sont devenus des amis trs chers et des complices d'aventures. Je remercie Christina, Lorne, Isabelle, Delphine, Ons, Coralie, Walid, Etienne, Xavier, Charles, Benoit, et Benjamin. Chacun a fait son petit chemin et nos longues soires ou dners autour d'excellents plats resteront parmi les plus merveilleux souvenirs de mes dernires annes. Je tiens saluer la mmoire de ma seconde mre Christine Villiers, qui a t pour moi une vraie mre de substitution et qui m'a pouss avec toute sa gnrosit, sa force et son courage aller de l'avant. Je la remercie titre posthume d'avoir t pour moi une amie et une complice. Nos petites discussions me manquent et ton souvenir ne s'teindra jamais. Je tiens remercier par la mme occasion Alain Amesland pour avoir t prsent tout au long de ces moments. Enn, mes remerciements s'adressent la femme de ma vie et ma complice Tiphaine pour sa patience, pour sa prsence, pour son dvouement et pour son aide inestimable dans l'accomplissement de ce travail. Ses encouragements et son dvouement m'ont permis dans les moments les plus diciles repousser mes limites. Je la remercie pour sa prsence ces dernires annes et je lui promets, mme si ce n'est peut-tre pas l'endroit, de faire de mon mieux pour la rendre heureuse. Ces remerciements peuvent vous sembler un peu longs, mais quelques lignes ne pourront pas rsumer des annes de rencontres, d'amitis et d'aventures.
Titre
Reconnaissance des visages en conditions dgrades
Rsum
De nos jours, les algorithmes de reconnaissance du visage proposs dans la littrature ont atteint un niveau de performance correct lorsque les conditions d'acquisition des images compares sont contrles, mais les performances chutent lorsque ces conditions sont dgrades. Les conditions d'acquisition contrles correspondent un bon quilibre d'illumination, ainsi qu'une haute rsolution et une nettet maximale de l'image du visage. An de bien cerner le problme de dgradation des performances dans les conditions d'acquisition diciles et de proposer par la suite des solutions adaptes, nous avons eectu plusieurs tudes dirents niveaux de la chane de la reconnaissance. Ces tudes concernent le comportement des algorithmes bass sur les approches globales. Elles concernent galement les direntes mthodes de normalisation photomtrique ainsi que des stratgies de reconnaissance bases sur la qualit des images du visage. Les solutions proposes chaque niveau de cette chane ont apport une amlioration signicative des performances par rapport aux approches classiques. Pour les algorithmes de reconnaissance, nous avons propos l'utilisation de la fusion de la phase et de l'amplitude des reprsentations de Gabor de l'image du visage comme nouveau gabarit, la place de l'image des pixels. Bien que les reprsentations de Gabor aient t largement utilises, particulirement dans les algorithmes bass sur les approches globales, la phase n'a jamais t exploite jusqu' ce jour. Nous expliquons dans cette thse les problmes lis l'utilisation de cette phase de Gabor et nous proposons une solution pour y remdier. Direntes mthodes de normalisation photomtrique de l'image du visage ont t tudies et compares. Nous avons, par la suite, propos une nouvelle approche de normalisation base sur la correction de la composante luminance. Enn, nous avons prsent une stratgie de reconnaissance se basant sur la mesure de qualit du visage. Cette mesure est une fusion de plusieurs critres de qualit et selon nos expriences, cette stratgie permet une amlioration notable des performances par rapport aux mthodes classiques. Les direntes tudes, la validation de nos mesures de qualit ainsi que la validation de la stratgie de reconnaissance ont t eectues sur les deux bases de donnes publiques de visage FRGCv2 et BANCA largement utilises par la communaut.
Mot-clefs
Biomtrie, Reconnaissance de visage, Illumination, Normalisation photomtrique, ltres de Gabor, Qualit.
ISBN :
00000000000

Mellakh PHD

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Mellakh PHD

Uploaded by

Copyright:

Available Formats

Thse de doctorat prpare au Dpartement lectronique et Physique de l'Institut National des Tlcommunications dans le cadre de l'cole Doctorale SITEVERY

en co-accrdidation avec l'universit d'Evry-Val d'Essonne Thse N

Reconnaissance des visages en conditions dgrades

Prsident du jury Rapporteur Rapporteur Examinateur Directeur de thse Encadrant de thse

Maurice Milgram Faouzi Gorbel Andr Gagalowicz

Mme. Sylvie Lelandais Mme. Bernadette Dorizzi Mme. Dijana Petrovska-Delacrtaz

ma femme Tiphaine mes parents mon frre et ma soeur En souvenir de Christine

Table des matires

Variabilit de la modalit visage . . . . . . . . . . . . . . . . . . . . 16 Motivation et contributions . . . . . . . . . . . . . . . . . . . . . . 18 Structure de la thse . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2 tat de l'art de la reconnaissance de visage

2.3 2.4 2.5

3 Outils d'valuation, bases de donnes et protocoles

TABLE DES MATIRES

3.3.2 3.4 3.4.1 3.4.2 3.4.3 3.5

Bases de donnes publiques . . . . . . . . . . . . . . . . . . . . . . 51

4 Les algorithmes de reconnaissance de visage

Fisher Discriminant Analysis . . . . . . . . . . . . . . . . . . . . . 72 4.4.1 4.4.2

Tests et comparaisons des algorithmes . . . . . . . . . . . . . . . . 76 Conclusion

TABLE DES MATIRES

6 Analyse globale par ltrage de Gabor

7 Mesures de qualit pour le visage

Validation de la stratgie sur la base BANCA . . . . . . . . . . . . 159 Conclusion

TABLE DES MATIRES

Table des gures

3.10 Exemples de donnes de la base IV2 . . . . . . . . . . . . . . . . . . . 59 5

TABLE DES FIGURES

TABLE DES FIGURES

5.4 5.5 5.6 5.7 5.8 5.9

TABLE DES FIGURES

7.3 7.4 7.5

7.6 7.7 7.8 7.9

Liste des tableaux

LISTE DES TABLEAUX

6.3 6.4 6.5 6.6

Protocoles d'valuation pour la base IV2

7.1 7.2 7.3 7.4

LISTE DES TABLEAUX

1.1 Biomtrie du visage

1.1. BIOMTRIE DU VISAGE

accepte ou rejete en tant que reprsentant de l'identit proclame.

1.2 Variabilit de la modalit visage

Figure 1.1: Exemples de variation d'illumination de la base YaleB [24]

1.2. VARIABILIT DE LA MODALIT VISAGE

(a) laire (b)

Figure 1.2: Exemple de rexion diuse de la lumire (a) et de rexion spcu-

1.3 Motivation et contributions

1.4. STRUCTURE DE LA THSE

1.4 Structure de la thse

Recognition Grand Challenge ) et la base BANCA. Nous prsenterons galement

tat de l'art de la reconnaissance de visage

CHAPITRE 2. TAT DE L'ART DE LA RECONNAISSANCE DE VISAGE

2.2. TAT DE L'ART DES TECHNIQUES DE RECONNAISSANCE

2.2 tat de l'art des techniques de reconnaissance

CHAPITRE 2. TAT DE L'ART DE LA RECONNAISSANCE DE VISAGE

pattern ), qui a considrablement amlior les performances et la rapidit de la

2.2.1 Mthodes de rduction d'espace

2.2. TAT DE L'ART DES TECHNIQUES DE RECONNAISSANCE

CHAPITRE 2. TAT DE L'ART DE LA RECONNAISSANCE DE VISAGE

2.2. TAT DE L'ART DES TECHNIQUES DE RECONNAISSANCE

2.2.2 Approches par points caractristiques

CHAPITRE 2. TAT DE L'ART DE LA RECONNAISSANCE DE VISAGE

Figure 2.2: Structure des approches EGM et EBGM

2.3. INFLUENCE DES VARIATIONS ENVIRONNEMENTALES SUR LA RECONNAISSANCE PAR LE VISAGE

2.3 Inuence des variations environnementales sur la reconnaissance par le visage

6 Analyse globale par ltrage de Gabor

Table des gures

Figure 1.2: Exemple de rexion diuse de la lumire (a) et de rexion spcu-

2.3 Inuence des variations environnementales sur la reconnaissance par le visage

2.4 Les approches utilisant le ltrage de Gabor

Le systme d'identication : Dans ce cas, le systme doit trouver dans

3.3.1 valuation des systmes de vrication biomtrique

3.3.2 valuation des systmes d'identication biomtrique

Figure 3.6: Courbe de rang en fonction du taux de bonne identication (Source

acquises tait insusant.

Plusieurs expriences ont t dnies dans le but d'tu-