Professional Documents
Culture Documents
00000000000
THSE
pour l'obtention du grade de Docteur de l'Institut National des Tlcommunications Spcialit : Traitement d'image et de signal Prsente et soutenue publiquement par:
Anouar Mellakh
Titre:
M. M. M.
Rsum
De nos jours, les algorithmes de reconnaissance du visage proposs dans la littrature ont atteint un niveau de performance correct lorsque les conditions d'acquisition des images compares sont contrles, mais les performances chutent lorsque ces conditions sont dgrades. Les conditions d'acquisition contrles correspondent un bon quilibre d'illumination, ainsi qu'une haute rsolution et une nettet maximale de l'image du visage. An de bien cerner le problme de dgradation des performances dans les conditions d'acquisition diciles et de proposer par la suite des solutions adaptes, nous avons eectu plusieurs tudes dirents niveaux de la chane de la reconnaissance. Ces tudes concernent le comportement des algorithmes bass sur les approches globales. Elles concernent galement les direntes mthodes de normalisation photomtrique ainsi que des stratgies de reconnaissance bases sur la qualit des images du visage. Les solutions proposes chaque niveau de cette chane ont apport une amlioration signicative des performances par rapport aux approches classiques. Pour les algorithmes de reconnaissance, nous avons propos l'utilisation de la fusion de la phase et de l'amplitude des reprsentations de Gabor de l'image du visage comme nouveau gabarit, la place de l'image des pixels. Bien que les reprsentations de Gabor aient t largement utilises, particulirement dans les algorithmes bass sur les approches globales, la phase n'a jamais t exploite jusqu' ce jour. Nous expliquons dans cette thse les problmes lis l'utilisation de cette phase de Gabor et nous proposons une solution pour y remdier. Direntes mthodes de normalisation photomtrique de l'image du visage ont t tudies et compares. Nous avons, par la suite, propos une nouvelle approche de normalisation base sur la correction de la composante luminance. Enn, nous
avons prsent une stratgie de reconnaissance se basant sur la mesure de qualit du visage. Cette mesure est une fusion de plusieurs critres de qualit et selon nos expriences, cette stratgie permet une amlioration notable des performances par rapport aux mthodes classiques. Les direntes tudes, la validation de nos mesures de qualit ainsi que la validation de la stratgie de reconnaissance ont t eectues sur les deux bases de donnes publiques de visage FRGCv2 et BANCA largement utilises par la communaut.
Mot-clefs
Biomtrie, Reconnaissance de visage, Illumination, Normalisation photomtrique, ltres de Gabor, Qualit.
Summary
Nowadays, the algorithms of face recognition, proposed in the literature, reached a correct performance level when the acquisition's conditions for the tested images are controlled, but this performances fall when these conditions degraded. The controlled conditions of acquisition correspond to a good balance of illumination, as well as a high-resolution and a maximum sharpness of the face image. In order to determine the problem of degradation of performances under difcult capture's conditions and also to propose adapted solutions, we carried out several studies at various levels of the recognition's chain. These studies relate to the behavior of the algorithms based on global approaches. They also relate to the various methods of photometric standardization as well as strategies of recognition based on the quality of the face images. The solutions suggested on each level of this chain resulted in a signicant improvement of the performances compared to the traditional approaches. For the recognition algorithms, we proposed to fuse the phase and magnitude of Gabor's representations of the face as a new representation, in the place of the raster image. Although the Gabor representations were largely used, particularly in the algorithms based on global approaches, the Gabor phase was never exploited. We explain in this thesis the problems involved in the use of this phase and we propose a solution to solve this problem. Various methods of photometric normalization for face were studied and compared. We, thereafter, proposed a new approach of normalization based on the correction of the brightness component. Lastly, we presented a strategy of recognition based on the quality measure of face. This measurement is a fusion of several quality standards and according to our experiments ; this strategy oers an improvement of the verication rate
compared to the classical methods. The various studies, the validation of our quality measurements as well as the validation of the recognition strategy were carried out on the two public and largely used databases of FRGCv2 face and BANCA.
Keywords
Biometrics, Face Recognition, Illumination, Photometric Normalisation, Gabor lters, Quality.
1 5 9 13
. . . . . . . . . . . . . . . . . . . . . . . . . . 14
21
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 tat de l'art des techniques de reconnaissance . . . . . . . . . . . . 23 2.2.1 2.2.2 Mthodes de rduction d'espace . . . . . . . . . . . . . . . . 24 Approches par points caractristiques . . . . . . . . . . . . 27
Inuence des variations environnementales sur la reconnaissance par le visage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Les approches utilisant le ltrage de Gabor . . . . . . . . . . . . . 34 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
37
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Scores et protocoles d'valuation des systmes biomtriques . . . . 40 valuation des systmes de reconnaissance . . . . . . . . . . . . . . 42 3.3.1 valuation des systmes de vrication biomtrique . . . . . 42 1
valuation des systmes d'identication biomtrique . . . . 49 Face Recognition Grand Challenge [NIST] . . . . . . . . . . 51 BANCA [SURREY] . . . . . . . . . . . . . . . . . . . . . . 55 IV2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Conclusion
61
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Dimensionalit de l'espace visage . . . . . . . . . . . . . . . . . . . 62 Analyse en composantes principales . . . . . . . . . . . . . . . . . . 63 4.3.1 4.3.2 Rduction d'espace par ACP . . . . . . . . . . . . . . . . . 64 Application de l'ACP la reconnaissance de visage . . . . . 67 Analyse Linaire Discriminante . . . . . . . . . . . . . . . . 73 La LDA directe (DLDA) . . . . . . . . . . . . . . . . . . . . 74 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.4
4.5 4.6
5 Normalisation de l'illumination
5.1 5.2 5.3 5.4
87
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 Normalisation gomtrique . . . . . . . . . . . . . . . . . . . . . . . 88 Extraction de l'intensit du pixel de l'espace couleur . . . . . . . . 90 Normalisation de l'illumination . . . . . . . . . . . . . . . . . . . . 93 5.4.1 5.4.2 5.4.3 5.4.4 5.4.5 galisation d'histogramme . . . . . . . . . . . . . . . . . . . 93 Correction Gamma . . . . . . . . . . . . . . . . . . . . . . . 94 MultiScale-Retinex . . . . . . . . . . . . . . . . . . . . . . . 96 Lissage anisotropique . . . . . . . . . . . . . . . . . . . . . . 97 Nouvelle mthode de correction de l'image par transformation de l'illumination . . . . . . . . . . . . . . . . . . . . . . 99
5.5
Rsultats et analyses . . . . . . . . . . . . . . . . . . . . . . . . . . 105 5.5.1 5.5.2 Comparaison entre les direntes transformations en niveaux de gris . . . . . . . . . . . . . . . . . . . . . . . . . . 105 Comparaison des direntes mthodes de normalisation . . 106 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.6
Conclusion
109
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 Filtrage de Gabor et extraction des caractristiques . . . . . . . . . 110 Reprsentation du visage et choix des ltres de Gabor . . . . . . . 112 6.3.1 6.3.2 6.3.3 6.3.4 Inuence des caractristiques de la famille des ltres de Gabor sur les performances de la reconnaissance . . . . . . . . 113 tudes des performances suivant le choix des reprsentations de Gabor . . . . . . . . . . . . . . . . . . . . . . . . . 116 Fusion de l'amplitude et de la phase des reprsentations de Gabor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 Validation de la fusion de l'amplitude et de la phase corrige sur des algorithmes de rduction d'espace base de noyau . 120
6.4 6.5
Rsultats sur la base FRGC . . . . . . . . . . . . . . . . . . . . . . 121 Rsultats sur d'autres bases . . . . . . . . . . . . . . . . . . . . . . 122 6.5.1 6.5.2 Rsultats sur la base BANCA . . . . . . . . . . . . . . . . . 123 Rsultats sur la base IV2 . . . . . . . . . . . . . . . . . . . 123 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
6.6
Conclusion
127
Mesures de qualit . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 locales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 Mesure de la qualit de l'illumination par SVM . . . . . . . 133 Mesure de la nettet . . . . . . . . . . . . . . . . . . . . . . 136 Classication par fusion des mesures de qualit . . . . . . . 140 Validation des mesures de qualit sur la base de dveloppement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 Qualit et stratgie de reconnaissance . . . . . . . . . . . . . . . . 144 7.2.1 7.2.2 7.2.3 7.2.4 Protocoles et bases de donnes . . . . . . . . . . . . . . . . 145 Scnario : rfrences Passeport . . . . . . . . . . . . . . . . 147 Scnario : rfrences dgrades . . . . . . . . . . . . . . . . 153 Rcapitulatif des tests . . . . . . . . . . . . . . . . . . . . . 157 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
7.3 7.4
8 Conclusion et Perspectives
161
Bibliographie
169
1.1 1.2
Exemples de variation d'illumination de la base YaleB [24] . . . . . . . 16 Exemple de rexion diuse de la lumire (a) et de rexion spculaire (b) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1
Exemples des 5 premiers visages propres construits avec l'approche ACP (a) et Exemples des 5 premiers visages propres construits avec l'approche LDA (b) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9
Structure des approches EGM et EBGM . . . . . . . . . . . . . . . . . 28 Exemple de distributions thoriques des scores "intra-classes" et "interclasses" pour un systme biomtrique thoriquement parfait . . . . . . 41 Exemple de distributions thoriques des scores "intra-classes" et "interclasses" pour un systme biomtrique rel . . . . . . . . . . . . . . . . 42 Variation des taux FAR, FRR et TER en fonction du seuil de dcision 44 Exemple de courbes ROC (Source NIST reconnaissance de la parole) . 47 Exemple de courbes DET (Source NIST reconnaissance de la parole) . 47 Courbe de rang en fonction du taux de bonne identication (Source NIST valuation du visage FERET) . . . . . . . . . . . . . . . . . . . 51 Exemple de sessions d'acquisition de la base de donnes FRGCv2 . . . 52 Premiers rsultats obtenus lors des expriences de visage 2D de la base FRGCv2 (Source NIST Biometrics Consortium Conference) . . . . . . 54 Exemples d'image de la base de donnes BANCA selon trois scnarios : (a) contrl, (b) dgrad et (c) non contrl . . . . . . . . . . . . . . . 55
3.11 Exemples d'acquisition d'images 2D : (a) image haute rsolution et (b) image dgrade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 Exemple de distribution d'un nuage de points dans un espace 2D . . . 64 Exemple d'image de visage normalis (nombre de pixels xe) . . . . . 66 volution de la mesure du taux d'nergie rsiduelle en fonction de la variance de l'espace pour la sous-base apprentissage de FRGC . . . . . 69 volution du EER en fonction de la variance pour l'exprience 1 et l'exprience 4 de FRGC . . . . . . . . . . . . . . . . . . . . . . . . . . 70 volution du EER en fonction de la variance pour le protocole P de BANCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 Comparaison entre les projections de deux classes de points ("class 1" et "class 2") sur les axes principaux construits par ACP et par LDA . 74 Diagramme de l'algorithme de la LDA directe (DLDA) . . . . . . . . . 76 Exemple d'image de brillance normalise gomtriquement . . . . . . . 78 Courbes ROC des algorithmes ACP, LDA et DLDA pour les expriences 1 et 4 de FRGC : avec galisation d'histogramme, base d'apprentissage BA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4.10 Courbes ROC des algorithmes ACP, LDA et DLDA pour les expriences Mc et P de la base BANCA : avec galisation d'histogramme, base d'apprentissage BA . . . . . . . . . . . . . . . . . . . . . . . . . . 82 4.11 Comparaison des performances pour les algorithmes ACP, LDA et DLDA pour l'exprience 1 sur la base FRGC . . . . . . . . . . . . . . 83 4.12 Comparaison des performances pour les algorithmes ACP, LDA et DLDA pour l'exprience 4 sur la base FRGC . . . . . . . . . . . . . . 84 4.13 Variation des performances de la DLDA en fonction de la variation du nombre d'images acquises en conditions non contrles . . . . . . . . . 85 4.14 Variation des performances de la DLDA en fonction de la variation proportionnelle du nombre d'images acquises en conditions contrles et non contrles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 5.1 5.2 5.3 Exemple d'une normalisation gomtrique de visage de la base FRGC Variation du taux de EER de l'algorithme de la DLDA en fonction de la normalisation gomtrique sur la base FRGC pour l'exprience 1 . . 89 Dirents systmes colorimtriques . . . . . . . . . . . . . . . . . . . . 91 88
Direntes transformations de l'image couleur d'un exemple de la base FRGC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 Exemple d'galisation d'histogramme . . . . . . . . . . . . . . . . . . . 94 Schmatisation de la rexion diuse . . . . . . . . . . . . . . . . . . . 96 Discrtisation au voisinage d'un pixel . . . . . . . . . . . . . . . . . . . 98 Normalisations photomtriques du visage . . . . . . . . . . . . . . . . 99 Schma des modles de l'illumination : (a) modle de l'illumination originale, (b) modle d'illumination aprs alignement . . . . . . . . . . 101
5.10 Dcomposition de l'illumination rfrence en somme de deux illuminations verticalement symtriques. . . . . . . . . . . . . . . . . . . . . . 101 5.11 Exemple d'une illumination originale en (a) et d'une illumination symtrique en (b) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 5.12 Exemples de correction de l'illumination par symtrie axiale . . . . . . 103 5.13 Correction de l'image du visage par transformation de l'illumination . 104 5.14 Courbes ROC de l'exprience 1 (a) et de l'exprience 4 (b) de la base FRGC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 6.1 6.2 6.3 Partie relle (a) et imaginaire (b) du ltre de Gabor . . . . . . . . . . 111 Parties relles (a) et imaginaires (b) du ltre de Gabor 4 niveaux de rsolution et selon 4 orientations . . . . . . . . . . . . . . . . . . . . . 111 Rsultats de la convolution d'une image de visage avec une famille de 16 ltres de Gabor (4 orientations (horizontales) et 4 rsolutions (verticales)) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 6.4 6.5 6.6 6.7 7.1 7.2 Mesure de similarits entre les axes principaux de la DLDA construits par les 4,5 et 6 premiers niveaux . . . . . . . . . . . . . . . . . . . . . 116 volution des taux de EER (a) et de VR@0.1% de FAR (b) en fonction du seuil Th pour le protocole PEG . . . . . . . . . . . . . . . . . . . . 118 Courbes ROC des direntes reprsentations de Gabor pour le protocole PEG avec une famille de ltres 4 rsolutions et 8 orientations . 119 Courbes ROC des direntes mthodes pour le protocole PEG . . . . 121 Principe de calcul d'une mesure de qualit globale (Q1a ou Q1b ) partir des mesures locales (moyennes ou mdianes, respectivement) Distributions de l'illumination par mesure des moyennes locales, Q1a , pour les bases [BQC] et [BQN] . . . . . . . . . . . . . . . . . . . . . . 132 . 131
Distributions de l'illumination par mesure des mdianes locales, Q1b , pour les bases [BQC] et [BQN] . . . . . . . . . . . . . . . . . . . . . . 133 Exemples des histogrammes des images de type contrl (A) et de type non contrl (B) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 Variations du taux de classication correcte pour le classieur SVM noyau polynomial suivant le rang du polynme sur la base de dveloppement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
Variations du taux de classication correcte pour le classieur SVM noyau radial sur la base de dveloppement . . . . . . . . . . . . . . . . 135 Distributions des mesures de nettet Q3a de [BQC] et de [BQN] par mthode du gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 Mesure du ou par approche frquentielle locale pondre . . . . . . . 138 Distributions des mesures de nettet Q3b de [BQC] et de [BQN] par l'approche frquentielle globale . . . . . . . . . . . . . . . . . . . . . . 139
7.10 Distributions des mesures de nettet Q3c de [BQC] et de [BQN] par l'approche frquentielle locale pondre . . . . . . . . . . . . . . . . . . 139 7.11 volution de l'inertie intra-classes en fonction du nombre des centrodes pour la base d'apprentissage . . . . . . . . . . . . . . . . . . . 142 7.12 Distribution de la mesure q pour les images de la base de dveloppement [[BQC] + [BQN]] . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 7.13 Exemples d'images de type contrl (A), de type dgrad (B) et de type non contrl (C) de la base de donnes BANCA . . . . . . . . . . 143 7.14 Dcoupage de la base FRGCv2 . . . . . . . . . . . . . . . . . . . . . . 147 7.15 Courbes ROC de Test1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 7.16 Courbes ROC de Test2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 7.17 Courbes ROC de Test3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 7.18 Courbes ROC de Test4 . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 7.19 Courbes ROC de Test5 . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 7.20 Courbes ROC de Test6 . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 7.21 Courbes ROC de Test7 . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 7.22 Distribution des scores intra-classes (A) et Distribution des scores inter-classes (B) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 7.23 Courbes ROC des Tests 8-9 et 10 (D1, D2 et D3) . . . . . . . . . . . . 157
Rsultats de la DLDA donns pour les direntes mthodes d'extraction des niveaux de gris (RVB, TSL, TSV) sur la base FRGC aux deux points de fonctionnement EER et VR@0.1% de FAR (Exprience 1) . 105
5.2
Rsultats de la DLDA donns pour les direntes mthodes d'extraction des niveaux de gris sur la base BANCA au point de fonctionnement EER (Protocole Mc) . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.3
Rsultats de reconnaissance de la DLDA applique direntes mthodes de pr-traitement. Les rsultats sont prsents au point de fonctionnement VR @0.1% de FAR sur la base FRGC pour les expriences 1 et 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 9
10
5.4
Rsultats de reconnaissance de la DLDA appliqu direntes mthodes de pr-traitement. Les rsultats sont prsents au point de fonctionnement EER sur la base BANCA pour les protocoles Mc et P. 106
6.1
Performances en EER [CC] pour chaque niveau de rsolution en fonction du nombre d'orientations choisi par le ltrage de Gabor sur le protocole PEG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
6.2
Rsultats en EER et en VR@0.1% de FAR des combinaisons cumulatives des dirents niveaux de rsolution avec 8 orientations pour le protocole de test PEG . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
Moyenne et cart-types des similarits entre les axes principaux de la DLDA construits par les 4, 5 et 6 premiers niveaux . . . . . . . . . . . 115 Rsultats en EER et en VR@0.1% de FAR des direntes reprsentations de Gabor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 Rsultats en EER et en VR@0.1% de FAR des direntes fusions des reprsentations de Gabor . . . . . . . . . . . . . . . . . . . . . . . . . 120 Rsultats de la reconnaissance par fusion amplitude-phase en taux de VR@0.1% de FAR pour les deux expriences 1 et 4 de la base FRGC ainsi que quelques rsultats de la littrature . . . . . . . . . . . . . . . 122
6.7
Rsultat en WER (Weighted Error Rate ) de la DLDA applique la fusion amplitude-phase de rponses de la famille de 32 ltres de Gabor sur la base BANCA (protocole P) . . . . . . . . . . . . . . . . . . . . . 123
6.8 6.9
. . . . . . . . . . . . . . . . 123
Taux de EER pour les dirents algorithmes sur la base IV2 (visage 2D) participant la premire valuation . . . . . . . . . . . . . . . . . 124
Taux de Bonne Classication (TBC) pour chaque type de noyau pour les deux bases [BQC] et [BQN] . . . . . . . . . . . . . . . . . . . . . . 136 Taux d'Erreur de Classication (TEC) suivant la mthode de mesure du ou . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 Taux de Classication Correcte (TCC) pour les deux classes slectionnes de la base BANCA avec notre mesure q . . . . . . . . . . . . . . . 144 Tableau rcapitulatif des divers scnarios et protocoles avec les rsultats des performances donns en VR@0.1% de FAR . . . . . . . . . . . 158
11
7.5
Rsultats de la stratgie de reconnaissance sur la base BANCA, Protocole P et G, utilisant l'algorithme de reconnaissance DLDA appliqu aux reprsentations Gabor du visage. . . . . . . . . . . . . . . . . . . . 159
Chapitre 1
Introduction
Dans la civilisation babylonienne, au VIme sicle avant J.-C., l'empreinte du pouce laisse sur une poterie d'argile permettait de sceller des accords commerciaux. Les gyptiens utilisaient les descriptions physiques des commerciaux pour direncier ceux qui sont connus de ceux qui sont nouveaux sur le march. Ces exemples montrent que les caractristiques physiques ont toujours t utilises par l'Homme, bien avant l'avnement des sciences modernes et des ordinateurs, pour identier les personnes. En ralit la Biomtrie, comme elle est connue de nos jours, dcoule directement de l'anthropomtrie moderne. Cette technique permet de reconnatre des personnes partir de leurs caractristiques physiques et comportementales. L'anthropomtrie a vu le jour au XIXme sicle avec Alphonse Bertillon (1853-1914). Ce criminologue franais fonda en 1870 le premier laboratoire de police scientique d'identication criminelle et inventa l'anthropomtrie judiciaire appele "systme Bertillon" ou "bertillonnage". Le systme de reconnaissance des personnes, propos par Bertillon, est bas sur la mesure de dirents paramtres du corps humain [8]. Dans ses travaux, Bertillon arme qu'en prenant quatorze mensurations (taille, pieds, mains, nez, oreilles, etc.) sur n'importe quel individu, il n'y a qu'une seule chance sur deux cent quatre-vingt-six millions pour qu'on retrouve les mmes mesures chez une autre personne. Ce systme a t adopt rapidement dans toute l'Europe, puis aux tats-Unis. La premire utilisation des empreintes digitales comme moyen d'identication remonte 1877 aux Indes o le britannique William Herschel eut l'ide de les 13
14
CHAPITRE 1. INTRODUCTION
utiliser pour viter que les bnciaires de pension de l'arme ne la touchent plusieurs fois. cette poque, les empreintes digitales servent aussi authentier des documents ociels. Sir Francis Galton amliora cette technique et publia des travaux dtaills sur la reconnaissance par l'empreinte digitale, base sur des caractristiques particulires de la texture, appeles les minuties [13]. Suite ces publications, Scotland Yard a ouvert le premier chier d'empreintes digitales en 1901, sous la direction du commissaire Edward Henry. Ce procd mergea ensuite en Asie, en Afrique du Sud et en Europe. La premire utilisation des empreintes digitales en France fut le 24 octobre 1902 pour confondre le criminel Henri-Lon Scheer, deux ans aprs sa disparition. Aux Etats-Unis, les prisons commencrent rendre obligatoire l'enregistrement des empreintes des dtenus ds 1903. Alors que la mthode de Bertillon ft abandonne partir de 1970, l'enregistrement systmatique des empreintes connut en revanche un essor mondial. Ds le dbut des annes 60, dirents moyens physiques et comportementaux, permettant une reconnaissance de l'individu, ont t utiliss. Parmi ces moyens, communment appels "modalit biomtrique", on trouve le visage, l'empreinte digitale, l'iris et la forme de la main. Rcemment, d'autres modalits ont t introduites comme les veines de la main, le rseau veineux de la rtine, l'empreinte de l'oreille et l'ADN. Pour ce qui est des modalits comportementales, on peut citer la signature (dynamique ou statique), la dmarche... Avec l'avnement des ordinateurs, l'ide d'une reconnaissance automatique est ne ; c'est le dbut de la biomtrie moderne. Depuis les annes 60, plusieurs travaux sur des algorithmes automatiques ou semi-automatiques furent publis ; citons le cas du visage, de la signature, de la voix et bien sr, des empreintes digitales. Grce cet lan de recherche et ces travaux trs prometteurs, le FBI lana en 1969 une campagne scientique an de dvelopper un systme automatique de reconnaissance par les empreintes digitales. La gomtrie de la main, dont les balbutiements remontent au milieu du XIXme sicle, connut dans les annes 70 un regain d'intrt avec la commercialisation du premier produit biomtrique de contrle d'accs et d'identication.
15
de dterminer si une identit rclame est correcte ou fausse. Pour la vrication des visages, ce processus est eectu en comparant un modle du demandeur (une ou plusieurs images de test), avec un modle stock (une ou plusieurs images de rfrence). Le processus complet de vrication des visages est dcrit ci-dessous : Capture du visage : le visage d'une personne est numris par des capteurs comme des appareils photo numriques pour la reprsentation 2D du visage, des scanners 3D pour avoir l'information de profondeur de l'image combine avec l'image de la texture ou aussi des capteurs infrarouge ou proche infrarouge. Des informations spciques la capture peuvent tre dtermines aussi lors de l'acquisition de l'image, comme la pose de la personne par rapport la camra, l'expression ou aussi les conditions d'illumination de la capture de l'image. Dans cette thse nous nous consacrons l'tude exclusive du problme de la reconnaissance des visages 2D. Dtection : L'image 2D acquise peut contenir la fois le visage de la personne et ventuellement, un arrire-plan. Dans le processus de dtection, le visage est localis dans l'image. Souvent, la sortie de cette tape est la localisation des centres des yeux. Normalisation : La normalisation est constitue de deux processus : gomtrique et photomtrique. La normalisation gomtrique est ncessaire parce que la taille du visage l'intrieur de l'image acquise peut varier en fonction de la distance entre le module d'acquisition et la personne. Le visage doit donc tre extrait partir de l'image et une transformation gomtrique, pour obtenir une taille xe, est applique. L'approche standard consiste dnir l'emplacement des centres des yeux dans une position constante au sein de l'image de sortie. L'tape de normalisation photomtrique tente d'liminer ou de rduire les eets de l'illumination de l'image. Dans certains cas, l'tape de normalisation photomtrique peut tre applique avant, ou avant et aprs l'tape de normalisation gomtrique. Elle peut aussi tre applique pendant la phase de dtection. Calcul de score : L'image normalise est ensuite compare une ou plusieurs images stockes (si un modle utilisant une galerie d'images est utilis). Cette comparaison produit un score, reprsentant la similarit ou la distance de l'image test par rapport l'image ou au modle rfrence. Dcision : Le score est compar un seuil qui dtermine si l'image est
16
CHAPITRE 1. INTRODUCTION
Comme le montre la gure 1.1, une variation de l'clairage peut srieusement altrer l'apparence d'un visage dans l'image, dans la mesure o les images l'extrme droite semblent plus proches les unes des autres que de leurs correspondants avec un clairage frontal (extrme gauche). Une formalisation les observations qualitative prcdentes, on peut remarquer qu'il existe deux formes de rexion de la lumire par une surface. La rexion peut tre spculaire ou bien diuse, suivant la nature de la surface (Figure 1.2). Les lois gomtriques de la rexion ne s'appliquent qu' la rexion spculaire ;
17
il faut faire appel des modlisations plus complexes pour traiter la rexion diuse.
(b)
La rexion diuse intervient sur les interfaces irrgulires, la lumire est rchie dans un grand nombre de directions et l'nergie du rayon incident est redistribue dans une multitude de rayons rchis. La rexion est dite spculaire lorsque le rayon incident donne naissance un rayon rchi unique. Idalement, l'nergie du rayon incident se retrouve totalement dans le rayon rchi, en pratique une partie de l'nergie peut tre absorbe ou diuse au niveau de l'interface. Ces deux types de rexion peuvent donner lieu un eet indsirable de l'illumination : les ombres. On distingue deux types d'ombres, les ombres propres et les ombres portes : Une ombre propre se produit lorsque la lumire arrive sur une surface avec un changement de pente. La luminosit des pixels correspondante cette zone diminue mesure que l'angle d'incidence s'carte de la normale de la surface. Cette luminosit atteint son minimum lorsque l'angle entre la lumire incidente et la normale de la surface est gale 90). Une ombre porte se produit lorsque la source de lumire est occulte par un objet avant la rexion de la lumire sur la surface. En traitement d'images, une ombre est considre comme tant une rgion faible luminosit et ayant des contours fort gradient. Dans cette thse j'tudie et je dveloppe particulirement l'aspect variation d'illumination et je propose des solutions divers niveaux de la chane de traitement qui permettront d'amliorer les performances de reconnaissance.
18
CHAPITRE 1. INTRODUCTION
19
En nous basant sur ces constatations, nous avons introduit de nouvelles mesures de qualit sur les visages, principalement orientes vers la mesure de l'illumination et du ou et nous avons propos par la suite de nouvelles stratgies de reconnaissance bases sur ces mesures de qualit.
20
CHAPITRE 1. INTRODUCTION
reconnaissance. Plusieurs travaux font rfrence cette approche dans la littrature, en utilisant classiquement l'amplitude. Notre travail principal est de montrer que l'utilisation de la phase des rponses de Gabor apporte une contribution dans l'amlioration des performances. L'utilisation de la phase sera dtaille dans ce chapitre et les rsultats comparatifs par rapport l'utilisation de l'amplitude seule seront donns dans ce mme chapitre. Nous avons test notre approche sur la base d'valuation internationale organise par le NIST, FRGC. Paralllement ces valuations, nous avons test notre mthode sur une base franaise provenant du projet national, IV2 ("Identication par l'Iris et le Visage via la Vido"). Cette mthode a dmontr sa robustesse dans les conditions dgrades ainsi que les conditions contrles. Dans le chapitre 7, nous introduirons de nouvelles mesures de qualit des images de visages et nous prsenterons direntes stratgies an d'amliorer les rsultats de la reconnaissance. Ces stratgies se basent sur la classication de types d'images suivant les mesures de qualit des images de test. Une introduction de ces mesures de qualit dans le calcul du score de comparaison montrera un apport eectif, en terme de performance, de cette nouvelle approche dans le cadre d'une utilisation d'un modle de rfrence et d'un modle de test utilisant plusieurs images. Une validation sur la base BANCA de cette stratgie sera faite dans la dernire partie de ce chapitre.
Chapitre 2
22
les systmes proposs taient encore au stade de dveloppement et que les performances de reconnaissance montraient que le domaine n'tait pas encore assez mature. la n des annes 90, la reconnaissance par le visage connat un grand essor avec le dveloppement de nouvelles approches et de nouveaux algorithmes, permettant ainsi de passer du domaine de la recherche la commercialisation. Les premiers systmes de reconnaissance du visage sont commercialiss ds la n des annes 90 avec les produits des entreprises [Table 2.1]. Dans le mme temps, des campagnes d'valuations plus grande chelle sont mises en place et les valuations FRVT (Face Recognition Vendor Test ) voient le jour, avec FRVT2000 et FRVT2002 [31, 36]. Les conclusions de ces valuations sont trs intressantes et mettent jour de nouveaux problmes qui accompagnent la recherche dans le domaine de la reconnaissance par le visage, savoir que les performances des systmes d'identication sont sensibles la taille des bases de donnes et que la reconnaissance des visages dans des conditions diciles a encore besoin d'amlioration. Produits commerciaux FaceIt de Visionics Viisage Technology FaceVACS de Plettac FaceKey Corp. Cognitec Systems Keyware Technologies Passfaces de ID-arts ImageWare Sofware Eyematic Interfaces Inc. BioID sensor fusion Visionsphere Technologies Biometric Systems, Inc. FaceSnap Recoder SpotIt de face composite Sites http ://www.FaceIt.com http ://www.viisage.com http ://www.plettac-electronics.com http ://www.facekey.com http ://www.cognitec-systems.de http ://www.keywareusa.com/ http ://www.id-arts.com/ http ://www.iwsinc.com/ http ://www.eyematic.com/ http ://www.bioid.com http ://www.visionspheretech.com/menu.htm http ://www.biometrica.com/ http ://www.facesnap.de/htdocs/english/index2.html http ://spotit.itc.it/SpotIt.html
Table 2.1: Liste des participants aux campagnes FRVT (source [36])
Les campagnes d'valuations ont accompagn l'volution des systmes de reconnaissance et un besoin d'valuation statistique plus signicative s'est fait ressentir. Par consquent, des bases de donnes de visages de plus en plus grandes, avec des conditions de capture plus diciles et plus complexes ont t acquises. La base de donnes d'valuations FERET se composait de 4000 images en 1996, de prs de 14000 images en 2000 et d'environ 121 000 images en 2002. Toutes ces
23
campagnes d'valuations ont permis la communaut scientique d'obtenir des bases de donnes utiles pour la recherche thorique. La dernire campagne d'valuations FRVT2006 a t prcde par la distribution de la base de donnes FRGC version 1 et version 2, qui reste la plus importante base de visages publique. Cette campagne tait dirente de la campagne FRVT2002 dans le sens o elle tait ouverte des entreprises ainsi qu'aux laboratoires de recherche. Les organisateurs se sont intresss dans cette campagne deux problmes majeurs dans la vrication des visages, la vrication des visages de face dans les conditions contrles et dans les conditions dgrades et la variation des performances suivant la rsolution des images de test.
24
bores et plus robustes ont t proposes. Comme exemples d'extension des approches globales, on peut citer les mthodes base de noyaux [56, 57, 81], qui ont permis d'amliorer de faon signicative les performances de la reconnaissance et dans le cas d'extension des approches locales, la mthode LBP (local binary
25
anciennes et les mieux tudies, pour la reprsentation des visages dans un espace de dimension rduite, reste l'analyse en composante principale (ACP). Elle appartient la premire classe d'algorithme [39]. Cette reprsentation a t applique au visage en 1991 par Mattiew Turk [93]. L'ide est de trouver une transformation linaire dans un espace de dimension rduite qui maximise la variance des projections des chantillons originaux. En 1996, l'approche de l'ACP a t tendue la version non linaire par l'introduction des fonctions noyaux non linaires, appele "Kernel Principal Component Analysis " (KPCA) [81]. L'hypothse est que si les visages ne sont pas linairement sparables dans l'espace d'entre, ils seront linairement sparables dans un espace non linaire, d'o l'introduction de notion de noyau de projection non linaire. Une autre mthode qui vise reprsenter le visage sans employer la notion de classe est la factorisation non ngative des matrices (Non Negative Matrix Factorization, NMF) [46]. L'algorithme de la NMF, comme celui de l'ACP, reprsente le visage comme combinaison linaire de vecteurs de la base de l'espace rduit. La dirence est que la NMF n'autorise pas les lments ngatifs dans les vecteurs de la base ni dans les poids de la combinaison linaire. Au nal, certains vecteurs de l'espace rduit par l'ACP, appels "visages propres", ressemblent des versions distordues du visage entier alors que ceux rduit par la NMF sont des objets localiss qui correspondent mieux la notion de parties du visage [46]. L'analyse discriminante linaire (Linear Discriminant Analaysis, LDA), appele galement "Fisher Linear Discriminant ", est parmi l'une des mthodes les plus utilises pour la reconnaissance de visage. Elle utilise le critre de rduction qui se base sur la notion de sparabilit des donnes par classe. L'ide de la rduction par sparation des classes date de 1936 [21]. Elle a t applique aux visages en 1996 [89]. Cette mthode comporte deux tapes : une rduction de l'espace d'origine par l'ACP, puis les vecteurs de l'espace de projection nal, appels "sherfaces ", sont calculs sur le critre de sparabilit des classes mais dans l'espace rduit. Ce besoin de rduction de l'espace d'entre est d un critre de singularit de la matrice d'parpillement totale de l'approche LDA (pour plus de dtails, voir le chapitre 4). Rcemment, des algorithmes pour l'application directe de la LDA, pour l'extraction des informations discriminantes, ont t proposs. Ces solutions ont pour but d'viter la perte d'information discriminante qui se produit aprs une rduction par ACP. On cite la DLDA (Direct LDA) [103] et la RLDA (Regression
26
Figure 2.1: Exemples des 5 premiers visages propres construits avec l'approche
ACP (a) et Exemples des 5 premiers visages propres construits avec l'approche LDA (b)
LDA) [50]. Toutes ces mthodes proposent des approches de diagonalisation directe pour trouver les "sherfaces ". Le cadre thorique de la LDA classique, la DLDA et la RLDA, sera tudi en dtails dans le chapitre 4. De mme que l'ACP, la LDA a t gnralise pour le cas non linaire, savoir l'analyse discriminante gnralise (General Discriminant Analysis, GDA) [56] et l'analyse non linaire discriminante de Fisher (Kernel Fisher Discriminant Ana-
lysis, KFDA) [57]. L'ide est d'appliquer la LDA un espace de plus grande
dimension (que celui des visages d'entre), dans lequel les classes des visages sont censes tre linairement sparables. Cet espace est construit par une transformation non linaire de l'espace d'entre par des fonctions noyaux non linaires. Le cadre thorique de ces deux mthodes et leurs dirences seront brivement prsents dans le chapitre 6. L'inconvnient principal des mthodes qui emploient des critres discriminants est qu'elles peuvent tre sujettes un surentranement et la gnralisation sur les classes, qui n'appartiennent pas la base d'apprentissage des vecteurs de projection, peut se trouver aaiblie. D'ailleurs, dans [52], l'auteur montre que dans des conditions d'apprentissage sur des petits ensembles, les vecteurs discriminants n'ont aucune capacit de gnralisation et que, dans ce cas, l'utilisation de l'ACP
27
est plus recommande. Il a montr, par ailleurs, que la LDA surpasse en termes de performance l'ACP quand de grands ensembles reprsentatifs de chaque classe de visage sont disponibles. La dernire classe de critre de rduction, qui a t propose, est base sur la rduction d'espace par minimisation de la dpendance statistique des projections, appele ICA (Independent Component Analysis ) [6]. Une version non linaire de cette mthode, appele KICA (Kernel Independant Component Analysis ), a aussi t propose dans [3].
Graph Matching, EGM). L'ide originale, qui se base sur une architecture de
liens dynamiques pour la reconnaissance des objets, a t propose par Lades en 1993 [44] et a t applique, avec succs, la reconnaissance par le visage, par Wiskott en 1996 [101]. Une variante a galement t propose par le mme auteur dans [100]. Cette mthode consiste construire un graphe de rfrence en recouvrant l'image du visage rfrence par une grille et en calculant les rponses des ltres de Gabor chaque noeud du graphe. Le processus de comparaison est mis en application par une optimisation stochastique d'une fonction de cot, qui tient compte des similitudes des rponses des ltres et de la dformation du graphe. La gure 2.2(a) montre un exemple d'un graphe de visage. Depuis son application, l'EGM pour la reconnaissance de visage est devenu un champ de recherche trs actif. Dans [104], l'auteur a montr que l'EGM surpasse, en termes de performances, l'ACP et des rseaux neurones appliqus l'identication du visage. Dans [100], l'approche du graphe a t amliore en introduisant une structure de pile pour chaque noeud. En d'autres termes, chaque noeud
28
contient des rponses des ltres avec dirents tats du noeud. Cette approche est appele "Elastic Bench graph matching " (EBGM). La gure 2.2(b) montre un exemple d'un EBGM d'une image de visage. Par exemple, dans le cas de noeuds identiant les coins de la bouche, les rponses des ltres de Gabor seront calcules sur la bouche ouverte, ferme, souriante..., et ceci pour tous les noeuds.
Dans [99], Wiskott a utilis l'approche du graphe an de dterminer certaines caractristiques du visage tel que la barbe ou les lunettes ou encore le sexe du sujet. Dans le mme article, l'auteur a prsent une recherche sur l'inuence du cot de l'lasticit des graphes. An d'augmenter la robustesse de l'approche par EGM, des solutions pour corriger les problmes de translations et de dformation ont t proposes dans [102]. Une variante trs connue de l'EGM est "la correspondance lastique des graphes morphologiques", appele "MGEM" (Morphological Elastic Graph Matching ). L'ide originale de cette variante a t propose dans [33]. Dans [40, 41], l'auteur a appliqu cette approche pour la reconnaissance des images de visages prises de face dans des conditions d'acquisition diverses. Cette mthode consiste remplacer les rponses des ltres multi-rsolutions de Gabor par des coecients obtenus par dilatation et par rosion de l'image du visage par un lment structurant [41]. Dans [41], les rsultats montrent que l'approche MGEM donne des rsultats comparables ceux obtenus par l'approche classique mais avec l'avantage que cette mthode ne ncessite pas le calcul des banques des coecients des ltres de Gabor [100]. Une autre mthode se basant sur l'ide des graphes a t prsente dans [92]. La dcomposition par approche morphologique a t utilise comme remplacement de l'analyse par ltres de Gabor et l'auteur a introduit aussi une slection des pa-
29
ramtres discriminants par SVM (Sparateur Vaste Marge, appel aussi "Machine Vecteurs de Support"(Support Vector Machine )) [75]. D'autres mthodes de slection ont t tudies dans [41,100]. Dirents schmas de pondration des noeuds ont t tudis dans [41, 42, 91, 92]. Comme indiques dans le paragraphe 2.2.1, les approches globales considrent le visage comme un vecteur dans un espace multidimensionnel. Le point faible de ces approches est le fait que les images du visage doivent tre normalises avant la phase de mise en correspondance, avec un alignement parfait des dirents composants du visage tels que les yeux, le nez et la bouche. Cependant, cet alignement ne peut tre parfait qu'avec une bonne dtection (automatique ou manuelle) de ces parties. L'avantage avec l'approche EGM et ses variantes est qu'une dtection parfaite des parties du visage n'est pas requise. Le point faible de ces mthodes reste le temps de calcul des paramtres et la complexit de la comparaison entre rfrence et test.
30
l'illumination est l'galisation d'histogramme. Le point faible de cette mthode rside dans le fait qu'elle ne prend pas en compte les caractristiques locales du visage. Elle transforme la distribution globale des niveaux du gris d'une forme une autre sans tenir compte des caractristiques locales du visage. En 2003, Wang [97] prsente une mthode pour modliser un visage sous plusieurs conditions d'illumination variables. Il dmontre que l'espace de l'illumination d'un visage peut tre construit partir d'au moins 3 images du mme visage avec des angles d'illumination non planaires. L'illumination de n'importe quelle image du visage peut tre reprsente par un point dans cet espace d'illumination. Il montre galement que les illuminations des angles extrmes, appels aussi "les rayons d'illumination extrmes", couvrent toute la sphre de l'espace de l'illumination. En pratique, les images avec les rayons extrmes peuvent ne pas exister. Dans cet article, l'auteur dmontre qu'il sut de quelques images du mme visage avec des illuminations diverses pour synthtiser n'importe quelles conditions d'illumination. Lors de cette tude, une mthode d'alignement de l'illumination est galement propose. Cette mthode permet d'appliquer les conditions d'illumination d'une image de visage une autre image de visage. Ce travail a permis d'introduire le concept d'espace d'illumination. Les rsultats exprimentaux ont montr qu'eectivement, la synthse d'un visage sous direntes conditions d'illumination est possible et que l'alignement de l'illumination amliore sensiblement les performances de reconnaissance. Bien que les auteurs aient montr que la construction d'un espace d'illumination est possible partir d'un chantillon d'images, la mthode de construction d'un espace d'illumination optimal reste un sujet de recherche. Le fait de construire un espace d'illumination partir d'exemples de chaque personne ou la construction d'un espace gnral partir de plusieurs visages reste aussi un sujet ouvert. Les travaux, prsents dans [97], ont suivi les travaux de Shashua et Tammy [76,83] qui ont propos la premire approche pour s'aranchir de la luminosit en utilisant l'image quotient. En supposant qu'un visage est un objet surface lambertienne sans ombres, ils ont montr que le rapport entre l'image de visage test et une combinaison linaire de trois images du mme visage avec des illuminations non-coplanaires aboutit une image de texture indpendante des variations d'illumination. L'avantage de cette mthode est qu'elle propose une approche simple et robuste pour les algorithmes de reconnaissance. Cependant, cette mthode n'est plus ecace lorsque les visages portent des ombres.
31
Les travaux sur le cne d'illumination de Belhumeur et Georghiades [7, 23, 24] ont permis d'expliquer les variations des proprits du visage suivant les directions de l'illumination. La prise en compte des ombres dans cette approche a aid l'amlioration des rsultats de la reconnaissance d'une faon signicative par rapport aux prcdentes approches. Les points faibles sont que cette approche a besoin d'au moins sept images du mme visage pour synthtiser le modle et qu'elle est trs coteuse en temps de calcul. Terence et al [86] ont propos une mthode statistique pour modliser le visage mais cette mthode require un grand nombre d'images avec des illuminations direntes an de construire l'espace d'illumination des visages. Pour s'aranchir des problmes d'illumination, les auteurs dans [73] ont propos une nouvelle mthode pour ajuster l'illumination des images de visages vers une illumination standard. Cet ajustement est bas sur la ressemblance des visages. Cette approche se base sur la constatation que la forme de la surface des visages humains est quasiment identique. Dans l'algorithme, une estimation des 9 plus basses composantes frquentielles de l'illumination est faite, ensuite l'illumination du visage est rajuste une illumination standard en se basant sur l'image quotient [76]. Dans le cas de la reconnaissance des visages, deux illuminations standards ont t proposes : une illumination uniforme et une illumination ponctuelle frontale. La premire illumination rajuste l'information de la texture et la deuxime rajuste non seulement celle de la texture mais aussi l'information des zones d'ombre. Les rsultats exprimentaux ont montr que l'approche propose amliore sensiblement les rsultats et que les performances de l'illumination uniforme sont un peu mieux que celle de l'ajustement avec une illumination ponctuelle frontale. Ce rsultat, inattendu par les auteurs, s'explique par le fait que l'illumination ponctuelle frontale a besoin d'une lablisation prcise entre les zones de texture et les zones d'ombre. Cela peut ne pas tre le cas pour un systme de lablisation automatique. Les rsultats de cette approche se dgradent beaucoup dans les conditions d'illumination extrmes. Dans [74], le mme auteur a propos une mthode de reconnaissance base sur la drive de l'image logarithmique (obtenue par le gradient de la transforme logarithmique de l'image originale) . Il a aussi dcrit une mesure de distance qui se base sur le minimum entre les drives de deux images comparer. Les rsultats de cette distance , applique la base de visage CMU-PIE [85], montrent que cette mthode est beaucoup plus performante que la corrlation de l'image d'intensit
32
et qu'elle donne de meilleurs rsultats que la simple distance euclidienne entre les drives des images logarithmiques. La normalisation de l'illumination a t trs bien explore dans la littrature. Direntes approches pour compenser les variations de l'illumination pour les visages ont t dcrites. Une des premires constatations est que la normalisation de l'illumination peut dgrader les rsultats lorsque les visages dans la base sont illumins de faon uniforme. En eet, dans ce cas, une normalisation de l'illumination peut supprimer l'information discriminante entre les visages ; Ceci est aussi vrai dans le cas o la base de donnes contient des visages de personnes avec des couleurs de peau direntes. Concernant les autres variabilits qui peuvent aecter la reconnaissance par le visage (pose, expressions ...) , je ne cite ici que quelques rfrences, sachant que c'est un domaine o la recherche est foisonnante et o les problmes sont encore mal rsolus En 2004, Chang et Bowyer [14] ont prsent leurs travaux sur la combinaison de l'image 3D et de l'image 2D du visage. Cette combinaison de l'image de profondeur et de l'image de texture a montr une amlioration signicative par rapport l'utilisation de chaque modalit toute seule. L'apport de ce travail s'appuie sur l'utilisation d'une base de donnes de grande taille et sur l'existence d'une grande dirence temporelle entre les sessions d'acquisitions (13 semaines en moyenne entre les donnes de rfrence et les donnes de test). Les mmes auteurs ont publi, en 2005 [15], leurs travaux en utilisant des espaces de rduction indpendants entre la 2D et la 3D. Leurs conclusions sont les suivantes : Les rsultats de performances pour la 2D et la 3D sont quivalents Une fusion 2D+3D amliore les rsultats de faon signicative par rapport la 3D ou la 2D utilise seule. La fusion des scores de plusieurs images 2D par modle amliore les rsultats par rapport l'utilisation d'une seule image 2D par modle. Mme en utilisant plusieurs images par modle, la reconnaissance en utilisant la fusion 2D+3D reste meilleure. Cependant, l'amlioration des performances devient moins signicative lorsqu'on n'utilise qu'une seule image. Les rsultats prsents utilisent la mthode de rduction d'espace PCA pour les deux modalits fusionnes(2D et 3D). Les auteurs prcisent qu'une utilisation d'algorithmes plus adapts pour chacune des modalits peut amliorer les performances d'une modalit par rapport l'autre. Selon leur conclusion, l'utilisation de plusieurs images du mme visage, sous direntes conditions d'illumination
33
et d'expression, reste la solution la plus able pour amliorer la reconnaissance. Dans cette approche, le problme de pose n'est pas pris en compte mais les auteurs prcisent qu'il faut traiter le problme de l'illumination et de la pose simultanment . La mthode, exploitant les modles multi-images pour reprsenter une personne, est peu explore dans le domaine de la reconnaissance par le visage. Dans [28], les auteurs proposent une autre mthode pour palier le problme de variation de la position du visage. Leur algorithme, bas sur la transformation discrte par cosinus (DCT, Discrete Cosine Transform ), reste robuste face aux variations de pose, de taille et d'alignement des visages. Le systme avait t test sur direntes bases de donnes de rfrence. Cet algorithme utilise une transformation ane des coecients de la DCT an de corriger ces problmes gomtriques. Un des problmes majeurs qui inuence la reconnaissance par le visage reste l'expression faciale. On s'intressera, par la suite, la description de deux tapes importantes qui sont l'extraction des caractristiques de l'expression et la reconnaissance et la classication de cette expression faciale suivant des rgles de classications. La majorit des travaux de dtection et de classication des expressions, dcrits dans la littrature, se basent sur les rseaux de neurones. Ces rseaux sont appliqus soit directement l'image du visage, soit l'image rduite par l'ACP ou par l'ICA ou soit l'image convolue par des ltres de Gabor. Leur but est de classier les direntes expressions. Dans [20], Fasel a dvelopp un systme bas sur des rseaux de neurones convolution an d'augmenter la robustesse face aux problmes de translation et de taille. Dans [17], l'auteur a propos une mthode base sur les rseaux de neurones. La mthode s'applique en 3 tapes : une extraction des caractristiques est eectue en appliquant un ltrage de Gabor sur des points xes du visage, puis une rduction de la dimension par l'ACP est entreprise sur les rponses des ltres et enn, les donnes rduites sont appliques l'entre d'un rseau de neurones six sorties, correspondant aux 6 expressions faciales. Dans [82], une autre approche a t exploite. Elle se base sur la machine support de vecteur (SVM) pour classier les direntes expressions. Des mthodes d'apparence et des mthodes bases sur la gomtrie du visage ont aussi t proposes. Pour les mthodes d'apparence, des points de rfrence sont slectionns manuellement ou automatiquement. Des ltres de Gabor sont
34
appliqus ces points et les rponses de ces ltres formeront un vecteur de caractristique, une classication de ce vecteur est ensuite faite. Le ltrage de Gabor peut aussi tre appliqu sur toute l'image au lieu des points de rfrence. Pour les mthodes bases sur la gomtrie des visages, les positions de points de rfrence sont utilises an de classier les direntes expressions. Les mthodes d'apparences semblent donner des rsultats de classication satisfaisants. La combinaison des deux approches, prsente dans [47], montre de bien meilleures performances que la mthode d'apparence seule, base sur les ondelettes de Gabor. Une technique de rfrence trs utilise pour la classication des expressions est base sur la discrimination des coecients de projection sur l'espace ICA soit par un classieur de similarit cosinus (appel aussi "mesure cosinus") ou soit par un classieur se basant sur le maximum de corrlation. Deux systmes hybrides pour la classication de sept expressions faciales ont t proposs dans [30]. Le premier systme combine l'ICA et le SVM. L'image de visage est projete sur l'espace construit par l'ICA et le vecteur des coecients de projection est ensuite appliqu l'entre du SVM. Les performances du systme sont meilleures que celles du systme de rfrence. Le deuxime systme est bas sur la convolution de l'image du visage par des ltres de Gabor et la nouvelle reprsentation du visage est utilise comme vecteur d'entre pour le classieur. Trois classieurs ont t tudis : le SVM, la similarit cosinus et le maximum de corrlation. Les rsultats ont montr que la classication par le SVM est meilleure que les deux autres approches.
2.5. CONCLUSION
35
des graphes (EGM), Ayinde [2] dans la corrlation des reprsentations des ltres de Gabor. D'autres travaux emploient les approches bases sur la rduction de l'espace comme l'ACP, la LDA, la GDA, la KPCA sur les reprsentations de Gabor du visage, en exploitant l'amplitude et la partie relle de la rponse des ltres. En 2004, Liu a employ la KPCA avec un noyau polynomial puissance partielle applique aux reprsentations de Gabor [48]. Dans [49], le mme auteur a utilis l'approche de rduction d'espace noyau non lineaire (KFA (Kernel Fisher
2.5 Conclusion
Dans ce chapitre, nous avons prsent les grandes lignes de l'volution de la reconnaissance par les visages. Comme dj voqu dans l'introduction, ce chapitre n'a pas pour nalit de dcrire tous les algorithmes de reconnaissance faciale mais nous nous sommes contents de prsenter les algorithmes qui ont introduit une nette volution dans le domaine de cette biomtrie, permettant ainsi une vritable amlioration des performances. Une deuxime partie de ce chapitre a t consacre aux solutions apportes aux problmes spciques rencontrs dans ce domaine de recherche, comme les problmes de variabilit d'expression, d'illumination ou bien de pose. Au vu des rsultats performants obtenus par la modlisation des visages par analyse de Gabor mulitrsolution, nous avons choisi d'utiliser cet outil d'analyse associ une mthode de projection linaire an de construire notre mthode de reconnaissance.
Chapitre 3
38
aussi bien sur des empreintes normales que sur des empreintes abmes ou peu textures. Il devra aussi dtecter les faux doigts tout en donnant une rponse rapide et en restant simple l'utilisation. Comme indiqus dans le chapitre 2, plusieurs eorts d'valuation et de standardisation des algorithmes bass sur le visage ont vu le jour ds le dbut des annes 90. Ils ont surtout t mens par le gouvernement amricain travers l'organisme du NIST (National Institue of Standards Technology ) avec les campagnes FERET. Des campagnes d'valuations sont rgulirement organises sur le visage [70], la voix [59], les empreintes digitales [60] et l'iris [70]. Toutes ces campagnes entre autres ont propos dirents outils de mesure des performances algorithmiques des systmes. La dirence entre la biomtrie et les techniques classiques de vrication de l'identit rside dans le fait qu'en biomtrie, il est impossible d'obtenir une correspondance parfaite entre une reprsentation de rfrence et une reprsentation acquise au moment du test. Ceci est d aux variations intrinsques ou extrinsques des reprsentations. Pour les autres techniques de vrication telles que l'utilisation de code condentiel, la correspondance doit tre parfaite. En biomtrie, une reprsentation d'une identit, aussi appele "gabarit", est un ensemble de caractristiques extraites de la donne biomtrique (empreinte, visage, iris, voix...). Ces caractristiques sont sujettes des variations entre le moment de la capture de la rfrence et la phase de test. Ces variations sont dues plusieurs facteurs, tels que des facteurs temporels ou environnementaux. Par exemple, pour les donnes biomtriques comme le visage, l'ge, la prise de poids et la coiure jouent un rle dans cette dissimilarit entre deux moments de capture. L'empreinte digitale est aussi une biomtrie qui peut tre sujette des variations. Une coupure au doigt ou mme des maladies peuvent inuencer la correspondance entre les deux reprsentations. A ces variations intrinsques des chantillons, nous pouvons ajouter l'inuence de l'acquisition et les erreurs de capture. Un capteur ne peut pas restituer une acquisition parfaite d'un mme chantillon biomtrique, ce qui introduit encore plus de variation pour le mme chantillon. Par exemple, pour le visage, les conditions de luminosit ou le positionnement par rapport la camra, ou mme le changement des capteurs entre les deux phases d'acquisition (rfrence et test) sont des exemples de facteurs environnementaux. Pour l'em-
3.1. INTRODUCTION
39
preinte, le vieillissement et le salissement des capteurs peuvent galement induire des variations entre le moment de la capture de l'empreinte rfrence et la phase de test. Ce type d'erreurs est d gnralement la nature mme du systme biomtrique. Cependant, d'autres types d'erreur existent, correspondant des tentatives d'impostures ou des tentatives de contournement de la vrication. Un exemple de tentatives d'imposture est l'utilisation de copie d'empreintes et un exemple de tentatives de contournement est le changement d'apparence pour le visage (ajout de barbe ou port de lunettes...). Tous ces facteurs sont cits pour expliquer qu'en pratique, une correspondance parfaite entre les deux reprsentations (rfrence et test) pour le mme chantillon biomtrique n'est pas possible et qu'un systme biomtrique peut mme tre induit en erreur par des tentatives de contournements et d'impostures. En conclusion, en biomtrie, les dirences, qui peuvent exister entre la reprsentation du signal de rfrence et celle du signal de test, engendrent forcment des erreurs du systme biomtrique. Par la suite, nous listerons les direntes mthodologies an de comparer les direntes modalits entre elles, notamment en termes de taux d'erreur, ce qui n'est pas la seule mesure de performance considrer. En biomtrie, nous utilisons le terme "systme de reconnaissance" pour dsigner, sans distinction particulire, un systme biomtrique de vrication ou un systme biomtrique d'identication. Il faut savoir que les systmes biomtriques peuvent tre classs en deux grandes familles :
Le systme de vrication d'identit : Dans ce cas, le systme biomtrique vrie que l'identit proclame par la personne devant le systme est bien la bonne. Ce mode de test est appel un test en "un contre un".
40
41
tocoles d'valuation sont, en ralit, des listes de comparaisons "intra-classes" et "inter-classes". Plus le nombre de classes, le nombre d'chantillons par classe et le nombre de tests de comparaison est grand, plus l'valuation est considre statistiquement signicative. Dans le cas d'un nombre susant de classes, d'chantillons et de tests, les distributions des deux types de score convergent vers des distributions normales. Ceci s'explique par le "Thorme Central Limite". La gure 3.1 reprsente une distribution thorique des scores "intra-classes" et "inter-classes" pour un systme biomtrique thoriquement parfait. Il est dit parfait dans le sens o si nous choisissons un seuil de dcision situ dans la zone "A", aucune erreur de classication n'est faite.
1.2 Distribution scores intraclasse Distribution scores interclasses 1
0.8
Distribution
0.6
0.4
0.2
0.1
0.2
0.3
0.4
0.5 Scores
0.6
0.7
0.8
0.9
Figure 3.1:
Exemple de distributions thoriques des scores "intra-classes" et "inter-classes" pour un systme biomtrique thoriquement parfait Dans la plupart des applications biomtriques et dans le cas o on a un nombre assez lev de test de comparaisons direntes, les deux distributions "intraclasses" et "inter-classes" se chevauchent. La gure 3.2 prsente cette conguration et la zone d'intersection "B" des deux distributions est considre comme la zone critique de la reconnaissance. En eet, si on considre un seuil de dcision l'intrieur de cette zone, il existera toujours des scores qui seront du mauvais ct de la frontire ainsi dnie.
42
0.8
Distribution
0.6
0.4
0.2
0.1
0.2
0.3
0.4
0.5 Scores
0.6
0.7
0.8
0.9
Figure 3.2: Exemple de distributions thoriques des scores "intra-classes" et "inter-classes" pour un systme biomtrique rel
En conclusion, pour qu'un systme biomtrique soit considr comme ecace, il faut que le chevauchement entre les scores "intra-classes" et "inter-classes" soit minimal.
43
En cumulant sur une base de donnes et avec un protocole d'valuation spcique (dnition des accs clients et imposteurs pour chaque personne) les direntes erreurs de dcision commises par le systme de vrication, nous obtenons les taux d'erreur correspondant ces deux types d'erreur, une fois un seuil de dcision x. Le taux de faux rejets, dnomm FRR (False Rejection Rate ) ou FNMR (False Non Match Rate ) ou "False Alarm Rate", est le pourcentage des donnes de test authentiques qui ont t rejetes par rapport au nombre total de comparaisons "intra-classes". Le taux de fausses acceptations, dnomm FAR (False Acceptance Rate ) ou FMR (False Match Rate ) ou "Miss Probability ", est le pourcentage des comparaisons d'impostures qui ont t acceptes par rapport au nombre total de comparaisons "inter-classes". On considre un systme de vrication produisant une mesure de distance entre deux chantillons biomtriques. Soit Sij , le rsultat de comparaison de ces deux chantillons pour deux identits i et j . Les taux de FRR et FAR pour un seuil donn sont calculs de la manire suivante :
FRR() =
card({Sij /Sij > }) avec i=j card{Sij } card({Sij /Sij < }) avec i=j card{Sij }
(3.1)
FAR() =
(3.2)
avec card le cardinal de l'ensemble ou le nombre d'lments de l'ensemble. Un autre taux d'erreur peut tre considr, c'est le taux d'erreur total TER (Total
Error Rate ). Ce taux est le pourcentage d'erreur totale que commet le systme
par rapport tous les tests de comparaison. En ralit, c'est une fusion des deux taux FAR et FRR, il est calcul par :
TER(s) =
card({Sij /Sij > avec i=j; Sij /Sij < avec i=j) card{Sij }
(3.3)
Le problme majeur de cette formulation du TER rside dans le fait que dans une valuation biomtrique relle, le nombre d'chantillons par personne est gnralement faible. Ce faible nombre d'chantillons impose un nombre limit de comparaisons intra-classes par rapport au nombre de comparaisons "inter-classes" ou impostures qui sont en gnral gnrs par la comparaison des chantillons de direntes personnes de la base. Cette situation conduit alors une variation asymptotique du TER par rapport au taux d'erreur FAR. Pour viter ce problme, on considre, dans la pratique, une autre expression du
44
TER() =
FAR() + FRR() 2
(3.4)
Cette nouvelle formulation est indpendante du rapport relatif entre le nombre de tests intra-classes et celui des tests inter-classes. Dans tout systme biomtrique, la variation des taux d'erreur FAR et FRR en fonction du seuil est inverse. On se place toujours dans le cas d'un systme qui produit une distance comme rsultat de comparaison. Plus le seuil de dcision augmente, plus le taux de FAR diminue et celui du FRR augmente. La gure 3.3 donne un exemple de ces variations.
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 EER 0.1 0 0 0.2 0.4 Score
Figure 3.3: Variation des taux FAR, FRR et TER en fonction du seuil de dcision
pourcentage derreur
0.6
0.8
On peut remarquer que dans les zones o le seuil est faible, le taux de FAR est grand et celui du faux rejet est faible et inversement, dans les zones o la valeur du seuil est grande. Pour chaque valeur du seuil, une valeur particulire de FAR et de FRR sont associs. Un choix particulier d'un seuil de dcision
45
impose un fonctionnement particulier du systme biomtrique. Plusieurs points de fonctionnement particuliers sont utiliss pour comparer les systmes biomtriques entre eux : EER (Equal Error Rate ) : c'est le point de fonctionnement historique de la biomtrie. Il correspond un choix de seuil o le taux de FAR est gal au taux de FFR. Ce point est celui de l'intersection entre les deux courbes dans la gure 3.3. Dans la littrature, on parle souvent d'un systme biomtrique X% de EER, pour dire qu'il est performant ou pas. Mais on omet souvent de citer la base de donnes sur laquelle a t test le systme ou le protocole d'valuation, ce qui rend les comparaisons entre les systmes impossibles. Ce point de fonctionnement est souvent utilis comme point de comparaison dans les comptitions biomtriques internationales. Min HTER ou HTER (Half Total Error Rate ) : c'est le point particulier o l'erreur totale du systme est minimale. Ceci correspond un minimum global dans la courbe du TER de la gure 3.3. Si les variations des taux FAR et FRR sont comparables, la valeur du HTER sera trs proche de celle du EER. VR @ 0.1% de FAR : le taux de vrication (quivalent 1-FRR) est calcul pour un FAR = 0.1%. Ce point de fonctionnement est trs utilis lorsque le nombre de comparaisons pour les tests "inter-classes" (ou "tests d'imposture") est trs grand, 1000, an qu'il y ait au moins une erreur pour obtenir 0.1%. Ce point est important pour tudier le comportement des systmes faible taux de FAR (scurit accrue) sur une grande base de donnes ou pour simuler une application grande chelle. Ce point de fonctionnement tait exclusivement utilis pour les empreintes digitales, mais en raison des amliorations des systmes de reconnaissance du visage et la mise en place de bases de donnes trs grandes, il est devenu la nouvelle norme pour cette biomtrie. Comparer plusieurs systmes entre eux, en s'appuyant sur les rsultats d'un seul point de fonctionnement, ne peut en aucun cas caractriser le fonctionnement de ce systme ou donner une ide sur le meilleur systme lors d'une valuation. Pour remdier ce problme, une analyse plus globale est faite et des courbes de performance ont t proposes.
46
Courbes de performances
On utilise, le plus souvent, les courbes ROC (Receiver Operating Characteris-
47
Figure 3.4: Exemple de courbes ROC o le taux de vrication correcte est trac
Figure 3.5: Exemple de courbes DET o le taux de FAR est trac en fonction du
48
Intervalle de conance
Outre le choix des critres d'valuation des performances des systmes biomtriques, nous devons faire face une autre dicult de l'valuation d'un systme biomtrique. En gnral, on ne dispose que de peu de donnes de chaque personne et de peu de personnes dans les bases. Certaines bases sont composes de quelques dizaines de personnes seulement et on a peu de donnes par personne, mme si rcemment des bases de l'ordre de centaines de personnes ont fait leur apparition (par exemple FRGC, MBGC). Il est alors impratif de mesurer en plus des taux d'erreurs calculs, une mesure de conance associe. Deux types de mesure des intervalles de conance sont introduits dans [10] : une base sur une mthode non-paramtrique appele "bootstrap " et une base sur une mthode paramtrique. S'ajoutant ces deux mthodes, la mthode classique du "leave one out " n'est pas adapte aux protocoles d'valuation biomtrique, o les bases d'apprentissage et les listes des tests sont xes l'avance (type BANCA, FRGC, XM2VTS...). En eet, cette mthode considre plusieurs dcoupages des bases d'apprentissage et de tests.
mthode non-paramtrique
conance par le "bootstrap", il faut raliser un r-chantillonnage de l'ensemble de test. Ce r-chantillonnage consiste en un tirage alatoire avec replacement de M exemples. Dans notre cas, on prendra M gal au nombre d'exemples. Pour l'estimation du FRR, on prendra donc M = Nc avec Nc le nombre de scores "client" et pour le FAR, on prendra M = Ni, Ni tant le nombre de scores "imposteur". Pour chaque tirage, on va donc choisir M exemples avec replacement, c'est dire que les exemples peuvent tre utiliss plusieurs fois ou jamais. Pour chaque tirage, on estime ensuite les valeurs du FRR et du FAR pour une valeur du seuil . On rpte ensuite cette procdure T fois avec T tirages (en gnral, 1000 tirages sont susants). A partir de ces T valeurs de FAR() et de ces T valeurs de FRR(), on peut estimer alors l'intervalle de conance 90% ou 95% autour de la mdiane. Le problme de cette mthode reste le mme que celui du "leave one out" savoir que pour les nouveaux protocoles d'valuation biomtrique, les bases d'apprentissage et les listes des tests sont xes l'avance.
49
mthode paramtrique
mthode d'estimation de l'intervalle de conance est que les scores sont issus de variables indpendantes et identiquement distribues mme pour les scores d'une personne, c'est--dire que tous les scores sont issus de la mme loi et sont mutuellement indpendants. Cette hypothse semble trs stricte mais est ncessaire pour l'application des thormes. Ceci dit, elle n'est gnralement pas vrie en pratique. Il s'agit ensuite d'estimer les taux d'erreur FAR() et FRR() pour une ou plusieurs valeurs du seuil . Pour estimer ces erreurs, l'estimation des fonctions de rpartition, appeles "fonctions de rpartition empiriques", pour les deux classes "client" et "imposteur" doit tre ralise par une loi normale (voir [10]). L'estimation des intervalles de conance des taux d'erreur FAR et FRR un seuil est obtenue par :
avec FAR() et FRR() les valeurs calcules pour un test donn et Nc les scores "client" et Ni les scores "imposteur" du test. Pour des intervalles de conance 90%, on a = 1, 96 et pour des intervalles de conance de 95%, on a = 1, 645. Cette mthode non paramtrique sera utilise dans la suite an de calculer les intervalles de conance. Ce choix est justi par le nombre important de tests qui seront considrs pour la base FRGC, ce qui permet une bonne estimation des fonctions de rpartition par une loi normale.
50
mode identication, deux scnarios sont possibles qui induisent deux protocoles dirents. Si l'identication se fait dans ce qui est appel un monde ferm, c'est--dire que chaque personne est reprsente dans la base de donnes par au moins une rfrence, alors le systme n'est pas oblig de faire du rejet. Il peut assigner l'identit de la personne qui a le score le plus lev (dans le cas de mesure de score de similitude). L'valuation doit se faire sur toutes les comparaisons possibles entre les lments de la base des rfrences et les autres lments de la base an de simuler au mieux le cas d'un processus d'identication. Le systme qui a le taux de FMR le plus faible est considr comme le meilleur. L'valuation peut se faire en utilisant des courbes de rang, c'est--dire que le FMR n'est pas mesur sur la premire dcision mais sur k dcisions avec k variant de 1
51
52
dier dirents problmes lis la reconnaissance par le visage 2D et 3D [69]. Pour les images 2D, trois expriences sont dnies 2 . Exprience 1 : Les ensembles de rfrence et de test sont composs d'images acquises dans des conditions contrles. Le modle d'un sujet est constitu d'une seule image de rfrence et d'une seule image de test.
Exprience 4 : L'ensemble des images de rfrence est compos d'images acquises dans des conditions contrles, alors que l'ensemble des images de test correspond des images de visage acquises dans des conditions non contrles. Le modle d'un sujet est constitu d'une seule image de rfrence et d'une seule image de test.
2. L'exprience 3 de la base FRGC est une exprience qui concerne les donnes 3D
53
Enn, an de pouvoir analyser l'inuence de la variation temporelle sur les performances des algorithmes pour chacune des trois expriences, des protocoles d'valuation sont dnis pour les trois expriences. Un premier protocole value les performances de comparaison d'images (rfrences et tests) appartenant des sessions d'acquisition d'un mme semestre. Un deuxime protocole value les performances des tests d'image appartenant des sessions d'acquisition de deux semestres conscutifs et un dernier, les performances des tests d'image de rfrence et de test, spares d'une anne. Les dirents protocoles sont dnomms "masque" dans les valuations sur la base FRGC. Le tableau 3.1 rsume les dirents protocoles d'valuation des trois expriences avec le nombre de tests "intra-classes" et "inter-classes" correspondants. Expriences Exprience 1 Protocole 1 2 3 1 2 3 1 2 3 NTests intra-classes 196 672 369 824 173 152 12 292 23 114 10 822 98 336 184 912 86 576 NTests inter-classes 55 217 232 119 072 912 63 855 680 3 451 077 7 442 057 3 990 980 27 608 616 59 536 456 31 927 840
Exprience 2
Exprience 4
Table 3.1: Nombre de tests pour les 3 protocoles dans les expriences 1, 2 et 4
de la base FRGC
Rsultats de la littrature
Les premiers rsultats sur la base FRGC ont t prsents lors du "Biometrics Consortium Conference" en 2005. Les rsultats prsents par Jonathon Phillips montrent une grande dirence entre les performances des deux types d'expriences (exprience 1 et exprience 4) (Figure 3.8). La premire conclusion de cette prsentation est que les conditions d'acquisition dgrades inuencent de manire signicative les performances. La deuxime conclusion est que les performances des systmes de reconnaissance faciale ont bien progress depuis la dernire campagne d'valuations FRVT 2002. Le meilleur rsultat, prsent lors de ce consortium pour l'exprience 4, est donn par l'approche KFA (Kernel Fisher Analysis ) applique aux reprsentations de Gabor du visage [49]. L'algorithme a atteint un taux de 78% de VR@0.1% de
54
FAR. Le deuxime meilleur rsultat pour cette exprience est celui de la socit Cognitec avec 62% de VR@0.1% de FAR. La mdiane des rsultats des algorithmes proposs est de 35% pour l'exprience 4, ce qui dmontre la dicult de cette exprience. En ce qui concerne l'exprience 1, la plupart des algorithmes proposs ont des rsultats corrects (lorsque les images de rfrence et de test sont de bonne qualit). Les rsultats atteignent des taux de VR de 90% et 95% 0.1% de FAR.
Depuis 2005, des dizaines de travaux ont t publis sur la base FRGCv2. Les meilleurs rsultats de l'exprience 1 restent tous quivalents. Les rsultats les plus intressants restent ceux publis sur l'exprience 4 par NIST. En 2006, Savvides prsente dans [79] ses rsultats sur FRGC avec l'approche se basant sur les ltres de corrlation noyaux. Les rsultats sur l'exprience 4 ont atteint 72% de VR@0.1% de FAR. Cette mthode est une drive de l'approche MACE (Minimum Average Correlation Energy ), prsente par le mme auteur
55
dans [80]. Dans [29], l'auteur a rapport un taux de VR@0.1% de FAR, qui est gal 75.70%. La mthode utilise est base sur une rduction d'espace par LDA sur les rponses de trois ltres de Fourier direntes bandes de frquence. En 2007, dans [88], l'auteur prsente une approche base sur une stratgie d'analyse et de fusion hirarchique de plusieurs classieurs. Ces classieurs sont construits partir des rponses des ltres de Gabor sur des parties de visage ainsi que sur la transformation de Fourier de l'image globale. Une rduction d'espace est applique en se basant sur une FDA (Fisher Discriminant Analysis ). La classication nale est faite par une dcision hirarchique des dirents classieurs. L'auteur rapporte un taux de VR@0.1% de FAR de l'ordre de 86%.
(a)
(b)
(c)
Figure 3.9: Exemples d'image de la base de donnes BANCA selon trois scna-
Un nouveau point de fonctionnement a t introduit avec la base BANCA. C'est le point de fonctionnement WER (Weighted Error Rate ), donn par la formule 3.5, correspondant direntes conditions de fonctionnement. Ces conditions
56
correspondent 3 direntes valeurs du rapport de cot de fausse acceptation (CFA ) et de faux rejet (CFR ), r = CFA /CFR , avec r = 0.1, r = 1 et r =10.
WER(r) =
(3.5)
Protocoles d'valuations
En utilisant les 12 sessions d'acquisitions, plusieurs protocoles ont t mis en place an de comparer les dirents algorithmes des participants la comptition ICPR2004 [55]. Pour chacune des 52 personnes, 5 images sont utilises pour les tests "clients" et 5 images sont utilises pour les tests "imposteurs". Le modle (rfrence ou test) de chaque sujet est donc constitu de 5 images et, chaque sujet, il est assign un "imposteur" particulier. Deux groupes de test (G1 et G2) sont considrs. Chacun de ces groupes est constitu de 26 personnes (13 hommes et 13 femmes). Les paramtres des dirents algorithmes sont alors optimiss sur le premier groupe G1 et sont ensuite utiliss pour le deuxime groupe G2 et vice-versa. Plusieurs protocoles de tests sont proposs pour la base BANCA mais les deux protocoles P et Mc sont les plus frquemment prsents dans la littrature. Le protocole P est le protocole le plus dicile du point de vue des conditions de test. En eet, les images de rfrence sont acquises dans des conditions contrles alors que celles des tests (client ou imposteur) sont acquises dans des conditions contrles, dgrades et diverses. Le protocole Mc est le protocole le plus facile car les images de rfrences, ainsi que les images des tests "clients" et "imposteurs", sont acquises dans des conditions contrles.
57
mais le rsultat sur cette base a t rajout dans le tableau pour avoir une ide sur la performance de l'ACP sur cette base. WER(0.1) G1 G2 8.69 8.15 8.15 7.43 7.70 8.53 5.82 6.18 1.55 1.77 7.56 8.22 4.67 7.22 8.24 9.49 6.05 6.01 6.40 6.50 1.13 0.73 5.79 4.75 8,95 10,23 WER(1) G1 G2 25.43 20.25 21.85 16.88 18.08 16.12 12.29 14.56 6.67 7.11 21.44 27.13 12.46 13.66 14.96 16.51 12.61 13.84 12.10 10.80 2.61 1.85 12.44 11.61 26,85 26,59 WER(10) G1 G2 8.84 6.24 6.94 6.06 6.50 4.83 5.55 4.96 1.32 1.58 7.42 11.33 4.82 5.10 4.80 6.45 4.72 4.10 6.50 4.30 1.17 0.84 6.61 7.45 8,35 6,62 Av. WER %
IDIAP- HMM IDIAP - FUSION QUT UPV Univ Nottingham Univ Taiwan UniS UCL - LDA UCL - Fusion NeuroInformatik Tsinghua Univ CMU BIOSECURE RefSys
12.93 11.22 10.29 8.23 3.33 13.85 7.99 10.08 7.89 7.77 1.39 8.11 14,60
NB : Dans la suite de cette thse, nous utiliserons cette base an de valider nos rsultats obtenus. Les protocoles P et Mc seront les plus souvent invoqus.
3.4.3 IV2
Le projet IV2 est un projet d'valuation biomtrique franais. Il a pour but de crer des ressources et des conditions d'une valuation l'chelle nationale et internationale de dirents systmes lis l'information du visage, de l'iris et de la voix, dans des milieux semi-contraints. Pour constituer la base de donnes IV2 , une cabine d'acquisition trs semblable une cabine de type photomaton a t utilise et est reprsente dans la gure 3.10. An d'obtenir un clairage optimal dans la cabine, nous disposons de plusieurs lampes halognes qui seront pilotes depuis un ordinateur l'aide de tlvariateurs de puissance. La base IV2 est une base multimodale comportant une squence de 2 minutes de visage parlant qui est acquise avec des camras direntes dont une "Webcam ", des donnes du visage 3D avec direntes expressions et sous diverses conditions d'illumination, des donnes de visage acquises par strovision et des images d'iris
58
acquises en proche infrarouge. Cette base de donnes a t acquise sur trois sites dirents : l'INT (EVRY), l'universit d'Evry et l'cole Centrale de Lyon (LYON).
Protocoles d'valuation
La base d'valuation comporte 482 identiants, correspondant 315 personnes dont 268 personnes sont enregistres sur une session, 77 enregistres sur 2 sessions, et 19 enregistres sur 3 sessions. Sa taille est de 19 Go, correspondant 7651 dossiers et 56111 chiers. Les tests se font sur des images xes, extraites des vidos. L'extraction se fait de manire automatique. Les images sont au format jpg, avec un facteur de qualit de 95. Les collections d'image sont ralises de la manire suivante : images camescope ("dv") : premire squence : 8 images, espaces de 4 secondes, partir de l'instant 0 seconde deuxime squence : 8 images, espaces de 4 secondes, partir de l'instant (n de l'enregistrement - 37 secondes) images camra numrique ("dcam") : premire squence : 8 images, espaces de 1 seconde, partir de l'instant 2 secondes deuxime squence : 8 images, espaces de 2 secondes, partir de l'instant 26 secondes images webcam ("wcam") : une squence de 8 images, espaces de 5 secondes, partir de l'instant 1 seconde Les donnes disponibles sont utilises pour construire plusieurs sries de tests, prsentes dans le tableau 3.3 : Experience Sessions qualit Expression V. Illumination V. N. Intra-classe N. Interclasse 2D-Exp1 Mono Haute faible Non 2595 2454 2D-Exp2 Mono Haute Non Oui 2502 2362 2D-Exp3 Mono Basse Non Non 1654 1598 2D-Exp4 Multi Haute Non Non 1796 1796
Trois algorithmes ont t compars dans cette valuation, dont celui que j'ai
59
Exemple d'acquisition 3D
Figure 3.10: Exemples de donnes de la base IV2
60
(a)
(b)
Figure 3.11: Exemples d'acquisition d'images 2D : (a) image haute rsolution et (b) image dgrade
dvelopp dans cette thse, c'est pour cette raison que j'ai choisi de prsenter les rsultats de cette valuation dans le chapitre 6 ou je dcrit mon approche.
3.5 Conclusion
Dans ce chapitre, nous avons list les outils ncessaires l'valuation des performances des algorithmes biomtriques en identication et en vrication ainsi que les bases de donnes publiques de visage (FRGC, BANCA et IV2 ) et les protocoles de tests associs. Ces bases et leurs protocoles seront utiliss tout au long du reste de cette thse.
Chapitre 4
62
63
tons F l'espace des images des visages normaliss une taille n m. Nous avons
F , Rl .
En 1994, Ruderman a dmontr que les images naturelles possdent une grande redondance statistique [77]. En 1996, Penev [65] a dmontr que dans le cas prcis des images normalises des visages, cette redondance statistique est d'autant plus forte. L'appartenance un mme sous-espace et la redondance statistique qui caractrise les visages expliquent l'intrt des chercheurs pour les mthodes de reconnaissance bases sur les approches par rduction d'espace, appeles galement "les approches globales". Le fait que les visages soient conns dans un sousespace permet de dnir une base (orthogonale, ou non orthogonale) dans cet espace. Cette base devrait reprsenter de faon plus pertinente n'importe quel point de l'espace des visages. L'avantage de la redondance statistique est qu'elle permet une extraction d'une structure simple des caractristiques importantes et pertinentes de l'image du visage. Cette structure permettrait de reprsenter le visage tout en gardant l'information la plus importante, et par consquent, de rduire la dimensionalit de l'espace visage. Tout l'intrt des approches globales est la construction de cette base de projection qui permettra de comparer, de reconnatre ou d'analyser l'information essentielle des visages.
64
Plus gnralement, on dnit P droites orthogonales les unes aux autres qui permettent de dnir un repre orthonorm. Ces P droites sont les P "axes principaux" d'un repre dans lequel sont situs les chantillons de manire les dcrire de la faon la plus concise. L'objectif est que la plupart des coordonnes d'un chantillon soient presque nulles et que seules quelques coordonnes aient une valeur importante. Les coordonnes d'un chantillon i de coordonnes (aj;j1,..,p ) dans ce nouveau repre s'expriment par rapport de nouveaux attributs appels "composantes principales ". Notons zj1,..,p les composantes principales, zi,j dnotant le j -me caractre principal de l'chantillon i. On a naturellement une relation reliant les attributs originaux aux nouveaux attributs. La meilleure reprsentation des donnes au moyen de q < P attributs s'obtient en ne prenant en compte que les q premires composantes principales. L'ACP est une mthode factorielle car elle construit de nouvelles coordonnes par combinaison des coordonnes initiales. Les N chantillons dcrits par leur P attributs peuvent tre mis sous forme
65
d'une matrice ayant N colonnes et P lignes : 1 colonne dcrit un chantillon et chaque ligne correspond un attribut. Notons cette matrice X. On dnit la matrice de variance V de la manire suivante :
var(a1 )
covar(a1 , a2 ) . . . covar(a1 , ap )
(4.1)
(4.2)
Pour des chantillons centrs et rduits, ces deux matrices sont gales R =
V. On a la relation : R =
1 PX
intressante car elle permet de reprer immdiatement les caractres fortement corrls et ceux qui ne le sont pas. Le calcul des valeurs propres et des vecteurs propres de R fournit alors toutes les informations recherches. Notons i1,..,p les P valeurs propres de R ordonnes de manire dcroissante 1 > 2 > ... > p , et V i1,..,p leurs P vecteurs propres associs. R est par nature symtrique et dnit positive. Ses valeurs propres sont relles et positives et ses vecteurs propres ont des coordonnes relles. S'il existe une ou des valeurs propres nulles, cela signie que les attributs ne sont pas linairement indpendants les uns des autres : un ou plusieurs attributs sont obtenus par combinaison linaire des autres. Ces vecteurs propres sont unitaires et orthogonaux deux deux. Ils forment donc une base orthonorme. Ce sont les axes principaux recherchs. De plus, l'axe principal est celui associ la valeur propre la plus grande. Ainsi, les q axes principaux sont les droites dont les vecteurs unitaires sont les vecteurs propres associs aux q valeurs propres les plus grandes. On obtient alors les coordonnes principales des chantillons en les projetant dans cet espace, c'est--dire en faisant le produit scalaire des coordonnes (centres rduites) d'un chantillon par chacun des q vecteurs propres choisis.
66
= P. L'importance d'une
valeur propre par rapport aux autres est alors mesure par son inertie :
Ii =
i P
(4.3)
o i est la variance le long de l'axe principal port par le vecteur propre V i donc
c'est la variance de la composante principale zi . On dnit aussi la variance de l'espace rduit la dimension q par
i1,..,q i .
Turk et Pentland ont appliqu l'ACP (Analyse en Composantes Principales) au problme de reconnaissance de visage en 1991 [93], connue aussi sous le nom de mthode de Kerhunen-Love. An de pouvoir appliquer l'ACP la modalit visage, les images de la base d'apprentissage de l'espace de rduction doivent tre normalises gomtriquement. En d'autres termes, nous transformons la rgion du visage an d'avoir un mme nombre de pixels pour tous les visages de la base. Dans la littrature, une distance xe entre les centres des yeux pour l'image de sortie est impose [11].
On cherche les axes qui maximisent la variance entre ces visages. Les n images sont donc transformes d'une matrice 2D en un vecteur de dimension l an de construire la matrice de donnes M Rln . On calcule la matrice de covariance CM
67
ainsi que la moyenne M . Toutes les images de la base sont centres par rapport M . An de retrouver les axes de la base orthogonale (base de projection), le problme est ramen au calcul du problme des valeurs propres :
CM Vi = i Vi
(4.4)
avec i valeur propre correspondant au vecteur propre Vi . L'ensemble des vecteurs propres, correspondants aux valeurs propres non nulles, formeront une base orthogonale. Les valeurs propres sont ensuite classes dans l'ordre dcroissant et seules sont gardes les vecteurs propres correspondants une certaine valeur de la variance. Dans la pratique, on garde les vecteurs propres qui conservent les 95% de la variance de l'espace. On notera par la suite = {Vi }i{1,..,r} , avec la matrice de transformation de l'espace d'entre de dimension l vers l'espace rduit de dimension r avec l
r.
d(1 , 2 ) = |(1 ) (1 )| =
i=1
|ai bi |
(4.5)
d( , ) = ( ) ( ) =
i=1
(ai bi )2
(4.6)
Angle :
d(1 , 2 ) =
Mahalanobis :
(1 ) (1 ) = (1 ) (2 )
r
(4.7)
d(1 , 2 ) =
i=1
1 ai bi i
(4.8)
68
Moon et Phillips ont tudi dans [58] les performances de ces 4 mesures sur la base FERET [32]. Une autre tude [95], faite en 2002, a repris les travaux de Moon et Phillips et a conrm aussi que la distance de Mahalanobis dpassait les autres distances en terme de performance et qu'une fusion de ces mesures amliorait la reconnaissance. Ces valuations ont t faites sur la mme base FERET.
PW =
i=1
2 i
(4.9)
avec n le nombre total des valeurs propres de . Soit Sr l'apport nergtique de la composante principale r dnit par :
Sr =
2 r PW
(4.10)
69
Le rapport Rr entre l'nergie rsiduelle partir de la composante principale r et l'nergie totale du systme PW est dnit par :
n 2 i=r i
Rr =
PW
(4.11)
On considre le rapport (r) entre l'apport nergtique de la composante principale r et l'nergie rsiduelle partir de cette composante. On appellera (r) le taux d'nergie rsiduelle exprim par l'quation suivante :
(r) = Sr /Rr =
n 2 i=r i
2 r
(4.12)
6 20
30
40
50
60
70
80
90
100
70
(Exprience1)
12 11 30 10 29 9 EER 8 7 27 6 26 5 4 20 25 20 EER 28 31
(Exprience4)
30
40
50
60 Variance
70
80
90
100
30
40
80
90
100
l'exprience 4 de FRGC
12 11 10 9 EER 8 7 6 5 4 20
30
40
50
60 Variance
70
80
90
100
BANCA
71
Les rsultats des valuations sur la base FRGC (gure 4.4) et ceux sur la base BANCA (gure 4.5) montrent que l'utilisation des premiers axes principaux seuls dtriore les rsultats de la reconnaissance (les axes principaux qui expriment moins de 40% de la variance de l'espace) . Cette dtrioration est due au faite que l'information discriminante se situe non seulement dans les premiers axes principaux mais aussi dans le reste des axes. En plus, l'ajout d'un surplus d'axes principaux peut aussi dgrader la reconnaissance (Figure 4.3 (Les axes faible apport de variance qui donnent une variance suprieure 75%) . Dans cette tude, nous nous sommes aussi intresss l'inuence des chantillons d'apprentissage sur les performances de la reconnaissance de visage. Nos expriences ont montr galement que la prsence des variabilits comme l'expression ou l'illumination dans la base d'apprentissage de l'espace de rduction est plus importante que la variabilit des personnes. On considre la base de dveloppement 2 de FRGC et un sous-ensemble de la base BANCA. Les sous-ensembles d'apprentissage construits partir de ces deux bases sont rsums ci-dessous et dans le tableau 4.1 : F1 : un sous-ensemble de la base d'apprentissage (BA) de FRGC, construit avec 18 personnes et 512 images acquises en conditions contrles et 512 en conditions non contrles F2 : un sous-ensemble de BA de FRGC, construit avec 35 personnes et 1024 images en conditions contrles et 1024 en conditions non contrles. F3 : un sous-ensemble de BA de FRGC, construit avec 222 personnes et 1110 images de conditions contrles et 1110 en non contrles. B1 : l'ensemble de la base BANCA , construit avec 52 personnes et 1020 images dont 40% sont acquises en conditions contrles, 40% en non contrles et 20% en dgrades. Le sous-ensemble d'apprentissage de la base de BANCA a t choisi an de mesurer les performances de l'ACP lorsque l'espace de rduction est construit partir d'une base d'apprentissage compltement dirente de la base d'valuation (en termes de personnes). On peut aussi voir l'impact de l'utilisation de plusieurs bases d'apprentissage sur les performances de la reconnaissance (F1 + B1, union des deux bases F1 et B1). La dimensionalit de l'espace de rduction est choisie par rapport la zone de
2. Dans le chapitre prcdent, nous avons prsent la base FRGC 3.4. La base d'apprentissage (BA) est un ensemble d'images, forme de 12.776 images de 222 sujets dont 6.388 images de visage prises dans des conditions non contrles.
72
BA FRGCv2 BANCA
Sous-ensemble F1 F2 F3 B1
C/NC/D 50% / 50% / 0% 50% / 50% / 0% 50% / 50% / 0% 40%/ 40% /20%
C : Images acquises en conditions contrles NC : Images acquises en conditions non contrles D : Images acquises en conditions dgrades
stabilit du taux d'nergie rsiduelle qui se situe 80% de la variance de l'espace total. Le tableau 4.2 donne les rsultats de l'exprience 4 de FRGC suivant les dirents espaces de rduction construits partir des bases d'apprentissage du tableau 4.1. EER IC 90%
B1 28,2% [2.1%]
F1 23,24% [1.4%]
F1 + B1 22,9% [1.4%]
F2 23,4% [1.4%]
F3 26,9% [1.9%]
Le premier point notable de ces expriences est que l'apprentissage de l'ACP pose un problme de gnralisation, retrouv dans toutes les mthodes de reconnaissance par rduction d'espace. Sachant que si l'espace de rduction est construit partir de personnes qui ne sont pas dans la base d'valuation FRGC, les performances sont dgrades de faon signicative. Pour ces expriences le taux d'erreur EER passe de 28.2% 23.4%. On remarque que la variabilit des personnes est moins importante que la variabilit des situations environnementales. En eet, pour F3, nous avons 220 personnes avec 5 images de type non contrl par personne alors que pour F1, nous avons 18 personnes avec en moyenne 28 images de type non contrl. Les performances de la PCA passent de 26% en utilisant F3 23.2% en utilisant F1.
73
en compte cet lment, ce que l'ACP ne permet pas de faire . En 1936, Fisher propose une mthode de classication base sur la maximisation de la distance "inter-classes" et la minimisation de la distance "intra-classes".
sher Discriminant Analysis ) permet de rechercher, dans l'espace des donnes, les
axes qui permettent de discriminer au mieux les direntes classes (plutt que les axes qui dcrivent au mieux les donnes, tel est le cas de l'ACP). En d'autres termes, si on considre un certain nombre de paramtres indpendants, la LDA permet de crer une combinaison linaire de ces derniers qui aboutit un maximum de distance entre les moyennes des direntes classes. Concrtement, pour tous les chantillons de toutes les classes, on dnit deux mesures. La premire mesure est la matrice d'parpillement intra-classes Sw ("within-class scatter ma-
Sw =
j=1 i=1
(xj j )(xj j )T i i
(4.13)
avec xj le ime chantillon de la classe j , j la moyenne de la classe j , c le nombre i de classes et Nj le nombre d'chantillons de la classe j . La deuxime mesure est la matrice d'parpillement inter-classes Sb ("between-class scatter matrix ") qui est dnie par :
c
Sb =
j=1
(j )(j )T
(4.14)
avec la moyenne de tous les chantillon. Le but est de maximiser les distances inter-classes tout en minimisant les distances intra-classes, ce qui revient retrouver la matrice de transformation W WT Sb W [21] donc W est optimale pour : qui maximise le critre J(W) = T W Sw W
Ce problme est ramen un problme de recherche des vecteurs propres de la matrice S1 Sb . w La gure 4.6 reprsente un exemple de classication de deux nuages de points. L'axe principal de la LDA est l'axe de projection qui maximise la sparation entre
74
les deux classes. Il est clair que cette projection est optimale pour la sparation des deux classes par rapport la projection sur l'axe principal calcul par ACP.
Figure 4.6: Comparaison entre les projections de deux classes de points ("class
1" et "class 2") sur les axes principaux construits par ACP et par FLD=LDA (Figure tire de [7])
La maximisation de J(W) n'est possible que si la matrice Sw est singulire (inversible). Cette condition pose un problme pour les applications de reconnaissance du visage 3 . Pour remdier ce problme, Swets [89] a propos d'utiliser l'espace ACP rduit comme espace intermdiaire. On commence par rechercher les axes principaux des donnes par la ACP. On rduit les donnes de dpart dans cet espace (projection dans une base orthogonale) et enn, on applique la LDA sur ces donnes rduites.
75
ment Sw et Sb :
ASw AT = I, ASb AT =
Avec matrice diagonale ordonne par ordre dcroissant.
(4.15)
Dans [16], Chen a dmontr que l'espace nul de Sw 4 contient de l'information discriminante et qu'un passage par une rduction d'espace par ACP supprime cette information. Concrtement, si pour un vecteur "a" de l'espace d'entre, |aT Sb aT | Sw a = 0, et Sb a = 0, alors T est maximise. Il sut alors de garder |a Sw aT | l'espace nul de la matrice d'parpillement inter-classes Sw . Cette mthode est bien meilleure que la LDA classique dans le sens o les vecteurs de projection obtenue maximisent le critre de Fisher sans supprimer l'information discriminante. Une nouvelle approche, appele la DLDA directe, a t propose dans [103] an de maximiser le critre de Fisher. La premire tape de cette approche est la diagonalisation de la matrice Sb par le calcul de la matrice V :
VT Sb V =
avec VT V = I. Le problme est alors ramen la rsolution d'un problme de valeurs propres. Chaque vecteur de la matrice V est un vecteur propre de la matrice
YT Sb Y = Db > 0
avec Db la sous-matrice de , de dimension mxm. En multipliant par Db
1/2 T
et Db
1/2
(YDb
En posant Z = YT Db
1/2
1/2 T
) Sb (YT Db
)=I
, nous obtenons :
ZT Sb Z = Db
4. L'espace nul de Sw = {x|Sw x = 0, x Rn }.
(4.16)
76
On constate que Z permet de rduire la dimension de Sb de nxm mxm. Considrons la diagonalisation de la matrice ZT Sw Z par la rsolution du problme des valeurs propres :
UT ZT Sw ZU = Dw
avec UT U = I. Dw peut contenir des valeurs nulles sur la diagonale.
(4.17)
L'objectif est de minimiser l'parpillement des inter-classes. Il est donc important de garder les vecteurs de projection associs aux valeurs propres les plus faibles, spcialement les valeurs nulles, et d'carter ceux associs aux valeurs propres les plus fortes. En posant la matrice A = UT ZT , A permet la diagonalisation du numrateur et du dnominateur du critre de Fisher :
ASw AT = Dw ,
En posant = Dw
1/2
ASw AT = I
(4.18)
tire de [103].
77
visage. Nous avons test les dirents algorithmes et les rsultats qui en rsulte conrment dans la plupart des cas les rsultats de la littrature. Ces rsultats prsentent aussi quelques claircissements de comportement non attendu pour certains types d'exprience. Cette tude justiera aussi le choix exclusif de l'algorithme de la DLDA comme algorithme d'tude dans la suite de cette thse.
78
dirents algorithmes, nous avons choisi : de xer la base d'apprentissage. Cette base servira pour le calcul des espaces rduits. d'utiliser les mmes conditions exprimentales des protocoles d'valuation. d'utiliser les mmes conditions de pr-traitement des images des visages. Ce choix permettra d'tudier la dirence de comportements entre les dirents algorithmes. Mme tant dans les mmes conditions de test, les dirents algorithmes n'ont pas besoin des mmes informations pour l'apprentissage. L'ACP qui est une mthode de rduction non supervise n'a pas besoin d'information sur les classes (dans notre cas, les images d'un sujet forment une classe) alors que la LDA et la DLDA, qui sont des mthodes supervises, en ont besoin.
La base d'apprentissage BA (dnit dans le chapitre 3) est une sous-partie de la base de dveloppement de FRGC. Elle est constitue de 220 personnes avec 10 images de visage acquises dans des conditions contrles et 10 images acquises dans des conditions non contrles. Cette mme base d'apprentissage sera galement utilise pour les protocoles de reconnaissance P et Mc de BANCA.
Rsultats de reconnaissance sur les bases FRGC et BANCA pour les approches globales linaires
Les rsultats prsents par la suite corroborent, dans la plupart des cas, des rsultats dj constats dans la littrature. On prsente ici ces rsultats an de montrer les volutions en performance des dirents algorithmes par rduction d'espace et valider ainsi leur utilisation. Le choix de prsenter les rsultats sur la base FRGC se justie par le fait que les rsultats des protocoles de test sont statistiquement signicatifs, compars toutes les bases publiques existantes. Le
79
protocole de l'exprience 1 comporte, par exemple, plus de 55.000.000 de tests inter-classes et prs de 200 000 tests intra-classes pour 466 personnes.
Performances des algorithmes ACP, LDA et DLDA sur FRGC et BANCA :
An de mieux comprendre l'inuence de la qualit des tests sur les dirents algorithmes de reconnaissance de visage, bass sur la rduction d'espace, on propose d'observer les rsultats de la reconnaissance de l'ACP, de la LDA et de la DLDA sur les 2 types d'exprience de FRGC (Exprience 1 et Exprience 4) ainsi que pour les deux protocoles P et Mc de BANCA. La base BA est utilise comme base d'apprentissage des dirents espaces de rduction (axes de projection) pour les direntes expriences. Les courbes ROC de la gure de 4.9 prsentent les rsultats de l'exprience 1 et 4 de FRGC pour les 3 algorithmes cits (ACP, LDA et DLDA). Ceci nous permet de comparer les performances en fonction du caractre dgrad ou pas des donnes de test . Les courbes de la gure 4.10 reprsentent les courbes ROC pour les protocoles P et Mc de BANCA sur les deux groupes G1 et G2 (en utilisant la mme base d'apprentissage BA) (voir chapitre 3 pour plus de dtails sur les protocoles) 7 . Le tableau 4.3 rsume les performances aux deux points de fonctionnement VR @0.1% de FAR et EER pour les deux bases selon les dirents protocoles. En comparant les rsultats de reconnaissance pour les deux types de protocoles contrls et non contrls (Exp1 contre Exp4 pour FRGC et Mc contre P pour BANCA), nous constatons que les performances de l'ACP, de la LDA et de la DLDA sont bien meilleures (pour des rfrences contrles) lorsque les images de test sont contrles que lorsqu'elles sont dgrades. En eet, par exemple le taux de VR @0.1% de FAR passe de 76% 17% pour l'ACP entre l'exprience 1 et l'exprience 4. Cette tendance est bien vrie pour les 3 algorithmes sur les 2 type de protocoles. Un deuxime point que nous pouvons constater est l'amlioration des performances obtenues par la DLDA par rapport aux deux autres mthodes. Ce rsultat est visible dans tous les tests. Ainsi pour l'exprience 1 de FRGC nous observons une dirence signicative entre la DLDA (83% de VR) et l'ACP et la LDA (respectivement 76% et 58%). Le mme comportement peut tre observ pour tous les tests.
7. Notons que je prsente ici les rsultats en terme de courbes ROC et non pas en WER ("Weigthed Error Rate )"
80
Finalement nous notons aussi une dirence de performances entre la LDA et l'ACP. Les performances de l'ACP sont suprieurs ceux de la LDA pour tous les tests sauf pour l'exprience 4 de FRGC. Les performances de l'ACP sont meilleures lorsque le test est fait en conditions contrles. L'espace de rduction dans l'exprience 1 n'est adapt ni la LDA ni la PCA, car on apprend cet espace sur des images contrles et des images non contrles (5 images acquises en conditions contrls et 5 images dans des conditions non contrles) et dans ce cas on a pas assez d'images des conditions contrles [52]. L'ACP reste insensible ce problme que la LDA, parce qu'elle tend maximiser la variance des chantillons et non maximiser la sparation entre les classes comme pour la LDA. Les donnes tant mal dnis dans l'espace de projection l'erreur induite par la LDA est donc plus grande que l'ACP. Par contre dans le contexte de l'exprience 4, le caractre discriminant entre les classes amen par la LDA montre toute son ecacit. Dans le cas des expriences sur BANCA, la base d'apprentissage des espaces de projection (BA de FRGC) ne correspond pas aux personnes de la base de test. On retrouve les mmes rsultats que dans [52] savoir que dans ce cas l'ACP est meilleure que la LDA et ceci indpendamment des conditions de tests contrles ou pas. Algorithme ACP LDA DLDA Algorithme ACP LDA DLDA Algorithme ACP LDA DLDA Exprience 1 (VR/EER) 76.37%[0.18] / 5.23[0.09]% 58.90%[0.21] / 7.73[0.11]% 83.19%[0.15] / 2.93[0.07]% Protocole Mc (VR/EER) 64.3%[4.5%] / 12.1%[3.0%] 50%[4.9%] / 15.3%[3.4%] 66.4%[4.6%] / 11.7%[3.0%] Protocole Mc (VR/EER) 81.5%[3.8%] / 4.0[2.0%] 55.1%[4.9%] / 13.5[3.4%] 88.9%[3.1%] / 4.3[1.9%]
VR@0.1% de FAR) des 3 algorithmes (ACP, LDA, DLDA) pour les deux types d'exprience sur les bases FRGC et BANCA
81
ACP
1 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.001
Verification Rate
PCA-Histeq Experiment 1-BA PCA-Histeq Experiment 4-BA 0.01 False Accept Rate 0.1 1
LDA
1 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.001
Verification Rate
LDA-Histeq Experiment 1-BA LDA-Histeq Experiment 4-BA 0.01 False Accept Rate 0.1 1
DLDA
1 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.001
Verification Rate
DLDA-Histeq Experiment 1-BA DLDA-Histeq Experiment 4-BA 0.01 False Accept Rate 0.1 1
Figure 4.9: Courbes ROC des algorithmes ACP, LDA et DLDA pour les exp-
82
ACP
1 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.001
Verification Rate
LDA
1 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.001
Verification Rate
DLDA
1 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.001
Verification Rate
Figure 4.10: Courbes ROC des algorithmes ACP, LDA et DLDA pour les expriences Mc et P de la base BANCA : avec galisation d'histogramme, base d'apprentissage BA
83
En analysant les rsultats de l'exprience 1 (Figure 4.11), nous remarquons que les rsultats de la LDA se dgradent par rapport ceux de l'ACP. Ceci s'explique par le fait que l'ACP perd une partie de l'information discriminante entre les classes, qui est plus importante lorsque les conditions d'acquisition sont contrles (absence de bruit) que lorsque ces conditions sont non contrles. Les rsultats de la DLDA sont bien meilleurs que ceux de l'ACP ou ceux de la LDA. Cela conrme que la rduction par ACP avant le calcul des axes de projection par LDA supprime une quantit importante d'information discriminante. Les performances de l'ACP sont meilleures que la LDA dans cette exprience en conditions contrles. L'analyse de la courbe Roc de la gure 4.12 nous donne des rsultats comparables.
1 0.95 0.9 Verification Rate 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.001 ACP-Histeq Experiment 1-BA LDA-Histeq Experiment 1-BA DLDA-Histeq Experiment 1-BA 0.01 False Accept Rate 0.1 1
Figure 4.11: Comparaison des performances pour les algorithmes ACP, LDA et
Comme pour l'exprience 1, les performances de la DLDA sont meilleures pour l'exprience 4 (gure 4.12) que celle de l'ACP et de la LDA ce qui dmontre la robustesse de cette mthode lorsque les conditions d'acquisition sont diciles. Par contre les performances de la LDA sont meilleures que l'ACP dans cette exprience. Ces rsultats sont en accord avec d'autres travaux publis qui comparent LDA et PCA [52].
volution des performances de la DLDA en fonction du type de base d'apprentissage :
Un autre point connu pour les mthodes de rduction de l'espace, mais souvent omis dans la littrature, est l'inuence de la base d'apprentissage sur les perfor-
84
1 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.001
Verification Rate
ACP-Histeq Experiment 4-BA LDA-Histeq Experiment 4-BA DLDA-Histeq Experiment 4-BA 0.01 False Accept Rate 0.1 1
Figure 4.12: Comparaison des performances pour les algorithmes ACP, LDA et
mances de l'valuation. On prsente ici les performances de l'algorithme DLDA en fonction du type de base d'apprentissage et du protocole de test. An d'tudier l'inuence de la base d'apprentissage, on considre les protocoles suivants : Exprience 1 (image de rfrence contrle et image de test contrle) et Exprience 4 (image de rfrence contrle et image de test non contrle). Nous construisons plusieurs espaces de rduction partir de sous-bases de la base d'apprentissage BA (220 personnes et 10 images de type contrl et 10 images de type non contrl par personne). Deux ensembles d'espace sont alors construits. Dans le premier ensemble, nous xons le nombre d'images acquises en conditions contrles C = 10 et nous varions le nombre d'images acquises dans les conditions non contrles NC =
85
Exp1
87
Exp4
35
86.5
85.5
25
85
20
84.5
84
15
83.5
83
10
10
10
Exp1
88 28 86 26
Exp4
84 24 taux de verification @0.1% de FAR 82 taux de verification @0.1% de FAR 0 1 2 3 4 5 6 7 8 Nombre dimages non contrl /personne [( C + NC )/personne =10] 9 10
80
22
78
20
76
18
74
16 72 14
70
68
12
10
86
test, la qualit des images constituant la base d'apprentissage et les performances du systme. Cette constatation est trs importante pour la suite de nos tudes et cette dpendance sera tudie plus en dtails dans le dernier chapitre pour le choix de la stratgie de reconnaissance.
4.6 Conclusion
Dans ce chapitre, nous avons tudi trois algorithmes de reconnaissance de visage permettant de raliser des rductions linaire d'espace. Nous avons expos, dans la premire partie, la thorie de ces dirents algorithmes et nous avons expliqu les raisons de l'ecacit de ce type d'approches pour la reconnaissance de visage. Nous nous sommes concentrs sur plusieurs problmes que rencontrent les approches par rduction d'espace telle que le choix des bases de donnes d'apprentissage ou le problme de la slection de la dimensionalit de l'espace de rduction. Nous avons tudi l'impact du choix des bases d'apprentissage sur les performances des algorithmes suivant la nature des images (contrles ou dgrades). Notre choix s'est nalement port sur l'algorithme DLDA qui a dmontr de meilleures performances que l'ACP et la LDA, notamment sur les donnes dgrades.
Chapitre 5
Normalisation de l'illumination
5.1 Introduction
La normalisation des images de visages est une tape trs importante pour les algorithmes de reconnaissance. Gnralement, les algorithmes se basant sur les approches par points caractristiques ont recours des normalisations photomtriques alors que les approches bases sur la rduction d'espace (les approches globales) ont besoin en plus d'une normalisation gomtrique. Dans ce chapitre, nous nous concentrerons sur certaines normalisations photomtriques des images du visage et nous prsenterons et analyserons les rsultats de reconnaissance par l'approche DLDA base sur ces mthodes. Les mthodes tudies dans ce chapitre sont : l'galisation d'histogramme, la correction Gamma, la mthode "multiretinex" et le lissage anisotropique. Nous avons choisi d'utiliser ces mthodes car elles n'ont besoin que d'un seul exemple de l'image pour tre appliques. Les deux bases de donnes FRGC et BANCA ont t utilises an de pouvoir comparer les performances de l'algorithme de reconnaissance DLDA (voir chapitre prcdent), suivant les direntes mthodes de normalisation. la n de ce chapitre, nous prsentons une nouvelle mthode de normalisation de l'illumination qui amliore de faon signicative les rsultats de la reconnaissance dans les conditions dgrades. 87
88
EyeDistance la distance entre les centres des yeux de l'image normalise. Nous
xons galement, lors de cette tape, la position du centre de la bouche dans l'image normalise an d'avoir une bonne normalisation verticale et d'tre sr que les dirents composants du visage (yeux, nez et bouche) soient situs dans les mmes positions pour tous les visages. L'exemple de la gure 5.1 illustre une normalisation gomtrique d'un visage de la base FRGC.
Un accroissement de la dynamique est aussi appliqu l'image normalise. Cet accroissement est bas sur un centre-rduction de l'histogramme de l'image pour aboutir des images avec les mmes plages de rpartition des niveaux de gris ainsi qu'un alignement des moyennes de ces niveaux.
89
14 12
10
20
40
60 80 Distance de normalisation
100
120
140
La courbe de variation 5.2 montre que les rsulats pour les images normalises de petite taille (<20 pixels) ne sont pas trs satisfaisants. Une distance de normalisation de > 25 pixels amliore sensiblement les rsultats, nous passons d'un EER de 24% 15% pour la distance de normalisation de 30 pixels. Les performances de la DLDA se stabilisent partir d'une distance de normalisation suprieure 45 pixels (12% de EER). Le EER atteint une valeur minimum de 9.1% pour une distance de normalisation de 150 pixels. Nous avons choisi une distance de normalisation de 50 pixels entre les centres des yeux. Ce choix nous semble bon pour quilibrer le rapport performance et complexit du systme.
90
91
RVB
TSV
TSL
RVB, (b) cylindre du systme de couleurs TSV, (c) cne du systme de couleurs TSL
Soient min et max, respectivement, les valeurs minimales et maximales des composantes R,V et B (min = minimum(R, V, B) et max = maximum(R, V, B)) et soient x et y les coordonnes d'un pixel de l'image. Les transformations des espaces RVB vers TSV et TSL (Teinte (T), Saturation
92
(S), Valeur (V) et Luminance (L)) sont donnes par les quations suivantes :
non dni, si min = max 60 V B , si max = R et V B max min VB + 360, si max = R et V < B T(x, y) = 60 max min BR 60 + 120, si max = V max min 60 R V + 240, si max = B max min 0, si max = 0 S(x, y) = 1 min , sinon max
Pour le TSV :
V(x, y) = max
Pour le TSL :
L(x, y) =
max + min 2
pour plus de dtails sur ces transformations, voir [25]. Ayant besoin de l'intensit de la couleur, nous allons nous intresser aux composantes "Valeur" et "Luminance", correspondant respectivement aux systmes TSV et TSL. Nous montrerons dans la dernire partie de ce chapitre que pour l'application de reconnaissance des visages, la composante "Valeur" de l'espace TSV donne de meilleurs rsultats que la composante "Luminance" du systme colorimtrique TSL.
(a)
(b)
(c)
(d)
base FRGC (a) image couleur, (b) niveaux de gris par moyenne des 3 composantes RVB, (c) niveaux de gris par TSL, (d) niveaux de gris par TSV.
93
94
p(xi ) =
ni , i 0, .., L n
(5.1)
avec n le nombre total des pixels de l'image et L le nombre des niveaux de gris. La probabilit p reprsente dans ce cas l'histogramme de l'image normalise [0, 1]. Soit c la distribution cumulative de l'histogramme normalis p, elle est donne par :
i
c(i) =
j=0
p(xj )
(5.2)
L'ide est de trouver une transformation y = T(x) qui, pour chaque niveau x de l'image, produira un niveau y de telle faon que la distribution cumulative des dirents niveaux de l'image transforme soit linaire. Cette fonction est dnie c(i) par yi = T(xi ) = L avec L le niveau maximal de gris. n Image originale Image galise
Histogramme original
Histogramme galis
y = x , x 0, .., L
(5.3)
95
avec x le niveau de gris, L le maximum des niveaux de gris, le facteur de correction (en gnral, ce facteur dpend de l'application) et une constante de gain. Pour nos tests, la constante de gain a t xe empiriquement 1 et le facteur de correction a t optimis sur la base de dveloppement de FRGC. Les exemples (1.c) et (2.c) de la gure 5.8 illustrent une correction gamma de l'image du visage. Les deux mthodes MultiRetinex et lissage anisotropique qui seront prsentes la suite, se basent sur la sparation des deux composantes de l'image : la luminance et la rectance. La modlisation de l'image par combinaison de la rectance et de la luminance a t propose par Barrow et Tenenbaum en 1978 [5]. Ceci dit, en raison des dirents facteurs qui peuvent entrer en jeu pour la construction de l'image (l'illumination de l'objet, la gomtrie de la scne acquise, les paramtres de la camra...), une telle modlisation reste trs dicile mettre en uvre. En 1999, Laszlo [90] a propos un modle gnratif de l'image, bas sur la combinaison de l'intgrale de Fredholm et d'une modlisation des paramtres de la camra. Cette modlisation reste assez complexe mettre en uvre 1 . La modlisation par rection diuse de l'image [90] reste la plus utilise :
(5.4)
avec x et y les coordonnes d'un pixel de l'image, I(x, y) le niveau de gris du pixel, L(x, y) l'amplitude de l'illumination en ce point (dpendante de la source),
(5.5)
Cette modlisation de l'image est loin d'tre parfaite, car elle ne prend pas en compte ni les problmes lis la gomtrie de l'objet (prsence de surfaces qui peuvent crer des ombres sur l'objet...), ni les bruits, ni les facteurs externes la formation de l'image. L'avantage de cette modlisation simple est de pouvoir estimer la rectance d'un objet partir d'une approximation de sa luminance.
1. Le document [90] prsente un grand nombre d'autres modlisations de l'image
96
reu par l'oeil (ou par un capteur). Pour un objet lambertien, c'est la projection de LR sur l'axe vertical, avec LR la rexion du vecteur luminance L sur la surface de l'objet pondr par son coecient de reectance .
L'estimation de la rectance est trs importante, car nous avons ici une possibilit de caractriser un objet indpendamment des problmes lis l'illumination.
5.4.3 MultiScale-Retinex
La luminance peut tre considre comme une version lisse de l'image originale. En eectuant une convolution de l'image originale par un ltre gaussien, nous obtenons une estimation de la luminance. Propose par Edwin H. Land en 1937, cette mthode est appele "retinex " ou "Single Scale Retinex ". Cette ide n'a pas vraiment de preuves physique mais elle a le mrite de donner des rsultats assez exceptionnels.
(5.6)
La mthode MSR (MutliScale-Retinex ) est un driv de la mthode "Single Scale Retinex". En 1997, Rahman [94] a propos une estimation de la luminance comme combinaison pondre d'images ltres de l'image originale. Les ltrages se font par des noyaux gaussiens avec direntes variances (dans un sens, c'est une analyse multi-rsolution, d'o le terme "multi-scale").
S
L(x, y) =
j=1
(5.7)
97
s .
Une fois la luminance dtermine, on peut dduire la rectance de l'objet en divisant l'image des niveaux du gris par l'image luminance.
R(x, y) =
I(x, y) L(x, y)
(5.8)
J(L) =
y x
(L I)2 dxdy + c
y x
(L2 + L2 )dxdy x y
(5.9)
Le premier terme de la fonctionnelle J modlise la ressemblance entre I et L et le deuxime terme modlise la contrainte de lissage avec c le coecient de contrle de la contrainte de lissage et Lx et Ly les drivs de L dans les deux directions x et y . Le problme 5.9 correspond un problme de minimisation de fonctionnelle qui se rsout par l'quation d'Euler-Lagrange qui a comme solution :
(L I) + c(Lx + Ly = 0)
(5.10)
En discrtisant cette solution sur le voisinage de chaque pixel [Figure 5.7], on aboutit la solution discrte suivante :
Ii,j = Li,j + c(
avec :
N Li,j S Li,j E Li,j W Li,j
N Li,j
S Li,j
E Li,j
W Li,j )
(5.11)
Gross et Brajovic [26] ont propos de gnraliser la fonctionnelle J de l'quation 5.9 en ajoutant un poids (i, j) au premier terme pour modliser au mieux
98
la perception relle de l'il humain (d'aprs les travaux de Weber en vision et neurobiologie).
J(L) =
y x
(L I)2 dxdy + c
y x
(L2 + L2 )dxdy x y
(5.12)
c I = L + (Lx + Ly )
(5.13)
Ii,j = Li,j + c(
Avec :
1 N
N Li,j
1 S
S Li,j
1 E
E Li,j
1 W
W Li,j )
(5.14)
|Ii,j Ii1,j | min(Ii,j , Ii1,j ) |Ii,j Ii+1,j | S = min(Ii,j , Ii+1,j ) |Ii,j Ii,j+1 | E = min(Ii,j , Ii,j+1 ) |Ii,j Ii,j1 | W = min(Ii,j , Ii,j ) N =
Ce coecient est appel "coecient de weber". Une fois la luminance dtermine, on peut dduire la rectance, comme pour la mthode MultiRetinex, en divisant l'image des niveaux du gris par l'image luminance.
R(x, y) =
I(x, y) L(x, y)
(5.15)
99
Normalisations d'une image sans problmes d'illumination (1.a) (1.b) (1.c) (1.d) (1.e)
Normalisations d'une image avec problmes d'illumination (2.a) (2.b) (2.c) (2.d) (2.e)
100
que la correction de la dynamique ne se fera que sur la luminance de l'image 2 . La mthode que nous proposons est applique en plusieurs tapes : sparation de la luminance et de la rectance. correction de la luminance par symtrie et transformation non linaire. reconstruction de l'image partir de la luminance corrige et de la rectance originale. Les formulations de ces tapes sont dcrites ci-dessous :
Io = Lo Ro Ls = T(Lo ) Is = Ls Ro
avec Io l'image originale, Lo la luminance, Ro la rectance et T la transformation de la luminance. An d'eectuer la sparation de la luminance et de la rectance du visage, nous nous basons sur la mthode du lissage anisotropique [26]. Pour comparer deux images de visage, l'idal serait d'avoir des images acquises dans exactement les mmes conditions d'illumination. En gnral, dans les applications relles, cette condition ne peut tre satisfaite et les conditions d'acquisition, et surtout celle de l'illumination, sont gnralement alatoires. Plusieurs tudes ont propos des mthodes d'alignement de l'illumination entre l'image rfrence et l'image test [7,23,24,97]. L'inconvnient de ces mthodes est la ncessit d'utiliser plusieurs images sous plusieurs conditions d'illumination pour crer un modle de la personne. La mthode que nous proposons a pour but d'aligner l'illumination des images des visages suivant une direction unique. Par ailleurs, l'objet "visage" prsente une symtrie axiale verticale ainsi qu'une forme qui peut tre approxime une forme cylindrique ou sphrique. Cet objet peut donc tre approxim un objet surface lambertienne. En partant d'une direction d'illumination quelconque (Figure 5.9, (a)), notre but est de transformer l'illumination de l'image originale an d'avoir une direction d'illumination de rfrence, comme montr par la gure 5.9, (b). Le vecteur d'illumination L peut tre dcompos en somme de deux vecteurs :
L = ( L a + L a )
(5.19)
2. La rectance est une information intrinsque du visage due la nature de la peau, calcule sur chaque pixel de l'image. Une modication de l'information luminance entranera une modication importante sur le visage.
101
Soit I l'image du visage avec une illumination verticale de rfrence L. D'aprs le modle (Eq. (5.5)), I = L R et (Eq. (5.19))
I = R L2 + La2 a
(5.20)
La composante La peut facilement tre obtenue en considrant l'image symtrique de l'image du visage. En eet, si on considre le visage comme un objet parfaitement symtrique partir de l'information luminance sur la moiti du vi-
102
sage l'image miroir, nous permet d'obtenir l'illumination des pixels de l'autre moiti, comme prsente dans l'exemple de la Figure 5.11. (a) (b)
symtrique en (b)
Nous considrons la n de cette tape, une transformation logarithmique de l'intensit de l'illumination, ce qui revient appliquer une correction gamma sur l'image de l'illumination. Notre nouvelle approche est base, sur l'hypothse que le visage est un objet surfaces parfaitement lambertiennes, sauf que cette caractristique n'est pas vraie et le visage peut comporter des zones et des surfaces non lambertiennes qui induisent donc invitablement des ombres (portes ou propres 3 ). Mme si notre approche ne prend pas en compte les parties non lambertiennes, elle permet de corriger de manire importante l'illumination de l'image du visage, comme le montrent les exemples de la gure 5.12. La gure 5.13 montre deux exemples de toute la chane de correction de l'image du visage.
3. Une ombre porte est l'ombre d'un objet sur une autre surface et l'ombre propre est l'ombre qui apparat sur le mme objet lorsque un volume de celui-ci se soustrait aux rayons incidents.
103
(a)
(b)
Figure 5.12: Exemples de correction de l'illumination par symtrie axiale : (a)
104
105
Table 5.1: Rsultats de la DLDA donns pour les direntes mthodes d'extrac-
tion des niveaux de gris (RVB, TSL, TSV) sur la base FRGC aux deux points de fonctionnement EER et VR@0.1% de FAR (Exprience 1)
RVB 15.2
TSL 13.2
TSV 11.1
Table 5.2: Rsultats de la DLDA donns pour les direntes mthodes d'extrac-
tion des niveaux de gris sur la base BANCA au point de fonctionnement EER (Protocole Mc) Les performances obtenues en utilisant la composante "Valeur" du systme de couleurs TSV prsentent un avantage net par rapport l'approche par moyenne des composantes RVB et un lger avantage par rapport de la composante luminance du systme colorimtrique TSL.
106
La dirence de rsultats entre le tableau 4.3 et les tableaux 5.1 et 5.2 s'explique par l'utilisation d'un prtraitement par galisation d'histogramme pour les images de tests du tableau 4.3. Dans la suite, nous allons considrer la composante "Valeur" du systme de couleurs TSV comme mthode d'extraction des niveaux de gris pour les dirents tests et protocoles.
thodes de pr-traitement. Les rsultats sont prsents au point de fonctionnement VR @0.1% de FAR sur la base FRGC pour les expriences 1 et 4.
Protocole Mc Protocole P
EH 12.1%[1.2] 16.1%[1.5]
thodes de pr-traitement. Les rsultats sont prsents au point de fonctionnement EER sur la base BANCA pour les protocoles Mc et P. Nous pouvons dduire de ces rsultats l'importance du choix du pr-traitement,
lorsque les conditions d'acquisition sont non contrles. En eet une attnuation de la variation de l'illumination entre les images de rfrence et les images de test est ncessaire an d'amliorer les performances de la reconnaissance. Lorsque la variation de l'illumination entre l'image de rfrence et celle de test n'est pas trs grande, comme c'est le cas pour l'exprience 1 de FRGC et le protocole Mc
5.6. CONCLUSION
107
(b)
de BANCA, une simple galisation d'histogramme est susante. Dans le cas de l'exprience 4 de FRGC et du protocole P de BANCA, les algorithmes de prtraitement se basant sur la rectance de l'image ont montr leur robustesse. La robustesse de la mthode de pr-traitement que nous avons propose est dmontre par les performances de l'algorithme DLDA.
5.6 Conclusion
Dans ce chapitre nous avons prsent les mthodes de pr-traitement de l'image du visage, qui sont les plus utilises dans la littrature, savoir l'galisation d'histogramme, la correction gamma, le multiscale-retinex et le lissage anisotropique. Nous avons aussi propos une nouvelle mthode de pr-traitement base sur la sparation de la rectance et de la luminance dans un premier temps, puis sur une correction de la luminance par symtrie et par transformation non linaire et enn, sur la reconstruction de l'image du visage partir de la rectance originale et la luminance corrige. Cette mthode a montr sa robustesse dans les conditions d'illumination diciles. En eet, les tests pour les protocoles diciles de FRGC et de BANCA ont montr que notre approche couple la DLDA apporte une relle amlioration des performances. Finalement, lorsque les images de rfrence et de test sont acquises dans des conditions d'illumination et de qualit contrles, une simple galisation d'histogramme permet d'avoir les meilleurs rsultats et aucun autre pr-traitement
108
n'est alors ncessaire. Lorsqu'une variation de l'illumination est prsente entre l'image de rfrence et l'image de test (l'exprience 4 de FRGC et le protocole P de BANCA), un pr-traitement est ncessaire pour limiter l'inuence de cette variation.
Chapitre 6
110
la reprsentation de Gabor apporte une relle amlioration des performances par rapport une simple utilisation de l'amplitude. La dernire partie de ce chapitre est consacre l'analyse des rsultats des direntes expriences que nous avons eectues sur les bases FRGC et BANCA et nous donnons les rsultats de l'valuation visage 2D de la campagne IV2 .
G(x, y) =
(6.1)
o (x0 , y0 ) est le centre du ltre de Gabor dans le domaine spatial, 0 et 0 les frquences spatiales du ltre, et et les cart-types spatiaux de la gaussienne elliptique le long de x et de y (Figure 6.1). Tous les ltres peuvent tre produits partir d'une ondelette mre par dilatation et par rotation de celle-ci. Chaque ltre a la forme d'une onde plane avec une frquence f , limite par un cart-type correspondant l'enveloppe gaussienne.
111
(a)
(b)
(a)
(b)
Figure 6.2: Parties relles (a) et imaginaires (b) du ltre de Gabor 4 niveaux
de rsolution et selon 4 orientations (les colonnes reprsentent les orientations et les lignes, les rsolutions)
phase, il est important d'utiliser les informations donnes par la partie relle et la partie imaginaire des coecients de Gabor. Deux choix triviaux s'orent nous : l'tude de l'amplitude et l'tude de la phase de Gabor. Dans [62], Oppenheim a dmontr que la phase des analyses multi-rsolutions est plus informative que les amplitudes qui peuvent sourir des problmes d'illumination.
112
Im(IGr,o (x, y))2 + Real(IGr,o (x, y))2 Im(IGr,o (x, y)) ) Real(IGr,o (x, y))
(6.2)
(6.3)
(a)
(b)
Figure 6.3: Rsultats de la convolution d'une image de visage avec une famille
de 16 ltres de Gabor (4 orientations (horizontales) et 4 rsolutions (verticales)). l'ensemble (a) reprsente les amplitudes et (b) les phases de cette convolution
des rponses des ltres de Gabor. La phase est seulement utilise pour aner la dtection des noeuds. Dans [49], l'auteur a publi les meilleurs rsultats connus pour la base de donnes FRGC pour l'exprience 4 avec un taux de VR@0.1% qui s'lve 78%. Dans son tude, l'auteur utilise la fusion entre amplitude et partie relle des rponses du ltrage comme reprsentation du visage, en se basant sur l'approche par rduction d'espace KFA (Kernel Fisher Analysis ) comme algorithme de reconnaissance.
6.3.1 Inuence des caractristiques de la famille des ltres de Gabor sur les performances de la reconnaissance
Nous commencerons par tudier l'inuence des caractristiques des familles des ltres de Gabor sur les performances de la reconnaissance pour en dduire le choix optimal. La reprsentation de l'image considre, ce stade du chapitre, est l'amplitude des rponses des ltres de Gabor. L'image d'entre est une image de visage normalise gomtriquement en xant une distance de 50 pixels entre les yeux, ce qui quivaut une taille d'image de 128x128 (pixels). Nous considrons la composante "Valeur" de l'image couleur dans l'espace HSV comme mesure d'intensit du pixel (voir chapitre 5). Une simple galisation d'histogramme est considre comme tape de pr-traitement. L'algorithme de reconnaissance utilis dans ce chapitre est la DLDA (voir chapitre 4) applique l'amplitude des rponses des ltres de Gabor (gure 6.3(a)). Chacune des 16 images amplitude correspondant une orientation/chelle est transforme en un vecteur par balayage des colonnes. Ces 16 vecteurs sont ensuite concatns dans un unique vecteur qui sera considr comme la nouvelle reprsentation du visage. La mesure de similarit utilise est le cosinus entre les reprsentations projetes sur le sous espace adquat. An de simplier l'optimisation du choix des ltres, nous mettons en place un protocole d'valuation rduit par rapport aux protocoles d'valuation de FRGC. Pour cela, nous allons considrer un ensemble de 220 personnes avec 10 images par personne (5 images seront utilises comme rfrence et 5 images comme test). Pour chaque client, 10 imposteurs, choisis alatoirement parmi les 219 personnes restantes, lui sont associs. Ce protocole, qui sera not par la suite PEG (Protocole
114
La base d'apprentissage de l'espace de rduction par DLDA est constitue des donnes des mmes 220 personnes. Nous choisissons 5 images par personne, n'appartenant pas la base de test pour construire les 200 classes d'apprentissage. Dans cette premire phase, nous choisissons de limiter le nombre des niveaux de rsolution et d'orientation des ltres de Gabor respectivement 6 rsolutions et 8 orientations. Le tableau 6.1 prsente les dirents rsultats de reconnaissance en terme d'EER pour chaque niveau de rsolution considr indpendamment des autres niveaux et en variant le nombre d'orientations des ltres par niveau. Niveau de rsolution 1 2 3 4 5 6 2 orientations 5.94[0.45] 3.46[0.41] 3.95[0.42] 7.62[0.54] 18.56[1.5] 28.6[2.5] 4 orientations 2.65[0.35] 1.56[0.36] 3.05[0.4] 6.47[0.51] 15.86[1.1] 27.8[2.3] 8 orientations 1.41[0.35] 1.31[0.32] 3.09[0.4] 6.68[0.52] 13.16[0.8] 26.6[2.3]
fonction du nombre d'orientations choisi par le ltrage de Gabor sur le protocole PEG Les rsultats de cette premire exprience montrent clairement que les niveaux de rsolution les plus ns (niveau 1 3) analysent mieux les caractristiques discriminantes que les niveaux les plus "grossiers" (niveau 4 6). Une augmentation du nombre des orientations ajoute dans la majorit des cas de la robustesse l'analyse ; pour les niveaux 3 et 4 l'augmentation des orientations reste stable au vue de l'intervalle de conance . Il est donc utile d'exploiter un nombre maximal d'orientations et de plus l'utilisation des niveaux d'analyse les plus ns (infrieurs 3 niveaux) favorise la discrimination entre les visages. L'intrt de l'utilisation du ltrage de Gabor rside dans la complmentarit des niveaux d'analyse (appele aussi "analyse multi-rsolution"). Le tableau 6.2 prsente les rsultats de combinaison des dirents niveaux en choisissant de xer 8 le nombre d'orientation. Si on considre le point EER comme le point de fonctionnement de notre systme, il est clair que les niveaux de rsolution suprieurs 2 n'apportent pas d'amlioration (au vu des rsultats dans l'intervalle de conance). Le comportement du systme change radicalement au point de fonctionnement de VR@0.1% de FAR (une scurit accrue contre l'imposture). Les rsultats montrent que deux
Nombre de niveaux 1 2 3 4 5 6
tives des dirents niveaux de rsolution avec 8 orientations pour le protocole de test PEG
niveaux de rsolution ne sont pas susants mais qu' partir de 4 niveaux de rsolution, les rsultats se stabilisent. Nous choisissons d'tudier notre systme aux points de fonctionnement VR@0.1% de FAR an de pouvoir comparer nos rsultats ceux de la littrature. De plus, la stabilit de ces rsultats partir d'un certain niveau de rsolution s'explique par la capacit de l'algorithme de la DLDA extraire les vecteurs de l'espace de rduction en se basant sur les donnes discriminantes. On remarque, en outre, qu' partir du niveau 4 de rsolution, l'analyse par ltrage de Gabor n'est plus trs discriminante (en d'autres termes, il n'y a plus d'information supplmentaire qui permet de sparer les classes). Pour conrmer cette hypothse, nous avons mesur la similarit des axes principaux produits par la DLDA partir du 4me niveau de rsolution. La gure 6.4 montre les mesures de similarit (cosinus de l'angle) des axes construits par les 4, 5 et 6 premiers niveaux. Le tableau 6.3 donne les moyennes et les cart-types entre les niveaux 4-5 et 4-6. Niveaux 4-5 4-6 Moyenne 0.95 0.96 cart-type 0.01 0.01
Table 6.3: Moyenne et cart-types des similarits entre les axes principaux de la
Les rsultats de la gure 6.4 (rsums dans le tableau 6.3) qu' partir d'un certain niveau de rsolution (niveau 4), l'information rajoute n'est plus discriminante. Au vu des rsultats, nous avons x 4 le niveau maximal de rsolution et 8 le nombre d'orientations. Ces caractristiques seront utilises par la suite.
116
mesure de similarites
0.95
0.9
0.85
20
40
60
80
140
160
180
200
220
Figure 6.4: Mesure de similarits entre les axes principaux de la DLDA construits
arctan( Im(IGs,o (x, y)) ) si M(IG )(x, y) > Th s,o Real(IGs,o (x, y)) P(IGs,o (x, y)) = 0 si
(6.4)
o (x, y) sont les coordonnes du point analys et Th est le seuil de slection de la phase.
Les rsultats montrent clairement que l'utilisation de la partie relle ou de la partie imaginaire est beaucoup moins discriminante si les deux parties sont
118
(a)
5.5
4.5
4 EER
3.5
2.5
1.5 3 10
10
10
(b)
90
85 VR @0.1% de FAR 80 75 3 10
10
10
Figure 6.5: volution des taux de EER (a) et de VR@0.1% de FAR (b) en
Verification Rate
0.95
0.9 DLDA (Amplitude 4-8) DLDA (Phase 4-8) DLDA (Imaginaire 4-8) DLDA (Reelle 4-8) 0.01 False Accept Rate 0.1 1
0.85 0.001
Figure 6.6: Courbes ROC des direntes reprsentations de Gabor pour le pro-
utilises sparment. La combinaison de la partie relle et de la partie imaginaire (en amplitude ou en phase) amliore les performances de faon signicative.
120
Reprsentation de Gabor Amplitude Amplitude + Phase Amplitude + Partie Relle Amplitude + Partie Imaginaire reprsentations de Gabor
Table 6.5: Rsultats en EER et en VR@0.1% de FAR des direntes fusions des
d'autres mthodes de classication est ncessaire pour conrmer l'apport rel de la fusion amplitude-phase.
6.3.4 Validation de la fusion de l'amplitude et de la phase corrige sur des algorithmes de rduction d'espace base de noyau
Les algorithmes de reconnaissance des visages par projection dans les espaces rduits ont connu une volution signicative avec l'application des noyaux non linaires partir de 2000 [56, 57, 81]. Ces mthodes ont dmontr, dans la littrature, leur supriorit par rapport aux approches linaires classiques. Nous pouvons citer comme mthode la GDA (General Discriminant Analysis ) [56] et l'analyse non linaire discriminante de Fisher (KFDA ou KFA, Kernel Fisher Discriminant
Analysis ) [57]. L'ide principale qui soutend ces approches non linaires est que
les reprsentations des visages sont non linairement sparables. Une projection par noyaux non linaires des visages dans un espace de plus grande dimension, devrait donc permettre de mieux les sparer. L'ecacit de cette technique a t conrme par l'amlioration des rsultats dans les tudes dj cits ainsi que dans [49]. Dans cette dernire publication Liu en 2006 a utilis la KFA applique aux reprsentations constitues par l'amplitude et la partie relle des rponses de Gabor.
NB :La complexit algorithmique et les longs dlais d'excution de ces algorithmes (dvelopps l'INT et non optimiss), ne nous permettent pas d'exploiter de faon ecace ces approches sur des grandes base de donnes comme FRGC. Toute fois, nous prsentons, dans la suite, les rsultats de performance de la GDA, de la KFA ainsi que les deux approches globales classiques, la LDA et la DLDA, appliques aux paramtres rsultants de la fusion de l'amplitude et de la phase corrige pour le protocole PEG. Les courbes ROC de la gure 6.7 conrment la supriorit des approches se basant sur la rduction d'espace par noyaux non linaires par rapport aux
121
Verification Rate
0.95
0.9 0.001
DLDA(Amplitude,phase) GDA(Amplitude,phase) KFA(Amplitude,phase) LDA(Amplitude) LDA(Amplitude,phase) 0.01 False Accept Rate 0.1 1
Figure 6.7: Courbes ROC des direntes mthodes pour le protocole PEG
approches linaires. Nous pouvons constater aussi que l'algorithme de la DLDA, appliqu la fusion de l'amplitude et de la phase, rduit de faon signicative l'cart de performance avec les approches non linaires. L'adoption de cette approche (DLDA applique la fusion de l'amplitude et de la phase) nous semble un bon compromis entre performance et complexit algorithmique.
6.4 Rsultats sur la base FRGC et positionnement de notre systme par rapport la littrature
La base FRGC est la base publique la plus importante en terme de donnes disponibles. Nous avons appliqu notre approche (fusion amplitude et phase de Gabor) sur les deux expriences 1 et 4 an de pouvoir comparer correctement nos rsultats par rapport ceux de la littrature. Pour ces expriences, nous avons choisi d'utiliser la normalisation photomtrique par lissage anisotropique (voir chapitre 5 ou [26]) car la plupart des algo-
122
rithmes de la littrature prsents utilisent cette mme normalisation. Algorithme Exprience Rsultats de la fusion (amplitude et phase) LDA Exp1 Exp4 DLDA Exp1 Exp4 GDA Exp1 Exp4 KFA Exp1 Exp4 Rsultats de la littrature sur la base FRGC KFA [49] Exp1 Exp4 HEGM (Cognitec) Exp1 Exp4 Fusion hirarchique de classieurs [88] Exp1 Exp4 VR@0.1% de FAR [IC] 87.62%[0.14] 50.22%[0.31] 92.62%[0.1] 60.25% [0.31] 94.9% [0.08] 72.2% [0.21] 95.3% [0.08] 74.2% [0.20] 78.2% 60.2% 86%
VR@0.1% de FAR pour les deux expriences 1 et 4 de la base FRGC ainsi que quelques rsultats de la littrature Les rsultats du tableau 6.6 conrment les rsultats obtenus dans la section prcdente. Les approches base de noyaux apportent une relle amlioration des performances de reconnaissance des visages dans les deux conditions de tests. Exemple pour un gain relatif de performance de 38% entre la LDA et la KFA pour l'exprience 1 et de 35% pour l'exprience 4. Nous constatons aussi une dirence de rsultats entre notre approche par
KFA applique la fusion de l'amplitude et de la phase et les rsultats de l'approche de Liu [49] qui se base sur l'amplitude et la partie relle (74.2% de VR@0.1% de FAR contre 78.2%). Ceci pourrait s'expliquer par une dirence d'implmentation de l'algorithme ou dans les paramtres de la normalisation photomtrique utilise.
123
Error Rate ) de la DLDA applique la fusion amplitude-phase de rponses de la famille de 32 ltres de Gabor sur la base BANCA (protocole P)
D'aprs le tableau 6.7, les deux seuls systmes qui surpassent notre approche sont les systmes de l'universit de Nottingham et celui de l'universit de Tsinghua.
Les rsultats de cette premire valuation indpendante (Tableau 6.9) conrment les rsultats que nous avons obtenus tout au long de ce chapitre, savoir que l'utilisation des reprsentations de Gabor apporte un relle amlioration des rsultats
124
Participants Participant-1(PCA) BioSecure(PCA) Participant-2(Mod PCA) Participant-3(LDA) Rsultats de notre approche (LDA Amplitude de Gabor) (LDA Amplitude et Phase de Gabor) (DLDA Amplitude et Phase de Gabor) 2D) participant la premire valuation
3,7
4,4 4,2 3,2
12,0
10,1
15,1
12,5
10,2
15,9
8,3
6,4
Table 6.9: Taux de EER pour les dirents algorithmes sur la base IV2 (visage
et ceci, pour les diverses conditions de tests. La fusion de l'amplitude et de la phase corrige de Gabor amliore sensiblement les rsultats par rapport ceux obtenus par l'utilisation de l'amplitude seule. A noter ici que pour l'valuation nous avons particip avec l'algorithme LDA. Les rsultats sur la DLDA applique aux reprsentations de Gabor ont t obtenus aprs l'valuation ocielle.
6.6 Conclusion
Dans ce chapitre, nous avons propos d'utiliser l'analyse espace-frquence du visage l'aide des ondelettes de Gabor. Cette information est extraite de l'image des pixels par application d'une famille de ltres direntes rsolutions et diverses orientations. Dans la majorit des tudes de la littrature, seule l'amplitude de la rponse des ltres de Gabor a t employe alors que la phase est omise. Dans ce chapitre, nous avons aussi expliqu les raisons de la limitation de l'utilisation de cette phase et nous avons fourni une solution simple pour pallier cette limitation. Nous nous sommes galement intresss aux paramtres des dirents ltres de Gabor comme les orientations, les rsolutions et les frquences. Nous avons observ que l'algorithme de la DLDA est capable d'extraire l'information discriminante de cette nouvelle reprsentation mme si une redondance de l'analyse spatio-frquentielle apparat partir d'une certaine rsolution d'analyse, ce qui permet de limiter naturellement le nombre de niveaux utiliser lors du traitement. Nous avons galement propos d'utiliser une nouvelle reprsentation du visage base sur la fusion de l'amplitude et de la phase corrige. Les rsultats des di-
6.6. CONCLUSION
125
rentes valuations sur les deux bases de donnes FRGC et BANCA ont conrm la robustesse de cette fusion. Dans la premire campagne d'valuation de la base IV2 , cette mthode a montr sa supriorit par rapport plusieurs algorithmes classiques comme la LDA, la PCA et la PCA modulaire. L'amlioration est surtout remarquable lorsque les conditions des tests sont dgrades. Les taux de performance de l'approche que nous avons adopte sont bien meilleurs lorsque les images de rfrence et de test sont de bonne qualit, que lorsqu'elles sont acquises dans des conditions dgrades. Nous tudierons dans le chapitre suivant de nouvelles stratgies de reconnaissance adaptes la qualit des images, tout en utilisant la mme approche que celle tudie dans ce chapitre.
Chapitre 7
128
sur 2 niveaux. Le premier niveau concerne la symtrie du visage et le deuxime concerne la symtrie de l'illumination en se basant sur les histogrammes LBP (Local Binary Pattern ). Son tude montre une bonne classication des direntes situations par cette approche. L'tude publie par Krzysztof [43] propose une approche pour estimer la conance du score de vrication en se basant sur la qualit de l'chantillon. Pour cela, il propose une mesure de qualit standard pour la nettet de l'image et une nouvelle mesure de qualit base sur la corrlation entre une image du visage test et celle du visage moyen calcul partir d'une base d'apprentissage, dont la qualit est considre comme rfrence. Dans [72], l'auteur prsente une approche pour intgrer les mesures de qualit du visage dans la fusion des scores de plusieurs systmes de reconnaissance par le visage. Il introduit pour cela une composante appele "tat de qualit" qui est un groupement des chantillons par classe de qualit. Il utilise cette information pour la normalisation des scores avant leur fusion. Cette approche semble amliorer les rsultats par rapport aux fusions classiques utilises. Mme si les tudes acadmiques sur les mesures de qualit, spciques aux images du visage, ne sont pas trs nombreuses, la mesure de la qualit des chantillons biomtriques est considre, en gnral, comme une composante part entire des systmes biomtriques. Des normes internationales ont vu le jour an de dnir certains critres de qualit. Pour le moment, ces normes comme les ISO/IEC WD 19794-[4,5,6,11,13 et 14] qui concernent respectivement les empreintes, le visage, l'iris, la signature, la voix et l'ADN, proposent une normalisation des formats d'changes de donnes et donnent des recommandations trs strictes pour l'acquisition de chaque type d'chantillon biomtrique. Pour la norme ISO/IEC WD 19794-5 spcique aux visages, les recommandations concernent les rapports gomtriques du visage dans l'image, la distance entre les yeux, la pose, l'utilisation d'un arrire plan uniforme, la mise au point de la camra ainsi que la calibration des couleurs. Dans cette norme, une tude sur l'inuence de la pose (rotation planaire ou spatiale) ainsi que l'inuence de la distance minimale entre les deux yeux sont prsentes et cette norme recommande une rotation planaire maximale de 5, une rotation spatiale maximale de 8 ainsi qu'une distance minimale de 90 pixels entre les centres des deux yeux. Pour la suite du chapitre, on notera "image passeport", une image qui possde ces caractristiques. De nouvelles normes ISO spciques la quantication de la qualit des chan-
129
tillons biomtriques sont en cours de dveloppement. Dans les rapports techniques pour l'laboration de la norme ISO/IEC CD 29794-5 spcique aux images de visages, les auteurs recommandent la quantication de direntes caractristiques de l'image du visage : la mesure de la symtrie de l'illumination du visage : cette symtrie pourra tre calcule sur les niveaux des pixels des images, ou sur les images aprs ltrage par des ltres de Gabor ou par LBP (Local Binary Pattern ) ou aussi des ltres ordinaux. la mesure de la symtrie de la pose du visage. la luminosit de l'image : en tudiant direntes statistiques de l'histogramme (moyenne, variance, asymtrie, coecient d'aplatissement (coefcient Kurtosis)..). le contraste de l'image : les auteurs proposent d'utiliser le coecient de Weber, le coecient de Mickelson ou de travailler sur l'nergie de l'image par transformation de Fourier. la nettet de l'image par calcul du gradient. Les auteurs du rapport prconisent la quantication de certaines caractristiques du visage relatives l'apparence comme l'expression, le maquillage, le port des lunettes, sans proposer des recommandations pour cette quantication. La stratgie pour la reconnaissance du visage dans la littrature est base sur le dveloppement d'algorithmes qui sont supposs tre robustes face aux sources de bruit et de dgradation. Nous proposons, dans cette tude, une stratgie qui permet d'adapter les systmes de reconnaissance en fonction de la qualit des images rencontres. De cette faon, nous esprons un gain en performance, videmment aux prix d'une complexit un peu plus importante du systme complet. Ce chapitre sera organis de la faon suivante : nous prsenterons direntes mesures de qualit pour caractriser certaines dgradations possibles de l'image du visage (comme le ou et l'illumination). Ces mesures seront ensuite fusionnes pour aboutir une mesure de qualit unique du visage. Les trois mesures sont le dsquilibre de l'illumination dans une image de visage, la caractrisation de l'histogramme de la luminance d'un visage par SVM et la mesure de la nettet par approche frquentielle locale pondre. Ces nouvelles mthodes de quantication de la qualit, que nous proposons, seront compares des mthodes classiques dj utilises. Le critre de la pose n'est pas pris en compte dans cette tude car
130
nous nous intressons essentiellement l'tude de la reconnaissance de l'image de visage de face. Pour la variation d'expression, nous montrons que dans le cas d'une lgre expression, les performances de la reconnaissance restent stables. Dans la deuxime partie de ce chapitre, nous montrons l'inuence de la qualit de l'image du visage sur les performances en reconnaissance et nous prsentons une stratgie de reconnaissance base sur la qualit. Dans cette partie, nous analyserons l'amlioration des rsultats grce cette approche. Dans la dernire partie de ce chapitre, nous prsentons les rsultats de reconnaissance du visage dans le cas o l'image de rfrence et l'image de test sont de type dgrad et nous analyserons l'apport de l'utilisation des direntes mesures de qualit dans ce cas dicile. Le cas d'une valuation avec plusieurs images de rfrence et de test par personne est aussi tudi dans cette dernire partie. Tout au long du chapitre, nous validerons nos dirents rsultats sur la partie valuation de la base FRGCv2 et nous tudierons aussi la pertinence de nos mesures ainsi que notre stratgie de reconnaissance sur la base BANCA.
131
visage normalise gomtriquement avec centrage de l'histogramme. Un visage avec une illumination homogne aura une distribution uniforme des niveaux d'intensit des pixels de la peau. Les mesures statistiques des niveaux d'intensit par zone donnent une indication sur les distributions de l'illumination sur la totalit du visage. Les mesures statistiques tudies sont la moyenne des niveaux de gris et la mdiane. Soit Zi les zones du visage [Figure 7.1]. La mesure de qualit Q1 est dnie par Q1 = std(i ) avec i , la mesure statistique sur les intensits de la zone Zi . Par la suite, on notera Q1a la mesure de qualit se basant sur les distributions des moyennes et Q1b la mesure de qualit se basant sur les distributions des mdianes.
Figure 7.1: Principe de calcul d'une mesure de qualit globale (Q1a ou Q1b )
La mesure de la moyenne des niveaux locaux, bien qu'elle semble la plus intuitive, pose un certain nombre de problmes, savoir que les zones Zi slectionnes ne contiennent pas que de l'information sur la texture du visage. Elles contiennent entre autres des parties du visage, comme la bouche, les yeux, les sourcils, qui peuvent induire une erreur sur la caractrisation du niveau de l'illumination de la peau.
132
L'aspect 3D du visage implique aussi une introduction de bruit, comme les ombres projetes des parties qui constituent le visage. Les rsultats de la gure 7.2 montrent les distributions de la mesure de qualit Q1a des deux bases d'images [BQC] et [BQN].
150 Images controlees sans expression Images controlees avec expression Images non controlees sans expression Images non controlees avec expression 100 Nombre dimages 50 0
0.4
0.9
Figure 7.2: Distributions de l'illumination par mesure des moyennes locales, Q1a ,
La deuxime mesure statistique considre est la mdiane locale. Cette mesure est plus proche d'une quantication relle de la texture de la peau si on considre que dans chaque zone Zi , la peau couvre plus de 50% de la zone. L'utilisation de la mdiane donne une indication plus prcise sur le niveau de l'illumination de la zone. Les rsultats de la gure 7.3 montrent les distributions de la mesure de qualit par le dsquilibre des mdianes locales, Q1b , pour les deux bases d'images [BQC] et [BQN]. Le point faible de cette approche est qu'elle quantie les distributions des niveaux d'intensit, mais cette quantication peut, dans certains cas, ne pas tre trs ecace. Une image sature et une image compltement sombre en sont des exemples. Cette image aura une distribution homogne des illuminations locales et dans ce cas, une erreur de classication peut se produire, puisqu'une telle image ne peut tre considre comme tant de bonne qualit. Dans la suite nous choisissons la mesure de la variance des mdianes locales, comme mesure du dsquilibre de l'illumination.
133
140 Images controlees sans expression Images controlees avec expression Images non controlees sans expression Images non controlees avec expression
120
80
60
40
20
0 0.1
0.2
0.3 0.4 0.5 0.6 0.7 0.8 0.9 Niveau du desequilibre de lillumination locale
1.1
Figure 7.3: Distributions de l'illumination par mesure des mdianes locales, Q1b ,
134
l'image, savoir qu'une image d'une session contrle est considre comme de bonne qualit et une image acquise dans une session non contrle est considre comme dgrade. La mesure de qualit considre est la distance entre l'chantillon l'hyperplan sparateur calcul par SVM. Cette mesure sera note Q2 dans la suite du chapitre.
Figure 7.4: Exemples des histogrammes des images de type contrl (A) et de
Apprentissage du SVM
Des deux bases [BQC] et [BQN], nous choisissons 1000 images de type contrl et 1000 images de type non contrl pour calculer l'hyperplan sparateur. Le reste des images constituant [BQC] et [BQN], sera utilis pour optimiser la classication (cette base sera appele "base de dveloppement"). La luminance de chaque image est extraite, ensuite l'histogramme de cette luminance est calcul. Nous obtenons un vecteur de 255 composantes qui caractrise la distribution de l'illumination sur l'image. Les noyaux slectionns pour cette tude sont : noyau linaire : k(x, x ) = x.x
135
noyau polynomial : k(x, x ) = (x.x )d noyau radial (RBF) : k(x, x ) = exp( x x )2 Pour les noyaux polynomial et radial, une optimisation des paramtres d et est faite sur cette base de dveloppement. La gure 7.5 reprsente la variation du taux de bonne classication en fonction du rang d du polynme. La gure 7.6 reprsente la variation du taux de bonne classication en fonction du coecient
du noyau radial.
100
95
90
85
50
100 d
150
200
250
95
90
85
80
75
0.5
1.5 Gamma
2.5
136
Le tableau 7.1 prsente les meilleurs rsultats de classication suivant le type de noyau choisi par rapport l'hyperplan. On peut constater que les taux de classication des images non contrles atteignent les 100% de bonne classication. Ce taux s'explique par le fait que le SVM cherche sparer des histogrammes avec des allures quelconques (comme dans le cas des images non contrles) par rapport des histogrammes avec une forme spcique (le cas des images contrles). Noyau TBC([BQC]) TBC([BQN]) TBC(Base totale) les deux bases [BQC] et [BQN] Linaire 82,1% 100% 91% RBF(1.0) 82% 100% 90.5% Polynomial(120) 95,5% 100% 97,2%
Table 7.1: Taux de Bonne Classication (TBC) pour chaque type de noyau pour
Pour cette classication, l'tiquetage des deux classes est fait suivant les conditions d'acquisition de l'image. Dans certains cas, une image annote non contrle peut donc avoir une forme d'histogramme qui correspond un histogramme d'image contrle et vice-versa, dans certains cas, les images acquises dans des conditions contrles peuvent prsenter un dsquilibre d'illumination, produisant ainsi une erreur de classication qui n'a pas lieu d'tre.
Q3a =
(7.1)
137
o I est l'image analyse, grad est l'image du gradient obtenue, par exemple, en appliquant le ltre de Sobel et G est un ltre Gaussien.
900 800 700 600 Nombre dimages 500 400 300 200 100 0 Images controlees sans expression Images controlees avec expression Images non controlees sans expression Images non controlees avec expression
0.02
0.04
0.14
0.16
0.18
Figure 7.7: Distributions des mesures de nettet Q3a de [BQC] et de [BQN] par
mthode du gradient
La gure 7.7 montre clairement une distinction entre les 2 classes (images acquises dans des conditions de mise au point contrle (arrire-plan uniforme et distance du visage assez proche de l'objectif de la camra) et des images acquises dans des conditions diverses (arrire-plan textur et distance grande entre le visage et la camra). Ces deux distributions montrent que la mesure du ou est un critre ne pas ngliger pour une classication automatique d'une image de visage. le domaine de Fourier est intensivement utilis comme moyen d'estimer le ou d'une image. En particulier, l'amplitude de la transforme de Fourier est un bon indicateur du niveau de ou dans l'image. En eet, une grande partie de l'information d'une image oue est localise dans les basses frquences et inversement, pour une image nette. Ceci se traduit dans le domaine de Fourier par un rapport lev pour les images oues entre les amplitudes des basses frquences et la somme totale des amplitudes et inversement, par un rapport faible pour les images nettes. Dans notre tude, nous allons tudier la mesure de qualit Q3b qui est calcule comme suit :
R =0 F(, ) , F(, )
Q3b =
(7.2)
138
o F(, ) est la transforme de Fourier de l'image en coordonnes polaires et R est le rayon du disque des basses frquences considres. Plus la mesure du critre Q3b est faible, plus l'image est nette car l'information est alors bien tale entre les hautes et les basses frquences. A l'inverse, si le critre est lev (proche de 1), l'image est oue car l'information est en grande partie localise dans les basses frquences. Nous avons considr une variante de cette mesure qui consiste mesurer la moyenne de ce critre de nettet sur des imagettes du visage. La mesure de nettet Q3c s'crit sous la forme :
N
Q3c =
i=1
wi
R =0 FZi (, ) , FZi (, )
(7.3)
Le poids wi , de la zone Zi, a t optimis sur la base de dveloppement an de maximiser la sparation entre les deux classes pr-tiquetes. La gure 7.8 montre le choix du dcoupage d'une image de visage et la mthodologie de la mesure du critre.
Les gures 7.9 et 7.10 montrent une distinction dans les deux distributions des 2 bases selon que l'on utilise Q3b ou Q3c . L'approche frquentielle locale pondre montre un net avantage sur l'approche frquentielle globale classique. Ceci s'explique par la nature de l'image du visage. Le visage prsente, en eet, une grande variation en terme de
139
600 Images controlees sans expression Images controlees avec expression Images non controlees sans expression Images non controlees avec expression
500
300
200
100
0 0.2
0.25
0.3 0.35 0.4 0.45 0.5 0.55 Mesure de nettete par approche frequentielle globale
0.6
0.65
Figure 7.9: Distributions des mesures de nettet Q3b de [BQC] et de [BQN] par l'approche frquentielle globale
140 Images controlees sans expression Images controlees avec expression Images non controlees sans expression Images non controlees avec expression
120
80
60
40
20
0 6.8
7 7.2 7.4 7.6 7.8 8 8.2 Mesure de nettete par approche frequentielle locale ponderee
8.4
Figure 7.10: Distributions des mesures de nettet Q3c de [BQC] et de [BQN] par
140
texture suivant direntes zones. Par exemple, certaines zones du visage comme le front ou les joues ont une texture lisse qui peut altrer la mesure de nettet par l'approche frquentielle globale. Mesure de nettet TEC AG% 10,1% AFG 22,5% AFLP 7%
sure (AG : Approche Gradient, AFG : Approche Frquentielle Globale, AFLP : Approche Frquentielle Locale Pondre)
Pour le reste de l'tude, nous considrons la mesure de qualit base sur l'approche frquentielle locale pondre car elle prsente les meilleures performances de classication.
141
Pour chaque chantillon x de la base, nous notons le vecteur Qx = {Q1, Q2, Q3}, avec Q1, Q2 et Q3 : les trois mesures de qualit, tudies dans la section prcdente. Sur cette base d'apprentissage, nous avons eectu plusieurs tests an de dterminer le nombre optimal des classes de qualit (centrodes). La mthode se base sur la variation de l'inertie intra-classes en fonction du nombre de classe.
wi
Ni j=1
d(xj , Gi )
(7.4)
Iw =
i=1
avec : K le nombre de classes wi le poids du groupe Gi , wi = Ni /N o N est le total des chantillons de l'ensemble et Ni le cardinal du groupe Gi d(xj , gi ) la distance euclidienne de l'chantillon xj au centre de gravit du groupe Gi . An de dterminer le nombre minimal de groupes susceptibles d'exister dans un ensemble, on peut tester plusieurs valeurs de K en excutant plusieurs fois l'algorithme avec des K croissants. Pour chaque valeur de K, on calcule l'inertie intra-classes. Cette valeur dcrot quand K augmente. En faisant un graphique reprsentant l'inertie intra-classes en fonction de K, on voit la bonne valeur de
q=
(7.5)
avec d(Qx , Qgj ) la mesure de distance entre le vecteur de qualit de l'chantillon x et le vecteur de qualit du centre de gravit de la classe j . Cette mesure prsente
142
1200 1190 1180 1170 Inertie intraclasse 1160 1150 1140 1130 1120 1110 1100 2 3 4 nombre de centroids 5 6
Figure 7.11: volution de l'inertie intra-classes en fonction du nombre des centrodes pour la base d'apprentissage (1000 images de [BQC] + 1000 images de [BQN])
q > 0 x g1 q < 0 x g2
Par la suite, on pose g1 la classe des chantillons de bonne qualit et g2 la classe des images dgrades. Plus q est grand, plus l'chantillon est considr de bonne qualit et inversement, plus q est petit, plus l'chantillon est considr de qualit dgrade. La gure 7.12 nous montre les distributions de la mesure q pour les images de la base d'apprentissage [[BQC] + [BQN]]. Nous pouvons noter que les 2 bases [BQC] et [BQN] sont bien spares mais qu'il existe tout de mme un recouvrement.
Remarques :
la mesure q n'est valable que pour les problmes deux classes. nous avons eectu une autre tude de classication par fusion des mesures de qualit Q1, Q2 et Q3 en se basant sur les SVM, mais cette tude a montr des limites de gnralisation sur des bases de validation en particulier sur la base BANCA, dues un manque d'chantillon d'apprentissage.
143
400 350 300 nombre dimages 250 200 150 100 50 0 3 BQC BQN
0 mesure de qualite q
(A)
(B)
(C)
Figure 7.13: Exemples d'images de type contrl (A), de type dgrad (B) et de
Nous divisons la base BANCA en deux sous-bases d'image de visage. La premire sous-base est compose des sessions [s01s04] et sera considre comme l'ensemble de la classe des images de bonne qualit (Classe 1). La deuxime sous-
144
base sera compose des images des sessions [s05s12] et sera considre comme l'ensemble de la classe des images de qualit dgrade (Classe 2). Un r-apprentissage des centrodes est ncessaire dans le cas de base de BANCA. Ce r-apprentissage est ncessaire d la dirence de qualit des capteurs. Pour cela, nous avons considr la base de dveloppement de la base BANCA, qui contient des chantillons de 30 personnes ne participant pas l'valuation. Ces chantillons proviennent des sessions s01,s05 et s09. Pour la base FRGCv2, la mme camra a t utilise pour les direntes sessions d'acquisition, alors que pour BANCA, le mme type de camra a t utilis pour les sessions [s01-s04 et s09-s12] et une webcam a t utilise pour l'acquisition des sessions [s05-s08]. Le tableau 7.3 donne les rsultats de bonne classication des direntes classes avec notre mesure de qualit Q dnie prcdemment. Sessions TCC Classe 1 [s01s04] 85% Classe 2 [s05s12] 99.2%
Table 7.3: Taux de Classication Correcte (TCC) pour les deux classes slec-
Les rsultats de classication de la base BANCA conrment les rsultats obtenus dans la premire partie, savoir qu'il est plus facile de dtecter des images de type dgrad que des images de type contrl avec nos critres de qualit.
145
cette dirence de performance. Nous proposons galement des stratgies de reconnaissance bases sur les mesures de qualit des images du visage et nous validons cette approche sur la base BANCA.
146
partie contient 16028 images de type contrl (en illumination et en nettet), dont la moiti sont avec une expression neutre, et 8014 images acquises en conditions non contrles dont, aussi, la moiti sont avec une expression neutre. Pour cette tude, les 220 personnes de la base de dveloppement seront utilises pour crer 2 types d'espaces de rduction. P0 : 10 images par personne, de type contrl. P1 : 20 images par personne, dont 10 sont de type contrl et 10 de type non contrl. Pour la slection de la base de rfrence (nomm [B0] issue de la base de validation), la mesure de qualit dnie dans le paragraphe 7.1.4 sera exploite. Parmi les 8014 images contrles et sans expression, 6414 images appartenant 441 personnes sont slectionnes, suivant des mesures de qualit trs strictes. Les 4 meilleures images (du point de vue mesure de qualit) de chaque personne sont ensuite utilises comme images de rfrence. La base B0 est alors constitue de 884 images de rfrence de 441 personnes. An d'eectuer le protocole Test1, 4 autres images, type contrl, des 441 personnes sont slectionnes alatoirement partir des 5530 images de type passeport restantes. Cette base est nomme [BT1] et elle est constitue aussi de 884 images. Pour le protocole Test2, la base de test [BT2] est constitue des 441 personnes avec 4 images par personne, les images sont de type non contrl et sans expression. Elles sont choisies alatoirement partir des 4007 images non contrles et sans expression. Pour le protocole Test3, la base de test [BT3] est constitue des 441 personnes avec 4 images par personne. Les images sont slectionnes partir des 4007 images contrles et avec expressions. Pour le protocole Test4, la base de test [BT4] est constitue des 441 personnes avec 4 images par personne. Les images sont slectionnes partir des 4007 images non contrles et avec expressions. Le graphe de la gure 7.14 rsume les dirents dcoupages et la constitution des bases de test partir de la base originale de FRGCv2.
Remarque : Il faut savoir que les 222 personnes de la base de dveloppement sont incluses dans la base de validation mais que les donnes de la base de validation et ceux de la base de dveloppement sont compltement direntes.
147
Test1
Les images de [B0] et de [BT1] sont des images de type contrl (illumination et ou), une simple galisation d'histogramme sera applique aux images en entre, avant le ltrage de Gabor. Dans une premire exprience, la rduction de dimension par DLDA sera applique en utilisant l'espace P0 (l'espace de rduction est appris sur des images contrles seulement). Dans une deuxime exprience, l'espace P1 (appris sur des
148
images contrles + des images non contrles) sera utilis. La gure 7.15 montre clairement la dirence de performances entre les 2 expriences. Le fait d'utiliser un espace de rduction, appris sur des donnes propres et des donnes bruites, dgrade de faon signicative les performances. Le taux de vrication 0.1% de FAR passe de 96,2% de reconnaissance en utilisant l'espace P0 93,1% avec l'espace P1 avec des intervalles de conance de 0,5% (voir chapitre 3) pour plus de dtails sur la mesure de conance. Le rsultat de
1
Verification Rate
0.95
0.9 0.001
96,2% de VR@0.1% de FAR de ce protocole donne une ide sur le maximum de performance qu'on peut atteindre avec l'algorithme DLDA dans les meilleures conditions : un espace de rduction appris sur des donnes propres, des donnes de tests de qualit optimale et des visages avec des expressions neutres.
Test2
Ce protocole a pour but l'tude des performances de l'algorithme de reconnaissance DLDA, dans des conditions dgrades d'acquisition de l'image de test. Les deux types d'expriences, du protocole Test1, sont repris an d'tudier aussi l'inuence des espaces de rduction. L'inuence de l'espace de rduction est d'autant plus importante dans ce protocole, tant donn la nature des images de test. Lorsque l'espace de rduction est appris sur des images de type contrl, il ne prend pas en compte les dif-
149
1 0.95 0.9 0.85 0.8 0.75 Verification Rate 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.001 0.01 False Accept Rate DLDA(Amplitude,Phase)-P0 DLDA(Amplitude,Phase)-P1 0.1 1
frentes variations qui peuvent subvenir sur une image de type dgrad, et ceci mme en utilisant un pr-traitement assez complexe pour rduire l'inuence de l'illumination. Dans ce type de condition de test, l'apprentissage des dgradations est indispensable. Le taux de vrication 0.1% de FAR passe de 59,6% [1.5%] avec P1 27,4% [2.5%] avec P0.
Test3
Le Test3 est consacr l'tude de l'inuence des variations d'expression dans la phase de test sur les performances du mme algorithme. Il faut noter que dans la base d'apprentissage, une partie des visages comporte des expressions, en l'occurrence des lgers sourires. L'espace de rduction considr est P0. La base BT3 utilise est une base d'images contrles en illumination et en nettet. Le taux de vrication 0.1% de FAR passe de 96,2% de reconnaissance (Test1) 95,8% pour le Test3 avec des intervalles de conance de 0,5%. Les courbes ROC de la gure 7.17 montrent que l'inuence d'une lgre expression n'est pas vraiment trs signicative et que les performances de l'algorithme restent stables.
150
Verification Rate
0.95 0.001
Test4
Le Test4 est quivalent au Test3, appliqu aux conditions dgrades d'acquisition. L'espace de rduction est construit partir de P1, et le pr-traitement reste le lissage anisotropique.
1
0.95
0.9
0.8
0.75
0.7
0.65
0.55 0.001
151
[1.6%]. Les courbes ROC de la gure 7.18 montrent que l'inuence d'une lgre expression est un peu plus sensible dans les conditions dgrades par rapport aux conditions non dgrades. Cependant, la dgradation des rsultats reste assez faible, compare celle induite par des variations de l'illumination et de la nettet de l'image.
Test6
Pour le Test5, le choix de l'espace de rduction pour la troisime exprience tait bas sur une connaissance a priori du type de test (tiquetage fourni par NIST). Dans ce protocole (Test6), j'exploite les mesures de qualit que j'ai dni
152
0.95
0.9
0.8
0.75
0.7
0.65
0.6 DLDA-(Amplitude,phase)-Melange-Meilleur espace DLDA-(Amplitude,phase)-Melange-P0 DLDA-(Amplitude,phase)-Melange-P1 0.01 False Accept Rate 0.1 1
0.55 0.001
0.85 0.001
La gure 7.20 montre une lgre amlioration des rsultats grce l'usage des mesures de qualit. Le taux de vrication 0.1% de FAR passe de 84,9% [1.1%]
4. Comme expliqu dans la section prcdente : mme si les annotations des images de visage restent dpendantes du type de l'acquisition, cette annotation peut ne pas correspondre la ralit (voir gure 7.12)
153
avec une annotation manuelle des images 86.9% [0.9%]. Mme si cette amlioration n'est pas trs signicative, elle dmontre que les mesures de qualit choisies ont une inuence sur les performances et qu'elles contribuent au choix de la stratgie pour l'application du classieur. Ce qui est intressant est surtout le fait de pouvoir exploiter ces mesures de qualit pour le cas o on ne disposerait pas d'tiquetage a priori des donnes comme dans des conditions relles d'application. qualit. La stratgie dont l'ecacit est dmontre sur les images annotes la main est corrobore par l'utilisation de la mesure automatique de
Test7
Pour ce premier protocole du nouveau scnario, on considre la base [BT4] comme base de test. Le modle de chaque personne est constitu d'une seule image de rfrence. La gure 7.21 montre les rsultats du Test7. Un taux de vrication de 75% 0.1% de FAR peut sembler non conforme aux attentes car les performances sont trs correctes vu la nature dgrade des images des rfrences et celle des tests. En analysant les distributions des histogrammes du Test2 et celui du Test7 [Figure 7.22], nous pouvons constater un comportement stable des scores inter-classes alors que les scores intra-classes sont plus ressemblants dans le cas d'images de visage de nature semblable.
Test8
Dans les protocoles dj prsents, le modle d'une personne est constitu par une seule image de rfrence. Dans le protocole du Test8, le modle de rfrence est constitu des 4 images de rfrence d'une personne. La distance minimale
154
0.95
Verification Rate
0.9
0.85
0.8
0.75 0.001
entre l'image de test et les 4 images de rfrence est considre comme le score du test. Le taux de VR passe de 75% pour le Test7 78.1% en utilisant un modle plusieurs rfrences. Les rsultats sont donns par les courbes ROC de la gure 7.23.
Protocole : Test9
Nous reprenons le mme protocole que celui du Test8 mais la distance entre l'image de test et les 4 images de rfrence est calcule comme une somme pondre par les mesures de qualit de chaque image de rfrence. Dans ce protocole, la mesure de qualit de l'image de test n'est pas considre. Le taux de VR 0.1% de FAR est de 80.2% en utilisant un modle plusieurs rfrences. Les rsultats sont donns par les courbes ROC de la gure 7.23.
Protocole : Test10
Dans ce protocole, nous considrons les modles rfrence et test d'une personne forms chacun des 4 images des visages disponibles.
155
(A)
7 6 5 4 Distribution 3 2 1 0 -1 -1 -0.8 -0.6 -0.4 Scores -0.2 0 0.2 0.4 Espace P1 Espace P0
(B)
40 35 30 25 Distribution 20 15 10 5 0 -5 -1 -0.8 -0.6 -0.4 Scores -0.2 0 0.2 0.4 Espace P1 Espace P0
Figure 7.22: Distribution des scores intra-classes (A) et Distribution des scores
inter-classes (B)
les images de bonne qualit et un poids proche de 0 pour les images de qualit dgrade, nous considrons cette fonction :
156
d(Qx , Qg1 ) d(Qx , Qg2 ) d(Qg1 , Qg2 ) q = f (x) if 0 f (x) 1 f (x) = 1 q = 0 if f (x) < 0 q = 1 if f (x) > 1
Dans ce Test10, nous avons compar 3 distances :
(7.6)
D2 = mint (
i=1
i qr di )
(7.7)
comparaison i. D3 : la distance totale pondre par la qualit des chantillons (4 images rfrence contre 4 images de test)
D3 =
i i (wt qr di )
(7.8)
i.
Les rsultats du Test10 sont illustrs dans la gure 7.23 pour les direntes distances choisies. On constate une amlioration des performances entre l'utilisation de plusieurs images par modle pour la rfrence et le test et l'utilisation d'une seule image par modle de test. Ce rsultat conrme aussi des rsultats bien connus de Phillips sur la base FRGCv2 [69], avec l'amlioration des performances de la PCA entre l'exprience 1 (utilisant une seule image rfrence par personne) et l'exprience 2 (utilisant 4 images de rfrence par personne). Ce qui est intressant dans ces rsultats est l'amlioration signicative apporte par la distance D3 par rapport l'approche classique utilisant la distance D1. Les rsultats passent de 82% [0.9%] de VR@0.1 de FAR 88.3% [0.7%]. Ceci conrme encore que l'approche base sur les mesures de qualit tudies dans la premire partie du chapitre est trs robuste.
157
100
Taux de verification
90
85
80
75 0.1
10
100
158
Scnarios
rfrence passeport
rfrence dgrad
Test 1 2 3 4 5 6 7 8 9 10
N Ref/mod 1 1 1 1 1 1 1 4 4 4 4 4
N Test/mod 1 1 1 1 1 1 1 1 1 4 4 4
Rsultats 96,2% 59,6% 95,8% 54,7% 84,9% 86.9% 75% 78.1% 80.2% 82% 85% 88.3%
Table 7.4: Tableau rcapitulatif des divers scnarios et protocoles avec les r-
sultats des performances donns en VR@0.1% de FAR (EH : galisation d'Histogramme, LA : Lissage Anisotropique). La mesure de distance est le cosinus. P0 : Espace de projection construit avec des images de type contrl, P1 : Espace de projection construit avec un mlange d'images de type contrl et non contrl, Nref/mod : nombre d'images de rfrence par modle, NTest/mod : nombre d'images de test par modle.
159
4,49 1,72
tocole P et G, utilisant l'algorithme de reconnaissance DLDA appliqu aux reprsentations Gabor du visage.
Les rsultats du tableau montrent clairement une amlioration des rsultats en s'appuyant sur les mesures de qualit des dirents chantillons et conrme que la stratgie adopte est robuste et gnralisable sur d'autres bases d'valuation.
7.4 Conclusion
An d'tudier l'apport des stratgies de reconnaissance bases sur la qualit, nous avons utilis un systme de reconnaissance de visage classique bas sur la DLDA, appliqu aux reprsentations d'amplitude et de phase de Gabor, le systme a t prsent en dtail dans le chapitre 6. Ce chapitre commence par une tude
160
de plusieurs mesures de qualit comme la nettet et l'illumination. Trois mesures de qualit ont t adoptes et nous avons valid ces mesures sur les deux bases FRGCv2 et BANCA. Ces deux bases prsentent des caractristiques intressantes pour notre tude, savoir des conditions d'acquisition diverses et des qualits direntes. Une deuxime partie de ce chapitre concerne l'apport de ces mesures dans le cadre de protocoles de reconnaissance de visage en mode dgrad. Deux types de scnarios ont t tudis. Le premier consiste comparer un modle de rfrence de type "passeport" un modle de test de type inconnu et utiliser la mesure de qualit des images an de dterminer le choix du pr-traitement et de l'espace de rduction utiliser. Cette approche a montr son ecacit dans le Test5 o un gain de performance est constat, en se basant sur cette stratgie et sur une connaissance a priori de la qualit. Dans le Test6, nous avons utilis la mme stratgie, mais en se basant sur une classication par les mesures de qualit prsentes. Nous avons constat que cette stratgie de reconnaissance combine cet tiquetage automatique des images permet de s'aranchir ecacement d'un tiquetage manuel sans aucune dgradation des performances. Il est ainsi envisageable d'utiliser cette stratgie dans des applications relles pour lesquelles aucune information a priori de la qualit des images n'existe. Le deuxime type de scnario concerne la reconnaissance du visage en utilisant images de rfrence de qualit dgrade et des images de test de qualit diverse. Pour les direntes tudes de ce scnario, nous avons utilis le mme espace de rduction P1 et un pr-traitement bas sur le lissage anisotropique. Les tudes prsentent diverses stratgies de fusion des mesures de qualit et des scores de reconnaissance. La stratgie la plus ecace pour ce type de scnario est nalement l'utilisation de plusieurs images pour les modles de rfrence et de test ainsi que la pondration des scores de comparaison par la qualit de images de test (Test10-D3).
Chapitre 8
Conclusion et Perspectives
Dans cette thse, nous avons prsent un certain nombre de mthodes et d'approches permettant d'amliorer la reconnaissance du visage en 2D sous des conditions d'illumination et de qualit variables. Nous avons commenc dans le chapitre 2 par exposer un tat de l'art non exhaustif des mthodes de reconnaissance de visage 2D. Les outils d'valuation biomtrique ainsi que les bases de donnes publiques de visages, utiliss lors de nos valuations, sont prsents dans le chapitre 3. Une tude comparative des dirents algorithmes de reconnaissance (ACP, LDA et DLDA), qui sont bass sur l'approche globale par rduction d'espace, a t prsente dans le chapitre 4. Notre choix s'est nalement port sur l'algorithme DLDA qui a dmontr de meilleures performances que l'ACP et la LDA. Le chapitre 5 fut consacr l'tude du comportement des algorithmes de reconnaissance du visage suivant les paramtres de normalisations gomtrique et photomtrique. Pour la normalisation gomtrique, les expriences ont montr que les performances de la reconnaissance se stabilisent partir d'une taille susante des images aprs normalisation, calcule en terme de distance entre les centres des deux yeux. Au del d'une distance de 50 pixels entre les centres des yeux, la variation des performances de reconnaissance n'est plus signicative. La deuxime partie de ce chapitre est consacre la normalisation photomtrique. Dans une premire phase, nous avons commenc par tudier l'inuence de trois mthodes de transformation de l'image couleur en niveaux de gris. La transformation utilise est rarement cite dans la littrature bien que les rsultats de la reconnaissance 161
162
soient trs sensibles ce choix. Nous avons ensuite tudi les principales mthodes de correction de l'illumination qui ont t prsentes dans la littrature. Dans des conditions d'acquisition dgrades, la mthode base sur le lissage anisotropique a montr sa supriorit, en terme de performances, par rapport l'galisation d'histogramme, la correction Gamma et l'approche MultiRetinex. Cette dirence de performance n'est plus vrie lorsque les images de rfrence et les images de test sont de bonne qualit (illumination et rsolution). A la n de ce chapitre, nous avons prsent une nouvelle approche de normalisation photomtrique qui a montr son ecacit par rapport aux mthodes classiques tudies dans le cas de tests en conditions dgrades. Cette normalisation photomtrique est base sur la reconstruction de la luminance du visage en exploitant son aspect symtrique. Les rsultats des valuations sur les bases FRGC et BANCA ont montr que dans le cas d'images acquises dans des conditions d'illumination et de mise au point contrles, un pr-traitement simple, comme l'galisation d'histogramme, est largement susant. En revanche, une dgradation des performances peut subvenir lorsqu'un pr-traitement non adapt la qualit des images de rfrence et des images de test est appliqu. C'est donc dans ce contexte que la nouvelle mthode propose a toute son importance. Dans le chapitre 6, nous avons propos d'utiliser l'information spatio-frquentielle du visage pour obtenir une bonne reprsentation. Cette information est extraite de l'image des pixels par application de ltres de Gabor direntes rsolutions et diverses orientations. Cette reprsentation a largement t utilise et tudie dans la littrature. Dans la majorit de ces tudes, seule l'amplitude de la rponse des ltres de Gabor a t employe alors que la phase est omise. Nous avons expliqu les raisons de la limitation de l'utilisation de cette phase et nous avons fourni une solution simple pour pallier cette limitation. Nous avons galement propos d'utiliser une nouvelle reprsentation du visage base sur la fusion de l'amplitude et de la phase corrige. Les rsultats des direntes valuations sur les deux bases de donnes FRGC et BANCA ont conrm la robustesse de cette fusion. Dans la premire campagne d'valuation de la base IV2 , cette mthode a montr sa supriorit par rapport plusieurs algorithmes classiques comme la LDA, la PCA modulaire. L'amlioration est surtout remarquable lorsque les conditions des tests sont dgrades. Nous nous sommes aussi intresss l'inuence du choix des paramtres des dirents ltres de Gabor comme les orientations, les rsolutions et les frquences sur les performances. Nous avons observ que l'algorithme de la DLDA
163
est capable d'extraire l'information discriminante de cette nouvelle reprsentation mme si une information non discriminante est rajoute partir d'une certaine rsolution d'analyse. Nous avons ainsi propos un systme complet comprenant prtraitement et codage global avec ltres de Gabor, prsentant d'excellentes performances mme en conditions dgrades. En nous basant sur les observations du chapitre 5, lies l'apport des dirents pr-traitements selon la qualit des images, nous avons propos, dans le chapitre 7, une stratgie de reconnaissance lie la qualit des images de rfrence et de test. Nous avons commenc par tudier direntes mesures an de pouvoir classer les images selon leur qualit en terme de nettet et d'illumination. Le premier critre mesure le dsquilibre de l'illumination par calcul des distributions locales des statistiques des niveaux de gris. Plusieurs statistiques locales ont t tudies et la mdiane a donn les meilleures performances de sparation sur la base d'apprentissage. Un deuxime critre exploite la dirence des histogrammes des images de luminance entre les images acquises dans des conditions d'illumination contrles et les images acquises dans des conditions d'illumination variables. On mesure alors la distance du vecteur de l'histogramme de l'image luminance l'hyperplan sparateur calcul par SVM. L'apprentissage de cet hyperplan est eectu sur une partie de la base d'apprentissage de la base de donnes de FRGC. Ces deux mesures de l'illumination sont intressantes parce qu'elles sont complmentaires. Enn, an de pouvoir mesurer le niveau du ou de l'image du visage, nous avons propos une mthode base sur une approche frquentielle locale pondre. Cette mthode a donn des rsultats meilleurs que deux autres mthodes classiques de calcul du ou, savoir une mthode base sur l'approche gradient et une deuxime base sur l'approche frquentielle globale. Ceci s'explique par le fait que ce nouveau critre est plus adapt la nature des images du visage que les deux autres mesures. La classication des images, en terme de qualit, par fusion de ces dirents critres est ralise par la mthode non-supervise des k-moyennes. Nous avons valid notre systme de classication sur la base BANCA. Un bon accord sur les donnes considres comme dgrades est obtenu par notre classicateur et par celui des organisateurs des valuations. Par contre sur les images considres comme contrles dans les valuations, nous notons quelques
164
dirences avec notre classication. En s'appuyant sur cette mthode de classication des images par la qualit, nous avons tudi, par la suite, plusieurs stratgies de reconnaissance. Pour cela, un nouveau dcoupage de la base FRGC a t ncessaire et plusieurs scnarios de tests ont t construits. Lors de l'utilisation de plusieurs images en test, nous avons obtenu une amlioration relative de 40% dans les performances grce l'utilisation d'une information de qualit pour pondrer les scores rsultant de chaque test. Nous amliorons ainsi signicativement les performances par cette stratgie au regard de la seule utilisation des coecients de Gabor, sans tenir compte de la qualit. Les perspectives de ce travail de thse restent nombreuses. Nous n'avons fait qu'eeurer l'apport qui peut tre attendu dans le traitement d'images vido (application de vido surveillance par exemple) o plusieurs images de la personne sont disponibles. Dans cette direction, il serait intressant de considrer d'autres moyens d'introduire la mesure de qualit dans le calcul des scores. Nous avons eectivement propos une mthode de fusion de score par simple moyenne pondre des scores o la mesure de la qualit sert de poids. Cependant, d'autres mthodes utilisant des modles statistiques comme les GMM ou les SVM seraient intressantes tudier. Un autre point explorer est l'utilisation d'une modlisation synthtique du visage an de caractriser un visage de bonne ou de mauvaise qualit. Ncessitant une phase d'apprentissage, le point faible de notre approche reste l'tiquetage manuel de la base d'apprentissage. Cet tiquetage est assez subjectif et sujet des erreurs dues l'apprciation des oprateurs. L'utilisation d'un modle de synthse gnratif d'un visage de bonne ou de mauvaise qualit, permettrait sans doute de diminuer, et voir liminer, l'inuence des erreurs d'tiquetage qui peuvent entacher notre mthode. Les dernires avances de la technologie de capture 3D des images de visage ont permis de mettre en place des systmes de reconnaissance assez robustes par rapport la pose, s'appuyant sur les informations supplmentaires que le modle 3D peut fournir pour l'identication. En principe, la modlisation 3D d'un visage est considre comme robuste, voir mme indpendante des problmes environne-
165
mentaux d'acquisition. En pratique, la capture d'un modle prcis du visage 3D est sujette toutefois des variations dans les conditions d'illumination. Il serait intressant d'tudier, dans ce cas, l'inuence de l'illumination sur les performances et d'introduire de nouvelles mesures qui correspondent aux problmes que rencontre l'acquisition 3D, tels que le pourcentage d'occultation des parties du visage et les erreurs de reconstruction du modle. Une autre piste pour pallier aux problmes de variabilit de l'illumination est l'utilisation des images en proche infrarouge. Une tude avec ce type d'image a t entame au cours de ma thse en collaboration de Walid Hizem et les rsultats sont encourageants [96]. Finalement, une voie que nous souhaitons explorer est celle de l'implmentation de notre systme complet sur une plate-forme nomade. Une tude prliminaire a t ralise dans le cadre du projet franais OPPIDUM VINSI "Vrication d'Identit Numrique Scurise Itinrante" coordonn par Thales. Pour cela, le choix automatique de la stratgie de reconnaissance ainsi que l'introduction de nos mesures de qualit dans le calcul du score doivent tre optimiss. Les problmes rsoudre sont essentiellement lis la complexit du systme actuel en terme de calcul et de mmoire pour des intgrations futures. Une partie de ce travail d'optimisation a nanmoins t dj eectue an de pouvoir obtenir des rsultats dans des temps convenables pour les protocoles de la grande base de donnes FRGC.
Articles de journaux
(2009) Walid Hizem, Lorne Allano, Anouar Mellakh and Bernadette Dorizzi : Face recognition from synchronized visible and near infrared
Confrences internationales :
(2004) Emine Krichen, M. Anouar Mellakh, Sonia Garcia-Salicetti, Kamel Hamrouni, Nouredine Ellouze and Bernadette Dorizzi : Iris Identication
167
168
neric Protocol for Multibiometric Systems Evaluation On Virtual and Real Subjects. Workshop AVBPA 2005, USA, July 2005.
(2005) S. Garcia-Salicetti, Anouar Mellakh, L. Allano and B. Dorizzi : Mul-
timodal biometric score fusion : the mean rule vs. support vector classiers..EUSIPCO 2005, Antalya, Turkey.
(2006) M.A. Mellakh, D. Petrovska-Delacretaz, and B. Dorizzi : Using si-
gnal/residual information of eigenfaces for pca face space dimensionality characteristics. Pattern Recognition, 2006. ICPR 2006. 18th
International Conference on Pattern Recognition, 4 pages :574-577, 2006. (2007) M. Anouar Mellakh, Dijana Petrovska-Delacraz, and Bernadette Dorizzi : Combinaison de classieurs pour la reconnaissance du visage. TAIMA'07 : Traitement et Analyse de l'Information : mthodes et applications, 22-26 mai , Hammamet, Tunisie, 2007 (2008) D. Petrovska Delacretaz, S. Lelandais, J. Colineau, L. Chen, B. Dorizzi, M. Ardabilian, E. Krichen, M.A. Mellakh, A. Chaari, S. Guer, J. D Hose, and B.B. Amor : The IV2 multimodal biometric database (in-
cluding iris, 2d, 3d, stereoscopic, and talking face data), and the
iv2-2007 evaluation campaign. In BTAS08, pages 1-7, 2008.
Bibliographie
[1] Timo Ahonen, Abdenour Hadid, and Matti Pietikainen. Face Recognition
tional Conference on Audio-and Video-Based Biometric Person Authentication (AVBPA'03), volume 2688 of Lecture Notes in Computer Science,
pages 625638, Guildford, UK, January 2003. Springer. [5] H.G. Barrow and J.M. Tenenbaum. Recovering intrinsic scene characteristics from images. In CVS78, pages 326, 1978. [6] A. Bartlett and JR Movellan. Face recognition by independent component analysis. TRANSACTIONS ON NEURAL NETWORKS, 13 :303321, November 2002. [7] P.N. Belhumeur and D.J. Kriegman. What is the set of images of an object under all possible lighting conditions ? Computer Vision and Pattern
Recognition, 1996. Proceedings CVPR '96, 1996 IEEE Computer Society Conference on, pages 270277, Jun 1996.
[8] Alphonse Bertillon. Ethnographie moderne : les races sauvages. 1883. 169
170
BIBLIOGRAPHIE
[9] [10]
(ICVGIP), 2002.
BIBLIOGRAPHIE
171
[21]
of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, page 52, Washington, DC, USA, 1998. IEEE Computer Society.
[24] A.S. Georghiades, P.N. Belhumeur, and D.J. Kriegman. From few to many : illumination cone models for face recognition under variable lighting and pose. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 23(6) :643660, Jun 2001. [25] Rafael C. Gonzalez and Richard E. Woods. Digital Image Processing (2nd
Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pages 15741581, Washington, DC, USA,
2006. IEEE Computer Society. [30] Buciu I., kotropoulos C., and Pitas I. Ica and gabor representation for facial expression recognition. Image Processing, 2003. ICIP 2003. Proceedings.
172
BIBLIOGRAPHIE
[31]
Phillips J., H. Moon, S. Rizvi, and P. Rauss. The feret evaluation methodology for face-recognition algorithms. IEEE Trans. Pattern Analysis and
Computing, 1998.
[33] Paul T. Jackway and Mohamed Deriche. Scale-space properties of the multiscale morphological dilation-erosion. IEEE Transactions on Pattern Ana-
Multimedia Computing and Systems, 1999. IEEE International Conference on, 2 :934938 vol.2, Jul 1999.
[41] C.L. Kotropoulos, A. Tefas, and I. Pitas. Frontal face authentication using discriminating grids with morphological feature vectors. Multimedia Com-
puting and Systems, IEEE Transactions on, 2(1) :1426, Mar 2000.
BIBLIOGRAPHIE
173
[42]
Norbert Krger. An algorithm for the learning of weights in discrimination functions using a priori constraints. IEEE Trans. Pattern Anal. Mach.
174
BIBLIOGRAPHIE
[53]
Aurlien Mayoue and Dijana Petrovska-Delacrtaz. Open source reference systems for biometric verication of identity. The 4th International Confe-
IX, 1999. Proceedings of the 1999 IEEE Signal Processing Society Workshop,
pages 4148, Aug 1999. [57] [58] [59] [60] S. Mika, G. Rtsch, J. Weston, B. Schlkopf, A. Smola, and K. Mller. Invariant feature extraction and classication in kernel spaces, 2000. H. Moon and P.J. Phillips. Analysis of pca-based face recognition algorithms. Empirical Evaluation Techniques in Computer Vision, 1998. NIST. The 2008 nist speaker recognition evaluation, June 2008. University of Bologna, Michigan State University, San Jose State University, and Universidad Autonoma de Madrid. the fourth international ngerprint verication competition, June 2006. [61] Timo Ojala, Matti Pietikinen, and Topi Menp. Multiresolution grayscale and rotation invariant texture classication with local binary patterns.
BIBLIOGRAPHIE
175
[65]
P.S. Penev and J.J. Atick. Local feature analysis : A general statistical theory for object representation. Network : Computation in Neural Systems, 7(3) :477500, 1996.
[66]
A. Pentland, B. Moghaddam, and T. Starner. View-based and modular eigenspaces for face recognition. Computer Vision and Pattern Recognition,
1994. Proceedings CVPR '94., 1994 IEEE Computer Society Conference on,
pages 8491, Jun 1994. [67] D. Petrovska Delacretaz, S. Lelandais, J. Colineau, L. Chen, B. Dorizzi, M. Ardabilian, E. Krichen, M.A. Mellakh, A. Chaari, S. Guer, J. D'Hose, and B.B. Amor. The iv2 multimodal biometric database (including iris, 2d, 3d, stereoscopic, and talking face data), and the iv2-2007 evaluation campaign. In BTAS08, pages 17, 2008. [68] Dijana Petrovska-Delacrtaz, Grard Chollet, and Bernadette Dorizzi.
Guide to Biometric Reference Systems and Performance Evaluation. Springer, 2009. [69] Jonathon Phillips and Patrick J Flynn. Overview of the face recognition grand challenge. Computer Vision and Pattern Recognition, june 2005. [70] P. Jonathon Phillips, W. Todd Scruggs, Alice J. O Toole, Patrick J. Flynn, Kevin W. Bowyer, Cathy L. Schott5, and Matthew Sharpe. Frvt 2006 and ice 2006 large-scale results evaluation report. Technical, National Institute of Standards and Technology, March 2007. [71] S. Der Phillips J., P. J. Rauss. Feret recognition algorithm development and test results. Army Research Laboratory technical report, ARL-TR-995, 1996. [72] Norman Poh, Guillaume Heusch, and Josef Kittler. On combination of face authentication experts by a mixture of quality dependent fusion classiers. In MCS, pages 344356, 2007. [73] Laiyun Qing, Shiguang Shan, and Xilin Chen. Face relighting for face recognition under generic illumination. Acoustics, Speech, and Signal Processing,
176
BIBLIOGRAPHIE
[74]
Laiyun Qing, Shiguang Shan, and Wen Gao. Face recognition under varying lighting based on derivates of log image. In SINOBIOMETRICS, pages 196 204, 2004.
[75] [76]
David G. Stork Richard O. Duda, Peter E. Hart. Pattern Classication. Wiley-Interscience, 2001. Tammy Riklin-Raviv and Amnon Shashua. The quotient image :class based recognition and synthesis under varying illumination conditions. cvpr, 02 :2566, 1999.
BIBLIOGRAPHIE
177
L. Sirovich and M. Kirby. Low-dimensional procedure for the characterization of human faces. J. Opt. Soc. Am. A, 4(3) :519, 1987. Y. Su, S.G. Shan, X.L. Chen, and W. Gao. Hierarchical ensemble of global and local classiers for face recognition. In ICCV07, pages 18, 2007. Daniel L. Swets and John (Juyang) Weng. Using discriminant eigenfeatures for image retrieval. IEEE Transactions on Pattern Analysis and Machine
Processing, 2009.
[97] Haitao Wang, Stan Z. Li, Yangsheng Wang, and Weiwei Zhang. Illumination modeling and normalization for face recognition. In AMFG '03 : Proceedings
of the IEEE International Workshop on Analysis and Modeling of Faces and Gestures, page 104, Washington, DC, USA, 2003. IEEE Computer Society.
[98] Frank Weber. Some quality measures for face images and their relationship to recognition performance. Technical report, Cognitec, 2006.
[99]
L. Wiskott. Phantom faces for face analysis. In ICIP '97 : Proceedings of the
1997 International Conference on Image Processing (ICIP '97) 3-Volume Set-Volume 3, page 308, Washington, DC, USA, 1997. IEEE Computer Society. [100] Laurenz Wiskott, Jean-Marc Fellous, Norbert Kruger, and Christoph von der Malsburg. Face recognition by elastic bunch graph matching. IEEE
Symposion ber biologische Informationsverarbeitung und Neuronale Netze - SINN '95, pages 6368, Mnchen, 1996.
[102] Rolf P. Wrtz. Object recognition robust under translations, deformations, and changes in background. IEEE Trans. Pattern Anal. Mach. Intell., 19(7) :769775, 1997. [103] Hua Yu and Jie Yang. A direct lda algorithm for high-dimensional data - with application to face recognition. Pattern Recognition, 34(10) :2067 2070, 2001. [104] J. Zhang, Y. Yan, and M. Lades. Face recognition : Eigenface, elastic matching, and neural nets. PIEEE, 85(9) :14231435, September 1997. [105] Mian Zhou and Hong Wei. Face verication using gaborwavelets and adaboost. In ICPR '06 : Proceedings of the 18th International Conference on
Remerciements
Certaines personnes trouveront peut tre inadquat que mes remerciements soient mis la n de ce manuscrit. Pour moi, c'est leur place idale, ils s'inscrivent dans la continuit de cette thse. Aprs des annes de travail, je trouve que nir ces pages en remerciant les personnes qui mritent de l'tre est plus valorisant et sincre. Pour ne pas droger la tradition et en toute sincrit, je tiens remercier les membres du jury qui ont accept d'valuer mon travail. Juger un travail est loin d'tre une tche des plus faciles. Je tiens donc remercier mon rapporteur le Professeur Sylvie Lelandais pour la prcision, pour la pertinence de ses critiques et pour ses conseils qui ont permis d'amliorer la comprhension de ce manuscrit. Mes remerciements s'adressent galement au Professeur Faouzi Gorbel pour ses critiques trs constructives et les ides trs intressantes qu'il a formules dans son rapport et lors de la prsentation. Je remercie au mme titre le Professeur Andr Gagalowicz d'avoir accept de faire parti du jury pour juger mon travail et enn, un grand merci au Professeur Maurice Milgram d'avoir accept de prsider le jury et pour ses critiques lors de la soutenance. Je tiens particulirement remercier ma directrice de thse, le Professeur Bernadette Dorizzi, avec qui j'ai eu le plaisir, la chance et l'honneur de travailler, de discuter et d'avancer dans ma thse. Je tiens sincrement la remercier pour son soutien, non seulement, sur le plan scientique mais aussi sur le plan humain. Mes remerciements s'adressent aussi mon encadreur de thse, le Docteur Dijana Petrovska ,qui m'a appris analyser, critiquer et m'exprimer le plus clairement possible : en particulier, penser et agir comme un scientique et non pas comme l'ingnieur dbutant que j'tais au commencement de ma thse. Je tiens bien sr remercier mes parents pour leur patience et leur dvoue181
ment. Je pense que la distance est d'autant plus dure pour eux que pour moi, mais sans leurs encouragements, je ne serais pas entrain d'crire ces quelques mots. Alors merci maman, merci papa. Je n'oublie pas non plus de remercier mon frre et ma petite soeur pour leur patience. Mes remerciements s'adressent galement tous mes collgues et amis de l'Institut National des Tlcommunications que j'ai eu la chance de ctoyer pendant des annes et qui m'ont permis de grer des moments de stress et de fatigue. Je pense particulirement Yann, Murielle, Yanneck, Patricia, Yollande, Aurlien, Franois et Marie-Thrse. J'ai eu la chance de faire la rencontre d'un ami, il y a prs d'une dizaine d'anne, sur qui j'ai pu compter tout moment et que je considre comme un frre. Mon ami Emine (avec un E, s'il vous plat) est et restera pour moi l'ami de conance qu'on a intrt avoir. Mme si je ne lui conrais pas mes cls. Merci Emine et au plaisir de re-travailler avec toi. Lors des Doctoriales 2005, j'ai fais la connaissance de jeunes doctorants de disciplines direntes qui sont devenus des amis trs chers et des complices d'aventures. Je remercie Christina, Lorne, Isabelle, Delphine, Ons, Coralie, Walid, Etienne, Xavier, Charles, Benoit, et Benjamin. Chacun a fait son petit chemin et nos longues soires ou dners autour d'excellents plats resteront parmi les plus merveilleux souvenirs de mes dernires annes. Je tiens saluer la mmoire de ma seconde mre Christine Villiers, qui a t pour moi une vraie mre de substitution et qui m'a pouss avec toute sa gnrosit, sa force et son courage aller de l'avant. Je la remercie titre posthume d'avoir t pour moi une amie et une complice. Nos petites discussions me manquent et ton souvenir ne s'teindra jamais. Je tiens remercier par la mme occasion Alain Amesland pour avoir t prsent tout au long de ces moments. Enn, mes remerciements s'adressent la femme de ma vie et ma complice Tiphaine pour sa patience, pour sa prsence, pour son dvouement et pour son aide inestimable dans l'accomplissement de ce travail. Ses encouragements et son dvouement m'ont permis dans les moments les plus diciles repousser mes limites. Je la remercie pour sa prsence ces dernires annes et je lui promets, mme si ce n'est peut-tre pas l'endroit, de faire de mon mieux pour la rendre heureuse. Ces remerciements peuvent vous sembler un peu longs, mais quelques lignes ne pourront pas rsumer des annes de rencontres, d'amitis et d'aventures.
Titre
Rsum
De nos jours, les algorithmes de reconnaissance du visage proposs dans la littrature ont atteint un niveau de performance correct lorsque les conditions d'acquisition des images compares sont contrles, mais les performances chutent lorsque ces conditions sont dgrades. Les conditions d'acquisition contrles correspondent un bon quilibre d'illumination, ainsi qu'une haute rsolution et une nettet maximale de l'image du visage. An de bien cerner le problme de dgradation des performances dans les conditions d'acquisition diciles et de proposer par la suite des solutions adaptes, nous avons eectu plusieurs tudes dirents niveaux de la chane de la reconnaissance. Ces tudes concernent le comportement des algorithmes bass sur les approches globales. Elles concernent galement les direntes mthodes de normalisation photomtrique ainsi que des stratgies de reconnaissance bases sur la qualit des images du visage. Les solutions proposes chaque niveau de cette chane ont apport une amlioration signicative des performances par rapport aux approches classiques. Pour les algorithmes de reconnaissance, nous avons propos l'utilisation de la fusion de la phase et de l'amplitude des reprsentations de Gabor de l'image du visage comme nouveau gabarit, la place de l'image des pixels. Bien que les reprsentations de Gabor aient t largement utilises, particulirement dans les algorithmes bass sur les approches globales, la phase n'a jamais t exploite jusqu' ce jour. Nous expliquons dans cette thse les problmes lis l'utilisation de cette phase de Gabor et nous proposons une solution pour y remdier. Direntes mthodes de normalisation photomtrique de l'image du visage ont t tudies et compares. Nous avons, par la suite, propos une nouvelle approche de normalisation base sur la correction de la composante luminance. Enn, nous avons prsent une stratgie de reconnaissance se basant sur la mesure de qualit du visage. Cette mesure est une fusion de plusieurs critres de qualit et selon nos expriences, cette stratgie permet une amlioration notable des performances par rapport aux mthodes classiques. Les direntes tudes, la validation de nos mesures de qualit ainsi que la validation de la stratgie de reconnaissance ont t eectues sur les deux bases de donnes publiques de visage FRGCv2 et BANCA largement utilises par la communaut.
Mot-clefs
Biomtrie, Reconnaissance de visage, Illumination, Normalisation photomtrique, ltres de Gabor, Qualit.
ISBN :
00000000000