Professional Documents
Culture Documents
Thorme de Bayes
Probabilit conditionnelle
)=
=
P (Y = y
P ( / Y = y k ) P ( ) P (Y = y k ) P ( / Y = y k
k
)
k
k =1
P (Y = y
P ( / Y = y
= arg = arg
max
k
P (Y = y
k *
max
k
P (Y = y
P ( / Y = y
P( / Y = yk ) = P( X j / Y = yk )
j =1
Les descripteurs sont deux deux indpendants conditionnellement aux valeurs prises par Y
Pour un descripteurs X discret quelconque, la probabilit conditionnelle pour quelle prenne la valeur xl scrit Et son estimation (profil ligne)
Y\X yk xl nkl nk n
P( X = xl / Y = yk ) =
P( X = xl Y = yk ) P(Y = yk )
( X = x / Y = y ) = # { , X () = xl Y () = yk } P l k # { , Y () = yk } = nkl nk
3
Estimation directe
( Maladie = Absent / Mari = oui , Etu = oui ) = 1 = 1 P 1 ( Maladie = Prsent / Mari = oui , Etu = oui ) = 0 = 0 P 1
NB Maladie Maladie Somme Absent 50.00% Prsent 50.00% Total 100.00% NB Maladie Mari Maladie Non Total Oui 40.00% Absent 60.00% 100.00% Prsent 80.00% 20.00% 100.00% Total 60.00% 40.00% 100.00% NB Maladie Etud.Sup Maladie Non Total Oui 80.00% Absent 20.00% 100.00% Prsent 20.00% 80.00% 100.00% Total 50.00% 50.00% 100.00%
Indpendance conditionnelle
( Maladie = Absent / Mari = oui , Etu = oui ) P ( Maladie = Absent ) P ( Mari = oui / M = Abs .) P ( Etu = oui / M = Abs .) = P = 0 .5 0 .6 0 .2 = 0 . 06 ( Maladie = prsent / Mari = oui , Etu = oui ) P ( Maladie = prsent ) P ( Mari = oui / M = Abs .) P ( Etu = oui / M = Abs .) = P = 0 .5 0 .2 0 .8 = 0 . 08
(-) Hypothse discutable, (+) estimations des probas (effectifs) plus fiables
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC
j =1
j=1
>> Incrmentalit (table des probas conditionnelles maintenir) >> Robustesse (performant mme si hypothse non-respecte) >> Cest un modle linaire (prouv sur descripteurs binaires)
>> Pas de slection (mise en vidence) des variables pertinentes >> Nombre de rgles gal au nombre de combinaisons de descripteurs
(dans la pratique, les rgles ne sont pas formes, nous conservons les probas conditionnelles que nous appliquons pour chaque individu classer pas dinterprtation des rsultats)
Traitement des variables continues Discrtisation (supervise) Hypothse de distribution, pour chaque descripteur f(X/Y) = loi normale
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC
>> Principal problme rsoudre : comment dfinir le voisinage ? >> La distance utilise joue un rle important !
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC
Y \V
KN = 3
KN K N ( yk ) KN
KN
nk n
Rappel des yk dans le voisinage
yk
K N (y k ) [ ( ) / Y = y ] P nk k = [ ( ) ] KN P n
Taille (relative) du voisinage
(y k )
N
n k K N n
>> Simplicit, pas dapprentissage dun modle (lazy learning) >> Incrmentalit (garder disposition les individus de la base) >> Bonnes performances en gnral >> Err(1-ppv) < 2 x Err(Modle bayesien idal)
>> Paramtrage difficile (choix de la taille du voisinage) >> Impossibilit dinterprtation dun classement propos >> Ncessit de garder sous la main la base de donnes >> Lenteur en classement (passage en revue de tous les individus de la base) >> Sensibilit la dimensionnalit (et aux variables non pertinentes)
Traitement des variables discrtes (codage 0/1 ou axes factoriels) Choix de la distance pse sur les rsultats Attention aux problmes dchelle si distance euclidienne utilise Pondrer linfluence des observations selon leur loignement dans le voisinage
Bibliographie
L. LEBART, A. MORINEAU, M. PIRON Statistique exploratoire multidimensionnelle , DUNOD, 2000 (3me dition).
G. CELEUX, J.P. NAKACHE, Analyse discriminante sur variables qualitatives , POLYTECHNICA, 1994.