You are on page 1of 9

Quelques approches pour rendre calculable P(Y/X) Ricco RAKOTOMALALA

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Thorme de Bayes
Probabilit conditionnelle

Estimer la probabilit conditionnelle


P (Y = y
k

)=
=

P (Y = y

P ( / Y = y k ) P ( ) P (Y = y k ) P ( / Y = y k
k

)
k

k =1

P (Y = y

P ( / Y = y

Dterminer la conclusion = dterminer le max.


y y
k *

= arg = arg

max
k

P (Y = y

k *

max
k

P (Y = y

P ( / Y = y

Probabilit a priori Estim facilement par nk/n


Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Comment estimer P(X/Y=yk)


Impossibilit estimer avec des frquences Le tableau crois serait trop grand et rempli de zros

Modle bayesien naf (I)


Modle dindpendance conditionnelle

Hypothse dindpendance conditionnelle

P( / Y = yk ) = P( X j / Y = yk )
j =1

Les descripteurs sont deux deux indpendants conditionnellement aux valeurs prises par Y

Pour un descripteurs X discret quelconque, la probabilit conditionnelle pour quelle prenne la valeur xl scrit Et son estimation (profil ligne)
Y\X yk xl nkl nk n

P( X = xl / Y = yk ) =

P( X = xl Y = yk ) P(Y = yk )

( X = x / Y = y ) = # { , X () = xl Y () = yk } P l k # { , Y () = yk } = nkl nk
3

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Modle bayesien naf (II)


Exemple
Maladie Prsent Prsent Absent Absent Prsent Absent Absent Prsent Absent Prsent Mari Non Non Non Oui Non Non Oui Non Oui Oui Etud.Sup Oui Oui Non Oui Oui Non Non Oui Non Non

Estimation directe
( Maladie = Absent / Mari = oui , Etu = oui ) = 1 = 1 P 1 ( Maladie = Prsent / Mari = oui , Etu = oui ) = 0 = 0 P 1

Si Etu = oui et Mari = oui Alors Maladie = Absent

(+) Calcul sans hypothses restrictives, (-) effectifs indigents

NB Maladie Maladie Somme Absent 50.00% Prsent 50.00% Total 100.00% NB Maladie Mari Maladie Non Total Oui 40.00% Absent 60.00% 100.00% Prsent 80.00% 20.00% 100.00% Total 60.00% 40.00% 100.00% NB Maladie Etud.Sup Maladie Non Total Oui 80.00% Absent 20.00% 100.00% Prsent 20.00% 80.00% 100.00% Total 50.00% 50.00% 100.00%

Indpendance conditionnelle
( Maladie = Absent / Mari = oui , Etu = oui ) P ( Maladie = Absent ) P ( Mari = oui / M = Abs .) P ( Etu = oui / M = Abs .) = P = 0 .5 0 .6 0 .2 = 0 . 06 ( Maladie = prsent / Mari = oui , Etu = oui ) P ( Maladie = prsent ) P ( Mari = oui / M = Abs .) P ( Etu = oui / M = Abs .) = P = 0 .5 0 .2 0 .8 = 0 . 08

Si Etu = oui et Mari = oui Alors Maladie = Prsent

(-) Hypothse discutable, (+) estimations des probas (effectifs) plus fiables
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Modle bayesien naf (III)


Avantages et inconvnients

>> Simplicit, rapidit de calcul


K
J

(pas de risque de plantage , cf. la rgression logistique ou lADL)


K

j =1

Probabilits estimer contre

j=1

pour le modle bayesien complet

>> Incrmentalit (table des probas conditionnelles maintenir) >> Robustesse (performant mme si hypothse non-respecte) >> Cest un modle linaire (prouv sur descripteurs binaires)

>> Pas de slection (mise en vidence) des variables pertinentes >> Nombre de rgles gal au nombre de combinaisons de descripteurs
(dans la pratique, les rgles ne sont pas formes, nous conservons les probas conditionnelles que nous appliquons pour chaque individu classer pas dinterprtation des rsultats)

Traitement des variables continues Discrtisation (supervise) Hypothse de distribution, pour chaque descripteur f(X/Y) = loi normale
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Analyse discriminante non-paramtrique


Estimations locales des probabilits

Principe : Ne pas faire dhypothses sur les distributions


Dfinir un voisinage autour du point o classer et estimer localement les probabilits.
10 9 8 7 6 5 4 3 2 1 0 0 2 4 6 8 10 12 14

>> Principal problme rsoudre : comment dfinir le voisinage ? >> La distance utilise joue un rle important !
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Mthode des plus proches voisins (I)


Paramtre : KN, nombre dobservations autour du point classer (voisinage)
10 9 8 7 6 5 4 3 2 1 0 0 2 4 6 8 10 12 14

Y \V
KN = 3

KN K N ( yk ) KN

KN

nk n
Rappel des yk dans le voisinage

yk

K N (y k ) [ ( ) / Y = y ] P nk k = [ ( ) ] KN P n
Taille (relative) du voisinage

Simplification de lcriture (si chantillon extrait alatoirement) [ P ( ) / Y = y k ] [ [ P Y = y k / ( ) ]= P Y = y k ] [ P ( ) ] K N (y k )


= n k n K
N

(y k )
N

n k K N n

Proportion de Yk dans le voisinage du point classer

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Mthode des plus proches voisins (II)


Avantages et inconvnients

>> Simplicit, pas dapprentissage dun modle (lazy learning) >> Incrmentalit (garder disposition les individus de la base) >> Bonnes performances en gnral >> Err(1-ppv) < 2 x Err(Modle bayesien idal)

>> Paramtrage difficile (choix de la taille du voisinage) >> Impossibilit dinterprtation dun classement propos >> Ncessit de garder sous la main la base de donnes >> Lenteur en classement (passage en revue de tous les individus de la base) >> Sensibilit la dimensionnalit (et aux variables non pertinentes)

>> >> >> >>

Traitement des variables discrtes (codage 0/1 ou axes factoriels) Choix de la distance pse sur les rsultats Attention aux problmes dchelle si distance euclidienne utilise Pondrer linfluence des observations selon leur loignement dans le voisinage

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Bibliographie

E.DIDAY, L. LEMAIRE, J.POUGET, F. TESTU lments danalyse de donnes , DUNOD, 1982.

L. LEBART, A. MORINEAU, M. PIRON Statistique exploratoire multidimensionnelle , DUNOD, 2000 (3me dition).

G. CELEUX, J.P. NAKACHE, Analyse discriminante sur variables qualitatives , POLYTECHNICA, 1994.

Et les incontournables, FUKUNAGA, DUDA & HART, etc.

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

You might also like