You are on page 1of 6

Tests non paramtriques

Tests non paramtriques


Retour au plan du cours

On dduit du TLC que pour tout x tel que F (x)(1 F (x)) = 0, n(Fn (x) F (x)) N (0, F (x)(1 F (x))).
Loi

1
1.1

Fonction de rpartition empirique


Dnition et premires proprits

1.2

Inverse gnralise

Soit X1 , X2 , . . . Xn , . . . une suite de variables alatoires relles i.i.d. de fonction de rpartition F . On rappelle que, pour tout x R, F (x) = P(Xi x).

D FINITION 2. Soit F une fonction de rpartition. On dnit linverse gnralise F 1 de F par x [0, 1], F 1 (x) = inf {t R, F (t) x}. Remarque. Si F est une bijection, F 1 est la bijection rciproque. Exemple. Calculer F 1 pour la loi de Bernoulli de paramtre p.

D FINITION 1. On appelle fonction de rpartition empirique associe au L EMME 3. Soit U une variable alatoire de loi uniforme sur [0, 1]. Soit n chantillon X1 , X2 , . . . Xn la fonction F une fonction de rpartition et F 1 son inverse gnralise. La variable n alatoire X = F 1 (U ) a pour fonction de rpartition F . 1 Fn (x) = 1Xi x . n i=1 Ceci permet de simuler des v.a. de loi donne, ds lors que lon sait calculer F 1 . Exercice : comment simuler une variable de loi exponentielle de paramtre ? Fn est croissante, continue droite, De loi de Bernoulli de paramtre p ? limx Fn (x) = 0, limx+ Fn (x) = 1. nFn (x) suit une loi binomiale de paramtre (n, F (x)). Dmonstration. La preuve repose sur lquivalence suivante : E (Fn (x)) = F (x), pour tout x, Fn (x) est un estimateur sans biais de F 1 (x) y x F (y ). (1) F (x). Var(nFn (x)) = nF (x)(1 F (x)), On dduit de (1) que, pour tout x, Var(Fn (x)) = Par lingalit de Tchebichev, > 0, P (|Fn (x) F (x)| ) 1 Var(Fn (x)) 0. 2 F (x)(1 F (x)) 0. n P(F 1 (U ) x) = P(U F (x)) = F (x), donc X = F 1 (U ) a pour fonction de rpartition F . L EMME 4. Soit X une variable alatoire de fonction de rpartition F , suppose continue. Alors F (X ) suit une loi uniforme sur [0, 1].

|Fn (x) F (x)| 0 Cest aussi une consquence de la loi des grands nombres.

Prob

Tests non paramtriques

2
2.1

Tests bass sur la fonction de rpartition empirique


Test dadquation de Kolmogorov

F F0 ), on utilise la statistique de test


+ Dn = sup(Fn (x) F0 (x)) x R

Soit X1 , . . . , Xn i.i.d. de fonction de rpartition F . On se donne une fonction de rpartition F0 , suppose continue. On veut tester lhypothse H0 : F = F0 contre H1 : F = F0 . D FINITION 5. Le test de Kolmogorov est dni par la statistique de test Dn = sup |Fn (x) F0 (x)|.
x R

respectivement
Dn = sup(F0 (x) Fn (x)) xR + On rejette H0 si Dn d+ n,1 , respectivement Dn dn,1 . Les quantiles sont lus dans les tables.

Il consiste rejeter lhypothse H0 si Dn dn, . P ROPOSITION 6. La loi de Dn sous lhypothse H0 (F = F0 ) est indpendante de F0 .

P ROPOSITION 7. (admise) + > 0, PH0 ( nDn ) exp(22 ) Smirnov (1942) > 0, PH0 ( nDn ) 2

(1)k+1 exp(2k 2 2 ) Kolmogorov (1933)


k=1

Remarque. Soit X(1) . . . X(n) lchantillon ordonn. On pose X(0) = et X(n+1) = +. Dn = max max |
i=0,...,n

> 0, PH0 ( nDn ) 2 exp(22 ) Massart (1990)

i i F0 (X(i) )|; | F0 (X(i+1) )| , n n

ce qui permet de calculer facilement Dn . La loi de Dn sous H0 est tabule. On trouve dans les tables les quantiles dn,1 tels que PH0 (Dn dn,1 ) , (en tant le plus proche possible de ). Ces tables sont obtenues partir de simulations de Dn , sous lhypothse que les Xi sont i.i.d. de loi uniforme sur [0, 1] (F0 = 1[0,1] ). Si la loi de Dn dpendait de F0 , il faudrait construire une table pour chaque loi F0 .

Il existe dautres tests bass sur la fonction de rpartition empirique. Le test de Cramer Von Mises utilise la statistique
+

Cn = n

(Fn (x) F0 (x))2 f0 (x)dx,

le test dAnderson Darling utilise la statistique de test


+

Dn = n

(Fn (x) F0 (x))2

f0 (x) dx. F0 (x)(1 F0 (x))

Comme pour le test de Kolmogorov, on montre que les lois de Cn et An sont Pour faire un test unilatral, H0 : F = F0 contre H1 : F F0 (respectivement indpendantes de F0 sous H0 . Ces lois sont tabules.

Tests non paramtriques

Tests de comparaison de deux chan- 3.2 Test de Wilcoxon- Mann-Whitney tillons On considre deux chantillons indpendants : X1 , . . . , Xn i.i.d. de fonction
de rpartition F0 et Y1 , . . . , Ym i.i.d. de fonction de rpartition F1 . On veut tester H0 : F0 = F1 contre H1 : F0 F1 . on suppose que F0 et F1 sont continues. Le principe du test consiste dtermniner le nombre de couples (Xi , Yj ) pour lesquels Yj Xi . Sous H1 , pour tout x, P(Y x) P (X x) (avec parfois lingalit stricte), par consquent pour tout x, P(Y > x) P (X > x) et le nombre de couples (Xi , Yj ) pour lesquels Yj Xi prend des valeurs plus grandes sous H1 que sous H0 .

On considre deux chantillons indpendants X1 , . . . , Xn i.i.d. de fonction de rpartition F0 et Y1 , . . . , Ym i.i.d. de fonction de rpartition F1 . Dans le cas o F0 correspond une loi normale N (m0 , 2 ) et F1 la loi N (m1 , 2 ), on peut utiliser un test de Student pour tester H0 : F0 = F1 contre H1 : F0 = F1 . (cf cours de 3ime anne). Nous ne revenons pas sur ce test et nous nous plaons ici dans un cadre non paramtrique. Les lois des variables Xi et Yj ne sont pas supposes connues.

3.1

Tests de Kolmogorov-Smirnov de comparaison de D FINITION 10. On appelle test de Mann-Whitney le test dni partir de deux chantillons la statistique
n m

On considre deux chantillons indpendants : X1 , . . . , Xn i.i.d. de fonction 1Yj >Xi . U(n,m) = de rpartition F0 et Y1 , . . . , Ym i.i.d. de fonction de rpartition F1 . On veut i=1 j =1 tester H0 : F0 = F1 contre H1 : F0 = F1 . Le test consiste rejeter H0 si U(n,m) u(n,m),1 . Soit Fn la fonction de rpartition empirique de lchantillon (X1 , . . . , Xn ) et Gm celle de lchantillon (Y1 , . . . , Ym ). Remarque. La loi de U(n,m) sous H0 peut tre tablie par rcurrence (cf Caperaa Van Cutsem p 126). On note D FINITION 8. Le test de Kolmogorov-Smirnov est dni par la statistique de test pn,m (k ) = PH0 (U(n,m) = k ) pour k = 0, 1, . . . mn Dn,m = sup |Fn (x) Gm (x)|. xR pn,0 (k ) = p0,m (k ) = 1 pour k = 0; = 0 pour k = 0. Il consiste rejeter lhypothse H0 si Dn,m dn,m,1 . Alors pour tout k ,

(n + m)pn,m (k ) = mpn1,m (k ) + npn,m1 (k 1). P ROPOSITION 9. Si F0 est continue, la loi de Dn,m sous lhypothse F0 = F1 est indpendante de F0 . Cette loi est tabule. Cette formule de rcurrence permet de calculer la loi de U(n,m) sous H0 . Remarque. Pour faire un test unilatral ( H0 : F0 = F1 contre H1 : F0 On peut aussi utiliser un rsultat asymptotique : F1 ) , on utilise la statistique de test T HORME 11. (Hajek (1968)) (admis) + Dn,m = sup(Fn (x) Gm (x)). Sous H0 ,
xR

U(n,m) EH0 (U(n,m) ) VarH0 (U(n,m) )

N (0, 1) quand n , n/(n+m) ]0, 1[.

Loi

Tests non paramtriques

On utilise ce rsultat en pratique si n, m 8. EH0 (U(n,m) ) = VarH0 (U(n,m) ) = mn mn , 2 n+m+1 12 .

continues. Le principe du test consiste dtermniner le nombre de variables du deuxime chantillon qui sont suprieures la mdiane de lensemble des observations. On note N = n + m. D FINITION 12. Le test de la mdiane est dni partir de la statistique Mn,m = 1 m
m

1Rj > N +1 . 2 Il existe une autre forme quivalement de ce test, appel test de la somme des j =1 rangs de Wilcoxon, qui consiste calculer la somme des rangs des individus Pour tester H0 : F0 = F1 contre H1 : F0 F1 , on rejette H0 si Mn,m du deuxime chantillon : mn,m,1 .
m

Wn,m =
j =1

Rj

Exemple dapplication : Test de localisation. X1 , . . . , Xn sont i.i.d. de fonction de rpartition F0 et Y1 , . . . , Ym sont i.i.d. de fonction de rpartition o Rj reprsente le rang de Yj dans lchantillon complet ordonn : on note F = F (. ). Par exemple, on tudie la pression artrielle de patients sou1 0 (Z1 , . . . , Zn , Zn+1 , . . . , ZN ) = (X1 , . . . , Xn , Y1 , . . . , Ym ). On pose pour tout mis un traitement contre lhypertension (Y ), et on les compare des patients j j de 1 m non traits (Xi ). Supposons quaprs traitement, la loi de la pression artrielle N est translate de . Le traitement est efcace si < 0, il est inefcace si = 0. R = 1 + 1.
j Zi <Yj i=1

On a la relation

Loi de Mn,m sous H0 : Supposons N pair.

m(m + 1) k N/2k Cm Cn . k { 0 , . . . , m } , P ( mM = k ) = . n,m 2 N/2 CN Les deux statistiques conduisent donc au mme test. Traitement des ex-aequos : Nous avons suppos les lois continues, donc la Il sagit dune loi hypergomtrique de paramtre (N, N/2, m). La connaisprobabilit davoir des ex-aequos est nulle. En pratique, soit parce que les lois sance de la loi de Mn,m sous H0 permet de dterminer la zone de rejet du test. ne sont pas continues, soit parce quon a des mesures arrondies, on peut avoir des ex-aequos. Dans ce cas, la solution la plus couramment employe dans 1 EH0 (M(n,m) ) = si N pair (2) les logiciels est la mthode des rangs moyens. Elle consiste affecter tous 2 les lements dun groupe dex-aequos la moyenne des rangs des lements du N 1 = si N impair (3) groupe. 2N U(n,m) = Wn,m

3.3

Test de la mdiane

* VarH0 (M(n,m) ) = = n si N pair 4m(N 1) n(N + 1) si N impair 4mN 2 (4) (5)

On considre deux chantillons indpendants : X1 , . . . , Xn i.i.d. de fonction de rpartition F0 et Y1 , . . . , Ym i.i.d. de fonction de rpartition F1 . On veut tester H0 : F0 = F1 contre H1 : F0 F1 . on suppose que F0 et F1 sont

Tests non paramtriques

* Pour n, m 30, on peut approximer la loi de M(n,m) sous H0 par la loi N (EH0 (M(n,m) ), VarH0 (M(n,m) )). Remarque. Les tests de Wilcoxon, Mann-Withney et de la mdiane ne permettent pas de tester des alternatives bilatrales.

4.3

Test de Shapiro-Wilk

Il sagit dun test bas sur les L-statistiques (combinaison linaire des statistiques dordre), qui se base sur une comparaison de la variance empirique avec un estimateur de la variance des Xi qui a de bonnes proprits sous lhypothse de normalit. 4.3.1 Estimation de la moyenne et de la variance laide des statistiques dordre pour des lois symtriques

4
4.1

Tests de normalit
Mthode graphique : droite de Henry

Soit X1 , . . . , Xn i.i.d.. On note = E(Xi ) et 2 = Var(Xi ). La loi de La mthode est aussi appele Normal Probability Plot ou Q-Q Plot. On Yi = (Xi )/ est suppose symtrique (ce qui signie que Yi a mme loi reprsente le graphe des points (X(i) , F 1 Fn (X(i) )), o X(1) . . . X(n) que Yi ). On note (X(1) , . . . , X(n) ) lchantillon des Xi ordonn : est lchantillon ordonn, Fn la fonction de rpartition empirique de lchan- X(1) . . . X(n) . On note (Y(1) , . . . , Y(n) ) lchantillon des Yi ordonn. On tillon (X1 , . . . , Xn (notons que Fn (X(i) ) = i/n) et F reprsente la fonction a de rpartition de la loi N (0, 1). Sous lhypothse que les Xi sont i.i.d. de loi Y(i) = (X(i) )/. normale, les points (X(i) , F 1 Fn (X(i) )) sont pratiquement aligns. Pour i = 1, . . . , n, on note

4.2

Test de normalit de Kolmogorov

Soit X1 , . . . , Xn i.i.d. de fonction de rpartition F . On souhaite tester lhypothse H0 : les Xi suivent une loi normale, contre lhypothse H1 : les Xi ne suivent pas une loi normale. On note = 1 X n 1 Xi , S = n 1 i=1
2 n n

i = E(Y(i) ), On a alors

Bi,j = Cov(Y(i) , Y(j ) ).

X(i) = + i + i , ) . (Xi X
2

avec E(i ) = 0. Les i ne sont pas indpendantes. La matrice de variancecovariance du vecteur = (1 , . . . , n ) est 2 B . On note 1 et les vecteurs de Rn denis par Le test de normalit de Kolmogorov utilise la statistique de test 1 1 Tn = sup |Fn (x) F(X,S 2 ) (x)| 1 2 xR . 1 = . , = . S 2 ). Le test . . o F(X,S 2 ) est la fonction de rpartition de la loi normale N (X, consiste rejeter lhypothse de normalit pour de grandes valeurs de Tn . 1 n
i=1

P ROPOSITION 13. Sous lhypothse H0 , (les Xi suivent une loi normale N (m, 2 )), la loi de Tn ne dpend pas de (m, 2 ). La loi de Tn est tabule (on peut par exemple la simuler avec m = 0 et = 1 pour en estimer les quantiles).

On note A la matrice de taille (n, 2) dnie par A = (1, ). Enn, on note X(.) = (X(1) , . . . , X(n) ) et = (1 , . . . , n ) . On a la relation X(.) = A + .

Tests non paramtriques

Lestimateur des moindres carrs pondrs de (, ) est obtenu en minimisant On peut lcrire sous la forme en les paramtres (, ) le critre : X(.) A B 1 X(.) A SWn = . avec (a1 , . . . , an ) =

ai X(i) n 2, ( X i Xn ) i=1 B 1 . ( B 1 B 1 )1/2

n i=1

On obtient comme solution de ce systme n n = (A B 1 A)1 A B 1 X(.) .

La zone de rejet est de la forme (SWn cn,1 ). Les ai sont tabuls, ce qui permet de calculer facilement SWn , les quantiles (cn,1 ) sont galement tabuls.

(cf Cours sur le modle linaire) A B 1 A = 1 B 1 1 1 B 1 B 1 1 B 1 .

L EMME 14. Lorque la loi des Yi est symtrique, 1 B 1 = 0 , la matrice A B 1 A est donc diagonale. Il en rsulte que n = 1 B 1 X(.) , 1 B 1 1 n = B 1 X(.) . B 1

On peut montrer que, si la loi des Yi nest pas symtrique, n sous-estime . 4.3.2 Test de Shapiro-Wilk

D FINITION 15. Soit Y1 , . . . Yn i.i.d. de loi N (0, 1) et Y(1) . . . Y(n) lchantillon ordonn. Soit = (E(Y(1) ), . . . E(Y(n) )) . Soit B la matrice de covariance du vecteur (Y(1) , . . . , Y(n) ) . Le test de Shapiro-Wilk pour tester lhypothse de normalit des Xi est bas sur la statistique de test : SWn =
2 n ( B 1 )2 n 2 ) 2 i=1 (Xi Xn ) ( B

You might also like