You are on page 1of 57

LICENCE Scientifique

Cours de Statistiques (2e partie) *


Henri IMMEDIATO

* Ce cours reprend dans ses grandes lignes le cours de Mme F. Duheille-Bienvenüe (MASS 42, 2001, Université Claude
Bernard - Lyon 1) dont on n'a pu qu'apprécier la clarté et la concision.

Chapitre 1. Méthodes de simulation d'un


échantillon.
Effectuer une simulation consiste à générer des données qui sont des réalisations de variables
déterministes ou aléatoires selon des lois données, afin d'étudier et de comprendre le fonctionnement
de systèmes économiques, industriels, scientifiques, politiques, etc.

Exemples : simulation d'un trafic urbain, de gestion d'un hôpital, d'évolution d'une population, de
variations boursières, etc.

Une simulation permet de provoquer le déroulement d'une expérience de façon rapide et


économique, et permet aussi d'éviter les dangers liés à la réalisation de certaines expériences à
l'échelle réelle. Elle permet aussi de répéter l'expérience en faisant varier les paramètres. Enfin elle
aide à l'élaboration de techniques de prévision et d'amélioration.

1.1. Méthodes de Monte-Carlo.


1.1.1. Principe d'une méthode de Monte-Carlo.

Une méthode de Monte-Carlo consiste à calculer un échantillon de loi


déterminée à partir d'un échantillon de loi uniforme (nombres choisis au hasard à
l'aide d'une table de nombres au hasard, ou nombres pseudo-aléatoires générés par
un logiciel).
Rappelons qu'on appelle n-échantillon indépendant tout n-uple (X 1, ... , X n) de
variables aléatoires indépendantes et identiquement distribuées (c'est-à-dire de
même loi), ou, si l'on aime les sigles ésotériques, VA iid.

Résultat fondamental : pour une variable aléatoire U de loi uniforme, ou


constante, sur l'intervalle [0, 1], X et F X–1 (U) ont la même loi de probabilité.

Condition : F X, fonction de répartition de X, est une bijection de R sur ]0, 1[.

Etant donné un échantillon U 1, ... , U n, de nombres choisis au hasard dans


l'intervalle ] 0, 1 [, les variables aléatoires F X–1 (U 1), ... , F X–1 (U n), forment un
échantillon de la loi de X.

Cette méthode est utile pour :

— construire un échantillon de loi connue permettant d'étudier


les paramètres d'un échantillon de loi inconnue,
— donner une estimation d'un paramètre, d'une constante,
d'une intégrale,
— etc.

1.1.2. Application pratique de la méthode de Monte-Carlo avec la fonction de


répartition.

Etant donnée une variable aléatoire X :

— on fixe a priori, à l'aide de la fonction de répartition de X,


pour chaque nombre choisi au hasard, une valeur de X (c'est ce
qu'on appelle la transformation par quantile).
— on tire au sort n nombres au hasard,
— on en déduit n valeurs de X qui constituent la réalisation
d'un échantillon de X.

1.1.2.1. Simulation d'une


variable aléatoire X de
Bernoulli de paramètre p.

— pour chaque nombre u i, 1


≤ i ≤ n, choisi au hasard dans
l'intervalle [0, 1] des valeurs
de la fonction de répartition,
on prend
x i = 0 si u i ∈ [0, 1 – p],
x i = 1 si u i ∈ ] 1 – p, 1].
Cela revient à tracer un trait
horizontal à l'ordonnée u i et à
regarder où il coupe la courbe représentative de la fonction de répartition de X, les points
de discontinuité étant rejoints par un trait vertical : l'abscisse du point d'intersection est
x i.
— (x 1, ... , x n) est la réalisation d'un n-échantillon de X :
P (X = 1) = P (U ∈ ] 1 – p, 1]) = p.

Remarque.

Dès qu'on sait simuler une loi de Bernoulli, on sait simuler les lois qui en dérivent : loi
géométrique (nombre d'épreuves pour arriver à un succès), somme de variables
géométriques de même paramètre (nombre d'épreuves pour arriver à k succès), loi
binomiale (nombre de succès en n épreuves).
Exemple (engendré avec la fonction ALEA d'Excel).

Uniforme sur [0;1] 0.175 0.693 0.162 0.822 0.024 0.051 0.720 0.882 0.069 0.797 0.489 0.206 0.675 0.546 0.880 0.086 0.346 0.986 0.604 0.005
Bernoulli (0.32) 0 1 0 1 0 0 1 1 0 1 0 0 0 0 1 0 0 1 0 0
Geom*(0.32) 2 2 3 1 2 5 3
Somme de 2 Geom*(0.32) 4 4 7
Binom(20;0.32) 15

Uniforme sur [0;1] 0.133 0.230 0.802 0.210 0.351 0.806 0.850 0.238 0.282 0.166 0.371 0.332 0.521 0.115 0.751 0.428 0.999 0.065 0.516 0.533
Bernoulli (0.32) 0 0 1 0 0 1 1 0 0 0 0 0 0 0 1 0 1 0 0 0
Geom*(0.32) 5 3 1 8 2
Somme de 2 Geom*(0.32) 8 4 10
Binom(20;0.32) 22

Uniforme sur [0;1] 0.497 0.008 0.407 0.815 0.800 0.168 0.795 0.552 0.383 0.331 0.366 0.036 0.804 0.604 0.340 0.372 0.002 0.036 0.753 0.561
Bernoulli (0.32) 0 0 0 1 1 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0
Geom*(0.32) 7 1 2 6 6
Somme de 2 Geom*(0.32) 8 8
Binom(20;0.32) 16
Uniforme sur [0;1] 0.507 0.315 0.122 0.554 0.387 0.506 0.199 0.025 0.831 0.292 0.862 0.105 0.240 0.651 0.352 0.487 0.027 0.650 0.116 0.281
Bernoulli (0.32) 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0
Geom*(0.32) 10 2
Somme de 2 Geom*(0.32) 16
Binom(20;0.32) 16

Uniforme sur [0;1] 0.794 0.714 0.330 0.965 0.643 0.117 0.747 0.403 0.888 0.275 0.802 0.136 0.352 0.356 0.759 0.982 0.911 0.473 0.558 0.634
Bernoulli (0.32) 1 1 0 1 0 0 1 0 1 0 1 0 0 0 1 1 1 0 0 0
Geom*(0.32) 10 1 2 3 2 2 4 1 1
Somme de 2 Geom*(0.32) 12 3 5 6 2
Binom(20;0.32) 28
1.1.2.2. Simulation d'une variable aléatoire X de loi discrète à support borné ou
non.

— pour chaque nombre u i, 1 ≤ i ≤ n, choisi au hasard dans l'intervalle [0, 1] des valeurs
de la fonction de répartition, on prend pour valeur x i de X, l'abscisse du point
d'intersection de la droite d'ordonnée u i avec la courbe représentative de la fonction de
répartition de X.
— (x 1, ... , x n) est la réalisation d'un n-échantillon de X.

1.1.2.3. Simulation d'une


variable aléatoire X de loi
continue à support borné ou
non.

— pour chaque nombre u i, 1


≤ i ≤ n, choisi au hasard dans
l'intervalle [0, 1] des valeurs
de la fonction de répartition,
on prend pour valeur x i de X,
l'abscisse du point
d'intersection de la droite
d'ordonnée u i avec la courbe représentative de la fonction de répartition de X.
— (x 1, ... , x n) est la réalisation d'un n-échantillon de X.
— Si la fonction de répartition n'est continue que par morceaux, on joint les points de
discontinuité par des segments verticaux, la longueur du segment étant la probabilité de
l'abscisse.

1.1.3. Autres applications pratiques de la méthode de Monte-Carlo.

Comme il n'est pas toujours facile de déterminer la valeur de x i à partir de u i et de la fonction


de répartition de X, on utilise souvent des méthodes particulières à chaque type de loi.

1.1.3.1. Simulation d'une variable aléatoire X de loi géométrique sur N* de


paramètre p.

— On a vu plus haut comment procéder. Au lieu d'utiliser la fonction de répartition, on


utilise la propriété de la loi géométrique sur N * : c'est la loi de probabilité du nombre
de répétitions d'une épreuve de Bernoulli qu'il faut pour atteindre un premier succès.
— On tire une suite de nombres au hasard dans l'intervalle [0, 1].
— On en déduit une suite de 0 ou 1, valeurs d'une variable de Bernoulli de paramètre p,
d'après 1.1.2.1 et la fonction de répartition de la variable de Bernoulli.
— Dans cette suite, on compte le nombre de termes x 1 qu'il faut pour atteindre un 1
(premier succès de l'épreuve de Bernoulli), puis le nombre x 2 de termes suivants, qu'il
faut pour atteindre le 1 suivant, etc.
— La suite des x i est un échantillon de loi géométrique sur N * de paramètre p.
— L'inconvénient de la méthode est qu'il faut en moyenne nombres aléatoires u i pour
engendrer une valeur x i.
L'avantage de la méthode est qu'elle dispense du calcul de logarithme nécessité par la
fonction réciproque de la fonction de répartition de la loi géométrique :
X=1+ , où [ x ] désigne la partie entière de x.

1.1.3.2. Simulation d'une variable aléatoire X de loi binomiale de paramètres n et


p.

— On a vu plus haut comme procéder. Au lieu d'utiliser la fonction de répartition, on


utilise la propriété de la loi binomiale de paramètres n et p : c'est la loi de probabilité du
nombre de succès dans la répétition n fois d'une épreuve de Bernoulli.
— On tire une suite de nombres au hasard dans l'intervalle [0, 1].
— On en déduit une suite de 0 ou 1, valeurs d'une variable de Bernoulli de paramètre p,
d'après 1.1.2.1 et la fonction de répartition de la variable de Bernoulli.
— Dans cette suite, on compte le nombre de succès x 1 qu'on obtient en n épreuves,
puis le nombre x 2 de succès dans les n épreuves suivantes, etc.
— La suite des x i est un échantillon de loi binomiale de paramètres n et p.
— L'inconvénient de la méthode est qu'il faut n nombres aléatoires u i pour engendrer
une valeur x i.
L'avantage de la méthode est qu'elle dispense du calcul de la fonction réciproque de
la fonction de répartition de la loi binomiale.

Méthode alternative.

— On tire une suite (u i) 1 ≤ i ≤ n


de nombres au hasard dans
l'intervalle [0, 1].
— Pour chaque indice i, on
pose y 1 = u i, puis
yj+1 =

pour 1 ≤ j ≤ k – 1.
On désigne par x i le
nombre de y j compris entre 1 – p et 1.

Explication.

Cet algorithme revient à définir, à partir de la variable aléatoire U de loi uniforme sur [0,
1], d'abord une suite (Y j) 1 ≤ j ≤ k de variables aléatoires à valeurs dans [0, 1] par Y 1 = U
puis
Yj+1 = 1 [0, 1 – p] (Y j) + 1 ]1 – p, 1] (Y j)

et X = 1 ]1 – p, 1] (Y j).

Y 1 = U suit une loi uniforme sur [0, 1]. Donc la probabilité que Y 1 prenne une valeur
dans un intervalle de longueur a contenu dans [0, 1] est a.
Supposons, hypothèse de récurrence, que la probabilité que Y j prenne une valeur dans
un intervalle de longueur a contenu dans [0, 1] soit a, pour tout a ∈ ]0, 1[.
D'après le dessin et la définition de Y j + 1, Y j + 1 est compris entre x et x + a lorsque Y j est
compris entre x (1 – p) et (x + a)(1 – p), ou entre p x + (1 – p) et p (x + a) + (1 – p) :
P [x < Y j + 1 ≤ x + a] = P [x (1 – p) ≤ Y j ≤ (x + a)(1 – p)] + P [p x + (1 – p) ≤ Y j ≤ p (x +
a) + (1 – p)]
= a (1 – p) + a p = a.
Donc l'hypothèse de récurrence est vraie encore pour j + 1, dès qu'elle est vraie pour j.
Le résultat est donc établi pour tout j ∈ N * puisqu'il est vrai pour j = 1 :

La probabilité que Y j prenne une valeur dans un intervalle de longueur


a contenu dans [0, 1] est égale à a, pour tout a ∈ ]0, 1[.

La loi conjointe de 1 [0, 1 – p] (Y j) et 1 [0, 1 – p] (Y j + 1) est donnée par :

1 [0, 1 – p] (Y j)
1 [0, 1 – p] (Y j + 1) 0 1 Total
0 p² p (1 – p) p
1 p (1 – p) (1 – p) ² 1 – p
Total p 1–p 1

En effet, on connaît déjà les lois marginales d'après le résultat précédent.


Il suffit donc de calculer une seule des quatre probabilités conjointes pour avoir les trois
autres par différence.
Calculons, par exemple :

P [{1 [0, 1 – p] (Y j + 1) = 1}  {1 [0, 1 – p] (Y j) = 1}] = P [{1 [0, 1 – p] (Y j + 1) = 1} | {1 [0, 1 – p] (Y j)


= 1}] × P [{1 [0, 1 – p] (Y j) = 1}]
= P [0 ≤ Y j + 1 ≤ 1 – p} | {0 ≤ Y j ≤ 1 – p}] × P [{0 ≤ Y j ≤ 1 – p}]

P [0 ≤ Y j + 1 ≤ 1 – p} | {0 ≤ Y j ≤ 1 – p}] = =1–p

P [{1 [0, 1 – p] (Y j + 1) = 1}  {1 [0, 1 – p] (Y j) = 1}] = (1 – p) × (1 – p) = (1 – p) ².


C'est bien la valeur indiquée dans le tableau des probabilités conjointes.

Le tableau de la loi conjointe montre que les probabilités conjointes peuvent aussi
s'obtenir par produit des lois marginales :
donc deux variables aléatoires consécutives 1 [0, 1 – p] (Y j) et 1 [0, 1 – p] (Y j + 1) sont
indépendantes.
On peut en déduire que les variables aléatoires 1 [0, 1 – p] (Y j) sont indépendantes dans leur
ensemble (résultat admis ici)

La variable aléatoire X suit une loi binomiale de paramètres k et p, parce que X est
somme de k variables aléatoires de Bernoulli indépendantes de paramètre p, car chaque
variable aléatoire 1 ]1 – p, 1] (Y j) est une variable de Bernoulli de paramètre p :
P [1 ]1 – p, 1] (Y j) = 1] = P [1 – p < Y j ≤ 1] = 1 – (1 – p) = p, pour j ≥ 1, d'après le
résultat précédent.

Le n-uple (x 1, ... , x n) forme ainsi une réalisation d'un n-échantillon de loi binomiale de
paramètres k et p.

L'avantage de la méthode est qu'il suffit d'une valeur de U pour définir une valeur de X.

1.1.3.3. Simulation d'une variable aléatoire X de loi exponentielle de paramètre λ.

La densité de probabilité est f (x) = λ e – λ x 1 R (x).


+
–λx
La fonction de répartition est F (x) = (1 – e ) 1 R (x).
+

La fonction réciproque de la fonction de répartition est F – 1 (u) = – ln (1 – u), u ∈ ] 0,


1 [.

Pour chaque nombre aléatoire u i ∈ ] 0, 1 [, on pose x i = – ln (1 – u i).


On obtient ainsi un échantillon de variable de loi exponentielle de paramètre λ.

Remarque.

Dès qu'on sait simuler une loi exponentielle, on sait simuler la loi Gamma de
paramètres n et λ qui en découle : Y = X 1 + ... + X n, où X 1, ... , X n, suivent une loi
exponentielle de même paramètre λ.

1.1.3.4. Simulation d'une variable aléatoire X de loi de Cauchy.

La densité de probabilité est f (x) = .

La fonction de répartition est F (x) = (Arctan x + ).

La fonction réciproque de la fonction de répartition est F – 1 (u) = – tan (π u – ) = –


cotan (π u).

Pour chaque nombre aléatoire u i ∈ ] 0, 1 [, on pose x i = – cotan (π u i).


On obtient ainsi un échantillon de variable de loi de Cauchy.
1.2. Méthode de rejet de Von Neumann.
1.2.1. Méthode.

On suppose que l'on sait simuler une


variable aléatoire Y de loi de
probabilité g.
On cherche à simuler une variable
aléatoire X de densité de probabilité f
vérifiant
f (x) = c h (x) g (x), avec 0 ≤ h (x) ≤
1, pour tout x.
La méthode de rejet de Von
Neumann consiste à :
— tirer U selon une loi uniforme sur
[0, 1] ;
— tirer Y selon la loi de densité g, jusqu'à ce que h (Y) ≥ U ;
— puis recommencer : valeur de U, valeur de Y jusqu'à ce que h (Y) ≥ U, ...
Les valeurs retenues x i de Y forment une réalisation d'un échantillon de loi f.

1.2.2. Justification.

Soit (U i) i ∈ N * une suite de variables aléatoires indépendantes et identiquement distribuées de loi


uniforme sur [0, 1].
Soit (Y i) i ∈ N * une suite de variables aléatoires indépendantes et identiquement distribuées de loi g,
indépendante de la suite (U i) i ∈ N *.
Soit T le nombre d'essais nécessaires pour obtenir la condition d'acceptation de la valeur de Y.

On peut écrire X sous la forme X = Y n 1 {T = n}.

L'événement {T = n} est la conjonction des événements {U i > h (Y i)} et {U n ≤ h (Y n)}.

Or, pour tout indice j ∈ N *, on a :

P [{U j ≤ h (Y j)}] = du g (y) dy = g (y) h (y) dy = g (y) dy = f (y)

dy = .

n–1
De sorte que, par suite de l'indépendance des variables, P [{T = n}] = × 1– .
Cette égalité qui montre que T suit une loi géométrique sur N *, de paramètre .

La probabilité de l'événement X ≤ x est donnée par :


X= Y n 1 {T = n} ≤ x

P [X ≤ x] = P [{Y n ≤ x}  {T = n}]

n–1
= 1– P [{Y n ≤ x}  {U n ≤ h (Y n)}]

n–1
Or 1– = =c

Donc :

P [X ≤ x] = c du g (y) dy

=c h (y) g (y) dy

= f (y) dy

Ceci montre que X est une variable aléatoire de densité de probabilité f.

Remarque.

L'espérance mathématique de T est c.


Plus c est petit, moins il faut d'essais, en moyenne, pour obtenir une valeur de X.
On aura donc intérêt à prendre la plus petite valeur possible de c, par exemple celle qui fait que les
courbes représentatives de f et de c g sont tangentes.

Application : simulation de la normale centrée réduite.

La densité de probabilité est f (x) = e .

On commence par simuler une variable aléatoire A ayant pour densité de probabilité celle de la
valeur absolue d'une variable normale centrée réduite.
La densité de probabilité de A est de la forme c h (x) g (x) avec c = , g (x) = e – x, h (x) = e

.
g est la densité de probabilité d'une variable exponentielle de paramètre 1 : on sait la simuler
(1.1.3.3).
La méthode de rejet de Von Neumann permet donc de simuler A.
On sait simuler aussi une variable discrète ε prenant les valeurs 1 et – 1 avec les probabilités .

La variable aléatoire X = ε A suit une loi normale centrée réduite.


1.3. Méthode polaire de simulation d'une variable normale.
Si U et V sont des variables aléatoires indépendantes de loi uniforme sur [0, 1], alors les variables

X= cos (2 π V) et Y = sin (2 π V)

sont des variables aléatoires normales centrées réduites indépendantes.

X ² + Y ² = – 2 ln U

U=e
tan (2 π V) =

V= Arctan

En effet, l'espérance d'une fonction h de X et Y est donnée par :

E [h (X, Y)] = h( cos (2 π V), sin (2 π V)) dU dV

= h (x, y) dx dy

= h (x, y) dx dy

= h (x, y) e dx dy = h (x, y) e e dx dy

Et ceci montre que les variables X et Y sont indépendantes et suivent chacune la loi normale centrée
réduite.

Remarque.

Dès qu'on sait simuler une variable aléatoire X de loi normale centrée réduite, on sait simuler les lois
qui en découlent :
— loi normale de paramètres µ et σ ² : Y = µ + σ X, où X suit une loi normale centrée réduite ;
— loi χ ² de Karl Pearson à ν degrés de liberté : χ ν ² = X 1 ² + ... + X ν ², où X 1, ... , X ν, suivent une
loi normale centrée réduite.

— loi de Student à ν degrés de liberté : T = , où X suit une loi normale centrée réduite et χ ν

² une loi de Pearson à ν degrés de liberté ;


— loi F de Fisher-Snedecor à (n 1, n 2) degrés de liberté : F = , où χ n ² suit une loi de
1

Pearson à n 1 degrés de liberté, et χ n ² une loi de Pearson à n 2 degrés de liberté.


2
Chapitre 2. Estimation ponctuelle et par
intervalle de confiance.
2.1. Estimation d'un pourcentage.
Soit F la fréquence d'une modalité d'un caractère (qualitatif ou quantitatif) dans
un échantillon de taille n, et f sa réalisation dans l'échantillon dont on dispose.
Soit p la probabilité de cette modalité dans la population parent.
Le nombre X d'individus d'un échantillon de taille n présentant la modalité
étudiée, suit une loi binomiale de paramètres n et p : E (X) = n p, Var (X) = n p (1 –
p).
F= ; E (F) = E (X) = p ; Var (F) = Var (X) = .

2.1.1. Estimation ponctuelle.

F est un estimateur sans biais de p : E (F) = p.


On obtient une estimation ponctuelle sans biais de p en prenant la réalisation f de F
dans l'échantillon :

p*=f

2.1.2. Intervalle de confiance.

F est un estimateur robuste de p : Var (F) = 0.

On obtient une estimation ponctuelle sans biais de Var (F) en prenant la réalisation
de l'estimateur de cette variance dans l'échantillon.

Petits échantillons : Abaque.


Pour les petites valeurs de n, on peut calculer un intervalle de confiance
de p à partir de la loi binomiale. En abscisse, on lit la valeur de f ; en
ordonnées, on obtient les limites de l'intervalle de confiance au risque
choisi pour construire l'abaque.

Grands échantillons : Loi normale.


Pour les grandes valeurs de n, la loi binomiale se rapproche d'une loi
normale.
F est un estimateur de p, correct (sans biais et robuste) et
asymptotiquement gaussien (sa fonction de répartition tend
uniformément, lorsque n tend vers l'infini, vers une fonction de
répartition normale).
L'intervalle de confiance de p au risque α est donné par :

f – uα ; f + uα

où u α est la valeur de u telle que F (u) = 1 – (F fonction de répartition


de la variable normale centrée réduite).
Valeur à connaître : α = 5 % ⇒ u α = 1,960.

2.2. Estimation d'une moyenne.


On considère un échantillon aléatoire (X 1, ... , X n) d'une variable aléatoire réelle X et une
réalisation (x 1, ... , x n) de cet échantillon.

(X) = X i est un estimateur correct et asymptotiquement gaussien de E (X).

2.2.1. Estimation ponctuelle.

E * (X) = xi

2.2.2. Intervalle de confiance.

Petit échantillon de loi connue.


Un intervalle de confiance de E (X) peut se calculer éventuellement grâce à cette
loi.

Echantillon de loi normale (ou supposée normale) et de variance σ ² inconnue.


La fonction de répartition F n – 1 de la variable de Student à n – 1 degrés de liberté,
permet de calculer un intervalle de confiance de la moyenne au risque α :

E * (X) – t α ; E * (X) + t α

où t α est la valeur de t telle que F n – 1 (t) = 1 – ,


et où σ * est la racine carrée de l'estimation ponctuelle de la variance :

σ*²= xi ² – xi

Si la taille est grande (dépassant les capacités de la table), la loi de Student peut
être remplacée par une loi normale.

Echantillon de loi normale (ou supposée normale) et de variance σ ² connue.


La fonction de répartition F de la variable normale centrée réduite permet de
calculer un intervalle de confiance de la moyenne au risque α :

E * (X) – u α ; E * (X) + u α

où u α est la valeur de u telle que F (u) = 1 – .


Valeur à connaître : α = 5 % ⇒ u α = 1,960.

Echantillon de loi quelconque, de grande taille et de variance σ ² connue.


La fonction de répartition F de la variable normale centrée réduite permet de
calculer un intervalle de confiance de la moyenne au risque α :

E * (X) – u α ; E * (X) + u α

où u α est la valeur de u telle que F (u) = 1 – .


Valeur à connaître : α = 5 % ⇒ u α = 1,960.

Echantillon de loi quelconque, de grande taille et de variance σ ² inconnue.


La fonction de répartition F de la variable normale centrée réduite permet de
calculer un intervalle de confiance de la moyenne au risque α :

E * (X) – u α ; E * (X) + u α

où u α est la valeur de u telle que F (u) = 1 – .


et où σ * est la racine carrée de l'estimation ponctuelle de la variance :

σ*²= xi ² – xi

Valeur à connaître : α = 5 % ⇒ u α = 1,960.

2.3. Estimation d'une variance.


On considère un échantillon aléatoire (X 1, ... , X n) de taille n d'une variable aléatoire réelle X et
une réalisation (x 1, ... , x n) de cet échantillon.

² (X) = Xi ² – Xi est un estimateur correct et asymptotiquement

gaussien de Var (X).

2.3.1. Estimation ponctuelle.

La réalisation de ² (X) est une estimation ponctuelle de la variance :

σ*²= xi ² – xi

2.3.2. Intervalle de confiance.


(n – 1) est une variable de χ ² à n – 1 degrés de libertés.

L'intervalle de confiance de la variance σ ² au risque α est :

(n – 1) ; (n – 1)

où χ ε ² désigna la valeur de χ ² pour laquelle la fonction de répartition à n – 1


χ ²) = ε.
degrés de liberté est F n – 1 (χ

Les racines carrées des bornes donnent un intervalle de confiance de l'écart-type


au risque α :

Lorsque n tend vers l'infini, la loi du χ ² se rapproche d'une loi normale.


Lorsque n est grand, on peut prendre pour intervalle de confiance de l'écart-type σ
au risque α :

σ * – uα ; σ * + uα
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 16

Chapitre 3. Tests statistiques.


3.1. Généralités sur les tests.
3.1.1. Hypothèses soumises au test.
Les statistiques développent des techniques et des méthodes qui permettent d'analyser les données
issues de l'observation, afin de cerner les caractéristiques de la population concernée et d'identifier
un modèle capable d'engendrer ces données.
Dans ce cadre, on est amené à faire des hypothèses, c'est-à-dire à émettre des assertions concernant
ces caractéristiques ou ce modèle.

Une hypothèse est dite paramétrique si elle se rapporte aux paramètres d'une loi. Elle est dite non
paramétrique dans les autres cas.

Une hypothèse paramétrique est dite simple si elle est associée à une valeur unique. Elle est dite
multiple dans les autres cas.

Le plus souvent, la situation se résume en une alternative constituée de deux hypothèses H 0 et H 1,


qui s'excluent mutuellement et qui sont appelées respectivement l'hypothèse nulle, ou fondamentale,
et l'hypothèse alternative, ou contraire.

En général, les hypothèses H 0 et H 1 ne jouent pas des rôles symétriques, et on choisit pour
hypothèse nulle H 0 l'hypothèse à laquelle on croit ou on tient, ou encore celle qui permet de faire des
calculs, ou encore celle dont le rejet est lourd de conséquences.

3.1.2. Test.
3.1.2.1. Définition.

Les hypothèses à confronter, H 0 et H 1, étant identifiées, leur validité est soumise à l'épreuve à l'aide
d'un test d'hypothèses.
Un test d'hypothèses est une règle de décision qui permet, sur la base des données obsdervées et
avec des risques d'erreur déterminés, d'accepter ou de refuser une hypothèse statistique.

3.1.2.2. Erreur, risque, niveau, puissance.

La règle de décision d'un test étant basée sur l'observation d'un échantillon et non sur la base d'une
information exhaustive, on n'est jamais sûr de l'exactitude de la conclusion : il y a donc toujours un
risque d'erreur.

L'erreur de première espèce consiste à rejeter H 0 à tort : le risque d'erreur de première espèce est
noté α, c'est le risque d'erreur que l'on prend en rejetant H 0 alors qu'elle est vraie. On l'appelle aussi
le niveau du test.

L'erreur de deuxième espèce consiste à rejeter H 1 à tort : le risque d'erreur de deuxième espèce est
noté β, c'est le risque d'erreur que l'on prend en rejetant H 1 alors qu'elle est vraie.
η = 1 – β est appelé la puissance du test.
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 17

On s'efforce de construire des tests qui limitent les risques à des niveaux jugés acceptables.
En règle générale, on impose un seuil α à ne pas dépasser (par exemple 5 %, par défaut) et, compte
tenu de cette contrainte, on cherche à construire les tests ayant la plus grande puissance possible.

3.1.2.3. Fonction discriminante.

Un test basé sur un échantillon de taille n est déterminé par une région R de R n appelée région
critique, ou région de refus de l'hypothèse H 0.
Le complémentaire A de R est appelé la région d'acceptation de H 0.

La règle de décision d'un test est la suivante : si x = (x 1, ... , x n) est le vecteur des valeurs observées,
on décide de refuser H 0 (et d'accepter H 1) si x ∈ R, et on décide d'accepter H 0 si x ∉ R.

Dans la pratique, on essaie de définir une variable aléatoire D, que l'on appelle variable de décision,
ou fonction discriminante, et dont la loi est connue, au moins sous l'hypothèse H 0.
La région critique sera alors la région dans laquelle la probabilité des valeurs de la fonction
discriminante a tendance à augmenter lorsque H 0 n'est pas vraie. Cette région est définie à l'aide du
risque α de première espèce du test.

3.1.2.4. Probabilité critique.

Si l'on note t la valeur de la fonction discriminante T, on appelle probabilité critique de l'hypothèse


H0 :
— P (T ≥ t | H 0) si T a tendance à prendre de grandes valeurs lorsque H 0 n'est pas vraie (test
unilatéral à gauche, queue de probabilité à droite) ;
— P (T ≤ t | H 0) si T a tendance à prendre de petites valeurs lorsque H 0 n'est pas vraie (test
unilatéral à droite, queue de probabilité à gauche) ;
— P (| T | ≥ | t | | H 0) si T a tendance à s'éloigner de 0 lorsque H 0 n'est pas vraie (test bilatéral).

La probabilité critique fournit une mesure de crédibilité de l'hypothèse H 0 :


— une valeur très faible de la probabilité critique signifie que H 0 n'est pas valable,
— une valeur trop élevée permet de mettre en doute le caractère aléatoire de l'expérience et la
fiabilité des données et des calculs.

3.2. Tests non paramétriques.


3.2.1. Test du Khi-deux de Pearson.
3.2.1.1. Nature et principe du test.

Le test du Khi-deux (χ ²) est un test non paramétrique qui permet de tester l'hypothèse H 0 selon
laquelle les données observées sont engendrées par un modèle faisant intervenir une loi de
probabilité, ou une famille de lois de probabilité.
Le choix du modèle résulte de diverses considérations théoriques ou expérimentales, et il importe de
tester son adéquation.

Le principe du test est le suivant.


Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 18

On définit une fonction discriminante D n qui constitue une mesure normalisée de l'écart entre les
valeurs théoriques déduites du modèle et les valeurs observées dans l'échantillon.
Lorsque H 0 n'est pas vraie, les valeurs de D n augmentent et lorsque H 0 est vraie, D n suit, au moins
asymptotiquement, une loi du χ ² de Pearson à ν degrés de liberté.
La région critique du test est donc constituée des grandes valeurs de D n.

Le risque α étant donné, on note χ 1 – α ² le fractile d'ordre 1 – α de la loi du χ ² de Pearson à ν degrés


de liberté défini par P (D n ≥ χ 1 – α ²) = α.
On note d la valeur observée de D n dans l'échantillon, et on compare la valeur de d à χ 1 – α ².
Lorsque l'approximation par la loi du χ ² de Pearson à ν degrés de liberté est valable, cette
comparaison définit la règle de décision suivante, appelée test asymptotique de niveau α :

1. Si d < χ 1 – α ², on considère que l'écart est dû au hasard de l'échantillonnage et qu'il


n'est pas significatif : on accepte H 0.
2. Si d ≥ χ 1 – α ², on considère que l'écart observé est trop important pour être attribué
aux seules fluctuations d'échantillonnage et qu'il révèle l'inadéquation du modèle : on
refuse H 0.

On peut aussi, au vu de la réalisation d de D, calculer la probabilité critique p = P [D ≥ d] et


apprécier la crédibilité de l'hypothèse H 0.

3.2.1.2. Expression et loi asymptotique de la fonction discriminante D.

Soient X le vecteur ou la variable aléatoire étudiée, (X 1, ... , X n) un n-échantillon de X, et µ la mesure


de probabilité de X lorsque H 0 est vraie.

On partage l'ensemble des valeurs X (Ω) en k classes (C i) 1 ≤ i ≤ k.


Si X est une variable aléatoire continue, les C i sont en général des intervalles ou des produits
d'intervalles.
Si X est une variable aléatoire discrète ou modale, les C i sont en général des points.

Pour tout indice i de 1 à k, on note p i la probabilité théorique de la classe C i donnée par la loi µ :

p i = P (X ∈ C i) = µ (C i) = dµ (au sens de Stieltjes),

ce qui suppose que la loi µ est entièrement déterminée.

Lorsque µ dépend de paramètres inconnus, on note la loi entièrement spécifiée obtenue en estimant
les paramètres de la loi µ (généralement par la méthode du maximum de vraisemblance), et i
= (C

)=
i
d l'estimation correspondante de la probabilité théorique de la classe C i.

Ainsi, pour tout indice i de 1 à k, n p i (resp. n i) représente l'effectif (resp. une estimation de
l'effectif) théorique espéré de la classe C i en n observations, sous l'hypothèse H 0.
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 19

Pour la validité de l'approximation par la loi du Khi-deux avec un nombre correct de degrés de
liberté, tous ces effectifs théoriques doivent, en général, être supérieurs à 5.

Pour chaque indice i de 1 à k, on note N i le nombre d'observations appartenant à la classe C i : c'est


l'effectif empirique ou observé de la classe C i.

Avec ces notations, la variable :

Dn =

représente une mesure normalisée de l'écart global entre les valeurs théoriques et les valeurs
observées.

Pour tout indice i de 1 à k, est l'écart individuel de la classe C i.

On démontre alors que D n suit asymptotiquement une loi du Khi-deux à ν degrés de liberté, avec ν
= k – r – 1, r étant le nombre de paramètres estimés de la loi théorique.

Lorsque ν = 1, il est recommandé de tenir compte de la correction de continuité en prenant

comme expression de l'écart correspondant à la classe C i.

3.2.1.3. Conditions d'application.

1. On considère que l'approximation par la loi du Khi-deux est satisfaisante si n ≥ 30 et si tous les
effectifs théoriques sont supérieurs ou égaux à 5.
Si les effectifs des classes extrêmes sont inférieurs à 5, il faut procéder à des regroupements de
classes.

2. Le choix des classes, quand il est possible, doit être tel que les effectifs théoriques soient proches
les uns des autres, quand ils ne sont pas tous égaux.

3. Le nombre k des classes, lorsqu'il est à définir, doit être à la fois assez grand pour perdre le moins
d'information possible, et assez petit pour que les effectifs des classes ne soient pas trop réduits.
Empiriquement, la formule k = [ ] (partie entière de la racine carrée de n) paraît convenable.

3.2.1.4. Principales utilisations. Disposition des calculs.

3.2.1.4.1. Test d'ajustement.

Soit X une variable aléatoire de loi L (le plus souvent inconnue).


On souhaite tester l'ajustement de celle loi à une loi connue L 0 retenue comme étant un modèle
convenable.
Cette loi L 0 peut être entièrement spécifiée ou appartenir à une famille de lois (par exemple loi
normale).
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 20

On teste donc l'hypothèse H 0 : L = L 0 contre l'hypothèse H 1 : L ≠ L 0.

Pour cela, on partage convenablement l'ensemble des valeurs de X en k classes et, sur la base de n
observations, on définit la fonction discriminante :

Dn = (si les p i sont inconnus)

ou D n = (si les p i sont connus).

Sous réserve des conditions


d'application, la fonction
discriminante D n suit une loi du
Khi-deux à n – r – 1 degrés de
liberté, où r est le nombre de
paramètres de la loi L 0 qu'il a fallu
estimer à partir des données.

On présente les données et les


résultats des calculs dans un tableau
à quatre colonnes correspondant
respectivement aux intitulés des
classes, aux effectifs observés, aux
effectifs théoriques, aux écarts.

Connaissant le niveau α du test, on peut calculer la valeur critique de D n, à laquelle on compare la


valeur observée d de D n.
On peut aussi calculer, à partir de la valeur observée d de D n, la probabilité critique, qui permet
d'apprécier la crédibilité de l'hypothèse H 0.

3.2.1.4.2. Test d'indépendance.

On considère deux caractères A et B, quantitatifs ou qualitatifs.


Le caractère A présente r modalités (r classes si A est quantitatif). Le caractère B présente s
modalités (s classes si B est quantitatif).
Les effectifs conjoints sont répartis en k = r s modalités A i f B j.
On souhaite tester l'hypothèse H 0 : les caractères A et B sont indépendants, contre l'hypothèse H 1 :
les caractères A et B ne sont pas indépendants.
On appelle N i j l'effectif observé de la modalité conjointe A i f B j et n i j sa réalisation dans

l'échantillon de taille n = Nij = n i j étudié.

Ni. = N i j est l'effectif marginal de la modalité A i et n i . sa réalisation dans l'échantillon étudié ;

N.j = N i j est l'effectif marginal de la modalité B j et n . j sa réalisation dans l'échantillon étudié.


Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 21

On note p i la probabilité de la modalité A i, et q j la probabilité de la modalité B j.


Sous l'hypothèse d'indépendance H 0, la probabilité de la modalité conjointe A i f B j est p i q j et
l'effectif théorique espéré dans un échantillon de taille n est n p i q j.

Mais p i et q j sont inconnus, il faut donc les estimer par i


= et j
= : l'effectif théorique

espéré est alors une variable aléatoire C i j = n i j


= , qui prend, dans l'échantillon de taille

n, la valeur c i j = .

L'écart correspondant à la modalité A i f B j est . Il prend dans l'échantillon la valeur d i j

= et l'écart entre la distribution d'effectifs observés et la distribution théorique

espérée sous l'hypothèse d'indépendance est mesurée par la valeur d = de la

fonction discriminante D n.

Ici, le nombre de paramètres estimés est (r – 1) + (s – 1) et le nombre de degrés de liberté est :


ν = r s – 1 – [(r – 1) + (s – 1)] = (r – 1) (s – 1).
Si les conditions d'application sont vérifiées, la fonction discriminante suit une loi du Khi-deux à ν =
(r – 1) (s – 1) degrés de liberté.

Les données et les calculs sont présentés dans un tableau à r + 2 lignes et s + 2 colonnes :
— dans la première colonne, figurent les modalités du caractère A ; dans la première ligne, figurent
les modalités du caractère B ;
— dans la dernière ligne, figurent les effectifs marginaux des modalités de B ; dans la dernière
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 22

colonne, figurent les effectifs marginaux des modalités de A ;


— dans chaque case du tableau de contingence restant figurent : les effectifs observés n i j, les

effectifs théoriques espérés c i j, les écarts d i j = correspondants.

Connaissant le niveau α du test, on peut calculer la valeur critique de D n, à laquelle on compare la

valeur observée d = d i j de D n.

On peut aussi calculer, à partir de la valeur observée d de D n, la probabilité critique, qui permet
d'apprécier la crédibilité de l'hypothèse H 0.

3.2.1.4.3. Test d'homogénéité.

On considère ici la répartition d'un caractère A, qualitatif ou quantitatif, dans s populations, B 1, ... , B
s
.
Le caractère A présente r modalités, A 1, ... , A r.
Le problème est de savoir si, au vu d'un échantillon, la répartition du caractère A dépend ou non de la
population.
On teste donc :
— l'hypothèse H 0 : la répartition du caractère A est indépendante de la population,
contre :
— l'hypothèse H 1 : la répartition du caractère A n'est pas indépendante de la population.

Le problème est exactement du même type que le précédent : seule la formulation change un peu.
La présentation, les calculs et la conclusion, se font donc de manière tout à fait analogue à ce qui
vient d'être fait dans le test d'indépendance.

3.2.2. Test d'ajustement de Kolmogorov-Smirnov.


Le test d'ajustement de Kolmogorov-Smirnov est un test non paramétrique qui permet de tester
l'hypothèse H 0 selon laquelle les données observées sont engendrées par une loi de probabilité
théorique considérée comme étant un modèle convenable.
Mais contrairement au test Khi-deux, la loi théorique doit ici être continue et entièrement spécifiée,
sans paramètre inconnu.

Dans ce test, les calculs sur les lois de probabilité se font sur les fonctions de répartition : on mesure
l'écart entre la fonction de répartition théorique et la fonction de répartition observée.

On considère ainsi une variable aléatoire X de fonction de répartition F, que l'on veut comparer à une
fonction de répartition théorique F 0 continue.
On souhaite tester :
— l'hypothèse H 0 : F = F 0,
contre :
— l'hypothèse H 1 : F ≠ F 0.

Si (X 1, ... , X n) est un n-échantillon de X, la fonction de répartition empirique associée à cet


Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 23

échantillon est :

F n (x) = 1 ]–∞, x] (X k)

F n (x) est la proportion des observations dont la valeur est inférieure ou égale à x.
L'écart entre les valeurs observées et les valeurs théoriques du modèle déduites de la fonction de
répartition F 0 peut donc être mesuré par la variable aléatoire :

∆n = | F n (x) – F 0 (x) |

qui sera la variable de décision, ou fonction discriminante, du test.

En posant U n = ∆ n, on démontre que lorsque H 0 n'est pas vraie, U n tend vers + ∞, et, lorsque H 0
est vraie, U n suit asymptotiquement une loi sur R + définie par sa fonction de répartition K (y) =

e – 2 n ² y ².

La région critique du test est donc constituée des grandes valeurs de ∆ n.


Le niveau α étant donné, on peut définir la valeur critique de deux façons :
— La loi de ∆ n étant tabulée, le fractile c n (1 – α) d'ordre 1 – α de cette loi, fournit un test exact
de niveau α en rejetant l'hypothèse H 0 si la valeur observée δ n de ∆ n dépasse c n (1 – α), et en
l'acceptant dans le cas contraire.
Ce test est donc valable pour toute taille n de l'échantillon.
— La loi limite étant tabulée, le fractile c (1 – α) d'ordre 1 – α de cette loi, fournit un test
asymptotique de niveau α en rejetant l'hypothèse H 0 si la valeur observée δ n de ∆ n dépasse c (1 –
α), et en l'acceptant dans le cas contraire.
La convergence vers la loi limite étant assez rapide, ce test est largement acceptable pour n > 100.

Remarques.

On démontre que :
1. Les valeurs de δ n sont toujours comprises entre et 1.
2. Pour tout n ≥ 1 et tout t ≥ 0, P [{ ∆ n ≥ t}] ≤ 6 e – 2 t ².
3. Pour n > 100, la valeur critique du test de Kolmogorov-Smirnov est, approximativement de la
forme .

Les valeurs usuelles de c en fonction de α sont : . Ces valeurs

donnent déjà une orientation à partir de n = 30.


4. On peut, par exemple, tester convenablement l'adéquation de la fonction discriminante D n d'un
test de Khi-deux, à la loi du Khi-deux, à l'aide d'un test de Kolmogorov-Smirnov : cette astuce
permet de tester indirectement l'hypothèse du test du Khi-deux concernant une loi quelconque.
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 24

3.2.3. Tests de Wilcoxon.


Les tests de Wilcoxon sont des tests non paramétriques utilisés pour comparer deux variables X et Y
de fonctions de répartition F X et F Y continues, en comparant F X et F Y, ou en comparant F X – Y et F Y –
X
.
On dit que X a tendance à être plus grande que Y, ou encore que X est stochastiquement plus grande
que Y si l'on a F X ≤ F Y.
Le test de Wilcoxon permet de déceler l'absence ou la présence d'un décalage d'une répartition par
rapport à une autre, ou une surcharge latérale d'une distribution.
Ces tests sont sensibles et puissants lorsque F X et F Y se déduisent l'un de l'autre par une translation
ou une propriété analogue.

Dans le cas général, les hypothèses à tester doivent être considérées avec soin et doivent
correspondre à une idée pertinente de la situation traitée pour éviter les conclusions erronées.
En l'absence d'information supplémentaire, on adoptera la règle suivante.
Lorsque la variable de décision appartient à la région critique, on refuse H 0, et lorsqu'elle appartient
à la région d'acceptation, on refuse H 1.

On distingue deux cas selon que les échantillons sont indépendants ou appariés.

3.2.3.1. Echantillons indépendants : test des rangs.

On considère un m-échantillon (X 1, ... , X m) d'une variable aléatoire X, et un n-échantillon (Y 1, ... , Y


n
) d'une variable aléatoire Y, ces deux échantillons étant indépendants.
On prend pour hypothèse H 0 : X et Y sont stochastiquement indépendants, ce qui se traduit par F X =
F Y.
Dans le cas d'un test bilatéral, on prend pour hypothèse H 1 : il existe un décalage de l'une des
distributions par rapport à l'autre, ce qui se traduit par F X ≠ F Y.
Dans le cas d'un test unilatéral, on peut prendre pour hypothèse H 1 : X est stochastiquement plus
grande que Y (F X < F Y), ou X est stochastiquement plus petite que Y (F X > F Y).

L'idée générale du test de Wilcoxon est de définir une fonction discriminante qui prend des valeurs
centrales sous H 0, et qui a tendance à prendre des petites ou des grandes valeurs sinon.
On fait ce choix de la façon suivante, en considérant la somme des rangs des valeurs d'un
échantillon.
Après avoir rangé par ordre croissant la suite des valeurs {X 1, ... , X m, Y 1, ... , Y n} supposées toutes
distinctes, on note R X le vecteur rang des observations de X : c'est le vecteur (R X , ... , R X ), où R X ,
1 m i

1 ≤ i ≤ m, est le rang de l'observation X i dans la suite ordonnée des valeurs {X 1, ... , X m, Y 1, ... , Y n}.
De même, on note R Y le vecteur rang des observations de Y.
On note :

— W X la somme R X des rangs des observations de X ;


i

— WY = R Y la somme des rangs des observations de Y ;


j

— N = m + n le nombre total d'observations.


Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 25

Nous avons : W X + W Y = .
Sous l'hypothèse H 0, la loi de probabilité de W X, appelée loi de Wilcoxon, (donc aussi celle de W Y),
ne dépend pas de F X, elle dépend seulement de m et n : la probabilité de l'événement {W X = k } est le
rapport entre le nombre de combinaisons de m des N = m + n nombres de 1 à m + n dont la somme
est k, et le nombre total des combinaisons de m + n éléments m à m, chaque combinaison ayant la
même probabilité sous H 0.
Cependant, il n'y a pas d'expression simple de cette loi et on la calcule une fois pour toute par
récurrence : la loi est donc tabulée et on se sert de tables pour appliquer le test.

Les valeurs de W X vont de 1 + 2 + ... + m = à (m + n) + (m + n – 1) + ... + (m + n – (m – 1))

= m (n + 1) + =

et la loi de W X est symétrique par rapport à la valeur centrale + m (n + 1) + =

L'espérance mathématique de W X est donc E (W X) = .

On peut calculer aussi la variance de W X : Var (W X) = .

Lorsque m et n deviennent très grands, la loi de probabilité de W X tend asymptotiquement vers une
loi normale.

Sous l'hypothèse H 1, les valeurs de W X ont tendance à s'éloigner de la valeur moyenne .


On prendra donc pour région critique :
— dans un test bilatéral, une région de la forme ; +c t –c;

— dans un test unilatéral, une région de la forme ; +c ou –

c; , suivant le sens du test.

Remarques.

1. Test de Mann-Whitney.

Au lieu de considérer la somme des rangs W X, on peut considérer la variable de Mann-Whitney

UX = 1 {X >Y }
.
i j

U X est le nombre de couples (X i, Y j) tels que X i > Y j.


Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 26

Si l'on note R ' X , 1 ≤ i ≤ m, est le rang de l'observation X i dans la suite ordonnée des valeurs {X 1, ...
i

, X m}, nous avons :

RX = R 'X + 1 {X >Y }
i i i j

WX = RX = R 'X + 1 {X >Y }
i i i j

WX = + UX

Nous voyons donc que U X prend des valeurs de 0 à m n, et que, sous H 0, sa loi de probabilité dans

cet intervalle de N est une loi symétrique, d'espérance et de variance = Var (W X).
Comme la loi de Wilcoxon, la loi de Mann-Whitney tend asymptotiquement vers une loi normale.

2. La loi asymptotique de W X est normale.

Bien qu'il existe des tables de la loi de Wilcoxon pour des valeurs de m et n allant jusqu'à 50, de
nombreux auteurs tolèrent l'application de la loi normale pour Min (m, n) > 8.
Il est alors recommandé dans ce cas, de tenir compte de la correction de continuité et d'utiliser la
loi normale centrée réduite pour la variable :

Z= =

3. Les cas d'ex aequo sont traités par la méthode du rang moyen.

Dans le cas où les valeurs de X et Y ne sont pas toutes distinctes, W X est remplacé par X
= X
,
i

où X
est le rang moyen du groupe d'ex aequo auquel appartient X i.
i

Si c k est le nombre d'observations du groupe d'ex aequo auquel appartient X i, le rang moyen de
chaque valeur du groupe est :
(R + (R + 1) + ... + (R + (c k – 1)) = R + ,
R étant le rang qu'aurait la valeur commune des X i du groupe si elle était unique.
Autrement dit, quand on affecte un rang à chaque valeur de X, la première valeur d'un groupe d'ex
aequo peut être affectée du rang R, puis, pour chaque valeur suivante ex aequo, on augmente la
valeur du rang de .

On montre alors que, sous H 0 :

E[ X
]= ,
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 27

C'est la même expression que pour E [W X] quand il n'y a pas d'ex aequo.

Var [ X
]= – c k (c k ² – 1),

r étant le nombre de groupes d'ex aequo, et c k le nombre d'observations du k ème groupe d'ex aequo.
Le signe moins dans l'expression montre que l'existence de groupes d'ex aequo (c k > 1) a tendance à
diminuer la dispersion des valeurs de la somme des rangs.

3.2.3.2. Echantillons appariés : test des signes et des rangs.

On observe maintenant un n-échantillon ((X 1, Y 1), ... , (X n, Y n)) d'une variable (X, Y).
On note Z = Y – X et Z i = Y i – X i, 1 ≤ i ≤ n.
Dire que X et Y sont stochastiquement indépendantes revient à dire que la loi de Z est symétrique
autour de 0.
Ici, l'hypothèse H 0 est F Z = F – Z.
Pour un test bilatéral, on prendra, pour hypothèse H 1, F Z ≠ F – Z.
Pour un test unilatéral, on prendra, pour hypothèse H 1, F Z > F – Z, ou F Z < F – Z, suivant que Y a
tendance à prendre des valeurs plus grandes que X, ou que X a tendance à prendre des valeurs plus
grandes que Y.

On définit une variable de décision, ou fonction discriminante, qui a tendance à s'éloigner de 0


lorsque H 1 est vraie : elle prendra en compte le signe de chaque Z i et sa valeur absolue.

Pour cela, on range par ordre croissant la suite des valeurs absolues ( | Z 1 |, ... , | Z n | ), qu'on
suppose, dans un premier temps, toutes distinctes et non nulles.
On note R Z = ( ε (Z 1) R Z , ... , ε (Z n) R Z ) le vecteur des signes et des rangs de l'échantillon (Z 1, ... ,
1 n

Z n).
R Z est le rang de | Z i | dans la suite des valeurs absolues ( | Z 1 |, ... , | Z n | ) rangée par ordre
i

croissant.
ε (Z i) est le signe de Z i : + 1 si Z i est positive, – 1 si Z i est négative.

On note W + = R Z , la somme des rangs des valeurs positives de Z, et W – = R Z , la


i i

somme des rangs des valeurs négatives de Z.


W + prend des valeurs de 0 (aucune valeur de Z n'est positive) à (toutes les valeurs de Z sont
positives).
W+ + W– = .

Sous l'hypothèse H 0, W + et W – suivent la même loi de probabilité qui ne dépend pas de la loi de Z.

La loi de W + et W – est une loi symétrique autour de son espérance E [W +] = .


Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 28

La variance de W + est Var [W +] = .

La loi de probabilité de W + est tabulée.

Dans un test bilatéral, sous l'hypothèse H 1, W + a tendance à prendre des valeurs qui s'éloignent de la
valeur moyenne et on prendra une région critique de la forme [ 0 ; c ] t –c;

Dans un test unilatéral, la région critique prendra la forme [ 0 ; c ] ou –c;

suivant que, sous H 1, X a tendance à prendre des valeurs plus grandes que Y, ou que Y a tendance à
prendre des valeurs plus grandes que X.

Remarques.

1. Sous H 0, la loi asymptotique de W + est normale.

On tolère l'application de la loi normale pour n > 8.


Il est alors recommandé dans ce cas, de tenir compte de la correction de continuité et d'utiliser la
loi normale centrée réduite pour la variable :

Z= =

2. Les cas d'ex aequo sont traités par la méthode du rang moyen.

Soit r le nombre de groupes d'ex aequo non nuls, c k est le nombre d'observations du k ème groupe d'ex
aequo non nuls, c 0 le nombre d'observations nulles.
Les premiers rangs sont ceux des c 0 observations nulles.

W + est alors remplacé par +


= Z
, où Z
est le rang moyen du groupe d'ex aequo auquel
i i

appartient l'observation non nulle Z i.

On montre alors que, sous H 0 :

+
E[ ]= [ n (n + 1) – c 0 (c 0 + 1) ]

+
Var [ ]= [ n (n + 1) (2 n + 1) – c 0 (c 0 + 1) (2 c 0 + 1)] – c k (c k ² – 1)
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 29

3.3. Tests paramétriques.


3.3.1. Introduction.
Les tests paramétriques sont les tests que l'on peut faire sur des hypothèses concernant les moyennes
et les variances des lois considérées, ou, plus généralement, les moments de ces lois.
Les tests sur les moyennes et les variances font intervenir les estimateurs et S ² de l'espérance
mathématique et de la variance de la variable aléatoire parent d'un échantillon de taille n, et des
fonctions de ces variables aléatoires qui, sous l'hypothèse H 0, doivent suivre des lois de probabilité
connues, indépendantes des paramètres inconnus objets du test. Une telle fonction est appelée une
fonction discriminante.

Le calcul des régions de refus ou d'acceptation d'un test paramétrique est fait à partir d'une fonction
discriminante.

Quand on dispose des valeurs observées, on peut calculer les réalisations et s ² de et S ², et on


calcule la valeur observée de la fonction discriminante.
La comparaison de la valeur observée de la fonction discriminante et de la région d'acceptation de
l'hypothèse H 0 permet de conclure.

En réalité, il est souvent plus intéressant de calculer, à partir de la valeur observée de la fonction
discriminante, la probabilité critique du test, qui donne une vision plus complète de la situation et
donne une mesure de crédibilité de l'hypothèse H 0.

Pour les autres échantillons, une étude adaptée doit être faite, ou alors des propriétés asymptotiques
sont utilisées lorsque les échantillons sont de grande taille.

Dans ce qui suit, sauf mention expresse du contraire, les variables parents des échantillons
étudiés sont supposées normales.

— Si l'on n'est pas certain de la normalité de la variable parent d'un échantillon, on


pourra toujours faire un test de normalité : test d'adéquation de la loi normale, test de
symétrie, test d'aplatissement. Si le test est positif, on admet que la variable parente est
normale.
— Pour les grands échantillons, le théorème central limite permet d'affirmer que la
moyenne empirique de l'échantillon suit, au moins à peu près, une loi normale.

Pour chaque test V, on est amené à considérer trois versions : un test bilatéral V 0 et deux tests
unilatéraux V + et V –.
On précise alors les hypothèses H 0 et H 1 à confronter, le niveau α du test et les régions d'acceptation
ou de refus de l'hypothèse H 0.

3.3.2. Tests de conformité à une valeur standard.


Soient X une variable aléatoire normale de moyenne µ et de variance σ ², et (X 1, ... , X n) un n-
échantillon de X, c'est-à-dire une suite (X i) 1 ≤ i ≤ n de variables aléatoires indépendantes de même loi
que X.
On note :
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 30

— = X i, la moyenne empirique aléatoire.

La moyenne empirique aléatoire est un estimateur de µ, correct (sans biais (E ( ) = µ) et robuste (


Var ( ) = 0)) et asymptotiquement gaussien (la fonction de répartition de tend

uniformément vers la fonction de répartition d'une variable normale).


2
—S²= (X i – )²= Xi ² – Xi , la variance empirique

aléatoire, estimateur correct et asymptotiquement gaussien de la variance σ ².

—U= ,T= , K = (n – 1) .

3.3.2.1. Tests de comparaison d'une moyenne à une valeur de référence.

Hypothèses à tester.

H0 : µ = µ0

H 10 : µ ≠ µ 0, test bilatéral V 0.
H 1+ : µ > µ 0, test unilatéral à droite V +.
H 1– : µ < µ 0, test unilatéral à gauche V –.

3.3.2.1.1. Variance connue.

La fonction discriminante est U = .

Sous l'hypothèse H 0, U = suit une loi normale centrée réduite.

V 0 (test bilatéral).
Sous l'hypothèse H 0, les valeurs de U ne doivent pas trop s'éloigner de 0.
La région d'acceptation est un intervalle de la forme –u ;+u , où u est le fractile

d'indice 1 – de la loi normale centrée réduite, c'est-à-dire la valeur de u telle que F u =1–

, F étant la fonction de répartition de la variable normale centrée réduite.

V + (test unilatéral à droite).


Sous l'hypothèse H 0, les valeurs de U ne doivent pas être trop grandes, sinon on est plutôt en faveur
de l'hypothèse H 1+ : µ > µ 0.
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 31

La région d'acceptation est un intervalle de la forme – ∞ ; u 1 – α , où u 1 – α est le fractile d'indice 1


– α de la loi normale centrée réduite, c'est-à-dire la valeur de u telle que F (u 1 – α) = 1 – α, F étant la
fonction de répartition de la variable normale centrée réduite.

V – (test unilatéral à gauche).


Sous l'hypothèse H 0, les valeurs de U ne doivent pas être trop petites, sinon on est plutôt en faveur
de l'hypothèse H 1– : µ < µ 0.

La région d'acceptation est un intervalle de la forme – u 1 – α ; + ∞ , où u 1 – α est le fractile d'indice


1 – α de la loi normale centrée réduite, c'est-à-dire la valeur de u telle que F (u 1 – α) = 1 – α, F étant
la fonction de répartition de la variable normale centrée réduite.

3.3.2.1.2. Variance inconnue.

La fonction discriminante est T = .

Sous l'hypothèse H 0, T = suit une loi de Student à n – 1 degrés de liberté.

V 0 (test bilatéral).
Sous l'hypothèse H 0, les valeurs de T ne doivent pas trop s'éloigner de 0.
La région d'acceptation est un intervalle de la forme –t ;+t , où t est le fractile

d'indice 1 – de la loi de Student à n – 1 degrés de liberté, c'est-à-dire la valeur de t telle que F t

= 1 – , F étant la fonction de répartition de la variable de Student à n – 1 degrés de liberté.

V + (test unilatéral à droite).


Sous l'hypothèse H 0, les valeurs de T ne doivent pas être trop grandes, sinon on est plutôt en faveur
de l'hypothèse H 1+ : µ > µ 0.

La région d'acceptation est un intervalle de la forme – ∞ ; t 1 – α , où t 1 – α est le fractile d'indice 1


– α de la loi de Student à n – 1 degrés de liberté, c'est-à-dire la valeur de t telle que F (t 1 – α) = 1 – α,
F étant la fonction de répartition de la variable de Student à n – 1 degrés de liberté.

V – (test unilatéral à gauche).


Sous l'hypothèse H 0, les valeurs de T ne doivent pas être trop petites, sinon on est plutôt en faveur de
l'hypothèse H 1– : µ < µ 0.

La région d'acceptation est un intervalle de la forme – t 1 – α ; + ∞ , où t 1 – α est le fractile d'indice 1


– α de la loi de Student à n – 1 degrés de liberté, c'est-à-dire la valeur de t telle que F (t 1 – α) = 1 – α,
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 32

F étant la fonction de répartition de la variable de Student à n – 1 degrés de liberté.

3.3.2.2. Test de comparaison d'une variance à une valeur de référence.

Hypothèses à tester.

H0 : σ ² = σ0 ²

H 10 : σ ² ≠ σ 0 ², test bilatéral V 0.
H 1+ : σ ² > σ 0 ², test unilatéral à droite V +.
H 1– : σ ² < σ 0 ², test unilatéral à gauche V –.

La fonction discriminante est K = (n – 1) .

Sous l'hypothèse H 0, K = (n – 1) suit une loi du Khi-deux à n – 1 degrés de liberté.

V 0 (test bilatéral).
Sous l'hypothèse H 0, les valeurs de K ne doivent pas trop s'éloigner de son espérance n – 1.
La région d'acceptation est un intervalle de la forme χ ²;χ ² , où χ ² vérifie F χ ² = ,

F étant la fonction de répartition de la variable Khi-deux à n – 1 degrés de liberté, et F χ ² =1

– .

V + (test unilatéral à droite).


Sous l'hypothèse H 0, les valeurs de K ne doivent pas être trop grandes, sinon on est plutôt en faveur
de l'hypothèse H 1+ : σ ² > σ 0 ².

La région d'acceptation est un intervalle de la forme 0 ; χ 1 – α ² , où χ 1 – α ² vérifie F χ 1 – α ² = 1


– α, F étant la fonction de répartition de la variable Khi-deux à n – 1 degrés de liberté.

V – (test unilatéral à gauche).


Sous l'hypothèse H 0, les valeurs de K ne doivent pas être trop petites, sinon on est plutôt en faveur
de l'hypothèse H 1– : σ ² < σ 0 ².

La région d'acceptation est un intervalle de la forme χα ² ; + ∞ , où χ α ² vérifie F χ α ² = α, F


étant la fonction de répartition de la variable Khi-deux à n – 1 degrés de liberté.

3.3.3. Tests d'homogénéité.


Au lieu d'un seul échantillon comme précédemment, on considère ici k échantillons, k entier
supérieur ou égal à 2.
Pout tout entier i compris entre 1 et k, on considère un n i-échantillon E i = (X i 1, ... , X i n ), d'une
i

variable normale X i de moyenne µ i et de variance σ i ².


Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 33

On pose ν i = n i – 1, n = ni , ν = ν i = n – k.

On note :

— i
= X i j la moyenne empirique de E i , estimateur de µ i ,

— Si ² = (X i j – i
) ² la variance empirique de E i , estimateur de σ i ².

Enfin, on note aussi :

— = Xij = ni i
, moyenne arithmétique des moyennes empiriques des

échantillons pondérées par les tailles,

—S²= ν i S i ², moyenne arithmétique des variances empiriques des échantillons

pondérées par les nombres de degré de liberté.

Le problème est de savoir si les moyennes µ i sont homogènes (hypothèse H 0 : µ i = µ j pour tout i ∈
[ 1 ; k ] et tout j ∈ [ 1 ; k ], i ≠ j ), ou si les variances σ i ² sont homogènes (hypothèse H 0 : σ i ² = σ j ²
pour tout i ∈ [ 1 ; k ] et tout j ∈ [ 1 ; k ], i ≠ j ).

3.3.3.1. Tests de moyennes : cas de deux échantillons (k = 2).

3.3.3.1.1. Echantillons indépendants, variances connues.

1
G µ 1, ; 2
G µ 2, ; 1
– 2
G µ 1 – µ 2, + .

Sous l'hypothèse H 0 : µ 1 = µ 2, U = suit une loi normale centrée réduite.

On a alors les versions suivantes du test.

V 0 (test bilatéral).
H 0 : µ 1 = µ 2 ; H 1 : µ 1 ≠ µ 2.
Sous l'hypothèse H 0, les valeurs de U ne doivent pas trop s'éloigner de 0.
La région d'acceptation est un intervalle de la forme –u ;+u , où u est le fractile
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 34

d'indice 1 – de la loi normale centrée réduite, c'est-à-dire la valeur de u telle que F u =1–

, F étant la fonction de répartition de la variable normale centrée réduite.

V + (test unilatéral à droite).


H 0 : µ 1 = µ 2 ; H 1+ : µ 1 > µ 2.
Sous l'hypothèse H 0, les valeurs de U ne doivent pas être trop grandes, sinon on est plutôt en faveur
de l'hypothèse H 1+ : µ 1 – µ 2 > 0.

La région d'acceptation est un intervalle de la forme – ∞ ; u 1 – α , où u 1 – α est le fractile d'indice 1


– α de la loi normale centrée réduite, c'est-à-dire la valeur de u telle que F (u 1 – α) = 1 – α, F étant la
fonction de répartition de la variable normale centrée réduite.

V – (test unilatéral à gauche).


H 0 : µ 1 = µ 2 ; H 1– : µ 1 < µ 2.
Sous l'hypothèse H 0, les valeurs de U ne doivent pas être trop petites, sinon on est plutôt en faveur
de l'hypothèse H 1– : µ 1 – µ 2 < 0.

La région d'acceptation est un intervalle de la forme – u 1 – α ; + ∞ , où u 1 – α est le fractile d'indice


1 – α de la loi normale centrée réduite, c'est-à-dire la valeur de u telle que F (u 1 – α) = 1 – α, F étant
la fonction de répartition de la variable normale centrée réduite.

3.3.3.1.2. Echantillons indépendants, variances inconnues mais égales.

Dans ce cas, S ² = (ν 1 S 1 ² + ν 2 S 2 ²) est un estimateur de la variance commune.

+ est un estimateur de la variance de 1


– 2
.

Sous l'hypothèse H 0, T = suit une loi de Student à ν = n 1 + n 2 – 2 degrés de liberté.

V 0 (test bilatéral).
Sous l'hypothèse H 0, les valeurs de T ne doivent pas trop s'éloigner de 0.
La région d'acceptation est un intervalle de la forme –t ;+t , où t est le fractile

d'indice 1 – de la loi de Student à ν degrés de liberté, c'est-à-dire la valeur de t telle que F t

= 1 – , F étant la fonction de répartition de la variable de Student à ν degrés de liberté.

V + (test unilatéral à droite).


Sous l'hypothèse H 0, les valeurs de T ne doivent pas être trop grandes, sinon on est plutôt en faveur
de l'hypothèse H 1+ : µ 1 – µ 2 > 0.

La région d'acceptation est un intervalle de la forme – ∞ ; t 1 – α , où t 1 – α est le fractile d'indice 1


Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 35

– α de la loi de Student à ν degrés de liberté, c'est-à-dire la valeur de t telle que F (t 1 – α) = 1 – α, F


étant la fonction de répartition de la variable de Student à ν degrés de liberté.

V – (test unilatéral à gauche).


Sous l'hypothèse H 0, les valeurs de T ne doivent pas être trop petites, sinon on est plutôt en faveur de
l'hypothèse H 1– : µ 1 – µ 2 < 0.

La région d'acceptation est un intervalle de la forme – t 1 – α ; + ∞ , où t 1 – α est le fractile d'indice 1


– α de la loi de Student à ν degrés de liberté, c'est-à-dire la valeur de t telle que F (t 1 – α) = 1 – α, F
étant la fonction de répartition de la variable de Student à ν degrés de liberté.

3.3.3.1.3. Echantillons indépendants, variances inconnues et différentes.

+ est un estimateur de la variance de 1


– 2
.
2 2 2
En prenant ν tel que + = + ,

alors, sous l'hypothèse H 0, T = suit une loi de Student à ν degrés de liberté.

V 0 (test bilatéral).
Sous l'hypothèse H 0, les valeurs de T ne doivent pas trop s'éloigner de 0.
La région d'acceptation est un intervalle de la forme –t ;+t , où t est le fractile

d'indice 1 – de la loi de Student à ν degrés de liberté, c'est-à-dire la valeur de t telle que F t

= 1 – , F étant la fonction de répartition de la variable de Student à ν degrés de liberté.

V + (test unilatéral à droite).


Sous l'hypothèse H 0, les valeurs de T ne doivent pas être trop grandes, sinon on est plutôt en faveur
de l'hypothèse H 1+ : µ 1 – µ 2 > 0.

La région d'acceptation est un intervalle de la forme – ∞ ; t 1 – α , où t 1 – α est le fractile d'indice 1


– α de la loi de Student à ν degrés de liberté, c'est-à-dire la valeur de t telle que F (t 1 – α) = 1 – α, F
étant la fonction de répartition de la variable de Student à ν degrés de liberté.

V – (test unilatéral à gauche).


Sous l'hypothèse H 0, les valeurs de T ne doivent pas être trop petites, sinon on est plutôt en faveur de
l'hypothèse H 1– : µ 1 – µ 2 < 0.

La région d'acceptation est un intervalle de la forme – t 1 – α ; + ∞ , où t 1 – α est le fractile d'indice 1


– α de la loi de Student à ν degrés de liberté, c'est-à-dire la valeur de t telle que F (t 1 – α) = 1 – α, F
étant la fonction de répartition de la variable de Student à ν degrés de liberté.
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 36

3.3.3.1.3. Echantillons indépendants, variances inconnues et différentes.

+ est un estimateur de la variance de 1


– 2
.
2 2 2
En prenant ν tel que + = + ,

alors, sous l'hypothèse H 0, T = suit une loi de Student à ν degrés de liberté.

V 0 (test bilatéral).
Sous l'hypothèse H 0, les valeurs de T ne doivent pas trop s'éloigner de 0.
La région d'acceptation est un intervalle de la forme –t ;+t , où t est le fractile

d'indice 1 – de la loi de Student à ν degrés de liberté, c'est-à-dire la valeur de t telle que F t

= 1 – , F étant la fonction de répartition de la variable de Student à ν degrés de liberté.

V + (test unilatéral à droite).


Sous l'hypothèse H 0, les valeurs de T ne doivent pas être trop grandes, sinon on est plutôt en faveur
de l'hypothèse H 1+ : µ 1 – µ 2 > 0.

La région d'acceptation est un intervalle de la forme – ∞ ; t 1 – α , où t 1 – α est le fractile d'indice 1


– α de la loi de Student à ν degrés de liberté, c'est-à-dire la valeur de t telle que F (t 1 – α) = 1 – α, F
étant la fonction de répartition de la variable de Student à ν degrés de liberté.

V – (test unilatéral à gauche).


Sous l'hypothèse H 0, les valeurs de T ne doivent pas être trop petites, sinon on est plutôt en faveur de
l'hypothèse H 1– : µ 1 – µ 2 < 0.

La région d'acceptation est un intervalle de la forme – t 1 – α ; + ∞ , où t 1 – α est le fractile d'indice 1


– α de la loi de Student à ν degrés de liberté, c'est-à-dire la valeur de t telle que F (t 1 – α) = 1 – α, F
étant la fonction de répartition de la variable de Student à ν degrés de liberté.

3.3.3.1.4. Echantillons appariés.

Ici, n 1 = n 2 = n.
Le test se ramène à une test de conformité à une moyenne nulle de l'échantillon (Z 1 , ... , Z n), avec
Z i = X 1 i – X 2 i.
Ce cas a déjà été traité auparavant, dans 3.3.2.1 : test de Gauss si la variance est connue, test de
Student si la variance est inconnue.
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 37

3.3.3.2. Tests de moyennes : cas de plusieurs échantillons (k ≥ 2).


Analyse de variance à un facteur contrôlé.

Ici, on suppose que les échantillons E i sont indépendants et qu'ils ont des variables parentes
normales de même variance σ ² :
σ i ² = σ ², pour tout i, 1 ≤ i ≤ k.
Si l'on n'est pas certain que la variance est la même, on fera un test d'égalité des variances (3.3.3.4).
Si le test est positif, on admet l'égalité des variances.

On souhaite définir une fonction discriminante pour tester :


— l'hypothèse H 0 : µ i = µ j, pour tout (i, j) ∈ {1, ... , k} ², i ≠ j,
contre :
— l'hypothèse contraire H 1 : les moyennes ne sont pas toutes égales.

On a posé : n = n i, n i étant la taille de l'échantillon E i.

3.3.3.2.1. Equation de l'analyse de la variance.

Soit µ = n i µ i la moyenne arithmétique des moyennes µ i pondérées par les effectifs n i.

Dans l'hypothèse H 0, toutes les moyennes µ i ont pour valeur commune µ.


L'influence de l'échantillon E i sur l'hypothèse H 0 se mesure par l'écart a i = µ i – µ.

On a toujours ni ai = ni µi – ni µ = n i µ i – n µ = 0.

Dire que H 0 est vraie, c'est dire que les a i sont tous nuls.

Dans l'hypothèse H 0 :

— i
= X i j, moyenne empirique de E i , est un estimateur de µ i donc de µ ;

— = Xij = ni i
, moyenne arithmétique des moyennes empiriques des

échantillons pondérées par les tailles, est aussi un estimateur de µ = n i µ i et E ( ) = ni

E( i
)= n i µ i = µ.

Par conséquent, si H 0 est vraie, les valeurs des i


devraient être proches de .

Les écarts i – sont d'autant plus importants que les µ i sont différentes.
On les appelle les écarts expliqués (par les différences de moyennes).

Pour tout i et tout j, entre 1 et k, on peut écrire :


Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 38

X i j – = ( i – ) + (X i j – i).
L'écart entre une observation et la moyenne générale est la somme de l'écart expliqué par la
différence des moyennes, et d'un écart résiduel (X i j – i) entre cette observation et la moyenne de
son groupe résultant de fluctuations aléatoires.

En élevant au carré la relation précédente et en additionnant pour toutes les valeurs possibles de i et
j, on obtient l'équation suivante, appelée équation de l'analyse de la variance :

(X i j – )²= ni ( i
– )²+ (X i j – )²
i

En effet, la somme des doubles produits est nulle :

( i
– ) (X i j – i
)= i
Xij – Xij – ni i
²+ ni i

= ni i
²– ni i
– ni i
²+ ni i
= 0.

La covariance de ( i
– ) et de (X i j – ) est nulle.
i

Dans l'équation d'analyse de la variance :

— (X i j – ) ² est la somme des carrés des écarts totale (SCT),

— ni ( i
– ) ² est la somme des carrés des écarts expliqués (SCE), ou entre échantillons,

— (X i j – i
) ² est la somme des carrés des écarts résiduels (SCR), on à l'intérieur des

échantillons,
et l'équation d'analyse de la variance s'écrit :

SCT = SCE + SCR

En divisant par n = n i, on retrouve la relation s ² = s b ² + s w ² du théorème de la variance

conditionnée.

3.3.3.2.2. Indépendance de SCE et SCR.

Posons Y i j = X i j – a i.
Ei (Y i j) = Ei (X i j) – a i = µ i – (µ i – µ) = µ
E (Y i j) = E (Ei (Y i j)) (théorème de la moyenne conditionnée).
E (Y i j) = E (µ) = µ, quels que soient i ∈ {1, ... , k} et j ∈ {1, ... , n i }.
Toutes les variables Y i j ont la même espérance µ.
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 39

La variance de Y i j est Var (X i j – a i) = Var (X i j) = σ i ², puisque a i = µ i – µ est une constante. Et,


puisque, par hypothèse, σ i ² = σ ², pour tout i, 1 ≤ i ≤ k, on obtient :
Var (Y i j ) = σ ², pour tout i, 1 ≤ i ≤ k, et tout j, 1 ≤ j ≤ n i .

Donc, si les X i j sont des variables normales indépendantes, les Y i j sont des variables aléatoires
indépendantes qui suivent toutes la même loi normale d'espérance µ et de variance σ ².

Soit = Y i j la moyenne empirique des Y i j, tous échantillons confondus.

= (X i j – a i) = Xij – ai

= – ni ai = .

E ( ) = E ( ) = µ.

Il en résulte :
X i j – = (Y i j – ) + a i
(X i j – ) ² = (Y i j – ) ² + a i ² + 2 a i (Y i j – )

(X i j – )²= (Y i j – ) ² + ai ² + 2 a i (Y i j – )

= (Y i j – ) ² + ni ai ² + 2 a i (Y i j – )

L'espérance de a i (Y i j – ) est nulle car

E a i (Y i j – ) = a i E (Y i j – )

= a i (E (Y i j) – E ( )) = a i (µ – µ) = 0

L'égalité précédente donne alors :

E (SCT) = E (Y i j – ) ² + E ni ai ²

=E (Y i j – ) ² + ni ai ²
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 40

D'après Probabilités, Chapitre 18, Exercice 2.1°, (Y i j – ) ² peut se mettre sous la forme :

(Y i j – ) ² = Var (Y i j) Zh ² = σ ² Z h ²,

où les Z h sont des variables normales centrées réduites.


On obtient donc :

E (Y i j – ) ² = σ ² E (Z h ²) = (n – 1) σ ²

E (SCT) = (n – 1) σ ² + ni ai ²

On obtient, de même :

E (SCR) = ν i E (S i ²) = ν σ ² = (n – k) σ ².

et, par différence :

E (SCE) = (k – 1) σ ² + ni ai ²

Enfin, on peut démontrer que la covariance de SCE et SCR est nulle, ce qui entraîne, lorsque les
échantillons sont gaussiens, l'indépendance de SCE et SCR.

3.3.3.2.3. Test de Fischer-Snedecor de l'analyse de variance.

Sous l'hypothèse H 0, tous les a i sont nuls, les carrés moyens CME = et CMR = sont tous
deux des estimateurs sans biais de σ ², et suivent des lois du Khi-deux à (k – 1) degrés de
liberté et à (n – k) degrés de liberté, respectivement.

Le rapport F = suit une loi de Fisher-Snedecor à (k – 1, n – k) degrés de liberté.

Lorsque H 1 est vraie, certains des a i ne sont pas nuls, donc CME a tendance à prendre de grandes
valeurs puisque sa moyenne a tendance à augmenter donc F augmente.

On peut donc prendre F pour fonction discriminante et la région critique sera un intervalle [ f 1 – α , +
∞ [, où le fractile f 1 – α vérifie F (f 1 – α) = 1 – α, F étant la fonction de répartition de la variable de
Fisher-Snedecor à (k – 1, n – k) degrés de liberté.
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 41

Les calculs précédents sont présentés dans un tableau qu'on appelle le tableau d'analyse de la
variance :

Source Somme de carrés Carrés moyens Degrés de liberté F


Expliquée SCE CME k–1 observé

Résiduelle SCR CMR n–k valeur critique f 1 – α


Totale SCT CMT n–1 probabilité critique

Remarques.

1. Pour k = 2 (deux échantillons), la loi de Fisher-Snedecor à (1, n 1 + n 2 – 2) degrés de liberté est la


loi de probabilité du carré d'une variable de Student à n 1 + n 2 – 2 degrés de liberté : le test d'analyse
de variance est donc équivalent au test de Student (3.3.3.1.2).

2. L'expérience montre que l'analyse de variance est peu sensible à la non-normalité des échantillons.
En pratique, il suffit de ne pas l'utiliser lorsque les distributions dans les échantillons sont, d'une part,
très différentes entre elles et, d'autre part, très différentes de distributions normales, et, surtout, de ne
pas l'utiliser lorsque les échantillons sont trop petits.

3. L'hypothèse de l'égalité des variances semble relativement secondaire lorsque les effectifs des
échantillons ne sont pas trop différents entre eux.

4. Lorsque les conditions d'application du test ne sont pas satisfaites, il existe des techniques de
transformation qui permettent de normaliser les distributions et de stabiliser les variances. On peut
utiliser aussi des tests non paramétriques.

3.3.3.3. Tests de variances : cas de deux échantillons.

S1 ² = (X 1 j – 1
) ², variance empirique de E 1 , est un estimateur de σ 1 ².

Dans l'hypothèse normale, (n 1 – 1) suit une loi du Khi-deux à (n 1 – 1) degrés de liberté.

S2 ² = (X 2 j – 2
) ², variance empirique de E 2 , est un estimateur de σ 2 ².

Dans l'hypothèse normale, (n 2 – 1) suit une loi du Khi-deux à (n 2 – 1) degrés de liberté.

En divisant les variables de Khi-deux par leurs nombres de degré de liberté, on trouve donc que

suit une loi de Fisher-Snedecor à (n 1 – 1, n 2 – 1) degrés de liberté.

Dans l'hypothèse H 0 : σ 1 ² = σ 2 ², le rapport F = suit une loi de Fisher-Snedecor à (n 1 – 1, n 2 –


1) degrés de liberté.
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 42

On prend donc F comme fonction discriminante et le résultat du test dépend de l'hypothèse H 1.

V 0 (test bilatéral).
Sous l'hypothèse H 0, les valeurs de F ne doivent pas trop s'éloigner de 1.
La région d'acceptation est un intervalle de la forme f ;f , où f vérifie F (f ) = , et F (f

) = 1 – , F étant la fonction de répartition de la variable de Fisher-Snedecor à (n 1 – 1, n 2 – 1)


degrés de liberté.

V + (test unilatéral à droite).


Sous l'hypothèse H 0, les valeurs de F ne doivent pas être trop grandes, sinon on est plutôt en faveur
de l'hypothèse H 1+ : σ 1 ² > σ 2 ².

La région d'acceptation est un intervalle de la forme 0 ; f 1 – α , où f 1 – α vérifie F (f 1 – α) = 1 – α, F


étant la fonction de répartition de la variable de Fisher-Snedecor à (n 1 – 1, n 2 – 1) degrés de liberté.

V – (test unilatéral à gauche).


Sous l'hypothèse H 0, les valeurs de F ne doivent pas être trop petites, sinon on est plutôt en faveur de
l'hypothèse H 1– : σ 1 ² < σ 2 ².

La région d'acceptation est un intervalle de la forme f α ; + ∞ , où f α vérifie F (f α) = α, F étant la


fonction de répartition de la variable de Fisher-Snedecor à (n 1 – 1, n 2 – 1) degrés de liberté.

3.3.3.4. Tests de variances : cas de plusieurs échantillons.

Ici, les hypothèses à tester sont :


H 0 : σ 1 ² = σ 2 ² = ... = σ k ², toutes les variances des variables parentes des échantillons sont égales,
contre
H 1 = non (H 0 ), les variances des variables parentes des échantillons ne sont pas toutes égales.

Nous présentons trois tests usuels.

3.3.3.4.1. Test de Hartley.

La fonction discriminante est H = , dont la loi de probabilité est tabulée dans certains

cas, notamment lorsque tous les échantillons ont la même taille.


La région critique (région de rejet de l'hypothèse H 0) est de la forme [ h 1 – α ; + ∞ [. Elle correspond
aux grandes valeurs de H.
Soit i 1 tel que Max (S i ²) = S i ², et i 2 tel que Min (S i ²) = S i ².
1 2

Alors, si F (f 1 – α) = 1 – α, F étant la fonction de répartition de la variable de Fisher-Snedecor à (n i –


1

1, n i – 1) degrés de liberté, on a f 1 – α ≤ h 1 – α.
2

Donc si la valeur observée h de H est inférieure à f 1 – α, on est déjà assuré d'accepter l'hypothèse H 0.
Statistiques - 2e année - Chapitre 3 - Tests statistiques Page 43

Ce test est d'autant plus satisfaisant que les effectifs des échantillons sont proches les uns des autres.
Il est très sensible à la non-normalité des échantillons : il est donc peu fiable lorsque les échantillons
ne sont pas tirés de populations normales.

3.3.3.4.2. Test de Bartlett.

La fonction discriminante est B = , avec Q = ν ln S ² – ν i ln S i ² et C = 1 + –

Q ne prend que des valeurs positives, petites lorsque les variances sont égales.
Sous H 0, B suit à peu près une loi du Khi-deux à k – 1 degrés de liberté.
La région critique (région de rejet de l'hypothèse H 0) est de la forme [ χ 1 – α ² ; + ∞ [, où F (χ 1 – α ²) =
1 – α, F étant la fonction de répartition de la variable du Khi-deux à k – 1 degrés de liberté.

Remarques.

1. L'approximation par la loi du Khi-deux à k – 1 degrés de liberté est satisfaisante si les effectifs n i
des échantillons sont suffisamment élevés (supérieurs à 4) et si k n'est pas très élevé par rapport aux
effectifs n i.

2. Le test est très sensible à la non-normalité des échantillons : il est donc peu fiables lorsque les
variables parentes des échantillons ne sont pas gaussiennes.

3. Le test de Hartley est moins puissant que le test de Bartlett dans les conditions normales
d'utilisation, mais, en fait, la perte de puissance semble négligeable dans de nombreux cas.

3.3.3.4.3. Test de Levene.

L'idée de ce test est de se ramener à une égalité de moyennes.


La fonction discriminante L de ce test est la même que celle de l'analyse de variance F en remplaçant
les X i j par Y i j = | X i j – i |.
La région de rejet est [ f 1 – α ; + ∞ [, où FS (f 1 – α) = 1 – α, FS étant la fonction de répartition de la
variable de Fisher-Snedecor à (k – 1, n – k) degrés de liberté.

Remarque.

Les cas étudiés montrent que ce test est raisonnable et qu'il est d'autant plus satisfaisant que les
effectifs des échantillons sont proches les uns des autres.
De plus, le test de Levene est peu sensible à la non-normalité des variables parentes des
échantillons : il est robuste.
Statistiques - 2e année - Chapitre 4 - Analyse de variance Page 44

Chapitre 4. Analyse de variance.


4.1. Analyse de variance à un facteur contrôlé.
On étudie l'influence d'un facteur A sur une variable expliquée X.
Le facteur A possède k modalités ou niveaux, et on postule que ces modalités ont un effet
uniquement sur la moyenne de X : on suppose donc que la variance de X est la même quelle que soit
la modalité de A. Cette variance commune est notée σ ².
Pour la modalité i du facteur A, on considère un échantillon E i = (X i 1 , ... , X i n ) de taille n i de la
i

variable expliquée.
L'échantillon E i est donc constitué de n i variables aléatoires indépendantes et identiquement
distribuées, de moyenne µ i et de variance σ ².
On étudie ici uniquement le cas où la variable parente est normale (gaussienne).
Sous certaines conditions (échantillons de grande taille, par exemple), les résultats obtenus peuvent
s'étendre au cas où la variable parente n'est pas gaussienne.

L'échantillon global E = (E 1 , ... , E k ) est de taille n = n i et il est constitué de k échantillons

indépendants.

Conditions d'application.

1. Echantillons indépendants constitués chacun de variables aléatoires indépendantes et


identiquement distribuées.
2. Variable aléatoire parente normale dans chaque échantillon.
3. Variance commune des variables parentes des échantillons.

On peut tester la validité de ces trois conditions :


— Indépendance : répartition au hasard des résidus.
— Normalité : test de normalité dans chaque échantillon, test du coefficient de symétrie, test du
coefficient d'aplatissement.
— Homogénéité des variances : test de Hartley, test de Bartlett, test de Levene.

L'équation d'analyse de la variance s'écrit (voir Statistiques (2e année), chapitre 3, § 3.3.3.2.1) :

SCT = SCE + SCR

Le tableau d'analyse de la variance se présente de la façon suivante :

avec :
Statistiques - 2e année - Chapitre 4 - Analyse de variance Page 45

SCT = (X i j – )²

SCE = ni ( i
– )²

SCR = (X i j – i
)²; i
= Xij ; = Xij = ni i
.

4.1.1.
Réalisation des
calculs.
Les données se
présentent sous forme
d'un tableau à k colonnes
(une par modalité du
facteur A).
Dans la colonne i, il y a n
i
lignes utiles. Le tableau
des données possède
donc k colonnes et Max
(n i) lignes.
Dans la colonne i, la
cellule de la j-ème ligne,
1 ≤ j ≤ n i, contient la
valeur x i j de la variable
aléatoire X i j.
En bas de chaque
colonne, on ajoute :
— une ligne pour la
valeur de n i,
— une ligne pour la

valeur de x i . = x i j,

— une ligne pour la


valeur de x i . ²,

— une ligne pour la valeur de c i . = x i j ²,

— une ligne pour la valeur de r i ² = c i . – x i . ²,


— une ligne vide pour le calcul de SCT,
— une ligne pour la valeur de s i ² = r i ²,
Statistiques - 2e année - Chapitre 4 - Analyse de variance Page 46

— une ligne pour la valeur de i


= x i ..
A gauche des lignes ajoutées, on ajoute une colonne pour les totaux et les moyennes.
SCE s'obtient par l'équation d'analyse de la variance : SCE = SCT – SCR.

4.1.2. Tests en analyse de variance.


L'objet de l'étude est de savoir si A influence la moyenne de X.
Le test est donc un test d'homogénéité de moyennes : on l'a déjà étudié (Cours de Statistiques (2e
année), Chapitre 3, § 3.3.3.2).

On teste :
— l'hypothèse H 0 : µ i = µ j, pour tout i ∈ {1, ... , k} et tout j ∈ {1, ... , k}, i ≠ j,
contre :
— l'hypothèse H 1 : les moyennes µ i ne sont pas toutes égales.

Les valeurs obtenues dans le tableau de calculs permettent de remplir le tableau d'analyse de la
variance.
La fonction discriminante est F = . Sous l'hypothèse H 0, elle suit une loi de Fisher-Snedecor à
(k – 1, n – k) degrés de liberté.
La dernière colonne du tableau d'analyse de la variance peut être remplie à l'aide de la table de la
fonction de répartition de la variable de Fisher-Snedecor à (k – 1, n – k) degrés de liberté.

Si la valeur observée de F est inférieure à la valeur seuil f 1 – α, on accepte H 0, sinon on rejette H 0.

4.1.3. Estimation en analyse de variance.


Les paramètres du modèle sont la variance σ ² et les moyennes µ i , 1 ≤ i ≤ k.

1. Le carré moyen résiduel ² = CMR est un estimateur sans biais de la variance σ ².


On peut construire un intervalle de confiance de la variance σ ² à l'aide de la loi du Khi-deux à n
– k degrés de liberté.

2. Lorsque H 0 est acceptée, est un estimateur sans biais de la moyenne commune µ.

La variable T = suit une loi de Student à n – k degrés de liberté.

On peut construire un intervalle de confiance de la moyenne commune µ à l'aide de la loi de


Student à n – k degrés de liberté.

3. Lorsque H 0 est refusée : on pose µ = n i µ i.

a) i
est un estimateur sans biais de la moyenne µ i.
Statistiques - 2e année - Chapitre 4 - Analyse de variance Page 47

La variable T i = suit une loi de Student à n i – 1 degrés de liberté et permet de

construire un intervalle de confiance de µ i.


b) A i = i – est un estimateur de l'effet a i = µ i – µ de la modalité i du facteur A.
c) Les contrastes µ i – µ j sont estimés sans biais par i – j et la loi de Student à n – k
degrés de liberté permet de construire un intervalle de confiance.

4. Dans le cas où tous les n i ont la même valeur h (n = k h), le test de Newmann-Keuls donne des
précisions supplémentaires sur les contrastes et permet de regrouper les modalités de A en groupes
homogènes ne présentant pas de différence significative de moyennes.
On commence par classer les modalités de A par valeurs décroissantes de moyenne i.
La table "Range Studentisé" donne, en fonction du nombre a de moyennes à regrouper et du nombre
de degrés de liberté n – k de la variance résiduelle CMR, une valeur seuil t s.

La formule PPAS = t s × permet de calculer la plus petite amplitude significative (PPAS)


correspondant à a.
• La comparaison des différentes moyennes i avec les PPAS permet de regrouper les modalités de
A en groupes homogènes pour lesquelles les différences de moyennes ne sont pas significatives, au
seuil de 5 %.
• Si l'on trouve un seul groupe homogène, c'est que toutes les moyennes sont homogènes : le test de
Newmann-Keuls peut donc remplacer l'analyse de variance pour étudier l'influence du facteur A sur
la moyenne.

4.2. Analyse de variance à deux facteurs contrôlés.


On étudie maintenant l'influence de deux facteurs A et B sur la moyenne d'une variable normale X,
en supposant, comme précédemment que les facteurs A et B peuvent avoir une influence sur la
moyenne µ, mais pas sur la variance σ ².
On suppose que le facteur A présente p modalités, ou niveaux, A i , 1 ≤ i ≤ p, et que le facteur B
présente q modalités, ou niveaux, B j , 1 ≤ j ≤ q.
Pour tout couple (i, j) ∈ {1, ... , p} × {1, ... , q}, on considère un échantillon E i j de taille n i j de la
variable expliquée X i j, présentant la modalité conjointe (A i , B j ).

On note n i . = nij , n.j = nij , n = nij = ni. = n . j.

L'échantillon E i j est donc constitué de n i j variables aléatoires X i j k, 1 ≤ k ≤ n i j, normales


indépendantes et identiquement distribuées, de moyenne µ i j et de variance σ ².

On pose µ i . = nij µij ; µ.j = nij µij ; µ = nij µij .

L'ensemble E des échantillons E i j constitue un modèle.


Ce modèle est dit complet si aucun des n i j n'est nul.
Il est dit sans répétition si tous les n i j valent 0 ou 1.
Il est dit avec répétition si tous les n i j sont supérieurs ou égaux à 2.
Statistiques - 2e année - Chapitre 4 - Analyse de variance Page 48

Il est dit équilibré si les n i j sont tous égaux à un entier r ≥ 1 (tous les échantillons ont la même
taille r).
Il est dit orthogonal si, pour tout couple (i, j) ∈ {1, ... , p} × {1, ... , q}, on a n i j = .

Dans un modèle complet sans répétition, tous les n i j valent 1.


Tout modèle complet sans répétition est équilibré.

Dans un modèle équilibré :

ni. = n i j = q r, n . j = n i j = p r, n = n i . = p q r.

Donc = r = n i j.
Tout modèle équilibré est orthogonal.

Comme dans le cas d'un seul facteur, on décompose convenablement l'écart d'une observation X i j k à
la moyenne générale pour mettre en évidence l'effet des différentes modalités (niveaux) et
combinaisons de modalités (traitements).
On pose :

ij
= X i j k, moyenne empirique du traitement (A i , B j ),

ij
G µij ,

i.
= nij ij
= X i j k, moyenne empirique du niveau A i ,

i.
G µi. ,

.j
= nij ij
= X i j k, moyenne empirique du niveau B j ,

.j
G µ.j ,

= Xijk = ni. i.
= n.j .j
, moyenne empirique

générale.
G µ, ; –µ G 0, .

Xijk – = ( ij – ) + (X i j k – i j )
Le terme (X i j k – ij
) traduit l'écart entre une observation et la moyenne du traitement (A i , B j ).

Xijk – ij
G 0,σ² 1–
Statistiques - 2e année - Chapitre 4 - Analyse de variance Page 49

Par exemple, dans un modèle complet sans répétition, il y a une, et une seule, observation par
traitement, tous les n i j valent 1, et X i j k = i j.

Comme dans l'analyse de variance à un facteur contrôlé, nous avons toujours l'équation d'analyse de
la variance :

(X i j k – )²= ( ij
– )²+ (X i j k – ij

= nij ( ij
– )²+ (X i j k – ij

( ij – ) = ( i.
– )+( .j
– )+( ij
– i.
– .j
+ )
(X i j k – ) = ( i.
– )+( .j
– )+( ij
– i.
– .j
+ ) + (X i j k – ij
)

( ij
– )²=( i.
– )²+( .j
– ) ² + Rij

Le terme ( i . – ) ² traduit l'influence principale du facteur A.


Le terme ( . j – ) ² traduit l'influence principale du facteur B.
Le terme R i j est un terme qui traduit l'influence de l'interaction des facteurs A et B.
R i j = ( i j – i . – . j + ) ² + 2 ( i j – i . – . j + ) [( i . – ) + ( . j – )] + 2 ( i . – ) ( .j

)
= ( i j – i . – . j + ) ² + 2 ( i j – i . – . j + )( i . – ) + 2 ( i j – i . – . j + )( . j – )+
2 ( i. – ) ( .j – )
= ( i j – i . – . j + ) ² + 2 ( i j – i . )( i . – ) + 2 ( i j – . j )( . j – ) – 2 ( i . – ) ( .j

)

Nous obtenons alors :

nij ( ij
– )²= nij ( i.
– )²+ nij ( .j
– )²+ nij Rij

= ni. ( i.
– )²+ n.j ( .j
– )²+ n i j R i j.

nij Rij = nij ( ij


– i.
– .j
+ )²+2 nij ( ij
– i.
)( i.
– )+2

nij ( ij
– .j
)( .j
– )–2 nij ( i.
– )( .j
– )

Dans le cas d'un modèle orthogonal, nous avons n i j = , et on montre alors que nij Ri

j
se réduit à :
Statistiques - 2e année - Chapitre 4 - Analyse de variance Page 50

nij Rij = nij ( ij


– i.
– .j
+ ) ²,

De sorte que l'équation d'analyse de la variance prend alors une expression de la forme :

(X i j k – )²= ni. ( i.
– )²+ n.j ( .j
– ) ² + SCRM + SCRV

SCT = SCEA + SCEB + SCEAB + SCR

dans laquelle :

SCT = (X i j k – ) ² est la somme des carrés des écarts totale,

SCEA = ni. ( i.
– ) ² est la somme des carrés des écarts expliquée par A, elle traduit les

variations de la moyenne marginale i.


autour de sa moyenne µ i ..

SCEB = n.j ( .j
– ) ² est la somme des carrés des écarts expliquée par B, elle traduit les

variations de la moyenne marginale .j


autour de sa moyenne µ . j.

SCEAB = nij ( ij
– i.
– .j
+ ) ² est la somme des carrés des écarts résiduels de la

moyenne, traduisant les fluctuations de i j autour de sa moyenne µ, abstraction faite des variations
des moyennes marginales i . et . j. Cette somme des carrés des écarts mesure donc l'influence
l'interaction des facteurs A et B sur la moyenne.

SCR = (X i j k – ij
) ² est la somme des carrés des écarts résiduels de la variable :

elle traduit les fluctuations aléatoires de X i j k autour de sa moyenne µ i j dans le traitement (A i , B j ).

L'espérance de SCT est E (SCET) = (n – 1) σ ² + n i j (µ i j – µ) ².

L'espérance de SCEA est E (SCEA) = (p – 1) σ ² + n i . (µ i . – µ) ².

L'espérance de SCEB est E (SCEB) = (q – 1) σ ² + n . j (µ . j – µ) ².

L'espérance de SCEAB est E (SCEAB) = (p – 1) (q – 1) σ ² + n i j (µ i j – µ i . – µ . j + µ) ².

L'espérance de SCR est E (SCR) = (n – p q) σ ².


Statistiques - 2e année - Chapitre 4 - Analyse de variance Page 51

4.2.1. Tests en analyse de la variance.

On se place dans le cas d'un modèle orthogonal n i j = .

4.2.1.1. Test d'absence d'action du facteur A.

Hypothèse H 0 : µ i . = µ, pour tout i, 1 ≤ i ≤ p.


Hypothèse H 1 : non (H 0).

On a alors : E (SCEA) = (p – 1) σ ², E (SCR) = (n – p q) σ ².

Si bien que les carrés moyens des écarts CMEA = , CMR = lorsque n n'est pas égal à p

q, sont tous des estimateurs sans biais de la variance σ ².


Leur rapport F A = suit une loi de Fisher-Snedecor à (p – 1, n – p q) degrés de liberté : il
permet de tester l'influence du facteur A.

Sous l'hypothèse H 1, le numérateur de F A augmente, puisqu'on ajoute les termes n i . (µ i . – µ) ².

On rejettera l'hypothèse H 0 pour les grandes valeurs du rapport et l'intervalle critique (zone de
rejet) sera de la forme [ c 1 – α ; + ∞ [, intervalle de probabilité α : F (c 1 – α) = 1 – α, où F est la
fonction de répartition de la variable de Fisher-Snedecor à (p – 1, n – p q) degrés de liberté.

4.2.1.2. Test d'absence d'action du facteur B.

Hypothèse H 0 : µ . j = µ, pour tout j, 1 ≤ j ≤ q.


Hypothèse H 1 : non (H 0).

On a alors : E (SCEB) = (q – 1) σ ², E (SCR) = (n – p q) σ ².

Si bien que les carrés moyens des écarts CMEB = , CMR = lorsque n n'est pas égal à p

q, sont tous des estimateurs sans biais de la variance σ ².


Leur rapport F B = suit une loi de Fisher-Snedecor à (q – 1, n – p q) degrés de liberté : il
permet de tester l'influence du facteur B.

Sous l'hypothèse H 1, le numérateur de F B augmente, puisqu'on ajoute les termes n . j (µ . j – µ) ².

On rejettera l'hypothèse H 0 pour les grandes valeurs du rapport et l'intervalle critique (zone de
rejet) sera de la forme [ c 1 – α ; + ∞ [, intervalle de probabilité α : F (c 1 – α) = 1 – α, où F est la
fonction de répartition de la variable de Fisher-Snedecor à (q – 1, n – p q) degrés de liberté.

4.2.1.3. Test d'absence d'interaction des facteurs A et B.

Hypothèse H 0 : µ i j – µ i . – µ . j + µ = 0, pour tout i, 1 ≤ i ≤ p et tout j, 1 ≤ j ≤ q.


Hypothèse H 1 : non (H 0).
Statistiques - 2e année - Chapitre 4 - Analyse de variance Page 52

On a alors : E (SCEAB) = (p – 1)(q – 1) σ ², E (SCR) = (n – p q) σ ².

Si bien que les carrés moyens des écarts CMEAB = , CMR = lorsque n n'est pas

égal à p q, sont tous des estimateurs sans biais de la variance σ ².


Leur rapport F AB = suit une loi de Fisher-Snedecor à ((p – 1)(q – 1), n – p q) degrés de
liberté : il permet de tester l'influence de l'interaction des facteurs A et B.

Sous l'hypothèse H 1, le numérateur de F AB augmente, puisqu'on ajoute les termes n i j (µ i j –

µ i . – µ . j + µ) ².
On rejettera l'hypothèse H 0 pour les grandes valeurs du rapport et l'intervalle critique (zone de
rejet) sera de la forme [ c 1 – α ; + ∞ [, intervalle de probabilité α : F (c 1 – α) = 1 – α, où F est la
fonction de répartition de la variable de Fisher-Snedecor à ((p – 1)(q – 1), n – p q) degrés de liberté.

En résumé, lorsque le modèle orthogonal est avec répétition :


— Le rapport F A = suit une loi de Fisher-Snedecor à (p – 1, n – p q) degrés de liberté : il
permet de tester l'influence du facteur A.
— Le rapport F B = suit une loi de Fisher-Snedecor à (q – 1, n – p q) degrés de liberté : il
permet de tester l'influence du facteur B.
— Le rapport F AB = suit une loi de Fisher-Snedecor à ((p – 1)(q – 1), n – p q) degrés de
liberté : il permet de tester l'influence de l'interaction du facteur A et du facteur B.
Sous l'hypothèse H 1, les numérateurs de F A, F B, F AB, ont tendance à augmenter : on rejettera
l'hypothèse H 0 pour les grandes valeurs du rapport et l'intervalle critique (zone de rejet) sera de la
forme [ c 1 – α ; + ∞ [, intervalle de probabilité α.

4.2.1.4. Absence d'interaction.

Lorsque le test du rapport F AB est négatif, et permet donc de conclure à l'absence d'influence de
l'interaction de A et B sur la moyenne, on pourra prendre comme somme de carrés résiduelle
(variance résiduelle) : SCR' = SCEAB + SCR.
C'est la somme d'une variable de Khi-deux à (p – 1)(q – 1) degrés de liberté et d'une variable de Khi-
deux à (n – p q) degrés de liberté : c'est donc une variable de Khi-deux à (p – 1)(q – 1) + (n – p q) =
(n – p – q + 1) degrés de liberté, et le carré moyen correspondant est CMR' = .

Dans ce cas, on obtient un test plus puissant en prenant CMR' à la place de CMR, puisque
l'estimation de la variance donnée par CMR' est plus précise que l'estimation donnée par CMR (elle
possède plus de degrés de liberté) :
— Le rapport F' A = suit une loi de Fisher-Snedecor à (p – 1, n – p – q + 1) degrés de
liberté : il permet de tester l'influence du facteur A.
— Le rapport F' B = suit une loi de Fisher-Snedecor à (q – 1, n – p – q + 1) degrés de
liberté : il permet de tester l'influence du facteur B.

4.2.1.5. Modèle sans répétition

On ne peut pas, dans ce cas, tester l'absence d'influence de l'interaction de A et B, puisque n i j = 1 et n


Statistiques - 2e année - Chapitre 4 - Analyse de variance Page 53

= p q, donc SCR = 0.
On suppose alors que le modèle est additif, ce qui veut dire qu'il n'y a pas d'interaction de A et B.
La variance résiduelle est CMEAB, qui tient compte des variations aléatoires des observations autour
de leur moyenne, déduction faite de l'influence principale de A et de l'influence principale de B.
— Le rapport F A = suit une loi de Fisher-Snedecor à (p – 1, n – p – q + 1) degrés de
liberté : il permet de tester l'influence du facteur A.
— Le rapport F B = suit une loi de Fisher-Snedecor à (q – 1, n – p – q + 1) degrés de
liberté : il permet de tester l'influence du facteur B.
Comme précédemment, l'intervalle de rejet de l'hypothèse H 0 dans chacun de ces tests est un
intervalle [ c 1 – α ; + ∞ [, de probabilité α, variable suivant le nombre de degrés de liberté.
Statistiques - 2e année - Chapitre 4 - Analyse de variance Page 54

4.2.2. Réalisation des calculs.


Statistiques - 2e année - Chapitre 4 - Analyse de variance Page 55
Statistiques - 2e année - Chapitre 4 - Analyse de variance Page 56

Le tableau des calculs précédent permet de construire le tableau d'analyse de la variance.

Somme des Degrés de Probabilité


Source de variations Carrés moyens F
Carrés des Ecarts liberté critique

Totale SCT n–1 CMT =

FA =
Facteur A SCEA p–1 CMEA = pA

FB =
Facteur B SCEB q–1 CMEB = pB

CMEAB = F AB =
(p – 1)(q – p AB
Interaction AB SCEAB
1)

Résiduelle SCR n–pq CMR =

4.2.3. Le modèle additif.


Un modèle sans interaction de A et B est appelé un modèle additif.
Dans ce cas, on l'a vu, on obtient un test plus puissant en prenant pour tableau d'analyse de la
variance :

Somme des
Degrés de Probabilité
Source de variations Carrés des Carrés moyens F
liberté critique
Ecarts

Totale SCT n–1 CMT =

F' A =
Facteur A SCEA p–1 CMEA = p' A

F' B =
Facteur B SCEB q–1 CMEB = p' B

SCR' = SCR + CMR' =


SCEAB n–p–q+
Résiduelle
= SCT – SCEA 1
– SCEB

C'est le cas, dans un modèle orthogonal avec répétition, lorsque la probabilité critique p AB du test
d'interaction de A et B est grande, supérieure à 0,25 ou à 0,50 par exemple (on accepte H 0).
C'est le cas, dans un modèle complet sans répétition (n i j = 1), dans lequel on admet qu'il n'y a pas
d'interaction des facteurs A et B.

4.2.4. Cas du plan complet équilibré.


Dans un plan complet équilibré, tous les effectifs n i j des échantillons sont égaux à un entier r ≥ 1.
Statistiques - 2e année - Chapitre 4 - Analyse de variance Page 57

4.2.4.1. Plan complet équilibré avec répétition : r ≥ 2.

La seule chose qui change dans le tableau d'analyse de la variance est que n est égal à p q r.

4.2.4.2. Plan complet équilibré sans répétition : r = 1.

n = p q.
La somme des carrés des écarts résiduels SCER est nulle.
Il faut supposer que le modèle est additif (pas d'interaction de A et B).
Le tableau d'analyse de la variance se réduit à :

Somme des
Degrés de Probabilité
Source de variations Carrés des Carrés moyens F
liberté critique
Ecarts

Totale SCT n–1 CMT =

F' A =
Facteur A SCEA p–1 CMEA = p' A

F' B =
Facteur B SCEB q–1 CMEB = p' B

CMR' =
SCR' = SCT – n – p – q +
Résiduelle
SCEA – SCEB 1

Le test d'additivité de Tukey permet de vérifier l'absence d'interaction.

On pose SCADD = et F = .

Sous l'hypothèse d'additivité, F suit une loi de Fisher-Snedecor à (1, (p – 1)(q – 1) – 1) degrés de
liberté : on rejette l'hypothèse d'additivité pour les grandes valeurs de F.

4.2.5. Estimation en analyse de la variance.


est un estimateur sans biais de µ.
ij
est un estimateur sans biais de µ i j.
i.
est un estimateur sans biais de µ i ..
.j
est un estimateur sans biais de µ . j.
i.
– est un estimateur sans biais de a i = µ i . – µ.
.j
– est un estimateur sans biais de b j = µ . j – µ.
ij
– i . – . j + est un estimateur sans biais de c i j = µ i j – µ i . – µ . j + µ.

CMR (CMR' dans un modèle additif) est un estimateur sans biais de la variance σ ².

You might also like