You are on page 1of 12

S3 Maths 2013-2014 Statistique Estimation, intervalle de confiance, tests - Proportion

Universit de Picardie Jules Verne 2013-2014


UFR des Sciences
Licence mention Mathmatiques - Semestre 3
Statistique
Echantillonnage, estimation, intervalle de confiance, test statistique
Cas dune ou de deux proportions
1. Simulations
1.1. Loi de Bernoulli et simulation
Soit , A, P un espace probabilis.
Une variable alatoire X suit la loi de Bernoulli de paramtre p 0, 1, que lon note Bp, si et
seulement si X est valeurs dans 0; 1, et PX 1 p et PX 0 p.
Une telle variable alatoire permet dindiquer si un vnement A est ralis (X 1) ou pas (X 0).
Comme exemples dapplication on peut citer :
- lancer dune pice menant Pile ou Face, A "obtenir Pile" ;
- tirer une boule dans une urne contenant des boules blanches et noires, A "obtenir une blanche" ;
- choisir dun individu dans la population, A "lindividu est malade".
Ainsi , une telle variable permet de reprsenter un caractre qualitatif deux modalits.
Simulation 1
p tant donn dans 0, 1, on considre une urne contenant une proportion p de boules blanches. Plus
prcisment, on considre lentier N plus petit multiple de 10 tel que Np soit entier, et ainsi une urne
contenant N boules, dont Np boules blanches et N1 p boules noires. Par exemple, pour p 0, 42, on a
N 100, Np 42 et N1 p 58.
On suppose que les N boules sont numrotes de 1 N, de 1 Np pour les boules blanches, de Np 1 n
pour les noires.
A lexprience alatoire " tirer une boule au hasard dans lurne ", on peut associer lunivers
1, . . . , N et le munir de lquiprobabilit P.
Dans ce contexte, lvnement A "obtenir une boule blanche" est A 1, . . . , Np, sa probabilit tant
alors PA
cardA
card

Np
N
p.
Considrant la variable alatoire X qui chaque tirage dune boule associe 1 si elle est blanche et 0 sinon,
on a X 1 A et X 0 A, et donc PX 1 PA p et PX 0 PA 1 PA 1 p.
Utilisation du tableur Excel (voir fichier excel - feuille Bernoulli simulation 1)
Le tirage dune boule de lurne est simul par linstruction ALEA.ENTRE.BORNES(1;N) entrer dans
la cellule B8 (par exemple).
La valeur correspondante de X est alors obtenue par linstruction SI(B8Np;1;0).
Simulation 2
A lexprience alatoire "choisir un nombre au hasard dans lintervalle 0; 1" on peut associer une
variable alatoire Y suit la loi Uniforme sur lintervalle 0; 1 (loi densit) ; Y indique le nombre obtenu. On
sait que pour tout y 0; 1, PY _ y y.
p tant donn dans 0, 1, on a alors PY _ p p. Considrant la variable alatoire X dfinie par
X 1 Y _ p et X 0 Y _ p Y p, X suit la loi de Bernoulli Bp.
Utilisation du tableur Excel (voir fichier excel - feuille Bernoulli simulation 2)
Une valeur de Y est simule par linstruction ALEA() entrer dans la cellule B7 (par exemple).
La valeur correspondante de X est alors obtenue par linstruction SI(B7p;1;0).
Stphane Ducay 1
S3 Maths 2013-2014 Statistique Estimation, intervalle de confiance, tests - Proportion
1.2. Loi binomiale et simulation
Reprenons lexemple dune urne contenant une proportion p 0, 42 de boules blanches.
On tire une boule au hasard dans lurne : le nombre de "boule blanche" obtenu en un tirage est une
variable alatoire X de loi de Bernoulli Bp : PX 1 p 0. 42 et PX 0 1 p 0, 58. On a
EX p 0, 42 et VarX p1 p 0, 2436.
Si on effectue n 50 tirages avec remise dune boule, on observe la ralisation de X
1
, X
2
, ... , X
50
,
variables alatoires indpendantes de mme loi que X. On dit que lon a un chantillon alatoire simple de
taille n 50 de loi de Bernoulli de paramtre p 0, 42.
La proportion de "boules blanches" obtenue est une variable alatoire :
F
n

X
1
X
2
X
50
50

_
i1
n
X
i
n
o _
i1
n
X
i
reprsente le nombre de "boules blanches" obtenues en n 50 tirages.
Ayant procd par rptitions dexpriences indpendantes, nF
n
_
i1
n
X
i
est une variable alatoire de la
loi Binomiale B50; 0, 42 Bn, p.
On a donc nEF
n
EnF
n
np et n
2
VarF
n
VarnF
n
np1 p, do EF
n
p 0, 42 et
VarF
n

p1 p
n

0, 2436
n
.
On constate donc que lorsquon augmente la taille n de lchantillon, lesprance de F
n
reste constante,
gale 0, 42, alors que la variance diminue.
Utilisation du tableur Excel (voir fichier excel - feuille Bernoulli simulation 1 et 2)
On reprend les simulations 1 et 2 en rptant 50 les instructions prcdentes sur 50 lignes. Il suffit ensuite
de "sommer" les valeurs de X obtenues pour avoir le nombre de boules blanches obtenues, puis de diviser par
50 pour avoir la frquence.
2. Echantillonnage : cas dune proportion
2.0. Quel cadre mathmatique ?
Statistique et probabilits :
Description des observations et modle thorique.
La Statistique consiste tudier un ensemble dobjets (on parle de population, compose dindividus ou
units statistiques) sur lesquels on observe des caractristiques, appeles variables statistiques.
Le calcul des Probabilits permet de proposer un modle thorique dune situation concrte afin de
quantifier la fiabilit des affirmations.
Population et chantillon :
Dans certains cas on peut obtenir les valeurs de ces variables sur lensemble de la population ; en
appliquant les mthodes de la statistique descriptive il est possible, au moyen de tableaux, graphiques,
paramtres, danalyser ces rsultats. Exemples : Recensement de la population franaise, notes obtenues par
tous les candidats un examen, salaires de tous les employs dune entreprise, etc...
Mais la population peut tre trop vaste pour tre tudie dans sa totalit, par manque de moyens, ou de
temps. (Cest le cas si on sintresse aux intentions de vote des Franais pour une lection). Elle peut mme
tre considre comme infinie. Cest le cas si lon note la qualit (dfectueuse ou non) des pices produites
par un certain procd : le nombre de ces pices est a priori illimit, et on ne peut toutes les tester.
De mme, si lon sintresse aux frquences dobtentions de "pile" et "face" avec une pice de monnaie,
le nombre de lancers de pice tudier est a priori infini : on a ici une population latente infinie.
Il arrive aussi que la mesure dune variable soit destructrice pour lindividu : si on tudie la dure de vie
de certains appareils, il serait absurde de les faire tous fonctionner jusqu la panne, les rendant inutilisables.
Dans tous ces cas, on est amen ntudier quune partie de la population, un chantillon, obtenu par
sondage, dans le but dextrapoler la population entire des observations faites sur lchantillon.
Stphane Ducay 2
S3 Maths 2013-2014 Statistique Estimation, intervalle de confiance, tests - Proportion
Fluctuation dchantillonnage
Lorsquon tudie un caractre sur plusieurs chantillons dune mme population, on peut observer que les
rsultats ne sont pas identiques selon les chantillons. Plus la taille de lchantillon tudi est grande, plus les
rsultats obtenus seront fiables. Cela sexplique par la diminution de la variance, et aussi par la loi des grands
nombres.
La fluctuation dchantillonnage reprsente la fluctuation entre les diffrents rsultats obtenus dune
mme enqute sur diffrents chantillons dune mme population.
Ces diffrents rsultats prsentent une certaine rgularit, ce qui se traduit par la notion dintervalle de
confiance.
2.1. Caractre statistique et variable alatoire
Considrons une population sur laquelle on dfinit un caractre qualitatif deux modalits A et B. On
convient de reprsenter la modalit A par 1 et la modalit B par 0.
Le caractre est ainsi reprsent par une application X de dans qui, tout individu , associe un rel
x X X
X
0, 1 ensemble des "valeurs" du caractre.
Cette application modlise le caractre de faon dterministe : si on connat lindividu , on connat
aussitt la valeur x. Son tude relve de la statistique descriptive qui conduit, par exemple, au tableau des
couples x
i
, f
i
o x
i
est une valeur observe et f
i
sa frquence.
Supposons maintenant que lon tire au hasard un individu dans cette population pour consigner la
valeur x du caractre. Ne pouvant pas prvoir quel individu prcis sera tir, on ne peut pas prvoir non plus la
valeur prcise de x qui sera consigner. On aimerait donc disposer dun moyen dattribuer une probabilit aux
lments de
X
.
Ici, X est une variable alatoire de loi de Bernoulli Bp o p est la proportion dindividus ayant la
modalit A dans la population : PX 1 p et PX 0 1 p.
2.2. Echantillonnage
Lorsquon na pas accs lensemble de la population, la proportion p est inconnue. On procde un
chantillonnage, i.e. au choix de n individus dans la population, sur lesquels on observe la valeur x du
caractre X. Lorsque les tirages ont lieu avec (respectivement sans) remise, lchantillonnage est dit
non-exhaustif (resp. exhaustif). Lorsque la taille n de lchantillon est faible par rapport celle N de la
population (N _ 10n), alors tout chantillonnage est assimilable au cas non-exhaustif.
Pour un premier chantillonnage, on observera des valeurs x
1
, x
2
, ..., x
n
du caractre. Pour un deuxime
chantillonnage de mme taille, on observera des valeurs x
1

, x
2

, ..., x
n

du caractre. Et ainsi de suite. On peut


alors considrer la suite x
1
, x
1

, ... comme les valeurs observes dune mme variable alatoire X


1
, la suite x
2
,
x
2

, ... comme les valeurs observes dune mme variable alatoire X


2
, ... Ainsi, pour tout i 1, . . . , n, la
variable alatoire X
i
correspond aux valeurs du caractre du i-me individu obtenu par chantillonage, et aura
donc la mme loi de probabilit que X. De plus, lchantillonnage tant non-exhaustif (tirages avec remise),
les variables alatoires X
i
sont indpendantes.
Plus prcisment, les variables alatoires X
i
sont des applications de
n
dans , qui tout
chantillonnage
1
,
2
, . . . ,
n
associe x
i
X
i

1
,
2
, . . . ,
n
X
i

On dira que X
1
, X
2
, . . . , X
n
est un chantillon (alatoire simple) de taille n de X, et que x
1
, x
2
, . . . , x
n

est une observation de lchantillon.


Le terme dchantillon dsigne la fois les n individus choisis et le n-uple de variables alatoires
X
1
, X
2
, . . . , X
n
.
2.3. Estimateur et estimation dune proportion
Objectif : dterminer p laide dinformations obtenues partir dun chantillonnage de taille n extrait
de la population. Impossible tant que n N, mais la thorie de lchantillonnage conduit des estimations

p
de p, dautant meilleures que n est grand.
Stphane Ducay 3
S3 Maths 2013-2014 Statistique Estimation, intervalle de confiance, tests - Proportion
Estimateur du paramtre p : proportion (ou frquence) dchantillon F
n

_
i1
n
X
i
n
, o _
i1
n
X
i
reprsente
le nombre dindividus de lchantillonnage ayant la modalit A.
Pour une observation x
1
, x
2
, . . . , x
n
de lchantillon (en pratique on observe souvent directement _
i1
n
x
i
),
une estimation ponctuelle de p est f
n

_
i1
n
x
i
n


p.
2.4. Proportion dchantillon
Un exemple sur la proportion
Un groupe de 4 enfants, Alexis, Benjamin, Cyril et David, dges respectifs 12, 13, 14 et 15 ans.
On choisit un enfant au hasard dans le groupe, on peut considrer :
- X, indicatrice du fait que lenfant plus 14,5 ans,
variable alatoire de loi de Bernoulli B
1
4
:
PX 1
1
4
p et PX 0
3
4
1 p.
Cherchons retrouver ou approcher ces rsultats partir dchantillons non-exhaustifs (avec remise) de
taille n 3. Il y en a 4
3
64, ils forment un univers

, ensemble des rsultats possibles de lexprience


alatoire "choisir un chantillon".
On peut munir

de la tribu des vnements A

et de lquiprobabilit P

sur

, A

. A
chacun des rsultats (chantillons) , on peut associer la proportion F
n
f
n
denfants ayant plus de 14,5
ans. On obtient les rsultats suivants :
f
n
A, A, A 0
A, A, B 0
A, A, C 0
A, A, D 1/3
A, B, A 0
A, B, B 0
A, B, C 0
A, B, D 1/3
A, C, A 0
A, C, B 0
A, C, C 0
A, C, D 1/3
A, D, A 1/3
A, D, B 1/3
A, D, C 1/3
A, D, D 2/3
f
n
B, A, A 0
B, A, B 0
B, A, C 0
B, A, D 1/3
B, B, A 0
B, B, B 0
B, B, C 0
B, B, D 1/3
B, C, A 0
B, C, B 0
B, C, C 0
B, C, D 1/3
B, D, A 1/3
B, D, B 1/3
B, D, C 1/3
B, D, D 2/3
f
n
C, A, A 0
C, A, B 0
C, A, C 0
C, A, D 1/3
C, B, A 0
C, B, B 0
C, B, C 0
C, B, D 1/3
C, C, A 0
C, C, B 0
C, C, C 0
C, C, D 1/3
C, D, A 1/3
C, D, B 1/3
C, D, C 1/3
C, D, D 2/3
f
n
D, A, A 1/3
D, A, B 1/3
D, A, C 1/3
D, A, D 2/3
D, B, A 1/3
D, B, B 1/3
D, B, C 1/3
D, B, D 2/3
D, C, A 1/3
D, C, B 1/3
D, C, C 1/3
D, C, D 2/3
D, D, A 2/3
D, D, B 2/3
D, D, C 2/3
D, D, D 1
On dfinit ainsi une variable alatoire F
n
, dont on peut obtenir la loi de probabilit :
x
i
0 1/3 2/3 1
PF
n
x
i
27/64 27/64 9/64 1/64
On peut alors calculer :
- EF
n

1
4
: on remarque que EF
n
p EX.
- VarF
n

1
16
: on remarque que VarF
n

p1 p
n

VarX
n
.
Stphane Ducay 4
S3 Maths 2013-2014 Statistique Estimation, intervalle de confiance, tests - Proportion
Proprits gnrales de F
n

_
i1
n
X
i
n
.
nF
n
_
i1
n
X
i
suit la loi Binomiale Bn, p. On a alors nEF
n
EnF
n
np et
n
2
VarF
n
VarnF
n
np1 p, do EF
n
p et VarF
n

p1 p
n
.
On a ainsi EF
n
p et on dit que F
n
est un estimateur sans biais de p.
On a de plus lim
n
VarF
n
0 et on dit que F
n
est un estimateur convergent de p.
Thorme. Loi faible des grands nombres
Si les X
i
sont indpendantes et admettent la mme esprance p et la mme variance
2
,
alors pour tout 0, lim
n
P|F
n
p| 0 ; cette convergence tant uniforme en p.
Cela signifie que F
n
converge en probabilit vers p.
Thorme central limite
Si les X
i
sont indpendantes, de mme esprance mathmatique et de mme cart-type ,
et si X
n

_
i1
n
X
i
n
, alors Z
n

X
n

n
suit approximativement la loi normale N0; 1 ;
autrement dit que X
n
suit approximativement la loi normale N ;

n
.
De plus, si np _ 10 et n1 p _ 10, on peut approcher la loi Binomiale Bn, p par la loi normale
N np ; np1 p . On en dduit que nF
n
suit approximativement la loi normale N np ; np1 p , et
donc F
n
suit approximativement la loi normale N p ;
p1 p
n
. Ainsi, U
F
n
p
p1 p
n
suit
approximativement la loi normale N0; 1.
Commentaires de ces rsultats
F
n
a toujours pour esprance p : la proportion dans lchantillon est, "en moyenne", celle de la
population.
La variance de F
n
est dautant plus faible que n est grand : la proportion dans lchantillon varie dautant
moins dun chantillon lautre que la taille de cet chantillon est grande.
A la limite, si n tend vers linfini, VarF
n
tend vers 0 et donc F
n
tend vers la constante p.
Dans la pratique, lapproximation de la loi de F
n
par une loi normale est correcte ds que np _ 10 et
n1 p _ 10, ou ds que np1 p 18, ou sous dautres conditions proches, dautant plus que n est grand
et p proche de 0.5.
Lorsque p nest pas connu, on vrifie ces conditions sur la frquence f
n
observe.
3. Intervalle de fluctuation et intervalle de confiance pour une proportion
Considrons une variable alatoire X de loi de Bernoulli Bp, o p est la proportion dindividus de la
population ayant une proprit donne, un chantillon X
1
, X
2
, . . . , X
n
de taille n de X et la proportion (ou
frquence) dchantillon F
n

_
i1
n
X
i
n
, o _
i1
n
X
i
reprsente le nombre dindividus de lchantillonnage ayant
la proprit. On sait que si np _ 10 et n1 p _ 10, alors U
F
n
p
p1 p
n
suit approximativement la loi
normale N0; 1. On dtermine comme le rel u

tel que Pu

U u

1 grce la table 2. Pour


5%, on a u

1. 96.
Remarque. Lorsque n est petit, on doit utiliser la loi exacte de nF
n
, savoir la loi Binomiale Bn, p.
Stphane Ducay 5
S3 Maths 2013-2014 Statistique Estimation, intervalle de confiance, tests - Proportion
3.1. Intervalle de fluctuation de la frquence F
n
On suppose que lon connait p.
On en dduit que P p
p1 p
n
u

_ F
n
_ p
p1 p
n
u

1 , et donc
PF
n
IF
p
1 , avec IF
p
p
p1 p
n
u

; p
p1 p
n
u

intervalle de fluctuation IF
p
de F
n
au niveau 1 0. 95.
3.2. Intervalle de confiance de la proportion p
On suppose que lon ne connait pas p mais que lon a une observation f
n
de F
n
partir dun chantillon.
On a P F
n

p1 p
n
u

_ p _ F
n

p1 p
n
u

1 , et donc Pp IC
p
1 , avec
IC
p
F
n

p1 p
n
u

; F
n

p1 p
n
u

intervalle de confiance IC
p
de p au niveau
1 0. 95.
Comme
F
n
1 F
n

n 1
est un estimateur sans biais de
p1 p
n
, on en dduit, si nf
n
_ 10 et
n1 f
n
_ 10, un intervalle de confiance de la proportion p au niveau 1 :
ic
p
f
n

f
n
1 f
n

n 1
u

, f
n

f
n
1 f
n

n 1
u

.
Exemple dintervalle de confiance
Dans une certaine espce de rongeur, on a compt 206 mles sur 400 naissances.
On peut considrer la situation suivante.
Population : les rongeurs dune certaine espce.
Variable : le sexe, deux modalits (mle et femelle), reprsent par une variable alatoire de loi de
Bernoulli Bp, o p est la proportion de mles dans la population ; on a ainsi PX 1 p et
PX 0 1 p.
Echantillon X
1
, X
2
, . . . , X
n
de taille n 400 de X.
Observation de lchantillon : x
1
, x
2
, . . . , x
n
1, 1, 0, 1, . . . , 0.
Estimateur de la proportion p : F
n

_
i1
n
X
i
n
, proportion (ou frquence) de mles dans lchantillon, o
_
i1
n
X
i
reprsente le nombre de mles de lchantillon.
Estimation ponctuelle de la proportion p : f
n

_
i1
n
x
i
n

206
400
0. 515, frquence (ou proportion) de
mles dans lobservation de lchantillon.
Intervalle de confiance de la proportion p :
nf
n
206 _ 10 et n1 f
n
194 _ 10
Pour 0, 05 (i.e. 5%, on a u

1, 96.
ic
p
f
n

f
n
1 f
n

n 1
u

; f
n

f
n
1 f
n

n 1
u

0, 466 ; 0, 564 .
Exemple dapplication de lintervalle de fluctuation
Reprenons lexemple prcdent et supposons savoir quil y a quiprobabilit male/femelle chaque
naissance, autrement dit que p 0, 5.
Pour un chantillon de n 400 naissances, lintervalle de fluctuation de F
n
est
p
p1 p
n
u

; p
p1 p
n
u

0. 5
0. 51 0. 5
400
1. 96 ; 0. 5
0. 51 0. 5
400
1. 96
Ainsi, 95 % des chantillons de 400 naissances donneront une frquence dchantillon comprise entre
0.451 et 0.551.
Lchantillon tudi donne une frquence observe f
n
0. 515 qui appartient lintervalle de fluctuation
: il est donc reprsentatif dune population pour laquelle p 0, 5.
Stphane Ducay 6
S3 Maths 2013-2014 Statistique Estimation, intervalle de confiance, tests - Proportion
3.3. Intervalle de fluctuation de la frquence F
n
et loi binomiale
On considre une population dans laquelle on suppose que la proportion dun certain caractre est p. Pour
juger de cette hypothse, on y prlve, au hasard et avec remise, un chantillon de taille n sur lequel on
observe une frquence f du caractre.
On rejette lhypothse selon laquelle la proportion dans la population est p lorsque la frquence f observe
est trop loigne de p, dans un sens ou dans lautre. On choisit de fixer le seuil de dcision de sorte que la
probabilit de rejeter lhypothse, alors quelle est vraie, soit infrieure 5 %.
Lorsque la proportion dans la population vaut p, la variable alatoire X correspondant au nombre de fois
o le caractre est observ dans un chantillon alatoire de taille n, suit la loi binomiale de paramtres n et p.
On cherche partager lintervalle 0, n, o X prend ses valeurs, en trois intervalles 0, a 1, a, b et
b 1, n de sorte que X prenne ses valeurs dans chacun des intervalles extrmes avec une probabilit proche
de 0,025, sans dpasser cette valeur.
En tabulant les probabilits cumules PX _ k, pour k allant de 0 n, il suffit de dterminer le plus petit
entier a tel que PX _ a 0, 025 et le plus petit entier b tel que PX _ b _ 0, 975, cest--dire
PX b _ 0, 025. Autrement dit, a est le plus grand entier tel que PX a _ 0. 25. On observe aussi que
a b.
On a ainsi PX a X b PX a PX b _ 0. 05
et donc Pa _ X _ b P X a X b _ 0. 95, en tant "assez proche" de 0.95.
Comme F
n

X
n
, on a ainsi P
a
n
_ F
n
_
b
n
_ 0. 95, en tant "assez proche" de 0.95.
La rgle de dcision est la suivante : si la frquence observe f
n
appartient lintervalle de fluctuation
95 %
a
n
,
b
n
, on considre que lhypothse selon laquelle la proportion est p dans la population nest pas
remise en question et on laccepte ; sinon, on rejette lhypothse selon laquelle cette proportion vaut p.
Pour n _ 30, n p _ 5 et n 1 p _ 5, on observe que lintervalle de fluctuation
a
n
,
b
n
est
sensiblement le mme que lintervalle p
1
n
, p
1
n
propos dans le programme de seconde.
Exemple dexercice
Monsieur Z, chef du gouvernement dun pays lointain, affirme que 52 % des lecteurs lui font confiance.
On interroge 100 lecteurs au hasard (la population est suffisamment grande pour considrer quil sagit de
tirages avec remise) et on souhaite savoir partir de quelles frquences, au seuil de 5 %, on peut mettre en
doute le pourcentage annonc par Monsieur Z, dans un sens, ou dans lautre.
1. On fait lhypothse que Monsieur Z dit vrai et que la proportion des lecteurs qui lui font confiance dans
la population est p 0, 52. Montrer que la variable alatoire X, correspondant au nombre dlecteurs lui
faisant confiance dans un chantillon de 100 lecteurs, suit la loi binomiale de paramtres n 100 et
p 0, 52.
2. On donne ci-contre un extrait de la table des probabilits cumules PX _ k
o X suit la loi binomiale de paramtres n 100 et p 0, 52.
Dterminer a et b tels que dfinis prcdemment et comparer les intervalles
de fluctuation 95 %
a
n
,
b
n
et p
1
n
, p
1
n
.
3. noncer la rgle dcision permettant de rejeter ou non lhypothse p 0, 52,
selon la valeur de la frquence f des lecteurs favorables Monsieur Z obtenue
sur lchantillon.
4. Sur les 100 lecteurs interrogs au hasard, 43 dclarent avoir confiance
en Monsieur Z. Peut-on considrer, au seuil de 5 %, laffirmation de Monsieur Z
comme exacte ?
k PX _ k
40 0,0106
41 0,0177
42 0,0286
43 0,0444
...
61 0,9719
62 0,9827
63 0,9897
64 0,9941
Remarque : la recherche de lintervalle de fluctuation peut-tre illustre par le diagramme en bton de la loi
binomiale de paramtres n 100 et p 0, 52.
Utilisation du tableur Excel
Construire la table des probabilits et des probabilits cumules de la loi Binomiale de paramtres
n 100 et p 0, 52. Construire le diagramme en bton de cette loi.
Stphane Ducay 7
S3 Maths 2013-2014 Statistique Estimation, intervalle de confiance, tests - Proportion
4. Test de conformit pour une proportion p
On sintresse la question suivante : tant donne une population dans laquelle une proportion p
dindividu ont une certaine proprite, peut-on raisonnablement supposer que p est gal une certaine valeur
p
0
donne a priori ?
Par exemple, des tests en laboratoire permettent daffirmer quun certain mdicament est efficace sur une
proportion p
0
dindividus atteints dune certaine maladie. Mais aprs sa mise sur le march, le mdicament
a-t-il la mme efficacit sur lensemble des individus malades ? Comment savoir si la proportion p de
malades guris par le mdicament est bien gale p
0
?
La rponse la question est donne par la mise en place dun test de conformit.
De faon gnrale, un test statistique est une procdure permettant de calculer la valeur dune certaine
fonction des observations dun ou de plusieurs chantillon, qui conduit rejeter ou non, avec un certain
risque derreur, une hypothse gnralement appele hypothse nulle et note H
0
. Celle-ci porte sur la (ou
les) population(s) do est (sont) issu(s) le(s) chantillon(s). Elle soppose une hypothse dite alternative
et note H
1
.
Considrons une variable alatoire X de loi de Bernoulli Bp, o p est la proportion dindividus de la
population ayant une proprit donne, un chantillon X
1
, X
2
, . . . , X
n
de taille n de X et la proportion (ou
frquence) dchantillon F
_
i1
n
X
i
n
, o
_
i1
n
X
i
reprsente le nombre dindividus de lchantillonnage ayant la
proprit. On sait que si np _ 10 et n1 p _ 10, alors U
F p
p1 p
n
suit approximativement la loi
normale N0; 1. On dtermine le rel u

tel que Pu

U u

1 , i.e. u


1
1

2
(table 2).
Test (bilatral) de H
0
: p p
0
contre H
1
: p = p
0
.
On calcule u
f p
0
p
0
1 p
0

n
. On dtermine u

tel que Pu

U u

1 , et on dcide que :
- si u u

, u

, alors on ne peut rejeter H


0
;
- si u u

, u

, alors on rejette H
0
avec une probabilit de se tromper.
Test (unilatral) de H
0
: p p
0
contre H
1
: p p
0
.
On dtermine u

tel que PU u

1 , i.e. u


1
1 u
2
, et on dcide que :
- si u u

, alors on ne peut rejeter H


0
;
- si u _ u

, alors on rejette H
0
avec une probabilit de se tromper.
Test (unilatral) de H
0
: p p
0
contre H
1
: p p
0
.
On dtermine u

tel que PU _ u

1 , i.e. u


1
u
22
u
2
, et on dcide que :
- si u u

, alors on ne peut rejeter H


0
;
- si u _ u

, alors on rejette H
0
avec une probabilit de se tromper.
Exemple
Reprenons lexemple prcdents sur les rongeurs.
Sur un chantillon de 400 naissances, on a observ 206 mles, soit une frquence de mles de
f
206
400
0. 515.
On se demande sil y a autant de mles que de femelles dans la population ; autrement dit si la proportion
de mles dans la population est p 0. 5.
On peut effectuer le test statistique de H
0
: p p
0
contre H
1
: p = p
0
, avec p
0
0. 5.
On calcule u
f p
0
p
0
1 p
0

0. 515 0. 5
0. 51 0. 5
400
0. 6. Pour 0, 05 (i.e. 5%, on a u

1, 96.
Comme u u

, u

, alors on ne peut rejeter H


0
: il est donc possible que p 0. 5.
Stphane Ducay 8
S3 Maths 2013-2014 Statistique Estimation, intervalle de confiance, tests - Proportion
5. Comparaison de deux proportions
Dans deux populations P
1
et P
2
on tudie le mme caractre avoir ou non une proprit donne. Soient
X
1
et X
2
des variables alatoires de loi de Bernoulli Bp
1
et Bp
2
reprsentant le caractre dans chaque
population, o p
1
(respectivement p
2
) est la proportion dindividus ayant la proprit dans P
1
(respectivement
dans P
2
). De P
1
et P
2
on extrait un chantillon E
1
X
1,1
, X
1,2
, . . . , X
1,n
1
de taille n
1
de X
1
et un chantillon
E
2
X
2,1
, X
2,2
, . . . , X
2,n
2
de taille n
2
de X
2
.
Les frquences dchantillon sont alors F
1

_
i1
n
1
X
1,i
n
1
et F
2

_
i1
n
2
X
2,i
n
2
.
5.1. Cas dchantillons indpendants
Les chantillons E
1
et E
2
sont supposs indpendants.
Test (bilatral) de H
0
: p
1
p
2
p contre H
1
: p
1
= p
2
.
Supposons que n
1
f
1
_ 5, n
1
1 f
1
_ 5, n
2
f
2
_ 5, n
2
1 f
2
_ 5. Sous lhypothse H
0
,
U
F
1
F
2

1
n
1

1
n
2
p1 p
suit approximativement la loi normale N0; 1, et en regroupant les deux
chantillons, on peut estimer p par f
1,2

n
1
f
1
n
2
f
2
n
1
n
2
. On calcule u
f
1
f
2

1
n
1

1
n
2
f
1,2
1 f
1,2

. On
dtermine u

tel que Pu

U u

1 , i.e. u


1
1

2
(table 2) et on dcide que :
- si u u

, u

, alors on ne peut rejeter H


0
;
- si u u

, u

, alors on rejette H
0
avec une probabilit de se tromper.
Test (unilatral) de H
0
: p
1
p
2
contre H
1
: p
1
p
2
.
On dtermine u

tel que PU u

1 , i.e. u


1
1 u
2
, et on dcide que :
- si u u

, alors on ne peut rejeter H


0
;
- si u _ u

, alors on rejette H
0
avec une probabilit de se tromper.
Test (unilatral) de H
0
: p
1
p
2
contre H
1
: p
1
p
2
.
On dtermine u

tel que PU _ u

1 , i.e. u


1
u
22
u
2
, et on dcide que :
- si u u

, alors on ne peut rejeter H


0
;
- si u _ u

, alors on rejette H
0
avec une probabilit de se tromper.
5.2. Cas dchantillons apparis : test de McNemar
Deux chantillons E
1
et E
2
sont dits apparis lorsque chaque observation x
1,i
de E
1
est associe une
valeur x
2,i
de E
2
(apparis associs par paires). Cest par exemple le cas lorsque E
1
et E
2
proviennent dun
mme groupe de malades avant et aprs traitement. Deux chantillons apparis ont donc la mme taille
n
1
n
2
n.
On utilise le tableau suivant des effectifs de prsence ou absence de la proprit tudie :
P
1
\ P
2 prsent absent totaux
prsent
absent
a
c
b
d
a b
c d
totaux a c b d n
Le test de McNemar sappuie sur le calcul de u
b c
b c
, et se poursuit de faon analogue au cas
dchantillons indpendants (paragraphe 5.1). On peut lutiliser ds que b c _ 10.
Stphane Ducay 9
S3 Maths 2013-2014 Statistique Estimation, intervalle de confiance, tests - Proportion
5.3. Exemple
Dans une mme catgorie sociale, un chantillon de 40 hommes a fourni 8 fumeurs et un chantillon de
60 femmes a fourni 18 fumeuses. On se demande si la proportion de fumeurs est la mme pour les deux
sexes.
On peut considrer la situation suivante.
Population 1 : hommes.
Variable X
1
: tre fumeur, reprsent par une variable alatoire X
1
de loi de Bernoulli Bp
1
, o p
1
est la proportion dhommes fumeurs.
Echantillon de taille n
1
40.
Estimateur de p
1
: frquence dchantillon F
1
. Estimation de p
1
: f
1

8
40
0, 2.
Population 2 : femmes.
Variable X
2
: tre fumeuse, reprsent par une variable alatoire X
2
de loi de Bernoulli Bp
2
, o p
2
est la proportion de femmes fumeuses
Echantillon de taille n
2
60.
Estimateur de p
2
: frquence dchantillon F
2
. Estimation de p
2
: f
2

18
60
0, 3.
Les chantillons E
1
et E
2
sont indpendants.
Test (bilatral) de H
0
: p
1
p
2
p contre H
1
: p
1
= p
2
.
Supposons que n
1
f
1
8 _ 5, n
1
1 f
1
32 _ 5, n
2
f
2
18 _ 5, n
2
1 f
2
42 _ 5.
Sous lhypothse H
0
, U
F
1
F
2

1
n
1

1
n
2
p1 p
suit approximativement la loi normale N0; 1, et en
regroupant les deux chantillons, on peut estimer p par f
1,2

n
1
f
1
n
2
f
2
n
1
n
2

8 18
40 60
0, 26 . En
remplaant p par f
1,2
, on ne modifie pas la loi approche de U.
On calcule u
f
1
f
2

1
n
1

1
n
2
f
1,2
1 f
1,2


0, 2 0, 3
1
40

1
60
0, 261 0, 26
~ 1, 12.
On dtermine u

tel que Pu

U u

1 (table 2) : pour 0, 05, on trouve u

1, 96.
Comme u u

, u

, on ne peut rejeter H
0
: la proportion de fumeurs ne diffre pas significativement
entre les deux sexes. Pour cette dcision de non-rejet, on ne connait pas la probabilit de se tromper (erreur de
deuxime espce).
6. Exercices
Exercice 1.
On admet que dans la population denfants de 11 14 ans dun dpartement franais, le pourcentage
denfants ayant dj eu une crise dasthme dans leur vie est de 13%.
Un mdecin dune ville de ce dpartement est surpris par le nombre important denfants le consultant
pour des crises dasthmes. Il dcide de mener une tude statistique en choisissant de manire alatoire 100
enfants de 11 14 ans de la ville. Il observe que 19 dentre eux ont dj eu une crise dasthmes.
1) Utiliser un intervalle de fluctuation pour aider le mdecin dcider sil y a plus denfants ayant des
crises dasthmes dans la ville que dans le dpartement.
2) Le mdecin nest pas convaincu par la dcision obtenue et pense que le nombre denfants interrogs
tait insuffisant. Combien denfants faudrait-il interroger pour quune frquence observe de 0,19 amne
conclure quil y a plus denfants ayant des crises dasthmes dans la ville que dans le dpartement.
Exercice 2. Un groupe dtudiants en Statistique ralise une enqute auprs dune population dtudiants en
sociologie en interrogeant un chantillon de 135 individus. Ils dsirent connatre, entre autres, la proportion p
dtudiants ayant suivi des tudes secondaires scientifiques.
Pour acclrer le traitement, ils partagent le dpouillement en deux groupes. Un groupe constate que sur
60 des tudiants interrogs, 24 ont suivi des tudes secondaires scientifiques. Lautre groupe constate que sur
les 75 des tudiants interrogs restant, 33 ont suivi des tudes secondaires scientifiques.
1) Dterminer trois estimations ponctuelles de p.
2) A partir de lchantillon des 135 tudiants, dterminer un intervalle de confiance de p au seuil 5%.
3) On souhaite estimer p avec une prcision de 0, 05. Quelle devrait tre la taille n de lchantillon ?
Stphane Ducay 10
S3 Maths 2013-2014 Statistique Estimation, intervalle de confiance, tests - Proportion
Exercice 3. Pour obtenir une estimation de la proportion dhyperglycmiques parmi les personnes ges de
plus de soixante ans (population P), on choisit au hasard 170 personnes dans P. On constate que parmi
celles-ci, 31 sont hyperglycmiques.
1) Donnez un intervalle de confiance au niveau 95% pour la proportion p de personnes hyperglycmiques
de P.
2) Si on effectuait 200 fois le tirage de 170 personnes de P, on pourrait construire 200 intervalles de
confiance du type prcdent. Parmi ces 200 intervalles, combien, en moyenne, contiendraient la valeur de p ?
Exercice 4. Un sondage effectu sur un chantillon de 400 lecteurs donne 212 intentions de vote en faveur
dun candidat C.
1) Dterminer un intervalle de confiance au niveau 95% pour la proportion dlecteurs, dans lensemble
de la population lectorale, ayant lintention de voter en faveur de C.
2) Quelle taille minimale de lchantillon faudrait-il prendre pour que lintervalle (au mme niveau 95%)
ne contienne pas la valeur 0,50 ?
Exercice 5. Lors dune prcdente consultation lectorale, le candidat A avait obtenu 51% des suffrages
exprims. A lapproche de nouvelles lections, il ralise un sondage sur un chantillon de 400 lecteurs
choisis au hasard dans sa circonscription. Il obtient 196 intentions de votes.
Peut-il conclure que sa cote de popularit est reste stable ?
Exercice 6. Une agence de publicit affirme quun produit dentretien est efficace 90% pour dboucher
viers et lavabos en deux heures, quelle que soit la nature de lobstruction. Une association de dfense du
consommateur a fait une enqute qui relve que sur 100 lavabos bouchs, 80 seulement sont dbouchs en
deux heures en utilisant le produit dentretien.
Doit-on faire un procs lagence de publicit ? Faire un test au risque 5%, puis 1%.
Exercice 7. On compare les effets dun mme traitement dans deux hopitaux diffrents. Dans le premier
hopital, 70 des 100 malades traits montrent des signes de gurison. Dans le deuxime hopital, cest le cas
pour 100 des 150 malades traits.
Quelle conclusion peut-on en tirer ?
Exercice 8. Daprs examen de mars 2011
Afin dvaluer limpact dune campagne mdia anti-tabac, on sest intress la proportion de fumeurs
menant des actions pour essayer darrter de fumer (diminution de la consommation, achat de patchs
anti-tabac, consultations mdicales, ...), cest--dire la proportion de fumeurs "actifs" pour arrter.
Un sondage "avant campagne" a t effectu auprs de 3000 fumeurs, et un sondage "aprs campagne" a
t effectu auprs dun autre chantillon de 3000 fumeurs ; les deux chantillons sont donc indpendants.
Le premier sondage donne une proportion de 0,15 de fumeurs "actifs", alors que le deuxime sondage
donne une proportion de 0,17 de fumeurs "actifs".
On veut savoir si la campagne a t efficace ; autrement dit si la proportion de fumeurs "actifs" a
augment aprs la campagne.
1) a) Dterminer un intervalle de confiance au niveau 95% de la proportion de fumeurs "actifs" avant la
campagne. Prciser la population et le caractre tudi, la taille dchantillon, le(s) estimateur(s) mis en jeu.
b) De faon analogue, donner (sans dtailler les calculs) un intervalle de confiance au niveau 95% de
la proportion de fumeurs "actifs" aprs la campagne.
c) Peut-on dduire de ces deux intervalles que la campagne a t efficace ?
2) a) Expliquer brivement ce que reprsentent les erreurs de premire et deuxime espce dun test
statistique.
b) Effectuer un test statistique au risque 5%, puis 10%, pour savoir si la campagne a t efficace. En
cas de dcisions contradictoires avec les deux risques 5% et 10%, prciser et justifier la dcision retenir.
Exercice 9. Sous forme de comprim un mdicament est efficace dans le traitement dune maladie dans 80%
des cas. Le pharmacien du laboratoire qui commercialise ce mdicament, essaie une forme injectable par voie
intra-musculaire, de ce mme mdicament. Il observe sur un chantillon de 50 malades, 35 gurisons.
Lefficacit de la forme intra-musculaire est-elle diffrente de celle en comprim ? Lui est-elle infrieure ?
(conclure au risque de 5%).
Stphane Ducay 11
S3 Maths 2013-2014 Statistique Estimation, intervalle de confiance, tests - Proportion
Exercice 10. On sait quune maladie atteint 10% des individus dune population P donne. Un chercheur a
expriment un traitement sur un chantillon de n individus : il a alors recens 5% de malades. Dterminer la
valeur minimale de n qui permette au chercheur de conclure lefficacit du traitement au risque de 5%.
Exercice 11. Pour traiter un certain type de tumeur, on a utilis deux schmas thrapeutiques :
- sur 40 malades traits avec le schma A, on a observ une mortalit 5 ans de 15 % ;
- sur 60 malades traits avec le schma B, on a observ une mortalit 5 ans de 25 %.
Si lon considre la mortalit 5 ans, peut-on dire que les schmas A et B diffrent significativement au
risque 10 % ? au risque 5 % ?
Stphane Ducay 12

You might also like