Professional Documents
Culture Documents
Probabilits lmentaires
Nous prsentons un formalisme qui permet de modliser une situation alatoire
dans laquelle les ventualits possibles sont en nombre fini et sont compltement
connues, mais par contre nous ne savons pas laquelle va se produire. Pour ce faire
nous utilisons des ensembles et des applications.
1. Formalisme
Nous considrons un ensemble dont les lments sont vus comme les direntes ventualits qui peuvent se produire. Par exemple, nous voulons tester un
algorithme sur un entier tir au hasard entre 1 et 1000 et lensemble est lintervalle dentiers [1, 1000] ou encore nous nous intressons la propagation dune
pidmie et lensemble est lensemble des individus concerns pas lpidmie.
Nous considrons des assertions comme lentier que nous tirons est pair ou
les individus contamins sont des brebis. Ces assertions sont baptises vnements et sont modlises par des sous-ensembles de . Par exemple il est naturel
de chercher une corrlation entre le fait de fumer et le cancer du poumon. Naturellement lensemble est, disons, lensemble des individus franais entre 15 et 80 ans
et nous considrons dune part lensemble F des fumeurs, dautre part lensemble C
des personnes atteintes dun cancer du poumon, ainsi que lintersection F C qui
sinterprtent comme la conjonction des deux proprits tre fumeur et tre atteint dun cancer du poumon. Cette transposition du vocabulaire ensembliste en
vocabulaire probabiliste est rsum dans le tableau 1.
Nous avons maintenant besoin dune application qui mesure la vraisemblance
des vnements. Pour cela nous considrons une probabilit sur lensemble des
vnements cest--dire une application P qui part de lensemble P() des parties
de et arrive dans lintervalle rel [0, 1]. Cette application doit satisfaire aux
conditions suivantes :
lvnement certain a pour probabilit 1;
lvnement impossible a pour probabilit 0;
langage ensembliste langage probabiliste
ensemble
univers des possibilits
vnement impossible
vnement certain
A (complmentaire) vnement contraire de A
AB
A et B
AB
A ou B
A et B disjoints
A et B incompatibles
partition de
systme complet dvnements
Table 1. La correspondance la base de la thorie des probabilits.
#A
,
#
P(A) = P
{} =
P({}).
1. FORMALISME
1
.
2
ce point une question nous saute la figure : est-ce bien raisonnable? Les probabilits que dune part votre boulanger et votre professeur de mathmatiques,
dautre part vous-mme et votre frre se connaissent sont-elles gales? Et en plus
quasiment dtermines par une partie de pile ou face. Il est clair que le modle est
excessivement simplet.
Ce modle amne deux commentaires. Dabord ce serait une erreur de le considrer comme inintressant parce quil reprsente mal les relations entre personnes.
Si nous considrons que les individus sont des serveurs informatiques, il fournit un
modle simple du rseau mondial qui nest pas totalement stupide. Bien sr cela
Filire PSI
Hommes
Femmes
Ensemble
Population totale 31 888 651 33 932 265 65 820 916
Moins de 20 ans
8 283 597
7 907 016 16 190 613
de 20 64 ans
18 592 668 19 189 292 37 781 960
65 ans et plus
5 012 386
6 835 957 11 848 343
Table 2. Population totale par sexe et ge au 1er janvier 2014,
France hors Mayotte. Source : Insee, estimations de population
(rsultats provisoires arrts fin 2013).
ncessite de le reprendre pour que la probabilit p que deux serveurs soient connects aient une valeur plus raliste que 1/2. Mais cela sort du champ dapplication
de ce chapitre.
Ensuite et cest le point le plus important, les espaces probabiliss sont des
modles et cest le rle des statistiques que de trouver des reprsentations cohrentes avec lexprience. En particulier il est naturel destimer les probabilits par
des frquences. Dans la crise du virus ebola en Afrique de louest du printemps-t
2014, il y eu, au 31 juillet, 909 cas confirms dinfection par le virus qui ont amen
485 dcs. Les journalistes disent quil y a plus dune chance sur deux de mourir si
on est atteint par le virus. Dans les exemples qui suivent nous allons frquemment
employer les frquences comme estimation des probabilits, cependant lobtention
dun modle satisfaisant demande plus de rflexion quune simple rgle de trois.
Nous restons ici volontairement lmentaires, mais il est clair que statistiques et
probabilits sont lies. Plus prcisment les deux disciplines sont surs : les statistiques permettent de mettre au point les modles probabilistes; les probabilits
permettent de justifier la pertinence des mthodes statistiques.
2. Probabilit conditionnelle
Linformation dont nous disposons conditionne notre perception des possibilits. Au mois de fvrier Paris, vous ne vous habillez pas dun tee-shirt parce que
vous savez que la probabilit quil fasse plus de 15 C est bien faible. A contrario
en vacances Marseille au mois daot, vous ne portez pas un pull marin. Une
information rduit le champ des possibilits. Au lieu dutiliser lensemble complet
des ventualits , nous employons seulement un sous-ensemble.
Probabilit conditionnelle. Cette remarque nous amne la notion de probabilit
conditionnelle. Nous fixons une partie B de dont la probabilit nest pas nulle et
nous dfinissons une nouvelle probabilit PB = P( | B) par
A ,
P(A | B) =
P(A B)
.
P(B)
Il nest pas dicile de vrifier quil sagit bien dune probabilit, pour laquelle tous
les vnements incompatibles avec B ont une probabilit nulle.
Dfinition #2 : La probabilit conditionnelle associe un vnement B de probabilit non nulle est la probabilit dfinie par la formule
A ,
P(A | B) =
P(A B)
.
P(B)
Considrons par exemple lensemble des franais au 1er janvier 2014. Nous
munissons cet ensemble de lquiprobabilit et nous considrons les vnements
J : avoir moins de 20 ans ;
A : avoir entre 20 et 64 ans ;
Le got de la poire
2. PROBABILIT CONDITIONNELLE
Lx Lx+1
Lx+1
=1
,
Lx
Lx
autrement dit la probabilit (en fait cest une frquence) de dcs dans lanne. Par
exemple, en regardant pour lge de 50 ans et pour les femmes nous voyons que la
cohorte (cest le langage du statisticien et de lactuaire) comprend L50 = 96 546
femmes, alors que pour 51 ans, la cohorte ne comprend plus que L51 = 96 304
femmes. Autrement dit 96 546 96 304 = 242 femmes sont dcdes lge de 50
ans. Le quotient de mortalit q50 vaut donc
242
q50 =
0.002506577176,
96 546
ce qui figure dans la colonne adjacente.
a. Quelle est la probabilit pour un homme de 50 ans de vivre au moins jusqu 70
ans?
b. Quel est lge maximal quune femme de 30 ans peut esprer atteindre avec
une probabilit suprieure 90%? Que devient cette valeur si lon demande une
probabilit suprieure 95%? Et avec 100%?
La formule de dfinition des probabilits conditionnelles peut se lire
A ,
Elle sinterprte facilement en terme de choix successifs. Cest la version probabiliste du principe des bergers de la combinatoire, souvent matrialis laide dune
arborescence. Par exemple si lon tire deux cartes dans un jeu usuel de cinquantedeux cartes, la probabilit dobtenir deux as est
P( obtenir deux as ) =
P( la seconde carte est un as | la premire carte est un as )
P( la premire carte est un as )
=
Filire PSI
3
4
.
51 52
10
Age
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
94 851
94 501
94 131
93 741
93 329
92 892
92 425
91 923
91 382
90 797
90 164
89 476
88 726
87 907
87 010
86 024
84 941
83 751
82 442
80 998
79 402
77 633
75 671
73 496
71 088
68 423
65 478
62 233
58 680
54 828
50 706
46 362
41 868
37 319
32 821
28 469
24 328
20 444
16 860
13 618
10 750
8 277
6 204
4 516
3 185
2 171
1 426
900
544
314
172
89
44
20
9
4
1
0,00369
0,00392
0,00414
0,00440
0,00468
0,00503
0,00543
0,00589
0,00640
0,00697
0,00763
0,00838
0,00923
0,01020
0,01133
0,01259
0,01401
0,01563
0,01752
0,01970
0,02228
0,02527
0,02874
0,03276
0,03749
0,04304
0,04956
0,05709
0,06564
0,07518
0,08567
0,09693
0,10865
0,12053
0,13260
0,14546
0,15965
0,17531
0,19229
0,21060
0,23005
0,25045
0,27208
0,29473
0,31837
0,34316
0,36886
0,39556
0,42279
0,45223
0,48256
0,50562
0,54545
0,55000
0,55556
0,75000
1,00000
88 929
88 151
87 329
86 460
85 538
84 558
83 514
82 399
81 206
79 926
78 552
77 078
75 501
73 816
72 019
70 105
68 070
65 914
63 637
61 239
58 718
56 072
53 303
50 411
47 390
44 234
40 946
37 546
34 072
30 575
27 104
23 707
20 435
17 338
14 464
11 852
9 526
7 498
5 769
4 331
3 166
2 249
1 549
1 032
663
410
244
139
75
39
19
9
4
2
1
0,00875
0,00932
0,00995
0,01066
0,01146
0,01235
0,01335
0,01448
0,01576
0,01719
0,01876
0,02046
0,02232
0,02434
0,02658
0,02903
0,03167
0,03455
0,03768
0,04117
0,04506
0,04938
0,05426
0,05993
0,06660
0,07433
0,08304
0,09253
0,10264
0,11352
0,12533
0,13802
0,15155
0,16576
0,18059
0,19625
0,21289
0,23059
0,24926
0,26899
0,28964
0,31125
0,33376
0,35756
0,38160
0,40488
0,43033
0,46043
0,48000
0,51282
0,52632
0,55556
0,50000
0,50000
1,00000
P(B | A) P(A)
,
P(B)
Cours de mathmatiques spciales
2. PROBABILIT CONDITIONNELLE
11
ce qui permet un change entre cause et consquence. Dailleurs cette formule est
aussi appele formule de probabilit des causes.
Formule de Bayes #3 : Pour deux vnements A et B de probabilits non nulles,
les probabilits conditionnelles sont lies par
P(A | B) =
P(B | A) P(A)
,
P(B)
Expliquons ceci sur une situation classique de test et de diagnostic. La socit Dectra Pharm propose un test de dtection rapide des angines streptocoque du groupe A, baptis Streptatest. Le but de ce type de produit est dviter lemploi dun antibiotique dans le cas o le patient prsente des signes dangine streptococcique mais nest en fait pas atteint par cette maladie (il pourrait
tre atteint dune angine virale). La socit Dectra Pharm a eectu des tests
(http://www.testangine.com/etudes_cliniques.html) qui se rsume en le tableau 3. La mise en culture permet de savoir si le patient a rellement une angine
streptococcique. Dfinissons les vnements
A : le patient a une angine streptococcique;
T : le test est positif.
Lespace de rfrence est lchantillon des 499 personnes qui ont particip au
test. Si, une fois de plus, nous confondons frquence et probabilit, nous obtenons
la probabilit conditionnelle
120
P(T | A) =
96.8%
124
que le test soit positif sachant que le patient est malade. Nous pouvons aussi calculer
la probabilt davoir un faux positif , cest--dire un test positif alors que le
patient na pas dangine streptococcique,
20
P(T | A) =
5.3%.
375
Considrons maintenant la population globale et les vnements A et T
qui snoncent comme A et T . Nous crivons
P(A | T ) =
P(T | A ) P(A )
.
P(T )
Nous faisons maintenant lhypothse que lchantillon est reprsentatif de la population, ce que nous traduisons en les galits
P(T | A ) = P(T | A),
P(A | T ) =
Notons pour abrger p = P(A ). Nous utilisons le fait que {A , A } est un systme
complet dvnements pour crire
12
P(A | T ) =
ce qui donne numriquement
P(A | T ) =
P(T | A)p
P(T | A)p + P(T | A)(1 p )
0.968p
0.968p
0.968p
=
.
+ 0.053(1 p )
0.915p + 0.053
ce stade nous avons besoin pour terminer le calcul de la valeur de p . Cest le rle
de lpidmiologie que de la dterminer. Dans le cas des angines streptocoques,
elle dpend de lge ce qui fait considrer trois tranches dges, 315 ans, 1525 ans
et au dessus de 25 ans et les valeurs p315 = 25%, p1525 = 8%, p>25 = 10%. Nous
avons ainsi
P315 (A | T ) = 86%,
P1525 (A | T ) = 61%,
P>25 (A | T ) = 67%.
Pour un jeune de 1525 ans, la probabilit dtre atteint dune angine streptocoques sachant que le test est positif est de 61%. Pour un enfant, le test est meilleur
puisque la probabilit est de 86%.
Au cours du calcul nous avons utilis un cas particulier de la rgle de Bayes
(1)
P(B | Aj ) P(Aj )
P(Aj | B) =
P(B | Ak ) P(Ak )
kK
3. VARIABLE ALATOIRE
13
Aucun
enfant de
moins de 25
ans
1 enfant de
moins de 25
ans
2 enfants de
moins de 25
ans
3 enfants de
moins de 25
ans
4 enfants ou
plus de
moins de 25
ans
7 507 472
7 507 472
530 756
2 820 509
2 943 143
1 082 608
338 772
7 715 788
Famille
monoparentale
compose dun
homme
avec
enfant(s)
75 174
212 077
97 285
25 127
7 017
416 680
Famille
monoparentale
compose dune
femme
avec
enfant(s)
392 598
960 196
549 604
177 259
70 003
2 149 660
Ensemble
Ensemble
du cur, 1/4. Lindpendance sera gnralement pour nous une hypothse qui
permettra de mener les calculs bien.
Demande 4 La table 4 donne la composition des familles franaises selon le
type de famille et le nombre denfants.
Quelle est la probabilit quune famille nait pas de fille de moins de 25 ans, en
considrant que toutes les familles ont la mme probabilit dtre tire au hasard?
Il faut noter quune hypothse simplificatrice est ncessaire, faute dinformation.
vnements mutuellement indpendants. Aprs la dfinition de lindpendance
de deux vnements, il est naturel de gnraliser lide en considrant lindpendance mutuelle dvnements.
Dfinition #5 : Les vnements A1 , A2 , . . . , An sont mutuellement indpendants
si est satisfaite la condition
P(
Ah ) =
P(Ah )
hH
hH
14
Dans cet exemple la variable alatoire est numrique, mais une variable alatoire
nest pas ncessairement numrique. Par exemple chaque individu, nous pouvons
associer son sexe ou la couleur de ses yeux.
Dfinition #6 : Une variable alatoire sur un espace probabilis fini (, P) est
une application dfinie sur lensemble .
Loi. La variable alatoire X qui est dfinie sur lespace probabilis (, P) et
prend ses valeurs dans lensemble V fournit une probabilit PX sur V par la formule
W V,
PX (W ) = P(X 1 (W )) = P(X W ).
PX (W ) = P(X W ).
Prenons un exemple bent. Nous lanons deux ds, avec quiprobabilit sur
[1, 6]2 , et nous regardons la somme des points. Cest une variable alatoire S valeurs entires et sa loi est compltement dfinie par les probabilits des vnements
lmentaires, donnes par le tableau ci-dessous.
s
0 1 2 3 4 5 6 7 8 9 10 11 12 s 13
36PS ({s}) 0 0 1 2 3 4 5 6 5 4 3 2 1
0
Considrons un tirage de pile ou face en n tapes. Nous supposons les lancers
indpendants et la pice quilibre ce qui fait que nous utilisons lespace =
{P, F }n muni de lquiprobabilit. Une ventualit est un mot de longueur n sur
lalphabet {P, F }. Nous considrons la variable alatoire Yn qui compte le nombre
de faces apparues dans le tirage et nous voulons connatre sa loi. Pour cela nous
voyons chaque tirage, chaque mot comme un chemin dans le plan. Nous partons
de lorigine (0, 0). Le tirage dun pile P nous fait faire un pas horizontal disons
de (x, y) (x + 1, y). Une face F nous fait faire un pas vertical de (x, y) (x, y + 1).
n
Le nombre total de chemins ou de mots est
n2 . Le nombre de chemins en n pas
qui terminent laltitude y est le binomial y , qui correspond au choix des places
parmi les n o nous crivons la lettre F , les autres tant P . Nous obtenons donc
1 n
PYn ({y}) = P(Yn = y) = n
.
2 y
Nous pouvons voir un tirage de pile ou face dune autre manire. Au lieu
dassocier pile et face les valeurs 0 et 1, nous leur associons les valeurs 1 et 1.
Nous obtenons nouveau des chemins, comme dans le dessin ci-dessous, mais nous
Le got de la poire
3. VARIABLE ALATOIRE
15
1
n
PSn (s) = P(Sn = s) = pn,s = n n+s .
2
2
La fraction (s + n)/2 ne doit pas nous troubler : s et n ont ncessairement la
mme parit. Nous voyons en particulier que la probabilit que la marche alatoire
revienne en 0 au temps 2n vaut
1 2n
1
u2n = p2n,0 = 2n
.
2
n n+ n
Demande 6 Nous considrons une marche alatoire sur la droite Z dont les pas
lmentaires sont 1 ou 1 et qui part de 0. De manire quivalente, en considrant le
graphe de la marche en fonction du temps, nous considrons des chemins sur N Z
Filire PSI
16
f2n =
1
u2n
2n 1
avec
u2n =
1 2n
.
22n n
B
,
B+N
P(X = 0) =
N
.
B+N
3. VARIABLE ALATOIRE
17
Plus gnralement une loi de Bernoulli B(p) est dfinie par la donne dun paramtre p dans [0, 1] avec
P(X = 1) = p,
P(X = 0) = 1 p.
Nous pouvons aussi eectuer un tirage sans remise. Lespace probabilis est
alors lespace des parties n lments de lensemble des boules. Sil y a B boules
blanches et N boules noires, la variable X qui compte le nombre de boules blanches
tires a pour loi
B
N
k
nk
,
P(X = k) =
B+N
n
pour max(0, n B) k min(n, B) et 0 sinon. Cest une loi hypergomtrique
Esprance, variance. Nous nous limitons ici des variables alatoires qui prennent
des valeurs numriques et mme numriques relles pour simplifier. Si nous avons
une telle variable alatoire X dfinie sur un espace probabilis (, P) et valeurs
dans R, alors son esprance est la quantit
E(X) =
x P(X = x).
xX()
E(X k ) =
xk P(X = x).
xX()
18
E(X) =
x P(X = x),
Var(X) = E((XE(X))2 ),
X = Var(X)1/2 .
xX()
Prenons par exemple une variable alatoire de la loi binomiale B(n, p). Nous
voyons tout de suite
n
n
n k nk
n 1 k1 (n1)(k1)
E(X) =
k
p q
= np
p
q
= np,
k
k1
k=0
k=1
n, k 1,
n
n n1
=
.
k
k k1
n k nk
n 2 k2 (n2)(k2)
k(k1)
p q
= n(n1)p2
k = 2n
p
q
= n(n1)p2
k
k2
k=0
(X | Y ) = E(XY ).
Il sagit dun produit scalaire parce que lesprance dune variable alatoire positive
est positive et la condition E(X 2 ) = 0 scrit
x2 P(X = x) = 0
xX()
et implique que X ne prend que la valeur 0, car une somme de nombres positifs ne
peut tre nulle que si chaque nombre est nul.
De plus lesprance apparat comme un projecteur sur lespace des variables
alatoires constantes cause de lvidente formule E(E(X)) = E(X). Ceci nous
amne dcomposer une variable alatoire X en
X = E(X) + (X E(X))
et la variable alatoire X E(X) est centre, ce qui signifie que son esprance est
nulle.
Le got de la poire
3. VARIABLE ALATOIRE
19
E(XY ) =
xy P(X = x, Y = y) =
xy P(X = x) P(Y = y)
(x,y)
(x,y)
x P(X = x)
Nous constatons que pour deux variables alatoires, les variables alatoires centres
associes sont orthogonales.
Proposition #13 : Les variables centres associes deux variables alatoires
indpendantes sont orthogonales.
Appliquons ceci la marche alatoire sur Z de lhomme ivre. Le pas numro k
vaut 1 ou 1 et ceci est la variable alatoire Xk . La variable alatoire Sn nest rien
dautre que la somme des Xk , 1 k n,
Sn = X 1 + X 2 + + X n .
E(Sn2 ) =
E(Xk2 ) = n.
k=1
Sn = n.
Ingalit de Bienaym-Tchebychev. Nous voulons quantifier lcart entre les valeurs dune variable alatoire et sa valeur moyenne. Lcart-type est un premier pas
en ce sens, mais nous voulons renforcer linformation quil fournit. Pour cela nous
tablissons dabord lingalit dAndrei Markov. Nous considrons une variable
alatoire Z qui ne prend que des valeurs relles positives et un rel a strictement
positif. Nous crivons que pour z a, nous avons z/a 1 et cela donne
z
1
1
P(Z a) =
P(Z = z)
P(Z = z) =
z P(Z = z) E(Z).
a
a
a
za
za
za
y b f (y) f (b)
Ph. Dumas, 2015
20
Figure 5. Trois ventualits (ralisations) de la marche alatoire S1000 . La parabole indique lcart-type.
et donc linclusion
{ | Y () b} { I | f (Y ()) f (b)}.
Il en rsulte lingalit
1
E(f (Y )).
f (b)
P(|X E(X)| b)
1
Var(X).
b2
1
P(|Sn | 2 n) .
4
5. EXERCICES
21
PX (W ) = P(X W ).
P(
Ah ) =
P(Ah )
hH
hH
pour toute partie H de P([1, n]) ayant au moins deux lments. Des
variables alatoires X1 , X2 , . . . , Xn sont indpendantes si elles vrifient
P(k, Xk Ak ) =
j=1
P(Xj Aj )
E(X) =
x P(X = x), Var(X) = E((XE(X))2 ), X = Var(X)1/2 .
xX()
La loi binomiale B(n, p) avec n entier naturel non nul et p dans [0, 1]
est la loi sur lintervalle dentiers [0, n] dont les probabilits lmentaires
sont les
n k nk
k [0, n], pk =
p q
,
k
avec q = 1 p. Pour n = 1, cest une loi de Bernoulli B(p) = B(1, p).
Une loi binomiale B(n, p) a pour esprance np et pour variance npq.
Les variables centres associes deux variables alatoires indpendantes sont orthogonales.
Daprs lingalit de Bienaym-Tchebychev, une variable alatoire
relle X dcart-type vrifie
r > 0,
P(|X E(X)| r )
1
r2
5. Exercices
Exercice 7 Au poker, dans sa version classique, les cartes sont dans lordre
croissant de force : deux, trois, quatre, cinq, six, sept, huit, neuf, dix, valet, dame,
Filire PSI
22
roi, as et il y a quatre couleurs : pique, trfle, carreau, cur. Il y a donc cinquantedeux cartes. Une main est une combinaison de cinq cartes.
a. On tire une main au hasard. Quel est lespace probabilis qui vient naturellement
lesprit?
b. Une suite colore ou quinte flush est une suite de cinq cartes de rang conscutifs
de mme couleur. Elle est nomme par sa couleur et le rang de la plus haute carte,
par exemple une quinte flush la reine carreau . Une quinte royale est une
quinte flush colore las. Cest la main la plus forte. Quelle est la probabilit de
tirer une quinte flush?
c. Une suite ou quinte est une suite de cinq cartes de rangs conscutifs et dau moins
deux couleurs (sil ny a quune couleur cest une quinte flush). Elle est nomme
suivant le rang de la plus haute carte. Quelle est la probabilit de tirer une quinte?
Exercice 8 [Le problme des anniversaires] Quelle est la probabilit que dans
un groupe de n personnes au moins deux aient le mme anniversaire? Prcisons
que nous considrons que lanne a 365 jours. Quel est le plus petit entier n pour
lequel cette probabilit dpasse 1/2?
Exercice 9 a. Soit X une variable alatoire un espace probabilis fini dont
les valeurs sont des entiers naturels non nuls. Prouvez la formule
E(X) =
P(X x).
x1
Nous pouvons considrer que la somme est finie car pour x assez grand P(X x)
est nul.
b. En vous basant sur la table de mortalit de la figure 2, calculez lesprance de
vie dun franais de 100 ans.
Exercice 10 Avec les notations de la demande 6, montrez lgalit
f2n = u2n2 u2n
dans laquelle les Xk sont des variables alatoires indpendantes qui suivent toutes
la mme loi de type Bernoulli,
1
P(X = 1) = P(X = 1) = .
2
Nous nous intressons la loi du maximum Mn entre 0 et n. Les sommes partielles
de la somme prcdente sont notes S0 = 0, S1 = X1 , S2 = X1 +X2 , etc. Puisque S0
est nulle, le maximum est une variable alatoire positive.
a. Soit m un entier positif. En utilisant le principe de rflexion dAndr, donnez
la probabilit que la marche arrive au temps n la position k < m en passant
par au moins une valeur suprieure ou gale m. Pour abrger, vous emploierez la
notation
1
n
pn,k = P(Sn = k) = n n+k .
2
2
Le got de la poire
5. EXERCICES
23
c. Quelle est la probabilit que la valeur maximale de la marche, entre les instants 0
et n, soit exactement m?
Exercice 12
Dans larticle Programming pearls: a sample of brilliance,
Jon Bentley, Bob Floyd, Communications of the ACM, septembre 1987, volume 30,
numro 9, pages 754757, repris dans More programming pearls Confessions of a
coder, Jon Bentley, Addison-Wesley, 1988, qui commence en ces termes
How can a computer deal a poker hand? If we assigne each card
in the deck its own integer between 1 and 52, then we can make a
hand from a random sample of 5 integers in the range 1..52, for
instance
4 8 31 46 47
(It is important that no number appear twice; holding more than
one ace of spades can jeopardize a cardplayers health.) Random
simulation also arise in applications such as simulation, program
testing, and statistics.
Jon Bentley discute des algorithmes qui tire alatoirement une combinaison de M
lments dun ensemble N lments, concrtement lintervalle dentiers [1, N ]. Il
rappelle dabord que la majorit des algorithmes existants ont essentiellement la
structure suivante.
initialize set S to empty
Size := 0
while Size < M do
T := RandInt(1,N)
if T is not in S then
insert T in S
Size := Size + 1
Ensuite il fournit lalgorithme de Floyd qui dans une version itrative scrit
initialize set S to empty
for J := N - M + 1 to N do
T := RandInt(1,J)
if T is not in S then
insert T in S
else
insert J in S
et il en vante les mrites.
a. Expliquez en quoi la version de Floyd est meilleure que la version gnrique.
b. Fournissez un codage en Python de lalgorithme de Floyd. Vous utiliserez la
structure de liste pour reprsenter lensemble S.
c. Prouvez que sous lhypothse que la fonction RandInt qui gnre des entiers
fournit des entiers avec quiprobabilit dans lintervalle donn, alors lalgorithme
de Floyd gnre des combinaisons dans PM ([1, N ]) avec quiprobabilit.
Filire PSI
24
6. Rponses
Demande 1 a. Un domino est une paire dentiers entre 0 et 6 ou un doublon (x, x)
avec x entre 0 et 6. Il y en a donc
7
78
+7=
= 28.
2
2
b. Bien sr, la question ne fait sens que si nous indiquons la probabilit utilise. Le
caractre implicite de lnonc signifie que lquiprobabilit est utilise. Un dessin nous
ouvre les yeux.
Nous voyons tout de suite que le nombre de cas favorables est 1 + 2 + 3 + 3 + 2 + 1 = 12.
La probabilit demand vaut donc
P( la somme des points est impaire ) =
12
3
= 43%.
28
7
Demande 2 Nous pouvons voir un graphe simple dune manire lgrement dirente. Se donner un graphe simple sur I revient se donner une application v de P2 (I)
dans {0, 1}. Un couple {s, t} est une arte du graphe si et seulement si limage de {s, t}
par v vaut 1. Par exemple pour le graphe de la figure 1, lapplication v est la suivante
v({Albert, Bernard}) = 1,
v({Albert, Catherine}) = 0,
v({Albert, Denise}) = 0,
v({Bernard, Catherine}) = 1,
v({Bernard, Denise}) = 1,
v({Catherine, Denise}) = 1.
Autrement dit lensemble des graphes simples sur I est en bijection avec lensemble des
applications de P2 (I) dans {0, 1}. Le cardinal de est donc
n
# = 2( 2 ) = 2
n(n1)
2
Le got de la poire
6. RPONSES
25
P(H70 H50 )
.
P(H50 )
Cependant il est on ne peut plus rare quun individu atteigne 70 ans sil na pas dabord
atteint 50 ans, en clair H70 H50 . Il reste donc
P(H70 | H50 ) =
P(H70 )
P(H50 )
et en considrant que nous utilisons lquiprobabilit (ce que nous faisons depuis le dbut)
le quotient des probabilits est le quotient des eectifs, soit
72 019
78%.
92 736
b. La question est de mme nature la prcdente et nous employons une notation similaire.
Avec un cohorte de 98 921 femme de 30 ans, lingalit
P(H70 | H50 ) =
P(Fx | F30 ) =
P(Fx )
Lx
=
90%
P(F30 )
L30
se traduit en
9
98 921 89 029
10
et la table donne x 67 ans. Avec le seuil de 95%, la cohorte doit avoir un eectif dau
moins 93 975 femme et lge maximal devient 58 ans.
Si lon demande 100%, cest--dire la certitude, on obtient videmment le seuil de 30
ans. En voulant tre certain, on na plus rien dire.
Lx
1
.
2k
En utilisant le systme complet dvnements quest la partition (Mk )0k4 , nous trouvons
donc
4
P(F ) =
P(F | Mk ) P(Mk ),
k=0
cest--dire
1
pk 65.1%.
2k
k=0
Nous sommes tonns de ce que les familles sans fille de moins de 25 ans apparaissent
avec une probabilit denviron 2/3. Cela va contre notre bon sens.
la rflexion, il est bien possible que notre bon sens comprenne la question comme
suit : quelle est la probabilit quune famille nait pas de fille (de moins de 25 ans), sachant
quelle comporte des enfants (de moins de 25 ans)? Nous reprenons donc la question en
Filire PSI
26
conditionnant tous les calculs au fait de ne considrer que des familles avec enfants (de
moins de 25 ans), cest--dire par lvnement
M1 =
Mk .
k=1
Les probabilits qk = P(Mk | M1 ) sont donnes par le tableau suivant, obtenu partir
de la deuxime ligne de donnes (q1 = 2 820 509/7 185 032, etc; voyez aussi le tableau
pour la question suivante)
k
1
2
3
4
qk 43.0% 38.7% 13.8% 4.5%
Le mme raisonnement que ci-dessus nous donne la probabilit conditionnelle
PM1 (F ) =
cest--dire
k=1
P(F | M1 ) =
k=1
1
qk 33.2%.
2k
k=1
Notre intuition ne nous permet pas de quantifier cette probabilit mais le rsultat obtenu
semble plus raisonnable.
Comme les filles et les garons jouent des rles similaires dans cette histoire, nous
voyons que grosso modo, parmi les familles franaises avec enfant, un tiers ne comporte
que des garons, un tiers ne comporte que des filles et le dernier tiers est mixte.
Demande 5 La question ne se pose quavec au moins trois vnements. Nous considrons donc trois vnements A, B, C sur un ensemble fini muni de lquiprobabilit.
Comme nous voulons un exemple simple, nous faisons une hypothse de symtrie assez
forte et rsume dans la figure suivante qui donne les cardinaux des parties.
La symtrie fait quil ny a pas trois quations mais une seule pour exprimer lindpendance deux deux, explicitement
(x + 3y + 3z + t)(x + y) = (x + 2y + z)2 .
Nous voulons des entiers. Par ttonnements, nous trouvons x = 0, y = 1, z = 0, t = 1, qui
est en fait la seule solution. Avec ce choix, nous obtenons P(A) = 1/2, P(A B) = 1/4 et
les valeurs qui sen dduisent par symtrie. Nous avons bien lindpendance deux deux.
Cependant nous constatons
1
P(A B C) = 0 = P(A) P(B) P(C) =
8
et nous avons le contre-exemple voulu, un joli coup de chance.
Serge Bernstein a donn une configuration qui amne ces probabilits : une urne
contient quatre boules qui sont tiquetes 000, 011, 101, 110. On tire au hasard une boule
Le got de la poire
6. RPONSES
27
2n 2
2n 2
.
n1
n2
b. Chaque chemin a une probabilit 1/22n donc il vient
1
2n 2
2n 2
f2n = 2 2n
,
2
n1
n2
f2n
2n 2
=2
n1
n1
1
n
2 2n 2
=
.
n n1
2n
2n 2n 1
2n 2n 1
2n 2n 1 2n 2
=
=
=
n
n n1
n
n
n
n
n1
et le rsultat demand vient.
Exercice 7 a. Une main est une partie cinq lments de lensemble K des cinquantedeux cartes, donc il est naturel de prendre comme espace probabilis lensemble P5 (K)
muni de lquiprobabilit.
b. Une quinte flush peut avoir quatre couleurs et tre au six, au sept, au huit, au neuf,
au dix, au valet, la dame, au roi ou las, ce qui laisse neuf possibilits. Il y a donc
trente-six quinte flush. La probabilit demande est donc
P( tirer une quinte flush )
49
49
3
= =
=
0.001%.
52
51
50
49
48
216
580
52
12345
5
Cest un vnement rare.
c. Comptons le nombre de suites sans tenir compte de la restriction sur les couleurs. La
plus haute carte peut avoir neuf rangs depuis le six jusqu las. Pour chaque rang nous
avons quatre choix possibles, ce qui donne donc 945 possibilits. Cependant nous devons
enlever les trente-six quintes flush. Le nombre de cas favorables est donc
9 (45 4) = 9 4 (44 1) = 9 4 255
Filire PSI
9
0.35%.
2 548
28
Exercice 8 Soit X lensemble des personnes dans le groupe. chaque individu nous
associons la date de son anniversaire ce qui donne une application a (comme anniversaire)
de X dans un ensemble 365 lments, lensemble D des dates. Lespace probabilis que
nous utilisons est lensemble DX des applications de X dans D et nous le munissons de
lquiprobabilit.
Lvnement contraire de celui que lon nous fait considrer est toutes les personnes
ont des anniversaires dirents . Le sous-ensemble de DX qui correspond cet vnement
est lensemble des injections de X dans D. Celui-ci a
365!
365 364 (365 n + 1) =
(365 n)!
lments, alors que lensemble DX a 365n lments. La probabilit demande est donc
.
365
365
365
Le calcul donne les valeurs suivantes en notant pn la probabilit prcdente.
n pn
1 0
16 0.28
2 0.0027 17 0.32
3 0.0082 18 0.35
4 0.016
19 0.38
5 0.027
20 0.41
6 0.040
21 0.44
7 0.056
22 0.48
8 0.074
23 0.51
9 0.095
24 0.54
25 0.57
10 0.12
11 0.14
26 0.60
12 0.17
27 0.63
13 0.19
28 0.65
14 0.22
29 0.68
15 0.25
30 0.71
Nous voyons que la probabilit reste en dessous de 10% pour moins de dix personnes, passe
au dessus de 50% pour vingt-trois personnes et au dessus de 70% pour trente personnes.
Exercice 9
P(X x) =
P(X = y),
x1
x1 yx
P(X x) =
P(X = y) =
y P(X = y) = E(X).
x1
y1 1xy
x1
b. Nous reprenons les notations de la demande 3. De mme quexiste la notion de probabilit conditionnelle, il est possible de dfinir une notion desprance conditionnelle. Ici
nous considrons la variable alatoire V qui un individu associe le nombre dannes
qui lui reste vivre. Nous voulons connatre son esprance conditionne par lvnement
lindividu est un homme et il a 100 ans . Notons Hx lvnement lhomme vit au
moins jusqu x ans . La loi de probabilit de V conditionne par H100 est donne par
la formule
P(V = v | H100 ) = P(H100+v | H100 ) P(H101+v | H100 ),
qui exprime que lindividu est encore vivant dans son anne 100 + v mais dcde avant sa
101 + v-ime anne.
Nous pouvons procder de deux manires. La premire consiste appliquer la formule
de dfinition de lesprance
E(V | H100 ) =
v P(V = v | H100 ).
v1
Le got de la poire
6. RPONSES
29
E(V | H100 ) =
P(V v | H100 )
v1
f2n =
1
u2n ,
2n 1
n 0,
u2n =
1
22n
2n
.
n
1
2n 2
1 2n
4
n
2n
1 2n
u2n2 u2n = 2n2
2n
= 2n
2n
2
n1
2
n
2 2(2n 1) n
2
n
1
1
2n
= 2n
(2n (2n 1)) = f2n .
2 2n 1 n
La probabilit de retour en 0 est la somme tlescopique
+
n=1
f2n =
n=1
(u2n2 u2n ) = u0 = 1
et le calcul est correct parce que la suite (u2n ) a pour limite 0. Nous sommes trs naturellement sorti du cadre des espaces probabiliss finis.
Exercice 11 a. Nous voyons le graphe de la marche dans le plan N Z avec le temps
discret en abscisse et les valeurs prises par la marche en ordonne. Notons t le premier
instant o le niveau k est atteint. Nous modifions le chemin en conservant la partie entre
les instants 0 et t et en eectuant la symtrie par rapport la droite horizontale dquation
y = m pour la partie entre t et n. Nous obtenons un chemin qui va de (0, 0) (n, 2m k).
Inversement un tel chemin croise la droite de niveau m en un premier point et via la
symtrie nous obtenons un chemin de (0, 0) (n, k) qui atteint le niveau m. Fort de cette
bijection, nous obtenons
P(t [0, n 1], St = m et Sn = k) = pn,2mk .
b. La probabilit davoir un chemin qui arrive linstant n en position k est pn,k donc, par
soustraction et en employant la question prcdente, la probabilit que la marche termine
au niveau k et reste strictement infrieure m vaut
pn,k pn,2mk .
c. Dire que le maximum Mn vaut exactement m cest dire que la marche reste toujours
strictement en dessous de m + 1 mais ne reste pas strictement en dessous de m, donc la
probabilit que la marche ait comme maximum m et termine au niveau k linstant n
vaut
(pn,k pn,2m+2k ) (pn,k pn,2mk ) = pn,2mk pn,2m+2k .
Le niveau k est nimporte quel entier de mme parit que n qui est infrieur ou gal m
et plus grand que n. La probabilit demande est donc
P(Mn = m) = pn,2m+n pn,2m+2+n + pn,2m+n2 pn,2m+n + + pn,2m pn,2m+2 ,
en notant lentier de mme parit que n et le plus grand qui reste infrieur ou gal m.
La somme est tlescopique et se rduit
P(Mn = m) = pn,2m pn,2m+n+2 .
Mais 2m + n + 2 est strictement plus grand que n, car m est positif ou nul, et pn,2m+n+2
est nul. Quant 2m , il vaut m ou m + 1, comme on le voit en considrant les quatre
Filire PSI
30
cas possibles de parits. Les trois petits tableaux ci-dessous donnent, dans cet ordre, les
valeurs de , 2m et 2m .
n m
2
2 + 1
2
2
2 1
2 + 1
2
2 + 1
nm
2
2 + 1
2
2
2 + 1
2 + 1
2 + 2
2 + 1
nm
2
2 + 1
2
m
m+1
2 + 1
m+1
m
Exercice 12 a. Dans les deux versions, chaque tour de boucle lalgorithme vrifie
que llment tir nest pas dj dans lensemble. Quand lensemble a une taille k cela
cote k comparaisons. Cependant dans la version gnrique, quand la taille de lensemble
est k, la probabilit dchec, cest--dire la probabilit de tirer un lment qui est dj
dans lensemble, est de pk = k/N , alors que lalgorithme de Floyd ne rencontre jamais
dchec. Il en rsulte que lalgorithme gnrique eectue trop de tirages dentiers et de
comparaisons. Nous pouvons eectuer une estimation grossire comme suit de cet excs.
Avec un ensemble k lments le temps dattente pour un succs est de 1/pk = N/k
(Nous avons aaire une loi gomtrique de paramtre p et desprance 1/p.), donc le
surcot est denviron k N/k = N et ceci chaque tape donc globalement le surcot
est de lordre de M N .
Quant lalgorithme de Floyd, il eectue un test chaque tape pour savoir si
lentier tir est dans la partie. Le nombre de comparaisons est donc 1 + 2 + + (M 1) =
M (M 1)/2. On voit que le surcot de lalgorithme gnrique est suprieur au cot de
lalgorithme de Floyd.
b. Voici un codage possible, dcor dune instruction dcriture de manire rendre lexcution comprhensible.
# python
from random import randint
N = 10
# size of the set
M = 8
# size of the sample
S = []
for J in range(N - M,N):
T = randint(1,J)
print "%d : %d" % (J,T)
# verbose instruction
if T in S:
Le got de la poire
6. RPONSES
31
S.append(J)
else:
S.append(T)
print(S)
Une excution donne par exemple
2 :
3 :
4 :
5 :
6 :
7 :
8 :
9 :
[1,
1
1
3
1
2
1
4
7
3, 4, 5, 2, 7, 8, 9]
[1, j],
j=N M +1
muni de lquiprobabilit, car lquiprobabilit sur chaque composante donne lquiprobabilit sur le produit. Une ventualit est un M -uplet = (j )M N +1jN . Les tirages
successifs apparaissent comme des variables alatoires Tj , qui ne sont en fait que les projections Tj : j , pour M N + 1 j N .
Le rsultat de lalgorithme est une partie M lments de lintervalle dentiers [1, N ]
et nous la voyons comme une variable alatoire S. La formule que nous avons prouver
est
1
N 1, M N, s PM ([1, N ]), P(S = s) = .
N
M
Nous procdons par rcurrence sur N . Pour N = 1 la proprit demande est lhypothse
que le gnrateur alatoire fournit des entiers entre 1 et N avec quiprobabilit.
Pour traiter lhrdit de la proprit, nous remarquons que le cas M = 1 est
nouveau lhypothse sur le gnrateur alatoire dentiers. Nous supposons donc M 2 et
nous rcrivons lalgorithme en dtachant de la boucle le dernier tour de boucle.
initialize set S to empty
for J := (N -1) - (M - 1) + 1 to N -1 do
T := RandInt(1,J)
if T is not in S then
insert T in S
else
insert J in S
#
T := RandInt(1,N)
if T is not in S then
insert T in S
else
insert N in S
La partie de lalgorithme avant la marque # fournit une partie M 1 lments de
lintervalle [1, N 1]. Nous la voyons comme une variable alatoire S et daprs lhypothse
Filire PSI
32
P(S = s ) =
1
N 1
M 1
Le dernier tour de boucle fournit un entier t de [1, N ] qui est une valeur de la variable
alatoire TN et lhypothse sur le gnrateur dentiers donne
1
P(TN = t) = .
N
Nous considrons deux cas suivant ce quest la partie s. Dans le premier cas, la
partie s contient N . Pour que lalgorithme donne une telle partie, cest--dire, pour que
lvnement S = s soit ralis, il est ncessaire et susant que lentier tir t ou bien soit
infrieur ou gal N 1 et soit dans s = s \ {N }, la partie obtenue avant le dernier
tour de boucle et qui comporte M 1 lments, ou bien gal N . Ceci se produit avec
la probabilit M/N . En eet ou bien t est entre 1 et N 1 et doit faire partie des M 1
lments de s , ce qui laisse M 1 possibilits ou bien t vaut N ce qui donne exactement
une possibilit. Dans ce cas, la probabilit P(S = s) vaut, daprs lindpendance des
tirages,
1
M
1
n
m n1
=
.
m
n m1
Dans le second cas, la partie s ne contient pas N . Cela signifie que lalgorithme a dabord
produit une partie s M 1 lments pris dans [1, N 1], puis que le dernier tirage a
donn un lment t qui est entre 1 et N 1 mais qui nest pas dans s . Inversement si
nous considrons la partie s, nous lobtenons ds que le dernier tirage donne un lment t
de s et que les tirages prcdents ont donn la partie s = s \ {t}. Nous obtenons donc
P(S = s) =
P(S = s \ {t}) P(TN = t)
ts
ts
N 1
M 1
1
1
1
1
=M
= .
N
N
N 1
N
M 1
M
Nous obtenons lexpression attendue dans tous les cas et lhrdit est prouve. Daprs
le principe de rcurrence lquiprobabilit est donc prouve.
Le got de la poire