You are on page 1of 41

Cours de statistiques appliques

PolytechParis-UPMC
MTX4

Elie Adkon
UPMC

A partir des notes de cours dIsabelle Rivals

Elie Adkon ( UPMC)

Cours de statistiques appliques

1 / 41

Introduction

Notions de statistiques descriptives

Rappels de probabilits

Lois usuelles

Thormes limites

Elie Adkon ( UPMC)

Cours de statistiques appliques

2 / 41

Plan

Introduction

Notions de statistiques descriptives

Rappels de probabilits

Lois usuelles

Thormes limites

Elie Adkon ( UPMC)

Cours de statistiques appliques

3 / 41

Toute mesure engendre une erreur, savoir une diffrence entre la valeur
donne par la mesure et la valeur relle de la grandeur que lon cherche
mesurer. Une erreur peut tre de deux natures diffrentes.
Les erreurs systmatiques : ce sont des erreurs qui interviennent de
manire rpte donc prvisible et introduisent un biais dans la mesure.
Elles sont des par exemple une balance mal talonne, ou un procd
de mesure erron. Ce sont des erreurs que lon peut gnralement
contrler et corriger.
Les erreurs accidentelles : ce sont des fluctuations alatoires inhrentes
au procd de mesure. Elles peuvent tre lies loprateur (variabilit
exprimentale), des conditions changeantes de temprature, la
nature alatoire de la matire (organisme vivant, physique quantique)
etc. Elles ne peuvent tre totalement limines. On les modlisera par
des variables alatoires de moyenne nulle.

Elie Adkon ( UPMC)

Cours de statistiques appliques

4 / 41

On fait un grand nombre de peses dun matriau sur une balance. On


obtient la limite une courbe en cloche bien connue, la courbe de Gauss.

: moyenne des mesures


: ecart-type des mesures
y0 : valeur relle
= y0 : biais

Elie Adkon ( UPMC)

Cours de statistiques appliques

5 / 41

Comment traiter les erreurs de mesure ? Quel vracit donner aux rsultats ?
nombre de fois
Hommes
Femmes

0
14
9

[1,3]
23
21

[4,6]
24
29

[7,12]
23
24

> 12
15
15

F IGURE: sorties au cinma en 2012 parmi les 16-24 ans en %

Comment savoir si un cart observ chez les hommes et les femmes est
significatif, ou si celui-ci est simplement d hasard ?

Elie Adkon ( UPMC)

Cours de statistiques appliques

6 / 41

Exemples

Le boson de Higgs : pour valider une dcouverte, les physiciens doivent


tre srs plus de 99,9999 %. Ce fut le cas au CERN le 4 juillet 2012 : le
signal peru navait quune chance sur 1 million de ntre d quau
hasard. Le CERN a pu officiellement annoncer la dcouverte dune
nouvelle particule lmentaire.
Lclipse dEinstein : on observa lors dune clipse en 1919 une dviation
de rayons lumineux provenant dtoiles lointaines significativement plus
grande que ce que pouvait prdire la physique newtonienne. La thorie
de la relativit gnrale tait confirme.

Elie Adkon ( UPMC)

Cours de statistiques appliques

7 / 41

Plan

Introduction

Notions de statistiques descriptives

Rappels de probabilits

Lois usuelles

Thormes limites

Elie Adkon ( UPMC)

Cours de statistiques appliques

8 / 41

On considre un chantillon. Cela peut tre une population, une srie de


mesures . . .
On sintresse une proprit de cet chantillon (par exemple lge dune
population, la masse dun matriau . . . ). A chaque lment i de notre
chantillon est donc associ une valeur yi .
On aimerait tirer des informations des donnes {yi , i N}.

Elie Adkon ( UPMC)

Cours de statistiques appliques

9 / 41

Histogramme
Un histogramme donne la frquence dapparition dune valeur au sein de
lchantillon.

F IGURE: catgories dges de la population franaise entre 15 et 75 ans (1er janvier


2016)

Elie Adkon ( UPMC)

Cours de statistiques appliques

10 / 41

Histogramme

Un mode est une valeur qui apparat frquemment dans lchantillon.


unimodal : prsence dun seul mode
bimodal : prsence de deux modes. Cela indique la prsence de deux
catgories au sein de lchantillon.

Elie Adkon ( UPMC)

Cours de statistiques appliques

11 / 41

Indicateurs statistiques

La moyenne empirique est la moyenne arithmtique des valeurs de notre


chantillon
1
moyenne(y1 , . . . , yN ) = y = (y1 + . . . + yN ) .
N
Lcart quadratique moyen mesure la dispersion dans notre chantillon :
eqm(y1 , . . . , yN ) = v =


1
(y1 y )2 + . . . + (yN y )2 .
N

Lcart-type est v . Plus lcart type est petit, plus les valeurs sont
concentres autour de la moyenne.

Elie Adkon ( UPMC)

Cours de statistiques appliques

12 / 41

Indicateurs statistiques
Un quantile dordre p est une valeur telle quune fraction p de lchantillon
se trouve en-dessous de cette valeur.
La mdiane est le quantile dordre 1/2.
Le 1er quartile est le quantile dordre 1/4. Le 2e quartile est la mdiane.
Le 3e quartile est le quantile dordre 3/4. Lintervalle interquartile est la
diffrence entre le 3e et le 1er quartile. Cest un indicateur de la
dispersion.

Elie Adkon ( UPMC)

Cours de statistiques appliques

13 / 41

Plan

Introduction

Notions de statistiques descriptives

Rappels de probabilits

Lois usuelles

Thormes limites

Elie Adkon ( UPMC)

Cours de statistiques appliques

14 / 41

Evnements
On appelle vnement le rsultat dune exprience alatoire.
Ex : A= jai obtenu pile un jeu de pile ou face.
P(A) est la probabilit que lvnement A se ralise. Dans notre exemple
P(A) = 1/2.
Si A et B sont des vnements, on a P(A B) = P(A) + P(B) P(A B).
Lorsque A et B ne peuvent se raliser simultanment, on dit quils sont
incompatibles ou disjoints. Dans ce cas, on a donc P(A B) = P(A) + P(B).
la probabilit dune union disjointe dvnements est gale la somme des
probabilits.
Ex : On lance un d. Les vnements A= jobtiens un nombre pair et B=
jobtiens le nombre 3 sont disjoints.

Elie Adkon ( UPMC)

Cours de statistiques appliques

15 / 41

Evnements

La probabilit conditionnelle de A sachant B est dfinie par P(A | B) = P(AB)


P(B) .
Cest la probabilit que lvnement A se ralise sachant que B sest ralis.
On dit que deux vnements sont indpendants si le fait que lun se produise
ne donne aucune information sur la chance que lautre arrive. Cela scrit :
P(A B) = P(A)P(B).
Ex : On lance une pice 2 fois de suite. A= le premier jet donne pile, B= le
deuxime lancer donne pile sont indpendants.
Question : 2 vnements disjoints sont-ils indpendants ?

Elie Adkon ( UPMC)

Cours de statistiques appliques

16 / 41

Exercice

Un document a t perdu. La probabilit pour quil se trouve dans un meuble


est p, 0 < p < 1. Ce meuble comporte sept tiroirs. On explore six tiroirs sans
trouver le document. Quelle est la probabilit de le trouver dans le 7e ?

Elie Adkon ( UPMC)

Cours de statistiques appliques

17 / 41

Variables alatoires discrtes


Une variable alatoire discrte est une variable qui prend ses valeurs dans un
ensemble fini ou dnombrable.
Ex : le rsultat du jet dune pice (pile ou face). Lge dun individu pris au
hasard dans la population.
Soit Y une variable alatoire discrte a valeurs dans les entiers relatifs. L
esprance, aussi appele moyenne, de Y est donne par
X
E[Y ] =
kP(Y = k ).
k

Pour toute fonction g, la valeur moyenne de g(Y ) est donne par


X
E[g(Y )] =
g(k )P(Y = k ).
k

Elie Adkon ( UPMC)

Cours de statistiques appliques

18 / 41

Variables alatoires discrtes

La fonction de rpartition de Y, note F ou FY , est la fonction qui tout rel y


associe la probabilit que Y prenne une valeur plus petite que y :
X
F (y ) = P(Y y ) =
P(Y = k ).
k by c

La fonction de rpartition est croissante, tend vers 0 en , et vers 1 en +.

Elie Adkon ( UPMC)

Cours de statistiques appliques

19 / 41

Variables alatoires continues


Une variable alatoire continue est une variable qui peut prendre un
continuum de valeurs : la masse dun solide, la concentration dun composant
chimique . . .
On considrera des variables continues ayant une densit, que lon notera f
ou fY . Intuitivement f (y )dy reprsente la probabilit que Y prenne une valeur
proche de y .
L esprance est donne par
Z
E[Y ] =

yf (y )dy
R

et on a aussi, pour toute fonction g,


Z
E[g(Y )] =

g(y )f (y )dy .
R

R
La fonction de rpartition est donne par F (y ) = P(Y y ) = xy f (x)dx. En
particulier, la densit est la valeur absolue de la drive de F .
Elie Adkon ( UPMC)

Cours de statistiques appliques

20 / 41

Variables alatoires

Proprits de lesprance :
lesprance dune constante est elle-mme : E[c] = c.
lesprance est linaire : E[aY1 + bY2 ] = aE[Y1 ] + bE[Y2 ].

Elie Adkon ( UPMC)

Cours de statistiques appliques

21 / 41

Variables alatoires
La variance dune variable alatoire mesure sa propension scarter de sa
valeur moyenne. Elle est dfinie par
Var (Y ) = E[(Y E[Y ])2 ].
Elle est aussi gale E[Y 2 ] E[Y ]2 .
La covariance de deux variables alatoires Y1 et Y2 est dfinie par
Cov (Y1 , Y2 ) = E[(Y1 E[Y1 ])(Y2 E[Y2 ])].
Elle est aussi gale E[Y1 Y2 ] E[Y1 ]E[Y2 ].
Proprits
Cov (Y1 , Y2 ) = Cov (Y2 , Y1 ).
Cov (Y , Y ) = Var (Y ).
Cov (aY1 + bY2 , Y3 ) = aCov (Y1 , Y3 ) + bCov (Y2 , Y3 ).

Elie Adkon ( UPMC)

Cours de statistiques appliques

22 / 41

Variables alatoires

On dit que deux variables sont indpendantes si la connaissance de lune


delles ne donne aucune information sur la valeur de lautre. Elles vrifient,
pour nimporte quelles fonctions g1 et g2 ,
E[g1 (Y1 )g2 (Y2 )] = E[g1 (Y1 )]E[g2 (Y2 )].
En particulier, E[Y1 Y2 ] = E[Y1 ]E[Y2 ], ce qui veut dire que la covariance entre
Y1 et Y2 est nulle. La rciproque est fausse ! On peut avoir une covariance
nulle sans tre indpendants.
Si Y1 et Y2 sont indpendantes, Var (Y1 + Y2 ) = Var (Y1 ) + Var (Y2 ). Les
variances de variables alatoires indpendantes sajoutent.

Elie Adkon ( UPMC)

Cours de statistiques appliques

23 / 41

Variables alatoires

La loi dune variable alatoire est caractrise par sa fonction caractristique


Y (t) := E[eitY ].
Les variables Y1 et Y2 sont indpendantes si et seulement si, pour tous rels
t1 , t2 ,
E[eit1 Y1 eit2 Y2 ] = E[eit1 Y1 ]E[eit2 Y2 ].

Elie Adkon ( UPMC)

Cours de statistiques appliques

24 / 41

Plan

Introduction

Notions de statistiques descriptives

Rappels de probabilits

Lois usuelles

Thormes limites

Elie Adkon ( UPMC)

Cours de statistiques appliques

25 / 41

Loi de Bernoulli

Une preuve de Bernoulli est une exprience ne possdant que 2 issues


possibles, gnralement appeles succs et chec. Lexemple type est le
lancer dune pice.
Une variable alatoire de Bernoulli ne prend que 2 valeurs, gnralement 0 et
1. Une variable de Bernoulli de paramtre p vrifie P(X = 1) = p,
P(X = 0) = 1 p.
La variable qui vaut 1 si le lancer dune pice donne pile et 0 sinon est une
variable de Bernoulli de paramtre 1/2.
Question : Calculer lesprance et la variance dune variable de Bernoulli.

Elie Adkon ( UPMC)

Cours de statistiques appliques

26 / 41

Loi Binmiale B(n, p)


Le phnomne tudi se prsente sous la forme suivante :
n preuves de Bernoulli indpendantes
On connat P(succs) = p ( et donc P(chec) = 1 p = q).
Alors la variable X = nombre de succs de lexprience suit une loi binmiale
de paramtres n et p, note B(n, p) avec :
P(X = k ) = Cnk pk (1 p)nk .
Proprits
La somme de n variables de Bernoulli de paramtre p indpendantes suit
la loi B(n, p).
E(X ) = np, Var (X ) = np(1 p).

Elie Adkon ( UPMC)

Cours de statistiques appliques

27 / 41

Loi Binmiale B(n, p)


La loi binmiale modlise le nombre dapparitions dun certain caractre dans
une chantillon. (Ex : nombre de personnes entre15 et 19 ans parmi n
individus).

Approximations
Pour np > 20 : loi gaussienne desprance np et de variance np(1 p)
Pour p petit (< 0.1) et n grand (> 20) : loi de Poisson ( = np)

Elie Adkon ( UPMC)

Cours de statistiques appliques

28 / 41

Loi de Poisson Poi()


Un processus de Poisson est tel que :
un seul vnement arrive la fois
le nombre dvnements se produisant pendant une priode ne dpend
que de la dure T de cette priode
les vnements sont indpendants.
On sintresse la loi de X , le nombre dvnements se produisant pendant
T . Si f est leur frquence alors E(X ) = fT = et on modlisera X par une loi
de Poisson de paramtre :
P(X = k ) =

Elie Adkon ( UPMC)

e k
.
k!

Cours de statistiques appliques

29 / 41

Loi de Poisson

Applications Cest la loi des vnements rares indpendants, et sapplique


en physique (dsintgrations radioactives)
dans la gestion des compagnies dassurance (accidents, suicides)
en contrle industriel de qualit (produits dfectueux)
en tlcommunications (processus darrive dappels tlphoniques)
Proprits
Si X Poi(), alors E[X ] = .
Si X Poi(), alors Var (X ) = .
Si X1 Poi(1 ) et X2 Poi(2 ) avec X1 et X2 indpendantes, alors
X1 + X2 Poi(1 + 2 ).

Elie Adkon ( UPMC)

Cours de statistiques appliques

30 / 41

Exercice (Feller, 1957)


Entre Juin 1944 et Mars 1945, 535 bombes ont frapp le sud de Londres. On
se pose la question suivante : les bombes sont-elles tombes au hasard ou
taient-elles cibles ?
On divise la rgion en 576 carrs, on dtermine le nombre de frappes ayant
touch chaque carr. Les observations donnent
nombre de frappes
nombre de carrs

0
229

1
211

2
93

3
35

4
7

Quel est le nombre moyen de frappes par carr ?


En supposant que lon peut utiliser la loi de Poisson dans notre modle,
quel doit tre le nombre de carrs touchs par k frappes ?
Comparer les rsultats avec les donnes et conclure.

Elie Adkon ( UPMC)

Cours de statistiques appliques

31 / 41

Loi Gaussienne N (, 2 )
La loi Gaussienne (ou loi Normale) a pour densit


1
(x )2
exp
.
fX (x) =
2 2
2 2
On a E[X ] = , Var (X ) = 2 . Lorsque = 0 et 2 = 1, on parle de loi
Gaussienne centre rduite.
Si X suit une loi N (, 2 ), alors Z =

Elie Adkon ( UPMC)

suit une loi N (0, 1).

Cours de statistiques appliques

32 / 41

4,5

3,5

2,5

1,5

Valeurs simules

0,5

-0,5

-1

-1,5

-2

-2,5

-3

-3,5

-4

Numros de cellule

F IGURE: Simulation de 5000 variables gaussiennes standard


Elie Adkon ( UPMC)

Cours de statistiques appliques

33 / 41

Soit Z une variable Gaussienne centre rduite. Sa fonction caractristique


est
t 2
Z (t) = e 2 .
Ses premiers moments sont E[Z ] = 0, E[Z 2 ] = 1, E[Z 3 ] = 0, E[Z 4 ] = 3.
Si X est une variable alatoire Gaussienne N (, 2 ) et a est un rel,
alors X + a suit une loi Gaussienne N ( + a, 2 )
Si X est une variable alatoire Gaussienne N (, 2 ) et a est un rel,
alors aX suit une loi Gaussienne N (a, a2 2 )
La somme de deux variables Gaussiennes indpendantes de loi
N (1 , 12 ) et N (2 , 22 ) est une variable Gaussienne de loi
N(1 + 2 , 12 + 22 ).

Elie Adkon ( UPMC)

Cours de statistiques appliques

34 / 41

Plan

Introduction

Notions de statistiques descriptives

Rappels de probabilits

Lois usuelles

Thormes limites

Elie Adkon ( UPMC)

Cours de statistiques appliques

35 / 41

I know of scarcely anything so apt to impress the imagination as the


wonderful form of cosmic order expressed by the law of frequency of error.
The law would have been personified by the Greeks if they had known of it. It
reigns with serenity and complete self-effacement amidst the wildst confusion.
The larger the mob, the greater the apparent anarchy, the more perfect is its
sway. It is the supreme law of unreason.
Francis Galton, Natural inheritance, (1889).

Elie Adkon ( UPMC)

Cours de statistiques appliques

36 / 41

Loi des grands nombres

Soient X1 , . . . , Xn n variables alatoires indpendantes et de mme loi. On


note = E[X ].
:= 1 (X1 + . . . + Xn ) converge vers lorsque n tend vers +. Cest
Alors X
n
ce quon appelle la loi des grands nombres.
Application I : la moyenne empirique converge vers la vraie moyenne quand
le nombre dobservations devient grand.
Application II : La proportion de fois quun vnement se produit est
asymptotiquement gale la probabilit de lvnement.

Elie Adkon ( UPMC)

Cours de statistiques appliques

37 / 41

Thorme central limite


On cherche les fluctuations de la moyenne empirique. Le thorme central
limite dit que les fluctuations tendent tre gaussiennes.
Soient donc X1 , . . . , Xn n variables alatoires indpendantes et de mme loi.
On note = E[X ] et 2 = Var (X ). On remarque que
2
] = , Var (X
) = .
E[X
n

ressemble une loi Gaussienne de moyenne


Lorsque n +, la loi de X
et de variance 2 /n, cest--dire que
lim P(a <

n+


X
< b) = P(a < Z < b)
/ n

o Z est une variable alatoire Gaussienne centre rduite. En pratique,


linfini est atteint pour n 30.

Elie Adkon ( UPMC)

Cours de statistiques appliques

38 / 41

Thorme central limite


Illustration Histogramme de 10000 sommes de n = 100 ralisations de
variables uniformes sur [0, 1] :
Y100 =

100
X

X k avec X k U[0,1] indpendantes

k =1

Elie Adkon ( UPMC)

Cours de statistiques appliques

39 / 41

Thorme central limite


1,2

0,8

0,6

0,4

0,2

-0,2

-0,4

-0,6

-0,8

F IGURE: Moyenne empirique de variables gaussiennes N (1, 4)

N
moyenne empirique
Elie Adkon ( UPMC)

10
-0.048

100
0.880

Cours de statistiques appliques

1000
0.970

10000
0.996
-

40 / 41

Petit exercice (Kahneman et Tversky)

Il y a deux hpitaux dans une mme ville. Dans le plus grand, environ 45
bbs naissent chaque jour, alors que dans le plus petit, environ 15 bbs
naissent chaque jour. Dans chaque hpital, le pourcentage exact de garons
ns sur une journe est variable : parfois, il est suprieur 50 %, parfois
infrieur. Sur une priode dun an, chaque hpital a enregistr les jours o
plus de 60 % des bbs ns sont des garons. Quel hpital a enregistr le
plus de jours de ce type ?

Elie Adkon ( UPMC)

Cours de statistiques appliques

41 / 41

You might also like