You are on page 1of 126

CTU

Master AGPS
De la donne la connaissance : traitement, analyse et transmission
lment 424b
Introduction la statistique descriptive
Prof. Marie-Hlne de Sde-Marceau
Anne 2010/2011
Statistique 1
Introduction la statistique descriptive
Plan
Introduction : Objectifs du cours
Court descriptif des objectifs et prtentions du cours et de son organisation
Chapitre 1 : Dfinitions, terminologie et notation
Quest-ce que la statistique ? Quelques dfinitions
Terminologie et notation standard. Exercices.
Chapitre 2 : Donnes et organisation des donnes : types de donnes et tableaux statistiques
Donnes qualitatives et donnes quantitatives, notion de classes, tableaux unidimensionnel,
tableaux croiss 2 dimensions, tableaux n dimensions. Exercices.
Chapitre 3 : Modes de reprsentation des donnes : diagrammes et graphiques
Types de donnes et de tableaux et modes de reprsentation possibles, chelles graphiques,
diagrammes, graphiques. Exercices.
Chapitre 4 : Caractriser une distribution et rsumer des tableaux statistiques laide de
paramtres appropris : tendance centrale et dispersion
Paramtres de tendance centrale (mode, moyenne, mdiane, quantiles, etc.), paramtres de
dispersion (variance, cart-type, coefficient de variation, standardisation, etc.). Exercices.
Chapitre 5 : Srie Chronologique : progression et indices
Indices temporels et synthtiques, indice de Laspeyres, taux de croissance simple et successifs,
etc. Exercices.
Chapitre 6 : Tendances et corrlations : relations entre deux variables, interpolation et
extrapolation
Identifier et matrialiser une tendance par la mthode des moindres carres, caractriser une
relation entre deux variables (coefficient de corrlation), formuler une relation statistique entre
deux variables (rgression) en vue de linterpolation ou de lextrapolation. Exercices.
Annexes
Annexe 1 : Prcision et explication sur une notation spcifique en statistique : somme et produit
Annexe 2 : Liste (non exhaustives) des fonctions Excel utiles en statistiques descriptive
Annexe 3 : Activer la macro histogramme dans Excel
Annexe 4 : Tableau crois dynamique dans Excel : utilisation et complments
2
Statistique 1
Introduction la statistique descriptive
Introduction - Objectifs du cours
Ce cours est destin en priorit un public nayant aucune formation en statistique et
cependant confront de faon rcurrente la manipulation et lanalyse de sries de
donnes.
Aucun pr-requis en mathmatique nest exig si ce nest la connaissance des
oprations mathmatiques de base. Volont, curiosit et tnacit permettront de
matriser sans encombre les notions abordes qui, malgr leur complexit apparente,
demeurent relativement simples.
Cette formation se prsente davantage comme une initiation la rigueur que ncessite
la manipulation densembles de donnes afin dutiliser bon escient les mthodes
appropries pour viter de faire parler faussement les chiffres.
Les concepts et mthodes statistiques seront abordes au travers de nombreux
exemples que viendront ponctus des exercices raliser dans le logiciel Excel dont la
matrise de base est suppose acquise. Lorsque ncessaire, un point rouge l signalera
la rfrence d'un exercice raliser.
Au final, il sagira de se familiariser avec et de matriser la mthode statistique en
gnral en vue de dcrire, de rsumer et danalyser une population ou un ensemble de
donnes.
Chapitre 1
1. Dfinitions, terminologie et notation
1.1 Quest-ce-que la statistique ?
Il n'existe pas de dfinition universelle et totalement aboutie de la statistique. Celles prsentes ci-aprs
donnent un aperu des diffrentes facettes que peut revtir le terme statistique en tant que science.
La statistique cest la science des grands nombres regroupant l'ensemble de mthodes mathmatiques qui,
partir du recueil et de l'analyse de donnes relles, permettent l'laboration de modles probabilistes
autorisant les prvisions. (Larousse).
On peroit dans cette premire dfinitions plusieurs termes et notions fondamentales propres la
statistique : le recueil sous-entend la collecte qui elle-mme suppose dans bien des cas la ralisation d'une
enqute ou d'un sondage. Enqute et sondage impose l'chantillonnage en vue de l'infrence
1
.
L'analyse des donnes suppose la manipulation de tableaux ou grands ensembles de donnes qu'il s'agira
de dcrire et de rsumer tout en accompagnant cette opration de reprsentations graphiques et
cartographiques.
La notion de modles probabilistes sous-entend une certaine matrise de l'incertitude dans le but de raliser
des prvisions ou de pratiquer l'infrence.
Autre dfinition, moins acadmique celle-ci :
la statistique est un ensemble de mthodes permettant de prendre une bonne dcision face lincertitude
(Wallis & Roberts, The Nature of Statistics)
Cest aussi un ensemble doutils et de mthodes qui permettent de synthtiser et de rsumer des grands
volumes de donnes, des grandes matrices dinformations.
On voit se dessiner ici les deux principales branches de la statistique :
La statistique descriptive
La statistique mathmatique ou infrentielle
1 Infrence: Opration intellectuelle par laquelle on passe d'une vrit une autre vrit, juge telle en raison de son lien avec la
premire. La dduction est une infrence.
Rgles d'infrence, celles qui permettent, dans une thorie dductive, de conclure la vrit d'une proposition partir d'une ou de
plusieurs propositions, prises comme hypothses. En statistique, l'infrence est une opration qui permet de gnraliser une
population mre les proprits et conclusions observes partie d'un chantillon reprsentatif de cette population mre
4
1.2 La statistique descriptive :
Ensemble des mthodes permettant de dcrire une population par le biais des individus qui la composent. La statistique
descriptive sintresse donc dcrire et caractriser un ensemble dindividus reprsent la plupart du temps sous la
forme de tableaux (tableaux de donnes), rsumer et synthtiser ces tableaux par lintermdiaire de graphiques et de
paramtres appropris (frquences, distribution, moyenne, dispersion, etc.). Elle sattachera ventuellement
rechercher des corrlations (liaisons statistiques) entre les lments de ces tableaux (variables et individus).
Exemple :
Les tempratures moyennes mensuelles Strasbourg sur la priode 1971-2000
Tempratures moyennes
mensuelles (C)
Jan. Fv. Mars Avr. Mai Juin Juil. Aot Sept. Oct. Nov. Dc.
Normales 1,6 2,8 6,7 9,7 14,3 17,3 19,5 19,3 15,5 10,6 5,3 2,8
Maximales 4,2 6,2 11,1 14,9 19,6 22,4 25,1 25,0 20,7 14,6 8,3 5,3
Minimales -1,0 -0,7 2,2 4,6 9,0 12,1 13,9 13,6 10,3 6,6 2,3 0,3
U
x
max
Moyenne annuelle maximale = 14,8 C
x
norm
Moyenne annuelle normales = 10,5 C
x
min
Moyenne annuelle minimales = 6,1 C
Le simple passage d'un tableau de donnes plus ou moins important un graphique et/ou quelques indicateurs
pertinents telle que la moyenne constituent une opration relevant de la statistique descriptive.
1.3 La statistique mathmatique ou infrentielle :
Cette branche des statistiques sintresse davantage extrapoler des rsultats issus dchantillons en vue de
caractriser une population mre inconnue, de faire des prvisions de comportements bases sur le calcul de
probabilits.
5
Exemple :
En priode lectorale, on interroge 1 000 personnes sur leur intention de vote. A partir des rsultats obtenus sur cet
chantillon, on prvoit, avec une certaine prcision, le comportement de lensemble des lecteurs (population mre) et
par l mme, le rsultat des lections. Cest ce quon appel linfrence statistique et cest le principe mme du sondage
dopinion par exemple.
Le lien de complmentarit entre statistique infrentielle et statistique descriptive est vident : la premire collecte et
fournit la seconde la matire premire dcrire et et analyser qui, retourne la premire est extrapole.
Le prsent cours sera consacr la statistique descriptive. Mais avant de commencer, il convient de se familiariser avec
le vocabulaire et la notation universelle de la statistique.
6
1.4 Terminologie et notation standard de la statistique
Terminologie et concepts fondamentaux
Population : ensemble des individus (ou units statistiques) prsentant un caractre commun. Pour une thmatique
donne, la population regroupe toujours la totalit des individus relatif cette thmatique (notion d'exhaustivit).
Exemples :
la population europenne : ensemble des individus rsidant sur le territoire europen un moment donn.
Le parc automobile franais: ensemble des automobiles immatricules sur le territoire franais.
Le parc de logements de Toulouse : ensemble des logements de la ville de Toulouse.
Le lot 9 718 du mdicament alpha : ensemble botes de alpha produit sous le n. de lot 9 718.
Le cheptel bovin de l'exploitation Martin : ensemble des bovins femelles et mles rattachs l'exploitation
agricole Martin.
La population est en gnral note P
L'effectif total d'une population est not N
Unit statistique (ou individu) : lment de base constitutif de la population laquelle il appartient. Il est indivisible et
peut tre un animal, un vgtal, un humain ou un objet. Exemples : une automobile, un logement, une vache, une
ampoule, une ville, etc. not i
chantillon : sous-ensemble construit et reprsentatif d'une population donne. Lorsque l'on parle d'chantillon on
parle en gnral de population mre, c'est--dire de la population dont est issu l'chantillon. L'chantillon est
frquemment not s
Dnombrement : comptage exhaustif des individus composant une population donne. Le recensement de la
population est un dnombrement.
Caractre(s) : caractristique(s) de l'individu intgrant la population tudie. Exemple : la couleur, le sexe, le poids, la
taille, la marque, le modle, l'espce, le prix, la surface, etc.
Variable : une variable est une caractristique pouvant prendre plusieurs des valeurs d'un ensemble d'observations
possibles auquel une mesure ou une qualit peut tre applique.
Modalit : valeur qualitative ou quantitative que peut prendre le caractre prcdemment dfini. Exemple : sexe
fminin ou masculin, poids 45 kg, couleur verte, etc. Attention, les modalits sont exhaustives et mutuellement
exclusives. Chaque individu doit pouvoir tre class dans une et une seule modalit.
Rcapitulatif intermdiaire par l'exemple:
Population :
Individu :
Caractre :
Modalit :
Le parc locatif priv lou vide de Cahors
Un logement appartenant ce parc
Taille du logement
Nombre de pices de ce logement
Classe : il est frquent qu'une population soit divise en sous-ensembles cohrents construits partir de critres
dtermins de faon rduire la taille des tableaux de donnes et en faciliter la lecture, l'analyse et l'interprtation.
Cette division induit une regroupement des individus et la formation de classes rassemblant chacune des individus
prsentant des caractres similaires.
7
Exemple : les classes d'ge d'une population, deux possibilits (suggestion)
Classe 1 Classe 2 Classe 3 Classe 4 Classe 5 Classe 6 Classe 7
0-19 ans 20-29 ans 30-39 ans 40-49 ans 50-59 ans 60-69 ans 70 ans et plus
13 21 32 31 26 19 14
Ou
Classe 1 Classe 2 Classe 3 Classe 4
0-19 ans 20-39 ans 40-59 ans 60 ans et plus
13 53 57 33
Plusieurs critres peuvent tre utiliss simultanment pour former des classes ou sous-populations comme par exemple
l'ge et le sexe :
Age
Sexe
0-19 ans
20-39
ans
40-59
ans
60 ans et
plus
/

7 26 29 19 81

6 27 28 14 75
&
13 53 57 33 N = 156
La seule contrainte rside dans le fait que la somme des effectifs par classe donne toujours l'effectif total N
Le dcoupage en classes d'une population selon un ou plusieurs critres est une opration appele discrtisation .
Celle-ci ncessite la plupart du temps une connaissance fine du phnomne tudi car sa ralisation, trs sensible aux
effets de seuils et de limites de classes, peut aboutir des rsultats dont l'interprtation peut tre diffrente
totalement oppose notamment sur le plan cartographique. La discrtisation fera l'objet d'un paragraphe particulier
dans ce cours.
Frquence : Rapport du nombre d'individus d'une population ou d'un chantillon ayant un caractre commun (=
modalit) au nombre total des individus de cette mme population ou de ce mme chantillon.
Note : pour davantage de prcisions et d'explication concernant la notation ci-aprs
utilise, on se reportera l'annexe 1 en fin du prsent document
Exemple:
En 1999, une commune quelconque comptait 393 mnages. 108 d'entre eux taient composs d'une seule personne
soit une frquence de : 108 / 393 = 0,275. Cette frquence, galement appele frquence relative, peut tre exprime en
pourcentage soit 0,275 x 100 = 27,5 %. On la note F quand elle brute et F% quand elle est exprime en pourcentage.
L'effectif d'une modalit, ou nombre de fois qu'apparat une modalit dans une population, est appel frquence
absolue note f . Dans notre cas, le nombre de fois o apparat la modalit mnage compos d'une seule personne
est 108. A noter que la somme des frquences absolues des modalits donne le nombre total N d'individus d'une
population (le symbole signifiant somme (pour davantage de prcision, se reporter l'annexe 1)) :
8

i=1
n
f
i
= f
1
+f
2
+ f
3
+...+f
i
+...+f
n
=N
La frquence relative est donc le rapport de la frquence absolue d'une modalit la population totale (N) soit :
Frquence relative :
l'ensemble des frquences pour toutes les modalits des individus d'une population ou d'un chantillon forme
l'histogramme des frquences. L'histogramme n'est autre chose que le graphique figurant la distribution des
frquences pour un phnomne donn. La somme des frquences, pour une population ou un chantillon donn, est
toujours gale 1 :
F
1
reprsente la frquence relative observe pour la modalit 1
F
2
reprsente la frquence relative observe pour la modalit 2
F
i
reprsente la frquence relative observe pour la modalit i
F
n
reprsente la frquence relative observe pour la modalit n
Exemple:
Reprenons notre commune. Relativement la variable mnages , 5 modalits ont t retenues:
Modalit 1 : mnages composs d' 1 personne
Modalit 2 : mnages composs de 2 personnes
Modalit 3 : mnages composs de 3 personnes
Modalit 4 : mnages composs de 4 personnes
Modalit 5 : mnages composs de 5 personnes et plus
Pour chacune de ces modalits nous avons une frquence absolue et une frquence relative
Modalit 1
Mnages 1
pers.
Modalit 2
mnages 2
pers.
Modalit 3
mnages 3
pers.
Modalit 4
mnages 4
pers.
Modalit 5
mnages 5
pers. et plus
Frquence
absolue f
i
f
1
= 108 f
2
= 130 f
3
= 72 f
4
= 48 f
5
= 35
Frquence
relative F
i
F1 = 0,275
(108/393)
F2 =0,331
(130/393)
F3 =0,183
(72/393)
F4 =0,122
(48/393)
F5 =0,089
(35/393)
Frquence
relative en
pourcentage
F
i
%
F
1
% = 27,5 %
(F1 x 100)
F
2
% = 33,1 %
(F2 x 100)
F
3
% = 18,3 %
(F3 x 100)
F
4
% = 12,2 %
(F4 x 100)
F
5
% = 8,9 %
(F5 x 100)
Pour ce qui est des frquences absolues, on a :
Avec la mme formulation on peut crire pour les frquences relatives :
9

i =1
5
f
i
= f
1
+f
2
+ f
3
+ f
4
+ f
5
= 108+130+72+48+35 = 393
F=
f
N

i=1
5
F
i
=1

i=1
5
F
i
%=100

i=1
5
F
i

i =1
5
F
i
=F
1
+F
2
+F
3
+F
4
+F
5
=
f
1
N
+
f
2
N
+
f
3
N
+
f
4
N
+
f
5
N
=
108
393
+
130
393
+
72
393
+
48
393
+
35
393
=0,275+0,331+0,183+0,122+0,089=1

i=1
n
F
i
=F
1
+F
2
+...+F
i
+...+F
n
=1

i=1
5
f
i
=393
Distribution : Selon le Petit Larousse, ensemble des donnes d'une srie statistique associes un ou plusieurs
caractres. Faon dont les individus d'une population se rpartissent en fonction d'une ou plusieurs modalits.
Exemple :
Distribution d'une population de 120 individus (Id) selon la couleur des yeux (Cy) :
Id Cy Id Cy Id Cy Id Cy Id Cy Id Cy
1 Br 21 Bl 41 Vr 61 Vr 81 Bl 101 Br
2 Br 22 Au 42 Bl 62 Br 82 Vr 102 Br
3 Bl 23 Br 43 Au 63 Br 83 Br 103 Vr
4 Br 24 Br 44 Br 64 Vr 84 Br 104 Bl
5 Bl 25 Bl 45 Br 65 Au 85 Bl 105 Br
6 Br 26 Au 46 Br 66 Br 86 Au 106 Br
7 Br 27 Br 47 Bl 67 Bl 87 Br 107 Au
8 Vr 28 Bl 48 Br 68 Br 88 Br 108 Bl
9 Br 29 Br 49 Br 69 Au 89 Vr 109 Br
10 Bl 30 Br 50 Bl 70 Bl 90 Bl 110 Bl
11 Br 31 Br 51 Vr 71 Vr 91 Vr 111 Br
12 Bl 32 Br 52 Br 72 Br 92 Au 112 Vr
13 Au 33 Bl 53 Br 73 Br 93 Br 113 Bl
14 Br 34 Vr 54 Au 74 Au 94 Br 114 Br
15 Br 35 Bl 55 Bl 75 Br 95 Bl 115 Br
16 Bl 36 Br 56 Vr 76 Br 96 Br 116 Au
17 Au 37 Br 57 Br 77 Bl 97 Bl 117 Vr
18 Br 38 Bl 58 Bl 78 Br 98 Br 118 Bl
19 Vr 39 Br 59 Br 79 Bl 99 Br 119 Bl
20 Br 40 Bl 60 Br 80 Br 100 Br 120 Br
Couleur yeux f
i
F
i
%
Bruns (Br.) 61 50,8
Bleus (Bl.) 32 26,6
Verts (Vr.) 14 11,6
Autre (Au.) 13 10,8

120 100
Distribution de la population
pour la variable couleur des
yeux et son histogramme
Une distribution se reprsente la plupart du temps sous forme graphique soit partir des donnes brutes, c'est--dire
non regroupes en classes, soit partir des donnes classifies, discrtises. Dans les deux cas, le graphique construit
porte le mme nom: l'Histogramme. Un histogramme figure toujours des frquences, qu'elles soient absolues ou
relatives.

Moyenne : pour une variable donne, la moyenne correspond la somme des valeurs d'une population

x
i
(ou
d'une modalit) divise par le nombre de valeurs N de ladite population (ou de ladite modalit).
Exemple: prix au m du foncier btir observ sur la commune de Besanon.
10
0,00
0,10
0,20
0,30
0,40
0,50
0,60
Brun Bleu Vert Autre
F
r

q
u
e
n
c
e

r
e
l
a
t
i
v
e
Parcelle Prix de vente pi TTC
(/m)
p1 78,24
p2 81,15
p3 69,65
p4 101,54
p5 97,89
p6 77,23
p7 54,56
p8 98,21
p9 65,32
p10 113,33
p11 108,79
p12 93,66
p13 99,45
N = 13
1.5 Notation standard
Concept / notion Formulation /
notation
lecture
Effectif total d'une population N Grand N
Effectif total d'un chantillon n Petit n
Moyenne de la variable x
x
X barre
Somme des x

i=1
n
x
i
Somme des x
i
pour i = 1 jusqu' n
Ecart-type de la variable x c
x
Ecart-type de x ou sigma x
Variance de la variable x
c
x
2
Variance de x ou sigma carr x
Produite des x

i=1
n
x
i
Produit des x
i
pour i = 1 jusqu' n
Coefficient de dtermination
r
2
R carr
Coefficient de corrlation
r
r
Frquence absolue f Petit f
Frquence relative F Grand F ou F majuscule
l Exercice 1 : fichier Excel associ Exercice 1 - Somme et frquences.xls
11

i =1
13
p
i
=1139,02
Prix moyen=

P=
somme des valeurs
Nombre de valeurs
=

i =1
13
p
i
N
=
1
N

i=1
13
p
i
= 1139,02 over 13 = 87,62 /m
Chapitre 2
2. Types de donnes et tableaux statistiques
2.1 Types et proprits de la donne
Les donnes manipules en statistique (lors de la collecte et/ou lors du l'analyse) peuvent se prsenter sous
diffrentes formes. Ces formes, reflets des proprits intrinsques de la donne, influent de faon dcisive sur la
manire de reprsenter celle-ci et sur les types de traitements qui pourront lui tre appliqus en vue de son analyse.
On distingue trois proprits fondamentales qui permettent de caractriser prcisment la donne. Ce sont:
Le type : qualitatif ou quantitatif
L'chelle de mesure : nominale, ordinale, intervalle ou proportionnelle
La nature : continue ou discrte
A chaque donne, chaque variable sont ncessairement rattaches ces trois proprits.
2.1.1 Types, chelles de mesure et natures des donnes et variables
Les trois proprits seront traites simultanment tant elle sont indissociables. A toute variable ou toute donne sont
ncessairement rattachs un type, une chelle de mesure et une nature. Il existe cependant une hirarchie naturelle
entre les proprits des variables et donnes et l'ordre dans lequel elles ont t prcdemment voques en est le
reflet et c'est celui que nous respecterons pour les dcrire (Cf. figure 2).
Figure 2 : proprits des donnes et variables: inventaire et hirarchie
Une donne ou une variable est obligatoirement de type qualitatif ou de type quantitatif. Le type qualitatif est
galement appel type non-mtrique par opposition au type quantitatif dit type mtrique .
2.1.1.1 Les donnes et variables qualitatives (ou variables non-mtriques)
Dfinition : les donnes ou variables qualitatives contiennent des valeurs qui expriment une qualit, un
tat, c'est--dire une condition, un statut unique et exclusif comme le sexe, la couleur ou bien encore la
catgorie socioprofessionnelle.
Les oprations arithmtiques que l'on peut raliser sur ce type de variable sont relativement rduites et
se limitent au comptage des effectifs par modalit (frquences absolues) et au calcul de pourcentage
(frquences relatives) et le mode.
12
Variable ou Donne
Qualitative Quantitative
Nominale
Discrte
Ordinale Intervalle Proportionnelle
Discrte Discrte Continue Discrte Continue
Type
Echelle de mesure
Nature
Exemple: le sexe
Une personne ne peut pas appartenir des sexes diffrents en mme temps et ne peut, en
thorie, pas en changer (unicit) . Le fait d'tre, par exemple, du sexe fminin l'exclue
automatiquement des autres modalits que peut prendre la variable sexe (exclusivit).
Les donnes et variables qualitatives peuvent se prsenter sous deux formes deux diffrentes: la forme
nominale ou la forme ordinale.
La forme qualitative nominale : une variable est dite qualitative nominale quand ses valeurs sont des
lments d'une catgorie type nom non hirarchique. En d'autres termes, ses lments ne peuvent pas
se ranger dans une gradation logique, selon une hirarchie naturelle. La donne qualitative nominale ne
peut donc tre apprhende qu' travers des modalits entre lesquelles il n'existe aucune relation
d'ordre
Exemple : la variable couleur est de type qualitative nominale, les valeurs pouvant tre
prises par celle-ci tant bien de type nom (vert, jaune, noir, rouge, ) sans qu'aucune
hirarchie ne soit applicable entre les modalits recenses (on peut en aucun cas crire jaune
> rouge ou vert = noir).
La forme qualitative ordinale : une variable qualitative ordinale possde toutes les proprits de la
variable qualitative nominale avec en plus la possibilit de positionner et de hirarchiser les individus
entre eux selon la valeur attache leur caractre. En d'autres termes, il sera possible de ranger dans
une gradation logique, selon une hirarchie naturelle, les individus de la population tudie pour le
caractre retenu. D'une faon gnrale, la forme qualitative ordinale fait rfrence des caractres non
mesurables mais dont on sait que les modalits renferment une notion d'ordre, ou bien des variables
quantitatives ayant fait l'objet d'une classification. Les oprations autorises pour l'chelle qualitative
ordinale sont, en plus du comptage par modalit (frquences absolues et frquences relatives et mode),
la mdiane.
Exemple : la variable niveau de confort d'un logement est de type qualitative ordinale, les
valeurs pouvant tre prises par celle-ci tant bien de type nom (mdiocre, moyen, bon, trs
bon) et une hirarchie existe entre les modalits dfinies sans pour autant que l'on puisse
mesurer de faon infaillible le niveau de confort : il n'existe pas de conforomtre ni d'unit
de mesure du paramtre confort au demeurant trs subjectif. Le caractre ordinal de la
variable permet cependant d'crire bon > mdiocre ou moyen < trs bon. L'poque de
construction des logements est galement une variable qualitative ordinale.
Une variable qualitative, qu'elle soit nominale ou ordinale, est toujours de nature discrte, contrairement une
variable quantitative qui peut tre soit de nature discrte, soit de nature continue.
Dfinition : variable discrte
Une variable est dite discrte quand elle prendre un nombre fini ou dnombrable de valeurs. En
d'autres termes, le passage d'une modalit une autre est brutal , sans continuit, sans
glissement progressif. C'est typiquement le cas des variables qualitatives nominales et ordinales
pour lesquelles la transitions entre modalits se ralise sans nuance, abruptement.
Exemple: la variable catgorie socioprofessionnelle est une variable
qualitative nominative discrte. En effet, le nombre de valeurs qu'elle peut
prendre est fini (ou dnombrable) et la transition entre modalit, par
13
exemple de la modalit employ la modalit agriculteur , se fait sans
nuance, sans continuit, mais nettement.
Dans le mme ordre d'ide, la variable niveau d'ducation avec les
modalits Analphabte, Primaire, Secondaire, Universitaire est de type
qualitative ordinale discrte pour les mmes raisons qu'voques dans le cas
prcdent.
On verra le moment venu ce que recouvre la notion de continuit pour une variable, sachant que
celle-ci ne s'applique qu' la famille des donnes et variables quantitatives.
2.1.1.2Les donnes et variables quantitatives (ou variables mtriques)
Dfinition : les donnes ou variables quantitatives contiennent des valeurs numriques faisant
rfrence une unit de mesure reconnue. Pour cette raison, elles sont quelques fois qualifies de
variables mtriques. La taille, le poids, la surface, la distance, le revenu, l'ge, le chiffre d'affaire ou bien
encore la population (dans le sens du nombre d'habitants) sont des variables quantitatives.
Variables Unit de mesure
Taille Mtre
Poids Kilogramme
Surface Mtre carr
Distance Mtre
Revenu Euros
Age Anne
Chiffre d'affaire Euros
Loyer Euros/mois
Population Nombre d'habitants
Toutes les oprations arithmtiques simples et complexes sont applicables aux variables quantitatives,
du dnombrement (frquences absolues) et autre calcul de pourcentage (frquences relatives) en
passant par la moyenne, la mdiane et l'cart-type jusqu' la modlisation numrique.
Exemple: le loyer d'un logement
Au-del de la qualification d'un loyer (bon march, correct, cher ou trs cher) qui en fait alors
une variable qualitative ordinale, le loyer demeure une variable mesurable objectivement selon
une unit de mesure reconnue : le prix exprim en euros par mois ou en euros par mois et par
m. On peut l'additionner, en calculer la moyenne et l'cart-type, en regrouper les valeurs pour
former des classes et mme le modliser.
Tout comme la donne qualitative, la donne quantitative peut se prsenter sous diffrentes formes. On
en dnombre trois, de la plus simple la plus complexe : la forme (ou l'chelle) ordinale, l'chelle
d'intervalles et l'chelle proportionnelle ou chelle de rapport.
La forme quantitative ordinale : Nous aborderons que succinctement l'chelle quantitative ordinale
dj voque dans le cas des variables qualitatives. Applique aux variables quantitatives, la forme
ordinale revt les mmes caractristiques. Elle s'applique en fait aux variables quantitatives pour
lesquelles un regroupement par classes a t opr (par ex. le regroupement d'individus par classes
14
d'ge ou classes de taille, le regroupement de villes selon leur taille ou bien encore le regroupement de
parcelles foncires selon leur prix au m). Mme si l'chelle ordinale est aborde dans la paragraphe
traitant des donnes quantitatives, il faut tre conscient du fait que la transformation que l'on fait subir
une variable quantitative en en regroupant les valeurs l'intrieur de classes a pour effet de
transformer celle-ci en variable qualitative ordinale discrte
Exemple: le prix du foncier constructible par classe
Le prix du foncier au m demeure fondamentalement une variable quantitative continue. Mais
comme cela peut tre le cas lorsque les donnes sont nombreuses et lorsque que l'on souhaite
cartographier le phnomne, on est amen regrouper ces valeurs sous forme de classes afin
d'en amliorer la lecture et l'analyse. Cette transformation contribue modifier les proprits
de la variable: de quantitative continue elle devient qualitative ordinale discrte
Parcelle Prix de vente pi TTC
(/m)
p1 78,24
p2 81,15
p3 69,65
p4 101,54
p5 97,89
p6 77,23
p7 54,56
p8 98,21
p9 65,32
p10 113,33
... ...
p124 108,79
p125 93,66
Aprs regroupement, on obtient, par exemple :
Classe de prix
(/m)
Effectif
(frquence
absolue)
Frquence
relative
(%)
< 50 /m 13 10,4
de 50 74,99 /m 29 23,2
de 75 99,99 /m 57 45,6
>= 100 /m 25 20,0
Total 125 100,0
Le processus qui vise la fabrication des classes (ou discrtisation) est une opration dlicate qui sera
aborde plus avant.
L'chelle d'intervalle : cette forme concerne les donnes et variables se rfrant des units de mesure
constantes mais dont le point zro est fix arbitrairement ne correspondant en rien l'absence de
phnomne. L'exemple le plus significatif pour ce cas est celui de la temprature: l'unit de mesure est
constante une fois le systme de rfrence dfini (Celsius ou Fahrenheit) et le zro est totalement
arbitraire : dans le cas du systme Celsuis C le zro correspond la temprature de conglation de l'eau
alors que dans le cas du systme Fahrenheit F, le zro quivaut la temprature de solidification d'un
15
mlange part gal d'eau et de chlorure d'ammonium (Fahrenheit , 1724). Profitant du caractre
quantitatif de la variable temprature, une relation peut cependant tre tablie entre les deux systmes
comme suit : F = 1,8 C +32 et inversement C = (F 32) / 1,8. 0C tout comme 0F ne correspondent pas
une absence de temprature. Mme en considrant le zro absolu (0 K = - 273,15 C) , temprature la
plus basse que l'on puisse observer dans l'univers et laquelle tout mouvement molculaire et atomique
est stopp compte tenu d'un tat nergtique minimal, la temprature demeure une variable
appartenant l'chelle d'intervalle.
Une variable appartenant l'chelle d'intervalle a ceci de spcifique que les valeurs qui la composent ne
sont pas des multiples les unes de autres, et donc que les intervalles entre valeurs ne sont pas constants.
Un exemple: on a relev le 12/06/2008 Moscou une temprature de 11C. Le lendemain, on mesure une
temprature de 22 C la mme heure. Il a donc fait plus chaud le 13/12/2008 que la veille mais on ne peut
cependant pas affirmer qu'il y a fait deux fois plus chaud.
L'chelle d'intervalles, en plus des oprations arithmtique s classiques, autorise la plupart des calculs
statistiques : moyenne arithmtique, cart-type, coefficient de corrlation, variance, covariance, etc. Par
contre, elle ne permet pas le calcul de la moyenne gomtrique ou du coefficient de variation.
En dehors de la temprature, quantit d'autres variables se rfre l'chelle d'intervalles. Parmi celle-ci,
on peut citer l'chelle de Richter de mesure d'intensit des tremblements de terre, la mesure du temps
via notre calendrier grgorien,
Les variables quantitatives d'intervalle peuvent tre de nature discrte ou continue. On a vu plus haut
quoi correspondait la caractre discret de la donnes, voyons maintenant en quoi consiste sa nature
continue
Dfinition : variable continue
Une variable continue peut, l'inverse de la variable discrte, prendre un nombre infini ou non
dnombrable de valeurs. Il n'y a, de ce fait, plus de modalit ou plutt une infinit de modalits
car entre deux valeurs donnes toutes les nuances de transitions sont possibles. Le cas
continu ne concerne donc que les variables dites quantitatives pour lesquelles il peut y avoir
autant de modalits qu'il y a d'individus.
Exemple: la variable temprature est une variable quantitative
d'intervalle continue. Celle-ci peut en effet prendre une infinit de valeurs
quelles que soient les limites retenues. Par exemple, entre 10 et 12 C, la
variable peut prendre n'importe laquelle des innombrables valeurs
existantes et mesurables : 10,007 C, 11,11 C ou bien encore 11,9999 C si tant
que l'on soit capable d'atteindre cette prcision dans la mesure.
D'une faon gnrale, les valeurs que peut prendre une variable quantitative continue
appartiennent l'ensemble des nombres rels R alors que les valeurs caractrisant une
appartiennent quant elles l'ensemble des nombres entiers N, comme par exemple le
nombre d'habitants.
L'chelle proportionnelle ou chelle de rapport :
A la diffrence de l'chelle d'intervalle, l'chelle proportionnelle ou de rapport se caractrise par des
proportions gales entre les valeurs mesures de telle sorte qu'il existe entre ces valeurs une relation
mathmatique directe et constante. L'chelle proportionnelle possde en outre un zro unique et
16
universel. Toutes les variables faisant rfrence au Systme International d'Unit (SI norme ISO 1000)
appartiennent l'chelle de mesure dite proportionnelle (ou de rapport): c'est le cas des longueurs, des
surfaces, des poids et des comptages d'effectifs ainsi que la mesure du temps via le SI, et toutes les
variables rsultantes de la combinaison d'au moins deux des units du SI telle que la vitesse (qui n'est
qu'une expression de la distance par rapport au temps), la densit de population (effectif rapport une
surface), etc. Le zro y est universel et signifie absence de mesure ou mesure nulle, et chaque valeur non
nulle mesure est ncessairement le multiple de n'importe quelle autre valeur mesure. Exemple: on
pourra dire qu'une personne pesant 90 kg est deux fois plus lourde qu'une personne de 45 kg ou bien
encore qu'un loyer de 337,50 /mois est 1,5 fois (ou 50 %) plus lev qu'un loyer de 225 /mois.
L'chelle de rapport (ou chelle proportionnelle) possde toutes les proprits et tous les niveaux
d'informations des autres chelles plus l'immense avantage de se prter absolument toutes les
oprations arithmtiques et statistiques pouvant exister.
Une variable quantitative proportionnelle (ou de rapport) peut galement tre de nature discrte ou de
nature continue:
Exemple: une variable quantitative proportionnelle discrte : le nombre d'habitants.
Le nombre d'habitants d'un pays ou d'une ville est une variable quantitative discrte chelle
proportionnelle. La dimension quantitative de la variable n'est plus dmontrer. Le fait qu'elle
appartienne l'chelle proportionnelle se justifie par le fait qu'elle possde d'une part une
zro absolu universel (zro habitant = pas d'habitant) et qu'il existe bien entre chaque
modalit une relation mathmatique de proportionnalit: un pays comptant 10 millions
d'habitants est bien deux fois plus peupl qu'un pays de 5 millions d'habitants ou bien encore
10 fois plus peupl qu'un autre de 1 million d'mes. La nature discrte de la variable se justifie
par le caractre indivisible de l'lment de base, savoir l'habitant: ainsi, l'ensemble des valeur
que peut prendre la variable nombre d'habitants appartient bien l'ensemble des entiers N.
Il n'est donc pas possible d'crire qu'une ville compte 12283,18 habitants. La variable nombre
d'habitant est donc bien une variable quantitative discrte chelle de rapport (ou chelle
proportionnelle).
Exemple: une variable quantitative proportionnelle continue :le prix du foncier constructible
au m.
Comme annonc plus haut, le prix du foncier au m demeure fondamentalement une variable
quantitative continue . Elle se rapporte de plus l'chelle proportionnelle (ou de rapport). En
effet, son zro est absolu (0 /m signifie bien absence de prix), la proportionnalit fonctionne
puisqu'un terrain affiche un prix de 90 /m est bien deux fois plus cher qu'une terrain offert
45 /m, et l'ventail des valeurs que peut prendre la variable est infini (entre 45 et 46 /m, il
existe une infinit de prix tous en thorie plausibles). La variable prix du foncier au m est
donc bien une variable quantitative continue chelle de rapport.
2.2 Transformation de variables qualitatives (ou non-mtriques) en variables quantitatives (ou mtriques)
Certains traitements et analyses sur des donnes et variables qualitatives ncessitent voire exigent que ces
dernires prsentent une forme pseudo quantitative en lieu et place de leur forme nominale . C'est
notamment le cas lorsqu'il s'agit d'utiliser des variables qualitatives dans un traitement multivari ou
simplement lorsque l'on dsire les rendre manipulables et compatibles avec des logiciels statistiques. Il faut
17
donc faire subir la variable une transformation lui confrant ce caractre pseudo numrique , une
transformation qui s'apparente davantage un codage de l'information qualitative en information numrique.
Cette transformation doit cependant respecter certaines rgles. En effet, ds lors que l'on introduit une
dimension numrique, il s'instaure naturellement une hirarchie qui doit respecter celle sous-jacente, si elle
existe, la dimension qualitative de la variable traite. C'est le cas exclusivement des variables qualitatives
ordinales. L'exemple qui suit illustre parfaitement cette rgle.
Exemple: la variable qualitative ordinale moral des mnages franais propose les cinq
modalits suivantes: Trs bon, Bon, Moyen, Mauvais et Trs mauvais. L'encodage numrique de
la variable doit se faire en respectant son caractre ordinal initial. Ce faisant, on obtient le
codage suivant:
5 = Trs bon
4 = Bon
3 = Moyen
2 = Mauvais
1 = Trs mauvais
Cela dit, il s'agit d'un codage possible parmi d'autres.
Pour ce qui est des variables qualitative nominales, donc sans hirarchie identifiable, cette rgle ne s'applique
plus comme le montre l'exemple qui suit:
Exemple: la variable qualitative nominale sexe propose les deux modalits suivantes:
Masculin et Fminin. Dans ce cas, l'encodage numrique n'a aucune hirarchie respecter mais
doit seulement reproduire la distinction entre modalits. On peut ainsi indiffremment crire:
1 = Masculin
2 = Fminin
1 = Fminin
2 = Masculin
On vitera simplement l'utilisation du zro davantage synonyme d'absence de phnomne.
Une autre rgle est respecter qui impose des distances ou intervalles gaux entre modalits lors de
l'encodage numrique. Ainsi, pour reprendre un des exemples prcdents, si 3 correspond la modalit
Moyen et 4 la modalit Bon , soit une distance de 1 entre les deux, on utilisera logiquement 5 pour
Trs bon et non 7 ou 8. De mme, on affectera la valeur 2 Mauvais .
Il est noter que les nombres affects aux modalits qualitatives en vue de leur transformation n'ont pas de
signification et ne peuvent faire l'objet d'oprations arithmtiques comme par exemple le calcul d'une somme ou d'une
moyenne. En ralit, ce sont des numros qui ne modifient en rien les proprits fondamentales rattaches aux
variables qualitatives, qu'elles soient nominales ou ordinales. La transformation d'une variable qualitative en variable
numrique ne lui confre en rien les proprits de cette dernire. C'est pourquoi on parle davantage de
transformation pseudo-numrique .
18
2.3 Transformation de variables quantitatives (ou mtriques) en variables qualitatives (ou non-mtriques)
L'opration inverse, c'est--dire la transformation d'une variable quantitative en variable qualitative, est galement
possible et mme souhaitable dans certains cas de figures mme si elle demeure plus dlicate et impose de ce fait le
respect de rgles beaucoup plus strictes.
La plupart du temps la transformation d'une variable quantitative en une variable qualitative passe la constitution de
classes partir de la distribution observe. Cette opration est appele discrtisation puisque, quelle que soit la nature
des donnes quantitatives en amont (intervalle ou de rapport, discrte ou continue), elle aboutit invitablement la
fabrication d'une variable qualitative ordinale discrte. Il est donc important d'avoir l'esprit que cette transformation
engendre une perte d'information et galement une diminution de la capacit d'analyse et traitement des donnes
puisque certains paramtres ne seront plus calculables prcisment partir d'une distribution discrte (moyenne,
cart-type, etc.). En effet, chaque classe dfinie regroupe sous une mme identit, selon un mme caractre des
individus qui l'origine se distinguaient les uns des autres par des valeurs diffrentes. On souponne ici l'importance
que revt le processus d'laboration des classes (dfinition des limites de classes, tendue des classes, nombre de
classes, etc.), le but final tant de synthtiser un volume important d'informations en limitant la perte lie la
discrtisation. Autrement dit, il s'agit de maximiser la rduction de contenu informationnelle d'une distribution en en
minimisant les pertes.
C'est un mal pour un bien et la transformation de donnes quantitatives en donnes qualitatives via la discrtisation
demeure souvent incontournable. Il est en effet souvent bien plus commode et pertinent pour la lecture, l'analyse,
l'interprtation ou la reprsentation d'un phnomne de regrouper les individus l'intrieur de classes plutt que de
s'reinter essayer de lire et d'interprter un tableau contenant des centaines voire des milliers de valeurs.
Il existe plusieurs mthodes plus ou moins complexes et labores en vue de la discrtisation d'une distribution de
valeurs sachant que pour ce faire rien ne remplace le bon sens et la connaissance que l'on a du phnomne tudi.
Lorsque cette exprience existe, les mthodes mises disposition ne sont souvent l que pour assister l'utilisateur.
Dans les autres cas, elles permettent d'orienter de faon objective la stratgie de discrtisation. Attention, certaines
des mthodes prsentes ci-aprs font appel des notions qui ne seront vues que plus tard dans le cours : c'est le cas
notamment de celle faisant appel l'cart-type.
Il existe donc trois groupes de mthodes de discrtisation:
les mthodes empiriques : bases sur l'exprience et la connaissance du phnomne tudi, elles utilisent en
plus l'allure de la distribution pour y dceler des ruptures naturelles et ainsi dlimiter les bornes des classes
crer. Cette mthode, pour partie visuelle, ncessite une bonne connaissance du phnomne traiter.
Exemple: on dispose des loyers surfaciques mensuels hors charges pour l'ensemble des logements
locatifs sociaux d'un dpartement, soit au total plus de 9 500 individus (= logements) avec, pour
chacun d'eux, des valeurs dans 5 variables (loyers, nombres de pices, surface, localisation,
financement). Au total nous disposons donc de 9 500 x 6 = 57 000 valeurs. Hormis, dans un premier,
le calcul de paramtres comme la moyenne, il semble difficile d'apprhender et d'analyser cette
masse de donnes. Rduire la taille du tableau en oprant un regroupement des valeurs selon un
systme adapt de classes apparat comme tant la meilleure solution pour y parvenir.
La connaissance du phnomne que l'on a ainsi qu'une analyse de l'histogramme de la variable
loyer nous permettent assez rapidement d'identifier les cassures naturelles pouvant servir de
limites de classes (Cf. figure 3). Le nombre de classes alors dfini est de 5, organises de la faon
suivante (il s'agit d'une possibilit parmi tant d'autres):
19
Numro de
classe
Borne (ou limite)
infrieure
Borne (ou limite
suprieure)
tendue ou
amplitude
criture
1
0 2,99 2,99 [0 ; 3,0[ ou Moins de 3
2
3,0 3,99 0,99 [3,0 ; 4,0[ ou de 3,0 3,99
3
4,0 5,99 1,99 [4,0 ; 6,0[ ou de 4,50 5,99
4
6,0 8,99 3,99 [6,0 ; 9,0[ ou de 6,0 8,99
5
9,0

[9,0 ;

[ ou Plus de 9,0
Figure 3 : histogramme de la variable loyers et discrtisation empirique
On pourrait affiner la discrtisation en subdivisant certaines des classes mais ce n'est pas forcment
souhaitable, un nombre trop important de classes conduisant souvent une dilution du
phnomne et une dispersion de la capacit d'analyse du lecteur. Autant que faire se peut, on
choisit des valeurs de limites de classes correspondant des nombres repres pour
l'interprtation, c'est--dire se terminant en 0 ou 0,5 ou faute de mieux par un chiffre rond. Il faut
viter de prfrence de dfinir des limites de classes avec des valeurs inutilement dcimalises ou
loignes des repres naturels de l'esprit (10, 25, 50, etc.) qui ne favorisent pas une interprtation
immdiate (par ex. de 13,27 % 21,86 % ou bien encore de 17 33) mais ce n'est pas toujours
possible.
Une fois la discrtisation ralise, la distribution du phnomne se prsente comme suit:
Classes Classes Frquence
absolue
Frquence
relative (%)
[0 ; 2,5[ Moins de 3,0 685 7,2
[2,5 ; 4,5[ De 3,0 3,99 5 359 56,3
[4,5 ; 6,0[ de 4,0 5,99 3 287 34,5
[6,0 ; 9,0[ de 6,0 8,99 142 1,5
[9,0 ;

[
Plus de 9,0 41 0,4
A partir de l, interprtation, graphiques et cartes deviennent plus aises. Par contre, le contenu
informationnel initial s'est fortement dgrad: l o il y avait une multitude de cas de figures entre
les valeurs 3,0 et 3,99, il n'y en a plus qu'un seul aprs regroupement.
20
les mthodes par dfaut qui ne ncessitent ni une connaissance approfondie du phnomne ni une tude de
la distribution. Leur simplicit est la hauteur des approximations qu'elles gnrent et elles ont tendance, de
fait, lisser le phnomne tudi. Leur principe est simple: prenant en compte ou l'effectif total de la
population tudie ou l'amplitude totale de la distribution de la variable tudie, ces mthodes proposent,
ds lors qu'un nombre souhait de classes est dfini :
- soit une discrtisation en classes d'gale amplitude,
- soit une discrtisation en classes d'gal effectif.
Exemple: reprenons l'exemple prcdent. Nous disposions d'une population de 9 517 individus, en
l'occurrence des logements locatifs privs, pour lesquels nous connaissons les loyers et d'autres
caractristiques. La simple consultation des donnes initiales nous permet de relever la valeur
minimale et la valeur maximale de loyer pour calculer l'amplitude totale de la distribution:
Nombre total d'observations : 9 517
Valeur minimale observe de loyer: 0,68 /m mensuel hors charges
Valeur maximale observe de loyer: 11,26 /m mensuel hors charges
Amplitude totale de la distribution = 11,26 0,68 = 10,58
Mthode des classes d'gale amplitude:
Si l'on dcide de crer 5 classes, la discrtisation en classes d'gale amplitude donnera des
classes dont l'tendue sera identique et quivalente : 10,58 / 5 = 2,11 /m. Il suffit alors, pour
former les limites de la premire classe, de prendre la valeur minimale pour la borne infrieure
et de lui ajouter 2,11 pour obtenir la borne suprieure. Pour la deuxime classe, on reprend la
borne suprieure de la classe prcdente en l'augmentant lgrement pour viter le
recouvrement (+ 0,01) et on lui ajoute toujours 2,11 pour obtenir la borne suprieure. On rpte
l'opration pour les classes suivantes:
Borne
infrieure
Borne suprieure Frquence
absolue
Frquence
relative
Classe 1 0,68 0,68 + 2,11 = 2,79 351 3,7
Classe 2 2,80 2,80 + 2,11 = 4,91 7 520 79,0
Classe 3 4,92 4,92 + 2,11 = 7,03 1 549 16,3
Classe 4 7,04 7,04 + 2,11 = 9,15 54 0,6
Classes 5 9,16 9,16 + 2,11 = 11,27 40 0,4
La dernire borne de la distribution doit tre gale (aux arrondis prts) la valeur maximale
observe dans la distribution (ici on 11,27 pour 11,26). Une fois les classes dlimites, il suffit,
partir de la distribution initiale, de mettre chaque individu dans la classe correspondant sa
valeur de loyer et de compter les effectifs par classe (voir tableau ci-dessus). On observe que le
rsultat obtenu est sensiblement diffrent de celui de la mthode empirique: les classes
extrmes notamment apparaissent plus faiblement reprsentes.
21
Figure 4: histogramme de la variable loyers et discrtisation selon la mthode des classes d'gale
amplitude
Mthode des classes d'gal effectif:
Cette mthode est uniquement base sur l'effectif total se rapportant la distribution (dans
notre exemple 9 517 logements). Avec un nombre de classe inchang (5), la discrtisation en
classes d'gale effectif donnera des classes contenant le mme nombre d'individus, soit 9517 / 5
= 1903 logements. Pour dterminer les limites infrieure et suprieure d'une classe, il suffit de
lire la valeur de loyer correspondant au rang du premier et du dernier individu la composant.
Exemple, pour dfinir les bornes de la classe 1, on lit la valeur de loyer de l'individu de rang 1
(soit 0,68 /m) et la valeur de loyer de l'individu de rang 1903 (dans notre 3,31 /m) en ayant
pris soin auparavant de classer les valeurs en ordre croissant. La borne infrieure de la
deuxime classe correspondra la valeur de l'individu de rang 1904 (galement 3,31, on passe
3,32 pour viter le recouvrement), quant la borne suprieure, elle correspondra la valeur de
loyer prise par l'individu de rang 1904+1903 = 3807 (ici 3,57). On rpte l'opration pour les
classes restantes et on obtient la classification suivante:
Borne infrieure Borne
suprieure
Frquence
absolue
Frquence
relative
Classe 1 0,68 3,31 1903 20,0
Classe 2 3,32 3,57 1903 20,0
Classe 3 3,58 3,90 1903 20,0
Classe 4 3,91 7,79 1903 20,0
Classes 5 4,80 11,26 1903 20,0
Une discrtisation qui tranche avec celles obtenues prcdemment
22
Figure 5: histogramme de la variable loyers et discrtisation selon la mthode des classes d'gal
effectif
les mthodes statistiques bases sur les paramtres de tendance centrale et de dispersion
Sur la base de la moyenne
Les individus dune distribution peuvent tre rpartis dans des classes en fonction de leur rapport la
moyenne. Cette approche permet souvent une comparaison plus facile des individus entre eux.
On cre une classe centrale regroupant les valeurs de la distribution proche de la moyenne 10 % par
exemple.
Les classes suivantes, dont les bornes restent libres de choix, contiennent quant elles des individus dont la
valeur est de plus en plus loigne de celle de la moyenne.
On peut ainsi construire les 5 classes de la faon suivante:
Pour obtenir le dcoupage suivant :
Borne
infrieure
Borne
suprieure
Frquence
absolue
Frquence
relative
Classe 1 0,00 2,79 351 3,7
Classe 2 2,78 3,57 3 471 36,5
Classe 3 3,58 4,38 3 119 32,8
Classe 4 4,39 5,18 1 403 14,7
Classes 5 5,19 + 1 170 12,3
23
x
+10 % +30 % -10 %
-30 %
x x x x
Classe 1 Classe 2 Classe 4 Classe 5 Classe 3
Valeurs suprieures la moyenne
Valeurs infrieures la moyenne
x x x x
Classe 1 Classe 2 Classe 4 Classe 5 Classe 3
Valeurs suprieures la moyenne
Valeurs infrieures la moyenne
x x x x
Classe 1 Classe 2 Classe 4 Classe 5 Classe 3
Valeurs suprieures la moyenne
Valeurs infrieures la moyenne
x x x x
Classe 1 Classe 2 Classe 4 Classe 5 Classe 3
Valeurs suprieures la moyenne
Valeurs infrieures la moyenne
x x x x
Classe 1 Classe 2 Classe 4 Classe 5 Classe 3
Valeurs suprieures la moyenne
Valeurs infrieures la moyenne
x x x x
Classe 1 Classe 2 Classe 4 Classe 5 Classe 3
Valeurs suprieures la moyenne
Valeurs infrieures la moyenne
Sur la base de l'cart-type :
Les individus dune distribution peuvent aussi tre rpartis dans des classes en fonction de leur distance
rapport la moyenne en unit dcart-type de la distribution. Pour ce faire, il faut transformer la valeur de
chaque individu en unit de distance la moyenne en unit cart-type . Cette transformation est appele
standardisation et seffectue de la faon suivante :
z
i
=
x
i

x
c
l Exercice 18 : fichier Excel associ Exercice 20 - Discrtisation.xls . Il est conseill de raliser cette exercice aprs avoir
pris connaissance du chapitre 4 sur les mesures de tendance centrale et de dispersion.
24
2.2 Organiser les donnes: les tableaux statistiques
Tout traitement,toute reprsentation ou toute analyse d'un ensemble de donnes se rapportant aux units d'une
population impose que ces dernires aient t au pralable ranges et organises dans une structure facilitant leur
manipulation. La faon la plus simple et la plus efficace de structurer la donnes reste le tableau de son expression la
plus basique (vecteur) son expression la plus complexe (tableau multidimensionnel).
2.2.1 Vecteur ou srie brute
Mme si cette faon, la plus rudimentaire qui soit, d'organiser la donne est rare et peu commode, il convient malgr
tout d'en parler. Le vecteur ou la srie brute consiste numrer les unes la suite des autres en dans leur ordre
d'apparition ou de collecte les donnes. Exemple: le nombre de villes de plus de 1 000 000 habitants sur chacun des
5continents en 2005 s'crit :
S1 = {82;181;75;40;54;6}
On peut galement crire la srie S1 en y ordonnant de faon croissante ou dcroissante les donnes comme suit :
S2 = {6;40;54;75;181}
Mais ce type d'criture ne permet pas de faire correspondre individu et donne. On parle alors de srie ou de vecteur
non class non identifi dans le premier cas (S1) et de srie ou de vecteur class non identifi dans le second (S2). Afin
de raliser la correspondance entre individus et donnes, il suffit d'accoler la donnes concerne l'identifiant de
l'individu auquel elle correspond.
Ainsi, une srie non classe et non identifie devient la srie S3 non classe mais identifie:
S3 = {(Europe,82);(Asie,181);(Amrique du Nord,75);(Amrique du Sud,40);(Afrique,54);(Ocanie,6)}
Et la srie classe non identifie S2 devient la srie S4 classe identifie:
S4 = {(Asie,181);(Europe,82);(Amrique du Nord,75);(Afrique,54);(Amrique du Sud,40);(Ocanie,6)}
Un modle d'organisation qui peut encore fonctionner lorsque le nombre d'individus est rduit mais devient
rapidement lourd et susceptible d'entraner des erreurs l'criture c'est pourquoi on lui prfre une prsentation des
donnes sous forme de tableau.
2.2.2 Les tableaux
Quelques notions et dfinitions de base:
Un tableau est compos de lignes et colonnes. Par convention mais ce n'est pas une obligation les individus
forment les lignes et les variables (ou caractres) les colonnes. La rencontre d'une ligne et d'une colonne constituant
une cellule destine contenir la donne caractristique l'individu i pour la variable j . Chaque donne est donc
reprable dans un tableau par un couple de coordonnes (i,j) , i figurant la ligne et j la colonne.
La taille d'un tableau correspond au nombre de cellules qui le composent. Elle est obtenue en multipliant le nombre de
lignes L par le nombre de colonnes C (L x C) (m x n)??.
25
Exemple: on interroge 10 individus sur leur taille, leur poids et leur sexe. Le tableau rsultant de l'enqute comportera
L = 10 lignes et C = 3 colonnes soit 10x3 = 40 cellules = 30 donnes. Chaque donne est localisable dans le tableau par
ses coordonnes comme suit:
Colonnes
Lignes
Taille Poids Sexe
Individu 1 (1,1) (1,2) (1,3)
Individu 2 (2,1) (2,2) (2,3)
Individu 3 (3,1) (3,2) (3,3)
Individu 4 (4,1) (4,2) (4,3)
Individu 5 (5,1) (5,2) (5,3)
Individu 6 (6,1) (6,2) (6,3)
Individu 7 (7,1) (7,2) (7,3)
Individu 8 (8,1) (8,2) (8,3)
Individu 9 (9,1) (9,2) (9,3)
Individu 10 (10,1) (10,2) (10,3)
Les coordonnes des donnes dans un tableau
La dimension d'un tableau est donne par le nombre de variables se rapportant aux individus d'une mme population.
Dans notre exemple, le tableau comporte 3 dimensions (taille, poids et sexe).
Chaque individu est reprable dans l'espace de travail par un ensemble de coordonnes correspondant aux valeurs
prises par celui-ci dans chacune des variables. On parle alors de coordonnes thmatiques.
Exemple : dans le tableau qui suit, l'individu 1 a comme coordonnes thmatiques : (1,82;78,M)
Taille (m) Poids (kg) Sexe
Individu 1 1,82 78 M
Individu 2 1,67 61 F
Individu 3 1,71 70 F
Individu 4 1,75 69 M
Individu 5 1,88 82 M
Individu 6 1,69 55 F
Individu 7 1,72 71 M
Individu 8 1,90 92 M
Individu 9 1,85 88 F
Individu 10 1,64 59 F
Il est possible de reprsenter graphiquement les individus en fonction de leurs coordonnes thmatiques dans un
repre gomtrique (x,y) pour 2 dimensions et (x,y,z) pour 3 dimensions, sachant qu'une reprsentation graphique
n'est plus possible au-del de 3 dimensions mme si statistiquement et mathmatiquement il demeure tout fait
possible de grer et manipuler des tableaux dont la dimension est suprieure 3.
26
Figure : reprsentation graphique d'individus en fonction de leur coordonnes thmatiques
Le tableau constitue l'tape intermdiaire entre la donne brute et le graphique. Malgr un aspect quelque fois
rbarbatif, le tableau vhicule souvent davantage d'informations que le graphique mais demeure, il est vrai, plus
inaccessible une lecture rapide et concise d'un phnomne. Une inaccessibilit qui va croissante avec sa taille.
Les diffrents types de tableaux :
2.2.2.1 Les tableaux unidimensionnels
Un tableau unidimensionnel ne concerne qu'une seule variable et par l mme une seule distribution. Le tableau de
l'exemple prcdent comporte 3 dimensions. Il est possible de le scinder en 3 tableaux d'une seule dimension, en
tableaux unidimensionnels. Chaque tableau correspond alors une distribution (Cf. figure ci-dessous).
Le tableau unidimensionnel peut se prsenter sous deux formes :
une 1re forme faisant correspondre individus et variable. Dans ce cas, chaque cellule du tableau contient la
valeur de la variable prise par l'individu lui correspondant. On travaille ici sur des donnes brutes qui
autorisent le calcul de la moyenne, de la mdiane, des quartiles ou bien encore de la variance.
Une 2me forme o les lignes du tableau ne correspondent plus aux individus mais aux modalits de la
variable tudie (attention, s'il s'agit d'une variable continue, une discrtisation est ncessaire). Dans ce cas
de figure, les cellules du tableau contiennent alors les effectifs relatifs chaque modalit. Le regroupement
des individus ne permet plus le calcul des paramtres de tendance centrale inhrents la distribution
initiale. Ce mode de reprsentation permet cependant, par ses aspects synthtique, une meilleure lisibilit
du phnomne. Cela est surtout vrai lorsque le nombre d'individus est important.
Les formes restent complmentaires et ncessaires dans une approche globale et complte d'un phnomne
27
F
r

q
u
e
n
c
e
s

a
b
s
o
l
u
e
s
Taille (m)
F
r

q
u
e
n
c
e
s

a
b
s
o
l
u
e
s
Poids (kg)
F
r

q
u
e
n
c
e
s

a
b
s
o
l
u
e
s
Sexe
Taille (m) Poids (kg) Sexe
Individu 1 1,82 78 M
Individu 2 1,67 61 F
Individu 3 1,71 70 F
Individu 4 1,75 69 M
Individu 5 1,88 82 M
Individu 6 1,69 55 F
Individu 7 1,72 71 M
Individu 8 1,90 92 M
Individu 9 1,85 88 F
Individu 10 1,64 59 F
Taille (m)
Individu 1 1,82
Individu 2 1,67
Individu 3 1,71
Individu 4 1,75
Individu 5 1,88
Individu 6 1,69
Individu 7 1,72
Individu 8 1,90
Individu 9 1,85
Individu 10 1,64
Poids (kg)
Individu 1 78
Individu 2 61
Individu 3 70
Individu 4 69
Individu 5 82
Individu 6 55
Individu 7 71
Individu 8 92
Individu 9 88
Individu 10 59
Sexe
Individu 1 M
Individu 2 F
Individu 3 F
Individu 4 M
Individu 5 M
Individu 6 F
Individu 7 M
Individu 8 M
Individu 9 F
Individu 10 F
Taille (m)
Individu 1 1,82
Individu 2 1,67
Individu 3 1,71
Individu 4 1,75
Individu 5 1,88
Individu 6 1,69
Individu 7 1,72
Individu 8 1,90
Individu 9 1,85
Individu 10 1,64
Frquence
absolue
Moins de 1,70 m 3
de 1,70 1,79 m 3
1,80 m et plus 4
Frquence
relative
30%
30 %
40 %
Total 10 100 %
Frquence
absolue cumule
3
6
10
Frquence
relative cumule
30%
60 %
100 %
Figure : deux formes de prsentation d'un tableau unidimensionnel
l Exercice 2 : fichier Excel associ Exercice 2 - Tableau une dimension.xls .
28
2.2.2.2 Les tableaux croiss n dimensions ( n 2 )
Le tableau crois n dimensions est appel ainsi car il croise n distributions. Il va sans dire que plus n est grand,
plus le tableau comporte de cellules et plus il devient difficile lire. D'une manire gnrale, on considre qu'au-del
de 4 dimensions, la lecture d'une tableau crois devient un exercice compliqu.
Un tableau crois ne peut contenir que des effectifs (frquences absolues ou relatives). Dans la quasi totalit des cas
de figures, les variables figures dans les tableaux croiss le sont sous forme discrte, reprsentes par un nombre
fini de modalits. Lorsque que le nombre de dimensions est suprieur 2, les variables et leurs modalits sont
imbriques. L'exemple qui suit devrait permettre de saisir toutes les proprits et subtilits des tableaux croiss.
Exemple: tableau crois relatif aux caractristiques du parc locatif lou vide dans le dpartement de Haute-
Sane (donnes RGP 1999 Insee):
Pour caractriser le parc locatif lou vide du dpartement de la Haute-Sane, nous avons retenu les variables
suivantes dclines en modalits :
Nombre de pices (1 pice, 2 pices, 3 pices, 4 pices, 5 pices et plus),
poque de construction (Avant 1915, de 1915 1948, de 1949 1967, de 1968 1981, de 1982
1989, 1990 et aprs)
Type de logement (Individuel, Collectif)
Statut (Parc Locatif Social, Parc Locatif Priv)
Tableau 2 dimensions (ou tableau bidimensionnel) : retenons pour sa construction les 2 variables les plus
reprsentatives de la caractristique d'un parc de logement notamment dans la formation des loyers, savoir le
nombre de pices et l'poque de construction. Leur croisement, poque de construction en ligne et nombre de
pices en colonnes, aboutit un tableau crois de dimension 2 comme suit :
1 pice 2 pices 3 pices 4 pices 5 pices et +
] Avant 1915 [ 407 1457 2318 2094 1602
[1915 1948 ] 161 526 857 718 555
[1949 1967 ] 387 1132 2789 2889 1555
[1968 1981 ] 331 558 908 855 530
[1982 1989 ] 251 280 333 322 295
[1999 et aprs [ 108 431 870 946 601
Chaque cellule du tableau crois contient le nombre d'individus rpondant strictement aux critres des modalits
dont elle est issue. Ainsi, dans notre exemple, la cellule mise en valeur, de coordonnes (2,3), contient-elle le nombre
de logements locatifs rpondant la fois au critre 3 pices et au critre de 1915 1948 : 857 constitue le
nombre de logements locatifs composs de 3 pices et construits entre 1915 et 1948.
Tableau 3 dimensions : au tableau prcdent, il est possible de rajouter une dimension, c'est--dire une variable.
Rajoutons la variable type de logement composes des modalits Individuel et collectif . Dans la mesure o
nous sommes limits graphiquement par une reprsentation en 2 dimensions, la dimension supplmentaire doit tre
rajoute soit en ligne, soit en colonne. On dcide de la rajouter en ligne. Comme il y existe dj une dimension (ou
29
variable), celle ajoute doit y tre dcline pour chacune des modalits de la variable existante comme figur dans le
tableau qui suit; on dit alors que les dimensions sont imbriques :
1 pc 2 pc 3 pc 4 pc 5 pc+
] Avant 1915
[
Individuel 70 388 1075 1259 1207
Collectif 337 1069 1243 835 395
[1915 1948]
Individuel 26 168 375 450 415
Collectif 135 358 482 268 140
[1949
1967]
Individuel 21 116 387 758 729
Collectif 366 1016 2402 2131 826
[1968 1981]
Individuel 14 48 186 429 409
Collectif 317 510 722 426 121
[1982
1989]
Individuel 19 52 118 209 256
Collectif 232 228 215 113 39
[1999 et
aprs [
Individuel 10 91 335 627 474
Collectif 98 340 535 319 127
Le nombre total de cellules s'accrot alors que les effectifs par cellule diminue. L'information devient plus prcise mais
se rpartie en un nombre de cas de figures plus important. La cellule surligne (3,3) renseigne sur le nombre de
logements locatifs composs de 3 pices sis dans un immeuble type maison individuelle construite entre 1915 et 1948.
Tableau 4 dimensions : accroissons encore un petit peu la prcision des informations en ajoutant une 4
e
variable (ou
dimension) notre tableau. De la mme faon, cette nouvelle variable peut tre place en ligne ou en colonne. Afin
d'quilibrer le tableau, nous dcidons de localiser la nouvelle variable statut et ses deux modalits (Parc Locatif
Priv (PLP) et Parc Locatif Social (PLS)) en ligne selon le mme principe que prcdemment. On obtient le tableau qui
suit. L'information devient encore plus prcise mais paralllement la lecture du tableau se complexifie, l'image de
l'intitul de chacune des cellules le composant. La cellule exemple suivie depuis le dbut de l'exercice indique que
358 individus sont des logements locatifs ayant un statut priv et composs de 3 pices sis dans une maison
individuelle construite entre 1915 et 1948.
1 pc 2 pc 3 pc 4 pc 5 pc+
PLS PLP PLS PLP PLS PLP PLS PLP PLS PLP
] Avant 1915 [
Ind. 0 70 10 378 12 1063 15 1244 24 1183
Coll. 33 304 67 1002 79 1164 41 794 9 386
[1915 1948]
Ind. 2 24 12 156 17 358 16 434 20 395
Coll. 13 122 31 327 80 402 25 243 16 124
[1949 1967]
Ind. 9 12 23 93 86 301 277 481 137 592
Coll. 169 197 701 315 1791 611 1611 520 615 211
[1968 1981]
Ind. 9 5 17 31 104 82 244 185 108 301
Coll. 179 138 323 187 539 183 294 132 59 62
[1982 1989]
Ind. 12 7 23 29 26 92 43 166 40 216
Coll. 41 191 99 129 97 118 49 64 19 20
[1999 et aprs
[
Ind. 1 9 12 79 103 232 247 380 95 379
Coll. 20 78 114 226 223 312 122 197 43 84
On a fait figurer dans ces tableaux successifs des effectifs (ou frquences absolues) mais on aurait tout aussi bien pu
y faire figurer des pourcentages (ou frquences relatives). Les tableaux croiss permettent de confronter tous les
30
types de donnes entre eux (qualitatif et quantitatif) et ce, quelle que soit l'chelle de mesure (nominale, ordinale,
intervalle ou de rapport).
2.2.2.2 Les distributions marginales
Les exemples prcdents de tableaux croiss n'ont fait figurer que les effectifs cellulaires. Il est possible d'tendre la
capacit informationnelle des tableaux en leur adjoignant une colonne terminale supplmentaire correspondant la
somme des valeurs en ligne et une ligne terminale supplmentaire correspondant la somme des valeurs en colonne.
Cette ligne et cette colonne sont appeles distributions marginales.
Exemple : en reprenant le dernier tableau crois cr 4 dimensions et y ajoutant les distributions marginales, on
obtient le rsultat suivant :
1 pc 2 pc 3 pc 4 pc 5 pc+
PLS PLP PLS PLP PLS PLP PLS PLP PLS PLP
Total par
ligne
] Avant
1915 [
Ind. 0 70 10 378 12 1063 15 1244 24 1183 3999
Coll. 33 304 67 1002 79 1164 41 794 9 386 3879
[1915
1948]
Ind. 2 24 12 156 17 358 16 434 20 395 1434
Coll. 13 122 31 327 80 402 25 243 16 124 1383
[1949
1967]
Ind. 9 12 23 93 86 301 277 481 137 592 2011
Coll. 169 197 701 315 1791 611 1611 520 615 211 6741
[1968
1981]
Ind. 9 5 17 31 104 82 244 185 108 301 1086
Coll. 179 138 323 187 539 183 294 132 59 62 2096
[1982
1989]
Ind. 12 7 23 29 26 92 43 166 40 216 654
Coll. 41 191 99 129 97 118 49 64 19 20 827
[1999 et
aprs [
Ind. 1 9 12 79 103 232 247 380 95 379 1537
Coll. 20 78 114 226 223 312 122 197 43 84 1419
Total par
colonne
488 1157 1432 2952 3157 4918 2984 4840 1185 3953 27066
La lecture des distributions marginales distingue clairement lignes et colonnes: ainsi la lecture du total par ligne ne
permettra plus de dceler les modalits de de la ou des variables figurant en colonnes et vice versa. Dans notre
exemple, la cellule total par ligne allume nous informe sur le nombre total de logements locatifs type maison
individuelle construite entre 1915 et 1948(sous-entendu toute taille de logements et tous statuts confondus). On ne
peut plus distinguer dans ce total ni la taille des logements ni leur statut. Cette remarque vaut pour les totaux
calculs en colonnes. A noter que la cellule donne la somme des lignes, gale la somme des colonnes et
correspondant l'effectif total de la distribution (27 066 logements locatifs).
l Exercice 3 : fichier Excel associ Exercice 3 - Tableau crois dynamique.xls . Utiliser l'annexe4 si vous n'tes pas
familier avec la fonction tableau crois dynamique d'Excel (ou d'un autre tableur).
31
Chapitre 3
3. Modes de reprsentation des donnes : les graphiques
Graphiques et cartes sont les corollaires d'une bonne analyse et d'une interprtation la plus complte possible de sries
statistiques ou de rsultats sur des traitements de donnes. Ces modes de reprsentation de la donne participent la
comprhension des phnomnes, au mme titre que les tableaux simples ou labors, apportant une information
certes agrge, synthtique mais trs visuelle et en cela plus facile aborder et interprter que ne le ferait un tableau
de chiffres.
Nous avons volontairement inclus dans ce chapitre le mode de reprsentation cartographique mme s'il convient de
prciser qu'il constitue lui seul une technique et mme une science digne d'un chapitre voire d'un ouvrage part
entire. C'est pourquoi il ne sera abord que trs superficiellement mais suffisante pour en acqurir les bases.
La reprsentation graphique comme cartographique de donnes s'accompagne ncessairement d'une simplification de
la ralit reprsenter. Cette perte d'information car tout simplification se traduit par une perte d'information est
compense, et quelques fois largement, par un gain indniable en lisibilit et en comprhension, pour peu qu'un certain
nombre de rgles aient t respectes l'occasion de l'laboration du graphique ou de la carte.
3.1 Graphiques : dfinition
Dfinition: un graphique - tymologiquement qui figure par le dessin - est une reprsentation visuelle et simplifie
d'une ralit apprhende sous une forme essentiellement numrique (srie, tableau).
Un graphique peut figurer une seule variable au quel cas on parlera de graphique unidimensionnel ou plusieurs
variables. On parlera dans ce dernier cas de graphique multidimensionnel.
Un graphique est compos de plusieurs lments incontournables de base. Ces sont :
un systme de coordonnes matrialis par des axes (2 ou 3). Chaque axe reprsente selon les cas de figure
soit une variable tudie soit une frquence (absolue ou relative), soit un repre temporelle (date). L'axe
horizontale ou abscisse est par convention appel axe des X, l'axe verticale, ou ordonne, axe des Y. Les axes X
et Y se croisent angle droit en un point nomm origine. Chaque axe est gradu en fonction du type de la
variable qu'il reprsente (qualitatif ou quantitatif, discret ou continu), de son unit de mesure et des valeurs
ou modalits prises par celle-ci.
Une zone de dessin (ou zone de trac) l'intrieur de laquelle est figur le trac issu des donnes X et Y. Le
type de dessin ou le type de trac dpend alors de la relation (X,Y), de ce que l'on souhaite montrer et de la
nature des variables impliques.
32
Chaque type de graphique est adapt une ou plusieurs situation ou faon de reprsenter l'information. Selon la nature
des donnes, le nombre de variables et ce que l'on souhaite montrer, il sera judicieux de choisir la reprsentation
graphique la mieux adapte.
3.2 Les histogrammes
C'est la seule reprsentation graphique habilite figurer une distribution statistique et ce, quelle que soit la nature de
la variable. L'histogramme met toujours en relation les effectifs d'une population (frquences absolues ou frquences
relatives) et les valeurs prises par les individus composant ladite population pour une variable donne. Le rsultat de
cette confrontation est un graphique compos de barres ou btonnets jointifs dont la hauteur et la surface sont
proportionnels l'effectif qu'ils reprsentent. C'est l la grosse diffrence avec les graphiques en barres tels que sait les
faire Excel : les btonnets ne se touchent pas et si leur hauteur est bien proportionnelle l'effectif qu'ils reprsentent,
ce n'est pas le cas de leur aire. Excel ne sait pas faire simplement un histogramme.
L'histogramme est un graphique fondamental dans l'approche statistique des caractristiques d'une population et de la
faon dont se distribue les individus qui la composent en fonction de leurs valeurs. C'est un peu le code gntique d'une
population. Toute approche et analyse statistique d'un phnomne devraient tre prcdes d'un trac et d'une tude
de son histogramme. Il existe deux faons de dessiner un histogramme : soit sous la forme discrte de btonnets,
soit sous une forme plus continue sorte de courbe, appele polygone de frquences, obtenue en joignant les points
milieux des sommets de chaque btonnet.
33
Abcisse - axe des X
O
r
d
o
n
n

e

-

a
x
e

d
e
s

Y
Origine
Zone de dessin
ou zone de trac
+
+
-
-
Zone de dessin
ou zone de trac
Zone de dessin
ou zone de trac
Zone de dessin
ou zone de trac
Echelle et Graduation axe des X
E
c
h
e
l
l
e

e
t

G
r
a
d
u
a
t
i
o
n

a
x
e

d
e
s

Y
Exemple : la distribution des loyers mensuels au m hors charges dans le parc social du dpartement du Jura
Histogramme Construction du polygone de frquences Polygone de frquences
Par convention, les frquences sont inscrites en ordonnes, les valeurs de la variable en abscisse. Cette dernire peut
tre qualitative ou quantitative, discrte ou continue.
Il est possible de faire figurer plusieurs variables, donc plusieurs histogrammes ou polygones de frquences sur un
mme graphique pour peu que les units de mesure soient identiques et que les chelles de valeurs soient les mmes
ou peu prs. Il est galement envisageable de faire figurer sur un mme graphique plusieurs histogrammes dune
mme population correspondant son tat diffrentes dates.
Exemple : Comparaison des distributions des loyers mensuels au m hors charges des parcs priv et public du
dpartement du Jura. En 2007.
Histogrammes Polygones de frquences
l Exercice 4 : fichier Excel associ Exercice 4 - Histogramme.xls .
34
0
200
400
600
800
1000
1200
1400
1600
1800
2000
0 1 2 3 4 5 6 7 8 9
F
r

q
u
e
n
c
e
s
a
b
s
o
l
u
e
s
Loyersmensuels au m horscharges
0
200
400
600
800
1000
1200
1400
1600
1800
2000
0 1 2 3 4 5 6 7 8 9
F
r

q
u
e
n
c
e
s
a
b
s
o
l
u
e
s
Loyersmensuelsaum horscharges
0
200
400
600
800
1000
1200
1400
1600
1800
2000
0 1 2 3 4 5 6 7 8 9
F
r

q
u
e
n
c
e
s
a
b
s
o
l
u
e
s
Loyers mensuelsau m horscharges
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
0,16
0 2 4 6 8 10 12 14 16 18
Loyersmensuels au m horscharges
F
r

q
u
e
n
c
e
s

r
e
l
a
t
i
v
e
s
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
0,16
0 2 4 6 8 10 12 14 16 18
F
r

q
u
e
n
c
e
s

r
e
l
a
t
i
v
e
s
Loyersmensuelsau m horscharges
Parc locatif social
Parc locatif priv
3.3 Les Graphiques en barres
Mme si en apparence les graphiques en barres ressemblent aux histogrammes, il a t dit prcdemment en quels
points ils en diffraient. Les graphiques en barres permettent de comparer des effectifs ou des proportions selon les
modalits retenues et ce, quelle que soit le nature des variables. Les possibilits qu'ils offrent en matire de
reprsentation sont nanmoins beaucoup plus larges que ce que permet l'histogramme. Il est en effet relativement ais
de reprsenter plusieurs variables pour une mme population, la mme variable et ses variations dans le temps,
plusieurs populations pour une mme variable ainsi que plusieurs variables concernant plusieurs population.
Imbriques.
On distingue trois types de graphiques en barres :
Les graphiques en barres simples
Les graphiques en barres multiples
Les graphiques en barres empiles
3.3.1 le graphique en barres simple :
Ils permettent de confronter individus, modalits ou populations date fixe ou dans le temps
Exemple:
Plusieurs modalits une seule population Une modalit plusieurs dates Une modalit plusieurs individus
Structure du Parc Locatif Social de la CC
Bassin de Lons-le-Saunier en 2007
volution de la proportion de
logements de 3 pices dans le Parc
Locatif Social dans la CC Bassin de Lons-
le-Saunier
Comparaison de la proportion de
logements de 3 pices dans le Parc Locatif
Social en 2007 entre diffrents Epci
0
5
10
15
20
25
30
35
40
45
1 2 3 4 5+
Nombre de pices
F
r

q
u
e
n
c
e
s

r
e
l
a
t
i
v
e
s
35
0
5
10
15
20
25
30
35
40
45
2007
Annes
1990 1982 1999 1975
F
r

q
u
e
n
c
e
s

r
e
l
a
t
i
v
e
s
0
5
10
15
20
25
30
35
40
45
Bassinde
Lons-le-
Saunier
Jura
Dolois
Pays de
Salins-les-
Bains
Val de
Bienne
Velouse-
Ain
F
r

q
u
e
n
c
e
s

r
e
l
a
t
i
v
e
s
EPCI
3.3.2 le graphique en barres multiple :
Ils permettent, sur une mme zone de trac, de confronter plusieurs individus et/ou plusieurs modalits une ou
plusieurs dates.
Exemple:
Plusieurs modalits plusieurs individus une
seule date
Une seule modalit, plusieurs
individus plusieurs dates
Plusieurs modalits, plusieurs dates, une
seule population
Structure du Parc Locatif Social dans
diffrents EPCI du Jura en 2007
volution de la proportion de logements
de 3 pices dans le Parc Locatif Social de
diffrents Epci
volution de la structure du Parc Locatif
Social dans un EPCI du Jura
0
5
10
15
20
25
30
35
40
45
2007
Annes
1990 1982 1999 1975
F
r

q
u
e
n
c
e
s

r
e
l
a
t
i
v
e
s
0
10
20
30
40
1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
F
r

q
u
e
n
c
e
s

r
e
l
a
t
i
v
e
s
PaysdeSalins-les-Bains
50
2007 1990 1982 1999
3.3.3 Le graphique en barres empiles :
Leur intrt est indniable mais ils prsentent un inconvnient majeur : on a souvent quelques difficults apprcier
prcisment les proportions ou les effectifs rels il faut souvent les noter sur le graphique occasionnant une
surcharge susceptible de nuire la lisibilit du graphique.
Exemple :
Plusieurs modalits, plusieurs dates une
seule population
Plusieurs modalits, plusieurs populations,
une seule date. Frquences relatives
Plusieurs modalits, plusieurs individus,
une seule date Frquences absolues
volution de structure du parc
locatif social d'un Epci
Structure du parc locatif sociale de
diffrents Epci en 2007
Structure du parc locatif sociale de
diffrents Epci en 2007
Tous ces graphiques peuvent se faire horizontalement et/ou avec effet 3D sans que a ajoute leur contenu
informationnel.
l Exercice 5 : fichier Excel associ Exercice 5 - Graphiques en barres.xls et Exercice 6 : fichier Excel associ Exercice 6
- Graphiques en barres empiles.xls
36
0
500
1000
1500
2000
2500
3000
3500
Bassinde
Lons-le-
Saunier
Jura
Dolois
Pays de
Salins-les-
Bains
Velouse-
Ain
EPCI
1 pice
2 pices
3 pices
4 pices
5 pices et plus
F
r

q
u
e
n
c
e
s

a
b
s
o
l
u
e
s
0 %
1 0 %
2 0 %
3 0 %
4 0 %
5 0 %
6 0 %
7 0 %
8 0 %
9 0 %
1 0 0 %
2 0 0 7 1 9 9 9 1 9 9 0 1 9 8 2
F
r

q
u
e
n
c
e
s

r
e
la
t
i
v
e
s
1 pice 2 pices 3 pices 4 pices 5 pices +
0
10
20
30
40
50
60
70
80
90
100
Bassinde
Lons-le-
Saunier
Jura
Dolois
Pays de
Salins-les-
Bains
Velouse-
Ain
F
r

q
u
e
n
c
e
s

r
e
l
a
t
i
v
e
s
1 pice 2 pices 3 pices 4 pices 5 pices +
Nombredepices
F
r

q
u
e
n
c
e
s

r
e
l
a
t
i
v
e
s
0
10
20
30
40
50
60
70
1 2 3 4 5+
BassindeLons-le-Saunier
JuraDolois
Pays deSalins-les-Bains
Velouse-Ain
3.4 Les Graphiques en secteurs
Leur rle ou objectif est identique aux graphiques en barres avec cependant des possibilits graphiques moindres :il
s'agit pour eux de figurer des effectifs en fonction d'individus et/ou de modalits. Pas de possibilit de reprsenter des
volutions.
Plusieurs modalits une seule population,
une seule date
Plusieurs individus, une seule modalit,
une seule date
Plusieurs individus, plusieurs modalits,
une seule date
1,9 %
17,3 %
39,3 %
33,0 %
8,5 %
1 pice 2 pices
3 pices 4 pices
5 pices +
Structure du PLS de la CC de Lons en 2007 Le PLS des 3 pices en 2007 : contribution
des diffrents EPCI
Les Pls des principaux EPCI du
dpartement du Jura en 2007: poids et
structure par taille des logements
l Exercice 7 : fichier Excel associ Exercice 7 - Graphiques en secteurs.xls .
3.5 Les graphiques type courbes et aires
Essentiellement utilise pour figurer des volutions dans le temps d'un ou plusieurs phnomnes non plus seulement
sous l'angle des effectifs mais aussi sous celui de la valeur mme de la variable dcrivant la population tudie.
Une variable, une population ou un
individu, plusieurs dates
Un variable, plusieurs populations ou
individus et plusieurs dates
Plusieurs variables, une population et
plusieurs dates
0
50000
100000
150000
200000
250000
1962 1968 1975 1982 1990 1999
volution du nombre des rsidences
principales entre 1962 et 1999 dans le
dpartement du Doubs
volution du nombre des rsidences
principales entre 1962 et 1999 dans
diffrents dpartements.
volution de la structure du parc de
logements dans le dpartement du Doubs
entre 1962 et 1999.
l Exercice 8 : fichier Excel associ Exercice 8 - Graphiques courbes et aires.xls .
37
122
1174
1284
204
4,4%
42,2%
46,1%
7,3%
CC. Bassin de Lons-le-Saunier
CC. Jura Dolois
CC. Pays de Salins-les-Bains
CC. Velouse-Ain
17,3
39,3
8,5
3,7
16,5
40,4
32,6
6,9
48,4
51,6
33,0
1,9
1 pice 2 pices
3 pices 4 pices
5 pices +
0
50000
100000
150000
200000
250000
300000
350000
400000
450000
1962 1968 1975 1982 1990 1999
Doubs
Creuse
Ain
Haute-Savoie
Haute-Marne
Essonne
Val-d'Oise
0
50000
100000
150000
200000
250000
1962 1968 1975 1982 1990 1999
Propritaires
Locataires
Autres
Vacants
Rsidencessecondaires
3.6 Les graphiques de dispersion ou nuages de points
Les graphiques de dispersion ou nuage de points mettent les valeurs de 2 ou 3 variables dans un repre de coordonnes
cartsiennes en 2 ou 3 dimensions. On ne figure donc plus ici des effectifs mais des individus en fonctions des valeurs
prises dans chacune des variables. Ce type de graphique revt une importance fondamentale en statistique descriptive
car il permet, entre autres choses, d'identifier et d'valuer la relation entre deux variables et d'oprer une analyse sur
les individus (hirarchisation, regroupement, etc.).
Exemple:
Surface des logements locatifs et loyer mensuel au m hors charges
38
Trois variables, une seule date, une seule population aprs classification
l Exercice 9 : fichier Excel associ Exercice 9 - Graphiques de dispersion.xls .
3.7 Les graphiques polaires ou radar
Trs utiles et d'ailleurs trs utiliss pour identifier des profils, des comportements (silhouettes) d'individus en fonction
de leur comportement l'gard de plusieurs variables (au moins 4 mais au plus 12/14 pour des questions de lisibilit). Le
principe de ce type de graphique consiste construire une figure comportant autant d'axes que de variables ou
modalits tudies dans un cercle virtuel avec une origine commune et un espacement gal 360/nombre de variables
(d'o le nom polaire ou radar). Chaque axe possde une unit de mesure et une graduation qui lui sont propres
relativement la variable qu'il reprsente. Mais celles-ci doivent tre identiques pour tous les individus. D'une faon
gnrale, il est tout de mme prfrable d'avoir la mme graduation pour l'ensemble des variables.
39
4 axes, 4 variables 5 axes, 5 variables 6 axes, 6 variables 7 axes, 7 variables 8 axes, 8 variables
Exemple: profil socio-dmographique de quelques communes
14 variables, un individu, une date 14 variables, 5 individus, une date
14 variables, un individus, plusieurs dates Liste des variables utilises
1. Part du Solde Migratoire dans le solde net de
population 1999
2. Part de la population de + de 60 ans 1999
3. Part des mnages composs de 1 personne 1999
4. Part des mnages composs de 1 et 2 personnes
1999
5. Part de la population rsident mme commune 1999
6. Part des actifs ayant un emploi dans leur commune
de rsidence 1999
7. Part des 20-39 ans n'habitant pas dans commune en
1999 par rapport 1990
8. Part des 1 et 2 pices dans parc de rsidences
principales 1999
9. Part des rsidences principales construites partir
de 1990 et occupes par un locataire en 1999
10. Part des rsidences principales statut d'occupation
locataires logement vide 1999
11. Mobilit totale dans le parc de rsidence principale
entre 1990 et 1999
12. Part des rsidences principales construites partir
de 1990 et occupes par un locataire HLM en 1999
13. Part du collectif dans total des rsidences
principales en 1999
14. art des rsidences principales construites avant 1945
en 1999
l Exercice 10 : fichier Excel associ Exercice 10 - Graphiques polaires.xls .
40
0
10
20
30
40
50
60
70
80
90
100
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1999
Vercel - Villedieu
1990 1982
0
10
20
30
4 0
50
60
70
80
90
100
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Levier
Ornans
Quingey
Rougemont
Vercel - Villedieu
0
10
20
30
40
50
60
70
80
90
100
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Vercel - Villedieu - 1999
3.8 Les graphiques boursiers ou graphiques MinMax ou graphique en moustache
Les traders et autres habitus des places boursires sont les principaux consommateurs de ce type de graphiques par
ailleurs utilisables et utiliss dans bien d'autres contextes. C'est cependant de cette premire utilisation qu'ils tirent leur
nom car ils permettent en effet de renseigner sur l'volution des cours boursiers au cours d'une priode donne en
figurant 3 informations: le minimum et le maximum enregistrs au cours de ladite priode ainsi que la valeur des cours
en clture. On peut facilement envisager une application de ce type de graphique d'autres thmatiques comme celle
des loyers en considrant par exemple, par ville, par type de logements ou pour une type de logements par date, les
loyers minimal et maximal mesurs ainsi que la moyenne (ou la mdiane):
Exemple: les loyers dans le parc locatif priv de Besanon selon la taille des logements.

Une date, un individu, plusieurs variable Une variable, un individu, plusieurs dates
267
334
368
400
515
290
380
429
460
622
316
420
503
558
788
291
379
442
487
661
200
300
400
500
600
700
800
Loyer en /mois hors charges
1 pice 2 pices 3 pices 4 pices 5 pices
et plus
1 quartile
Mdiane
3 quartile
Moyenne
me
er

l Exercice 11 : fichier Excel associ Exercice 11 - Graphiques Min_Max.xls .
3.9 Les graphiques spatiaux (xyz)
xyz reprsentent les 3 dimensions de l'espace: x et y les coordonnes gographiques, z la composante altimtrique
que l'on peut fort bien remplacer par n'importe quelle variable pour peu qu' celle-ci soit rattache une dimension
spatiale (ce qui n'est pas le cas de toutes les variables). Il en est de mme des coordonnes gographiques lesquelles
peuvent tre substitues par d'autres variables. Le rsultat est une surface
41
Exemple: la variabilit spatiale des prix du foncier constructible (/m).


Une variable, une date, 2D Une variable, une date, 3D
35
40
45
50
55
60
65
70
75
80
85
90
95
100
Prix du foncier
constructible
(/m)
Coordonnes X
C
o
o
r
d
o
n
n

e
s

Y
3
5
10
0
L
o
ng
itu
de
7
0
L
a
t
i
t
u
d
e
Prcision : il n'est pas possible de raliser ce type de graphique dans Excel
3.10 Les graphiques triangulaires ou triangle de d'Alembert
Le principe de ce type de graphique, au demeurant peu utilis et c'est dommage car sa valeur heuristique est trs forte,
repose sur le fait que dans un triangle quilatral la somme des distances d'un point s'y trouvant aux trois cts est
constante et gale la hauteur dudit triangle. En utilisant et appliquant cette proprit, il devient possible de
reprsenter un phnomne qui est la somme de trois grandeur reprsentes par des pourcentages.
Principe de construction du graphique triangulaire
0
100
0 10
10
20
20
30
30
40
40
50
50
60
60
70
70
80
80
90
0
10
20
30
40
50
60
70
80
90
90 100
100
h
a
b
c
a + b + c = h
0
100
0 10
10
20
20
30
30
40
40
50
50
60
60
70
70
80
80
90
0
10
20
30
40
50
60
70
80
90
90 100
100
a<b<c
a
=
b
b
c
a
b<a<c
b<c<a
c<b<a c<a<b
a<c<b
a
=
c
b
=
c
a
=
c
a
=
b
b
=
c
a=b=c
0
100
0 10
10
20
20
30
30
40
40
50
50
60
60
70
70
80
80
90
0
10
20
30
40
50
60
70
80
90
90 100
100
a<b<c
a
=
b
b
c
a
b<a<c
b<c<a
c<b<a c<a<b
a<c<b
a
=
c
b
=
c
a
=
c
a
=
b
b
=
c
a=b=c
42
Pour une mme population, le graphique triangulaire permet, le cas chant, de grouper les individus selon leur profil
dans les 3 variables complmentaires retenues. Sur plusieurs dates, il permet de montrer l'volution des profils. Il est,
en ce sens, assez proche du graphique polaire ou radar.
Exemple : on s'intresse la structure par poque de construction du parc de logements de l'ensemble des communes
d'un dpartement franais. Trois classes de priodes de construction considres comme significativement
discriminantes ont t retenues : Avant 1948, de 1948 1981, 1982 et aprs. Chaque commune est localisable
l'intrieur du graphique triangulaire au moyen de coordonnes triples correspondant aux valeurs prises dans chacune
des modalits retenues. La projection de l'ensemble des individus dans le graphique triangulaire devrait permettre
d'identifier des groupes composs de communes au profil semblable.
0
100
0 10
10
20
20
30
30
40
40
50
50
60
60
70
70
80
80
90
0
10
20
30
40
50
60
70
80
90
90 100
100
P
o
s
t

r
i
e
u
r
s


1
9
8
2
d
e

1
9
4
8


1
9
8
1
Avant 1948
Graphiques triangulaires : utilisation en vue d'une classification des individus
Prcision : il n'est pas possible de raliser ce type de graphique dans Excel
43
44
Chapitre 4
4. Caractriser une distribution et rsumer des tableaux statistiques l'aide de
paramtres appropris : tendance centrale et mesure de dispersion
Paramtres de tendance centrale (mode, moyenne, mdiane, quantiles, etc.), paramtres de dispersion
(variance, cart-type, coefficient de variation, standardisation, etc.). Exercices.
C'est un des objectifs fondamentaux et LE dfis de la statistique descriptive : rsumer de faon simple de grandes sries
statistiques tout en en conservant au mieux le contenu informationnel en limitant au maximum la perte d'informations
inhrente ce processus rducteur.
Afin d'y parvenir, la statistique a dvelopp un certain nombre d'outils pour d'une part caractriser et rsumer au mieux
des distributions statistiques et pour d'autre part mettre en vidence, voire exacerber, le cas chant, leurs diffrences.
Deux groupes complmentaires de paramtres permettent d'atteindre ces objectifs :
Les paramtres de tendance centrale
Les paramtres de dispersion
Ces deux groupes de paramtres sont complmentaires pour la description et le rsum de distributions statistiques et
on ne saurait faire abstraction de l'un ou de l'autre pour ces oprations.
4.1 Les paramtres de tendance centrale
Les paramtres de tendance centrale ou mesures de tendance centrale sont des grandeurs susceptibles de
reprsenter au mieux un ensemble de donnes. L'appellation mesure de tendance centrale vient du fait que ces
paramtres donne une ide de ce qui se passe au centre d'une distribution, d'un ensemble de donnes.
On distingue trois mesures de tendance centrale :
Le mode
La mdiane
Le moyenne
Tous trois ne dcrivent par la mme chose et sont, de ce fait, complmentaires dans la description et l'analyse d'une
distribution.
4.1.1 Le mode
Not Mo, il correspond la valeur qui apparat le plus souvent dans une distribution, autrement la valeur qui a la
frquence (absolue ou relative) la plus leve. S'il s'agit de donnes non groupes, la valeur modale est clairement
identifiable. Par contre, si l'on est en prsence de donnes groupes en classes, le mode se rapportera la classe
comportant le plus grand nombre d'individus : on parlera alors de classe modale.
Attention ! Le mode est la seule mesure centrale qui peut tre releve et utilise aussi bien pour des donnes
qualitatives que quantitatives.
Exemple 1 : en relevant les notes un examen d'une classe de 28 lves, on obtient la srie suivante :
S1 = {9;11;13;5;8;14;6;12;5;10;16;3;12;13;8;13;8;7;13;13;9;17;10;13;6;13;7;14} qui trie devient :
S1 = {3;3;5;5;6;6;7;7;8;8;8;9;9;10;10;11;12;12;13;13;13;13;13;13;14;14;16;17} partir de laquelle on peut dresser le
tableau de frquences et l'histogramme suivants :
Note
Occurrences
(frquences
absolues)
Frquences
relatives (%)
0
1
2
3
4
5
6
7
Notes 13
O
c
c
u
r
r
e
n
c
e
s
Mode
0 0 0,0
1 0 0,0
2 0 0,0
3 2 7,1
5 2 7,1
6 2 7,1
7 2 7,1
8 3 10,7
9 2 7,1
10 2 7,1
11 1 3,6
12 2 7,1
13 6 21,4
14 2 7,1
15 0 0,0
16 1 3,6
17 1 3,6
18 0 0,0
19 0 0,0
20 0 0,0
La note 13 apparat 6 fois. Elle est, avec une frquence relative de (6/28)*100 = 21,4 % la note la plus
reprsente de la distribution. Le mode Mo est donc ici gale 13.
Exemple 2: Examinons les notes obtenues au mme examen par la classe voisine compose de 30 lves:
S2 = {9;11;2;10;5;8;14;6;12;5;10;16;3;12;10;18;7;13;7;7;13;11;9;17;10;7;6;10;7;17} qui une fois trie devient :
S2 = {2;3;5;5;6;6;7;7;7;7;7;8;9;9;10;10;10;10;10;11;11;12;12;13;13;14;16;17;17;18}
On obtient ds lors le tableau de frquences et l'histogramme suivants:
Notes
Occurrences
(frquences absolues)
Frquences
relatives (%)
0 0 0,0
1 0 0,0
2 1 3,3
3 1 3,3
4 0 0,0
5 2 6,7
6 2 6,7
7 5 16,7
8 1 3,3
9 2 6,7
10 5 16,7
11 2 6,7
12 2 6,7
13 2 6,7
14 1 3,3
15 0 0,0
16 1 3,3
17 2 6,7
18 1 3,3
19 0 0,0
20 0 0,0
46
1
2
3
4
5
6
7 10 Notes
Mode 1
Mode 2
O
c
c
u
r
r
e
n
c
e
s
Dans ce cas-ci, deux modalits prsentent les frquences les plus leves : les notes 7 et 10 avec toutes
deux une frquence relative de 16,6 % (5 occurrences chacune). La distribution comporte ici deux modes, Mo
1
= 7
et Mo
2
= 10. On parle alors de distribution bimodale.
Exemple 3: Dans une troisime classe, compose de 24 lves, les notes obtenues au mme examen sont les
suivantes:
S3 = {3;12;16;5;3;7;10;7;16;5;11;13;11;9;13;9;10;12;8;15;15;8;19} qui une fois trie devient :
S3 = {3;3;5;5;7;7;8;8;9;9;10;10;11;11;12;12;13;13;15;15;16;16;19}
On obtient par le fait le tableau de frquences et l'histogramme suivants:
Notes Occurrences
Frquences
relatives (%)
O
c
c
u
r
r
e
n
c
e
s
0
1
2
Notes
0 0 0,0
1 0 0,0
2 0 0,0
3 2 8,7
4 0 0,0
5 2 8,7
6 0 0,0
7 2 8,7
8 2 8,7
9 2 8,7
10 2 8,7
11 2 8,7
12 2 8,7
13 2 8,7
14 0 0,0
15 2 8,7
16 2 8,7
17 0 0,0
18 0 0,0
19 2 4,3
20 0 0,0
Plutt que de parler de distribution multimodale ( plusieurs modes) on parlera davantage ici de distribution a-
modale (sans rel mode). Dans cet exemple, le mode est une mesure non-significative. C'est souvent le cas
lorsque l'on est en prsence d'une distribution contenant peu de rsultats.
Le mode n'est videmment pas suffisant pour caractriser et rsumer une distribution. Il l'est encore moins pour
comparer et diffrencier des distributions. Deux distribution peuvent en effet avoir le mme mode avec
cependant des allures, et donc des caractristiques, totalement diffrentes. On a donc inventer d 'autres
paramtres, d'autres mesures susceptibles de mieux caractriser et/ou diffrencier des distribution. C'est le cas
de la mdiane.
l Exercice 12 : fichier Excel associ Exercice 12 - Mode.xls .
4.1.2 La mdiane
tymologiquement mdiane signifie milieu, et c'est bien de a dont il s'agit car la mdiane est rellement le
milieu d'une distribution. Not Me, la mdiane correspond la valeur de la distribution qui partage l'effectif total
en deux sous-effectifs de mme taille de telle sorte que l'on puisse dire que 50 % des individus d'une population
47
sont caractriss par une valeur suprieure celle de la mdiane et que 50 % des individus de cette mme
population ont une valeur infrieure la mdiane.
Exemple: la mdiane des revenus pour une population donne correspond la valeur du revenu pour
laquelle on a 50 % de ladite population dont le revenu est suprieur cette valeur et 50 % dont le revenu
est infrieur. On parle alors de revenu mdian.
Le revenu mdian par mnage dans le dpartement des Yvelines tait, en 2002, de 34 506 contre 17
640 pour le dpartement de la Creuse.
Attention ! Contrairement au mode, la mdiane est une mesure centrale qui ne peut tre calcule et utilise
que pour des variables quantitatives, continues ou discrtes.
Comment calculer la mdiane ?
Si le mode, pour tre rvl, ne ncessite aucun calcul mais simplement de l 'observation, la mdiane impose
quant elle, un certain nombre de manipulations voire de calcul pour sa mesure.
Reprenons pour ce faire l'exemple relatif aux notes releves lors d'un mme examen dans diffrents classes en
ne retenant que deux sries :
Classe 1
28 lves / notes
Classe 3
23 lves / notes
9
11
13
5
8
14
6
12
5
10
16
3
12
13
8
13
8
7
13
13
9
17
10
13
6
13
7
14
3
12
16
5
3
7
10
7
19
16
5
11
13
11
9
13
9
10
12
8
15
15
8
Quelle est, pour chacune des classes, la note mdiane ?
Pour le calcul de la note mdiane il faut:
1. Classer les valeurs de la srie par ordre croissant. Cette opration a pour but d'affecter un rang chaque
valeur et ainsi de dterminer plus facilement le milieu de la srie donc la mdiane.
48
Rang Classe 1
28 lves /
notes
Rang Classe 3
23 lves /
notes
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
3
5
5
6
6
7
7
8
8
8
9
9
10
10
11
12
12
13
13
13
13
13
13
13
14
14
16
17
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
3
3
5
5
7
7
8
8
9
9
10
10
11
11
12
12
13
13
15
15
16
16
19
2. Dterminer si la srie comporte un nombre n pair ou impair de valeurs. Deux cas peuvent alors se prsenter:
Si n est pair,il n'y a pas possibilit d'identifier simplement la valeur qui partage la population en deux
effectifs gaux. Deux valeurs se situent au centre de la srie et jouent ce rle respectivement de
rang (n/2) et [(n/2)+1]. La mdiane est alors gale la moyenne des valeurs encadrant le milieu
de la srie. C'est le cas dans la srie de notes de la classe 1 compose de 28 valeurs. La mdiane
se situe entre le 14
e
et le 15
e
rang et sa valeur est donc comprise entre 10 et 11. L'application de la
rgle sus mentionne nous donne donc une mdiane Me de (10 + 11)/2 = 10,5
Si n est impair alors il est possible d'identifier simplement la valeur qui partage la population en
deux effectifs gaux. Le rang central tant gal [(n+1)/2]. C'est le cas dans la srie de notes de
la classe 3 compose de 23 valeurs. La mdiane se situe au niveau du 12
e
rang et sa valeur est lue
directement en face de ce 12
e
rang, dans notre Me = 10
49
Rang Classe 1
28 lves /
1
2
3
4
5
6
7
8
9
10
11
12
13
16
17
18
19
20
21
22
23
24
25
26
27
28
14
15
3
5
5
6
6
7
7
8
8
8
9
9
10
10
11
12
12
13
13
13
13
13
13
13
14
14
16
17
Milieu de
la srie
Me = (10+11)/2
=10,5
Valeurs
encadrant
le milieu
Milieu de la srie
Me = 10
Rang Classe 3
23 lves / notes
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
3
3
5
5
7
7
8
8
9
9
10
10
11
11
12
12
13
13
15
15
16
16
19
La mdiane peut galement tre repre graphiquement sur le courbe des frquences cumules comme suit :
Mme si Excel ou d'autres applications disposent de fonctions capables de calculer automatiquement la
mdiane, il est bon de savoir comment ce calcul se fait.
La mdiane de donnes groupes est galement calculable ou plutt estimable par interpolation. La mdiane
est trouver et estimer dans le classe o se situe le rang divisant en deux parties gales la population.
Exemple: en regroupant les valeurs de la srie de notes de la classe 3 en 4 groupes on obtient l'organisation
suivante:
50
Frquences
Frquences
absolues
cumules
0
[de 0 5] 4
4
[de 6 9] 6
10
[de 10 14] 8
18
[de 15 20] 5
23
Frquences
relatives
cumules
0,0 %
17,4 %
43,5 %
78,3 %
100,0 %
12 50,0 %
10 14
10 18
Classe contenant
la mdiane
Interpolation
Effectif 12
2
8
(12-10)/8 = 2/8 = 0,25
4
x/(14-10) = x/4 = 0,25
x = 1 => Me = 10+x = 10+1=11
12
11
Valeur
Pour chaque classe (ou groupe) on connat la frquence absolue ou relative que l'on cumule pour reprer plus
facilement la classe ou le groupe devant contenir la mdiane. Dans notre exemple, la classe contenant la note
mdiane est la classe [de 10 14] car c'est celle qui contient la frquence cumule 50 %. Connaissant n= 23 impair
on sait que la mdiane correspond au rang 12 qui se situe bien dans la classe [de 10 14]. Le rapport des
diffrences effectif mdian (12) borne infrieure de la classe mdiane (10) borne suprieure de la classe
mdiane (18) borne infrieure de la classe mdiane (10) nous donne le rapport appliquer aux valeurs pour
trouver la note mdiane :
(12-10)/(18-10) = 2/8 = 0,25 pour les effectifs. Pour la valeur mdiane, on connat l'amplitude de la classe mdiane
(14-10 = 4). Il nous reste donc trouver la diffrence entre la mdiane (Vm) et la borne infrieure de la classe de
valeurs mdiane (10). Cette diffrence est appele x. A l'aide du rapport (0,25) calcul prcdemment, on peut
crire:
(V
m
10)
(1410)
=0,25
x
4
=0,25x=1
La mdiane Me est donc gale la borne infrieure de la classe mdiane + x soit 10 + 1 = 11
l Exercice 13 : fichier Excel associ Exercice 13 - Mdiane.xls .
4.1.3 La moyenne
La moyenne constitue un autre paramtre de tendance centrale fondamental mais non suffisant pour
caractriser une distribution. Complmentaire du mode et surtout de la mdiane, la moyenne constitue n'en
point douter, la mesure la plus calcule et la plus utilise lors de la description de sries statistiques.
Il existe plusieurs types de moyennes, chacun adapt des situations prcises :
51
Dnomination Notation courante
Moyenne arithmtique

x
Moyenne gomtrique

Gou x
G
Moyenne harmonique

H ou x
H
Moyenne quadratique

Qou x
Q
Moyenne glissante
La moyenne arithmtique :
C'est la plus simple et la communment utilise et ce, pas toujours bon escient. Elle se note la plupart du
temps. Elle peut tre simple ou pondre. Attention ! On ne peut pas calculer de moyenne arithmtique sur des
donnes qualitatives.
La moyenne arithmtique simple
Sa version simple correspond une somme de rsultats divise par le nombre de rsultats et s'crit :

x=
1
n

i=1
n
x
i
=

i=1
n
x
i
n
=
( x
1
+x
2
+x
3
+...+x
i
+...+x
n
)
n
Avec : n=nombrede rsultats( ou nombred ' individus ou effectif total )
x
i
=valeur pour i=1 jusqu' n
Exemple : le loyer moyen dans le parc locatif priv de Besanon au 01/01/2008.
A la suite d'une enqute, on dispose de exactement 1 011 rfrences de loyers reprsentatives ensemble de la
structure du parc. La moyenne arithmtique simple des loyers mensuels au m hors charges s'crit donc :
L=
1
n

i =1
n
L
i
=
1
1011

i =1
1011
L
i
=
( L
1
+L
2
+L
3
+...+L
i
+...+L
1011
)
1011
=
7913,99
1011
=7,83 / m
Le calcul nous donne un loyer mensuel moyen au m hors charges de 7,83 . Cependant, la moyenne simple, dans
son principe de calcul, ne permet de tenir compte de la structure de la population tudie et du poids
ventuellement diffrent que peuvent avoir chacun des individus ou classes d'individus la composant.
La moyenne arithmtique pondre
La moyenne arithmtique pondre, autant le dire tout de suite, donne, dans son utilisation classique (c'est--
dire lorsque tous les individus ont le mme poids), le mme rsultat que la moyenne arithmtique simple. Sa
formule est cependant diffrente puisqu'elle introduit la notion de poids via un terme supplmentaire qui peut
52

x
s'avrer utile dans certaines situations, notamment lorsque justement les individus composant une population
n'ont pas le mme poids ou coefficient : certains individus, pour diverses raisons, ont davantage d'influence
dans ladite population que les autres. Ce peut tre le cas par exemple lorsque l'on a affaire une srie de notes
dont le coefficient n'est pas le mme.
En considrant un ensemble de donnes
X =x
1,
x
2,
x
3,
.. , x
i
, ... , x
n

et une ensemble de poids non ngatifs correspondants :


W=w
1,
w
2,
w
3,
.. , w
i
, ... , w
n

Dans le cas gnral le poids w


i
reprsente l'influence de l'lment x
i
par rapport aux autres. La formule de la
moyenne pondre s'crit alors :

x
p
=

i=1
n
w
i
x
i

i=1
n
w
i
=
w
1
x
1
+w
2
x
2
+w
3
x
3
+...+w
i
x
i
+...+w
n
x
n
w
1
+w
2
+w
3
+...+w
1
+...+w
n
Exemple :
Reprenons l'exemple prcdent pour lequel le calcul de la moyenne arithmtique simple sur l'ensemble des
loyers attribuait par dfaut un poids identique chaque logement.
Or on sait que les loyers surfaciques sont inversement proportionnels la taille des logements (nombre de
pices) et que les petits logements (1 et 2 pices) constituent en gnral une part importante, voire la
majoritaire du parc locatif priv. Dans ces conditions, la non pris en compte de la structure du parc et
l'attribution de poids identiques chaque logement se traduisent systmatiquement par un sous estimation du
loyer moyen.
L'attribution de poids diffrents chaque logement en fonction de son nombre de pices contribuera rtablir
la contribution vraie et relle de chaque logement dans le calcul de la moyenne. Ainsi, dans notre chantillon de
1011 logements, on observe la structure suivante :
Catgories
Poids W
i
par
catgorie
1 pc 0,216
2 pc 0,244
3 pc 0,267
4 pc 0,197
5 pc+ 0,076
Les poids par catgorie correspondent la part de chaque catgorie dans le parc locatif total : titre d'exemple,
les logements de 3 pices reprsentent, dans l'chantillon, 0,267 x 100 = 26,7 % du total des logements.
On attribue alors chaque logement un coefficient pondrateur fonction de sa catgorie d'appartenance. Ainsi,
chaque logement de 1 pice, on attribue le coefficient (ou poids) 0,216, chaque logements compos de 2
pices, le poids 0,244 et ainsi de suite.
53
Il est ds lors possible de calculer la moyenne pondre pour l'ensemble de la distribution. On a :
Le rsultat est au final assez peu diffrent de celui obtenu par la moyenne arithmtique simple car la moyenne
arithmtique simple, vu le nombre important de valeurs et compte tenu de la structure de l'chantillon, tient
compte, de faon presque naturelle, du poids des individus en attribuant implicitement chaque individus le
poids de sa catgorie.
On peut galement utiliser la moyenne pondre pour corriger et rectifier les biais et erreurs accumuls au
cours de l'enqute et qui font que l'chantillon n'est au final plus tout fait reprsentatif de la population mre,
dans notre exemple du point de la structure du parc. En effet, lors de la fabrication de l'chantillon ou l'issue
du sondage, il se peut que certaines modalits soient sur- ou sous-reprsentes pour diffrentes raisons, au quel
cas l'utilisation d'une moyenne arithmtique pondre avec les poids tels que relevs dans l'chantillon biaisera
invitablement le rsultat final. La connaissance de la structure de la population mre, rend alors possible
l'introduction de nouveaux poids issus de la population mre qui, appliqus aux donnes collectes, viendront
corriger le biais rsident de l'chantillon en permettant le calcul d'une moyenne moins fausse .
chantillon Population mre
Statut
Catgories Poids initiaux
W
i
par catgorie
Poids corrigs
W'
i
par catgorie
1 pc 0,216 0,256 sous -reprsente
2 pc 0,244 0,272 sous -reprsente
3 pc 0,267 0,227 sur -reprsente
4 pc 0,197 0,172 sur -reprsente
5 pc+ 0,076 0,073 sur -reprsente
Dans notre exemple, on observe que la structure de l'chantillon diffre sensiblement de la structure de la
population mre. Certaines catgorie sont sur-reprsentes, comme par exemple les logements de 3 et 4 pices,
alors que d'autres sont sous-reprsentes, comme celles des logements de petite taille (1 et 2 pices). Le calcul
d'une moyenne partir des donnes et poids du seul chantillon introduira un biais li aux sur-reprsentations
et aux sous-reprsentations voques en tirant la moyenne vers le bas, la catgorie des logements de taille
moyenne (3 et 4 pices) proposant en gnral des loyers surfaciques moins levs que la catgorie sous-
reprsente des petits logements (1 et 2 pices). En affectant aux individus de l'chantillon les poids relevs
dans la population mre, on corrige en quelque sorte le biais de l'chantillon en donnant davantage de poids aux
petits logements et en minorant celui des logements sur-reprsents (3 et 4 pices).
Appliqus notre exemple ces nouveaux poids aboutissent au rsultat suivant :
O w'
i
reprsente les poids corrigs.
54

x
p
=

i=1
n
w
i
x
i

i=1
n
w
i
=
1 769,34
224,42
=7,88 / m

x
p
=

i=1
n
w'
i
x
i

i=1
n
w'
i
=
1 812,54
224,06
=8,09 / m
Nous obtenons ici un loyer moyen sensiblement diffrent de ceux calculs prcdemment. Le rtablissement
des contributions respectives vrais des diffrents catgories de logements et l'attribution de poids corrigs plus
importants aux petits logements ont permis de faire disparatre le sous estimation inhrente l'chantillon.
La moyenne arithmtique de donnes groupes
Autant que faire se peut, ce type de calcul est viter car source d'imprcision et d'erreur trop importantes.
Cependant, on peut tre confronter une situation o seules des donnes groupes sont disponibles. Dans ce
cas, et seulement dans celui-l, on peut tre autoris calculer une moyenne partir de classes. On agit alors
comme si tous les rsultats d'une classe se trouvaient au centre de celle-ci. La moyenne de la distribution est
alors calcule partir des valeurs centrales des classes pondres par leurs effectifs respectifs.
Exemple :
Classe Borne
infrieure
Borne
suprieure
Centre de
classe
Frquence
absolue
fX
1 2,50 5,00 3,75 67 67 x 3,75 = 251,25
2 5,01 7,50 6,25 461 461 x 6,25 = 2 881,25
3 7,51 10,00 8,75 326 326 x 8,75 = 2 852,68
4 10,01 12,50 11,25 116 116 x 11,25 = 1 305,06
5 12,51 26,50 19,50 41 41 x 19,50 = 799,50
1011 8090
l Exercice 14 : fichier Excel associ Exercice 14 - Moyenne arithmtique.xls .
La moyenne gomtrique :
Sa dfinition purement mathmatique est un peu rbarbative mais son utilit est grande comme nous allons le
dmontrer.
La moyenne gomtrique de n valeurs positives xi est la racine n
ime
du produit de ces valeurs. Note

Gou x
G
, elle s'crit :

G=
n
.

i =1
n
x
i
=
n
.
x
1
x
2
x
3
...x
i
...x
n
La moyenne gomtrique est un instrument permettant de calculer des taux moyens, notamment des taux
moyens annuels. Son utilisation na un sens que si les valeurs ont un caractre multiplicatif.
55

x=
8 090
1 011
=8,00 /m
Exemple : Les prix de l'immobilier ancien ont augment ces 10 dernires annes de la faon suivante :
Anne Variation
annuelle (%)
1
2
3
4
5
6
7
8
9
10
9,2
12,7
8,8
7,7
3,9
1,7
0,9
2,2
4,7
3,3
En utilisant la moyenne arithmtique simple, on obtiendrait une volution moyenne de (13,8 + 12,7 + 12,8 + 11,2 +
7,7) / 5 = 55,1 / 10 = 5,51 % mais ce rsultat est faux compte tenu de la relation entretenue par les taux d'une anne
sur l'autre.
L'utilisation de la moyenne gomtrique permet de solutionner ce problme :

G=
5
.9,212,78,87,73,91,70,92,22,24,73,3

G=
5
.1611964,46=1611964,46
(
1
5
)
=4,18
Soit une hausse moyenne annuelle de 4,18 % contre 5,51 % avec la moyenne arithmtique.
l Exercice 15 : fichier Excel associ Exercice 15 - Moyenne gomtrique.xls .
La moyenne harmonique :
On utilise la moyenne harmonique lorsquon veut dterminer un rapport moyen dans des domaines ou ils
existent des liens de proportionnalit inverse.
Exemples:
Pour une distance donne, le temps de trajet est dautant plus court que la vitesse est leve.
Un loyer dans le parc priv est d'autant plus lev que la taille ou la surface du logement est petite.
La moyenne harmonique de N valeurs est le nombre dont l'inverse est la moyenne arithmtique des inverses
desdites valeurs. C'est un peu compliqu comme dfinition ! Voil ce que a donne sous une forme
mathmatique :
H=
n

i=1
n
1
x
i
=
n
1
x
1
+
1
x
2
+...+
1
x
i
+...+
1
x
n
La moyenne harmonique permet de calculer des moyennes sur des fractions si le dnominateur change. C'est le
cas du calcul de la vitesse moyenne parcourue dans un trajet aller/retour, la vitesse tant la valeur reprsente
par distance / temps.
56
Exemple :
Dans un parc locatif priv, 3 logements ont respectivement un loyer surfacique de:
L1 = loyers surfacique Logement A : 7,49 /m pour 67 m
L2 = loyers surfacique Logement B : 11,43 /m pour 28 m
L3 = loyers surfacique Logement C : 6,18 /m pour 97 m
La moyenne arithmtique des loyers donne:
x=
1
n

i=1
n
x
i
=
1
3

i=1
3
L
i
=
( 7,49+11,43+6,18)
3
=
25,1
3
=8,37 / m
La relation d'inverse proportionnalit qui existe entre surface des logements et loyer surfacique nous incite
utiliser la moyenne harmonique pour le calcul du loyer moyen. Pour cela il faut tenir compte du fait que la
logement C est 3 fois plus grand que le logement B
La moyenne quadratique :
Une moyenne qui trouve des applications lorsque l'on a affaire des phnomne prsentant un caractre
sinusodal avec alternance de valeurs positives et de valeurs ngatives. Elle est, de ce fait, trs utilise en
lectricit. Elle permet notamment de calculer la grandeur d'un ensemble de nombre. A titre d'information, elle
s'crit :
Prenons un rapide exemple : considrons les nombre suivants {-2, 5, -8, 9, -4 }
Nous pouvons en calculer la moyenne arithmtique avec l'inconvnient de voir se neutraliser les valeurs
positives et ngatives et d'aboutir un rsultat nul sans que cela ne nous apprenne quoi que ce soit. En effet,
x=0
Le calcul de la moyenne quadratique pour la mme srie donne 6,16
La moyenne glissante ou moyenne mobile
La moyenne glissante, ou moyenne mobile trouve son application dans l'analyse des sries temporelles de
donnes en permettant la suppression des fluctuations de faon en souligner les tendances sur le long terme.
Cette moyenne est dite mobile parce qu'elle est recalcule de faon perptuelle, ds lors qu'une nouvelle
donne intgre la srie en venant remplacer la plus ancienne, modifiant ainsi la date de rfrence. Cette faon
de faire tend lisser le phnomne tudi en noyant les valeurs extrmes dans une masse de donnes
davantage reprsentative d'une tendance moyenne.
Exemple : on dispose de donnes mensuelles concernant l'volution des prix la consommation (inflation) et on
souhaite connatre pour chaque mois l'volution mensuelle moyenne des prix sur un trimestre.
57

Q=
.
1
n

i=1
n
x
i
2
Janv
08
Fev
08
Mars
08
Avr
08
Mai
0 8
Juin
08
Juil
08
Aout
08
Sept
08
Oct
08
Nov
08
Dec
08
Janv
09
Fev
09
mars
09
Avr
09
Mai
09
Evol% prix 0,3 0,4 0,6 0,9 0,5 0,2 -0,1 -0,3 0 0,1 0,4 0,5 0,4 0,3 0,5 0,7 0,6
Moy. glissante
par trimestre
- - 0,43 0,63 0,66 0,53 0,20 -0,07 -0,13 -0,07 0,17 0,33 0,43 0,40 0,40 0,50 0,60
La moyenne trimestrielle glissante calcule pour chaque mois tient compte tient de la valeur du mois de
rfrence et des valeurs des 2 mois prcdents. Ainsi, la moyenne trimestrielle calcule au mois de rfrence
Juillet 2008 donnera donc : (-0,1 + 0,2 + 0,5) / 3 = 0,6 / 3 = 0,20. Celle du mois d'Aot 2008 donnera (-0,3 + (-0,1) +
0,2) / 3 = -0,2 / 3 = -0,07. Remarque : on ne peut calculer la moyenne glissante pour les deux premiers mois de la
srie.
D'une faon gnrale, la moyenne glissante s'crit :
O N reprsente le nombre de valeurs successives prendre en
compte. Dans notre exemple N = 3
x
n
reprsente la valeur de rfrence. Dans notre exemple x
n
soit x
3
et correspond la valeur du mois de Juillet 2008 soit -0,1.
k reprsente le rang. Dans notre exemple, k = 0 pour juillet 2008
(rfrence), k = 1 pour Juin 2008, etc.
Dans notre exemple cela nous donne :
Relation entre les diffrentes moyennes
D'une faon gnrale, pour une mme distribution, les rsultats obtenus par les diffrentes moyennes dcrites
s'organisent de la faon suivante :
Moyenne Harmonique Moyenne Gomtrique Moyenne Arithmtique Moyenne Quadratique
58

x
n
=
1
N

k =0
N1
x
nk

x
n
=
1
3

k=0
2
x
3k
=
1
3
( x
30
+x
31
+x
32
)=
x
3
+x
2
+x
1
3
=
0,1+0,2+0,5
3
=
0,6
3
=0,20
4.2 Les paramtres de dispersion
Pour caractriser et rsumer une distribution il est ncessaire de fournir deux mesures : une refltant le centre
de la distribution (mesures de tendance centrale) et une autre renseignant sur la dispersion ou l'parpillement
des donnes autour notamment des paramtres de tendance centrale.
Nous tudierons quatre paramtres de dispersion parmi les principaux en mettant plus particulirement l'accent
sur la variance et l'cart-type :
Minimum, maximum, tendue et rapport de variation
L'intervalle interquartile
La variance
L'cart-type
4.2.1 Minimum, maximum, tendue et rapport de variation d'une distribution
Minimum et maximum d'une srie statistique correspondent respectivement et comme leur nom
l'indique la valeur minimale et la valeur maximale rencontres dans ladite srie. Ces deux
paramtres ont une triple utilit: ils permettent,
1. de calculer l'tendue de la distribution, galement appele intervalle de
variation (IV), c'est--dire l'cart entre le minimum et le maximum. La
connaissance de ce paramtre est indispensable toute opration de
discrtisation. Il permet galement, pour une mme variable, de comparer
plusieurs distributions
IV =MaxMin
2. de calculer le rapport de variation (V) , c'est--dire le rapport de la valeur maximale de
la distribution la valeur minimale de la mme distribution. Utile galement lorsque l'on
souhaite comparer, pour une mme variable, diffrentes distribution entre elles.
RV=
V
max
V
min
3. de connatre les limites d'une distribution en vue de son ventuelle discrtisation
Exemple: les notes d'lves de deux classes au mme examen.
Classe 1
28 lves / notes
Classe 3
23 lves / notes
9
11
13
5
8
14
6
12
5
10
16
3
12
13
8
13
8
7
13
13
9
17
10
13
6
13
7
14
3
12
16
5
3
7
10
7
19
16
5
11
13
11
9
13
9
10
12
8
15
15
8
59
Classe 1 Classe 3
Minimum 3 3
Maximum 17 19
tendue (17 3) = 14 (19 3) = 16
Rapport de
variation
17/3 = 5,7 19/3 = 6,3
Le rapport de variation nous apprend que dans la classe 1 la meilleure est 5,7 fois plus leve que la note la plus
faible. Ce rapport est plus important dans la classe 3 pour laquelle il est 6,3.
4.2.2 Intervalle interquartile
tendue et rapport de variation ne renseignent que de faon imprcise voire trompeuse sur la dispersion des
valeurs dans une distribution compte tenu notamment de la prsence frquente de valeurs extrmes
exceptionnelles, alors que le reste de la population demeure concentr sur une intervalle beaucoup plus
restreint. Souvent peu nombreuses, ces valeurs extrmes peuvent pourtant perturber de faon importante
l'apprciation que l'on peut se faire des caractristiques d'une distribution.
Pour s'en rendre compte, il suffit d'examiner l'exemple qui suit:
Exemple:
Nous disposons de l'ensemble des informations relatives aux transactions immobilires titre onreux dans
l'ancien pour les maisons individuelles sur le dpartement du Doubs pour l'anne 2003. On cherche tudier et
rsumer la distribution (env. 2 300 valeurs) afin d'en extraire les principales informations de prix en vue d'une
prsentation des lus. On calcule donc les paramtres de tendance centrale et de dispersion connus jusqu' ce
stade de la prsentation et on obtient :
Distribution brute
Mesures de tendance centrale
Mdiane 117 427,50
Moyenne 122 164,57
Mesures de dispersion
Minimum 3 811,00
Maximum 1 100 194,00
tendue (Intervalle de variation) 1 096 383,00
Rapport de variation 288,7
Intervalle et rapport de variation sont trs importants tant les individus qui composent la population tudie
diffrent des uns des autres pour le caractre apprhend (prix). Par contre, mdiane et moyenne ne sont que
trs peu perturbes pas les valeurs extrmes certes exceptionnelles par leur grandeur mais trop peu
nombreuses au regard de la masse des valeurs dites dans la norme (voir histogramme). Preuve en est: si on
retire ces valeurs extrmes, moyenne et mdiane ne bougent que trs peu. A contrario, tendue et rapport de
variation s'en trouve considrablement amoindris:
60
Distribution sans valeurs extrmes
Mesures de tendance centrale
Mdiane 117 400,00
Moyenne 120 613,16
Mesures de dispersion
Minimum 4 600,00
Maximum 346 700,00
tendue (Intervalle de variation) 342 100,00
Rapport de variation 75,37
La ncessit se fait donc d'utiliser d'autres mesures de dispersion plus mme de prendre en compte de faon
plus prcise la dispersion d'une distribution comme par exemple l'intervalle interquartile. Auparavant il convient
cependant de dfinir les quartiles.
4.2.3 Les quartiles, dciles et centiles

Dans une distribution dont les individus ont t au pralable tris par ordre croissant, les quartiles
correspondent aux trois valeurs qui partagent une population en quatre sous-ensembles de mme taille, c'est--
dire d'effectifs gaux. Par convention, les quartiles sont respectivement par Q1, Q2 et Q3 de telle sorte que l'on
peut crire pour chacun d'eux :
Quartile 1 ou Q1 25 % des effectifs de la population ont une valeur infrieur Q1 et 75 %
une valeur suprieur. Dans une distribution relative au revenu des
mnages par exemple, Q1 marque la limite entre les mnages les 25%
les plus modestes et les 75% les plus aiss
61
0
20
40
60
80
100
120
140
160
Frquences absolues
0 100 000 200 000 300 000 400 000 500 000 600 000 700 000 800 000 900 000 1 000 000 1 100 000
Valeurs extrmes exceptionnelles
x
Prix ()
Quartile 2 ou Q2 50 % des effectifs de la population ont une valeur infrieur Q1 et 50 %
une valeur suprieur. Q2 correspond la mdiane.
Quartile 3 ou Q13 75 % des effectifs de la population ont une valeur infrieur Q1 et 25 %
une valeur suprieur. Dans une distribution relative au revenu des
mnages par exemple, Q3 marque la limite entre les mnages les 25%
les plus riches et les 75% restant de la population.
Les quartiles se dterminent de la mme faon que la mdiane et ncessitent, comme pour cette dernire, que
les valeurs de la distribution aient t au pralable classes par ordre croissant. Il suffit alors de cumuler les
frquences (absolues ou relatives) et de se positionner l'endroit o rsident les seuils Q1 = 25%, Q2 = 50 % et Q3
= 75 % et de lire les valeurs correspondantes de la distribution.
De faon visuelle et approximative, il est toujours possible d'utiliser, aprs l'avoir trace, la courbe
des frquences cumules comme suit :
A noter qu'avec Microsoft Excel ainsi qu'avec OpenOffice Calc il est possible de dterminer automatiquement
les quartiles d'une distribution (Fonction QUARTILE dans les deux cas).
62
0,00
0,10
0,20
0,30
0,40
0,60
0,70
0,80
0,90
1,00
0 200 300 400 500 600 700 800 900 1 000 1 100
Q3 = 0,75
Q2 = 0,50
Q1 = 0,25
80 117 155
Prix (K)
F
r

q
u
e
n
c
e
s

r
e
l
a
t
i
v
e
s

c
u
m
u
l

e
s
De la mme manire, et dans le but de prciser et d'affiner encore l'analyse de la dispersion d'une distribution,
on peut faire appel aux notions de dciles et de centiles. Le principe demeure le mme que pour les quartiles la
diffrence que la population est ici divise respectivement en 10 et 100 sous-populations d'gal effectifs:
Dcile 1 ou D1 10 % des effectifs de la population ont une valeur infrieur
D1 et 90 % une valeur suprieure.
Dcile 2 ou D2 20 % des effectifs de la population ont une valeur infrieur
D2 et 80 % une valeur suprieure.
Dcile 3 ou D3 30 % des effectifs de la population ont une valeur infrieur
D3 et 70 % une valeur suprieure.
Dcile 4 ou D4 40 % des effectifs de la population ont une valeur infrieur
D4 et 60 % une valeur suprieure.
Dcile 5 ou D5 50 % des effectifs de la population ont une valeur infrieur
Q1 et 50 % une valeur suprieure. D5 correspond la
mdiane.
Dcile 6 ou D6 60 % des effectifs de la population ont une valeur infrieur
D6 et 40 % une valeur suprieure.
Dcile 7 ou D7 70 % des effectifs de la population ont une valeur infrieur
D7 et 30 % une valeur suprieure.
Dcile 8 ou D8 80 % des effectifs de la population ont une valeur infrieur
D8 et 20 % une valeur suprieure.
Dcile 9 ou D9 90 % des effectifs de la population ont une valeur infrieur
D9 et 10 % une valeur suprieure.
Grce aux quartiles (comme aux dciles) il devient possible d'amliorer la description et l'analyse de la
dispersion d'une distribution et de comparer de faon plus sre et plus pertinente deux distributions entre elles
ou bien encore la distribution d'une mme population deux dates diffrentes pour une mme variable, en
rappelant que la mesure de dispersion qui nous intresse n'est pas ncessairement le quartile (qui n'est pas une
mesure de dispersion) mais l 'intervalle interquartile , c'est dire la diffrence entre le troisime quartile (Q3) et
le premier quartile (Q1).
Not I
2
Q il s'crit : I
2
Q=Q
3
Q
1
L'intervalle interquartile contient toujours 50 % de la distribution. Plus il est large, plus la distribution est
disperse. Afin d'illustration, reprenons l'exemple prcdent relatif aux prix des logements lors de transactions
immobilires sur maisons individuelles dans le dpartement du Doubs en 2003 et ajoutons l'anne 2005 :
2003 2005
Moyenne 122 165 154 220
Minimum 3 811 2 300
Maximum 1 100 194 800 000
tendue (Intervalle de variation) 1 096 383 797 700
Rapport de variation 288,7 347,8
Q1 80 036 106 770
Q2 (mdiane) 117 427 150 000
Q3 155 498 190 560
I
2
Q
75 462 83 790
Graphiquement, cela donne :
63
Un certains nombre d'observations et de conclusions peuvent d'ores et dj tre tires partir des mesures
effectues et des graphiques tablies qui permettent de dcrire et de rsumer un phnomne et sa distribution
(rappelons qu'au dpart nous avions une srie de prs de 3 000 valeurs) :
En 2003, 50 % des biens vendus avaient une valeur de march infrieure 117 000 (et de faon
corollaire 50 % des biens vendus l'ont t un pris suprieur 117 000 ).
En 2005, pour le mme prix, 30 % des biens vendus avaient un prix infrieur et 70 % un prix
suprieur: les prix ont mont. Le seuil de 50 % (mdiane) est rendu 150 000 en 2005 soit plus
lev de 28,2 %. Sur les deux annes, la moyenne passe de 122 165 154 220 soit une progression de
26,2 % moins importante que la mdiane : de ce constat on peut en dduire que la dispersion des
valeurs s'est aggrave ce que confirme l'intervalle interquartile calcul sur les deux dates
Malgr l'amlioration de la description et de la distribution et de la variable associe, il n'est cependant pas
encore possible de dcrire sans ambigut celle-ci et surtout de mesurer avec prcision la dispersion des valeurs
la composant. Alors que l'tendue (ou intervalle de variation) dpend uniquement des valeurs extrmes, que
l'intervalle interquartile dpend de 50 % des donnes situes au milieu de la distribution, il nous faut introduire
un nouveau et ultime paramtre qui dpendra de tous les rsultats. Cette mesure devra avoir la proprit d'tre
petite lorsque les valeurs seront proches les unes des autres, et grande lorsque ces mmes valeurs seront trs
parpilles. Cette mesure existe, elle se nomme cart-type.
l Exercice 16 : fichier Excel associ Exercice 16 - Quartiles et I2Q.xls .
64
4.2.4 Variance et cart-type et variance de donnes non groupes
Considrons une distribution pour laquelle on a calcul les paramtres de tendance centrale comme la mdiane
et la moyenne. Comme leurs noms l'indiquent, et comme mentionn plus haut, ces mesures caractrisent le
centre de la distribution. Parmi celles-ci, considrons la moyenne comme une rfrence.
Que penser alors de l'cart entre chaque valeur de la distribution et cette moyenne ?
Plus cet cart sera faible, plus la valeur xi sera proche de la moyenne et donc du centre de la distribution. A
contrario, plus l'cart sera important et plus xi sera loigne du centre de la distribution. La prise en compte de
la somme l'ensemble des carts la moyenne, c'est--dire de la somme de tous les carts entre les xi et la
moyenne donne logiquement 0, la moyenne tant au centre de la distribution:
Si l'on veut tenir compte de l'ensemble des distances la moyenne sans ptir d'une somme nulle rsultat de la
compensation entre carts ngatifs et carts positifs, il est ncessaire d'lever au carr
2
chaque cart de telle
sorte que l'on est :
Que penser ensuite de la moyenne calcule de ces carts levs au carr ?

Ce paramtre crit
S
2
ou
c
2
c'est la variance, notion fondamentale en statistique. La variance satisfait
toutes les exigences nonces plus haut relativement la mesure de la dispersion d'une distribution. La variance
pose toutefois le problme de proposer un rsultat en unit leve au carr. Si les donnes xi sont en euros, la
moyenne sera en euros, de mme que l'cart ( x
i
x) alors que la variance sera en euros carrs.
Pour revenir l'unit initiale il faut extraire la racine carre de la variance ou cart-type. Ce dernier s'crit :
2 Tout nombre, positif ou ngatif, devient positif lorsqu'il est lev au carr On prfrera l'utilisation des puissances plutt que les valeurs
absolues, les premires se prtant mieux au calcul algbrique que les secondes.
65
( x
i

x)
S
2
=c
2
=
1
n

i=1
n
( x
i

x)
2
=

i =1
n
( x
i

x)
2
n

i=1
n
( x
i

x)=0

i=1
n
( x
i

x)
2
0
Exemple :
Individu Intitul Revenu
moyen (/an)
( x
i

x)
( x
i
x)
2
x
1
BE - Belgique 19 129
4 166,52 17 359 888,9
x
2
CZ Rp. Tchque 6 139
-8 823,48 77 853 799,3
x
3
DK - Danemark 25 113
10 150,52 103 033 056,3
x
4
DE - Allemagne 20 208
5 245,52 27 515 480,1
x
5
EE - Estonie 5 304
-9 658,48 93 286 235,9
x
6
IE - Irlande 26 043
11 080,52 122 777 923,5
x
7
GR - Grce 12 126
-2 836,48 8 045 618,8
x
8
ES - Espagne 13 613
-1 349,48 1 821 096,3
x
9
FR - France 18 481
3 518,52 12 379 983,0
x
10
IT - Italie 17 213
2 250,52 5 064 840,3
x
11
CY - Chypre 18 500
3 537,52 12 514 047,7
x
12
LV - Lettonie 4 086
-10 876,48 118 297 817,2
x
13
LT - Lituanie 3 939
-11 023,48 121 517 111,3
x
14
LU - Luxembourg 3 4213
19 250,52 370 582 520,3
x
15
HU - Hongrie 4 377
-10 585,48 112 052 386,8
x
16
MT - Malte 9 954
-5 008,48 25 084 871,9
x
17
NL - Pays-Bas 20 753
5 790,52 33 530 121,9
x
18
AT - Autriche 20 399
5 436,52 29 555 749,7
x
19
PL - Pologne 4 149
-10 813,48 116 931 349,7
x
20
PT - Portugal 9 918
-5 044,48 25 446 778,5
x
21
SI - Slovnie 10 719
-4 243,48 18 007 122,5
x
22
SK - Slovaquie 4 376
-10 586,48 112 073 558,8
x
23
FI - Finlande 20 787
5 824,52 33 925 033,2
x
24
SE - Sude 19 898
4 935,52 24 359 357,7
x
25
UK - Royaume-Uni 24 625
9 662,52 93 364 292,75
2
374 062
0,00 1 716 380 042,2
Avec :
x=14962,48

i =1
n
( x
i

x)=0

i =1
n
( x
i

x)
2
=1 716 380 042,2
66
c=.c
2
=
.

i=1
n
( x
i
x)
2
n
c
2
=

i =1
n
( x
i

x)
2
n
=
1 716 380042,2
25
=68 655 201,7
D'o
c=.c
2
=.68655201,7=8 285,8
On mesure une dispersion leve lie aux fortes diffrences de richesse entre pays de l'Union Europenne. Si
l'on effectue le mme travail sur le pays membre de l'union avant 2000, on obtient un cart-type rduit
quasiment de moiti de 5 786,8 ---> ensemble plus homogne de pays, dispersion moins grande. L'arrive de
nouveaux pays de l'Est plus pauvres a fait chuter la moyenne et augmenter l'cart-type.
Proprits et utilit de l'cart-type :
Son unit est celle de la variable laquelle il se rapporte. Si la variable tudie est exprime en euro (), l'unit
de l'cart-type sera l'euro.
Un cart-type faible signifie que les valeurs sont relativement concentres autour de la moyenne et que la
population regroupe des individus aux caractristiques relativement homogne.
A contrario, un cart-type lev est rvlateur de valeurs trs disperses autour de la moyenne et d'une
population htrogne.
L'cart-type peut servir de bornes pour dlimiter une partie de la population, celle la plus proche des
tendances centrales et donc la plus reprsentative du phnomne tudi et la plus pertinente son
interprtation, ou bien celle la plus loigne. En prenant comme point de rfrence la moyenne d'une
distribution et en considrant l'cart-type comme une unit de distance cette moyenne, et de part et d'autre
de celle-ci, il devient possible de mesurer la proportion de la population (ou le nombre d'individus) compris
entre les limites ainsi dfinies qui s'crivent :
| xc ; x+c Contient tous les individus dont le caractre (la valeur) est comprise
entre la moyenne une fois cart-type et la moyenne + une fois
l'cart-type.
| x1,5c ; x+1,5c
Contient tous les individus dont le caractre (la valeur) est comprise
entre la moyenne 1,5 fois cart-type et la moyenne + 1,5 l'cart-
type.
| x2c ; x+2 c
Contient tous les individus dont le caractre (la valeur) est comprise
entre la moyenne deux fois cart-type et la moyenne + deux fois
l'cart-type.
| xac ; x+ac Contient tous les individus dont le caractre (la valeur) est comprise
entre la moyenne a fois cart-type et la moyenne + a fois l'cart-
type.
Dans les conditions statistiques idales c'est--dire celle d'une population parfaitement bien distribue autour
des paramtres centraux, on sait que :
| xc ; x+c Contient 68,3 % de l'ensemble des individus de la distribution.
| x2c ; x+2 c
Contient 95,5 % de l'ensemble des individus de la distribution.
| x3c ; x+3c
Contient 99,7 % de l'ensemble des individus de la distribution.
67
Il est d'usage assez frquent de considrer ces intervalles comme un moyen simple et efficace d'liminer les
valeurs extrmes d'une distribution avant traitement et analyse statistique. Ce sujet sera abord plus avant.
Dans l'exemple prcdent, l'intervalle | xc ; x+c correspond l'intervalle de valeurs [14 962,5 8
285,8 ; 14 962,5 + 8 285,8] = [6 676,7 ; 23 248,3] et contient 14 units statistiques soit 56 % de la distribution. Un
chiffre bien en-dessous de ce que promet la distribution idale voque. L'analyse de l'histogramme de la
distribution permet d'lucider le mystre:
La structure bimodale et la forte dispersion des valeurs autour de la moyenne explique tout ou partie de la
faible proportion d'individus compris dans ce premier intervalle. L'extension de l'intervalle 1,5 de part et
d'autre de la moyenne permet d'accrotre la proportion de la population 92 %. Cette dernire atteint 96 %
lorsque les limites de l'intervalle sont repousses 2 .
68
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
x
1 s 2 s 3 s 1 s 2 s 3 s
x - 1s x + 1s
x - 2 s x + 2s
x + 3s x - 3 s
68,3 %
95,5 %
99,7 %
0
1
2
3
4
5
6
7
8
3 939 8939 13 939 18939 23 939 28939 33 939
cart-type et variance de donnes groupes
De la mme faon, il est possible, en respectant certaines rgles, de calculer la variance et l'cart-type pour des
donnes groupes, c'est--dire ayant fait l'objet d'une discrtisation.
Comme ce fut le cas pour le calcul de la moyenne de donnes groupes, il faut prendre en compte le centre de
chaque classe et considrer que les individus d'une mme classe ont tous la mme valeur, celle du centre de leur
classe.
Exemple : Trouver la variance et l'cart-type de la distribution suivante:
Classes Frquence
absolue (f
i
)
Centre de classe
(x
i
)
( f
i
x
i
) ( x
i
x)
( x
i

x)
2
f
i
( x
i

x)
2
[4 ; 6] 2 (6 + 4)/2 = 5 10 - 3,3 10,89 21,78
[7 ; 9] 5 (9 + 7)/2 = 8 40 - 0,3 0,09 0,45
[10 ; 12] 3 (12 + 10)/2 = 11 33 2,7 7,29 21,87

10 83 - 0,9 44,10

Cette distribution aura la mme variance et le mme cart-type que la srie {5; 5; 8; 8; 8; 8; 8; 11; 11; 11}.
et
Quelques remarques :
Contrairement au cas continue (donnes non groupes),
( x
i
x)0 . Cela est li au fait que l'on ne
travaille pas sur des valeurs justes mais sur des centres de classes. Dans ce cas, la compensation n'est pas
automatique, d'o l'ingalit.
Dans la formule de calcul de la variance (et indirectement dans celle de l'cart-type), n est remplac par (n-
1). Cette substitution est courante lorsqu'il s'agit non pas de calculer srement variance et cart-type comme
on peut le faire dans le cas d'une population l'effectif connu et complet, mais lorsque l'on travaille sur un
chantillon ou une population aux caractristiques tronque comme c'est le cas quand il y a eu discrtisation.
On est alors amen estimer la variance ou l'cart-type plutt que de les calculer. Si n est le dnominateur de
la variance d'un chantillon, l'estimation sera trop faible. En changeant n par (n-1) au dnominateur, la
fraction augmente juste assez pour que la variance de l'chantillon devienne une bonne estimation de la
variance de la population.
l Exercice 17 : fichier Excel associ Exercice 17 - Ecart-type.xls .
4.2.5 Le coefficient de variation
L'cart-type, malgr sa pertinence dans la mesure de la dispersion d'une distribution, possde un inconvnient
majeur: il est exprim dans l'unit de la variable laquelle il se rapporte. Il est alors impossible de comparer les
dispersions de deux ou davantage distributions ayant un lien entre elles (lien de causalit ou autre) et dont les
valeurs s'expriment dans des units diffrentes.
Le coefficient de variation est une mesure de dispersion des observations d'une variable quantitative d'intervalle
qui permet de s'affranchir de la notion d'unit et ainsi de comparer la dispersion de diffrentes distributions.
69

x=
83
10
=8,3
c
2
=

f
i
( x
i
x)
2
n1
=
44,10
9
=4,90 c=.c
2
=.4,90=2,2
C'est une mesure neutre qui s'exprime la plupart du temps en pourcentage. Il se calcule en divisant l'cart-type
par la moyenne et s'crit donc :
Coefficient de variation :
C
v
=
c
x
Plus grand est le coefficient de variation, plus grande est la dispersion.
Exemple : considrons la surface des logements dits de petite taille (1 3 pices) celle des logements dits de
grande taille (4 pices et plus).
Pour le groupe de logements de 1, 2 et 3 pices nous obtenons :
x=56,6m
2
c=12,4m
2
Pour le groupe de logements dits rcents nous obtenons :
x=81,5m
2
c=13,2m
2
A premire vue, et en examinant seulement les carts types, on pourrait conclure que la dispersion de la surface
des logements de grande taille est plus leve que celle des petits logements. Le calcul des coefficients de
variation respectifs montre qu'il n'en est rien :
Pour les petits logements
C
v
=0,219( 21,9%)
Pour les grands logements
C
v
=0,162(16,2 %)
On note que le coefficient de variation des logements de petite taille est plus lev que celui des logements de
grande taille. Contrairement ce que laissait penser les cart-type calculs, la dispersion pour le groupe des
petits logements est plus leve que celle des grands logements.
70
Chapitre 5
5. Sries chronologiques : progression et indices
L'utilisation et l'analyse de sries chronologiques, c'est--dire de sries qui figurent l'volution d'une variable
statistique au cours du temps, s'appuient sur deux outils principaux : d'une part la progression et d'autre
l'indice. Ces deux outils mesurent les variations d'une variable entre deux dates ou plus selon un pas de temps
rgulier ou non.
5.1 Progression
La progression mesure le sens et l'intensit du changement intervenu sur une variable numrique V diffrents
temps t. Au temps t la variable s'crit par convention V
t
(V indice t). Lorsque t = 0 la variable s'crit V
0
, quand
t = 1 elle s'crit V
1
, lorsque t = n on a V
n
. A chaque temps t la variable V est caractrise par une valeur
diffrente.
Exemple : considrons la population de la France diffrentes dates ,comme suit :
t
Date Population
0 1876
V
1
= 38 437 592
1 1901
V
2
= 40 681 415
2 1921
V
3
= 39 209 518
3 1946
V
4
= 40 506 639
4 1962
V
5
= 46 243 173
5 1982
V
6
= 54 334 871
6 1999
V
7
= 58 518 395
7 2007
V
8
= 62 106 000
Ds lors, plusieurs mesures de progression peuvent tre appliques afin de caractriser la variation de la variable
population .
5.1.1 La variation absolue
La variation absolue correspond la diffrence de valeurs de la variable V entre deux dates, deux temps t. Elle
s'crit :
Variation absolue :
AV=V
t
V
0
Reprenons notre exemple relatif la population de la France travers le temps. La variation absolue de
population entre 1901 et 1946 s'crit :
V
0
= Population quand t = 0, c'est--dire la date de dpart, ici 1901 = 40 681 415
V
1
= Population quand t = 1, c'est--dire la date d'arrive, ici 1946 = 40 506 639
71
La variation absolue de population en France entre 1901 et 1946 est donc ngative signifiant une baisse des
effectifs value 174 776 habitants.
Le taux de croissance sur une priode (entre deux dates)
La variation absolue mesure l'volution brute et le sens de variation d'une quantit sans indication de son
intensit par rapport une situation de rfrence V
0
. La mesure de cette intensit, en plus du sens de variation
(positif ou ngatif), se ralise par l'intermdiaire d'un taux, c'est--dire d'un rapport d'une diffrence sur une
quantit de rfrence le tout exprim en pourcentage. Ce taux s'crit :
Taux de croissance sur une priode : g
t
=
V
1
V
0
V
0
=
AV
V
0
Avec :
V1 V0 reprsente la diffrence. On reconnat ici la variation absolue D V dcrite plus en amont
V0 reprsente la quantit de rfrence, c'est--dire la valeur de la variable la date initiale t = 0
Le taux de croissance ainsi obtenu est sans unit et le rsultat multipli par 100 donne un pourcentage.
Exemple: nous avons vu dans dans le cas de la variation absolue que la population de la France entre 1901 et
1946 avait volu la baisse avec une perte de 174 776 habitants. Quelle est l'intensit de cette diminution par
rapport la situation initiale de 1901 ? en d'autres termes, quelle est le taux de croissance de la population en
pourcentage entre 1901 et 1946 ?
g
%
=
V
1
V
0
V
0
=
Pop
1946
Pop
1901
Pop
1901
=
174 776
40681 415
=0,0043 =0,43 %
Entre 1901 et 1946, la population franaise a diminu de 174 776 habitants ce qui correspond une baisse de
-0,43 %.
5.1.2 Le taux de croissance sur plusieurs priodes ou taux de croissance moyen
Que se passe-t-il lorsque l'on dispose pour une mme variable de plusieurs valeurs correspond son tat
plusieurs dates et que l'on souhaite connatre le taux de croissance moyen sur l'ensemble des priodes ? Ce cas
de figure est similaire celui abord dans le paragraphe concernant la moyenne gomtrique et la formule
utilise pour calculer le taux de croissance moyen sur plusieurs priodes en est identique. En voici la formulation
adapte :
Taux de croissance moyen sur plusieurs priodes :

g =
|
V
t
V
0

1
t
1
72
AV
19011946
=V
1
V
0
=Pop
1946
Pop
1901
=40 506 63940 681 415=174 776
Avec :

g Taux de croissance moyen sur t priodes


V
0
Valeur de la variable tudie la date initiale
V
t
Valeur de la variable tudie la date terminale
Exemple : reprenons le cas de la France et de sa population dans la premire moiti du XXe sicle. Nous
disposions des chiffres de la population pour les annes 1901 et 1946. De nouvelles donnes sont disponibles
l'intrieur de cet intervalle pour les annes 1906, 1911, 1921, 1926, 1931 et 1936 formant la srie suivante :
t
Date Population
0 1901
V
0
= 40 681 415
1 1906
V
1
= 41 066 809
2 1911
V
2
= 41 479 006
3 1921
V
3
= 39 209 518
4 1926
V
4
= 40 743 897
5 1931
V
5
= 41 834 923
6 1936
V
6
= 41 911 530
7 1946
V
7
= 40 506 639
Quel est le taux de croissance moyen de la population franaise entre 1901 et 1946 ?
5.1.3 Augmentations ou diminutions successives
Lorsque qu'une grandeur crot successivement des taux diffrents chaque priode et que l'on
veut connatre la valeur de la grandeur au terme des augmentations ou diminutions successives on
applique la formule suivante:
Exemple : on connat un moment donn t = 0 le prix mensuel moyen des loyers au m : V
0
= 7,48
/m. Durant quatre annes successives la seule information disponible concerne la hausse moyenne
observe pour ces mmes loyers soit : g
1
= 2,33 % pour le 1re anne, g
2
= -1,03 % pour le 2ime anne,
g
3
= 1,93 % pour le 3ime anne et g
1
= 2,48 % pour le4ime anne. Quelle la valeur du loyer mensuel
moyen l'issue de ces 4 annes, autrement dit, dterminez V
4
?
73
g =
|
V
t
V
0

1
t
1 =
|
V
7
V
0

1
7
1 =
|
40 506 639
40 680 415

1
7
1 =0,99931=0,00061=0,061 %
V
t
=V
0

i=1
t
( 1+g
i
)
V
4
=V
0

i =1
t
(1+g
i
)=7,48(1+g
1
)(1+g
2
)(1+g
3
)(1+g
4
)
V
4
=7,48(1+0,0233)(10,0103)(1+0,0193)(1+0,0248)=7,91 / m
2
A l'issue des 4 annes, le loyer mensuel moyen au m s'lve 7,91 /m compte tenu des hausses successives
enregistres.
De la mme faon, on peut, connaissant la valeur terminale V
t
d'une variable et les taux de croissance
successifs pour y aboutir, renverser le problme et calculer la valeur initiale V
0
selon la formule suivante:
Pour aller un peu plus loin : temps de doublement d'une grandeur
Quel est le temps ncessaire une grandeur quelconque (population, prix, etc.) pour sa valeur
double en considrant un taux de croissance moyen constant ?La solution est donne par la formule
suivante:
L'inconnue est ici le paramtre t qui reprsente la quantit de temps ncessaire la vrification de l'galit
pose. Sans faire talage de dmonstrations mathmatiques superflues, on peut crire que t est gal :
(ln reprsente le logarithme nprien)
Exemple : en 1850, la population de la France tait d'environ 35 millions d'habitants. En considrant un taux de
croissance annuel moyen de 0,53 % observ l'poque, combien de temps aurait-il fallu pour que celle-ci
double ?
Il aurait fallu au pays 131 ans pour voir sa population doubler, soit un doublement prvu en 1981. Or en 1981, la
population de la France tait de 54 millions d'mes soit quelques 77 % de son objectif. C'est donc que le taux
annuel moyen de croissance de la population n'a t constant sur la priode et a t en moyenne infrieur
0,53%. Les deux grandes guerres y sont probablement pour quelque chose.
Remarque : on observe que la valeur initiale V
0
n'intervient pas du tout dans le rsultat finale et que la seule
connaissance du taux de croissance annuel moyen (g) est ncessaire pour connatre, quel que soit le
phnomne, un taux de doublement.
l Exercice 19 : fichier Excel associ Exercice 19 - Progression.xls .
74
2V
0
=V
0
(1+g)
t
t=
ln2
ln( 1+g)
V
0
=
V
t

i =1
t
(1+g
i
)
2(35000000)=35 000000(1+0,0053)
t

t =
ln2
ln( 1+0,0053)
=
0,6934
0,00258
=131,1 ans
2V
0
=V
0
(1+g)
t

5.2 Indices
L'indice est avant toute chose un rsum d'informations. Il est une autre faon d'exprimer une variation relative,
c'est--dire un rapport de valeurs absolues, en dsignant ds le dpart l'une d'elles comme rfrence ou base
laquelle on affecte par convention la valeur 100.
Exemple: plutt que de dire que le prix d'un bien immobilier a augment de 12,5 % de 2006 2007, on peut
crire que sur base 100 en 2006, il tait en 2007 l'indice 112,5 (on note couramment 2006 = 100). Cette faon
d'exposer une variation n'ajoute rien la prcdente si ce n'est qu'elle permet d'viter les variations ngatives :
ainsi, au lieu de parler d'une baisse de 20 % on crira que l'indice est pass de 100 80.
Dans cet exemple, on a affaire un indice lmentaire c'est--dire qui renseigne sur lvolution temporelle ou
spatiale dune seule valeur, par opposition un indice complexe ou indice synthtique qui rsume quant lui
lvolution de plusieurs grandeurs comme plusieurs prix, plusieurs quantits, plusieurs valeurs (prix x quantits),
etc.
5.2.1 Les indices lmentaires
Dfinition : un indice lmentaire est un rapport entre deux valeurs d'une mme grandeur dans deux situations
diffrentes dont une est appele base et adopte comme valeur de rfrence, et l'autre situation
courante . Si on note I
1/0
l'indice se rapportant une grandeur simple g dans la situation 1 par rapport la
situation 0, on a :
Exemple : en 1876, la population franaise comptait 38,4 millions d'habitants. En 2007, cette mme population
tait value 62,1 millions d'mes. Calculer l'indice de variation de population en prenant comme rfrence
l'anne 1876.
La situation de base, ou de rfrence (g
0
), est toujours place au dnominateur, le numrateur (g
1
) tant
occup par la situation dite courante. Pour viter de trainer trop de chiffres aprs la virgule, on a pour habitude
de multiplier le rsultat d'un indice par 100. Dans l'exemple prcdent on obtient donc 1,62 x 100 = 162. En base
1876 = 100, la population franaise tait en 2007 l'indice 162, soit une population en progression de 62 % entre
1876 et 2007.
Les indices lmentaires ont trois proprits:
La rversibilit: un indice lmentaire est rversible c'est--dire que l'on inverse les situations comme suit :
Cette proprit est peu utilise dans les comparaisons chronologiques car il est peu frquent de mettre au
dnominateur une priode postrieure celle mise au numrateur. Elle l'est en revanche beaucoup plus et
75
I
1 /0
=
g
1
g
0
I
1 /0
=I
1876/2007
=
62,1
38,4
=1,62
I
0/ 1
=
1
I
1/ 0
=
1
g
1
g
0
mme essentielle lorsqu'il s'agit de comparaisons gographiques pour lesquelles il n'existe aucune relation
d'ordre entre les lieux compars et o le choix du lieu de rfrence demeure parfaitement arbitraire.
Exemple: prenons le revenu moyen par mnage de 3 pays de l'Union Europenne en 2007 (Danemark, France et
Hongrie) avec comme rfrence France = 100 et calculons les indices lmentaires. Nous obtenons :
Pays Revenu
moyen
Indice base
France = 100
DK - Danemark 25 113 135,9
FR - France 18 481 100,0
HU - Hongrie 4 377 23,7
Le revenu moyen des mnages danois est suprieur de 35,9 % celui des mnages franais. En revanche le
revenu moyen des mnages hongrois reprsente peine le quart de celui des mnages franais .
En appliquant la rgle de rversibilit, on s'autorise comparer la base France aux autres individus comme suit :
Ainsi le revenu moyen des mnages franais ne reprsente-t-il que 73,6 % de celui des mnages danois. Par
contre, un mnage franais a en moyen un revenu plus de 4 fois suprieur celui d'un mnage hongrois.
La transitivit : un indice lmentaire est transitif tel que :
I
2/0
=I
2/ 1
I
1/ 0
Plus souvent utilise sous la forme I
2/1
=
I
2/ 0
I
1/0
L'intrt de la transitivit se manifeste lorsque, une situation de rfrence 0 ayant t choisie, on souhaite
pouvoir comparer deux situations diffrentes de celle prise pour rfrence.
Exemple : Considrons la srie indice de la variation de la population franaise quelques dates cl entre 1876
et 2007 avec 1936 = 100 :
Date Indice
1876 91,7
1901 97,1
1921 93,6
1936 100,0
1946 96,6
1962 110,3
1982 129,6
1999 139,6
2007 148,2
76
I
DK/ FR
=
25 113
18 481
100=135,9
I
HU/ FR
=
4 377
18 481
100=23,7
I
FR/ DK
=
1
I
DK/ FR
=
1
25 113
18 481
100=73,6
I
FR/ HU
=
1
I
HU / FR
=
1
4 377
18 481
100=422,2
Chaque priode est indice par rapport la situation de rfrence 1936 = 100. Mais ds lors que l'on
ne possde plus les chiffres initiaux de population comment faire pour comparer une priode avec
une autre sur la base des seuls indices et toujours en considrant la rfrence 1936 = 100 ?
L'indice de variation de population entre 1936 et 1962 est 110,3 signifiant qu'entre ces deux dates le
nombre d'habitants a cru de 10,3 %. Entre 1936 et 2007, l'indice donne une valeur de 148,3 indiquant
une progression dmographique de 48,3 %. Qu'en est-il de l'indice de variation de population entre
1962 et 2007 avec 1936 = 100 ? En posant I
1/0
= I
1962/1932
et I
2/0
= I
2007/1932
et en utilisant la
proprit de transitivit, on peut crire :
En base 1936 = 100, l'indice de variation de population entre 1962 et 2007 est 134,4 traduisant un
accroissement de population 34,4 % entre ces deux dates.
La multiplication : troisime proprit fondamentale des indices lmentaires que l'on peut noncer
ainsi : si une grandeur g est le produit de deux grandeurs h et k , l'indice lmentaire de la grandeur g
est le produit des indices des grandeurs h et k pour une mme priode :
Cette dernire proprit trouve une application essentielle en conomie o la valeur est toujours
considre comme le produit d'une prix et d'une quantit.
Exemple :
L'Adil de Syldavie ne dispense qu'un type seul de conseil juridique qu'elle facture ses consultants au
prix unitaire de 8,50 . En 2007, elle a dlivr 8 573 conseils ralisant ainsi un chiffre d'affaire pour
l'anne de 72 870,5 . En 2008, la crise aidant, le conseil d'administration de l'Adil de Syldavie
propose de baisser le prix de la consultation 7,80 afin de permettre davantage de personnes de
profiter de la qualit et de la comptence toutes deux incomparables de son service juridique. A la
fin de l'anne 2008, le nombre de consultations donn atteint 9 788 reprsentant un chiffre d'affaire
de 76 346,4 . La baisse du prix de la consultation (PU) combine une hausse du nombre de
contacts (NC) se sont traduites par un indice de variation du chiffre d'affaire (CA) calcul comme suit
et correspondant une augmentation de 4,8 % :
Quelques remarques supplmentaires concernant les indices lmentaires
Le choix de la base est totalement arbitraire.
La base n'est pas ncessairement la valeur initiale.
Par ailleurs, il est possible de prendre comme base la moyenne ou la mdiane de la distribution.
Le recours aux indices n'est qu'un moyen parmi d'autres pour interprter une volution. Ainsi, dans
notre exemple, il est autoris de dire qu'entre 1936 et 2007 la population franaise a progress de
148,2-100 = 48,2 % et qu'entre 1982 et 2007 elle a augment de (148,2 129,6) = 18,6 % et de 56,9 %
entre 1876 et 2007 (148,2 91,7).
77
I
2/1
=
I
2/0
I
1/0
=I
2007/1692
( 1932=100)=
I
2007/ 1932
I
1962/1932
=
148,2
110,3
=1,344 soit 134,4
I
1 /0
( g)=I
1/0
( h)I
1 /0
( k )
Si g=hk alors
I
1 /0
(CA)=I
1 /0
( PU)I
1 /0
( NC)=
I
2008/2007
(CA)=I
2008/2007
( PU)I
2008/2007
( NC)=
7,80
8,50

9 788
8 573
=0,9181,142 =1,048 soit l ' indice104,8
Lorsque l'on passe d'un
Il convient de toujours garder l'esprit qu'un indice est une valeur relative sans unit
5.2.2 Les indices synthtiques
Selon l'Insee, un indice synthtique se dfinit comme suit :
Un indice synthtique mesure la variation de la valeur d'une grandeur complexe dfinie comme
l'agrgation d'un ensemble de grandeurs lmentaires. Ainsi, par exemple, l'Indice des Prix la
Consommation (IPC) mesure par un indice unique la variation des prix de 1.000 varits de produits.
L'indice de la grandeur complexe est alors une moyenne pondre des indices des grandeurs
lmentaires ; les pondrations sont les "masses" des grandeurs lmentaires (dans le cas des
indices des prix, ces masses sont les dpenses). L'indice de Laspeyres pondre par les masses de la
priode de base. L'indice de Paasche pondre par les masses de la priode courante.
Prenons un exemple concret pour aider la formalisation de la notion d'indice synthtique :
Nous disposons du prix pour cinq biens a, b, c, d et e et ce la date 0 et la date t. Considrons que
ces biens sont des logements locatifs et que le prix correspond au loyer surfacique. Nous obtenons
le tableau suivant :
Dates
0 t
L
o
g
e
m
e
n
t
s
a 11,16 11,57
b 9,18 9,67
c 7,73 8,09
d 6,44 6,81
e 5,56 5,91
Pour chacun des logements il demeure toujours possible de calculer l'indice lmentaire d'volution
des loyers. Mais l'intrt existe de vouloir connatre l'volution globale des loyers prenant en compte
l'ensemble des logements, autrement dit, l'indice synthtique d'volution des loyers de plusieurs
logements.
Une premire faon de procder consisterait calculer les indices lmentaires pour chacun des
logements et en faire la moyenne arithmtique comme suit :
0 t Indice lmentaire
I
t /0
Coefficient
de
pondration
Indice x
coefficient
a 11,16 11,57 Ia
t / 0
= 103,7 0,20 20,73
b 9,18 9,67 Ib
t / 0
= 105,3 0,20 21,07
c 7,73 8,09 Ic
t / 0
= 104,7 0,20 20,93
d 6,44 6,81 Id
t / 0
= 105,7 0,20 21,15
e 5,56 5,91 Ie
t / 0
= 106,3 0,20 21,26
Indice synthtique = 105,1
78
L'indice synthtique des loyers est gale la moyenne arithmtique des indices lmentaires
calculs :
(rappelons que diviser par 5 revient multiplier par 0,2)
Dans notre exemple, cela donne :
0,2 est ici un facteur ou un coefficient de pondration, c'est--dire une valeur qui vise, le cas chant,
attribuer chaque individu, chaque logement un poids correspond son importance au sein de
l'ensemble des individus concerns par le calcul. Dans notre cas, il n'y a aucune hirarchie entre
individu et chaque logement a donc le mme poids. Le total des poids tant par convention gal 1,
et le nombre de logements tant de 5, chaque logement dispose donc d'un cinquime du poids total,
c'est--dire 0,2.
Considrant ce coefficient de pondration, nous pouvons reformuler notre indice synthtique de la
faon suivante :
O
o
a
Reprsente le poids affect au logement a soit dans notre exemple 0,2
o
b
Reprsente le poids affect au logement b soit dans notre exemple 0,2
o
c
Reprsente le poids affect au logement c soit dans notre exemple 0,2
o
d
Reprsente le poids affect au logement d soit dans notre exemple 0,2
o
e
Reprsente le poids affect au logement e soit dans notre exemple 0,2
Avec toujours

o=1 soit dans notre cas o


a
+o
b
+o
c
+o
d
+o
e
=1
videmment, une partie de l'intrt de l'indice synthtique rside dans la trs vraisemblable variation
du coefficient de pondration en fonction des situations observes.
En reprenant l'exemple prcdent, on peut supposer que a, b, c, d et e ne sont pas des logements
locatifs mais plutt des catgories de logements constitutives d'un parc locatifs l'chelle d'une ville
par exemple. Ainsi, on peut imaginer que
a reprsente le parc des logements de 1 pice
b reprsente le parc des logements de 2 pices
c reprsente le parc des logements de 3 pices
d reprsente le parc des logements de 4 pices
e reprsente le parc des logements de 5 pices et plus

79
I
t /0
=
Ia
t /0
+Ib
t /0
+Ic
t/ 0
+Id
t /0
+Ie
t /0
n=5
=( Ia
t /0
0,2) +( Ib
t /0
0,2) +( Ic
t /0
0,2)+( Id
t/0
0,2) +( Ie
t/ 0
0,2)
I
t / 0
=
103,7+105,3+104,7 +105,7+106,3
5

I
t / 0
=(103,70,2) +(105,30,2)+(104,70,2)+(105,70,2)+(106,30,2)=105,1
I
t /0
=(o
a
Ia
t / 0
) +(o
b
Ib
t / 0
)+(o
c
Ic
t / 0
)+(o
d
Id
t / 0
) +(o
e
Ie
t / 0
)
et que le loyer mesur aux dates 0 et la date t pour chacun des parcs est un loyer moyen et que l'on
cherche connatre l'indice d'volution des loyers pour l'ensemble du parc locatif. Dans ce cas de figure-ci, les
coefficients de pondration ont toutes les chances de ne plus tre gaux d'abord parce que l'on souhaite que le
calcul de l'indice synthtique d'volution des loyers tienne compte de la structure existante du parc locatif et
que de la sorte le poids de chaque parc soit respect.
La structure du parc locatif sur la ville tudie est la suivante :
Catgories Rpartition (%) Coefficient de
pondration (poids)
a 1 pc 25,6 % 0,256
b 2 pc 27,2 % 0,272
c 3 pc 22,7 % 0,227
d 4 pc 17,2 % 0,172
e 5 pc+ 7,3 % 0,073
100 % 1
Reprenons la formule de l'indice synthtique prcdemment utilise et attribuons chaque indice
lmentaire le constituant les coefficients de pondration ainsi dtermins. Nous obtenons la
formule suivante :
Quelques exemples d'indices synthtiques clbres : les indices d'volution de la valeurs d'un
panier de biens.
Considrons un panier de biens courants, celui que les mdia appelle habituellement le panier de la
mnagre . La valeur de chaque bien est le produit d'un prix et d'une quantit achete. Si la panier
contient n produits, la valeur du panier au temps t s'crit :
O
V
t
Valeur du panier au temps t
p
t
i
Prix du bien i au temps t
q
t
1
Quantit du bien i au temps t
Exemple :
Examinons le panier de Madame Duraton au temps t . Il contient quatre produits dont le prix unitaire
et les quantits achetes figurent dans le tableau qui suit :
Prix
p
t
i
Quantit
q
t
i
Produit 1 3,88 7
Produit 2 7,50 4
Produit 3 12,45 3
Produit 4 4,40 12
80
I
t /0
=(o
a
Ia
t / 0
)+(o
b
Ib
t / 0
) +(o
c
Ic
t / 0
) +( o
d
Id
t / 0
) +(o
e
Ie
t / 0
)
I
t / 0
=(103,70,256)+(105,30,272)+(104,70,227)+(105,70,172)+(106,30,073)=104,9
V
t
=p
t
1
q
t
1
+ p
t
b
q
t
b
+... + p
t
n
q
t
n
=

i=1
n
p
t
i
q
t
i
La valeur du panier de Mme. Duraton au temps t s'crit :
La partie intressante du problme consiste mesurer lvolution de la valeur du panier de Mme.
Duraton entre les deux dates 0 et t , sachant que cette volution dpendra de l'volution combine
de deux paramtres : le prix et la quantit de chaque bien. Toute la difficult consiste construire un
indice synthtique capable de prendre en compte ces volutions parallles et combines pour en
dduire une volution globale. Trois conomistes, LASPEYRES, PAASCHE et FISHER, ont propos
des indices synthtiques diffrents pour mesurer lvolution des composants prix et quantit au
sein de la valeur du panier, le plus utilis, en tous les cas en France, tant celui de Laspeyres. C'est
celui que nous exposerons ici.
L'indice de Laspeyres :
L'indice de Laspeyres permet de mesurer deux volutions : l'volution des prix des biens composant
le panier on parlera alors d'indice d'volution des prix de Laspeyres et l'volution des quantits
des biens composant ce mme panier on parlera alors d'indice d'volution des quantits de
Laspeyres.
L'indice d'volution des prix de Laspeyres
Cet indice mesure l'volution des prix des biens composant un panier entre deux dates 0 et t en
prenant comme rfrence la valeur du panier au temps initial t = 0 et en supposant que les
quantits des biens du panier n'ont pas vari entre les deux dates. L'indice d'volution des prix
s'crit alors :
O V
t
Valeur du panier au temps t
V
0
Valeur du panier au temps initial 0
p
0
i
Prix du bien i au temps 0
q
0
i
Quantit du bien i au temps 0
p
t
i
Prix du bien i au temps t
q
t
i
Quantit du bien i au temps t
Avec
q
t
i
=q
0
i
Puisque les quantits sont fixes
81
V
t
=

i =1
4
p
t
i
q
t
i
= p
t
1
q
t
1
+ p
t
2
q
t
2
+ p
t
3
q
t
3
+ p
t
4
q
t
4

V
t
=(3,887)+(7,504)+(12,453)+(4,4012)=147,31
L
t /0
p
=
V
t
V
0
=

i=1
n
p
t
i
q
t
i

i=1
n
p
0
i
q
0
i
100
Exemple : reprenons le panier de Mme. Duraton deux dates diffrentes :
Date 0 Date t
p
0
i
q
0
i
p
t
i
q
t
i
Produit
1
3,88 7 4,13 8
Produit
2
7,50 4 8,42 3
Produit
3
12,45 3 11,71 5
Produit
4
4,40 12 4,89 9
Les prix ont volu mais aussi les quantits. Or l'indice des prix de Laspeyres suppose que les
quantits restent inchanges. Le calcul se fera donc quantits gales avec comme rfrence les
quantits au temps initial. On aura donc :

Soit une progression de la valeur du panier de Mme. Duraton de 6,2 % selon les prix entre 0 et t .
L'indice d'volution des quantit de Laspeyres
Cet indice mesure l'volution des quantits des biens composant un panier entre deux dates 0 et t
en prenant comme rfrence la valeur du panier au temps initial t = 0 et en supposant que les prix
des biens du panier n'ont pas chang entre les deux dates. L'indice d'volution des quantits s'crit
alors :
82
L
t /0
p
=
V
t
V
0
=

i =1
4
p
t
i
q
t
i

i=1
4
p
0
i
q
0
i
100=
p
t
1
q
t
1
+ p
t
2
q
t
2
+ p
t
3
q
t
3
+ p
t
4
q
t
4
p
0
1
q
0
1
+ p
0
2
q
0
2
+ p
0
3
q
0
3
+ p
0
4
q
0
4
100
L
t /0
p
=
p
t
1
q
0
1
+ p
t
2
q
0
2
+ p
t
3
q
0
3
+ p
t
4
q
0
4
p
0
1
q
0
1
+ p
0
2
q
0
2
+ p
0
3
q
0
3
+ p
0
4
q
0
4
100=
(4,137)+(8,424)+(11,713)+( 4,8912)
(3,887)+(7,504)+(12,453)+(4,4012)

L
t /0
p
=
156,4
147,3
100=106,2
L
t /0
q
=

i =1
n
p
t
i
q
t
i

i =1
n
p
0
i
q
0
i
100=

i=1
n
p
0
i
q
t
i

i=1
n
p
0
i
q
0
i
100
O
p
0
i
Prix du bien i au temps 0
q
0
i
Quantit du bien i au temps 0
p
t
i
Prix du bien i au temps t
q
t
i
Quantit du bien i au temps t
Avec
p
t
i
=p
0
i
Puisque les quantits sont
fixes
Exemple : toujours le panier de Mme. Duraton deux dates diffrentes :
Date 0 Date t
p
0
i
q
0
1
p
t
i
q
t
1
Produit 1 3,88 7 4,13 8
Produit 2 7,50 4 8,42 3
Produit 3 12,45 3 11,71 5
Produit 4 4,40 12 4,89 9
Les quantits ont volu mais aussi les prix. Or l'indice des quantits de Laspeyres suppose que les
prix restent inchanges. Le calcul se fera donc prix gaux avec comme rfrence les prix au temps
initial. On aura donc :

Soit une progression de la valeur du panier de Mme. Duraton de 5,5 % selon les quantits entre 0 et
t.
83
L
t/0
q
=
V
t
V
0
=

i=1
4
p
t
i
q
t
i

i=1
4
p
0
i
q
0
i
100=
p
t
1
q
t
1
+ p
t
2
q
t
2
+p
t
3
q
t
3
+ p
t
4
q
t
4
p
0
1
q
0
1
+ p
0
2
q
0
2
+p
0
3
q
0
3
+ p
0
4
q
0
4
100
L
t/0
p
=
p
0
1
q
t
1
+ p
0
2
q
t
2
+ p
0
3
q
t
3
+p
0
4
q
t
4
p
0
1
q
0
1
+ p
0
2
q
0
2
+ p
0
3
q
0
3
+ p
0
4
q
0
4
100=
( 3,888)+( 7,503)+( 12,455)+( 4,409)
(3,887)+(7,504)+( 12,453)+( 4,4012)
100
L
t/0
q
=
155,4
147,3
100=105,5
L'indice des prix de l'INSEE
Cher au cur ou plutt au porte-monnaie - des franais, cet indice est sans doute le plus connu dans notre
pays (peut-tre juste derrire le CAC40 en ce moment). L'IPC ou Indice des Prix la Consommation est
calcul et publi mensuellement par l'INSEE. Il permet, sur la base d'un panel de produits et services
consomms rgulirement et massivement par les mnages franais, d'valuer l'volution des prix entre deux
priodes. C'est une mesure synthtique d'volution de prix quantit constante.
Le calcul de l'IPC de l'INSEE utilise la formule de l'indice des prix Laspeyres qu'elle applique un chantillon de
quelques 21 000 indices lmentaires eux-mmes calculs sur la base d'une collecte nationale de prix de
produits dans 106 agglomrations de plus de 2 000 habitants rparties sur l'ensemble du territoire. LIPC couvre
plus 1 000 varits de biens et services regroups en 161 catgories. La liste des biens et services enquts
demeurent confidentielle afin d'viter tout tentative ventuelle de manipulation des prix par les commerants.
Actuellement, la priode de rfrence pour le calcul de l'IPC est 1998 = 100. Le graphique qui suit donne la
structure du panier de l'IPC de l'INSEE et par consquent les pondrations appliques lors du calcul :
Source : http://www.insee.fr/fr/themes/indicateur.asp?id=29&type=1&page=info_ipc.htm#q2
Publi dans la premire quinzaine de chaque mois et portant sur l'volution des prix du mois prcdent, l'IPC
fait chaque fois l'objet de commentaires et de dbats passionns tant sur sa valeur il sert en effet de tmoins
de nombreux paramtres conomiques (inflation, revalorisation des pensions et du SMIC, etc.)- que sur sa
composition et son mode calcul que certains jugent ne plus tre en phase avec les vrais habitudes de
consommation des franais, notamment depuis 2006 avec la flambe des cot de l'nergie, des transport et du
logement. Le tableau qui suit fait le point sur la valeur rcente de l'indice gnral puis dclin par poste (source:
http://www.insee.fr/fr/themes/indicateur.asp?type=1&id=29).
84

l Exercice 20 : fichier Excel associ Exercice 20 - Indices.xls .

85
Chapitre 6
6. Relation entre deux variables : tendance, ajustement linaire (ou
rgression linaire) et corrlation
Dans les chapitres prcdents nous avons numr et dcrits les principaux outils statistiques disposition pour
caractriser et rsumer des distributions de valeurs. Comment, en limitant au maximum la perte d'informations,
passer d'un volume important de donnes difficilement manipulable quelques indicateurs pertinents
synthtisant l'allure et le contenu de la distribution de la population tudie.
Le prsent chapitre s'intresse un autre aspect de l'analyse statistique, celui qui dcrit et tudie la relation
pouvant exister entre deux variables. Il est en effet frquent, lorsque l'on tudie et analyse un phnomne quel
qu'il soit, que plusieurs variables ou facteurs entrent en ligne pour sa comprhension, variables qui de part la
relation de cause effet qu'elles entretiennent sont mme d'une part de permettre de mieux comprendre le
phnomne et d'autre part d'en dgager tendance et projection compte tenu de la situation existante.
Les outils statistiques dcrits ci-aprs ont un double objectif :
D'une part rsumer mathmatiquement (par une quation) et graphiquement (par une droite) la
relation pouvant exister entre deux variables : lorsqu'il s'agira d'une variable confronte au temps ou
l'espace dans le cadre d'une relation non immuable , on parlera de tendance. Par contre lorsqu'il
s'agira de deux variables entretenant une relation de cause effet immuable on parlera davantage
d'ajustement ou de rgression.
D'autre part qualifier et mesurer l'intensit de la relation (ou degr de liaison) entre les variables
tudies via des outils appropris comme par exemple le coefficient de corrlation ou les test du Khi
lorsque l'on aura affaire des variables non quantitatives.
86
Exemple de tendance linaire : volution de l'esprance de vie la naissance pour les femmes et les hommes en
France de 1750 nos jours et droites de tendance associes.
Exemple d'ajustement linaire : Relation entre loyers mensuels moyens au m hors charges et surface des
logements dans le parc locatif priv du territoire de Belfort en 2007 avec la droite d'ajustement (ou droite de
rgression) associe.
87
0
2
4
6
8
10
12
14
16
18
20
0 20
Surface (m)
L
o
y
e
r

m
e
n
s
u
e
l

h
o
r
s

c
h
a
r
g
e
s

/
m

40 60 80 100 120 140


y = -0,0409x + 10,896
6.1 Ajustement et rgression linaire
6.1.1 nonc et principes de la droite de tendance et de la droite d'ajustement (ou droite
de rgression) :
Droite de tendance et droite de rgression matrialise la relation linaire entre respectivement une variable et le
temps ou entre deux variables. Cette matrialisation est double : d'abord sous une forme mathmatique par
l'intermdiaire d'une quation, puis sous une forme graphique puisque l'quation dtermine peut tre figure
sur le graphique original.
L'quation de la droite est trouve partir des valeurs existantes de la distribution tudie. Sa forme
mathmatique est relativement simple et s'crit comme suit :
O y
= Variable dpendante ou variable explique
x
= Variable indpendante ou variable explicative
a
= Pente de la droite de rgression
b
= Ordonne l'origine de la droite de rgression
Cette relation suppose que y est une fonction de x, c'est--dire que la valeur de y dpend de celle de x, ou bien
encore que la valeur de y est explique par la valeur de x. Ainsi, la faon dont voluera la valeur de y dpendra
de manire plus ou moins forte de la faon dont voluera celle de x. x est alors appele variable explicative, sa
variation expliquant tout ou partie de la variation de y, elle-mme appele variable explique.
Exemple : reprenons les deux exemples brivement voqus prcdemment.
Dans le premier cas tendance linaire l'volution de l'esprance de vie dpend du temps (et non
l'inverse). En effet, au fur et mesure que l'on avance dans le temps, l'esprance de vie crot. La
variable dpendante ou explique est ici l'esprance de vie en anne et la variable indpendante
ou explicative est le temps , mais l'on sait pertinemment que ce n'est pas le temps qui explique
l'accroissement l'esprance de vie mais davantage les progrs de l'alimentation et de la mdecine
qui eux s'amliore avec le temps. Le temps explique donc de faon indirecte l'augmentation de
l'esprance de vie. Nanmoins, nous dirons que l'esprance vie est une fonction du temps et
crirons : Esprance de vie = f (temps)
y
= Variable explique = esprance de vie en annes
x
= Variable explicative = temps
Dans le deuxime exemple ajustement ou rgression linaire il semble raisonnable de supposer
que ce sont les loyers qui dpendent de la surface du logement et non l'inverse. Les loyers
reprsentent donc la variable expliquer y et la surface la variable explicative x de telle sorte que
l'on puisse dire que les loyers sont une fonction de la surface et crire loyer = f (surface) :
88
y =ax +b
y
= Variable explique = loyer mensuel hors charges au m
x
= Variable explicative = surface des logements
Il nous reste dcrire les deux dernires composantes de l'quation de la droite de tendance et de la droite de
rgression savoir a et b :
+ a reprsente la pente de la droite (coefficient directeur en mathmatique), c'est--dire son inclinaison
ou, en d'autres termes, l'ampleur de la variation de la variable explique y quand la variable explicative
x varie de une unit. Plus la variation de y sera importante pour la variation d'une unit de x , plus la
pente sera importante. A l'oppos, moins la variation de y sera importante pour la variation d'une unit
de x , moins la pente sera importante.
Le sens de la pente, donc le signe du paramtre a , renseigne quant lui sur le type de liaison qui unie
les deux variables :
Si a est ngatif, cela signifie que lorsque x augmente, y diminue. On parle alors de relation
inversement proportionnelle;
Si a est nulle, cela signifie que lorsque x augmente, y demeure constant, ne varie pas;
Enfin si a est positif, cela signifie que lorsque x augmente, y augmente galement (mais pas
ncessairement dans les mmes proportions). On parle alors de relation proportionnelle.
A y=2Ax A y=Ax A y=
1
2
Ax
a>0
X
y
X
y
X
y
a=0
y constant
X
y
X
y
X
y
a0
X
y
X
y
X
y
A titre d'exemple,
A y=2A x signifie que lorsque x crot de 2 units, y augmente d'une unit
+ b reprsente l'ordonne l'origine, c'est--dire l'endroit o la droite de rgression (ou de tendance)
coupe l'axe des ordonnes (ou axe des y ). b peut positif, ngatif ou nul. Si b = 0 cela signifie que la
droite de rgression passe par l'origine. Ce peut tre le cas quelle que soit la valeur de a . Lorsque la cas
se produit, l'quation de la droite d'ajustement devient :
On parle alors de fonction linaire. Qui plus est, si Ay=Ax alors l'quation s'crit y = x.
89
y=ax
Rcapitulatif : la droite de rgression et ses composantes
6.1.2 Dtermination des paramtres de la droite d'ajustement: la mthode des Moindres
Carrs Ordinaires (MCO)
quation et trac de la droite d'ajustement pour une nuage de points donn ncessitent la dcouverte des deux
paramtres fondamentaux que sont d'une part la pente a et d'autre part l'ordonne l'origine b. Rappelons
que la droite telle qu'elle doit tre mise en quation et trace a pour objectif premier de rsumer un nuage de
points, c'est--dire la relation entre deux variables et ce, de faon qualitative (allure) et quantitative (intensit).
Cette reprsentativit impose que la droite passe imprativement au plus prs de tous les points du nuage. Cet
ajustement, car il s'agit bien d'un ajustement, a logiquement donn son nom la droite (droite d'ajustement). Il
est ralis par l'intermdiaire de la mthode dite des Moindres Carrs Ordinaires (MCO). La dnomination
quelque peu rbarbative de la mthode dcoule directement de son principe : en effet l'ajustement s'effectue
en minimisant la somme du carr des carts entre la droite et les observations. En clair, cela signifie bien que la
droite va passer au plus prs de tous les points. Sur le plan graphique, le principe de la mthode MCO s'illustre
de la faon suivante :
Soit un nuage de points matrialisant la relation entre la variable x et la variable y, les points reprsentant les
observations :
90
Origine
0 Abscisse X
y
O
r
d
o
n
n

e y = ax + b
b = ordonne lorigine
a = pente de la droite
Le trac de la droite d'ajustement (y = ax + b) permet de comprendre la logique qui prside sa
construction. Il faut garder l'esprit que cette droite est une reprsentation synthtique du nuage de points et
qu'elle permet pour chaque x de calculer un nouvel y estim partir de son quation not y .
Le nuage initial de points se trouve maintenant distribu de part et d'autre de la droite et chaque observation
se trouve dornavant une certaine distance de ladite droite. Lorsque que les observations se situent au-dessus
de la droite d'ajustement (points verts), la distance est positive. Lorsque les observations se trouvent sous la
droite d'ajustement (points rouges), la distance est ngative. Ces distances correspondant aux carts voqus
lors de la tentative de dfinition de la mthode des Moindres Carres Ordinaires qu'il faudra, une fois levs au
carr, minimiser. Une distance, ou un cart, correspond la diffrence entre la valeur observe de y et la valeur
estime de y soit :
Rappelons que y
i
reprsente la valeur estime de y
i
par l'quation de la droite d'ajustement , c'est--
dire la valeur prise par la valeur observe y
i
lorsqu'on projette sur la droite.
La distance ou l'cart ainsi dtermin est galement appel rsidu en rfrence Plus le rsidu est faible, plus la
valeur observe est proche de la droite d'ajustement. De mme, un rsidu positif signifie que la valeur observe
y
i
est plus grande que sa valeur estime y
i
par l'quation. Par consquent, un rsidu ngatif signifie
que la valeur observe y
i
est plus petite que sa valeur estime y
i
par l'quation. Si la valeur observe
y
i
est gale la valeur estime y
i
alors le rsidu est nul et la valeur observe se trouve exactement sur
le droite d'ajustement.
Valeurs Rsidu
y
i
> y
i
( y
i
y
i
) >0
y
i
y
i
( y
i
y
i
) 0
y
i
= y
i
( y
i
y
i
) =0
91
( y
i
y
i
)
Si les choses ont t faites dans les rgles, c'est--dire si la droite passe bien au plus prs de tous les points du
nuage, alors la somme des rsidus doit tre gale 0, la somme des rsidus ngatifs compensant exactement la
somme des rsidus positifs. Nous avons donc :
Le but tant termes de minimiser les somme des rsidus levs au carr

i=1
n
d
i
2
=

i=1
n
( y
i
y
i
)
2
minimum
Pour atteindre cet objectif et respecter ainsi le postulat de dpart, il nous faut trouver les paramtres a et b
pour formaliser l'quation de la droite d'ajustement. Pour viter de ce perdre dans des dveloppements
mathmatiques inutiles ce stades, on donnera ici les recettes permettant de dterminer directement a et b .
La pente de la droite d'ajustement : a=
Cov( x , y)
Var ( x)
=
c
xy
c
x
2
=
1
n

i=1
n
( x
i
x)( y
i
y)
1
n

i=1
n
( x
i

x)
2
L'ordonne l'origine : b=

ya

x
Exemple : on s'intresse au prix moyen du foncier constructible et la faon dont celui-ci varie au fur et mesure
que l'on s'loigne d'un ple d'emplois et de services. On suppose logiquement que la valeur du foncier dcrot
en fonction de l'loignement au ple, autrement dit que le prix du foncier est inversement proportionnel la
distance au ple. Ce postulat considre donc le prix du foncier constructible comme une fonction de la distance
au ple: prix du foncier constructible = f (distance au ple).
Sur le terrain, on relve le prix moyen du foncier constructible par commune ainsi que la distance routire entre
chacune de ces communes et la commune-ple et on confronte les deux variables sur un mme obtenant ainsi
un nuage de points o chaque point reprsente une observation, c'est--dire une commune :
92

i=1
n
d
i
=

i=1
n
( y
i
y
i
)=0
L'axe des x (abscisse) figure la variable explicative, en l'occurrence la distance au ple, alors que l'axe des y
correspond la variable explique ou dpendante, le prix moyen au m du foncier constructible. D'vidence, il
existe bien une relation inversement proportionnelle entre les deux variables : plus la distance est grande, moins
le prix du foncier semble lev. La droite d'ajustement aura donc ncessairement une pente ngative ( a < 0) .
Le calcul des paramtre de la droite de rgression nous donne :
Pour la pente :
a=
Cov( x , y)
Var ( x)
=
c
xy
c
x
2
=
1
n

i=1
n
( x
i
x) ( y
i
y)
1
n

i=1
n
( x
i

x)
2
=
61,19
36,71
=1,667
Pour l'ordonne l'origine:
b=

ya

x=29,991,667(16,34)=57,22
Soit une droite d'ajustement d'quation :
y=1,667 x+57,22 prix foncier=1,667( distance)+57,22
Graphiquement, on obtient :
On vrifie assez aisment que le postulat de dpart est vrifi, savoir que la somme des rsidus est gale 0 :
Notre droite d'ajustement passe au plus prs de tous les points du nuage.
6.1.3 Utilisations et limites de la rgression linaire:
Malgr sa simplicit apparente, le rgression demeure une mthode puissante. Elle peut, dans certains cas et
avec prudence, aider la reconstitution de sries caractrises par des lacunes. On parle alors d'interpolation.
Elle permet galement l'extrapolation, c'est--dire l'estimation de la variable y pour des valeurs de x qui sont en
93

i=1
n
( y
i
y
i
)=0
dehors du champ de celles observes. Dans les deux cas, le fait de disposer d'une quation, qui n'est autre
chose qu'un modle mathmatique, autorise la production de n'importe y pour n'importe quel x.
Interpolation Extrapolation
Source : http://www.coventry.ac.uk/ec/~nhunt/regress/pred1.html
Exemple : en reprenant l'exemple prcdent, il est possible de calculer la valeur du foncier pour une distance au
ple de 30 km, 35 km, 40, 50 et mme de 100 km:
Distance (km)
y
i
(/m)
30 7,2
35 -1,1
40 -9,5
45 - 17,8
50 -26,1
100 -109,5
94
Les rsultats obtenus sont rvlateurs de la limite du modle de rgression linaire car l'en croire, il suffirait de
s'loigner au-del de 34,3 km pour que le prix du foncier constructible devienne nul puis ngatif !
Un modle plus juste devrait proposer une limite asymptotique, c'est--dire un prix qui demeure quasi constant,
sans tre nul ou ngatif, partir d'une certaine distance. Ces modles existent mais ils ont la particularit de ne
pas tre linaires: on parle alors de modles polynomiaux, exponentiels ou bien encore logarithmiques.
Dans notre, il est possible d'affiner l'ajustement et par l mme les estimations par le biais d'un modle type
puissance
Comparons les estimations du modle puissance celles du modle linaire dans les mmes conditions :
Distance
(km)
y
i
(/m)
modle
linaire
y
i
(/m)
modle
puissance
30 7,22 15,76
35 -1,12 14,03
40 -9,46 12,69
50 -26,13 10,72
100 -109,48 6,36
Il semblerait que les estimations obtenues soient plus en phase avec une suppose ralit. Cependant, rien
ne nous garanti, dans le cadre d'une extrapolation, que les rsultats fournis soient reprsentatif d'une
quelconque ralit. En effet, rien ninterdit de penser qu partir dune certaine distance les prix du foncier
renouent avec la hausse du fait de linfluence dun autre ple demplois et de services.
Le fait de pouvoir formaliser, sous forme d'une quation, une relation mathmatique et statistique entre deux
variables ne signifie pas ncessairement qu'il y ait, dans la ralit, une relation effective de cause effet entre
ces mmes deux variables. Les exemples sont lgion o, pour montrer les travers de la modlisation par
rgression, on dcrit une relation entre variables qui dans la ralit n'a aucune chance ou raison de se raliser.
95
Exemple : la consommation annuelle de poisson pan en Australie (x) et le taux de mortalit infantile
(enfants de moins de 5 ans) en Bolivie (y) entre 1960 et 2005. A premire vue, la relation entre les deux
variable semble vidente. Elle est peut tre mise en quation au mme titre que n'importe quelle autre
relation via le modle de rgression linaire. Seulement elle n'existe tout simplement pas: il n'y a en effet
aucune chance, et aucune raison, pour que l'augmentation de la consommation de poisson pan en
Australie ait une quelconque influence sur le taux de mortalit infantile en Bolivie.
La formalisation de la relation par l'intermdiaire d'une quation ne renseigne pas non plus sur la qualit et
l'intensit d'une suppose liaison entre deux variables. On peut en effet dterminer une quation matrialisant
une relation que l'on juge probable et logique et qui cependant n'est pas ou peu marque ou qui n'est pas
systmatique dans la ralit.
L'exemple qui suit montre, de faon certes caricaturale, le fait qu'une relation qui n'existe pas ou peu entre
deux variables peut malgr tout tre formalise par une quation. Dans cet exemple, la variation de x n'a pour
ainsi dire aucune consquence sur la variation de y.
96
Nous sommes donc en prsence de deux problmes :
d'une part un problme li l'identification de l'existence ou non d'une relation de cause effet entre
deux variables que l'on souhaite confronter : la plupart du temps, la solution de ce problme rside
dans le bon sens (confrontation de variables dont on suppose qu'elles entretiennent un lien rel et
logique) et/ou dans l'exprimentation (vrification d lien suppos par des mthodes statistiques);
d'autre part, un problme li la mesure de la qualit et de l'intensit de la liaison entre deux variables.
Pour ce faire, la statistique a dvelopp des outils capables d'valuer la qualit d'une liaison entre
variables : le coefficient de corrlation et le coefficient de dtermination.
6.2 Mesure de la qualit et de l'intensit d'une liaison entre deux variables : coefficient de
corrlation et coefficient de dtermination
Ces deux coefficients qualifient et mesurent la force de la relation mathmatique et statistique entre deux
variables. Pour les mmes raisons que la droite de rgression, l'obtention de coefficients jugs bons ne signifie
pas l'existence d'une relation relle entre les variables.
Coefficient de corrlation et coefficient de dtermination sont intimement lis, le second n'tant ni plus ni
moins que la carr du premier. Nots respectivement r et r , on crit :
Cette formule, en apparence complique reprend, pour son calcul, beaucoup de paramtres normalement dj
connus lorsque les distributions des deux variables ont t tudies et la droite d'ajustement dtermine.
6.2.1 Proprits du coefficient de corrlation et du coefficient de dtermination
Le coefficient de corrlation est toujours compris entre -1 et 1 : 1 <r < 1
Sa valeur mesure la force de la liaison tandis que son signe renseigne sur le sens de la corrlation :
Lorsque r = 1 , la relation entre les variables x et y est proportionnelle et parfaite
Lorsque r = -1, la relation entre les variables x et y est inversement proportionnelle et parfaite
Lorsque r = 0, la relation entre les variables x et y est statistiquement inexistante
97
r=
Cov ( x , y)
.Var ( x).Var ( y)
=
c
xy
c
x
c
y
=
1
n

i=1
n
( x
i

x)( y
i

y)
.
1
n

i=1
n
( x
i

x)
2

.
1
n

i=1
n
( y
i

y)
2
Entre ces bornes, tous les cas de figures sont possibles avec des degr de liaison variables. La forme du nuage
de points permet dj de se faire une ide quelques fois assez juste de la nature et de la force de liaison entre
deux variables ainsi que l'illustrent les figures ci-aprs.
On considre que deux variables sont suffisamment lies pour pratiquer des interpolation et extrapolation
lorsque r <0,75 ou quand r +0,75 . En dehors de ces limites, la liaison se dgrade rapidement
pour devenir insignifiante.
Mais attention, une corrlation significative ne dmontre pas l'existence d'une relation systmatique et relle
de causalit entre deux variables x et y, pas plus que l'absence d'une corrlation significative dans une seule
tude ne dmontre l'absence de lien causal.
Le coefficient de dtermination r renseigne sur la force de la liaison statistique entre deux variables. Il diffre
assez peu du coefficient de corrlation r dont il est le carr. Pour cette raison, il est toujours de signe positif et
n'informe donc pas sur le sens de la relation. C'est pourquoi on lui prfre le coefficient de corrlation .
Le coefficient de corrlation r , tout comme le coefficient de dtermination r , est un indicateur sans
dimension aucune.
Il existe des tests (test de signification du r de Pearson par exemple) permettant de juger objectivement de la
signification statistique d'un coefficient de corrlation calcul et par l mme de la signification de la liaison
entre les variables tudies.

Figure : Forme du nuage de points et coefficient de corrlation (Source : http://en.wikipedia.org/wiki/Correlation)
98
Quelques formes typiques de nuages de points en relation avec les valeurs du coefficient de corrlation pour la
rgression linaire (S
x
et S
y
reprsentent respectivement l'cart-type de la variable x et l'cart-type de la
variable y) Source : Guide pratique d'analyse des donnes p. 68, Crauser, Harvatopoulos et Sarnin, 1989.
Exemple:
Reprenons l'exercice qui avait consist confronter la variation du prix moyen du foncier constructible par
commune en fonction de la distance des communes un ple d'emplois. L'hypothse de dpart avait suppos
qu'une relation de cause effet existait entre ces deux variables et qu'elle tait inversement proportionnelle. En
d'autres termes, le prix moyen du foncier constructible pour un ensemble de communes priphriques tait
inversement proportionnel la distance entre ces communes et le ple d'emploi.
Cette hypothse avait t en partie conforte par la figuration du graphique de dispersion (nuage de points)
dont l'allure montrait clairement une relation pouvant aller dans le sens des soupons avancs. Partant de l,
l'quation de la droite de rgression avait t calcule permettant tout aussi bien, le croyait-on, infrence,
interpolation et extrapolation. Les quelques tests raliss sur la base du modle linaire nous avaient
cependant interpel sur la fragilit du modle pour ce cas et il avait t suggr du coup l'emploi d'un modle
non-linaire plus appropri.
99
Mais absolument rien ne nous avait renseign sur la qualit et l'intensit de cette suppose liaison. L'utilisation
du coefficient de corrlation r doit nous permettre d'apprhender la qualit de la liaison. Son calcul nous donne
le rsultat suivant :
et
r
2
=0,48
Il s'agit d'un score modeste. La relation existe bel et bien mais n'est pas convaincante sur le plan statistique.
Plusieurs raisons cela :
Si, pour le calcul des prix moyen on s'est bas sur un chantillon de communes et/ou de terrains, le biais
introduit par la dmarche peut affecter la distribution en favorisant quelque peu la dispersion : l'chantillon n'est
pas forcment reprsentatif de la ralit et du coup la relation suppose entre les variables s'en trouve
perturbe.
Le relation entre les deux variables existe mais n'est de type linaire. Autrement dit, le prix moyen du foncier ne
dcrot pas linairement au fur et mesure que la distance augmente. L'ajustement trouve ses limites, comme
dj dmontr et la force de la liaison statistique en est affecte, diminue. Il faut trouver un autre modle non
linaire plus adapt au phnomne.
L'exercice n'ayant t ralis que sur anne, il se peut que cette anne ne soit pas reprsentative d'une
tendance sur une longue priode: des donnes extraordinaires pour cette anne ont pu polluer la
distribution et du mme coup accrotre la dispersion et fausser l'ajustement linaire.
Il se peut galement que le phnomne souffre d'anisotropie, c'est--dire qu'il prsente des variations
diffrentes selon les directions de l'espace : dans ce cas, la distance kilomtrique n'est pas suffisante pour
expliquer la dcroissance des prix. La distance temps, variable pour une mme distance kilomtrique d'un point
un autre compte tenu de la qualit des axes de circulation et de l'intensit du trafic, serait peut-tre plus
approprie pour expliquer la diminution des prix du foncier.
L'ensemble de ces remarques peuvent se combiner pour expliquer le score modeste obtenu.
Ritrons le calcul des coefficients r et r en utilisant cette fois-ci le modle de rgression puissance et
voyons ce que nous obtenons :
r=0,66 r
2
=0,44
Les rsultats ne sont pas meilleurs, ils sont mme moins bons qu'avec le modle linaire. Le problme ne rside
donc pas dans le choix du modle mais probablement davantage dans la construction de la distribution de la
population ou de l'chantillon. Le modle non linaire (puissance) n'ajuste pas mieux le nuage de points que le
100
r=
Cov ( x , y)
.Var ( x).Var ( y)
=
1
n

i =1
n
( x
i

x)( y
i

y)
.
1
n

i=1
n
( x
i

x)
2

.
1
n

i=1
n
( y
i

y)
2
=
61,19
.
36,71
.
212,04
=0,695
modle linaire. Pour ce qui est des interpolations, on lui prfrera donc le modle linaire. Par contre il produit
des extrapolations (ou des prdictions meilleures ou moins incohrentes que le modle linaire.
6.2.2 Erreur standard ou erreur-type de prdiction
On a vu comment le modle de rgression tait mme, dans certaines conditions, d'autoriser l'interpolation
comme la prdiction (extrapolation). On a galement vu de quelle faon l'on pouvait caractriser et mesurer
l'intensit de la relation entre deux variables. Les exemples exposs ont cependant montr de faon clatante
les piges et dangers de la mthode et insist sur les prcautions prendre afin au mieux de les viter, au pire de
rduire les risques d'erreur.
Quoiqu'il en soit, la prdiction, mme avec les meilleurs modles d'ajustement, demeure invitablement
entache d'une certaine erreur que l'on peut tenter de mesurer par l'intermdiaire d'un paramtre nomm
erreur standard de prdiction ou erreur-type note ES . Ce paramtre peut-tre considr et interprt comme
l'cart-type de la distribution (thorique) de toutes les erreurs qui seraient commises en effectuant la prdiction
pour un grand nombre d'individus (distribution suppose normale et de moyenne nulle la plupart du temps).
L'erreur standard de la prdiction peut tre estime en appliquant la formule:
ES y=c
y
.1r
2
Avec :
c
y
r
2
cart-type de la variable y
Coefficient de dtermination
ES renvoie l'erreur-type de la valeur y prvue pour chaque x de la rgression. L'erreur type est une mesure du
degr d'erreur dans la prvision de y partir d'une valeur individuelle x. L' erreur-type est l'cart-type estim de
l'erreur de cette estimation. C'est donc une estimation de l'cart-type entre les valeurs mesures ou estimes
(d'une distribution d'chantillonnage) et les vraies valeurs.
Dans la formule ci-dessus, on note que:
Si r = 1 ou si r = -1, Es = 0
Si r = 0, Es=
y
. La marge d'erreur est aussi importante que le dispersion de la distribution de y. La
prdiction est, dans ce cas, prohibe.
Par consquent, et afin de minimiser l'erreur-type synonyme d'un modle de prdiction fiable , on devrait
toujours exiger de ce dernier qu'il produise un coefficient de corrlation au moins 0,75 ou au moins -0,75.
l Exercice 21 : fichier Excel associ Exercice 21 - Ajustement et corrlation.xls .
101
Annexes
102
Annexe 1 : Prcision et explication sur une notation spcifique en statistique :
somme et produit
SOMME en statistique scrit avec le symbole (sigma majuscule). Elle a la mme signification quen
mathmatique : cest une addition de termes.
Mais comme souvent en statistique, on est amen additionner des sries relativement longues de valeurs (il
nest pas rare davoir additionner 1 000 voir 10 000 valeurs). Plutt que dcrire les 1000 ou 10 000 valeurs les
unes la suite des autres spares par un signe + , il a t dvelopp une notation synthtique ayant la mme
signification et produisant le mme rsultat.
Considrons une population compose de n = 10 individus. Chaque individu a, au sein de cette population, une
place, un nom, un identifiant : il y a lindividu n1, lindividu n2, lindividu n3, jusqu lindividu n10. On a vu
que la notation standard pour les individus statistiques est i . On peut donc crire que pour lindividu n1, i = 1,
que pour lindividu n2, i = 2 et ainsi de suite jusqu i = n = 10.
A chaque individu i correspond galement une valeur de la variable tudie x. Dune faon gnrale, on a donc
pour lindividu i la valeur de la variable x
i
. On aura pour lindividu i = 1 la valeur x
1
, pour lindividu i = 2 la valeur
x
2
et ainsi de suite jusqu i = n = 10 avec pour valeur x
10
.
Si je veux sommer les valeurs des 10 individus composant ma population, je dois crire :
x
1
+ x
2
+ x
3
+ x
4
+ x
5
+ x
6
+ x
7
+ x
8
+ x
9
+ x
10
ou plus simplement
i=1
n
x
i
=

i=1
10
x
i
qui se dit :
somme des x
i
pour i = 1 jusqu' 10 . Je somme donc les valeurs de la variable x pour les 10 individus. Si notre
population avait t compos de 1 388 individus dont nous aurions souhait faire la somme des valeurs pour la
variable y, nous aurions crit :
Dans les cas prsents, la somme s'est effectue du 1
er
au dernier individu (de 1 n). Mais elle peut trs bien tre
slective et se faire n'importe o dans une population, comme par exemple du 21
ime
individu au 133
ime
. Au
quel cas on crira pour une variable x :
La mme logique s'applique la notion de PRODUIT, note P (Pi majuscule) qui n'est autre chose que la
multiplication de termes.
Ainsi, partir du mme exemple que prcdemment, plutt que d'crire :
x
1
. x
2
. x
3
. x
4
. x
5
. x
6
. x
7
. x
8
. x
9
. x
10
on notera :
i=1
n
x
i
=

i=1
10
x
i
103

i=1
1388
y
i

i=21
133
x
i
Annexe 2 : Liste (non exhaustives) des fonctions Excel utiles en statistiques descriptive
Pour accder et insrer une fonction Excel une feuille de calcul, il existe deux possibilits :
Soit passer par le menu Insertion > Fonction
Soit directement via l'icne dans la barre d'outils. Si l'icne est absente de la barre d'outils, procder
comme suit pour l'y faire apparatre:
Dans la barre de menu choisir Outils > Personnaliser .
Slectionner alors l'onglet Commande et dans la liste Catgories l'option Insertion . S'affiche alors en face les
fonctionnalits disponibles et l'icne affecte. Choisir Insrer une fonction et faire glisser l'icne jusqu' l'endroit
de la barre d'outils o l'on souhaite la voir figurer dfinitivement.
Une fois l'opration termine, fermer la fentre Personnalisation .
104
Les fonctions intressantes en statistique :
Fonction
(dnomination franaise)
Rsultat
ABS
ARRONDI
CENTILE
COEFFICIENT.CORRELATION
COEFFICIENT.DETERMINATION
COVARIANCE
CNUM
DROITEREG
ECARTYPE
ERREUR.TYPE.XY
FREQUENCE
MAX
MEDIANE
MIN
MODE
MOYENNE
MOYENNE.GEOMETRIQUE
NB
NB.SI
NBVAL
PLAFOND
ORDONNEE.ORIGINE
PENTE
PRODUIT
QUARTILE
RACINE
SOMME
SOMME.CARRES
SOMME.SI
TENDANCE
VAR
VAR.P
Valeur absolue d'une nombre
Renvoie l'arrondi d'un nombre
Renvoie le k-ime centile d'une distribution
Renvoie le coefficient de corrlations d'une relation statistique entre deux variables
Renvoie le coefficient de dtermination d'une relation statistique entre deux variables
Calcule la covariance d'une relation statistique entre deux variables
Transforme une chane de caractre reprsentant un nombre en un nombre
Renvoie les paramtres de l'quation de la droite de rgression (a et b)
Calcule l'cart-type d'une distribution
Renvoie l'erreur type (ou erreur standard) de prdiction d'un modle de rgression
Calcule la frquence laquelle des valeurs apparaissent dans une plage de valeurs
Renvoie le maximum d'une srie de nombre
Calcule la mdiane d'une distribution
Renvoie le minimum d'une srie de nombre
Calcule le mode d'une distribution
Calcule la moyenne arithmtique d'une distribution
Calcule la moyenne gomtrique d'une distribution
Dtermine le nombre de cellules contenant des nombres et les nombres compris dans la liste des arguments.
Dtermine le nombre de cellules non vides d'une srie rpondant la condition
Compte le nombre de cellules qui ne sont pas vides et les valeurs comprises dans la liste des arguments.
Arrondi selon la prcision demande
Calcule l'ordonne l'origine (b) d'une droite d'ajustement
Renvois la pente (a) de la droite de rgression
Calcule le produit de plusieurs nombres
Calcule le quartile 1, 2 ou 3 d'une distribution
Renvoie la racine carr d'un nombre
Calcule la somme de plusieurs nombres
Calcule la somme des carrs d'une srie de nombre
Additionne des nombre si la condition est respecte
Calcule les valeurs par rapport une tendance linaire.
Estime la variance sur le base d'un chantillon
Calcule la variance d'une population
105
Annexe 3 : Activer la macro histogramme dans Excel
Source : http://support.microsoft.com/kb/214269/fr
Cet article dcrit tape par tape comment crer un histogramme avec un graphique partir d'un ensemble de
donnes d'exemple. L'utilitaire d'analyse compris dans Microsoft Excel inclut un outil Histogramme.
Vrifier l'installation de l'Utilitaire d'analyse
Avant d'utiliser l'outil Histogramme, vous devez vous assurer que le complment Utilitaire d'analyse est install.
Pour vrifier que l'Utilitaire d'analyse est install, procdez comme suit :
1. Dans Microsoft Office Excel 2003 et dans les versions antrieures d'Excel, cliquez sur Macros
complmentaires dans le menu Outils.
Dans Microsoft Office Excel 2007, procdez comme suit :
1. Cliquez sur le Bouton Microsoft Office, puis sur Options Excel.
2. Cliquez sur la catgorie Complments.
3. Dans la liste Grer, slectionnez Complments Excel, puis cliquez sur Rechercher.
2. Dans la bote de dialogue Complments, assurez-vous que la case cocher Utilitaire d'analyse est
active sous Complments disponibles. Cliquez sur OK.
REMARQUE : pour que l'Utilitaire d'analyse s'affiche dans la bote de dialogue Complments, il doit tre install
sur votre ordinateur. Si vous ne voyez pas l'Utilitaire d'analyse dans la bote de dialogue Complments,
excutez le programme d'installation de Microsoft Excel et ajoutez ce composant la liste d'lments installs.
Crer un histogramme
Dans le menu principal, choisir Outils puis Utilitaire d'analyse comme suit (Dans Excel 2007, cliquez sur
Analyse des donnes dans le groupe Analyse sous l'onglet Donnes) :
106
La liste suivante apparat. Choisir l'option Histogramme puis cliquer OK
S'affiche alors la fentre paramtrique suivante qu'il convient de complter en s'aidant eventuellement de l'aide
propose :
REMARQUE : vous ne serez pas en mesure de crer le graphique Histogramme si vous spcifiez les options
(Plage de sortie ou Nouvelle feuille de feuille de calcul) qui crent le tableau d'histogramme dans le mme
classeur que vos donnes.
Pour plus d'informations, cliquez (Ctrl Clic gauche de la souris) sur le numro ci-dessous pour afficher l'article
correspondant dans la Base de connaissances Microsoft.
214029 (http://support.microsoft.com/kb/214029/ ) Utilisation d'outils d'analyse des donnes dans des feuilles
regroupes
107
Annexe 4 : Tableau crois dynamique dans Excel : utilisation et complments
Introduction
Excel offre la possibilit de construire des tableaux de synthse relativement labors dont le principe repose sur le
croisement de plusieurs variables. L'appellation tableaux croiss dynamiques dcoule directement de ce principe, le
qualificatif dynamique faisant rfrence au fait que toute modification opres dans la srie de donnes se traduit
par une mise jour quasi automatique du tableau crois
Vocabulaire de base
Excel nomme champ les variables dcrivant les individus de la population tudie. Les champs constituent
en gnral les colonnes du tableau.
Les lignes du tableau Excel constituent les enregistrements qui dcrivent les individus de la population
tudie. Une ligne = un individu.
Exemple de structure d'une tableau Excel :
108
Cration d'un tableau crois dynamique
Du menu Donnes, slectionnez l'option Rapport de tableau crois dynamique.
L'cran suivant s'affiche :
Excel vous demande de prcisez la localisation de la source des donnes qui servira l'laboration du tableau
crois dynamique. Plusieurs possibilits s'offrent vous :
Liste ou base de
donnes Excel.
Les donnes proviennent d'une base de donnes Excel ou d'une srie de cellules situe sur une
feuille de calcul d'Excel.
109
Source de donnes
externes
Les donnes proviennent d'autres logiciels tels qu'Access, dBASE, FoxPro ainsi que plusieurs
autres.
Plage de feuilles de
calcul avec tiquette.
Crer automatiquement un tableau aprs lui avoir dtermin la plage de cellules utiliser. Il utilise
le contenu de la premire ligne et de la premire colonne pour dterminer le nom des champs du
tableau.
Autre tableau ou
graphique crois
dynamique
Vous permet d'approfondir des analyses sur des tableaux et graphiques dynamiques qui ont dj
t conus.
Excel vous demande ensuite quel type de rapport que vous souhaitez construire:
tableau crois dynamique : tableau crois seul
Rapport de graphique crois dynamique : cette option vous permet de construire des graphiques labors
partir de tableau crois. De ce fait, le choix de cette option s'accompagne galement de la construction d'un
tableau crois dynamique
Une fois votre choix fait, appuyez sur le bouton Suivant.
Par dfaut Excel slectionne l'entiret de la plage de donnes figurant sur la feuille active du fichier. Vous pouvez
modifier cette slection ou bien confirmer le choix d'Excel. Appuyer sur Suivant .
Excel vous demande ensuite de choisir l'endroit o vous voulez voir figurer les rsultats. Vous avez le choix entre une
nouvelle feuille et un endroit prciser de la feuille active.

Si vous appuyez sur Terminer , Excel s'excute et produit la structure du tableau crois l'endroit prcis. Vous
pouvez, avant cela, explorer les autres options proposes sur l'cran :
110
L'option Disposition vous permet de concevoir immdiatement le tableau crois dynamique (choix et
disposition des champs l'intrieur des diffrentes zones du tableau (page, ligne, colonne et donnes).
Donnes Cette zone affiche les rsultats que vous voulez voir pour un champ. Par dfaut, le
tableau affiche la somme des valeurs si celui-ci est compos de chiffres. S'il est
compos de texte, le tableau va afficher le nombre d'enregistrements qui rpond au
critre. Il y a d'autres fonctions qui sont disponibles tel que la moyenne, l'cart type et
plusieurs autres. Une liste sera mentionne la fin de cette page.
Colonne Affiche chacune des valeurs d'un champ dans sa propre colonne.
Ligne Affiche chacune des valeurs d'un champ sur sa propre ligne.
Page Permets de "filtrer" les valeurs du tableau par rapport aux valeurs d'un champ. Ceci
permet de voir seulement les enregistrements qui rpondent un certain critre.
Le placement des champs peut tre ralis plus tard
L'option Option vous permet de personnaliser l'affichage de l'information dans le tableau. Vous pouvez, par
exemple, dcider d'afficher ou non les totaux par ligne ou par colonne, de nommer votre tableau, etc.
Placer les champs : construction et remplissage du tableau
111
Ds lors que vous avez validez la cration du tableau en ayant appuyer sur Terminer avec ou sans option mais avoir
activer l'option Disposition , Excel cre l'endroit prcis, une structure vide de tableau dynamique qu'il vous
appartient de complter en y ajoutant les variables souhaites dans les zones ad hoc.
L'affichage de la structure du tableau s'accompagne normalement de l'apparition d'une nouvelle barre d'outils
spcialement ddie aux tableaux croiss dynamiques
Le remplissage du tableau peut alors s'effectuer
A partir de la liste de champs de tableau crois dynamique , slectionnez le champ Nombre de
personnes .
De la liste des zones du tableau, slectionnez la zone de donnes.
Appuyer sur le bouton Ajouter
OU
En gardant un doigt sur le bouton gauche de la souris, dplacez le champ dans la zone de donnes.
Relchez le bouton de la souris ds que le carr pour le champ Nombre de personnes est par-dessus la
zone de donnes.
112
Le tableau indique maintenant que le nombre total des personnes habitant dans le parc de logement de la Ville de Gray
s'lve 6 320. La prochaine tape consiste rpartir cette population par type et taille de logements.
De la barre d'outils Tableau crois dynamique, slectionnez le champ Type de logements .
De la liste des zones du tableau, slectionnez la zone de colonnes.
Appuyez sur le bouton Ajouter .
OU
En gardant un doigt sur le bouton gauche de la souris, dplacez le champ dans la zone de colonnes.
Relchez le bouton de la souris ds que le carr pour le champ Type de logements est par-dessus la zone
de colonnes.
La population est maintenant rpartie en fonction du type de logement. Remarquez que le total des personnes est
toujours de 6 320. Le tableau affiche chacune des valeurs du champ Type de logements avec le total des personnes
pour celui-ci. L'tape suivante consiste rpartir le total des personnes par Type de logements et par Nombre de
pices .
A partir de la barre d'outils Tableau crois dynamique, slectionnez le champ Nombre de pices .
En gardant un doigt sur le bouton gauche de la souris, dplacez le champ dans la zone de colonnes.
Relchez le bouton de la souris ds que le carr pour le champ Type de logements est par-dessus la zone
de colonnes.
Le champ Nombre de pices va tre automatiquement plac devant le champ Titre. cause de la longueur du
tableau, seulement une partie est affiche l'image ci-dessus. Il est possible aussi de changer l'ordre de prsentation
des champs. La prochaine opration consiste donner la priorit au champ Type de logements par-dessus Nombre
de pices .
Placez le pointeur par-dessus le champ Type de logements de la zone des colonnes du tableau crois
dynamique.
En gardant un doigt sur le bouton gauche de la souris, dplacez le champ Type de logements devant le
champ Nombre de pices .
Une fois devant le champ Nombre de pices , relchez le bouton de la souris.
113
Le tableau qui suit propose les mmes informations mais avec un arrangement diffrent. On dispose maintenant du
nombre de personnes par type de logement et selon le nombre de pices, le total gnral restant inchang. Pour ce
faire, procder comme suit :
Placez le pointeur par-dessus le champ Type de logements de la zone des colonnes du tableau crois
dynamique.
En gardant un doigt sur le bouton gauche de la souris, dplacez le champ Type de logements dans la zone
des lignes du tableau crois dynamique (par-dessus Somme de la ligne).
Une fois le champ est dans la zone des lignes, relchez le bouton de la souris.
Voir les donnes
Excel vous permet de voir l'ensemble enregistrements qui composent les rsultats du tableau. Pour ce faire, Excel
gnre automatiquement une nouvelle feuille. Vous pouvez obtenir le tableau des enregistrements pour n'importe
quelle cellule du tableau crois selon le mme principa.
Placez le pointeur sur la cellule contenant le total des personnes (6 320).
Faites un double-clic sur la cellule
114
Filtrer sur les champs
Excel vous permet de filtrer les donnes sur la base des modalits relatives chaque champ (ou variable) en fonction de
vos besoins. On peut ainsi masquer certaines modalits avec une mise jour automatique du tableau, sachant que l'on
peut tout moment faire rapparaitre les champs occults avec ractualisation du contenu du tableau.
Procdure de masquage de modalits:
la droite du champ Type de logements , cliquez sur le bouton avec un triangle pointant vers le bas. Cette
manipulation permet d'afficher l'ensemble des modalits disponibles et actives pour le champs Type de logements .
Vous avez alors la possibilit de dsactiver certains d'entre eux pour ne faire apparatre dans le tableau que les
informations relatives ceux encore actifs. Dans notre exemple, nous avons choisi de ne laisser actif que les modalits
collectif et maison individuelle .
Le tableau est automatiquement mis jour en tenant compte de vos choix. Vous pouvez tout moment revenir
une situation affichant l'ensemble des informations pour l'ensemble des modalits. Le total gnral n'est
videmment plus le mme puisque seule une partie de la population est maintenant prise en compte. Vous
remarquez galement que les modalits dsactives ne figurent plus dans le tableau.
Le filtrage peut s'effectuer sur plusieurs champs simultanment, par exemple sur Type de logements et Nombre
de pices .
115
Il est encore possible d'ajouter d'autres champs (ou variables) de manire affiner, si ncessaire, le filtrage des
informations. Cet ajout peut se faire dans la zone situe au-dessus du tableau et dite zone de page
A partir de la liste de champs de tableau crois dynamique, slectionnez le champ Statut d'occupation .
Dans la mme fentre, slectionnez zone de pages .
Appuyez sur le bouton Ajouter .
OU
En gardant un doigt sur le bouton gauche de la souris, dplacez le champ Statut d'occupation dans la zone
de pages du tableau crois dynamique.
Une fois le champ est dans la zone de pages, relchez le bouton de la souris.
Ds lors que le champ Statut d'occupation est la zone de pages, il vous est possible de filtrer toutes les informations
du tableau en activant uniquement par exemple la modalit Propritaire .
116
De cette faon, nous pouvons connatre prcisment la population ayant un statut de propritaire, vivant dans des
logements de 5 pices et plus en habitat de type collectif ou maison individuelle.
Les fonctions et options du menu et de la barre d'outils
La barre d'outils tableau crois dynamique offre d'autres options pour notamment modifier et amliorer
l'organisation et la prsentation de l'information :
Mettre en forme le rapport
117
A partir du tableau crois dynamique cr, cette fonction vous permet de construire une prsentation plus
labore des rsultats obtenus avec une meilleure matrise de la mise en page, des couleurs, de l'organisation en
gnral du tableau. Excel propose en standard un certain nombre de modle de mise en forme
Crer des graphiques partir du tableau crois
Il y a des situations o il est prfrable de reprsenter une masse de donnes sous forme de graphique comme
par exemple :
- Pour simplifier l'analyse d'une masse de donnes.
- Pour ressortir rapidement les tendances des sries de donnes.
- Pour pouvoir comparer les donnes.
- Pour ressortir des proportions.
118
Excel gnre par dfaut un graphique en barres. Il est bien entendu possible de modifier le type de graphique en
passant par la procdure classique prvue cet effet. Relativement au graphique dynamique, Excel vous donne la
possibilit de changer les variables reprsenter, de modifier les filtres, etc. avec effets immdiat sur le
graphique.
En appuyant sur le bouton une seconde fois, vous activez
l'assistant graphique qui vous permet de modifier le type de graphique comme vous le feriez lors de la cration
d'un graphique classique.
Assistant tableau crois dynamique
Cette option permet de changer la disposition des champs dans le tableau crois dynamique. Assurez-vous de placer le
pointeur l'intrieur du tableau crois dynamique.
119
Dans la barre d'outils du tableau crois dynamique, slectionnez l'option Assistant tableau crois dynamique .
L'assistant affiche la structure actuelle du tableau en vous laissant la possibilit de la modifier votre guise.
- Appuyez sur le bouton OK.
- Appuyez sur le bouton Terminer.
120
Actualiser les donnes
Cette option vous permet de remettre jour les donnes du tableau crois dynamique aprs qu'une modification
de la base de donnes ait t effectue.
- Placez le pointeur dans la feuille de calcul n'importe quel endroit
- Changer une ou plusieurs donnes
- Retourner la feuille de calcul ayant le tableau crois dynamique.
- Appuyez sur le bouton et voyez le rsultat notamment au niveau des sous-totaux.
Masquer ou afficher les dtails
Il est possible d'avoir dans une zone plusieurs champs pour mieux dcrire les valeurs. Ces options permettent d'afficher
ou de masquer les valeurs des champs qui sont la droite du champ slectionn. Si vous ne l'avez pas fait, ajoutez les
champs Nom et Prnom la zone des lignes.
Prenons le tableau suivant :
Placer le pointeur sur le champs poque de construction et appuyez sur le bouton
Bien que le nom du champs reste apparent, les informations s'y rattachant ont t masques et ne sont plus affiches
121
L'option permet de rafficher les informations caches dans les mmes conditions. Slectionnez le champs Type
de logement et cliquer sur l'icne pour faire rapparatre les informations relatives au champs poque de
construction .
En se positionnant nouveau sur le champ poque de construction et en cliquant sur , Excel affiche la liste
des champs non encore prsents dans la partie du tableau concerne et que vous pouvez ajouter.
Changer les paramtre des champs
Excel offre la possibilit de modifier les paramtres attachs un champ. Par dfaut, Excel produit pour un champ
soit la somme soit le nombre. D'autres fonctions sont pourtant disponibles.
Slectionner une des cases du tableau intitule Total nom du champ et cliquez sur l'icne . S'affiche alors la
fentre suivante qui vous autorise modifier les paramtres lis au champs slectionn. De total ou somme vous
pouvez passer nombre, moyenne, minimum, maximum, produit, cart-type, etc. selon les besoins. En choisissant par
exemple la paramtre moyenne en lieu et place de total , Excel remplace le total en colonne et en ligne par une
moyenne.
L'option Avanc vous permet de paramtrer plus en dtail la procdure en vous donnant la possibilit
d'effectuer par exemple des tris.
122
Par exemple, en slectionnant le champs somme de nombre de personnes et le transformant en moyenne de
nombre de personnes vous obtenez le nombre moyen de personnes occupant les logements selon la taille, le type et
l'poque de construction.
La liste des transformations possibles
Somme Affiche la somme de toutes les valeurs de ce champ.
Nbval Affiche le nombre d'enregistrements dans cette catgorie.
Moyenne Affiche la moyenne de toutes les valeurs de ce champ.
Max Affiche la plus grande valeur du champ.
Min Affiche la plus petite valeur du champ.
Produit Affiche la multiplication de toutes les valeurs du champ.
Nb Affiche le nombre d'enregistrements dans cette catgorie.
Ecartype Affiche l'cart type du champ.
Ecartypep Affiche l'cart type d'une population.
Var Affiche la variance du champ.
Varp Affiche la variance d'une population.
La fentre des paramtres du champ vous offre aussi d'autres options tel que dmontr dans la prochaine
partie.
123
Grouper ou dissocier des valeurs
Cette fonction vous permet de regrouper des modalits d'un mme champ.
On peut, par exemple regrouper les logements construite Av. 1915 avec ceux de 1915 1948 de faon former
une catgorie logements anciens . les informations et totaux ou autres paramtres seront rajusts
automatiquement.
La fonction Dissocier aboutit au rsultat inverse, dissociant les modalits groupes.
Changer le nom d'une cellule
-Placez le pointeur dans la cellule Groupe1.
-Cliquez dans la zone des formules.
-Changez le nom Administration.
OU
-Appuyez sur la touche F2.
-Changez le nom Administration.
-Placez le pointeur dans la cellule Groupe2.
-Cliquez dans la zone des formules.
124
-Changez le nom Terrain.
OU
-Appuyez sur la touche F2.
-Changez le nom Terrain.
Il reste qu'a changer le nom du champ Titre2 Regroupement.
-Placez le pointeur sur le champ Regroupement.
-Appuyez sur le bouton .
-Changez le nom du champ de Titre2 Regroupement.
L'employeur a besoin d'une synthse qui n'inclut pas les champs Titre, Nom et Prnom. On pourrait retirer les champs
inutiles. Mais nous allons simplement les masquer pour l'instant.
Placez le pointeur sur la cellule ayant le texte Administration.
Appuyez sur le bouton .
Placez le pointeur sur la cellule ayant le texte Terrain.
Appuyez sur le bouton .
Cration d'un champ calcul
Le tableau crois dynamique vous permet en plus d'ajouter des champs calculs. On peut, par exemple, calculer le
nombre moyen de pices par personne en fonction des critres dj prsent dans le tableau crois (poque de
construction, type de logement, statut d'occupation)
125
- Placez le pointeur sur le tableau crois dynamique.
- A partir de la barre d'outils pour le tableau crois dynamique, slectionnez les options Formules et Champ
calcul.
- Slectionnez les champs concerns et la relation qui les liera dans la formule
- Donnez ventuellement un nom votre champ calcul
- Cliquez OK et visualisez le rsultat
Rfrences
http://www.excel-online.net/tabl_crois.html
126

You might also like