You are on page 1of 31

Analysis of Variance (ANOVA)

Agenda
Characteristiques de lAnalyse de la Variance
Mthode Gnrale

Le modle
Les suppositions du modle
Test du supposition
La somme des carres
Calcul du test statistique
Exercise
Le carre d Epsilon

Example

Jan-16

Fethi Derbeli

Hypothesis Testing Roadmap

For all tests:


p > 0.05 Fail to Reject Ho (null)
p < 0.05 Reject Ho

Hypothesis Testing

Non Normal
Ho: s1 = s2 = s3 = ...
Ha: at least one is different
Minitab:
Stat - Anova Test for Equal Variances
For only two ss this is similar to an FTest: F=(S1)2 / (S2)2
If F calc > F table, then reject null.
(Use Chi-Squared for one sample)

Normality Test

Ho: Data is Normal


Ha: Data is NOT Normal
Minitab:
Stat - Basic Stat - Normality Test
Use Anderson-Darling

Contingency
Table

Normal
Two or More
Samples

Levenes Test

Ho: M1 = M target
Ha: M1 M target
1 Sample
Minitab:
Stat - Nonparametric - 1 Sample-Sign (OR)
Stat - Nonparametric - 1 Sample-Wilcoxon
(This is also used for paired comparisons:
Ho: M1 - M2 = 0)
M1 = Median of sample 1
M target = Target Median

One
Ho: s1 = s target
Sample
Ha: s 1 s target
Minitab:
Chi-Squared
Stat Basic Stats Display Descriptive
Statistics
Graphs: Graphical Summary
If s target falls with s CI, then fail to

Two or More
Samples
Ho: s 1 = s 2 = s 3 = ...
Ha: at leastone is different
Minitab:
Stat - Anova Test for Equal Variance
(For only two ss this is the same as an FTest: F=(S1)2 / (S2)2
If F calc > F table, then reject null.

Bartletts Test

reject Ho.
Ho: 1 = target
Ha: 1 target
1
Minitab:
Stat - Basic Stats - 1 Sample-T

Sample T Test

Stat Basic Stats Display Descriptive


Statistics
Graphs: Graphical Summary

Two
Samples

Two or More
Samples

One Way
Anova

If Xbar target falls with CI, then


fail to reject Ho.

2 or More

Ho: M1 = M2 = M3 = ...
Samples
Ha: at least one is different
Minitab:
Stat - Nonparametric - Mann-Whitney (OR)
Stat - Nonparametric - Kruskal-Wallis (OR)
Stat - Nonparametric - Moods Median (OR)
Stat - Nonparametric - Friedmans
M1 = Median of sample 1, etc...

Jan-16

Ho: Two factors are independent


Ha: Two factors are dependent
Minitab:
Stat -Tables - Chi-square Test

Attribute Data (2 factors only)

Continuous Data (one factor only)

Ho: 1 = 2

2 Sample T Test
( Variances Equal)

Ha: 1 2
Minitab:
Stat - Basic Stats - 2-Sample T
(Compares Means using pooled Std Dev)
Assume equal variances

Ho: 1 = 2

2 Sample T Test
(Variances Not Equal)

Ha: 1 2
Minitab:
Stat - Basic Stats - 2-Sample T
(Compares Means using each sample Std Dev)

Fethi Derbeli

Ho: 1 = 2 = 3 = ...
Ha: at least one is different
Minitab:
Stat - Anova- One-way (or
one-way unstacked)
Assumes Equal Variances
(Bartletts test must fail to
reject that variances are =.

Analyse de la Variance
LAnalyse de Variance est un outil utilis pour dtecter sil
existe une diffrence statistique ( ou s) entre plusieurs
facteurs et si cette diffrence est attribue au hasard ou une
cause spcifique (les paramtres viennent de mme population
ou non.)
Cet outil utilise les statistiques pour dterminer si la variation
dans un facteur est suprieure ou infrieure la variation entre
les facteurs. Si la variation entre les facteurs est suprieure la
variation entre les niveaux de facteurs, alors on dit que le
facteur est significatif
Les outputs sont gnrallement mesures sous forme
dintervalle/Echelle (Rendement, temprature, voltes, %
impurits, etc)
Les inputs ou facteurs sont des donnes catgoriques.
On veut rpondre la question:
Existe t il une diffrence significative entre _____&____&___?
Jan-16

Fethi Derbeli

Mthode ANOVA
Step 1: Statuer le problme pratique (Graph data)
Step 2: Statuer lhypothse nulle et alternative
Step 3: Choisir le test statistique appropri ANOVA
Les moyennes sont indpendantes et normalement distribus
Les variances sont gaux pour tous les facteurs

Step 4: Statuer le niveau alpha (5%)


Step 5: Calculer la taille des chantillons
Step 6: Dvelopper le plan dchantillonage
Step 7: Construire le tableau ANOVA
Step 8: Interprter p-value (or the F-statistic) pour leffet des facteurs
P-value <.05, REJETER Ho
Autrement lhypothse nulle ne peut pas tre rejete
Calculer le carre epsilon

Step 9: Faire la supposition pour lerreur (analyse des rsidus)


Erreurs sont indpendantes et distribues normalement

Step 10: Traduire la conclusion statistique en langage processus


Jan-16

Fethi Derbeli

Step 2 & 3:
H 0 : s pop1 = s pop2 = s pop3 = s pop4 = ...
H a : au moins un est diffrent

La moyenne est indpendant et normal


Des prlvement alatoire durant lexperience
Assurer une taille adquate de lchantillon
Vrifire le test de normalit
Stat > Basic Stats > Normality Test

Les variances des populations sont gales tous les niveaux des facteurs (test
dgalit des variances)
Stat > ANOVA > Test for Equal Variances

Note: La diffrence entre facteurs peut tre


impacte par la variance dun facteur si les
variance ne sont pas gaules. La
supposition de lgalit des variances est
gnralemnt vrai surtout si on un test
quilibr (m^mme nombre dobservation)
Jan-16

Fethi Derbeli

Step 7: Tableau ANOVA


SOURCE

SS

df

MS

Test Statistic

Factor

SSfactor

g-1

MSfactor= SSfactor/(g-1)

F= MSfactor/ MSerror

Error

SSerror

g(n-1)

MSerror= SSerror/[g(n-1)]

Total

SStotal

ng-1

2
2
2
(
x

x
)
=
(
x

x
)

(
x

x
)
ij
j
ij j
j =1 i =1

j =1

SStotal

j =1 i =1

SSfactor

Where:
g = nombre des
sousgroupes
n = nomber des
chantillons par fateurr

SSerror
Entre- Groupe
Variation
(SSfactor)

Total
Variation
(SStotal)

Jan-16

Dans le Groupe
Variation
(SSerror)

Fethi Derbeli

Steps 8-10
Step 8: Interpreter le p-value (ou le F-statistic) pour leffet des
facteurs
P-value < .05, rejeterHo
Autrement assumer que lhypthse nulle est vrai.
Calculer le carre depsilon des facteurs et lerreur

2
factor

SS Between
=
SSTotal

2
error
=

SSError
SSTotal

Step 9: Faire la supposition pour lerreur (analyse des rsidus)


Erreurs sont indpendantes et distribues normalement
Effectuer lhistogramme des rsidus, le test de normalit , le
charte graphique (erreur par rapport la moyenne)
Step 10: Traduire la conclusion statistique en langage processus
Jan-16

Fethi Derbeli

ANOVA Problme Pratique


Une socit financire possde quatre sites diffrents qui traitent les affaires de
crdit. Le tableau ci-dessous contient les donnes de productivit sur le nombre
moyen de cas traits par heure pour un chantillon demploys sur chacun des
quatre sites.
Site 1
14.9
15.7
15.2
15.8
15.1
16.3
14.4
15.9

Site 2
15.7
16.6
16.5
16
15.7
16.4
16.7
16.8
16.3
16.5

Site 3
17.3
17.2
17.4
17.2
17
17.6
17.4
17.3
16.5
16.7

Site 4
15.2
14.8
14.3
14.9
15.4
14.9
14.6
15.1
15
14.7

Que pouvez-vous dire des donnes ?


Y-a-t-il une diffrence entre les sites ?
Jan-16

Fethi Derbeli

ANOVA Problme pratique


Graphique des principaux effets pour le nbre de cas/heure

Main Effects Plot for Cases / Hour

Il semble que la
productivit de
cas par heure soit
la plus leve au
site 3.

Cases / Hour

Cas/heure

17

16

Comment
pouvons-nous en
tre srs ?

15

Site

Les graphiques des effets principaux ne


sont pas des tests statistiques !
Jan-16

Fethi Derbeli

10

ANOVA - Thorie et Calculs manuels


calculer les estimations de variabilit expliques par chaque source.

Variations

Variations dues aux


niveaux des facteurs

Variations dues
lexprience

SS Total = SS

+ SS Erreur
Niveau facteur

2 k
= +

_ 2
(yij yi)

n*(yi-y) (yij-=y)2 = i
=1
i = 1j = 1

i=1 j=1
O:

y = la moyenne globale
yij = la jme observation dans le ime chantillon
n = le nombre dobservations par groupe (8 ou 10)
k = le nombre de niveaux de facteurs (4)

Jan-16

Fethi Derbeli

11

ANOVA - Supposition des variances gales


Test dhomognit de la variance pour le nbre de cas/heure

Test de Bartlett
Donnes normales

Homogeneity of Variance Test for Cases / Hour

Intervalles de Confiance 95% pour Sigmas


95% Confidence Intervals for Sigmas

Niveaux de facteurs

Factor Levels

Ho: s1 = s2 = s3 = ...
Ha: au moins une diffre

Bartlett's Test
Test Statistic: 4.646
P-Value

: 0.200

Levene's Test
Test Statistic: 2.326
P-Value

0.0

0.5

1.0

1.5

: 0.092

La valeur-P doit
tre > 0.05 pour quon
ne rejette pas Ho.
Test de Levene
Donnes non normales
Ho: s1 = s2 = s3 = ...
Ha: au moins une diffre

La valeur-P doit
tre > 0.05 pour quon
ne rejette pas Ho.

Pour que les rsultats dANOVA soient valables, il faut que les variances soient gales
Jan-16

Fethi Derbeli

12

ANOVA - Thorie et calculs manuels


Graphiques de dispersion des donnes par site

Cas/heure
Cases Per Hour

17.5

16.5

Moyenne globale
=15.97

15.5

14.5
1

Site

Site 1
15.41
Jan-16

Site 2
16.32

Site 3
17.16

Site 4
14.89
Fethi Derbeli

La variation dans un site est-elle


moindre que celle entre les sites ?
13

ANOVA - Thorie et Calculs manuels


=
( y ) des 38 observations est 15.974
_
Moyenne des 4 sites _
( yi ) de
_
y1 = 15.413
_
y2 = 16.320
_
y3 = 17.160
y4 = 14.890
_ =
Les rsultats des effets du niveau des facteurs ( yi -y
) sont
La moyenne globale

=
y1 - y
__
=
y2 - y
_
=
y3 - y
_
=
y4 - y

= 15.413-15.974 = -0.561
= 16.320-15.974 = 0.346
= 17.160 -15.974 = 1.186

= 14.890-15.974 = -1.084
_ =
Les termes derreur, ou valeurs rsiduelles
( yij - yi ) sont calculs comme suit
_
y11 - y1 = 14.9 - 15.413 = -0.513

Jan-16

Fethi Derbeli

14

ANOVA - Thorie et Calculs manuels


15.974

Jan-16

Moyenne globale

-0.561

0.346

1.186

-1.084

-0.513
0.287
-0.213
0.388
-0.313
0.888
-1.012
0.488

-0.62
0.28
0.18
-0.32
-0.62
0.08
0.38
0.48
-0.02
0.18

0.14
0.04
0.24
0.04
-0.16
0.44
0.24
0.14
-0.66
-0.46

0.31
-0.09
-0.59
0.01
0.51
0.01
-0.29
0.21
0.11
-0.19

Fethi Derbeli

Effets des niveaux de facteurs


Termes derreurs ou
valeurs rsiduelles

15

ANOVA - Thorie et Calculs manuels


Etape 3 (suite): Calculer les estimations de la variabilit expliques par
chaque source.

Variations
SS
k

=
Total

=2

Variations dues aux


niveaux des facteurs

= SS

Niveau facteurs

35.534
Jan-16

+ SS

Erreur

_ =2 k n
2
_
=
n*(yi y) +
(yij yi)
i=1
i = 1j = 1

(yij-y)

i=1 j=1

Variations dues
lexprience

29.536
Fethi Derbeli

5.998
16

ANOVA - Thorie et Calculs manuels


calculer les estimations de la variance.
Lorsque les sommes des valeurs au carr sont divises par le nombre
appropri de degrs de libert, la moyenne des valeurs au carr donne
une bonne estimation de la variabilit.

MS Niveau facteur
MS Erreur

Jan-16

29.536
SS niveau facteur _______
____________
=
= 4-1
= 9.845
k-1
SS Erreur
= ________
n-k

5.998
= ______
38 - 4

Fethi Derbeli

= 0.176

17

ANOVA - Thorie et Calculs manuels


calculer la statistique du test-F.
MS Niveau facteur= _____
9.845 = 55.81
Fo = ____________
MS Erreur
0.176
Est faible, lerreur joue peut-tre un GRAND rle
Variation
(facteur)
SI
Variation (erreur) comme facteur. On ne peut pas prouver que le
Donnezmoi un
F!

facteur est fortement responsable des diffrences de


russites. Ne pas rejeter Ho.
Est grande, le facteur joue un rle significatif dans
les diffrences de russites. On peut rejeter Ho.

Le taux F sert dterminer la valeur P!


Jan-16

Fethi Derbeli

18

ANOVA - Thorie et Calculs manuels


Evaluer la valeur-P.
Si la valeur-P < 0.05, alors, rejeter Ho et conclure quau moins lune des
moyennes est diffrente.
Dans notre exemple, Minitab nous fournit une valeur-P = 0.000.
Par consquent, Ho peut tre rejete et nous pouvons conclure que la
moyenne des cas traits par heure est diffrente dans au moins un site.
Autrement dit, la variation entre les sites est suprieure la variation
dans chaque site.

Quel site est le meilleur ? Quel site est diffrent?


Jan-16

Fethi Derbeli

19

ANOVA - Rsultats sur Minitab


Analyse de Variance sens unique
Analyse de variance pour le nbre de cas par heure
Source
DF
SS
MS
F
Site
3
29.536
9.845
55.81
Erreur
34
5.998
0.176
Total
37
35.534

Sources de
variabilit

Jan-16

Mesure
quantitative
de la
variabilit
explique
Quantit
par chaque
dinformation
source
Degrs de
libert

Estimation
des variances La mesure
statistique
utilise
pour
dterminer
si un
facteur est
significatif
Fethi Derbeli

P
0.000

Erreur de
Type I
(valeur-P)

20

Exemple Step 1
Problme practique: Les data
rcents pour un mlange de
production montrent un taux de
brlure plus faibles que les
anciennes Lingenieur de
production croit que le problme
vient dun oxydant de nitramine.
Un prlevement sur 17 mlange
venant de 3 lots de nitramine. Il
veut savoir si le taux de brlure est
impact par les lots.
Jan-16

Fethi Derbeli

Fn: Oxidizer.mtw
Lot 1

Lot 2

Lot 3

0.526

0.522

0.457

0.532

0.535

0.507

0.514

0.515

0.464

0.501

0.555

0.475

0.511

0.481

0.471
0.506
0.444

21

Step 1 (cont)
Cest conseille de visualiser les data sous formes
graphique
Graph > Plot
Stat > ANOVA > Main Effects Plot
Main Effects Plot - Data Means for Burning Rate

0.534

0.55

Burning Rate

Burning Rate

0.524

0.50

0.514

0.504

0.494

0.484

0.45

0.474

Lot

Jan-16

Lot
Fethi Derbeli

22

Exemple Step 2
Statuer lhypothse nulle et alternative

H o : Lot1 = Lot 2 = Lot 3


H a : au moinsun lot est diffrent
Interprtation du nulle: Les lots nont pas deffet
sur le taux de brlure
Interprtation de lalternative: Au moins un lot
affecte le taux de brlure

Jan-16

Fethi Derbeli

23

Exemple Step 3
Est ce que ANOVA est le test appropri?
Les moyennes doivent tre indpendantes et normalement distribues
Stat > Basic Stats > Normality Test (each individual data set)
Lgalit des variances est vrai pour tous les facteurs
Stat > ANOVA > Test for Equal Variances (use stacked data)

Test for Equal Variances for Burning Rate

Normal Probability Plot

95% Confidence Intervals for Sigmas

Factor Levels
Lot 1

.999

Bartlett's Test

.99

Test Statistic: 1.269

Probability

.95

P-Value

.80

: 0.530

.50
Lot 2

.20
.05

Levene's Test

.01

Test Statistic: 0.310

.001

P-Value

0.45

0.50

0.55
Lot 3

Burning Rate
Average: 0.500897
StDev: 0.0309233
N: 17

Jan-16

: 0.739

Anderson-Darling Normality Test


A-Squared: 0.327
P-Value: 0.488

0.00

Fethi Derbeli

0.05

0.10

24

Exemple Steps 4-7


Statuer niveau alpha (0.05), determiner la taille de
lchantillon qui est effectu alatoirement pour
chaque lot
Construire le tableau ANOVA (using Minitab)
Stat > ANOVA > Oneway (or Oneway Unstacked)
Store Residuals; Store Fits

Note:
Le Fit est la moyenne de chaque lot
Le Residual est (valeur observ
la moyenne)

Jan-16

Fethi Derbeli

25

Exemple Step 7
One-way ANOVA: Burning Rate versus Lot

Analysis of Variance for Burning


Source

DF

SS

MS

0.006775

0.003387

5.56

0.017

Error

14

0.008525

0.000609

Total

16

0.015300

Lot

Individual 95% CIs For Mean


Based on Pooled StDev
Level

Mean

StDev

Lot 1

0.50060

0.02943

Lot 2

0.53184

0.01773

Lot 3

0.47663

0.01948

----------+---------+---------+-----(-----*-----)
(--------*--------)
(-------*-------)
----------+---------+---------+------

Pooled StDev =

Jan-16

0.02468

0.480

Fethi Derbeli

0.510

0.540

26

Exemple Step 8
Interpreter la p-value (ou F-statistic)
Assumant que la supposition du rsidu est
satisfaisante:
Si p-value is < 0.05, rejeter Ho
Autrement, lhypothse nulle est vrais
Analysis of Variance for Burning
Source

DF

SS

MS

0.006775

0.003387

5.56

0.017

Error

14

0.008525

0.000609

Total

16

0.015300

Lot

p-value est infrieur


5% don au moins
la moyenne dun lot
est diffrent. On
rejete lhypothse
nulle

F-test est proche de 1.00 lorsque les moyennes


des groupes sont similaires. Dans notre cas
F-test est plus grande.
Jan-16

Derbeli
ANOVAFethi
- 27

27

Exemple Step 8
Calculer le carre depsilon et lerreur
SS Lot
.006775
=
=
= .44
SS Total .015300
2

44% de la variabili t du taux de brlure vient du lot

Jan-16

Fethi Derbeli

28

Exemple Step 9
: la supposition pour lerreur (analyse des rsidus)
Erreurs sont indpendantes et distribues normalement
Stat > Regression > Residual Plots
Residual Model Diagnostics
La normalit des
rsidus

Normal Plot of Residuals

I Chart: Are there


trends or
outliers?

I Chart of Residuals
0.1

0.04

UCL=0.07675

Residual

Residual

0.02
0.00
-0.02

0.0

Mean=-2.9E-17

Le comportement de
rsidus le long de
lexprience. Allure
normale.

-0.04
LCL=-0.07675

-0.06

-0.1
-2

-1

Normal Score

5
4

0.02

3
2
1

10

15

Residuals vs. Fits


0.04

Residual

Frequency

Histogram of Residuals

Forme de
lhistogramme ?

Observation Number

0.00
-0.02
-0.04

0
-0.060
-0.045
-0.030
-0.0150.0000.0150.030

-0.06
0.4750.4850.4950.5050.5150.5250.535

Residual

Le modle
mathmatique a quel
degr est reprsentative
(les points qui ne colle
pas au modle).

Fit

Alatoire autour zero


sans tendances?
Jan-16

Fethi Derbeli

29

Exemple Step 10
Traduire la conclusion statistique en langage
processus :
Les lots naffectent pas le taux de brlure. Mais le lot 2
prsente le taux le plus optimale.
Individual 95% CIs For Mean
Based on Pooled StDev
Level

Mean

StDev

Lot 1

0.50060

0.02943

Lot 2

0.53184

0.01773

Lot 3

0.47663

0.01948

----------+---------+---------+-----(-----*-----)
(--------*--------)
(-------*-------)
----------+---------+---------+------

Pooled StDev =
Jan-16

0.02468

0.480
Fethi Derbeli

0.510

0.540
30

Questions?

Jan-16

Fethi Derbeli

31

You might also like