Professional Documents
Culture Documents
J.L. Avenbury
65
66
ELEMENTE DE BIOSTATISTICĂ. INDICATORI STATISTICI
1. OBIECTIVELE STATISTICII
67
NOŢIUNI DE STATISTICĂ
68
2.3. Caracteristica (variabila) este una din însuşirile prin care se manifestă
unitatea de observare, este acea însuşire comună unităţilor unei populaţii
investigate.
Analiza studiului unei populaţii se poate face după una sau mai multe
variabile.
Exemple:
1. Să presupunem că interesează studiul numărului de eozinofile la
bolnavii internaţi într-un spital de boli infecţioase
- Populaţia statistică este formată din mulţimea bolnavilor
internaţi într-o anumită perioadă (un an),
- O unitatea statistică este constituită din fiecare bolnav,
- Caracteristica studiată este numărul de eozinofile ale
bolnavului la internare,
- Un eşantion din această populaţie statistică poate fi, de
exemplu mulţimea alcătuită din 100 de bolnavi internaţi luaţi
din doi în doi în ordinea internării.
2. Să presupunem că într-un studiu prezintă interes numărul de pacienţi
consultaţi zilnic în cabinetele medicilor de familie dintr-o anumită zonă.
Atunci:
- Populaţia statistică este reprezentată de mulţimea
cabinetelor,
- O unitate statistică este reprezentată de oricare cabinet,
- Numărul de pacienţi consultaţi zilnic reprezintă o
caracteristică.
Pentru studiile medicale este foarte importantă stabilirea exactă a
condiţiilor de incluziune şi excluziune pentru precizarea exactă a populaţiei
statistice.
69
fi de regulă o mulţime finită conţinând nivele calitative posibile ale
caracteristicii.
70
• Nominale ordonate – subiecţii sunt grupabili în categorii ce pot fi ordonate
(exemplu starea de sănătate= precară, bună, foarte bună)
• Dichotomiale – subiecţii sunt întotdeauna grupaţi doar în două categorii
(exemplu: vii / morţi, masculin / feminin)
2.5 Varianta este valoarea concretă sub care se înregistrează o variabilă. De
exmplu, variabila glicemie s-a înregistrat sub valoarea de 120 mg, într-un caz
studiat. Aceasta una dintre variantele sub care se poate înregistra caracteristica
respectivă (glicemia).
2.7. Seria statistică (sau repartiţia statistică) este şirul de valori numerice ale
unei variabile, ordonate după un anumit criteriu, în funcţie de şirul valorilor
altei caracteristici, reprezentând corespondenţa dintre două şiruri de date.
Repartiţia statistică este caracterizată de legea de repartiţie.
După numărul de variabile luate în considerare simultan seriile statistice
pot fi:
• Univariate, dacă se referă la o singură variabilă,
• Bivariate, dacă de referă la două variabile,
• Multivariate, dacă se referă la mai mult de două variabile.
Dacă seriile se referă doar la variabile cantitative continue, atunci ele se
mai numesc unidimensionale, bidimensionale sau multidimensionale în funcţie
de numărul de variabile implicate.
71
în spaţii diferite, fie pentru categorii diferite constituite în raport cu o
caracteristică oarecare.
3. CULEGEREA DATELOR
72
• Serii de variaţie simple
• Serii de variaţie cu clase
Exemplu:
Variabila* Frecvenţa
Xi fi
0 8
1 12
2 11
3 13
4 14
5 21
. .
. .
95 2
96 0
97 0
98 0
99 1
∑ fi =1.000
Pentru seriile de variaţie foarte lungi care pentru unele valori au frecvenţa
nulă, se preferă alcătuirea unei grupări în subdiviziuni ale domeniului de
variaţie al caracteristicii observate (clasă, grupă, categorie). În această situaţie
prezentarea informaţiilor se face printr-o serie de variaţie cu clase. Se
73
recomandă crearea unor clase egale ca mărime, cu intervalele externe închise.
Limitele de clasă, inferioară şi superioară, nu trebuie să se suprapună.
De exemplu 0-4 ani, 5-9 ani, 10-14 ani etc.….. şi nu 0-5 ani, 5-10 ani, 10-
15 ani etc.
Exemplu:
x max - x min
i =
1 + 3.322 ⋅ log n
74
unde: I – mărimea intervalului
x max - x min – valoarea maximă – valoarea minimă
k
n – numărul cazurilor ( ∑ fi )
i=1
În cazul seriilor de variaţie cu clase (toate clasele sunt considerate egale),
pentru efectuarea prelucrărilor statistice este necesar a se calcula centrul clasei
(valoarea centrală a intervalului) care se notează cu Xi' .
Centrul clasei se determină diferit, în funcţie de caracterul variabilei.
Pentru variabilele cantitative continue, centrul clasei este egal cu
semisuma valorii minime a clasei respective şi a valorii minime a clasei
următoare.
Pentru variabilele cantitative discontinue, centrul clasei este egal cu
semisuma valorilor extreme ale clasei. Nu este obligatoriu ca centrul clasei să
fie o valoare întreagă.
Pentru variabilele cantitative continue, cu mai multe valori (peste 10) se
observă că o mare parte dintre observaţii se concentrează în jurul unei valori
centrale.
Această concentrare este denumită tendinţa centrală a distribuţiei de
frecvenţă.
75
4.INDICATORI AI TENDINŢEI CENTRALE
ŞI DE DISPERSIE, PENTRU CARACTERISTICI CANTITATIVE
4.1.1. Media
_
4.1.1.1. Media aritmetică ( x )
Media aritmetică este o măsură a valorii centrale a setului de date în jurul
căreia fluctuează datele setului. Media nu dă nici o indicaţie asupra gradului de
fluctuaţie (de abatere) de la medie, adică asupra a ceea ce se numeşte frecvent
dispersia datelor.
Media aritmetică a seriei de date asociate unui eşantion x1 , x2 , ….., xn,
este raportul dintre suma acestora şi numărul lor:
n
∑ xi
i=1 x1 + x2 + …..+ xn
x = =
n n
unde:
x – media aritmetică,
n
∑ xi suma valorilor seriei de date (a variabilei),
i=1
n – numărul valorilor (seriei de date),
i = 1, 2,…, n
76
∑ xi⋅ fi x1 f1 + x2 f2 + + xk f k
x = =
∑ fi f1 + f2 + …..+ fk
unde:
x – media aritmetică ponderată,
k
∑ xi⋅ fi - suma produsului dintre valorile variabilei şi frecvenţa lor în
i=1 serie,
k
∑ fi - numărul valorilor, exprimat ca sumă a frecvenţelor.
i=1
Exemplu:
Durata unei boli exprimată în zile, pentru zece determinări poate fi:
4,5,3,5,6,6,10,4,5,5. Durata medie (media aritmetică) a bolii va fi de 5,3 zile:
4+5+3+5+6+6+10+4+5+5 53
x = = = 5,3 zile
10 10
Calculând durata medie cu ajutorul celei de a doua formule vom avea:
_ 3+4+4+5+5+5+5+6+6+10
x =
10
k
∑ ( xi - x ) ⋅ fi = 0
i=1
unde:
xi - valorile variabilei,
x – media aritmetică,
77
fi – frecvenţa; i= 1, 2,……, k.
k
∑ x′ i ⋅ fi
i=1 unde: x′ i = centrul clasei
x =
∑ fi
Proprietăţi ale mediei aritmetice:
x″ = hx
78
Astfel, se practică în mod obişnuit determinarea unei medii modificate
prin eliminarea a 5% dintre valorile extreme (cum este cazul în programul
statistic SPSS).
∑ wi ⋅ xi
μx =
∑ wi
1. Pentru serii cu număr impar de valori (2k +1), mediana este valoarea
de rang k+1.
2. Pentru serii cu număr par de valori (2k), mediana se află între valorile
de rang k şi k+1, convenindu-se a fi reprezentată de media aritmetică a
celor două valori.
Exemplu:
Caracteristicile lungimii la naştere sunt: 48, 49, 50, 52, 54 cm. Se observă
că valoarea 50 este mediana. Ea a împărţit şirul de valori astfel încât numărul
valorilor mai mici decât ea însăşi să fie egal cu numărul valorilor mai mari, în
exemplu existând valorile inferioare 48, 49 şi valorile superioare 52, 54.
În cazul seriilor cu număr impar de valori mediana este o valoare
observată (ca în exemplu dat). În cazul seriilor cu număr par mediana este o
valoare calculată.
Exemplu:
Fie seria 48, 49, 50, 51.
În acest caz mediana trebuie plasată între valorile 49 şi 50, atribuindu-i-se
valoarea 49,5, rezultat al semisumei celor două valori delimitatoare
49 + 50
( = 49,5 )
2
79
Referitor la aceste exemple se poate spune că mediana a avut poziţia sau
rangul 3 pentru primul exemplu şi respectiv, rangul 2,5 în cazul celui de-al
doilea exemplu. Apare evident că determinarea medianei este legată de ordinea
variantelor, motiv pentru care ea poate fi numită şi medie de poziţie.
Rangul medianei se poate calcula cu formula:
∑ fi + 1
Rg =
2
În cazul în care observaţiile sunt grupate în clase de frecvenţă, clasa
mediană este cea care conţine mediana. Ca şi la medie, în cazul seriilor de
variaţie cu clase, se introduce o eroare în determinarea medianei.
Proprietăţi ale medianei:
1. Mediana nu este afectată de valorile extreme ale seriei de date, chiar dacă ele
sunt mult diferite de celelalte, având un caracter “aberant”.
2. Valoarea obţinută pentru mediană poate să fie nereprezentativă pentru
distribuţia seriei de valori dacă acestea nu se grupează înspre valoarea
centrală.
Comparativ cu media, mediana ca indicator are o capacitate mai mică în
estimarea populaţiei de origine printr-un eşantion. Din acest motiv în analiza
statistică va fi folosită mai mult media decât mediana.
Mo = x + 3 (Me - x )
80
Din punct de vedere grafic modul reprezintă abscisa căreia îi corespunde
ordonata maximă.
Modul poate oferi indicaţii asupra omogenităţii seriei de variaţie.
xi fi xi fi
33 1 33
38 5 190
43 10 430
48 27 1296
53 25 1325
58 11 638
63 8 504
68 7 476
73 3 219
78 1 78
83 1 83
88 1 88
- 100 5360
∑ xi⋅ fi 5360
x = = = 53,60 ⇒ Media
∑ fi 100 aritmetică este 53,60.
∑ fi + 1 101
Rg Me = = = 50,5 ⇒ Rangul
2 2 medianei este 50,5.
x50 + x51 53 + 53
Me = = = 53 ⇒ Mediana este
2 2 53.
81
4.2. INDICATORI DE DISPERSIE PENTRU CARACTERISTICI
CANTITATIVE
4.2.1.Amplitudinea
Amplitudinea absolută (A) reprezintă diferenţa dintre valoarea maximă şi
valoarea minimă din serie.
A = x maxim – x minim
82
Exemplu:
Fie seriile de variaţie pentru dimensiunile unor celule (µ ):
A
A% = ⋅ 100
x
unde:
A% - amplitudinea relativă
A – amplitudinea absolută
x – media aritmetică a seriei
83
Formula varianţei este:
k
∑ ( xi - x )2 ⋅ fi
i=1 (x1 - x)2⋅ f1 +…+ (xk - x)2⋅ fk
sx2 = =
k f1 + f2+ …+ fk
∑ fi
i=1
unde:
sx2 – variaţia variabilei x
xi - valorile din şir (variabile x)
x – media aritmetică a şirului
fi - frecvenţa
n n
∑ ( xi - x ) 2
∑ ( xi - x )2
i=1 i=1
sx = =
2
n n
∑ fi
i=1
În cazul eşantioanelor mici, adică pentru un număr mic de observaţii (n≤
30), se utilizează formula următoare, care reduce eroarea de calcul:
n
∑ ( xi - x )2
i=1
sx =
2
n–1
Avantajul excepţional pe care îl prezintă varianţa faţă de ceilalţi indicatori
de dispersie îl reprezintă faptul că varianţa unui eşantion permite o bună
estimare a varianţei populaţiei.
Limitele interpretative ale varianţei provin din faptul că valorile extreme
ale seriei intervin puternic asupra mărimii indicatorului datorită abaterilor lor
mari faţă de medie. Aceste abateri devin şi mai mari prin ridicarea la pătrat,
impusă de formula de calcul.
Varianţa se exprimă prin pătratul unităţii de măsură a variabilei (cm2,
grame2, zile2, etc.).
84
Varianţa nu permite compararea dispersiilor fenomenelor măsurate prin
unităţi diferite sau de alt ordin de măsură, ca şi în cazul amplitudinii.
Pentru depăşirea acestor limite, se pot folosi ca indicatori abaterea
standard şi mai ales coeficientul de variaţie.
sx = ± √ sx2
85
dacă CV este între 20 % - 30 % atunci populaţia poate fi
considerată relativ eterogenă,
dacă CV este peste 30 % atunci populaţia poate fi considerată
eterogenă.
sx
ES =
√n
unde:
sx – abaterea standard
n – numărul valorilor seriei date.
86
5. INDICATORI AI TENDINŢEI CENTRALE ŞI DE DISPERSIE
PENTRU CARACTERISTICI CALITATIVE
5.1.1. Proporţia
m
p =
n
unde:
p = proporţia caracteristicii,
m = numărul de cazuri în care a fost constatată caracteristica,
n = numărul de evenimente observate
mi
p i =
n
cu condiţia ca: Σ pi = 1; i = 1, …, k.
unde: pi = proporţia pentru o proprietate (stare) posibilă a caracteristicii
mi = numărul cazurilor cu o proprietate (stare) prezentă
n = numărul total de cazuri observate.
87
5.2. INDICATORI DE ÎMPRĂŞTIERE PENTRU CARACTERISTICI
CALITATIVE
sp = ± √ p (1 - p)
88
6. INDICATORI DE LOCALIZARE SAU DE AMPLASARE
6.1. Momente
Momentele sunt indici utilizaţi în evaluarea unor caracteristici ale unei
repartiţii de frecvenţă.
Momentul de ordin 1 se calculează după formula:
Σ x′ ⋅ fi
M1 =
n
Σ (x′ )2 ⋅ fi
M2 =
89
n
unde: x′ = xi - x = deviaţia de la medie
fi = frecvenţa valorilor variabilei
n = numărul valorilor seriei
Σ xi ⋅ fi Σ (xi⋅ )3 fi
M1 = M3 = Σ fi
Σ fi
Σ (xi) ⋅ fi
2
Σ (xi)4 ⋅ fi
M2 = M4 =
Σ fi Σ fi
-momente centrate (notate cu “µ ”) ce se calculează faţă de media
aritmetică:
90
6.2. Asimetria (skewness)
Repartiţiile de frecvenţă a valorilor pe care le poate lua în timp şi spaţiu
pot fi simetrice, în cazul în care aceste valori sunt egal dispersate de o parte sau
alta a mediei aritmetice. Asimetria se măreşte concomitent cu diferenţa dintre
medie şi modul.
Măsura de asimetrie (sau skewness) indică pentru o repartiţie de frecvenţă
(serie sau distribuţie de date) abaterea de la aspectul simetric şi direcţia
asimetriei (pozitivă sau negativă).
Pentru măsura asimetriei este folosit momentul de ordinul trei al abaterii
de la medie:
µ 3
α 3 =
sx3
91
coborâtă decât cea a unei distribuţii normale (respectiv trena se apropie mai
încet (α 4 > 0) sau mai rapid (α 4 < 0) de zero decât cea a distribuţiei normale).
92
“Pământul are loc pentru toţi”
Schiller
93
94
ELEMENTE DE TEORIA PROBABILITĂŢILOR
1. Definiţie
Probabilitatea unui eveniment este proporţia (fracţiunea) din toate
evenimentele posibile ale evenimentului specificat într-o succesiune aproape
nelimitată a probelor în condiţii similare. Aceasta înseamnă că fiecărui
eveniment A legat de un anumit “experiment probabilist”, “aleator” (orice
acţiune care în împrejurări identice poate fi repetată, dar a căror rezultate nu pot
fi prevăzute cu exactitate) i se poate asocia un număr P(A) numit probabilitatea
de producere a evenimentului, iar P se numeşte funcţie de probabilitate.
95
5. Evenimente incompatibile (disjuncte sau mutual exclusive) sunt
cele care nu se pot produce simultan. Dacă notăm cu A feţele pare ale
unui zar şi cu B feţele impare, evenimentele A şi B sunt incompatibile,
ele nu se pot obţine concomitent.
Pr (A sau B) = Pr (A) + Pr (B) sau Pr (A) = 1 – Pr (B)
6. Eveniment implicat de alt eveniment se numeşte în cazul în care un
eveniment, de exemplu B are loc ori de câte ori apare evenimentul A.
2. Distribuţii de probabilitate
Tipurile clasice de distribuţii de probabilitate sunt:
• Distribuţia normală descrisă de Laplace şi Gauss
• Distribuţia binominală
• Distribuţia denumită “Legea numerelor mici” a lui Poisson
• Distribuţia Student (t)
• Distribuţia χ 2 a lui Pearson
• Distribuţia F a lui Fisher.
96
1 (x − µ ) 2
− ⋅
1 2 σ 2
12
10
8
6
4
2
0
1 3 5 7 9 11 13 15 17 19
Distribuţie normală
X-µ
Z =
σ
97
Aceasta este legea normală redusă cu densitate de probabilitate:
1
−x 2
1 2
f(x) = ⋅ e
_____
√2π
Pr (-µ ≤ Z ≤ µ ) = 1 – p(µ )
Din tabelul ecartului redus p(1) = 0,32 şi deci 1 – p(1) = 0,68 iar p(1,96)
= 0,05 şi deci 1 – p(1) = 0,95
98
2.b). Distribuţia binominală sau distribuţia lui Bernoulli
Distribuţia binominală este acea distribuţie a rezultatelor unui
experiment, când acestea au numai două valori discrete şi mutual exclusive,
într-un număr cunoscut de probe. Rezultatele posibile ale fiecărei încercări
elementare sunt doar două evenimente numite de obicei succes (S) şi eşec (E).
Probabilitatea fiecăruia dintre cele două rezultate (p de succes şi q = 1 – p de
eşec) este constantă de la o încercare la alta, dar rezultatul fiecărei probe este
independent de rezultatul altei probe.
Probabilitatea pentru o distribuţie binominală este determinată prin
formula:
n!
f(x) = pxqn-x
x! (n - x) !
99
boli foarte rare, numărul de dezintegrări ale unei substanţe radioactive într-un
interval de timp T, etc.)
Distribuţia lui Poisson este acea distribuţie binominală a rezultatelor în
care numărul de probe este foarte mare şi probabilitatea p este foarte mică. Într-
un interval suficient de mic probabilitatea de a observa mai mult de o realizare a
evenimentului este neglijabilă în raport cu probabilitatea de a observa una
singură (nesimultaneitatea realizării a două evenimente în timp şi spaţiu).
Această variabilă aleatorie x este caracterizată de un parametru θ care
reprezintă numărul mediu teoretic aşteptat de realizări ale evenimentului în
intervalul considerat şi are următoarea lege de distribuţie:
θ x
−θ
f(x) = e
x!
100
U = X12 + X22 + … +Xn2 este distribuită după Pearson.
Unde: Xi2 reprezintă pătratul unei observaţii selectate aleator dintr-o
populaţienormal distribuită având media 0 şi deviaţia standard 1.
101
3. Reguli de calcul al probabilităţilor
Există două reguli de bază pentru calculul probabilităţilor în funcţie de
tipul de evenimente la care se aplică:
a. Regula aditivă
b. Regula multiplicativă.
Pr (A şi B) = Pr (A) ⋅ Pr (B)
Exemplu:
Aproximativ 6,5 % din totalul bolnavilor internaţi într-un spital sunt de
vârstă X şi 55,3 % din toţi bolnavii sunt femei. Probabilitatea femeilor de vârstă
X va fi: (6,5 %) 0,065 ⋅ (55,3 %) 0,553 = 0,0359 (3,59 %)
102
103
“Nici o investigaţie umană nu se poate intitula ştiinţă adevărată dacă nu
trece prin demonstraţia matematică”
Roger Bacon
104
105
TESTE STATISTICE
1. Ipoteza nulă
Statistica inferenţială cuprinde două laturi: estimarea parametrilor şi
testarea ipotezelor.
Unul dintre principalele aspecte ale cercetării ştiinţifice este formularea
de noi ipoteze. Întotdeauna o ipoteză nouă trebuie testată pentru a vedea dacă
este în concordanţă cu observaţiile făcute şi pentru a arăta că este mai bună
decât alte ipoteze alternative.
Aceste două modele se numesc ipoteza nulă şi ipoteza alternativă. Ipoteza
nulă notată H0, reprezintă modelul pe care experimentatorul ar dori să-l
înlocuiască. Ipoteza alternativă Ha este modelul care reprezintă o negaţie a
ipotezei nule.
Ipoteza nulă (H0 ) este ipoteza care postulează faptul că eşantioanele sau
populaţiile pe care le avem de comparat în cadrul unui studiu, experiment sau
test sunt similare, sau orice diferenţă este atribuită şansei şi nu unui anumit
factor.
Ipoteza nulă arată absenţa unor deosebiri care pot apărea în orice
problemă de comparare statistică. Ea se foloseşte pentru a defini semnificaţia
statistică (semnificaţia diferenţei), adică se spune că există semnificaţie
statistică între eşantioane, populaţii sau ambele datorată altor factori decât
şansa, dacă ipoteza nulă este falsă.
Acceptarea ipotezei nule presupune că diferenţă testată este
nesemnificativă între cele cele două populaţii, fără ca mediile populaţiilor să fie
identice.
Respingerea ipotezei nule, presupune că diferenţa între populaţii este
semnificativă, ea poate fi explicată prin alt factor decât şansa, iar una din
ipotezele alternative este acceptată.
106
• Eroarea de speţă I, adică decizia de a respinge ipoteza nulă,
H0 când aceasta este adevărată;
Decizia investigatorului
Acceptarea Respingerea H0
H0
H0 adevărată Corecta Eronată
Pr = 1 - α (Eroarea de speţă
Situa I ; Pr = α
ţia H0 falsă Eronată Corectă
reală (Eroarea de Pr = 1 - β
speţă a II-a;
Pr = β )
107
1. Stabilirea ipotezei nule (H0);
2. Alegerea testului statistic pentru testarea lui H0;
3. Stabilirea nivelului de semnificaţie α şi a volumului eşantionului;
4. Calcularea valorii statisticii corespunzătoare testului ales, utilizând
datele din eşantion;
5. Stabilirea intervalului de acceptare/ respingere pe baza celor
anterioare.
Dacă statistica testului se află în intervalul de respingere, se decide
respingerea lui H0 , iar dacă este în intervalul de acceptare, se decide
că H0 nu poate fi respinsă, pentru nivelul de semnificaţie ales (α ).
σ x
µ = x ± Uα
√n
unde:
µ = media în populaţia din care s-a extras eşantionul
x = media eşantionului
n = numărul de cazuri din eşantion
σ x = dispersia caracteristicii studiate în populaţia din care s-a
extras eşantionul
Uα = coeficientul de distribuţia pentru un risc (valoare luată din
tabele), pentru o distribuţie normală Gauss-Laplace
Semnele ± arată că media eşantionului poate fi mai mică sau mai mare
decât media populaţiei.
Această formulă se utilizează dacă parametrii populaţiei şi eşantionului
sunt cunoscuţi.
108
Dacă nu se cunoaşte dispersia în populaţia din care
s-a extras eşantionul ea poate fi estimată pe baza varianţei eşantionului cu
formula:
n
σ ˆ = sx ⋅
x
2 2
n-1
Exemplu:
În urma unui screening au fost examinate 5000 de persoane pentru care
valoare medie a glicemiei a fost de 80 mg % cu o abatere standard de ± 40 mg
%. Din populaţia examinată s-a extras un eşantion conţinând cazurile cu
obezitate, reprezentând 256 de persoane.Glicemia medie în acest grup a fost de
100 mg % cu o abatere standard de 48 mg %.
109
Parcurgem etapele unui test statistic
1. Stabilirea ipotezei nule H0
H0 : µ = x
Nu există diferenţă semnificativă statistic între media glicemiei populaţiei
şi cea a eşantionului extras din ea
α = 0,05
| µ - x | √n
Uc =
σx
| 80 – 100 | √256 20 ⋅ 16 20
Uc = = = = 6,6
48 48 3
110
2.2. Testul “t” (student) pentru un singur eşantion mic
Testul “t” este folosit pentru eşantioane cu volum mai mic de 30 de cazuri
şi compară o singură medie (x) a eşantionului cu media populaţiei notată µ .
Testele “t” sunt utilizate în analiza pentru care deviaţiile standard din
eşantioane sunt substituite ca estimaţii pentru deviaţiile standard din populaţii.
Distribuţia “t”este folosită în cazul eşantioanelor mici (sub 30 de cazuri)
pentru a calcula “intervalele de încredere” în jurul mediei eşantionului.
Valoarea probabilităţii de respingere a ipotezei nule, când aceasta este
adevărată (α = p-value) este obţinută din tabela –t, corespunzătoare lui ν = n –
1 grade de liberate.
Statistica testului pentru compararea mediei unui eşantion cu media unei
populaţii este determinată prin formula:
x - µ
tc =
sx / √n
unde:
tc = valoarea calculată a testului la diferite grade de libertate
x = valoarea medie a eşantionului
µ = media populaţiei
sx = deviaţia standard
n = volumul eşantionului
Numitorul ecuaţiei de mai sus este numit “eroarea standard a mediei
eşantionului”.
Etape:
1. n1, n2 < 30
2. Stabilirea ipotezei nule:
H0 : x1 = x2 (nu există diferenţă semnificativă statistic între
mediile celor două eşantioane independente)
111
3. Statistica testului “t”
x1 – x2
tc =
______________
√sc2 / n1 + sc2 / n2
unde:
x1 – x2
tc =
___________
sc √1/n1 + 1/n2
unde:
sc = deviaţia standard ponderată a celor 2 eşantioane
ν = numărul gradelor de libertate
ν = n1 + n2 – 2
Numitorul ecuaţiei de mai sus este numit “eroarea standard a diferenţei
celor două medii”.
__________________________
Σ (xi1 - x1)2 fi1 + Σ (xi2 - x2)2 fi2
sc = √
(n1 – 1)+ (n2 – 1)
1. n1, n2 < 30
2. Stabilirea ipotezei nule:
112
H0 : x1 = x2 (nu există diferenţă semnificativă statistic între
valorile medii înregistrate la cele două determinări)
3. Statistica testului “t”
d
tc(perechi) =
_____
√sd2 / n
_______________
sd = √Σ (di - d)2 / (n-1)
unde:
tc(perechi) = valoarea calculată a testului la gradele de libertate
corespunzătoare
ν = numărul gradelor de libertate (ν = n-1)
d = valoarea medie a diferenţelor
sd2 = varianţa diferenţei medii
n = numărul de perechi
113
Valorile probabilităţii pentru respingerea ipotezei nule (H0) sunt obţinute
din tabele speciale pentru distribuţia chi-pătrat, corespunzător numărului de
grade de libertate.
Numărul gradelor de liberatate este ν = (r - 1) (c - 1), unde:
r = numărul de rânduri
c = numărul de coloane
Distribuţia de probabilitate chi-pătrat este o distribuţie continuă, simetrică
şi se bazează pe aproximaţia normală a distribuţiei binominale.
Pentru eşantioane mici se impune o corecţie de continuitate numită
“Corecţia Yates”, care scade valoarea lui chi-pătrat, deci scade probabilitatea
(α ) de respingere a ipotezei nule (H0).
Valorile probabilităţii pentru respingerea ipotezei nule sunt obţinute din
tabele speciale pentru distribuţia chi-pătrat corespunzător numărului gradelor de
libertate.
(oi - ci - 1/2 )2
χ c2 = Σ
ci
unde:
χ c2 = valoarea calculată a testului chi-pătrat
oi = frecvenţe absolute observate din fiecare celulă a tabelului
ci = frecvenţe teoretice (aşteptate) corespunzătoare frecvenţelor
observate
½ = corecţia Yates
114
- Testul exact Fisher, se aplică pentru tabele de contingenţă
“2x2”, în aceleaşi condiţii ca testul “χ c2” dar când frecvenţele
aşteptate sunt mai mici decât 5.
115
BIBLIOGRAFIE
116