You are on page 1of 220

Marius Mruteri

Noiuni fundamentale de biostatistic

- Note de curs -

2006

Marius tefan Mruteri NOIUNI FUNDAMENTALE DE BIOSTATISTIC - NOTE DE CURS -

- 2006 -

MRUTERI, TEFAN MARIUS Noiuni fundamentale de biostatistic : note de curs Refereni: Prof. Dr. chiopu Alexandru Prof. Dr. Nicolaescu Ioan

Descrierea CIP a Bibliotecii Naionale a Romniei


CIP nr. 5537/ 12.04.2006 MRUTERI, TEFAN MARIUS Noiuni fundamentale de biostatistic : note de curs / Marius Mruteri - Trgu-Mure : University Press, 2006 Bibliogr. ISBN (10) 973-7665-11-2 ; ISBN (13) 978-973-7665-11-9 519.22:57(075.8)

Editor: University Press, Trgu Mure, 2006 Str. Gh. Marinescu, 38, Trgu Mure, MS, 540139 Director de editur: Prof. Dr. chiopu Alexandru Tel: +40-265-215551/126 Fax: +40-265-210407

Cuprins

CUPRINS
I. INTRODUCERE ............................................................................................................. 6 POPULAIA STATISTIC I PROBELE STATISTICE ...................................................... 7 VARIABILITATE BIOLOGIC ..................................................................................... 9 FACTORI DE EROARE .............................................................................................. 10 II. DISTRIBUII DE FRECVEN .............................................................................. 16 CURBA DE DISTRIBUIE NORMAL ......................................................................... 21 DISTRIBUII ANORMALE (NON-GAUSSIENE) .......................................................... 25 III. STATISTIC DESCRIPTIV. CONSIDERAII GENERALE. INDICATORI STATISTICI...................................................................................................................... 28 A. INDICATORI AI TENDINEI CENTRALE ................................................................ 28 B. INDICATORI AI DISPERSIEI (MPRTIERII) DATELOR N JURUL VALORII MEDII ... 29 III.1. MEDII ............................................................................................................ 31 III. 2. DISPERSIA (VARIANA). ABATEREA STANDARD ........................................... 34 III.3. EROAREA STANDARD .................................................................................... 35 III.4. EROAREA PROCENT ....................................................................................... 36 III.5. COEFICIENTUL DE VARIAIE.......................................................................... 37 III.6. GRADE DE LIBERTATE ................................................................................... 37 III. 7. LIMITE FIDUCIALE (INTERVAL DE NCREDERE) ............................................. 39 IV. STATISTIC INFERENIAL. INTERPRETAREA STATISTIC A REZULTATELOR UNUI EXPERIMENT..................................................................... 41 IV.1. TESTE DE VALABILITATE .............................................................................. 42 Noiuni introductive ................................................................................................... 42 IV.1. 1. Testul Grubbs................................................................................................ 43 IV.1. 2. Criteriul de eliminare a lui Chauvenet ......................................................... 47 IV.2. TESTE DE CONCORDAN (GOODNESS-OF-FIT)............................................ 50 Noiuni introductive ................................................................................................... 50 IV.2.1. Testul de concordan Kolmogorov-Smirnov................................................. 52 IV. 3. TESTE DE SEMNIFICAIE ............................................................................... 55 Valoarea lui P............................................................................................................ 56 Ipoteza nul (H0)........................................................................................................ 56 Dependena/independena eantioanelor studiate ..................................................... 58 Statistic parametric/neparametric ....................................................................... 59 IV.3.1. Teste de semnificaie parametrice.................................................................. 60 IV.3.2. Teste de semnificaie neparametrice. Statistica ordinei................................. 72 Testul Wilcoxon ......................................................................................................... 72 Testul Mann-Whitney U ............................................................................................. 76 V. ANALIZA DISPERSIONAL (ANALIZA DE VARIAN) - ANOVA ............... 79

Noiuni fundamentale de biostatistic A. BAZE TEORETICE ............................................................................................... 79 B.CONSIDERAII PRACTICE .................................................................................... 81 V.1. ANALIZA DISPERSIONAL MONOFACTORIAL ................................................ 83 V.2. ANALIZA DISPERSIONAL BIFACTORIAL ...................................................... 90 VI. CORELAIE I REGRESIE .................................................................................... 98 COEFICIENTUL DE CORELAIE................................................................................ 99 COEFICIENTUL DE DETERMINARE......................................................................... 106 ECUAIA DE REGRESIE ......................................................................................... 107 VII. ALEGEREA UNUI ANUMIT TEST STATISTIC .............................................. 112 VIII. STUDII EPIDEMIOLOGICE I CLINICE ....................................................... 115 VIII.1. INDICATORI STATISTICI UTILIZAI N STUDIILE EPIDEMIOLOGICE ............. 115 Rate i proporii....................................................................................................... 116 Indicatori ai frecvenei bolii .................................................................................... 117 Indicatori ai asocierii factori de risc (expunere)-boal .......................................... 119 VIII. 2. TIPURI DE STUDII EPIDEMIOLOGICE ......................................................... 134 STUDII DESCRIPTIVE ........................................................................................... 134 C. Studiu descriptiv de tip ecologic ........................................................................ 137 STUDII ANALITICE................................................................................................ 138 A. Studii de tip Case-Control (Case-Control studies)............................................. 139 B. Studii de tip cohort (Cohort studies) ................................................................ 142 Selecia unui anumit tip de studiu (study design)..................................................... 146 Asociere versus cauzalitate...................................................................................... 147 Criterii pentru stabilirea unei relaii de tip cauz-efect .......................................... 148 ANEXE - EXERCIII RECAPITULATIVE ............................................................... 150 ANEXA 1 - STATISTIC DESCRIPTIV, EXERCIII RECAPITULATIVE...... 151 SCURT RECAPITULARE ....................................................................................... 151 INDICATORI STATISTICI ........................................................................................ 152 INDICATORI STATISTICI PENTRU SERII DE DATE CU APARIII FRECVENTE ALE ACELEIAI VALORI ......................................................................................................... 154 FOLOSIREA CALCULATORULUI N STATISTICA DESCRIPTIV. APLICAII I EXEMPLE. 155 STATISTIC DESCRIPTIV EXERCIII RECAPITULATIVE ..................................... 160 ANEXA 2 - TESTE STATISTICE DE SEMNIFICAIE, EXERCIII RECAPITULATIVE....................................................................................................... 163 TESTUL STUDENT ............................................................................................. 163 ETAPELE APLICRII TESTULUI STUDENT........................................................... 163 UTILIZAREA FUNCIEI TTEST A UTILITARULUI EXCEL ....................................... 165 TESTUL STUDENT EXEMPLE I EXERCIII RECAPITULATIVE ........................... 167 TESTUL CHI2 ....................................................................................................... 174 ETAPELE APLICRII TESTULUI CHI................................................................................ 174

Cuprins UTILIZAREA FUNCIEI CHITEST A PROGRAMULUI EXCEL ........................................... 176 TESTUL CHI2 EXERCIII RECAPITULATIVE........................................................ 177 ANEXA 3 CORELAII I REGRESII, EXERCIII RECAPITULATIVE.......... 185 ANEXA 4 EXEMPLE DE STUDII EPIDEMIOLOGICE. STUDIU DE TIP CASECONTROL....................................................................................................................... 198 STUDIUL INFLUENEI UNOR FACTORI DE RISC BIOLOGICI - INFECIA CU HELICOBACTER PYLORI N APARIIA UNOR LIMFOAME MALIGNE (LIMFOAME NONHODGKIN LNH) N CAZUL POPULAIEI JUDEULUI MURE [22]........................... 198 ANEXA 5 - VALORI CRITICE PENTRU TESTUL F CORESPUNZTOARE PRAGULUI DE SEMNIFICAIE =0,05................................................................... 208 ANEXA 6 - VALORILE CRITICE PENTRU TESTUL T STUDENT CORESPUNZTOARE DIFERITELOR PRAGURI DE SEMNIFICAIE I NUMRULUI "N " AL GRADELOR DE LIBERTATE ........................................... 210 ANEXA 7 - VALORILE CRITICE PENTRU TESTUL CHI 2 CORESPUNZTOARE DIFERITELOR PRAGURI DE SEMNIFICAIE I NUMRULUI "N " AL GRADELOR DE LIBERTATE ........................................... 212 ANEXA 8 SOLUIILE EXERCIIILOR PROPUSE N ANEXE ......................... 214 BIBLIOGRAFIE SELECTIV ..................................................................................... 216

Noiuni fundamentale de biostatistic

Capitolul I I. Introducere
[ 12, 13] Statistica matematic este tiina care urmrete explicarea fenomenelor de mas printr-un numr relativ redus de observaii. Ea folosete metode inductive de cercetare, plecnd de la particular la general. Desigur, concluziile rezultate n urma prelucrrii statistice a datelor experimentale nu sunt legiti absolut sigure, ns gradul de incertitudine poate fi calculat. Cunoscnd gradul de incertitudine al concluziilor trase, metoda statistic de cercetare poate fi considerat o metod matematic exact. Biostatistica este o ramur a statisticii, specializat n studiul fenomenelor biologice, inclusiv al celor medicale. Se ocup de culegerea, centralizarea i gruparea datelor, precum i de prelucrarea i determinarea unor parametri sau indicatori statistici pentru descrierea fenomenelor biomedicale studiate, pe baza evidenierii unor regulariti sau variabiliti statistice. Totodat aplic i dezvolt tehnici statistico-probabilistice pentru analiza datelor biomedicale. nceputurile biostatisticii au fost determinate de nevoia obinerii unor informaii cantitative dintre cele mai simple, formulate de regul sub forma ci bolnavi ? , ci decedai ? , etc. Cu timpul s-a constatat ns c asemenea metode sunt insuficiente pentru caracterizarea fenomenelor, datorit existenei unor variaii n rspunsurile care se obin ntre diverse msurtori sau, cu alte cuvinte, datorit faptului c fenomenele biologice sunt caracterizate prin variabilitate. Chiar i n aceste condiii, prin

Introducere

observarea unor serii lungi de msurtori, s-a descoperit c se pot calcula indicatori simpli cu mare putere de sintez, cum ar fi media (aritmetic, geometric, etc), dispersia, etc. ntr-o etap ulterioar, statistica a ctigat n puterea de analiz a fenomenelor. Pe aceast cale s-au descoperit legile care guverneaz ceea ce nainte prea ntmpltor. Aceast etap, n care statistica trece de la descrierea fenomenelor la analiza lor, se caracterizeaz prin aplicarea n general a unui aparat matematic din ce n ce mai complex i a calculului probabilitilor n special. Pentru a putea studia procesul biologic dorit, datele experimentale trebuie sistematizate prin grafice i tabele, ntocmite prin luare n considerare fie a numrului total de date, fie a unui eantion extras din acestea. Din acest punct de vedere, statistica matematic opereaz cu dou noiuni de baz: 1. Populaia sau colectivitatea statistic; 2. Proba (eantionul) extras din populaia aflat n studiu.

Populaia statistic i probele statistice


O populaie statistic poate fi definit prin totalitatea fenomenelor sau a obiectelor calitativ omogene avnd una sau mai multe caracteristici comune. De exemplu 100 de cobai crora le-a fost injectat intraperitoneal o anumit substan activ pentru a studia un anumit efect farmacologic al acesteia reprezint un exemplu de populaie statistic. 7

Noiuni fundamentale de biostatistic

Trebuie fcut o deosebire ntre o populaie statistic finit, infinit i ipotetic. Exemplul de mai sus reprezint o populaie statistic finit, n timp ce urmrirea frecvenei de apariie a unui anumit efect secundar pentru un medicament dat la nivelul unei clinici pe o durat nedefinit de timp (ce poate continua luni sau ani) reprezint un exemplu de populaie statistic infinit. Drept exemplu de populaie statistic ipotetic se pot meniona parametrii farmacocinetici ai unui model farmacocinetic simulat pe calculator care va urma s fie verificat i experimental. Pentru cunoaterea proprietilor unei populaii statistice este necesar s se cunoasc proprietile elementelor din care aceasta este compus. Practic este ns imposibil s se determine compoziia iniial a populaiei statistice studiate, deoarece ea fie ar fi distrus, fie ar fi necesare un numr foarte mare de determinri, imposibil de efectuat. Din aceste motive se apreciaz proprietile caracteristice ale populaiei statistice numai pe baza unei pri finite din populaie numit eantion (prob), care trebuie s ndeplineasc o condiie sine qua non: trebuie ca ea s fie luat din populaia statistic n aa fel nct fiecare element din populaie s aib aceeai probabilitate de a face parte din eantion. Eantioanele care satisfac acest deziderat se numesc eantioane reprezentative. nainte de a trece n revist diferii indicatori i teste statistice trebuie menionat ns variabilitatea ce exist n cadrul populaiilor statistice studiate i importana evalurii acesteia pentru obinerea unor rezultate corecte n urma experimentelor efectuate.

Introducere

Variabilitate biologic
Aa cum am menionat, analiza statistic d cercettorului posibilitatea de a preciza variabilitatea existent n snul unei colectiviti. Msura acestei variabiliti d indicaii cu consecine practice, n special n domeniul biologiei unde se spune c variabilitatea este singura realitate, media fiind o ficiune. n faa proceselor biologice, att de complexe, cum s-ar putea cunoate valorile normalului i limitele lui de variaie? Fiind dat un anumit experiment, cu o mprtiere mare a rezultatelor, cum se poate trage o concluzie just n aprecierea fenomenului cercetat? Cum putem tii dac am efectuat un numr suficient de experiene pentru a atrage o concluzie valabil ? Cnd putem spune, suficient de exact, c o diferen ntre dou msurtori este semnificativ ? Fr sprijinul statisticii matematice aceste ntrebri nu i-ar gsi niciodat rspunsul. Mai mult, interpetarea simplist a rezultatelor este neconcludent, empiric, putnd duce la erori grave de interpretare, ceea ce, n cazul domeniului medical poate pune viei umane n pericol. Cercetarea biologic se bazeaz pe rezultate obinute pe un numr limitat de observaii din multiplele posibile, este deci o cercetare de eantion. Se pune problema dac putem generaliza observaiile obinute pe un numr limitat de cazuri, la ntreaga colectivitate studiat, obinnd astfel legi cu aplicare general. Generalizarea este posibil doar dac inem cont de variabilitatea cifrelor obinute, iar statistica matematic d posibilitatea aprecierii acestei variabiliti.

Noiuni fundamentale de biostatistic

Astfel, dac eantionul este redus ca numr, rezultatele obinute n cercetrile biologice pot fi diferite, uneori chiar contrarii adevrului, ceea ce poart numele de fluctuaie de eantionaj. Dac eantionul este numeros, rezultatul va fi evident mai apropiat de adevr, media rezultatelor putnd fi generalizat la ntreaga populaie. Un alt aspect deosebit de important este cel al mprtierii rezultatelor: cu ct mprtierea va fi mai mare, cu att rezultatele se vor ndeprta mai mult de cele obinute cnd se examineaz ntreaga populaie (deci de valoarea real). n concluzie, generalizarea - n scopul ajungerii la concluzii valabile - depinde, din punct de vedere statistic, de dou caracteristici ale datelor analitice: 1. Numrul observaiilor efectuate (n); 2. mprtierea (dispersia) acestora (). Statistica matematic d posibilitatea aprecierii acestor caracteristici i de aici putem deduce c ea este cea care acord valoarea unei anumite cercetri ce dorete desprinderea unor concluzii cu caracter generalizator.

Factori de eroare
Este cunoscut faptul c aceeai substan activ, experimentat prin aceeai metod, poate da rezultate diferite, nu numai n laboratoare diferite, ci chiar i n acelai laborator. De aceea cunoaterea de ctre cercettor a factorilor care determin aceast variabilitate, precum i a tipurilor de erori ce pot s apar este o necesitate.

10

Introducere

n general variabilitatea rezultatelor unui experiment biomedical sau farmacologic este determinat de urmtorii factori: I. Factori care in de animalul de experien: A. Factori interni: greutate, sex, vrst, ras, origine, sntate. B. Factori externi: condiii de ntreinere (alimentaie, temperatur ambiant), condiii sezoniere. C. Factori care in de individualitatea animalului,, proprii fiecrui individ i care caracterizeaz reactivitatea acestuia (amintim aici, de exemplu, mare variabilitate ntlnit la metabolizarea alcoolului etilic n cazul indivizilor speciei umane, n funcie de cantitatea de ADH disponibil n cazul fiecrui individ). II. Factori care in de mediul geografic i climateric. Se pot obine rezultate diferite n diverse pri ale globului investignd acelai medicament i urmnd chiar aceeai tehnic de lucru, organismul uman sau animal fiind o entitate biologic a crui reactivitate individual depinde de mediul nconjurtor, de factorii micro- i macroclimatici nconjurtori. III. Factori care in de tehnicile ntrebuinate. Fiecare tehnic de lucru poate da un rezultat care poate fi chiar n discordan cu cel obinut printr-o alt tehnic, de aceea cele dou rezultate nu pot fi obiectul unei comparaii realizate tiinific. Dat fiind multitudinea factorilor de eroare, cercetarea biologic ar fi insuficient sau neconcludent dac nu s-ar ine seama de anumite norme tiinifice n experimentare. Aceste norme se refer, n primul rnd la

11

Noiuni fundamentale de biostatistic

nlturarea factorilor care determin variabilitatea rspunsurilor biologice. Cteva msuri importante vor fi menionate mai jos: selecia riguroas a animalelor; ntocmirea loturilor dintr-un numr suficient de indivizi, siguri din punct de vedere biologic i/sau statistic (sntoi, de vrst apropiat, etc.); asigurarea omogenitii unui lot precum i ntre loturile luate ntr-o anumit experien; prin msurile mai sus menionate se nltur factorii de eroare ce depind de animalul de experien; determinrile comparative, prin folosirea standardelor sau a unor substane de referin, contribuie hotrtor la nlturarea factorilor de eroare care in de tehnicile ntrebuinate. Existena variabilitii biologice ne determin s admitem c ntre valoarea rspunsului biologic obinut de noi n urma unui experiment i valoarea real poate exista o anumit diferen. Cnd datele obinute de ctre noi se abat de la valoarea real putem spune c au fost comise erori, ce se datoreaz factorilor mai sus menionai sau altor factori necunoscui. Prin termenul de eroare se nelege diferena numeric dintre valoarea gsit de ctre experimentator i valoarea real (adevrat) a unui parametru msurat. E = M A (I.1) Unde E eroarea absolut M valoarea msurat

12

Introducere

A valoare adevrat Aceast valoare A a unui sistem nu poate fi cunoscut exact. n cursul experimentului se obin valori mai mult sau mai puin apropiate de valoarea A; problema care se pune este ns care sunt valorile ce pot fi acceptate. Pentru c valoarea A nu poate fi cu certitudine cunoscut se urmrete ca o valoare acceptat s se gseasc ntr-un anumit domeniu de valori, n sarcina statisticii matematice cznd stabilirea ntinderii acestui domeniu i, deci, a validrii rezultatelor unui experiment. Factorii de eroare care pot fi nlturai alctuiesc aa-numitele erori sistematice i ele afecteaz exactitatea rezultatului. Factorii care in de reactivitatea individual, de exemplu, nu pot fi nlturai, ei determinnd ceea ce numim erori aleatoare (ntmpltoare), care afecteaz exactitatea ct i precizia rezultatelor experimentale. Cu toate c aceti factori de eroare nu pot fi nlturai n totalitate, variaiile pe care ei le provoac n cadrul unui experiment dat pot fi apreciate i acestor variaii li se adreseaz calculele de eroare. Deoarece aceste variaii aleatoare se supun legilor de distribuie normal a frecvenei (despre care vom vorbi n detaliu ceva mai trziu), valoarea lor poate fi calculat. Odat acest lucru fiind realizat, precizia cercetrilor biologice poate fi confirmat tiinific. Exactitatea reprezint apropierea valorii numerice determinate experimental de valoarea adevrat. Aceasta reprezint de fapt eroarea absolut. Raportul att

Er % =

MA 100 (I.2.) M

13

Noiuni fundamentale de biostatistic

reprezint eroarea relativ, exprimat uzual n procente. Evident, cu ct rezultatul obinut se apropie mai mult de rezultatul real, cu att determinarea este mai exact.
Precizia unei determinri este dat de concordana valorilor obinute

n urma determinrilor efectuate. Se spune despre o metod c este precis cnd rezultatele determinrilor sunt reproductibile, adic sunt apropiate ca valoare n contextul unor experimente repetate. Concordana ntre rezultate nu trebuie judecat numai prin prisma diferenei reale dintre ele, ci innd cont i de mrimea, n valoare absolut, a acestora. De exemplu, s presupunem c, n cazul urmririi perioadei de laten a inducerii somnului, pentru dou hipnotice S1 i S2, la oareci, s-au obinut urmtoarele:
oarecele I Substana S1 Substana S2 oarecele II

32 secunde 6 secunde

33 secunde 5 secunde

Se observ c, n ambele cazuri, diferena ntre rezultate este de o secund, ns concordana ntre rezultate este mult mai bun n primul caz. Deoarece valoarea real nu poate fi cunoscut cu precizie se folosete n locul acesteia, n special n cazul distribuie normale de frecven, media aritmetic a tuturor rezultatelor individuale:
x=
i =1 n

Xi

( I.3.), unde

x media aritmetic a rezultatelor individuale n = numrul determinrilor efectuate

14

Introducere

Pentru a putea aprecia mprtierea rezulatelor unui experiment a fost definit abaterea (s):

s = x x (I.4.) unde x rezultatul individual x


= media aritmetic a rezultatelor individuale s este valoarea abaterii rezultatelor individuale de la valoarea medie, i arat precizia determinrilor. n concluzie, cnd mprtierea rezultatelor individuale fa de medie este mic, iar media rezultatelor este apropiat de valoarea real, eroarea determinrii va fi mic, deci vom avea att exactitate ct i precizie bun. Erori mari survin atunci cnd rezultatele sunt mult dispersate fa de valoarea medie (precizie slab), iar media rezultatelor se ndeprteaz mult fa de valoarea real (exactitate sczut a metodei). Pot surveni i situaii paradoxale, cnd, de exemplu, rezultatele individuale s fie mult dispersate fa de medie (precizie redus), dar media lor s fie totui apropiat de valoarea real (exactitatea metodei este bun).

15

Noiuni fundamentale de biostatistic

Capitolul II II. Distribuii de frecven


[11-13]

Repartizarea datelor calitative i a celor cantitative (numerice) dintro populaie statistic sau un eantion se poate efectua dup frecvena de apariie a caracteristicilor lor, obinndu-se structura colectivitii. De exemplu, o mulime de date experimentale poate fi repartizat dup calitatea efectelor observate: cu efect, fr efect sau cu efect gradat n funcie de doz. Datele (msurate pe ntreaga populaie statistic sau pe un eantion) sunt de obicei organizate n aa-numitele distribuii de frecven, pentru c o atare prezentare, reprezint formatul cel mai convenabil de sintez i prezentare a acestora. n cazul distribuiilor de frecven se afectueaz o descriere calitativ sau cantitativ a observaiilor (msurtorilor) mpreun cu numrul de apariii ale unui anumit rezultat al msurtorii respective - frecvena absolut. Se mai poate utiliza i frecvena relativ obinut prin mprirea frecvenei absolute la numrul total al observaiilor. De asemenea, pentru variabilele cantitative (numerice) continue este util s se construiasc aa-numitele intervale de variaie. Regulile generale de construire a acestor intervale sunt: numrul de intervale este bine s fie mai mic de 15 limitele fiecrei clase s se potriveasca cu gradul de acuratee (precizie, exactitate) al msurtorilor
16

Distribuii de frecven

sunt de preferat intervalele de lungime egal, deoarece sunt mai convenabile, facilitnd prelucrrile ulterioare intervalele trebuie sa fie mutual exclusive (capetele lor trebuie s se suprapun) nu

Se obine astfel o distribuie de frecven a colectivitii respective. Se pot obine distribuii de frecven homograde (cum este cazul diagramelor), cu o singur scar de comparaie n sistemul cartezian, sau distribuii heterograde. Pentru a fi mai explicii, s lum un exemplu: Fie o serie de 33 de date numerice obinute experimental (de exemplu valori ale tensiunii arteriale sistolice): 180, 120, 110, 200, 140, 210, 200, 190, 150, 170, 140, 130, 150, 170, 160, 120, 160, 140, 160, 170, 180, 160, 150, 130, 160, 180, 190, 160, 170, 170, 150, 150, 130. Cu aceast serie se poate alctui o diagram, aeznd datele, n ordinea frecvenei, pe o singur scar a graficului cartezian (fig. 2.1.):

17

Noiuni fundamentale de biostatistic

6 frecvena de apariie 5 4 3 2 1 0 160 170 140 150 130 180 120 190 200 110 210 Valorile ale TA sistolice (mmHg)

Fig. 2.1. Reprezentarea grafic a datelor sub form de diagram n felul acesta se obine structura acestei colectiviti i se poate constata frecvena de apariie a unor rezultate (de exemplu cte valori ale tensiunii arteriale 110 se gsesc n respectiva colectivitate statistic). Cutnd i ale modaliti de caracterizare a colectivitii, se poate stabili o distribuie de frecven heterograd, pe dou scri ale sistemului cartezian, niruind pe abscis numerele, n ordine cresctoare sau descresctoare i notnd, n acelai timp, intervalele de clas, iar pe ordonat punnd frecvenele de apariie (relative sau absolute). Se obine astfel o histogram. Prin unirea ordonatelor care trec prin mijlocul intervalelor de clas se obine poligonul de frecven. Practic, pentru a reprezenta grafic corect datele colectate n cadrul unei histograme, trebuie parcuri urmtorii pai:

18

Distribuii de frecven

i. Pentru irul valorilor msurate se va determina numrul de intervale de grupare (de clas) M (eventual lungimea intervalului de grupare - d), conform formulei lui Sturges: M = 1+3,22*logn unde n = numrul msurtorilor efectuate Valoarea numrului de intervalule se va rotunji pentru a obine un numr ntreg. Pentru cazul nostru, numrul vom obine M=1+3,22*log33=5,889 adic vom avea 6 intervale. Eventual, lungimea intervalului de grupare va fi calculat cu formula:
d= X max X min (II.2), 1 + 3,22 log n

(II.1),

unde Xmax, Xmin reprezint valoarea maxim i minim msurat. Pentru cazul nostru d = 210 110 = 16,97 . Dat fiind precizia 1 + 3,22 log 33

msurtorilor efectuate cu tensiometrele clasice, putem lua n considerare un o lungime a intervalului de grupare de circa 20 mmHg. ii. n baza numrului calculat de intervale (M), respectiv a valorii lungimii intervalului de grupare (d), ntre valorile limit masurate (Xmin Xmax), se vor stabili intervalele de grupare. Datele obinute vor fi centralizate ntr-un tabel. iii. Se determin frecvena absolut (ni), care reprezint numrul de apariii a datelor corespunztoare fiecrui interval de grupare n parte. i aceste date se vor trece n tabelul sus-menionat.

19

Noiuni fundamentale de biostatistic

iv. Se poate determina i frecvena relativ (fi), care reprezint raportul frecventei absolute (ni) la numarul total de msurtori (n) v. Se construiete histograma, care reprezinta o diagrama n form de dreptunghiuri avnd baza egala cu intervalul de grupare, iar nlimea cu frecvena (absolut sau relativ) vi. Se construiete poligonul de frecven, care se obine prin unirea mijloacelor superioare ale histogramei prin segmente de dreapt. Tabelul cu intervale i frecvena absolut, precum i histograma rezultat n cazul celor 33 de valori ale tensiunii arteriale sistolice sunt prezentate mai jos:
Interval de grupare <110 111-130 131-150 151-170 171-190 >190 Frecvena absolut 1 5 8 11 5 3

Fig. 2.2. Histograma


20

Distribuii de frecven

Distribuia de frecven permite determinarea i a celorlalte caracteristici: tendina central (cu alte cuvinte, media), mediana, forma distribuiei, variabilitatea din interiorul ei. n figura de mai sus se poate constata c forma distribuiei se apropie destul de mult de distribuia normal Laplace-Gauss (distribuia n form de clopot). n acest caz, valoarea medie reprezint n cele mai bune condiii tendina central (pentru cazul studiat, media = 158,7).

Curba de distribuie normal


Van Vijngaarden (1926) a artat pentru prima dat c variaia rezultatelor biologice se datoreaz sensibilitii individuale a animalelor (care genereaz, astfel, erorile ntmpltoare) i c ele se supun legii de distribuie normal a frecvenei stabilit, n 1820, de Laplace i Gauss. Curba de distribuie normal a frecvenei reprezint frecvena cu care revine acelai rezultat n mai multe determinri succesive. Ea se poate obine aeznd pe abscisa unui grafic diferenele, obinute n mai multe determinri, ntre media rezultatelor i rezultatele individuale, iar pe ordonat frecvenele de apariie a rspunsului pentru fiecare diferen. Graficul are forma unui clopot (fig. 2.3.):

21

Noiuni fundamentale de biostatistic

Fig. 2.3. Graficul de distribuie normal a frecvenei Media rezultatelor individuale, care se repet cel mai des (are cea mai mare frecven de apariie), este punctul cel mai nalt al curbei. Valoarea medie este notat pe abscis cu 0, deoarece diferena sa fa de medie este, evident, zero. De o parte i de alta a punctului culminant, se desfoar simetric frecvenele corespunztoare diferenelor dintre media rezultatelor i rezultatele individuale, care se gsesc pe abscis; cele negative (mai mici dect media) n partea stng, cele pozitive (deci mai mari dect media) n partea dreapt a valorii medii. Distana BD sau BC (0-1 sau 0+1) reprezint convenional o unitate denumit abatere standard i notat cu (sigma). Perpendiculara pe valoarea medie este axul de simetrie al suprafeei acoperit de curb. Perpendicularele n punctele de pe abscis care corespund valorii medii plus abaterea standard i valorii medii minus abaterea standard, nchid dou treimi din suprafaa acoperit de curb (66%). Perpendicularele care corespund valorii medii plus sau minus 2 nchid circa 95% din suprafaa acoperit de curb. Suprafeele terminale ocup numai 5 % din suprafaa total.
22

Distribuii de frecven

Pentru a demonstra c sensibilitatea animalelor de laborator fa de o substan activ se supune legilor de distribuie normal a frecvenei, Van Vijngaarden a determinat doza minim letal prin perfuzie lent, cu aceeai soluie digital, lucrnd pe 573 de pisici. Efectund calculele necesare, a obinut un grafic asemntor curbei n form de clopot a lui Gauss (distribuia normal a frecvenei) i care se supune acelorai legi. S-a demonstrat astfel c variaia sensibilitii animalelor de experien fa de diferite substane medicamentoase studiate, se ncadreaz n teoria distribuiei normale a frecvenei, stabilit de Gauss. Cunoscnd aceast lege, putem efectua experiene i dozri biologice suficient de precise, din care s fie eliminate erorile determinate de reactivitatea individual a animalelor de experien. Tot din aceast lege de distribuie normal a frecvenei reiese, ns, c valoarea tiinific a unui singur rezultat obinut pe un animal sau a unor experimentri ce folosesc puine animale este mic, rezultate precise fiind cele obinute pe un numr mare de animale, prin stabilirea valorii medii a determinrilor i efectuarea unor prelucrri statistice ulterioare. Numrul mare de rezultate duce la obinerea unei curbe de frecvene mai nalt, micornd, totodat, distana dintre capetele curbei. Caracteristicile distribuiilor de frecven Orice serie de date cantitative se poate descrie prin dou elemente caracteristice: 1. indicatorii tendinei centrale 2. indicatori ai mprtierii sau dispersiei datelor

23

Noiuni fundamentale de biostatistic

Dac toate aceste elemente menionate sunt obinute n urma unui studiu populaional, ele poart numele de parametri statistici, iar dac sunt obinute n urma analizei unui eantion se numesc indicatori statistici. Din punctul de vedere al tendinei centrale, distribuiile de frecven se caracterizeaz prin medie, mod (dominant) i median. Media reprezint tendina central a unei distribuii (vom studia mai trziu modul ei de calcul). Dominanta reprezint valoarea cea mai frecvent a unei distribuii, care se confund, de fapt, cu vrful poligonului de frecven. Mediana corespunde valorii care se gsete la punctul care mparte seria statisticii n dou grupuri egale. O alt caracteristic a distribuiilor, care uneori este foarte folositoare, este forma curbei de frecven. Ea poate fi:
1. simetric 2. asimetric:

- pozitiv, caz n care coada lung a distribuiei este - negativ, caz n care coada lung a distribuiei este de partea valorilor negative.

de partea valorilor pozitive.

Dou curbe cu aceeai medie, dominant i aceeai median se pot deosebi dup baz i nlime: mai ngust i mai nalt sau mai larg i mai joas. ntinderea bazei poate da o msur a variabilitii. Deschiderea este cu att mai mare cu ct participarea factorilor ntmpltori este mai mare (n figura 2.3) se pot observa diferenele ntre dou curbe cu aceeai medie). Calculul precis la mprtierea rezultatelor se face cu ajutorul abaterii standard.

24

Distribuii de frecven

Fig. 2.3. Dou curbe cu aceeai medie i dominant, dar cu mprtieri diferite ale rezultatelor n cazul distribuiilor simetrice i unimodale exist egalitate ntre media aritmetic, mod i median (este vorba despre curba normal de distribuie a frecvenei Laplace-Gauss).

Distribuii anormale (non-Gaussiene)


Se cunosc, n afara distribuiei normale unimodale, i distribuii purimodale sau asimetrice (fig. 2.4):

Fig. 2.4. Distribuii anormale

25

Noiuni fundamentale de biostatistic

Pentru a ntelege mai bine importana tipului de distribuie n cazul datelor provenite din cercetarea biomedicale trebuie spus c, de exemplu, existena unor distribuii anormale pot arta o lips de omogenitate a afectelor farmacodinamice ale unui medicament. Unele distribuii pot lua forma literei U, unde important este valoarea minim (de exemplu, n cazul aciunii hipoglicemiante a unor substane active). Exist cazuri, ns, cnd fenomenele studiate se supun unei distribuii de tip special. Cele mai des ntlnite distribuii de acest tip au fost descrise de Bernouli (distribuia binomial) i de Poisson (distribuia evenimentelor rare). Distribuia binomial prezint interes mai ales n studiul fenomenelor ereditii, iar distribuia Poisson n studiul unor efecte ale compuilor radioactivi i n radiochimie. O tratare complet a tuturor tipurilor de distribuie se gsete n tratatele de statistic teoretic indicate n bibliografie. Odat constatat existena unor distribuii non-Gaussiene n cazul datelor provenite din cercetarea biomedical, testele statistice de semnificaie trebuiesc adaptate acestei situaii, eventual recurgndu-se la teste de semnificaie neparametrice (testul Wilcoxon, testul nu este legat de parametrul unei anumite repartiii. Anumite fenomene biologice rar ntlnite s-a constatat c se supun unor distribuii de tip special, cum ar fi distribuia Pearson, Neuman, U - Man Whitney etc), n cazul crora verificarea unei ipoteze, aa cum vom vedea,

26

Distribuii de frecven

Maxwell. Studiul acestor tipuri de distribuie depete cadrul acestei cri, fcnd obiectul unor manuale de specialitate. n funcie de particularitile distribuiilor gsite, se pot alege procedeele matematice cele mai indicate pentru calculul statistic i interpretarea rezultatelor. n cazul experimentrii n domeniul farmacodinamic, rezultatele unei cercetri, odat reprezentate grafic dau distribuii empirice sau experimentale. Compararea acestor distribuii cu distribuiile teoretice poate fi de un real folos pentru o interpretare just a fenomenelor observate. Trebuie menionat c majoritatea distribuiilor obinute n urma analizei datelor rezultate din cercetarea biomedical se supun legilor normale de repartiie a frecvenei, de aceea calculele i tehnicile de lucru prezentate n aceast carte se refer, n mod special, la aceast ipotez .

27

Noiuni fundamentale de biostatistic

Capitolul III III. Statistic descriptiv. Consideraii generale. Indicatori statistici


[11-13, 15,16, 21, 24]

Principalii indicatori care caracterizeaz o serie de date (un set de valori ale unui eantion statistic) sunt fie indicatori ai tendinei centrale, fie indicatori ce caracterizeaz mprtierea datelor n jurul unei valori medii (indicatori ai dispersiei). Deoarece aceti indicatori descriu din punct de vedere statistic distribuia datelor studiate, permind chiar unele comparaii ale acesteia cu distibuia normal, modalitile de utilizare ale acestor indicatori statistici fac obiectul unei ramuri a statisticii denumit statistic descriptiv. O serie de date este alctuit dintr-un ir de valori pe care le notm : x1, x2, , xn . Indicatorii matematici mai importani ce caracterizeaz o serie de date sunt:

A. Indicatori ai tendinei centrale


x + x 2 + ... + x n (III.1), Media aritmetic - notat de regul cu x = 1 n Mediana - este acea valoare din irul de date care mparte n dou pri egale irul ordonat de valori (atenie, irul este ordonat cresctor), situndu-se la mijlocul seriei statistice. Dac numrul de valori n este un numr impar, atunci mediana este valoarea n Me= xk (III.2), , unde k = + 1 . 2

28

Statistic descriptiv

Dac n este par, deci avem un numr par de valori, mediana este x +x k +1 (III.3), unde k = n/2. definit ca fiind M = k e 2
Modul - constituie valoarea care apare cel mai des, deci valoarea cu numrul cel mai mare de apariii.

B. Indicatori ai dispersiei (mprtierii) datelor n jurul valorii medii


Variana notat s2x este un indicator de mprtiere a datelor. Formula 2 2 xi ( x ) 2 de calcul este: S x = (III.4),. n 1 Abaterea standard sau deviaia standard reprezint rdcina ptrat

din varian (dispersie) :

sx = sx2 (III.5),

Coeficientul de variaie se calculeaz ca un raport procentual ntre abaterea standard i valoarea medie a irului de valori.
s CV % = x 100 (III.6), x Asimetria (skewness) caracterizeaz gradul de asimetrie a unei distribuii n jurul valorii medii, comparativ cu distribuia normal. Valori pozitive ale asimetriei indic o distribuie de frecven ce prezint o coad (n englez tail) asimetric n zona valorilor pozitive ale distribuiei (valori mai mari dect media). Similar, valori negative ale asimetriei indic o distribuie de frecven ce prezint o coad (n englez tail) asimetric n zona valorilor negative ale distribuiei (valori mai mici dect media).

29

Noiuni fundamentale de biostatistic

_ 3 x x n (III.7), , unde S = abaterea Skewness = i (n 1) (n 2) S standard. Aplatizarea (kurtosis) caracterizeaz gradul de aplatizare a unei distribuii, comparativ cu distribuia normal. Valorile pozitive ale acestui indicator indic o distribuie cu un vrf mai nalt dect distribuia normal. Similar, valori negative ale kurtosisului indic o curb relativ aplatizat, comparativ cu distribuia normal. _ 4 x x 2 n(n + 1) i 3(n 1) Kurtosis = (n 1)(n 2)(n + 3) S (n 2)(n 3) (III.8),, unde S = abaterea standard.
Amplitudinea - este diferena dintre valoarea maxim i cea minim A = Amax Amin (III.9). Amplitudinea relativ - notat A% este raportul dintre amplitudinea absolut i media aritmetic a seriei de date.

Atunci cnd avem foarte multe date se recomand includerea lor n clase egale ca mrime, ceea ce uureaz mult prelucrrile statistice ulterioare. Spre exemplu sortm pacienii pe grupe de vrst: 21-24 de ani, 25-30 ani, etc n acest caz apare noiunea de frecven a clasei.

Indicatori statistici pentru serii de date cu apariii frecvente ale aceleiai valori

Dac datele pe care le studiem conin valori care se repet des, se obinuiete s se grupeze datele care au aceeai valoare . Numrul de
30

Statistic descriptiv

apariii ale unei valori anume se numete frecvena de apariie i se noteaz cu fi. Presupunem c n urma msurtorilor am obinut irul de valori: x1 cu frecvena f1, x2 cu frecvena f2, xn cu frecvena fn Indicatorii statistici se calculeaz conform noilor formule:
Media aritmetic

x=

i =1, n

xi f i
i =1, n

fi

x1 f1 + x2 f 2 + ... + xn f n f1 + f 2 + ... + f n

(III.10)

Mediana este xk (III.11, )unde

k = i =1, n 2

fi + 1

Dispersia (variana) :

2 sx =

i =1, n

( xi x ) 2 f i
i =1, n

fi 1

(III.12)

Dat fiind importana lor, n cele ce urmeaz vor fi descrii pe larg unii dintre indicatorii statistici enumerai mai sus.

III.1. Medii

31

Noiuni fundamentale de biostatistic

Valoarea medie definete cel mai bine tendina central a unei distribuii de frecven. Totui trebuie menionat c valoarea medie niveleaz varianiile valorilor prin obinerea unei valori mijlocii, care d impresia unei stabiliti a fenomenelor, care nu este real n biologie, de aceea pentru un studiu complet al unei compatibiliti statistice, sunt necesare metode statistice care stabilesc variaiile rezultatelor obinute i care, pentru o bun interpretare, trebuie s nsoeasc valoarea medie. Cea mai uzual n statistic este media aritmetic care corespunde formulei de mai jos: Ma = xa = 1 n x i (III.13) n i=1

Media aritmetic poate fi calculat n mai multe feluri:

Media aritmetic simpl

Calculat dup formula de mai sus. Pentru exemplul din capitolul II, unde suma celor 33 de rezultate individuale era 5240, media aritmetic simpl este:

xa =

5250 = 159,09 mmHg 33

Media aritmetic ponderat

Dac, pentru exemplul din capitolul II, se iau n considerare frecvenele cu care vin numerele, se observ c ele au nsemntate inegal,
32

Statistic descriptiv

numerele 110 i 210 revin numai o singur dat, n timp ce 140 sau 150 revin de patru ori n irul de date exeprimenatele studiat. n acest caz, se spune c valorile nu au pondere egal, iar numrul (frecvena) care arat de cte ori se repet fiecare valoare va fi ponderea valorii respective. Se poate calcula media, innd seama de aceste ponderi, dup formula:
xa =
i =1 n n

pi x i
i =1

(III.14)

pi

Se face, deci, suma produselor dintre fiecare valoare i ponderea sa i se mparte la suma ponderilor. Exist un procedeu matematic pentru a determina media care uureaz calculul atunci cnd avem de-a face cu serii statistice alctuite din numere mari. De exemplu, dac variabilele studiate sunt reprezentate de masa corporal a oarecilor unei biobaze, iar frecvena lor fiind reprezentat de familii de oareci, s calculm greutatea medie a oarecilor pe familie: Procedeul se realizeaz prin alegerea unei medii arbitrare, notat cu a (frecvena cea mai mare), n timp ce cu x notm abaterile fiecrei valori de la originea arbitrar (-1, +1 etc). Frecvena o notm cu f. Formula de calcul a mediei n acest caz este:
xa = a
f x f

(III.15)

Se face astfel produsul dintre fiecare valoare x i fiecare frecven f i, deoarece se obin numere pozitive i negative, se face suma lor algebric, care se mparte la suma frecvenelor. n final, valoarea obinut se va scdea din a.

33

Noiuni fundamentale de biostatistic

III. 2. Dispersia (variana). Abaterea standard


Aa cum am mai mentionat, dispersia (variana) notat s2x este un indicator de mprtiere a datelor. Formula ei de calcul este:

(III.16) n 1 Unitatea de abatere individual fa de medie a fost denumit abaterea standard i a fost notat cu S ( se utilizeaz numai n cazul curbei
ideale). Ea reprezint o msur a preciziei determinrilor sau, cu alte cuvinte, o msur a mprtierii rezultatelor individuale fa de medie. Abaterea standard poate fi calculat dup urmtoarea formul:

2 Sx

2 2 xi ( x )

S=

(x

x)

(3.17) unde x i x = abaterea valorilor individuale

Fa de valoare medie (indiferent de semn) se noteaz cu d (diferena). Deoarece cerecetarea biologic se bazeaz pe eantionaj, abaterea standard se calculeaz n acest caz dup formula:

S=

(x

x)

n 1

(III.18)

Practic abaterea standard se calculeaz ca rdcina ptrat din dispersie (varian) :

Sx = S =
2 x

(x

x)

n 1

(III.19)

34

Statistic descriptiv

Fcnd ptratul diferenei, se evit posibilitatea ca aceste diferene n plus sau n minus s se anuleze, obinnd numere n valoare absolut. Aceasta oblig, ns s se extrag rdcina ptrat pentru a obine rezultatul. Se calculeaz, prin urmare, ptratul fiecrei diferene fa de medie i se face suma acestor ptrate, care se mparte la numrul determinrilor minus 1. Rdcina ptrat a acestei valori este abaterea standard S. Cunoscnd abaterea standard, adic rspndirea rspunsurilor individuale fa de medie, se cunoate precizia determinrilor. Totodat, deoarece pentru curba lui Gauss, dublul abaterii standard este reprezentat de suprafaa nchis de perpendicularele care trec prin punctele BF i BE i care acoper 95% din suprafaa total, va trebui s inem cont de aceasta, lund 2S ca i interval de ncredere (vezi figura 2.3.). Aceasta ne va certifica faptul c 95% din rezultatele noastre experimentale se vor ncadra n limitele calculate i numai 5% din ele se vor gsi n afara acestor limite.

III.3. Eroarea standard


Este cunoscut faptul c determinrile biologice sunt supuse influenei a dou tipuri de erori: cele care influeneaz precizia determinrii i cele care influeneaz exactitatea determinrii. Pentru a afla exactitatea cu care s-au fcut o serie de determinri, trebuie s se calculeze abaterea

medie a valorilor medii obinute sau, altfel spus, media erorilor ce se pot
comite ntr-o determinare. Aceast abatere a fost denumit eroare standard, notat cu E. Calcularea ei se face cu ajutorul formulei:
35

Noiuni fundamentale de biostatistic


(x 1 x )
2

E =

n (n 1)

(III.20)

tiind c, n cazul distribuiei normale gaussiene, mprtierea n jurul mediei colectivitii a unei medii de antion este formula: E= S n

n ori mai mic

dect mprtierea rezultatelor individuale, eroarea standard este dat i de

(III.21)

Ea reprezint formula clasic a erorii standard. Rezultatele experimentrilor biologice trebuie s fie nsoite ntotdeauna de eroarea standard sau de abaterea standard, utilizndu-se formulri de tipul M S sau M E, pentru a permite o just interpretare a lor.

III.4. Eroarea procent


Dup cum tim, majoritatea efectelor farmacodinamice se pot ncadra n dou categorii: efecte gradate i, respectiv, efecte cuantale. De multe ori acestea din urm sunt reprezentate sub form de procente. Atunci cnd eantionul este mare, putem spune c procentele (pe) sunt distribuite normal n jurul mediei cu o abatere standard egal cu
S= pq (III.22) n

unde p = procentajul de rspuns pozitiv q = procentajul de aciune negativ n = numrul cazurilor


36

Statistic descriptiv

evident, q = 100 p Putem spune deci c abaterea standard a unui procent de aciune calculat cu aceast formul reprezint limitele probabile, n plus sau n minus, ale procentajului de aciune pentru o doz dat de substan activ.

III.5. Coeficientul de variaie


Coeficientul de variaie se calculeaz ca un raport procentual ntre abaterea standard i valoarea medie a irului de valori.
s CV % = x 100 (III.23) x

De remarcat c valoarea coeficientului de variaie nu are unitate de msur, se exprim procentual. Acest fapt permite folosirea indicatorului la compararea a dou sau mai multe serii de date, indiferent de ordinul de mrime al variabilelor (variantelor) i de unitile de msur folosite. Se poate considera c un coeficient de variaie sub 10% indic o dispersie mic (o mprtiere) a datelor, adic seria este omogen. Un coeficient ntre 10% i 30% indic dispersie mijlocie, iar peste 30% indic dispersie mare. Dac

dispersia este mare, media nu este un indicator reprezentativ.

III.6. Grade de libertate


Din cele discutate pn acum am vzut cum, plecnd de la un eantion al unei colectiviti, am nlocuit abaterea standard teoretic () prin
37

Noiuni fundamentale de biostatistic

abaterea standard de eantionaj (S). De asemenea, ca factor de corecie s-a folosit ptratul diferenelor individuale (d2) i s-a calculat S2. n aceeai ordine de idei, pentru a putea apropia pe S de s (abaterea teoretic) am diminuat numrul cazurilor din experiment cu o unitate, n locul efectivului total n punnd n-1. Practic formula de calcul a abaterii standard a devenit
S=

d2
n1

(III.24)

Spunem c n-1 este numrul gradelor de libertate.


Gradele de libertate reprezint, n cazul determinrilor biologice

numrul

mrimilor

(animale,

determinri,

observaii)

folosite

experimentarea respectiv, din care se scade o unitate. Pornind de la aceast premiz, gradele de libertate reprezint practic
numrul mrimilor independente folosite n experimentarea respectiv.

innd seama de cele afirmate mai sus, n calculele de determinare a erorii va interveni un factor de corecie t, care depinde de numrul gradelor de libertate (tn-1). Cantitatea t se gsete n tabele (vezi Anexa 1), calculat pentru diferite probabiliti, n funcie de numrul de grade de libertate folosit (n general vom lucra cu p= 0,05). Valoarea lui t scade cu ct crete numrul observaiilor, deci cu ct este mai mare numrul gradelor de libertate. n cazul determinrilor comparative martor/prob sau a mai multor doze (loturi) se scade din efectivul total cte o unitate pentru fiecare lot. (de

38

Statistic descriptiv

exemplu numrul gradelor de libertate pentru dou loturi, n cazul mai sus menionat va fi (n1+n2-2).

III. 7. Limite fiduciale (interval de ncredere)


Am vzut pn acum c principalii parametrii care descriu o populaie statistic sunt media i abaterea standard. n practic parametrii unei populaii se estimeaz pe baza determinrilor efectuate pe eantioane luate din respectiva populaie statistic. Evident parametrii probelor extrase nu sunt perfect identici cu cei ai populaiei studiate; exist ns posibilitatea de a calcula intervalul n care se pot ncadra aceti parametrii, acordnd acestui interval o anumit ncredere (probabilitate), aleas n funcie de exactitatea dorit (de obicei se alege un nivel de probabilitate de 95% sau 99%). Aceasta nseamn c, dac vom lua un numr mare de probe din aceeai populaie, 95% respectiv 99% din probe vor avea parametrii care se ncadreaz n intervalul calculat i va exista riscul ca 5% respectiv 1% din proces s se gseasc n afara intervalului calculat.
Limitele fiduciale, denumite i limite de eroare sau de securitate,

reprezint intervalul n care se poate prevedea c se gsete valoarea unei medii (att n cazul efectelor gradate ct i a celor cuantale). Intervalul respectiv se mai numete i interval de ncredere. Limitele de eroare sunt, n general, proporionale cu valoarea mediei i pot fi convenional exprimate ca procente ale acestei medii. De regul, n determinri biologice calculm limitele de eroare la o probabilitate p = 0,05. n calculul limitelor de eroare se folosete factorul de corecie t, despre care tim c depinde de numrul gradelor de libertate.
39

Noiuni fundamentale de biostatistic

Pentru o interpretare corect, rezultatele experimentrilor biologice trebuie exprimate dup relaia de mai jos: M tS (III.25) unde M media determinrilor t factorul de corecie pentru probabilitatea dorit S abaterea standard Dac abaterea standard (S) este exprimat n procente limitele de eroare sunt 100tS la sut. Dac folosim calculul logaritmic pentru calcularea abaterii standard n anumite experimente farmacologice, limitele de eroare sunt date de
antilogaritmul lui 2 tS.

S presupunem c la testarea unui anumit analgezic, n urma experimentrii prin testul plcii nclzite, timpul de laten al reaciei nociceptive a fost de 10020 secunde, la o probabilitate p =0,05. Limitele fiduciale sunt deci cuprinse ntre 80-120 secunde. Aceasta nseamn c n 95 de determinri din 100 rezultatul gsit va fi superior timpului de 80 secunde i inferior timpului de 120 secunde, oscilnd n jurul valorii celei mai probabile (media M=100 secunde). Cu alte cuvinte, dac se repet determinarea n aceleai condiii, rezultatul se va gsi n 95% din cazuri ntre aceste limite i numai n 5% din cazuri valoarea experimental va fi n afara acestor limite.

40

Statistic inferenial

Capitolul IV IV. Statistic inferenial. Interpretarea statistic a rezultatelor unui experiment


[ 1, 3, 5, 6, 10, 11-13, 15, 20, 23,24]

Odat obinute rezultatele experimentale, ele trebuie prelucrate, prezentate, i, mai ales sintetizate i interpretate, pentru a putea desprinde legalitatea urmrit. Trebuie acordat o importan deosebit interpretrii rezultatelor experimentale obinute, deoarece o interpretare prea simplist sau, dimpotriv, prea pretenioas poate duce la o scdere a valorii cercetrii efectuate. Sprijinul hotrtor n interpretarea corect a rezultatelor i n afirmarea concluziilor l aduce statistica matematic. Concluziile unui anumit experiment trebuie verificate, datele experimentale trebuie s fie reproductibile, concluziile trase trebuie s fie tiinific ntemeiate, acest lucru nefiind posibil fr o prelucrare statistic adecvat a datelor. Totalitatea testelor statistice folosite cu scopul de a demonstra existena sau inexistena unor legturi sau diferene statistic semnificative, respectiv tiinific corecte ntre variabilele
inferenial.

unui anumit studiu sau

experiment, fac obiectul unei ramuri a statisticii numite statistic Se evideniaz n principal patru categorii de teste/analize statistice folosite cu succes n descrierea/interpretarea rezultatelor unui experiment tiinific:
1. Teste de valabilitate 2. Teste de concordan (goodness of fit)
41

Noiuni fundamentale de biostatistic

3. Teste de semnificaie 4. Corelaii i regresii

IV.1. Teste de valabilitate


Noiuni introductive
Definiie: Prin teste de valabilitate se neleg testele care permit

aflarea valorii unei experimentri n funcie de probabilitile apariiei variaiei n natur. Cu alte cuvinte, prin aceste teste putem preciza dac un anumit rezultat experimental poate fi considerat ca fiind datorat variabilitii biologice normale i care nu va ndeprta semnificativ rezultatul final al experimentului de valoarea adevrat sau este un rezultat aberant care se datorete unor factori accidental aprui n timpul experimentului (animale bolnave, tarate etc).
Rezultate aberante (outliers)

De foarte multe ori ntr-un lot de rezultate experimentale apar cazuri foarte ndeprtate fa de celelalte. Problema care se pune este dac aceste rezultate pot sau nu pot fi luate n considerare, avnd n vedere faptul c influeneaz semnificativ valoarea final a mediei. Exist tendina de a elimina din start aceste rezultate, care par ntmpltoare, deoarece se consider c ele deviaz media ntr-un sens care poate fi foarte departe de valoarea real. Acest mod simplist de a raiona este total greit.

42

Statistic inferenial

Biostatistica pune la dispoziie o serie de criterii de apreciere a acestei situaii i de eliminare a valorilor care se abat foarte mult de la medie (aa numitele rezultate aberante - outliers n englez). Metodele cele mai utilizate n practic sunt testul Grubbs, respectiv
criteriul de eliminare a lui Chauvenet, ce folosesc modaliti de calcul

oarecum similare.

IV.1. 1. Testul Grubbs


De-a lungul timpului statisticienii au gsit mai multe ci de a detecta i elimina rezultatele aberante. Testul Grubbs este doar una dintre aceste metode, avnd ns avantajul c este uor de aplicat. Primul pas n aplicarea acestui test const n cuantificarea ndeprtrii rezultatlui considerat aberant de celelalte rezultate. Practic, vom calcula raportul Z, constnd n mprirea diferenei dintre valoarea mediei i valoarea rezultatului aberant la valoarea abaterii standard (notat cu S sau SD standard deviation). Trebuie subliniat aici faptul c abaterea standard este calculat incluznd i valoarea rezultatului considerat aberant !
X Xi SD
_ _

Z=

(IV.1), unde X - media valorilor

Xi valoare rezultatului considerat aberant SD - abaterea standard

43

Noiuni fundamentale de biostatistic

Dac valoarea astfel calculat lui Z este mare, rezultatul respectiv este destul de ndeprtat de celelalte rezultate. Este tiut faptul c atunci cnd analizm date experimentale, nu cunoatem aprioric abaterea standard a populaiei statistice studiate. Dimpotriv, abaterea standard este calculat chiar din datele obinute n urma experimentului. Din aceast cauz, prezena unui rezultat aberant va crete valoarea abaterii standard calculate. Deoarece prezena unei valori aberante va crete att numrtorul (valoare absolut a diferenei dintre medie i valoarea aberant), ct i numitorul (abaterea standard a tuturor valorilor) n cazul formulei de mai sus, valoarea lui Z nu poate fi mai mare dect (n 1)
n

, unde n numrul

de valori experimentale. De exemplu, dac n=5, Z nu poate fi mai mare dect 1,789, pentru orice set de date experimentale. Ca i n cazul altor teste statistice i pentru testul Grubbs au fost calculate un set de valori critice pentru Z. Evident, valoarea critic va crete cu mrimea eantionului (n), aa cum se poate vedea din tabelul urmtor:
Tabel IV.1. Valoarile critice ale lui Z
n Valoarea critic a lui Z n Valoarea critic a lui Z

3 4 5 6 7 8

1.15 1.48 1.71 1.89 2.02 2.13

27 28 29 30 31 32

2.86 2.88 2.89 2.91 2.92 2.94

44

Statistic inferenial 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 2.21 2.29 2.34 2.41 2.46 2.51 2.55 2.59 2.62 2.65 2.68 2.71 2.73 2.76 2.78 2.8 2.82 2.84 33 34 35 36 37 38 39 40 50 60 70 80 90 100 110 120 130 140 2.95 2.97 2.98 2.99 3 3.01 3.03 3.04 3.13 3.2 3.26 3.31 3.35 3.38 3.42 3.44 3.47 3.49

Dac valoarea particular calculat pentru Z n cazul rezultatului considerat aberant este mai mare dect valoarea critic din tabelul de mai sus, atunci P este mai mic dect 0,05. Aceasta nseamn c exist mai puin de 5% anse ca, datorit ntmplrii, s ntlnii o valoare aberant mai ndeprtat de celelalte valori (n orice direcie), ct vreme datele provin dintr-un eantion extras dintr-o populaie gaussian. n acest caz, dac P<0,05, rezultatul poate fi considerat aberant i poate fi eliminat. De remarcat faptul c testul Grubbs poate fi aplicat cu succes numai la valorile extreme (n ambele sensuri) ntlnite n cazul eantionului studiat. Exemplu: A fost msurat greutatea a 15 indivizi aduli. Rezultatele msurtorilor sunt cele din tabelul urmtor:

45

Noiuni fundamentale de biostatistic

Tabel IV.2. Rezultatele msurtorilor


Nr. crt. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Greutatea (kg) 58 60 80 77 83 75 82 79 50 35 70 160 80 65 55

Media =73,93 kg Abaterea standard = 27,59 n = 15

Aplicnd formula de calcul a lui Z pentru valoarea n12=160 kg obinem Z = 73,93 160 27,59
=

86,07 = 3,12 , o valoare mai mare dect 27,59

valoarea critic pentru n=15, care este 2,55, deci P<0,05. n concluzie, pentru eantionul studiat o valoarea greutii corporale de 160 kg poate fi considerat rezultat aberant, putnd fi luat n calcul eliminarea acestuia.

46

Statistic inferenial

IV.1. 2. Criteriul de eliminare a lui Chauvenet


Se bazeaz pe considerentul c orice valoare a crei probabilitate de apariie este mai mic dect o valoare limit care depinde de numrul n de rezultate, trebuie eliminat. (Farmacopeea Romn ediia a X-a). Pentru aplicarea acestui criteriu la eliminarea unor rezultate aberante trebuie urmai paii de mai jos:
-

se calculeaz abaterea standard (S sau SD) a irului de valori, din tabelul de mai jos, se obine valoarea raportului x/s, n funcie de se nmulete valoarea acestui raport cu valoarea abaterii standard

conform formulei menionate n capitolele anterioare; numrul n de rezultate; (S), obinndu-se astfel valoarea x, care reprezint valoarea absolut maxim pe care o poate avea di (unde di abaterea fa de medie,
d i = xi x ), pentru ca valoarea experimental respectiv s nu fie

eliminat. Orice valoare creia i corespunde o abatere fa de medie, n mrime absolut, mai mare dect x (di > x), trebuie eliminat. Dac printre valorile rmase dup aplicarea de eliminare se consider, c mai exist o valoare ce ar trebui eliminat, se aplic criteriul nc o dat. n general, se repet aplicarea criteriului de eliminare de cte ori este necesar.
Tabelul IV.3. Valoarea raportului x/s folosit pentru criteriul de

eliminare

n 5

x/s 1,68

n 14

x/s 2,10

n 30

x/s 2,39

47

Noiuni fundamentale de biostatistic

6 7 8 9 10 12

1,73 1,79 1,86 1,92 1,96 2,03

16 18 20 22 24 26

2,16 2,20 2,24 2,28 2,31 2,35

40 50 100 200 500

2,50 2,58 2,80 3,02 3,29

Vom exemplifica aplicarea criteriului de eliminare n cazul unor valori (xi) ale timpului de laten a instalrii efectului hipnotic n cazul amobarbitalului:
Tabelul IV.4. Prima aplicare a criteriului de eliminare Nr. crt. 1 2 3 4 5 6 7 8 9 10 xi (secunde) 16,1 di

d i2

3,6 3,0 0,9 10,3 -0,4 -1,2 -0,9 -6,2 -3,7 -5,4

12,96

s=

212 ,56 = 4 ,86 9

15,5 13,4 22,8 12,1 11,3 11,6 6,3 8,8 7,1 xi = 125 ,00

x = 12 ,5 (media aritmetica a rezultatelor) Dup cum rezult din tabel, diferena di = 10,3, corespondena

9,00 0,81 106,09 0,16 1,44 0,81 38,44 13,69 29,16 2 d i = 212,56

x/s = 1,96 x = 1,96 x 4,86 = 9,53

valorii de 22,8 secunde depete valoarea maxim admis (x =9,53); prin urmare, valoarea respectiv va trebui s fie eliminat din datele supuse prelucrrii.

48

Statistic inferenial

Tabelul IV.5. A doua aplicare a criteriului de eliminare Nr. crt. 1 2 3 4 5 6 7 8 9 xi (secunde) 16,1 di

d i2

4,7 4,1 2,0 0,7 -0,1 0,2 -5,1 -2,6 -4,3

22,09

s=

94.7 = 3 ,4 8

16,81 4,00 0,49 0,01 0,04 26,01 6,76 18,49 d i2 = 94 ,70 x = 11,4 (media aritmetica a rezultatelor)

15,5 13,4 12,1 11,3 11,6 6,3 8,8 7,1 xi = 102 ,2

x/s = 1,92 x = 1,92 x 3,4 =6,5

Aplicarea criteriului de eliminare a doua oar conduce la o valoare maxim admis (x = 6,5) superioar oricrui di, deci nu va mai fi necesar eliminarea nici unei valori. Efectuarea unei analize, folosind un eantion adecvat, nu poate conduce ns, de cele mai multe ori, la determinarea mediei adevrate a populaiei statistice din care face parte acel eantion. n schimb se pot gsi, cu o anumit probabilitate, limitele ntre care se afl valoarea medie adevrat. n acest scop se calculeaz mai nti abaterea standard a medie eantionului (Sx), conform formulei de mai jos:

Sx =

s n

(IV.2)

n continuare, intervalul de ncredere al mediei (J) se stabilete pentru o probabilitate de eroare dorit, de obicei 5% (altfel spus p= 0,05)

49

Noiuni fundamentale de biostatistic

folosind valoarea t Student, a crei valori corespunztoare gradelor de libertate ale determinrii, pentru p = 0,05, sunt date n tabelul din Anexa 1: Se aplic formula:
J = x t S x (IV.3)

Gradele de libertate

sunt reprezentate de numrul mrimilor

independente ale determinrii. n cazul de fa, gradele de libertate se calculeaz scznd din numrul total de valori (xi) cifra 1 (numrul de loturi).

IV.2. Teste de concordan (Goodness-Of-Fit)


Noiuni introductive
n spe, mai ales n domeniul biostatisticii, suntem n primul rnd interesai dac distribuia de frecven a populaiei din care sunt prelevate eantioanele analizate de noi urmeaz sau nu modelul ideal al unei distribuii normale (distribuie Gaussian).
Ce nelegem prin distribuie Gaussian ?

Aa cum am artat i n capitolele anterioare, chiar dac o multitudine de factori aleatori acioneaz n mod convergent, crend variabilitate, de cele mai multe ori distribuia de frecven a datelor investigate urmeaz mai mult sau mai puin o aa-numit distribuie n form de clopot, numit distribuie normal sau distribuie Gaussian.

50

Statistic inferenial

Acest tip de distribuie are o serie de proprieti matematice speciale ce stau la baza marii majoriti a celor mai utilizate teste statistice (aa-numitele teste statistice parametrice testul t, testul F, testul CHI2 etc). Chiar dac - n general datele colectate de noi n urma investigrii unui eantion extras din populaia statistic studiat nu urmeaz acest model matematic ideal, de cele mai multe ori aceste date urmeaz o distribuie ce este aproximativ Gaussian. Distribuia Gaussian (normal) joac un rol central n analiza statistic datorit unei legiti matematice cunoscute ca Teorema Limitei Centrale (Central Limit Theorem). La modul intuitiv, putem afirma c aceast teorem statueaz c dac o serie de variabile msurate au o varian finit, atunci distribuia de frecven a acestor variabile poate fi aproximat ca fiind o distribuie normal (Gaussian). Cu alte cuvinte, conform acestei teoreme, putem afirma c dac eantioanele studiate sunt suficient de mari, distribuia de frecven n jurul mediilor acestor eantioane va urma modelul unei distribuii gaussiene, chiar dac n sine populaia statistic din care au fost prelevate aceste eantioane nu este Gaussian. De vreme ce mai multe teste statistice (de exemplu testul t sau analiza de varian - ANOVA) sunt teste ce cuantific existena unor diferene ntre medii, Teorema Limitei Centrale permite acestor teste s furnizeze rezultate pertinente, chiar dac populaiile statistice din care provin eantioanele studiate nu sunt Gaussiene.

51

Noiuni fundamentale de biostatistic

Condiia necesar i suficient este ca eantioanele respective s fie suficient de mari ! Ct de mari anume ? Din nefericire, acest lucru depinde, n spe, de ct de diferit este distribuia populaiei studiate de distribuia Gaussian. La modul general, testele de concordan sunt teste ce se permit luarea unei decizii asupra faptului c un eantion provine sau nu dintr-o populaie statistic ce se supune unui anumit tip de distribuie de frecven. n cazul biostatisticii, principala utilizare a unor astfel de teste const n verificarea faptului c eantioanele studiate sunt prelevate dintr-o populaie statistic ce se supune sau nu legilor unei distribuii normale (Gaussiene). Exist mai multe astfel de teste de concordan: Testul de concordan Kolmogorov-Smirnov Testul de concordan Anderson-Darling Testul de concordan Chi-Square Testul de normalitate Shapiro-Wilk etc Deoarece multe dintre programele de analiz statistic utilizeaz numai unul sau dou dintre aceste teste (n general testul KolmogorovSmirnov) ne vom referi n continuare la acesta.

IV.2.1. Testul de concordan Kolmogorov-Smirnov


Testul Kolmogorov-Smirnov (Chakravart, Laha and Roy, 1967) este folosit pentru a decide dac un anumit eantion provine dintr-o populaie statistic ce se supune unui anumit tip de distribuie de frecven.

52

Statistic inferenial

Testul Kolmogorov-Smirnov (K-S) se bazeaz pe aa-numita funcie cumulativ de distribuie empiric (ECDF - The Empirical Cumulative Distribution Function). Fiind dat un numr N de puncte Y1, Y2, ..., YN, ECDF poate fi definit ca

E N = n(i ) N (IV.4)
unde n(i) este numrul de puncte mai mici dect Yi, puncteleY1i fiind ordonate n ordine cresctoare, de la cea mai mic la cea mai mare valoare. Graficul de mai jos reprezint funcia de distribuie empiric pentru o distribuie normal cumulativ n cazul a 100 de numere generate aleator. Testul Kolmogorov-Smirnov (K-S) se bazeaz pe estimarea maximului distanelor dintre cele dou curbe.

Figura IV.1. Funcia de distribuie empiric pentru o distribuie normal cumulativ n cazul a 100 de numere generate aleator

53

Noiuni fundamentale de biostatistic

Aplicarea testului Kolmogorov-Smirnov, presupune urmtorii pai: Datele studiate urmeaz distribuia specificat (n cazul nostru distribuia Gaussian) Datele studiate NU urmeaz distribuia specificat Ipoteza (n cazul nostru distribuia Gaussian) alternativ, H1 Statistica i 1 i D = max F (Y i ) , F (Y i ) , unde F este testului 1i N N N funcia cumulativ de distribuie teoretic a distribuiei testate ( este necesar s fie o distribuie continu, testul neputndu-se aplica n cazul distribuiilor discrete cum este distribuia binomial sau distribuia Poisson), tipul distribuiei testate trebuind s fie clar specificat. Pragul de semnificaie Valori critice Ipoteza H0 este respins dac Dcalculat are o valoare mai mare dect o valoare critic obinut din tabele. Deoarece exist o serie de variaii ale tabelelor cu valori critice pentru acest test n datele din literatur, am preferat s nu furnizm un astfel de tabel n anexele crii, cu att mai mult cu ct programele de analiz statistic ce efectueaz acest test (cum este GraphPad Instat) furnizeaz valorile critice relevante la un anumit prag de semnificaie.
Ipoteza nul, H0

54

Statistic inferenial

Figura IV.2. Testul Kolmogorov-Smirnov, aplicat n programul GraphPad Instat

IV. 3. Teste de semnificaie


n general, dup calcularea rezultatelor unor determinri biologice este necesar s se decid dac diferenele obinute de pild ntre mediile sau medianele eantioanelor analizate sunt datorate numai ntmplrii (de exemplu variabilitii biologice) sau sunt diferene reale (cu alte cuvinte dac cele dou eantioane fac parte din aceeai populaie statistic sau aparin unor populaii statistice diferite). Pentru a putea face aceasta este necesar nelegerea corect a unor noiuni fundamentale din domeniul statisticii, cum ar fi valoarea lui P,

55

Noiuni fundamentale de biostatistic

formularea ipotezei nule (H0) sau existena unor dependene ntre eantioane (date pereche/nepereche).

Valoarea lui P.
n cazul unui experiment efectuat asupra a dou eantioane, o ntrebare pertitent pe care am putea s o punem este urmtoarea:
Dac cele dou populaii statistice studiate chiar au aceeai medie (sau media nu difer semnificativ), care este probabilitatea de a observa o aceeai diferen sau chiar una mai mare ntre mediile unor eantioane de aceeai mrime ntr-un viitor experiment ?

Parametrul statistic ce rspunde la aceast ntrebare este valoarea lui


P. P este de fapt o msur a probabilitii menionate mai sus, putnd

lua valori ntre 0 i 1. Dac valoarea P este mic (de exemplu P<0,05) putem concluziona c este improbabil ca diferena observat ntre mediile celor dou eantioane s se datoreze ansei (eantionrii aleatorii). Cu alte cuvinte, putem trage concluzia c cele dou populaii studiate au ntr-adevr medii diferite.

Ipoteza nul (H0).


Cnd specialitii n statistic fac referire la valoarea lui P n cazul aplicrii unor teste statistice, folosesc totodat i termenul de ipotez nul
(notat cu H0).

Ipoteza nul statueaz pur i simplu, aprioric, faptul c nu exist nici o diferen ntre grupurile (eantioanele) studiate.
56

Statistic inferenial

Simultan se formuleaz i o ipotez alternativ (notat cu Ha sau


H1), ce statueaz exact contrariul: c exist o diferen ntre grupurile

(eantioanele) studiate.

Pornind de la acest fapt, putem defini valoarea lui P ca fiind probabilitatea de a observa (ntr-un viitor experiment) o aceeai diferen
sau chiar una mai mare ntre dou eantioane aleatorii prelevate din cele

dou populaii statistice studiate, dect am observat n acest moment, n


cazul n care ipoteza nul s-ar fi dovedit adevrat. Este relativ uor s interpretm greit valoarea lui P n contextul aceeptrii sau respingerii ipotezei nule. [instat].

S lum un exemplu: n urma aplicrii unui test statistic pentru compararea mediilor a dou eantioane prelevate aleator din dou populaii statistice am obinut o valoare P=0,03. n acest moment am fi tentai s tragem concluzia facil c exist 97% anse ca diferena observat s reflecte o diferen real ntre populaiile studiate, respectiv 3% anse ca diferen s se datoreze ntmplrii. O astfel de interpretarea este ns greit !

Ceea ce putem afirma cu adevrat este faptul c n cazul unor experimente viitoare, n urma prelevrii unor eantioane aleatoare din populaiile respective vom obine o diferen mai mic dect cea constatat acum ntre populaiile studiate n 97 % din cazuri, respectiv o diferen mai mare n cel mult 3% din experimente.
n general n cazul testelor statistice, o valoare a lui P>0,05 duce la acceptarea ipotezei nule H0, respectiv o valoare a lui P<0,05

57

Noiuni fundamentale de biostatistic

determin respingerea ipotezei nule i acceptarea ipotezei alternative Ha.

Dependena/independena eantioanelor studiate (date


pereche/nepereche paired/unpaired data) Anumite teste statistice despre care vom discuta n paginile urmtoare, in cont de modul n care eantioanele studiate sunt dependente sau nu unul de cellalt, existnd fie versiuni speciale ale testului pentu date pereche/nepereche (cum este cazul testului t), fie testul este recomandat pentru date nepereche testul Mann-Whitney, respectiv date pereche testul Wilcoxon. Una dintre principalele problem rezid din modul n care datele sunt grupate: avem de-a face cu un experiment cu date pereche sau nepereche (paired unpaired n englez) ? Putem vorbi despre date pereche, atunci cnd experimentul are urmtorul design: Este msurat o variabil nainte i dup o intervenie asupra aceluiai subiect Se efectueaz un experiment de laborator de mai multe ori, de fiecare dat efectund n paralel determinri asupra preparatului studiat, respectiv asupra controlului Subiecii experimentului au fost recrutai ca perechi pe baza unor criterii cum ar fi vrsta, rasa sau gravitatea bolii

58

Statistic inferenial

Sunt msurai anumii parametrii n cazul gemenilor sau a unor perechi de genul printe/copil etc La modul general, putem considera datele ca fiind pereche (eantioane dependente), dac ne ateptm ca o fiecare valoare dintr-un eantion s fie corelat cu o valoare particular din cellalt eantion. Evident potrivirea NU trebuie s aib loc pe baza variabilei studiate. De exemplu dac vom compara tensiunea arterial ntre dou grupuri, vom ordona eantioanele, potrivindu-le pe baza vrstei pacienilor, de exemplu, i nu pe baza valorilor tensiunii arteriale !

Statistic parametric/neparametric
n practic ntlnim dou situaii, pe care le vom aborda diferit:

1. Dac rezultatele se ncadreaz ntr-o distribuie normal i dac cele


dou eantioane nu exist alt diferen semnificativ (diferene de vrst, sex, mas corporal etc.) n afar de tratamentul aplicat se consider c abaterile standard ale celor dou loturi nu difer semnificativ. n acest caz se poate testa semnificaia statistic a diferenei mediilor cu ajutorul mai multor teste, dintre care cel mai folosit este testul t Student. 2. Dac rezultatele nu se ncadreaz ntr-o distribuie normal sau nu poate fi testat normalitatea distribuiei datelor experimentale, datorit numrului mic de date colecate (existena unor eantioane mici) este indicat s se aplice un test neparametric, cele mai des utilizate fiind testul Wilcoxon, respectiv testul U Mann-Whitney.

59

Noiuni fundamentale de biostatistic

IV.3.1. Teste de semnificaie parametrice


Este cunoscut faptul c majoritatea efectelor farmacodinamice obinute prin administrarea substanelor active se pot ncadra n urmtoarele dou categorii: i. Efecte gradate, care variaz n funcie de doz sau, altfel spus, unde relaia dintre doz i efect este gradat. Aceste efecte nu se mai numesc

cantitative.
ii. Efecte unice (cuantale) exprimate printr-un cuantum (proces) sau efecte cu rspuns unic, de tipul tot sau nimic. Se mai numesc i efecte calitative. Testele de semnificaie se mpart datorit acestui fapt n:
A. Teste de semnificaie pentru efecte gradate (de exemplu testul

t, testul F, testul U).


B. Teste de semnificaie pentru efecte cuantale (de exemplu testul

X2).
A.Teste de semnificaie pentru efecte gradate

Testele de semnificaie aplicate ntre dou medii, stabilesc valoare mediilor n funcie de posibilitile de eroare. Mai precis ele stabilesc care este probabilitatea ca diferena dintre dou efecte (dou medii) s fie real sau, eventual, s se datoreze unei fluctuaii de eantionaj.

60

Statistic inferenial

n fapt, se testeaz ipoteza nul ce statueaz faptul c nu exist nici o diferen ntre cele dou medii. Dac aceast afirmaie nu se verific, nseamn c diferena ntre cele dou medii este semnificativ statistic, putndu-se deci susine existena unui rezultat diferit de cel datorat ntmplrii (cu alte cuvinte existena unui efect biologic al substanei cercetate). Calculele se efectueaz, de obicei, la un prag de semnificaie p=0,05, ce acoper deci 95% din cazuri, dup legile distribuiei normale. Dac se consider necesar, se poate lucra i cu un prag mai mic de semnificaie (de exemplu p =0,01, adic 99%), fapt care permite o siguran mai bun din punct de vedere statistic.
A.1.1. Testul F Fischer - Snedecor

Testul propus de Snedecor, ia n considerare varianele de eantionaj. Pentru a transforma varianele n mrimi apte de a fi comparate, de exemplu n cazul efectului farmacologic a dou forme farmaceutice coninnd aceeai substan activ, un instrument statistic eficient este testul F. Formulele practice de calcul, obinute prin transformri algebrice, sunt urmtoarele:
x1
2

2 S1 =

n1 n1 1

( x1 )2
(IV.5)
S2 = 2

x2

( x 2 )2

n2 1 (IV.6) n2 1

61

Noiuni fundamentale de biostatistic

F=

2 S1

S2 2

2 (IV.7), unde S1 > S 2 2

Exemplu: Vom ncerca s aflm, folosind testul F, dac exist o diferen semnificativ ntre variana n jurul a dou medii x1 i x 2 , provenite dintr-o determinare comparativ a dou produse farmaceutice A i B. Rezultatele obinute sunt trecute n tabelul de mai jos:
Tabel IV.5. Rezultate obinute pentru dou produse farmaceutice A i B

Efect A 6 4 3 7 6 4 n1=6
x 1 = 30

2 x1

Efecte B 15 4 10 10 5 11 9 n2=7

2 x2

36 16 9 49 36 16

225 16 100 100 25 121 81

x 2 = 64

x 1 = 5,0
x 1 = 162
2 S1
2

x 2 = 9,1
x 2 = 668
2

162 (30) 2 / 6 162 150 = = 2,4 6 1 5


S 2 13,8 668 (64) 2 / 7 668 585 = = 13.8 deci F = 1 = = 5,75 2,4 7 1 6 S2
62

S2 = 2

Statistic inferenial

Comparm valoare obinut de noi cu cea din tabelul Anexei 5, innd cont de gradele de libertate. Pentru p = 0,05 gsim valoare 4,95. Deoarece valoarea gsit de noi este mai mare dect cea teoretic, nseamn c exist o diferen statistic semnificativ ntre variana n jurul celor dou medii obinute experimental.
A.1.2. Testul t Student

A fost propus de Gosset n cazul n care eantioanele sunt mici. El ine cont, n calculul diferenei semnificative dintre medii, de msura variabilitii i de ponderea observaiilor n funcie de numrul acestora (grade de libertate). Exist 3 variante ale testului testul t implementate n diferite versiuni ale unor programe de analiz statistic: i. Testul t pentru date pereche (eantioane dependente) ii. Testul t pentru date nepereche (eantioane independente) ce au

varian egal (homoscedatic)


iii. Testul t pentru date nepereche (eantioane independente) ce au

varian inegal (heteroscedatic)


Pentru eantioane mici exist diferene ntre testul t i celelalte teste de semnificaie parametrice, dar ncepnd de la n > 15 cifrele testului t se apropie de 2, ceea ce arat o coinciden cu distribuia normal. Formulele de calcul a diferenei semnificative, n cazul testului t sunt urmtoarele:

63

Noiuni fundamentale de biostatistic

t=

x1 x 2 n1 n2 Sd n1 + n2

(IV.8), unde

x1 , x 2

= media rezultatelor

eantionului 1, respectiv 2 n1, n2 = numrul de animale din eantionul 1, respectiv 2. sd = eroarea standard a diferenei, care se calculeaz conform formulei:
sd =

d 12 + d 22
n1 + n2 2

(IV.9)

unde:

d 12 , d 22 = (x1 x )2
1 i 2.

n eantioanele 1, respectiv 2. xi - valorile individuale n eantioanele

Dac nlocuim n formula (IV.8) valoarea erorii standard conform formulei (IV.9), obinem:
t= x1 x 2 n1 n2 (IV.10) n1 + n2

d 12 + d 22
n1 + n2 2

Se consider o diferen semnificativ, cu o probabilitate de eroare de 5% (p=0,05) dac t calculat este superior celui din tabelul A, pentru gradele de libertate corespunztoare. n cazul n care cele dou eantioane sunt egale numeric (n1=n2), putem reprezenta acest numr egal de cazuri prin n (n=n1=n2) i formula (IV.10) devine:

64

Statistic inferenial

t=

x1 x 2

2 d1

n(n 1)

2 d2

(IV.11)

Acelai test se poate folosi i n cazul n care condiiile experimentale permit administrarea concomitent a ambelor tratamente la acelai animal. n aceast situaie putem admite c rspunsurile obinute la acelai animal sunt rezultatul exclusiv al diferenelor ntre aciunea substanelor testate, restul condiiilor fiind identice. Aceasta ne permite s scdem unul din altul cele dou rezultate, obinute la acelai animal i s testm semnificaia diferenelor (di) astfel calculate (metoda poart numele de metoda cuplurilor); aplic formula:

t=

(d 1 d 2 )
n(n 1)

(IV.12)

unde: di = valorile individuale ale diferenelor fiecrui cuplu

d =

di
i

(IV.13)

Pentru o mai bun nelegere vom lua un exemplu. S presupunem c n tabelul de mai jos se gsesc rezultatele obinute la acelai animal dup administrarea standardului (s) i a probei (p), precum i diferena dintre aceste rezultate (di = p-s):

65

Noiuni fundamentale de biostatistic

Tabelul IV.6. Rezultate experimentale

Nr.crt. 1. 2. 3. 4. 5. 6. 7. 8.

s 24 20 18 45 60 72 65 54

p 35 10 36 50 74 65 70 90

di 11 -10 18 5 14 -7 5 36
2

d1 d
2 -19 9 -4 5 -16 -4 27

(d 1 d )2
4 361 81 16 25 256 16 729

d 1 = 72

(d 1 d )
t=

= 1488

d1 = 9

9 1488 7 8

= 1.74

Aplicnd formula (4.2.5.) se obine un t = 1,74, mai mic dect valoarea t =2,37 care este dat n tabele pentru 7 grade de libertate i o probabilitate de eroare de 5% (p = 0,05). Aceasta arat c efectul probei aflate n studiu nu difer semnificativ fa de standard.

66

Statistic inferenial

B.Teste de semnificaie pentru efecte cuantale


2 2 B.1.1. Testul (Chi )

n cazul determinrilor cuantale comparative, pentru a calcula diferena semnificativ ntre dou activiti (probe) exprimate n procente, sau pentru a stabili dac exist o anumit concordan sau discordan ntre frecvenele ateptate (teoretice) i cele observate (experimentale, empirice) sau, alte cuvinte legtura existent sau inexitent nttre o repartiie teoretic i o repartiie experimental se folosete indicele 2 , propus pentru prima dat de Helmert i Pearson. Testul 2 , spre deosebire de alte teste aplicate n cazul rspunsurilor biologice cuantale, ia n considerare i ali factori dect abaterea standard a procentelor, i anume numrul cazurilor, gradele de libertate, frecvenele teoretice i frecvenele experimentale. Legtura funcional este definit de concordana sau neconcordana dintre ipoteza de lucru (efecte teoretice) i rezultatele experimentale (empirice), gradul de legtur putndu-se msura prin stabilirea frecvenei asociaiei n comparaie cu numrul cazurilor examinate, lucru care se poate exprima matematic prin raportul asociaiei Muster:
Rm= Nr. cazurilor de asociere Nr. indivizilor examinai

(IV.14)

Legtura funcional dintre rezultatele teoretice (ateptate) i rezultatele experimentale ar putea fi aflat din nsumarea diferenelor ntre

67

Noiuni fundamentale de biostatistic

frecvenele teoretice i cele experimentale. Relaia care exprim matematic acest lucru este urmtoarea:
di

= f teor. f exp . (IV.15)

Frecvena teoretic total poate fi egal cu frecvena empiric total, iar diferenele pozitive se pot compensa cu cele negative, de aceea n calcul vom folosi ptratele acestor diferene, ceea ce duce la relaia:

=
2

(f

teor .

f exp . ) f teor .

(IV.16)

n cazul concordanei perfecte ntre teorie i observaie 2 = 0. Practic formula de calcul a lui 2 este cea de mai jos:
2 =
ee e t (IV.17) unde et

ee = efectul observat experimental et = efectul teoretic (ateptat)

Testul 2 se aplic:
-

frecvenelor absolute (numere, efecte de diverse categorii) frecvenelor relative (procentaje)

Trebuie menionat ns faptul c nu putem folosi acest test dect dac efectele studiate au frecvene de apariie mai mari de 10. n determinrile biologice testul 2 poate fi folosit ca test de semnificaie n cazul rspunsurilor unice, cu ajutorul lui putndu-se aprecia dac exist o diferen semnificativ ntre dou distribuii (una teoretic i alta experimental).

68

Statistic inferenial

Pentru a compara o repartiie observat fa de o repartiie teoretic a unui caracter calitativ cu N clase, aplicm formula de mai sus i cutm probabilitatea corespunztoare la N-1. Testul este cu att mai semnificativ cu ct valoarea P gsit este mai mic i 2 calculat mai mare. S lum un exemplu: Administrnd o doz egal cu DL50 la 40 de oareci, se obine un efect de 30 de animale moarte i 10 animale supravieuitoare. Am obinut deci un procent de mortalitate de 75% fa de 50% ct era de ateptat. Dorim s aflm dac acest rezultat experimental difer semnificativ de cel teoretic (50% mortalitate) sau se datorete doar unei fluctuaii de eantionaj. Vom aplica formula de mai sus. n cazul nostru et = 20. n urma experimentului au murit 30 de aoreci, deci ee = 30. Rezultatele experimentului se trec, de obicei ntr-un tabel de forma:
Tabel IV.6. Rezultatele experimentului Mori Teoretic (et) Experimental (ee) ee-et Supravieuitori Total %

20 30 10

20 10 -10

40 40 -

50 75 -

Introducnd datele n formula de calcul obinem:


2

(30 20)2 + (10 20)2 =


20 20

10 2 ( 10 )2 = + = 5 + 5 = 10,0 20 20

69

Noiuni fundamentale de biostatistic

n cadrul experimentului exist dou posibiliti de evoluie, animale moarte sau supravieuitoare, deci N=2, iar N-1=1. deci numrul de grade de libertate pentru care vom cuta n tabelul din Anexa 7 va fi egal cu 1. Vom constata c valoarea lui 2 obinut de noi corespunde, pentru N=1, unei valori p=0,001, deci rezultatul obinut n urma experimentului difer semnificativ de cel estimat teoretic. n cazul nostru putem interpreta rezultatul obinut ca fiind datorat unei toxiciti crescute a produsului fa de cea ateptat teoretic (am putea presupune, de exemplu, o descompunere a substanei active cu formarea unor produi cu toxicitate crescut: urmeaz s stabilim prin cercetri ulterioare care este adevrata cauz a creterii toxicitii compusului, cretere stabilit tiinific cu ajutorul testului 2 ). n cazul comparaiei a dou procentaje, formula de calcul se bazeaz pe coeficientul de asociaie Q a lui Yule. S o aplicm n cazul a dou produse A i B, cu cte dou variabile a, respectiv b. Cifrele romane arat frecvenele absolute ale acestor variabile: Q= I III II IV (IV.18) I III + II IV

Datele pot fi grupate ntr-un tabel sinoptic ca cel de mai jos:


Tabel IV.7. Tabel sinoptic a A B b

I IV

II III

70

Statistic inferenial

Dac lum un numr M de cazuri (de exemplu un experiment ce folosete M animale), formula de mai sus poate fi scris: 2 =

[(I III II IV) M / 2]2 M (I + II)(III + IV)(I + IV)(II + III)

(IV.19)

S ncercm determinarea cu ajutorul testului 2 , a activitii unui produs n comparaie cu un produs martor, urmrindu-se supravieuirea animalelor. S presupunem c, n urma experimentrii, am obinut rezultatele de mai jos:
Tabel IV.8. Tabel sintetic cu rezultatele experimentului Supravieuitori Compus de cercetat Compus martor Total Mori Total % supravieuitori

I=25 IV = 21 I + IV = 46

II = 14 III = 22 II + III = 36

I + II = 39 IV + III = 43 M = 82

64% 49% -

Practic va trebui s determinm dac procentul de supravieuitori de 64%, gsit n cazul compusului cercetat, difer semnificativ statistic de procentul de supravieuitori gsit n cazul compusului martor (49%), practic dac compusul studiat este mai puin toxic dect martorul. Introducem datele din tabel n formula lui Yule.
2

[(25 22 14 21) 82 / 2]2 82 =


39 43 46 36

71

Noiuni fundamentale de biostatistic

Deoarece avem din nou numai dou posibiliti, animale moarte sau supravieuitoare, vom avea N=2, respectiv N-1=1 grad de libertate. Din tabelul Anexei 7 putem constata c statisticul lui CHI2 corespunde unei valori p=0,20, statistic nesemnificativ. Putem afirma deci c produsul studiat nu este mai puin toxic dect martorul, diferena dintre procentajele obinute datorndu-se fluctuaiilor de eantionaj.

IV.3.2. Teste de semnificaie neparametrice. Statistica ordinei.


Dac rezultatele experimentelor nu se ncadreaz ntr-o distribuie normal sau volumul eantioanelor extrase din populaia statistic este mic, este indicat recurgerea la un test de semnificaie neparametric. Astfel de teste fac obiectul unei ramuri a statisticii numit i statistica ordinei, la care studiaz sistemele de valori observate ale variabilelor aleatoare, din punctul de vedere al relaiilor de ordine. Un mare avantaj al acestor metode l constituie, cum am mai spus, faptul c rezultatele ce se obin nu depind de natura repartiiei variabilei aleatoare studiate. Ele se numesc neparametrice, deoarece verificarea unei ipoteze nu este legat de parametrul unei anumite repartiii.

Testul Wilcoxon
Este unul dintre cele mai utilizat teste de semnificaie neparametrice, extrem de util mai ales n cazul eantioanelor dependente (date pereche paired data).

72

Statistic inferenial

Aplicarea lui la studiul a dou eantioane, pentru a verifica dac acestea difer semnificativ sau nu (i, n ultim instan dac provin sau nu din aceeai populaie statistic), presupune parcurgerea urmtorilor pai: 1. Se aeaz valorile n (n = n1 + n2) n ordine cresctoare, fcnd
abstracie de eantioanele din care provin. Se atribuie apoi fiecrei

valori un rang de ordine cresctoare ncepnd cu 1. Dac exist valori egale, acestora li se atribuie ranguri egale cu media aritmetic a rangurilor pe care le-ar fi avut dac aceste valori ar fi fost distincte. 2. Se formeaz un tabel n care se specific, n ordine cresctoare, valorile obinute la fiecare eantion i se reine, notnd cu S, una din cele dou sume. 3. Folosind tabelul (testul Wilcoxon, p =0,95) de mai jos, se procedeaz astfel: Dac S este situat n afara intervalului din tabel, care se gsete la intersecia coloanei (n1) i a liniei (n2) se poate afirma c, la pragul de semnificaie =0,05 (sau altfel spus p = 0,05), cele dou eantioane difer. n caz contrar este justificat s se afirme c cele dou eantioane nu difer semnificativ statistic.
Tabel IV.9. Valori critice, testul l Wilcoxon ( = 0,05) n1

4 4 5 11-26 12-28

5 17-33 19-36

6 24-42 26-46

7 32-52 34-57

8 41-63 44-68

9 51-75 54-81

10 62-88 66-94

73

Noiuni fundamentale de biostatistic

6 7 8
n2

13-31 14-34 15-37 16-40 17-43 18-46 19-49 20-52 21-55

20-40 21-44 23-47 24-51 26-54 27-58 28-62 30-65 31-69

28-50 29-55 31-59 33-63 35-67 37-71 38-76 40-80 42-84

36-62 39-66 41-71 43-76 45-81 47-86 49-91 52-95 54100

46-74 49-79 51-85 54-90 56-96 59101 62106 64112 67117

57-87 60-93 63-99 66105 69111 72117 75123 78129 81135

69101 72108 75115 79121 82128 86134 89141 92148 96154

9 10 11 12 13 14

Exemplu. Se ia un lot martor format din n1=10 oareci i un lot

tratat, format din n2=9 oareci. Ca analgezic se folosete metamizol sodic (5mg/kg.corp), iar ca stimul chimic se folosete acid acetic 0,6% (1 ml / 10 g mas corporal). Se nregistreaz numrul de contorsiuni, rezultatele fiind trecute n tabelul de mai jos:

74

Statistic inferenial

Tabelul IV.10. Rezultatele experimentale. Testul Wilcoxon Lot martor 22 27 -* 31 34 36 36 37 51 54 55 Lot tratat 20 21 27 29 29 31 34 35 47 Ranguri tratat 1 2 4,5 6,5 6,5 8,5 10,5 12 16 S1 = 67,5 lot Ranguri martor 3 4,5 8,5 10,5 13,5 13,5 15 17 18 19 S2 = 122,5 lot

n tabelul de mai sus, pentru n1=10 i n2=9, corespunde intervalul 79121. Deoarece S2=122,5 este situat n afara acestui interval, se poate afirma c p<0,05, deci cele dou eantioane studiate difer semnificativ statistic.

75

Noiuni fundamentale de biostatistic

n concluzie, aciunea analgezic a metamizolului s-a manifestat la doza de 5 mg/kg.corp. Ca o observaie trebuie menionat c valorile fracionare aprute n coloanele rangurilor (de exemplu 4,5; 6,5; 8,5; 10,5; 13,5), rezult din media rangurilor pe care le-ar fi avut valorile n primele dou coloane, dac ele ar fi fost distincte (de exemplu 4,5 = (4+5)/2). Aplicarea testului Wilcoxon este util n special n cazul existenei a dou eantioane dependente (date pereche), n contextul n care s-a demonstrat faptul c distribuia de frecven nu este Gaussian.

Testul Mann-Whitney U
Testul Mann-Whitney U (MWU) este cel mai utilizat test de semnificaie neparametric pentru compararea (medianelor) a dou
eantioane independente ce conin msurtori ale unor date experimentale,

ranguri sau scoruri. De pild, n cazul existenei unor ranguri sau scoruri, testul MWU verific dac scorurile respective sunt aleator distribuite ntre cele dou eantioane. Modul de calcul n cazul testului Mann-Whitney U. S considerm dou eantioane independente A i B, fiecare avnd mrimea eantionului n1, n2=8, pentru care studiul acord o serie de scoruri (ranguri) de la 1 la 14 (variabile ordinale).
Tabel IV.11. Rezultatele experimentale Nr.crt. 1 2 3 Scor pentru A 1 3 5 76 Scor pentru B 1 2 4

Statistic inferenial

4 5 6 7 8

5 6 8 9 10

7 9 11 12 14

n tabelul de mai jos avem deja listai subiecii din ambele eantioane mpreun, n ordinea scorului acordat:
Tabel IV.12. Rezultate experimentale, subiecii din ambele eantioane, n

ordinea scorului acordat


Scorul acordat Eantionul 1 1 A B 2 B 3 A 4 B 5 A 5 A 6 A 7 B 8 A 9 A 9 B 10 A 11 B 12 B 14 B

Vom calcula urmtoarele mrimi:


Ua = numrul de A (membrii ai eantionului A) ce preced n

tabelul cu scoruri primul B (membru al eantionului B ) + numrul de A de la nceputul tabelului ce preced n tabelul cu scoruri cel de-al doilea B + + numrul de A de la nceputul tabelului ce preced n tabelul cu scoruri ultimul B Pentru datele din tabelul de mai sus,
Ua= 1 + 1 + 2 + 5 + 7 + 8 + 8 + 8 = 40

Similar putem calcula Ub. Pentru cazul luat n calcul


Ub= 0 + 2 + 3 + 3 + 3 + 4 + 4 + 5 = 24

De remarcat faptul c Ub putea fi calculat i cu formula Ub= (n1* n2) - Ua.


Ub=(8*8)-40=24

Vom considera statisticul testului U ca fiind cea mai mic dintre valorile lui Ua sau Ub. n cazul nostru deci, U=24. n tabelul cu probabiliti
77

Noiuni fundamentale de biostatistic

pentru testul Mann-Whitney U vom gsi pentru n1 = 8, n2 = 8, respectiv U=24 un P de 0,494, considerat nesemnficativ statistic. Evident, majoritatea programelor de analiz statistic ne vor furniza direct valoarea lui U, respectiv valoarea lui P.

78

Analiza ANOVA

Capitolul V V. Analiza dispersional (analiza de varian) ANOVA


[12, 13]

A. Baze teoretice
Dup cum se tie procesele biologice se pot afla, la un moment dat, sub influena mai multor factori, cu aciune concomitent. Pentru a pune n eviden n ce msur unul sau mai muli factori (sdau chiar o combinaie a acestora) influeneaz n mod esenial asupra unei caracteristici rezultative se utilizeaz analiza dispersional. Analiza dispersional, cunoscut i sub denumirea de analiz de
varian (Anova), a fost introdus de statisticianul R.A. Fisher. Prin aceast

metod se verific msura n care valorile reale ale unei caracteristici se abat de la valorile teoretice, calculate, de regul, sub forma unor mrimi medii sau ecuaii de regresie, precum i msura n care aceste variaii sunt dependente sau nu de factorul de grupare. Pe baza interpretrii logice a variaiei celor dou sau mai multe variabile luate n studiu se pot stabili relaii de tipul cauz efect. Uneori prin analiza dispersional trebuie s fie verificat dependena variabilei rezultative (z) de factorul (factorii) de grupare, ea putnd fi considerat, n acest caz, ca o metod auxiliar, utilizat nainte i dup aplicarea metodelor corelaiei i regresiei statistice. Dac, ns, trebuie verificat independena variabilei rezultative de o variabil de sistematizare a datelor, atunci analiza

79

Noiuni fundamentale de biostatistic

dispersional poate fi considerat ca o metod independent, ce duce la concluzii de sine stttoare. Analiza dispersional are la baz metoda gruprii. Prin aceasta se separ influena asupra caracteristicii rezultative a factorilor nregistrai ca
eseniali (determinani) de influena factorilor ntmpltori (accidentali).

n funcie de numrul factorilor (unu, doi sau mai muli) care influeneaz asupra variaiei caracteristicii rezultative, avem modele de
analiz dispersional unifactorila, bifactorial sau multifactoril.

Modelul de analiz dispersional are la baz ipoteza c mediile condiionate de factorul de grupare y i , reprezint valorile tipice care se
formeaz la nivelul fiecrei grupe, n timp de media general y valoarea tipic

este

pentru ntreaga colectivitate statistic. Msura n care

valorile individuale se abat de la aceste valori tipice reprezint rezultatul modului de asociere a factorilor care determin variaia caracteristicii y.
2 Se tie c dispersia teoretic (general ) 0 se poate estima cu ajutorul

funciei de selecie: 1 y ij y n 1

)2 = S2

(V.1.)

s2 fiind, n acest caz, un estimator nedeplasat al dispersiei teoretice Ideea de baz a analizei dispersionale const n mprirea acestei sume de ptrate ntr-un anumit numr de componente, fiecare component corespunznd unei surse reale sau ipotetice de variaie a mediilor. Ipoteza nul (ipoteza de zero), pe care urmeaz s o testm n cadrul analizei dispersionale, este legat de egalitatea mediilor:
H0: m1 = m2 ... = mi ... = mr 80

Analiza ANOVA

Cu alternativa: H1: cel puin dou medii difer ntre ele. Mediile teoretice mi se estimeaz cu ajutorul mediilor de grup empirice sau de selecie simbolizate y i , adic: H 0 : y1 = y 2 = ... = y i = ... = y r
Not. Testul sau criteriul egalitii celor r medii sau selecii are la
2 baz presupunerea c dispersiile de selecie s1 , s 2 ,...., s 2 , sunt omogene, 2 r

adic sunt estimaii ale uneia i aceleai dispersii generale. De aceea, ori de cte ori exist vreun dubiu n legtur cu omogenitatea celor r dispersii, se trece la verificarea egalitii lor folosind de pild testul 2 .

B.Consideraii practice
Dac pn acum abordarea teoretic a analizei dispersionale poate prea dificil de neles, n cele ce urmeaz vom ncerca abordarea acesteia de pe baze practice. Cu alte cuvinte vom vedea unde i cnd aplicm analiza dispersional monofactorial sau bifactorial. Dup cum se cunoate, rspunsul biologic obinut n urma unui experiment poate fi influenat de mai muli parametri care acioneaz simultan (doza administrat, administrarea simultan a substanaei active i a unor antagoniti, modificarea concentraiei substanei simulante n cazul testului stimulului chimic etc), fiecare din aceti parametrii avnd, ns, o influen specific asupra rezultatului urmrit. Scopul analizei dispersionale este separararea i testarea efectelor cauzate de variaia parametrilor

81

Noiuni fundamentale de biostatistic

respectivi i eliminarea din cmpul de observaii a parametrilor a cror variaie nu este semnificativ pentru rezultatul urmrit.
Principiul matematic al analizei dispersionale se bazeaz pe gruparea datelor observate dup unul sau mai multe criterii i scoaterea n eviden a efectelor obinute n funcie de influena particular a criteriilor

dup care au fost grupate observaiile. Efectele odat identificate, testarea are loc prin compararea
dispersiilor cauzate de factorii variabili, cu dispersia cauzat de factorii ntmpltori care acioneaz asupra procesului studiat.

Numrul de criterii dup care se grupeaz datele depinde de numrul parametrilor cuprini n analiz. Pentru a fi mai explicii s lum urmtorul exemplu: S presupunem c avem n studiu ase substane cu efect analgezic crora trebuie s le demonstrm acest efect folosind testul plcii nclzite. Practic vom determina timpul de reacie medicamentos TRM (timpul de laten al reaciei nociceptive la animalul tratat lingerea labei). Considernd cele ase substane medicamentoase drept variabile independente i timpul de laten a reaciei nociceptive drept variabil dependent, analiza dispersional ne permite testarea influenei fiecrei substane active studiate asupra timpului de laten a reaciei nociceptive. Metoda de analiz dispersional cun un singur parametru variabil se numete analiz dispersional monofactorial. Exist ns posibilitatea de a dori s studiem influena celor ase substane cu efect analgezic asupra timpului de laten a reaciei nociceptive n condiiile administrrii concomitente i a unor substane medicamentoase

82

Analiza ANOVA

ce poteneaz aciunea analgezicelor respective. n acest caz, analiza dispersional urmrete testarea influenei simultane a dou variabile independente. Metoda cu ajutorul creia putem testa influena a doi parametri variabili se numete analiz dispersional bifactorial. n mod asemntor exist analiz dispersional cu trei factori, cu patru factori etc. (analiz dispersional multifactorial). n cele urmeaz vom aborda analiza dispersional monofactorial i bifactorial, aceste dou metode fiind suficiente pentru nelegerea raionamentului care ne permite eliminarea din cmpul experimental a parametrilor a cror variaie nu influeneaz semnificativ rezultatele urmrite printr-o lucrare de cercetare. (De exemplu, aceste metode ne permit s demonstrm faptul c o anumit substan poteneaz sau nu aciunea unor analgezice, demosntrndu-i astfel valoarea extarordinar n cercetarea farmacologic).

V.1. Analiza dispersional monofactorial


Cu ajutorul analizei dispersionale monofactoriale (cu un singur parametru variabil) se testeaz egalitatea valorilor medii care variaz sub influena unei singure variabile independente. S presupunem c trebuie testat egalitatea valorilor medii calculate dintr-un numr de n experiene cu
m (M1, M2, .... Mm) substane avnd efect analgezic, criteriul de etstare

fiind timpul de laten a apariiei reaciei nociceptive timpul scurs pn n momentul n care animalul i linge laba.

83

Noiuni fundamentale de biostatistic

Vom aranja mai nti datele obinute sub forma unui tabel (tabelul V.I.), n care xij (i =1, 2, ...m i j = 1, 2, ...., n) reprezint timpul de laten a apariiei reaciei nociceptive. De exemplu x32 nseamn timpul nregistrat (n secunde) n urma experienei nr. 2 cu substana activ nr. M3.
Tabelul V.1. Gruparea rezultatelor pentru analiza dispersional

monofactorial Nr. Exp. Subst. activ

M1

M2

M3

Mm

Experimentul 1 Experimentul 2 Experimentul 3 . Experimentul n Total

x11 x12 x13


.

x21 x22 x23

x31 x32 x33


...

xm1 xm2 xm3

x1n x1

x2n x2

x3n x3

xmn xm

n tabelul V.I. diferenele observate ntre datele numerice nscrise n


coloane se datoreaz faptului c s-au folosit diferite substane cu efect analgezic (diferena ntre coloane), iar diferenele ntre rnduri sunt cauzate

de reproductibilitatea condiiilor experimentale. Dup cum tim, dispersia valorilor individuale fa de media aritmetic a lor este dat de formula:
2 x ij ij 2

S2 =

1 x ij n ij n 1

(V.2)

84

Analiza ANOVA

Dup cum se observ din tabel, n cazul de fa dispersia este cauzat de un singur parametru, i anume folosirea unei anumite substane active, la care se adaug, evident, i reproductibilitatea condiiilor experimentale. Datorit proprietii sale aditive, dispersia total se compune din dispersia cauzat de diferena ntre coloane plus dispersia total n componentele sale. Pentru simplificare, vom introduce urmtoarele notaii pentru sumele auxiliare: 1. Suma ptratelor tuturor observaiilor individuale:
2 S1 = x ij (V.3) ij

2. Suma ptratelor sumei coloanelor observaii pe coloane:


S2 =
i =1 m

mprit la numrul de

xi

(V.4)

3. Ptratul sumei tutror observaiilor mprit la numrul total de observaii:


xy y S3 = mn
2

(V.5)

Pentru analiza dispersiilor i testarea egalitii ntre valorile medii observate, calculele vor trebui centralizate ntr-un tabel de forma celui de mai jos:

85

Noiuni fundamentale de biostatistic

Tabelul V.2. Analiza dispersional monofactorial Tipul variaiei Suma ptratelor Numrul gradelor de libertate Estimaia dispersiei
2 S1 =

ntre coloane (ntre grupe) ntre rnduri (n interiorul grupelor)


Total

S2-S3

m-1

S2 S3 m 1

2 S1 2 S2

S1-S2

m(n-1)

2 S2 =

S1 S 2 m( n 1 )

(S2-S3)+(S1S2) = S1-S3

mn-1

Testul de semnificaie (verificarea ipotezei) trebuie s se refere la raportul dintre variaia ntre grupe (sistematic) i variaia n interiorul grupei (rezidual). Pentru a verifica dac factorul de grupare este
semnificativ, se folosete testul F, dat de relaia:
F=
2 S1

S2 2

2 (V.6) unde S1 =

S 2 S3 (V.7) dispersia corectat ntre m 1

grupe (sistematic).

86

Analiza ANOVA

S2 = 2

S1 S 2 (V.8) - dispersia corectat din interiorul grupelor m(n 1)

(rmas sau rezidual) Valoarea F rezultat din calcul se compar cu valoarea F gsit n Anexa 5 pentru pragul de semnificaie ales. ntlnim urmtoarele situaii: 1. Dac F calculat este mai mic dect F gsit n tabel, la gradele de
2 libertate folosite pentru calcularea dispersiilor S1 i S2 , se accept ipoteza 2

de zero adic ipoteza conform creia parametrul variabil nu influeneaz

asupra variabilei dependente, diferenele observate datorndu-se erorilor


experimentale. 2. Dac F calculat este mai mare dect F gsit n tabel, ipoteza de zero se respinge i se trage concluzia c parametrul variabil are influen

asupra rezultatului urmrit, diferenele observate ntre medii fiind reale.


Exemplu. Fiind date 6 substane (M1, M2,. M6), presupuse ca

avnd efect analgezic, s-au efectuat un numr de 8 experiene injectndu-se intraperitoneal cte unui oarece substana de cercetat, dup care se efectueaz testul plcii nclzite, conform metodologiei descrise n bibliografie [ ]. Intensitatea efectului se exprim prin prelungirea timpului de reacie, adic diferena ntre TRM-TRI, exprimat n secunde (pentru semnificaia acestor timpi, vezi testul plcii nclzite).

87

Noiuni fundamentale de biostatistic

Tabelul V.3. Rezultate experimentale

Nr. Exp.

Subst. activ

M1

M2

M3

M4

M5

M6

Experimentul 1 Experimentul 2 Experimentul 3 Experimentul 4 Experimentul 5 Experimentul 6 Experimentul 7 Experimentul 8 Total Media

25,1 27,0 29,6


26,6

22,8 23,8 27,1 22,7 22,8 27,4 22,2 25,1 193,9 24,1

25,5 27,9 28,8 26,9 25,4 30,0 29,6 23,5 217, 6 27,2

24,5 25,2 27,7 26,9 27,1 30,6 26,4 26,6 215, 0 26,9

25,5 28,7 26,2 25,7 27,2 27,9 25,6 28,5 215,3 26,9

24,7 27,1 26,0 26,2 25,7 29,2 28,0 24,0 211,3 26,4

25,2 28,3 24,7 25,1 211,6 26,5

Pentru a ne putea orienta n vederea alegerii substanei cu cel mai puternic efect analgezic va trebui s verificm dac ntre rezultatele obinute exist o diferen semnificativ sau diferenele sunt cauzate de erori experimentale. Vom calcula deci sumele auxiliare: S1= 25,12 + 27,02 + ... + 29,22 + 28,02 + 24,42 = 33511,11 S2 = S3 = 211,6 2 + 193,9 2 + 217,6 2 + 215,3 2 + 211,3 2 = 33368,53 8

(211,6 + 193,9 + 217,6 + 215,0 + 215,3 + 211,3)2


48 S1-S2 = 142,58
88

1264,7 2 = 33322,20 48

S2-S3 = 46,33

S1-S3 = 188,91

Analiza ANOVA

m-1=5
2 S1 =

m(n-1)=42
S2 = 2 142,58 = 3,16 42

mn-1=47
F= 9,27 = 2,93 3,16

46,33 = 9,27 5

Cu aceste date vom completa tabelul V.4. pentru analiza dispersional, n conformitate cu modelul artat n tabelul V.2.
Tabelul V.4. Analiza dispersional a rezultatelor experimentale Sursa dispersiei Suma ptratelor Gradele de libertate Dispersia F F0,05

Substanele cercetate (variaie


ntre grupe)

46,33

9,27

2,93

2,44

Erorile experimentale
(variaie
Total

142,58

42

3,16

interiorul grupei)
188,91 47 -

Concluzii. Deoarece F > F0,05 (2,93 > 2,44), unde F0,05 se gsete

din tabel, la pragul de semnificaie =0,05, = 5 i =42 grade de libertate (n tabel se caut pe orizontal numrul de grade de

libertate al dispersiei de la numrul, iar pe vertical numrul de grade de libertate al dispersiei de la numitor), ipoteza nul se
respinge i putem trage concluzia c cele ase substane difer

89

Noiuni fundamentale de biostatistic

semnificativ din punct de vedere al efectului analgezic. Firete cercetarea nu se oprete aici, urmnd s aib loc noi determinri experimentale, menite s stabileasc acele substane care pot fi utilizate n terapia, datorit efectului suficient de puternic.

V.2. Analiza dispersional bifactorial


n cazul n care se urmrete influena simulat a doi parametrii asupra unui rezultat, diferenele observate ntre rnduri (vezi tabelul V.1) se vor considera ca fiind cauzate de variaia unuia dintre parametri, iar diferena dintre coloane de variaia celui de-al doilea parametru luat n considerare. Fiecare cifr din tabel reprezint o observaie care corespunde uneia dintre combinaiile posibile ale variabilelor independente. Avnd doi parametrii variabili trebuie testate dou ipoteze de zero, dintre care una se refer la diferena valorilor medii ntre rnduri, iar a doua la diferena valorilor medii ntre coloane. Pentru testarea pimei ipoteze trebuie calculat diferena sumei ptratelor ntre rnduri, iar pentru testarea celei de-a doua ipoteze trebuie calculat diferena sumei ptratelor ntre coloane. Valorile obinute experimental vor trebui grupate, i n acest caz, sub forma unui tabel, de felul celui de mai jos. S presupunem c, n cazul exemplului folosit la analiza dispersional monofactorial, dorim, de data aceasta, s observm efectul analgezic al diferitelor substane studiate, n prezena unor substane active ce le poteneaz efectul. Primal parametru variabil va fi, n acest caz, natura substanei active, cel de-al doilea parametru variabil fiind natura substanei
90

Analiza ANOVA

cu efect de potenare a analgeziei (P1, P2, Pn). Deci, n acest caz dispersia total se compune din dispersia datorat diferenelor ntre coloane, plus dispersia datorat diferenelor ntre rnduri, rmnnd i o dispersie residual, datorat erorilor experimentale. Scopul nostru este s cunoatem separat fiecare dintre aceste abateri medii ptratice.
Tabelul V.5. Gruparea observaiilor pe criteriul factorilor de influen

pentru analiza dispresional bifactorial


Rndul Coloana M1 M2 M3 Mm Total

x1 x2 x3
...

x11 x12 x13


.

x21 x22 x23

x31 x32 x33


...

xm1 xm2 xm3

xi1 xi2 xi3


...

xn
Total

x1n x11

x2n x12

x3n x13

xmn xim

xin xij

Pentru simplificarea calculelor vom introduce notaii similare celor folosite la analiza dispersional monofactorial: Suma ptratelor tuturor observaiilor individuale:
2 S1 = x ij (V.9) ij

Suma ptratelor coloanelor, mprit la numrul observaiilor nscrise n coloan:

91

Noiuni fundamentale de biostatistic

S2 =

i =1

xi

(V.10)

Suma ptratelor sumei rndurilor mprit la numrul observaiilor nscrise pe rnduri:


n

S3 =

j=1

xi

(V.11)

Ptratul sumei tutror obsrevaiilor mprit la numrul total de observaii: xy y S3 = mn Suma ptratelor reziduale: Sr = S1 + S4 S2 S3 (V.13) Pentru calcularea dispersiilor cauzate de parametrii considerai mai trebuie s cunoatem numrul de grade de libertate pentru fiecare abatere medie ptratic parial. Deoarece S2 s-a obinut din suma coloanelor, va avea m-1 grade de libertate, iar S3, obinut din suma rndurilor, va avea n-1 grade de libertate. n sfrit Sr, n a crei formul de calcul au intervenit att diferenele ntre rnduri, dispersia cauzat de factorii aleatori (ntmpltori) va avea (m-1) (n-1) grade de libertate. Procedeul de calcul al dispersiilor, precum i testarea diferenelor ntre valorile medii ale coloanelor i, respectiv, rndurilor, sunt prezentate n tabelul V.2.2 :
2

(V.12)

92

Analiza ANOVA

Tabelul V.6. Analiza dispersional bifactorial Numrul gradelor de libertate

Tipul variaiei

Suma ptratelor

Estimaia dispersiei
2 S1 =

(sursa dispersiei)
ntre coloane

S2-S4

m-1

(primul parametru variabil)


ntre rnduri

S2 S4 m 1

2 S1 2 Sr

S3-S4

m(n-1)

(al doilea parametru variabil)


Rezidual Sr

2 S2 =

S3 S4 m( n 1 )

2 S2 2 Sr

S1 + S4 S2 S3 (S2-

(m-1) (n-1) mn-1

2 Sr =

Sr ( m 1 )( n 1

Total

S4)+(S3-S4) = S1-S4 Cu ajutorul dispersiilor calculate conform schemei de mai sus, se

face testul F, care va arta dac diferenele observate ntre coloane, respectiv ntre rnduri, sunt reale sau sunt cauzate de factori ntmpltori. Pentru aceasta vom calcula rapoartele F =
2 S1

S2 r

, respectiv F =

S2 2 S2 r

Dac valorile rezultate din calcul sunt mai mici dect cele gsite n tabelul
93

Noiuni fundamentale de biostatistic

distribuiei F, la aceleai grade de libertate pentru care s-au calculat


2 dispersiile S1 , S2 2

i respectiv S2 , vom accepta ipoteza de zero i vo r

concluziona c parametrul considerat nu influeneaz semnificativ valorile medii, diferenele fiind cauzate de factori ntmpltori. n caz contrar, ns, vom respinge ipoteza de zero i vom trage concluzia c variaia parametrilor studiai are o influen semnificativ asupra variabilei dependente.
Exemplu. S lum experimentul de la analiza dispersional

monofactorial, considernd c am lucrat cu patru substane cu efect analgezic (M1, ....., M4), n prezena unei substane P, ce poteneaz efectul analgezic al acestora, substan administrat n trei doze diferite (D1, D2, D3). Rezultatele experimentului (n secunde) se regsesc n tabelul de mai jos:
Tabelul V.7. Analiza dispersional bifactorial. Rezultate experimentale Doza administrat pentru efect de potenare Substana de cercetat Total
xj

Medi a

xj

M1 25 27 30
xi

M2 28 29 32 89 29,7

M3 22 23 26 71 23,7

M4 24 23 29 76 25,3 99 102 117


xij

D1 D2 D3
Total

24,7 25,5 29,2


= 318

= 82

xi = 27 ,3

94

Analiza ANOVA

Din tabel se observ c valorile medii ale coloanelor sunt influenate de natura substanei analgezice, n timp ce variaia valorilor rndurilor este cauzat de variaia dozei substanei cu efect de potenare a analgeziei. Pentru calcularea dispersiilor valorilor individuale n jurul acestor medii, vom calcula, mai nti, sumele auxiliare: S1 = 252 + 272 + ... + 232 + 292 =8538 S2 = S3 = S4 = 82 2 + 89 2 + 712 + 76 2 = 8487,3 3 99 2 + 102 2 + 117 2 = 8473,5 4 318 2 = 8427,0 12

Sr = 8583 +8427 8487,3 8473,5 = 4,2 Folosind schema de calcul din tabelul V.6, vom gsi dispersia cauzat de fiecare parametru variabil n parte, inclusiv dispersia rezidual, cauzat de factori ntmpltori. Toi aceti parametri statistici vor servi pentru testarea egalitii valorilor medii, pentru care vom calcula n prealabil diferenele:

S2 S4 = 60,3 cu m-1 = 3 grade de libertate S3 S4 = 46,53 cu m-1 = 2 grade de libertate Sr = 4,2 cu (m-1)(n-1) = 6 grade de libertate
De aici se obin dispersiile:
2 S1 =

4,6 46,5 60,3 = 20,1; S 2 = = 23,3; S 2 = = 0,7 2 r 6 2 3

i testul F:

95

Noiuni fundamentale de biostatistic

2 S1 20,1 S 2 23,3 Fcol 2 = ; Frnd = 2 = = 33,3 0,7 0,7 Sr S2 r

n Anexa 5 gsim pentru coloane F0,05 = 4,76, iar pentru rnduri

F0,05 =5,14.
Odat calculate toate aceste elemente, putem completa tabelul pentru analiza dispersional bifactorial:
Tabel V.8. Rezultatele analizei Anova, bifactorial Numrul Felul variaiei Suma ptratelor gradelor de libertate Estimaia dispersiei

(sursa dispersiei) ntre analgezice ntre dozele de s.a. cu efect de potenare Rezidual
Total

F0,05

60,3 46,5 4,2 111,0

3 2 6 11

20,1 23,3 0,7 -

28,7 33,3 -

4,76 5,14 -

Concluzii. Deoarece Fcol > F0,05 gsit n Anexa 5 pentru gradele de

libertate ale dispersiilor respective, vom respinge ipoteza conform creia valorile medii ale coloanelor sunt egale i vom trage concluzia c substanele active studiate difer semnificativ din punct de vedere al efectului analgezic, la pragul de semnificaie ales ( = 0,05).

96

Analiza ANOVA

Similar, deoarece Fln > F0,05 vom respinge ipoteza conform creia mediile liniilor sunt egale i vom trage concluzia c doze diferite de substan P, influeneaz semnificativ efectul analgezic al compuilor studiai. Odat fcute aceste constatri, vor trebui continuate experienele, pentru a vedea care dintre substane are cel mai puternic efect analgezic i, respectiv, care este doza optim de substan P, pentru potenarea efectului analgezic. Mai trebuie studiai faptul c dispersia mic datorat factorilor ntmpltori indic faptul c experienele s-au desfurat n condiii satisfctoare, reproductibile. Pn acum, la analiza dispersiilor cu doi parametri valabili am presupus c efectul acestora este aditiv. Dac aceast condiie nu este satisfcut, analiza dispersional se complic, deoarece eventuala interaciune ntre parametrii variabili se manifest prin creterea dispersiei reziduale, deoarece aceasta va cuprinde n ea i dispersia cauzat de efectul de interaciune a parametrilor luai n calcul.

97

Noiuni fundamentale de biostatistic

Capitolul VI VI. Corelaie i regresie [11-13, 15, 17]


Termenul corelaie este folosit pentru a sublinia existena unei anumite forme de asociere ntre dou variabile studiate. De exemplu, n domeniul medical putem spune c am observat o corelaie ntre zilele cu cea i declanarea crizelor de astm. Pe de alt parte n domeniul biostatisticii, termenul de corelaie este folosit pentru a reliefa existena unei asocieri ntre dou variabile cantitative. n mod obinuit, suntem tentai s presupunem c aceast asociere este linear, n sensul c una dintre variabile (s o notm cu y) crete sau descrete ntr-o anumit msur, proporional cu creterea sau descreterea celeilalte variabile studiate (notat cu x). Variabila y va fi considerat variabila dependent, ce prezint un anumit grad de asociere fa de variabila x,
variabila independent.

n astfel de circumstane este adesea folosit termenul de regresie (liniar), termen ce implic estimarea celei mai potrivite linii drepte care s reliefeze asocierea, aa cum vei vedea n urmtoarele pagini.

98

Corelaie i regresie

Coeficientul de corelaie
Gradul de asociere al variabilelor menionate anterior este msurat cu ajutorul coeficientului de corelaie, propus de Pearson i Bravais i care este o msur a asocierii liniare a celor dou variabile. Dac ns de asocierea dintre variabile nu este liniar ci poate fi exprimat doar cu ajutorul unor curbe, aceasta nseamn c sunt necesare alte msurtori ale corelaiei, folosind metode mai complexe, ce depesc scopul acestei cri. Coeficientul de corelaie este o msur a asocierii ntre dou variabile (variabila independent i cea dependent) ce poate lua valori cuprinse ntre -1.0.+1.
Coeficientul de corelaie r este un numr calculat direct din

datele observate i poate varia ntre 1 i +1. Formulele de calcul ale coeficientului de corelaie r difer uor, n funcie de notaiile folosite de diveri autori. Dac xi sunt valorile msurate ale variabilei X (variabila independent) i yi sunt valorile msurate ale variabilei Y (variabila dependent), atunci coeficientul de corelaie se calculeaz astfel:

(VI.1) Ce se mai poate scrie i (VI.2)

99

Noiuni fundamentale de biostatistic

unde n= numrul perechilor de date, iar SD(x), SD(y) abaterile standard n cazul celor dou variabile. Putem ntlni urmtoarele situaii: Dac coeficientul de corelaie este r = 0 , atunci nseamn c nu avem nici o corelaie ntre cele dou variabile. De exemplu, nu exist nici o legtur ntre presiunea sanguin i numrul de fire de pr din cap. Dac coeficientul de corelaie este r = +1 nseamn c avem o corelaie pozitiv perfect, adic exist o dependen direct ntre cele dou variabile. O persoan care are o valoare mare la prima variabil va avea o valoare mare i la cea de a doua. De asemenea, valoarea unei variabile poate fi prevzut exact pe baza valorii celei de a doua variabile. Un exemplu de acest tip este corelaia dintre vrsta unui copac i numrul su de inele. Dac coeficientul de corelaie este r = -1 atunci avem o dependen invers perfect. O valoare mare a unei variabile nseamn o valoare mic a celeilalte variabile. Dac coeficientul de corelaie este ntre 0 i +1 sau ntre 1 i 0 , atunci valoarea lui r ne d tria dependenei celor dou variabile. Aceste situaii sunt prezentate n figura de mai jos:

100

Corelaie i regresie

Figura VI.1. Valoarea coeficientului de corelaie i semnificaia lui

Dac dorim s realizm neaprat o clasificare a intensitii asocierii (corelaiei) ntre variabila independent i cea dependent, putem considera, n valori absolute, urmtoarele intervale |0 < r < 0,19| - asociere foarte slab |0,20 < r < 0,39| - asociere slab |0,40 < r < 0,59| - asociere moderat |0,60 < r < 0,79| - asociere puternic |0,80 < r < 1| - asociere foarte puternic Trebuie inut ns seama de faptul c aceste limite de mai sus sunt oarecum arbitrare, astfel c trebuie s inem seama i de contextul n care am desfurat experimentele, respectiv n care am fcut msurtorile.
Reprezentarea grafic a datelor n cazul analizei corelaiei i regresiei

101

Noiuni fundamentale de biostatistic

n momentul n are un cercettor a colectat dou serii de observaii (msurtori) i dorete s vad dac exist o asociere ntre ele, primul lucru care trebuie fcut este reprezentarea lor grafic, sub forma unei aa-numite diagrame de mprtiere (scatter diagram - diagram de mprtiere a rezultatelor, ntr-o traducere aproximativ a termenului). Majoritatea programelor de calcul tabelar (cum este MS Excel) ofer posibilitatea realizrii unei astfel de diagrame, similar celei din figura de mai jos:
60 50 40 30 20 10 0 0 5 10 15 20 x 25 y

Diagrama de "mptiere a datelor" - Scatter Plot

Figura VI.2. Reprezentarea datelor sub form de diagram (scatter plot)

Acest tip de diagram folosete cele dou axe de coordonate pentru a reprezentata cele dou seturi de msurtori: pe axa X se afl msurtorile
legate de variabila independent, iar pe axa Y msurtorile efectuate n

cazul variabilei dependente.

102

Corelaie i regresie

De exemplu, dac un set de observaii sunt rezultatul unor msurtori experimentale, iar cealalt variabil ar fi timpul la care s-a fcut msurarea, n acest contt timpul ar fi variabila independent (reprezentat pe axa X), iar rezultatele msurtorilo ar fi variabila dependent (reprezentat pe axa Y).
Not: alegerea variabilelor dependente i independente trebuie fcut cu

precauie, deoarece putem s greim uor datorit unor factori de confuzie (de exemplu o a treia variabil care le poate influena pe amndou). Astfel, este potrivit s presupunem c nlimea unui lot de copii (variabila dependent) este corelat pozitiv (r>0) negative (r<0) cu vrsta acestora (variabila independent). Pe de alt parte, am putea constata existena unei corelaii ntre numrul de cazuri de infarct miocardic (variabila dependent) i consumul de ngheat (variabila independent), cnd, de fapt, ambele variabile sunt influenate de o a treia, temperatura mediului nconjurtor, fr a avea o legtur direct una cu cealalt. Numrul de cazuri de infarct miocardic este corelat negativ, iar consumul de ngheat corelat pozitiv cu creterea temperaturii mediului nconjurtor.
Exemplu de calcul: S presupunem c am msurat n cazul a 15 copii nlime acestora (n cm variabila independent), respectiv spaiul pulmonar anatomic mort (n ml variabila dependent). Spaiul pulmonar anatomic mort pulmonary anatomical dead space, poate fi definit ca fiind volumul traiectului respirator (nas, gur, trahee etc) pn la nivelul alveolelor pulmonare, repezentnd acea fraciune de aer inspirat ce nu este disponibil schimbului de gaze la nivelul capilareor din plmn.

103

Noiuni fundamentale de biostatistic

Rezultatele msurtorilor se gsesc n tabelul urmtor:


Tabelul VI.1. Rezultatele msurtorilor Nr.crt. subiect nlimea (cm) Spaiul pulmonar mort anatomic

variabila independent 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Statistic descriptiv (n=15)
_

variabila dependent 44 31 43 45 56 79 57 56 58 92 78 64 88 112 101


_

110 116 124 129 131 138 142 150 153 155 156 159 164 168 174

x = 144,60 SD x = 19,37

y = 66,93 SD y = 23,65

104

Corelaie i regresie

Reprezentarea grafic a datelor ntr-o diagram de tip scatter plot este prezentat n figura de mai jos:
Y (spaiul m ort anatom ic - m l)

120 100 80 60 40 20 0

X (inlim ea - cm )

50

100

150

200

Figura VI.3. Reprezentarea grafic a datelor experimentului

Urmtorul pas este analiza graficului pentru a decide dac mprtierea datelor sugereaz existena unei corelaii. Calculm apoi coeficientul de corelaie, conform celei de-a doua formule (VI.2). Obinem astfel 150605 (15 144,60 66,93) 5426,6 = = 0,846 14 19,37 23,65 6412,06

r=

105

Noiuni fundamentale de biostatistic

Este evident faptul c n acest moment dispunem de o multitudine de software ce calculeaz automat acest coeficient de corelaie, precum i intervalul de ncredere (95%) asociat acestui coeficient. Pentru cazul nostru acest, utilizarea programului GraphPad Instat a returnat urmtoarele valori:

Number of points: 15 Correlation coefficient (r) =0,8463 Confidence interval (95%): 0,5896 to 0,9477
Coeficientul de corelaie pare s indice o corelaie pozitiv puternic ntre mrimea spaiului mort anatomic i nlimea copiilor. Dar n interpretarea corelaiei este important s ne amintim c existena unei corelaii ntre dou variabile nu implic n mod necesar cauzalitatea, aceasta se poate datora unor cauze comune. Prin urmare trebuie avut grij la interpretarea acestor coeficieni de corelaie.

Coeficientul de determinare
O parte a variaiilor valorilor msurate n cazul variabile dependente
(exprimate cu ajutorul varianei, mrime calculat n cadrul analizei statistice descriptive) se pot datora ntr-adevr existenei unei (co)relaii cu

variabila independent, pe cnd o alt parte se datoreaz unor cauze nedeterminate (adesea aleatorii).

106

Corelaie i regresie

De aceea avem nevoie de o mrime care s cuantifice independente.

ct din

aceast varian a variabilei dependente se datoreaz influenei variabilei Aceast mrime se numete coeficient de determinare i este egal cu r . Pentru exemplul studiat anterior, r2 = 0,716, astfel c putem afirma faptul c aproximativ 72% din variaia existent ntre volumul spaiului mort anatomic la lotul de copii studiat se datoreaz variaiilor nlimii acestora. Practic coeficientul de determinare r2 este extrem de util deoarece este o msur a procentului variaiei ce poate fi explicat din totalul variaiei observate
Coeficientul de determinare poate avea valori cuprinse ntre 0 i 1 (0<r2<1).
2

Ecuaia de regresie
Aa cum am vzut, coeficientul de corelaie descrie intensitatea (tria) asocierii ntre dou variabile. Astfel, dac dou variabile sunt corelate, aceasta nseamn c o modificare de o anumit mrime a valorii variabile independente va determina o modificare i n valoarea nregistrat la msurarea celeilalte variabile. Pentru exemplul de mai sus, putem spune c o valoare mai mare a nlimii copiilor este asociat cu o cretere, de o anumit factur, a spaiului mort anatomic.
107

Noiuni fundamentale de biostatistic

Dac notm cu Y variabila dependent i cu X variabila independent, putem afirma n consecin c relaia poate fi descris ca o
regresie a lui Y n funcie de X.

Aceast relaie poate fi reprezentat de o ecuaie numit ecuaie de


regresie.

n acest context termenul de regresie semnific faptul c o anumit valoare a variabilei Y este o funcie de X, cu alte cuvinte se modific odat cu modificarea valorii lui X, conform unei anumite ecuaii mai mult sau mai puin complexe. Cea mai simpl astfel de ecuaie este ecuaia dreptei ( y = x + ), iar regresia care folosete aceast ecuaie poart numele de regresie liniar.
Ecuaia de regresie ne arat ct de mult se schimb valoarea

variabilei Y n raport cu o anumit schimbare a variabile X i poate fi folosit pentru a trasa o aa-numit linie de regresie, n interiorul unei

diagrame scatter-plot, iar cel mai simplu caz este cazul n care aceast linie
este o linie dreapt, caz n care se folosete termenul de regresie liniar. Direcia de nclinare a acestei linii de regresie depinde de faptul c avem de-a face cu o corelaie pozitiv sau negativ. Astfel dac cele dou seturi de observaii (x i y) cresc mpreun (corelaie pozitiv), linia de regresie va fi ascendent de la stnga spre dreapta. Dac valorile variabilei X cresc, iar valorile corespunztoare ale variabilei Y descresc, nclinarea liniei de regresie va fi descendent de la stnga spre dreapta. Din nefericire, n cazul regresiei liniare, de vreme ce avem de-a face cu o dreapt de regresie, este foarte probabil ca ea s treac prin relativ puine puncte reprezentate de noi n diagram.

108

Corelaie i regresie

Fie ecuaia dreptei de forma:

y = x + (VI.3)
n momentul n care cunoatem ecuaia de regresie, pentru a putea trasa corect dreapta de regresie trebuie s inem cont de cei doi coeficieni ai ecuaiei dreptei pentru a o putea trasa corect.
Y (spaiul m ort anatom ic - m l)

y = 1.0333x - 82.485 R2 = 0.7162

120 100 80 60 40 20 0

50

100

150

X (inlim ea - cm )

200

Figura VI.4. Dreapta de regresie, ecuaia ei i coeficientul de determinare

Primul este interceptul, adic punctul n care dreapta de regresie va intersecta axa 0Y i este dat de valoarea lui . Pentru exemplul de mai sus, dreapta de regresie ar intercepta axa 0Y n dreptul valorii Y=-82,485. Cel de-al doilea coeficient este , i poart numele de pant a dreptei de regresie. Acest ultim parametru mai poart numele i de coeficient de regresie i poate fi asimilat ca fiind mrimea modificrii nregistrate n cazul valorii variabilei Y n urma modificrii cu o unitatea a valorii variabilei X ).

109

Noiuni fundamentale de biostatistic

Semnul pantei ecuaiei de regresie liniar ne arat clar dac avem dea face cu o corelaie pozitiv sau negativ ntre cele dou variabile, X i Y. n prezent programele de analiz statistic traseaz automat dreapta de regresie, furniznd totodat i ecuaia dreptei de regresie, respectiv coeficientul de determinare. n trecut, trasarea corect adreptei de regresie se fcea cu ajutorul metodei celor mai mici ptrate - least squares estimate (dreapta se trasa astfel nct suma ptratelor distanelor de la punctele reprezentate n diagram la dreapta de regresie s fie minim). innd cont de cele afirmate mai sus, coeficientul de determinare r2 este extrem de util deoarece: este o msur a procentului variaiei ce poate fi explicat din totalul variaiei observate este o msur a procentului n care variana alte variabile (variabila independent) este o msur ce ne permite s determinm ct de siguri putem fi n momentul n care facem predicii pentru un anumit model sau pentru date reprezentate ntr-o diagram de tip scatter-plot coeficientul de determinare, ce poate lua valori cuprinse ntre 0 i 1 (0<r2<1) ne d, n cazul regresiei liniare, o msur a asocierii liniare dintre variabilele X i Y. coeficientul de determinare reprezint procentul de date care este cel mai apropiat de dreapta de regresie. De exemlu dac avem un coeficient de corelaie r =0,922 din care rezult un coeficient de (fluctuaia) unei variabile (dependente) poate fi estimat (prezis) din evoluia unei

110

Corelaie i regresie

detrminare r2 = 0,850, aceasta nseamn c 85% din totalul variaiei lui Y poate fi explicat printr-o relaie liniar ntre X i Y, relaie descris de ecuaia de regresie. Restul de 15% din variaie va rmne neexplicat. Coeficientul de determinare este, de asemenea, o msur a gradului de exactitate (fidelitate) cu care o anumit linie de regresie reprezint datele studiate. Astfel, dac linia de regresie trece prin absolut toate punctele reprezentate n diagrama scatter, coeficientul de determinare va fi 1 i va putea explica ntreaga variaie. Cu ct linia de regresie este mai ndeprtat de puncte, cu att coeficientul de va fi mai mic i un procent mai mare al variaiei nu va putea fi explicat. n finalul acestui capitol, trebuie menionat faptul c existena unei corelaii ntre dou fenomene nu arat neaprat o legtur de la cauz la efect ntre ele. Existena unei corelaii este numai informativ, rmnnd ca cercettorul s stabileasc legtura cauzal n funcie de cunotinele sale n domeniul respectiv.

111

Noiuni fundamentale de biostatistic

Capitolul VII VII. Alegerea unui anumit test statistic


[16, 23]

De-a lungul capitolelor anterioare am discutat despre diverse teste statistice, respectiv despre modul lor de aplicare. Poate unul dintre cele mai dificile lucruri este alegerea celui mai potrivit test pentru analiza datelor rezultate n urma unui anumit experiment sau studiu. Pentru a alege cel mai potrivit test statistic pentru datele noastre, trebuie s ne punem dou ntrebri: i.

Ce fel de date am colectat? Msurtori (variabile numerice,


ranguri, scoruri sau date binomiale bolnav/sntos, expus/neexpus la un factor de risc ?

ii.

Care este scopul analizei statistice pe care urmeaz s o efectum? Trebuie s comparm dou eantioane (dependente
sau independente) ntre ele sau mai multe eantioane. Exist de asemenea posibilitatea de a compara un singur eantion cu o serie de valori ipotetice

n tabelul de mai jos vei gsi cteva recomandri legate de alegerea unui anumit test n funcie de aceste considerente [Intuitive].

Not. Cu caractere normale sunt menionate testele statistice ce au fost descrise n aceast carte, n timp ce cu bold sunt testele statistice care nu au fost prezentate:

112

Alegerea unui test statistic

Tabel VII.1. Alegerea unui anumit test statistic


Scopul analizei statistice Msurtori (eantioane prelevate dintr-o populaie statistic Gaussian) Media, Abatere standard Ranguri, scoruri sau msurtori (eantioane prelevate dintr-o populaie statistic non-Gaussian) Median Test Wilcoxon Date binomiale (Dou valori posibile) Proporii Testul Chi2

Descrierea unui singur grup Compararea unui singur eantion cu o serie de valori ipotetice Compararea a dou eantioane independente (date nepereche)

Test t pentru un singur eantion Test t pentru eantioane independente

Testul MannWhitney U

Testul Chi2, n special dac eantioanele sunt mari Testul Fisher pentru tabele de contingen Testul McNemar Testul Chi2

Compararea a dou eantioane dependente (date pereche) Compararea a trei sau mai multe eantioane (grupuri) independente (unmatched groups) Compararea a trei sau mai multe eantioane (grupuri) dependente (matched groups) Cuantificarea asocierii ntre dou variabile

Test t pentru eantioane independente Analiz ANOVA monofactorial


Analiz ANOVA multifactorial Coeficientul de corelaie Pearson (r) Regresie liniar sau Regresie neliniar

Testul Wilcoxon Testul KruskalWallis Testul Friedman

Testul Cochrane Q RR (Riscul relativ) OR (rata de ans Odds Ratio) Regresie logistic simpl

Coeficient de corelaie Spearman

Predicia unei valori prin intermediul altei variabile msurate

Regresie neparametric

113

Noiuni fundamentale de biostatistic

Predicia unei valori prin intermediul mai multor variabile msurate sau a mai multor variabile binomiale

Regresie liniar multipl

sau Regresie neliniar multipl

Regresie logistic multipl

114

Studii epidemiologice i clinice

Capitolul VIII VIII. Studii epidemiologice i clinice


[4, 12, 14, 15]

VIII.1. Indicatori statistici utilizai n studiile epidemiologice


Consider c este deosebit de important prezentarea schematic a clasificrii tipurilor de indicatori statistici utilizai n epidemiologia clinic, precum i a tipurilor de studii utilizate n acst context, deoarece cunoaterea acestor indicatori i tipuri de studii pemite justificarea protocolului statistic utilizat ntr-un anumit context.
n studiile epidemiologice sunt folosii, n general, 4 tipuri de indicatori:

I.

Diverse tipuri de raporturi, proporii i rate 1. Raporturi 2. Proporii 3. Rate

II.

Indicatori ai frecvenei bolii utilizai pentru a da o msur a

frecvenei bolii sau a numrului de cazuri dintr-o populaie 1. Prevalena i. Prevalena la un moment dat ii. Prevalena de-a lungul unei perioade de timp iii. Prevalena de-a lungul vieii
2. Incidena

i. Incidena cumulativ ii. Rata incidenei (sau densitatea incidenei)

115

Noiuni fundamentale de biostatistic

III.

Indicatori ai asocierii factori de risc (expunere)-boal

1. Riscul relativ (RR) 2. Rata de ans (OR Odds ratio) 3. Rata standardizat a mortalitii 4. Rata proporional a mortalitii IV.
Indicatori ai diferenei:

1. Riscul atribuit/populaie

Rate i proporii
1. Raportul - este folosit pentru a compara dou cantiti (de exemplu numrul de femei/ numrul de brbai dintr-o localitate = 900/802 =

1,122)
2. Proporia un tip special de raport, n care numrtorul este inclus i n

numitor, rezultnd de fapt un procentaj ( pentru exemplul anterior procentul femei n localitatea respectiv este numrul de femei/numrul total de
locuitori (femei + brbai) din localitatea respectiv = 900/1702 = 52,88 %) 3. Rata un tip special de proporie ce include anumite specificaii legate

de timp; este unul dintre cei mai utilizai indicatori n epidemiologie deoarece poate exprima clar probabilitatea sau riscul unei boli sau a altor evenimente n cadrul populaiei studiate pentru a anumit perioad de timp.
Formula de calcul:
numrul de evenimente n perioada specificat de timp k (VIII.1) populaia expus la risc in perioada specificat

unde k folosit pentru uniti de populaie (cum ar fi 1 000 sau 100 000)

116

Studii epidemiologice i clinice

Exemplu: dac ntr-un ora de 120 000 de locuitori ntr-un an au fost

diagnosticate 11 cazuri de leucemie acut (LA) vom avea o rat a mbolnvirilor de LA egal cu
11 100000 = 9,166 la 100000 locuitori 120000

Indicatori ai frecvenei bolii


1. Prevalena proporia de indivizi dintr-o anumit populaie ce sunt
bolnavi de o anumit boal la un anumit moment n timp (nu conteaz

faptul c sunt bolnavi diagnosticai recent sau n trecut) - permite estimarea probabilitii sau riscului ca cineva din populaia respectiv s devin bolnav la un anumit moment dat. - d o imagine a severitii problemei respective - este un indicator folositor pentru planificarea serviciilor de sntate (personal, aparatur etc)
Formula de calcul:
numrul de cazuri existente dintr - o anumit boal la un anumit moment n timp Totalul populaiei expuse la risc

(VIII.2) -poate fi i ea exprimat sub forma: la 1000 sau 100000 locuitori etc
Exemplu: dac ntr-un ora de 120 000 de locuitori la un moment dat exist

70 de cazuri de leucemie acut (LA) vom avea o prevalen de


70 = 0,0005833 sau 58,33 de cazuri la 100000 locuitori 120000

117

Noiuni fundamentale de biostatistic

Tipuri de prevalen:

- Prevalena la un moment dat numrul de cazuri ce exist ntr-o populaie la un moment dat - Prevalena de-a lungul unei perioade de timp - numrul de cazuri ce exist ntr-o populaie de-a lungul unei perioade specificate de timp

- Prevalena de-a lungul vieii procentul dintr-o populaie existent ce a


prezentat un istoric al unei anumite boli ntr-un moment al vieii 2. Incidena reprezint un indicator (o msur) a cazurilor noi dintr-o
anumit boal ce au aprut n populaia studiat de-a lungul unei perioade de timp

- este un indicator al probabilitii care exist ca o persoan neafectat s dezvolte respectiva boal Practic este folosit incidena cumulativ proporia de indivizi ce s-au
mbolnvit ntr-o perioad specificat de timp. Perioada de timp poate fi un an calendaristic, 6 luni, 3 ani, 5 ani etc. Formula de calcul:
numarul de cazuri noi dintr o anumit boal de a lungul unei perioade de timp Totalul populatiei expuse la risc

IC

(VIII.3) -poate fi i ea exprimat sub forma: la 1000 sau 100000 locuitori etc
Exemplu: dac ntr-un ora de 120 000 de locuitori la un moment dat exist

30 de cazuri noi de leucemie acut (LA) n timp de un an, vom avea o inciden de

118

Studii epidemiologice i clinice

IC =

30 de cazuri noi de LA = 0,00025 120000

sau 25 de cazuri la

100000 locuitori
3. Rata de inciden (densitatea incidenei) un indicator mai puin

folosit, datorit costurilor relativ mari legate de urmrirea cazurilor de-a lungul unei perioade de timp. - este o msur a incidenei capabil s dea informaii chiar dac

respectivele cazuri sunt urmrite pe perioade de timp inegale (datorit


decesului sau migraiei unor persoane) - n formula de calcul a indicatorului, similar celei a incidenei, numitorul este o sum a aa numitului persoana-timp la risc

Indicatori ai asocierii factori de risc (expunere)-boal


- sunt calcule a cror rezultate sunt menite s dea o msur a frecvenei bolii n funcie de existena altor factori care ar putea influena ntr-un anumit fel incidena bolii n snul populaiei studiate Extrem de importante n calculul acestor indicatori sunt aa numitele
tabele de contingen 2x2 (sau simplu tabele 2x2).

Acestea sunt folosite pentru: a ilustra frecvena bolii, respectiv a expunerii calculul asocierii dintre expunerea la factorul (de risc) studiat i boal Pentru a putea fi folosite n deteminarea unor indicatori epidemiologici tabelele de contingen de tip 2x2 trebuie s grupeze corect indivizii din populaia studiat, innd cont de expunere (liniile tabelului),

119

Noiuni fundamentale de biostatistic

respectiv de starea de boal (coloanele tabelului), cum se poate vedea n exemplul ce urmeaz.
Tabel VIII.1. Tabel de contingen de tip 2x2 Boal Da Expunere Da a Nu c b d Nu Total

a+b c+d a+b+c+d

Total

a+c

b+d

unde:
a = numrul indivizilor din cadrul populaiei studiate expui (care au suferit

o expunere la factorul de risc studiat) i n acelai timp bolnavi (evident, cei suferinzi din cauza bolii studiate)
b = numrul indivizilor din cadrul populaiei studiate expui dar sntoi c = numrul indivizilor neexpui (care nu au suferit o expunere la facturl de

risc studiat) i n acelai timp bolnavi


d = numrul indivizilor neexpui i sntoi

****************************************************
a + b = numrul total al indivizilor (bolnavi + sntoi) din cadrul

populaiei studiate expui la factorul de risc

120

Studii epidemiologice i clinice

c + d = numrul total indivizilor (bolnavi + sntoi) din cadrul populaiei

studiate neexpui la factorul de risc


a + c = numrul total al indivizilor bolnavi din cadrul populaiei studiate b + d = numrul total al indivizilor sntoi din cadrul populaiei studiate a + b + c + d = Mrimea total a populaiei studiate (eantionului), practic

suma tuturor celor patru celule ale tabelului Exist 2 indicatori epidemiologici foarte importani pentru msurarea unei asocieri expunere (factor de risc)-boal: Riscul relativ (Relative Risk - RR) Rata de ans (Odds Ratio OR)

Ambii indicatori sunt calculai folosind gruparea datelor n tabele de

contingen de tip 2x2.


Riscul relativ (Relative Risk - RR)

- servete la msurarea magnitudinii asocierii ntre incidena bolii studiate i factorul de risc cercetat - reprezint n fapt un raport dintre rata incidenei persoanelor expuse i rata incidenei n rndul celor neexpui la factorul de risc - folositor n cercetrile legate de etiologia unor boli - sinonime: Rata de risc (Risk ratio)
Formula de calcul:
RR = Incidena bolii n rndul subiecilo r expui la factorul de risc (VIII.4) Incidena bolii n rndul subiecilor neexpui la factorul de risc

121

Noiuni fundamentale de biostatistic

sau innd cont de modul de grupare a datelor ntr-un tabel de contingen de tip 2x2:
RR = a (a + b) (VIII.5) c (c + d)

Interpretarea valorilor riscului relativ:

- Riscul relativ poate avea, teoretic vorbind, valori ntre 0 i infinit - RR = 1 : Nu exist nici un fel de asociere ntre expunere (factorul de risc) i boal; practic incidena(rata incidenei) este identic ntre cele dou grupuri (expui, respectiv neexpui la factorul de ric) RR> 1 = Exist o asociere pozitiv ntre expunere (factorul de risc) i boal RR< 1 = Exist o asociere negativ ntre expunere (factorul de risc) i boal sau, n unele cazuri putem spune c expunerea la factorul respectiv are chiar un efect protector fa de boal
Rata de ans (Odds Ratio OR)

- Singura modalitate de msurarea a asocierii expunere (factor de risc)boal disponibil n cazul studiilor de tip Case-Control

D o msur a riscului relativ (are valori apropiate de acesta) cnd: valoarea incidenei este mic (< 5 % din populaia total) i grupul de control (martor) este representativ pentru ntreaga populaie (inclusiv din punctul de vedere al expunerii la factorul de risc) Trebuie definit n doi pai: - ans (ODDS) Raportul dintre probabilitatea ca un eveniment s se ntmple i probabilitatea ca respectivul eveniment sa nu aib loc - Rata de ans (Odds Ratio OR) Raportul dintre rata (ansa) expunerii n rndul celor bolnavi i rata (ansa) expunerii n rndul celor sntoi

122

Studii epidemiologice i clinice

Formula de calcul:

- innd cont de modul de grupare a datelor ntr-un tabel de contingen de tip 2x2, formula de calcul este:
OR = a c a*d (VIII.6) = b d b*c

Interpretarea valorilor ratei de ans (OR):

- Rata de ans (OR) poate avea, teoretic vorbind, valori ntre 0 i infinit
OR = 1 : Nu exist nici un fel de asociere ntre expunere (factorul de risc) i

boal;
OR> 1 : Expunerea reprezint un factor de risc n cazul bolii respective

(crete riscul apariiei bolii)


OR< 1 : Expunerea reprezint un factor protector n cazul bolii respective

(scade riscul apariiei bolii)


Interpretarea rezultatelor analizei statistice. Interpretarea valorii lui RR (OR) i P n cazul studiilor ce utilizeaz tabele de contingen de tip 2x2

Interpretarea existenei unei asocieri ntre factorul de risc i apariia bolii, n cazul unui studiu retrospectiv de tip cohort, necesit o analiz atent, innd cont de urmtorii indicatori (13, 145) :
1. valoarea lui P (cel mai important parametru)

2. valoarea minim i maxim a intervalului de ncredere, calculat pentru o probabilitate de 95 % (CI 95 %) 3. valoarea ratei de ans (Odds ratio-OR)

123

Noiuni fundamentale de biostatistic

ntr-un astfel de studiu ne intereseaz att valoarea lui P (cel mai important parametru ct i intervalul de ncredere pentru un anumit rat de ans (OR) sau risc relativ (RR).
Valoarea lui P ne rspunde la urmtoarea ntrebare: Dac, de

exemplu, nu exist nici o asociere ntre variabilele care definesc coloanele i variabilele care definesc liniile unui tabel de contingen (practic n cazul studiului nostru ntre expunere i boal), care este ansa (probabilitatea) ca lund la ntmplare indivizi (aa numita eantionare aleatorie - random

sampling) dintr-o populaie s descoperim o asociere (mai) semnificativ


dect cea din studiul n cauz (145)? Cu alte cuvinte, dac ntr-adevr nu exist deloc nici o asociaie ntre linii i coloane care este probabilitatea ca o eantionare aleatorie s duc la obinerea unei valori a OR (foarte) diferit de 1,0 precum i diferit de cea obinut n studiul n cauz ? Pentru a explicita mai bine cele afirmate mai sus, s lum un exemplu: S presupunem c pentru un studiu al influenei radiaiilor ionizante asupra incidenei leucemiilor acute (LA) am obinut o valoare a RR = 0,923 i o valoare a lui P = 0,991. Conform celor afirmate mai sus, aceasta valoare a lui P ne spune c printr-o eantionare aleatorie, la modul teoretic, avem
99,1 % anse de a obine un RR diferit att de valoarea obinut (0,923) de

noi ct i de 1,0. De aceea putem afirma c ceea ce am obinut noi n studiu este statistic nesemnificativ dac P= 0,991. Invers, dac din analiza statistic ar rezulta o valoare a RR = 4,204 i o valoare a lui P < 0,0001, aceasta ar nsemna c avem mai puin de 0,0001 % anse de a obine, prin eantionare aleatorie (alegnd deci la ntmplare subieci) un OR mult diferit att de

124

Studii epidemiologice i clinice

valoarea obinut (4,204) de noi ct i de 1,0. De aceea putem afirma ca ceea ce am obinut noi n studiu este statistic semnificativ dac P < 0,0001. Din nefericire, termenul "semnificativ statistic" nu este de multe ori acelai lucru cu "important din punct de vedere tiinific". nainte de a interpreta din punct de vedere tiinific o anumit valoare a lui P sau un anumit interval de ncredere trebuie s ne gndim atent la ordinul de mrime a ratei de risc (RR) sau ratei de ans (OR). Ct de mare trebuie s fie aceast valoare a lui OR pentru a o considera important din punct de vedere tiinific (chiar dac am obinut un rezultat considerat statistic semnficativ)? Ct de mic trebuie s fie acea valoare pentru a o putea considera normal i a putea trage concluzia c expunerea studiat nu poate fi considerat factor de risc n boala respectiv ? Modul n care interpretm rezultatele unui studiu depinde foarte mult de valoarea lui P: mic (P < 0,05) sau mare (P > 0,05). A. Dac valoarea lui P este mic (P < 0,05) = rezultat
semnificativ statistic:

n acest caz este improbabil c asocierea expunere-boal observat s fie ntmpltoare. Putem deci respinge ideea c asocierea este o coinciden datorat eantionrii i putem concluziona c populaia studiat are un RR sau OR diferit de 1,0. Asocierea este deci statistic semnificativ (dac P < 0,05). Dar este acest rezultat important i din punct de vedere tiinific?
Intervalul de ncredere (CI 95 %) este cel care ne poate da un

rspuns.

125

Noiuni fundamentale de biostatistic

Orice analiz statistic include ntotdeauna, n proporie mai mic sau mai mare, o serie de erori datorate eantionrii (aa numitele effects of random sampling), astfel c valoarea RR sau OR calculat din datele

studiului probabil nu este identic cu valoarea adevrat a RR sau OR.


Dar, din nefericire, nu exist posibilitatea determinrii exacte a acestei valori adevrate. n schimb analiza statistic ne d o msur a acestei valori prin intemediului intervalului de ncredere la 95 %. Practic putem fi

95 % siguri c acest interval conine valoarea adevrat a RR sau OR.


Pentru a putea intepreta rezultatele analizei statistice ntr-un context tiinific pertinent, trebuie s privim la ambele capete ale intervalului de ncredere i s ne ntrebm dac acestea reprezint valori ce au importan din punct de vedere tiinific sau sunt valori obinuite, comune, fr importan tiinific. Tabelul VIII.2 sistematizeaz variantele posibile:
Tabel VIII. 2. Interpretarea rezultatelor analizei statistice Valoarea Valoarea Interpretare minim a CI maxim CI 95 % 95 % Chiar dac RR sau OR nu este 1,0 , Comun Comun asocierea expunere-boal este mic i (relativ (relativ apropiat de 1) apropiat de relativ lipsit de interes tiinific, chiar 1) dac este statistic semnificativ Deoarece CI 95 % variaz ntre o Important Comun (mult mai valoare a OR comun din punct de (relativ vedere biologic (tiinific) i o valoare apropiat de 1) mare dect 1) semnificativ, nu putem trage o concluzie cert cu privire la importana tiinific a rezultatului. La modul ideal, o nou serie de date ar trebui analizate pentru a putea avea o concluzie cert,

126

Studii epidemiologice i clinice

att din punct de vedere statistic ct i tiinific. Important Comun Deoarece CI 95 % variaz ntre o (mult mai mic (relativ valoare semnificativ i o valoare a OR dect 1) apropiat de comun din punct de vedere biologic 1) (tiinific), nu putem trage o concluzie cert cu privire la importana tiinific a rezultatului. Apare o problem legat ns de designul studiului nostru, expunerea pare s influeneze n sens negativ incidena bolii, putnd fi considerat chiar ca un factor de protecie (13). O nou serie de date ar trebui analizate pentru a putea avea o concluzie cert, att din punct de vedere statistic ct i tiinific, iar dac rezultatele sunt similare trebuie verificat modul n care am conceput designul studiului i gruparea datelor n tabelele de contingen. Important Important De vreme ce pn i valoarea minim a CI 95% reprezint o asociere expunereboal suficient de mare pentru a fi considerat biologic important, se poate trage concluzia indubitabil c exist o asociere expunere-boal semnificativ att din punct de vedere statistic, ct i tiinific.
B. Dac valoare lui P este mare (P > 0,05) = rezultat
nesemnificativ statistic:

Dac valoarea lui P este mare, nu avem nici un motiv plauzibil s concluzionm c RR sau OR difer de 1,0. Aceasta nu nseamn ns c

127

Noiuni fundamentale de biostatistic

putem spune c RR sau OR sunt egale cu 1,0. Pur i simplu nu avem dovezi consistente c valorile RR sau OR difer de 1,0.

Care este oare valoarea adevrat a riscului relativ sau a ratei de ans ? Cum datele noastre includ o serie de erori datorate eantionrii (effects of random sampling) valoarea RR sau OR calculat din datele studiului probabil nu este identic cu valoarea adevrat a RR sau OR. Neexistnd posibilitatea determinrii exacte a acestei valori adevrate, analiza statistic ne d o msur a acestei valori prin intemediului intervalului de ncredere la 95 %. Practic putem fi 95 % siguri c acest interval conine valoarea adevrat a RR sau OR. Cnd ns P > 0,05, intervalul de ncredere este mult lrgit: el include aa numita ipotez nul (null hypothesis OR sau RR = 1,0) i se ntinde pe o gam de valori care ar putea sugera de la existena unei
asocieri negative expunere-boal (valoarea minim a CI 95 % este RR <1,0

sau OR <1,0) pn la existena unei asocieri pozitive expunere-boal (valoarea maxim a CI 95 % este RR >1,0 sau OR >1,0) Pentru a putea intepreta rezultatele analizei statistice ntr-un context tiinific pertinent, trebuie s privim la ambele capete ale intervalului de ncredere, situaiile ce pot fi ntlnite fiind prezentate schematic n tabelul IX:
Tabel VIII.3. Interpretarea rezultatelor analizei statistice Valoarea minim a CI 95 % Comun Valoarea maxim CI 95 % Comun Interpretare Nu exist o asociere semnificativ 128

Studii epidemiologice i clinice

statistic ntre expunere-boal. Cu de alte cuvinte nu exist o nici asociere ntre liniile i coloanele tabelului de contingen sau dac exist ea este cu certitudine foarte mic i lipsit de interes. Un rezultat ce poate fi considerat semnficativ i din punct de vedere tiinific. Comun Diferit de 1 Nu se poate trage o concluzie foarte (relativ (mai mare clar. Dei analiza statistic demonstreaz apropiat de dect 1) 1) inexistena unei asocieri statistic semnificative, expunerea la factorul de risc duce la apariia unui interval de ncredere ce se ntinde de la o valoare minim specific unei slabe asocieri negative expunere-boal, pn la o valoare maxim specific unei asocieri pozitive puternice expunere-boal; Ct de apropiat de 0,05 este valoarea lui P ? Pentru a putea trage concluzii clare este necesar repetarea experimentului folosind mai muli subieci. Diferit de Comun Nu se poate trage o concluzie foarte (relativ 1 (mai mic clar. apropiat de 1) Dei analiza statistic demonstreaz dect 1) inexistena unei asocieri statistic semnificative, expunerea la factorul de risc duce la apariia unui interval de ncredere ce se ntinde de la o valoare minim specific unei puternice asocieri negative expunereboal, pn la o valoare maxim specific unei slabe asocieri pozitive

(relativ apropiat 1)

(relativ de apropiat 1)

129

Noiuni fundamentale de biostatistic

expunere-boal; Ct de apropiat de 0,05 este valoarea lui P? Dac P are o valoare relativ apropiat de 0,05 atenie la designul studiului ! Pentru a putea trage concluzii clare este necesar repetarea experimentului folosind mai muli subieci. Modul n care trebuie interpretate rezultatele analizei statistice n cazul studiilor ce utilizeaz tabele de contingen de tip 2x2 este cel de mai sus, clar prezentat ntr-un numr mare de surse bibliografice: valoarea lui P ca prim parametru, din care rezult semnificaia
statistic a analizei

valorile CI 95 % pentru explicitarea sensului i magnitudinii


asocierii, din care rezult semnificaia tiinific a analizei

Cu toate acestea, o serie de articole aprute n ultimii ani n prestigioase reviste internaionale (7, 93, 153) pe teme similare prezentului studiu, prezint valorile OR sau RR fr a preciza valoarea lui P, ci numai intervalul de ncredere la 95 % (CI 95 %). Este recomandabil s lum n considerare din punct de vedere al concluziilor certe doar valorile cu P < 0,05, dar se poate face o i o cuantificare a situaiilor n care valoarea lui P este apropiat de 0,05. Aceasta deoarece pot fi ntlnite patru situaii distincte:
I.

n cazul existenei unei asocieri semnificative statistic (P < 0,05):

130

Studii epidemiologice i clinice

Cazul 1:

valoarea OR (RR) > 1 valoarea minim a CI 95 % > 1; valoarea maxim a CI 95 % > 1 (de obicei mult mai mare dect 1)

evident, P < 0,05

Interpretare: n acest caz putem spune c exist o asociere POZITIV, SEMNIFICATIV STATISTIC, ntre factorul de risc i boala studiat. Cazul 2:

valoarea OR (RR) < 1 valoarea minim a CI 95 % < 1(de obicei mult mai mic dect 1); valoarea maxim a CI 95 % < 1 P < 0,05

Interpretare: n acest caz putem spune c exist o asociere NEGATIV, SEMNIFICATIV STATISTIC, ntre factorul de risc i boala studiat. Cu

alte cuvinte, n funcie de expunerea studiat, unele surse bibliografice susin c, n acest caz, putem afirma c expunerea nu numai c nu influeneaz apariia bolii, ci are chiar o aciune protectoare. (13)
II.

cazul inexistenei unei asocieri semnificative statistic (P >

0,05): Cazul 3:

P > 0,05, dar valoarea lui P este mic (n aceasta lucrare

am considerat acest caz pentru P < 0,1)


valoarea OR (RR) > 1 valoarea minim a CI 95 % < 1; valoarea maxim a CI 95 % > 1

131

Noiuni fundamentale de biostatistic

Interpretare: n acest caz putem spune c poate fi observat o asociere POZITIV, NESEMNIFICATIV STATISTIC, ntre factorul de risc i

boala studiat.
Cazul 4:

P > 0,05, dar valoarea lui P este mic (n aceasta lucrare

am considerat acest caz pentru P < 0,1)


valoarea OR (RR) < 1 valoarea minim a CI 95 % < 1; valoarea maxim a CI 95 % > 1 (de obicei apropiat de 1) Interpretare: n acest caz putem spune c poate fi observat o asociere NEGATIV, NESEMNIFICATIV STATISTIC, ntre factorul de risc i

boala studiat. Exist i o a cincea situaie, cea n care OR (RR) 1, ceea ce nseamn ntre factorul de risc (expunere) i boal nu poate fi fcut nici
un fel de asociere, factorul de risc (expunerea) nu are nici un fel de

influen n cazul studiat (n acest lucrare am considerat ca valid o astfel de situaie pentru 0,95 <OR <1,05). Practic, dup cum se poate vedea, valoarea OR, respectiv CI 95 %, ne furnizeaz informaii despre sensul influenei factorului de risc
(expunerii) asupra bolii (n mod evident o valoare a OR egal cu 1,

nsemnnd faptul c factorul respectiv nu influeneaz n nici un fel boala), n timp ce valoarea lui P ne d informaii despre semnificaia statistic a acestei influene (P < 0,05 asocierea descoperit este semnificativ
statistic).

Cele prezentate mai sus sunt sistematizate n tabelul VIII.4:

132

Studii epidemiologice i clinice

Tabel VIII.4. Interpretarea rezultatelor statistice privind asocierea factor

de risc-boal
ASOCIERE factor de risc - boal STATISTIC SEMNIFICATIV OR Val. Val. P Interpretare (RR) minim maxim Exist o asociere CI 95 % CI 95 % POZITIV, SEMNIFICATIV >1 >1 >> 1 < 0,05 STATISTIC Asociere pozitiv Statistic ntre factorul de risc i semnificativ boala studiat OR Val. Val. P Interpretare (RR) minim maxim Exist o asociere CI 95 % CI 95 % NEGATIV, SEMNIFICATIV <1 <<1 <1 < 0,05 STATISTIC Asociere negativ Statistic semnificativ ntre factorul de risc i boala studiat ASOCIERE factor de risc - boal STATISTIC NESEMNIFICATIV OR Val. Val. P Interpretare (RR) minim maxim Poate fi observat o CI 95 % CI 95 % asociere POZITIV, NESEMNIFICATIV >1 <1 >1 > 0,05 STATISTIC Asociere pozitiv Statistic nesemnificativ ntre factorul de risc i boala studiat OR Val. Val. P Interpretare (RR) minim maxim Poate fi observat o CI 95 % CI 95 % asociere NEGATIV, NESEMNIFICATIV <1 <1 >1 > 0,05 STATISTIC, ntre Asociere negativ Statistic factorul de risc i nesemnificativ boala studiat OR (RR) 1 : ntre factorul de risc (expunere) i boal nu poate fi fcut nici un fel de asociere(n cazul studiului nostru am considerat aceast situaie pentru 0,950 <OR (RR) < 1,050) 133

Noiuni fundamentale de biostatistic

Riscul atribuit (RA) - numrul de cazuri din populaia expus ce ar putea fi eliminate dac

expunerea (la factorul de risc) ar putea fi ndeprtat. (239)


Formula de calcul RA = Incidena n rndul populaiei expuse - Incidena n rndul populaiei neexpuse

(la factorul de risc)

VIII. 2. Tipuri de studii epidemiologice


Este cunoscut faptul c deosebim 2 tipuri mari de studii epidemiologice (239) I. Descriptive (persoane, locuri i timp) Servesc la generarea de ipoteze de lucru II. Analitice (cauzale) Servesc la testarea ipotezelor de lucru

STUDII DESCRIPTIVE
CARACTERISTICI GENERALE:

Sunt, n general, studii de tip corelaional

Examineaz caracteristici ale ntregii populaii Exemple: Studierea unor relaii ntre vanzrile de igri pe teritoriul unei ri i mortalitatea datorat BPOC n acea ar Reprezint primul pas n studierea unei relaii de tip factor

de risc-boal

134

Studii epidemiologice i clinice

Avantaje Metod rapid i ieftin, poate fi utilizat ca un prim pas n efectuarea unui studiu mai complex Limitri
Nu poate furniza informaii certe cu privire la existena sau nonexistena unor relaii de tip cauz-efect

Nu poate oferi

cercettorului o modalitate de

control detaliat al potenialelor surse de eroare SUBTIPURI ALE STUDIILOR DESCRIPTIVE: A. Descriere de caz sau serii de cazuri (Case Reports

and Case Series)


Descriu patologia unui singur bolnav sau a unui grup de bolnavi Cea mai utilizat form de studiu publicat n revistele medicale Avantaje Poate duce la formularea de noi ipoteze de lucru Constituie un element major de legtur ntre medicina clinic i epidemiologie Limitri Nu poate fi folosit pentru verificarea unor ipoteze
de lucru

135

Noiuni fundamentale de biostatistic

B. Studiu descriptiv de tip urmrire a prevalenei (Cross-

Sectional or prevalence Survey)


Expunerea la factorii de risc i starea de boal sunt simultan cuantificate n cadrul unei populaii Furnizeaz informaii legate de frecvena i caracteristicile unei anumite boli Avantaje Foarte folositor n domeniul sntii publice Poate furniza informaii utile legate de prevalena (incidena) unei boli n anumite grupuri de populaie (expuse la anumii factori de risc specifici profesiei de exemplu) Limitri De cele mai multe ori nu poate s dea informaii
legate de faptul dac expunerea la factorii de risc a precedat boala sau a aprut n timpul ei

Datorit folosirii prevalenei ca indicator, nu se face


o deosebire ntre cazurile noi i cele deja existente la momentul nceperii studiului

Nu poate fi utilizat pentru studierea factorilor


etiologici

136

Studii epidemiologice i clinice

C. Studiu descriptiv de tip ecologic


Studii care n care unitile de analiza sunt mai degrab populaii ntregi sau grupe de populaii dect subieci individuali (cazuri) Avantaje Este extrem de util n generarea de ipoteze de lucru Limitri Fiecare individ aparinnd unei populaii este
caracterizat de media calculat pentru ntreaga populaie studiat

Pot aprea erori datorate faptului c o asociere


observat la nivelul ntregii populaii studiate nu reprezint n mod obligatoriu asocierea existent la nivel individual

Aceste dou limitri pot detemina apariia unor


erori ce constituie aa numitul Ecologic Fallacy

ASPECTE CE TREBUIE LUATE N CONSIDERARE N CAZUL


EMITERII DE IPOTEZE I A STABILIRII UNUI ANUMIT DESIGN

PENTRU STUDIU:
Ce boal va fi studiat i cum?

Bine fundamentat teoretic: boal, respectiv studiu bine fundamentat teoretic, pe baz unor surse bibliografice numeroase
Studiat empiric, pe baza criteriilor de diagnostic

137

Noiuni fundamentale de biostatistic

Ce tip de expunere va fi studiat ?

Bine fundamentat teoretic: exist numeroase surse bibliografice i studii similare Studiat empiric, pe baza criteriilor i metodelor de examinare alese de ctre cercettor
Care este timpul de inducie ? (Cu alte cuvinte care este intervalul

mediu de timp dintre expunerea la factorul de risc i efect apariia bolii ?)


Ce ali factori pot influena acest asociere ?

Factori bine studiai (fundamentai teoretic) Empiric, pe baza criteriilor i metodelor de examinare alese de ctre cercettor

STUDII ANALITICE
CARACTERISTICI GENERALE:

Permit efectuarea unei comparaii explicite ntre expunere (la factorii de risc) i boal Utilizeaz gruparea populaiei studiate n tabele de contingen realizate n aa fel nct s se poat observa clar (i determina statistic mai apoi) dac riscul este diferit ntre populaia expus i cea neexpus

Sunt singurele studii ce pot fi utilizate pentru TESTAREA DE IPOTEZE

138

Studii epidemiologice i clinice

SUBTIPURI ALE STUDIILOR ANALITICE: Studiilor analitice sunt grupate n dou subtipuri mari:

Studii analitice de tip observaional urmeaz cursul natural al evenimentelor Studii analitice de tip intervenional cercettorul determin expunerea (de exemplu un anumit tratament) i urmrete subiecii (de exemplu aa numitele studii clinice - clinical trials) n ceea ce urmeaz m voi referi numai la prima categorie, studii analitice de tip observaional, acesta fiind tipul de studii folosit de mine n

cadrul acestei lucrri.


STUDII ANALITICE OBSERVAIONALE SUBTIPURI:

A. Studii de tip Case-Control (Case-Control studies)


Gruparea n tabele de contingen se face n funcie de prezena sau absena bolii: Persoane care prezint boala Grup de comparaie Practic un astfel de studiu compar expunerea n rndul persoanelor bolnave (grup - cazuri) cu expunerea n rndul persoanelor sntoase (grup - control) Este studiul epidemiologic cel mai des utilizat, n ciuda potenialelor erori, ce pot aprea relativ frecvent fr o grupare atent n tabele de contingen potrivite scopului propus
Avantaje: 139

Noiuni fundamentale de biostatistic

Tipul de studiu cel mai potrivit n cercetri legate de boli cu perioada lung de incubare Eficient din punct de vedere al timpului necesar i al costurilor aferente Potrivit pentru studiul unor boli rare Poate fi utilizat pentru studierea simultan a mai multor factori de risc, n cadrul aceleai boli
Dezavantaje:

Lipsit de eficien n cazul studierii unor expuneri la factori de risc rar ntlnii (cum ar fi studierea efectelor unor accidente industriale) Nu permite calculul direct al ratei de inciden a bolii Uneori poate fi extrem de grea stabilirea unor relaii temporale ntre expunere i apariia bolii

140

Studii epidemiologice i clinice

Figura VIII.1. Diagrama schematic a unui studiu de tip Case-Control Exemplu: - Studiul asocierii dintre apariia limfoamelor nonhodgkin i infecia cu virusul Epstein-Bar sau cu Helicobacter pylori (factori biologici de risc)

141

Noiuni fundamentale de biostatistic

ASPECTE CE TREBUIE LUATE N CONSIDERARE N CAZUL UNUI STUDIU DE TIP CASE-CONTROL:

- definirea i selecia cazurilor - selecia cazurilor pe baza incidenei sau a prevalenei (cu alte cuvinte cazurile studiate erau diagnosticate nainte de nceperea studiului sau sunt cazuri noi diagnosticate recent sau chiar la momentul studiului) - validitatea studiu versus generalizarea studiului (Poate fi studiul considerat valid? probleme legate de designul studiului; Pot fi concluziile lui extinse la totalul populaiei ? exist alte studii similare ce au ajuns la

concluzii asemntoare?)
- sursa loturilor control: clinici, eantioane din populaie n general, serii

speciale de loturi martor etc. - raportul cazuri/control (martor) - felul cum se face constatarea strii de boal, respectiv a expunerii la
factorul de risc

B. Studii de tip cohort (Cohort studies)


Subiecii studiului sunt clasificai pe baza expunerii la un anumit factor de risc Populaia este urmrit pentru a determina prezena (apariia) bolii n cadrul acesteia ; n funcie de modul de urmrire a prezenei bolii n cadrul populaiei deosebim: Studii de tip cohort prospective, respectiv retrospective

142

Studii epidemiologice i clinice

Studiul de tip prospectiv are ca punct de pornire timpul prezent, cercettorul investignd populaia (eantionul) prospectiv (n viitor); avantajul major al unui astfel de studiu const n faptul c cercettorul poate colecta orice informaie crede el de cuviin c are fi util. n cazul studiului retrospectiv, cercettorul identific eantionul (populaia studiat cohorta) i studiaz acea populaie de-a lungul unui anumit interval de timp precedent momentului n care a decis s nceap studiul; dezavantajul unei astfel de abordri const n faptul c cercettorul are la dispoziie doar informaii colectate n trecut, fr a mai putea avea acces la eventuale informaii utile, dac acestea nu au fost deja colectate i arhivate n vreun fel.

143

Noiuni fundamentale de biostatistic

Figura VIII.2. Diagrama schematic a unui studiu de tip Cohort Avantaje:

Astfel de studii pot msura incidena bolii i deci i cuantifica riscul Expunerea precede apariia bolii Poate servi la studiul unei mari categorii de boli Este foarte eficient n cazul unor expuneri la factori de risc rar
ntlnii, cum este cazul expunerilor datorate unor accidente industriale, aceasta deoarece investigatorul poate s aleag

eantionul avnd ca principal criteriu expunerea la factorul de risc


144

Studii epidemiologice i clinice

Dezavantaje:

Necesit un numr mare mare de subieci Relativ lipsit de eficien n cazul unor boli rare Perioad lung de urmrire a subiecilor studiului Subiecii pot suferi schimbri n starea de sntate de-a lungul perioadei de studiu, fr ca investigatorul s aib cunotin de acest lucru Necesit, n general, costuri mari pentru realizare
Exemplu: Expuneri neobinuite (accidente industriale), cum este i cazul

accidentului nuclear de la Cernobl (1986), care ne-a permis efectuarea,


unui studiu retrospectiv de tip cohort n scopul studierii rolului

radiaiilor ionizante ca factor de risc n apariia unor leucemii i limfoame

ASPECTE CE TREBUIE LUATE N CONSIDERARE N CAZUL UNUI STUDIU DE TIP COHORT: - modul de selecie (grupare) a populaiei expuse - modul de selecie (grupare) a populaiei neexpuse (grup de comparaie

sau martor) - datele legate de sursa de expunere la factorul de risc


- datele legate de variabilele de ieire (apariia bolii, indicatorii folosii,

eventualele surse de eroare)

145

Noiuni fundamentale de biostatistic

Selecia unui anumit tip de studiu (study design)


Trebuie s in cont de urmtorii factori i criterii:
Criteriul gradului de cunoatere tiinific a fenomenului studiat (bolii)

Studiu ce aduce informaii noi sau studiaz o boal nou (vezi


Severe Acute Respiratory Syndrome SARS)

Studiu ce adaug informaii relevante despre o boal Studiu ce confirm informaii deja existente despre o boal
Criteriul ipotezei de lucru

Studiu ce servete la generarea de ipoteze Studiu ce servete la testarea unor ipoteze de lucru
Criteriul epidemiologic / statistic

Studiu ce servete la verificarea unor ipoteze privitoare la boal (boala


subiect principal de studiu)

Studiu ce servete la verificarea unor ipoteze privitoare la expunere


(expunerea la factorul de risc- subiect principal de studiu)

Mrimea eantionului i reprezentativitatea lui


Criteriul resurselor disponibile (de obicei factorul limitant)

Costuri Timp
146

Studii epidemiologice i clinice

Asociere versus cauzalitate


"The presence of an association ... in no way implies that the observed relationship is one of cause and effect." (Hennekens and Buring)

Principala idee care trebuie s rzbat n urma unei analize statistice efectuate n cadrul unui studiu epidemiologic, este faptul c asocierea

expunere (factor de risc)-boal se refer strict la existena unei dependene


statistice ntre dou variabile.

Pentru a putea considera, eventual, aceast asociere ca o relaie


cauz-efect, exist o serie de criterii de interpretare a unui studiu

epidemiologic a cror parcurgere este o condiie sine qua non. Aceste criterii minimale sunt prezentate n cele ce urmeaz: - Exist o asociere expunere (factor de risc)-boal, valid din punct de
vedere statistic? DAC DA ...

- Se poate datora aceast asociere ansei sau nu?

- Se poate datora aceast asociere unor erori ale studiului, legate de bias? - Se poate datora aceast asociere unor erori ale studiului, legate de anumite confuzii?

147

Noiuni fundamentale de biostatistic

Criterii pentru stabilirea unei relaii de tip cauz-efect


Pentru a rspunde la ntrebarea: urmtoarele criterii:
1. Magnitudinea asocierii:

Poate fi judecat o asociere

statistic ca o relaie de tip cauz-efect ? trebuie luate n considerare

i. Dac a fost relevat existena unei asocieri statistic semnificative, ct de mare este magnitudinea acesteia ?
2. Credibilitatea biologic a ipotezei de lucru:

i. Exist un mecanism deja cunoscut care s explice tiinific asocierea ?


3. Consistena rezultatelor studiului vis--vis de alte studii similare:

i. Exist alte studii care s confirme concluziile noastre?


4. Secvena de timp:

i. Pentru cazurile studiate, precede expunerea apariia bolii cu o perioad de timp consistent (a se vedea timpul de inducie al bolii) pentru un mecanism biologic credibil?
5. Relaia doz- rspuns:

i. Putem vorbi de un gradient al riscului ce poate fi relaionat cu nivelul expunerii?

148

Studii epidemiologice i clinice

6. Poate fi considerat asocierea ca fiind specific?

i. Ci factori cauzeaz boala? ii. Cte boli pot fi cauzate de factorul respectiv?

149

Noiuni fundamentale de biostatistic

Anexe - Exerciii recapitulative

150

Statistic descriptiv exerciii recapitulative

Anexa 1 - Statistic descriptiv, exerciii recapitulative


Scurt recapitulare
Biostatistica este o ramur a statisticii, specializat n studiul fenomenelor biologice, deci i al celor medicale. Se ocup de culegerea, centralizarea i gruparea datelor, precum i de prelucrarea i determinarea unor indicatori pentru descrierea fenomenelor biomedicale studiate, pe baza evidenierii unor regulariti sau variabiliti statistice. Totodat aplic i dezvolt tehnici statistico-probabilistice pentru analiza datelor biomedicale. nceputurile biostatisticii au fost determinate de nevoia obinerii unor informaii cantitative dintre cele mai simple, formulate de regul sub forma ci bolnavi ? , ci decedai ? , etc. Cu timpul s-a constatat ns c asemenea metode sunt insuficiente pentru caracterizrile fenomenelor, c exist o variaie n rspunsurile care se obin ntre diverse msurtori sau, cu alte cuvinte, c fenomenele biologice sunt caracterizate prin variabilitate. Dar i n aceste condiii, observndu-se serii lungi de msurtori, s-a descoperit c se pot calcula indicatori simpli cu mare putere de sintez, cum ar fi media (aritmetic, geometric, etc), dispersia, etc. ntr-o etap ulterioar, statistica a ctigat n puterea de analiz a fenomenelor. Pe aceast cale s-au descoperit legile care guverneaz ceea ce nainte prea ntmpltor. Aceast etap, n care statistica trece de la descrierea fenomenelor la analiza lor, se caracterizeaz prin aplicarea n

151

Anexa 1

general a unui aparat matematic din ce n ce mai complicat i a calculului probabilitilor n special.

Indicatori statistici

Principalii indicatori care caracterizeaz un ir de date sunt fie indicatori de tendin central, fie indicatori ce caracterizeaz mprtierea datelor n jurul unei valori medii. O serie de date este alctuit dintr-un ir de valori pe care le notm :

x1 , x2 , , xn .
Indicatorii matematici mai importani ce caracterizeaz o serie de date sunt: Media aritmetic - notat de regul cu

x=

x1 + x2 + ... + xn n

Mediana - este acea valoare din irul de date care mparte n dou pri egale irul ordonat de valori (atenie, irul este ordonat cresctor), situnduse la mijlocul seriei statistice. Dac numrul de valori n este un numr impar, atunci mediana este valoarea Me= xk , unde

k=

n + 1. Dac n 2

este par, deci avem un numr par de valori, mediana este definit ca fiind

Me =

xk + xk +1 2

unde

k = n/2.

152

Statistic descriptiv exerciii recapitulative

Modul - constituie valoarea care apare cel mai des, deci valoarea cu numrul cel mai mare de apariii. Amplitudinea - este diferena dintre valoarea maxim i cea minim

A = Amax - Amin .
Amplitudinea relativ - notat A% este raportul dintre amplitudinea absolut i media aritmetic a seriei de date. Dispersia (variana) notat s2x este un indicator de mprtiere a datelor. Formula de calcul este:
2 sx

xi2 ( x ) 2 . =
n 1

Abaterea standard sau deviaia standard reprezint rdcina ptrat din varian (dispersie) :

sx = sx2

Coeficientul de variaie se calculeaz ca un raport procentual ntre abaterea standard i valoarea medie a irului de valori.

C.V.% =

sx 100 x

De remarcat c valoarea coeficientului de variaie nu are unitate de msur, se exprim procentual. Acest fapt permite folosirea indicatorului la compararea a dou sau mai multe serii de date, indiferent de ordinul de mrime al variabilelor (variantelor) i de unitile de msur folosite. Se poate considera c un coeficient de variaie sub 10% indic o dispersie mic (o mprtiere), adic seria este omogen. Un coeficient ntre 10% i 30%

153

Anexa 1

indic dispersie mijlocie, iar peste 30% indic dispersie mare. Dac dispersia este mare, media nu este un indicator reprezentativ. Atunci cnd avem foarte multe date se recomand includerea lor n clase egale ca mrime, ceea ce uureaz mult prelucrrile statistice ulterioare. Spre exemplu sortm pacienii pe grupe de vrst: 21-24 de ani, 25-30 ani, etc n acest caz apare noiunea de frecven a clasei.
Indicatori statistici pentru serii de date cu apariii frecvente ale aceleiai valori

Dac datele pe care le studiem conin valori care se repet des, se obinuiete s se grupeze datele care au aceeai valoare . Numrul de apariii ale unei valori anume se numete frecvena de apariie i se noteaz cu fi. Presupunem c n urma msurtorilor am obinut irul de valori:

x1 cu frecvena f1, x2 cu frecvena f2, xn cu frecvena fn


Indicatorii statistici se calculeaz conform noilor formule: Media aritmetic

x=

i =1, n

xi f i
i =1, n

fi

x1 f1 + x2 f 2 + ... + xn f n f1 + f 2 + ... + f n

Mediana este xk unde

k = i =1, n 2
154

fi + 1

Statistic descriptiv exerciii recapitulative

Dispersia (variana) :

2 sx =

i =1, n

( xi x ) 2 f i
i =1, n

fi 1

Folosirea calculatorului n statistica descriptiv. Aplicaii i exemple.


Apariia calculatoarelor a nsemnat un moment crucial n evoluia analizei statistice. Puterea de calcul considerabil a acestora a permis nu numai efectuarea unor analize statistice din ce n ce mai complexe, ci i punerea la punct a unor noi teste, respectiv modaliti de analiz statistic. n mod obinuit, exist dou modaliti de utilizare a calculatorului n analiza statistic a datelor, modaliti ce difer prin tipul de software folosit: -

folosirea unor programe obinuite de calcul tabelar (fie comerciale Open Source - Gnumeric etc) ce au

MS Excel, fie gratuite, n regim

ncorporate ns i module pentru analiz statistic. Astfel de programe ofer acces ns doar la un numr limitat de indicatori i/sau teste statistice, ncepnd cu calcularea unor indicatori din domeniul statisticii descriptive (medii, dispersii, intervale de ncredere) i terminnd cu o serie de teste statistice devenite clasice (testul t, testul CHI2, testul F etc). Principalul lor atu l constituie simplitatea n utilizare, n special pentru utilizatorul deja familiarizat cu programele de calcul tabelar. -

folosirea unor programe dedicate pentru analiza statistic, software

ce ofer de obicei posibilitatea efecturii nor analize statistice complexe,

155

Anexa 1

folosind un numr nsemnat de teste i diferite tipuri de abordri n mersul analizei. Principalul dezavantaj al acestui tip de software rezid tocmai n complexitatea lui, utilizatorul trebuind s aib un bagaj complet de cunotine teoretice i practice legate de analiza statistic ce urmeaz s o efectueze. Exist un numr mare de astfel de programe, de la soluii comerciale, uneori costisitoare (SPSS, SAS, Statistica for Windows, GraphPad Instat, GraphPad Prism etc) pn la soluii gratuite (EpiInfo, OpenEpi, SalStat etc ).
Statistic descriptiv folosind MS Excel sau alte programe de calcul tabelar

Exist dou modaliti de a face o serie de analize statistice folosind Excel: Prima modalitate, mai laborioas, presupune folosirea unor funcii speciale (utilitare) pentru analiza statistic existente n program alturi de alte tipuri de funcii Excel (funcii pentru calcule matematice, financiare etc). Aceste funcii sunt disponibile prin intermediul opiunii Function din meniul Insert.

156

Statistic descriptiv exerciii recapitulative

Figura A1.1. Utilizarea funciilor statistice n MS Excel

Principalele funcii (utilitare) Excel necesare calculrii indicatorilor utilizai n statistica descriptiv sunt cele de mai jos:
A. Indicatori ai tendinei centrale Media aritmetic funcia AVERAGE( ) Mediana funcia MEDIAN( ) Modul funcia MODE( )

157

Anexa 1

B. Indicatori ai dispersiei (mprtierii) datelor n jurul valorii medii Dispersia (variana) funcia VAR( ) (cu variantele VAR, VAR A,

VARP, VARPA)
Abaterea standard - funcia STDEV( ) (cu variantele STDEV,

STDEVA, STDEVP, STDEVPA)


Asimetria (skewness) - funcia SKEW( ) Kurtosis (aplatizarea - excesul) - funcia KURT ( ) Valoare cea mai mic dintr-un set de valori funcia MIN( ) Valoare cea mai mare dintr-un set de valori funcia MAX( )

Lucrul cu funciile programului Excel presupune parcurgerea urmtorilor pai: alegerea unei celule unde va fi afiat rezultatul apelarea funciilor Excel prin opiunea Function din meniul Insert selectarea tipului de funcie dorit (Math, Financial, Statistical etc) selectarea celulelor unde se afl seria dorit de date dac este cazul, setarea anumitor parametrii utilizai de respectiva funcie pentru efectuarea corect a calcului (de pild nivelul dorit de semnificaie sau tipul de test, dac sunt disponibile mai multe variante ale aceluiai test) n final, n celula dorit va fi afiat rezultatul calculului, n timp ce n bara cu formule va fi afiat funcia utilizat i setul de date folosit Exemplu. Fie o serie de 33 de date numerice obinute experimental (de exemplu valori ale tensiunii arteriale sistolice in mmHg): 180, 120, 110,

158

Statistic descriptiv exerciii recapitulative

200, 140, 210, 200, 190, 150, 170, 140, 130, 150, 170, 160, 120, 160, 140, 160, 170, 180, 160, 150, 130, 160, 180, 190, 160, 170, 170, 150, 150, 130. S se calculeze, folosind funciile din programul Excel media, mediana, modul, varianta, abaterea standard, valoarea maxim i minim, pentru acest set de date. Rezolvare. - Se introduc datele n program

Figura A1.2. Introducerea datelor m fereastra de dialog n cayul funciilor statistice din MS Excel

Cea de-a doua modalitate, mult mai elegant i cu o organizare mult mai elaborat a modului de prezentare a rezultatelor analizei, presupune instalarea folosirea unui modul special al programului Excel, modul ce,

159

Anexa 1

odat instalat, poate fi apelat prin alegerea opiunii Data Analysis din meniul Tools al programului Microsoft Excel.

Figura A1.3. Data Analysis ToolPak din MS Excel

Statistic descriptiv Exerciii recapitulative


1. Pentru stabilirea cantitii de adenin dintr-o soluie dat, s-au fcut

msurtori spectrofotometrice i s-au obinut urmtoarele date:


Numr msurtoare Valoarea msurat

1 2

64 71

160

Statistic descriptiv exerciii recapitulative

3 4 5 6 7 8 9 10

73 82 87 95 100 101 102 105

S se calculeze, cu ajutorul programului Excel, valoarea medie, dispersia, amplitudinea, abaterea standard, amplitudinea relativ, coeficientul de variaie.
2. S se calculeze greutatea medie a 100 de copii nscui la termen a

cror greutate la natere a fost urmtoarea:


Greutatea (n grame) Frecvena

2800 2900 3000 3100 3200

10 20 40 20 10

De asemenea s se calculeze, cu ajutorul utilitarului Excel, mediana, modul, amplitudinea, amplitudinea relativ, dispersia i coeficientul de variaie.

161

Anexa 1

3. S se calculeze valoarea medie, amplitudinea, amplitudinea relativ,

dispersia, abaterea standard i coeficientul de variaie al duratei de spitalizare n cazul unui grup de 200 de bolnavi internai cu hepatit viral. Datele sunt prezentate n tabelul urmtor:

Durata de spitalizare (zile)

Frecvena

20 22 24 26 28 30 32 34 36 38 40

2 6 10 18 30 80 26 10 8 6 4

162

Statistic inferenial exerciii recapitulative

Anexa 2 - Teste statistice de semnificaie, exerciii recapitulative


Pentru a stabili dac exist o legtur ntre dou serii de date (deci ntre dou variabile cantitative) folosesc testele statistice. Cele mai cunoscute sunt : testul Student - pentru compararea mediilor unei caracteristici la dou populaii. testul Chi - pentru a verifica dac exist o asociere sau o legtur semnificativ din punct de vedere statistic ntre dou variabile calitative. sau ntre dou variabile calitative se

Testul STUDENT
Testul Student este utilizat n analiza statistic pentru compararea mediei unei caracteristici la dou populaii. Caracteristica studiat trebuie s fie o caracteristic cantitativ, msurabil.
Etapele aplicrii testului STUDENT

Pentru aplicarea testului Student se parcurg urmtoarele etape: Se stabilesc dou eantioane de lucru: un grup de test extras din prima populaie i un grup martor, extras din a doua populaie. Se culeg i se nregistreaz datele studiului. Se fac urmtoarele notaii:

Xi reprezint valorile nregistrate n grupul de test

163

Anexa 2

Yi reprezint valorile nregistrate n grupul martor X reprezint media caracteristicii n grupul de test Y reprezint media caracteristicii n grupul martor n1 reprezint numrul de subieci din grupul de test n2 reprezint numrul de subieci din grupul martor s1 reprezint deviaia standard n grupul de test s2 reprezint deviaia standard n grupul martor
Se formuleaz dou ipoteze: 1. Ipoteza nul (H0) afirm: media 1 a caracteristicii n populaia

din care face parte grupul de test este egal cu media 2

caracteristicii n populaia din care face parte grupul martor (1=

2)
2. Ipoteza alternativ (H1) afirm: media 1 a caracteristicii n

populaia din care face parte grupul de test este diferit de media 2 a caracteristicii n populaia din care face parte grupul martor (12 )
Se calculeaz valoarea statistic a testului Student dup formula:

t=

X Y s2 p n1 + s2 p n2

unde sp este:

164

Statistic inferenial exerciii recapitulative

s2 p

2 (n1 1) s12 + (n 2 1) s 2

n1 + n 2 2

Se calculeaz numrul de grade de libertate a testului Student:

gl= n1+ n2 2.
Se calculeaz valoarea probabilitii p. Probabilitatea p este probabilitatea s obinem ntmpltor o valoare statistic egal sau mai mare dect valoarea t calculat, n condiiile n care ipoteza nul H0 este adevrat. n cazul n care probabilitatea p calculat este 0,05 se respinge ipoteza H0. Stabilirea concluziei testului Student. Dac probabilitatea p are o valoarea mai mic sau egal cu 0,5, atunci se repinge ipoteza nul H0 i se accept ipoteza alternativ H1, prin urmare exist o diferen semnificativ ntre mediile caracteristicii n cele dou populaii. Dac probabilitatea p are o valoarea mai mare dect 0,5 , atunci se accept ipoteza nul H0, prin urmare nu exist o diferen semnificativ ntre mediile caracteristicii n cele dou populaii.

Utilizarea funciei TTEST a utilitarului Excel

Testul STUDENT este mult mai uor de aplicat cu ajutorul utilitarului

EXCEL dect testul CHI. Pentru a obine probabilitatea final p introducem

165

Anexa 2

valorile celor dou serii pe o foaie de calcul. Funcia TTEST se introduce ntr-o celul oarecare specificnd n ordine: -zonele care conin datele celor dou serii de valori -valoarea: 1 sau 2 pentru a indica dac testul este cu un capt sau cu dou capete. Dac testul este cu dou capete, atunci n cazul respingerii ipotezei H0 se consider c exist diferene ntre mediile celor dou caracteristici fr a se specifica care dintre cele dou medii este mai mare. Dac testul este cu un capt, atunci n cazul n respingerii iptotezei H0 este clar care dintre mediile celor dou populaii este mai mare. Cel mai des se utilizeaz testul cu 2 capete. -tipul testului: 1, 2 sau 3
1 - dac grupurile de date sunt dependente 2 - dac grupurile de date sunt independente i se presupune c

populaiile au aceeai dispersie.


3 - dac grupurile de date sunt independente i se presupune c

populaiile au dispersii diferite. Spre exemplu, dac seriile de valori sunt coninute n zonele B7:B25 i E8:E35 i grupurile de date sunt independente, atunci coninutul funciei TTEST este: = TTEST(B7:B25; E8:E35; 2; 2 ).

166

Statistic inferenial exerciii recapitulative

Testul recapitulative

STUDENT

exemple

exerciii

1. ntr-un studiu al efectului bumetamidei n secreia de calciu n

urin, 9 persoane alese aleator au primit fiecare cte o doz de 0,5 mg de medicament. S-a colectat n fiecare or, timp de 6 ore, urina de la cele 9 persoane. La fel s-a procedat cu alte 10 persoane care nu au primit medicamentul. Pentru fiecare persoan s-a calculat o medie (prin calculul mediei celor 6 valori citite). Datele obinute au fost urmtoarele:

Grupul de test

Grupul de control

2 4 5 3,5 7 10,5 16 18 1,5

3 4,5 5 6 6,5 6,5 7,5 8 8,5 9,5

167

Anexa 2

S se determine dac secreia de calciu n urin difer la cele dou grupuri, deci dac administrarea medicamentului are efect n creterea secreiei de calciu. Pentru a realiza acest lucru, mai nti introducei datele de mai sus ntr-o foaie de calcul tabelar i apoi aplicai testul Student cu un capt (1 tails), de tipul 2 (two-sample equal variance) i ipoteza 0. Dac probabilitatea P obinut este mai mic dect 0,05 atunci medicamentul are efect. Ipoteze: H0: medicamentul nu are efect n creterea secreiei de calciu. H1: medicamentul are efect n creterea secreiei de calciu. p > 0,05 acceptm iptoteza H0
Rezultate

p=0,31317 acceptm iptoteza H0 , deci medicamentul nu are efect n creterea secreiei de calciu.
2. Se efectueaz un studiu al nivelului de digoxin ser, dup efectuarea

rapid a unei injecii intravenoase cu acest medicament. S se stabileasc dac nivelul de digoxin ser la 4 ore dup injectare difer semnificativ de nivelul de la 8 ore dup injectare. Datele obinute n urma studiului pe 10 subieci sunt urmtoarele:
Nr. subiect Dup 4 ore Dup 8 ore

1 2 3

1 1,3 0,9

1 1,3 0,7

168

Statistic inferenial exerciii recapitulative

4 5 6 7 8 9 10

1 1 0,9 1,3 1,1 1 1,3

1 0,9 0,8 1,2 1 1 1,2

Pentru a obine rezultatul studiului, aplicai testul Student cu dou capete i de tipul 1 (grupuri dependente). Dac probabilitatea p obinut este mai mic dect 0,05 atunci exist diferene semnificative.
3. Concentraia hemoglobinei n g/100 ml snge, la un numr de 12

persoane cu anemie feripriv, a crescut dup tratament astfel:

Hemoglobina (g./100 ml snge) Persoana nainte de tratament Dup tratament

1 2 3 4 5 6

3,4 3,0 3,0 3,4 3,7 4,0

4,9 2,3 3,1 2,1 2,6 3,8

169

Anexa 2

7 8 9 10 11 12

2,9 2,9 3,1 2,8 2,8 2,4

5,8 7,9 3,6 4,1 3,8 3,3

Se poate afirma c tratamentul este eficace ? Pentru a putea rspunde la aceast ntrebare utilizai testul STUDENT cu dou capete i pentru grupuri dependente (tipul 1) .
4. S-a msurat glicemia la un lot de 5 persoane sntoase, alese

aleator. Apoi s-a msurat glicemia la un lot de 8 persoane alese de asemenea aleator, dar bolnave de diabet zaharat. Rezultatele obinute sunt prezentate n tabelul urmtor.
Persoane Sntoase Bolnave de diabet

1 2 3 4 5 6 7 8

100 101 103 106 110

171 172 175 176 177 178 182 185

170

Statistic inferenial exerciii recapitulative

S se stabileasc dac mediile celor dou loturi difer semnificativ, cu un risc de 0,05. Se va utiliza testul Student cu dou capete, de tipul 2 (independente).
5. S-a msurat uremia la dou loturi de cte 10 bolnavi de gut, dintre

care unii au fost tratai cu un anumit medicament, n timp ce ceilorlali li s-a administrat un produs placebo; s-au obinut urmtoarele rezultate:

Nr. Subiect

Valoarea uremiei n lotul tratat (mg/l)

Valoarea uremiei n lotul netratat

1 2 3 4 5 6 7 8 9 10

42 45 48 52 55 58 60 63 67 70

48 54 60 66 72 78 84 90 96 102

S se aprecieze cu un risc de 0,05 dac medicamentul a avut efect. Se va aplica testul STUDENT cu dou capete, de tipul 2 (grupuri independente).
171

Anexa 2

6. La un lot de bolnavi cu hepatit cronic s-a efectuat proba Tymol i

apoi li s-a aplicat o raie alimentar hipercaloric, dup care s-a repetat proba Tymol. Rezultatele obinute n urma analizrii probelor sunt sintetizate n tabelul urmtor.

Proba Tymol Bolnavul nainte Dup raie

1 2 3 4 5 6 7 8 9 10

10 8 16 5 6 12 9 10 14 10

8 8 10 5 4 7 8 14 10 6

se stabileasc dac mediile celor dou serii de date difer

semnificativ. Se va utiliza testul Student cu dou capete, de tipul 1 (pentru grupuri dependente).
7. S-a msurat valoarea tensiunii arteriale sistolice la grup de pacieni

dignosticai cu stenoz i la un grup de pacieni asimptomatici. S se


172

Statistic inferenial exerciii recapitulative

determine dac media celor dou serii de date difer seminificativ. Se va utiliza testul STUDENT cu dou capete i de tipul 2 (pentru grupuri independente). Rezultatele msurtorilor sunt sintetizate n tabelul urmtor.

Valoarea sistolic Pacientul Simptomatici Asimptomatici

1 2 3 4 5 6 7 8 9 10 11 12 13

160 155 170 170 170 185 190 195 205 210 210 220 220

150 160 155 150 150 155 165 165 165 170 175 175 180

173

Anexa 2

Testul CHI2
Testul CHI2 este utilizat n analiza statistic n urmtoarele cazuri: n studiile epidemiologice pentru identificarea unei asocieri ntre un factor de risc i o boal. De exemplu, se poate aplica testul CHI pentru stabilirea unei eventuale legturi ntre fumat i moartea prematur ca urmare a unei boli cardiovasculare, sau a unei legturi ntre expunerea la o anumit substan chimic i apariia malformaiilor congenitale la inim. pentru a verifica o asociere semnificativ din punct de vedere statistic ntre dou caracteristici calitative, cu alte cuvinte pentru stabilirea unei diferene ntre proporii. De exemplu, se poate aplica testul CHI pentru a stabili dac incidena cancerului la sn variaz n concordan cu cantitatea de grsime din alimentaie.
Etapele aplicrii testului CHI

Pentru aplicarea testului CHI se parcurg urmtoarele etape: Se culeg i se nregistreaz datele studiului. Subiecii sunt clasificai ca bolnavi sau nu, expui la un anumit factor de risc sau nu, etc. Se stabilete numrul de subieci care fac parte din fiecare clas. Numrul de subieci care fac parte din clasa i relativ la prima caracteristic i din clasa j relativ la a doua caracteristic se noteaz cu Oij i se numete frecvena observat a clasei ij . Se formuleaz dou ipoteze:

174

Statistic inferenial exerciii recapitulative

(a) Ipoteza nul (H0) afirm: ntre cele dou caracteristici

studiate nu exist o asociere (o legtur)


(b)

Ipoteza alternativ (H1) afirm: exist o asociere (o

legtur) ntre cele dou caracteristici studiate


Se calculeaz frecvena relativ a fiecrei clase. Frecvenele relative se noteaz cu Eij i se calculeaz dup formula: Oij Oij i =1,n j =1,m
i =1,n j =1,m

Eij =

Oij

Se calculeaz valoarea statistic a testului CHI dup formula:

=
2 C

i =1,n j =1,m

(Oi E )
j ij

Eij

Se calculeaz numrul de grade de libertate a testului CHI: gl=(nr rnduri-1)*(nr coloane-1) Se calculeaz valoarea probabilitii p. Probabilitatea p este probabilitatea s obinem ntmpltor o valoare statistic egal sau mai mare dect valoarea C2 calculat, n condiiile n care ipoteza nul H0 este adevrat. n cazul n care probabilitatea p calculat este 0,5 se respinge ipoteza H0. Stabilirea concluziei testului CHI.

175

Anexa 2

Dac probabilitatea p rezultat din calcul are o valoarea mai mic sau egal cu 0,5 , atunci se respinge ipoteza nul H0 i se accept ipoteza alternativ H1, prin urmare exist o asociere ntre cele dou caracteristici studiate. Dac probabilitatea p rezultat din calcul are o valoarea mai mare dect 0,5 , atunci se accept ipoteza nul H0 , prin urmare nu exist o asociere ntre cele dou caracteristici studiate.
Utilizarea funciei CHITEST a programului Excel

Utilitarul Excel ofer funcia CHITEST pentru calculul probabilitii

p. Argumentele acestei funcii sunt : zona care conine valorile de test i


zona care conine valorile estimate. Pentru a putea utiliza aceast funcie trebuie s introducem datele aferente studiului nostru i s calculm valorile estimate Eij.
A B E F

1 2 3 4

...

Figura A2.1 . Gruparea datelor n MS Excel pentru testul CHI2

Spre exemplu, s presupunem c datele noastre sunt grupate n zona A-E, iar n csuele notate cu sunt calculate totalurile pe linii, respectiv coloane (figura A2.1)

176

Statistic inferenial exerciii recapitulative

Valoarea unei celule din matricea valorilor estimate este egal cu produsul dintre suma valorilor de pe linia i suma valorilor de pe coloana matricei datelor de test, totul mprit la suma tuturor datelor de test. Matricea valorilor estimate se contruiete ca n figura urmtoare (figura

11.2)
A B E F

10 11 12 13

(F1*A4)/F4 (F2*A4)/F4 (F3*A4)/F4

(F1*B4)/ F4 (F2*B4)/ F4 (F3*B4)/ F4 ...

(F1*E4)/F4 (F2*E4)/F4 (F3*E4)/F4

Figura 11.2
Dup calculul matricei valorilor estimate se poate aplica funcia CHITEST i anume: =CHITEST(A1:E3;A10:E12). Rezultatul ntors de funcia CHITEST este valoarea p.

Testul CHI2 Exerciii recapitulative.


1. O echip de cardiologi au efectuat un studiu pentru a investiga o

eventual asociere ntre utilizarea medicamentelor contraceptive orale i hipertensiune. Datele obinute au fost urmtoarele:

177

Anexa 2

Hipertensiune Cu contraceptive orale Cu alte contraceptive 23 15 8

Tesiune normal 32 45 77

Total 40 60 100

S se stabileasc dac proporia de femei hipertensive dintre cele care utilizeaz contraceptive orale difer de proporia de femei hipertensive dintre cele care folosesc alte medicamente anticoncepionale. Pentru a obine rezultatul studiului, mai nti introducei datele de mai sus ntr-o foaie de calcul tabelar. Apoi calculai frecvenele estimate astfel: Eij=(Suma valorilor de pe linia i)*(suma valorilor de pe coloana
j)/(suma tuturor valorilor).

Dup aceea aplicai testul CHI. Dac probabilitatea P obinut este mai mic dect 0,05 , atunci exist diferen, deci exist o legtur. Ipoteze: H0: nu exist nici o legtur ntre utilizarea medicamentelor contraceptive orale i hipertensiune. H1: exist o legtur ntre utilizarea medicamentelor contraceptive orale i hipertensiune. Dac probabilitatea P obinut este mai mic dect 0,05 , atunci exist o legtur, se respinge ipoteza H0 i se accept iptoteza H1.

178

Statistic inferenial exerciii recapitulative

Dac probabilitatea P obinut este mai mare dect 0,05 , atunci nu exist nici o legtur, deci se accept ipoteza H0.
Rezultate

Valorile estimate sunt: 9,2 13,8 p=0,560528 acceptm ipoteza H0 ipoteza H0: nu exist nici o legtur ntre utilizarea medicamentelor contraceptive orale i hipertensiune.
2. Se efectueaz un studiu pentru a stabili dac exist o asociere

30,8 46,2

(legtur) ntre severitatea cancerului ovarian i nivelul de stres. Datele obinute sunt:
Nivelul de stres Severitatea bolii Uoar

1 362 29 20 411

2 60 5 5 70

3 141 15 5 161

4 317 21 20 358

TOTAL

880 70 50 1000

Moderat Sever
TOTAL

Stabilii exist o asociere (legtur) ntre severitatea cancerului ovarian i nivelul de stres.
3. Se studiaz asocierea amigdalectomiei cu diferitele forme clinice de

poliomielit, pe un lot de 461 de cazuri. Se pune ntrebarea: diferenele sunt ntmpltoare? Prezena sau absena amigdalelor contribuie la determinarea

179

Anexa 2

formei de localizare a leziunilor de poliomielit ? Datele studiate sunt prezentate n tabelul urmtor:
Amigdale Tip boal

prezente 16 77 76 24

absente 99 58 85 26

bulbar dorsal sever dorsal uoar neparalitic

4. Se studiaz reaciile locale produse de dou tipuri de vaccin B.C.G.

n acest scop s-au supus observaiei 348 de copii, dintre care la 177 s-a administrat vaccin de tip A, iar la 171 vaccin de tip B. Se dorete s se afle dac diferenele dintre reaciile locale produse de aceste vaccinuri sunt semnificative din punct de vedere statistic sau dac este vorba numai de o fluctuaie de eantion. Datele rezultate din observarea reaciilor locale sunt prezentate n tabelul urmtor:
Tip vaccin Reacie local A B

normal intens ulceraie abces

12 156 8 1

29 135 6 1

180

Statistic inferenial exerciii recapitulative

5. S se testeze dac exist diferene semnificative statistic ntre femei

negravide, femei cu sarcini normale n luna a 9-a i femei cu disgravidii tardive, privind valorile medii, n g/zi ale aldosteronului, cortizonului i cortizolului. Datele studiate sunt prezentate n tabelul urmtor:

Tip boal
aldosteron cortizon cortizol

negravide 4 15 25

tip gravid sarcini normale 79 96 55

disgravidii tardive 24 37 33

7. n tabelul urmtor sunt trecute rezultatele unor observaii asupra unui grup de 736 de persoane, n scopul stabilirii unei legturi ntre persoanele supuse unui tratament mpotriva holerei i cele care sufer de aceast boal: Holer Tratament + + -

5 9

431 291

S se stabileasc dac tratamentul afecteaz numrul de persoane ce sufer de holer, adic dac exist o asociere statistic semnificativ ntre numrul de persoane ce sufer de holer i numrul de persoane supuse tratamentului.
7. n urma aplicrii unui vaccin, s-a nregistrat numrul de persoane

care s-au mbolnvit i care nu s-au mbolnvit. De asemenea, s-a nregistrat

181

Anexa 2

i numrul persoanelor care s-au mbolnvit din rndul persoanelor nevaccinate. Se pune problema: diferenele ntre bolnavii vaccinai i cei nevaccinai sunt semnificative sau nu ? Datele studiate sunt prezentate n tabelul urmtor:

bolnavi vaccinai nevaccinai 20 47

sntoi 74 59

8.

Se efectueaz un studiu pentru a vedea dac expunerea la un

pesticid din agricultur are efect n avortul femeilor. Datele studiate sunt prezentate n tabelul urmtor:
Tip boal Femei gravide Cu avorturi Fr spontane avorturi spontane

expuse la pesticid neexpuse

30 70

10 90

S se stabileasc existena unei eventuale legturi ntre expunerea la pesticid i avortul femeilor.
9. Se studiaz efectul obinut asupra numrului de carii prin efectuarea

unui instructaj privind igiena oral unui numr de copii alei aleator. La 50 de copii li s-a fcut un instructaj privind igiena oral iar la 50 de copii alei la ntmplare nu li s-a fcut acest instructaj. Peste 6 luni s-au numrat cariile

182

Statistic inferenial exerciii recapitulative

noi aprute. Se pune problema dac aplicarea instructajului privind igiena oral are un efect asupra numrului de carii noi aprute. Datele studiate sunt prezentate n tabelul urmtor:

numr de carii noi


Instructaj + 0-1 30 20 2-3 15 15 4-5 5 15

10. S-a studiat asocierea dintre prezena anemiei la un lot de subieci

i grupa sanguin. Se pune problema: prezena anemiei este influenat de grupa sanguin? Datele studiate sunt prezentate n tabelul urmtor:
anemie grupa sanguin

prezent 10 12 15 13

absent 30 18 15 12

O A B AB

11. Se efectueaz un studiu pentru a stabili dac exist o legtur ntre

nivelul de severitate al cancerului de plmni i starea de fumtor sau

183

Anexa 2

nefumtor. Stabilii pe baza datelor urmtoare existena sau nu a unei legturi:

Nivelul de severitate al cancerului


Stadiul 1 Stadiul 2 Stadiul 3

Fumtori 60 75 80

Nefumtori 40 25 20

184

Corelaii i regresii exerciii recapitulative

Anexa 3 Corelaii i regresii, exerciii recapitulative


Interaciunea dintre dou variabile independente se refer la diferenele aprute n valorile msurate ale unei variabile n funcie de nivelul celei de a doua variabile. De exemplu, este posibil ca un medicament s produc efecte mai bune dac este utilizat n combinaie cu un regim alimentar de reducere a greutii, dect dac ar fi combinat cu un regim alimentar nesrat. n schimb, s-ar putea s nu obinem efecte semnificative ale medicamentului dac se studiaz toate grupurile alimentare la un loc. Studiul efectelor medicamentului separat pe diferite regimuri alimentare ne conduce la concluzia c exist ointeraciune ntre doi factori: regimul alimentar i medicamentul.
Asociere i cauzalitate coeficientul de corelaie

n acumularea i evidena datelor tiinifice apar o serie de probleme specifice, cum ar fi problema asocierii (dependenei) ntre dou variabile. Se pune problema: exist o dependen ntre srcie i consumul de droguri ? Este stresul asociat cu boli cardiovasculare ? Pentru a determina dac exist sau nu o astfel de dependen, trebuie mai nti s cuantificm, s msurm ambele variabile. De exemplu, stresul poate fi cuantificat prin utilizarea unor teste psihologice sau prin definirea clar, evaluarea i scalarea factorului de stres n situaiile din viaa de zi cu zi. n ceea ce privete hipertensiunea, aceasta poate fi direct cuantificat prin msurarea presiunii sanguine.

185

Anexa 3

Dup ce variabilele au fost cuantificate, este necesar calcularea unei msuri a dependenei dintre ele, adic a triei dependenei. De obicei se calculeaz coeficientul de corelaie r. Coeficientul de corelaie r este un numr calculat direct din datele observate i poate varia ntre 1 i +1. Dac xi sunt valorile msurate ale variabilei X i yi sunt valorile msurate ale variabilei Y, atunci coeficientul de corelaie se calculeaz astfel:

unde n= numrul perechilor de date. Putem ntlni urmtoarele situaii:


Dac coeficientul de corelaie este r = 0 , atunci nseamn c nu

avem nici o corelaie ntre cele dou variabile. De exemplu, nu exist nici o legtur ntre presiunea sanguin i numrul de fire de pe cap.
Dac coeficientul de corelaie este r = +1 nseamn c avem o

corelaie pozitiv perfect, adic exist o dependen direct ntre cele dou variabile. O persoan care are o valoare mare la prima variabil va avea o valoare mare i la cea de a doua. De asemenea, valoarea unei variabile poate fi prevzut exact pe baza valorii celei de a doua variabile. Un exemplu de acest tip este corelaia dintre vrsta unui copac i numrul su de inele.
Dac coeficientul de corelaie este r = -1 atunci avem o dependen

invers perfect. O valoare mare a unei variabile nseamn o valoare mic a celeilalte variabile.
Dac coeficientul de corelaie este ntre 0 i +1 sau ntre 1 i 0 ,

atunci valoarea lui r ne d tria dependenei celor dou variabile.

186

Corelaii i regresii exerciii recapitulative

Aceste considerente se aplic n cazul n care dependena dintre cele dou variabile este liniar. Dac efectum, de exemplu, msurtori ale nlimii i greutii pentru un grup de persoane i calculm coeficientul de corelaie, vom obine o valoare pozitiv, dar o valoare mai mic dect 1.
Corelaie i cauzalitate.

Problema determinrii triei corelaiei dintre variabilele aleatoare este o problem relativ dificil, ce depinde de domeniul aplicaiilor, precum i de muli ali factori. Variabilele psihologice sunt mai dificil de msurat cu exactitate i sunt afectate n general de multe alte variabile, fiind astfel dificil de stabilit corelaiile dintre ele. Corelaiile dintre variabilele biologice sunt n general mai tari, acestea avnd dealtfel i avantajul c pot fi msurate cu mai mare precizie. Ca un exemplu, corelaiile dintre aptitudinile verbale i cele nonverbale la copiii colari, msurate cu ajutorul unor teste standard, variaz ntre 0,44 i 0,77 depinznd mediul de provenien al acestora i de clasa social. Pentru a stabili corelaii ct mai semnificative, trebuie identificate situaiile care sunt responsabile, care cauzeaz aceste corelaii.
ATENIE ! Existena unei corelaii ntre dou variabile nu implic n mod necesar cauzalitatea, aceasta se poate datora unor cauze comune. Prin urmare trebuie avut grij la interpretarea acestor coeficieni de corelaie.

187

Anexa 3

Reprezentarea grafic

Datele corespunztoare celor dou variabile studiate se pot reprezenta grafic sub forma unui sistem de coordonate bidimensionale. Microsoft Excel pune la dispoziie un astfel de grafic (diagram), numit XY Scatter. ntre cele dou variabile exist o corelaie puternic dac punctele reprezentate grafic sunt grupate de-a lungul unei drepte (figura). Cu ct punctele sunt mai alineate, cu att corelaia este mai puternic.
Valoarea critic a coeficientului de corelaie

n studiul statistic al corelaiei a dou variabile se pune urmtoarea ntrebare: sunt cele dou variabile corelate semnificativ de tare din puncte de vedere statistic? Pentru a rspunde la aceast ntrebare trebuie calculat un prag critic. Corelaia dintre dou variabile se va estima cu o marj de eroare numit nivel de semnificaie, notat cu p . Cu ct p este mai mic, cu att riscul (probabilitatea) de a grei este mai mic, deci estimarea este mai sigur. S ne reamintim cteva noiuni importante:
evenimentul sigur - acel eveniment care va aprea

ntotdeauna, indiferent de situaie. 1 - reprezint probabilitatea ca s apar evenimentul sigur. 0 reprezint probabilitatea ca s nu apar evenimentul sigur. probabilitatea de apariie a oricrui alt eveniment, diferit de evenimentul sigur sau de evenimentul imposibil, variaz ca
valoare ntre 0 i 1.

188

Corelaii i regresii exerciii recapitulative

Numrul gradelor de libertate reprezint numrul de perechi de

date care se studiaz, minus dou. Pragul critic reprezint valoarea coeficientului de corelaie peste care se consider corelaia ca fiind semnificativ. Dac coeficientul de corelaie depete acest prag critic, variabilele studiate se consider corelate. Pragul critic depinde de numrul gradelor de libertate i de nivelul de semnificaie. Anexa 1 prezint tabelul cu pragurile critice pentru nivelele de semnificaie 0,10 ; 0,05 ; 0,02 i 0,01.
Metoda practic de stabilire a corelaiei dintre dou variabile

Pentru a afla dac dou variabile studiate sunt corelate sau nu, formulm urmtoarele ipoteze statistice:
H0: cele dou variabile studiate nu sunt corelate. H1: cele dou variabile studiate sunt corelate.

n continuare se efectueaz paii urmtori: 1. Calculm coeficientul de corelaie r asociat datelor xi i yi ,cu ajutorul formulei prezentate mai sus sau cu ajutorul programului Microsoft Excel i anume utiliznd funcia CORREL(zona1; zona2). 2. Calculm numrul gradelor de libertate: numrul perechilor de date -2. 3. Analizm datele din tabelul din anexa 1. n acest tabel, pentru numrul de grade de libertate calculat exist mai multe praguri de semnificaie: cte unul pentru fiecare nivel de semnificaie i anume: pentru 0.10 , 0.05 , 0.02 , 0.01. De exemplu, dac r calculat este mai mare dect una dintre valorile din tabel, atunci cele dou variabile sunt corelate cu nivelul de semnificaie

189

Anexa 3

respectiv. Dac r este mai mare dect pragul critic pentru 0,05 atunci cele dou variabile sunt considerate corelate cu un nivel de semnificaie de 0,05. n general se urmrete s se obin o corelaie cu un nivel de semnificaie ct mai mic. Cu ct nivelul de semnificaie este mai mic, cu att corelaia este mai sigur i sunt mai puine anse s greim deoarece marja de eroare este mai mic.
4. n toate aceste cazuri se respinge ipoteza H0 i se accept ipoteza H1

cu nivelul de semnificaie respectiv.


Dac r obinut este mai mic dect toate valorile din tabel, atunci

cele dou variabile sunt considerate necorelate. n acest caz se accept


ipoteza H0 . Cel mai des se utilizeaz nivelul se semnificaie 0,05 sau 0,01,

care sunt considerate suficiente. S lum un exemplu ipotetic: studierea corelaiei dintre nivelul de amfetamin din plasm i intensitatea psihozei. Datele rezultate n urma msurtorilor sun cele din tabelul urmtor:
Nr. subiect 1 2 3 4 5 6 7 8 9 10 Intensitatea psihozei 10 30 20 15 45 35 50 15 40 55 Concentraia amfetaminei n plasm (mg/ml) 150 300 250 150 450 400 425 200 350 475

190

Corelaii i regresii exerciii recapitulative

Reprezentarea datelor cu ajutorul unei diagrame scatter-plot este cea din figur:
60 50 40 30 20 10 0 0 100 200 300 400 500

Intensitatea psihozei

Concentraia amfetaminei n plasm (mg/ml)

Figura A3.1. Reprezentarea grafic a datelor ntr-o diagram scatter-plot

Coeficientul r rezultat din calcul este 0,96738 . Numrul gradelor de libertate este 10-2=8. n anexa 1, pragul critic pentru 8 grade de libertate i nivelul de semnificaie 0,05 este 0,6319, iar pentru nivelul de semnificaie 0,01 este 0,7646.
REZULTAT

r > 0,7646 - se respinge ipoteza H0 i se accept ipoteza H1 cu un nivel de semnificaie de 0,01.


CONCLUZIE

Intensitatea psihozei este corelat cu nivelul de Amfetamin din plasm.

191

Anexa 3

EXERCIII 1. Studiindu-se relaia dintre doza unui medicament (exprimat n multipli ai unei doze minime) i durata bolii (exprimat prin numrul de zile de boal), s-a obinut urmtoarea relaie:

Nr. doz durat subiect 1 1 23,5 2 2 20,0 3 3 14,9 4 4 8,1 5 5 7,5 S se reprezinte grafic datele din tabel i s se verifice dac exist o

legtur ntre doza medicamentului i durata bolii.


2. S se aprecieze existena i gradul legturii dintre consumul de alcool (vin n litri) pe cap de locuitor, pe lun, i vrsta medie de debut a cirozei hepatice.

Datele colectate n urma studiului sunt prezentate n tabelul urmtor:


Nr. subiect litri de vin pe lun 7 8 8 10 12 13 15 15 15 16 Vrsta de debut a cirozei 56 55 58 55 52 51 50 48 45 40

1 2 3 4 5 6 7 8 9 10

192

Corelaii i regresii exerciii recapitulative

11 16 47 12 16 44 13 17 40 14 17 40 15 18 38 16 18 38 17 19 40 18 20 38 19 20 35 20 20 35 S se reprezinte grafic datele din tabel, sub form de diagram scatter.


3. S se aprecieze gradul i sensul legturii dintre temperatur i puls la un lot de 20 de bonavi. Datele studiului sunt prezentate n tabelul urmtor. Nr. subiect 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 temperatur puls

36,5 36,6 36,7 36,7 36,8 36,8 36,8 37,0 37,0 37,4 37,8 38,0 38,3 38,4 38,8 38,9 39,0 39,2 39,4

68 72 70 74 72 75 70 78 78 80 82 82 84 85 86 86 100 94 110

193

Anexa 3

20 39,6 120 S se reprezinte grafic datele din tabel, sub form de diagram scatter.
4. Urmtorul tabel conine informaii despre un lot de paciente diagnosticate cu cancer de col uterin. Se cere s se precizeze dac exist o legtur ntre vrsta la care a fost depistat cancerul de col uterin i menarha (vrsta de nceput a menstruaiei) i s se reprezinte grafic datele din tabel. Nr. subiect 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 vrsta menarha

57 56 32 39 46 73 38 69 67 61 65 45 47 50 65 49 63 47 43 40 58 41 49 54 32

14 14 13 15 13 14 11 15 13 15 13 14 14 15 15 14 14 12 15 12 13 14 14 14 19

194

Corelaii i regresii exerciii recapitulative

Nr. vrsta menarha subiect 26 50 12 27 50 14 28 49 14 6. ntr-un studiu cuprinznd cazuri de stenoz, s-au msurat valorile IMT maxim i valoarea sistolic la diveri pacieni. Se pune problema exist o legtur ntre valoarea sistolic i valoarea IMT maxim ? Datele colectate n urma efecturii studiului sunt prezentate n tabelul urmtor. Valoarea Nr. IMT sistolic subiect maxim a tensiunii arteriale 1 1,6 150 2 1,7 175 3 1,5 160 4 1,5 175 5 1,5 145 6 2,1 155 7 1,9 180 8 2,1 145 9 1,6 145 10 1,6 170 11 1,9 155 12 2,3 165 13 1,8 160 S se reprezinte grafic datele din tabel. 7. O companie farmaceutic a ncercat s evalueze relaia dintre doza ingerat a unui nou medicament hipnotic i durata somnului. Datele culese n urma studiului sunt prezentate n tabelul de mai jos. Exist o legtur linear ntre aceste dou variabile?

195

Anexa 3

durata somnului (ore) 1 4 2 6 3 5 4 9 5 8 6 7 7 13 8 11 9 9 S se reprezinte grafic datele din tabel.

Nr. subiect

doza (mM/kg)

3 3 3 10 10 10 15 15 15

8. ntr-un eantion format din 10 persoane s-a msurat nlimea i greutatea, pe baza crora s-a atribuit fiecrei persoane un rang (poziie), n funcie de nlime i de greutate. Spre exemplu, a 8-a persoan ca nlime este a 7-a ca i greutate. Se pune problema exist o legtur ntre nlime i greutate ? Datele colectate sunt prezentate n tabelul urmtor. Nr. nlime subiect 1 3 2 1 3 2 4 8 5 5 6 9 7 10 8 6 9 7 10 4 S se reprezinte grafic datele din tabel. greutate

1 2 3 7 6 8 10 5 9 4

196

Corelaii i regresii exerciii recapitulative

9. ntr-un studiu cuprinznd multe cazuri, s-a descris relaia dintre durata sarcinii exprimat n sptmni i greutatea la natere (g). Prezentm cteva dintre datele experimentale, care se refer la perioada ntre sptmna a 26-a i sptmna a 37-a. Se cere s se studieze statistic relaia dintre cele dou variabile. Datele colectate sunt

cele din tabelul urmtor. S se reprezinte grafic datele din tabel. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21


sptmna 26 27 28 28 29 29 30 31 31 31 32 32 32 33 33 34 34 35 35 36 37 greutatea 700 1050 1200 1230 1300 1325 1500 1600 1645 1640 1900 1920 1915 2100 2160 2300 2350 2500 2550 2700 2800

197

Anexa 4

Anexa 4 Exemple de studii epidemiologice. Studiu de tip Case-Control


Studiul influenei unor factori de risc biologici infecia cu Helicobacter pylori n apariia unor limfoame maligne (limfoame nonHodgkin LNH) n cazul populaiei judeului Mure [22]
Ipoteza de lucru

Conform datelor din literatura de specialitate, H.pylori a fost clasificat ca fiind un agent cancerigen cu rol n etiopatogenia cancerului gastric, dar constatri mai recente au adus n atenie aceast bacterie ca factor de risc n sfera etiopatogeniei limfoamelor.
Scopul studiului

Studiul prezenei infeciei cronice cu Helicobacter pylori la pacieni cu limfoame nonHodgkin comparativ cu un lot martor.
Material i metod:

Studiul efectuat este de tip Case-control prospectiv i prezint urmtoarele caracteristici : este un studiu ce ncearc verificarea unor informaii cunoscute cu privire la influena infeciei cu Helicobacter pylori, ca factor de risc n apariia limfoamelor nonHodgkin studiul a avut ca principal criteriu de grupare boala (limfoamele a fost precedat de o analiz descriptiv a cazurilor nonHodgkin) i abia apoi expunerea (infecia)

198

Exemple de studii epidemiologice

n ceea ce privete mrimea eantionului, n cazul acestui tip de

studiu am investigat un lot de 81 de bolnavi cu limfoame nonHodgkin, respectiv un lot martor (81 de subieci) -

n paralel am urmrit vrsta, sexul i mediul de provenien

(urban/rural) al subiecilor aflai n studiu, n ncercarea de a constata dac


aceti factori influeneaz n vreun fel apariia infeciei cronice cu H.pylori analiza statistic preconizat a constat n calcularea Odds Ratio (OR), respectiv a intervalului de ncredere pentru acesta (CI); OR i CI au fost calculate folosind testul CHI2 cu corecie Yates. n acest studiu, pentru depistarea infeciei cu H.pylori s-au efectuat determinri serologice de anticorpi de tipul IgG prin metoda ELISA, utiliznd kituri imunoenzimatice Diesse-Enzywell Helicobacter pylori, IgG. Infecia acut cu H.pylori induce apariia anticorpilor de tip IgA, n timp ce infecia cronic determin apariia anticorpilor de tip IgG.

Pentu acest studiu am ales infecia cronic cu H.pylori, care ar putea avea relevan n etiopatogenia limfoamelor.
Pentru stabilirea infeciei cu Helicobacter pylori s-au folosit metode serologice de tipul tehnicii ELISA pentru detectarea IgG anti-Helicobacter pylori. Studiul s-a efectuat pe cazuistica Clinicii Medicale I Tg.Mure pe perioada 2001-2002. Lotul martor provine din cazuistica Clinicii de Boli Infecioase II Tg.Mure unde s-au efectuat investigaiile pentru aceast categorie de pacieni cu alte diagnostice decat cele hematologice.

199

Anexa 4

Diagnosticul cu H.pylori.
Rezultate i discuii.

de

limfom

nonHodgkin

confirmat

clinic

anatomopatologic, a fost completat de investigaii serologice privind infecia

Lotul cu LNH cuprinde 81 de pacieni, 44 (54,32 %) brbai i 37 (45,68 %) femei. Vrsta acestora este cuprins ntre 20 i 78 de ani.
Tabel A4.1. Caracteristicile lotului cu LNH n funcie de sex

Lot cu LNH 81 100 %

Brbai 44 54,32 %

Femei 37 45,68 %

45,68% 54,32%

Brbai

Femei

Figura A4.1. Repartiia procentual pe sexe a lotului cu LNH

Un numr de 35 (43,20 %) de pacieni provin din mediul urban, iar restul 46 (56,80 %) din mediul rural.

200

Exemple de studii epidemiologice

Tabel A4.2 Caracteristicile lotului cu LNH dup reziden

Lot cu LNH 81 100 %

Urban 35 43,20 %
56,80%

Rural 46 56,80 %

43,20%

Urban

Rural

Figura A4.2. Repartiia procentual a lotului cu LNH n funcie de

reziden
La pacienii cu LNH infecia cronic cu Helicobacter pylori este

prezent ntr-un procent ridicat, respectiv n 70,37 % din cazuri, n care rezultatele serologice au fost pozitive pentru IgG. Din totalul de 57 de bolnavi seropozitivi 34 sunt brbai i 23 femei; 35 de bolnavi provin din mediul rural i 22 din mediul urban.

201

Anexa 4

Tabel A4.3. Caracteristicile bolnavilor seropozitivi din lotul cu LNH

Infecia cu H.pylori+ Masculin Feminin Urban Rural

Nr.cazuri LNH

Procente 59,65 % 40,35 % 38,60 % 61,40 %

34 23 22 35

La lotul martor, infecia bacterian cronic este prezent ntr-un

procent ridicat, dar valoarea acestuia este totui mai mic, de 60,49 % n comparaie cu cea a lotului cu LNH respectiv 70,37 %. Dintre pacienii serpozitivi ai lotului de control, 29 au fost de sex masculin, iar 20 de sex feminin; 13 proveneau din mediul rural i 36 din urban.
Tabel A4.4. Caracteristicile cazurilor seropozitive din lotul martor

Infecia cu H.pylori+ Masculin Feminin Urban Rural

Nr.cazuri martor

Procente 59,18 % 40,82 % 73,47 % 26,53 %

29 20 36 13

202

Exemple de studii epidemiologice

ANALIZA STATISTIC: Infecia cu Helicobacter pylori la pacieni cu LNH

Figura A4.3. Diagrama schematic a studiului infeciei cu H.pylori la pacieni cu LNH Tabel A4.5. Analiza statistic : Lot cu LNH (Total) Lot martor (Total)

Lot cu LNH (Total) Lot martor (Total) Boal (LNH) Nu Da


Expune re (Infecia cu Da 57

49

203

Anexa 4

Nu

24

32

Rezultatele analizei statistice Odds Ratio - OR P (CI 95 %) 1,551 0,247 (0,808;2,979) Se poate observa o cretere nesemnificativ statistic a ratei de ans (Odds Ratio) OR =1,551 pe totalul cazurilor (comparaie lot cu LNH -lot martor), tendin ce confim rezultatele altor studii.
Tabel A4.6. Analiza statistic : Lot cu LNH (Masculin) Lot martor (Masculin)

Lot cu LNH (Masculin) Lot martor (Masculin) Boal (LNH) Nu Da


HELICOBACTER PYLORI)

Expunere (Infecia cu

Da

34

29

Nu

10

15

Rezultatele analizei statistice Odds Ratio - OR P (CI 95 %) 1,759 0,344 (0,686;4,508)

204

Exemple de studii epidemiologice

Tabel A4.7. Analiza statistic: Lot cu LNH (Feminin) Lot martor (Feminin)

Lot cu LNH (Feminin) Lot martor (Feminin) Boal (LNH) Nu Da


HELICOBACTER PYLORI)

Expunere (Infecia cu

Da

23

20

Nu

14

17

Rezultatele analizei statistice Odds Ratio - OR P (CI 95 %) 1,396 0,638 (0,553;3,530) n cazul analizei statistice efectuate pe loturi grupate dup criterii demografice se constat o cretere nesemnificativ statistic, dar de magnitudine mare a OR, n cazul populaiei masculine (OR =1,759, comparativ cu OR =1,396, n cazul populaiei feminine).
Tabel A4.8. Analiza statistic: Lot cu LNH (Urban) Lot martor (Urban)

Lot cu LNH (Urban) Lot martor (Urban) Boal (LNH) Nu Da


Expune re (Infecia cu Da 22

36

205

Anexa 4

Nu

13

20

Rezultatele analizei statistice Odds Ratio - OR P (CI 95 %) 0,940 0,999 (0,391;2,260) Se constat o asociere negativ, nesemnificativ statistic factor de risc-boal, n cazul populaiei urbane (OR = 0,940).
Tabel A4.9. Analiza statistic: Lot cu LNH (Rural) Lot martor (Rural)

Lot cu LNH (Rural) Lot martor (Rural) Boal (LNH) Nu Da


HELICOBACTER PYLORI)

Expunere (Infecia cu

Da

35

13

Nu

11

12

Rezultatele analizei statistice Odds Ratio - OR P (CI 95 %) 2,937 0,062 (1,041;8,284) Se constat o cretere nesemnificativ statistic, dar de magnitudine mare a OR, n cazul populaiei rurale (OR =2,937).
206

Exemple de studii epidemiologice

Concluzii

n cazul studiului privind influena infeciei cronice cu Helicobacter pylori asupra apariiei limfoamelor nonHodgkin, se poate observa o cretere nesemnificativ ns statistic a ratei de ans - OR pe totalul cazurilor (OR=1,551), rezultate ce confirm datele altor studii. O magnitudine mare a OR, nesemnificativ ns statistic, poate fi observat i n cazul populaiei

masculine (OR=1,759), respectiv n cazul populaiei provenite din mediul rural ((OR=2, 937 o posibil explicaie fiind o igien mai precar n
mediul rural). Trebuie remarcat n acest context i asocierea negativ nesemnificativ statistic ntre factorul de risc i boal, la populaia din mediul urban.

207

Anexa 5

Anexa 5 - Valori critice pentru testul pragului de semnificaie =0,05

F corespunztoare

1 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 161, 4 18.5 10,1 7,71 6,61 5,99 5,58 5,32 5,12 4,96 4,84 4,75 4,67 4.60 4,51 4,49 4,45 4,41 4,38 4,35 4,32 4,30 4,28 4,26 4,24 4,22 4,21 4,20

2 199, 5 19,0 9,55 6,94 5,79 5,14 4,74 4,16 4,26 4,10 3,98 3,88 3,80 3,74 3,68 3,63 3,59 2,55 3,52 3,49 3,47 3,44 3,42 3,40 3,38 3,37 3.35 3,34

3 215, 7 19,1 9,28 6,50 6,41 4,76 4,35 4,07 3,86 3,71 3,59 3,49 3,41 3,34 3,29 3,24 3,20 3,16 3,13 3,10 3,07 ; 3,03 3,01 2,09 2,98 2,96 2,95

4 224, 6 19,2 9,12 6,39 5,19 4,53 4,12 3,84 3,63 3,48 2,38 3,26 3,18 3,11 3,06 3,61 2,96 2,93 2,90 2,87 2,84 2,92 2,80 2,78 2,76 2,74 2,73 2,71

5 230, 2 19,3 9,01 6,26 5,05 4,39 3,97 3,69 3,48 3,33 3,20 3,11 3,02 2,96 2,90 2,85 2,81 2,77 2,74 2,71 2,68 2,66 2,64 2,62 2,80 2,59 2,57 2,56

6 234, 0 19,3 8,94 6,16 4,95 4,28 3,87 3,14 3,37 3,22 3,09 3,00 2,92 2,85 2,79 2,74 2,70 2,66 2,63 2,60 2,57 2,55 2,53 2,51 2,49 2,47 2,46 2,41

8 238, 9 19,3 8,84 6,04 4,82 4,15 3,73 3,28 3,23 3,07 2,95 2,85 2,77 2,70 2,74 2,59 2,55 2,51 2,48 2,45 2,42 2,40 2,38 2,36 2,34 2,32 2,30 2,29

12 213, 9 19,4 8,71 5,91 4,68 4,00 3,57 3,28 3,07 2,91 2,79 2,69 2,60 2,53 2,48 2,42 2,38 2,34 2,31 2,28 2,25 2,23 2,20 2,18 2,16 2,15 2,13 2,12

24 249, 0 19,4 8,64 5,77 4,53 8,84 3,41 3,12 2,90 2,74 2,61 2,50 2,42 2,35 2,29 2,24 2,19 2,15 2,11 2,08 2,05 2,03 2,00 1,98 1,96 1,95 1,93 1,91

00 254, 3 19,5 8,53 5,83 4,36 3,67 3,23 2,93 2,71 2,54 2,40 2,30 2,21 2,13 2,07 2,01 1,96 1,92 1,88 1,84 1,81 1,78 1,76. 1,73 1,71 1,69 1,67 1,65

208

Anexa 5

29. 30. 40 60 120

4,18 4,17 4,08 4,00 3,92 3,81

3,33 332 3,23 3,15 3,07 2,99

2,93 2,92 2,84 2,70 2,68 2,60

2,70 2,69 2,61 2,52 2,45 2,37

2,54 2,53 2,45 2,37 2,29 2,21

2,43 2,42 2,34 2,25 2,17 2,09

2,28 2,27 2,18 2,10 2,02 1,94

2,10 2,09 2,00 1,92 1,83 1,75

1,90 1,64 1,89 1,62 1,79 1,51 1,70 1,39 1,61 1,25 1,52 1,00

209

Anexa 6

Anexa 6 - Valorile critice pentru testul t Student corespunztoare diferitelor praguri de semnificaie i numrului "n " al gradelor de libertate

Nivel de semnificaie pentru testul bilateral n


2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50

a
1

0,50
1,000 0,816 0,765 0,741 0,727 0,718 0,711 0.706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,682 0,681 0,680 0,679

0,20
3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,306 1,303 1,301 1,299

0,10
6,314 2,290 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,690 1,684 1,679 1,676

0,05
12,70 6 4,303 3,182 2,77 2,571 2,44 2,365 2,30 2,262 2,228 2,201 2,17 2,16 2,145 2,131 2,12 2,11 2,101 2,093 2,086 2,080 2,07 2,069 2,06 2,060 2,05 2,052 2,04 2,045 2,042 2,030 2,021 2,01 4 2,009

0,02
31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,472 2,467 2,462 2,457 2,438 2,423 2,412 2,403

0,01
63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,102 3,055 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,724 2,704 2,690 2,678

0,002
318,309 22,327 10,214 7,173 5,893 5,208 4,785 4,501 4,297 4,144 3,025 3,930 3,852 3,787 3,733 3,686 3,646 3,610 3,579 3,552 3,527 3,505 3,485 3,467 3,450 3,435 3,421 3,408 3,396 3,385 3,340 3,307 3,281 3,261

0,001
636,618 31,598 12,924 8,610 6,869 5,959 5,408 5,041 4,781 4,587 4,437 4,318 4,221 4,140 4,073 4,015 3,965 3,922 3,883 3,850 3,819 3,792 3,767 3,745 3,725 3,707 3,690 3,674 3,659 3,646 3,491 3,551 3,520 3,496

0,0001
6366,198 99,992 28,000 15,544 11,178 9,082 7,885 7,120 6,594 6,211 5,921 5,694 5,513 5,363 5,239 5,134 5,014 4,966 4,897 4,837 4,784 4,736 4,693 4,654 4,619 4,587 4,558 4,530 4,506 4,482 4,389 4,321 4,269 4,228

210

Anexa 6
60 70 80 90 100 120 200 500 1000 oo n a i

0,679 0,678 0,678 0,677 0,677 0,677 0,676 0,675 0,675 0,675 0,25

1,296 1,294 1,292 1,291 1,290 1,289 1,286 1,283 1,282 1,282 0,10

1,671 1,667 1,664 1,662 1,660 1,658 1,653 1,648 1,646 1,645 0,05

2,00 1,994 1,990 1,987 1,984 1,980 1,972 1,965 1,962 1,960 0,025

2,390 2,381 2,374 2,368 2,364 2,358 2,345 2,334 2,330 2,326 0,01

2,660 2,648 2,639 2,632 2,626 2,617 2,601 2,586 2,581 2,576 0,005

3,232 3,211 3,195 3,183 3,174 3,160 3,131 3,107 3,098 3,090 0,001

3,460 3,435 3,416 3,402 3,390 3,373 3,310 3,310 3,300 3,290 0,0005

4,169 4,127 4,096 4,072 4,053 4,025 3,970 3,922 3,906 3,891 0,00005

Nivel de semnificaie pentru testul unilateral

211

Anexa 7

Anexa 7 - Valorile critice pentru testul CHI 2 corespunztoare diferitelor praguri de semnificaie i numrului "n " al gradelor de libertate

n
l 2 3 4

0,990

0,975

0,950

0,900

0,100 2,71 4,61 6,25 7,78 9,21 10,64 12,02 13,36 14,68 15,99 17,27 18,55 19,81 21,06 22,31 23,54 24,77 25,99 27,20 28,41 29,61 30,81 32,01 33,20 34,38

0,050 3,84 5.99 7,81 9,49 11,07 12,59 14,07 15,51 16,92 18,31 19,67 21,03 22,36 23,6? 25,00 26,30 27,59 28,87 30,14 31,41 32,67 33,92 35,17 36,41 37,65

9,025 5,02 7,38 9,35 11,14 12,83 14,45 16,01 17,53 19,02 20,48 21,92 23,34 24,71 26,12 7,49 8,84 30,19 31,53 32,85 34,17 35,48 36,78 38,08 39,37 40,65

0,010 6,63 9,21 11,34 13,28 15,09 16,81 18,47 20,09 21,67 23,21 24,72 26,22 27,89 29,14 30,58 32,00 33,41 34,80 36,19 37,57 38,93 40,29 41,64 42,98 44,31

0,001 10,83 13,82 16,27 18,47 20,62 22,46 24,32 26,13 27,88 29,59 31,26 23,91 34,53 36,12 37,70 39,25 40.79 42,31 43,82 45,32 46,80 48,27 49,73 51,18 52,62

0,0002 0,0010 0,0039 0,0198 0,02 0,12 0,30 0,55 0,87 1,24 1,65 2,09 2,56 3,05 3,57 4,11 4,66 5,23 5,81 6,41 7,01 7,63 8,26 8,90 9,54 10,20 10,86 11,52 0,05 0,22 0,48 0,83 1,24 1,69 2,18 2,70 3,25 3,82 4,40 5,01 5,63 6,26 6,91 7,56 8,23 8,91 9,59 10,28 10,98 11,69 12,40 13,12 0,10 0,35 0,71 1,15 1,64 2,17 2,73 2,33 3.94 4,57 5,23 5,89 6,57 7,26 7,96 8,67 9,39 10,12 10,85 11,59 12,34 13,09 13,85 14,61 0,21 0,58 1,06 1,61 2,20 2,83 3,49 4,47 4,87 5,58 6,30 7,04 7,79 8,55 9,31 10,08 10,86 11,65 12,44 13,24 14,04 14,85 15,66 16,47

5 8 7 8 9 10 11
J

13 14 15 16 17 18 19 20 21 22 23 24 25

212

Anexa 7 26 27 28 29 30 12,20 12,88 13,57 14,26 14,95 13,84 14,57 15,31 10,65 16,79 15,38 16,15 16,93 17/71 18,19 17,29 18,11 18,91 19,77 20,60 .35,56 38,74 37,92 39,09 40,26 38,88 40,11 41,34 42,56 43,77 41,92 43,19 44,46 43,72 46,98 45,64 46,96 48,28 49,59 50,89 54,05 55,48 56,89 58,30 59,70

213

Anexa 8

Anexa 8 Soluiile exerciiilor propuse n anexe Soluii: Anexa 1 - Statistic 4. p = 0,000000000011 - difer descriptiv, exerciii recapitulative semnificativ 1. Media : 88 Amplitudinea : 41 Amplitudinea relativ: 46,59 % Dispersia: 219,3333 Deviaia standard: 14,809 Coeficientul de variaie:16,82% 2. Media : 3000 Amplitudinea : 400 Amplitudinea relativ: 13,33% Dispersia: 12121,2121 Deviaia standard: 110,096 Coeficientul de variaie: 3,67% 3. Media : 29,84 Amplitudinea : 20 Amplitudinea relativ: 67,024 % Dispersia: 13,48180905 Deviaia standard: 3,671 Coeficientul de variaie: 12,305% 5. p = 0,0087 - difer semnificativ 6. p =0,060 - nu difer 7. p = 0, 0008 - difer semnificativ Testul CHI2 1. p =0,560 - nu exist o legtur 2. p = 0,674 - nu exist o legtur 3. p = 0, 252 x10-10- exist o legtur 4. p = 0,032 - exist o legtur 5. p = 0,000124 - exist o legtur 6. p = 0,0705 - nu exist o legtur 7. p = 0,00056 - exist o legtur 8. p = 0,0000077 - exist o legtur 9. p = 0,0301 - exist o legtur 10. p = 0,0896- nu exist o legtur

Soluii: Anexa 2 - Teste statistice 11. p = 0,0048 - exist o legtur de semnificaie, exerciii recapitulative Soluii: Anexa 3 - Corelaie i regresie, exerciii recapitulative Testul Student 1. p = 0,313- nu difer semnificativ 2. p = 0,0095- difer semnificativ 3. p = 0,135 - nu difer 1. p = - 0,979 - corelate 2. p= - 0,949 - corelate 3. p = 0,901 - corelate 4. p = - 0,092 - necorelate 214

Anexa 8

5. p = 0,985 - corelate 6. p = - 0,0128 - necorelate 7. p = 0,900 - corelate 8. p = 0,915 - corelate 9. p = 0,994 - corelate

215

Bibliografie selectiv

Bibliografie selectiv
1. *** - NIST/SEMATECH e-Handbook of Statistical Methods, 2005, National Institute of Standards and Technology, http://www.itl.nist.gov/div898/handbook/ 2. *** - Farmacopeea Romn, ediia a-X-a, Editura Medical Bucureti 1993 3. *** - How Grubbs' test works, articol disponibil online pe website-ul firmei GraphPad Software, http://www.graphpad.com/library/BiostatsSpecial/article_39.htm 4. *** - Introduction to Epi principles, Innovations in Health Education USA website, copyright Henry Ford Health System, 2004, carte disponibil online pe website-ul IIHE, http://www.iihe.org/education/lectures/epidemiology/default.htm 5. *** - Normality tests use with caution, articol disponibil online pe website-ul firmei GraphPad Software, http://www.graphpad.com/library/BiostatsSpecial/article_197.htm 6. Baker R. J. - Basic principles of statistical analysis, carte disponibil online pe website-ul University of Saskatchewan, Canada, http://homepage.usask.ca/~rjb609/stats.html 7. Baron T. et al. Statistic teoretic i economic, Editura Didactic i Pedagogic, Bucureti, 1996 8. Dallal G.E. - The Little Handbook of Statistical Practice, 2001, carte disponibil online pe website-ul Tufts University, USA http://www.tufts.edu/~gdallal/LHSP.HTM
216

Bibliografie selectiv

9. Douglas G. A. - Practical Statistics for Medical Research, CRC Press, 1990 10. Hopkins W. G. - A New View of Statistics, 2004, carte disponibil online pe website-ul http://www.sportsci.org/resource/stats/index.html 11. Mruteri M. Biostatistic - aplicaii practice i exerciii

recapitulative pentru studenii colii Doctorale, curs online disponibil


pe situl UMF Trgu Mure, http://www.umftgm.ro/statdoct/biostatistica_lp.pdf 12. Mruteri M. Biostatistic - note de curs pentru studenii colii

Doctorale - curs online disponibil pe situl UMF Trgu Mure,


http://www.umftgm.ro/statdoct/biostatistica_curs.pdf 13. Mruteri M. Noiuni de biostatistic, n Maria T. Dogaru (sub redacia) Farmacologie experimental, Litografia UMF Trgu Mure, 1998 14. McCurdy St., Patrick R. - Clinical Epidemiology and Study Design, 2006, carte disponibil online pe website-ul UCDavis School of Medicine, USA, http://som.ucdavis.edu/students/k30/folder.2004-0621.4913658468/ 15. Motulsky H. - InStat guide to choosing and interpreting statistical tests, GraphPad Software, 2004, carte disponibil online pe website-ul firmei GraphPad Software http://www.graphpad.com/Downloads/InStat3.pdf 16. Motulsky H. Intuitive Biostatistics, Oxford University Press, 1995 17. Motulsky H., Christopoulos A. - Fitting Models to Biological Data

Using Linear and Nonlinear Regression, Oxford University Press, 2004,

217

Bibliografie selectiv

carte disponibil online pe website-ul firmei GraphPad Software http://www.graphpad.com/manuals/prism4/RegressionBook.pdf 18. Saporta G., tefnescu Viorica Analiza datelor & informatic, Editura Economic, Bucureti, 1996 19. Simionovici M., Crstea Al., Vldescu C. Cercetarea farmacologic i

prospctarea medicamentelor, Editura Medical, Bucureti, 1983


20. Stockburger D. W. - Introductory Statistics: Concepts, Models, And

Applications, 1996, carte disponibil online pe website-ul Missouri State


University USA, http://www.psychstat.missouristate.edu/sbk00.htm 21. Swinscow T.D.V. - Statistics at Square One, BMJ Publishing Group, 1997, carte disponibil online pe website-ul http://bmj.bmjjournals.com/collections/statsbk/index.shtml 22. Tilinc Mariana, Mruteri M., Brnzaniuc Klara Studiu privind

efectul radiaiilor ionizante accidentale asupra populaiei judeului Mure, Revista de Medicina si Farmacie Targu Mures, vol. 52/2006, pp.
117-122, ISSN 1221-2229 23. Varkevisser C. M., Pathmanathan Indra, Brownlee Ann - Choosing A

Significance Test, n Designing And Conducting Health Systems Research Projects: Volume 2, 2003, carte disponibil online pe websiteul International Development Center, Canada, http://www.idrc.ca/en/ev33013-201-1-DO_TOPIC.html 24. Zar J. H. - Biostatistical Analysis (4th Edition), Prentice Hall, 1998

218

ISBN (10) 973-7665-11-2 ISBN (13) 978-973-7665-11-9