Professional Documents
Culture Documents
Langs HF og VUC
Vi skal nu beskftige os med den gren af statistikken, som kaldes induktiv statistik. I kender
allerede deskriptive statistik, som udelukkende beskftiger sig med at beskrive, som navnet ogs
siger. I den deskriptive statistik beskriver man datast v.hj. af deskriptorer som fx middeltal,
median og kvartiler og man laver grafiske fremstillinger p grundlag af datasttet. Mlet er frst og
fremmest at skaffe sig overblik over store datast.
Den induktive statistik bruger man, nr man nsker at trffe beslutninger. Det uddyber jeg
nrmere om lidt. Den induktiv statistik trkker strkt p sandsynlighedsregningen, idet man for
at kunne trffe de nskede beslutninger har brug for at kunne udregne, hvor sandsynlige
forskellige hndelser er.
H: p=0,50
1
Tallet 3,4% er lidt tilfldigt valgt. I statistik vlger man undertiden at sige, at de resultater, som
skal fre til, at man forkaster hypotesen, skal have en sandsynlighed p 5% eller derunder,
undertiden siger man 10% eller derunder. Men der er ingen faste grnser. Hvis vi forkaster vores
hypotese, nr vi fr under 40 eller over 60 gange krone, s siger resultaterne fra KUGLESIM, at s
vil vi i 3,4% af gangene fejlagtigt forkaste en rigtig hypotese, alts begr vi en fejl i 3,4% af
tilfldene. Det at forkaste en rigtig hypotese kalder statistikere at beg fejl af frste art. Der er
desvrre ogs en anden mulighed for at beg fejl. Vi kunne godtage hypotesen (eller rettere: vlge
ikke at forkaste den), selvom den er forkert. Det at godtage en forkert hypotese kaldes at beg fejl
af anden art. Lad os antage, at mnten faktisk er skv, s chancen for at f krone kun er 0,42. I
dette tilflde er det meget sandsynligt, at vi ikke fr krone under 40 gange, nr vi tester mnten ved
at kaste den 100 gange. I den situation vil vi alts acceptere hypotesen, selvom den er forkert.
Flere eksempler
Der findes mange anvendelser, hvor man kan bruge en metode, som denne. Hvis man skal
undersge, om et nyt medicinsk prparat har en virkning, s udfrer man undertiden en test, hvor
man som hypotese har, at prparatet er virkningslst. Kun hvis en test frer til forkastelse af denne
hypotese, godtager man prparatet som virkningsfuldt. Man vil med andre ord se overbevisende tal
for at medicinen virker, fr man godtager prparatet.
Et andet eksempel kunne vre en kvalitetskontrol i industrien. Mske vil man i en industriel
produktion acceptere, at en lav procentdel af de producerede enheder er defekte. Med mellemrum
udtager man derfor et antal enheder til nrmere undersgelse (tnkt fx p produktion af beslag af
en eller anden slags). Her vil hypotesen vre, at produktionen overholder kravene. Men hvis
stikprven indeholder et antal defekte enheder, der er s stort, at sandsynligheden for at dette sker er
under 5%, s forkaster man hypotesen om, at kravene er overholdt. Man er derfor ndt til at standse
produktionen for at rette op p forholdet. Mske skal maskinerne justeres.
KHI-KVADRAT TEST
Nu da I kender lidt til de grundlggende principper i induktiv statistik, gr vi over til hovedemnet
for dette oplg, nemlig den skaldte Khi-kvadrat-test, ogs kaldet Khi-i-anden-test (khi er navnet
p det grske bogstav , Khi-i-anden skrives ogs 2).
De tests, som har vret omtalt indtil nu, har kun kunnet hndtere enten/eller situationer, s som
virker medicinen eller virker den ikke? eller er enheden defekt eller er den ikke defekt? Men tit
er situationen mere kompliceret.
Som eksempel herp vil vi nu undersge, om en terning, som skal bruges til hasardspil, er
symmetrisk. Med andre ord: giver den i det lange lb 1ere, 2ere, 3ere, 4ere, 5ere og 6ere lige
mange gange?
Hypotesen er her H: de seks jental forekommer lige hyppigt.
2
(o1 f1 ) 2 (o2 f 2 ) 2 (o f 6 ) 2
2 = ....... 6
f1 f2 f6
(1) Lav beregningen, og kontroller, at bliver 3.4.
2
Lad os diskutere denne strrelse lidt. Tllerne udregner forskellen imellem det forventede og det
observerede, men oplftet til anden. Grunden hertil er, at hvis vi ikke oplftede til anden, s ville
nogle af de seks led vre positive og andre negative. De ville have en tendens til at ophve
hinanden, s resultatet gav 0. Det ville vre uinteressant. Hvert led er yderligere divideret med det
forventede. Herved mler hvert led afvigelsen i anden i forhold til det forventede, alts den relative
afvigelse. For at forst dette lidt bedre, s forstil dig, at vi i et eller andet forsg (det behver ikke
vre noget med terningkast) fr en forskel i tlleren p 8 (som s kvadreret bliver til 64). Er det nu
meget eller lidt? Ja, det afhnger af, hvad det forventede var. Hvis vi forventede 5, men fik 13, s er
det langt vrre, end hvis vi forventede 100 og fik 108. I frste eksempel ville bidraget fra leddet
(13 5) 2 (108 100) 2
vre 12.8. I det andet eksempel ville bidraget kun vre 0.64. Sdan
5 100
skulle det jo ogs helst vre, da det frste eksempel giver den strste relative afvigelse.
Alle leddene i den sum, som giver 2 , er positive eller 0. 2 er derfor altid positiv eller 0. Hvis
2 giver 0, s er det fordi alle tllerne giver nul. I dette tilflde er der fuldstndig
overensstemmelse imellem det forventede og det observerede. Jo drligere de observerede tal
passer med de forventede, jo strre bliver 2 selvflgelig.
(2) Overvej og diskutr det foregende afsnit grundigt, s I forstr princippet bag udregningen af
2. De fire sidste linjer er srligt vigtige!
Vi laver nu yderligere tre serier hver af 60 terningkast. Resultaterne ses i nedenstende skema, hvor
serie 1 er den, der blev brugt lige fr.
JENTAL 1 2 3 4 5 6 I ALT 2
forventet 10 10 10 10 10 10 60
Serie 1 7 12 8 14 10 9 60 3.4
Serie 2 12 11 10 8 10 9 60 1.0
Serie 3 13 10 11 9 9 8 60 1.6
Serie 4 16 12 8 12 8 4 60 8.8
Tabel 1. Fire serie af 60 kast med en symmetrisk terning
(3) Kontroller beregningen af 2 for mindst n af de nye serier.
Sprgsmlet er nu selvflgelig, om disse resultater giver anledning til at forkaste hypotesen om, at
terningen er helt ok?
(4) Hvad synes I selv? Kik p resultaterne i hver af de fire serier. Ser det kritisk ud?
De oplysninger, som de enkelte delresultater i hver serie giver, er komprimeret i et eneste tal,
nemlig 2 . 2 kaldes en testor, og det er den vi skal bruge til at afgre, om vi tror p terningen.
Sprgsmlet er nu bare: er fx 1.0 en stor eller en lille vrdi af 2 ? Er 8.8?
3
For at afgre dette sprgsml, kunne vi udfre eksperimentet med yderligere et stort antal serier.
Efter hver serie kunne vi beregne2 . Det letteste ville vre at stte en computer til at simulere
forsget et meget stort antal gange - mske 10.000 - og dermed skaffe os 10.000 vrdier af 2.
Opskrevet kunne de vrdier vre: 3.4, 1.0, 1.6, 8.8, 2.7, 6.6, 9.3, 2.9, 11.8, osv.
For at danne os et overblik over dem, kunne vi inddele observationerne i intervallerne:
0-1, 1-2, 2-3, 3-4, osv.
Dernst kunne vi udregne frekvenserne for hvert interval og tegne et histogram over dem. Det ville
give et histogram af dette udseende:
Hver sjle er afbildet med en hjde svarende til frekvensen af det pgldende interval. Da alle
sjlerne er rektangler og har en bredde p 1, s er arealet af en sjle (lngde gange bredde) lig med
frekvensen for intervallet. Dermed bliver det samlede areal af sjlerne lig med 1.
Hvis vi nu gjorde intervallerne smallere og smallere i forhold til startbredden 1, og hele tiden
srgede for, at arealet af sjlen over et interval svarede til frekvensen af intervallet, kunne vi tegne
en graf igennem toppen af de smalle sjler. Arealet under denne graf ville vre (nsten) det
sammen som arealet af sjlerne, alts 1. Med andre ord, hvis vi kalder grafens tilhrende funktion
Sprgsmlet er nu, hvilken regneforskrift ovenstende funktion har. Det frer langt ud over, hvad vi
kan redegre for her, men f5 er givet ved:
x
f 5 ( x) 0.132981 x1.5 e 2
4
Ordet tthed kommer af, at der, hvor grafen nr hjest op, ligger der flest observationer af 2-
strrelsen, fordi hjest op svarer til hjeste sjle i histogrammet.
Arealet af sjlerne i det frste histogram kan alts findes ved at udregne integraler. Arealet af den
frste sjle findes derfor ved at integrere f5 fra 0 til 1.
(8) Find dette integral, og kontroller, at tallet ser ud til at passe med arealet (hjden) af den
tilhrende sjle. (Det skal give ca 0,0374.)
Lad os igen forbinde disse udregninger af integraler med det oprindelige eksperiment: Tallet 0,0374
= 3,74% er alts chancen for, at vores 2 -strrelse lander imellem 0 og 1, nr vi laver
eksperimentet med de 60 terningkast
Lg mrke til, at over 15 m vre et ekstremt resultat, da det kun sker i ca 1% af tilfldene. S
hvis vi fr en 2 p over 15, s er der grund til at tvivle p vores terning. Men I kan ogs se ud af de
beregninger, I lige lavede, at blandt de frste fire serier i forsget med 60 terningkast var ikke
engang 2 = 8.8 kritisk!
Hvis vi vil udfre en test af vores terning, s skal vi afgre hvor store de 5% strste 2-strrelser er.
Rammer vores 2-strrelse i dette omrde, s forkaster vi hypotesen om, at terningen en fair. Det
kaldes at laven en test p signifikansniveau 95%.
(10) Brug CAS til at afgre, hvor stor 2 skal vre, fr vi forkaster hypotesen p
signifikansniveau 95%. (Vink: integrr fra 0 til et tal, hvor resultatet giver 0,95. Prv dig frem).
Frihedsgrader
Tallet 5 i f5 kommer af, at vores tabel med observerede resultater har 6 felter (6 indgange)! Vi ved
jo, at vi udfrer 60 terningkast, s nr vi kender resultaterne for 5 af de 6 jental, s giver det sjette
sig selv, da summen jo skal give 60. Vi har med andre ord kun frihed til at vlge de 5 tal. Typisk
har en 2-test, som er baseret p en tabel med n indgange, derfor n-1 frihedsgrader. Man siger, at
den test, vi tilrettelagde ovenfor, er en 2-test med 5 frihedsgrader.
n2 x
1
f n ( x) n
x 2
e 2 , x 0, n N , hvor funktionen (z ) er givet ved:
n
2 ( )
2
2
( z ) x z 1 e x dx ,zR
0
5
Andre 2-funktioner end f5
(11) P side 4 nederst er vist tthedsfunktionen for 2-fordelingen med 5 frihedsgrader. Brug
formlen i boksen ovenfor til at kontrollere, at formlen p side 4 er korrekt. (Vink: udregn frst
5
( ) )
2
(12) Lav en regneforskrift for f11 , idet du skriver den p samme form, som f5 (se f5 p side 4) .
(Vi skal bruge denne regneforskrift i opgave 1 og 2).
Vi vil nu, som en lille parentes, kikke p, hvad funktionen (k ) egentlig udregner. Det kan man
faktisk forklare ved hjlp af kombinatorik:
n! betyder n (n 1) (n 2) ...... 2 1, nr n er et naturligt tal.
For eksempel er 5! = 5 4 3 2 1 120 .
En tolkning af 5! er fx, at det er antal mder, som 5 personer kan opstilles p en rkke. Der findes
alts 120 forskellige mder at opstille 5 personer p en rkke.
Der glder, at (n) = (n-1)! , nr n er et naturligt tal.
(13) Udregn (5) med formlen fra s.5 og udregn 4! som ovenfor. Vis derved, at (5) = 4!
OPGAVE 1
I lbet af 1960erne blev Amerika dybere og dybere involveret i krigen i Vietnam. Behovet for
soldater blev efterhnden strre, end den professionelle amerikanske hr kunne imdekomme, og
man begyndte at indkalde vrenpligtige, sledes som den amerikanske forfatning bner mulighed
for. I 1969 udsendte davrende prsiden Nixon en ordre om, at udvlgelsen af vrnepligtige
skulle foreg ved hjlp af tilfldig udtagelse af fdselsdatoer blandt den rgang af unge mnd,
som stod for. Vrnepligts-lotteriet for 1970 blev afholdt 1. december 1969.
Dette lotteri blev selvflgelig i bogstaveligste forstand livsvigtig for en hel rgang af unge mnd,
da en indkaldelse let kunne betyde dden.
Lotteriet foregik ved, at 366 fdselsdatoer (366 i stedet 365, da den indkaldte rgang var fdt i et
skudr, hvor februar jo har 29 dage) blev skrevet p et stykke papir. Hvert stykke papir blev anbragt
i en cylinderformet beholder, og alle cylinderne blev puttet i kasse, hvor de blev rystet flere gange.
Derefter blev de hldt over i en stor guldfiskeskl. Denne skl blev ikke rystet.
Udtagelsen gik herefter i gang. Den frste dato, som blev udtaget, var 14. september, som blev
tildelt nummeret 1. Nste dato blev 24. april, som fik nr. 2, osv. P nste side kan du se et skema,
som viser numrene for samtlige 366 fdselsdatoer. Det var besluttet, at man startede indkaldelsen
med de laveste numre frst, s hvis man var fdt p en dato, som fik et lavt nummer, var man sikker
p at blive indkaldt. Trak man derimod et hjt nummer, var man sikker p ikke at blive indkaldt.
Hvis blandingen ikke blev foretaget grundigt, kunne man forvente, at der var en ujvn fordeling af
hje og lave tal ud over ret, da datoerne blev skrevet ned i rkkeflge. Hvis udtagelsen blot blev
foretaget fra toppen af sklen, ville en drlig blanding i kassen blive afspejlet i numrenes fordeling
p datoerne.
Det forelbige sprgsml, vi nu stiller os er: Var kapslerne ordentligt blandet?
6
Resultatet er lotteriet er vist p side 8, hvor der ogs er vist et plot over fordelingen af numre for
samtlige datoer. (Her er der klumper af prikker rundt omkring, men sdan noget er faktisk i
overensstemmelse med de statistiske love).
(14) Studr plottet for at sikre dig, at du forstr det. Er du enig i, at det er umiddelbart svrt at
se noget tydeligt mnster?
For at kunne regne p disse datoer er vi ndt til at foretage en forenkling, s vi definerer nu begrebet
lavt nummer, som et nummer fra 1 til 183, og et hjt nummer som et nummer fra 184 til 366. S
har vi delt numrene i to lige store kategorier. Her er et skema, som viser fordelingen af hje og lave
numre over mnederne:
Nu er vi p hjemmebane! Her har vi nemlig 24 observerede tal, som vi kan sammenholde med de
forventede tal. Hvis en mned har 30 dage, ville vi selvflgelig forvente 15 lave og 15 hjre numre,
en mned med 31 dage skulle have 15.5 lave og 15.5 hje (selvom 15.5 ikke kan forekomme, da det
ikke er et helt tal, skal vi bruge det alligevel). Endelig skulle februar med 29 dage levere 14.5 lave
og 14.5 hje tal (den indkaldte rgang var fdt i et skudr).
(16) Den tilhrende 2-fordeling har 11 frihedsgrader. Prv at argumentere for dette (ls igen
side 5 om frihedsgrader).
(17) Udregn sandsynligheden for at n op p den strrelse af 2, som I fandt her, eller endnu
lngere op. (I skal bruge formlen for 2-fordelingen med 11 frihedsgrader, udregnet i spg. 12).
I kom forhbentlig frem til, at H skal forkastes! Det gjorde statistikere i USA ogs. Det rejste
selvflgelig stor kritik, som ogs fandt vej til medierne. Havde man snydt, eller var kapslerne blot
ikke ordentligt blandede?
7
8
OPGAVE 2
ret efter prvede man at gre det bedre. Nu njedes man ikke med at skrive 365 fdselsdatoer
(ikke skudr) og putte dem i kapsler. Man skrev ogs tallene fra 1 til 365 p sedler og puttede dem i
kapsler. De to typer kapsler blev derp anbragt i to store tromler, som begge blev roteret i et kvarter.
Nu udtog man samtidigt en kapsel med en fdselsdato og en kapsel med et nummer. Hermed fik
man tildelt et nummer til den pgldende dato. Sdan fortsatte man indtil samtlige 365 datoer var
parret med de 365 tal. Resultaterne kan du se i skemaet her under.
(19) Lav en test af samme hypotese som fr, men med 1971-tallene.
9
OPGAVE 3
Den strigske munk Gregor Mendel, som levede midt i 1800-tallet, var en af pionererne indenfor
arvelighedslren. Mendel var den frste, som opdagede, at arvelige egenskaber fra hvert af
forldrene overfres ved befrugtningen ved, at t gen (ud af to) for en bestemt egenskab overfres
til afkommet. Han opdagede ogs, at det er tilfldigt, hvilket af de to gener, som overfres. Dermed
er arvelighed underkastet tilfldigheder, og man kan derfor bruge sandsynlighedsregning til at
undersge forhold omkring arvelighed.
Mendel arbejdede bl.a. men rteplanter. Hos en bestemt art kan rterne have to forskellige farver:
gul eller grn, og rternes overflade kan vre glat eller rynket. Farven bestemmes af t par af
gener, og overfladen bestemmes af et andet par. En rteplante stter rteblge, som kun
indeholder n bestemt type rter ud af fire mulige (se tabellen nedenfor).
I et bestemt forsg kendte Mendel forldreplanternes gener. Her ville det - iflge den teori, som
Mendel opstillede vre sdan, at antallet af rteplanter, som kommer ud af at krydse de to
forldreplanter, ville fordele sig p de fire typer i forholdet 9:3:3:1 . Alts 9/16 af planterne ville
vre glatte og gule, osv.
Mendel udfrte mange sdanne forsg. Nogle af dem blev offentliggjort for at kunne understtte
hans teori. I tabellen nedenfor er gengivet resultaterne at et af hans eksperimenter, hvor de to
forldreplanter avlede 556 planter i nste generation.
Som man umiddelbart kan se, er der en flot overensstemmelse imellem de observerede og de
forventede. Det gjaldt alle de resultater, som Mendel offentliggjorde. Faktisk er overensstemmelsen
for flot. Det skal vi se nrmere p.
(23) Bestem antallet af frihedsgrader for tabellen ovenfor og bestem regneforskriften for den
tilhrende tthedsfunktion.
10
(25) Hvad vil en typisk 2 -vrdi vre for en tabel som den ovenfor? Med andre ord: find den
2-vrdi, hvor sandsynligheden er 50% for at ramme over (og dermed ogs 50% for at ramme
under. Prv jer frem).
(26) Overvej, hvorfor jeres udregninger kunne tyde p, at Mendel har snydt.1
OPGAVE 4
Hvert r bliver der efter sommereksamen p HF lavet statistik over de skriftlige karakterer p bde
C-niveau og B-niveau.
I skemaet her er vist procentfordelingen for hele landet for de syv forskellige karakterer ved den
skriftlige eksamen p B-niveau i 2009. I nederste rkke er vist procentfordelingen for de 39 elever
p Th.Langs HF- og VUC, som gik op til denne eksamen. Vi vil bruge tallene til en 2-test.
KARAKTER -3 00 02 4 7 10 12
Procentfordeling 2,2 13,9 7,3 16,0 26,4 23,0 11,3
Hele landet
Procentfordeling 0,0 2,6 2,6 17,9 35,9 28,2 12,8
Th.Langs
(27) Overvej, om det er procentfordelingen for hele landet, eller for Th.Langs, som er de
forventede tal.
(28) Bestem antallet af frihedsgrader for tabellen ovenfor og bestem regneforskriften for den
tilhrende tthedsfunktion.
(30) Kan man ud fra testresultatet alene konkludere, om Th.Langs-eleverne har klaret sig bedre
eller drligere end de har p landsplan?
1
Kilde til opgave 1, 2 og 3: Mosteller, Kruskal, m.fl.: Statistics by Example Addison-Wesley 1973
11