Grupperede observationer

Inden for deskriptiv statistik er der mange begreber at holde styr på. Et af de vigtigste at holde styr på er distinktionen mellem almindelige observationer - ugrupperede observationer og grupperede observationer.

I denne artikel vil vi tydeliggøre hvad der menes med grupperede observationer.

Det har stor betydning for deskriptiv statistik om der er tale om den ene eller anden type. De grupperede observationer betyder ganske enkelt, at observationerne er sorterede og inddelt i intervaller.

Det er en fordel at gruppere nogle typer data i (passende) intervaller for at skabe overskuelighed. De enkelte observationer giver måske ikke noget klart billede, hvis grupperingen ikke foretages. Omvendt går der noget information tabt ved grupperede observationer, men dette tab retfærdiggøres af den øgede overskuelighed. En gruppering er ofte nødvendig med store observationssæt.

Til grupperede observationer knytter der sig derudover en række begreber, som vil blive skitseret sidst i artiklen.

Lad os først se på et par eksempler.

Eksempel 1

Lad os antage at vi skal beskrive, hvor meget folk tjener årligt i en bestemt kommune. Skulle man skrive alle indbyggernes indtjening ned, ville det fylde rigtig meget og dermed fjerne overskueligheden. Derfor kan man med fordel bruge intervaller, så man kan opdele tallene og nemmere beskrive hvad observationssættet viser.

Fordelingen af indkomsten i den pågældende kommune kunne eksempelvis se ud på følgende måde:

0 - 100.000 kr.:                   43.715 mennesker

100.000 - 200.000 kr.:       61.853 mennesker

200.000 - 300.000 kr.:       143.213 mennesker

300.000  kr. +:                    91.667 mennesker

Det er altså et observationssæt bestående af mange individuelle observationer, i alt:

43.715 + 61.853 + 143.213 + 91.667 = 340.448 observationer.

Disse 340.448 observationer er inddelt i fire forskellige intervaller eller grupperinger. Man kunne have valgt andre grupperinger, eksempelvis et spænd på 50.000 kr. i årlig indkomst i stedet for 100.000 kr. som her.

Men den afgørende pointe med så mange observationer er, at det er nødvendigt med en eller anden form for gruppering af data.

Den overskuelighed man opnår ved de grupperede observationerne er større end den information, der går tabt. Man kunne ikke bruge dette observationssæt til noget uden en gruppering.

Eksempel 2

I en virksomhed er der inklusiv ejeren 20 fuldtidsansatte. Deres årlige lønindkomst ser således ud, opstillet i en form for hyppighedstabel:

200.000 - 300.000 kr.:             5 personer

300.000 - 400.000 kr.:             8 personer

400.000 - 500.000 kr.:             4 personer

500.000 kr. +:                            3 personer

Allerede med 20 (eller mindre) observationer kan det være en fordel at lave grupperede observationer, for at øge overskueligheden. I nogle tilfælde er det et humør-spørgsmål, hvorvidt der skal foretages en gruppering af data. I dette tilfælde kunne man også arbejde med observationerne som ugrupperede.

Som beskrevet øverst er der nogle begreber, der knytter sig til arbejdet med grupperede observationer. De knytter sig i mange tilfælde til et tilsvarende begreb for ugrupperede observationer. De vil kort blive skitseret herunder.

Observationsintervaller

Observationsintervaller er et udtryk for den sortering, der har fundet sted for de grupperede observationer. I begge eksempler ovenfor er observationerne inddelt i 4 observationsintervaller, men det er blot et tilfælde.

Intervalmidtpunkt

Intervalmidtpunkt er som navnet siger et midtpunkt i intervallet og benævnes x_{midt}. Man fastsætter dette som den midterste værdi i intervallet, da observationerne antages at ligge jævnt fordelt i intervallet.

I eksempel 2 ville intervalmidtpunkterne derfor være følgende for de første tre observationsintervaller:

For intervallet 200.000 - 300.000 kr.:            x_{midt} = 250.000 kr.

For intervallet 300.000 - 400.000 kr.:            x_{midt} = 350.000 kr.

For intervallet 400.000 - 500.000 kr.:            x_{midt} = 450.000 kr.

For intervallet 500.000 + er det svært at fastsætte et intervalmidtpunkt, da det specifikke interval ikke fremgår. I dette tilfælde antager vi at den højeste årlige lønindkomst er direktørens løn på 800.000 kr. Derfor kan intervalmidtpunkt for dette interval fastsættes til

For intervallet 500.000 kr. +:                                  x_{midt} = 650.000 kr.

Intervalmidtpunkt er vigtigt, idet x_{midt} indgår i de formler der benyttes for at kunne udregne de statistiske deskriptorer middeltalvarians og standardafvigelse (spredning) for grupperede observationer.

Intervalhyppighed

Intervalhyppighed knytter sig til grupperede observationer og betyder det samme som hyppighed gør for ugrupperede observationer. Intervalhyppighed er altså det antal gange som hvert enkelt interval forekommer i et observationssæt. Måden man skriver det på er h(I). Se eksempel 3 nedenfor.

Intervalfrekvens

Intervalfrekvens er også knyttet til grupperede observationer og svarer til frekvens for ugrupperede observationer. Hvor intervalhyppighed ovenfor er et tælleligt antal af observationer, er intervalfrekvens beregnet i forhold til det samlede antal observationer (N) i et observationssæt.

Intervalfrekvens angives enten som et decimaltal eller som en procentdel, hvor decimaltallet er ganget med 100%. Symbolet for intervalfrekvens er f(I).

Typeinterval

Typeinterval knytter sig på samme måde til grupperede observationer og betyder det samme som typetal gør for ugrupperede observationer. Typeinterval er det interval, der er det mest ’typiske’ for et observationssæt, altså det interval der indeholder flest enkelte observationer. Typeintervallet kan aflæses både på baggrund af intervalhyppighed og intervalfrekvens.

Eksempel 3

Fra artiklen Ugrupperede observationer har vi følgende datasæt, der viser karaktergennemsnit for to fag, matematik og fysik for 29 elever (N = 29).

{1,0; 2,0; 2,0; 2,0; 3,0; 3,5; 4,0; 4,5; 4;5; 5,5; 5,5; 6,0; 7,0; 7,0; 7,0;

7,0; 7,0; 8,0; 8,5; 8,5; 8,5; 9,5; 10,0; 10,0; 11,0; 11,0; 11,0; 12,0; 12,0}

Dette datasæt kan være svært at overskue og derfor kan det være en idé at omdanne det til grupperede observationer. Foruden optælling af intervalhyppigheden beregnes intervalfrekvensen.

Dette kunne eksempelvis se således ud:

Karaktergennemsnit

Intervalhyppighed, h(I)

Intervalfrekvens, f(I)
1 - 3,99 6 20 ,69 %
4 - 6,99 6 20,69 %
7 - 9,99 10 34,48 %
10 - 12 7 24,14 %
Sum N = 29 100 %

Typeintervallet er det interval, der er det mest ’typiske’, og i dette tilfælde derfor = 7 - 9,99.

Denne inddeling i grupperede observationer skaber et meget bedre overblik. Men ulempen er at information går tabt, hvis man kun kan se denne tabel over karaktergennemsnittet. Det fremgår eksempelvis ikke om der er nogen elever, der har et gennemsnit på 12. Måske har alle 7 i det interval et snit på 10 eller 11.