Kvartil

Et kvartil er et begreb der benyttes indenfor deskriptiv statistik. Især i forbindelse med boksplot er kvartiler særdeles anvendelige. Det statistiske begreb kvartil betyder at dele op i kvarte. Kvartilerne er i praktisk forstand grænserne mellem de 4 kvarte.

Kvartiler er de observationer i et ordnet datasat, der deler det op i fire lige store ’bidder’. Der er således 3 kvartiler, som samlet udgør kvartilsættet.

Kvartilsæt

  • Nedre kvartil, også kaldet 1. kvartil eller 0,25-percentilen: Den observation hvor alle observationer mindre end den mindst udgør en fjerdedel 25 % af observationerne.
     
  • Median, også kaldet 2. kvartil eller 0,50-percentilen: Den observation hvor alle observationer mindre end den mindst udgør halvdelen 50 % af observationerne.
     
  • Øvre kvartil, også kaldet tredje kvartil eller 0,75-percentilen: Den observation hvor alle observationer mindre end den mindst udgør tre fjerdedel 75 % af observationerne.

Nedre og øvre kvartil er især interessante i sammenhæng, da disse to kvartiler beskriver hvilke grænser de midterste 50 % af observationerne ligger inden for. Således indfanger nedre og øvre kvartil det spænd mellem 25 - 75 % der er midt i observationssættet.

En kvartil eller et kvartilsæt kan benyttes både for ugrupperede observationer og grupperede observationer.

For ugrupperede observationssæt kan nedre og øvre kvartil enten aflæses eller udregnes simpelt, som i eksempel 1 herunder.

For grupperede observationssæt kan man med fordel tegne en sumkurve for at finde nedre kvartil og øvre kvartil. Se eksempel 2.

Eksempel 1

Et observationssæt ser ud på følgende måde og illustrerer det samlede antal mål pr. kamp i den tyske Bundesliga.

Se artiklerne Frekvens og Typetal.

0 mål = 21 kampe

1 mål = 30 kampe

2 mål = 56 kampe

3 mål = 87 kampe

4 mål = 45 kampe

5 mål = 39 kampe

6 mål = 17 kampe

7 mål = 8 kampe

8 mål = 2 kampe

9 mål = 1 kamp

I dette observationssæt skal kvartilsættet beregnes for at muliggøre en grafisk illustration i et boksplot.

Der er i alt 306 observationer (N = 306), så det giver ikke mening at opstille alle tallene i rækkefølge. Man skal i stedet forestille sig at tallene er opskrevet i rækkefølge med de 21 0’er først og derefter de 30 1’ere og så videre.

For at kunne lave boksplot skal man igen finde, min, max, median, nedre og øvre kvartil. Min og max kan straks aflæses:

Min = 0

Max = 9

Derefter skal medianen, den midterste værdi, findes. Da der er et lige antal observationer, er det gennemsnittet mellem de to midterste observationer:

Den midterste observation: 

\frac{n + 1}{2} = \frac{306 + 1}{2} = 153,5

Dermed er observation 153 og 154 de to midterste i dette observationssæt (se kumuleret hyppighed i artiklen Hyppighed).

For målene 0 - 2 pr. kamp er der i alt 21 + 30 + 56 = 107 observationer.

For målene 0 - 3 pr. kamp er der i alt 21 + 30 + 56 + 87 = 194 observationer.

Dermed fremgår det at både observation 153 og 154 er 3 mål pr. kamp.

Derfor er medianen = 3

Nedre kvartil -  Q_1

Nedre kvartil, Q_1, findes igen som den midterste af de observationer, der ligger til venstre for medianen (nedre halvdel).

De første 153 observationer fordeler sig således:

0 mål = 21 kampe

1 mål = 30 kampe

2 mål = 56 kampe

3 mål = 46 kampe

I alt = 153 kampe

Midterste observation:

\frac{n + 1}{2} = \frac{153 + 1}{2} = 77

Dermed er observation 77 den midterste.

For målene 0 - 1 pr. kamp er der i alt 21 + 30 = 51 observationer.

For målene 0 - 2 pr. kamp er der i alt 21 + 30 + 56 = 107 observationer.

Det fremgår, at observation 77 er 2 mål, og derfor er Q_1 = 2

Øvre kvartil  -Q_3

Øvre kvartil, Q_3, findes på tilsvarende vis som den midterste af de observationer, der ligger til højre for medianen (øvre halvdel).

De sidste 153 observationer fordeler sig således:

3 mål = 41 kampe 87 i alt minus 46 i Q_1

4 mål = 45 kampe

5 mål = 39 kampe

6 mål = 17 kampe

7 mål = 8 kampe

8 mål = 2 kampe

9 mål = 1 kampe

I alt = 153 kampe

Den midterste observation af de 153 observationer til højre for medianer er observation nr. 77.

For 3 mål pr. kamp er der 41 observationer.

For målene 3 - 4 pr. kamp er der i alt 41 + 45 = 86 observationer.

Observation nr. 77 er 4 mål og derfor er Q_3 = 4

Dette observationssæt kan indtegnes i et boksplot:

1 3 5 7 9 Min Median Max Q1 Q3 2 3 0 4 9
Boksplot over mål pr. kamp i Bundesligaen 

Eksempel 2

Når man skal finde kvartiler for grupperede observationer, skal man tegne en sumkurve. En sumkurve er en kurve, der forbinder de kumulerede frekvenser. Som beskrevet er kumuleret frekvens den summerede eller opsamlede frekvens og deraf navnet sumkurve.

Det er vigtigt at påpege at en sumkurve kun tegnes, når man har grupperede observationer. Er det i stedet ugrupperede observationer, er det tilsvarende redskab et såkaldt trappediagram.

Dette observationssæt viser fordelingen af lønindkomsten for fuldtidsansatte i en virksomhed med 38 ansatte.

250.000 - 300.000 kr.:             5 personer

300.000 - 350.000 kr.:             8 personer

350.000 - 400.000 kr.:             12 personer

400.000 - 450.000 kr.:             7 personer

450.000 - 500.000 kr.:             4 personer

500.000 - 550.000 kr.:             0 personer

550.000 - 600.000 kr.:             2 personer

Når man tegner en sumkurve i Excel skal man indsætte interval-start, interval-endepunkt, hyppighed, frekvens og den kumulerede frekvens i hver sin kolonne. Det er i sidste ende interval-endepunkterne og den kumulerede frekvens der danner sumkurven.

Når man skal tegne en sumkurve i Excel er det vigtigt at have et punkt inden de reelle data, hvor den kumulerede frekvens er 0%, ellers kan sumkurven ikke tegnes. Derfor skal man lave et interval uden nogen observationer, der er mindre end det mindste interval. I dette tilfælde laves et interval under 250.000 kr., hvor hyppigheden er 0.

I Excel ser de data, man skal benytte, således ud:

Herefter kan sumkurven tegnes ved hjælp af interval-endepunkterne og de kumulerede frekvenser. Det kan være en god ide at lave underordnede gitterlinjer og formatere y-aksen, så den viser kvartiler og median.

Formålet med at tegne en sumkurve for grupperede observationer er at kunne bestemme kvartilsættet. Nærmere bestemt nedre kvartil 25%, median 50% og øvre kvartil 75%. Når man har formateret y-aksen til at vise netop disse kvartiler, skal de herefter aflæses. De underordnede gitterlinjer adskiller med 20.000 kr.

Det kan aldrig blive helt præcist, når man opererer med store tal som i eksemplet her, men et godt estimat er det muligt at bestemme ud fra sumkurven. Ved aflæsning er kvartilsættet følgende:

Q_1:                  328.000 kr.

Median:            376.000 kr.

Q_3:                  425.000 kr.

Se endvidere artiklen Fraktil, der omhandler hvordan man finder eksempelvis 0,10-fraktilen, der er en anden måde at opdele grupperede observationer.