Boksplot

Et boksplot er et begreb, der benyttes inden for den deskriptive statistik.

I modsætning til de øvrige statistiske deskriptorer er et boksplot ikke en talværdi, der kan aflæses eller beregnes. Et boksplot er derimod en visuel præsentation af allerede bearbejdet statistisk datamateriale.

Et boksplot er rent praktisk en todelt boks med en antenne i hver sin side. En forudsætning for at kunne lave et boksplot er, at man har alle observationer skrevet i rækkefølge med den mindste observation først.

Boksen indeholder halvdelen af observationerne, og er adskilt af medianen der opdeler boksen i to dele. Boksen indeholder observationerne mellem den nedre kvartil og den øvre kvartil. Median, nedre og øvre kvartil, kaldes samlet et kvartilsæt.

Antennernes udstrækning bestemmes af den mindste (Min) og den største (Max) observation. Således giver et boksplot en meget overskuelig visuel fornemmelse af et observationssæt.

På en oversigt ser boksplottets indhold således ud:

Antennerne:

  • Minimum, den mindste værdi i observationssættet (antennen til venstre), kan aflæses direkte.
     
  • Maximum, den største værdi i observationssættet (antennen til højre), kan aflæses direkte.

Boksen:

  • Nedre kvartil, boksens venstrekant.
     
  • Median, boksens skillevæg (kan være en stiplet linje).
     
  • Øvre kvartil, boksens højrekant.

Et boksplot er særligt velegnet, når man skal sammenligne observationssæt, da den visuelle værdi af et boksplot er betydelig.

Efter denne indledende gennemgang vil et par taleksempler være med til at øge forståelsen, tankegangen og anvendelsesmulighederne af et boksplot.

Eksempel 1

Fra artiklerne Middeltal og Variationsbredde  kender vi denne ordnede talrække om udgiften ved en rejse fra Århus til København med forskellige transportformer i kroner:

{100, 150, 165, 200, 250, 405, 499}

For at lave boksplot skal Min, Max, medianen samt nedre og øvre kvartil beregnes. Min og Max aflæses:

Min = 100

Max = 499

Median er den midterste observation i dette observationssæt, med 7 observationer er det således observation nr. 4. Der er både 3 observationer før 200 og 3 observationer efter 200.

Median = 200

Bemærk, at når der er et ulige antal observationer, deler medianen observationssættet i en øvre halvdel og en nedre halvdel. Medianen medtages således IKKE i nogen af de to halvdele, men udelades.

Når der er et lige antal observationer, er der to tal der udgør medianen. Det mindste af de to medtages i nedre halvdel, når Q1 skal bestemmes og det største af de to medtages i øvre halvdel når Q3 udregnes. Se eksempel 1 i artiklen Kvartil.

Nedre Q1 og øvre Q3 kvartil bestemmes som medianen af henholdsvis de første 3 observationer (nedre halvdel) og de sidste 3 observationer (øvre halvdel), før og efter medianen.

Q1: 150

Da der er én observation før og efter 150 blandt de tre første observationer.

Q3: 405

Da der er én observation før og efter 405 blandt de tre sidste observationer.

Herefter kan boksplot indtegnes.

100 200 300 400 500 100 150 200 405 499 Min Median Max Q1 Q3
Boksplot der viser de midterste 50 % af observationerne i boksen, adskilt af medianen, og min og max illustreret ved de to antenner.

Eksempel 2

På en villavej arrangeres en vejfest, hvor der skal være aktiviteter for vejens børn. For at undersøge hvilke aktiviteter laver festudvalget en opgørelse over børnenes alder. Fordelingen over de 25 børns alder ser således ud:

1, 1, 2, 3, 4, 4, 5, 5, 6, 7, 7, 7, 8, 8, 8, 9, 10, 10, 10, 11, 12, 12, 12, 15, 15

For at kunne tegne et boksplot skal de fem talværdier, min, max, median, nedre og øvre kvartil beregnes. Min og max kan straks aflæses:

Min = 1

Max = 15

Median er den midterste værdi i et ordnet observationssæt. Derfor er observation nr. 13 i dette observationssæt med 25 observationer medianen, da der er 12 observationer inden og 12 observationer efter observation nr. 13:

Median = 8

Den nedre kvartil, Q1 bestemmes som medianen af de 12 første observationer: 1, 1, 2, 3, 4, 4, 5, 5, 6, 7, 7, 7. Når der er et lige antal observationer er det gennemsnittet af de to midterste.

Observation 6 og 7 er tallene: 4 og 5

Q1 = \frac{4 + 5}{2} = 4,5

Den nedre kvartil, Q3 bestemmes som medianen af de 12 sidste observationer: 8, 8, 9, 10, 10, 10, 11, 12, 12, 12, 15, 15. Når der er et lige antal observationer, er det gennemsnittet af de to midterste.

Observation 6 og 7 er tallene: 10 og 11

Q3 = \frac{10 + 11}{2} = 10,5

Derefter kan boksplottet tegnes:

0 5 10 15 1 15 8 4,5 10,5 Min Q1 Median Q3 Max
Boksplot der viser aldersfordelingen med median som skillevæg i boksen og antennner der viser Min og Max.

Et boksplot kan se meget forskelligt ud. Nogle gange er boksen stor og antennerne korte, andre gange er boksen lille og antennerne lange. Medianen kan nogle gange adskille boksen ca. midt i, men ofte vil den også være placeret til den ene eller anden side i boksen. Men et boksplot er altid en god ide for at få en grafisk forståelse af datamaterialet.