"
>

Boksplot

Et boksplot er et begreb, der benyttes inden for den deskriptive statistik.

I modsætning til de øvrige statistiske deskriptorer er et boksplot ikke en talværdi, der kan aflæses eller beregnes. Et boksplot er derimod en visuel præsentation af allerede bearbejdet statistisk datamateriale.

Et boksplot er rent praktisk en todelt boks med en antenne i hver sin side. En forudsætning for at kunne lave et boksplot er, at man har alle observationer skrevet i rækkefølge med den mindste observation først.

Boksen indeholder halvdelen af observationerne, og er adskilt af medianen der opdeler boksen i to dele. Boksen indeholder observationerne mellem den nedre kvartil og den øvre kvartil. Median, nedre og øvre kvartil, kaldes samlet et kvartilsæt.

Antennernes udstrækning bestemmes af den mindste (Min) og den største (Max) observation. Således giver et boksplot en meget overskuelig visuel fornemmelse af et observationssæt.

På en oversigt ser boksplottets indhold således ud:

Antennerne:

  • Minimum, den mindste værdi i observationssættet (antennen til venstre), kan aflæses direkte.
     
  • Maximum, den største værdi i observationssættet (antennen til højre), kan aflæses direkte.

Boksen:

  • Nedre kvartil, boksens venstrekant.
     
  • Median, boksens skillevæg (kan være en stiplet linje).
     
  • Øvre kvartil, boksens højrekant.

Et boksplot er særligt velegnet, når man skal sammenligne observationssæt, da den visuelle værdi af et boksplot er betydelig.

Efter denne indledende gennemgang vil et par taleksempler være med til at øge forståelsen, tankegangen og anvendelsesmulighederne af et boksplot.

Eksempel 1

Fra artiklerne Middeltal og Variationsbredde  kender vi denne ordnede talrække om udgiften ved en rejse fra Århus til København med forskellige transportformer i kroner:

{\(100, 150, 165, 200, 250, 405, 499\)}

For at lave boksplot skal Min, Max, medianen samt nedre og øvre kvartil beregnes. Min og Max aflæses:

Min = \(100\)

Max = \(499\)

Median er den midterste observation i dette observationssæt, med \(7\) observationer er det således observation nr. \(4\). Der er både \(3\) observationer før \(200\) og \(3\) observationer efter \(200\).

Median = \(200\)

Bemærk, at når der er et ulige antal observationer, deler medianen observationssættet i en øvre halvdel og en nedre halvdel. Medianen medtages således IKKE i nogen af de to halvdele, men udelades.

Når der er et lige antal observationer, er der to tal der udgør medianen. Det mindste af de to medtages i nedre halvdel, når \(Q_1\) skal bestemmes og det største af de to medtages i øvre halvdel når \(Q_3\) udregnes. Se eksempel 1 i artiklen Kvartil.

Nedre \(Q_1\) og øvre \(Q_3\) kvartil bestemmes som medianen af henholdsvis de første \(3\) observationer (nedre halvdel) og de sidste \(3\) observationer (øvre halvdel), før og efter medianen.

\(Q_1: 150\)

Da der er én observation før og efter \(150\) blandt de tre første observationer.

\(Q_3: 405\)

Da der er én observation før og efter \(405\) blandt de tre sidste observationer.

Herefter kan boksplot indtegnes.

100 200 300 400 500 100 150 200 405 499 Min Median Max Q1 Q3
Boksplot der viser de midterste 50 % af observationerne i boksen, adskilt af medianen, og min og max illustreret ved de to antenner.

Eksempel 2

På en villavej arrangeres en vejfest, hvor der skal være aktiviteter for vejens børn. For at undersøge hvilke aktiviteter laver festudvalget en opgørelse over børnenes alder. Fordelingen over de \(25\) børns alder ser således ud:

\(1, 1, 2, 3, 4, 4, 5, 5, 6, 7, 7, 7, 8, 8, 8, 9, 10, 10, 10, 11, 12, 12, 12, 15, 15\)

For at kunne tegne et boksplot skal de fem talværdier, min, max, median, nedre og øvre kvartil beregnes. Min og max kan straks aflæses:

Min = \(1\)

Max = \(15\)

Median er den midterste værdi i et ordnet observationssæt. Derfor er observation nr. \(13\) i dette observationssæt med \(25\) observationer medianen, da der er  \(12\) observationer inden og \(12\) observationer efter observation nr. \(13\):

Median = \(8\)

Den nedre kvartil, \(Q_1\) bestemmes som medianen af de \(12\) første observationer: \(1, 1, 2, 3, 4, 4, 5, 5, 6, 7, 7, 7\). Når der er et lige antal observationer er det gennemsnittet af de to midterste.

Observation \(6\) og \(7\) er tallene: \(4\) og \(5\)

\(Q_1 = \frac{4 + 5}{2} = 4,5\)

Den nedre kvartil, \(Q_3\) bestemmes som medianen af de \(12\) sidste observationer: \(8, 8, 9, 10, 10, 10, 11, 12, 12, 12, 15, 15\). Når der er et lige antal observationer, er det gennemsnittet af de to midterste.

Observation \(6\) og \(7\) er tallene: \(10\) og \(11\)

\(Q_3 = \frac{10 + 11}{2} = 10,5\)

Derefter kan boksplottet tegnes:

0 5 10 15 1 15 8 4,5 10,5 Min Q1 Median Q3 Max
Boksplot der viser aldersfordelingen med median som skillevæg i boksen og antennner der viser Min og Max.

Et boksplot kan se meget forskelligt ud. Nogle gange er boksen stor og antennerne korte, andre gange er boksen lille og antennerne lange. Medianen kan nogle gange adskille boksen ca. midt i, men ofte vil den også være placeret til den ene eller anden side i boksen. Men et boksplot er altid en god ide for at få en grafisk forståelse af datamaterialet.