"
>

Median

En median er et flertydigt matematisk begreb. Median har én betydning inden for statistik og en helt anden inden for trigonometri.

Denne artikel omhandler medianen i statistik.

Hvad er medianen?

Definitionen på en median er, at det er den midterste værdi i et ordnet observationssæt. Hvis man sætter alle observationer op på en række, er medianen netop den værdi i midten.

En median har én betydning for ugrupperede observationer og en anden relateret betydning for grupperede observationer. Denne artikel behandler først en median i forbindelse med ugrupperede observationer. Nederst forklares det, hvordan en median skal bestemmes for grupperede observationer.

Medianen benævnes også \(2.\) kvartil.

Median forveksles af og til med middeltal (middelværdi). Median og middeltal benyttes begge til at sige noget om middeltendensen i et datasæt, men det er vigtigt at kende forskel på de to statistiske deskriptorer.

Husk sorteringen

Når man skal finde medianen, skal man huske, at forudsætningen ofte er, at observationssættet er ordnet/sorteret. Talrækken skal opstilles fra den mindste til den største observation.

Har man eksempelvis et datasæt med de \(5\) observationer \(6, 1, 16, 21, 12\), skal observationerne først ordnes, for at have et overblik over tallenes rækkefølge, og dermed kunne finde den midterste observation, medianen.

Det ser således ud: \(1, 6, 12, 16, 21\)

Median = \(12\).

Median af observationssæt med ulige antal observationer

I et (ordnet) observationssæt med \(5\) observationer \(34, 36, 49, 51, 54\), er \(49\) derfor ligeledes medianen. Der er nemlig to tal der er mindre end \(49\) og to tal større end \(49\).

Det kan måske hjælpe nogen at forestille sig, at man skærer værdierne af fra endepunkterne og ind mod midten. Først skæres \34\) og \(54\) væk, dernæst \(36\) og \(51\). Til sidst står \(49\) alene tilbage og er derfor talsættets median.

Som den kyndige læser nok kan gætte, optræder en median altid direkte, når der er et ulige antal observationer.

Det kan faktisk opstilles på følgende median-formel, som forudsætter at man giver alle observationerne et nummer. Med tallene ovenfor er 34 således observation nr. 1, 36 er observation nr. 2 osv. Hermed kan man finde den observation, der er den midterste i rækken:

\(m = \frac{N + 1}{2}\)

\(m\) er den nummererede observation i et ordnet observationssæt som er den midterste

\(N\) er antal observationer

Har man eksempelvis et observationssæt med \(57\) observationer (\(N = 57\)).

\(m = \frac{57 + 1}{2} \Rightarrow m = \frac{58}{2} \Rightarrow m = 29\)

Observation nr. \(29\) er dermed den midterste, og når man har talt sig frem til den observation i det ordnede observationssæt, har man fundet medianen.

Median af observationssæt med lige antal observationer

Er der derimod et lige antal observationer, er medianen lidt mere vanskelig at bestemme. Da fremgår den ikke direkte ved blot at tælle sig frem i rækken som ovenfor.

Man kan ikke tale om ’det midterste tal’ af eksempelvis talrækken \(2, 4, 6, 8\). Dermed kan man heller ikke direkte udpege det tal, der er median.

Der er faktisk tre varianter, som kan benyttes afhængigt af det faktiske datasæt i disse tilfælde.

Lad os se på et simpelt eksempel for at illustrere de tre varianter af medianen for et observationssæt med et lige antal observationer.

Et ordnet observationssæt med 6 observationer: \(28, 49, 57, 59, 64, 65\) 

Som det fremgår, er de to midterste tal i observationssættet \(57\) og \(59\).

  • Man kan sige, at gennemsnittet af de midterste to tal er median, og dermed \(58\).
  • Eller man kan sige de to tal, \(57\) og \(59\), begge er talsættets medianer.
  • Endelig kan man sige, at medianen er et eller andet tal mellem \(57\) og \(59\).

Den mest benyttede måde er at angive et talsæts median som gennemsnittet af de to midterste værdier, og dermed \(58\) i eksemplet herover. Men vær opmærksom på, hvad der undersøges, og om det giver mening at tage gennemsnittet af de to midterste værdier.

I store observationssæt kan det være svært at overskue, hvilket tal der er den, eller de, midterste værdier og dermed talsættets median. Herunder illustreres det, hvordan man kan gribe det an.

Tommelfingerregel for median

Man kunne eksempelvis forestille sig, at der i et datasæt er \(78\) observationer (\(N = 78\)). Medianen finder man igen ved at nummerere observationerne fra \(1 - 78\) og benytte formlen ovenfor.

\(m = \frac{79}{2} = 39,5\)

Når der er et lige antal observationer vil resultatet aldrig være et helt tal. Men i stedet er de to midterste observationer som median beregnes på baggrund af, de to hele tal på hver sin side af m. I dette tilfælde observation nr. \(39\) og \(40\).

Det viser sig samtidig, at de to midterste observationer altid er lig med summen af de to yderste observationer tilsammen (min og max), i dette tilfælde \(1 + 78 = 79\). Som det fremgår, er \(39 + 40\) ligeledes lig med \(79\).

Median for grupperede observationer

Når man skal finde medianen for grupperede observationer, skal man kumulere frekvenser og tegne en sumkurve.

Herunder ses den årlige lønindkomst for ansatte i en virksomhed med \(38\) ansatte. De ansattes lønindkomst er inddelt i intervaller og derefter er intervalhyppigheden for hvert interval talt sammen. Intervalfrekvens beregnes ved at dividere intervalhyppigheden med \(N = 38\) og gange med \(100 \%\). Derefter kumuleres disse frekvenser som en sum af alle intervalfrekvenser under det pågældende interval.

Lønindkomst i kr.

Intervalhyppighed

Intervalfrekvens

Kumuleret intervalfrekvens

250.000 - 300.000

5

13,16 %

13,16 %

300.000 - 350.000

8

21,05 %

34,21 %

350.000 - 400.000

12

31,58 %

65,79 %

400.000 - 450.000

7

18,42 %

84,21 %

450.000 - 500.000

4

10,53 %

94,74 %

500.000 - 550.000

0

0 %

94,74 %

550.000 - 600.000

2

5,26 %

100,00 %

Sum:

N = 38

100 %

I dette eksempel benyttes samme observationssæt som i artiklen Kvartil.

Median kaldes også for \(2\). kvartil eller \(0,50\)-kvartilen. Det fremgår af tabellen ovenfor, at medianen er et sted i intervallet \(350.000 - 400.000\) kr. pr. år, da det er i det interval, at den kumulerede frekvens overstiger \(50 \%\).

Men man kan ikke komme svaret nærmere, medmindre man tegner en sumkurve.

Man kan eksempelvis tegne en sumkurve i Excel. Man skal benytte intervalendepunkterne på x-aksen og de kumulerede frekvenser i procent på y-aksen som på figuren herunder.

Når man tegner en sumkurve, antages det at observationerne fordeler sig omkring midtpunktet i intervallet.

Derudover er det afgørende at lave et punkt, hvor hyppigheden er \(0\) og deraf ligeledes den kumulerede frekvens er lig med \(0 \%\). Det gøres for at kunne tegne det punkt der skærer x-aksen, ellers ’hænger sumkurven og svæver’ Man kunne eksempelvis lave et interval fra \(200.000 - 250.000\) kr. hvor hyppigheden er \(0\). Som det fremgår herunder er intervalendepunktet \(250.000\) kr. lig med en kumuleret frekvens på \(0 \%\).

Når man har indtegnes en sumkurve over de grupperede observationer, kan medianen nemt aflæses. Det er nemlig der hvor sumkurven er lig med \(50 \%\) på den kumulerede frekvens.

Her er de underordnede gitterlinjer sat til en afstand på \(20.000\) kr. og medianen, der er lig med \(50 \%\) af de grupperede observationer, kan nu aflæses.

Medianen = \(376.000\) kr.

Man kan også sige at medianindkomsten er \(376.000\) kr.