"
>

Histogram

Histogrammer er endnu en grafisk måde at illustrere et observationssæt på. Et histogram benyttes især inden for deskriptiv statistik. Et histogram er ikke en af de såkaldte statistiske deskriptorer, men er en god måde at opstille statistisk materiale på en nem og overskuelig måde.

Histogrammerne benyttes til at illustrere observationssæt med grupperede observationer, hvor observationerne er inddelt i intervaller eller grupper.

Et histogram er nyttigt både for data som er kontinuer, og for data som er diskret. Det vil sige henholdsvis, data som kan antage uendelig mange værdier og som man deler op i intervaller, og data som kun kan antage nogle bestemte værdier. For et kontinuert datasæt vil hver søjle repræsentere et interval af værdier, og for diskrete data vil hver søjle typisk repræsentere én værdi eller en gruppe af værdier.

Histogrammer minder på mange måder om et søjlediagram eller et pindediagram. I et søjlediagram er det højden på søjlerne der er i fokus, fordi det er denne der bestemmer det antal procent en værdi har. I et histogram er det derimod arealet under søjlerne der er det vigtigste. Det er nemlig arealet som bestemmer antal procent.

Hvis man antager at bredden af søjlen i histogrammet er 1, vil arealet automatisk være lig højden, så hver gang søjlen bliver 1 højere betyder det 1% mere.

Karakteristisk for et histogram i forhold til et søjlediagram er, at søjlerne er placeret uden mellemrum mellem søjlerne.

Hver søjle repræsenterer altså en værdi eller et interval af værdier som en observation kan give, og arealet af søjlen fortæller hyppigheden eller frekvensen af denne værdi eller dette interval.

Et histogram kan have så mange eller få søjler som man vil have, og man angiver selv intervallerne. Man vil også i nogle tilfælde se histogrammer hvor flere statistiske observationer er samlet. Dette gør man normalvis ved at have søjler i forskellige farver repræsentere de forskellige observationer, og stille dem ved siden af hinanden i histogrammet.

Et histogram kunne eksempelvis se således ud:

Histogram

Dette histogram er lavet på baggrund af det samme datasæt som i artiklerne om fraktiler, kvartiler og median. Nemlig lønindkomsten for de ansatte i en virksomhed med 38 ansatte. Hver søjle fortæller os hvor stor en procentdel af de ansatte får en løn i det interval, der står under søjlen.

Et histogram benyttes til at vurdere visuelt hvordan tallene i (ofte) store observationssæt fordeler sig. Det kan være en fordel at lave to ekstra intervaller, hvor frekvensen er lig med 0. Et i hver sin ende af de eksisterende intervaller. Så er det tydeligt, at det er et afgrænset datamateriale der vises i histogrammet.

For at man kan få mest information ud af et histogram er der nogle ting man skal stræbe for at opnå. Når man grupperer datasættet i intervaller skal alle intervaller være lige store. Hvis man laver nogle interval større vil disse give et uklart billede, da forholdet mellem søjlerne ikke vil være det samme.

Man skal også sørge for at have nok intervaller i sit histogram. Hvis man har for få intervaller kan statistisk interessante mindre grupperinger forsvinde i de større grupper.

Det er selvfølgelig også vigtigt at have nok målinger. Ellers kan tilfældige afvigelser komme til at dominere resultaterne som histogrammet viser.

Histogram i Excel

Det kan ofte være en fordel at lave et histogram i Excel. Herunder finder du en trin for trin vejledning til at lave et histogram i Excel.

Måden man laver et histogram i Excel er den samme som når man laver et søjlediagram. Derefter skal man foretage en ændring af mellemrum mellem søjlerne, så diagrammet bliver til et histogram.

Man skal selvfølgelig huske at data for et histogram skal være regnet som procent. Hvis man for eksempel bare har data som antal for hver værdi, ville man skulle tage summen af alle antal, og for hver værdi dividere antal med det samlede antal og gange med 100% for at få det i procent.

  • Marker de to kolonner i regnearket som du skal lave et histogram over.
     
  • Find ikonet 'Søjlediagram' som findes i menuen 'indsæt' og tryk på det.
     
  • Der fremkommer nu et søjlediagram.
     
  • Højreklik på søjlediagrammet og tryk på 'vælg data'.
     
  • Ofte skal man skifte rækker og kolonner. Det gøres nemt ved at tilføje, fjerne og redigere i det vindue der fremkommer.
     
  • Når man har de rigtige værdier på akserne, skal man lave søjlediagrammet om til et histogram.
     
  • Højreklik på en af søjlerne og vælg 'formater dataserie'.
     
  • Man kommer nu ind i menuen 'serieindstillinger' og kan under 'mellemrumsbredde', justere den ned på 0% (intet mellemrum).
     
  • Der fremkommer nu et histogram når du trykker 'luk' i denne menu.
     
  • I menuen 'kantfarve' samme sted kan man endvidere markere 'streg' for dermed at kunne se histogrammet med streger, hvor intervallerne skifter.
     
  • Derefter skulle det gerne se ud som på billedet ovenfor.

Eksempel

I dette eksempel vil vi se på den aldersmæssige fordeling i en virksomhed.

Vi har et datasæt med 38 ansatte (N = 38) og deres respektive alder. Da man har 38 personer med vidt forskellige aldre, bliver man nødt til at gruppere dem i intervaller, da de ellers ville være for spredt. Vi grupperer i 5 års-intervaller, hvilken giver 9 grupper og dermed et godt overblik over aldersfordelingen.

For at man kan lave et histogram, skal man omregne antallet af ansatte i hver aldersgruppe til frekvens i procent. Det gør man ved at dividere med det samlede antal ansatte og gange med 100 %.

Aldersinterval, i år Hyppighed Frekvens
15-20 0 0 %
20-25 5 13,16 %
25-30 12 31,58 %
30-35 14 36,84 %
35-40 4 10,53 %
40-45 2 5,26 %
45-50 1 2,63 %
50-55 0 0 %
55-60 0 0 %
I alt: N = 38 100,00 %

Vi har nu vores aldersintervaller og frekvens skrevet op i et regneark (eksempelvis Excel), og kan lave et histogram ud fra disse data.

Histogram, eksempel

Her ser man virksomhedens aldersfordelingen i et histogram. Histogrammet er effektivt, da det med det samme giver læseren den centrale information. Man kan for eksempel hurtigt se, at virksomheden hovedsageligt består af unge mennesker. Det fremgår også, at der ikke er nogen helt unge mennesker og ingen over 50 år.