Matematik

Chi i anden, signifikans

24. maj 2013 af msr95 (Slettet) - Niveau: B-niveau

Hej!

Jeg har fået at vide, at hvis ens p-værdi er på 2 % så kan nulhypotesen forkastes på et 5 %-signifikansniveau, fordi der så er 2 % sandsynlighed for at få en teststørrelse, der er lige så stor eller større end den, man fik.

Men i mit hoved er det omvendt? Hvis der "kun" er 2 % ss. for at få en lige så stor eller større teststørrelse, så burde det da bekræfte H0-hypotesen? Det er da skidt, hvis der er mere end 5 % ss. for at få en større teststørrelse. Jo større teststørrelsen er, jo værre er det da for H0-hypotesen, ideelt set skal teststørrelsen vel være lig 0 for at bekræfte H0?

Hvad er det, jeg ikke forstår? :(

(Er der i øvrigt nogen der kan forklare, hvorfor 5 % = 3,84 og hvilken betydning det har?)

Brugbart svar (0)

Svar #1
24. maj 2013 af Vesteur (Slettet)

Hej,

Du skal se på det omvendt:
(i) Du antager at nulhypotesen H0 er sand.
(ii) Du udregner hvad sandsynligheden for at måle en teststørrelse, der er ligeså stor eller større end den du har målt, givet at H0 er sand---dette er p-værdien.
(iii) Med et 5%-signifikansniveau mener du at det er for usandsynligt at måle en p-værdi der er mindre en dette hvis H0 er sand. Hvis du måler en p-værdi mindre end 5% forkaster du så din antagede nulhypotese. Bemærk at du ved et 5%-signifikansniveau må forvente fejlagtigt at forskaste en sand nulhypotese 1 ud af 20 gange.

Mvh Christian

Brugbart svar (0)

Svar #2
24. maj 2013 af Singlefyren (Slettet)

nulhypotesen kan både være:

1. Data er ens

2. Data er ikke ens

Så det afhænger af hvilken du har valgt som nlhypotese.

Jo mindre P er, jo mindre ensartet er data.

Brugbart svar (0)

Svar #3
24. maj 2013 af Vesteur (Slettet)

# 2:
Det du skriver er ikke korrekt. En nulhypotese er en specifik teori (antagelse) om data, som f.eks. at de er normalfordelte med en given middelværdi og varians eller at to datasæt har samme middelværdi.
Denne kan ikke verificeres, kun afkræftes (ved et bestemt signifikansniveau). Hvis du får en p-værdi som er højere end det valgte signifikansniveau, eks. 5%, kan du ikke afkræfte din nulhypotese og må altså konkludere at data stemmer overens med den.

Så:
1. "Data er ens"---dette er en upræcis formulering. To datasæt vil aldrig være ens, men de kan kan være fordelt ens (samme middelværdi, variance, etc. indenfor statistisk usikkerhed).

2. "Data er ikke ens"---dette er ikke en nulhypotese, men negationen af ovenstående nulhypotese. 2. kan verificeres ved at afkræfte 1.

Mvh Christian

Svar #4
24. maj 2013 af msr95 (Slettet)

Okay... Altså jo lavere teststørrelse, jo bedre. Og jo højere p-værdi, jo bedre?

Svar #5
24. maj 2013 af msr95 (Slettet)

Altså p-værdien viser sandsynligheden for, at man fejlagtigt får en teststørrelse, der er større end den man har fået, selvom H0 er sand? Men så synes jeg stadig, at p-værdien burde være så lille som muligt. Altså hvis p-værdien er 5 %, så er der jo 1 ud af 20 nulhypoteser der fejlagtigt kan forkastes. Og hvis p-værdien så f.eks. er 10 % så er der jo 1 ud af 10 nulhypoteser der fejlagtigt forkastes. Så jeg forstår ikke, hvorfor det er skidt at få en p-værdi på f.eks. 2 %, så er der jo færre nulhypoteser der fejlagtigt forkastes...?

Brugbart svar (0)

Svar #6
24. maj 2013 af Vesteur (Slettet)

#4 Tja... Jo mindre en teststørrelse er sammenlignet med dens forventede værdi, jo højere p-værdi. Dette svarer til mindre spredning af data omkring deres forventede værdi.

Du forventer at teststørrelsen spreder omkring sin forventede værdi (for chi-squared test af N punkters spredning med en kendt varians omkring en kendt middelværdi er den forventede værdi lig N). Dvs. at du forventer at eststørrelsen er ca. lig N, hvis H0 er sand.

p-værdien er uniformt fordelt i intervallet [0,1] hvis H0 er sand. Dvs. alle værdier for p er lige sandsynlige, mens middelværdien for p er 50%, hvis H0 er sand.

Svar #7
24. maj 2013 af msr95 (Slettet)

Jeg forstår slet ikke det der... Vi har næsten lige lært chi i anden, så det er ikke på så højt et niveau. Det eneste jeg har brug for er at kunne konkludere noget ud fra teststørrelsen og chi i anden. Jeg vil bare gerne kunne forstå, hvorfor jeg konkluderer, at en H0-hypotese forkastes på et 5 %-signifikansniveau, fordi p-værdien er 2 % ...?

Brugbart svar (0)

Svar #8
24. maj 2013 af RoberDølhus (Slettet)

#4+5

Så enkelt er det ikke helt.

For at besvare dit spørgsmål bør der laves en analyse af testens "size" og "power" egenskaber, f.eks. ved Monte-carlo simulation.

I praksis er der altid et tradeoff imellem size og power. Du kan f.eks. godt lave en test med 100% i size, men det er på bekostning af "power" og omvendt.

Dette lægger dog langt udover matematik B-niveau, som du angiveligt er på.

Brugbart svar (0)

Svar #9
24. maj 2013 af Vesteur (Slettet)

#5 Nej, du forveksler p-værdi og signifikansniveau. Signifikansniveauet er hvad der fastsætter (på forhånd) hvornår en nulhypotese forkastes eller ej.
Men ellers har du ret. Det er klart at et så lavt signifikansniveau som muligt er at foretrække. Jo lavere signifikansniveauet er, jo sikrere er du på at din konklusion om at forkaste nulhypotesen var korrekt. (For et signifikansniveau på 5% forventer du at fejlagtigt forkaste nulhypotesen i 1 ud af 20 eksperimenter, ved 1% i 1 ud af 100 eksperimenter, etc....)

Det er naturligt at spørge: hvorfor så ikke bruge et så lavt signifikansniveau som muligt?
Svaret er: der gør man også. Indenfor lægevidenskab og sociologi bruges normalt 5% fordi de kun har få og usikre data. Så hvis de overhovedet skal kunne konkludere noget som helst bliver de nødt til at bruge et højt signifikansniveau.
På CERN bruger forskerne normalt et signifikansniveau på 0.00003% fordi de rigtig meget rigtig præcis data og fordi de gerne vil være meget sikre før de går ud og siger at f.eks. Higgs bosonen findes eller ikke.

Brugbart svar (0)

Svar #10
24. maj 2013 af Vesteur (Slettet)

#7 Det er desværre langt fra trivielt at forstå. For at kunne forstå det helt kræver det nok at du læser statistik på universitetet. Mange professionelle forskere forstår det heller ikke, de bruger blot at de engang har lært at det skulle være sådan.

Du kan sige at p-værdien er en slags mål for hvor sandsynlig din nulhypotese er givet de data, du har målt. En lavere p-værdi betyde så det er mindre sandsynligt at din nulhypotese er sand.

Men som RobertDølhus også skriver, er det absolut ikke trivielt og langt udover hvad der kræves i Matematik B.

Svar #11
24. maj 2013 af msr95 (Slettet)

"Jo lavere signifikansniveauet er, jo sikrere er du på at din konklusion om at forkaste nulhypotesen var korrekt."

Men hvis signifikansniveauet er lavt, så vil jeg jo ikke forkaste H0-hypotesen, hvis min hypotese er, at der er uafhængighed? Så skal teststørrelsen jo gerne være så tæt på 0 som muligt for at de forventede og observerede værdier stemmer overens.

Jeg har prøvet at formulere det (husk at niveauet er meget lavt, så det skal bare være helt basic og simpelt):

Nulhypotesen antager altid, at der er uafhængighed. Man forventer altså, at der ikke er nogen forskel på de observerede værdier og de forventede værdier, så ideelt set vil teststørrelsen være 0, da der så er fuldstændig overensstemmelse og H0 er sand. p-værdien viser (i procent), hvor stor sandsynlighed der er for at få den givne teststørrelse, hvis H0 er sand. Ofte tester man en nulhypotese på et 5 % signifikansniveau, og p-værdien skal altså være større end 5 % for at man beholder nulhypotesen. Hvis man f.eks. får en p-værdi på 2 % så er der kun 2 % sandsynlighed for at få den givne teststørrelse, når H0 er sand - det er altså meget usandsynligt. I modsætning til, at en lavere teststørrelse (tæt på idealet om at teststørrelsen er 0) giver en højere p-værdi. En p-værdi på f.eks. 10 % viser, at der er 10 % sandsynlighed for at få den givne teststørrelse, hvis H0 er sand.

Men det er da godt nok et lavt niveau at operere med, altså i p- værdien? At acceptere nulhypotesen, selvom der kun er 10 % sandsynlighed for at få teststørrelsen, når H0 er sand?

Brugbart svar (0)

Svar #12
24. maj 2013 af Matkaj

Tænk over denne her!

Hvis sandsynligheden for at finde en person der er større end mig er lille, er jeg så stor eller lille?

Brugbart svar (0)

Svar #13
25. maj 2013 af RoberDølhus (Slettet)

Et andet problem i relation til dit spørgsmål, er at de fleste test i statistikken teoretiskset kun gælder for en uendelig stor stikprøve (asymptotisk teori), dette medfører, at medmindre dine data 100% følger den givne fordeling så vil dine p-værdier og test statistikker reelt ikke være korrekte, når du beregner dem udfra en given fordeling.

Dette problem kan løses vha. bootstrapping, hvor du genererer den empriske fordeling, og beregner dine p-værdier samt test statistikker.

Skriv et svar til: Chi i anden, signifikans

Du skal være logget ind, for at skrive et svar til dette spørgsmål. Klik her for at logge ind.
Har du ikke en bruger på Studieportalen.dk? Klik her for at oprette en bruger.