Matematik

Beregning af teststørrelse

19. december 2009 af tutsinuts (Slettet)

Jeg skal skrive om hypotesetest i min SRP, og har lige skrevet afsnittet om beregning af teststørrelse, ville være rart hvis nogen kunne læse det igennem, og se om det bare er ren volapyk, og hvis det er, evt. omfomulere på det der ikke giver mening :)

Når et eksperiment udføres n gange, uafhængig af hinanden, forekommer resultaterne i en hændelse, H, k gange H1, H2,…, Hk. Til hver hændelse er der tilknyttet en sandsynlighed p1, p2,…, pk, og en frekvens f1, f2,…, fk.
Eksperimentet udføres på tilfældig måde, og der vil derfor forekomme forskel mellem sandsynlighederne og frekvenserne, pga. tilfældighed. For at kontrollere dette, beregnes en teststørrelse Q.
Denne teststørrelse beregnes på forskellige måder, alt efter hvilken hypotesetest der anvendes, og fortæller om overensstemmelsen mellem stikprøverne.
P(Q ≥ q) betegner sandsynligheden for, at Q er større end, eller lig med en given værdi q, dvs. hvis q er en stor værdi, er der stor forskel mellem stikprøverne, og værdierne for Q er derfor meget lidt sandsynlige. Derimod hvis q er en lille værdi, er der god overensstemmelse mellem stikprøverne.
 

På forhånd tak :)


Brugbart svar (0)

Svar #1
19. december 2009 af Dynin (Slettet)

#0 hvor mange sider drejer det sig om?


Svar #2
19. december 2009 af tutsinuts (Slettet)

Det er kun det jeg har skrevet i første besked der skal kigges igennem :)


Brugbart svar (0)

Svar #3
19. december 2009 af Dynin (Slettet)

#2 Starten skal omformuleres lidt ... Lad E være et eksperiment der gentages n gange, uafhængigt af hinanden. Da får man k≤n observationer O1,…,Ok, hver med frekvenser f1,…fk og finder herved de observerede sandsynligheder p1,…,pk og opstiller en hypotese (nul-hypotesen) H0:p1=p2=…=pk. For at kontrollere dette … som du skriver


Svar #4
19. december 2009 af tutsinuts (Slettet)

#3 Tak :)


Brugbart svar (0)

Svar #5
20. december 2009 af 4real (Slettet)

Da sandsynligheder ikke kan observeres direkte bør du undlade at skrive "de observerede sandsynligheder".

Med venlig hilsen


Brugbart svar (0)

Svar #6
20. december 2009 af 4real (Slettet)

I et afsnit om hypotesetest ville jeg skrive noget i stil med:

"...I denne sammenhæng er vi interesseret i hyppigheden for "et givet fænomen", og vi har så indsamlet data der indeholder information om denne hyppighed: Lad os tænke på vores observation (data) x som antallet af gange en given hændelse er indtruffet i n uafhængige gentagelser. Sandsynligheden p∈[0,1] for at hændelsen indtræffer er den samme i hvert forsøg. Lad os betragte x som et udfald af en stokastik variabel X. Vi har da udfaldsrummet E={0,1,...,n}. Antalsparameteren, n, er et kendt tal, men sandsynlighedsparameteren p er ukendt. Det eneste vi ved er at den ligger mellem 0 og 1. For ethvert p∈[0,1] er der en tilhørende fordeling, og den statistiske model består af udfaldsrummet for X samt denne samling af fordelinger. Vi siger at p er en parameter som skal estimeres fra data. Hvis X er ligefordelt for et givet p, så beskriver sandsynlighedsfunktionen f_p(x) = P(X=x)=1/k, k=antallet af elementer i E, sandsynlighederne for de mulige udfald af X. Det er klart hvis vi skal estimere parameteren p er det naturligt at betragte den værdi af p der gør den observerede værdi mest sandsynlig. At det blot er den relative hyppighed som rent faktisk er denne værdi er klart. Vi har altså at estimatet p^(hat)=x/n for p er lig med det estimat som maksimerer den observerede værdis sandsynlighed.

På grund af eksperimentets element af tilfældighed er det derfor klart at vores estimat nok ikke vil være det samme for hver gang vi udfører eksperimentet. Netop derfor er der brug for en hypotesetest. Det er frugtbart at anvende kvotienttestet sammen med MLE(maximum likelihood estimation). Testet består af opstilling af en hypotese, beregning af kvotienttestet, som ved hjælp af vores likelihoodfunktion måler hvor godt data passer til data, beregning af p-værdien og konklusion. For at beregne p-værdien skal vi kende fordelingen af vores stokastiske variabel og fastsætte et signifikansniveau, hvormed hypotesen afvises hvis p-værdien er mindre end eller lidt netop dette niveau.

testsandsynligheden for hypotesen H:p=p^ defineres som sandsynligheden for at observere noget som passer lige dårligt eller dårligere med med hypotesen end Q(y) (som vi observerede)

Dette skrives

ε(y) = P (Q(Y) ≤ Q(y) )

Som sagt har vi brug for at kende fordelingen af Q(Y) for ikke at komme med oplagt forkerte udsagn. Men hvis den beregnede værdi (som måler hvor sandsynligt det er at få lige så dårlige eller dårligere passende data) er mindre end et på forhånd fastsat signifikansniveau skal vi afvise.  Det vil sige hvis vi vælger signifikansniveau = α, skal vi afvise hypotesen hvis

ε(y) ≤ α

........."

Har udeladt en del, men håber det overordnede billede er klart. Hvis du har spørgsmål så spørg igen...

Med venlig hilsen.

(P.S. Der tages forbehold for meningsløse udsagn og al anvendelse af mine indlæg er på eget ansvar. ;-)  )


Brugbart svar (0)

Svar #7
20. december 2009 af Dynin (Slettet)

#5 enig ... jeg har vist skrevet lidt forkert ... der burde stå

Lad E være et eksperiment der gentages n gange, uafhængigt af hinanden. Da får man k≤n observationer O1,…,Ok, hver med hyppigheder h1,…hk og finder herved frekvenserne p1,…,pk og opstiller en hypotese (nul-hypotesen) H0:p1=p2=…=pk. Der kan testes ved en χ2-teststørrelse (Pearson)

#6 går det ikke lidt over SRP? ... altså  med likelihoodfunktioner, maskimaliseringsestimatorer, kvotienttest mv


Brugbart svar (0)

Svar #8
20. december 2009 af 4real (Slettet)

Det korte svar til dit spørgsmål er vel: Det gør det sikkert... :-)

Men begreberne kan måske hjælpe til at forstå lidt mere om de tanker der ligger bagved ordet "hypotesetest", selvom man ikke ved helt præcist hvad de betyder i matematisk forstand... Man kan også overveje hvor meget man rent faktisk ved om hypotesetest, hvis det eneste man kan sige om p-værdien er at det er et tal Ti-89 har spyttet ud. Dermed ikke sagt, at det er hvad trådstarter har i sinde.

Med venlig hilsen.


Brugbart svar (0)

Svar #9
20. december 2009 af Dynin (Slettet)

#8 som jeg læser #0 gentages et eksperiment n gange uafhængigt af hinanden ... hvor man ønsker at teste om udfaldene er ens. Det er korrekt at man skal opstille en model og en hypotese *og* lave alt det der med likelihoodfuktionen, MLE og kvotienttests ... men det kræver mere end du skitsere *og* i gymnasieregi bruger man vel bare den centrale grænseværdisætning og antager at udfaldet af observationerne approximativt er normalfordelt og dermed kan teste hypotesen ved en passende χ2-teststørrelse, ikk?


Brugbart svar (0)

Svar #10
20. december 2009 af 4real (Slettet)

Jeg vil tro du har ret her. Har bevidst udeladt en del.. Da jeg gik i gymnasiet, var normalfordelingen ikke en del af pensum, så jeg kan ikke sige hvad der er tradition for i gymnasieregi. Men hvilken fordeling man antager udfaldene hører til kommer vel, som altid, an på data.

For hypotesen H:μ=μ_0

hvis vi laver u-test på denne så er jo

ε(y)=P(U^2 ≥ u^2) = P( abs(U) ≥ abs(u) )

hvor U= ( Y^(streg) - μ_0 ) / ( σ_0 / sqrt(n)  )

og    u = ( y^(streg) - μ_0 ) / ( σ_0 / sqrt(n) )

Hvis data med rimelighed kan antages at være normalfordelt og der er en på forhånd kendt varians, da er vi på sikker grund. Under hypotesen Y^(streg) er fordelt N(μ_0,σ^2/n) så U er standardnormalfordelt. og U^2 er X^2-fordelt.

Hvis både varians og middelværdi er ukendt laver vi derimod et t-test, da vi forbinder dette med en større usikkerhed end hvis der var kendt varians....... correct me, if I'm wrong.

Med venlig hilsen.


Brugbart svar (0)

Svar #11
21. december 2009 af Dynin (Slettet)

#10 jeg tror vi taler forbi hinanden ... men vi mener nok det samme :-)

Dog ligger du i dit indlæg #6 op til noget meget mere generelt ... nemlig at man har model dvs. en familie

(Pθ)θ∈Θ af sandsynlighedsfordelinger og en hypotese, en mindre familie (Pθ)θ∈Θ0 af sandsynlighedsfordelinger ... dvs.

Model:θ∈Θ

H0: θ∈Θ0

hvor man indfører likelihoodfunktionen, MLE, kvotienttestsstørrelsen og testsandsynligheden


Brugbart svar (0)

Svar #12
21. december 2009 af 4real (Slettet)

Præcis...


Skriv et svar til: Beregning af teststørrelse

Du skal være logget ind, for at skrive et svar til dette spørgsmål. Klik her for at logge ind.
Har du ikke en bruger på Studieportalen.dk? Klik her for at oprette en bruger.