Matematik

Statisitk / test

03. juni 2006 af Sansnom (Slettet)
Jeg hjælp på et tidspunkt en bekendt i Holland med nogle eksamensspørgsmål. Et af dem gav mig lidt grå hår i hovedet, men jeg mener da, at jeg fik det løst.

Her er hele den omhandlede opgave. A er meget simpel, og B ikke specielt svær (på gymnasieniveau). C kan giver lidt grå hår i hovedet.

Jeg har selv 2 løsningsmetoder til C. En approksimerende ved en transformation til normalfordeling og en nummerisk ved brug af integraler. Jeg er interesseret i, om nogle måske har yderligere en løsningsmetode til C. Jeg har bevidst ikke skrevet mine to løsningsmetoder, da jeg vil give interesserede gymnasieelever en chance for selv at tage udfordringen op først.

Så, mit spørgsmål er mest om C og nok lidt ud over gymnasieniveau, men opgaven som sådan kan tages som en udfordring på gymnasieniveau.

A)
En undersøgelse i 1995 viste, at 85% af alle personer i alderen 25-35 havde et job.
Bestem sandsynlighed for, at færre end 12 personer i 1995 har et job i en tilfældig gruppe på 20 personer.

B)
I år 2000 viste en undersøgelse blandt 80 personer i alderen 25-35 så, at 75 af disse personer havde et job.
Test om denne undersøgelse viser, at jobfrekvensen er steget fra 85%. Testen skal ske på et 5% signifikans niveau (dvs, at du skal være 95% sikker, for at konkludere, at frekvensen er steget).

C)
Endeligt blev en test er foretaget i 2005, denne gang med 240 personer, hvoraf 216 havde et job. Bestem et 95%-konfidensinterval for, hvor stor en procentdel nu har et job.

Svar #1
03. juni 2006 af Sansnom (Slettet)

Hmm, lidt lang tekst, hvor spørgsmålet druknede lidt.

Mit spørgsmål konkret er:
Hvordan vil du besvare C)?

Brugbart svar (0)

Svar #2
03. juni 2006 af sigmund (Slettet)

Da stikprøven er stor (240 pers.), ville jeg bruge en normalfordeling. Du er selvfølgelig bekendt med, hvordan konfidensintervallet bestemmes?

Svar #3
03. juni 2006 af Sansnom (Slettet)

#2,

Jeg er ganske enig i, at man kan bruge en normalfordeling til at approximere en løsning.

Min indvending mod denne løsningsmetode er, at den i sin grundide giver et symmetrisk interval, hvilke ikke kan siges at være "korrekt".

Jeg sætter bevidst korrekt i citationstegn, da det jo er statistik vi taler om.

I bund og grund er jeg imod at bruge normalfordelingen som approksimation. I "gamle" dage, hvor man ikke havde tilstrækkelig regnekraft, gav det god mening, men idag mener jeg, at det må kunne gøres bedre.

Jeg er derfor meget interesseret i, om du eller andre skulle have et alternativ til at bruge normalfordelingen.

Brugbart svar (0)

Svar #4
03. juni 2006 af sigmund (Slettet)

"I "gamle" dage, hvor man ikke havde tilstrækkelig regnekraft, gav det god mening, men idag mener jeg, at det må kunne gøres bedre."

Hvor gammel er du egentlig?

Tilbage til emnet:

Foråret 2005 fulgte jeg et indledende kursus i statistik på Danmarks Tekniske Universitet -- "Indtroduktion till Statistik" var kursets titel.

Budskabet her var, at allerede ved en polulation på 30 individer kan du bruge normalfordelingen til approximation -- uden at lave en betydelig fejl.

Du er nok bekendt med "den centrale grænseværdisætning", der siger, at enhver fordeling går mod normalfordelingen for n gående mod uendelig. Her er n populationens størrelse.

Ellers sidder jeg lige nu med en bog: All of Statistics -- A Concise Course in Statistical Inference (af Larry Wasserman).

Her siger han bl.a. (på s. 65):

"Hoeffding's inequality gives us a simple way to create a confidence interval for a binomial parameter p. We will discuss confidence intervals in detail later (see Chapter 6) but here is the basic idea. Fix alpha > 0 and let

e_n = {log(2/alpha)/(2n)}^(1/2).

By Hoeffdings inequality,

P(|X[bar]_n - p| > e_n)

Let C = (X[bar]_n - e_n , X[bar]_n + e_n). Then, P(p \
otin C) = P(|X[bar]_n - p| > e_n) <= alpha. Hence, P(p \\in C) >= 1 - alpha, that is, the random interval C traps the true parameter value p with probability 1 - alpha; we call C a 1 - alpha confidence interval. More on this later."

Forhåbentlig forstår du ovenstående (det er lidt svært at skrive matematik her). "Hoeffdings inequality" vil jeg ikke komme ind på her. Måske ville det være en idé, at du lånte bogen på et bibliotek.

Reference:
Larry Wasserman, All of Statistics. A Concise Course in Statistical Inference, Springer, New York 2004.

Svar #5
03. juni 2006 af Sansnom (Slettet)

#4,

Tak for dit svar. Jeg vil kigge nærmere på det.

Jeg er dog stadigt ikke imponeret over, hvor godt den normale approksimation virker. Som det ses på dette link: http://home1.stofanet.dk/janbs/confidensintervalbinomial.jpg giver den normale approksimation et konfidensinterval på cirka 94.5%, mens en simpel nummerisk udregning sagtens kan gøre det bedre.

Jeg kan selvklart have lavet en fejl - eller den nummeriske integration kan være unøjagtigt, men umiddelbart kan jeg ikke se, hvorfor man vil transformere til normalfordelingen, fremfor at løse de opstillede integralligninger nummerisk. Som sagt - i "gamle" dage kunne jeg se det, men ikke nu.

Svar #6
03. juni 2006 af Sansnom (Slettet)

#4,

Jeg løb igennem betragtningerne fra din bog.

Så vidt jeg kan se, bliver e_n=0,05778 (cirka), så C=[0,8422 ; 0,9578].

Hvis jeg laver integraletesten som for de øvrige intervaller, får jeg, at det cirka er et 99,4% konfidensinterval. Så uligheden er god nok - men anvendelsen nok begrænset.

Brugbart svar (0)

Svar #7
28. juni 2006 af 404error (Slettet)

Transformér over på den reelle akse med en passende linkfunktion, brug normalapproksimation til at danne konfidensintervaller og transformér tilbage til den oprindelige skala. Det er almindeligt at transformere til log-odds, dvs. betragte

logit(p) = log(p/(1-p)).

Hvis Y_n = logit(p_n), hvor p_n er dit empiriske bud på forholdet p, fås af deltametoden

Y_n ~ N( logit(p), 1/(np)+1/(n(1-p)) ).

Lav konfidensintervaller for Y og transformér dem til den oprindelige skala. Så får du asymmetriske intervaller, der generelt har bedre dækningsgrad end den 'rå' normalapproksimation.

Svar #8
29. juni 2006 af Sansnom (Slettet)

#7,

Tak for den ide.

Jeg må dog have misforstået noget, for jeg får en dækningsgrad, der kun er 67% med den metode.

Mine udregninger er her: http://home1.stofanet.dk/janbs/logit-confi.jpg

Brugbart svar (0)

Svar #9
29. juni 2006 af 404error (Slettet)

Du mangler at tage kvadratrod af standardfejlen, når du laver intervallerne.

Svar #10
29. juni 2006 af Sansnom (Slettet)

#9,

Jeg overses sikkert noget helt banalt, men jeg kan ikke få det til at give et interval, der kommer bare tæt på at give mening - kvadratrod eller ej.

Hvilket interval får du i det konkrete tilfælde?

Brugbart svar (0)

Svar #11
29. juni 2006 af 404error (Slettet)

Jeg får (.855,.932).

Svar #12
29. juni 2006 af Sansnom (Slettet)

#11,

Tusind tak, men jeg er nok nød til at bide i det sure æble og bede dig vise udregningerne, da jeg ikke selv kan gennemskue dem.

Jeg kan dog se, at hvis jeg fordobler sigma i forhold til de linkede udregninger, så ser intervallet ud til at passe endda rigtigt pænt - hvilket næppe er et tilfælde, men jeg kan ikke gennemskue hvorfor.


Brugbart svar (0)

Svar #13
29. juni 2006 af 404error (Slettet)

p_n = 216/240.

logit(p_n) = 2.20

Standardafvigelse på log-odds skala:

sqrt(1/(240*p_n)+1/(240*(1-p_n)))=.22

Log-odds 95% CI:

(2.20-1.96*0.22, 2.20+1.96*0.22)=
(1.775507470, 2.618941686).

Transformér tilbage vha. invers logit, invlogit(x)=1/(1+exp(-x)):

(.8551412425, .9320707300).

Har du haft et kursus i Bayesiansk statistik? Det kunne man fristes til at tro, når man ser din udregning af dækningsgrad i de tidligere indlæg. Det, du i virkeligheden beregner, er aposteriori sandsynlighedsmasssen i et (frekventistisk) konfidensinterval under en uniform apriorifordeling på sandsynlighedsparameteren. Mao., du evaluerer Bayesianske egenskaber af en frekventistisk estimationsprocedure. Det er selvfølgelig interessant nok, men jeg går ud fra, at det ikke er det, du er ude efter?

Brugbart svar (0)

Svar #14
29. juni 2006 af 404error (Slettet)

Hov, standardafvigelse -> standardfejl i sidste indlæg.

Svar #15
29. juni 2006 af Sansnom (Slettet)

Tusind tak.

Jeg (fjols) brugte 10-tals logaritmen - ikke den naturlige logaritme. Jeg er blevet for vant til notationen "log" for 10-tals og "ln" for naturlig, så jeg antog uden videre overvejelse, at du med log mente 10-tals.

Med 10-tals log skulle jeg vel blot have justeret sigma med en faktor 1/ln(10), da delta metoden bruger den afledede af link funktionen. Jeg har aldrig studeret delta-metoden eller logit før, men lidt Wikipedia hjalp mig på sporet.

Nej, jeg har aldrig haft Bayesiansk statistik. Min beskrevne måde at beregne en dækningsgrad på var blot, hvad faldt mig naturligt. Jeg kan forstå på din bemærkning, at det ikke er tilfældet, så har du tilfældigvist et link, der forklarer, hvad der så menes med dækningsgrad?

I min søges efter information faldt jeg også denne side http://projecteuclid.org/Dienst/UI/1.0/Summarize/euclid.ss/1009213286, der for mig er ganske interessant læsning i relation til denne tråd.

Brugbart svar (0)

Svar #16
29. juni 2006 af 404error (Slettet)

Et 1-alpha-konfidensinterval for en reel parameter t er et interval (A,B), så

(*) P(A

A og B er såkaldte stikprøvefunktioner, dvs. de er stokastiske størrelser, der afhænger af dine observationer. Parameteren t er derimod en fast størrelse i klassisk statistik (men ikke i Bayesiansk statistik, jf. mit tidligere indlæg). For et enkelt eksperiment observerer du realiserede værdier a og b af hhv. A og B. Derfor kan man for et sådant enkeltstående eksperiment ikke tale om 'sandsynligheden for, at parameteren t befinder sig mellem a og b'. Parameteren er en fast størrelse, så enten ligger den i intervallet, eller også gør den ikke. Det er i øvrigt en klassisk fejlfortolkning af konfidensintervaller, så fortvivl ej - det er ikke særligt intuitivt.

Hvis man er interesseret i at estimere dækningsgraden, skal man beregne sandsynligheden i (*). Det gør man normalt approksimativt, gennem simulation. Dvs. du simulerer de stokastiske variable A og B f.eks. N gange under en givet model (fast parameter t), og estimerer sandsynligheden som forholdet mellem N og antal observationer, som opfylder

a

En rimelig vurdering af anvendeligheden af en metode til beregning af konfidensinterval kræver selvfølgelig, at man ser på dækningsgrad under varierende valg af parameter.

Svar #17
29. juni 2006 af Sansnom (Slettet)

#16,

Tak for hjælpen. Jeg trænger vist til at (gen)læse noget teori. Umiddelbart kan jeg nemlig ikke se, hvorfor dækningsgraden ikke automatisk bliver 1-alpha, men det kan jeg vel læse mig frem til :)

Kan du anbefale en god (introduktions)bog om hypotesetest, stikprøver, konfidensintervaller etc så jeg har lidt at bryde hovedet med i løbet af sommeren?

Brugbart svar (0)

Svar #18
29. juni 2006 af 404error (Slettet)

Fordi man ved anvendelse af normalapproksimation konstruerer konfidensintervaller, som har asymptotisk dækningsgrad 1-alpha. Med endelige stikprøver vil den generelt være forskellig fra 1-alpha.

Walpole og Myers 'Probability and Statistics for Engineers and Scientists' går for at være en god bog, hvis du mangler læsning.

Svar #19
29. juni 2006 af Sansnom (Slettet)

Tak. Jeg vil tage et kig på den.

Tillykke i øvrigt med det afsluttede speciale.

Brugbart svar (0)

Svar #20
29. juni 2006 af 404error (Slettet)

Tak for det. Lykke til med statistikken.

Skriv et svar til: Statisitk / test

Du skal være logget ind, for at skrive et svar til dette spørgsmål. Klik her for at logge ind.
Har du ikke en bruger på Studieportalen.dk? Klik her for at oprette en bruger.