Matematik

95% - konfidensinterval

25. marts 2004 af Cas_sen (Slettet)

Hejsa ;

Jeg sidder og skal lave noget matematik skal aflevere om nogle uger, og i en af opgaverne er der spørgsmål vedr. et konfidensinterval. Dette er ikke noget jeg har lært/hørt om så jeg håber nogle kan hjælpe mig lidt på vej med en formel elelr forklaring eller udregning.

-------

Opgaven lyder som følgende:

På en større virksomhed har man gennemført en kampagne mod brugen af bil til og fra arbejde. Før kampagnen benyttede 35% af de ansatte bil. Efter kampagnen spurgte man 147 tilfældigt udvalgte af de ansatte om hvilket transportmiddel de anvendte til og fra arbejde.

Undersøgelsens resultat er vist nedenfor:

Transportmiddel antal personer
Bus/tog 42
Bil 37
Cykel 58
Motorcykel 3
Gående 7

spørgsmålet lyder så:

Beregn et 95% - konfidensinterval for andelen af ansatte, der benytter bil, og afgør om kampagnen har haft nogen effekt.

Og det er her filmen knækker, kan nogle hjælpe mig på vej :-)

Brugbart svar (0)

Svar #1
25. marts 2004 af Brian (Slettet)

Hvor meget statistik har du haft? Jeg vil gerne prøve at svare, men skal jo også lige kalibrere svaret...

Svar #2
25. marts 2004 af Cas_sen (Slettet)

statistik, intet desværre.

spørgsmålet er kommet i forbindelse med binomialfordeling på MAT A ; har haft om binomialfordeling før, det er bare et nyt begreb jeg ikke kender til...

Brugbart svar (0)

Svar #3
25. marts 2004 af riquelme (Slettet)

Jeg er ikke helt inde i det her, men jeg mener at 95%-konfidensintervallet i sådan en situation er fra

X/n-1.96·sqrt(X/n·(1-X/n))/sqrt(n)

til

X/n+1.96·sqrt(X/n·(1-X/n))/sqrt(n)

hvor X er antallet af personer som kørte bil og n er antallet af personer som man spurgte.

Hvis konfidensintervallet ikke indeholder 0.35 (35%), men udelukkende værdier < 0.35, så har kampagnen hjulpet (tror jeg).

Svar #4
25. marts 2004 af Cas_sen (Slettet)

Det vil sige en løsning kunne lyde som følger:

X = 37
n = 147

estimat for biler transportsmiddelandel = p

p = 37/147= 0,2517

0,2517-1,96*KVROD((0,2517*(1-0,2517))/147)=0,1815

og

0,2517+1,96*KVROD((0,2517*(1-0,2517))/147)=0,3219

Konfidensintervallet bliver da [0,1815 ; 0,3219]

Da konfidensintervallet ikke indeholder 0,35 ; men kun værdier mindre end 0,35 kan man konstatere at kampagnen har haft en positiv effekt på medarbejderne i virksomheden

----------

har jeg fanget det ?

Brugbart svar (0)

Svar #5
25. marts 2004 af riquelme (Slettet)

det vil jeg mene... men igen, måske skulle du vente på Brians forslag

Brugbart svar (0)

Svar #6
25. marts 2004 af 404error (Slettet)

#3: Ja, det er mig bekendt den eneste måde at opskrive eksakte for den slags proportioner konfidensintervaller på.

Forklaring: n (et fast tal!)respondenter adspørges hvorvidt de kører i bil eller ej og X er den binære stokastiske variabel, der angiver svaret (0 eller 1). Vi ønsker at udtale os om fordelingen af summen af disse variable, kald den S. Under uafhængighedsantagelsen og antagelsen at n er fast, er denne binomialfordelt med ukendt parameter p. Den centrale grænseværdisætning siger, at for tilstrækkelig stor n og ikke alt for ekstrem p kan vi bruge approksimationen

S ~ N(n*p,n*p*(1-p)),

hvor N(mu,s^2) er normalfordelingen med middelværdi mu og varians s^2. Det er nu ligetil at konstruere konfidensintervaller idet S/n er fordelt som N(p,p*(1-p)/n) af hvilken man får de af 3 angivne APPROKSIMATIVE konfidensintervaller. Eksakte konfidensintervaller kan beregnes med de fleste statistikprogrammer, men jeg er ikke bekendt med noget analytisk udtryk for disse.

Brugbart svar (0)

Svar #7
25. marts 2004 af 404error (Slettet)

#4: Ja, bortset fra at du ikke bør tolke konfidensintervallerne så eksplicit. På 0.05 niveau kan man ikke afvise, at kampagnen har haft effekt.

Brugbart svar (0)

Svar #8
25. marts 2004 af Brian (Slettet)

Hvis du ingen statistik har haft, så forstår jeg ikke hvorfor du er blevet sat til at regne denne opgave :-(

Men men, sådan er der jo så meget. riguelmes formler ser rigtige ud, min version af dem er:

(1/n)*[x +/- 1.960*kvrod( (x*(n-x))/n )]

og riguelmes version kan sikkert omrokeres til at passe med min eller omvendt.

Man skal være opmærksom på, at dette er en tilnærmelse, der kun gælder med rimelig nøjagtighed, hvis

(x*(n-x))/n > 100,

dette bør du kontrollere.

Det allervigtigste er dog at forstå, hvad dette interval betyder. Det er stort set umuligt at forklare i få ord. Det er derfor det er vanvitigt, at du skal regne denne opgave uden at have haft den undervisning i statistik, der kunne have ført til at du vidste hvad du lavede.

Brugbart svar (0)

Svar #9
25. marts 2004 af riquelme (Slettet)

ja, som 404error skriver kan du ikke konkludere at kampagnen har hjulpet, men at du på grundlag af konfidensintervallet ikke kan afvise at den har hjulpet ;)

er det en generel konvention at man altid vælger at teste på 5%-niveau eller hvad?

Svar #10
25. marts 2004 af Cas_sen (Slettet)

Det kommer sikkert efter påske så, det var bare et eksamensopgavesæt jeg sad og rodede lidt med, som vi fik i dag, det kan da godt være at vi først lære at regne det dagen før vi skal aflevere det om et par uger :-) men tak for hjælpen

Svar #11
25. marts 2004 af Cas_sen (Slettet)

#9 har også hørt om 99%-intervallet da jeg søgte på google under 95% :-)

Brugbart svar (0)

Svar #12
25. marts 2004 af 404error (Slettet)

#9 og #11: Jo større alpha-værdi (her 0.05 eller 5% svarende til 95% konfidensinterval), jo mindre er risikoen for at begå en type I fejl, altså afvise en korrekt hypotese. Til gengæld bliver risikoen for acceptere en falsk hypotese større, risikoen for type II fejl (konfidensintervallet bliver jo bredere, jo mindre alpha). Så hvad alpha skal være, afhænger af omkostningerne ved de to fejltyper. Generelt anser man dog type I fejl for slemmest, fordi man typisk laver tests/konfidensintervaller ud fra devisen: "Skal tingene laves om eller skal det blive ved det gamle..?" og så er sidstnævnte som regel med færrest omkostninger.

Brugbart svar (0)

Svar #13
26. marts 2004 af madsbs (Slettet)

til cas_sen

Din besvarelse i # 4 fire er rigtigt, såfremt du går på HHX. Hvis du har regnet rigtigt, og fundet ud at intervallet ligger under 0,35, er din konklusion som den skal være:-) Men selvfølgelig kan man altdi tage nogle forholdsregler; det kræver fagbeskrivelsen for Mat A bare ikke, at man gør.

Brugbart svar (0)

Svar #14
23. maj 2004 af Jean

Til #6:

"Under uafhængighedsantagelsen og antagelsen at n er fast, er denne binomialfordelt med ukendt parameter p. Den centrale grænseværdisætning siger, at for tilstrækkelig stor n og ikke alt for ekstrem p kan vi bruge approksimationen

S ~ N(n*p,n*p*(1-p)),
"

Jeg kom til at tænke på hvordan du vil bruge CLT til at vise dette. Den siger jo kun noget om konvergens mod N(0,sigma^2) fordelinger ?

Brugbart svar (0)

Svar #15
24. maj 2004 af 404error (Slettet)

#14: Ja, men det er også tilstrækkeligt til at lave den slags approksimationer.

Hvis (X_n) er en følge af iid stokastiske variable, X_n ~ P med endelig middelværdi mu og endelig, positiv varians sigma^2, så siger CLT at

U_n = sqrt(n)*(S_n-mu)/sigma -> X

i fordeling, hvor X ~ N(0,1) og

S_n= sum(X_n)/n.

For n "tilstrækkeligt stor" er altså

S_n ~ sigma/sqrt(n)*X+mu

som følger en N(mu,sigma^2/n)-fordeling. Approksimativt, naturligvis. Mere "præcise" asymptotiske resultater for den slags gennemsnit er kedelige, eftersom der jo også gælder

S_n -> mu

P-næsten sikkert (store tals stærke lov) og dermed S_n -> mu (den i mu udartede fordeling) i fordeling.

Skriv et svar til: 95% - konfidensinterval

Du skal være logget ind, for at skrive et svar til dette spørgsmål. Klik her for at logge ind.
Har du ikke en bruger på Studieportalen.dk? Klik her for at oprette en bruger.