Matematik
Den centrale grænseværdisætning
Hej med jer, jeg er ved at prøve at forstå den cantrale grænseværdisætning. Jeg vil i den forbindelse lave et par eksempler for at se om jeg har forstået den noglelunde.
Eksempel 1.
Der kastes med n terninger hvor vi definere X_i : antal øjne på terning i. Vi har så at E(X_i)=sum(x_i*P(X=x_i))=µ og spredningen er sqrt(E((X_i-µ)^2))=sigma. Vi har så at gennemsnittet af de n variable som vi definere som S er normalfordelt med middelværdi µ og spredning sigma/sqrt(n). Altså hvis vi laver flere kast med de n terninger vil vi kunne vise i en "graf" at gennemsnittet er normalfordelt idet den vil nærme sig den velkendte klokkekurve.
Eksempel 2:
Der kastes n terninger hvor X_i : 6'er med terning i. Vi har så at E(X_i)=np=µ og spredningen er sqrt(np(1-p))=sigma. Vi har så at gennemsnittet af de n variable som vi definere som S er normalfordelt med middelværdi µ og spredning sigma/sqrt(n).
Eksempel 3:
Der kastes med 1 terning hvor X_i : antal øjne. Hvis vi kaster n gange med terningen kan vi beregne gennemsnittet og i henhold til grænseværdisætningen får vi at spredningen vil være sigma/sqrt(n), som altså er et mål for hvor meget øjneantallet vil sprede sig omkring middelværdien. Her ser vi direkte at hvis vi øger antallet af kast med terningen, så vil spredningen mindskes.
Jeg ville hører jer om disse eksempler bruger grænseværdisætningen korrekt, for det er jo basis for forståelsen at det kan bruges korrekt. Så kan nogle kloge hoveder ikke sige mig om det er korrekt forstået? I alle eksemplerne har jeg forudsættet at n>=30.
De venligste hilsner
Sheldorin
Svar #1
02. august 2011 af Sheldorin (Slettet)
Er der ingen som lige vil kigge det igennem og sige om jeg er helt galt på den? Jeg ville virkelig gerne vide om jeg har forstået det ordenligt...
Svar #2
02. august 2011 af peter lind
Hvis du kaster en terning med de normale 6 sider n gange vil du få en binomialfordeling med middelværdi n*p og varians n*p(1-p). eller σ = kvrod(n*p*(1-p)). Hvis n er tilstrækkelig stor vil denne fordeling med tilnærmelse være normalfordelt med samme middelværdi og spredning.
Hvis du laver sådanne n kast 2 gange vil du ikke få samme middelværdi. Denne observerede middelværdi er altså også også en stokastisk variabel X. X vil med tilnærmelse være normalfordelt med samme middelværdien som for binomialfordelingen; men spredningen vil være σ/kvrod(n). Der forudsættes stadig at n er så stor at man kan bruge tilnærmelsen med normalfordelingen.
Svar #3
03. august 2011 af Sheldorin (Slettet)
Jeg kan ikke rigtig følge hvad du siger der er galt med mine eksempler, kunne du måske kommentrer direkte på mine eksempler 1-3 og fortælle hvad der er galt med dem?
Dit eksempel synes jeg fx er lidt det samme som jeg har skrevet i mit eksempel 2 blot hvor du kaster 1 terning n gange og jeg kaster n terninger 1 gang, hvilket jo er det samme.
Men jeg prøver lige at uddybe det:
Ved kast med 1 terning n gange kan vi definere den stokastiske variabel X_i: Antal 6'ere i de n kast. Dermed vil E(X_i)=n*p og SD(X_i)=kvrod(n*p(1-p)). hvis vi gentager dette eksperiment fx k gange har vi variablerne X_1,X_2,...,X_k og gennemsnittet af disse stokastiske variable som vi definere som S (altså det gennemsnitlige antal 6'ere ved k gentagelser af eksperimentet) er normalfordelt med middelværdi E(X_i)=n*p og spredning SD(X_i)/kvrod(k). Er det ikke korrekt skrevet? For jeg tænker her at jeg skal bruge k i beregningen af min spredning for S da det jo er når antallet af eksperimenter er stort og ikke antallet af gange vi kaster terningen (n)???
Jeg undskylder hvis jeg roder helt rundt i det, jeg er blevet helt forvirret :)) sorry!
//Sheldorin
Svar #4
03. august 2011 af peter lind
Jeg har heller ikke udtrykt mig klart nok.
n kast med en terning giver de angivne middelværdier og spredning. Hvis n er stor nok kan man bruge normalfordelingen som en tilnærmelse til binomialforelingen med samme middelværdi og spredning.
Hvis du har N normalfordelte stokastiske variable X1, X2, ... XN med middelværdier μ1, μ2, μN og varianser V1, V2, ... VN
Y = X1+X2+... XN være en ny stokastisk variabel med med middelværdi μY =μ1+ μ2+ .... +μN og variansen V = V1+V2 + .... +VN
Hvis alle disse stokastiske variable har samme middelværdi μ og samme varians V vil man få at middelværdien for Y er N*μ og variansen N*V.
Den stokastiske variabel Y/N vil have middelværdien N*μ/N = μ og variansen N*V/N2 = V/N og dermed spredningen σ/kvrod(N)
Hvis du foretager terningskastene 100 gange finder du middelværdi μ og spredning σ af binomialformlen. Gentager du disse kast 49 gange og beregner gennemsnittet af de 49 kast vil du få en ny variabel. Denne variabel vil have samme middelværdi som den oprindelige binomialfordeling men en spredning der er σ/kvrod(49) = σ/7
Svar #5
07. august 2011 af Sheldorin (Slettet)
Hej Peter Lind,
Jeg har virkelig brugt meget tid de sidste dage til at forstå det du har skrevet, for jeg synes det er virkelig svært at forstå. Men jeg vil lige starte med at sige mange tak for din hjælp.
I mine bøger skriver man grænseværdisætningen lidt anderledes, men jeg kan nu næsten godt følge din gennemgang men jeg bidder mærke i at den sætning jeg har kræver det at N er større end 30. Men hvis man skal følge din metode kræver det jo at np(1-p)>9 og det er jo udover at N>30?
Jeg har selv fundet i et appendiks på min ene bog som gennemgår det på samme måde som dig, men desværre er det ikke forklaret, det er bare skrevet helt kortfattet. Men jeg vil rigtig gerne forstå det ordenligt.
Jeg håber du lige vil hjælpe mig med at forstå dette. Jeg kan huske vi på et tidspunkt lavede et fysikforsøg hvor vi kastede med en katapult, hvor vi målte afstanden fra katapulten og til hvor kuglen landede. Jeg mener vi lavede 50 kast og der tog vi middelværdien af de 50 kast og vi beregnede så spredningen på normal vis. Og så beregnede vi spredningen på middelværdien. Dette er jo selvfølgelig den centrale grænseværdisætning, men hvordan skal man definere de stokastiske variable osv.?
Jeg skriver dig også lige en privatbesked da det er så længe siden og jeg ikke ved om du ser jeg har svaret på tråden når det er så længe siden, for jeg er virkelig glad for din hjælp og det virker til du har helt styr på det ;)
Venligst
Sheldorin
Svar #6
07. august 2011 af peter lind
Jeg får besked, når der kommer indlæg i de tråde, jeg har været aktiv på.
Jeg er desværre ikke helt klar over hvad dit problem er. Den centrale grænseværdi siger løst sagt at med mange små forskellige bidrag, vil man med tilnærmelse få en normalfordeling. Ovenfor har jeg taget dit eksempel, som giver en binomialfordeling. For tilstrækkelig store værdier af n, kan denne fordeling så tilnærmes med en normalfordeling. Det er det eneste sted, man kan sige, jeg har brugt den centrale grænseværdisætning. Jeg kan ikke huske grænserne for hvornår normalfordelingen er en god tilnærmelse til binomialfordelingen. I dag vil jeg blot slå op i et regneark, hvis jeg har brug for en værdi.
Efter at jeg har tilnærmet binomialfordelingen med en normalfordeling bruger jeg udelukkende regler for normalfordelingen. Der er ingen tilnærmelser i det.
Når du beregner middelværdi og spredning i dit forsøg med katapulten bruger du faktisk ikke den centrale grænseværdisætning. Du bruger definitionen på middelværdi og spredning. mere præcis kan man sige at du bruger nogle formler til estimering af middelværdi og spredning. Den stokastiske variabel i dette forsøg er kastelængden.
Jeg er som nævnt meget usikker på hvad dit problem er, så mit svar er sikkert ikke fyldestgørende. Du må endelig vende tilbag, hvis der stadig er problemer.
Svar #7
07. august 2011 af Sheldorin (Slettet)
Hej igen Peter Lind,
Jeg kan godt se at det jeg har skrevet er lidt dårligt formuleret, beklager :)
Så når du skriver:
"n kast med en terning giver de angivne middelværdier og spredning. Hvis n er stor nok kan man bruge normalfordelingen som en tilnærmelse til binomialforelingen med samme middelværdi og spredning."
i indlæg #4, så er det dette skridt hvor grænseværdisætningen bruges ved at kaste terningen nok gange så binomialfordelingen kan tilnærmes med en normalfordeling?
Her ser vi på at n skal være tilstrækkelig stor for at vi kan lave approksimationen. Men i min sætning ser det ud som om at det er N der skal være stor nok når man har defineret de stokastiske variable X1, X2, .. ,XN. Hvilket virker som om grænseværdisætningen er når vi laver tilstrækkeligt mange gentagelser af vores n kast med en terning så er Y/N tilnærmelsesvist normalfordelt. Men i følge dit (hvis jeg har forstået det korrekt) er det antal gange vi kaster terningen (n) og ikke antal gange vi gentager denne handling (N).
Sætningen lyder:
Lad X1, X2, ... , XN være ens fordelte uafhængige stokastiske variable med middelværdi E(x) og spredning SD(X). lad S=(X1+X2+...+XN)/N være den stokastiske variabel der angiver gennemsnittet af Xi'erne. Så er S med god tilnærmelse normalfordelt med middelværdien E(X) og spredning SD(X)/kvrod(N). Jo større N bliver, jo bedre bliver denne tilnærmelse. I praksis vil tilnærmelsen være meget god hvis N>=30.
Jeg ved ikke om det var meget bedre forklaret, men jeg håber du kan forstå hvor jeg vil hen med det.
Mange hilsener
Sheldorin
Svar #8
08. august 2011 af peter lind
Den sætning du skriver er også god nok. Det er bare ikke den jeg bruger. Hvis de stokastiske variable du nævner er normalfordelte gælder sætningen eksakt.
Svar #9
09. august 2011 af Sheldorin (Slettet)
Ja jeg er blevet klar over at vi bruger hver vores sætning, men uanset om jeg bruger den ene eller den anden er jeg i tvivl. Vil du ikke kommentere direkte på disse:
1. Jeg kaster med en terning 1 gang og den stokastiske variabel er så X1~b(1,p). Da n=1 kan jeg ikke approksimere denne til en normalfordeling. Men hvis jeg nu gentager kastat N gange og tager Y=X1+X2+...+XN så har vi at Y~b(N,p) og i henhold til grænseværdisætningen er Y normalfordelt med parametrene N*E(Xi)=N*p og N*SD(Xi)^2=N*p(1-p) hvis N er tilstrækkeligt stor.
Er dette et gyldigt resonnement?
2. Jeg kaster med 100 terninger og den stokastiske variabel er så X1~b(100,p). Da n=100 er X1~n(100p,kvrod(100p(1-p))) Hvis vi gentager dette kast med de 100 terninger N gange har vi X1, X2, ... ,XN som alle er tilnærmelsesvist normalfordelte og derfor er Y=X1+X2+...+XN normalfordet med parametrene N*E(Xi)=N*100*p og N*SD(Xi)^2=N*100*p(1-p).
Er dette et gyldigt resonnement?
Jeg håber du vil kommenterer på både 1 og 2, for det er nemlig forskellen i disse to som bliver ved at drille mig. For jeg ved ikke om Xi skal være binomialfordelt med n så stor at den enkelte variabel kan ses som normalfordelt, eller om det er okay at n er så lille at der ikke kan foretages en sådan approksimation men at jeg så bare skal gentage eksperimentet N gange (med N stor) og derfor alligevel kan bruge grænseværdisætningen og derfor at Y er normalfordelt.
Venligst
Sheldorin
Svar #10
09. august 2011 af peter lind
1. Det er korrekt. Fordelingen er rent faktisk binomialfordelt, så du bruger din sætning til at vise at for store værdier af n kan du bruge normalfordelingen som tilnærmelse. Lige en formuleringsfejl. Y er ikke normalfordelt men er med god tilnærmelse normalfordelt.
2. Det er korrekt.
Svar #11
09. august 2011 af Sheldorin (Slettet)
Okay, så disse eksempler (1 og 2) er begge en konsekvens af grænseværdisætningen?
Så tror jeg faktisk jeg har forstået det langt om længe ;)
Du skal have mange mange gange tak for din tålmodighed, men det er bare så vigtigt for mig at bruge tid på at forstå tingende ordenligt. Og nu tror jeg i hvert fald jeg er kommet tættere på en forståelse, nu skal jeg bare have kigget lidt på brugen af sætningen, evt. finde nogle opgaver hvis jeg kan finde sådanne et sted så man rigtig kan få det ind på rygraden :))
Men igen mange tak, det har været lærerigt ;)
Venligst
Sheldorin
Svar #12
09. august 2011 af Madsst (Slettet)
Prøv eventuelt at se den her video:
http://www.khanacademy.org/video/central-limit-theorem?playlist=Statistics
Skriv et svar til: Den centrale grænseværdisætning
Du skal være logget ind, for at skrive et svar til dette spørgsmål. Klik her for at logge ind.
Har du ikke en bruger på Studieportalen.dk?
Klik her for at oprette en bruger.
