Matematik
F-fordelingen: 0,95-fraktiler
Hep!
Da jeg ikke kunne finde en Statistik-tråd til min Multipel Lineær Regression-opgave, så ryger mit ene spørgsmål herind. Well, søger egentligt ingen udregninger, men snarere vished om de her frihedsgrader:
Vha. udregninger og Excel har jeg fået givet en regressions- hhv. residualværdi på 3 og 146:
<span style="font-size:11.0pt;line-height:150%; font-family:Tahoma;mso-fareast-font-family:"Times New Roman";mso-ansi-language: DA;mso-fareast-language:DA;mso-bidi-language:AR-SA">Fk,n-(k+1) = F3, 150 - (3+1) = F3, 146 = ?
Så slår jeg op i den tilhørende tabel bagerst i bogen, men opdager så selvfølgelig, at den slet ikke tæller så høje residualværdier(max. 60 tæller den). Hvad gør jeg her? I t-fordelingen tæller den jo uendelig, men her er det kun til og med 60.
På forhånd tak.
Svar #1
17. marts 2011 af Walras
Brug Excel.
=ffordeling(teststørrelse;df tæller;df nævner)
Husk at nævne antagelsen om homoskedasticitet!
Ved t-test antages ofte, at stikprøver større end 120 (eller hvad du nu synes er passende stort) er asymptotisk normalfordelt, hvorfor det ofte er let at benytte sig af de kritiske værdier [-1.96;1.96] på et 95 % signifikansniveau. Det er derfor, de hurtigt generaliserer t-tabellen til uendelig.
Svar #2
17. marts 2011 af Madsst (Slettet)
#1 Årsagen til at man viser t-fordelingen med uendeligt mange frihedsgrader er at i grænsen for antallet af frihedsgrader gående mod uendelig er t-fordelingen og normalfordelingen ens.
Svar #3
17. marts 2011 af TrådTrilleren (Slettet)
Jeg takker!
Ja, antagelse 3 om homoskedasticitet, hvor variansen af Y skal være den samme uanset værdien af X', er noteret.
Hvad angår [-1,96;1,96], så brugte jeg netop også denne ved alle teststatistikkerne(t-test) af koefficienterne(3 stik i mit tilfælde), så den er meget generaliserende.
Men tak for reminder!
Svar #5
17. marts 2011 af Walras
#2 Det var det, jeg mente med min svada omkring asymptotisk normalfordelt, hvor 120 observationer bør være nok som approksimation. Måske var det lidt uklart.
Svar #6
18. marts 2011 af TrådTrilleren (Slettet)
#1, walras.
Hvordan plotter du værdierne for F-fordelingen ind i Excel, for der er både frihedsgrader i tæller og nævner? Alternativt må du godt regne den ud hurtigt, hvis du har Excel på din com. Det er stadig samme værdier som fra spørgsmålet igår.
Og så har jeg iøvrigt fået en P-værdi givet 1,06504939944376E-09 i Excel. Hvordan skal jeg omformulere den, for det bliver da vist et meget lille tal.
Overvejer lidt, om det bare skal være 0,0013, dvs. den mindste værdi i tabellen, men ved sgu ikke helt.
Svar #7
18. marts 2011 af Walras
#6 Gerne. Hvad får du af teststørrelse? Mit indtryk var, at 3 (tæller) og 146 (nævner) var frihedsgraderne, men så har du ikke opgivet teststørrelsens værdi.
Svar #8
18. marts 2011 af Walras
Hvis du blot vil have den kritiske værdi, benytter du dig blot af
=FINV(sandsynlighedsværdi;tæller df;nævner df)
Svar #9
18. marts 2011 af TrådTrilleren (Slettet)
#7
Jeg bruger 17,37 som teststørrelse(?), hvilket var en værdi, jeg fik givet af ANAVA i Excel.
Excel bliver aldrig min kop te, så hvis du også har svar på den med P-værdien i #6, ville det være dejligt!
#8
Se, de der Excel-ligninger er jeg ikke helt tryg ved, men det er den kritiske værdi, ja :)
Svar #10
18. marts 2011 af Walras
Jeps. Du har regnet rigtigt nok, hvad angår P-værdien. Er det også en, du får i ANOVA? Du kan få samme værdi, hvis du skriver
=FFORDELING(17,37;3;146)
i en celle i Excel (her antaget, at du har dansk Excel). Som du bemærker, får du en meget lille sandsynlighed, hvilket basalt set vil sige, at du har en utrolig lille sandsynlighed for at afvise en sand nulhypotese. Du afviser derfor nulhypotesen i henhold til et 95 % signifikansniveau (som jeg formoder, du tester på).
Det er svært at skrive P-værdien om, men du kan skrive den som
P≈1.065*10-9,
hvis du har lyst.
Svar #11
18. marts 2011 af Walras
Jeg glemte vist at svare på den kritiske værdi. I Excel giver kommandoen
=FINV(0,05;3;146)
den kritiske værdi F0.95=2,666574223, hvorfor det altså også giver meget god mening, at du får en meget lav sandsynlighed med en teststørrelse på 17,37, for den ligger jo hyperlangt ude til højre i F-fordelingen.
Svar #12
19. marts 2011 af TrådTrilleren (Slettet)
Mange tak. Ja, P-værdien fandt jeg vha. Excel og ANAVA under "Signifikans F", vist nok.
Jeg forventer ikke, at du kan svare på alt det her, men jeg vil lige lufte mine svar til de 4 antagelser, hvilke vi i opgaven skal koble på og kontrollere om er opfyldt.
<span style="font-size:11.0pt; line-height:150%;mso-bidi-font-family:Tahoma">1: Funktionel form <span style="font-size:11.0pt;line-height:150%;font-family:Wingdings;mso-ascii-font-family: "Times New Roman";mso-hansi-font-family:"Times New Roman";mso-bidi-font-family: Tahoma;mso-char-type:symbol;mso-symbol-font-family:Wingdings">à Multipel lineær regressionsmodel
<span style="font-size:11.0pt; line-height:150%;mso-bidi-font-family:Tahoma">Her har jeg bare henvist til den Multiple Lineære Regressionsmodel, der er opstillet i opgavesættet, hvor "Bo + B1 * xKøn + B2 * xKarakter + B3 * Anciennitet + U" er en funktion af Yindkomst, hvis' betingede middelværdi udtrykkes som en lineær funktion af Bo til B3. Dette kan ses vha. et såkaldt residualplot, hvor residualerne fordeler sig omkring 1. aksen uden noget reelt mønster.
2: Simpel tilfældig stikprøve
<span style="font-size:11.0pt; line-height:150%;mso-bidi-font-family:Tahoma">- den her er jeg meget i tvivl om. Først skrev jeg: da stikprøven er samlet over tid, nemlig fra 1998 til og med 2005, har vi at gøre med en tidsrække. Derfor er stikprøven ikke troværdig pga. selektionsbias.
<span style="font-size:11.0pt; line-height:150%;mso-bidi-font-family:Tahoma"></o:p>
<span style="font-size:11.0pt; line-height:150%;mso-bidi-font-family:Tahoma">Men ved nærmere eftertanke ændres den her population(universitetsstuderende i en spørgeskemaundersøgelse) ikke over tid, som derfor ikke påvirker? Så den må/skal vel være simpel tilfældig?</o:p>
<span style="font-size:11.0pt; line-height:150%;mso-bidi-font-family:Tahoma"> </o:p>
<span style="font-size:11.0pt; line-height:150%;mso-bidi-font-family:Tahoma">3: Variansen af y afhænger ikke af X1, X2 og X3 (homoskedasticitet)</o:p>
<span style="font-size:11.0pt; line-height:150%;mso-bidi-font-family:Tahoma">- dvs. samme V(Y) uanset værdierne af X’erne, hvilket Excel jo via OLS-standardafvigelser antager, at fejlleddet har konstant varians og ikke autokorrelation.
<span style="font-size:11.0pt; line-height:150%;mso-bidi-font-family:Tahoma"></o:p>
<span style="font-size:11.0pt; line-height:150%;mso-bidi-font-family:Tahoma">4: Y er normalfordelt, for givne X’ere
<span style="font-size:11.0pt; line-height:150%;mso-bidi-font-family:Tahoma">- dette ses ved, at populationen er tilstrækkelig stor, til at den asymptotisk normalfordeles.</o:p>
Det her er selvfølgelig kun et udkast, da vi fik opgaven for så sent som igår, men hvis du/I har nogle justeringer, så endelig sig til.
Jeg synes ikke, jeg bare ville spørge om det uden at komme med svar, så har brugt noget tid inden på research af ovenstående.
Svar #13
19. marts 2011 af TrådTrilleren (Slettet)
Har lige en rettelse til mit indlæg #12:
Der skal selvfølgelig også x foran den forklarende Anciennitet-variabel. B står for Beta, men det ved I jo.
Svar #14
19. marts 2011 af Walras
MLR1 er opfyldt pr. definition, hvilket du ser ved blot at sammenligne med den opstillede model. Den skal naturligvis være lineær i parametrene - ellers har det jo ingen mening at benytte OLS som estimator.
MLR2 er ikke så simpel at afvise som at sige, at stikprøven består af data fra et lukket interval af en tidsperiode. Det må nødvendigvis være sådan. Det er derimod relevant, hvordan stikprøven er indsamlet i henhold til populationen og om dette er gjort uafhængigt. Jeg skal vide mere om stikprøven, før jeg kan vurdere, om denne antagelse er overholdt.
MLR3 er normalt, at der ikke må være multicollinearitet i modellen, dvs variablene må ikke være perfekt korreleret med hinanden, så de kan skrives som linearkombinationer af hinanden. Det lyder til, at denne antagelse er overholdt (det er den for det meste, medmindre man virkelig dummer sig i opstillelsen af modellen)
MLR4 er, at den forventede værdi af fejlleddet (residualleddet) givet x-værdierne skal være lig med 0. Umiddelbart tror jeg ikke, at du kommer I store problemer ved at antage, at dette skulle være sandt i din model. Jeg tror også, at det er det, du nævner i 1., men det hører nu retmæssigt til i sin egen antagelse.
MLR5 er da antagelsen om homoskedasticitet, hvilket skal være opfyldt, såfremt du ønsker at benytte dig statistisk inferens såsom t- og F-tests. Det er nemt nok at teste dog. Husk i øvrigt, at det kan lade sig gøre at benytte disse tests selv under heteroskedasticitet, men så skal du have udregnet de robuste standardfejl og derudover huske, at t-størrelserne udregnes en anelse mere avanceret, mens "F-testet" nu ikke længere er F-fordelt men derimod χ2-fordelt.
De 5 antagelser tilsammen går under navnet Gauss-Markov-antagelserne og bør være opfyldt for enhver model, hvor OLS benyttes som estimator. Under ovenstående antagelser er OLS-estimatoren BLUE (the Best Linear Unbiased Estimator)
Vi har ofte en ekstra antagelse, at fejlleddet er normalfordelt. Du har dog argumenteret for, at mængden af observationer er nok til at stikprøven kan approksimeres som en asymptotisk normalfordeling, så det bør være fint. Fejlleddet behøver dermed ikke være normalfordelt.
Svar #15
19. marts 2011 af TrådTrilleren (Slettet)
Hmm, det var en noget anden udgave, den her Gauss Markov . Ikke, at jeg ikke vil inddrage den, for den er faktisk mere dækkende end den i bogen.
MLR1
Lyder godt, det var også min tanke. Bogens antagelsesmønster blander bare det lidt sammen.
MLR2
Tænkte det sgu nok. Jamen, så kan jeg give dig, at samlede population består af 350 observationer, hvoraf 200 ikke besvarede, mens resterende 150 er besvarende respondenter. Men du tænker vel selve udtagelsesmetoden, hvilket jo netop må være tilfældigt og uafhængigt, fordi vi i en anden opgave skal vurdere, hvorvidt den er repræsentativ.
Men for at være mere konkret, kan jeg lige remse op her:
"Medio juni 2005 kontaktedes alle økonomiske kandidater fra Aarhus Uni. fra og med årgang 1998, og de blev bedt om at udfylde et spørgeskema via nettet."(hvilket 150 så gjorde, hvorimod 200 nægtede)
Alene dette gør vel, at den er simpel tilfældig, nu hvor jeg tænker over det? Og vi snakker stadig kun stikprøven på de 150 respondenter, resten er ikke med i den her opgave.
MLR3
Hvad angår multikolinearitet, hvilket vist er det der med at de hiver forklaringsgrad ud af hinanden, har jeg også været omkring den, men det var jeg bare under kapitlet fejlkilder. Dog tror jeg bestemt ikke, de er "perfekt korrelerede" ud fra hvad du her siger, så den behøver vi vist ikke bruge for meget energi på.
MLR4
Fair nok, den må jeg så komme ind under sin egen antagelse.
MLR5
Hvad angår homoskedasicitet, har jeg vel allerede påvist den jfr. indlæg #12? Går ikke ud fra, den har heteroskedasticitet, selvom du siger, det er nemt at teste? Bedømt ud fra mine statistiske tests, F og T, må det være homoskedasticitet.
(MLR6)
Lyder fint ang. normalfordelt. Selvom Gauss Markov-antagelserne ikke er pensum, skader det vel ikke at nævne den, så vil tage dine tilføjelser for gode varer.
Svar #16
19. marts 2011 af TrådTrilleren (Slettet)
* rettelse: mente selvfølgelig udvælgelsesmetoden, ikke udtagelsesmetoden i MLR2.
Svar #17
19. marts 2011 af TrådTrilleren (Slettet)
Men hvis vi lige ser bort fra de her antagelser en stund, så har jeg et andet spørgsmål gående på en opgaveformulering. Jeg har vedhæftet opgaven, som godt kan være lidt svær at tyde, så den lyder:
"Du bedes ved anvendelse af forskellige statistiske tests afgøre, om der er problemer med repræsentativiteten for dem, der deltager i undersøgelsen. Mere præcist: Du bedes teste, om der er sammenhæng mellem Deltagelse/Ikke-deltagelse og hhv. Linie, Køn, Karakter og Aargang. Til brug for denne undersøgelse er der på basis af datamaterialet fremstillet følgende tre antals-tabeller"(se vedhæft)
Har er jeg i tvivl, men som jeg forstår det, skal jeg teste relationen mellem Deltagelse/Ikke-deltagelse og så de nævnte 4 variabler. Er vi ude i, at jeg skal gennemføre en hypotesetest(Ho = uafhængig, H1 = afhængig), og i så fald hvilken? Mit forslag er at udregne de forventede frekvenser under Ho, og så lave en chi-test, men er ikke sikker?
Svar #18
19. marts 2011 af Walras
En Chi2-test lyder til at være passende til sidst. Kan du ikke bruge testen som baggrund for at svare på antagelsen i MLR2? Hvis der er en bestemt sammenhæng imellem, hvem der har svaret, og hvem der ikke har svaret, har du jo netop ikke et repræsentativt udsnit af populationen (økonomiske kanditater fra Aarhus), hvorfor den ikke er udvalgt simpelt tilfældigt.
Angående homoskedasticitet så har du muligvis påvist det. Jeg er ikke sikker på, hvad du mener med "OLS-standardafvigelser antager, at fejlleddet har konstant varians og ikke autokorrelation." Jeg benytter sjældent Excel til denne type af analyser.
Svar #19
19. marts 2011 af TrådTrilleren (Slettet)
Ja, den kan nemlig knyttes til MLR2, så det vil jeg gøre når jeg har fundet svar.
"Hvis der er en bestemt sammenhæng imellem, hvem der har svaret, og hvem der ikke har svaret, har du jo netop ikke et repræsentativt udsnit af populationen (økonomiske kanditater fra Aarhus), hvorfor den ikke er udvalgt simpelt tilfældigt."
Kan vi hurtigt blive enige om, så som udgangspunkt må jeg gå ud fra, at der ingen sammenhæng er og den derfor ikke forkaster min nulhypotese.
Men, nu nævner du Chi2-test "til sidst", som jeg også håbede i indlæg#17, så kan vi blive enige om, at jeg skal lave en "Chi2-test for uafhængighed mellem to stokastiske variabler"(hedder kapitlet i bogen), hvor jeg så først udregner de forventede frekvenser
= n * (fx(x) / n) * (fy(y) / n) , hvor fx(x) og fy(y) er de marginale sandsynlighedsfunktioner for hhv. X og Y
, og da finder Chi2-teststatistikværdien mellem de observerede og de forventede frekvenser?
Og de i opgaven tre opstillede tabeller med Linje, Køn og Aargang skal jeg vel bare udregne hver for sig, i hver sin tabel?
