Matematik

lineær regression - model fit

26. juli 2013 af jyden90 (Slettet) - Niveau: Universitet/Videregående

Jeg har lavet et lineær regression, og data samt reducerede model kan ses i vedhæftede excelfil i hver sit ark.

I et andet statistikprogram har jeg lavet samme regression og fået outputtet:

                                       Coefficient Std.Error t-value t-prob Part.R^2
Constant                      1.36882     0.2155     6.35 0.0000   0.0708
Passiv                         -0.936838    0.06085    -15.4 0.0000   0.3090
Institutionel                 -0.515027    0.06092    -8.45 0.0000   0.1188
Risiko                           0.0352812   0.004220     8.36 0.0000   0.1165
Aktie                              0.248302    0.05861     4.24 0.0000   0.0328
Allokering                     0.375370    0.05182     7.24 0.0000   0.0901
Performance fee        0.0138219   0.007027     1.97 0.0497   0.0072
LN(formue)                -0.0323253    0.01039    -3.11 0.0020   0.0179

sigma                 0.33081 RSS                58.0007371
R^2                  0.614132 F(7,530) =    120.5 [0.000]**
Adj.R^2              0.609035 log-likelihood       -164.218
no. of observations       538 no. of parameters           8
mean(Y)               1.22317 se(Y)                0.529066

Normality test:   Chi^2(2) =   44.367 [0.0000]**
Hetero test:      F(10,527) =   2.5403 [0.0054]**
Hetero-X test:    F(13,524) =   2.0211 [0.0175]*
RESET23 test:     F(2,528) =   5.7023 [0.0035]**

Jeg ka se normalitetstestet afvises. Betyder det, jeg ska fjerne outliers?

Vedhæftet fil: Regression.xlsx

Brugbart svar (0)

Svar #1
26. juli 2013 af Andersen11 (Slettet)

Det er tilsyneladende en fortsættelse af din anden tråd

https://www.studieportalen.dk/Forums/Thread.aspx?id=1364978

Det ser ud til, at du forsøger at fitte størrelsen i søjle B som en lineær funktion af størrelserne i søjlerne C - I . Det forekommer lettere hasarderet, eftersom størrelserne i søjlerne C, D, F, G og H er ret så diskrete og mere ser ud til at være kategorier (flag).

Alle de mange residualplot på "Reducerede model" ser ud til at være identiske.

Det vil sikkert være mere hensigtsmæssigt at fitte søjle B som en lineær funktion af søjlerne E og I, hvor man kan bruge de øvrige søjler til at udskille data-delsæt med fælles egenskaber, der kan fittes hver for sig.

Brugbart svar (0)

Svar #2
26. juli 2013 af peter lind

Du bør altid fjerne data, som du mener er forkerte. Med den regressionskoefficient du har fået holder din model formentlig ikke. For at vide hvad der er galt skal man gennemgå modellen kritisk. Om fjernelse af nogle data bedre situationen kan man kun finde ud af ved at prøve

Svar #3
26. juli 2013 af jyden90 (Slettet)

Jeg forsøger først at fitte størrelsen i søjle B med alle 16 forklarende variable i søjlerne C-R faktisk. Efter jeg har fjernet ikke-signifikante variable en efter en ender jeg så med C - I som forklarende. Ja, der er mange kvalitative variable fx er afdelingen enten en aktieafd eller ej (søjle F).

Svar #4
26. juli 2013 af jyden90 (Slettet)

Jeg har umiddelbart ik mistanke om, at noget data er forkert. Ka blot se normalitetsantagelsen ikke holder. Fjerner jeg de 6 største residualer blir normalitetstesten accepteret. Jeg ved bare ik om disse 6 er outliers og bør udelades? Eller om jeg på anden vis ka få normalitetstesten accepteret?

Brugbart svar (0)

Svar #5
26. juli 2013 af peter lind

Dit statistikprogram bruger formentlig mindste kvadraters metode til at finde parametrene. Denne metode kan begrundes uden antagelse om normafordeling, så det er ikke kritisk for parametrene. Noget andet er at nogle af de øvrige størrelser muligvis er beregnet ud fra antagelse af normalfordelingen, og i så fald kan du ikke stole på dem.

Svar #6
26. juli 2013 af jyden90 (Slettet)

Ja, det (OxMetrics) bruger mindste kvadraters metode. Ingen af værdierne er beregnet, foruden de 2 formuer, jeg beregner LN af.

Svar #7
27. juli 2013 af jyden90 (Slettet)

Kan det passe, jeg skal lave robust estimation, når residualerne ikke er normale? Og nogen der ved, om excel kan det? Oxmetrics kan ikke tilsyneladende.

Brugbart svar (0)

Svar #8
27. juli 2013 af peter lind

Jeg ved ikke hvad du mener med robust estimation. I princippet skal du finde et mål for hvor meget funktionen afviger var fra de observerede data og derefter minimisere denne afvigelse. Dette kan gøres på mange måder men en populær og effektiv metode er at bruge summen af kvadraterne på afvigelsen af de enkelte observationer kaldet de mindste kvadraters metode. Dette er nok den simpleste metode man kan tænke sig beregningsmæssigt og det dukker naturligt op i modeller hvor man antager normalfordeling. At den dukker naturligt op i forbindelse med normalfordelinger betyder selvfølgelig ikke at den er begrænset til normalfordelinger.

De angivne resultater tyder på at du har en dårlig model. Mulige grunde til dette:

1. Dårlige data

2. Der mangler variable i modellen.

3. Funktionen er ikke lineær i variablene.

Der er ikke andet at gøre end at se kritisk på din model og dine data. Du kan evt. søge i litteraturen om oplysninger af de enkelte variable.

Jeg kender ikke dit statistikprogram; men jeg finder det helt usandsynligt at et statistikprogram kan mindre end et regneark. Statistikprogrammet er jo lavet specielt til statistik. Det er regnearket ikke.

Svar #9
28. juli 2013 af jyden90 (Slettet)

Jeg læste om robust estimation i vedhæftede og derefter på http://en.wikipedia.org/wiki/Robust_regression. Men tror ik OxMetrics kan dette.

Data sku være go nok, så tror jeg må kigge på modellen. Er det kun afvisningen af normalitet, der tyder på dårlig model? Jeg er også meget i tvivl, om min håndtering af de fleste kvantitative variable. Bl.a. performance fee'et, da der er relativt få af afdelingerne, der har dette fee, så ved ik om denne variabel bør behandles anderledes? Derudover må variablene "Afdelingens formue" og "Samlet formue af udbyders afdelinger" være stærkt korrelerede, så om begge disse kan indgå på den måde de gør nu, er jeg også i tvivl om?

Vedhæftet fil:Anvreg kap 14.pdf

Svar #10
28. juli 2013 af jyden90 (Slettet)

MATLAB kan lave robust lineær regression :)

http://www.mathworks.se/help/stats/robust-regression-reduce-outlier-effects.html

Brugbart svar (0)

Svar #11
28. juli 2013 af peter lind

Min vurdering af at det er en dårlig model skyldes først og fremmest værdien af r². Den burde være tæt på 1 og det er den jo langt fra. Noget andet jeg har lagt mærke til at den relative usikkerhed på de 2 sidste variable er meget stor.

Hvis 2 variable er stærkt korrelleret bør du fjerne den ene.

Det er første gang jeg hører om robust regression, så det kan jeg sige meget om. Problemet med at nogle datapunkter ligger langt fra den korrekte funktion er velkendt. Derfor gennemgår man også data for at finde dem og fjerne dem.

På http://www.osalt.com kan du hente flere matematikprogrammer. Prøv at se efter om der er et statistikprogram med robust regression

Svar #12
29. juli 2013 af jyden90 (Slettet)

Mange tak for linket! Hvad angår robust regression, lykkedes jeg med det i MATLAB heldigvis.

Mht. variablene "Afdelingens formue" og "Samlet formue af udbyders afdelinger", ville jeg være meget ked af at måtte fjerne den ene pga. en - måske - for stor korrelation mellem dem. At jeg nødigt vil det, er fordi jeg har stor interesse i netop koefficienterne til disse. Koefficienten til "Afdelingens formue" vil nemlig belyse, om der er stordriftsfordele på afdelingsniveau (hvis afdelingens formue påvirker omkostningsprocenten negativt), og koefficienten til "Samlet formue af udbyders afdelinger" vil belyse, om der er stordriftsfordele på udbyderniveau (hvis udbyders samlede formue af alle udbyders afdelinger påvirker omkostningsprocenten negativt). Kan nogen gennemskue en måde, hvorpå begge variable kan indgå i modellen?

Brugbart svar (0)

Svar #13
29. juli 2013 af RoberDølhus (Slettet)

#11

Nu er dette jo primært en opgave i relation til økonometri, hvilket ikke altid er det samme som statistik.

I økonometri er forklaringsgraden ikke altid den væsentligeste faktor, og man skelner imellem hvad der er økonomisk signifikant og hvad der er statistisk signifikant.

#12

OxMetrics kan "sagtens" estimere robust regression, GMM, FGLS, GLS, 2 stage least squares etc det er bare et spørgsmål om at du programmere det selv.

Matlab har generelt langt flere funktioner indbygget, og min erfaring er at debuggeren fungerer bedre end i f.eks. SAS.

Brugbart svar (0)

Svar #14
29. juli 2013 af RoberDølhus (Slettet)

En alternativ estimations metode ville være at anvende "non-parametric estimation" hvilket i bund og grund er estimation vha. færrest mulige antagelser, du fitter til data'ene.

Svar #15
29. juli 2013 af jyden90 (Slettet)

#13
Jeg er ik så stærk til at programmere i Ox, så da jeg fandt ud af, at jeg med 2 kommandoer ku køre robust regression i MATLAB valgte jeg det. Så håber jeg mine estimater er pålidelige. R^2 steg også lidt.

Brugbart svar (0)

Svar #16
29. juli 2013 af RoberDølhus (Slettet)

#15

Hvis programmering ikke er din stærke side er EViews også et godt alternativ, det kan ufatteligt meget med ren "peg og klik".

Svar #17
31. juli 2013 af jyden90 (Slettet)

#16

Ved du, at EViews kan lave robust regression (Reduce Outlier Effects) som MATLAB (http://www.mathworks.se/help/stats/robust-regression-reduce-outlier-effects.html)?

Og om det derefter kan beregne robuste (overfor heteroskadasticitet og autocorrelation) standardfejl for estimaterne samt tilhørende t-stats og p-værdier?

MATLAB kan det første, dvs. beregne robuste (overfor heteroskadasticitet og autocorrelation) standardfejl for estimaterne, men beregner desværre ikke de tilhørende t-stats og p-værdier.

Svar #18
31. juli 2013 af jyden90 (Slettet)

Hvordan kan jeg teste om variablene "Afdelingens formue" og "Samlet formue af udbyders afdelinger" fra vedhæftede (oprindelige indlæg) er for korrelerede til, at begge kan indgå i en lineær regression? Og hvis de er for korrelerede til at ku det med den nuværende LN-transformation, er det så muligt, at lave en anden transformation, så de begge kan være med? Jeg lavede LN-transformationen for dels at nedskalere de meget store formuer, dels synes jeg plottet mellem den forklarende variabel (hhv. "Afdelingens formue" og "Samlet formue af udbyders afdelinger") og responsvariablen blev "pænere" (den lineære sammenhæng var tydeligere), når jeg LN-transformerede variablene.

Brugbart svar (0)

Svar #19
31. juli 2013 af RoberDølhus (Slettet)

#17

Ja det kan EViews godt.

Men t-stats og p-værdier er altså ganske simpelt at beregne i matlab

t-stat = b_hat - b0 / se(b_hat)

P værdien er defineret som P(| t | > t0 )

Brugbart svar (0)

Svar #20
31. juli 2013 af RoberDølhus (Slettet)

#18

Du kan lave en RESET test for misspecification.

Forrige 1 2 Næste

Der er 23 svar til dette spørgsmål. Der vises 20 svar per side. Spørgsmålet kan besvares på den sidste side. Klik her for at gå til den sidste side.