Matematik
lineær regression
Jeg ska lave en lineær regressionsanalyse, hvor den afhængige variabel er kontinuert (en omkostningsprocent af et investeringsprodukt, dvs. denne er >0%).
Mine uafhængige/forklarende variable er af forskellig type. Jeg har både at gøre med forskellige kontinuerte variable samt i hvert fald en heltalsvariabel (hedder det i øvrigt det?), der kun kan antage værdierne 1,2,3,4 og 5, da der er tale om en rating (af investeringsproduktet).
Mit spørgsmål er om det er et problem, at nogle af de uafhængige variable er kontinuerte, mens andre kun kan antage heltal? Skal dette håndteres på en bestemt måde i forbindelse med estimationen af parametrene? Jeg har læst http://en.wikipedia.org/wiki/Linear_regression uden at blive helt klog på dette.
Svar #2
10. juli 2013 af peter lind
Det er helt klart et problem, hvis en eller flere variable er heltalsvariable. Hvis du skal tilpasse en funktion y = f(x,a,b,c) så den passer så godt som mulugt med nogle målte værdier (xi,yi) skal du minimiserer funktionen
∑( yi-f(xi,a, b, c) )2 hvor det er parametrene a,b og c der skal minimeres med hensyn til.
Dette gøres normalt med antagelse af at funktionen er en kontinuert differentiabel funktion af a, b og c, idet der findes effektive algoritmer til at finde minimum i disse tilfælde. Hvis en eller flere af parametrene skal være hele tal holder den forudsætning ikke. Man ved at det gør optimeringen langt vanskeligere.
Hvsi en enkelt variabel skal antage et begrænset antal heltal kan du prøve at lave regression for hver af disse værdier og bagefter se for hvilken af disse værdier du har fået det bedste resultat. Du kan vurdere hvilken der bedst ud fra korrelationskoefficienten eller ved at beregne ovenstående funktion.
Svar #3
14. juli 2013 af RoberDølhus (Slettet)
Du kan overkomme problemet med den "diskrete" variable ved at inkludere en dummy variable i regressionen.
En dummy er altid lig 1 eller 0.
I dette tilfælde anvender du dine ratings af investerings produktet som dummy's.
Generelt gælder man skal anvende n-1 dummy variable, hvilket vil sige i dit tilfælde 5-1.
F.eks. (men kan også formuleres anerledes):
D1 = 1, hvis = rating 2, ellers = 0
D2 = 1, hvis = rating 3, ellers = 0
D3 = 1, hvis = rating 4, ellers = 0
D4 = 1, hvis = rating 5, ellers = 0
Det betyder når du laver regressionen angiver dine dummy's forskellen fra rating 1.
Dvs hvis du har rating 2, og dummy 1 er lig 1, og dummy koefficenten er lig 0,25 betyder det rating 2 betyder 0,25 mere end rating 1.
Svar #4
15. juli 2013 af peter lind
Så vidt jeg kan se indfører du blot en ny heltalsvariabel uden at klargøre hvad det er for en variabel. Flere heltalsvariable er ikke det man har brug for her. Og hvad mener du med rating 2, rating 3 o.s.v. ?
Svar #5
15. juli 2013 af Andersen11 (Slettet)
Man må vel formode, at den angivne rating er en slags mål for kvaliteten, så det vil måske være rimeligt at benytte ratingværdierne som vægte for de enkelte dataværdier i observationssættet.
Svar #7
15. juli 2013 af RoberDølhus (Slettet)
#4
Det fremgår af #1, dog ikke specielt tydeligt, at hans diskrete variable (den som han benævner heltalsvariabel), er en investeringsrating, som kan antage værdierne 1-5.
Jeg mener det er rimeligt at betragte investeringsratingen som en "kvalitativ variabel". Da den angiver en kvalitativ eller "kategorisk egenskab", for ved investeringsproduktet.
For at inddrage denne egenskab, vil jeg anvende dummy's - ligesom jeg ville inddrage køn med en dummy, hvis det f.eks. var en "løn-regression".
Den rating, som ikke har en dummy er "standard-kategorien", hvor så de øvrige dummy's (hvis lig 1) vil angive forskellen fra standard kategorien til en anden kategori.
Svar #8
15. juli 2013 af Andersen11 (Slettet)
#6
I stedet for at lade ratingværdierne indgå som en diskret, uafhængig variabel, kunne ratingværdierne betragtes som vægte wi, således at man forsøger at minimere en vægtet sum
S = ∑i wi2·(yi - f(xi;p1,...,pk))2
Svar #9
15. juli 2013 af RoberDølhus (Slettet)
#8
Det ændrer jo også minimerings problemet ganske betrageligt. Derudover risikerer man negative vægte. Hvilket jeg ikke umiddelbart er sikker på er "passende" i den kontekt der bliver præsenteret her.
Svar #10
16. juli 2013 af Andersen11 (Slettet)
#9
Det er anført, at ratingværdierne kan antage værdierne 1, 2, 3, 4 eller 5, så der kan ikke blive tale om negative vægte. Minimeringsproblemet ændres ikke særligt meget ved at tage vægtene med i betragtning.
Svar #11
16. juli 2013 af RoberDølhus (Slettet)
#10
Det forudsætter jo så at ratings kan bruges som vægte og de dermed er kendte og dermed ikke skal estimeres.
Derudover mener jeg ikke WLS (weighted least squares), er løsningen i denne sammenhængen, da denne metode mere vil give mening, som en løsning, hvis variansen på fejlleddedet ikke er konstant. Som er en af Gauss - Markov forudsætningerne i regression.
Svar #12
16. juli 2013 af peter lind
rating er åbenbart et begreb inden for økonomien som jeg ikke kender.
Jeg er nok så meget interesseret i optimeringen, og her har intet af det ovenstående hjulpet. Der indføres nogle heltal dummyvariable. Det er aldeles uklart hvad disse dummyvariable er for nogle størrelser og jeg kan heller ikke se at det kan hjælpe. Problemet er at det er heltalsvariable og det gælder altså både de oprindelige og de nye dummyvariable. Den sædvanlige måde at lave lineær regression dur ikke i sådanne tilfælde. Man kan naturligvis droppe heltalskravet og håbe på at resultatet bliver heltal. Hvis resultatet ikke er heltal kan man dele det op efter om det er heltal over eller under denne værdi som man gør det i heltalsprogrammering. Det bliver ret besværligt hvorfor jeg mener det er langt lettere at køre regression med hver af de 5 nuligheder for heltalsvariablen. Hvor dummyvariablene kommer ind og hvad de skal gøre godt for fremgår altså som nævnt ikke
Svar #13
16. juli 2013 af RoberDølhus (Slettet)
#12 Dummy variable i regressior er altså standard, især inden for økonometrien.
Moderne statistik/økonometri software har også indbygget algoritmer som kan estimere regressioner med dummy's.
http://en.wikipedia.org/wiki/Dummy_variable_(statistics)
Svar #14
17. juli 2013 af RoberDølhus (Slettet)
#12
Rating er et udtryk for "kvaliteten / riskoen ved en investering".
F.eks. når man hører i nyhederne at S&P eller Moodys nedsætter Grækenlands kreditvurdering (rating) betyder det at usikkerheden for om de kan tilbagebetale deres gæld tilbage er forhøjet. Eller i fagsprog deres "default probability" er steget.
En basal sammenhængen i finansieringsteori er afkast-risiko relationen, som siger at afkastet vil sige i takt med risikoen stiger (markedet forventer mere for at tage risikoen)., hvor risikoen i simple modeller er udtrykt som standardafvigelsen på afkastet.
For almindelige værdipapirer, vil en rating således være en gruppering udfra usikkerheden ved produktet, typisk i helt simple sammenhængen målt ved kun standardafvigelsen.
Svar #15
17. juli 2013 af Andersen11 (Slettet)
#14
Ud fra din beskrivelse er det vel så nærliggende at formode, at ratingværdierne er givet på forhånd for de enkelte datapunkter og ikke er størrelser, der skal estimeres i modellen, og derfor forekom det mig, at ratingværdierne mere tjente i rollen som vægte.
Svar #16
17. juli 2013 af jyden90 (Slettet)
Mange tak for hjælpen allesammen!!
Jeg prøver estimeringen med udgangspunktet:
omk.pct. = a + b*Rating2 + c*Rating3 + d*Rating4 + e*Rating5 ... (andre forklarende variable), hvor
Rating2 = 1; hvis = rating 2, ellers = 0
Rating3 = 1; hvis = rating 3, ellers = 0
Rating4 = 1; hvis = rating 4, ellers = 0
Rating5 = 1; hvis = rating 5, ellers = 0
Svar #17
17. juli 2013 af peter lind
#13 Du har misforstået mig. Det er ikke begrebet dummy variable der er problemet. Det væsentlige for mig er hvordan det kan hjælpe med at løse heltalsproblemet og også hvordan de pågældende dummy variable er defineret.
Svar #18
17. juli 2013 af peter lind
#16 Hvis det er a, b, c, d og e der skal estimeres er der ingen problemer med at bruge lineær regressionsanalyse. I denne sammenhæng er det som en funktion af a, b ...o.s.v du skal se funktionen og de er vel ikke nødvendigvis hele tal
Svar #19
18. juli 2013 af RoberDølhus (Slettet)
#17
Jeg tror beskrivelsen i det første indlæg forvirrer, og egentligt er "forkert".
Da rating variablen ikke er en variabel, men en kategorisering.
Ratingen, 1-5, er blot en kategorisering dvs. gensidigt udelukkende kategorier, enten er det rating 1, eller rating 2.
Det kunne ligeså vel have været "rød", "blå", "gøn", "gul" lilla".
Tallene repræsenterer blot en kategori, tallene 1-5 er uden betydning, i denne sammensætning da det ligeså vel kunne være faverne.
Det er naturligvis ikke urealistisk over tid, at disse ratings, kan variere, men som jeg læser det er det blot en simpel "cross-sectional" regression der bedes om.
Men det kommer selvfølgelig også an på den præcise opgave beskrivelse.
Svar #20
22. juli 2013 af jyden90 (Slettet)
Hvordan ville man håndtere et performance fee, dvs. %-del af afkastet på investeringsproduktet, som skal betales til udbyderen af produktet, hvis produktet performer over et vist niveau? Hvis blot dette fee sku betales uanset størrelsen af afkastet, ville jeg uden videre opstille følgende regression:
omk.pct. = a + b*Rating2 + c*Rating3 + d*Rating4 + e*Rating5 + d*perf.fee ... (andre forklarende variable), hvor
perf.fee er en %-del af afkastet på investeringsproduktet, som skal betales til udbyderen af produktet, hvis produktet performer over et vist niveau. Det er ikke alle produkter i datasættet, der har et performance fee!
Grunden til jeg blir i tvivl, om jeg blot ka opstille ovennævnte regression, er det faktum, at performance fee'et kun ska betales, hvis et bestemt afkastniveau er nået. Hvorvidt dette afkastniveau er nået, har jeg ikke mulighed for at inkorporere i regressionen, da der ikke er tale om tidsseriedata - jeg har kun omkostningsprocenten for én dato per investeringsprodukt. Jeg hælder til, at jeg alligevel godt ka opstille regressionen ovenfor, idet jeg blot er interesseret i at undersøge, hvorvidt et performance fee påvirker omkostningsprocenten i positiv eller negativ retning. Jeg forventer det sidste, idet jeg tænker, at et investeringsprodukt hvortil man blir pålagt at betale et performance fee, må ha en lavere omkostingsprocent, da udbyderne af disse tjener penge på både performance fee'et og omkostingsprocenten.
