Matematik
Multipel regression - variable
Som afhængig variabel vil jeg gerne have andelen af højtuddannede i danske kommuner, men det absolutte tal kan ikke bruges, da det selvfølgelig afhænger af indbyggertallet, som i sig selv indgår som forklarende variabel. Derfor har jeg udregnet den relative frekvens og omregnet den til et indextal, hvor basistallet er indextallet for hele landet.
Ps. Jeg er matematik- og statistikignorant, så vær venligst pædagogisk :-)
Svar #1
01. maj 2007 af holretz (Slettet)
Svar #2
01. maj 2007 af TommyBl (Slettet)
Jeg går ud fra, at det er teoretiske/metodiske overvejelser, du hentyder til. Det er klart er der er en masse overvejelser der, men i første omgang er jeg mere interesseret i det rent statistiske.
Svar #3
01. maj 2007 af holretz (Slettet)
Svar #4
01. maj 2007 af Bruger slettet (Slettet)
Vi tager udgangspunkt i en funktion, idet vi har givet dataene (xi,yi), i = 1,2...n, n positiv. Den krævede funktionelle form korresponderer til en lineær relation mellem ln(y) og ln(x). Hvis vi bestemmer parameterne a og b af den empiriske (forsøgsmæssigt fundne) regressionslinie: n=a*e+b korresponderende til de transformerede data (e,n)=(lnxi,lnyi), finder vi at s=a og K=e^b er de krævede værdier.
Vi skal nu finde af konstanten K samt størrelsen s for hvilke kurven Y=K*x^s best svarer til kurven af de eksperimentelle ovennævnte datapunkter.
Der er noget, der hedder mindste kvadraters metode, men det vil føre for vidt at forklare det.
Metoden er rigtig god til at forudsige de mest sandsynlige værdier på fremtidige hændelser.
Håber det hjælper
Erik Morsing
[email protected]
Svar #5
01. maj 2007 af holretz (Slettet)
Svar #6
01. maj 2007 af holretz (Slettet)
Svar #7
01. maj 2007 af Bruger slettet (Slettet)
De typer af variable, som kan indgå i regressionsanalysen, skal kunne passes ind i en differentiabel funktion. Det er jo den, du skal finde frem til.
Har jeg nu forstået dit spørgsmål rigtigt?
V.h.
Erik Morsing
Svar #8
01. maj 2007 af TommyBl (Slettet)
@Holretz
Jeg føler mig rimeligt godt inde i det rent metodiske - derfor er det ikke så meget det, jeg ønsker svar på. De er mere de rent statistiske beregninger, som er - forholdsvis - ukendt land for mig. Jeg vil undersøge, om jeg kan finde (eller konstruere tal) på befolkningstæthed - god idé.
Men ellers er det groft sagt sådan, at jeg primært ønsker at undersøge, om der er en sammenhæng mellem uddannelsesniveauet (x) (hvilket er operationaliseret til "andelen af borgere med en lang videregående uddannelse" og kodet som et indekstal med hele landet som basis) i de enkelte kommuner og kommunernes kulturbudgetter (y) - kan det betale sig at investere i kultur...?
Når jeg laver analysen må jeg så selvfølgelig have en nogle kontrolvariable - fx hvor langt der er til nærmeste universitet, indbyggertal mm. De fungerer dog ikke kun som kontrolvariable i teoretisk forstand, da en evt. (og sandsynlig) sammenhæng mellem dem og udd.-niveauet i sig selv er interessant.
Mit grundlæggende spørgsmål er så bare, om det er statistisk forsvarligt at anvende indekstal baseret på relative frekvenser i en multipel regressionsanalyse, eller om der skal være tale om variable, der er kodet på baggrund af absolutte værdier?
@ Erik
Også tak til dig for svaret. Mener at have læst om mindste kvadraters metode, som du omtaler. Jeg har heldigvis et par udmærkede bøger, som jeg kan læne mig op ad i forbindelse med opgaven. Mit primære problem er som nævnt lige nu, at finde ud af, om jeg må bruge indekstal baseret på relative frekvenser i en multipel regressionsanalyse, hvilket bøgerne ikke rigtigt siger noget om.
Der er dog en enkelt af mine bøger - "Business Statistics in Practice" - hvor det ser ud som om, der i et af eksemplerne vist bliver brugt indekstal, men den redegør ikke for, om det rent faktisk er tilfældet.
Svar #9
01. maj 2007 af Bruger slettet (Slettet)
Det ville være rart for mig med et konkret eksempel.
V.h.
Erik Morsing
Svar #10
01. maj 2007 af holretz (Slettet)
Svar #11
01. maj 2007 af Bruger slettet (Slettet)
E.M.
Svar #12
01. maj 2007 af TommyBl (Slettet)
Ja, du har vist forstået spørgsmålet rigtigt. Jeg er ikke god til at anvende de rigtige begreber...
Uddyber lige spørgsmålet med et eksempel (før kommunalreformen - tal fra 2005).
Der bor i København 266.007 indenfor arbejdsstyrken. Heraf har 18.067 en langvideregående udd (LVU) - altså 6,79%.
For Hillerød Kommune er tallene 20.960/1.389/6,63%
For Sydthy Kommune er tallene 6.381/89/1,39%
For Langå Kommune er tallene 4.872/105/2,16%
Hvis vi kalder de tre kommuner hele landet er tallet
for hele landet 298.256/19.559/6,56%
Andelen af borgere med en LVU for i hele landet sættes til indeks 100.
Så vi har følgende tal:
Hele landet: 6,56*100/6,56 = 100
København: 6,79*100/6,56 = 103,5
Hillerød: 6,63*100/6,56 = 101,1
Sydthy: 1,39*100/6,56 = 21,2
Langå: 2,16*100/6,56 = 32,9
Må jeg anvende disse indekstal en multipel regression? Også selvom jeg for andre variable bruger absolutte tal (fx antal km til nærmeste universitet)?
Svar #13
01. maj 2007 af TommyBl (Slettet)
Ok, du fik svaret på mit spørgsmål, mens jeg skrev det seneste indlæg. Mange tak for hjælpen.
@ Erik
Ja, det centrale er selvfølgelig, at jeg får brugbart info. Jeg var bare usikker på, om det er statistisk forsvarligt at bruge indekstal baseret på relative frekvenser i regressionsanalysen. Især når de sættes op mod absolutte værdier. Men jeg kan altså forstå, at det er det.
Hvis der er noget at tilføje til det sidste eksempel, så se bare bort fra metodiske problemstillinger. Eksemplet er groft sat op, da det vil være for omfattende at komme ind på det metodiske her.
Men som sagt tak for hjælpen :-)
Svar #14
01. maj 2007 af Bruger slettet (Slettet)
V.h.
Erik Morsing
Svar #15
01. maj 2007 af TommyBl (Slettet)
Grunden, til at jeg gerne vil have det sidste tal med, er, at antallet af borgere indenfor arbejdsstyrken (lad os kalde det indbyggertallet for nemheds skyld) i sig selv skal indgå som forklarende variabel i analysen.
Indekstallet bliver altså værdien for den afhængige variabel, mens bl.a. "indbyggertal", "kulturbudget" (relativ i.f.t. samlet kommunalbudget), "km til nærmeste universitet" mm. kommer til at indgå som forklarende variable.
Hvis ikke jeg laver det om til indekstal, vil indbyggertallet i kommunen få voldsom stor vægt i analysen, hvilket ikke er meningen, da den omhandler en problemstilling vedrørende "kulturbudget" og "udd.-niveau" i befolkningen.
Svar #16
01. maj 2007 af Madsst (Slettet)
Det ville også gøre det væsentligt nemmere at hjælpe dig lidt længere på vej, hvis du fortalte hvilken slags datasæt du arbejder med. Min anbefaling vil være at du skal arbejde med tværsnit, da det er teknisk lettest i forhold til inferens. Som udgangspunkt er det også en ide at strukturere din problemstilling efter de tilgængelige data, da data kan være svært at få fat i.
En anden lille ting er at man i sådanne regressioner ofte har umålelige variable. Her især "evner". Derfor har man ofte en proxy variabel ved IQ eller lignende. At finde et datasæt hvor en sådan variabel findes er nok derfor dit udgangspunkt (det skal du selvfølgelig selv bestemme :-) )
Når du lidt mere præcist har fundet data, vil jeg meget gerne hjælpe med inferens og evt. hjælpe lidt med at kigge på funktionel form.
Svar #17
01. maj 2007 af TommyBl (Slettet)
Tak for svaret og dit venlige tilbud. Jeg er nødt til at kigge lidt mere på det, og så vil jeg vende tilbage med et svar.
Svar #18
01. maj 2007 af Bruger slettet (Slettet)
http://www.google.dk/search?hl=da&q=%2B%22multiple+regression%22+%2Bindexeret+variable%22&btnG=S%C3%B8g&meta=
Svar #19
01. maj 2007 af Madsst (Slettet)
http://www.econ.ku.dk/metrics/qm2/forelæsninger.htm
17 og her: http://www.econ.ku.dk/polit/studerende/eksamen/opgrv/default.asp?del=2år&fag_id=91&fagnavn=Økonometri%201
Da det kan være temmelig besværligt at samle et datasæt på en ordentlig måde synes jeg du skal overveje at finde et færdigt sæt.
Svar #20
01. maj 2007 af Madsst (Slettet)
se her: rettevejledning -> 2. år -> økonmetri 1 http://www.econ.ku.dk/polit/studerende/eksamen/#opgaver
og her: forelæsninger -> forelæsning 17 (under data) http://www.econ.ku.dk/metrics/qm2/default.htm
Skriv et svar til: Multipel regression - variable
Du skal være logget ind, for at skrive et svar til dette spørgsmål. Klik her for at logge ind.
Har du ikke en bruger på Studieportalen.dk?
Klik her for at oprette en bruger.
