Matematik

Multipel regression - variable

01. maj 2007 af TommyBl (Slettet)

Hej. Jeg er igang med at (forsøge at) lave en multipel regressionsanalyse, og vil gerne vide lidt om, hvilke typer variable, der kan indgå. Er det tilladt at anvende indextal, som er baseret på relativ frekvens?

Som afhængig variabel vil jeg gerne have andelen af højtuddannede i danske kommuner, men det absolutte tal kan ikke bruges, da det selvfølgelig afhænger af indbyggertallet, som i sig selv indgår som forklarende variabel. Derfor har jeg udregnet den relative frekvens og omregnet den til et indextal, hvor basistallet er indextallet for hele landet.

Ps. Jeg er matematik- og statistikignorant, så vær venligst pædagogisk :-)

Brugbart svar (0)

Svar #1
01. maj 2007 af holretz (Slettet)

Multipel regression er jo ikke nogen mirakelkur - du skal overveje om de udtryk du har opstillet i sig selv giver mening...

Svar #2
01. maj 2007 af TommyBl (Slettet)

Hej, tak for svaret.

Jeg går ud fra, at det er teoretiske/metodiske overvejelser, du hentyder til. Det er klart er der er en masse overvejelser der, men i første omgang er jeg mere interesseret i det rent statistiske.

Brugbart svar (0)

Svar #3
01. maj 2007 af holretz (Slettet)

Du kan ikke skille de to ting ad - prøv først at gennemtænke hvilke faktorer der er - hvor arbejder højtuddannede mennesker er en primær faktor, ja nok den væsentligste. Derfor vil du selvfølgeligt finde en nøje sammenhæng der. Hvis du tager ud til en eller anden kommune i Vestjylland, så finder du akademikere følgende steder: lægerne, dyrlægerne advokaterne, landbrugskonsulenterne, gymnasielærerne, og en stak ingeniører...+ det løse.

Brugbart svar (0)

Svar #4
01. maj 2007 af Bruger slettet (Slettet)

Jeg kan supplere med et eksempel, og nu går jeg ud fra, at du ikke kun arbejder med lineær regression?

Vi tager udgangspunkt i en funktion, idet vi har givet dataene (xi,yi), i = 1,2...n, n positiv. Den krævede funktionelle form korresponderer til en lineær relation mellem ln(y) og ln(x). Hvis vi bestemmer parameterne a og b af den empiriske (forsøgsmæssigt fundne) regressionslinie: n=a*e+b korresponderende til de transformerede data (e,n)=(lnxi,lnyi), finder vi at s=a og K=e^b er de krævede værdier.
Vi skal nu finde af konstanten K samt størrelsen s for hvilke kurven Y=K*x^s best svarer til kurven af de eksperimentelle ovennævnte datapunkter.
Der er noget, der hedder mindste kvadraters metode, men det vil føre for vidt at forklare det.

Metoden er rigtig god til at forudsige de mest sandsynlige værdier på fremtidige hændelser.

Håber det hjælper
Erik Morsing
[email protected]

Brugbart svar (0)

Svar #5
01. maj 2007 af holretz (Slettet)

Du har ret i, at befolkningstallet ikke direkte kan indgå, men prøv istedet at bruge befolkningstæthed dom forklarende variabel, så skal du bare se løjer..

Brugbart svar (0)

Svar #6
01. maj 2007 af holretz (Slettet)

Ja, selvfølgeligt er der alt det tekniske i at opstille regressionen - men det er vel i virkeligheden det mindste arbejde - det store problem er at gennemtænke relevante forklarende variable..

Brugbart svar (0)

Svar #7
01. maj 2007 af Bruger slettet (Slettet)

Nu tror jeg, at jeg forstår:
De typer af variable, som kan indgå i regressionsanalysen, skal kunne passes ind i en differentiabel funktion. Det er jo den, du skal finde frem til.
Har jeg nu forstået dit spørgsmål rigtigt?

V.h.
Erik Morsing

Svar #8
01. maj 2007 af TommyBl (Slettet)

Takker for de hurtige svar!

@Holretz

Jeg føler mig rimeligt godt inde i det rent metodiske - derfor er det ikke så meget det, jeg ønsker svar på. De er mere de rent statistiske beregninger, som er - forholdsvis - ukendt land for mig. Jeg vil undersøge, om jeg kan finde (eller konstruere tal) på befolkningstæthed - god idé.

Men ellers er det groft sagt sådan, at jeg primært ønsker at undersøge, om der er en sammenhæng mellem uddannelsesniveauet (x) (hvilket er operationaliseret til "andelen af borgere med en lang videregående uddannelse" og kodet som et indekstal med hele landet som basis) i de enkelte kommuner og kommunernes kulturbudgetter (y) - kan det betale sig at investere i kultur...?

Når jeg laver analysen må jeg så selvfølgelig have en nogle kontrolvariable - fx hvor langt der er til nærmeste universitet, indbyggertal mm. De fungerer dog ikke kun som kontrolvariable i teoretisk forstand, da en evt. (og sandsynlig) sammenhæng mellem dem og udd.-niveauet i sig selv er interessant.

Mit grundlæggende spørgsmål er så bare, om det er statistisk forsvarligt at anvende indekstal baseret på relative frekvenser i en multipel regressionsanalyse, eller om der skal være tale om variable, der er kodet på baggrund af absolutte værdier?

@ Erik

Også tak til dig for svaret. Mener at have læst om mindste kvadraters metode, som du omtaler. Jeg har heldigvis et par udmærkede bøger, som jeg kan læne mig op ad i forbindelse med opgaven. Mit primære problem er som nævnt lige nu, at finde ud af, om jeg må bruge indekstal baseret på relative frekvenser i en multipel regressionsanalyse, hvilket bøgerne ikke rigtigt siger noget om.

Der er dog en enkelt af mine bøger - "Business Statistics in Practice" - hvor det ser ud som om, der i et af eksemplerne vist bliver brugt indekstal, men den redegør ikke for, om det rent faktisk er tilfældet.

Brugbart svar (0)

Svar #9
01. maj 2007 af Bruger slettet (Slettet)

Jeg ved det ikke, men det må du kunne prøve dig frem til ved at anvende data, som du kender i forvejen. Hvis de giver mening, så kan du vel. Ellers forstår jeg ikke helt problemet. Det centrale er vel, at du får noget fornuftigt ud af den multivariablæe funktion f(x,y,z,...), at du kan forudsige n hændelse på basis af værdierne.
Det ville være rart for mig med et konkret eksempel.

V.h.
Erik Morsing

Brugbart svar (0)

Svar #10
01. maj 2007 af holretz (Slettet)

Det kan du godt, i en multipel regression blander man ofte flere typer af tal: der kan være rene koeffcienter, der indgår som forklarende variable, det kan være forskellige former for indekstal, og selvfølgeligt regulære målestørrelser med enheder o.s.v.

Brugbart svar (0)

Svar #11
01. maj 2007 af Bruger slettet (Slettet)

Tak til holretz, vil prøve om jeg kan finde noget i mine gamle lærebøger.
E.M.

Svar #12
01. maj 2007 af TommyBl (Slettet)

@ Erik

Ja, du har vist forstået spørgsmålet rigtigt. Jeg er ikke god til at anvende de rigtige begreber...

Uddyber lige spørgsmålet med et eksempel (før kommunalreformen - tal fra 2005).

Der bor i København 266.007 indenfor arbejdsstyrken. Heraf har 18.067 en langvideregående udd (LVU) - altså 6,79%.

For Hillerød Kommune er tallene 20.960/1.389/6,63%
For Sydthy Kommune er tallene 6.381/89/1,39%
For Langå Kommune er tallene 4.872/105/2,16%

Hvis vi kalder de tre kommuner hele landet er tallet
for hele landet 298.256/19.559/6,56%

Andelen af borgere med en LVU for i hele landet sættes til indeks 100.

Så vi har følgende tal:

Hele landet: 6,56*100/6,56 = 100

København: 6,79*100/6,56 = 103,5
Hillerød: 6,63*100/6,56 = 101,1
Sydthy: 1,39*100/6,56 = 21,2
Langå: 2,16*100/6,56 = 32,9

Må jeg anvende disse indekstal en multipel regression? Også selvom jeg for andre variable bruger absolutte tal (fx antal km til nærmeste universitet)?

Svar #13
01. maj 2007 af TommyBl (Slettet)

@ Holretz

Ok, du fik svaret på mit spørgsmål, mens jeg skrev det seneste indlæg. Mange tak for hjælpen.

@ Erik

Ja, det centrale er selvfølgelig, at jeg får brugbart info. Jeg var bare usikker på, om det er statistisk forsvarligt at bruge indekstal baseret på relative frekvenser i regressionsanalysen. Især når de sættes op mod absolutte værdier. Men jeg kan altså forstå, at det er det.

Hvis der er noget at tilføje til det sidste eksempel, så se bare bort fra metodiske problemstillinger. Eksemplet er groft sat op, da det vil være for omfattende at komme ind på det metodiske her.

Men som sagt tak for hjælpen :-)

Brugbart svar (0)

Svar #14
01. maj 2007 af Bruger slettet (Slettet)

OK. Som jeg læser tallene, behøver du ikke det sidst tal. Hillerød 20 960/1 389/(her skal ikke stå noget, da det jo er det samme som de 1 389). Jeg ville derfor alene arbejde med de rene tal: Inden vi snakker videre, så fortæl mig lige, om du er enig.
V.h.
Erik Morsing

Svar #15
01. maj 2007 af TommyBl (Slettet)

@ Erik

Grunden, til at jeg gerne vil have det sidste tal med, er, at antallet af borgere indenfor arbejdsstyrken (lad os kalde det indbyggertallet for nemheds skyld) i sig selv skal indgå som forklarende variabel i analysen.

Indekstallet bliver altså værdien for den afhængige variabel, mens bl.a. "indbyggertal", "kulturbudget" (relativ i.f.t. samlet kommunalbudget), "km til nærmeste universitet" mm. kommer til at indgå som forklarende variable.

Hvis ikke jeg laver det om til indekstal, vil indbyggertallet i kommunen få voldsom stor vægt i analysen, hvilket ikke er meningen, da den omhandler en problemstilling vedrørende "kulturbudget" og "udd.-niveau" i befolkningen.

Brugbart svar (0)

Svar #16
01. maj 2007 af Madsst (Slettet)

Jeg forstår ikke helt hvorfor du vil have indekstal. Jeg forstår godt at du ikke vil bruge de absolutte størrelser, men hvorfor ikke bare bruge andele? Det kan hurtigt blive svært fortolke koefficienterne hvis du bruger indekstal tror jeg. At bruge andele i stedet for absolutte størrelser vil formentlig også reducere eventuel heteroskedasticitet. Det er dog helt tilladt at bruge indeksvariable hvis de fortolkes rigtigt.
Det ville også gøre det væsentligt nemmere at hjælpe dig lidt længere på vej, hvis du fortalte hvilken slags datasæt du arbejder med. Min anbefaling vil være at du skal arbejde med tværsnit, da det er teknisk lettest i forhold til inferens. Som udgangspunkt er det også en ide at strukturere din problemstilling efter de tilgængelige data, da data kan være svært at få fat i.
En anden lille ting er at man i sådanne regressioner ofte har umålelige variable. Her især "evner". Derfor har man ofte en proxy variabel ved IQ eller lignende. At finde et datasæt hvor en sådan variabel findes er nok derfor dit udgangspunkt (det skal du selvfølgelig selv bestemme :-) )
Når du lidt mere præcist har fundet data, vil jeg meget gerne hjælpe med inferens og evt. hjælpe lidt med at kigge på funktionel form.

Svar #17
01. maj 2007 af TommyBl (Slettet)

@ Mads

Tak for svaret og dit venlige tilbud. Jeg er nødt til at kigge lidt mere på det, og så vil jeg vende tilbage med et svar.

Brugbart svar (0)

Svar #18
01. maj 2007 af Bruger slettet (Slettet)

hele misforståelsen kommer af, at du bruger ordet: indexvariabel. Du mener sikker indexeret variabel? Prøv at se her:
http://www.google.dk/search?hl=da&q=%2B%22multiple+regression%22+%2Bindexeret+variable%22&btnG=S%C3%B8g&meta=

Brugbart svar (0)

Svar #19
01. maj 2007 af Madsst (Slettet)

Der ligger i øvrigt nogle datasæt du kan kigge på her:
http://www.econ.ku.dk/metrics/qm2/forelæsninger.htm
17 og her: http://www.econ.ku.dk/polit/studerende/eksamen/opgrv/default.asp?del=2år&fag_id=91&fagnavn=Økonometri%201
Da det kan være temmelig besværligt at samle et datasæt på en ordentlig måde synes jeg du skal overveje at finde et færdigt sæt.

Brugbart svar (0)

Svar #20
01. maj 2007 af Madsst (Slettet)

Mærkeligt med den her side og links...
se her: rettevejledning -> 2. år -> økonmetri 1 http://www.econ.ku.dk/polit/studerende/eksamen/#opgaver
og her: forelæsninger -> forelæsning 17 (under data) http://www.econ.ku.dk/metrics/qm2/default.htm

Skriv et svar til: Multipel regression - variable

Du skal være logget ind, for at skrive et svar til dette spørgsmål. Klik her for at logge ind.
Har du ikke en bruger på Studieportalen.dk? Klik her for at oprette en bruger.