Matematik

Statistik

07. marts 2007 af Madsst (Slettet)
I forbindelse med noget lineær regression skal jeg tage logaritmen til et datasæt. I det her datasæt er der en masse 0'er, hvilket jo giver en masse fejl. Er der nogen der ved hvad man gør i en sådan situation?

Brugbart svar (0)

Svar #1
08. marts 2007 af sigmund (Slettet)

Jeg ved ikke, hvad er kutyme indenfor branchen. Et bud ville være at forskyde settet lidt til højre. (Nu forestiller jeg mig et scatter-plot med en masse punkter; selvom du forskyder alle punkterne lidt til højre, således at alle er positive, skulle du ikke ændre punkternes indbyrdes beliggenhed.)

Svar #2
08. marts 2007 af Madsst (Slettet)

Ja, det tænkte jeg også på. Jeg kan bare ikke helt genneskue om estimaterne så stadig er middelrette. ligeledes hvis jeg dropper observationerne.

Brugbart svar (0)

Svar #3
08. marts 2007 af sigmund (Slettet)

#2,

Jeg ved ikke hvad der menes med "middelrette" estimater. Statistik har jeg kun lært via engelske bøger. Har du evt. en engelsk pendant?

Svar #4
08. marts 2007 af Madsst (Slettet)

#3 Ja, en ikke middelret estimator er "biased". Så middelret betyder "unbiased".

Svar #5
08. marts 2007 af Madsst (Slettet)

Hehe.. ord... Det betyder at den forventede værdi af den stokastiske variabel, estimatoren, er lig den sande værdi for populationen.

Brugbart svar (0)

Svar #6
08. marts 2007 af sigmund (Slettet)

#5,

Ja, så meget har jeg fundet ud af via en af mine egelske statistikbøger.

Nå, tilbage til dit problem. Du har altså nogen data, på hvilke du vil lave lineær regression. Først vil du dog beregne logaritmen. Hvorfor vil du det? Kan du komme den konkrete opgave nærmere?

Svar #7
08. marts 2007 af Madsst (Slettet)

#6 okay :) Jeg ville bare være sikker på at vi fik styr på ordet. Det kunne jo godt være der flere forskellige.

Ja, jeg skal lave simpel lineær regression på to variable, hvor den ene har en masse 0'er. Jeg vil tage logaritmen, så jeg kan lave regressionen:
log(y)=b1+b2x, som man bruger til at estimerer procentvise ændringer i y. Jeg tror ikke det hjælper meget at snakke omkring specifikke data. Problemet er bare at jeg skal tage logaritmen til 0 en masse gange, faktisk næsten halvdelen af datasættet.

Brugbart svar (0)

Svar #8
08. marts 2007 af sigmund (Slettet)

Nå, jeg må i seng nu. Vender tilbage i morgen. Vi må finde ud af den opgave. Mit bedste bud er at forskyde sættet. Det kan dog være, at det bevirker et ikke-middelret estimat. Som jeg ser det, så ligger problemet ved logaritmen, idet den ikke er en lineær operator (den opfylder ikke log(x+y)=log(x)+log(y) og log(kx)=k*log(x), hvor k er en konstant).

Svar #9
08. marts 2007 af Madsst (Slettet)

#8 At bruge logaritmen er så vidt jeg forstår meget normal praksis. Om logaritmen er lineær eller ej tror jeg ikke betyder noget, så længe modellen er lineær i parametrene. Det er jo kun logaritmen til data der tages og modellen bliver som sådan ikke påvirket på anden måde end at koefficienterne får en anden fortolkning.

Skriv et svar til: Statistik

Du skal være logget ind, for at skrive et svar til dette spørgsmål. Klik her for at logge ind.
Har du ikke en bruger på Studieportalen.dk? Klik her for at oprette en bruger.