Matematik

Sammenlingning af 2 datasæt i Excel. Hvad er R^2 og korrelationskoefficient?

24. april 2021 af LineLNielsen - Niveau: Universitet/Videregående

Jeg skal sammenligne 2 datasæt.

Det ene sæt er en besvarelse af hvor behagelig en lytteistuation var fra 1-10

Det andet sæt er personens puls i det de besvarede dette spørgsmål. 

Min problemformulering lyder så på, hvorvidt der er en sammenhæng mellem disse. 

Jeg kan simpelthen ikke finde ud af hvilken analyse jeg skal lave.

Jeg skal uanset hvad have et scatterplot, hvori jeg vil tilføje en tendenslinje, og derved får jeg også en R^2 værdi. Men jeg ved ikke med 100% sikkerhed, hvad denne R^2 værdi fortæller mig? 

Og så er der funktionen "korrelation/correl" i excel, som giver mig korrlationskoefficienten så vidt jeg har forstået? Er det den værdi der i formler betegnes r? 

Der kommer til at være omtrent 700 datapunkter. 

Håber nogen kan hjælpe for jeg er ved at blive skør over at prøve at finde hoved og hale i det! :( 


Brugbart svar (1)

Svar #1
24. april 2021 af jl9

Korrelationskoefficienten er den "lineær sammenhæng" mellem to datasæt. Hvis koefficienten er 1, så er de to datasæt ens (minus 1 hvis de er ens med modsat fortegn). Hvis koefficienten er 0 er de to datasæt så forskellige som muligt (ortogonale). Så 0,7 er f.eks. en forholdsvis høj korellation.

Jeg vil tro at din R^2 er et "goodness of fit" mål for hvor godt tendenslinjen rammer plottet, men det kan du vidst ikke bruge


Brugbart svar (1)

Svar #2
24. april 2021 af peter lind

Foretag en regression på de data. du kan prøve med lineær, eksponentiel, potens og evt. polynonium regression.

R2 er korrelationskvotienten. Den fortæller i hvor høj grad kurven er lineær. Det bemærkes at eksponetiel og potensregression forvandles til linære regressione, så det giver mening. Den skal være så tæt ved 1 som mulig.

Hvad der er bedst bedømmer du bedst ud fra et cattergram eller ved at se på korrelationskoefficiente. Ved en polynomium regression er der ingen korrelationskvotient


Svar #3
24. april 2021 af LineLNielsen

#1

Korrelationskoefficienten er den "lineær sammenhæng" mellem to datasæt. Hvis koefficienten er 1, så er de to datasæt ens (minus 1 hvis de er ens med modsat fortegn). Hvis koefficienten er 0 er de to datasæt så forskellige som muligt (ortogonale). Så 0,7 er f.eks. en forholdsvis høj korellation.

Jeg vil tro at din R^2 er et "goodness of fit" mål for hvor godt tendenslinjen rammer plottet, men det kan du vidst ikke bruge

Tak! Ved du om korrelationskoefficienten er den man finder ved funktionen "korrelation" i excel?


Svar #4
24. april 2021 af LineLNielsen

#2

Foretag en regression på de data. du kan prøve med lineær, eksponentiel, potens og evt. polynonium regression.

R2 er korrelationskvotienten. Den fortæller i hvor høj grad kurven er lineær. Det bemærkes at eksponetiel og potensregression forvandles til linære regressione, så det giver mening. Den skal være så tæt ved 1 som mulig.

Hvad der er bedst bedømmer du bedst ud fra et cattergram eller ved at se på korrelationskoefficiente. Ved en polynomium regression er der ingen korrelationskvotient

tak for svar!

Hvis R^2 er korrelationskoefficienten, hvilken værdi får jeg så ved funktionen "korrelation" i excel? Jeg har forresten lagt mærke til at hvis jeg tager kvadratroden af R^2 får jeg det tal jeg får ved "korrelation" funktionen... og sætter jeg tallet fra denne funktion i anden får jeg R^2. 

Så er tallet fra funktionen "korrelation" min korrelationskoefficient, og R^2 er pearsons korrelationskoeficient eller blot korrelationskoeficienten i anden?

Jeg er heller ikke sikker på hvad du mener med foretag en regression, kan du uddybe det?


Brugbart svar (1)

Svar #5
24. april 2021 af jl9

ja det er denher

https://support.microsoft.com/da-dk/office/korrelation-funktionen-995dcef7-0c0a-4bed-a3fb-239d7b68ca92

Ser ud til at det er en normaliseret co-varians når jeg ser på ligningen


Brugbart svar (0)

Svar #6
24. april 2021 af jl9

tager kvadratroden af R^2 får jeg det tal jeg får ved "korrelation" funktionen... og sætter jeg tallet fra denne funktion i anden får jeg R^2

Også med eksponentiel, potens og polynomium regression?


Svar #7
24. april 2021 af LineLNielsen

#6

Også med eksponentiel, potens og polynomium regression?


Nej, de er forskellige. Ihvertfald hvis det er de rigtige analyser jeg laver. I mit scatterplot, ved indsætning af tendenslinjen ændrer jeg det bare fra lineær til eksponentiel osv. er det det du mener?

Brugbart svar (0)

Svar #8
24. april 2021 af jl9

Hvilken en er højst? (den kan ikke være højere end 1)


Svar #9
24. april 2021 af LineLNielsen

#8
Hvilken en er højst? (den kan ikke være højere end 1)


Lineær: 0,1061
Logaritmisk: 0,1053
Polynomisk: 0,1061
Potens: 0,0979

Og korrelation funktionen i Excel siger -0,3256826

Det skal dog siges at det data jeg sidder og leger med lige nu, ikke er mit “rigtige” data men blot noget jeg øver mig på, for at se om jeg kan finde ud af at lave analyserne. Jeg har ikke det reelle data jeg skal bruge endnu.

Svar #10
24. april 2021 af LineLNielsen

#8
Hvilken en er højst? (den kan ikke være højere end 1)


Det er forresten bare tendenslinjen jeg formaterer på, er dette det samme som at lave en regressionsanalyse?
Vedhæftet fil:image.jpg

Brugbart svar (0)

Svar #11
24. april 2021 af jl9

En korrelations koefficient på -0,3 ...det kunne tolkes som en svag negativ lineær korelation. Som f.eks. - når "behagelig" går op, så er der en lille tendens til at pulsen går ned


Svar #12
24. april 2021 af LineLNielsen

Fantastisk, tak.
Hvad med de andre tal du spurgte ind til? Ift hvilket der var højst. Hvad var grunden til spørgsmålet? ??

Brugbart svar (0)

Svar #13
24. april 2021 af jl9

det var så lidt. Jeg vil hellere spørge tilbage - du siger 700 datapunkter. Er der 700 personer som hver tager 1 test? Hvilket så giver 700 datapunkter i 2 dimensioner


Svar #14
24. april 2021 af LineLNielsen

#13
det var så lidt. Jeg vil hellere spørge tilbage - du siger 700 datapunkter. Er der 700 personer som hver tager 1 test? Hvilket så giver 700 datapunkter i 2 dimensioner

Nej. Det er 10 personer der har gået med noget udstyr i 14 dage, hvor de undervejs har svaret på et spørgeskema nogle gange om dagen. Så 10 personer, over 14 dage, med forskellige mængder af besvarede spørgeskemaer (ift behagelighed af lyden) pr dag.

Brugbart svar (0)

Svar #15
24. april 2021 af jl9

okay så 10 forskellige regressions tests. Virker til at du har meget godt styr på det


Svar #16
24. april 2021 af LineLNielsen

Jeg tror mest mit problem ligger i at jeg ikke aner om det er R^2, r eller en p-værdi jeg skal bruge. Ved du hvad en p-værdi er, og evt hvordan man finder sådan en i Excel?

Og hvad mener du med 10 forskellige regressionstests? Min tanke var at jeg ville lave et scatterplot (og også finde en korrelationskoefficient) for hver af de 10, men også lave sådan “en stor test” med alle forsøgspersonerne i én test analyse.


Brugbart svar (0)

Svar #17
25. april 2021 af jl9

tror nok at p-værdien har noget med statistisk signifikans at gøre i en hypotese-test. Man kan f.eks. teste hvor statistisk korrekt hypotesen "to datasæt har en ens varians" er. Eller f.eks. om et datasæt er normalfordelt.

https://videnskab.dk/naturvidenskab/hvad-er-p-vaerdi-og-hvad-betyder-statistisk-signifikans


Brugbart svar (0)

Svar #18
25. april 2021 af peter lind

#16 Se #2

Du skal i hvert fald lave flere regessionsanalyser og et scattergram og  bruge r2. Se også på scatergrammet om det ser rimeligt ud. Om du så yderligt vil bruge statistiske test er op til dig selv


Skriv et svar til: Sammenlingning af 2 datasæt i Excel. Hvad er R^2 og korrelationskoefficient?

Du skal være logget ind, for at skrive et svar til dette spørgsmål. Klik her for at logge ind.
Har du ikke en bruger på Studieportalen.dk? Klik her for at oprette en bruger.