Matematik
Statistik
Hvis jeg gerne vil vurdere om der er en sammenhæng mellem alder og en sygdom, hvilket statistisk test benytter man så, når alder er en kontinuert variabel?
Svar #1
08. december 2012 af guzbak
Sygdommen er kategorisk.
Angiv gerne om mit svar var brugbart, ved at trykke på "brugbart svar".
// Guzbak
Svar #2
08. december 2012 af peter lind
Du skal have fat i nogle testpersoner med en rimelig spredning på alder. Dernst skal man finde ud af hvor stor en del af disse testpersoner, der har sygdommen. Personerne inddeles i flere aldersfrupper. Man laver så den 0 hypotese at resultatet er uafhængig af alder. Det kan testes med en χ2 test hvis der er forsøgspersoner nok
Svar #4
08. december 2012 af guzbak
Altså, sygdommen er binær, ja/nej. Det var det jeg mente :-)
Men det er fordi jeg har opstillet sammenhæng mellem sygdom og køn, hvor begge har været binære, og der brugte jeg lineær regression vha. 2x2 tabeller som jeg opstillede.
Nu er jeg bare i tvivl, for man kan vel ikke gøre det på samme måde, hvis jeg skal se på en kontinuert variabel
Vil det så sige at jeg skal bruge X2-testet ? Og der skal vel være 5+ observationer i hvert tilfælde ? (det er der).
Angiv gerne om mit svar var brugbart, ved at trykke på "brugbart svar".
// Guzbak
Svar #5
08. december 2012 af peter lind
med forbehold for mit begrænsese kendskab til det aktuelle tilfælde så ja til det sidste
Svar #6
08. december 2012 af guzbak
Men kan du forklare i hvilke tilfælde man bruger testene for uafhængighed, i forhold til om det er kategoriske eller binære variable?
Angiv gerne om mit svar var brugbart, ved at trykke på "brugbart svar".
// Guzbak
Svar #7
08. december 2012 af Singlefyren (Slettet)
lineær regression kan du vel kun stole på hvis du har utrolig mange data. Du skal også vide om modellen/sygdommen er lineær eller ej. Desuden har du ikke en "facitliste" for præcis hvornår dine data er ens. Regression er derfor ikke en uafhængigheds test.
Chi2 test (X2) kan benyttes både på binære udfald og kategoriske udfald. Derfor er Chi2 den mest anvendelige test. Chi2 favner bredt i modsætning til fx binominal-test, der kan bruge til enkelte kategorier, binære udfald.
Svar #8
08. december 2012 af guzbak
Jeg har 180 observationer, så jeg tror det er okay at bruge lineær regression.
Jeg skal undersøge sammenhængen mellem risikoen for sygdommen og alderen og for sygdommen og køn.
Men jeg ved bare ikke helt hvordan man fx kan skitsere et histogram over køn, for at undersøge normalfordelingen.
Alderen har jeg undersøgt i forhold til lineariteten, men jeg ved heller ikke hvordan man kan plotte binære variable på en god måde, for at vurdere lineariteten.
Angiv gerne om mit svar var brugbart, ved at trykke på "brugbart svar".
// Guzbak
Svar #9
08. december 2012 af Singlefyren (Slettet)
...for at undersøge normalfordelingen"?? Der er vel ikke normalfordeling hvis udfaldet er binært og lineært med alder?
...for at vurdere lineariteten... Det er vel derfor du har lavet lineær regression. Hvis du absolut også vil plotte dem grafisk kan du bruge dotplot. (prikker).
Husk at man godt kan tegne flere grafer eller histogrammer ved siden af hinanden, eller over hinanden.
Svar #10
08. december 2012 af guzbak
Men en af betingelserne er at residualerne er normalfordelte, det er det jeg gerne vil undersøge :-)
Angiv gerne om mit svar var brugbart, ved at trykke på "brugbart svar".
// Guzbak
Svar #11
08. december 2012 af Singlefyren (Slettet)
Hvis opgaven blot siger "undersøge OM der er en sammenhæng" skal du kun lave chi2 test. Een test for alder og een test for køn.
Svar #12
08. december 2012 af guzbak
Der står vi skal belyse sammenhængen.
Men det gør vi vel ved at sige om der er eller om der ikke er en sammenhæng.
Problemet med Chi testet er bare at man ikke får estimater ud, men plot en p-værdi, og derfor kan man ikke se hvor sammenhængen ligger, hvis der skulle være en sammenhæng. Simpel lineær regression giver da estimater, som vi kan tolke på, i forhold til riskoen (herunder odds).
Angiv gerne om mit svar var brugbart, ved at trykke på "brugbart svar".
// Guzbak
Svar #13
08. december 2012 af Singlefyren (Slettet)
I chi2 testen kan man godt se hvor sammenhængen ligger, hvis man har forventningsmatrixen.
Mht. køn kan (og skal) man kun se om der er afhængighed eller ej. (og hvilket køn der evt. er flest af)
Mht alder kan man dog også plotte et procenthistogram. Men man kan vel også se det af forventningsmatrixen, om der fx er flere ældre som har sygdommen. Jeg går ud fra at man laver en 5-års intervaller (25-29 år, 30-34år osv.). Også smart at lave lineær regression over procenten.
Det gode ved p-værdien er at man kan se om forskelle er ubetydelige og skyldes tilfældig varians, eller om der virkelig er forskel. Men svaret skal selvfølgelig opfølges med en analyse. Denne analyse behøver dog ikke være kompleks.
:)
Svar #14
08. december 2012 af guzbak
Jeg er bare blevet rigtig forvirret nu.
Hvis jeg skal belyse sammenhængen mellem risikoen for sygdommen og køn, er det så ikke muligt at bruge lineær regression? Eller er det bare nemmere at bruge Chi2 testet, og self opstille 2x2 matricen samt de forventede værdier.
Angiv gerne om mit svar var brugbart, ved at trykke på "brugbart svar".
// Guzbak
Svar #15
08. december 2012 af guzbak
Det jeg har gjort:
vha. simpel lineær regression (glm) har jeg fundet estimaterne for at se hvor meget oddsene er større for at få sygdommen ift. til referencegruppen (mand vs. kvinde).
Jeg har fået p-værdien som viser at der ikke er en signifikant forskel.
fordi data er skævt fordelt har jeg beregnet sandsynligheden.
- men problemet er bare mine modelantagelser!
og så er jeg i tvivl om responsvariablen skal være kontinuert ved lineær regression eller ej, for min respons er vel om man er syg eller ej = binær.
Angiv gerne om mit svar var brugbart, ved at trykke på "brugbart svar".
// Guzbak
Svar #16
08. december 2012 af Singlefyren (Slettet)
Du minder åbenbart om mig selv, da jeg var yngre. Ville altid lave det hele perfekt og komplekst.
Jeg er dog blevet mere erfaren. Det er godt det du gør. (Men det er ikke det opgavestilleren ønsker).
En klog samfunds analytiker sagde en gang: Det er bedre at kigge på varianserne mellem de forskellige grupper, end kun at se gennemsnitsværdien." Så her er det fedt at du er så ambitiøs og nuanceret!
Svar #17
08. december 2012 af guzbak
øv.... :(
Men ja, jeg kan godt se at jeg også har problemer med de fire modelantagelser, når jeg ønsker at anvende regression grundet ikke-nummeriske variable.
Men jeg skal senere se på det samme, blot hvor der er tre baggrundsvariable (to binære og en kontinuert), er vi så enige om at jeg skal bruge multipel regression der ?
Angiv gerne om mit svar var brugbart, ved at trykke på "brugbart svar".
// Guzbak
Svar #18
08. december 2012 af Singlefyren (Slettet)
Som sagt. En chi2 test er helt fint, kombineret med en beskrivende komklussion.
#17 : hvad er de 3 variable helt konkret? Det er nemmere med eksempler!
Svar #19
08. december 2012 af guzbak
* Okay, tak :-) Så vil jeg lave lidt om i det jeg har skrevet.
* som sagt giver Chi2 testet ikke estimater, vil det så være en idé at beregne sandsynligheden her ? Det giver måske et bedre overblik over hvor forskellen ligger? og så tager det også højde for den skæve fordeling i data.
* Jeg ville jeg lige høre noget en sidste ting omkring chi2 testet. Med mit statistik program kan jeg beregne "expected" values, det er vel det du kalder forventningsmatricen, som vi opstiller vha. 2x2 tabellen.
Spørgsmålet er da: Hvad er det konkret man bruger de forventede værdier til? Der er vist noget med, at hvis de er for små, så kan man ikke bruge dem alligevel?? eller er det kun hvis nogle tal er under 5 ? og når du så finder dine forventede værdier, skal det så passe med det som du får ud af selve testet ?
(jeg har også set videoen på frividen, men følte stadig jeg var lidt i tvivl)
* køn, 2. alder, 3. operationssted (Amager Hospital & Herlev Hospital) :-)
Angiv gerne om mit svar var brugbart, ved at trykke på "brugbart svar".
// Guzbak
Svar #20
08. december 2012 af Singlefyren (Slettet)
*1) Hvis du i din matrix skriver forventningsværdien i parentes efter den virkelige målt tal, Så kan du let se afvigelserne.
f.eks mænd kvinder
syge 86 (64) 57 (79)
ikkesyge 31 (53) 88 (79) ... så kan du jo visuelt se (hvis p<0.05) at mændene er for syge.
Husk at de enkelte forventningsværdier findes som rækkesum*søjlesum/totalsum
*2) ja
*3) forventede værdier bruges i processen til at finde p-værdien. (programmet regner det automatisk). Man kan se om der er nogle målte værdier der evt. skiller sig meget ud fra de forventede. (parrene skal cirka være ens, 0-25% afvigelse er ok). Det væsentlige er dog det endelige svar - p-værdien, som man til sidst tjekker er under eller over 0.05.
Er den over 0.05 er det ligegyldigt om parrene passer sammen eller ej. Det gør de underforstået hvis p> 0.05.
p-værdien findes som en samlet helhed af matrixen. Er den under 0.05 kan man tjekke hvor skævhederne er.
Chi2-test bliver som du korrekt skriver kun retvisende, hvis de fleste tal er >5.
*4) Du kan enten 1) lave 3 selvstændige chi2 test. 2) Dele i grupper f.eks. (mænd på Herlev, kvinder på Herlev, dvs. 4 kategorier)
og en anden test med f.eks. (24-29 årige på Herlev, osv. )
