Pearsons korrelasjonskoeffisient
Korrelasjonskoeffisienter tar verdier på en enhetsfri skala fra -1 til +1 som uttrykk for henholdsvis negativ og positiv korrelasjon, der verdien 0 angir ingen korrelasjon.
Pearsons korrelasjonskoeffisient måler styrken av den lineære sammenhengen mellom to variabler. Hvis man plotter variablenes verdier og tilpasser en rett linje mellom punktene, angir korrelasjonskoeffisienten hvor nært punktene er til linjen. Hvis alle punktene ligger på en rett linje, blir korrelasjonen «perfekt» med en korrelasjonskoeffisient lik enten -1 eller +1. Hvis det ikke er en lineær sammenheng, blir korrelasjonskoeffisienten lik 0. Dette estimatet er viktig, nyttig og mye brukt, men gir likevel begrenset statistisk informasjon.
Korrelasjonskoeffisienten forteller oss ikke den nøyaktige tallmessige lineære sammenhengen, for eksempel stigningsgraden til den rette linjen mellom punktene (2). Dette er illustrert i figur 1. La oss tenke oss 50 observasjoner av to variabler, x og y, som kan ta verdier fra 0 til 100. Korrelasjonene i plottene a og b er begge nøyaktig 0,5 (p < 0,001), men stigningstallet og den tallmessige sammenhengen er forskjellige. En korrelasjonskoeffisient alene gjør det ikke mulig å predikere en forventet verdi til den ene variabelen basert på en observert verdi fra den andre. Da er det nødvendig med en regresjonsanalyse.
En signifikanstest av korrelasjonskoeffisienten er, hvis ikke annet er spesifisert, en test av om korrelasjonen er lik 0. En signifikant korrelasjonskoeffisient er ingen garanti for en relevant assosiasjon. Dette henger sammen med antall observasjoner. I et datasett med 100 observasjoner trenger verdien til en signifikant korrelasjon på 0,05-nivå ikke å være større enn 0,2. Ved 500 observasjoner er signifikante korrelasjonskoeffisienter ikke nødvendigvis større enn 0,09. Da forklarer den lineære sammenhengen mellom de to variablene mindre enn 1 % av variasjonen i dataene.
For mest valid statistisk anvendelse, tolkning og signifikanstesting bør de parvise observasjonene av to variabler være kontinuerlige, ha en lineær sammenheng, ikke ha data med betydelig avvik fra sammenhengen (såkalte uteliggere eller «outliers») og følge en bivariat normalfordeling.
Are Hugo Pripp har sannsynligvis ønsket å gi en lettforståelig fremstilling av korrelasjonsanalyser (1). Men, «det er ingen kongelig vei til geometri». Snarveier og tilnærmet korrekte fremstillinger kan bidra til å underbygge misforståelser, feilaktigheter og manipulering av forskningsbudskap.
Korrelasjon (R) og regresjon henger sammen og kan ikke skilles. Det er for upresist å si at de røde linjene i figur 1 (1) er tilpassede linjer; det er regresjonslinjer hvor summen av de vertikale avstander mellom x-verdiene og linjen, benevnt residualer, er minst. Beregning av R begynner med å summere kvadrerte residualer, (KR).
Forskjellen i de to plottene (1) er neppe forskjell i stigning på regresjonslinjen, men kun forskjell i x-verdienes enheter. Man kan aldri sammenligne regresjonslinjens stigning hvis man ikke har benyttet samme enheter og skala, eventuelt må en utføre standardisert regresjon.
R-verdien viser ikke avstanden mellom punktene og regresjonslinjen; slike avstander er en måte å vurdere overensstemmelse på. R-verdien benyttes ofte, helt feilaktig, til å gi uttrykk for god eller dårlig overensstemmelse. For å bergene R-verdien trenger vi også summen av kvadratene av forskjellene mellom x-verdiene og gjennomsnittet av x-verdiene, benevnelsen «kvadrert total» kan benyttes (KT). R-verdien er proporsjonal til KR/KT. Jo større «kvadrert total» (KT), desto bedre R-verdi og tilsynelatende bedre overensstemmelse. «Kvadrert total» (KT) øker alltid med økt bredde (range) på y-verdiene og følgelig vil R-verdien alltid øke med økt bredde på utvalget av objekter. Å sørge for stor bredde på utvalget av objekter er et vekjent knep for å få en god R og tilsynelatende god overensstemmelse. Overensstemmelse er upåvirket av utvalgsbredden.
Ved R=0,09 forklarer variasjon i y så lite som 0,0081 prosent av variasjonen i x. For å bergene forklaringsprosenten benyttes ikke R, men r2, altså: r2 = 0,092 = 0,0081.
Påstanden om at man kan benytte regresjon til å predikere det ene tallet fra det andre er for upresist. Man kan lage «predikerte x-verdier» fra y-verdiene, men ikke y fra x. Hva slike predikerte verdier kan brukes til er for meg uklart. Hvis det ikke er en lineær assosiasjon er ikke R nødvendigvis 0. En kurvet sammenheng kan gi en høy R.
Pripp viser at p-verdien henger sammen med antall observasjoner, men om en korrelasjon/assosiasjon er (medisinsk faglig) relevant kan uansett ikke vurderes basert på p-verdier.
Jeg utfordrer Pripp til å diskutere betydningen av at den uavhengige variabel (y) aldri er 100% presis, noe korrelasjon og regresjonsanalysen forutsetter. Flere forhold nevnt over er forøvrig beskrevet i Lægeforeningens Tidsskrift i 1990, (2).
Litteratur
1. Pripp AH. Pearsons eller Spearmans korrelasjonskoeffisienter. Tidsskr Nor Legeforen nr 8, 2018; 138.
2. Høiseth A. Er statistiske analyser egnet ved vurdering av målinger? Tidsskr Nor Lægeforen. 1990; 110: 1968-71.
Takk for kommentaren om korrelasjon og regresjon. Et viktig budskap om korrelasjonskoeffisienter er at ulike (tallmessige) sammenhenger mellom variabler kan gi like korrelasjonskoeffisienter. Figuren i artikkelen viser et meget enkelt eksempel på dette, der spredningen til y-variablene i de to plottene er forskjellig. Det er derfor viktig å undersøke sammenhengen mellom variabler med deskriptiv statistikk samt vurdere bruk av regresjonsanalyser for en mer detaljert statistisk fremstilling.
Som påpekt, en p-verdi alene kan ikke vurdere om en assosiasjon er medisinsk relevant. Likevel kan p-verdien med et riktig valg av studiedesign og statistisk analyse gi oss statistisk informasjon om assosiasjonen. Hva som er en relevant assosiasjon kan også være vanskelig å fastslå rent medisinsk, og spesielt hvis man undersøker nye behandlinger, effekter og fenomener. Da kan statistiske estimater, inkludert p-verdier, gi verdifull informasjon for å si noe om relevansen.
«Er statistiske analyser egnet ved vurdering av målinger?» (1). Jeg vil hevde at de ofte er det. Hvis man skal være kritisk på bruk av statistiske analyser av målinger, så er min bekymring ikke nødvendigvis de statistisk-matematiske egenskapene som linearitet og sannsynlighetsfordelinger med mer. Selv om mulighetene for feilaktige antagelser og uriktig bruk av statistiske metoder er store, kan dette i stor grad etterprøves med matematiske modeller og simuleringer. Etter min vurdering, er validiteten til målinger mer kritisk. Kan alle fenomener, tilstander og hendelser måles og tallfestes? Det er alltids mulig å utvikle et måleinstrument, men gir det valide mål for det man ønsker å måle. Selv om statistikk og kvantitative forskningsmetoder er mye brukt og anerkjent i medisin, er det viktig å bruke kvalitative forskningsmetoder der de er best egnet (2). Kanskje kan ikke alt i verden måles med tall!
Litteratur
1. Høiseth A. Er statistiske analyser egnet ved vurdering av målinger? Tidsskr Nor Lægeforen. 1990; 110: 1968-71.
2. Pripp A. Vi trenger likestilte forskningsmetoder. Sykepleien 2016; 104: 56-58. DOI: https://doi.org/10.4220/Sykepleiens.2016.58624