Pearsons korrelasjonskoeffisient
Korrelasjonskoeffisienter tar verdier på en enhetsfri skala fra -1 til +1 som uttrykk for henholdsvis negativ og positiv korrelasjon, der verdien 0 angir ingen korrelasjon.
Pearsons korrelasjonskoeffisient måler styrken av den lineære sammenhengen mellom to variabler. Hvis man plotter variablenes verdier og tilpasser en rett linje mellom punktene, angir korrelasjonskoeffisienten hvor nært punktene er til linjen. Hvis alle punktene ligger på en rett linje, blir korrelasjonen «perfekt» med en korrelasjonskoeffisient lik enten -1 eller +1. Hvis det ikke er en lineær sammenheng, blir korrelasjonskoeffisienten lik 0. Dette estimatet er viktig, nyttig og mye brukt, men gir likevel begrenset statistisk informasjon.
Korrelasjonskoeffisienten forteller oss ikke den nøyaktige tallmessige lineære sammenhengen, for eksempel stigningsgraden til den rette linjen mellom punktene (2). Dette er illustrert i figur 1. La oss tenke oss 50 observasjoner av to variabler, x og y, som kan ta verdier fra 0 til 100. Korrelasjonene i plottene a og b er begge nøyaktig 0,5 (p < 0,001), men stigningstallet og den tallmessige sammenhengen er forskjellige. En korrelasjonskoeffisient alene gjør det ikke mulig å predikere en forventet verdi til den ene variabelen basert på en observert verdi fra den andre. Da er det nødvendig med en regresjonsanalyse.
En signifikanstest av korrelasjonskoeffisienten er, hvis ikke annet er spesifisert, en test av om korrelasjonen er lik 0. En signifikant korrelasjonskoeffisient er ingen garanti for en relevant assosiasjon. Dette henger sammen med antall observasjoner. I et datasett med 100 observasjoner trenger verdien til en signifikant korrelasjon på 0,05-nivå ikke å være større enn 0,2. Ved 500 observasjoner er signifikante korrelasjonskoeffisienter ikke nødvendigvis større enn 0,09. Da forklarer den lineære sammenhengen mellom de to variablene mindre enn 1 % av variasjonen i dataene.
For mest valid statistisk anvendelse, tolkning og signifikanstesting bør de parvise observasjonene av to variabler være kontinuerlige, ha en lineær sammenheng, ikke ha data med betydelig avvik fra sammenhengen (såkalte uteliggere eller «outliers») og følge en bivariat normalfordeling.
Korrelasjon og regresjon
14.05.2018Are Hugo Pripp har sannsynligvis ønsket å gi en lettforståelig fremstilling av korrelasjonsanalyser (1). Men, «det er ingen kongelig vei til geometri». Snarveier og tilnærmet korrekte fremstillinger kan bidra til å underbygge misforståelser, feilaktigheter og…