Er effekten liten eller stor?

Stian Lydersen Om forfatteren
Artikkel

Hvordan tallfester vi resultatet av en studie? Er det effekten målt på originalskalaen eller en standardisert effektstørrelse som er mest relevant?

Reindal og medarbeidere (1) studerte alderen til barn da de gikk uten støtte første gang. For barna som fikk diagnosen autismespekterforstyrrelse, var den gjennomsnittlige alderen (standardavvik) 14,74 (4,28) måneder. For barna uten autismespekterforstyrrelse var den 13,76 (2,88) måneder. Forskjellen var altså 14,74 − 13,76 = 0,98 måneder. Dette kalles effekt målt på originalskalaen, eller ustandardisert effektstørrelse. I tillegg oppgir forfatterne en standardisert effektstørrelse i form av differansen delt på standardavviket i sammenlikningsgruppen, altså 0,98 / 2,88 = 0,34. Denne kan tolkes som antall standardavvik i forskjell mellom gruppene (se figur 1). Hvilken av disse størrelsene er mest relevant?

Figur 1 Gjennomsnitt for alder (standardavvik) da de gikk uten støtte første gang, hos 376 barn med diagnosen autismespekterforstyrrelse og 114 uten diagnosen (1). Differansen var 0,98 måneder, som tilsvarte Cohens d = 0,34.

Hva er effektstørrelse?

Termen effektstørrelse er ikke presis. Noen forfattere bruker den i betydningen Cohens d eller et relatert mål som Glass’ delta eller Hedges’ g (2). Disse er differansen mellom to gjennomsnitt, delt på et standardavvik, og er eksempler på standardiserte effektstørrelser. Andre eksempler på standardiserte effektstørrelser er Pearsons korrelasjonskoeffisient, standardisert regresjonskoeffisient i lineær regresjon og partiell eta kvadrert i variansanalyser (ANOVA).

Det er ikke uvanlig å oppgi standardiserte effektstørrelser innen adferdsvitenskapene. Men hvilken rolle har de egentlig? Forskere som oppgir standardiserte effektmål, siterer vanligvis boka Statistical Power Analysis for the Behavioral Sciences av Jacob Cohen (1923–98) (3, 4). Cohen innfører i denne boka standardiserte effektstørrelser som grunnlag for å beregne statistisk styrke eller utvalgsstørrelse i en fremtidig studie. Men han skriver ikke noe om bruk av standardiserte effektstørrelser ut over denne anvendelsen.

Hva som er en relevant effektstørrelse i en studie etter at den er gjennomført, er avhengig av konteksten. Eksempler på ustandardiserte effektstørrelser er differanse mellom to gjennomsnitt, ustandardisert regresjonskoeffisient, oddsforhold (oddsratio) og risikodifferanse. Flere forfattere anbefaler generelt å rapportere ustandardiserte effektstørrelser (5, 6). En bredere diskusjon av ustandardiserte og standardiserte effektstørrelser finnes i artiklene (7) og (8).

Cohen selv klassifiserer Cohens d som liten, moderat, eller stor hvis den er lik henholdsvis 0,2, 0,5 eller 0,8 (4, s. 26). Andre forfattere klassifiserer standardiserte effektstørrelser i intervall, og til dels noe annerledes enn Cohen, se f.eks. (4, s. 79–80) og (9, s. 123). Klassifisering av standardiserte effektstørrelser kan være nyttig ved beregning av styrke og utvalgsstørrelse, men anses av flere forfattere å være lite relevant for å klassifisere observert effekt i en gjennomført studie (5, 8).

Ustandardisert er lett å forstå

Når man oppgir at differansen i alder for å gå uten støtte mellom to grupper er 0,98 måneder, er dette lett å forstå. Gir den standardiserte effektstørrelsen Cohens d = 0,34 noen klinisk relevant tilleggsinformasjon? Standardiserte effektstørrelser kan som nevnt være nyttige som grunnlag for beregning av statistisk styrke eller utvalgsstørrelse i en fremtidig studie, og i tillegg kan de være nyttige som datagrunnlag i metaanalyser (2), men ut over dette synes de å være lite relevante.

Anbefalte artikler