Dikotomisering av målevariabler – hva er prisen?

Eva Skovlund Om forfatteren

Kommentarer

(2)
Denne artikkelen ble publisert for mer enn 12 måneder siden, og vi har derfor stengt for nye kommentarer.
Joar Øveraas Halvorsen
Om forfatteren

Eva Skoglund har skrevet nok en god og informativ artikkel i Tidsskriftets statistikkspalte. Skoglund viser at dikotomisering av kontinuerlige variabler kan ha en rekke uheldige konsekvenser, hvor en av de viktigste er tap av statistisk styrke. Dette er en velkjent problemstilling (1). Skoglund påpeker at lav eller dårlig statistisk styrke er en risikofaktor for falske-negative forskningsfunn (type II-feil), og at man feilaktig konkluderer at det ikke er en statistisk signifikant forskjell mellom for eksempel to behandlingsbetingelser. Skoglund unnlater imidlertid å nevne at lav eller dårlig statistisk styrke faktisk også er en risikofaktor for falske-positive forskningsfunn (type I-feil) (2-4), og overestimerte effektstørrelser (5, 6). Derfor kan dikotomisering av variabler med påfølgende tap av statistisk stryke, kanskje noe paradoksalt, være en risikofaktor for både type I- og type II-feil samt overestimering av effektstørrelser. Det er viktig at klinikere er klar over av studier med lav eller dårlig statistisk styrke risikerer både å feilaktig beholde og forkaste nullhypotesen. Det vil være uheldig om klinikere har et inntrykk av at lav statistisk styrke kun er en risikofaktor for falske-negative forskningsfunn, og at statistisk signifikante funn fra studier med lav statistisk styrke er til å stole på. Studier med lav statistisk styrke bør tolkes særlig varsomt og kritisk – uavhengig av om resultatene er statistisk signifikante eller ei.

Litteratur
1. Tabachnick BG, Fidell LS. Using multivariate statistics (5. utg.). Boston: MA: Allyn & Bacon/Pearson Education, 2007.
2. Button KS, Ioannidis JPA, Mokrysz C et al. Power failure: Why small sample size undermines the reliability of neuroscience. Nature Reviews Neuroscience 2013, 14:365-376.
3. Christley RM. Power and error: Increased risk of false positive results in underpowered studies. The Open Epidemiology Journal 2010, 3:16-19.
4. Ingre M. Why small low-powered studies are worse than large high-powered studies and how to protect against “trivial” findings in research: Comment on Friston (2012). NeuroImage 2013, 81:496-498.
5. Ioannidis JPA. Why most discovered true associations are inflated. Epidemiology 2008, 19:640-648 610.1097/EDE.1090b1013e31818131e31818137.
6. Yarkoni T. Big Correlations in Little Studies: Inflated fMRI Correlations Reflect Low Statistical Power—Commentary on Vul et al. (2009). Perspectives on Psychological Science 2009, 4:294-298.

Eva Skovlund
Om forfatteren

Halvorsen har helt rett i at man skal tolke studier med lav styrke varsomt og kritisk. Det er ikke slik at en lav p-verdi fra en studie med lav styrke nødvendigvis må innebære at den sanne effekten er stor. Artikler Halvorsen refererer til påpeker at den positive prediktive verdien (PPV) av en «signifikant» p-verdi, med andre ord sannsynligheten for at en nullhypotese er gal gitt at man har forkastet den, blant annet er avhengig av teststyrken. Jo lavere styrke, desto lavere positiv prediktiv verdi, og dermed høyere risiko for at nullhypotesen er sann selv om den ble forkastet.

Derimot blander Halvorsen begreper når han hevder at lav teststyrke øker risikoen for type I-feil. Positiv prediktiv verdi og sannsynlighet for type I-feil er to forskjellige betingede sannsynligheter. Man begår en type I-feil når man forkaster en nullhypotese selv om den er sann. Det er vanlig å benytte en øvre grense på 5% for sannsynligheten for å begå denne feilen (signifikansnivå α=0,05). Denne sannsynligheten sier ingenting om sannsynligheten for at nullhypotesen er sann, og den er uavhengig av teststyrken.