Hvor stor andel av publiserte forskningsresultat er feil?

    ()

    sporsmal_grey_rgb
    Artikkel

    Ikke alle publiserte forskningsresultat lar seg reprodusere – noen fordi funnene ikke er korrekte. Hvor omfattende er problemet?

    Flere forskere har forsøkt å beregne hvor ofte publiserte funn er feil. Tilnærmingene er til dels svært ulike.

    Ulike metoder

    Ulike metoder

    Artikkelen «Why most published research findings are false» av John Ioannidis ble publisert i 2005, og fikk stor oppmerksomhet (1). Artikkelen var ikke basert på data, men postulerte en modell for andelen falskt positive funn blant publiserte positive funn, basert på følgende fire størrelser: andelen faktisk sanne hypoteser blant de hypotesene som undersøkes, statistisk styrke, signifikansnivå (5 %) og skjevhet (bias). Skjevhet i denne sammenhengen betyr den andelen av studiene hvor hypotesen ville fremstå som sann selv om den ikke er det, f.eks. på grunn av publikasjonsskjevhet eller dårlig studiedesign. Ioannidis beregnet positiv prediktiv verdi, altså andelen sanne funn blant positive funn, for en rekke forskjellige kombinasjoner av disse fire størrelsene. For store randomiserte kontrollerte studier med adekvat styrke (80 %) anså han det som realistisk at andelen faktisk sanne nullhypoteser kan være 50 %, og at skjevheten er bare 10 %. Da blir positiv prediktiv verdi beregnet til 85 %. For utforskende observasjonelle studier med adekvat styrke på 80 %, andel sanne nullhypoteser på 9 % og skjevhet på 30 % fås en positiv prediktiv verdi på 20 %. Studier med lavere andel sanne nullhypoteser eller lavere styrke fører til enda lavere positiv prediktiv verdi ((1), tabell 4).

    Jager og Leek estimerte i 2014 andelen falskt positive funn basert på data (2). De leste elektronisk alle de 77 430 publikasjonene i The Lancet, The Journal of the American Medical Association, The New England Journal of Medicine, BMJ og The American Journal of Epidemiology i 2000, 2005 og 2010. Analysene bygger på det faktum at når nullhypotesene er sanne, vil p-verdiene være jevnt fordelt fra 0 til 1, mens når alternativhypotesene er sanne, vil p-verdiene være skjevt fordelt mot 0. Dette er illustrert i figur 1.

    Jager og Leek estimerte andelen falskt positive funn (science-wise false discovery rate) til å være 14 %. Sammen med artikkelen deres ble det publisert diskusjonsinnlegg fra flere forskere. Avslutningsvis kom et tilsvar fra Jager og Leek (3) der de skrev at estimatet på 14 % antakelig er optimistisk, men at andelen trolig ikke er over 50 %, i alle fall ikke for studier som er godt planlagt og godt gjennomført.

    Forskere i gruppen Open Science Collaboration brukte en annen fremgangsmåte for å studere reproduserbarhet (4). De identifiserte 100 studier publisert i 2008 i tre forskjellige psykologitidsskrift. Disse studiene ble gjentatt i nye studier med nye deltakere, med en design mest mulig lik den opprinnelige og med planlagt statistisk styrke på minst 80 %. Dette var et meget omfattende arbeid, og hele 274 personer er listet som forfattere. Hva fant man så? Den estimerte effekten målt ved korrelasjonskoeffisienten var i originalstudiene i gjennomsnitt 0,403 (standardavvik 0,188), og i de gjentatte studiene bare 0,197 (0,257). Av de opprinnelige studiene rapporterte i alt 97 % statistisk signifikant effekt (p-verdi < 0,05), mot bare 36 % av de gjentatte studiene. Etter å ha kombinert de opprinnelige og de gjentatte studiene ble 68 % statistisk signifikante.

    En fallitterklæring?

    En fallitterklæring?

    Disse tre studiene brukte svært ulike metoder. Ioannidis laget en modell som bygger på en rekke antakelser i forskjellige studiedesign. Antakelsene kan synes realistiske, men det er en svakhet at de ikke bygger direkte på data. Jager og Leek baserte seg på rapporterte p-verdier og gjorde beregninger basert på forventede fordelinger av p-verdier når nullhypotesene er sanne eller usanne. Open Science Collaboration gikk enda grundigere til verks: De gjentok 100 studier. Studiene til Jager og Leek og Open Science Collaboration bygger på omfattende empiri. Litt avhengig av hvordan man vektlegger resultatene, kan man si at andelen falskt positive funn ble estimert til henholdsvis 14 % og 29 % (97 % − 68 % = 29 %) i disse studiene. Dette må uansett sies å være høye andeler.

    Er dette en fallitterklæring for forskningen? Absolutt ikke. Men det belyser viktigheten av at studier er godt planlagt, gjennomført og rapportert. Og at det er viktig å forsøke å reprodusere publiserte studier. Den samlede evidensen fra flere studier, gjerne i en systematisk oversikt eller metaanalyse, vil være vesentlig mer pålitelig enn den fra en enkelt studie.

    PDF
    Skriv ut

    Anbefalte artikler

    Laget av Ramsalt med Ramsalt Media