Hvor stor andel av publiserte forskningsresultat er feil?

Stian Lydersen; Mette Langaas

doi:10.4045/tidsskr.21.0703

Medisin og tall

Hvor stor andel av publiserte forskningsresultat er feil?

English

Stian Lydersen, Mette Langaas

Se alle artikler

Stian Lydersen

Orcid

stian.lydersen@ntnu.no

Stian Lydersen er dr.ing. og professor i medisinsk statistikk ved Regionalt kunnskapssenter for barn og unge – psykisk helse og barnevern (RKBU Midt-Norge) ved Institutt for psykisk helse, NTNU.

Forfatteren har fylt ut ICMJE-skjemaet og oppgir ingen interessekonflikter.

Se alle artikler

Mette Langaas

Orcid

Mette Langaas er dr.ing., professor i statistikk ved Institutt for matematiske fag, NTNU, og professor II ved avdeling for statistisk analyse, maskinlæring og bildeanalyse (SAMBA) ved Norsk Regnesentral.

Forfatteren har fylt ut ICMJE-skjemaet og oppgir ingen interessekonflikter.

Artikkel

Ikke alle publiserte forskningsresultat lar seg reprodusere – noen fordi funnene ikke er korrekte. Hvor omfattende er problemet?

Flere forskere har forsøkt å beregne hvor ofte publiserte funn er feil. Tilnærmingene er til dels svært ulike.

Ulike metoder

Artikkelen «Why most published research findings are false» av John Ioannidis ble publisert i 2005, og fikk stor oppmerksomhet (1). Artikkelen var ikke basert på data, men postulerte en modell for andelen falskt positive funn blant publiserte positive funn, basert på følgende fire størrelser: andelen faktisk sanne hypoteser blant de hypotesene som undersøkes, statistisk styrke, signifikansnivå (5 %) og skjevhet (bias). Skjevhet i denne sammenhengen betyr den andelen av studiene hvor hypotesen ville fremstå som sann selv om den ikke er det, f.eks. på grunn av publikasjonsskjevhet eller dårlig studiedesign. Ioannidis beregnet positiv prediktiv verdi, altså andelen sanne funn blant positive funn, for en rekke forskjellige kombinasjoner av disse fire størrelsene. For store randomiserte kontrollerte studier med adekvat styrke (80 %) anså han det som realistisk at andelen faktisk sanne nullhypoteser kan være 50 %, og at skjevheten er bare 10 %. Da blir positiv prediktiv verdi beregnet til 85 %. For utforskende observasjonelle studier med adekvat styrke på 80 %, andel sanne nullhypoteser på 9 % og skjevhet på 30 % fås en positiv prediktiv verdi på 20 %. Studier med lavere andel sanne nullhypoteser eller lavere styrke fører til enda lavere positiv prediktiv verdi ((1), tabell 4).

Jager og Leek estimerte i 2014 andelen falskt positive funn basert på data (2). De leste elektronisk alle de 77 430 publikasjonene i The Lancet, The Journal of the American Medical Association, The New England Journal of Medicine, BMJ og The American Journal of Epidemiology i 2000, 2005 og 2010. Analysene bygger på det faktum at når nullhypotesene er sanne, vil p-verdiene være jevnt fordelt fra 0 til 1, mens når alternativhypotesene er sanne, vil p-verdiene være skjevt fordelt mot 0. Dette er illustrert i figur 1.

Jager og Leek estimerte andelen falskt positive funn (science-wise false discovery rate) til å være 14 %. Sammen med artikkelen deres ble det publisert diskusjonsinnlegg fra flere forskere. Avslutningsvis kom et tilsvar fra Jager og Leek (3) der de skrev at estimatet på 14 % antakelig er optimistisk, men at andelen trolig ikke er over 50 %, i alle fall ikke for studier som er godt planlagt og godt gjennomført.

Forskere i gruppen Open Science Collaboration brukte en annen fremgangsmåte for å studere reproduserbarhet (4). De identifiserte 100 studier publisert i 2008 i tre forskjellige psykologitidsskrift. Disse studiene ble gjentatt i nye studier med nye deltakere, med en design mest mulig lik den opprinnelige og med planlagt statistisk styrke på minst 80 %. Dette var et meget omfattende arbeid, og hele 274 personer er listet som forfattere. Hva fant man så? Den estimerte effekten målt ved korrelasjonskoeffisienten var i originalstudiene i gjennomsnitt 0,403 (standardavvik 0,188), og i de gjentatte studiene bare 0,197 (0,257). Av de opprinnelige studiene rapporterte i alt 97 % statistisk signifikant effekt (p-verdi < 0,05), mot bare 36 % av de gjentatte studiene. Etter å ha kombinert de opprinnelige og de gjentatte studiene ble 68 % statistisk signifikante.

En fallitterklæring?

Disse tre studiene brukte svært ulike metoder. Ioannidis laget en modell som bygger på en rekke antakelser i forskjellige studiedesign. Antakelsene kan synes realistiske, men det er en svakhet at de ikke bygger direkte på data. Jager og Leek baserte seg på rapporterte p-verdier og gjorde beregninger basert på forventede fordelinger av p-verdier når nullhypotesene er sanne eller usanne. Open Science Collaboration gikk enda grundigere til verks: De gjentok 100 studier. Studiene til Jager og Leek og Open Science Collaboration bygger på omfattende empiri. Litt avhengig av hvordan man vektlegger resultatene, kan man si at andelen falskt positive funn ble estimert til henholdsvis 14 % og 29 % (97 % − 68 % = 29 %) i disse studiene. Dette må uansett sies å være høye andeler.

Er dette en fallitterklæring for forskningen? Absolutt ikke. Men det belyser viktigheten av at studier er godt planlagt, gjennomført og rapportert. Og at det er viktig å forsøke å reprodusere publiserte studier. Den samlede evidensen fra flere studier, gjerne i en systematisk oversikt eller metaanalyse, vil være vesentlig mer pålitelig enn den fra en enkelt studie.

Kommentarer ( 1 )

Dette kommentarfeltet modereres, men kommentarer blir ikke redaksjonelt behandlet ut over å sikre at de følger retningslinjer for vårt kommentarfelt.

21.01.2022:

Stian Lydersen og Mette Langaas sammenlikner John PA Ioannidis sine artikler om hvor mange falske positive funn det er i medisinsk forskning med en artikkel av Jager og Leek og argumenter med at Ioannidis sin forskning «ikke bygger direkte på data», mens «Jager og Leek baserte seg på rapporterte p-verdier og gjorde beregninger basert på forventede fordelinger av p-verdier når nullhypotesene er sanne eller usanne». Det er vel heller motsatt: Ioannidis baserer seg på data, mens Jager og Leek baserer seg en statistisk modell laget for genetiske analyser og en hypotetisk fordeling av observerte p-verdier.

Det er heller ikke riktig at de 77 430 publikasjonene i Jager og Leek stod i The Lancet, The Journal of the American Medical Association, The New England Journal of Medicine, BMJ og The American Journal of Epidemiology (Big Five). Bare 6,8% av artiklene stod i Big Five [1].

Problemet med falske positive funn må sees i sammenheng med at veldig mange funn ikke kan reproduseres. Andelen funn som kan reproduseres varier fra fagfelt til fagfelt. Spesielt innen laboratoriemedisin er det nesten umulig å reprodusere andre sin forskning. Amgen klarte f.eks. bare å reprodusere 6 av 53 viktige onkologiske funn [2]. Hvis man antar at alle 53 funnene i utgangspunktet ikke er sanne, så vil signifikanstesting gi at fem prosent (2,65) vil være signifikante ved tilfeldighet. Dermed er bare 3,35 av 53 funn (6 prosent) sanne. Disse «sanne funnene» kan også forklares med publikasjonsbias. Dermed er kanskje absolutt alt som publiseres i feltet bare falske positive funn.

Ioannidis sammenliknet 49 artikler som stod i Big Five med nyere studier med større data og bedre metoder [3]. Da fant han at 9 av 39 randomiserte studier (23%) ikke var reproduserbare eller klinisk signifikant i nyere studier. Enda verre er det hvis man ser på 6 meget høyt siterte kohortstudier. Fem av disse var falske positive (i betydning effekten er kraftig overdrevet eller ikke til stede). Hvis man også antar at bare rundt 77% av de randomiserte studiene som man sammenliknet med også er sanne, får man at bare 1/6 x 77% = 13% er studier som man kan stole på.

Ioannidis [4] har også gjort noen teoretiske beregninger på hvor mange publikasjoner som egentlig er falske positive, og konkluderte med at over halvparten er falske positive. Dette er standard referansen og brukes av nesten alle forskere [5] utenom noen få statistikere. Jager og Leek sitt tall på 14% falske positive funn er altfor lavt, og er ikke representativt for hverken randomiserte studier eller Big Five.

Referanser
1. Ioannidis JPA. Discussion: Why “An estimate of the science-wise false discovery rate and application to the top medical literature” is false. Biostatistics 2014; 15: 28-36.
2. Begley CG Ellis LM, Drug development: raise standards for preclinical cancer research. Nature 2012; 483: 531-533.
3. Ioannidis JPA. Contradicted and initially stronger effects in highly cited clinical research. JAMA 2005; 294: 2018-28.
4. Ioannidis JPA. "Why Most Published Research Findings Are False". PLOS Medicine 2005; 2: e124.
5. Unreliable research. How science goes wrong. Economist 2013; October 19th.

Denne artikkelen ble publisert for mer enn 12 måneder siden, og vi har derfor stengt for nye kommentarer.

Publisert: 7. desember 2021

Utgave 18, 14. desember 2021

Tidsskr Nor Legeforen 7. desember 2021 Vol. 141.

doi:

10.4045/tidsskr.21.0703

Publisert: 7. desember 2021

Utgave 18, 14. desember 2021

Tidsskr Nor Legeforen 2021 Vol. 141.

doi: 10.4045/tidsskr.21.0703

PDF

Skriv ut

Hvor stor andel av publiserte forskningsresultat er feil?

Ulike metoder

En fallitterklæring?

Andelen falske positive forskningsfunn er langt over 14%

Anbefalte artikler