Ulike metoder
Artikkelen «Why most published research findings are false» av John Ioannidis ble publisert i 2005, og fikk stor oppmerksomhet (1). Artikkelen var ikke basert på data, men postulerte en modell for andelen falskt positive funn blant publiserte positive funn, basert på følgende fire størrelser: andelen faktisk sanne hypoteser blant de hypotesene som undersøkes, statistisk styrke, signifikansnivå (5 %) og skjevhet (bias). Skjevhet i denne sammenhengen betyr den andelen av studiene hvor hypotesen ville fremstå som sann selv om den ikke er det, f.eks. på grunn av publikasjonsskjevhet eller dårlig studiedesign. Ioannidis beregnet positiv prediktiv verdi, altså andelen sanne funn blant positive funn, for en rekke forskjellige kombinasjoner av disse fire størrelsene. For store randomiserte kontrollerte studier med adekvat styrke (80 %) anså han det som realistisk at andelen faktisk sanne nullhypoteser kan være 50 %, og at skjevheten er bare 10 %. Da blir positiv prediktiv verdi beregnet til 85 %. For utforskende observasjonelle studier med adekvat styrke på 80 %, andel sanne nullhypoteser på 9 % og skjevhet på 30 % fås en positiv prediktiv verdi på 20 %. Studier med lavere andel sanne nullhypoteser eller lavere styrke fører til enda lavere positiv prediktiv verdi ((1), tabell 4).
Jager og Leek estimerte i 2014 andelen falskt positive funn basert på data (2). De leste elektronisk alle de 77 430 publikasjonene i The Lancet, The Journal of the American Medical Association, The New England Journal of Medicine, BMJ og The American Journal of Epidemiology i 2000, 2005 og 2010. Analysene bygger på det faktum at når nullhypotesene er sanne, vil p-verdiene være jevnt fordelt fra 0 til 1, mens når alternativhypotesene er sanne, vil p-verdiene være skjevt fordelt mot 0. Dette er illustrert i figur 1.
Jager og Leek estimerte andelen falskt positive funn (science-wise false discovery rate) til å være 14 %. Sammen med artikkelen deres ble det publisert diskusjonsinnlegg fra flere forskere. Avslutningsvis kom et tilsvar fra Jager og Leek (3) der de skrev at estimatet på 14 % antakelig er optimistisk, men at andelen trolig ikke er over 50 %, i alle fall ikke for studier som er godt planlagt og godt gjennomført.
Forskere i gruppen Open Science Collaboration brukte en annen fremgangsmåte for å studere reproduserbarhet (4). De identifiserte 100 studier publisert i 2008 i tre forskjellige psykologitidsskrift. Disse studiene ble gjentatt i nye studier med nye deltakere, med en design mest mulig lik den opprinnelige og med planlagt statistisk styrke på minst 80 %. Dette var et meget omfattende arbeid, og hele 274 personer er listet som forfattere. Hva fant man så? Den estimerte effekten målt ved korrelasjonskoeffisienten var i originalstudiene i gjennomsnitt 0,403 (standardavvik 0,188), og i de gjentatte studiene bare 0,197 (0,257). Av de opprinnelige studiene rapporterte i alt 97 % statistisk signifikant effekt (p-verdi < 0,05), mot bare 36 % av de gjentatte studiene. Etter å ha kombinert de opprinnelige og de gjentatte studiene ble 68 % statistisk signifikante.
Stian Lydersen og Mette Langaas sammenlikner John PA Ioannidis sine artikler om hvor mange falske positive funn det er i medisinsk forskning med en artikkel av Jager og Leek og argumenter med at Ioannidis sin forskning «ikke bygger direkte på data», mens «Jager og Leek baserte seg på rapporterte p-verdier og gjorde beregninger basert på forventede fordelinger av p-verdier når nullhypotesene er sanne eller usanne». Det er vel heller motsatt: Ioannidis baserer seg på data, mens Jager og Leek baserer seg en statistisk modell laget for genetiske analyser og en hypotetisk fordeling av observerte p-verdier.
Det er heller ikke riktig at de 77 430 publikasjonene i Jager og Leek stod i The Lancet, The Journal of the American Medical Association, The New England Journal of Medicine, BMJ og The American Journal of Epidemiology (Big Five). Bare 6,8% av artiklene stod i Big Five [1].
Problemet med falske positive funn må sees i sammenheng med at veldig mange funn ikke kan reproduseres. Andelen funn som kan reproduseres varier fra fagfelt til fagfelt. Spesielt innen laboratoriemedisin er det nesten umulig å reprodusere andre sin forskning. Amgen klarte f.eks. bare å reprodusere 6 av 53 viktige onkologiske funn [2]. Hvis man antar at alle 53 funnene i utgangspunktet ikke er sanne, så vil signifikanstesting gi at fem prosent (2,65) vil være signifikante ved tilfeldighet. Dermed er bare 3,35 av 53 funn (6 prosent) sanne. Disse «sanne funnene» kan også forklares med publikasjonsbias. Dermed er kanskje absolutt alt som publiseres i feltet bare falske positive funn.
Ioannidis sammenliknet 49 artikler som stod i Big Five med nyere studier med større data og bedre metoder [3]. Da fant han at 9 av 39 randomiserte studier (23%) ikke var reproduserbare eller klinisk signifikant i nyere studier. Enda verre er det hvis man ser på 6 meget høyt siterte kohortstudier. Fem av disse var falske positive (i betydning effekten er kraftig overdrevet eller ikke til stede). Hvis man også antar at bare rundt 77% av de randomiserte studiene som man sammenliknet med også er sanne, får man at bare 1/6 x 77% = 13% er studier som man kan stole på.
Ioannidis [4] har også gjort noen teoretiske beregninger på hvor mange publikasjoner som egentlig er falske positive, og konkluderte med at over halvparten er falske positive. Dette er standard referansen og brukes av nesten alle forskere [5] utenom noen få statistikere. Jager og Leek sitt tall på 14% falske positive funn er altfor lavt, og er ikke representativt for hverken randomiserte studier eller Big Five.
Referanser
1. Ioannidis JPA. Discussion: Why “An estimate of the science-wise false discovery rate and application to the top medical literature” is false. Biostatistics 2014; 15: 28-36.
2. Begley CG Ellis LM, Drug development: raise standards for preclinical cancer research. Nature 2012; 483: 531-533.
3. Ioannidis JPA. Contradicted and initially stronger effects in highly cited clinical research. JAMA 2005; 294: 2018-28.
4. Ioannidis JPA. "Why Most Published Research Findings Are False". PLOS Medicine 2005; 2: e124.
5. Unreliable research. How science goes wrong. Economist 2013; October 19th.