Ulike metoder
Artikkelen «Why most published research findings are false» av John Ioannidis ble publisert i 2005, og fikk stor oppmerksomhet (1). Artikkelen var ikke basert på data, men postulerte en modell for andelen falskt positive funn blant publiserte positive funn, basert på følgende fire størrelser: andelen faktisk sanne hypoteser blant de hypotesene som undersøkes, statistisk styrke, signifikansnivå (5 %) og skjevhet (bias). Skjevhet i denne sammenhengen betyr den andelen av studiene hvor hypotesen ville fremstå som sann selv om den ikke er det, f.eks. på grunn av publikasjonsskjevhet eller dårlig studiedesign. Ioannidis beregnet positiv prediktiv verdi, altså andelen sanne funn blant positive funn, for en rekke forskjellige kombinasjoner av disse fire størrelsene. For store randomiserte kontrollerte studier med adekvat styrke (80 %) anså han det som realistisk at andelen faktisk sanne nullhypoteser kan være 50 %, og at skjevheten er bare 10 %. Da blir positiv prediktiv verdi beregnet til 85 %. For utforskende observasjonelle studier med adekvat styrke på 80 %, andel sanne nullhypoteser på 9 % og skjevhet på 30 % fås en positiv prediktiv verdi på 20 %. Studier med lavere andel sanne nullhypoteser eller lavere styrke fører til enda lavere positiv prediktiv verdi ((1), tabell 4).
Jager og Leek estimerte i 2014 andelen falskt positive funn basert på data (2). De leste elektronisk alle de 77 430 publikasjonene i The Lancet, The Journal of the American Medical Association, The New England Journal of Medicine, BMJ og The American Journal of Epidemiology i 2000, 2005 og 2010. Analysene bygger på det faktum at når nullhypotesene er sanne, vil p-verdiene være jevnt fordelt fra 0 til 1, mens når alternativhypotesene er sanne, vil p-verdiene være skjevt fordelt mot 0. Dette er illustrert i figur 1.
Jager og Leek estimerte andelen falskt positive funn (science-wise false discovery rate) til å være 14 %. Sammen med artikkelen deres ble det publisert diskusjonsinnlegg fra flere forskere. Avslutningsvis kom et tilsvar fra Jager og Leek (3) der de skrev at estimatet på 14 % antakelig er optimistisk, men at andelen trolig ikke er over 50 %, i alle fall ikke for studier som er godt planlagt og godt gjennomført.
Forskere i gruppen Open Science Collaboration brukte en annen fremgangsmåte for å studere reproduserbarhet (4). De identifiserte 100 studier publisert i 2008 i tre forskjellige psykologitidsskrift. Disse studiene ble gjentatt i nye studier med nye deltakere, med en design mest mulig lik den opprinnelige og med planlagt statistisk styrke på minst 80 %. Dette var et meget omfattende arbeid, og hele 274 personer er listet som forfattere. Hva fant man så? Den estimerte effekten målt ved korrelasjonskoeffisienten var i originalstudiene i gjennomsnitt 0,403 (standardavvik 0,188), og i de gjentatte studiene bare 0,197 (0,257). Av de opprinnelige studiene rapporterte i alt 97 % statistisk signifikant effekt (p-verdi < 0,05), mot bare 36 % av de gjentatte studiene. Etter å ha kombinert de opprinnelige og de gjentatte studiene ble 68 % statistisk signifikante.
Andelen falske positive forskningsfunn er langt over 14%
20.01.2022Stian Lydersen og Mette Langaas sammenlikner John PA Ioannidis sine artikler om hvor mange falske positive funn det er i medisinsk forskning med en artikkel av Jager og Leek og argumenter med at Ioannidis sin forskning «ikke bygger direkte på data», mens…