An indispensable tool

doi:10.4045/tidsskr.15.0815

An indispensable tool

Norwegian

Article

Without statistical methods, clinical medicine would not be where it is today

Understanding of biology is the obvious cornerstone of clinical medicine. However, even when we claim to have a good mechanistic understanding of a disease, we can sometimes find that a treatment principle that should work in theory proves to have little or no effect in practice. An old and familiar example is the CAST study (1), which surprisingly showed that arrhythmia suppression with encainide and flecainide did not reduce mortality after a myocardial infarction when compared to placebo, but quite the reverse. In the field of drug development there are many Phase 3 studies that fail to show any effect of treatment, in spite of results from initial studies conducted on limited samples of healthy volunteers and patients (Phase 1 and Phase 2) showing a positive effect of the active ingredient (2, 3). In other words, a mechanistic understanding is often insufficient, most likely because we understand only a tiny part of the whole picture. In this situation, statistical methods have proven to be indispensable. When conducting randomised intervention studies, the methods of analysis do not even need to be particularly complicated.

In this issue of the Journal of the Norwegian Medical Association there are three articles that each in its own way addresses the topic of medical statistics. They illustrate that statistics have become an indispensable tool in medical research (4, 5), and that probability and statistics are part of everyday clinical practice (6). Our increasing insight into biological mechanisms has not necessarily made it any easier to understand diseases, identify risk factors or develop new treatment strategies. When complexity increases, it becomes evident that statistical methods are necessary to understand and explain the issue at hand.

As we know, medical research is largely based on drawing conclusions with the aid of p-values. Unless the p-values are misused and overinterpreted, this is a fully acceptable approach that (in combination with estimates of the effect size with an appurtenant confidence interval) has proven to be of major practical benefit, especially in analyses of experimental studies. However, as Pripp (4) points out in his article, for many the p-value is an oracular answer, the interpretation of which requires special competence. Even simple analyses may lead to erroneous conclusions, such as when multiple significance tests are undertaken.

In experimental studies that are based on randomisation and a sensible trial design, it will often be sufficient to use elementary statistical methods to undertake comparisons and estimate effects. Assigning patients randomly to different treatment groups implicitly ensures that any observed differences are caused either by an actual difference in effect or random variation. The p-values can thereby be interpreted directly.

Observational studies often pose greater challenges, since the results can be distorted by systematic bias or confounding (background) factors that have not been measured. Identifying causal associations can thus prove difficult. The gold standard for establishing causality is the randomised study, but in recent years causal inference has emerged as an important research area, and so-called directed acyclic graphs (DAG) are increasingly used in epidemiological research. Such graphs are useful for demonstrating associations and as tools for selecting the variables that should be included in a regression model, but they may often become highly complex and will obviously not be any better than our (occasionally limited) understanding of associations and mechanisms. The article by Stensrud and Aalen (5) clearly shows that causality is a challenging issue.

The choice between frequentist and Bayesian methods is subject to recurring debate. The frequentist tradition, which is clearly prevalent in medical science, is based on the formulation of a null hypothesis (the claim that we wish to disprove) and uses the data to reject it if the p-value is low.

If we are unable to undertake randomised studies and it is difficult to obtain new data on a sufficient number of patients, a Bayesian approach can be an alternative. Bayesian statistics summarise what we know (or assume) in advance regarding an unknown parameter in a so-called a priori distribution. The distribution of the new data from the trial is collated with this prior knowledge in an a posteriori distribution, and the likelihood of a hypothesis can then be quantified, because we estimate «the likelihood of the hypothesis given the data», and not «the likelihood of the data given the hypothesis» as in a frequentist approach. This is intuitively attractive, and as shown by Brakedal (6), Bayesian ideas are used more or less unconsciously for diagnostic purposes.

One reason why Bayesian methods have been less used than frequentist ones in medical research is that they are computationally demanding and were nearly inapplicable in practice before the advent of powerful computers. Another and even more important reason for their limited use in clinical research is that in experimental situations we do not want to be affected by pre-defined assumptions or beliefs. For example, pharmaceutical companies tend to be overly optimistic with regard to the efficacy of a new drug, but unfortunately, randomised studies will often show that in reality, the efficacy is not as convincing as expected – or even absent. To prevent overly positive assumptions or beliefs from influencing the conclusions it seems most appropriate to use a frequentist approach. When using a Bayesian approach it is, however, possible to enter a so-called non-informative a priori distribution. Then, the estimation will be made on the basis of the data alone, and the conclusion will thus be the same as when traditional frequentist methods are used.

Irrespective of approach, the increasing importance of statistics in all sectors of medicine is striking. Modelling of biological mechanisms that explain disease, as well as the effect of prevention and treatment, is increasing in complexity, and conclusions can rarely be drawn from a mere mechanistic understanding of biology. Thus, medical research is often completely reliant on advanced statistical analysis.

Comments ( 2 )

Dette kommentarfeltet modereres, men kommentarer blir ikke redaksjonelt behandlet ut over å sikre at de følger retningslinjer for vårt kommentarfelt.

30.09.2015:

I denne lederartikkelen om statistikk (1) gjentar Eva Skovlund synpunkter fra en leder hun skrev i 2013 (2). To spørsmål jeg stilte henne i en artikkelkommentar (2) til lederen fra 2013 er fremdeles ubesvart: 1) Hvorfor gir 100 tester med ett spørsmål i hver test riktigere resultater enn 100 spørsmål i en test? 2) Hva er den prinsipielle forskjellen i den informasjon p-verdier og konfidensintervaller (CI) gir? I en kronikk om p-verdier (3) refererer Are Hugo Pripp til en diskusjon om dette siste (4,5). Argumentet synes å være at bredden på CI, i motsetning til avstanden mellom dem (det er avstanden eller overlappingen som tilsvarer p-verdier), skal gi ekstra informasjon som p-verdien ikke har.

Problemet er imidlertid at bredden på CI (og følgelig også avstanden mellom CI) varierer med antall observasjoner. Jo flere observasjoner desto smalere CI, større avstand mellom CI og lavere p-verdier. Ønsker man å fremme et gitt budskap, kan dette påvirkes ved å justere antall observasjoner. På forhånd å beregne antall observasjoner man trenger for å vise, for eksempel om en behandling har effekt (å oppnå en p-verdi <0,05), er en akseptert fremgangsmåte, men det er egentlig å fiske etter et gitt resultat.

P-verdier og avstanden mellom CI forteller oss ikke noe om to forhold som vi trenger for å trekke praktiske konklusjoner, nemlig hvor sterk en effekt er og hvordan variasjonen i behandlingseffekten er fra person til person (spredning). P-verdier sier oss bare at det sannsynligvis er en effekt, men ikke hvor sterk den er. Videre er den, slik vi nå gjør våre analyser, kun knyttet til gjennomsnittet, ikke til variasjonen. Variasjonen i behandlingseffekt, også om den har en unormal fordeling, kan være like viktig å kjenne til som den gjennomsnittlige effekten.

Man kan hevde at bredden på CI gir ekstra informasjon ved å si noe om presisjonen på det estimerte gjennomsnittet, en opplysning som kan være av betydning. Men, denne parameter må ikke forveksles med informasjon om behandlingseffektens variasjon, en feiltolkning som jeg tror er vanlig (og som kanskje kynisk utnyttes av noen kunnskapsrike forfattere).

Disse statistiske parametere gir oss altså begrenset informasjon om det virkelige livet, det vil si om forhold som vi trenger å kjenne til for å fatte beslutninger og å gi pasientene anbefalinger. Jeg har merket meg at man heldigvis begynner å gi disse bearbeidede, teoretiske, statistiske estimater mindre betydning ved at plots med CI fortrenges av «box.plots»,«bee-swarm plots», eller en kombinasjon av «box plots» og, for eksempel, søylediagrammer. Disse viser oss de målte resultater, det vil si at vi får «the whole complete information, nothing is hidden, you see the sample size, the distribution, possible problems/outliers...everything» (6).

Jeg vil hevde at vårt manglende krav til presentasjon av «det virkelige livet» gir mulighet til å selge (nær) verdiløse helsekostprodukter og også til å skremme med bagatellmessige risikofaktorer: I en reklame for bruk av vitamin K for å bevare benhelsen vises til et arbeide hvor det er vist signifikant mindre tap av beinmasse (BMD) ved tilskudd av vitamin K (7). Den faktiske forskjellen mellom gruppene med og uten dette tilskuddet var imidlertid minimal, sannsynligvis helt ubetydelig, men statistisk signifikant takket være et relativt stort antall observasjoner. Slik sett er påstanden i reklamen korrekt, men misvisende.

Litteratur

1. Skovlund E. Et uunnværlig verktøy. Tidsskr Nor Legeforen 2015; 135: 1424.

2. Skovlund E. Spør først, regn siden. Tidsskr Nor Legeforen 2013; 133:10 Kommentarfelt: Høiseth A. 05.04.13 http://tidsskriftet.no/article/2949352

3. Pripp AH. Hvorfor p-verdien er signifikant. Tidsskr Nor Legeforen 2015; 135: 1462-4.

4. Mitchell MS, Yu MC, Whiteside TL. The tyranny of statistics in medicine: a critique of unthinking adherence to an arbitrary p value. Cancer Immunol Immunother 2010; 59: 1137 – 40.

5. Vanderweele TJ. Re: The ongoing tyranny of statistical significance testing in biomedical research. Eur J Epidemiol 2010; 25: 843 – 5, author reply 844 – 5.

6. Wilhelm Jochen. How to handle Narrow Confidence Intervals? Research Gate 22.4.15. http://www.researchgate.net/post/How_to_handle_Narrow_Confidence_Intervals (22.9.15)

7. Knapen MH, Drummen NE, Smit E et al. Three-year low-dose menaquinone-7 supplementation helps decrease bone loss in healthy postmenopausal women. Osteoporos Int. 2013 Sep;24(9):2499-507.

05.10.2015:

E. Skovlund svarer:

Det viktigste poenget med å utføre signifikanstester er etter mitt skjønn at vi ikke skal overtolke våre observasjoner. Vi stiller spørsmålet «hva er sannsynligheten for å observere det resultatet vi ser, eller en enda større effekt, gitt at nullhypotesen (for eksempel at det ikke er en forskjell i effekt av to behandlinger) er sann?». Hvis denne sannsynligheten (p-verdien) er stor, er det grunn til å mistenke at en observert forskjell ikke er uttrykk for sann effekt. Dersom p-verdien er liten, peker det i retning av at vi har observert en reell effekt, gitt at behandlingsgruppene er sammenlignbare.

Høiseth spør nokså upresist hvorfor 100 tester med ett spørsmål i hver test gir riktigere resultater enn 100 spørsmål i en test. Hver enkelt statistisk test man utfører forsøker å gi svar på ett spørsmål. Utvalget i en studie kan være skjevt og lite representativt for populasjonen man ønsker å studere. Dersom 100 forskningsspørsmål blir forsøkt besvart basert på det samme skjeve utvalget, vil denne svakheten kunne ramme mange av konklusjonene man trekker. Uavhengige forsøk er derfor av stor verdi. Innlegget «Data torturing» (1) presenterer for øvrig både problemer med multiple signifikanstester og andre fallgruver knyttet til presentasjon av forskningsresultater på en utmerket og forståelig måte.

Konfidensintervaller hjelper oss å kvantifisere usikkerhet og inneholder det vi kan kalle plausible verdier av sann effekt. De er nært beslektet med p-verdier, men gir viktig tilleggsinformasjon fordi vi estimerer størrelsen av en eventuell effekt. Dermed kan vi avgjøre om effekten er stor nok til at den har klinisk betydning. Bruker vi grensene i intervallet til å trekke slutninger om statistisk signifikans, har de selvfølgelig samme svakheter som p-verdier.

Både antall observasjoner og variabilitet (spredning) er viktige for bredden av et konfidensintervall. Jo flere observasjoner vi har, desto smalere blir intervallet. Økt presisjon betyr ikke juks – en våken leser vil klare å avdekke at en gjennomsnittlig endring i blodtrykk på 0,5mmHg med et 95 % konfidensintervall som strekker seg fra 0,3 til 0,7 neppe har klinisk relevans selv om endringen er statistisk signifikant (p<0,05). Det er her konfidensintervallet viser sin verdi. Vi ser med en gang at gjennomsnittseffekten er svært liten, men den er i dette eksemplet presist estimert, og vi kan selv vurdere hvorvidt den er stor nok til å ha klinisk betydning.

Vi er for øvrig åpenbart ikke uenige om at det forekommer et tankeløst overforbruk av p-verdier i medisinsk forskning. Men det er etter min oppfatning misbruket som fortjener kritikk, ikke metoden som sådan. Riktig brukt gir p-verdier og konfidensintervaller nyttige bidrag til innsikt.

Litteratur

1. Mills JL. Data torturing. N Engl J Med 1993; 329: 1196-1199.

This article was published more than 12 months ago and we have therefore closed it for new comments.

Published: 8 September 2015

Tidsskr Nor Legeforen 8 September 2015

doi:

10.4045/tidsskr.15.0815

135

:

1424

Published: 8 September 2015

Tidsskr Nor Legeforen 2015

135

:

1424

doi: 10.4045/tidsskr.15.0815

PDF

Print

An indispensable tool

RE: Et uunnværlig verktøy

RE: Et uunnværlig verktøy

Recent Articles