Bayesiansk tenkemåte på vei inn i medisinsk statistikk?

Aktuelt problem
    ()

    sporsmal_grey_rgb
    Abstract
    Bakgrunn

    Bakgrunn

    . I bayesiansk statistisk analyse drar man slutninger av en annen art enn ved tradisjonell frekventistisk bruk av statistikk. Vi ville vise nytten av denne tilnærmingen ved å angripe noen medisinske problemstillinger.

    Materiale og metode

    Materiale og metode

    . Vi tok utgangspunkt i Baye’s formel slik den benyttes for å anslå sannsynligheten for at en pasient er syk bedømt ut fra en prøve. Vi tok også for oss en fersk Cochrane-rapport vedrørende mammografi, som aksepterer to undersøkelser som gode og forkaster fem pga. manglende kvalitet. Til sammenlikning benyttet vi kliniske forsøk fra andre områder av medisinen som er blitt feiltolket ved at man kun har benyttet tradisjonell statistisk analyse.

    Resultater

    Resultater

    . Vi fant at ved å ta i betraktning tidligere vurderinger vedrørende sannsynligheten for at rutinemesssig mammografi vil nedsette dødeligheten av brystkreft, passet de nye dataene best med 5 % redusert dødelighet og 77 % sannsynlighet for en positiv effekt av screening.

    Fortolkning

    Fortolkning

    . Bayesiansk statistikk er anvendelig for å ta avgjørelser på basis av observerte data ved at man også tar hensyn til allerede foreliggende kunnskap, mens p-verdien i tradisjonell, frekventistisk statistikk kun sier noe om hvor ofte vi vil konkludere med et falskt positivt resultat i det lange løp.

    Abstract

    Background

    . Bayesian statistical analysis is a paradigm quite different from traditional statistical inference. We wanted to show the usefulness of this approach for some medical problems.

    Materials and methods.

    We started with Bayes’ equation as it is used for estimating the probability of illness based on a specific laboratory test. We also looked into a recent Cochrane report on mammography that accepted two studies as valid and five others as biased. In comparison we used examples of clinical trials from other areas that have been misinterpreted by the use of a traditional statistical approach only.

    Results.

    We found that by taking into account our prior beliefs about the likely effects on breast cancer mortality of routine radiological screening programmes, the new data fit well into an estimate of a 5 % mortality reduction with a 77 % chance that there is a positive effect of screening.

    Interpretation.

    Bayesian statistics is helpful in making decisions on the basis of experimental evidence by taking into account our prior knowledge, whereas p-values in traditional statistics only give information on how often we will end up with a false positive conclusion in the long run.

    Artikkel

    Å avsløre tidlige stadier av brystkreft ved hjelp av røntgenundersøkelse av utvalgte grupper kvinner fører ikke til nedsatt dødelighet av brystkreft i forhold til en kontrollgruppe som ikke er screenet (1). Når man mottar et slikt budskap, kan man spørre: Hva er sannsynligheten for at påstanden er korrekt? Sannsynlighetsteoretikeren Thomas Bayes (2) la på 1700-tallet det teoretiske grunnlaget for å svare på dette spørsmålet, men spørsmålet har intet enkelt svar.

    Bakgrunn

    Bakgrunn

    For snart hundre år siden innførte statistikeren R.A. Fisher (3) begrepet p-verdi. P-verdien er sannsynligheten, beregnet før man samler inn data fra en undersøkelse, for å få det faktisk observerte resultat eller noe mer ekstremt hvis nullhypotesen om f.eks. ingen reell effekt av en behandling er korrekt. Fisher mente ikke selv at dette skulle være svaret på spørsmålet i avsnittet ovenfor. Mange har nok allikevel kastet seg over denne størrelsen, som riktignok kan beregnes presist, men som oftest dessverre ikke er det man er ute etter (4, 5). Vi skal belyse dette med et par eksempler fra farmakoterapien.

    Kolesterolsenking og effekt på koronarsykdom

    Kolesterolsenking og effekt på koronarsykdom

    Både eksperimenter på dyr og epidemiologiske observasjoner gav i sin tid gode grunner til å tro at man kunne redusere forekomsten av koronarsykdom ved å senke kolesterolnivået i blodet. En tidlig klinisk undersøkelse gav imidlertid det resultatet at den totale dødelighet ikke ble påvirket i gunstig retning når man senker kolesterolnivået (6). Denne konklusjonen støttet seg på beregningen av en p-verdi og ble dermed trukket på feil grunnlag. P-verdien var 0,12 og effektens størrelse var 37 %. Vi vet nå at en reduksjon i denne størrelsesorden er oppnåelig ved hjelp av kolesterolsenking. Det som var feil den gangen, var fortolkningen av p-verdien. At forsøket burde vært planlagt med flere pasienter, noe som ville gitt lavere p-verdi ved samme effekt, er etter vår oppfatning en annen sak.

    Deduktive slutninger

    Deduktive slutninger

    Utregning av p-verdier baserer seg på en type statistikk som vi nå kan omtale som tradisjonell og som i sitt vesen er deduktiv. Man tar da utgangspunkt i en hypotese, betegnet nullhypotesen, om at det for eksempel ikke foreligger noen reell effekt, bare en tilsynelatende effekt som skyldes tilfeldigheter. Deretter deduserer man sannsynligheten for i så fall å oppnå det observerte resultatet eller noe mer ekstremt. Fisher var fullstendig klar over at utregningen han foreslo hadde begrenset verdi, men han mente at dette var en av flere mulige beregninger man kunne foreta.

    Dersom vi stadig undersøker nye forhold og bestemmer oss for å tro på resultater med p-verdier som er 0,05 eller mindre, vil vi i det lange løp konkludere med et galt (falskt positivt) resultat i 5 % av tilfellene. P-verdien sier derimot ikke noe om hvor hyppig vi konkluderer med et falskt negativt resultat i det lange løp. P-verdien sier som hovedregel heller ikke noe om sannsynligheten for at et enkelt observert resultat er korrekt positivt. Det er også en feilslutning å si at det er 95 % sannsynlig at resultatet er korrekt positivt. Med andre ord: P-verdien forteller oss bare hvor ofte (frekvent) vi vil konkludere med et falskt positivt resultat «i det lange løp» dersom vi konsekvent aksepterte slike p-verdier som grunnlag for beslutninger. Denne type bruk av statistikk benevnes derfor ofte «frekventistisk».

    Det fører for langt med en uttømmende diskusjon om konfidensintervaller. Hovedbudskapet er at det fra disse kun kan trekkes slutninger på linje med dem man trekker på grunnlag av p-verdier.

    Induktive slutninger

    Induktive slutninger

    Nøkkelspørsmålet i innledningen må derimot etter vår oppfatning besvares ved induksjon. Man går her motsatt vei i forhold til deduksjon. Man tar utgangspunkt i de data som foreligger og beregner så sannsynligheten for at nullhypotesen ikke er korrekt, det vil si for at den effekten du observerer er reell. Hvordan denne sannsynligheten beregnes ble klarlagt av Thomas Bayes. Den induktive slutningen er direkte og etter vår oppfatning klart å foretrekke fremfor den indirekte deduktive slutningen. En interessant parallell kan observeres i den kliniske hverdagen. Man kan tenke på en bestemt diagnose og dedusere hvilke symptomer dette ville medføre hos en pasient. Alternativt, og etter manges mening bedre, er å ta utgangspunkt i pasientens symptomer og ut fra dem trekke slutninger om hvilken diagnose som er mest sannsynlig. Dette siste er en induktiv metode.

    Oppdatering med ny viten

    Oppdatering med ny viten

    Hvordan foretar man induktive slutninger? Bayes skrev en formel for hvordan det skal gjøres. Dette er behandlet utførlig i en artikkel i Utposten for en tid siden (7).

    La oss her gi en kortfattet fremstilling. Betrakt en bestemt sykdom. Innfør følgende notasjon:

    S = {Pasienten er syk}

    F = {Pasienten er frisk}

    + = {Testen (for eksempel en blodanalyse) gir positivt utslag}

    Vi ønsker å beregne den betingede sannsynligheten, P(S|+), for at en pasient er syk (S), gitt at testen har gitt positivt utslag (+). Bayes’ formel gir dette som

    Anta at vi ut fra generell norsk helsestatistikk vet at 2 % av befolkningen lider av sykdommen, mens da 98 % er friske. Dette gir P(S) = 0,02 og P(F) = 0,98, som betegnes som apriorifordelingen. Anta videre at man på basis av et større datamateriale har følgende kunnskap om testens egenskaper: I 90 % av tilfellene gir testen korrekt positivt utslag når den anvendes på en syk pasient. Tilsvarende gir testen feilaktig positivt utslag i 10 % av tilfellene når den anvendes på en frisk pasient. Dette betyr at P(+|S) = 0,90 og P(+|F) = 0,10. Disse gir sannsynligheten for positivt utslag som funksjon av S og F og betegnes rimelighets (likelihood)-funksjonen. Setter vi disse numeriske verdiene inn i Bayes’ formel, finner vi aposteriorisannsynligheten P(S|+) = 0,16. Vi ser at vår opprinnelige sannsynlighet for at pasienten er syk, som var lik 0,02, er oppdatert til 0,16 på bakgrunn av informasjonen om at testen gav positivt utslag.

    Ved å bytte om S og F i Bayes’ formel finner vi P(F|+), som også er lik 1 – P(S|+). Kombinerer vi Bayes’ formel for P(S|+) og P(F|+), finner vi Bayes’ formel på odds form

    Her er P(S)/P(F) = 1/49 oddsen for å være syk i befolkningen som helhet. Denne multipliseres med den såkalte Bayes-faktoren, som er forholdet mellom sannsynlighetene for at testen gir positivt utslag gitt at pasienten er henholdsvis syk og frisk. Dette gir oddsen for å være syk, gitt at testen gav positivt utslag, P(S|+)/P(F|+) = 9/49. Siden P(F|+) = 1 – P(S|+), finner vi ved å løse denne ligningen at P(S|+) = 9/58 = 0,16. Dette er nettopp det vi fant ved direkte bruk av Bayes’ formel.

    Vi kan i tillegg utføre en uavhengig test med en annen metode, her med for eksempel en Bayes-faktor lik 7. Med nok et positivt utslag som resultat, og ved igjen å bruke Bayes’ formel på odds form, får vi:

    Siden P(F|+,+) = 1 – P(S|+,+), finner vi ved å løse ligningen over at P(S|+,+) = 9/16 = 0,56. På bakgrunn av to uavhengige tester med positivt utslag, er det nå klart mest sannsynlig at pasienten er syk.

    Bayesiansk statistikk

    Bayesiansk statistikk

    Statistiske slutninger som bygger på dette prinsippet kalles bayesianske. I eksemplet over regnet vi bare på sannsynligheten for ett enkelt utfall, at pasienten er syk. I bayesiansk statistikk gjør man tilsvarende regnestykker med sannsynlighetsfordelinger. Disse prosedyrene er avhengig av sterke regnemaskiner og nødvendiggjør også simuleringer. Den tekniske siden ved denne statistikken er blitt uproblematisk i de senere år etter at gode datamaskiner er blitt allemannseie. Rutinene er ennå ikke lagt inn i vanlige statistikkpakker, men det finnes et spesiallaget program som er gratis (8).

    Osteoporose som eksempel

    Osteoporose som eksempel

    På et tidspunkt forelå det indikasjoner på at bifosfonater styrker skjelettet. Man hadde fra før et teoretisk grunnlag for hvordan mineraliseringen av beinvev ble påvirket. Rotteforsøk viste økt bruddstyrke, og forsøk på mennesker påviste økt beintetthet. Didronat ble så testet ut på et pasientmateriale. Resultatet var som følger: Harris og medarbeidere (9) observerte at i løpet av 604 pasientår skjedde det 52 brudd i en behandlingsgruppe med didronat, mens det i en kontrollgruppe med 607 pasientår inntrådte 71 brudd.

    La

    l₁ = bruddintensiteten, dvs. antall brudd per år, for en pasient som får placebo

    l₂ = bruddintensiteten for en pasient som får didronat

    b= l₂/l₁ = bruddintensitetsratio

    Vi antar at totalt antall brudd i kontrollgruppen er poissonfordelt med total intensitet 607 3 l₁, mens totalt antall brudd i behandlingsgruppen er poissonfordelt med total intensitet 604 3 l₂.

    Figur 1 viser den beregnede usikkerheten for bruddintensitetsratio knyttet til dette materialet. Usikkerheten er gitt ved en sannsynlighetsfordeling. (Mer presist er dette en sannsynlighetstetthet der arealet under kurven er lik 1. Denne tettheten kan oppfattes som en standardisert rimelighetsfunksjon.) Vi ser at tettheten er størst svarende til 26 % bedring av hyppigheten av vertebralfrakturer hos en pasientgruppe som fikk didronat sammenliknet med en kontrollgruppe. Dette tallet (26 %) er et punktestimat på bedringen og svarer omtrent til det vi ville vente ut fra tidligere informasjon. Vi ser imidlertid at det skraverte området til høyre på figuren utgjør 4 % av arealet under kurven, mens 96 % av arealet under kurven ligger til venstre for tallet 1. Dette betyr at sannsynligheten for at bruddintensitetsratioen er mindre enn 1 og dermed at didronat hjelper, blir 96 %. P-verdien ble beregnet til 8 %. Den amerikanske legemiddelkontrollen feiltolket dette og aksepterte ikke didronat ved osteoporose. Nå har vi imidlertid akkurat lært at en p-verdi ikke sier noe om hvorvidt en observasjon (26 % reduksjon) er sann eller ikke, og vi vil derfor være åpne for å trekke en annen konklusjon.

    Full bayesiansk analyse

    Full bayesiansk analyse

    Dette er utført i figur 2. Vår opprinnelige innsikt er tatt inn i regnestykket i form av en apriorifordeling. Vi antar at vår forutgående «tro» svarer til at vi hadde gjort en undersøkelse der to pasientgrupper, hver på 150 pasientår, gav henholdsvis 48 og 60 brudd med og uten didronat. Alternative apriorifordelinger er benyttet i den tekniske beskrivelse av de utførte prosedyrene som ligger til grunn for figur 2, og som finnes i en nettversjon av denne artikkelen (10). Denne apriorifordelingen blir så kombinert med rimelighetsfunksjonen knyttet til materialet i Harris og medarbeidere (9) fra figur 1 (gjengitt i andre linje i figur 2). Dette gir en aposteriorifordeling i tredje linje. Vi ser at denne virker ganske overbevisende med hensyn til en positiv effekt. Lar vi så denne aposteriorifordelingen være apriorifordeling og legger til ytterligere en undersøkelse, Storm og medarbeidere (11), blir vi helt overbevist. Arealet til høyre for 1 er nå blitt mindre enn 0,002 og punktestimatet er 0,70, svarende til 30 % bedring.

    Måten dette ble gjort på, følger samme prinsipp som i regnestykket med den mulige syke pasient ovenfor, men da vi ikke bare har diskrete, men kontinuerlige sannsynlighetsanslag, blir det hele mer komplisert. På hvert punkt på x-aksen er de korresponderende to y-verdiene multiplisert med hverandre, hvoretter man har dividert med summen (integralet) av alle produktene, slik at arealet under tetthetskurven ble lik 1.

    For og imot mammografi

    For og imot mammografi

    Kløften i diskusjonen vedrørende konsekvensene av mammografiundersøkelsene dreier seg om synet på undersøkelsenes kvalitet. Resultatene fra to av undersøkelsene (12, 13) atskiller seg så fundamentalt fra de øvrige fem (14 – 18) at mange statistikere ikke kan tenke seg å slå resultatene sammen. Det er bare de to førstnevnte undersøkelsene som påstås å inneha den nødvendige kvaliteten. Vårt poeng her er at selv om man aksepterer dette synspunktet, må man også akseptere at det er sannsynlig ut fra biologisk tenkning at systematisk mammografi vil nedsette dødeligheten av brystkreft, i hvert fall noe.

    Vi bør derfor ikke fordype oss i størrelsen på p-verdien når vi har slått sammen de to beste undersøkelsene, men trekke slutninger først når man har inkludert alle forhold som kan belyse spørsmålet. Det vi har muligheten til å gjøre, er å legge inn forskjellige subjektivt valgte apriorifordelinger, for dermed å finne frem til hvilken grad av effekt man kan regne som sannsynlig under de rådende forhold for oppfølging av pasienter med positive mammografifunn.

    Dette har vi gitt et eksempel på i figur 3. (Alternative apriorifordelinger er også her tatt inn i nettversjonen (10).) Vi kommer til at det skal en ganske sterk apriorifordeling til før konklusjonen basert på to av undersøkelsene (12, 13) om at mammografi ikke fører til nedsatt dødelighet av brystkreft overhodet rokkes. Dersom vi tenker oss at vår overbevisning om effekt svarer til at vi har funnet henholdsvis 30 og 40 døde i et materiale på 10 000 pasienter i behandlings- og kontrollgruppen (fig 3, øverste linje), blir vårt punktestimat 5 % mortalitetsreduksjon (fig 3, nederste linje).

    Sannsynligheten for at resultatet er riktig kan leses direkte av kurven (fig 3, nederste linje). Den midterste linjen gjenspeiler de observerte data. Eksempelvis er sannsynligheten for at effekten er positiv (redusert dødelighet) lik flateinnholdet under kurven til venstre for 1,0, dvs. 77 %.

    Diskusjon

    Diskusjon

    Mange vil reagere på denne bruken av subjektive sannsynligheter. Vi mener at vi må være villige til å benytte tidligere informasjon om hva som er mest sannsynlig. Det vi ser, er jo at forskningsresultater blir fortolket forskjellig av personer med forskjellig ståsted. Bayesianerne (statistikere som arbeider innenfor det bayesianske paradigme) fremholder at det er fornuftig å sette tall på denne forskjellen i bakgrunnsvurdering. I det foreliggende problemet har vi nå regnet oss frem til at eksempelvis en forestilling om at man kan oppnå 30 – 40 % reduksjon i dødeligheten, slik det antydes i de fem undersøkelsene av lavere kvalitet, ikke kan forsvares.

    Noen vil kunne tenke seg å legge inn en enda sterkere apriorifordeling enn den vi har brukt i eksemplet ovenfor. Dette kan begrunnes ut fra en tankegang om at noe sant må det være i fem undersøkelser, selv om hver av dem bærer med seg kriterier på dårlig teknisk kvalitet.

    Ytterligere grunn til å legge inn en sterkere apriorifordeling kan man finne i en epidemiologisk rapport fra Sverige. Mortaliteten av brystkreft gikk virkelig ned da man innførte screening i to fylker (19). Dermed blir 77 % utregnet ovenfor en minimumsgrense som uttrykk for vår overbevisning om at screening reduserer dødeligheten av brystkreft. Miettinen og medarbeidere (20) har nylig reanalysert dataene fra en av undersøkelsene (12) og funnet et tilsvarende resultat som oss, altså en beskjeden, men sikker dødelighetsreduserende effekt.

    Hovedregelen er at for å kunne trekke den konklusjonen at resultatene fra en enkelt undersøkelse er korrekt positive, bør de sammenholdes med det vi visste om forholdet fra tidligere. Dersom vi overhodet ikke har noen mening om og heller ikke tidligere data vedrørende et forhold vi undersøker, gjør vi ingen stor feil om vi feilaktig fortolker en p-verdi induktivt. Saken er imidlertid at vi sjelden står på bar bakke. Hvorfor skulle vi ellers foreta undersøkelsen? En annen situasjon der vi godt kan konkludere induktivt, er når p-verdien er svært lav. Da er det oftest likegyldig hva vi trodde på forhånd.

    Konklusjon

    Konklusjon

    Tradisjonell statistikk vil også i fremtiden være viktig, men brukerne må beflitte seg på ikke uten videre å foreta induktive slutninger. Tradisjonell statistikk gir imidlertid omtrent samme konklusjon som den bayesianske dersom fortolkeren ikke har forhåndsinformasjon eller dersom p-verdien er svært lav.

    Hovedbudskapet fra «bayesianerne» er at dersom man ønsker å gjøre en induktiv slutning etter å ha gjort en observasjon, må man ta hensyn til alt man visste før man gjorde observasjonen. Man kan alternativt velge å nøye seg med å beregne p-verdien ut fra tradisjonell, såkalt frekventistisk analyse. Resultatet av denne vil i så fall kunne fortelle oss hvor ofte vi vil konkludere med et falskt positivt resultat i det lange løp.

    Det er eksempler på at riktig konklusjon er blitt utsatt flere år fordi man etter vår oppfatning har lagt for stor vekt på p-verdier.

    Bayesiansk statistikk kan med fordel benyttes ved metaanalyser (21).

    En bayesiansk tilnærming til spørsmålet om nytten av mammografiscreening gir holdepunkter for at screeningprogrammet bør følges opp som opprinnelig planlagt.

    PDF
    Skriv ut

    Anbefalte artikler

    Laget av Ramsalt med Ramsalt Media