Bayesiansk tenkemåte på vei inn i medisinsk statistikk?

Ivar Aursnes, Bent Natvig, Ingunn Fride Tvete Om forfatterne
Artikkel

Figur  1 Effekt av didronat på antall ryggradsbrudd per år for kvinner med beinskjørhet (svarer til 2. linje i figur 2)

Figur  2 Risiko for ryggradsbrudd med og uten didronat

Figur  3 Risiko for død av brystkreft med og uten mammografi

Å avsløre tidlige stadier av brystkreft ved hjelp av røntgenundersøkelse av utvalgte grupper kvinner fører ikke til nedsatt dødelighet av brystkreft i forhold til en kontrollgruppe som ikke er screenet (1). Når man mottar et slikt budskap, kan man spørre: Hva er sannsynligheten for at påstanden er korrekt? Sannsynlighetsteoretikeren Thomas Bayes (2) la på 1700-tallet det teoretiske grunnlaget for å svare på dette spørsmålet, men spørsmålet har intet enkelt svar.

Bakgrunn

For snart hundre år siden innførte statistikeren R.A. Fisher (3) begrepet p-verdi. P-verdien er sannsynligheten, beregnet før man samler inn data fra en undersøkelse, for å få det faktisk observerte resultat eller noe mer ekstremt hvis nullhypotesen om f.eks. ingen reell effekt av en behandling er korrekt. Fisher mente ikke selv at dette skulle være svaret på spørsmålet i avsnittet ovenfor. Mange har nok allikevel kastet seg over denne størrelsen, som riktignok kan beregnes presist, men som oftest dessverre ikke er det man er ute etter (4, 5). Vi skal belyse dette med et par eksempler fra farmakoterapien.

Kolesterolsenking og effekt på koronarsykdom

Både eksperimenter på dyr og epidemiologiske observasjoner gav i sin tid gode grunner til å tro at man kunne redusere forekomsten av koronarsykdom ved å senke kolesterolnivået i blodet. En tidlig klinisk undersøkelse gav imidlertid det resultatet at den totale dødelighet ikke ble påvirket i gunstig retning når man senker kolesterolnivået (6). Denne konklusjonen støttet seg på beregningen av en p-verdi og ble dermed trukket på feil grunnlag. P-verdien var 0,12 og effektens størrelse var 37 %. Vi vet nå at en reduksjon i denne størrelsesorden er oppnåelig ved hjelp av kolesterolsenking. Det som var feil den gangen, var fortolkningen av p-verdien. At forsøket burde vært planlagt med flere pasienter, noe som ville gitt lavere p-verdi ved samme effekt, er etter vår oppfatning en annen sak.

Deduktive slutninger

Utregning av p-verdier baserer seg på en type statistikk som vi nå kan omtale som tradisjonell og som i sitt vesen er deduktiv. Man tar da utgangspunkt i en hypotese, betegnet nullhypotesen, om at det for eksempel ikke foreligger noen reell effekt, bare en tilsynelatende effekt som skyldes tilfeldigheter. Deretter deduserer man sannsynligheten for i så fall å oppnå det observerte resultatet eller noe mer ekstremt. Fisher var fullstendig klar over at utregningen han foreslo hadde begrenset verdi, men han mente at dette var en av flere mulige beregninger man kunne foreta.

Dersom vi stadig undersøker nye forhold og bestemmer oss for å tro på resultater med p-verdier som er 0,05 eller mindre, vil vi i det lange løp konkludere med et galt (falskt positivt) resultat i 5 % av tilfellene. P-verdien sier derimot ikke noe om hvor hyppig vi konkluderer med et falskt negativt resultat i det lange løp. P-verdien sier som hovedregel heller ikke noe om sannsynligheten for at et enkelt observert resultat er korrekt positivt. Det er også en feilslutning å si at det er 95 % sannsynlig at resultatet er korrekt positivt. Med andre ord: P-verdien forteller oss bare hvor ofte (frekvent) vi vil konkludere med et falskt positivt resultat «i det lange løp» dersom vi konsekvent aksepterte slike p-verdier som grunnlag for beslutninger. Denne type bruk av statistikk benevnes derfor ofte «frekventistisk».

Det fører for langt med en uttømmende diskusjon om konfidensintervaller. Hovedbudskapet er at det fra disse kun kan trekkes slutninger på linje med dem man trekker på grunnlag av p-verdier.

Induktive slutninger

Nøkkelspørsmålet i innledningen må derimot etter vår oppfatning besvares ved induksjon. Man går her motsatt vei i forhold til deduksjon. Man tar utgangspunkt i de data som foreligger og beregner så sannsynligheten for at nullhypotesen ikke er korrekt, det vil si for at den effekten du observerer er reell. Hvordan denne sannsynligheten beregnes ble klarlagt av Thomas Bayes. Den induktive slutningen er direkte og etter vår oppfatning klart å foretrekke fremfor den indirekte deduktive slutningen. En interessant parallell kan observeres i den kliniske hverdagen. Man kan tenke på en bestemt diagnose og dedusere hvilke symptomer dette ville medføre hos en pasient. Alternativt, og etter manges mening bedre, er å ta utgangspunkt i pasientens symptomer og ut fra dem trekke slutninger om hvilken diagnose som er mest sannsynlig. Dette siste er en induktiv metode.

Oppdatering med ny viten

Hvordan foretar man induktive slutninger? Bayes skrev en formel for hvordan det skal gjøres. Dette er behandlet utførlig i en artikkel i Utposten for en tid siden (7).

La oss her gi en kortfattet fremstilling. Betrakt en bestemt sykdom. Innfør følgende notasjon:

S = {Pasienten er syk}

F = {Pasienten er frisk}

+ = {Testen (for eksempel en blodanalyse) gir positivt utslag}

Vi ønsker å beregne den betingede sannsynligheten, P(S|+), for at en pasient er syk (S), gitt at testen har gitt positivt utslag (+). Bayes’ formel gir dette som

Anta at vi ut fra generell norsk helsestatistikk vet at 2 % av befolkningen lider av sykdommen, mens da 98 % er friske. Dette gir P(S) = 0,02 og P(F) = 0,98, som betegnes som apriorifordelingen. Anta videre at man på basis av et større datamateriale har følgende kunnskap om testens egenskaper: I 90 % av tilfellene gir testen korrekt positivt utslag når den anvendes på en syk pasient. Tilsvarende gir testen feilaktig positivt utslag i 10 % av tilfellene når den anvendes på en frisk pasient. Dette betyr at P(+|S) = 0,90 og P(+|F) = 0,10. Disse gir sannsynligheten for positivt utslag som funksjon av S og F og betegnes rimelighets (likelihood)-funksjonen. Setter vi disse numeriske verdiene inn i Bayes’ formel, finner vi aposteriorisannsynligheten P(S|+) = 0,16. Vi ser at vår opprinnelige sannsynlighet for at pasienten er syk, som var lik 0,02, er oppdatert til 0,16 på bakgrunn av informasjonen om at testen gav positivt utslag.

Ved å bytte om S og F i Bayes’ formel finner vi P(F|+), som også er lik 1 – P(S|+). Kombinerer vi Bayes’ formel for P(S|+) og P(F|+), finner vi Bayes’ formel på odds form

Her er P(S)/P(F) = 1/49 oddsen for å være syk i befolkningen som helhet. Denne multipliseres med den såkalte Bayes-faktoren, som er forholdet mellom sannsynlighetene for at testen gir positivt utslag gitt at pasienten er henholdsvis syk og frisk. Dette gir oddsen for å være syk, gitt at testen gav positivt utslag, P(S|+)/P(F|+) = 9/49. Siden P(F|+) = 1 – P(S|+), finner vi ved å løse denne ligningen at P(S|+) = 9/58 = 0,16. Dette er nettopp det vi fant ved direkte bruk av Bayes’ formel.

Vi kan i tillegg utføre en uavhengig test med en annen metode, her med for eksempel en Bayes-faktor lik 7. Med nok et positivt utslag som resultat, og ved igjen å bruke Bayes’ formel på odds form, får vi:

Siden P(F|+,+) = 1 – P(S|+,+), finner vi ved å løse ligningen over at P(S|+,+) = 9/16 = 0,56. På bakgrunn av to uavhengige tester med positivt utslag, er det nå klart mest sannsynlig at pasienten er syk.

Bayesiansk statistikk

Statistiske slutninger som bygger på dette prinsippet kalles bayesianske. I eksemplet over regnet vi bare på sannsynligheten for ett enkelt utfall, at pasienten er syk. I bayesiansk statistikk gjør man tilsvarende regnestykker med sannsynlighetsfordelinger. Disse prosedyrene er avhengig av sterke regnemaskiner og nødvendiggjør også simuleringer. Den tekniske siden ved denne statistikken er blitt uproblematisk i de senere år etter at gode datamaskiner er blitt allemannseie. Rutinene er ennå ikke lagt inn i vanlige statistikkpakker, men det finnes et spesiallaget program som er gratis (8).

Osteoporose som eksempel

På et tidspunkt forelå det indikasjoner på at bifosfonater styrker skjelettet. Man hadde fra før et teoretisk grunnlag for hvordan mineraliseringen av beinvev ble påvirket. Rotteforsøk viste økt bruddstyrke, og forsøk på mennesker påviste økt beintetthet. Didronat ble så testet ut på et pasientmateriale. Resultatet var som følger: Harris og medarbeidere (9) observerte at i løpet av 604 pasientår skjedde det 52 brudd i en behandlingsgruppe med didronat, mens det i en kontrollgruppe med 607 pasientår inntrådte 71 brudd.

La

l₁ = bruddintensiteten, dvs. antall brudd per år, for en pasient som får placebo

l₂ = bruddintensiteten for en pasient som får didronat

b= l₂/l₁ = bruddintensitetsratio

Vi antar at totalt antall brudd i kontrollgruppen er poissonfordelt med total intensitet 607 3 l₁, mens totalt antall brudd i behandlingsgruppen er poissonfordelt med total intensitet 604 3 l₂.

Figur 1 viser den beregnede usikkerheten for bruddintensitetsratio knyttet til dette materialet. Usikkerheten er gitt ved en sannsynlighetsfordeling. (Mer presist er dette en sannsynlighetstetthet der arealet under kurven er lik 1. Denne tettheten kan oppfattes som en standardisert rimelighetsfunksjon.) Vi ser at tettheten er størst svarende til 26 % bedring av hyppigheten av vertebralfrakturer hos en pasientgruppe som fikk didronat sammenliknet med en kontrollgruppe. Dette tallet (26 %) er et punktestimat på bedringen og svarer omtrent til det vi ville vente ut fra tidligere informasjon. Vi ser imidlertid at det skraverte området til høyre på figuren utgjør 4 % av arealet under kurven, mens 96 % av arealet under kurven ligger til venstre for tallet 1. Dette betyr at sannsynligheten for at bruddintensitetsratioen er mindre enn 1 og dermed at didronat hjelper, blir 96 %. P-verdien ble beregnet til 8 %. Den amerikanske legemiddelkontrollen feiltolket dette og aksepterte ikke didronat ved osteoporose. Nå har vi imidlertid akkurat lært at en p-verdi ikke sier noe om hvorvidt en observasjon (26 % reduksjon) er sann eller ikke, og vi vil derfor være åpne for å trekke en annen konklusjon.

Full bayesiansk analyse

Dette er utført i figur 2. Vår opprinnelige innsikt er tatt inn i regnestykket i form av en apriorifordeling. Vi antar at vår forutgående «tro» svarer til at vi hadde gjort en undersøkelse der to pasientgrupper, hver på 150 pasientår, gav henholdsvis 48 og 60 brudd med og uten didronat. Alternative apriorifordelinger er benyttet i den tekniske beskrivelse av de utførte prosedyrene som ligger til grunn for figur 2, og som finnes i en nettversjon av denne artikkelen (10). Denne apriorifordelingen blir så kombinert med rimelighetsfunksjonen knyttet til materialet i Harris og medarbeidere (9) fra figur 1 (gjengitt i andre linje i figur 2). Dette gir en aposteriorifordeling i tredje linje. Vi ser at denne virker ganske overbevisende med hensyn til en positiv effekt. Lar vi så denne aposteriorifordelingen være apriorifordeling og legger til ytterligere en undersøkelse, Storm og medarbeidere (11), blir vi helt overbevist. Arealet til høyre for 1 er nå blitt mindre enn 0,002 og punktestimatet er 0,70, svarende til 30 % bedring.

Måten dette ble gjort på, følger samme prinsipp som i regnestykket med den mulige syke pasient ovenfor, men da vi ikke bare har diskrete, men kontinuerlige sannsynlighetsanslag, blir det hele mer komplisert. På hvert punkt på x-aksen er de korresponderende to y-verdiene multiplisert med hverandre, hvoretter man har dividert med summen (integralet) av alle produktene, slik at arealet under tetthetskurven ble lik 1.

For og imot mammografi

Kløften i diskusjonen vedrørende konsekvensene av mammografiundersøkelsene dreier seg om synet på undersøkelsenes kvalitet. Resultatene fra to av undersøkelsene (12, 13) atskiller seg så fundamentalt fra de øvrige fem (14 – 18) at mange statistikere ikke kan tenke seg å slå resultatene sammen. Det er bare de to førstnevnte undersøkelsene som påstås å inneha den nødvendige kvaliteten. Vårt poeng her er at selv om man aksepterer dette synspunktet, må man også akseptere at det er sannsynlig ut fra biologisk tenkning at systematisk mammografi vil nedsette dødeligheten av brystkreft, i hvert fall noe.

Vi bør derfor ikke fordype oss i størrelsen på p-verdien når vi har slått sammen de to beste undersøkelsene, men trekke slutninger først når man har inkludert alle forhold som kan belyse spørsmålet. Det vi har muligheten til å gjøre, er å legge inn forskjellige subjektivt valgte apriorifordelinger, for dermed å finne frem til hvilken grad av effekt man kan regne som sannsynlig under de rådende forhold for oppfølging av pasienter med positive mammografifunn.

Dette har vi gitt et eksempel på i figur 3. (Alternative apriorifordelinger er også her tatt inn i nettversjonen (10).) Vi kommer til at det skal en ganske sterk apriorifordeling til før konklusjonen basert på to av undersøkelsene (12, 13) om at mammografi ikke fører til nedsatt dødelighet av brystkreft overhodet rokkes. Dersom vi tenker oss at vår overbevisning om effekt svarer til at vi har funnet henholdsvis 30 og 40 døde i et materiale på 10 000 pasienter i behandlings- og kontrollgruppen (fig 3, øverste linje), blir vårt punktestimat 5 % mortalitetsreduksjon (fig 3, nederste linje).

Sannsynligheten for at resultatet er riktig kan leses direkte av kurven (fig 3, nederste linje). Den midterste linjen gjenspeiler de observerte data. Eksempelvis er sannsynligheten for at effekten er positiv (redusert dødelighet) lik flateinnholdet under kurven til venstre for 1,0, dvs. 77 %.

Diskusjon

Mange vil reagere på denne bruken av subjektive sannsynligheter. Vi mener at vi må være villige til å benytte tidligere informasjon om hva som er mest sannsynlig. Det vi ser, er jo at forskningsresultater blir fortolket forskjellig av personer med forskjellig ståsted. Bayesianerne (statistikere som arbeider innenfor det bayesianske paradigme) fremholder at det er fornuftig å sette tall på denne forskjellen i bakgrunnsvurdering. I det foreliggende problemet har vi nå regnet oss frem til at eksempelvis en forestilling om at man kan oppnå 30 – 40 % reduksjon i dødeligheten, slik det antydes i de fem undersøkelsene av lavere kvalitet, ikke kan forsvares.

Noen vil kunne tenke seg å legge inn en enda sterkere apriorifordeling enn den vi har brukt i eksemplet ovenfor. Dette kan begrunnes ut fra en tankegang om at noe sant må det være i fem undersøkelser, selv om hver av dem bærer med seg kriterier på dårlig teknisk kvalitet.

Ytterligere grunn til å legge inn en sterkere apriorifordeling kan man finne i en epidemiologisk rapport fra Sverige. Mortaliteten av brystkreft gikk virkelig ned da man innførte screening i to fylker (19). Dermed blir 77 % utregnet ovenfor en minimumsgrense som uttrykk for vår overbevisning om at screening reduserer dødeligheten av brystkreft. Miettinen og medarbeidere (20) har nylig reanalysert dataene fra en av undersøkelsene (12) og funnet et tilsvarende resultat som oss, altså en beskjeden, men sikker dødelighetsreduserende effekt.

Hovedregelen er at for å kunne trekke den konklusjonen at resultatene fra en enkelt undersøkelse er korrekt positive, bør de sammenholdes med det vi visste om forholdet fra tidligere. Dersom vi overhodet ikke har noen mening om og heller ikke tidligere data vedrørende et forhold vi undersøker, gjør vi ingen stor feil om vi feilaktig fortolker en p-verdi induktivt. Saken er imidlertid at vi sjelden står på bar bakke. Hvorfor skulle vi ellers foreta undersøkelsen? En annen situasjon der vi godt kan konkludere induktivt, er når p-verdien er svært lav. Da er det oftest likegyldig hva vi trodde på forhånd.

Konklusjon

Tradisjonell statistikk vil også i fremtiden være viktig, men brukerne må beflitte seg på ikke uten videre å foreta induktive slutninger. Tradisjonell statistikk gir imidlertid omtrent samme konklusjon som den bayesianske dersom fortolkeren ikke har forhåndsinformasjon eller dersom p-verdien er svært lav.

Hovedbudskapet fra «bayesianerne» er at dersom man ønsker å gjøre en induktiv slutning etter å ha gjort en observasjon, må man ta hensyn til alt man visste før man gjorde observasjonen. Man kan alternativt velge å nøye seg med å beregne p-verdien ut fra tradisjonell, såkalt frekventistisk analyse. Resultatet av denne vil i så fall kunne fortelle oss hvor ofte vi vil konkludere med et falskt positivt resultat i det lange løp.

Det er eksempler på at riktig konklusjon er blitt utsatt flere år fordi man etter vår oppfatning har lagt for stor vekt på p-verdier.

Bayesiansk statistikk kan med fordel benyttes ved metaanalyser (21).

En bayesiansk tilnærming til spørsmålet om nytten av mammografiscreening gir holdepunkter for at screeningprogrammet bør følges opp som opprinnelig planlagt.

Anbefalte artikler