Hundre år med det randomiserte forsøk

Bjørndal A Om forfatteren
Artikkel

Sammenliknende erfaring er en absolutt betingelse for den eksperimentelle og vitenskapelige medisin,
ellers vandrer legen på måfå og blir offer for tusen illusjoner.

Claude Bernard (1)

Det eldste kontrollerte kliniske forsøk vi kjenner i medisinen er datert 1898. Den danske legen Johannes Fibiger vurderte effekten av serumbehandling ved difteri (2). Pasienter som ble innlagt den ene dagen, fikk serumbehandling, mens de som ble innlagt neste dag ikke fikk noen behandling. Forsøket, som varte et helt år, omfattet 484 pasienter som ble innlagt ved Blegdamshospitalet med difteri. Åtte pasienter døde i behandlingsgruppen mot 30 i den like store kontrollgruppen.

Interessen for å bruke den eksperimentelle design i medisinsk forskning også utenfor laboratoriet våknet imidlertid først for alvor etter den annen verdenskrig. I 1948 presenterte The UK Medical Research Council resultatene av streptomycinbehandling ved tuberkulose bedømt ved hjelp av et randomisert forsøk (3). “Its importance cannot be exaggerated. It opened up a new world of evaluation and control which will, I think, be the key to a rational health service,” skrev epidemiologen Archie Cochrane (1909-88) senere om streptomycinforsøket (4). Den britiske statistikeren Austin Bradford Hill (1897-1991) må tilskrives mye av æren for de systematiske bestrebelsene på å etablere pålitelige kontrollgrupper i vurderingen av medisinske behandlingsformer. Han var influert av Ronald A. Fischers arbeider i 1920-årene. Fischer (1890-1962), som arbeidet med landbruksforskning, introduserte eksperimentet som evalueringsform, oppfant variansanalysen og var antakelig den første som brukte uttrykket randomisering (5).

Hvorfor vurdere effekten av medisinske handlinger?

På godt og vondt er legeyrket handlingsorientert; leger vil gjerne “gjøre noe” for sine pasienter. Forsøkene på å svare på “Hva kan vi gjøre med det?” utgjør derfor en stor del av kunnskapsvolumet i praktisk medisin.

Når vi griper inn for å påvirke det naturlige forløp av ulike helseplager, er det viktig å være sikker på at vi gjør mer nytte enn skade. Av og til er virkningen så åpenbar og dramatisk at erfaring basert på noen få observasjoner er tilstrekkelig som begrunnelse. Hvis vi ikke får stoppet alvorlige blødninger, dør pasientene. Antibiotika ved meningitt redder liv.

Erfaring er imidlertid en dårlig veiviser når effektene er moderate eller små. Hvis noe hjelper én av ti eller én av 300, er det ikke lett å skille ut effekten av tiltaket fra den naturlige biologiske variasjon og de tilfeldigheter som påvirker alt en pasient kan feile. Ikke sjelden står mye på spill. I 1981 publiserte Horwitz & Feinstein en pasient-kontroll-studie som tydet på at profylakse med lidokain normaliserte arytmier og reduserte dødeligheten etter hjerteinfarkt (6). Lidokain var allerede i utstrakt bruk for denne indikasjonen. Det tok ti år før ekspertene lot seg overbevise om at denne terapiformen faktisk tar flere liv enn den redder (7, 8). Effekten er i samme størrelsesorden som den positive virkningen av acetylsalisylsyre og streptokinase ved akutt hjerteinfarkt. På 1980-tallet døde årlig trolig 20000-70000 pasienter med hjerteinfarkt pga. behandling med lidokain i USA (7).

Det er først og sist det uetiske ved å utsette pasienter for fare pga. intervensjoner med ukjent effekt som dikterer behovet for pålitelige vurderinger av det vi gjør. Det gjelder enten tiltaket brukes for å forebygge eller behandle, enten “inngrepet” er teknisk eller består i en mellommenneskelig handling. Når alt kommer til alt, er alle forsøk på å bedømme hva som virker, en gjetning vedrørende sannheten. Det er et faglig og etisk imperativ å gjøre eksplisitt hvilket logisk og empirisk grunnlag gjetningen hviler på (9).

Hva er poenget med randomisering?

Tilfeldig fordeling av personer til henholdsvis intervensjon eller kontroll er viktig av en eneste grunn; det er den eneste effektive måte å sikre sammenliknbarhet mht. prognose og respons på behandlingen. Ingen annen måte å etablere et sammenlikningsgrunnlag på sikrer at kjente (og derfor ofte målbare) og ukjente (ikke-målbare) forhold som virker inn på utfallet, er om lag likt fordelt mellom gruppene (10).

Randomisering er altså et forsøk på å minimalisere seleksjonsskjevhet. Denne design løser ikke problemer som kan oppstå etter etableringen av de grupper som skal sammenliknes; f.eks. systematiske ulikheter i annen behandling som tilbys (utover den som skal vurderes) eller skjevheter i hvordan utfallene blir målt.

Hvordan randomiseringen skjer, er viktig. Det var Thomas Chalmers (1917-95) og medarbeidere som først viste at det ikke å skjule prosedyren for fordeling til intervensjon eller kontroll for dem som rekrutterer pasientene (concealment of allocation), ofte resulterer i en skjevfordeling av prognostiske faktorer og derfor gir effektestimater som er forskjellige fra (og oftere statistisk signifikante) enn de estimater man får når allokeringsprosedyren er skjult (11). Denne feilkilden alene kan ha større effekt enn den vi håper behandlingen har (12).

Striden om ikke-randomisert effektforskning

Ikke alle deler synet på at randomisering er avgjørende for pålitelige effektvurderinger (13, 14). Kritikerne har flere viktige innvendinger. Systematiske oversikter, bl.a. dem som lages av The Cochrane Collaboration (15), viser at en rekke randomiserte forsøk er dårlig planlagt og gjennomført. I mange undersøkelser har man unnlatt å besvare spørsmål og måle utfall som er viktige for pasientene. Av de skammelig få forsøk som finnes i verden om effekt av schizofrenibehandling, har halvparten en oppfølgingstid på seks uker eller kortere (16). Og et randomisert forsøk kan bare klargjøre at et tiltak har (eller ikke har) effekt. Andre metoder, bl.a. kvalitative design og laboratorieforskning, må brukes for å forklare hvorfor og hvordan noe virker.

Det er også innlysende at spørsmålet må avgjøre hvordan man bør gå frem for å finne svaret. Hvis man lurer på hva innvandrerkvinner tenker om prevensjon, vil ikke et randomisert forsøk gi svaret. Hvis spørsmålet er om staten bør eie sykehusene, er randomisering en praktisk umulighet. Er man på jakt etter sjeldne bivirkninger, må man lete med andre designer.

Det er imidlertid en heftig uenighet i medisinen for tiden om hvorvidt man kan nøye seg med ikke-randomiserte effektvurderinger for å svare på spørsmål som kunne belyses med en randomisert design, men der det enten ikke er gjort eller ikke er gjort godt nok. Etter min vurdering skyldes dette at mange leger og andre handlingsorienterte faggrupper har en overdreven tro på effektene av det de driver med og ikke erkjenner klart nok at systematiske feil kan lede til innføring av uvirksomme (bortkastede ressurser) eller farlige virkemidler. Inntil nylig var det f.eks. helt uklart hva som var det beste legemiddelvalg for å kontrollere kramper ved eklampsi fordi det ikke fantes noen randomiserte forsøk. 100 års uenighet skyldtes den håpløse oppgave å tolke ukontrollerte pasientmaterialer og ikke-randomiserte sammenlikninger. I 1995 ble dette spørsmålet besvart overbevisende (17), men ikke før bokstavelig talt millioner av kvinner hadde betalt prisen for at ingen fagfolk hadde tatt seg sammen og organisert et tilfredsstillende forsøk.

Forskning skal opplyse beslutninger, ikke diktere dem

En viktig begrunnelse for å få frem gode effektvurderinger, er å kunne bli ferdig med spørsmålet om hva den medisinske effekten er. Da er det mulig og meningsfullt å gå videre til et annet viktig spørsmål i klinisk medisin; hvordan pasienter selv vil fargelegge kunnskapsbildet med meninger, følelser og opplevelser av hvilke utfall som er viktig for dem.

Så lenge fagfolk faktisk ikke besitter et pålitelig bilde av hva som virker og hvor sterkt det virker, eller når man tror mer på den forskning som er tilgjengelig enn det er grunnlag for, fungerer “kunnskap” tilslørende. Toneangivende kvinnelige gynekologer gav i dagspressen nylig uttrykk for at flere norske kvinner burde bruke østrogen etter menopausen og hevdet at allmennpraktikeres tilbakeholdenhet trolig skyldtes at “de ikke er helt oppdatert på forskningsresultater” (18). Eksemplet illustrerer at diskusjonen om design er noe mer enn en akademisk øvelse. Kunnskap om effekter av østrogensubstitusjon fra kohort- og pasient-kontroll-undersøkelser tyder på en positiv effekt på hjerte- og karsykdom (ett unngått tilfelle av hjertesykdom per 50 behandlede etter ti år) og en viss økning i forekomsten av brystkreft (ett tilfelle per 100 behandlede etter 15 år) (19, 20). Ikke bare er dette moderate effekter (som knapt kaller på sterke anbefalinger), det er også upålitelige estimater (21).

Kunnskap er makt og bør deles med andre. Upålitelig kunnskap vanskeliggjør en nødvendig demokratisering av medisinen, der publikum blir en mer aktiv deltaker i medisinske beslutninger (22). Derfor har uenigheten om hva som er pålitelig kunnskap om effekt av helsetjenester, viktige implikasjoner for relasjonen mellom lege og pasient og forholdet mellom fag og politikk.

Arild Bjørndal

Anbefalte artikler