Er nytten av organiserte masseundersøkelser for livmorhalskreft og brystkreft i Norge vitenskapelig bevist?

Per-Henrik Zahl Om forfatteren
Artikkel

Hensikten med screening for kreft er å oppdage sykdom på et tidligere stadium, eventuelt et premalignt stadium, slik at dødeligheten reduseres. Den enkleste form for screening er å innkalle alle individer som kan tenkes å utvikle sykdommen med regelmessige mellomrom, eventuelt bare én gang, til undersøkelse. Dette kalles organisert screening. Alternativet til organisert screening kalles ofte villscreening eller opportunistisk screening. Villscreening er en delvis misvisende betegnelse fordi det dekker en rekke ulike former for prosedyrer for hvem som skal undersøkes og hvor ofte. Villscreening blir brukt om alt fra tilfeldig prøvetaking til prøvetaking veid i forhold til et individs risikoprofil. Rutineprøver og undersøkelser av friske mennesker som antas å tilhøre avgrensede risikogrupper defineres her som opportunistisk screening. Generelt bør villscreening bare brukes om tilfeldig prøvetaking uten risikoevaluering.

Formålet med denne artikkelen er todelt: For det første å gjøre oppmerksom på at organisert screening for brystkreft i dag er minst like kontroversielt som i 1980-årene og at organisert screening for livmorhalskreft sannsynligvis ikke er vesentlig mer effektivt enn opportunistisk screening. For det andre finnes det ikke noe uavhengig vitenskapelig program for å verifisere effekten i Norge. Dette siste er et problem som det med tiden vil bli mer og mer presserende å løse på grunn av de store utgiftene som genereres ved screening.

Screening for livmorhalskreft

Den vitenskapelige begrunnelse for screening for livmorhalskreft bygger på ikke-eksperimentelle studier. Man har sammenliknet insidens- og mortalitetsrater før og etter start av et organisert screeningprogram i flere land (1). IARC (2) anbefalte screening for livmorhalskreft allerede i 1986. Forandringer i insidensrater og stadiefordeling antas å være de tidligste indikatorer for estimering av effektivitet ved screening. Forandringer i dødelighetsrater vurderes imidlertid som bedre mål på effektivitet (2, 3). Screeningtesten består av cervixcytologiske prøver hvor man leter etter celleforandringer som kan utvikle seg videre til invasiv kreft.

Insidensratene og fall i rater varierer meget mellom de nordiske land (1, 3). I Sverige har man sett en reduksjon på rundt 55 % etter start av organisert screening, mens det i Finland har vært en reduksjon på hele 75 %, ifølge figur 3 i Sigurdsons artikkel (3). På den annen side har man i Danmark halvert insidensraten til omtrent det norske nivå uten noe nasjonalt program for screening for livmorhalskreft, ifølge figur 3 i Sigurdsons artikkel (3). I Finland og Sverige så man fall i insidensrater samtidig med at screeningprogrammene ble startet, og relativt sterke fall umiddelbart etter at programmene var landsdekkende. Hvis man evaluerer effekten av screening som differansen mellom rater før og rater 10 – 15 år etter at screeningen var blitt landsdekkende, blir den på rundt 50 % i Sverige og 70 % i Finland (3). De siste ti årene har det ikke vært noen radikale forandringer av insidensratene i disse to landene.

I Norge har man, til tross for en sterk økning i antall cervixcytologiske prøver fra 1980 og en meget høy rate de siste ti år, ikke sett noen vesentlig reduksjon i insidensraten for livmorhalskreft de siste 15 årene (4). Med dagens høye prøvetakingstall (5), og med referanse til Finland og Sverige (3), ville man forventet å se store fall i insidensratene. Reduksjonen av insidensrater i Norge fra 1975 til 1983 var i overkant av 30 %, og differansen mellom reduksjonen i Norge og reduksjonene i de andre nordiske land er blitt tolket som effekten av organisert screening versus opportunistisk screening (1, 5). Hvis man sammenlikner med Finland, skulle man etter start av organisert screening i Norge forventet en halvering av insidensraten fra tidlig i 1980-årene.

Forsmo og medarbeidere (6) har estimert forandringer i insidensrate som kan tilskrives testing med cervixcytologiske prøver i Sør-Trøndelag. Disse estimatene forutsetter at alle forandringer siden perioden 1965 – 77, bortsett fra det som kan forklares med alderssammensetningen av befolkningen, skyldes økt bruk av cervixcytologiske prøver. Det er imidlertid kjent at insidensraten for livmorhalskreft, som for andre krefttyper, viser til dels store forandringer over tid og mellom sosioøkonomiske grupper i mange land (7), og dette er det ikke korrigert for.

Det har vært relativt liten metodediskusjon rundt screening for livmorhalskreft i forhold til screening for brystkreft. IARC-rapporten fra 1986 (2) og Sigurdson (8) diskuterer aktuelle målgrupper og valg av screeningintervaller. Artiklene (1 – 8) forutsetter alle at insidensraten ville vært uforandret ved ingen screening. Insidensrater for mange typer kreft varierer over tid, og spesielt kreftformer som er assosiert med virus, viser stor variasjon over tid og mellom land – f.eks. leverkreft (7). Livmorhalskreft er hovedsakelig forårsaket av noen typer humant papillomavirus (9). Hvis man sammenlikner med andre seksuelt overførbare sykdommer som gonoré, syfilis, hepatitt B og AIDS, er det spesiell grunn til å advare mot bruk av statistikk hvor man antar at insidensraten er konstant over tid. Det er altså god grunn til å tro at det er en kontinuerlig forandring i den naturlige insidensrate over tid og mellom land, og det er spesielt ingen grunn til å anta at insidensrater skal utvikle seg parallelt i forskjellige land.

Det er ingen grunn til å trekke i tvil at screening reduserer dødeligheten av livmorhalskreft. Problemet er først og fremst at man ikke kan kvantifisere effekten, man kan ikke sammenlikne organisert screening med opportunistisk screening, og optimalisering av screeningintervall og valg av målgrupper er gjenstand for subjektive fortolkninger av insidensrater.

Livmorhalskreft i Norge

Som eksempel på problemet med sammenlikning av insidensrater og tolking av trender ser vi på insidensrater i Norge spesielt.

Antall cervixcytologiske utstryk i Norge har økt fra rundt 100 000 prøver i 1970 til om lag 550 000 i 1992 (5). I figur 1 vises den aldersjusterte insidensraten for premaligne former (stadium 0) registrert av Kreftregisteret fra 1983 og frem til 1997. Fra 1988 til 1993 var det en dobling av insidensraten av premaligne tilfeller, mens innføring av organisert screening fra og med 1995 ikke har gitt noen ytterligere økning i forhold til treårsperioden før organisert screening.

Figur 1   Aldersjusterte insidensrater for carcinoma in situ (stadium 0) i livmorhalsen fra 1983 til 1997. Tallene for 1997 er ikke helt sammenliknbare med tidligere år fordi grov atypi er tatt med

Figur 2 viser aldersjusterte insidensrater av kreft i livmorhalsen fra 1965 til 1997. Det var en meget svak økning frem til 1975, hvoretter man fikk en tiårsperiode med rundt 30 % fall i insidensraten. Fra 1983 – 84 har insidensraten vært omtrent konstant, til tross for at stadig flere premaligne tilstander er blitt diagnostisert. Dette er vesentlig forskjellig fra hva man har observert i de andre nordiske land (3). Umiddelbart vil man tro at det skal være en forsinkelse i tid mellom en økning av insidensraten for premaligne tilstander og et fall i insidensraten for maligne tilstander, men dette er ikke kommentert i Läärä og medarbeideres artikkel eller i Sigurdsons artikkel (1, 3). Mortalitetsraten har holdt seg konstant de siste 20 år (4).

Figur 2   Aldersjusterte insidensrater for livmorhalskreft i Norge fra 1965 til 1997

WHOs standardpopulasjon og den direkte metode er brukt ved beregning av aldersjusterte rater.

Det er mange mulige forklaringer på at insidensraten for invasiv kreft i livmorhalsen ikke har falt i Norge til tross for en sterk økning av antall cervixcytologiske prøver de siste ti år, og norske livmorhalskreftdata illustrerer godt problemet med tolking og sammenlikning av insidens- og mortalitetsrater.

For det første kan det være problemer med kvalitetssikring ved oppfølging av positive prøver. Det er imidlertid ingen grunn til å tro at dette er et problem i Norge.

Dernest kan det tenkes at et fall i insidensraten kommer først mange år etter start av organisert screening. Dette er en rimelig forklaring når man leter etter premaligne tilstander, men er lite forenlig med hva man observerte etter start av masseundersøkelser i Finland og Sverige.

En tredje forklaring er at et relativt større fall i Finland og Sverige kan forklares med større forandringer i risikofaktorer samtidig med start av organisert screening enn i Norge. Figur 5 i Sigurdsons artikkel (3) viser at det i Norge, Sverige og Danmark er voksende rater for aldersgruppen 20 – 29 år, som i snitt var fire ganger høyere i 1990 enn i Finland. Man ser altså størst forskjell i aldersspesifikke insidensrater i den aldersgruppen hvor screeningfrekvensen er likest. Dette kan indikere at insidensraten utvikler seg annerledes i Finland enn i de andre nordiske land.

For det fjerde kan det tenkes at det ikke er noen forskjell mellom opportunistisk screening og organisert screening for livmorhalskreft i Norge. I figur 1 ser man ingen markant økning i antall premaligne tilfeller (stadium 0) etter start av organisert screening i 1995. Det kan altså tenkes at kvinner med høy risiko for utvikling av livmorhalskreft allerede møtte opp regelmessig for å få tatt cervixcytologisk prøver.

Noen forfattere (5, 10) argumenterer med at det er mest å vinne ved organisert screening av kvinner over 50 år, mens Fahs og medarbeidere (11) og van Wijngaarden & Duncan (12) diskuterer om det er noen hensikt med gjentatte undersøkelser av kvinner med to eller flere negative prøver etter fylte 50 år. For øvrig viser også IARC-rapporten (2) at risikoen for positiv test er mindre hvis forutgående test var negativ. Figur 3 i Thoresen og medarbeideres artikkel (5) viser at fremmøteprosenten hos kvinner under 50 år ikke ble vesentlig forbedret ved organisert screening. Derimot ser man en sterk økning i fremmøteprosent blant kvinner i aldersgruppen 50 – 69 år, hvis gjennomsnittlige prøvetakingsrate allerede var på 50 %. Det kan altså tenkes at økningen i prøvetakingsrate for kvinner over 50 år kun gjelder individer med lav risiko, og at kvinner med høy risiko for celleforandringer (en eller flere tidligere positive prøver) allerede er fanget opp av systemet med opportunistisk screening. Dette er en interessant teori, som for øvrig støttes av at risikoen for ny smitte med humant papillomavirus og cellefølsomhet for malign transformasjon er mye lavere hos kvinner som er over 50 år (12, 13).

Det er for øvrig liten kunnskap om tid og risiko fra påviste celleforandringer til eventuell malign utvikling. Hvis tid fra celleforandring til utvikling av kreft i tillegg varierer med alder (12, 13), vil dette i seg selv kunne forklare noe av forskjellene mellom Finland og Norge.

En femte forklaring kan være at kvinner med høy risiko som ikke tidligere har møtt opp til regelmessig prøvetaking, heller ikke møter opp ved organisert screening.

Hvis insidens- og dødelighetsraten for livmorhalskreft skulle falle i fremtiden, så er det fremdeles ikke påvist noen årsaksmessig sammenheng. Det vil alltids finnes en rekke andre plausible forklaringer, spesielt hvis det går mange år.

Screening for brystkreft

Mange av problemstillingene ved screening for brystkreft er de samme som ved screening for livmorhalskreft, men det er også vesentlige forskjeller. For det første stilles ikke diagnosen på et premalignt stadium ved mammografi. Dette betyr at det er et mindre potensial for å forebygge spredning. For det andre bygger mammografi på vitenskapelige randomiserte forsøk (14 – 17), men det er verdt å merke seg at ikke alle randomiserte forsøk (16, 17) viste signifikante effekter av organisert mammografscreening. I tillegg er det alvorlige metodologiske innvendinger mot mange mammografistudier (18). Bare studiene fra Malmö og Canada er adekvat randomisert, og disse viste ingen signifikante effekter og heller ikke tendens til effekt. De studiene som ikke var adekvat randomisert, viste et fall i dødelighet av brystkreft, men en økning i dødelighet av andre årsaker – hvilket gir en delikat problemstilling. De randomiserte mammografistudiene er ikke utført dobbeltblindt. Derfor er det meget viktig at man kontrollerer at randomiseringen har fungert.

En fellesnevner for screening for livmorhalskreft og screening for brystkreft er at det ikke finnes noen gode studier hvor man sammenlikner organisert screening med uorganisert.

Et annet felles problem er hvordan man skal estimere effekten i den norske befolkning. F.eks. kan det stilles spørsmål ved om det er riktig å anta at organisert screening med mammografi vil redusere dødeligheten i Norge i dag med 30 %, som antatt av Kåresen og medarbeidere (19). Når insidensrater, dødelighetsrater, aldersfordeling, stadiefordeling og behandlingsresultater forandrer seg, kan man ikke umiddelbart anvende estimerte effekter fra tidligere undersøkelser på den norske befolkning, spesielt ikke hvis de er fra andre populasjoner. Alexander og medarbeidere (16) har f.eks. senere estimert (konservativt) reduksjonen i dødelighet av brystkreft til å være 14 % ved mammografiscreening. Det argumenteres for øvrig av Kåresen og medarbeidere (19) med at effekten i Norge kan forventes å være større enn i Sverige fordi påviste primærsvulster gjennomsnittlig er mindre og flere mikrometastaser påvises. Dette kan like godt være et uttrykk for større, flere og mer grundige kirurgiske inngrep i dag enn i Sverige i 1980-årene.

Effekten av mammografiscreening i Sverige er blitt trukket i tvil av f.eks. Sjönell & Ståhle (20). Deres artikkel bygger på analyser av dødelighetsrater og fremskrivninger av disse, som i og for seg er analoge med de metoder som blir brukt for å begrunne (organisert) screening for livmorhalskreft (1, 3). Gøtzsche & Olsen (18) kommenterer for øvrig også at 15 år med organisert mammografiscreening ikke har redusert dødeligheten i Sverige.

Diskusjon

I denne artikkelen diskuteres generelle problemer rundt screening for livmorhalskreft og brystkreft i Norge. Det understrekes spesielt at effekten av organisert screening for kreft i livmorhalsen og i brystet er vanskelig å dokumentere uten at man gjør meget grundige statistiske analyser, og at denne usikkerheten alltid bør komme frem i diskusjonen.

Tradisjonell sammenlikning av rater før og etter start av screening og sammenlikning med rater i andre land beviser i seg selv ingenting. Sammenlikning av insidens- og dødelighetsrater over tid og mellom land er ikke egnet til å evaluere et screeningprogram for kreft fordi det er for mange andre faktorer som det må justeres for simultant. Risikofaktorer, aldersfordeling, stadiefordeling og behandlingsresultater forandrer seg over tid. Det er ikke tilstrekkelig bare å bruke aldersjusterte rater, og det advares spesielt mot bruk av modeller hvor man antar at rater holder seg konstante over tid og som forklarer alle forandringer med screening.

Insidensraten for premaligne tilstander (fig 1) tyder på at insidensraten for maligne tilstander ikke vil synke og at organiserte norske screeningprogrammer bør evalueres med statistiske metoder og verifiseres uavhengig av resultater fra andre land. Man bør sammenlikne rater for dem som blir testet med rater for en intern kontrollgruppe. De som ikke deltar i det organiserte programmet, bør være en slik intern kontrollgruppe. En statistisk simultananalyse (f.eks. regresjonsanalyse) vil kunne gi et selvstendig anslag over effekten av screening i Norge og eventuell ny kunnskap om høyrisikogrupper. I en regresjonsmodell kan man til en viss grad korrigere for seleksjon, og man bør spesielt være oppmerksom på muligheten for testing utenfor det organiserte screeningprogrammet.

I tillegg har man den menneskelige faktor – fremmøteprosenten forandrer seg, og kunnskap om individuell risiko kan sterkt påvirke grad av deltakelse og hvem som møter opp. Det er spesielt viktig å ta hensyn til dette hvis det er store individuelle forskjeller i risiko og denne kunnskap er allment tilgjengelig, slik det f.eks. er for livmorhalskreft.

Det finnes spesielt ingen vitenskapelige bevis for at organisert screening for livmorhalskreft er mer effektivt enn opportunistisk screening. Dette er bare en teori, og den virker lite sannsynlig når man studerer figur 1. Spesielt er det grunn til å ha motforestillinger mot en forventet reduksjon i dødelighet på 50 % som resultat av organisert screening.

En annen vesentlig problemstilling er om organisert screening skal sammenliknes med ingen screening eller med opportunistisk screening. Dette er en meget aktuell problemstilling, fordi når man presenterer et forventet fall i dødelighet, vil de fleste tro at det er et fall fra dagens nivå, ikke fra et historisk nivå. Organisert screening med mammografi og cervixcytologiske prøver ble startet i Norge på et tidspunkt hvor store deler av befolkningen ble opportunistisk screenet. Dette svaret kunne man enkelt få ved å starte med organiserte masseundersøkelser av mindre deler av befolkningen og sammenlikne med resten. Dette burde vært gjort før man startet med screening av hele befolkningen.

Data fra det norske screeningprogrammet for livmorhalskreft er for øvrig et meget godt utgangspunkt for videre forskning på sykdommens epidemiologi. Bare en liten andel av dem som smittes med humant papillomavirus utvikler celleforandringer, og det kan være store individuelle forskjeller i risikoen for utvikling av celleforandringer og senere kreft. Kunnskap om slike forskjeller er helt sentral når man skal tolke forandringer av insidensrater.

Man bør spesielt studere korrelasjoner mellom gjentatte testresultater hos enkeltindivider for å identifisere personer med høy og personer med lav risiko. Sannsynligvis øker korrelasjonen mellom to tester med alder, fordi sannsynligheten for ny infeksjon med humant papillomavirus synker og fordi risikoen for malign transformasjon avtar med alderen (12, 13). Slik kunnskap er nødvendig for planlegging av et effektivt screeningprogram, og vil gi dypere forståelse for hvordan sykdommen utvikler seg i en befolkning.

Identifisering av aldersgrupper og valg av screeningintervaller ved masseundersøkelser basert på sammenlikning av insidensrater mellom populasjoner og forandringer i rater over tid er en spesielt tvilsom metode og i seg selv en grunn til analysere data med mer sofistikerte metoder.

Den sekundære begrunnelsen for organisert screening for livmorhalskreft i Norge var å redusere antall prøver hos dem under 50 år (og øke den hos dem over) (5). Dette kan man også gjøre ved å gi informasjon til leger og pasienter om hvor ofte prøver bør tas. Selv om man har innført organisert screening i Norge, er det ingen selvfølge at totalt antall prøver synker. Den økonomiske besparelse ved organiserte masseundersøkelser for livmorhalskreft i forhold til opportunistisk screening er relativt beskjeden. De medisinske og etiske aspektene er viktigere. Det er tross alt noen etiske sider ved det å innkalle kvinner som ikke selv mener at de har behov for noen underlivsundersøkelse til cervixcelleprøve, og disse sidene bør også ivaretas (21).

De kliniske undersøkelsene som organisert screening med mammografi bygger på, er ikke entydige (18). Bare undersøkelsene med størst fall i dødelighet var signifikante, men disse er også de som kritiseres for ufullkommen randomisering. For det andre er de ikke reprodusert. Senere mammografiteknikker angis å være av bedre kvalitet enn de som ble brukt Sverige (17), hvilket skulle øke sannsynligheten for at nye studier skulle gi signifikante resultater. For det tredje er det ikke påvist noe fall i dødelighetsrater i Sverige etter 15 år med screening (18, 20), mens dette er rapportert i mange andre vestlige land (22). Slik kritikk bør ikke avfeies, men snarere møtes med vitenskapelige analyser hvor man svarer på kritikken.

Erfaring fra Gøtzsche & Olsen (18) viser for øvrig hvor viktig det er at man krever at studier skal være reproduserbare og at evaluering av et screeningprogram bør gjøres av andre enn dem som stod for studien.

I denne artikkelen er det sett bort fra forandringer i patologiske diagnoser, som ytterligere kompliserer tolking av insidensrater og evaluering av et screeningprogram. Slike problemstillinger må diskuteres separat for hver sykdom.

Anbefalte artikler