Simpsons paradoks – når pluss og pluss blir minus

Jo Røislien, Jan Terje Kvaløy Om forfatterne
Artikkel

Statistikk handler om å oppsummere store tallmengder med noen få, velvalgte tall. Men gjøres slik oppsummering ukritisk, uten å ta høyde for eventuelle underliggende grupperinger eller strukturer i dataene, kan det bære galt av sted. Man kan til og med bli lurt til å se det motsatte av virkeligheten.

Noe av det viktigste man gjør i medisinsk statistikk er å sammenligne forekomsten av noe i to grupper. Man teller opp i begge gruppene og ser hvor det er mest. Men selv noe så tilsynelatende enkelt kan gå galt.

Mens Edward Simpson var doktorgradsstipendiat i matematisk statistikk i 1945–1947, skrev han et notat om krysstabeller. Da veilederen hans noen år senere trengte arbeidet å referere til, fikk han Simpson til å publisere det i en artikkel (1). Det var et teoretisk arbeid der Simpson beskrev et fenomen han hadde oppdaget, der en effekt som pekte i én retning når man så på to grupper hver for seg, pekte i motsatt retning når man så på alle observasjonene samlet. Simpson brukte et hypotetisk eksempel i notatet, men paradokset er høyst reelt. Det fikk etter hvert navnet Simpsons paradoks.

Tuberkulosedødsfall

Det første dokumenterte tilfellet av Simpsons paradoks i reelle data er fra en studie av tuberkulosedødsfall i New York og Richmond i 1910 (2). En enkel opptelling viste at en større andel av befolkningen døde av tuberkulose i Richmond enn i New York, og den umiddelbare konklusjonen ble at tuberkulose rammet Richmond hardest. Ved nærmere ettersyn viste det seg at det ikke var fullt så enkelt. Når man delte befolkningen i to grupper, de av kaukasisk herkomst og de av ikke-kaukasisk herkomst, ble konklusjonen snudd på hodet: I begge befolkningsgruppene var dødeligheten høyere i New York enn i Richmond.

Nøkkelen til dette tilsynelatende paradokset ligger i hvordan tuberkulose rammet befolkningen ulikt. Generelt var dødeligheten av tuberkulose større blant dem av ikke-kaukasisk herkomst, og i Richmond var en større andel av befolkningen fra denne gruppen. På grunn av disse forskjellene i befolkningssammensetningen kom dermed Richmond dårligere ut enn New York, med en høyere andel døde i befolkningen når alle innbyggerne ble samlet i én stor haug.

Simpsons paradoks har siden blitt observert i alt fra kreftdød og behandlingsmetoder for nyrestein, til baseballstatistikk og opptak på universiteter. Og i pandemier.

Covid-19

Våren 2020 hadde koronaviruset SARS-CoV-2 spredt seg over hele kloden. To av de hardest rammede landene i den tidlige fasen var Kina og Italia. I mars ble dødelighetsdata fra disse to landene publisert, og Italia kom dårligst ut (3): Sett i forhold til antall smittede var dødeligheten i Italia dobbelt så stor som i Kina.

Men koronaviruset rammer ikke befolkningen likt. Når forskerne tok alder med i opptellingene ble alt snudd på hodet. Så man på dem i 20-årene for seg, var dødeligheten høyere i Kina enn i Italia. Det samme gjaldt for dem i 30-, 40-, 50-, 60-, 70- og 80-årene. For alle aldersgrupper var dødeligheten høyere i Kina enn i Italia. Allikevel var dødeligheten for alle innbyggerne sett samlet høyest i Italia. Dette er Simpsons teoretiske paradoks i praksis. Dødeligheten av covid-19 øker med økende alder, og er særlig høy blant de eldste. Siden Italia har en større andel eldre i befolkningen enn Kina, og flere smittede i de eldste aldersgruppene, kommer Italia dårligst ut om man ukritisk ser på totaltallene.

Simpsons paradoks er opprinnelig et resultat for krysstabeller og kategoriske data, men gjelder også kontinuerlige data: Innad i hver gruppe kan det være en positiv trend, mens en analyse av alle dataene samlet viser en negativ trend (Figur 1).

Figur 1 Simpsons paradoks i kontinuerlige data. Effekten når man ser på gruppene for seg (a) peker motsatt vei enn når man ser på alle dataene samlet (b).

Matematiske ligninger har ingen hjerne

Statistikk handler om å oppsummere store tallmengder med noen få, velvalgte tall. Men man kan ikke uten videre samle alle tallene i én stor haug. Statistikk kan bidra til å avdekke strukturer og sammenhenger i tallene, men de matematiske ligningene har ingen hjerne. Ligningene vet ikke hvor tallene kommer fra. De vet ikke om det er bakenforliggende faktorer som ikke er inkludert i analysene. Det må vi vite. Noen ganger er det mest informative å se på totaltallene, andre ganger ikke. Statistisk metode og kunnskap om den konkrete situasjonen som skal analyseres må gå hånd i hånd.

Anbefalte artikler