Skal vi skrinlegge begrepet statistisk signifikans?

Mats Julius Stensrud, Odd O. Aalen Om forfatterne

Kommentarer

(2)
Frederik Emil Juul
Om forfatteren

Takk til Stensrud og Aalen for belysning av problemer knyttet til p-verdien og statistisk signifikans.
Jeg vil legge til at det er i ferd med å skje endringer. New England Journal of Medicine endret nylig sine retningslinjer for statistisk rapportering i deres publikasjoner (1). Blant annet innebærer endringene at p-verdier skal erstattes med effektestimat (punktestimat) og konfidensintervaller for estimatene. New England Journal of Medicine skriver også at de forventer flere publikasjoner med bruk av bayesianske metoder som Stensrud og Aalen beskriver (1).
Det blir spennende å se om andre tidsskrifter følger etter.

LITTERATUR
(1) Harrington D, D´Agostino RB Sr, Gatsonis C et al. New Guidelines for Statistical Reporting in the Journal. N Engl J Med 2019; 381: 285-286.

Arne Høiseth
Om forfatteren

Allerede i 1990 hadde Odd O Aalen og jeg en disputt om dette i Tidsskr Nor Laegeforen. (sider 1968-71. og 2394-5.). Neste år kan vi feire 30-årsjubilem. For å gjenta:
Benevnelsen «statisk signifikans» bør skrotes av den grunn at man benytter et ord med et allment meningsinnhold som en gradering av beregnet sannsynlighet, et allment meningsinnhold som er forførende og ikke begrunnes av den statistiske analysen. I reklame ser vi den forførende effekten benyttet: Det påpekes at et vitamin har en signifikant effekt på beinhelse. Påstanden er korrekt hvis vi benytter ordet i sin statistiske betydning, men neppe hvis vi ønsker å utrykke klinisk betydningsfullhet. Et annet eksempel er antiøstrogenmedikament som har en statistisk signifikant effekt på skjelettet, men så liten effekt at det neppe gir noen grunn til bekymring hos de som allerede har større bekymringer. Jeg er direkte forbaust over at statistikkmiljøet ikke ser dette problemet og i alle fall skifter ut ordet signifikant med et verdinøytralt ord.
Konfidensintervall og p-verdier er ikke forskjellige, de gir eksakt samme informasjon. Tross gjentatte forsøk fra min side har jeg ikke fått forklart hva forskjellen i informasjon er.
Både p-verdier og konfidensintervaller kan manipuleres, først og fremst med antall observasjoner. Salgssuksess når det gjelder et av de mest benyttede medikamenter for bruddforebyggende behandling ble reddet takket være en enkelt observasjon i riktig retning. Hadde en pasient falt i den andre gruppen hadde resultatet vært ikke-signifikant; og medikamentet skrotet? Det er underlig å se hvordan begrepet signifikant og p-verdier benyttes uten å korrigere for antall observasjoner eller for effektstørrelsen.
Nok en gang: Det er (kun) størrelsen på effekten eller forskjellen som er av betydning, ikke en p-verdi eller et konfidensintervall. Har man tilstrekkelig antall tilfeldig valgte observasjoner (ca. 20) er effektestimatet rimelig pålitelig og kan vurderes i en praktisk sammenheng.