Skal vi skrinlegge begrepet statistisk signifikans?

Mats Julius Stensrud, Odd O. Aalen Om forfatterne

Kommentarer

(4)
Frederik Emil Juul
Om forfatteren

Takk til Stensrud og Aalen for belysning av problemer knyttet til p-verdien og statistisk signifikans.
Jeg vil legge til at det er i ferd med å skje endringer. New England Journal of Medicine endret nylig sine retningslinjer for statistisk rapportering i deres publikasjoner (1). Blant annet innebærer endringene at p-verdier skal erstattes med effektestimat (punktestimat) og konfidensintervaller for estimatene. New England Journal of Medicine skriver også at de forventer flere publikasjoner med bruk av bayesianske metoder som Stensrud og Aalen beskriver (1).
Det blir spennende å se om andre tidsskrifter følger etter.

LITTERATUR
(1) Harrington D, D´Agostino RB Sr, Gatsonis C et al. New Guidelines for Statistical Reporting in the Journal. N Engl J Med 2019; 381: 285-286.

Arne Høiseth
Om forfatteren

Allerede i 1990 hadde Odd O Aalen og jeg en disputt om dette i Tidsskr Nor Laegeforen. (sider 1968-71. og 2394-5.). Neste år kan vi feire 30-årsjubilem. For å gjenta:
Benevnelsen «statisk signifikans» bør skrotes av den grunn at man benytter et ord med et allment meningsinnhold som en gradering av beregnet sannsynlighet, et allment meningsinnhold som er forførende og ikke begrunnes av den statistiske analysen. I reklame ser vi den forførende effekten benyttet: Det påpekes at et vitamin har en signifikant effekt på beinhelse. Påstanden er korrekt hvis vi benytter ordet i sin statistiske betydning, men neppe hvis vi ønsker å utrykke klinisk betydningsfullhet. Et annet eksempel er antiøstrogenmedikament som har en statistisk signifikant effekt på skjelettet, men så liten effekt at det neppe gir noen grunn til bekymring hos de som allerede har større bekymringer. Jeg er direkte forbaust over at statistikkmiljøet ikke ser dette problemet og i alle fall skifter ut ordet signifikant med et verdinøytralt ord.
Konfidensintervall og p-verdier er ikke forskjellige, de gir eksakt samme informasjon. Tross gjentatte forsøk fra min side har jeg ikke fått forklart hva forskjellen i informasjon er.
Både p-verdier og konfidensintervaller kan manipuleres, først og fremst med antall observasjoner. Salgssuksess når det gjelder et av de mest benyttede medikamenter for bruddforebyggende behandling ble reddet takket være en enkelt observasjon i riktig retning. Hadde en pasient falt i den andre gruppen hadde resultatet vært ikke-signifikant; og medikamentet skrotet? Det er underlig å se hvordan begrepet signifikant og p-verdier benyttes uten å korrigere for antall observasjoner eller for effektstørrelsen.
Nok en gang: Det er (kun) størrelsen på effekten eller forskjellen som er av betydning, ikke en p-verdi eller et konfidensintervall. Har man tilstrekkelig antall tilfeldig valgte observasjoner (ca. 20) er effektestimatet rimelig pålitelig og kan vurderes i en praktisk sammenheng.

Stian Lydersen
Om forfatteren

I hvilke sammenhenger kan det være relevant å rapportere p-verdier? Mange vil være enige om at p-verdier rapporteres i for mange sammenhenger i den medisinske faglitteraturen (1). Både som medforfatter, og som statistisk fagfelle, opplever jeg regelmessig at forskere også vil rapportere p-verdier i sammenhenger der de er klart irrelevante (2). De såkalte «Vancouver-retningslinjene», fra «International Committee of Medical Journal Editors» er klare i sin anbefaling i sitt avsnitt «Statistics» (3):

“When possible, quantify findings and present them with appropriate indicators of measurement error or uncertainty (such as confidence intervals). Avoid relying solely on statistical hypothesis testing, such as P values, which fail to convey important information about effect size and precision of estimates.”

Dette er etter mitt syn et fornuftig råd, og også i tråd med konklusjonen i (1): Det viktigste er effektstørrelse, deretter usikkerhet uttrykt ved for eksempel konfidensintervall, og til slutt eventuelt p-verdi. Men i Vancouver-retningslinjene fra August 2013 (4) fant man også følgende, som ble stående uforandret frem til desember 2019, under «Results»:

 “Give numeric results not only as derivatives (e.g., percentages) but also as the absolute numbers from which the derivatives were calculated, and specify the statistical significance attached to them, if any.”

Siste del av dette kunne oppfattes som en generell oppfordring til å rapportere p-verdier. Jeg fant dette også i motstrid til anbefalingen under «Statistics». Jeg gjorde ICMJE oppmerksom på dette i mai 2019. I de reviderte retningslinjene av desember 2019 (3) er dette nå endret til:

“Give numeric results not only as derivatives (for example, percentages) but also as the absolute numbers from which the derivatives were calculated.”

Dette setningsleddet er altså tatt ut: “and specify the statistical significance attached to them, if any.”

Dermed kan ikke lenger forskere påberope seg «Vancouver-retningslinjene» som grunnlag for å rapportere irrelevante p-verdier. Et lite skritt i en riktig retning!

Litteratur: 

1. Stensrud MJ, Aalen OO. Skal vi skrinlegge begrepet statistisk signifikans? Tidsskr Nor Laegeforen 2019; 139.

2. Lydersen S. Statistical review: frequently given comments. Ann Rheum Dis 2015; 74: 323-5.

3. Recommendations for the Conduct, Reporting, Editing, and Publication of Scholarly Work in Medical Journals. Updated December 2019, 2019.  http://www.icmje.org/icmje-recommendations.pdf. 16 January 2020.

4. Recommendations for the Conduct, Reporting, Editing, and Publication of Scholarly Work in Medical Journals. Updated August 2013, 2013.  http://www.icmje.org/recommendations/archives/2013_aug_urm.pdf. 16 January 2020.

Arne Høiseth
Om forfatteren

Takk til S Lydersen for å bidra til skroting av begrepet «statistisk signifikans» og av statistisk sannsynlighetsberegninger (p-verdier). Det er nesten en ufattelig historie Lydersen forteller, at de som reviderte Vancouver-retningslinjene ikke fikk med seg poenget Lydersen nevner, er nær ufattelig.

Vancouver-retningslinjene anbefaler nå kvantifisering av måleresultater, altså at man beskriver effektenes størrelser. Vancouver-retningslinjene er imidlertid nær ubegripelige på grunn av manglende klargjøring av begreper.
Kvantifisering av resultater krever minst to parametere, nemlig en lokalisasjonsparameter som gjennomsnitt, mode eller median, og en spredningsparameter, som standarddeviasjon (SD), varians (SD2), range eller kvartiler. Også eventuell skjevfordeling må vises og antall observasjoner.

Vancouver-retningslinjene benytter begrepene målefeil (measurement error) og usikkerhet (uncertainty). Målefeil er vanligvis knyttet til målemetoden og krever en særskilt evaluering. Den foreligger sjeldent. Videre må det klargjøres hva som menes med usikkerhet. Det kan, for eksempel være målemetodens feilmarginer, eller det kan være gjennomsnittsverdiens usikkerhet det siktes til. Begrepet «precision of estimates» krever også klargjøring.

Mener man å kvantifisere resultater må man benytte begreper i overenstemmelse med måleteori, ikke statistikkbegreper.
Så til det avgjørende problemet: Uten at det er redegjort for hva som menes med usikkerhet anfører retningslinjene at usikkerheten skal beskrives med konfindensintervaller. Konfindensintervaller brukes som regel som 95% konfindensintervaller (95%Ci). Det er et teoretisk beregnet intervall som man med 95% sannsynlighet mener at gjennomsnittsverdiene ligger innenfor. Om man gjør målingene 100 ganger regner man med at gjennomsnittene i 95 av gangene vil ligge innenfor intervallet. 95% Ci har eksakt samme betydning som p=0,05.

Hvis det er en viss avstand mellom to konfidensintervaller har det samme betydning som p<0,05. Beregner man både p-verdier og konfindensintervaller finner vi en 100 prosent lineær overensstemmelse.
Det er mulig at retningslinjene mener at konfidensintervaller er det samme som spredningsparametere. Det er de ikke. En spredningsparameter beskriver variasjonen innenfor en populasjon og når man har målt et rimelig antall personer forblir spredningen nesten uforandret om man måler flere. Konfidensintervallet, derimot vil minke på grunn av at dette er en parameter hvor spredningen (variansen) divideres med antallet.

Riktignok er konfidensintervall også en spredningsparameter, men da spredning på gjennomsnittsverdier, tilsvarende «standard error of the mean» (SEM), men altså ikke et mål på effektens variasjon. Skroter man p-verdier og betegnelsen «signifikant», men beholder konfindensintervaller er man like langt. Ved å vise til at to konfidensintervaller ikke overlapper kan man som før si at man har en sikker effekt, i gammel terminologi en signifikant effekt, selv om kvantifiseringen viser en helt ubetydelig effekt.