E. Skovlund svarer:

Eva Skovlund

doi:10.4045/tidsskr.15.1075

Brev til redaktøren

E. Skovlund svarer:

Eva Skovlund

Se alle artikler

Eva Skovlund

Eva Skovlund (f. 1959) er professor ved NTNU.

Ingen oppgitte interessekonflikter.

Email: eva.skovlund@ntnu.no

Artikkel

Det viktigste poenget med å utføre signifikanstester er etter mitt skjønn at vi ikke skal overtolke våre observasjoner. Vi stiller spørsmålet «hva er sannsynligheten for å observere det resultatet vi ser, eller en enda større effekt, gitt at nullhypotesen (for eksempel at det ikke er en forskjell i effekt av to behandlinger) er sann?». Hvis denne sannsynligheten (p-verdien) er stor, er det grunn til å mistenke at en observert forskjell ikke er uttrykk for sann effekt. Dersom p-verdien er liten, peker det i retning av at vi har observert en reell effekt, gitt at behandlingsgruppene er sammenlignbare.

Høiseth spør nokså upresist hvorfor 100 tester med ett spørsmål i hver test gir riktigere resultater enn 100 spørsmål i en test. Hver enkelt statistisk test man utfører forsøker å gi svar på ett spørsmål. Utvalget i en studie kan være skjevt og lite representativt for populasjonen man ønsker å studere. Dersom 100 forskningsspørsmål blir forsøkt besvart basert på det samme skjeve utvalget, vil denne svakheten kunne ramme mange av konklusjonene man trekker. Uavhengige forsøk er derfor av stor verdi. Innlegget «Data torturing» (1) presenterer for øvrig både problemer med multiple signifikanstester og andre fallgruver knyttet til presentasjon av forskningsresultater på en utmerket og forståelig måte.

Konfidensintervaller hjelper oss å kvantifisere usikkerhet og inneholder det vi kan kalle plausible verdier av sann effekt. De er nært beslektet med p-verdier, men gir viktig tilleggsinformasjon fordi vi estimerer størrelsen av en eventuell effekt. Dermed kan vi avgjøre om effekten er stor nok til at den har klinisk betydning. Bruker vi grensene i intervallet til å trekke slutninger om statistisk signifikans, har de selvfølgelig samme svakheter som p-verdier.

Både antall observasjoner og variabilitet (spredning) er viktige for bredden av et konfidensintervall. Jo flere observasjoner vi har, desto smalere blir intervallet. Økt presisjon betyr ikke juks – en våken leser vil klare å avdekke at en gjennomsnittlig endring i blodtrykk på 0,5 mmHg med et 95 % konfidensintervall som strekker seg fra 0,3 til 0,7 neppe har klinisk relevans selv om endringen er statistisk signifikant (p < 0,05). Det er her konfidensintervallet viser sin verdi. Vi ser med en gang at gjennomsnittseffekten er svært liten, men den er i dette eksemplet presist estimert, og vi kan selv vurdere hvorvidt den er stor nok til å ha klinisk betydning.

Vi er for øvrig åpenbart ikke uenige om at det forekommer et tankeløst overforbruk av p-verdier i medisinsk forskning. Men det er etter min oppfatning misbruket som fortjener kritikk, ikke metoden som sådan. Riktig brukt gir p-verdier og konfidensintervaller nyttige bidrag til innsikt.

Kommentarer ( 0 )

Dette kommentarfeltet modereres, men kommentarer blir ikke redaksjonelt behandlet ut over å sikre at de følger retningslinjer for vårt kommentarfelt.

Denne artikkelen ble publisert for mer enn 12 måneder siden, og vi har derfor stengt for nye kommentarer.

Publisert: 3. november 2015

Utgave 20, 3. november 2015

Tidsskr Nor Legeforen 3. november 2015

doi:

10.4045/tidsskr.15.1075

135

:

1815-6

Publisert: 3. november 2015

Utgave 20, 3. november 2015

Tidsskr Nor Legeforen 2015

135

:

1815-6

doi: 10.4045/tidsskr.15.1075

PDF

Skriv ut

E. Skovlund svarer:

Anbefalte artikler