Hvorfor akkurat 0,05?
Æren for et signifikansnivå på 5 % tilskrives statistikeren Ronald A. Fisher (1890 – 1962). Fisher var en av grunnleggerne av moderne forskningsmetode og statistisk analyse. Hans metoder ble utviklet for bruk i landbruksforskning og genetikk og er siden anvendt innen mange vitenskaper. Han er best kjent for utvikling av variansanalyse og randomiserte studier (2).
I 1925 utga han boken Statistical methods for research workers, der han skriver at et signifikansnivå på 5 % er et passende valg (3): «The value for which P = .05, or 1 in 20, …; it is convenient to take this point as a limit in judging whether a deviation is to be considered significant or not» (3, s. 45).
Man kan få inntrykk av at en p-verdi på ≤ 0,05 og denne verdiens betydning i senere forskning skyldes at Ronald A. Fisher mer eller mindre vilkårlig syntes at et signifikansnivå på 5 % var passende. Hvis han heller hadde tenkt på 2 %, 7 % eller 10 %, ville da medisinsk forskning og klinisk praksis ha vært annerledes i dag? Er det slik at resultater og konklusjoner fra store deler av medisinsk forskning avhenger av hvilket tall en statistiker tenkte på for nesten hundre år siden?
Selv om Ronald A. Fisher utvilsomt har hatt en stor betydning for utvikling av forsøksmetodikk og statistikk, blir det en forenkling å gi ham all æren (eller skylden) for at det ble akkurat 5 %. Det er heller ikke riktig at han valgte dette nivået helt vilkårlig, andre statistikere arbeidet med tilsvarende verdier (4).
Cowles & Davis (5) undersøkte hvorfor Fisher valgte 5 % som signifikansnivå. De mener at han kun baserte seg på det som var et innarbeidet konsept. Karl Pearson (1857 – 1936), en annen grunnlegger av moderne statistikk, utviklet metoder for å vurdere hvor godt data er tilpasset en matematisk sannsynlighetsfordeling, noe som blant annet er grunnlaget for den mye brukte khikvadrattesten av krysstabeller. Han uttrykte at ved en sannsynlighet på 10 % (altså p = 0,1) er det ikke usannsynlig at de observerte data er tilfeldige og videre at ved en sannsynlighet på 1 % (p = 0,01) er det meget usannsynlig at de observerte data kan skyldes tilfeldigheter. Et passende punkt midt imellom er 5 %. William Gosset (1876 – 1937), som utviklet t-testen, antydet også 5 % som et naturlig signifikansnivå, men uttrykte dette statistisk-matematisk noe annerledes (4, 5).
Er det noe spesielt med en sannsynlighet på 5 %? Inspirert av sine historiske undersøkelser rundt anbefalte signifikansnivåer utforsket Cowles & Davis om det finnes et intuitivt og naturgitt signifikansnivå (6). Hvor sjelden må en hendelse forekomme i forhold til det man forventer før man tenker at den opprinnelse antakelsen, altså nullhypotesen, er usann? De nevner et enkelt eksempel. Du og din kollega kaster mynt og kron om hvem som skal kjøpe kaffe til lunsjen, men du taper dag etter dag. Hvor mange dager vil du fortsette med å kjøpe kaffe til din kollega før du mistenker at tapet ikke skyldes tilfeldigheter? Jeg vil anta at mange vil godta dette i fire (p = 0,0625) eller fem (p = 0,03125) dager, men vil tro at få antar at det er kun tilfeldigheter hvis man ti dager etter hverandre taper og må kjøpe kaffe (p < 0,001).
For å undersøke dette systematisk utviklet de et psykologisk eksperiment (6). Frivillige deltakere var med på et pengespill. Foran dem var det tre kopper, og de ble fortalt at det var en liten rød knapp under en av dem. Hvis de gjettet på riktig kopp, vant de penger. Pengespillet ble gjentatt inntil deltakerne selv ønsket å avslutte det.
Den intuitive nullhypotesen for deltakerne er en sannsynlighet på en tredel for å gjette riktig kopp i hver spilleomgang. Det deltakerne ikke visste, var at ingen av koppene skjulte noen rød knapp og at de dermed ville tape hver gang, altså var den intuitive nullhypotesen usann. Eksperimentet gikk ut på å undersøke hvor mange ganger de gjentok spillet før de mistenkte at noe var feil, altså tvilte på nullhypotesen. Over halvparten av deltakerne var mistenksomme etter seks spilleomganger med gjentatt tap (p = 0,088) og nesten 90 % etter åtte omganger (p = 0,039). Eksperimentet tydet på at mange naturlig og intuitivt vil velge et signifikansnivå på rundt 5 %.