Høyere styrke i ensidige tester?
Argumentet som kunne brukes for å velge en ensidig test, er at den har høyere statistisk styrke enn den tilsvarende tosidige testen. La oss tenke oss at man planlegger et randomisert kontrollert forsøk, og ønsker høy sannsynlighet for å påvise en forskjell i effekt dersom sannsynligheten for suksess ved vanlig behandling og ny behandling er henholdsvis 0,6 og 0,8. Hvis man planlegger å bruke en tosidig test, vil det trenges 82 pasienter i hver gruppe for å få en statistisk styrke på 80 % ved signifikansnivå 0,05. Hvis man derimot planlegger en ensidig test, er det tilstrekkelig med 64 pasienter i hver gruppe.
La oss tenke oss at forsøket deretter ble gjennomført med 100 pasienter i hver av gruppene. I gruppen med vanlig behandling ble 64 friske, mens i gruppen med ny type behandling ble 76 friske. Estimert forskjell i sannsynlighet for suksess blir 76/100–64/100 = 0,12. Pearsons khikvadrattest gir en tosidig p-verdi på 0,064, altså er ikke forskjellen statistisk signifikant ved signifikansnivå på 0,05. Men hvis alternativhypotesen var ensidig, ville p-verdien bli halvparten av dette, altså 0,032. En tosidig p-verdi er generelt lik to ganger den tilsvarende ensidige p-verdien.
Det var en viss diskusjon om valg av ensidige versus tosidige tester i medisinsk statistikk rundt 1990-tallet (1, 2). Men en sak har alltid vært udiskutabel: Man må bestemme på forhånd om man skal bruke ensidig eller tosidig hypotesetest. Her har det antakelig vært syndet mye. Altman skrev i sin lærebok i 1991: «De få ensidige testene som jeg har sett rapportert i publiserte artikler har vanligvis gitt p-verdier mellom 0,025 og 0,05, slik at resultatet ville vært ikke-signifikant ved en tosidig test. Jeg tviler på at de fleste av disse var forhåndsplanlagt som ensidige tester» ((3), s. 171, egen oversettelse).