Ulike metoder for justering
La oss tenke oss en studie der man skal gjennomføre seks hypotesetester. Hvis man gjør alle testene ved et signifikansnivå på 5 %, vil man ved hver av dem ha en sannsynlighet på 5 % for å gjøre en type I-feil, dvs. feilaktig forkaste nullhypotesen (1). Sannsynligheten for å gjøre type I-feil i minst én av hypotesetestene, også kalt familievis feilrisiko (familywise error rate, FWER) (2), vil da være vesentlig høyere enn 5 %, i verste fall oppimot 30 %. Noen ganger er det ønskelig å kontrollere denne feilrisikoen slik at den ikke overstiger en forhåndsbestemt grense, for eksempel et signifikansnivå på 5 %.
Den enkleste metoden er en såkalt Bonferroni-korreksjon. Man multipliserer da p-verdiene med antall hypoteser, i dette eksempelet seks, før man sammenlikner med signifikansnivået. Bonferroni-korreksjon er imidlertid svært konservativ, dvs. at den statistiske styrken, og dermed sannsynligheten for å påvise faktisk sanne hypoteser, blir sterkt redusert. Ved Šidák-korreksjon oppnår man bare en marginal forbedring. Alternative metoder etter økende statistisk styrke er Holms step-down-korreksjon, Hochbergs step-up-korreksjon og Hommel-korreksjon (3). Disse metodene gjelder under generelle forutsetninger og kan generelt anbefales.
I noen situasjoner undersøker man svært mange hypoteser. I genetikkstudier kan man for eksempel ha flere hundre tusen hypoteser. Da vil det i praksis være umulig å kontrollere familievis feilrisiko. I stedet nøyer man seg med å kontrollere falsk deteksjonsandel (false discovery rate, FDR) (2): Man tillater at en viss andel, vanligvis 5 %, av de hypotesene som vi markerer som sanne i én og samme studie, kan være falskt positive funn. Hvis man kontrollerer familievis feilrisiko, derimot, ville man ikke «akseptere» et eneste falskt positivt funn. Den vanligste metoden for å kontrollere falsk deteksjonsandel kalles Benjamini-Hochberg-korreksjon (4). Kontroll av falsk deteksjonsandel kan også være relevant i mindre studier med for eksempel så få som 8 til 16 hypotesetester, selv om fordelene er klarere ved et høyt antall hypotesetester (4).
La oss se på et eksempel der man har seks ujusterte p-verdier listet etter størrelse (tabell 1). Vi ser at metoder som gir høyere statistisk styrke, typisk vil gi lavere p-verdier, og at den laveste justerte p-verdien er den samme som man får ved Bonferroni-korreksjon, uansett metode. Den siste kolonnen med Benjamini-Hochberg-justerte p-verdier kontrollerer bare for falsk deteksjonsandel. Med kun seks hypotesetester vil man i praksis benytte en annen metode.
Tabell 1
Et eksempel med seks p-verdier, ujusterte og justert etter forskjellige korreksjonsmetoder.
Ujustert p-verdi | Bonferroni | Šidák | Holms step-down | Hochbergs step-up | Hommel | Benjamini-Hochberg |
---|
0,0003 | 0,0018 | 0,0018 | 0,0018 | 0,0018 | 0,0018 | 0,0018 |
0,009 | 0,054 | 0,053 | 0,045 | 0,042 | 0,028 | 0,021 |
0,013 | 0,078 | 0,076 | 0,052 | 0,042 | 0,039 | 0,021 |
0,014 | 0,084 | 0,081 | 0,052 | 0,042 | 0,042 | 0,021 |
0,04 | 0,24 | 0,22 | 0,08 | 0,08 | 0,06 | 0,048 |
0,06 | 0,36 | 0,31 | 0,08 | 0,08 | 0,06 | 0,06 |
Gammel problemstilling i ny drakt
01.10.2021Problemstillingen som S. Lydersen (1) diskuterer oppsto sannsynligvis sent på 1960-tallet da «signifikans» ble del av medisinsk forskning. Kunne man si at noe var «signifikant» var publikasjonen sikret. Signifikans kunne oppnås ved forskjellige knep, ofte…