Ulike metoder for justering
La oss tenke oss en studie der man skal gjennomføre seks hypotesetester. Hvis man gjør alle testene ved et signifikansnivå på 5 %, vil man ved hver av dem ha en sannsynlighet på 5 % for å gjøre en type I-feil, dvs. feilaktig forkaste nullhypotesen (1). Sannsynligheten for å gjøre type I-feil i minst én av hypotesetestene, også kalt familievis feilrisiko (familywise error rate, FWER) (2), vil da være vesentlig høyere enn 5 %, i verste fall oppimot 30 %. Noen ganger er det ønskelig å kontrollere denne feilrisikoen slik at den ikke overstiger en forhåndsbestemt grense, for eksempel et signifikansnivå på 5 %.
Den enkleste metoden er en såkalt Bonferroni-korreksjon. Man multipliserer da p-verdiene med antall hypoteser, i dette eksempelet seks, før man sammenlikner med signifikansnivået. Bonferroni-korreksjon er imidlertid svært konservativ, dvs. at den statistiske styrken, og dermed sannsynligheten for å påvise faktisk sanne hypoteser, blir sterkt redusert. Ved Šidák-korreksjon oppnår man bare en marginal forbedring. Alternative metoder etter økende statistisk styrke er Holms step-down-korreksjon, Hochbergs step-up-korreksjon og Hommel-korreksjon (3). Disse metodene gjelder under generelle forutsetninger og kan generelt anbefales.
I noen situasjoner undersøker man svært mange hypoteser. I genetikkstudier kan man for eksempel ha flere hundre tusen hypoteser. Da vil det i praksis være umulig å kontrollere familievis feilrisiko. I stedet nøyer man seg med å kontrollere falsk deteksjonsandel (false discovery rate, FDR) (2): Man tillater at en viss andel, vanligvis 5 %, av de hypotesene som vi markerer som sanne i én og samme studie, kan være falskt positive funn. Hvis man kontrollerer familievis feilrisiko, derimot, ville man ikke «akseptere» et eneste falskt positivt funn. Den vanligste metoden for å kontrollere falsk deteksjonsandel kalles Benjamini-Hochberg-korreksjon (4). Kontroll av falsk deteksjonsandel kan også være relevant i mindre studier med for eksempel så få som 8 til 16 hypotesetester, selv om fordelene er klarere ved et høyt antall hypotesetester (4).
La oss se på et eksempel der man har seks ujusterte p-verdier listet etter størrelse (tabell 1). Vi ser at metoder som gir høyere statistisk styrke, typisk vil gi lavere p-verdier, og at den laveste justerte p-verdien er den samme som man får ved Bonferroni-korreksjon, uansett metode. Den siste kolonnen med Benjamini-Hochberg-justerte p-verdier kontrollerer bare for falsk deteksjonsandel. Med kun seks hypotesetester vil man i praksis benytte en annen metode.
Tabell 1
Et eksempel med seks p-verdier, ujusterte og justert etter forskjellige korreksjonsmetoder.
Ujustert p-verdi | Bonferroni | Šidák | Holms step-down | Hochbergs step-up | Hommel | Benjamini-Hochberg |
---|
0,0003 | 0,0018 | 0,0018 | 0,0018 | 0,0018 | 0,0018 | 0,0018 |
0,009 | 0,054 | 0,053 | 0,045 | 0,042 | 0,028 | 0,021 |
0,013 | 0,078 | 0,076 | 0,052 | 0,042 | 0,039 | 0,021 |
0,014 | 0,084 | 0,081 | 0,052 | 0,042 | 0,042 | 0,021 |
0,04 | 0,24 | 0,22 | 0,08 | 0,08 | 0,06 | 0,048 |
0,06 | 0,36 | 0,31 | 0,08 | 0,08 | 0,06 | 0,06 |
Problemstillingen som S. Lydersen (1) diskuterer oppsto sannsynligvis sent på 1960-tallet da «signifikans» ble del av medisinsk forskning. Kunne man si at noe var «signifikant» var publikasjonen sikret.
Signifikans kunne oppnås ved forskjellige knep, ofte benevnt "fisking". Data kunne «tortureres» (2), antall observasjoner kunne økes til signifikans oppsto, økt spredning på objektene økte sjansen for en signifikant korrelasjonsfaktor (R), og - jo flere spørsmål eller hypoteser, jo større var sjansen for å finne noe signifikant. For å hindre slik fisking ble det tillatt med kun ett spørsmål per studie, eller ett hovedspørsmål og noen bi-spørsmål. Regionale komiteer for medisinsk og helsefaglig forskningsetikk (REK) krevde at antall observasjoner skulle bestemmes på forhånd. Lydersen beskriver ytterligere et alternativ, nemlig en matematisk økning av p-verdien med økende antall problemstillinger.
Hvis man mener at p-verdier sier noe av betydning må man benytte p-verdien, ikke en omregnet verdi. Hadde, for eksempel t-tester, med beregninger av p-verdier, vært avhengige av hverandre, ville en justering for avhengighet vært berettiget, ellers ikke. T-testene vil imidlertid være uavhengige og beskriver en unik egenskap for hver problemstilling. Den egenskapen bør presenteres uansett om den fremkommer i en studie med kun n hypotese eller med mange.
For oss leger er imidlertid spørsmålene: Hvilke assosiasjoner, parvise forskjeller, gruppevis forskjeller og så videre kan være av medisinsk betydning? I 2013 ble problemet diskutert av E Skovlund som påpekte at et effektestimat gir vesentlig mer informasjon enn en p-verdi (3). Spørsmålet blir da om man kan sløyfe p-verdiene, men beholde t-verdiene eller kun benytte lokalisasjon og spredningsparametere?
I stigende grad kan vi forvente studier basert på «big data». Utvikling av «En innbygger - en journal» kan bidra til en slik utvikling. Da kan antallet lave p-verdier gå i været. Sannsynligvis vil det være andre enn oss, leger, som utfører slike analyser. Da kan det være viktig at vi behersker relevante premisser, ikke bare for betydningsfullhet, men at vi også for å skille mellom assosiasjon og årsak-virkning.
Litteratur:
1 Lydersen S. Justering av p-verdier ved multiple hypoteser. Tidsskr Nor Legeforen 2021
doi: 10.4045/tidsskr.21.0357
2 Mills JL. Data torturing. N Engl J Med 1993; 329: 1196-9.
3 Skovlund E. Spør først, regn siden. Tidsskr Nor Legefoen 2013; 133:10. doi: 10.4045/tidsskr.12.1345