Statistisk lærdom fra en laks

    ()

    sporsmal_grey_rgb
    Artikkel

    Craig Bennett kunne ikke tro det han så. I hånden holdt han et bilde som viste hjerneaktiviteten til en laks, der tre statistisk signifikante prikker lyste mot ham – et tydelig tegn på at de hadde oppdaget noe banebrytende i forholdet mellom laks og mennesker. Eller så var det noe galt med statistikken.

    På laben der Bennett jobbet, skulle de undersøke beslutningstaking hos mennesker ved hjelp av funksjonell magnetisk resonanstomografi (fMRI), en metode der man skanner hjernen ved å måle endringer i oksygeneringsnivået i blodet (1). Først måtte utstyret kalibreres, og de unge akademikerne utfordret hverandre til å finne festlige ting å skanne (2). Et gresskar. En ribbet høne. En laks.

    Med laksen plassert i MR-skanneren nøyde de seg ikke med å bruke den kun for å kalibrere utstyret, men tok den med på hele forsøket. Laksen ble vist en rekke fotografier av mennesker i ulike sosiale situasjoner og ble så bedt om å avgjøre hvilke følelser menneskene i fotografiene opplevde.

    Det var et av bildene av hjerneaktiviteten til laksen mens den var med i dette eksperimentet Bennet nå stod og så på. Bildet viste tre røde, statistisk signifikante prikker (figur 1). Det var ikke rart Bennet ble overrasket. Laksen de benyttet var nemlig død. «Either we have stumbled onto a rather amazing discovery in terms of post-mortem ichthyological cognition, or there is something a bit off with regard to our uncorrected statistical approach» konkluderte de med (3).

    Tusenvis

    Tusenvis

    Tvilsomme statistisk signifikante resultater er ikke ukjent innen fMRI-analyse. I slike studier produseres bilder som består av titusenvis av små enkeltprikker kalt voxler, og den analytiske oppgaven er å se om hver og en av disse voxlene er aktivert når testsubjektet utfører en gitt mental oppgave.

    Men prosessen er ikke feilfri. Slik er det med de fleste måleprosesser. En voxel kan vise aktivitet selv om det ikke er noen. Og selv om sannsynligheten for feil i en enkelt voxel er lav, så er det så mange voxler at det ikke er usannsynlig at noen av dem feilaktig viser aktivitet. Og da blir det problemer. Statistiske problemer.

    Med titusenvis av voxler, og tilhørende titusenvis av statistiske tester, på hvert eneste bilde, støter man på problemet med multippel testing. Gjør man mange nok statistiske tester, er noen garantert å slå positivt ut – selv om det ikke egentlig er noe å finne. Og slike falskt positive tester vil vi helst unngå.

    Multippel testing

    Multippel testing

    Det finnes ulike metoder å korrigere for multippel testing på (4). Og da Bennett og kollegene justerte for multippel testing, viste laksebildene ingenting.

    Men en slik justering kommer med en pris: tap av statistisk styrke. Du unngår kanskje falskt positive svar, men du risikerer samtidig å ikke finne ting som faktisk er der, såkalte falskt negative. I fMRI-feltet løper diskusjonen om det er falskt positive funn eller falskt negative som er verst.

    Bennett er klar på hva han mener: Det er større sjanse for at de falskt positive funnene blåses opp av forskningsmiljøene og media, og dermed kan føre til problemer på lengre sikt. Falskt positive er verre enn falskt negative.

    Ikke bare laks

    Ikke bare laks

    Det er ikke bare ved fMRI og bildeanalyse at multippel testing er en utfordring. Overalt der man gjør mange statistiske tester på én gang, dukker problemet opp. I genetikk, der man studerer mange gener samtidig, ofte i relativt sett få individer, er diskusjonen om justering for multippel testing sentral.

    I kliniske studier er problemet ofte mer skjult. Studier der man tester mange hypoteser, med mange utfallsvariabler på de samme individene, har samme utfordring. Gjør man mange nok statistiske tester, vil sjansen øke for at man finner noe, og denne økte sannsynligheten for falskt positive funn må håndteres.

    Nobel

    Nobel

    I 2012 vant lakseprosjektet til Bennett og kollegene hans en Ig nobelpris – prisen for forskningsprosjekter som først får deg til å le, og deretter tenke.

    Formålet med prosjektet var å kaste lys over viktigheten av å justere for multippel testing, og prosjektet har etter hvert blitt berømt i vitenskapskretser. Kanskje har det også oppnådd det de ønsket. Da lakseforsøket ble presentert første gang, på en konferanse i 2009 (5), rapporterte 25–40 % av artiklene innen fMRI feltet ingen justering for multippel testing. Da Bennett og kollegene ble tildelt en Ig-nobelpris tre år senere, hadde tallet falt til 10 % (1).

    Men det kan selvsagt bare være tilfeldig.

    PDF
    Skriv ut
    Kommenter artikkel

    Anbefalte artikler

    Laget av Ramsalt med Ramsalt Media