Artikkel
Mange metoder for måling av konsentrasjonen av et stoff i en prøve har en nedre deteksjonsgrense. Data fra slike målinger må håndteres på en slik måte at man unngår systematiske feil.
La oss starte med et eksempel: Figur 1 viser et tenkt datasett der man har målt konsentrasjonen av et stoff i serum hos to pasientgrupper. Kryssene viser de faktiske verdiene, men det er bare de over nedre deteksjonsgrense som lar seg måle. Vi vet hvor mange verdier som er under deteksjonsgrensen, men ikke de faktiske verdiene. Dette er manglende data som i høy grad mangler ikke-tilfeldig (missing not at random , MNAR), da sannsynligheten avhenger av at den ikke-observerte verdien er under deteksjonsgrensen (1) .
Skjevhet
Skjevhet
Kan man ganske enkelt se bort fra de manglende verdiene og bare analysere de som er målbare? Det vil være en dårlig fremgangsmåte, siden det vil medføre skjevhet (bias) i resultatene, og man da vil overestimere median (så vel som gjennomsnitt) av målingene. I figur 1 vil dette i størst grad gjelde gruppe 1, som har størst andel verdier under deteksjonsgrensen.
Måling av flere stoffer
Måling av flere stoffer
I mange studier måler man ikke bare ett stoff, men en rekke relaterte stoffer i en prøve. Dette kan f.eks. være analyse av proteiner, hormoner, metabolitter eller lignende. I slike studier vil de stoffene som har svært mange verdier under deteksjonsgrensen, bidra med lite informasjon og ofte utelates fra videre analyser. Typisk settes denne grensen et sted mellom 30 % og 50 % manglende verdier. Det er imidlertid viktig å først undersøke om de manglende verdiene er jevnt fordelt mellom gruppene man studerer, eller om de hovedsakelig forekommer i én av gruppene. Dersom verdiene for et stoff er under deteksjongrensen i prøver som tilhører gruppe 1, men er detekterbare i gruppe 2, kan dette stoffet nemlig være en utmerket biomarkør for å skille gruppe 1 og 2 fra hverandre. Et eksempel på dette er måling av PSA hos pasienter operert for prostatakreft, hvor PSA i all hovedsak vil være detekterbart kun hos de pasientene som har fått sykdomstilbakefall.
Enkel imputering av verdier
Enkel imputering av verdier
I mange tilfeller vil det være hensiktsmessig å imputere de manglende verdiene. En enkel fremgangsmåte er å erstatte de manglende verdiene med en bestemt verdi, som vanligvis vil være deteksjonsgrensen, halvparten av grensen eller null. Simuleringsstudier har imidlertid vist at imputering med null generelt frarådes, og at imputering av halvparten av deteksjonsgrensen er det beste blant disse alternativene, da denne gir mindre skjevhet i estimatene (2) .
Avanserte metoder
Avanserte metoder
I tilfeller hvor en større andel av verdiene havner under deteksjonsgrensen, kan det være nødvendig å benytte mer avanserte metoder enn å imputere samme verdi for alle observasjoner under deteksjonsgrensen. Eksempler på dette er metoder basert på multippel imputering, som tar hensyn til variansstrukturen i datasettet (3) . Andre mye brukte metoder er basert på sannsynlighetsmaksimering (maximum likelihood ), der estimeringen bygger på den antatte multivariate sannsynlighetsfordelingen (4) . Det er også mulig å bruke regresjonsmodeller for sensurerte data, f.eks. tobit-modeller, for å analysere dataene uten at man behøver å imputere verdier.
Valg av metode
Valg av metode
Det finnes ingen generell og allmenngyldig metode for å håndtere data under deteksjonsgrensen. Imputering med halvparten av deteksjonsgrensen kan fungere brukbart i mange tilfeller. Mange vil si at det er nødvendig med avanserte metoder når mer enn 10 % eller 20 % av observasjonene faller under deteksjonsgrensen. Men dette avhenger av hvilke statistiske analysemetoder som er planlagt. Hvis man skal bruke ikke-parametriske analysemetoder, f.eks. en Wilcoxon-Mann-Whitney-test, vil resultatet påvirkes lite av hvordan man håndterer data under grensen, også ved høyere andeler. Enkel imputering kan også fungere bra hvis man skal bruke parametriske analysemetoder, f.eks. en t -test, selv om standardavviket kan bli kunstig lavt (5) .