Artikkel
I enkelte studier er data samlet inn fra grupper eller klynger, slik at data fra samme gruppe er mer lik hverandre enn data fra forskjellige grupper. Dette må tas hensyn til i statistiske analyser.
Data kan være samlet i grupper eller klynger av forskjellige grunner. La oss nevne noen eksempler:
Man kan registrere flere datapunkter fra samme individ, slik at individet utgjør «gruppen». Dette er tilfelle hvis man har gjentatte målinger av samme utfallsvariabel, enten flere parallelle målinger fra samme tidspunkt eller data fra longitudinelle studier. I andre studier kan data fra samme individ for eksempel være betennelsesdata fra forskjellige ledd (1) .
I visse randomiserte kontrollerte studier kan man ikke randomisere den enkelte pasient til en intervensjonsgruppe, for eksempel ny behandling eller kontroll, men man må bruke et såkalt klyngerandomisert design. Klyngene kan for eksempel være enkelte legesentre, slik at alle pasientene ved samme legesenter får samme intervensjon.
Ursin og medarbeidere studerte sykdomsaktivitet knyttet til svangerskap hos kvinner med aksial spondyloartritt (2) . Studien inkluderte 179 svangerskap hos 166 kvinner. Det ble innhentet data fra inntil syv tidspunkt knyttet til hvert svangerskap: før unnfangelse, i hvert trimester, samt seks uker, seks måneder og ett år etter fødsel. Dermed var data gruppert i tre nivåer: Nivå 1 representerte de enkelte tidspunktene innen svangerskapet, nivå 2 representerte svangerskapene innen hver kvinne, og nivå 3 representerte kvinnene. Dette utgjør en trenivåmodell, som illustrert i figur 1.
Data på ulike nivåer
Data på ulike nivåer
Flernivåmodeller kalles alternativt multinivåmodeller eller hierarkiske modeller. Utfallsvariabelen er alltid målt på nivå 1, men analysemodellen kan også inneholde andre variabler som kan være på nivå 1 eller høyere. I en klyngerandomisert studie, som i eksempelet med legesentre, vil pasientens alder være en variabel på nivå 1, mens intervensjonen vil være den samme for alle pasienter innen samme legesenter, altså på nivå 2.
De fleste flernivåmodeller har to nivåer. Når det er tre eller flere nivåer, kan beregningene noen ganger bli så komplekse at de ikke lar seg gjennomføre. Da kan det være nødvendig å bruke en enklere modell som tilnærming. I eksempelet med svangerskap kunne man i så fall vurdere å ikke ta hensyn til at noen svangerskap var innen samme kvinne og kun ha to nivåer. Fordi svangerskap innen samme kvinne ikke er uavhengige, kunne en alternativ fremgangsmåte være å ta med kun ett svangerskap per kvinne i analysen. Dette ville vært spesielt viktig hvis det var mange kvinner som bidro med mer enn ett svangerskap.
Analyse av flernivåmodeller
Analyse av flernivåmodeller
Når data er gruppert i to eller flere nivåer, må man bruke en analysemodell som tar hensyn til dette. Hvis utfallsvariabelen er kontinuerlig, kan en lineær blandet effekt-modell (linear mixed model ) være aktuell (3) . Dette er en generalisering av «vanlig» lineær regresjon, slik at man tar hensyn både til varians mellom enkeltmålingene på nivå 1 og til varians mellom gruppene på et høyere nivå. Dersom utfallsvariabelen er dikotom, kan man tilsvarende benytte en logistisk blandet effekt-modell. En av fordelene med blandet effekt-modeller er at de også inkluderer grupper med delvis manglende data i analysen, slik at man ikke «kaster bort» data og mister statistisk styrke. For eksempel manglet data fra ett eller flere av de syv tidspunktene i mange av svangerskapene i eksempelet ovenfor. Men likevel ble alle enkeltmålingene med i analysene ved bruk av en blandet effekt-modell. Risikoen for systematisk skjevhet (bias) i estimatene ville blitt høyere dersom man bare inkluderte svangerskap med komplette data. Blandet effekt-modeller er derfor godt egnet for analyse av flernivåmodeller i mange sammenhenger.