Skjevfordelte data
Figur 2 viser en fordelingskurve som er høyreskjev. Slike fordelinger kan skyldes målinger som ikke kan være negative, som for eksempel plasmakonsentrasjon. I en høyreskjev fordeling vil gjennomsnittet være høyere enn medianen. Og standardavviket er ikke knyttet til bestemte prosentiler, slik det var i normalfordelingen.
Hva er relevante mål på sentraltendens og variasjon hvis dataene ikke er normalfordelt? De matematiske uttrykkene for å beregne gjennomsnitt og standardavvik forutsetter ingenting om fordelingen, og er veldefinert også for data som ikke er normalfordelt. La oss se på et tenkt talleksempel, hentet fra (1): Anta at vi har registrert antall dager på sykehus for 13 pasienter med en gitt diagnose (hhv. 3, 9, 10, 10, 10, 12, 13, 14, 18, 21, 27, 38 og 62 dager). Her blir gjennomsnittet 19 dager, mens medianen blir 13 dager. Standardavviket blir 15,8 dager, og nedre og øvre kvartil blir hhv. 10 og 24 dager. Hvis vi ønsker å estimere kostnad eller behov for personell, er gjennomsnittet en mer relevant størrelse enn medianen. Hvis man ønsker å si noe om «typisk» liggetid for en enkelt pasient, vil medianen kunne være mere relevant.
Man ser at enkelte forfattere bare oppgir interkvartilbredden, som her vil være 24–10 = 14 dager, istedenfor å oppgi kvartilene. Dette er mindre informativt enn å oppgi kvartilene, som sammen med medianen også gir innsikt i hvor skjev fordelingen er. I vårt eksempel ser vi at medianen på 13 dager er nærmere nedre kvartil på 10 dager enn øvre kvartil på 24 dager, og dette indikerer en høyreskjev fordeling, liknende den som er vist i figur 2. I noen sammenhenger kan det være fornuftig å oppgi minimums- og maksimumsverdien istedenfor, eller i tillegg til, kvartilene. Men man bør være bevisst på det faktum at i motsetning til kvartilene så vil avstanden mellom minimum og maksimum forventes å øke med utvalgsstørrelsen.