Hovedfunn
Andel innbyggere med påvist SARS-CoV-2-smitte varierte mellom bydeler i Oslo.
Innvandrerandel, sosioøkonomisk status og husstandstetthet var hver for seg assosiert med smitterater.
I justert analyse var innvandrerandel, men ikke sosioøkonomisk status eller husstandstetthet, statistisk signifikant assosiert med smitterater.
Både internasjonalt og i Norge har man sett at covid-19-pandemien rammer skjevt. I en stor studie av sosioøkonomiske faktorer hos over en million tilfeller i USA fant man at lav utdanning og afroamerikansk bakgrunn var sterkt assosiert med både smitte, alvorligere forløp og dødsfall som følge av sykdommen (1).
Innvandrere er overrepresentert i smittestatistikken i hele Skandinavia (2). I Norge har 36 % av bekreftede covid-19-tilfeller vært innvandrere født i utlandet av utenlandske foreldre, selv om de bare representerer 15 % av befolkningen (3). De vanligste teoriene for uforholdsmessigheten mellom grupper inkluderer forskjeller i somatisk sykdomsbyrde, levekår og reell mulighet til sosial distansering, f.eks. fordi mange er i serviceyrker eller bor trangt og tett sammen. Sosioøkonomiske ressurser henger imidlertid også tett sammen med innvandrerstatus og etnisk bakgrunn.
Oslo er en by med store forskjeller. Tendensen er at bydelene med lavere sosioøkonomisk status er mer trangbodd og har høyere innvandrerandel (4). Disse har også betydelig høyere smitterater (5). Formålet med denne studien var å analysere sammenhengen mellom sosiodemografiske faktorer og smitterater i Oslos bydeler.
Materiale og metode
Den 3.12.2020 ble sosiodemografiske data hentet fra Oslo kommunes statistikkbank, som igjen henter data fra Statistisk sentralbyrå (4). Opplysninger om kumulativt antall registrerte tilfeller av SARS-CoV-2 bekreftet med polymerasekjedereaksjonstest (PCR) per 3.12.2020 ble hentet fra Helseetaten i Oslo kommune (5).
I analysene fulgte vi de samme definisjonene som var angitt i statistikkbanken (4). Innvandrere var definert som andelen født i utlandet av utenlandske foreldre (tidligere kalt førstegenerasjonsinnvandrere) eller norskfødte med to foreldre født i utlandet (tidligere kalt annengenerasjonsinnvandrere). Trangbodde var definert som andelen personer fra husholdninger med over én person per rom eller mindre enn 20 kvadratmeter per person. Flerfamiliehusholdninger var definert som andelen husholdninger hvor personene i husholdningen tilhører to eller flere familier. Lav utdanning var andelen 21–29-åringer som ikke hadde fullført videregående skole. Ikke-sysselsatte var andelen personer 30–59 år som ikke hadde registrert arbeidstilknytning. Gjennomsnittsinntekt var beregnet ut fra bruttoinntekten per person over 16 år.
Vi laget to komposittvariabler. Sosioøkonomisk status ble definert som et konstruert formativt mål ved å omgjøre variablene utdanning, inntekt og sysselsetting til samme skala (0 til 1) og ta et likt vektet gjennomsnitt av disse (6). Tilsvarende slo vi sammen andel trangbodde og flerfamiliehusholdninger til et mål vi kalte husstandstetthet.
Vi undersøkte først bivariate korrelasjoner for alle variabler i tre av statistikkbankens underkategorier: befolkning, boforhold og levekårsindikatorer med registrerte tilfeller av SARS-CoV-2-smitte. Til de videre analysene valgte vi ut variabler som hadde signifikant korrelasjon med smitte, med p < 0,01 (alene eller som del av en komposittvariabel). Deretter beregnet vi Pearsons korrelasjonskoeffisient mellom disse variablene. Vi brukte så lineær regresjonsanalyse med smitterater i bydelene som avhengig variabel og de to komposittvariablene og innvandrerandel som uavhengige variabler, hver for seg og deretter samtidig i en multijustert analyse. Det ble vektet for antall personer i bydelene. Antakelse om normalfordeling ble sjekket ved hjelp av histogram over residualplott. Analysene ble gjort med SPSS versjon 27.
Alle dataene er åpent tilgjengelige og inneholder ikke personopplysninger. Det var derfor ikke nødvendig å innhente tillatelser.
Resultater
Til sammen var det ca. 688 000 innbyggere i de 15 bydelene i Oslo. De fire bydelene i Groruddalen og Søndre Nordstrand hadde mest påvist smitte, 2 086–2 623 tilfeller per 100 000 innbyggere. Samtidig hadde disse høyest innvandrerandel (44–59 %) og høyest andel trangbodde (15–17 %). De tre bydelene i vest, Ullern, Nordre Aker og Vestre Aker, samt bydel Nordstrand hadde betydelig lavere smitterater, 893–1 161 påviste tilfeller per 100 000 innbyggere, lavere innvandrerandel (18–21 %) og lavere andel trangbodde (6–11 %). Målene for de resterende seks bydelene lå i et mellomsjikt (tabell 1).
Tabell 1
Antall personer med påvist SARS-CoV-2-smitte per 100 000 innbyggere etter bydel per 3.12.2020 og utvalgte sosiodemografiske variabler fra Oslo kommunes statistikkbank.
Bydel | Påviste tilfeller per | Innvandrerandel (%) | Gjennomsnittlig | Andel trangbodde (%) |
---|---|---|---|---|
Stovner | 2 623 | 59,1 | 374 000 | 15,8 |
Grorud | 2 451 | 51,7 | 384 000 | 15,4 |
Alna | 2 380 | 54,7 | 394 000 | 15,4 |
Bjerke | 2 175 | 44,4 | 439 000 | 15,7 |
Søndre Nordstrand | 2 086 | 56,6 | 393 000 | 17,0 |
Gamle Oslo | 1 967 | 39,3 | 446 000 | 11,8 |
Grünerløkka | 1 591 | 34,7 | 451 000 | 11,9 |
St. Hanshaugen | 1 569 | 27,9 | 482 000 | 10,7 |
Frogner | 1 471 | 28,5 | 655 000 | 8,9 |
Sagene | 1 435 | 26,3 | 476 000 | 11,6 |
Østensjø | 1 264 | 26,3 | 489 000 | 10,4 |
Nordstrand | 1 161 | 18,2 | 620 000 | 7,7 |
Ullern | 1 094 | 20,7 | 760 000 | 6,6 |
Nordre Aker | 1 032 | 19,2 | 611 000 | 10,8 |
Vestre Aker | 893 | 17,9 | 817 000 | 6,4 |
Innvandrerandel, sosioøkonomisk status og husstandstetthet var hver for seg korrelert med smitterater (figur 1 a–c). Innvandrerandel hadde også sterk sammenheng med sosioøkonomisk status og husstandstetthet med Pearsons korrelasjonskoeffisienter på hhv. −0,916 (95 % KI −0,976 til −0,855) og 0,948 (95 % KI 0,893 til 0,979), begge p < 0,001. Sosioøkonomisk status hadde negativ sammenheng med husstandstetthet med Pearsons korrelasjonskoeffisient −0,883 (95 % KI −0,955 til −0,797), p < 0,001.



Tabell 2 viser en regresjonsanalyse med hver av disse variablene enkeltvis samt en multijustert analyse med de tre samtidig. I den multijusterte analysen ser vi at sammenhengen for innvandrerandel består, mens sammenhengen for sosioøkonomisk status blir liten og ikke-signifikant og sammenhengen for husstandstetthet blir negativ og ikke-signifikant.
Tabell 2
Ujusterte og justerte regresjonskoeffisienter fra en befolkningsvektet multippel lineær regresjonsmodell mellom forekomst av PCR-påvist SARS-CoV-2-smitte i Oslo kommunes bydeler kumulativt per 3.12.2020 og utvalgte sosiodemografiske mål.
Påvist SARS-CoV-2-smitte | |||||
---|---|---|---|---|---|
Ujustert B (95 % KI) | P-verdi | Justert B (95 % KI) | P-verdi | ||
Sosioøkonomisk status | −3,90 (−4,91 til −2,88) | < 0,001 | −1,13 (−2,56 til 0,29) | 0,107 | |
Husstandstetthet | 16,58 (10,79 til 22,38) | < 0,001 | −6,71 (−14,35 til 0,92) | 0,079 | |
Innvandrerandel | 3,63 (3,04 til 4,22) | < 0,001 | 3,95 (2,16 til 5,73) | < 0,001 |
Diskusjon
Vi fant at innvandrerandel i bydelen var statistisk signifikant assosiert med påvist SARS-CoV-2-smitte i Oslo, også når vi justerte for sosioøkonomisk status og husstandstetthet.
I Folkehelseinstituttets siste rapport om sammenheng mellom fødeland og påvist smitte i Oslo fant man lignende resultater. De viste at utenlandskfødte i snitt hadde nesten dobbelt så høy smitteforekomst som norskfødte selv når man justerte for kjønn, alder og arbeid (7).
Folkehelseinstituttet fant også store forskjeller mellom opprinnelse fra forskjellige land, der personer født i Afrika, Midtøsten og Sør-Asia hadde flere ganger høyere forekomst enn de født i Norge og Vest-Europa (7). Også i en studie fra Storbritannia fant man at sosioøkonomisk status ikke kunne forklare overrepresentasjon av noen etniske minoriteter (8).
Det kan være at kulturell/etnisk bakgrunn i seg selv er en faktor i smittespredningen. For eksempel kan det være andre normer for fysisk og sosial nærhet, eller det kan eksistere systematiske misforståelser om smitte og smittebegrensende tiltak. Språkbarrierer kan også være medvirkende, spesielt hos innvandrere født utenlands.
Det er flere mulige metodiske og statistiske svakheter ved vår undersøkelse på aggregerte gjennomsnittstall. Analysen tar ikke hensyn til at det er forskjellig usikkerhet på hvert mål i hver bydel. Komposittvariablene er konstruerte størrelser. Vi har også tatt utgangspunkt i mange mål hvor retningen på sammenhengene kan være uklare. Se appendiks 1 for vårt utgangspunkt for retninger på sammenhengene. Siden husstandstetthet var negativt assosiert med smitterate når vi justerte for innvandrerandel, kan sistnevnte være en konfunderende variabel som både påvirker smitte og bosituasjon.
Fordelene ved vår analyse er at vi enkelt og raskt har funnet sammenhenger som kan være nyttige for bl.a. helsemyndighetene, og som kan danne utgangspunkt for en mer fullstendig analyse på individdata.
Artikkelen er fagfellevurdert.
- 1.
Hawkins RB, Charles EJ, Mehaffey JH. Socio-economic status and COVID-19-related cases and fatalities. Public Health 2020; 189: 129–34. [PubMed][CrossRef]
- 2.
Diaz E, Norredam M, Aradhya S et al. Situational brief: Migration and COVID-19 in Scandinavian countries. Lancet Migration 2020.
- 3.
Folkehelseinstituttet. COVID-19 Ukerapport – uke 6. https://www.fhi.no/publ/2020/koronavirus-ukerapporter/ Lest 11.3.2021.
- 4.
Oslo kommune. Statistikkbanken. https://www.oslo.kommune.no/statistikk/#gref Lest 3.12.2020.
- 5.
Oslo kommune. Koronatall for Oslo 2020. https://www.oslo.kommune.no/koronavirus/statistikk-for-oslo/ Lest 3.12.2020.
- 6.
Edwards JR, Bagozzi RP. On the nature and direction of relationships between constructs and measures. Psychol Methods 2000; 5: 155–74. [PubMed][CrossRef]
- 7.
Indseth T, Kjøllesdal M, Jacobsen C et al. Covid-19 i Oslo etter fødeland: Personer testet, bekreftet smittet og relaterte innleggelser. Oslo: Folkehelseinstituttet, 2020. https://www.fhi.no/publ/2020/covid-19-i-oslo-etter-fodeland-personer-testet-bekreftet-smittet-og-relater/ Lest 11.3.2021.
- 8.
Raisi-Estabragh Z, McCracken C, Bethell MS et al. Greater risk of severe COVID-19 in Black, Asian and Minority Ethnic populations is not explained by cardiometabolic, socioeconomic or behavioural factors, or by 25(OH)-vitamin D status: study of 1326 cases from the UK Biobank. J Public Health (Oxf) 2020; 42: 451–60. [PubMed][CrossRef]
Hei, spennende artikkel - takk. Jeg har et par spørsmål fra et statistisk perspektiv, og som innvandrer selv (på forhånd, beklager språkfeil).
1) Hvor mange smittetilfeller var det i disse bydelene? (Altså ikke per 100 000 innbyggere, men faktisk antall. Jeg lette etter N men kunne ikke finne det).
2) Hva med "model fit" av deres justerte analyse?
3) Har dere testet for multicollinearity? Figur 1A og Figur 1C viser en tett sammenheng mellom innvandrerandel og den avhengige variabelen, og mellom husstandstetthet og den avhengige variabelen. Har dere sørget for at disse to uavhengige variablene ikke er korrelert med hverandre?
4) Appendix 1 var fint, takk. Men det peker på at dere har målt både "confounders", "mediators", og "moderators", og satt alt i en regresjonsanalyse. Appendix 1 viser at dere tenker at innvandrerandel påvirker både sosioøkonomisk status og husstandstetthett - i så fall skal man også ta hensyn til innvandrerandelens unike påvirkning på disse to andre uavhengige variablene.
Som den forrige kommentaren til artikkelen peker på, finner man en høy korrelasjon mellom de variablene som har vært brukt som prediktorvariabler. Dette innebærer en betydelig multikollinearitet (graden av lineær sammenheng mellom flere forklaringsvariabler i en multippel regresjonsmodell). Multikollinearitet er et godt kjent problem i lineær regresjonsanalyse. Multikollinearitet kan øke variansen til koeffisientestimatene og påvirke den statistiske signifikans av uavhengige variabler (1).
Koeffisientestimatene blir da ustabile og følsomme for mindre endringer i modellen. Dette innebærer at valg av egnede prediktorer basert på deres statistiske signifikans blir problematisk og kan føre til falske konklusjoner.
Under diskusjonen, drøfter forfatterne mulige svakheter med studien, men ikke multikollinearitet. Dersom problemer med multikollinearitet ikke har blitt riktig adressert er ikke konklusjonene som trekkes pålitelige nok. Da må man være forsiktig med anbefalinger til bruk i helsepolitikkøyemed.
Litteratur:
1) The problem of multicollinearity. In: Understanding Regression Analysis. Springer, Boston, MA. (1997) https://doi.org/10.1007/978-0-585-25657-3_37).
Takk for en spennende artikkel som forsøker å belyse viktige elementer i håndtering av smittsomme sykdommer, her covid. I denne sammenheng er det riktig å også ta med «politisk ukorrekte» variabler om de ansees som viktige for å slå ned smitten. Mange forklaringsvariabler korrelerer, men å ta med ekstremt sterkt (rho>0.9) korrelerte variabler i en multivariabel regresjonsanalyse gir store utfordringer med tolkningen.
Personlig tror jeg det hadde blitt bedre å utelatt innvandrer i den multivariable regresjonsanalysen og heller kommentert etterpå at innvandrer i Oslo er sterkt korrelert med både å være trangbodd og ha lav sosioøkonomisk status, og derfor forklarer hvorfor de er utsatte som gruppe.
Jeg er litt overrasket over at fagfellevurderingen ikke har kommenterte dette?
Det er spesielt viktig å være nøye når man kommer til konklusjoner som kan være potensielt stigmatiserende.
Takk for mange tilbakemeldinger gjennom Tidsskriftet og andre kanaler. Et hyppig forekommende spørsmål har vært test for multikollinearitet. Under fagfellevurdering og manuskriptbearbeiding ble også eksterne statistikere konsultert.
Cut-off for toleranse for multikollinearitet var satt til <0,1. Innvandrerandel, husstandstetthet og sosioøkonomisk status var i grenseland (0.1-0.2). Imidlertid hadde ingen av dimensjonene varianseandeler over 0,9 i kollinearitetsdiagnostikken. Vi endte med å beholde regresjonsanalysen med forbehold og nyansering av tolkningene som er tatt inn. Vi ønsker igjen å understreke at vår undersøkelse er preliminær og at den bør etterfølges med mer avanserte analyser, helst på individnivå.
På spørsmålet om kulturelle faktorer kan ha betydning for smitte, er det også andre kilder som peker i denne retningen. FHI skriver at «forskjellene vi observerer i bekreftet smitte forklares i liten grad av» forskjellige sosioøkonomiske faktorer (1). Boforhold er riktignok ikke med i disse analysene. Den samme rapporten viser også stor forskjell mellom hvert fødeland i Norge. Grupper med omtrent samme sosioøkonomisk situasjon varierer betydelig seg imellom i smitteforekomst.
Det kan være at norsk og nordisk kultur skiller seg spesielt ut. Sørover i Europa ser det ut til at forskjellene blir mindre og mindre, og i Italia har utenlandsfødte bare omtrent halvparten av smitteratene som etniske italienere (2). Atferd som er dypt iboende, ubevisst og automatisert fra barndommen som for eksempel naturlig nærhet til andre, gjestfrihet og kontakt, kollektivisme og inkludering, familiebånd og tro, kan være vanskelig å endre for en hel gruppe over tid. Slike elementer ved en kultur kan være risikofaktorer for smitte uavhengig av smitteverntiltak og vilje til å etterleve disse.
Vi ønsker ikke å stigmatisere eller utsette noen gruppe for usaklig forskjellsbehandling. Det er likevel mye som tyder på at tiltakene ikke fungerer godt nok for alle. Det kan hende at en annen vaksineprioritering kunne ført til mindre smitte totalt. Ved hovedsakelig lokalisert smitte har WHO tidligere anbefalt å prioritere disse områdene for vaksinering (3).
Litteratur:
1)
Indseth T, Godøy A, Kjøllesdal M et al. Covid-19 etter fødeland fra mars 2020 til februar 2021. Oslo: Folkehelseinstituttet, 2021. https://www.fhi.no/publ/2021/covid-19-etter-fodeland-fra-mars-2020-til-februar-2021/ Hentet 1.4.2021
2)
Scarpetta S, Dumont JC, Liebig T. What is the impact of the COVID-19 pandemic on immigrants and their children? Paris: OECD, 2020. http://www.oecd.org/coronavirus/policy-responses/what-is-the-impact-of-the-covid-19-pandemic-on-immigrants-and-their-children-e7cbb7de/ Hentet 1.4.2021
3)
World Health Organization. Roadmap for prioritizing population groups for vaccines against COVID-19. An Approach to Inform Planning and Subsequent Recommendations Based Upon Epidemiologic Setting and Vaccine Supply Scenarios. Genève: WHO, 2020. https://www.who.int/immunization/sage/meetings/2020/october/Session03_Roadmap_Prioritization_Covid-19_vaccine.pdf Hentet 4.4.2021
Denne artikkelen er et illustrerende eksempel på at innvandrere blir beskyldt for smittespredning av Covid-19, noe som dels forankres i en bred (og stigmatiserende) oppfatning av spesifikke etniske grupper.
Vi retter søkelyset særlig på tre problematiske forhold:
1) Forfatterne velger å «predikere» infeksjonsrater i bydeler i Oslo gjennom å analysere offentlig tilgjengelig data på tre høyst kollineære variabler som ble samlet inn under samme periode (innvandrerandel, sosioøkonomisk status og husstandstetthet). Dette uten a) å starte med en hypotese, b) en analyseplan som viste at de ikke «fisket» for statistiske signifikante variabler, c) å rapportere N underveis, eller d) å rapportere om disse variablene ble samlet på de samme individene i det hele tatt.
Gjennom å ta med tre tett koblede variabler i samme regresjon måler forfatterne i prinsippet det samme forholdet flere ganger. Det er i slike tilfeller ikke mulig å skille hva som henger tettest sammen med den avhengige variabelen. Den klassiske risikoen for slik multikollineæritet er at noen variabler feilaktig fremstår som ikke statistisk signifikante i analysen, mens andre fremstår signifikante. I dette tilfellet virker det som at to av variablene (sosioøkonomisk status og husstandstetthet) ikke er statistisk signifikante og at det kun er innvandrerandel som er signifikant. Til tross for at de anerkjenner at de har brukt høyt korrelerte variabler velger forfatterne likevel å rapportere at innvandrerdel alene korrelerer med smitte, og at lav sosioøkonomisk status og husstandstetthet ikke gjør det. I den mest velvillige fortolkningen viser forfatternes bivariate analyser uheldige, men ikke overraskende, sammenhenger mellom smitte og tre like indikatorer av byområder med levekårsutfordringer: innvandrerandel, sosioøkonomisk status og husstandstetthet.
2) Forfatterne kobler disse mangelfulle resultatene til stigmatiserende anførsler ved å knytte etnisitet og kultur til det som åpenbart blir oppfattet å være et negativt forhold i dagens samfunn, nemlig smittespredning. De foreslår at den økte infeksjonen kan være forårsaket av «kulturell/etnisk bakgrunn», «andre normer for fysisk og sosial nærhet» og «systematiske misforståelser om smitte og smittebegrensede tiltak». Uten hold i data anfører forfatterne på denne måten at bydeler i Oslo med høy innvandrerandel er infiserte fordi innvandrere ikke forstår betydningen av hygiene eller sosial distansering fordi de er etniske og kulturelt forskjellige. Påstanden er således åpenbart diskriminerende.
3) Forfatterne avslutter artikkelen med å skrive at de «enkelt og raskt har funnet sammenhenger som kan være nyttige for bl.a. helsemyndighetene». Det vil si at man heller bør fokusere på innvandrerandelen for å redusere smitte, fremfor på andre underliggende faktorer slik som sosioøkonomisk status eller husstandstetthet. Her ligger det mest problematiske med studien: det er ikke utenkelig at dette blir brukt av politiker. Men norske helsemyndigheter trenger forskning som er transparent, bruker hensiktsmessige metoder og som ikke faller for fristelsen å bruke stigmatiserende forklaringer som ikke har hold i datagrunnlaget.
Vi synes det er overraskende at denne artikkelen slapp gjennom til publisering.
Det er viktig å kartlegge hva som kan forklare sosiale helseforskjeller. Derfor er det fortjenestefullt at Søegaard og Kan bringer denne tematikken over på utbredelsen av covid-19-smitte i Oslo (1). I en analyse basert på aggregerte tall for Oslos 15 bydeler, finner de sterke korrelasjoner mellom tre uavhengige variabler og smittegrad: (A) Bydeler med en høyere andel av innvandrere har mer smitte enn bydeler med en lavere andel innvandrere. (B) Bydeler med en høyere andel av folk med høy sosioøkonomisk status har mindre smitte enn bydeler med en lavere andel av folk med høy sosioøkonomisk status. (C) Bydeler med en høyere andel av folk som bor trangbodd, har mer smitte enn bydeler med en lavere andel av folk som bor trangbodd.
Så gjør forfatterne en multippel regresjonsanalyse, uten at motivet er eksplisitt. Jeg antar de ønsket å si noe om de relative effektene av de nevnte uavhengige variablene, siden senere kommentarer og konklusjon er at kun innvandrerandel har en signifikant effekt i den multiple analysen. Denne multiple regresjonen burde imidlertid ikke vært rapportert, siden konklusjonene fra denne i beste fall er tvilsomme og i verste fall er direkte gale.
Grunnen er at forfatterne ikke har data som kan belegge en slik konklusjon. Her er det flere momenter: (A) Analysen er basert på aggregerte tall for 15 bydeler. Det finnes ingen enighet i litteraturen om hvor mange observasjoner (her: bydeler) som trengs for å gjøre en multippel regresjon med tre uavhengige variabler. Men flere anbefalinger peker mot minst 10–20 observasjoner per uavhengige variabel, noe som i dette tilfellet minimum tilsier 30 observasjoner (2). En annen anbefaling er 50 + 8 observasjoner per uavhengige variabel, dvs. 74 som et minimum (3). (B) Vel så viktig er at de uavhengige variablene ikke bør være sterkt korrelerte, altså at det foreligger multikollinaritet. Søegaard og Kan oppgir korrelasjonene (innvandrerandel vs. sosioøkonomisk status = −0,916; innvandrerandel vs. husstandstetthet = 0,948; sosioøkonomisk status vs. husstandstetthet = −0,883), men uten å trekke konsekvensen av dette, dvs. å legge bort tanken om å rapportere en multippel regresjon. (C) Få observasjoner forsterker problemet med multikollinaritet (4). I sum gir A–C at koeffisientene til forfatternes multiple regresjon ikke er til å stole på og at man heller ikke kan vektlegge dens p-verdier.
Søegaard og Kans bruk av statistisk signifikans kan også bemerkes. Bydelsdataene er en populasjon heller enn et tilfeldig utvalg. Signifikansvurderinger kan da forsvares ved å se på dataene som et tilfeldig utvalg fra en tenkt superpopulasjon. Men hva denne eventuelt skal være, er uklart. Alternativt kan signifikansvurderinger søkes i modellbasert statistisk teori (5), men det er ingen spor etter dette. Dermed får den statistiske analysen et skjær av øvelsen «å late som man har et utvalg fordi man ønsker å benytte signifikanstester».
Jeg har delvis reanalysert dataene fra Søegaard og Kan (appendiks 1). To av variablene forfatterne benytter, finnes som rådata i deres tabell 1, sammen med variablene gjennomsnittlig inntekt og andel trangbodde i bydelene. Jeg bruker de sistnevnte som proksier for henholdsvis sosioøkonomisk status og husstandstetthet (forfatterne bruker her to indekser som ikke finnes i deres tabell 1). Denne forskjellen spiller liten rolle, siden det er en høy korrelasjon mellom indeksene og mine proksier (appendiks 1). Tabell 1 i appendikset viser tre bivariate regresjoner mellom smittegrad og de tre uavhengige variablene samt en multippel regresjonsanalyse.
Resultatene for panel A i tabell 1 forteller at en høyere innvandrerandel i bydel samvarierer sterkt positivt med smittegrad for bydel, som vist i figur 1 (appendiks 1). Panel B i tabell 1 viser en negativ samvariasjon mellom smittegrad og gjennomsnittsinntekt (b = −3,36), mens panel C viser en positiv samvariasjon (b = 144,50) mellom smittegrad og andel trangbodde.
Panel D er den multiple regresjonen. Jeg finner omtrent det samme som Søegaard og Kan, men det er flere symptomer på multikollinaritet: (A) Korrelasjonene blant mine uavhengige variabler ligger i intervallet −0,81 til 0,92 (ikke vist), dvs. de er lavere enn hos Søegaard og Kan. Multikollinaritetsproblemet er derfor større hos dem enn hos meg. (B) Standardfeilene er inflaterte i den multiple regresjonen, for innvandrerkoeffisienten øker den fra 2,77 til 7,04, mens den tilsvarende økningen er fra 19,76 til 40,62 for trangboddkoeffisienten. (C) Koeffisienten for trangbodd går fra å være sterkt positiv (144,5) til å bli markant negativ (−36,2), noe som er urimelig. (D) VIF-verdiene, målet på grad av multikollinaritet, indikerer nettopp dette med verdier over 2,5, 5 og 10. Ingen er enige om hva som sikkert definerer multikollinaritet, og alle nevnte terskelverdier benyttes i litteraturen. De fleste vil imidlertid si at terskelen flyttes nedover ved få observasjoner. I sum peker A–D mot multikollinaritet, noe som sammen med de for få observasjonene gjør at vi ikke kan stole på at koeffisientene er korrekte uttrykk for de uavhengige variablenes relative effekter, alt annet likt. Dette rammer i større grad Søegaard og Kans analyse enn min, siden korrelasjonene blant deres uavhengige variabler er større enn blant mine.
Vi bør ikke være redde for å belyse ubehagelige sannheter på sykdoms- og helsefeltet. Søegaard og Kans analyser, og min delvise replikasjon av disse, tilsier at smittegradsvariasjonen for covid-19 blant Oslos bydeler samvarierer med andel innvandrere, sosioøkonomisk status og husstandstetthet. Men ikke mer. Å forsøke å rangere deres relative forklaringskraft er dømt til å mislykkes i en analyse med 15 observasjoner. Innvandrerandel kan være viktigere enn sosioøkonomisk status og husstandstetthet for å forklare forskjellene i smitteandel mellom bydelene i Oslo (6), slik Søegaard og Kans konklusjon mer enn antyder. Men dette trenger vi altså større og bedre data for å kunne belegge enn det forfatterne har.
Litteratur
1. Søegaard EGI, Kan Z. Koronasmitte i Oslos bydeler. Tidsskr Nor Legeforen. DOI: 10.4045/tidsskr.20.1022. https://tidsskriftet.no/2021/03/kort-rapport/koronasmitte-i-oslos-bydeler Lest 26.3.2021.
2. Harrell FE jr. Regression Modeling Strategies. New York, NY: Springer Forlag, 2001.
3. Tabachnick BG, Fidell LS. Using Multivariate Statistics. 5. utg. Boston, MA: Pearson Education Inc, 2007.
4. Allison PD. Multiple Regression. A Primer. Thousand Oaks, CA: Pine Forge Press, 1999.
5. Aaberge R, Laake P. Om statistiske teoriar for tolking av data. Tidsskrift for samfunnsforskning 1984; 25: 156-186.
6. Kjøllesdal M, Indset T, Arnesen T. Covid-19 og innvandrere: Hva sier tallene? Forskersonen 28.3.2021. https://forskersonen.no/covid19-innvandring-kronikk/covid-19-og-innvandrere-hva-sier-tallene/1835255 Lest 28.3.2021.