COVID-19 infections in the districts of Oslo

Erik Ganesh Iyer Søegaard; Zhanna Kan

doi:10.4045/tidsskr.20.1022

Short report

COVID-19 infections in the districts of Oslo

Norwegian

Erik Ganesh Iyer Søegaard, Zhanna Kan

See All Articles

Erik Ganesh Iyer Søegaard

E-mail: erikganesh@hotmail.com

Southern Oslo District Psychiatric Centre

Division of Mental Health and Addiction

Oslo University Hospital

and

Division of Mental Health and Addiction

University of Oslo

He has contributed to the concept, design, collection, analysis and interpretation of data, literature search and drafting/revision of the manuscript.

Erik Ganesh Iyer Søegaard, specialist in psychiatry, head of department, legal practitioner and PhD student.

The author has completed the ICMJE form and declares no conflicts of interest.

See All Articles

Zhanna Kan

Southern Oslo District Psychiatric Centre

Division of Mental Health and Addiction

Oslo University Hospital

She has contributed to the analysis and interpretation of data, literature search and drafting of the manuscript.

Zhanna Kan, PhD in cardiology, researcher and specialty registrar in psychiatry.

The author has completed the ICMJE form and declares no conflicts of interest.

Abstract

BACKGROUND

Belonging to certain ethnic groups, socioeconomic status and cramped living conditions are assumed to affect the risk of infection with SARS-CoV-2. We wanted to examine correlations between a selection of sociodemographic variables and infection rates in Oslo's districts.

MATERIAL AND METHOD

Aggregated data on districts obtained from Oslo City Government's statistics database were collated with cumulative figures for PCR-confirmed cases of SARS-CoV-2 as of 3 December 2020. We selected some variables from the living conditions indicators that showed a strong correlation with infection rates. The composite variable 'socioeconomic status' included income, education and labour market attachment. 'Household density' included the proportion of people in cramped living conditions and multi-family households. We performed an unadjusted and adjusted standard multiple linear regression analysis of the impact of immigrant ratio, socioeconomic status and household density on infection rates.

RESULTS

Immigrant ratio, socioeconomic status and household density were all associated with infection rates in the districts. Pearson's correlation coefficients (95 % CI) were 0.97 (0.93 to 0.99), −0.93 (−0.97 to −0.86) and 0.88 (0.77 to 0.98) respectively, all with p <0.001. In the adjusted model, immigrant ratio was still associated with the infection rate, B = 3.95 (2.16 to 5.73), p <0.001, however there was no longer a statistically significant association between socioeconomic status or household density and infection rates.

INTERPRETATION

Immigrant ratio seems to be an important risk factor for infection in Oslo. Our analysis suggests that the correlation may be due to factors other than low socioeconomic status and high household density.

Article

Introduction

Studies show that some groups are more affected by the COVID-19 pandemic than others, both internationally and in Norway. A large study of socioeconomic factors in over one million cases in the United States found that a low level of education and an African-American background were strongly associated with infection, more severe symptoms and death as a result of COVID-19 (1).

Immigrants are overrepresented in infection statistics throughout Scandinavia (2). In Norway, 36 % of those with confirmed COVID-19 are immigrants born abroad to foreign parents, even though they only represent 15 % of the population (3). The most common explanations for the disproportionate rates include differences in somatic disease burden, living conditions and real opportunities for social distancing, e.g. because many work in service industries or live at close quarters and in cramped conditions. However, socioeconomic resources are also closely linked to immigrant status and ethnic background.

Oslo is a city with large disparities between districts and sub-populations. The tendency is for more cramped living conditions and a higher immigrant ratio in districts with a lower socioeconomic status (4). These also have significantly higher infection rates (5). The purpose of this study was to analyse the relationship between sociodemographic factors and infection rates in Oslo's districts.

Material and method

On 3 December 2020, sociodemographic data were retrieved from Oslo City Government's statistics database, whose data is sourced from Statistics Norway (4). Data on the cumulative number of registered cases of SARS-CoV-2 confirmed in a polymerase chain reaction (PCR) test as of 3 December 2020 were obtained from Oslo City Government's Agency of Health (5).

In the analyses, we applied the same definitions as those used in the statistics database (4). Immigrants were defined as people born abroad to foreign parents (formerly called first-generation immigrants) or Norwegian-born with two parents born abroad (formerly called second-generation immigrants). Cramped living conditions were defined as households with more than one person per room or less than 20 square metres per person. Multi-family households were defined as households where the occupiers are made up of two or more families. Low level of education referred to 21–29-year-olds who had not completed upper secondary school. People aged 30–59 with no attachment to the labour market were defined as unemployed. Mean income was calculated on the basis of gross income per person over 16 years of age.

We created two composite variables. The formative variable socioeconomic status was created by converting the variables 'education', 'income' and 'employment' to the same scale (0 to 1) and taking an equally weighted average of these (6). Similarly, we converted the proportions in cramped living conditions and multi-family households to a variable that we called household density.

We first examined bivariate correlations for all variables in three of the statistics database's sub-categories: population, living conditions and living conditions indicators, with registered cases of SARS-CoV-2 infection. In the further analysis, we selected variables that had a significant correlation with infection, with p <0.01 (alone or as part of a composite variable). We then calculated Pearson's correlation coefficient between these variables and infection rates. Next, we performed a linear regression analysis using infection rates in the districts as a dependent variable and the two composite variables and immigrant ratio as independent variables, both separately and simultaneously in a multi-adjusted analysis. This analysis was weighted for the number of people in the districts.

The assumption of normal distribution was checked using a histogram of the residual plot. The analyses were performed in SPSS version 27.

The data are publicly available and are not personally identifiable. There was therefore no need to apply for permission to use the data.

Results

In total, there were approximately 688 000 inhabitants in the 15 districts of Oslo. The four districts in Groruddalen and Søndre Nordstrand had the most confirmed cases of infection: 2086–2623 cases per 100 000 inhabitants. These districts also had the highest immigrant ratios (44–59 %) and the highest proportions of people in cramped living conditions (15–17 %). The three western districts of Ullern, Nordre Aker and Vestre Aker, as well as the district of Nordstrand, had significantly lower infection rates: 893–1161 confirmed cases per 100 000 inhabitants, lower immigrant ratios (18–21 %) and lower proportions of people in cramped living conditions (6–11 %). The indicators for the remaining six districts were in the middle bracket (Table 1).

Table 1

Number of confirmed SARS-CoV-2 cases per 100 000 inhabitants by district as of 3 December 2020, and selected sociodemographic variables from Oslo City Government's statistics database.

District	Confirmed cases per 100 000 inhabitants	Proportion of immigrants (%)	Mean income (NOK)	Proportion in cramped living conditions (%)
Stovner	2 623	59.1	374 000	15.8
Grorud	2 451	51.7	384 000	15.4
Alna	2 380	54.7	394 000	15.4
Bjerke	2 175	44.4	439 000	15.7
Søndre Nordstrand	2 086	56.6	393 000	17.0
Gamle Oslo	1 967	39.3	446 000	11.8
Grünerløkka	1 591	34.7	451 000	11.9
St. Hanshaugen	1 569	27.9	482 000	10.7
Frogner	1 471	28.5	655 000	8.9
Sagene	1 435	26.3	476 000	11.6
Østensjø	1 264	26.3	489 000	10.4
Nordstrand	1 161	18.2	620 000	7.7
Ullern	1 094	20.7	760 000	6.6
Nordre Aker	1 032	19.2	611 000	10.8
Vestre Aker	893	17.9	817 000	6.4

Immigrant ratio, socioeconomic status and household density were all independently correlated with infection rates (Figure 1 a–c. Immigrant ratio also had a strong correlation with socioeconomic status and household density with Pearson's correlation coefficients of −0.916 (95 % CI −0.976 to −0.855) and 0.948 (95 % CI 0.893 to 0.979) respectively, both with p <0.001. Socioeconomic status was negatively correlated to household density with Pearson's correlation coefficient −0.883 (95 % CI −0.955 to −0.797), p <0.001.

Figure 1a Proportion of confirmed COVID-19 cases per district as of 3 December 2020 by immigrant ratio (Pearson's… — **Figure 1a** Proportion of confirmed COVID-19 cases per district as of 3 December 2020 by immigrant ratio (Pearson's correlation coefficient 0.965 (95 % CI 0.925 to 0.992), p <0.001).

Figure 1b Proportion of confirmed COVID-19 cases per district as of 3 December 2020 by socioeconomic status (Pearson's… — **Figure 1b** Proportion of confirmed COVID-19 cases per district as of 3 December 2020 by socioeconomic status (Pearson's correlation coefficient −0.925 (95 % CI −0.967 to −0.862), p <0.001).

Figure 1c Proportion of confirmed COVID-19 cases per district as of 3 December 2020 by household density (Pearson's… — **Figure 1c** Proportion of confirmed COVID-19 cases per district as of 3 December 2020 by household density (Pearson's correlation coefficient 0.880 (95 % CI 0.767 to 0.976, p <0.001).

Table 2 shows the results of a regression analysis performed on each of these variables individually as well as a multi-adjusted analysis performed on the three variables simultaneously. In the multi-adjusted analysis, we see that the correlation for immigrant ratio is still statistically significant, while the correlation for socioeconomic status is reduced and non-significant, and the correlation for household density is negative and non-significant.

Table 2

Unadjusted and adjusted regression coefficients from a population-weighted multiple linear regression model between the incidence of PCR-confirmed cases of SARS-CoV-2 in Oslo's districts cumulatively as of 3 December 2020 and selected sociodemographic variables

		Confirmed cases of SARS-CoV-2
	Unadjusted B (95 % CI)	P-value	Adjusted B (95 % CI)	P-value
Socioeconomic status	−3.90 (−4.91 to −2.88)	< 0.001	−1.13 (−2.56 to 0.29)	0.107
Household density	16.58 (10.79 to 22.38)	< 0.001	−6.71 (−14.35 to 0.92)	0.079
Immigrant ratio	3.63 (3.04 to 4.22)	< 0.001	3.95 (2.16 to 5.73)	< 0.001

Discussion

We found a statistically significant association between the immigrant ratio in the districts and confirmed cases of SARSCoV-2 in Oslo that persisted when we adjusted for socioeconomic status and household density.

The Norwegian Institute of Public Health's latest report on the correlation between country of origin and confirmed infections in Oslo found similar results. It showed that the average incidence of infection was almost twice as high among people born abroad as those born in Norway, even when adjusted for gender, age and labour market attachment (7).

The Norwegian Institute of Public Health also found major disparities between different country backgrounds, where the incidence was several times higher among people born in Africa, the Middle East and South Asia than those born in Norway and Western Europe (7). Similarly, a British study found that socioeconomic status could not explain the over-representation of infection in ethnic minorities (8).

It may be that cultural/ethnic background in itself is a factor in the spread of infection. For example, there may be other norms for physical and social proximity, or there may be systematic misunderstandings about infection and infection control measures. Language barriers could also be a factor, particularly among immigrants born abroad.

The methodology and statistical analysis of aggregate averages may potentially represent weaknesses in the study. The analysis does not account for the varying uncertainty for each variable in each district. Furthermore, the values of the composite variables are created constructs. We have also used various indicators where the direction of the correlations may be unclear. See Appendix 1 for our assumptions for directions of the correlations. Since household density was negatively associated with the infection rate when we adjusted for immigrant ratio, the latter may be a confounding variable that affects both risk of infection and living situation. One of the strengths of our analysis is that we have easily and quickly found correlations that can be useful for the health authorities etc., and which can form the basis for a more comprehensive analysis of individual data.

The article has been externally peer reviewed.

Literature

1.
Hawkins RB, Charles EJ, Mehaffey JH. Socio-economic status and COVID-19-related cases and fatalities. Public Health 2020; 189: 129–34. [PubMed][CrossRef]
2.
Diaz E, Norredam M, Aradhya S et al. Situational brief: Migration and COVID-19 in Scandinavian countries. Lancet Migration 2020.
3.
Folkehelseinstituttet. COVID-19 Ukerapport – uke 6. https://www.fhi.no/publ/2020/koronavirus-ukerapporter/ Accessed 11.3.2021.
4.
Oslo kommune. Statistikkbanken. https://www.oslo.kommune.no/statistikk/#gref Accessed 3.12.2020.
5.
Oslo kommune. Koronatall for Oslo 2020. https://www.oslo.kommune.no/koronavirus/statistikk-for-oslo/ Accessed 3.12.2020.
6.
Edwards JR, Bagozzi RP. On the nature and direction of relationships between constructs and measures. Psychol Methods 2000; 5: 155–74. [PubMed][CrossRef]
7.
Indseth T, Kjøllesdal M, Jacobsen C et al. Covid-19 i Oslo etter fødeland: Personer testet, bekreftet smittet og relaterte innleggelser. Oslo: Folkehelseinstituttet, 2020. https://www.fhi.no/publ/2020/covid-19-i-oslo-etter-fodeland-personer-testet-bekreftet-smittet-og-relater/ Accessed 11.3.2021.
8.
Raisi-Estabragh Z, McCracken C, Bethell MS et al. Greater risk of severe COVID-19 in Black, Asian and Minority Ethnic populations is not explained by cardiometabolic, socioeconomic or behavioural factors, or by 25(OH)-vitamin D status: study of 1326 cases from the UK Biobank. J Public Health (Oxf) 2020; 42: 451–60. [PubMed][CrossRef]

Comments ( 6 )

Dette kommentarfeltet modereres, men kommentarer blir ikke redaksjonelt behandlet ut over å sikre at de følger retningslinjer for vårt kommentarfelt.

26.03.2021:

Hei, spennende artikkel - takk. Jeg har et par spørsmål fra et statistisk perspektiv, og som innvandrer selv (på forhånd, beklager språkfeil).
1) Hvor mange smittetilfeller var det i disse bydelene? (Altså ikke per 100 000 innbyggere, men faktisk antall. Jeg lette etter N men kunne ikke finne det).
2) Hva med "model fit" av deres justerte analyse?
3) Har dere testet for multicollinearity? Figur 1A og Figur 1C viser en tett sammenheng mellom innvandrerandel og den avhengige variabelen, og mellom husstandstetthet og den avhengige variabelen. Har dere sørget for at disse to uavhengige variablene ikke er korrelert med hverandre?
4) Appendix 1 var fint, takk. Men det peker på at dere har målt både "confounders", "mediators", og "moderators", og satt alt i en regresjonsanalyse. Appendix 1 viser at dere tenker at innvandrerandel påvirker både sosioøkonomisk status og husstandstetthett - i så fall skal man også ta hensyn til innvandrerandelens unike påvirkning på disse to andre uavhengige variablene.

30.03.2021:

Som den forrige kommentaren til artikkelen peker på, finner man en høy korrelasjon mellom de variablene som har vært brukt som prediktorvariabler. Dette innebærer en betydelig multikollinearitet (graden av lineær sammenheng mellom flere forklaringsvariabler i en multippel regresjonsmodell). Multikollinearitet er et godt kjent problem i lineær regresjonsanalyse. Multikollinearitet kan øke variansen til koeffisientestimatene og påvirke den statistiske signifikans av uavhengige variabler (1).
Koeffisientestimatene blir da ustabile og følsomme for mindre endringer i modellen. Dette innebærer at valg av egnede prediktorer basert på deres statistiske signifikans blir problematisk og kan føre til falske konklusjoner.

Under diskusjonen, drøfter forfatterne mulige svakheter med studien, men ikke multikollinearitet. Dersom problemer med multikollinearitet ikke har blitt riktig adressert er ikke konklusjonene som trekkes pålitelige nok. Da må man være forsiktig med anbefalinger til bruk i helsepolitikkøyemed.

Litteratur:
1) The problem of multicollinearity. In: Understanding Regression Analysis. Springer, Boston, MA. (1997) https://doi.org/10.1007/978-0-585-25657-3_37).

30.03.2021:

Takk for en spennende artikkel som forsøker å belyse viktige elementer i håndtering av smittsomme sykdommer, her covid. I denne sammenheng er det riktig å også ta med «politisk ukorrekte» variabler om de ansees som viktige for å slå ned smitten. Mange forklaringsvariabler korrelerer, men å ta med ekstremt sterkt (rho>0.9) korrelerte variabler i en multivariabel regresjonsanalyse gir store utfordringer med tolkningen.
Personlig tror jeg det hadde blitt bedre å utelatt innvandrer i den multivariable regresjonsanalysen og heller kommentert etterpå at innvandrer i Oslo er sterkt korrelert med både å være trangbodd og ha lav sosioøkonomisk status, og derfor forklarer hvorfor de er utsatte som gruppe.
Jeg er litt overrasket over at fagfellevurderingen ikke har kommenterte dette?
Det er spesielt viktig å være nøye når man kommer til konklusjoner som kan være potensielt stigmatiserende.

08.04.2021:

Takk for mange tilbakemeldinger gjennom Tidsskriftet og andre kanaler. Et hyppig forekommende spørsmål har vært test for multikollinearitet. Under fagfellevurdering og manuskriptbearbeiding ble også eksterne statistikere konsultert.

Cut-off for toleranse for multikollinearitet var satt til <0,1. Innvandrerandel, husstandstetthet og sosioøkonomisk status var i grenseland (0.1-0.2). Imidlertid hadde ingen av dimensjonene varianseandeler over 0,9 i kollinearitetsdiagnostikken. Vi endte med å beholde regresjonsanalysen med forbehold og nyansering av tolkningene som er tatt inn. Vi ønsker igjen å understreke at vår undersøkelse er preliminær og at den bør etterfølges med mer avanserte analyser, helst på individnivå.

På spørsmålet om kulturelle faktorer kan ha betydning for smitte, er det også andre kilder som peker i denne retningen. FHI skriver at «forskjellene vi observerer i bekreftet smitte forklares i liten grad av» forskjellige sosioøkonomiske faktorer (1). Boforhold er riktignok ikke med i disse analysene. Den samme rapporten viser også stor forskjell mellom hvert fødeland i Norge. Grupper med omtrent samme sosioøkonomisk situasjon varierer betydelig seg imellom i smitteforekomst.

Det kan være at norsk og nordisk kultur skiller seg spesielt ut. Sørover i Europa ser det ut til at forskjellene blir mindre og mindre, og i Italia har utenlandsfødte bare omtrent halvparten av smitteratene som etniske italienere (2). Atferd som er dypt iboende, ubevisst og automatisert fra barndommen som for eksempel naturlig nærhet til andre, gjestfrihet og kontakt, kollektivisme og inkludering, familiebånd og tro, kan være vanskelig å endre for en hel gruppe over tid. Slike elementer ved en kultur kan være risikofaktorer for smitte uavhengig av smitteverntiltak og vilje til å etterleve disse.

Vi ønsker ikke å stigmatisere eller utsette noen gruppe for usaklig forskjellsbehandling. Det er likevel mye som tyder på at tiltakene ikke fungerer godt nok for alle. Det kan hende at en annen vaksineprioritering kunne ført til mindre smitte totalt. Ved hovedsakelig lokalisert smitte har WHO tidligere anbefalt å prioritere disse områdene for vaksinering (3).

Litteratur:

1)
Indseth T, Godøy A, Kjøllesdal M et al. Covid-19 etter fødeland fra mars 2020 til februar 2021. Oslo: Folkehelseinstituttet, 2021. https://www.fhi.no/publ/2021/covid-19-etter-fodeland-fra-mars-2020-til-februar-2021/ Hentet 1.4.2021

2)
Scarpetta S, Dumont JC, Liebig T. What is the impact of the COVID-19 pandemic on immigrants and their children? Paris: OECD, 2020. http://www.oecd.org/coronavirus/policy-responses/what-is-the-impact-of-the-covid-19-pandemic-on-immigrants-and-their-children-e7cbb7de/ Hentet 1.4.2021

3)
World Health Organization. Roadmap for prioritizing population groups for vaccines against COVID-19. An Approach to Inform Planning and Subsequent Recommendations Based Upon Epidemiologic Setting and Vaccine Supply Scenarios. Genève: WHO, 2020. https://www.who.int/immunization/sage/meetings/2020/october/Session03_Roadmap_Prioritization_Covid-19_vaccine.pdf Hentet 4.4.2021

08.04.2021:

Denne artikkelen er et illustrerende eksempel på at innvandrere blir beskyldt for smittespredning av Covid-19, noe som dels forankres i en bred (og stigmatiserende) oppfatning av spesifikke etniske grupper.

Vi retter søkelyset særlig på tre problematiske forhold:

1) Forfatterne velger å «predikere» infeksjonsrater i bydeler i Oslo gjennom å analysere offentlig tilgjengelig data på tre høyst kollineære variabler som ble samlet inn under samme periode (innvandrerandel, sosioøkonomisk status og husstandstetthet). Dette uten a) å starte med en hypotese, b) en analyseplan som viste at de ikke «fisket» for statistiske signifikante variabler, c) å rapportere N underveis, eller d) å rapportere om disse variablene ble samlet på de samme individene i det hele tatt.

Gjennom å ta med tre tett koblede variabler i samme regresjon måler forfatterne i prinsippet det samme forholdet flere ganger. Det er i slike tilfeller ikke mulig å skille hva som henger tettest sammen med den avhengige variabelen. Den klassiske risikoen for slik multikollineæritet er at noen variabler feilaktig fremstår som ikke statistisk signifikante i analysen, mens andre fremstår signifikante. I dette tilfellet virker det som at to av variablene (sosioøkonomisk status og husstandstetthet) ikke er statistisk signifikante og at det kun er innvandrerandel som er signifikant. Til tross for at de anerkjenner at de har brukt høyt korrelerte variabler velger forfatterne likevel å rapportere at innvandrerdel alene korrelerer med smitte, og at lav sosioøkonomisk status og husstandstetthet ikke gjør det. I den mest velvillige fortolkningen viser forfatternes bivariate analyser uheldige, men ikke overraskende, sammenhenger mellom smitte og tre like indikatorer av byområder med levekårsutfordringer: innvandrerandel, sosioøkonomisk status og husstandstetthet.

2) Forfatterne kobler disse mangelfulle resultatene til stigmatiserende anførsler ved å knytte etnisitet og kultur til det som åpenbart blir oppfattet å være et negativt forhold i dagens samfunn, nemlig smittespredning. De foreslår at den økte infeksjonen kan være forårsaket av «kulturell/etnisk bakgrunn», «andre normer for fysisk og sosial nærhet» og «systematiske misforståelser om smitte og smittebegrensede tiltak». Uten hold i data anfører forfatterne på denne måten at bydeler i Oslo med høy innvandrerandel er infiserte fordi innvandrere ikke forstår betydningen av hygiene eller sosial distansering fordi de er etniske og kulturelt forskjellige. Påstanden er således åpenbart diskriminerende.

3) Forfatterne avslutter artikkelen med å skrive at de «enkelt og raskt har funnet sammenhenger som kan være nyttige for bl.a. helsemyndighetene». Det vil si at man heller bør fokusere på innvandrerandelen for å redusere smitte, fremfor på andre underliggende faktorer slik som sosioøkonomisk status eller husstandstetthet. Her ligger det mest problematiske med studien: det er ikke utenkelig at dette blir brukt av politiker. Men norske helsemyndigheter trenger forskning som er transparent, bruker hensiktsmessige metoder og som ikke faller for fristelsen å bruke stigmatiserende forklaringer som ikke har hold i datagrunnlaget.

Vi synes det er overraskende at denne artikkelen slapp gjennom til publisering.

16.04.2021:

Det er viktig å kartlegge hva som kan forklare sosiale helseforskjeller. Derfor er det fortjenestefullt at Søegaard og Kan bringer denne tematikken over på utbredelsen av covid-19-smitte i Oslo (1). I en analyse basert på aggregerte tall for Oslos 15 bydeler, finner de sterke korrelasjoner mellom tre uavhengige variabler og smittegrad: (A) Bydeler med en høyere andel av innvandrere har mer smitte enn bydeler med en lavere andel innvandrere. (B) Bydeler med en høyere andel av folk med høy sosioøkonomisk status har mindre smitte enn bydeler med en lavere andel av folk med høy sosioøkonomisk status. (C) Bydeler med en høyere andel av folk som bor trangbodd, har mer smitte enn bydeler med en lavere andel av folk som bor trangbodd.

Så gjør forfatterne en multippel regresjonsanalyse, uten at motivet er eksplisitt. Jeg antar de ønsket å si noe om de relative effektene av de nevnte uavhengige variablene, siden senere kommentarer og konklusjon er at kun innvandrerandel har en signifikant effekt i den multiple analysen. Denne multiple regresjonen burde imidlertid ikke vært rapportert, siden konklusjonene fra denne i beste fall er tvilsomme og i verste fall er direkte gale.

Grunnen er at forfatterne ikke har data som kan belegge en slik konklusjon. Her er det flere momenter: (A) Analysen er basert på aggregerte tall for 15 bydeler. Det finnes ingen enighet i litteraturen om hvor mange observasjoner (her: bydeler) som trengs for å gjøre en multippel regresjon med tre uavhengige variabler. Men flere anbefalinger peker mot minst 10–20 observasjoner per uavhengige variabel, noe som i dette tilfellet minimum tilsier 30 observasjoner (2). En annen anbefaling er 50 + 8 observasjoner per uavhengige variabel, dvs. 74 som et minimum (3). (B) Vel så viktig er at de uavhengige variablene ikke bør være sterkt korrelerte, altså at det foreligger multikollinaritet. Søegaard og Kan oppgir korrelasjonene (innvandrerandel vs. sosioøkonomisk status = −0,916; innvandrerandel vs. husstandstetthet = 0,948; sosioøkonomisk status vs. husstandstetthet = −0,883), men uten å trekke konsekvensen av dette, dvs. å legge bort tanken om å rapportere en multippel regresjon. (C) Få observasjoner forsterker problemet med multikollinaritet (4). I sum gir A–C at koeffisientene til forfatternes multiple regresjon ikke er til å stole på og at man heller ikke kan vektlegge dens p-verdier.

Søegaard og Kans bruk av statistisk signifikans kan også bemerkes. Bydelsdataene er en populasjon heller enn et tilfeldig utvalg. Signifikansvurderinger kan da forsvares ved å se på dataene som et tilfeldig utvalg fra en tenkt superpopulasjon. Men hva denne eventuelt skal være, er uklart. Alternativt kan signifikansvurderinger søkes i modellbasert statistisk teori (5), men det er ingen spor etter dette. Dermed får den statistiske analysen et skjær av øvelsen «å late som man har et utvalg fordi man ønsker å benytte signifikanstester».

Jeg har delvis reanalysert dataene fra Søegaard og Kan (appendiks 1). To av variablene forfatterne benytter, finnes som rådata i deres tabell 1, sammen med variablene gjennomsnittlig inntekt og andel trangbodde i bydelene. Jeg bruker de sistnevnte som proksier for henholdsvis sosioøkonomisk status og husstandstetthet (forfatterne bruker her to indekser som ikke finnes i deres tabell 1). Denne forskjellen spiller liten rolle, siden det er en høy korrelasjon mellom indeksene og mine proksier (appendiks 1). Tabell 1 i appendikset viser tre bivariate regresjoner mellom smittegrad og de tre uavhengige variablene samt en multippel regresjonsanalyse.

Resultatene for panel A i tabell 1 forteller at en høyere innvandrerandel i bydel samvarierer sterkt positivt med smittegrad for bydel, som vist i figur 1 (appendiks 1). Panel B i tabell 1 viser en negativ samvariasjon mellom smittegrad og gjennomsnittsinntekt (b = −3,36), mens panel C viser en positiv samvariasjon (b = 144,50) mellom smittegrad og andel trangbodde.

Panel D er den multiple regresjonen. Jeg finner omtrent det samme som Søegaard og Kan, men det er flere symptomer på multikollinaritet: (A) Korrelasjonene blant mine uavhengige variabler ligger i intervallet −0,81 til 0,92 (ikke vist), dvs. de er lavere enn hos Søegaard og Kan. Multikollinaritetsproblemet er derfor større hos dem enn hos meg. (B) Standardfeilene er inflaterte i den multiple regresjonen, for innvandrerkoeffisienten øker den fra 2,77 til 7,04, mens den tilsvarende økningen er fra 19,76 til 40,62 for trangboddkoeffisienten. (C) Koeffisienten for trangbodd går fra å være sterkt positiv (144,5) til å bli markant negativ (−36,2), noe som er urimelig. (D) VIF-verdiene, målet på grad av multikollinaritet, indikerer nettopp dette med verdier over 2,5, 5 og 10. Ingen er enige om hva som sikkert definerer multikollinaritet, og alle nevnte terskelverdier benyttes i litteraturen. De fleste vil imidlertid si at terskelen flyttes nedover ved få observasjoner. I sum peker A–D mot multikollinaritet, noe som sammen med de for få observasjonene gjør at vi ikke kan stole på at koeffisientene er korrekte uttrykk for de uavhengige variablenes relative effekter, alt annet likt. Dette rammer i større grad Søegaard og Kans analyse enn min, siden korrelasjonene blant deres uavhengige variabler er større enn blant mine.

Vi bør ikke være redde for å belyse ubehagelige sannheter på sykdoms- og helsefeltet. Søegaard og Kans analyser, og min delvise replikasjon av disse, tilsier at smittegradsvariasjonen for covid-19 blant Oslos bydeler samvarierer med andel innvandrere, sosioøkonomisk status og husstandstetthet. Men ikke mer. Å forsøke å rangere deres relative forklaringskraft er dømt til å mislykkes i en analyse med 15 observasjoner. Innvandrerandel kan være viktigere enn sosioøkonomisk status og husstandstetthet for å forklare forskjellene i smitteandel mellom bydelene i Oslo (6), slik Søegaard og Kans konklusjon mer enn antyder. Men dette trenger vi altså større og bedre data for å kunne belegge enn det forfatterne har.

Litteratur

1. Søegaard EGI, Kan Z. Koronasmitte i Oslos bydeler. Tidsskr Nor Legeforen. DOI: 10.4045/tidsskr.20.1022. https://tidsskriftet.no/2021/03/kort-rapport/koronasmitte-i-oslos-bydeler Lest 26.3.2021.

2. Harrell FE jr. Regression Modeling Strategies. New York, NY: Springer Forlag, 2001.

3. Tabachnick BG, Fidell LS. Using Multivariate Statistics. 5. utg. Boston, MA: Pearson Education Inc, 2007.

4. Allison PD. Multiple Regression. A Primer. Thousand Oaks, CA: Pine Forge Press, 1999.

5. Aaberge R, Laake P. Om statistiske teoriar for tolking av data. Tidsskrift for samfunnsforskning 1984; 25: 156-186.

6. Kjøllesdal M, Indset T, Arnesen T. Covid-19 og innvandrere: Hva sier tallene? Forskersonen 28.3.2021. https://forskersonen.no/covid19-innvandring-kronikk/covid-19-og-innvandrere-hva-sier-tallene/1835255 Lest 28.3.2021.

This article was published more than 12 months ago and we have therefore closed it for new comments.

Published: 25 March 2021

Tidsskr Nor Legeforen 25 March 2021 Vol. 141.

doi:

10.4045/tidsskr.20.1022

Received 13.12.2020, first revision submitted 25.12.2020, accepted 11.3.2021.

Open access CC-BY-ND
Copyright: The author(s)

Published: 25 March 2021

Tidsskr Nor Legeforen 2021 Vol. 141.

doi: 10.4045/tidsskr.20.1022

Received 13.12.2020, first revision submitted 25.12.2020, accepted 11.3.2021.

Open access CC-BY-ND
Copyright: The author(s)

PDF

Print

COVID-19 infections in the districts of Oslo

BACKGROUND

MATERIAL AND METHOD

RESULTS

INTERPRETATION

Main findings

Material and method

Results

Table 1

Table 2

Discussion

Rådata

Er konklusionen pålitelig?

Sterkt korrelerte forklaringsvariabler er problematisk

Kultur og multikollinearitet

Dårlig forskning hindrer effektiv respons på Covid-19

Små data – (for) store konklusjoner?

Recent Articles