Innsikt i ustrukturerte data
Helsearkivregisteret har strukturerte metadata, dvs. lett søkbare data som overordnet beskriver innholdet i hver pasientjournal, f.eks. personnummer, dødsdato og ICD-koder. I tillegg inneholder registeret store mengder ustrukturerte data i form av fritekst i pasientjournaler. Slike data kan være tidkrevende å finne frem i. Hvis en forsker ønsker spesifikke data som ikke inngår i metadataene, kreves det vanligvis manuell leting.
Helsearkivregisteret har derfor inngått et innovasjonspartnerskap med Anzyz Technologies og videreutvikler et forskningsstøtteverktøy basert på en språkalgoritme (Natural Language Processing) som åpner nye muligheter for å søke i ustrukturerte data. Den kunstige intelligensen vil gi enklere og mer presis fremfinning av både kvantitativt og kvalitativt innhold som forskere søker etter. For eksempel kan man finne frem til hvilke journaler som inneholder klokketester, som en forsker nå søker etter som grunnlag for en prediksjonsmodell for demens.
Våren 2022 ble forskningsstøtteverktøyet testet og evaluert for sin evne til å identifisere obduksjonsrapporter. 86 % av treffene var faktiske obduksjonsrapporter, og de falskt positive besto i all hovedsak av standarddokumenter som det bør være mulig å luke vekk. Det var ingen falskt negative obduksjonsrapporter. Verktøyet lyktes i å identifisere like mye som ved manuell leting, bare mye raskere (3). Forskningsstøtteverktøyet videreutvikles og testes i prosjekt høsten 2022, og rundt årsskiftet vil det være klart til bruk.
Kunstig intelligens kan også bedre personvernet. Slike verktøy reduserer behovet for manuell gjennomgang av journaler og dermed unødvendig eksponering av helsedata. Det kan også spare ressurser ved utlevering og mottak av data. Forskere kan søke om data fra Helsearkivregisteret på helsedata.no. Utlevering av personidentifiserbare helseopplysninger krever at nødvendige godkjenninger er på plass. Enkeltdokumenter med spesifikt innhold kan hentes ut og enkelt anonymiseres for utlevering til forskning, i motsetning til anonymisering av hele pasientjournaler, som i praksis er umulig. Kunstig intelligens kan også gjøre det mulig å generere retrospektive kontrollgrupper til planlagte forskningsprosjekter.
Helsearkivregisteret har store mengder data som inneholder over 100 år med erfaring og kunnskap. Ikke bare inneholder registeret andre typer data enn det som tradisjonelt rapporteres til helseregistre, men også all den finmaskede informasjonen som finnes i pasientjournalene. Kunstig intelligens øker tilgjengeligheten til det rike datamaterialet slik at det kan brukes på nye måter.