Stian Lydersen er dr.ing. og professor i medisinsk statistikk ved Regionalt kunnskapssenter for barn og unge – psykisk helse og barnevern (RKBU Midt-Norge) ved Institutt for psykisk helse ved NTNU.
Forfatteren har fylt ut ICMJE-skjemaet og oppgir ingen interessekonflikter.
()
1.
Røislien J, Langaas M. Klynger. Tidsskr Nor Legeforen 2022; 142: 1586. [PubMed][CrossRef]
Kommentarer
( 8 )
Dette kommentarfeltet modereres, men kommentarer blir ikke redaksjonelt behandlet ut over å sikre at de følger retningslinjer for vårt kommentarfelt.
Etter at denne artikkelen ble publisert er vi blitt oppmerksom på at det synes mer vanlig å bruke termene validering og test omvendt av hva vi har gjort. Vi håper imidlertid at det viktigste poenget kom frem, nemlig at man må verifisere modellen med data som er uavhengige og holdt utenfor modellbygging.
Dette dreier seg kun om velkjente matematiske metoder som vi har benyttet lenge før begrepet kunstig intelligens kom på banen. Å finne mønstre i mangfoldige data, enten at data hoper seg opp gruppevis, eller at data følger hverandre kvantitativt, eller å finne forskjeller mellom forutbestemte grupper, er velkjent i medisinsk forskning. Maskinlæring gir ikke noe nytt.
Et problem er nå, som før, å påvise kausalitet. For oss leger er kausalitet helt avgjørende for rasjonelt å kunne forebygge og behandle sykdommer. Et «underliggende mønster» kan ikke uten nærmere vurdering fortolkes som å vise kausalitet.
Dessuten, om kausalitet er verifisert eller ikke, hvis det bygges modeller for å predikere et utfall må effekten kvantifiseres med lokalisasjon og spredningsparametere eller som sensitivitet og spesifisitet. Dette for å vurdere om modellen viser en mulig effekt som bør vektlegges, eller om en effekt er så svak at den uansett kan og bør ignoreres.
For å vurdere kausalitet må en sannsynligvis ty til sann intelligens, og ikke minst til medisinsk og biologisk innsikt. Om man som datakyndig øyner en god idé, er det en god regel å ta med en kyndig lege som kan si noe om det medisinskfaglige behovet.
Rune Johan Krumsvik
Stilling
Professor, dr. philos i pedagogikk, Universitetet i Bergen
Takk til Giskeødegård og Lydersen for en fin gjennomgang av hva maskinlæring er. Og på mange måter kan man si at ikke-veiledet maskinlæring har fått en særlig aktualitet det siste året med den kunstige intelligensutviklingen generelt, samt utviklingen av de store språkmodellene som ChatGPT og GPT-4.
For helsesektoren har det de konsekvensene at selve maskinlæringen har blitt mer avansert og klarer nå å foreta maskinelle dyplæringsbeslutninger selv basert på ikke-veiledet maskinlæring (1). Dette har gitt en rekke interessante forskningsfunn (2). At dette er stadig mer datagenerert, ikke bare brukergenerert, har medført diskusjon omkring de kunnskapsmessige og etiske sidene ved kunstig intelligens og chatboter (3). I min nye bok (3) har jeg gått gjennom dette, kunnskapsgrunnlaget rundt ChatGPT og GPT-4, gjort tentative kunnskapsoppsummeringer, reanalysert en stor studie, samt utført en erfaringsbasert testing/utprøving av språkmodellen GPT-4. Sett under ett er det jeg finner såpass banebrytende at det kan beskrives som et teknologisk paradigmeskifte. For eksempel viser det seg at GPT-4 presterer overraskende bra på en norskspråklig medisineksamen (sjette året) (3), samt på en rekke andre fagområder. Jeg finner også at GPT-4 viser seg å være svært kapabel til å håndtere Ludwig Wittgenstein’s (4) språkspill i nærmest hvilken som helst fagdisiplin, og mye tyder på at språkmodeller av denne enorme størrelsen har foretatt et maskinlæringsmessig «evolusjonsbyks» med sine 1000 milliarder parameter, som gjør den svært generisk og allsidig.
En tentativ hypotese er at den store mengden treningsdata og parameter tvinger nevrale nettverk til å lære generiske og nyttige «nevrale kretser», mens GPT-4-modellenes store størrelse gir nok redundans og mangfold til at de nevrale kretsene kan spesialisere og finjustere seg til spesifikke oppgaver (1). Selv om dette i beste fall er en del av svaret, er det trolig bare en brikke i et stort puslespill om å finne ut hvorfor for språkmodeller som GPT-4 fungerer så oppsiktsvekkende bra som de gjør. Selv om kunnskapsgrunnlaget fremdeles er begrenset, viser mine tentative kunnskapsoppsummeringer, reanalyser og tester/utprøvinger innen helseområdet at dette er noe annet enn en teknologihype både når det gjelder kunstig intelligens generelt, maskinlæring, samt språkmodellenes kapabiliteter. Samtidig ser man at kunstig intelligens er et etisk minefelt som krever årvåkenhet på alle nivåer for at man skal kunne navigere trygt i dette komplekse landskapet.
Litteratur:
1. Bubeck S, Chandrasekaran V, Eldan R et al. Sparks of artificial general intelligence: Early experiments with GPT-4. ArXiv. Preprint 13.4.2023. https://arxiv.org/abs/2303.12712 Lest 21.4.2023
2. Ray PP. ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope. KeAi 2023; 3: 121–154. https://doi.org/10.1016/j.iotcps.2023.04.003
3. Krumsvik RJ. Digital kompetanse i KI-samfunnet. Et blikk på hvordan kunstig intelligens preger livene våre. Oslo: Cappelen Damm Akademisk, 2023.
4. Wittgenstein L. Filosofiske undersøkelser. Oslo: Pax forlag, 1997
RJ Krumsviks kommentar om maskinlæring krever en klargjøring (1): Mener Krumsvik at store språkmodeller (Large language models (LLM)) som ChatGPT og GPY-4 er kommet så langt i utviklingen at vi kan og bør bruke store samfunnsressurser på å få frem ny medisinsk innsikt basert på disse metodene? I så fall vil det støtte Direktoratet for e-helses arbeide med Helseplattformen.
I sin argumentasjon viser Krumsvik til to internasjonale publikasjoner og påstår at den ene viser at språkmodellene kan foreta egne beslutninger og at det allerede har gitt interessante forskerfunn (2, 3). Jeg kan ikke se at formuleringene til Krumsvik kan baseres på de to publikasjonene, publikasjonene beskriver kun fremtidsperspektiver. Under headingen «Healthcare and Medicine» nevner referanse 3 flere mulige fremtidige bruksområder som imidlertid utelukkende består i å bearbeide allerede foreliggende medisinsk innsikt.
Referanse 3 viser forøvrig til en redaksjonell artikkel med tittelen “ChatGPT and Other Large Language Models Are Double-edged Swords” som påpeker at ChatGPT har mange begrensninger, en er at ChatGPT kan formulere tilsynelatende troverdige, men feilaktige svar (4). Videre at ChatGPT tenderer til å følge instruksjoner, snarere enn å bidra til noe nytt. Det påpekes at brukere må nøye formulere spørsmål og også nøye kontrollere premissene som ChatGPT baseres på. Det er altså fortsatt en lang vei frem til at disse modellene kan fungere utenfor vår nøye kontroll.
Artikkelen antyder at behovet for kompetente fagfeller ikke vil bli mindre.
Samme artikkel inneholder også en tvetydighet (4), nemlig at det er viktig for vår profesjon å vite at personer som vil delta i reguleringen av medisinsk praksis kan lage argumenter ved bruk av disse tekstbaserte hjelpemidler.
Litteratur:
1. Krumsvik RJ. Maskinlæring i en brytningstid. Tidsskr Nor Legeforen 2023. https://tidsskriftet.no/2023/11/kommentar/maskinlaering-i-en-brytningstid Lest 5.12.2023
2. Bubeck S, Chandrasekaran V, Eldan R et al. Sparks of artificial general intelligence: Early experiments with GPT-4. ArXiv. Preprint 13.04.2023. https://arxiv.org/abs/2303.12712 Lest 5.12.2023
3. Ray PP. ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope. KeAi 2023; 3: 121-54. https://doi.org/10.1016/j.iotcps.2023.04.003
4. Shen Y, Heacock L, Elias J et al. ChatGPT and other large language models are double-edged swords. Radiology 2023; 307. doi: 10.1148/radiol.230163.
Rune Johan Krumsvik
Stilling
Professor, dr. philos i pedagogikk, Universitetet i Bergen
Høiseths kommentar (1) fortoner seg som en avsporing av det jeg skriver i kommentaren min og dette blir dermed en klassisk stråmannsargumentasjon som bør korrigeres.
Først spør Høiseth følgende: «Mener Krumsvik at store språkmodeller (Large language models (LLM)) som ChatGPT og GPY-4 er kommet så langt i utviklingen at vi kan og bør bruke store samfunnsressurser på å få frem ny medisinsk innsikt basert på disse metodene?» Jeg nevner overhodet ingenting om å bruke store samfunnsressurser til dette i min kommentar, så hvor Høiseth tar dette i fra er jeg svært undrende til. Og han følger opp med nok en avsporing hvor han antyder at jeg støtter Direktoratet for e-helses arbeid med Helseplattformen. Dette skriver jeg heller ingenting om i kommentaren, så hvordan han klarer å relatere dette til min kommentar er jeg også svært undrende til.
Høiseth vet like godt som meg at man i en kommentar bare kan ta med noen svært få referanser, og jeg anbefaler derfor Høiseth å lese boken min, hvor et mer omfattende kunnskapsgrunnlag er presentert og som jeg baserer kommentaren min på (2).
Og de to referansene som Høiseth kritiserer (3, 4), står seg også godt og underbygger de poengene jeg løfter frem i kommentaren min. At Høiseth også her er noe upresis når han refererer til hva han mener jeg skriver i min kommentar, er dessverre her også en utfordring.
Det er også åpenbart at Høiseth ikke ser distinksjonen mellom ChatGPT og GPT-4 (eller GPY-4 som han kaller den), og argumenterer som om disse har samme kapabiliteter. Her er det viktig å forstå at GPT-4 har hele 1000 milliarder parametere, mens ChatGPT har 175 milliarder parametere. Dette gjør at GPT-4 er svært mye kraftigere og har langt større kapasitet enn ChatGPT. Så når den ene referansen jeg viser til har foretatt en av de mest omfattende testene av GPT-4 kapabiliteter (sent i 2022), og jeg har retestet GPT-4 åtte måneder senere (august 2023), så er det dette til sammen som danner basisen for å hevde at språkmodeller som GPT-4 kan beskrives som et teknologisk paradigmeskifte (2, 3). Den andre publikasjonen Høiseth kritiserer foretar en gjennomgang av blant annet kunnskapsgrunnlaget så langt rundt ChatGPT, og selv om ChatGPT nylig feiret sin ettårsdag og har en langt mindre kapasitet enn GPT-4, viser denne artikkelen likevel at ChatGPT på flere områder gjør det oppsiktsvekkende bra. Det skal derfor noe til å overse studiene som nevnes på s. 134 og 136, samt tabell 4 på s. 136, hvor nettopp det jeg skriver i kommentaren min dokumenteres (4).
Til slutt fortsetter Høiseth å være tilbakeskuende og refererer til en lederartikkel om ChatGPT publisert i januar 2023 (5) og de poengene som for nesten ett år siden løftes frem, er både relevante og viktige på det aktuelle tidspunktet. Men her burde Høiseth ha nevnt at siden den tid har den langt kraftigere GPT-4 blitt lansert (mars 2023), det er den jeg i hovedsak skriver om og som viser at de «barnesykdommene» som ChatGPT har slitt med, er i vesentlig grad forbedret i GPT-4.
Litteratur:
1. Høiseth A. Ressursbruk: Kan vi satse på maskinlæring. Tidsskr Nor Legeforen 2023. https://tidsskriftet.no/2023/12/kommentar/ressursbruk-kan-vi-satse-pa-maskinlaering#comment-3031 Lest 14.12.2023
2. Krumsvik RJ. Digital kompetanse i KI-samfunnet. Et blikk på hvordan kunstig intelligens preger livene våre. Oslo: Cappelen Damm Akademisk, 2023.
3. Bubeck S, Chandrasekaran V, Eldan R et al. Sparks of artificial general intelligence: Early experiments with GPT-4. ArXiv. Preprint 13.04.2023. https://arxiv.org/abs/2303.12712 Lest 15.12.2023
4. Ray PP. ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope. KeAi 2023; 3: 121-54. https://doi.org/10.1016/j.iotcps.2023.04.003
5. Shen Y, Heacock L, Elias J et al. ChatGPT and other large language models are double-edged swords. Radiology 2023; 307. doi: 10.1148/radiol.230163.
I en presentasjon av GPT-4 datert mars 2023 (1) påpekes følgende, etter å ha anført 2023 som året for AI-teknologi: «Når det er sagt, lider GPT-4 fortsatt av de samme problemene som tidligere modeller. Å gi feilinformasjon og hallusinasjoner er noen av dem.»
Et annet arbeide, også fra 2023, har vurdert hvilke konsekvenser GPT-4 kan ha innenfor medisin og konkluderer med at, tatt i betraktning mulighetene for å begå feil i en virkelig verden, er det viktig å utvise forsiktighet og forstand, samt å minimere risiko assosiert til bruken (2).
Språkmodellene synes å fungere når det gjelder å finne frem i etablert viten. Eksempel på det er at språkmodellene får graderingen bestått ved å besvare eksamensoppgaver, alt fra kosmologi til medisin, men karakterene synes kun å være middels. Ett arbeide, publisert i 2023, viser at språkmodellen Chat GPT 4.0, etter å ha fått tilgang til vanlige kliniske data, stilte en riktig diagnose kun i 38% av tilfellene, og konkluderer med at «in its current form it does not significantly improve diagnostic yield in primary or secondary care» (3).
I desember 2023 omtaler «The Journal of Continuing Education in Nursing» introduksjonen av elektroniske journaler som høyst frustrerende fordi brukerne ikke ble involvert før etter en lang og kostbar utvikling, og brukerne ble overrasket av søppelet (garbage) som ble produsert. Artikkelen uttrykker et ønske om at man ved inngangen til 2024 kan gå fra GIGO (Garbage In, Garbage Out) og til BIBO (Better Input, Better Outcome) (4).
Problemet knyttet til bruk av kunstig intelligens innenfor helse og medisin er at mange av våre medisinske termer har forskjellig betydning avhengig av den kontekst termen benyttes i. Problemet er å etablere et semantisk samvirke, ofte omtalt som medisinsk ontologi (5).
Jeg tror det kan være riktig at kompetente fagpersoner i større grad enn til nå går inn i en veiledende rolle innenfor videreutvikling av e-helse. En tre år gammel artikkel er neppe helt utdatert med følgende påpekning: «Beslutningen om digitalisering i helsetjenesten opererer ved siden av den tradisjonelle medisinskfaglige verdenen» (6).
Også andre sider ved e-helse krever vår overvåkning, for eksempel bruken av Snomed-CT (7) til å definere begreper. Viktig for oss er det også å skille mellom assosiasjon og kausalitet (8), noe som ikke synes å inngå i maskinlæring.
3. Stoneham S, Livesey A, Cooper H et al. Chat GPT vs Clinician: challenging the diagnostic capabilities of A.I. in dermatology. Clin Exp Dermatol 2023; Nov 19:llad402. doi: 10.1093/ced/llad402. Epub ahead of print. PMID: 37979201. https://pubmed.ncbi.nlm.nih.gov/37979201/
5. Liyanage H, Krause P, de Lusignan S. Using ontologies to improve semantic interoperability in health data. J Innov Health Inform.
2015; 22(2): 309–315. http://dx.doi.org/10.14236/jhi.v22i2.159
6. Prøsch SM. E-helse? Tidsskr Nor Legeforen 2020; 140. doi: 10.4045/tidsskr.20.0874
Siden GPT-4 representerer et teknologisk paradigmeskifte er det viktig å belyse både muligheter, utfordringer og risiko som er knyttet til denne språkmodellen. Det er viktig med en substansiell analyse rundt hva GPT-4 faktisk er kapabel til og det generelle kunnskapsgrunnlaget viser at den presterer lang bedre enn ChatGPT på de fleste områder (1, 2).
Samtidig er det en begrensning i det nåværende kunnskapsgrunnlaget internasjonalt rundt både ChatGPT og GPT-4 ved at det er tilbakeskuende i sitt vesen, det tar ikke høyde for den norske utdanningskonteksten og det adresserer i liten grad de mer substansielle epistemologiske implikasjonene av slike språkmodeller. Derfor har man gjennomført oppdaterte kunnskapsoppsummeringer rundt hva GPT-4 er kapabel til i norsk kontekst og foretatt en relativ omfattende utprøving/testing av GPT-4 i den norskspråklige utdanningskonteksten. Dette har skjedd gjennom testing og utprøving av GPT-4 over 6 måneder, hvor utprøving av dens kapabilitet på blant annet norske medisineksamener (6. året) og den nasjonale eksamenen innen sykepleie, har vært en del av prosessen (1).
For å sjekke om en del «barnesykdommer» hos GPT-4 er på hell, har man også reanalysert nesten førti temaer fra en stor internasjonal utprøvingsstudie som brukte en tidlig versjon av GPT-4, for å se om den har «modnet» i løpet av åtte måneder. Sentralt her har vært å se på om GPT-4 projiserer fordommer og feilinformasjon til brukerne, siden både ChatGPT og en tidlig versjon av GPT-4 har vist seg å inneha noen kjente kjønns- og klassestereotypier, samt diskriminerende aspekt. Til sammen har alt dette gitt et godt bilde av hva GPT-4 (versjon august 2023) er kapabel til på en rekke områder, samt om den mestrer norskspråklige eksamensoppgaver like godt som engelskspråklige (1, 3).
Det man finner er at den presterer svært bra på både medisineksamener internasjonalt, samt nasjonalt på en av de mest krevende skoleeksamenene på medisinstudiets sjette år (1, 4). De mulige årsakene til dette har man grundig drøftet og analysert i lys av både maskinlæringens vesen, intelligente veiledningssystem og læringsanalyse. Det er likevel grunn til å spørre hvilke praktiske implikasjoner dette får innenfor helseutdanninger? Man ser allerede konturene av dette utspille seg ved at medisinstudent Vegard Slettvoll, UiB anvender ChatGPT og GPT-4 hyppig som en «sparringpartner», en som «ser deg over skulderen» og en «lærerassistent» som er tilgjengelig 24/7 (5). Han anvender den til å simulere caser fra eksamensoppgavesettene og kan dermed få (sammen med andre læringsressurser) god mengdetrening i pasientcaser som forberedelse til eksamen, praksisperioder og etter hvert som nyutdannet lege.
Samtidig har også GPT-4 et forbedringspotensial og det er liten tvil om at dersom GPT-4 kunne bruke kvalitetssikret akademisk litteratur, pasientdata og registerdata som treningsgrunnlag, ville GPT-4 bli enda mer presis og pålitelig. Men dette er et etisk minefelt med en rekke personvernmessige og opphavsrettighetsmessige utfordringer som må avklares i tiden fremover.
Litteratur
1. Krumsvik RJ. Digital kompetanse i KI-samfunnet. Et blikk på hvordan kunstig intelligens preger livene våre. Oslo: Cappelen Damm Akademisk, 2023.
2. Brin D, Sorin V, Vaid A et al. Comparing ChatGPT and GPT-4 performance in USMLE soft skill assessments. Sci Rep 2023; Oct 1; 13(1): 16492. doi: 10.1038/s41598-023-43436-9. PMID: 37779171; PMCID: PMC10543445
3. Bubeck S, Chandrasekaran V, Eldan R et al. Sparks of artificial general intelligence: Early experiments with GPT-4. ArXiv. Preprint 13.4.2023. https://arxiv.org/abs/2303.12712 Lest 21.4.2023
4. Ray PP. ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope. KeAi 2023; 3: 121–154.
5. Det Medisinske Fakultet, UiB. Medisinstudent bruker Chat GPT. YouTube. https://www.youtube.com/watch?v=pSvVEdVuHuo
Denne artikkelen ble publisert for mer enn 12 måneder siden, og vi har derfor stengt for nye kommentarer.
Får du ikke vist PDF-filen eller vil lagre filen, kan du høyreklikke på PDF-ikonet. Velg «Lagre mål/fil som..» og hent så opp PDF-filen i for eksempel Acrobat Reader.
Etter at denne artikkelen ble publisert er vi blitt oppmerksom på at det synes mer vanlig å bruke termene validering og test omvendt av hva vi har gjort. Vi håper imidlertid at det viktigste poenget kom frem, nemlig at man må verifisere modellen med data som er uavhengige og holdt utenfor modellbygging.
Takk for en innføring i begrepet maskinlæring. Det er lettere å forstå hva det er, nå innenfor AI.
Dette dreier seg kun om velkjente matematiske metoder som vi har benyttet lenge før begrepet kunstig intelligens kom på banen. Å finne mønstre i mangfoldige data, enten at data hoper seg opp gruppevis, eller at data følger hverandre kvantitativt, eller å finne forskjeller mellom forutbestemte grupper, er velkjent i medisinsk forskning. Maskinlæring gir ikke noe nytt.
Et problem er nå, som før, å påvise kausalitet. For oss leger er kausalitet helt avgjørende for rasjonelt å kunne forebygge og behandle sykdommer. Et «underliggende mønster» kan ikke uten nærmere vurdering fortolkes som å vise kausalitet.
Dessuten, om kausalitet er verifisert eller ikke, hvis det bygges modeller for å predikere et utfall må effekten kvantifiseres med lokalisasjon og spredningsparametere eller som sensitivitet og spesifisitet. Dette for å vurdere om modellen viser en mulig effekt som bør vektlegges, eller om en effekt er så svak at den uansett kan og bør ignoreres.
For å vurdere kausalitet må en sannsynligvis ty til sann intelligens, og ikke minst til medisinsk og biologisk innsikt. Om man som datakyndig øyner en god idé, er det en god regel å ta med en kyndig lege som kan si noe om det medisinskfaglige behovet.
Takk til Giskeødegård og Lydersen for en fin gjennomgang av hva maskinlæring er. Og på mange måter kan man si at ikke-veiledet maskinlæring har fått en særlig aktualitet det siste året med den kunstige intelligensutviklingen generelt, samt utviklingen av de store språkmodellene som ChatGPT og GPT-4.
For helsesektoren har det de konsekvensene at selve maskinlæringen har blitt mer avansert og klarer nå å foreta maskinelle dyplæringsbeslutninger selv basert på ikke-veiledet maskinlæring (1). Dette har gitt en rekke interessante forskningsfunn (2). At dette er stadig mer datagenerert, ikke bare brukergenerert, har medført diskusjon omkring de kunnskapsmessige og etiske sidene ved kunstig intelligens og chatboter (3). I min nye bok (3) har jeg gått gjennom dette, kunnskapsgrunnlaget rundt ChatGPT og GPT-4, gjort tentative kunnskapsoppsummeringer, reanalysert en stor studie, samt utført en erfaringsbasert testing/utprøving av språkmodellen GPT-4. Sett under ett er det jeg finner såpass banebrytende at det kan beskrives som et teknologisk paradigmeskifte. For eksempel viser det seg at GPT-4 presterer overraskende bra på en norskspråklig medisineksamen (sjette året) (3), samt på en rekke andre fagområder. Jeg finner også at GPT-4 viser seg å være svært kapabel til å håndtere Ludwig Wittgenstein’s (4) språkspill i nærmest hvilken som helst fagdisiplin, og mye tyder på at språkmodeller av denne enorme størrelsen har foretatt et maskinlæringsmessig «evolusjonsbyks» med sine 1000 milliarder parameter, som gjør den svært generisk og allsidig.
En tentativ hypotese er at den store mengden treningsdata og parameter tvinger nevrale nettverk til å lære generiske og nyttige «nevrale kretser», mens GPT-4-modellenes store størrelse gir nok redundans og mangfold til at de nevrale kretsene kan spesialisere og finjustere seg til spesifikke oppgaver (1). Selv om dette i beste fall er en del av svaret, er det trolig bare en brikke i et stort puslespill om å finne ut hvorfor for språkmodeller som GPT-4 fungerer så oppsiktsvekkende bra som de gjør. Selv om kunnskapsgrunnlaget fremdeles er begrenset, viser mine tentative kunnskapsoppsummeringer, reanalyser og tester/utprøvinger innen helseområdet at dette er noe annet enn en teknologihype både når det gjelder kunstig intelligens generelt, maskinlæring, samt språkmodellenes kapabiliteter. Samtidig ser man at kunstig intelligens er et etisk minefelt som krever årvåkenhet på alle nivåer for at man skal kunne navigere trygt i dette komplekse landskapet.
Litteratur:
1. Bubeck S, Chandrasekaran V, Eldan R et al. Sparks of artificial general intelligence: Early experiments with GPT-4. ArXiv. Preprint 13.4.2023. https://arxiv.org/abs/2303.12712 Lest 21.4.2023
2. Ray PP. ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope. KeAi 2023; 3: 121–154. https://doi.org/10.1016/j.iotcps.2023.04.003
3. Krumsvik RJ. Digital kompetanse i KI-samfunnet. Et blikk på hvordan kunstig intelligens preger livene våre. Oslo: Cappelen Damm Akademisk, 2023.
4. Wittgenstein L. Filosofiske undersøkelser. Oslo: Pax forlag, 1997
RJ Krumsviks kommentar om maskinlæring krever en klargjøring (1): Mener Krumsvik at store språkmodeller (Large language models (LLM)) som ChatGPT og GPY-4 er kommet så langt i utviklingen at vi kan og bør bruke store samfunnsressurser på å få frem ny medisinsk innsikt basert på disse metodene? I så fall vil det støtte Direktoratet for e-helses arbeide med Helseplattformen.
I sin argumentasjon viser Krumsvik til to internasjonale publikasjoner og påstår at den ene viser at språkmodellene kan foreta egne beslutninger og at det allerede har gitt interessante forskerfunn (2, 3). Jeg kan ikke se at formuleringene til Krumsvik kan baseres på de to publikasjonene, publikasjonene beskriver kun fremtidsperspektiver. Under headingen «Healthcare and Medicine» nevner referanse 3 flere mulige fremtidige bruksområder som imidlertid utelukkende består i å bearbeide allerede foreliggende medisinsk innsikt.
Referanse 3 viser forøvrig til en redaksjonell artikkel med tittelen “ChatGPT and Other Large Language Models Are Double-edged Swords” som påpeker at ChatGPT har mange begrensninger, en er at ChatGPT kan formulere tilsynelatende troverdige, men feilaktige svar (4). Videre at ChatGPT tenderer til å følge instruksjoner, snarere enn å bidra til noe nytt. Det påpekes at brukere må nøye formulere spørsmål og også nøye kontrollere premissene som ChatGPT baseres på. Det er altså fortsatt en lang vei frem til at disse modellene kan fungere utenfor vår nøye kontroll.
Artikkelen antyder at behovet for kompetente fagfeller ikke vil bli mindre.
Samme artikkel inneholder også en tvetydighet (4), nemlig at det er viktig for vår profesjon å vite at personer som vil delta i reguleringen av medisinsk praksis kan lage argumenter ved bruk av disse tekstbaserte hjelpemidler.
Litteratur:
1. Krumsvik RJ. Maskinlæring i en brytningstid. Tidsskr Nor Legeforen 2023. https://tidsskriftet.no/2023/11/kommentar/maskinlaering-i-en-brytningstid Lest 5.12.2023
2. Bubeck S, Chandrasekaran V, Eldan R et al. Sparks of artificial general intelligence: Early experiments with GPT-4. ArXiv. Preprint 13.04.2023. https://arxiv.org/abs/2303.12712 Lest 5.12.2023
3. Ray PP. ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope. KeAi 2023; 3: 121-54. https://doi.org/10.1016/j.iotcps.2023.04.003
4. Shen Y, Heacock L, Elias J et al. ChatGPT and other large language models are double-edged swords. Radiology 2023; 307. doi: 10.1148/radiol.230163.
Høiseths kommentar (1) fortoner seg som en avsporing av det jeg skriver i kommentaren min og dette blir dermed en klassisk stråmannsargumentasjon som bør korrigeres.
Først spør Høiseth følgende: «Mener Krumsvik at store språkmodeller (Large language models (LLM)) som ChatGPT og GPY-4 er kommet så langt i utviklingen at vi kan og bør bruke store samfunnsressurser på å få frem ny medisinsk innsikt basert på disse metodene?» Jeg nevner overhodet ingenting om å bruke store samfunnsressurser til dette i min kommentar, så hvor Høiseth tar dette i fra er jeg svært undrende til. Og han følger opp med nok en avsporing hvor han antyder at jeg støtter Direktoratet for e-helses arbeid med Helseplattformen. Dette skriver jeg heller ingenting om i kommentaren, så hvordan han klarer å relatere dette til min kommentar er jeg også svært undrende til.
Høiseth vet like godt som meg at man i en kommentar bare kan ta med noen svært få referanser, og jeg anbefaler derfor Høiseth å lese boken min, hvor et mer omfattende kunnskapsgrunnlag er presentert og som jeg baserer kommentaren min på (2).
Og de to referansene som Høiseth kritiserer (3, 4), står seg også godt og underbygger de poengene jeg løfter frem i kommentaren min. At Høiseth også her er noe upresis når han refererer til hva han mener jeg skriver i min kommentar, er dessverre her også en utfordring.
Det er også åpenbart at Høiseth ikke ser distinksjonen mellom ChatGPT og GPT-4 (eller GPY-4 som han kaller den), og argumenterer som om disse har samme kapabiliteter. Her er det viktig å forstå at GPT-4 har hele 1000 milliarder parametere, mens ChatGPT har 175 milliarder parametere. Dette gjør at GPT-4 er svært mye kraftigere og har langt større kapasitet enn ChatGPT. Så når den ene referansen jeg viser til har foretatt en av de mest omfattende testene av GPT-4 kapabiliteter (sent i 2022), og jeg har retestet GPT-4 åtte måneder senere (august 2023), så er det dette til sammen som danner basisen for å hevde at språkmodeller som GPT-4 kan beskrives som et teknologisk paradigmeskifte (2, 3). Den andre publikasjonen Høiseth kritiserer foretar en gjennomgang av blant annet kunnskapsgrunnlaget så langt rundt ChatGPT, og selv om ChatGPT nylig feiret sin ettårsdag og har en langt mindre kapasitet enn GPT-4, viser denne artikkelen likevel at ChatGPT på flere områder gjør det oppsiktsvekkende bra. Det skal derfor noe til å overse studiene som nevnes på s. 134 og 136, samt tabell 4 på s. 136, hvor nettopp det jeg skriver i kommentaren min dokumenteres (4).
Til slutt fortsetter Høiseth å være tilbakeskuende og refererer til en lederartikkel om ChatGPT publisert i januar 2023 (5) og de poengene som for nesten ett år siden løftes frem, er både relevante og viktige på det aktuelle tidspunktet. Men her burde Høiseth ha nevnt at siden den tid har den langt kraftigere GPT-4 blitt lansert (mars 2023), det er den jeg i hovedsak skriver om og som viser at de «barnesykdommene» som ChatGPT har slitt med, er i vesentlig grad forbedret i GPT-4.
Litteratur:
1. Høiseth A. Ressursbruk: Kan vi satse på maskinlæring. Tidsskr Nor Legeforen 2023. https://tidsskriftet.no/2023/12/kommentar/ressursbruk-kan-vi-satse-pa-maskinlaering#comment-3031 Lest 14.12.2023
2. Krumsvik RJ. Digital kompetanse i KI-samfunnet. Et blikk på hvordan kunstig intelligens preger livene våre. Oslo: Cappelen Damm Akademisk, 2023.
3. Bubeck S, Chandrasekaran V, Eldan R et al. Sparks of artificial general intelligence: Early experiments with GPT-4. ArXiv. Preprint 13.04.2023. https://arxiv.org/abs/2303.12712 Lest 15.12.2023
4. Ray PP. ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope. KeAi 2023; 3: 121-54. https://doi.org/10.1016/j.iotcps.2023.04.003
5. Shen Y, Heacock L, Elias J et al. ChatGPT and other large language models are double-edged swords. Radiology 2023; 307. doi: 10.1148/radiol.230163.
I en presentasjon av GPT-4 datert mars 2023 (1) påpekes følgende, etter å ha anført 2023 som året for AI-teknologi: «Når det er sagt, lider GPT-4 fortsatt av de samme problemene som tidligere modeller. Å gi feilinformasjon og hallusinasjoner er noen av dem.»
Et annet arbeide, også fra 2023, har vurdert hvilke konsekvenser GPT-4 kan ha innenfor medisin og konkluderer med at, tatt i betraktning mulighetene for å begå feil i en virkelig verden, er det viktig å utvise forsiktighet og forstand, samt å minimere risiko assosiert til bruken (2).
Språkmodellene synes å fungere når det gjelder å finne frem i etablert viten. Eksempel på det er at språkmodellene får graderingen bestått ved å besvare eksamensoppgaver, alt fra kosmologi til medisin, men karakterene synes kun å være middels. Ett arbeide, publisert i 2023, viser at språkmodellen Chat GPT 4.0, etter å ha fått tilgang til vanlige kliniske data, stilte en riktig diagnose kun i 38% av tilfellene, og konkluderer med at «in its current form it does not significantly improve diagnostic yield in primary or secondary care» (3).
I desember 2023 omtaler «The Journal of Continuing Education in Nursing» introduksjonen av elektroniske journaler som høyst frustrerende fordi brukerne ikke ble involvert før etter en lang og kostbar utvikling, og brukerne ble overrasket av søppelet (garbage) som ble produsert. Artikkelen uttrykker et ønske om at man ved inngangen til 2024 kan gå fra GIGO (Garbage In, Garbage Out) og til BIBO (Better Input, Better Outcome) (4).
Problemet knyttet til bruk av kunstig intelligens innenfor helse og medisin er at mange av våre medisinske termer har forskjellig betydning avhengig av den kontekst termen benyttes i. Problemet er å etablere et semantisk samvirke, ofte omtalt som medisinsk ontologi (5).
Jeg tror det kan være riktig at kompetente fagpersoner i større grad enn til nå går inn i en veiledende rolle innenfor videreutvikling av e-helse. En tre år gammel artikkel er neppe helt utdatert med følgende påpekning: «Beslutningen om digitalisering i helsetjenesten opererer ved siden av den tradisjonelle medisinskfaglige verdenen» (6).
Også andre sider ved e-helse krever vår overvåkning, for eksempel bruken av Snomed-CT (7) til å definere begreper. Viktig for oss er det også å skille mellom assosiasjon og kausalitet (8), noe som ikke synes å inngå i maskinlæring.
Litteratur:
1. Khan T. The Release of GPT-4 and the Movement of the Tech Industry with AI. TechAcute 17.3.2023. https://techacute.com/the-release-of-gpt-4-and-the-movement-of-the-tech-industry-with-ai/Lest 4.1.2024.
2. Nori H, King N, Mayer S et al. Capabilities of GPT-4 on Medical Challenge Problems. arXiv:2303.13375 [cs.CL] https://doi.org/10.48550/arXiv.2303.13375
3. Stoneham S, Livesey A, Cooper H et al. Chat GPT vs Clinician: challenging the diagnostic capabilities of A.I. in dermatology. Clin Exp Dermatol 2023; Nov 19:llad402. doi: 10.1093/ced/llad402. Epub ahead of print. PMID: 37979201. https://pubmed.ncbi.nlm.nih.gov/37979201/
4. Yoder-Wise PS. From GIGO to BIBO. The Journal of Continuing Education in Nursing 2023; 54(12): 543 https://doi.org/10.3928/00220124-20231113-01
5. Liyanage H, Krause P, de Lusignan S. Using ontologies to improve semantic interoperability in health data. J Innov Health Inform.
2015; 22(2): 309–315. http://dx.doi.org/10.14236/jhi.v22i2.159
6. Prøsch SM. E-helse? Tidsskr Nor Legeforen 2020; 140. doi: 10.4045/tidsskr.20.0874
7. Ehelse.no. SNOMED CT. https://www.ehelse.no/kodeverk-og-terminologi/SNOMED-CT Lest 4.1.2024.
8. Stensrud MJ, Aalen OO. Hva kan vi si om kausalitet? Tidsskr Nor Legeforen 2015; 135. doi: 10.4045/tidsskr.15.0347
Siden GPT-4 representerer et teknologisk paradigmeskifte er det viktig å belyse både muligheter, utfordringer og risiko som er knyttet til denne språkmodellen. Det er viktig med en substansiell analyse rundt hva GPT-4 faktisk er kapabel til og det generelle kunnskapsgrunnlaget viser at den presterer lang bedre enn ChatGPT på de fleste områder (1, 2).
Samtidig er det en begrensning i det nåværende kunnskapsgrunnlaget internasjonalt rundt både ChatGPT og GPT-4 ved at det er tilbakeskuende i sitt vesen, det tar ikke høyde for den norske utdanningskonteksten og det adresserer i liten grad de mer substansielle epistemologiske implikasjonene av slike språkmodeller. Derfor har man gjennomført oppdaterte kunnskapsoppsummeringer rundt hva GPT-4 er kapabel til i norsk kontekst og foretatt en relativ omfattende utprøving/testing av GPT-4 i den norskspråklige utdanningskonteksten. Dette har skjedd gjennom testing og utprøving av GPT-4 over 6 måneder, hvor utprøving av dens kapabilitet på blant annet norske medisineksamener (6. året) og den nasjonale eksamenen innen sykepleie, har vært en del av prosessen (1).
For å sjekke om en del «barnesykdommer» hos GPT-4 er på hell, har man også reanalysert nesten førti temaer fra en stor internasjonal utprøvingsstudie som brukte en tidlig versjon av GPT-4, for å se om den har «modnet» i løpet av åtte måneder. Sentralt her har vært å se på om GPT-4 projiserer fordommer og feilinformasjon til brukerne, siden både ChatGPT og en tidlig versjon av GPT-4 har vist seg å inneha noen kjente kjønns- og klassestereotypier, samt diskriminerende aspekt. Til sammen har alt dette gitt et godt bilde av hva GPT-4 (versjon august 2023) er kapabel til på en rekke områder, samt om den mestrer norskspråklige eksamensoppgaver like godt som engelskspråklige (1, 3).
Det man finner er at den presterer svært bra på både medisineksamener internasjonalt, samt nasjonalt på en av de mest krevende skoleeksamenene på medisinstudiets sjette år (1, 4). De mulige årsakene til dette har man grundig drøftet og analysert i lys av både maskinlæringens vesen, intelligente veiledningssystem og læringsanalyse. Det er likevel grunn til å spørre hvilke praktiske implikasjoner dette får innenfor helseutdanninger? Man ser allerede konturene av dette utspille seg ved at medisinstudent Vegard Slettvoll, UiB anvender ChatGPT og GPT-4 hyppig som en «sparringpartner», en som «ser deg over skulderen» og en «lærerassistent» som er tilgjengelig 24/7 (5). Han anvender den til å simulere caser fra eksamensoppgavesettene og kan dermed få (sammen med andre læringsressurser) god mengdetrening i pasientcaser som forberedelse til eksamen, praksisperioder og etter hvert som nyutdannet lege.
Samtidig har også GPT-4 et forbedringspotensial og det er liten tvil om at dersom GPT-4 kunne bruke kvalitetssikret akademisk litteratur, pasientdata og registerdata som treningsgrunnlag, ville GPT-4 bli enda mer presis og pålitelig. Men dette er et etisk minefelt med en rekke personvernmessige og opphavsrettighetsmessige utfordringer som må avklares i tiden fremover.
Litteratur
1. Krumsvik RJ. Digital kompetanse i KI-samfunnet. Et blikk på hvordan kunstig intelligens preger livene våre. Oslo: Cappelen Damm Akademisk, 2023.
2. Brin D, Sorin V, Vaid A et al. Comparing ChatGPT and GPT-4 performance in USMLE soft skill assessments. Sci Rep 2023; Oct 1; 13(1): 16492. doi: 10.1038/s41598-023-43436-9. PMID: 37779171; PMCID: PMC10543445
3. Bubeck S, Chandrasekaran V, Eldan R et al. Sparks of artificial general intelligence: Early experiments with GPT-4. ArXiv. Preprint 13.4.2023. https://arxiv.org/abs/2303.12712 Lest 21.4.2023
4. Ray PP. ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope. KeAi 2023; 3: 121–154.
5. Det Medisinske Fakultet, UiB. Medisinstudent bruker Chat GPT. YouTube. https://www.youtube.com/watch?v=pSvVEdVuHuo