Siden GPT-4 representerer et teknologisk paradigmeskifte er det viktig å belyse både muligheter, utfordringer og risiko som er knyttet til denne språkmodellen. Det er viktig med en substansiell analyse rundt hva GPT-4 faktisk er kapabel til og det generelle kunnskapsgrunnlaget viser at den presterer lang bedre enn ChatGPT på de fleste områder (1, 2).
Samtidig er det en begrensning i det nåværende kunnskapsgrunnlaget internasjonalt rundt både ChatGPT og GPT-4 ved at det er tilbakeskuende i sitt vesen, det tar ikke høyde for den norske utdanningskonteksten og det adresserer i liten grad de mer substansielle epistemologiske implikasjonene av slike språkmodeller. Derfor har man gjennomført oppdaterte kunnskapsoppsummeringer rundt hva GPT-4 er kapabel til i norsk kontekst og foretatt en relativ omfattende utprøving/testing av GPT-4 i den norskspråklige utdanningskonteksten. Dette har skjedd gjennom testing og utprøving av GPT-4 over 6 måneder, hvor utprøving av dens kapabilitet på blant annet norske medisineksamener (6. året) og den nasjonale eksamenen innen sykepleie, har vært en del av prosessen (1).
For å sjekke om en del «barnesykdommer» hos GPT-4 er på hell, har man også reanalysert nesten førti temaer fra en stor internasjonal utprøvingsstudie som brukte en tidlig versjon av GPT-4, for å se om den har «modnet» i løpet av åtte måneder. Sentralt her har vært å se på om GPT-4 projiserer fordommer og feilinformasjon til brukerne, siden både ChatGPT og en tidlig versjon av GPT-4 har vist seg å inneha noen kjente kjønns- og klassestereotypier, samt diskriminerende aspekt. Til sammen har alt dette gitt et godt bilde av hva GPT-4 (versjon august 2023) er kapabel til på en rekke områder, samt om den mestrer norskspråklige eksamensoppgaver like godt som engelskspråklige (1, 3).
Det man finner er at den presterer svært bra på både medisineksamener internasjonalt, samt nasjonalt på en av de mest krevende skoleeksamenene på medisinstudiets sjette år (1, 4). De mulige årsakene til dette har man grundig drøftet og analysert i lys av både maskinlæringens vesen, intelligente veiledningssystem og læringsanalyse. Det er likevel grunn til å spørre hvilke praktiske implikasjoner dette får innenfor helseutdanninger? Man ser allerede konturene av dette utspille seg ved at medisinstudent Vegard Slettvoll, UiB anvender ChatGPT og GPT-4 hyppig som en «sparringpartner», en som «ser deg over skulderen» og en «lærerassistent» som er tilgjengelig 24/7 (5). Han anvender den til å simulere caser fra eksamensoppgavesettene og kan dermed få (sammen med andre læringsressurser) god mengdetrening i pasientcaser som forberedelse til eksamen, praksisperioder og etter hvert som nyutdannet lege.
Samtidig har også GPT-4 et forbedringspotensial og det er liten tvil om at dersom GPT-4 kunne bruke kvalitetssikret akademisk litteratur, pasientdata og registerdata som treningsgrunnlag, ville GPT-4 bli enda mer presis og pålitelig. Men dette er et etisk minefelt med en rekke personvernmessige og opphavsrettighetsmessige utfordringer som må avklares i tiden fremover.
Litteratur
1. Krumsvik RJ. Digital kompetanse i KI-samfunnet. Et blikk på hvordan kunstig intelligens preger livene våre. Oslo: Cappelen Damm Akademisk, 2023.
2. Brin D, Sorin V, Vaid A et al. Comparing ChatGPT and GPT-4 performance in USMLE soft skill assessments. Sci Rep 2023; Oct 1; 13(1): 16492. doi: 10.1038/s41598-023-43436-9. PMID: 37779171; PMCID: PMC10543445
3. Bubeck S, Chandrasekaran V, Eldan R et al. Sparks of artificial general intelligence: Early experiments with GPT-4. ArXiv. Preprint 13.4.2023. https://arxiv.org/abs/2303.12712 Lest 21.4.2023
4. Ray PP. ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope. KeAi 2023; 3: 121–154.
5. Det Medisinske Fakultet, UiB. Medisinstudent bruker Chat GPT. YouTube. https://www.youtube.com/watch?v=pSvVEdVuHuo
Maskinlæring i en brytningstid III
Siden GPT-4 representerer et teknologisk paradigmeskifte er det viktig å belyse både muligheter, utfordringer og risiko som er knyttet til denne språkmodellen. Det er viktig med en substansiell analyse rundt hva GPT-4 faktisk er kapabel til og det generelle kunnskapsgrunnlaget viser at den presterer lang bedre enn ChatGPT på de fleste områder (1, 2).
Samtidig er det en begrensning i det nåværende kunnskapsgrunnlaget internasjonalt rundt både ChatGPT og GPT-4 ved at det er tilbakeskuende i sitt vesen, det tar ikke høyde for den norske utdanningskonteksten og det adresserer i liten grad de mer substansielle epistemologiske implikasjonene av slike språkmodeller. Derfor har man gjennomført oppdaterte kunnskapsoppsummeringer rundt hva GPT-4 er kapabel til i norsk kontekst og foretatt en relativ omfattende utprøving/testing av GPT-4 i den norskspråklige utdanningskonteksten. Dette har skjedd gjennom testing og utprøving av GPT-4 over 6 måneder, hvor utprøving av dens kapabilitet på blant annet norske medisineksamener (6. året) og den nasjonale eksamenen innen sykepleie, har vært en del av prosessen (1).
For å sjekke om en del «barnesykdommer» hos GPT-4 er på hell, har man også reanalysert nesten førti temaer fra en stor internasjonal utprøvingsstudie som brukte en tidlig versjon av GPT-4, for å se om den har «modnet» i løpet av åtte måneder. Sentralt her har vært å se på om GPT-4 projiserer fordommer og feilinformasjon til brukerne, siden både ChatGPT og en tidlig versjon av GPT-4 har vist seg å inneha noen kjente kjønns- og klassestereotypier, samt diskriminerende aspekt. Til sammen har alt dette gitt et godt bilde av hva GPT-4 (versjon august 2023) er kapabel til på en rekke områder, samt om den mestrer norskspråklige eksamensoppgaver like godt som engelskspråklige (1, 3).
Det man finner er at den presterer svært bra på både medisineksamener internasjonalt, samt nasjonalt på en av de mest krevende skoleeksamenene på medisinstudiets sjette år (1, 4). De mulige årsakene til dette har man grundig drøftet og analysert i lys av både maskinlæringens vesen, intelligente veiledningssystem og læringsanalyse. Det er likevel grunn til å spørre hvilke praktiske implikasjoner dette får innenfor helseutdanninger? Man ser allerede konturene av dette utspille seg ved at medisinstudent Vegard Slettvoll, UiB anvender ChatGPT og GPT-4 hyppig som en «sparringpartner», en som «ser deg over skulderen» og en «lærerassistent» som er tilgjengelig 24/7 (5). Han anvender den til å simulere caser fra eksamensoppgavesettene og kan dermed få (sammen med andre læringsressurser) god mengdetrening i pasientcaser som forberedelse til eksamen, praksisperioder og etter hvert som nyutdannet lege.
Samtidig har også GPT-4 et forbedringspotensial og det er liten tvil om at dersom GPT-4 kunne bruke kvalitetssikret akademisk litteratur, pasientdata og registerdata som treningsgrunnlag, ville GPT-4 bli enda mer presis og pålitelig. Men dette er et etisk minefelt med en rekke personvernmessige og opphavsrettighetsmessige utfordringer som må avklares i tiden fremover.
Litteratur
1. Krumsvik RJ. Digital kompetanse i KI-samfunnet. Et blikk på hvordan kunstig intelligens preger livene våre. Oslo: Cappelen Damm Akademisk, 2023.
2. Brin D, Sorin V, Vaid A et al. Comparing ChatGPT and GPT-4 performance in USMLE soft skill assessments. Sci Rep 2023; Oct 1; 13(1): 16492. doi: 10.1038/s41598-023-43436-9. PMID: 37779171; PMCID: PMC10543445
3. Bubeck S, Chandrasekaran V, Eldan R et al. Sparks of artificial general intelligence: Early experiments with GPT-4. ArXiv. Preprint 13.4.2023. https://arxiv.org/abs/2303.12712 Lest 21.4.2023
4. Ray PP. ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope. KeAi 2023; 3: 121–154.
5. Det Medisinske Fakultet, UiB. Medisinstudent bruker Chat GPT. YouTube. https://www.youtube.com/watch?v=pSvVEdVuHuo