Ytring

Kan ChatGPT få godkänt på en fysikexamen?

ChatGPT har sedan introduktionen skapat en debatt om dess potential för bruk i undervisning. Frågan är om den kan få godkänt på en fysik-examen. Jag visar att det är teoretiskt möjligt men inte praktiskt på en skriftlig examen. Dock erbjuder ChatGPT möjligheter att kunna användas som ett hjälpmedel i examenskonstruktion och i studenters arbete till examen. Men samtidigt reser detta några viktiga frågor om utbildning och examination.

- Kan vi försvara den utbildning och examination som visats vara möjlig att klaras av en språkmodell som ChatGPT frågar Jonas R. Persson.

Foto: NTNU

Jonas R. Persson Jonas R. Persson Jonas R. Persson Førsteamanuensis, Institutt for fysikk ved NTNU

Publisert 26.10.2023 - 10:23 Sist oppdatert 26.10.2023 - 10:27

År 2022 lanserade OpenAI ChatGPT-3.5 (Generative Pre-Trained Transformer) vilket har väckt en intensiv debatt om dess potentiella påverkan på utbildning och examination både på gymnasial och universitetsnivå. Denna diskussion är särskilt motiverad med tanke på OpenAIs tekniska rapport om GPT-4 som visade att den presterare på samma nivå som de 10% bästa mänskliga examinanderna på en simulerad advokatexamen. OpenAI hävdar att GPT-4 har förmågan att lösa svåra problem med högre noggrannhet, tack vare dess breda allmänna kunskap och problemlösningsförmåga. Det finns redan artiklar som (Rudolph et al. 2023) har bidragit till den övergripande diskussionen genom att ge en tidig recension och rekommendationer till studenter, undervisare och universitet om lämpliga strategier för bruk av ChatGPT.

Innrømte KI-juks: Enda en student utestengt fra NTNU

Det bör noteras att ChatGPT bygger på ett neuralt nätverk som genererar resultat baserat på sannolikheter från inmatad information, vilket ofta kallas för en "Large Language Model (LLG)". Det innebär att ChatGPT är främst inriktad mot textbaserade tillämpningar och inte har faktisk kognition bakom de producerade svaren; de är helt beroende av den information som den tränats på. Följaktligen kan ChatGPTs påverkan vara särskilt tydlig inom textbaserade vetenskaper där den fått uppläring. Däremot uppstår frågor om hur ChatGPT presterar inom ämnen som fysik, där förmågan att lösa problem värderas högt. Exempelvis kan man fråga sig om ChatGPT kan klara en fysikexamen på universitetsnivå. Detta är av intresse då fysik i huvudsak inte handlar om att ge textbaserade svar utan handlar mer om problemlösning och att applicera fysiska principer på ett matematiskt sätt. Det vill säga att en ren språkmodell inte borde ha möjlighet att producera resultat som är giltiga i ett fysikperspektiv. Dock kan den ha tränats på utarbetade lösningar och kan generera svar som är korrekta.

Det har i två nyliga studier, en för Vietnamiska Nationella High School examen , och i en fysikkurs, undersökts hur en AI som ChatGPT klarar dessa. Båda visade att det var fullt möjligt.

Det är viktigt att notera att fysikkursen baserades på användning av mer formativa metoder som hemuppgifter, "klicker"-frågor, en mitt-terminsexamen och en slutlig examen.

Även om frågorna i den Vietnamiska examen motsvarar frågor på gymnasienivå och examinationen i fysikkursen skiljer sig från examinationsformerna i Skandinavien är dessa resultat inte direkt överförbara till en skandinavisk kontext, där formativ värdering är mer sällsynt. Frågan blir då om en mer summativ examen i form av en slutexamen, gör det svårare för ChatGTP att få godkänt.

För att undersöka detta har jag använt ChatGPT-3.5 (version July 20, 2023 och May 24, 2023) för att undersöka om den kan klara en fysikexamen. När jag förfrågade ChatGPT svarade den: När man ställer denna fråga till ChatGPT blir svaret: "Som en AI-språkmodell utan medvetande eller förståelse på samma nivå som en människa, kan jag inte genomföra en fysikexamen på universitetsnivå eller någon annan form av examen. Jag har inte förmågan att lösa komplexa uppgifter eller tillämpa fysiska principer på samma sätt som människor.

Vad jag kan göra är att ge information, förklara fysikaliska koncept och svara på fysikrelaterade frågor baserat på den kunskap jag har tränats med. Jag kan även hjälpa till med att lösa enklare problem inom fysik, men min prestation och förmåga har sina begränsningar.

Fysikexamen på universitetsnivå kräver djup förståelse, analytiskt tänkande och förmåga att tillämpa koncepten på avancerade problem. Det är utmaningar som en AI som jag ännu inte kan möta på samma nivå som en kvalificerad mänsklig student."

Då ChatGPT har en sannolikhetsbaserad generering av svar, innebär det att den kan generera olika svar för identiska inmatningar. Så samma fråga matades in flera gånger och se om svaren var konsekventa och om den kunde ge rätt svar vid upprepade försök.

Nå har NTNU KI-chat, men studentene får ikke

Den simulerade examen som jag använde var baserad på en skriftlig examen som gavs under den första fysikkursen i en fysikutbildning och omfattade ämnen som mekanik (kinematik och dynamik), grundläggande vågrörelselära och relativitetsteori. Examen bestod av 40 flervalsfrågor med 5 svarsalternativ. För att bli godkänd krävdes 41% rätta svar (ca 17 rätta svar). Medelbetyget på examen för studenterna var ett D (53-64%).

Eftersom fysikexamina ofta inkluderar figurer, syntolkades dessa för att ChatGPT skulle kunna lösa uppgifterna relaterade till respektive figur. Uppgifter som byggde på varandra gavs samtidigt i serie. Frågorna formulerades så att ChatGPT skulle ge svaret som ett av de givna svarsalternativen (A-E). Genom chat-funktionen möjliggjordes en dialogliknande diskussion, vilket gjorde det möjligt att se resonemanget och stegen i beräkningarna när sådana utfördes.

Vid första inmatningen gavs rätt svar för 15 frågor med 24 maj-versionen och 18 frågor med 20 juli-versionen. Vid på följande inmatningar gavs både nya rätta och felaktiga svar. Om man endast räknar med det första tillfället skulle ChatGPT (24 maj) få 37,5% och därmed inte bli godkänd, medan ChatGPT (20 juli) skulle få 45% och därmed bli godkänd.

Om man i stället summerar alla rätta svar, vilket har en sannolikhet att inträffa med slumpvis genererade svar, visar det sig att ChatGPT (24 maj) skulle få 25 rätta svar eller 62,5%, medan ChatGPT (20 juli) skulle få 22 rätta svar eller 55%. Båda versionerna skulle därmed kunna få betyget D.

Detta indikerar att en språkmodell-AI som ChatGPT kan få godkänt på en fysikexamen utan att ha någon reell förståelse för fysiska principer. Detta kan förklaras av flera faktorer. För det första använder ChatGPT en databas med inlärd information och sannolikhetsberäkningar för att generera svar, vilket gör att det är möjligt för den att hitta liknande frågor och svar om formuleringarna liknar de som finns där. För det andra kan examensuppgifterna vara utformade så att de inte testar en högre grad av komplex problemlösning, där flera fysiska principer och ekvationer måste användas på ett kreativt sätt. Frågor som testar mer komplex problemlösning är troligtvis inte vanligt det inlärda materialet än.

Även om studenter inte kan använda ChatGPT under en skriftlig examen visar studien på en svaghet i validiteten för tolkningen av resultatet på examen. Med andra ord, vad är det examen skall mäta och mäter examen det som den skall göra? Resultatet på en examen tolkas så att det omvandlas till ett betyg, som bör vara kopplat till lärandemål eller någon form av uppställda kriterier. Om ChatGPT kan få godkänt innebär detta att studenter potentiellt kan få godkänt utan en verklig förståelse av kursinnehållet. Då ChatGPT:s problemlösningsstrategi liknar en receptliknande metod, där man listar givna storheter, den sökta storheten och försöker hitta en passande ekvation med dessa storheter för att beräkna svaret, betyder detta att man får möjlighet att utvärdera graden av komplexitet när det gäller problemlösning i en examen med hjälp av ChatGPT. Strategin som ChatGPT använder fungerar bra för enklare uppgifter där en formel räcker, men fungerar inte när det krävs användning av flera fysiska principer (flera ekvationer) behövs eller när irrelevant information inkluderas i uppgiften.

Detta innebär att det är möjligt att evaluera hur både förståelse och problemlösningsförmåga testas på en examen genom att använda ChatGPT. Med andra ord om uppgifterna som ges har en lämplig nivå av komplexitet och bedöma utfallet på en examen som helhet för en simulerad student med begränsad förståelse. Med andra ord kan det vara möjligt att öka validiteten för en examen för dessa kriterier.

Slik bruker studentane KI under eksamenstida

Slutsatsen man kan dra är att teoretiskt sett skulle det vara möjligt för ChatGPT att få godkänt på en fysikexamen. Jag kan visa att AI:n kan ge svar som ligger nära eller över gränsen för godkänt betyg på en fysikexamen. Dock är det inte sannolikt att ChatGPT faktiskt kommer att användas som ett hjälpmedel eller för fusk under en skriftlig examen. Det som är viktigare är att ChatGPT kan användas som ett hjälpmedel vid uppgiftskonstruktion, där den kan fungera som en simulerad student för att få en uppfattning om vilka svar som kan förväntas ges utan en djupare kognitiv förmåga. ChatGPT kan vara ett användbart verktyg för att utvärdera och justera examina för att säkerställa en passande nivå av komplexitet och svårighetsgrad med avseende på förståelse och problemlösning.

Även studenter kan bruka ChatGTP genom att låta AI generera ett svar och sedan hitta eventuella fel i dess resonemang, något som testar deras egen förståelse på ett bra sätt.

Sammanfattningsvis har jag visat på ChatGPT:s möjligheter och begränsningar för en fysikexamen, men det finns ingen anledning till oro för att den kommer att användas för fusk under en skriftlig sals-examen. Teknologin kan dock vara användbar som ett hjälpmedel i undervisning och uppgiftskonstruktion, där den kan ge insikter om möjliga svar och komplexiteten i uppgifterna.

Även om bruk av AIs under en skriftlig skolexamen är minimal så reser detta några viktiga frågor. Kan vi försvara den utbildning och examination som visats vara möjlig att klaras av en språkmodell som ChatGPT? Är det så att vi inte lär och testar studenterna på ”rätt” färdigheter? Hur är egentligen examina utformade och vad testar de? Hur kommer det att se ut i framtiden när AI blir mer avancerad? Kommer de studenter som vi utexaminerar att utföra de arbeten som vi har utbildat de för eller blir de överflödiga. Vi ställs både inför långsiktiga strategiska frågor och mer kortsiktiga som måste besvaras.

Jag har valt att inte ange vilken examen jag har använt för att skydda anonymiteten hos examinatorn. Examensuppgifterna och konversationerna med ChatGPT kan dock erhållas från mig.

Følg UA på Facebook og Instagram.

Les flere ytringer her.