I Khrono (11.12.21) har ni prorektorer og studentledere gjort felles front mot to-sensorordningen ved å hevde at den uttrykker en «mistillit mot det kontinuerlige arbeidet med studiekvalitet», og vil være et hinder «til å forbedre læringsprosessene». For en utdanningsforsker vekker det undring at konklusjonene blir trukket lenge før nyordningen er satt ut i livet. Hvor ellers finner en aksept for en slik fryktbasert spådomsiver før det foreligger forskningsbaserte analyser?
Dekan Olav Bolland ved NTNU følger opp i Khrono (16.12.21) ved å påstå at krav om to sensorer må revurderes ut fra antatt flere negative konsekvenser. Han mener pålegget om to sensorer vil bremse bruken av vurderingsformer som «gir det beste læringsutbyttet», spesielt «underveisevalueringer, mappevurderinger og prosjektoppgaver». Bolland spår også økt bruk av bestått/ikke bestått med to-sensorordning. Dette er påstander og antakelser som motiverer til opplysning om saksfeltet.
Vurdering i høyere utdanning ivaretar to ulike funksjoner, oftest omtalt som summativ og formativ vurdering. Summativ vurdering er, som ordet indikerer, oppsummerende og blir oftest gjennomført ved slutten av et studieløp. Formativ vurdering er tiltak for læringsstøtte, som oftest blir benyttet underveis i semestret. Etter kvalitetsreformen har det imidlertid blitt vanlig å kombinere formativ og summativ vurdering for å stimulere til jevnere og mindre skippertakspreget læring. Eksempler er økt bruk av midtsemesterprøver, delvurderinger, prosjektoppgaver og mappevurdering. Studentene får delkarakterer eller prosentpoeng, som så blir regnet med ved fastsetting av sluttkarakter i emnet.
Formativ vurdering som læringstiltak
Formativ vurdering kan imidlertid også benyttes som læringstiltak uavhengig av summativ vurdering. To-sensorordningen er derfor ikke til hinder for underveisvurdering for læring. Eksempler på dette er bruken av obligatoriske arbeidskrav i form av øvinger og innleveringer. Dette er læringstiltak der det ikke gis tellende delkarakterer. Arbeidskrav får status som godkjent eller ikke godkjent som vilkår for å gå opp til eksamen. Her er formative og summative funksjoner skilt fra hverandre.
Summativ vurdering benytter to vurderingsuttrykk; bestått/ikke bestått eller graderte karakterer. Bestått/ikke bestått blir blant annet brukt i medisinstudier, men da med en relativt høy grense for bestått, for eksempel 60 prosent. I flere emner er ordningen mindre aktuell på grunn av risiko for høy strykprosent ved krav tilsvarende C for bestått. Ønsket om rettferdig vurdering blir også satt på prøve med krav til bestått tilsvarende C, D eller E. Motiverte og ambisiøse studenter vil finne dette demotiverende, og ut fra et studiekvalitetsperspektiv er en slik utvikling selvsagt uønsket.
En mappe, eller portefølje, er i studiesammenheng en samling arbeid som kan dokumentere innsats, framgang og resultater. I tråd med dette blir bruken av mapper omtalt som utviklingsmappe eller presentasjonsmappe. Løpende tilbakemelding på en utviklingsmappe er en oppgave for underviser. Arbeidet krever ingen sensor fordi hensikten er av formativ art. Presentasjonsmappen blir derimot gjenstand for vurdering fordi utfordringen da er av summativ art. Bruken av mappe- eller porteføljebasert vurdering og prosjektoppgaver kan derfor fortsette under to-sensorordningen, bare med den forskjell at sensor ikke deltar underveis, men vurderer mappen samlet til slutt.
Dilemmaer ved underveisvurdering
Intuitivt kan en tenke at kombinasjonen av formativ og summativ vurdering er fornuftig ved å motivere til fortløpende innsats. Erfaring viser imidlertid at slike løsninger ikke alltid fungerer til kandidatenes gunst. Læring krever modning og oversikt, som i noen emner ikke kan forventes etter kort tid. Summativ bruk av underveisvurderinger rører dessuten ved vurderingsfaglige spørsmål av interesse. På nettsiden assessmentfutures.com skriver internasjonale vurderingsforskere følgende:
“For purposes of certification, care must be taken to avoid the formal use of early grades that do not represent the outcomes reached by course or program completion. Entry-level knowledge, learning rates and final achievement levels differ. Although learning itself is cumulative, progressively adding marks throughout the learning period towards the final grade can distort representation of end-of-study achievement. What is important is using interim outcomes to improve learning.”
Læringsutbyttebeskrivelser blir imidlertid oftest utformet uten tidsbestemmelse, for eksempel i formen «Studenten har avansert kunnskap om …» Tidspunktet for oppnådd kompetanse står dermed åpent, men har betydning ved valg av summative vurderingsordninger. Eksempel på en mer presis formulering er: «Etter å ha gjennomført emnet kan/vet/er studenten i stand til …» Disse nyansene dreiser seg til sist om vurderingsuttrykkets integritet, altså hva det egentlig uttrykker. Vurderingen blir selvsagt påvirket av tidspunktet, og griper direkte inn i integritetsspørsmålet.
Etter kvalitetsreformen har læringshensyn ofte vært dominerende ved valg av vurderingsordninger. Like fullt er og forblir summativ vurdering en legitim og vesentlig del av et samlet vurderingsdesign. Arbeid med å utvikle gode design lider imidlertid ofte under fraværet av en felles policy med en tydelig vurderingsteoretisk forankring. Eksempler på tema er pålitelighet, gyldighet, autentisitet, rettferdighet og transparens. Vurdering for sertifisering krever altså et bredt spekter av kriterier.
Rettssikkerhet med historiske røtter
Bruken av ekstern sensor har ifølge den danske historikeren Thomsen røtter tilbake til Københavns universitet i 1788, og ordningen kan spores til opplysningstidens ønske om rettssikkerhet for borgerne. I Norge ble krav om to sensorer opphevet i 2002, en beslutning som åpnet for bruk av kun én sensor, som kunne være underviseren selv. Dette representerte en omlegging og privatisering av sensurarbeidet, og myndighetene ønsket derfor nye tiltak for å sikre kandidatenes rettssikkerhet. Løsningen ble pålegg om sensurveiledning ved alle eksamener, som erstatning for ekstern sensor.
Forskning viser imidlertid at sensurveiledning ofte blir opplevd som utilstrekkelig ved enesensur, og at både yngre og eldre sensorer føler på usikkerhet i arbeidet. Den beste sensurveiledningen får de gjerne fra en mer erfaren kollega. Det dreier seg om kultur og forhandlinger mellom likeverdige parter. Forestillingen om en «riktig» karakter er forankret i et positivistisk kunnskapssyn, som ikke har allmenn gyldighet i akademia. Mye forskning dokumenterer hvilke utfordringer som oppstår ved vurdering innen tolkningsbaserte emner. Utvikling av et profesjonelt skjønn med støtte i «taus» kunnskap krever samarbeid på tvers av fagmiljøer over tid for harmonisering av faglige krav.
Et illustrerende eksempel er en lektorstudent ved NTNU som i 2021 fikk tre ulike karakterer på samme eksamen. Ved ordinær sensur ble besvarelsen vurdert til F (ikke bestått), og studenten valgte da å klage. Ved ny sensur ble besvarelsen overraskende vurdert til A (beste karakter). Til tross for dette ble det ikke A på vitnemålet på grunn av universitets- og høyskolelovens krav om ny vurdering ved avvik på to eller flere karakterer fra opprinnelig sensur. Sluttkarakteren ble C med følgende kommentar fra kandidaten: «Jeg bare synes det er vanskelig å vite hvordan jeg skal forholde meg til karaktersystemet når jeg får så forskjellige tilbakemeldinger fra forskjellige folk innenfor det samme fagfeltet» (gjengitt fra www.trd.by, som først omtalte saken, 21.09.21).
Kvalitetssikring og nye mulighetsrom
Når to-sensorordningen trer i kraft for all vurdering med bokstavkarakterer høsten 2022, kan den utgjøre en naturlig del av universitetets kvalitetssikringssystem. For alle som betviler verdien av en second opinion ved sensur, kan forskningsstudier av bedømmer-reliabilitet være et sted å starte. Feil og misforståelser oppstår oftere enn vi tror, og enesensur gir ingen informasjon om slike avvik. Studentene skal selvsagt ikke rammes av andres feil, spesielt fordi karakterene kan være avgjørende for videre studier og yrkesliv. Kan vi som samfunn tillate oss å gjøre store feil på dette feltet?
Sensorrollen utgjør en unik lærings- og utviklingsmulighet ved refleksjon over undervisning, emne- og oppgavedesign. Sensurdata kan gi innsikt i karakteristiske trekk ved kandidatenes læring, deres styrke og svakheter. Dette åpner i sin tur for refleksjon over årsakssammenhenger og innspill til forbedringer. Selv har jeg bidratt i utviklingsarbeid basert på denne arbeidsmåten ved NTNU, og erfaringen er at to-sensorordningen åpner for gode læringsarenaer for undervisere og sensorer.
Sensurordninger kan analyseres ut fra økonomiske, praktiske, vurderingsteoretiske, pedagogiske og ideologiske posisjoner. Debatten fortjener imidlertid ryddighet i forhold til hvilken agenda som styrer engasjementet. Galt blir det om to-sensorordningen blir torpedert med argumenter om dårligere studiekvalitet, dersom bekymringen snarere er av praktisk og ressursmessig karakter.
To-sensorordningen muliggjør en mer utviklingsrettet praksis parallelt med det tradisjonelle sensoroppdraget. Det handler om å kunne ivareta summative og formative interesser samtidig. Dette krever imidlertid et profesjonelt blikk, og vilje til å utfordre egen forforståelse. Det innebærer altså ikke en ny, tung bør på sensorene, men en dreining mot en mer utviklingsrettet praksis. Ethvert sensurmøte vil være en naturlig arena for den typen samtaler det her dreier seg om.
Et vesentlig ankepunkt mot to-sensorordningen, slik den har vært praktisert tidligere, er et opplevd misforhold mellom ressursbruk og resultater. Nå har vi muligheten til å utforske nye mulighetsrom.