NorGPT er en modell som ennå ikke har lært seg folkeskikk
Arendal: I dag viser Jon Atle Gulla fram den norske språkmodellen for offentligheten for første gang. Det er en modell som ennå ikke har lært seg folkeskikk. Forskningsrådets direktør Mari Sundli Tveit tror behovet for en norsk modell er stort.
Den heter NorGPT og er den
norske versjonen av ChatGPT. NorGPT er basert på norske data, og er tilpasset en norsk virkelighet.
Chatboten er under utvikling ved NTNU ved forskingssenteret
NorwAI, i samarbeid med Schibsted og DnB.
Om det norske språks overlevelse
Som Universitetsavisa
skrev i juni, har NorGPT ligget i hardtrening i NTNUs supercomputer Idun i
vinter. Mye står på spill, skrev vi den gangen: intet mindre enn det norske
språks overlevelse.
Slike språkmodeller er i ferd med å bli en ny plattform for
tjenester, på linje med App Store, SoMe og mer til. Språkmodeller er selve
motoren i skapende kunstig intelligens.
NorGPT kommer i flere versjoner.
Den største har 23 milliarder parameter. En språkmodell gjetter neste ord i en
setning den presenteres for. Oftest er flere alternative svar mulige, og både
sannsynligheter i språkmodellen og andre teknikker brukes til å vurdere i
hvilken grad svaret er godt eller riktig.
Slik bygges svært komplekse
språklige strukturer. Det neste er «alignment» hvor språkmodellen formanes om
hva som ikke passer seg. Dette er en svært arbeidsintensiv fase, som krever mye
personell.
Bannskap og tabuord
Modellen som vises fram under
Arendalsuka har ikke gjennomgått denne «alignment»-fasen, hvor den lærer seg
alminnelig folkeskikk.
- Dermed vil vi få en del giftig
språk, fordommer, tabuord og mer til, sier Professor Jon Atle Gulla ved NorwAI – Norwegian research Center for AI Innovation.
- Så modellen vil både banne og
det som verre er?
- Ja da, den kan legge i vei om
prostitusjon i Trondheim og annet. Slik er det siden den ennå ikke har fått
denne filtreringskomponenten som skal ligge på toppen av systemet. Dette
forsvinner i neste runde.
En språkmodell i rå form vil
heller ikke greie å holde seg til saken.
- Så det vi får se her er
modellen i mellomstadiet. Vi får ut korrekte norske setninger, men den går i
alle mulige retninger. Den er ikke «aligna» med menneskelige preferanser. Dette
er interessant for oss forskere, sier Gulla.
Utover høsten og vinteren vil Gullas
team jobbe med denne formingsprosessen, og utvide modellen til å omfatte det
dobbelte antall parametere som dagens modell.
Mari Sundli Tveit: - Det går fortere og fortere
Hvordan ta KI, hvor i opptatt
språkmodell, i bruk på en klok måte? Det var temaet for en debatt som gikk
onsdag formiddag, i regi av Sintef, NTNU, Norges Forskningsråd og Tekna.
Forskningsrådets direktør Mari Sundli Tveit var opptatt av den voldsomme
hastigheten i utviklingen på feltet – samtidig som det florerer med fallgruver
man kan snuble ned i. UA ba henne utdype resonnementet etterpå.
- Kunstig intelligens utvikler seg utrolig fort, og det går bare fortere og fortere. Det betyr at man har en utfordring med at forståelsen og kunnskapsgrunnlaget skal henge med. En ting er den teknologiske utviklingen: Men så er det betydningen den har på ulike fagfelt. Personvern og datadeling er spesifikke problemstillinger, det er mange flere. For å vise til et uttrykk som ble mye brukt under debatten der inne – hybrid intelligens – man må alltid kople verktøyet som anvendes med den menneskelige forståelsen. Slik er det med alle nye teknologier, man må lære seg å bruke den rett. Her må vi i Forskningsrådet hjelpe til med å finansiere og få fram kunnskapsgrunnlaget.
- Hvordan kan dere gjøre dette? KI
har kommet som ei kule på forholdsvis kort tid. Her er den en massiv voksenopplysning
som må gjøres?
- Det er svæt mange problemstillinger for forskningen som ligger foran oss. Det er mye vi ikke overskuer ikke en brøkdel av dette i dag. Vi må gi rom for dette i
forskningen vi finansierer. Dette er relevant innen teknologiområdene, naturvitenskap og matematikk, men også innen samfunnsvitenskapene, humaniora – og ikke minst språk. Like viktig er
koplingen mellom fagfeltene, forklarer Tveit.
Stort behov for modell med norsk språk
- Ad NorGPT: Inga Strümke har
formulert det som at den store begrensningen ligger i vår evne til å stille
gode spørsmål, som utnytter potensialet i en språkmodell. Hva tenker du om
norske forskeres evner her?
- Jeg har meget stor tro på våre
forskeres evne til å stille spørsmål. Utfordringen vår er å gi alle de ulike spørsmålene
nok rom. Da er vi over på den åpne og nysgjerrighetsdrevne forskningen. Men jeg
tror mye av dette vil handle om problemstillinger vi ennå ikke vet om, sier Forskningsrådets direktør.
- Torsdag presenterer
forskerteamet i NorwAI den norske språkmodellen. Hva er det å si om betydningen
en norsk versjon av ChatGPT kan tenkes å få?
- Jeg tror det er et stort behov for å
utvikle en modell med norsk språk, som vil kunne treffe bedre på norske problemstillinger. Disse modellene er ikke bedre enn de dataene som legges inn i dem, avslutter Tveit.