Kontakt oss

Ansvarlig redaktør
TORE OKSHOLEN
tore.oksholen@
universitetsavisa.no
Mobil 918 97 876

Journalist
MARI RIAN HANGER
mari.r.hanger@
universitetsavisa.no
Mobil 995 86 297

Redaksjonssjef
BENEDIKT ERIKSTAD JAVOROVIC
benedikt.e.javorovic@
universitetsavisa.no
Mobil 472 38 560

Journalist
SYNNE MÆLE
synne.male@
universitetsavisa.no
Mobil 924 62 475

Journalist
MARTHE BJERVA
marthe.bjerva@
universitetsavisa.no
Mobil 911 01 680

Om oss

Universitetsavisa utgis av NTNU og redigeres etter Redaktørplakaten og pressens Vær Varsom-plakat. Avisen er medlem av Den norske fagpresses forening. Dette er avisas retningslinjer og redaksjon. Alt innhold er opphavsrettslig beskyttet © Universitetsavisa.

Kunstig intelligens

Nå er neste generasjons språkmodeller trent på NTNU lansert

De nye modellene til Norwai er så små at du kan kjøre dem på din egen datamaskin. - Da er det plutselig ikke så kritisk med sensitive data, sier direktør og professor Jon Atle Gulla.

Professor og direktør for Norwai Jon Atle Gulla (t.v.) og data- og teknologidirektør Sven Størmer Thaulow i Schibsted presenterte de nye norske språkmodellene onsdag. Bildet er tatt ved en tidligere anledning, med kommunikasjonsleder i Norwai, Rolf Dyrnes Svendsen, i bakgrunnen.

Foto: Marthe Kristine Nes Bjerva

Kaia Sørland Journalist

Publisert 15.05.2024 - 14:15 Sist oppdatert 16.05.2024 - 12:58

NorGPT kan bli redningen for det norske språket

Snart kan du selv laste ned flere av de store norske språkmodellene som er trent på superdatamaskinen Idun på NTNU.

Onsdag lanserte Norwai neste generasjon av sine NorLLM-modeller på Schibsted-kontoret i Oslo. LLM står her for Large Language Models – eller store språkmodeller på norsk.

Fire modeller ble lansert, hvor samtlige er trent på store mengder norske og nordiske data (se faktaboks). Dette skiller seg fra blant annet Chat GPT fra amerikanske Open AI, som primært er basert på innhold fra andre språk og kulturer.

Data- og teknologidirektør Sven Størmer Thaulow i Schibsted

- Hvis innholdet brukt til å trene språkmodellen er primært fra andre kulturer, så vil det reflekteres i hvordan modellen yter. Med å lage grunnmodeller med et stort norsk språkcorpus av god kvalitet både tror og ser vi at vi får bedre norsk språk i modellen, sa data- og teknologidirektør Sven Størmer Thaulow i Schibsted.

Fakta

Dette er treningsdataen for de nye NorLLM-modellene

Norsk: 60 % (18,2 milliarder ord)

Svensk: 26 %

Dansk: 11 %

Engelsk: 2 %

Den norske dataen består av

Bokmål: 94,8 % (17,3 milliarder ord)

Nynorsk: 5,2 % (952 millioner ord)

Samisk: 0,004 % (0,68 millioner ord)

Det er også Norwai som står bak den store norske språkmodellen NorGPT, som tidligere har blitt kalt en mulig redning for det norske språket.

- Vi skal ikke stupe uti uten å tenke oss om

Det var næringsminister Cecilie Myrseth som åpnet onsdagens lansering.

- Som politiker er jeg opptatt av språk, og da særlig at det skal være enkelt, jordnært og fritt for fremmedord og forkortelser. God norsk, rett og slett, sa hun.

Næringsminister Cecilie Myrseth gledet seg til å høre mer om hva som er smart bruk av KI i tida som kommer

Myrseth sa at det er all grunn til å tro at kunstig intelligens (KI) vil bli en sentral del av hverdagen til både folk og bedrifter.

Første offentlige visning av NorGPT: - Regjeringen må kjenne sin besøkelsestid

- Hvis vi overlater dette til store utenlandske kommersielle aktører vil vi gjøre oss avhengige av noen som ikke er opptatt av god norsk. Modellene som lanseres her i dag er ikke bare bygget på solide norskspråklige kilder, men har også med norske normer og respekt for opphavsrett, sa Myrseth.

Hun dro fram at KI kan være et nyttig spesialverktøy, men at ukritisk bruk kan føre til helt ekte feil.

- Dette er ikke noe vi skal stupe uti uten å tenke oss om. Men med god bruk av KI kan mange nødvendige og viktige oppgaver bli enklere. Det kan gi mer tid for rom for mennesker, og mer tid og rom for innovasjon, slo næringsministeren fast.

Måtte sette foten i bakken

Tre av de lanserte språkmodellene var annonsert på forhånd: NorwAI-Llama2-7B, NorwAI-Mistral-7B, NorwAI-Mistral-7B-Scratch.

Samtlige er modeller på 7 milliarder parametre. Antall parameter er et mål på språkmodellens størrelse, som påvirker dens evne til å forstå og generere naturlig språk. Flere parametere kan gjøre modellen bedre, men vil også kreve mer datakraft og ressurser til å trene og kjøre modellen.

Til sammenligning er NorGPT som ble lansert på Arendalsuka i fjor betraktelig større, med 23 milliarder parametre. Norwai har også tidligere annonsert at de jobbet med en enda større NorGPT-modell på rundt 40 milliarder parametre.

- Vi har laget modeller med over 23 milliarder parameter, men med et datasett som vi har vært litt usikre på. Vi hentet noe data fra Nasjonalbiblioteket og noe fra andre kilder, og har vært usikre på om vi har klarert alle rettigheter. Det gjorde at vi på et tidspunkt fant ut at vi burde sette foten i bakken, og tenke over hva vi gjør fremover, sa professor Jon Atle Gulla på lanseringen.

Satser på mindre modeller

NorGPT er en modell som ennå ikke har lært seg folkeskikk

Norwai ønsket å lage modeller som skulle være frie for alle å bruke, hvor alle rettigheter er avklart. Disse modellene skulle være så små at man kan kjøre dem lokalt.

- Dermed fikk vi et løp hvor vi planla modeller på 7 milliarder parametre med ulike arkitekturer. Vi har ikke gitt opp ideen om å lage kjempesvære språkmodeller, og har fortsatt en plan om en modell med rundt 40 milliarder parametre, sa Gulla.

Professor og direktør for Norwai, Jon Atle Gulla, sa at modellene som ble lansert ikke skal være konkurrenter til Chat GPT, men konkurransedyktige på visse områder.

En modell på 40 milliarder parametre er så stor at den ikke kan kjøre på lokal infrastruktur, og de blir derfor avhengig av å kunne tilby den på en sentralisert struktur.

- Det vil nok komme etter hvert, men i dag er det modellene på 7 milliarder vi er interesserte i. Disse kan lastes ned, kjøres på egen infrastruktur, og tilpasses akkurat slik man har behov for i egen organisasjon. Det løser også problemer med sensitive data når man kjører modellen lokalt, sa Gulla.

- Ingen konkurrent til Chat GPT

Modellene blir tilgjengelige på plattformen Hugging face. Her finner man også de store norske språkmodellene utviklet av konsortiet Nora – Norwegian Artificial Intelligence Research Consortium.

Slik gikk det da ministeren spurte NorGPT om hvem som vinner valget

Noe av det modellene som lanseres i dag kan brukes til er oversetting fra engelsk til norsk, eller mellom bokmål og nynorsk, og generering av titler og sammendrag. Man kan også snakke med modellene, slik man kan med Chat GPT, men Norwai har ikke finjustert modellen.

- Det vi lanserer i dag er grunnmodeller til allmen bruk i nordiske land. De er ingen konkurrent til Chat GPT, men skal være konkurransedyktige med de store internasjonale modellene på visse områder, sa Gulla.

Som en overraskelse ble også en fjerde modell lansert onsdag: NorwAI-Mixtral-8x7B.

- Vi ble ferdige med å trene denne akkurat i dag. Det er altså en helt ny modell-arkitektur, som har vist seg å være veldig rask og effektiv på interferens – altså når du stiller modellen spørsmål. Det er en veldig interessant arkitektur, sa Gulla.

Dette er første gang denne arkitekturen er trent på store mengder norske data.

Følg UA på Facebook og Instagram.

Nyhetsbrev

Tips oss og delta i debatten

Kontakt oss

Om oss

Nå er neste generasjons språkmodeller trent på NTNU lansert

De nye modellene til Norwai er så små at du kan kjøre dem på din egen datamaskin. - Da er det plutselig ikke så kritisk med sensitive data, sier direktør og professor Jon Atle Gulla.

NorGPT kan bli redningen for det norske språket

Dette er treningsdataen for de nye NorLLM-modellene

- Vi skal ikke stupe uti uten å tenke oss om

Første offentlige visning av NorGPT: - Regjeringen må kjenne sin besøkelsestid

Måtte sette foten i bakken

Satser på mindre modeller

NorGPT er en modell som ennå ikke har lært seg folkeskikk

- Ingen konkurrent til Chat GPT

Slik gikk det da ministeren spurte NorGPT om hvem som vinner valget

Vil du ha ekstra innsikt?

Trump krever unnskyldning fra Harvard-universitetet

NTNU-studenter gikk nesten helt til topps i konkurranse

Dobling av KI-bruk i staten på halvannet år

I dag er fristen for å søke høyere utdanning

Mest lest:

NTNU-studenter gikk nesten helt til topps i konkurranse

Foreslår å gjøre det tre ganger så dyrt å parkere

Tavle til besvær

Da jeg sluttet å være morsom

Ikke velg en kortsiktig plan for bibliotek på Kalvskinnet

Trump-administrasjonen fryser rundt 2,3 milliarder dollar i støtte til Harvard-universitetet

Dommer: Palestina-aktivist i USA kan utvises

Foreslår å gjøre det tre ganger så dyrt å parkere

NTNU-studenter får flest tildelinger

Amerikansk universitet brøt kjønnsforskningssamarbeid med UiB

Ytring:

Tavle til besvær

Ikke velg en kortsiktig plan for bibliotek på Kalvskinnet

Da jeg sluttet å være morsom

NTNUs nye strategi kan ikke tviholde på myten om bærekraftig vekst

Engasjer deg - nå nærmer vi oss sluttspurten på universitetsstrategien

Samfunnsnytten av statlige byggeprosjekter kommer ikke av seg selv

Veien videre for Universitetsbiblioteket

Bevar Musikkbiblioteket ved NTNU!

Stem på nye NTNU-styremedlemmer!

NTNUs fremtid er avhengig av handlekraft og fellesskap

Flere studenter har for god råd for fullt stipend

Fikk høre at arbeidet ikke var «banebrytende nok», endelig nådde han opp

Regjeringen dropper egenbetaling på eksamen

Nå har de fylt alle lederstillingene

Disse vant styrevalget ved NTNU

Fikk ansatt ledere i seks av åtte stillinger

Nå er dette bygget trygt å ta i bruk igjen

Studentene protesterer mot at inspirerende lærer tvangsflyttes

Får fortsette som leder her i fire år til

Her heiser de dette flagget for første gang

Flere opplever at sommerjobben avlyses på kort varsel: – Vanskelig

Hun slo ut dagens leder i kampen om sjefsjobben

Snart 102 år og aktuell med ny forskningsartikkel

Ragnhild Hennum blir ny rektor ved Universitetet i Oslo

- NTNU må legge til rette så stipendiatene blir ferdig på tiden

Moserne signerer opprop mot Trumps angrep på forskinga

Dette er de nye studentene i NTNU-styret

Varsler om mobbing og seksuell trakassering

Går fra toppjobb i NTNU til Helse Midt-Norge

Jørn Ove var den eneste som ble tvangsflyttet: - Skuffende og vondt

- NTNU utøver toppledelsen feil

ILU: Én tvangsflyttet til Matematikksenteret - to gikk frivillig

Mener Institutt for lærerutdanning bryter med varslingsrutiner

Mener NTNU er for toppstyrt

Følg debatten før styrevalget her

Dette blir Norges øverste studentrepresentant

112 millioner kroner til forskerskoler

Aasland tilbake 25 år etter hun gikk av: - Håper hun ikke har glemt sine kampsaker

Hvem mener du bør være med og styre NTNU? Kjør debatt!

Ny leder og studentberedskap på helgens agenda

- Vi med små barn taper når parkeringen forsvinner

Sittende rektor vant ny periode

Avgått minister og avgått dekan vil ha ansvar for Nidarosdomen

Trump krever at forskere verden rundt fyller ut spørreskjema om DEI, kjønn og klima

Oddmund Hoel: - Målet var ikke å bli populær i sektoren

Abelprisen går til visjonær matematiker

Den nasjonale vendinga i kunnskaps­politikken står fast

Rektor-støtte splitter UiO-studentene

Den nasjonale vendinga i kunnskapspolitikken står fast