Kunstig intelligens

Nå er neste generasjons språkmodeller trent på NTNU lansert

De nye modellene til Norwai er så små at du kan kjøre dem på din egen datamaskin. - Da er det plutselig ikke så kritisk med sensitive data, sier direktør og professor Jon Atle Gulla. 

Professor og direktør for Norwai Jon Atle Gulla (t.v.) og data- og teknologidirektør Sven Størmer Thaulow i Schibsted presenterte de nye norske språkmodellene onsdag. Bildet er tatt ved en tidligere anledning, med kommunikasjonsleder i Norwai, Rolf Dyrnes Svendsen, i bakgrunnen.
Publisert Sist oppdatert

Snart kan du selv laste ned flere av de store norske språkmodellene som er trent på superdatamaskinen Idun på NTNU. 

Onsdag lanserte Norwai neste generasjon av sine NorLLM-modeller på Schibsted-kontoret i Oslo. LLM står her for Large Language Models – eller store språkmodeller på norsk. 

Fire modeller ble lansert, hvor samtlige er trent på store mengder norske og nordiske data (se faktaboks). Dette skiller seg fra blant annet Chat GPT fra amerikanske Open AI, som primært er basert på innhold fra andre språk og kulturer. 

Data- og teknologidirektør Sven Størmer Thaulow i Schibsted

- Hvis innholdet brukt til å trene språkmodellen er primært fra andre kulturer, så vil det reflekteres i hvordan modellen yter. Med å lage grunnmodeller med et stort norsk språkcorpus av god kvalitet både tror og ser vi at vi får bedre norsk språk i modellen, sa data- og teknologidirektør Sven Størmer Thaulow i Schibsted. 

Fakta

Dette er treningsdataen for de nye NorLLM-modellene

Norsk: 60 % (18,2 milliarder ord)

Svensk: 26 %

Dansk: 11 %

Engelsk: 2 %

Den norske dataen består av

Bokmål: 94,8 % (17,3 milliarder ord)

Nynorsk: 5,2 % (952 millioner ord)

Samisk: 0,004 % (0,68 millioner ord)

Det er også Norwai som står bak den store norske språkmodellen NorGPT, som tidligere har blitt kalt en mulig redning for det norske språket. 

- Vi skal ikke stupe uti uten å tenke oss om

Det var næringsminister Cecilie Myrseth som åpnet onsdagens lansering. 

- Som politiker er jeg opptatt av språk, og da særlig at det skal være enkelt, jordnært og fritt for fremmedord og forkortelser. God norsk, rett og slett, sa hun. 

Næringsminister Cecilie Myrseth gledet seg til å høre mer om hva som er smart bruk av KI i tida som kommer

Myrseth sa at det er all grunn til å tro at kunstig intelligens (KI) vil bli en sentral del av hverdagen til både folk og bedrifter. 

- Hvis vi overlater dette til store utenlandske kommersielle aktører vil vi gjøre oss avhengige av noen som ikke er opptatt av god norsk. Modellene som lanseres her i dag er ikke bare bygget på solide norskspråklige kilder, men har også med norske normer og respekt for opphavsrett, sa Myrseth. 

Hun dro fram at KI kan være et nyttig spesialverktøy, men at ukritisk bruk kan føre til helt ekte feil. 

- Dette er ikke noe vi skal stupe uti uten å tenke oss om. Men med god bruk av KI kan mange nødvendige og viktige oppgaver bli enklere. Det kan gi mer tid for rom for mennesker, og mer tid og rom for innovasjon, slo næringsministeren fast. 

Måtte sette foten i bakken

Tre av de lanserte språkmodellene var annonsert på forhånd: NorwAI-Llama2-7B, NorwAI-Mistral-7B, NorwAI-Mistral-7B-Scratch. 

Samtlige er modeller på 7 milliarder parametre. Antall parameter er et mål på språkmodellens størrelse, som påvirker dens evne til å forstå og generere naturlig språk. Flere parametere kan gjøre modellen bedre, men vil også kreve mer datakraft og ressurser til å trene og kjøre modellen.

Til sammenligning er NorGPT som ble lansert på Arendalsuka i fjor betraktelig større, med 23 milliarder parametre. Norwai har også tidligere annonsert at de jobbet med en enda større NorGPT-modell på rundt 40 milliarder parametre. 

- Vi har laget modeller med over 23 milliarder parameter, men med et datasett som vi har vært litt usikre på. Vi hentet noe data fra Nasjonalbiblioteket og noe fra andre kilder, og har vært usikre på om vi har klarert alle rettigheter. Det gjorde at vi på et tidspunkt fant ut at vi burde sette foten i bakken, og tenke over hva vi gjør fremover, sa professor Jon Atle Gulla på lanseringen. 

Satser på mindre modeller

Norwai ønsket å lage modeller som skulle være frie for alle å bruke, hvor alle rettigheter er avklart. Disse modellene skulle være så små at man kan kjøre dem lokalt. 

- Dermed fikk vi et løp hvor vi planla modeller på 7 milliarder parametre med ulike arkitekturer. Vi har ikke gitt opp ideen om å lage kjempesvære språkmodeller, og har fortsatt en plan om en modell med rundt 40 milliarder parametre, sa Gulla. 

Professor og direktør for Norwai, Jon Atle Gulla, sa at modellene som ble lansert ikke skal være konkurrenter til Chat GPT, men konkurransedyktige på visse områder.

En modell på 40 milliarder parametre er så stor at den ikke kan kjøre på lokal infrastruktur, og de blir derfor avhengig av å kunne tilby den på en sentralisert struktur. 

- Det vil nok komme etter hvert, men i dag er det modellene på 7 milliarder vi er interesserte i. Disse kan lastes ned, kjøres på egen infrastruktur, og tilpasses akkurat slik man har behov for i egen organisasjon. Det løser også problemer med sensitive data når man kjører modellen lokalt, sa Gulla. 

- Ingen konkurrent til Chat GPT

Modellene blir tilgjengelige på plattformen Hugging face. Her finner man også  de store norske språkmodellene utviklet av konsortiet Nora – Norwegian Artificial Intelligence Research Consortium. 

Noe av det modellene som lanseres i dag kan brukes til er oversetting fra engelsk til norsk, eller mellom bokmål og nynorsk, og generering av titler og sammendrag. Man kan også snakke med modellene, slik man kan med Chat GPT, men Norwai har ikke finjustert modellen. 

- Det vi lanserer i dag er grunnmodeller til allmen bruk i nordiske land. De er ingen konkurrent til Chat GPT, men skal være konkurransedyktige med de store internasjonale modellene på visse områder, sa Gulla. 

Som en overraskelse ble også en fjerde modell lansert onsdag: NorwAI-Mixtral-8x7B. 

- Vi ble ferdige med å trene denne akkurat i dag. Det er altså en helt ny modell-arkitektur, som har vist seg å være veldig rask og effektiv på interferens – altså når du stiller modellen spørsmål. Det er en veldig interessant arkitektur, sa Gulla. 

Dette er første gang denne arkitekturen er trent på store mengder norske data. 

 

Følg UA på Facebook og Instagram.