Nå er neste generasjons språkmodeller trent på NTNU lansert
De nye modellene til Norwai er så små at du kan kjøre dem på din egen datamaskin. - Da er det plutselig ikke så kritisk med sensitive data, sier direktør og professor Jon Atle Gulla.
Professor og direktør for Norwai Jon Atle Gulla (t.v.) og data- og teknologidirektør Sven Størmer Thaulow i Schibsted presenterte de nye norske språkmodellene onsdag. Bildet er tatt ved en tidligere anledning, med kommunikasjonsleder i Norwai, Rolf Dyrnes Svendsen, i bakgrunnen.Foto: Marthe Kristine Nes Bjerva
Snart kan du selv laste ned flere av de store norske språkmodellene som er trent på superdatamaskinen Idun på NTNU.
Onsdag lanserte Norwai neste generasjon av sine NorLLM-modeller på Schibsted-kontoret i Oslo. LLM står her for Large Language Models – eller store språkmodeller på norsk.
Fire modeller ble lansert, hvor samtlige er trent på store mengder norske og nordiske data (se faktaboks). Dette skiller seg fra blant annet Chat GPT fra amerikanske Open AI, som primært er basert på innhold fra andre språk og kulturer.
- Hvis innholdet brukt til å trene språkmodellen er primært fra andre kulturer, så vil det reflekteres i hvordan modellen yter. Med å lage grunnmodeller med et stort norsk språkcorpus av god kvalitet både tror og ser vi at vi får bedre norsk språk i modellen, sa data- og teknologidirektør Sven Størmer Thaulow i Schibsted.
Fakta
Dette er treningsdataen for de nye NorLLM-modellene
Det var næringsminister Cecilie Myrseth som åpnet onsdagens lansering.
- Som politiker er jeg opptatt av språk, og da særlig at det skal være enkelt, jordnært og fritt for fremmedord og forkortelser. God norsk, rett og slett, sa hun.
Myrseth sa at det er all grunn til å tro at kunstig intelligens (KI) vil bli en sentral del av hverdagen til både folk og bedrifter.
- Hvis vi overlater dette til store utenlandske kommersielle aktører vil vi gjøre oss avhengige av noen som ikke er opptatt av god norsk. Modellene som lanseres her i dag er ikke bare bygget på solide norskspråklige kilder, men har også med norske normer og respekt for opphavsrett, sa Myrseth.
Hun dro fram at KI kan være et nyttig spesialverktøy, men at ukritisk bruk kan føre til helt ekte feil.
- Dette er ikke noe vi skal stupe uti uten å tenke oss om. Men med god bruk av KI kan mange nødvendige og viktige oppgaver bli enklere. Det kan gi mer tid for rom for mennesker, og mer tid og rom for innovasjon, slo næringsministeren fast.
Måtte sette foten i bakken
Tre av de lanserte språkmodellene var annonsert på forhånd: NorwAI-Llama2-7B, NorwAI-Mistral-7B, NorwAI-Mistral-7B-Scratch.
Samtlige er modeller på 7 milliarder parametre. Antall parameter er et mål på språkmodellens størrelse, som påvirker dens evne til å forstå og generere naturlig språk. Flere parametere kan gjøre modellen bedre, men vil også kreve mer datakraft og ressurser til å trene og kjøre modellen.
- Vi har laget modeller med over 23 milliarder parameter, men med et datasett som vi har vært litt usikre på. Vi hentet noe data fra Nasjonalbiblioteket og noe fra andre kilder, og har vært usikre på om vi har klarert alle rettigheter. Det gjorde at vi på et tidspunkt fant ut at vi burde sette foten i bakken, og tenke over hva vi gjør fremover, sa professor Jon Atle Gulla på lanseringen.
Norwai ønsket å lage modeller som skulle være frie for alle å bruke, hvor alle rettigheter er avklart. Disse modellene skulle være så små at man kan kjøre dem lokalt.
- Dermed fikk vi et løp hvor vi planla modeller på 7 milliarder parametre med ulike arkitekturer. Vi har ikke gitt opp ideen om å lage kjempesvære språkmodeller, og har fortsatt en plan om en modell med rundt 40 milliarder parametre, sa Gulla.
En modell på 40 milliarder parametre er så stor at den ikke kan kjøre på lokal infrastruktur, og de blir derfor avhengig av å kunne tilby den på en sentralisert struktur.
- Det vil nok komme etter hvert, men i dag er det modellene på 7 milliarder vi er interesserte i. Disse kan lastes ned, kjøres på egen infrastruktur, og tilpasses akkurat slik man har behov for i egen organisasjon. Det løser også problemer med sensitive data når man kjører modellen lokalt, sa Gulla.
- Ingen konkurrent til Chat GPT
Modellene blir tilgjengelige på plattformen Hugging face. Her finner man også de store norske språkmodellene utviklet av konsortiet Nora – Norwegian Artificial Intelligence Research Consortium.
Noe av det modellene som lanseres i dag kan brukes til er oversetting fra engelsk til norsk, eller mellom bokmål og nynorsk, og generering av titler og sammendrag. Man kan også snakke med modellene, slik man kan med Chat GPT, men Norwai har ikke finjustert modellen.
- Det vi lanserer i dag er grunnmodeller til allmen bruk i nordiske land. De er ingen konkurrent til Chat GPT, men skal være konkurransedyktige med de store internasjonale modellene på visse områder, sa Gulla.
Som en overraskelse ble også en fjerde modell lansert onsdag: NorwAI-Mixtral-8x7B.
- Vi ble ferdige med å trene denne akkurat i dag. Det er altså en helt ny modell-arkitektur, som har vist seg å være veldig rask og effektiv på interferens – altså når du stiller modellen spørsmål. Det er en veldig interessant arkitektur, sa Gulla.
Dette er første gang denne arkitekturen er trent på store mengder norske data.