KI-forsker: Derfor er arbeidet med norske språkmodeller så viktig
Denne våren lanseres flere norske alternativer til språkmodellene GPT-4 og Googles Gemini. Vi tok tak i én av forskerne bak for å høre hvorfor.
Det siste året har ordet språkmodell sneket seg inn i vår dagligtale.
Store språkmodeller, altså det som på engelsk kalles for large language models (LLMs), er teknologien som ligger i bunn av tjenester som ChatGPT, Microsoft Copilot og Googles Gemini.
Dette er tjenester som i stadig større grad tas i bruk på norske arbeidsplasser. Vi bruker språkmodeller som sparringspartnere, til å føre referater i møter og for å lage presentasjoner.
Flere rapporter viser at det kan være mye tid og penger å spare på å utnytte mulighetene som finnes i generativ kunstig intelligens.
Men … og det er et stort men her, hevder KI-forsker, Benjamin Kille:
– Som så mye annen digital teknologi vi bruker i det daglige, utvikles store språkmodeller i USA. Det betyr at dataene de er trent på, for det meste reflekterer amerikansk språk og kultur.
Kille jobber til daglig ved NorwAI – eller Norwegian Research Institute for AI Innovation. Et av prosjektene der som nå får særlig oppmerksomhet, er deres arbeid med å utvikle en norsk språkmodell.
Delta på vår techfrokost om norske språkmodeller hos NTNU i Trondheim 13. mars:
Viktig for nyansene i språket
Så hvorfor er det egentlig viktig med en norsk språkmodell? Det finnes det flere grunner til.
For det første er det ikke nødvendigvis så enkelt for en amerikansk språkmodell å forstå nyansene i det norske språket.
Det kan være snakk om alt fra dialekter, språklige særtrekk og undertekst. Det vil si meningsinnhold som uttrykkes og forstås mellom linjene.
– Selv om språkmodeller som GPT-4 tilsynelatende snakker og forstår norsk, filtreres utdataene gjennom et sett med amerikanske algoritmer og parametere, forklarer Kille.
Innholdet og syntaksen er gjerne grammatisk korrekt. Likevel er det noe som skurrer. Om det så er merkelige ordvalg eller unaturlige vekslinger mellom formelt og uformelt språk.
Det kan minne litt om fenomenet uncanny valley, et begrep som beskriver ubehaget når maskiner emulerer noe menneskelig, uten helt å få det til.
– Viktig innen blant annet juss, medisin og politikk
«Legg uncanny valley til side. Hvorfor kan vi ikke bare akseptere at språkmodeller ikke mestrer det norske språket like godt som oss norskspråklige», tenker du kanskje. Vi forstår jo hva ChatGPT mener?
Det er ikke så enkelt. Kille trekker frem viktigheten av et nøyaktig språk i yrkesgrupper som juss, medisin og politikk:
– I en lovtekst eller kontrakt er ordlyd og nøyaktige formuleringer helt sentralt. Det er heller ikke sikkert en norsk pasient ville beskrevet symptomer på samme måte som en amerikansk pasient ville ha gjort, sier forskeren.
Et annet poeng er at amerikanskutviklede språkmodeller ikke nødvendigvis tar norsk kultur i betraktning.
La oss si at du spør ChatGPT om hjelp til arbeidsrettslige spørsmål:
Da kan det hende den gir deg et svar som passer inn i et amerikansk arbeidsliv, heller enn å ta hensyn til tariffavtaler og andre særegenheter ved den norske arbeidslivsmodellen.
Trent på norske data
Ettersom stadig flere arbeidsoppgaver løses ved hjelp av verktøy som Copilot, Gemini og ChatGPT, spiller disse små nyansene bare større roller, sier Kille.
– Det er derfor vi primært har trent vår språkmodell på norske data.
Han forklarer at opp mot 80 prosent av treningsdataene i de norske språkmodellene er hentet fra norske kilder, blant annet fra Nasjonalbiblioteket.
– Slik vil modellen også være bedre tilpasset en norsk virkelighet og vurdere norske problemstillinger, legger han til.
Håper det bygges industri rundt språkmodellene
Målet er å lansere flere norske språkmodeller i løpet av våren. Altså ikke bare én stor og allvitende, men flere ulike – bygget på toppen av arkitektur fra OpenAI, Meta og franske Mistral.
NorwAI er heller ikke alene. Allerede har Universitetet i Oslo lansert tre norske språkmodeller, bygget på samme arkitektur.
Grunnen til at selve grunnmuren ikke bygges helt fra bunnen av her til lands er enkel: Det er bevist at det som finnes der ute allerede fungerer. Å utvikle en helt egen infrastruktur ville krevd enormt med tid og store ressurser.
Norge er heller ikke i nærheten av å ha tilgang til den regnekraften som må til for å konkurrere med storskalamodeller. Det finnes kun én supercomputer i Norge. Den heter Idun, og holder til på NTNU.
NorwAI bruker Idun til å trene de norske språkmodellene på norske data, men selv her er prosessorkraften kun en liten brøkdel av det som er i spill når amerikanske tech-giganter utvikler kunstig intelligens.
– På et tidspunkt ble det rapportert om at ChatGPT kostet over én million dollar om dagen å drive, og det var til og med før GPT-4 kom, sier Kille.
– Risikerer avhengighet av utenlandsk infrastruktur
De norske språkmodellene NorwAI jobber med vil derfor heller ikke lanseres med et brukergrensesnitt for allmennheten. Modellene kommer med andre ord ikke med et dedikert chattevindu, slik folk flest er vant til å «snakke» med en språkmodell.
Kille forteller at de naturligvis har testet og demonstrert teknologien med et chattevindu. Men selv bare med en håndfull brukere, koster dette flere tusen dollar i regnekraftleie om dagen.
– Det er ikke vår jobb å lage selve tjenestene. Vi trener modellene og gjør dem gratis tilgjengelige. Så er vårt håp at det kan utvikle seg en industri rundt teknologien, hvor kommersielle aktører kan utvikle tjenester på toppen av norske språkmodeller, sier han.
Samtidig peker han på viktigheten av å utvikle norsk kompetanse på området.
– Om det kun er Silicon Valley som vet hvordan man drifter og utnytter en språkmodell, risikerer man å gjøre seg avhengig av utenlandsk infrastruktur. Det er ikke en særlig god idé, sier Kille.
Tror ikke generell kunstig intelligens er fremtiden
De som følger med på OpenAI og sirkuset rundt verdens ledende KI-selskap, har fått med seg ambisjonen deres om å oppnå generell kunstig intelligens. Enkelt fortalt handler det om teknologi som kan utføre en hvilken som helst intellektuell oppgave på samme måte som et menneske kan.
Med språkmodellen GPT-4 begynte en samlet tech-verden å lure på om ikke generell kunstig intelligens nå var rett rundt hjørnet. Plutselig kunne ChatGPT programmere og søke på internett. Stilte du de riktige spørsmålene, kunne programvaren designe en (om enn hypotetisk) selvforsynt bosetning på Mars.
– OpenAI jobber med å bygge én stor modell. Deres mål er at den skal ha tilgang til mest mulig data, og lære seg å løse flere ulike oppgaver. Men jeg er ikke sikker på om det er fremtiden, sier Kille.
Han tror flere, mindre og problemspesifikke språkmodeller kan være vel så interessant som én singulær supermodell – et scenario som uansett tilhører fremtiden. For GPT er fortsatt avgrenset til konkrete oppgaver. Den gjetter neste ord i en setning og setter sammen statistisk sett gode resultater basert på en instruks.
– Språkmodeller som er utviklet med et spesifikt formål – i vårt tilfelle som er å mestre det norske språket – kommer med flere fordeler. For det første er de mindre ressurskrevende og har et lavere karbonavtrykk. For det andre vil også datagrunnlaget være mer spesifikt, og med det resultatene være av høyere kvalitet.
Samtidig blir lovene og reguleringene som dikterer hva som er lov å gjøre med digital teknologi og kunstig intelligens stadig flere. Når AI Act trer i kraft, kommer den med en rekke krav til språkmodeller som går på kompleksitet og åpenhet.
– Derfor er det viktig å ikke lage for store og generelle modeller. Med et størrelsestak er det enklere å ha kontroll over teknologien, legge til rette for åpenhet og være i samsvar med lover og regler, sier han.
– Vil prege fremtidens språk
For tiden pågår det en hel rekke rettssaker mot nettopp OpenAI. Blant annet har New York Times og den amerikanske forfatterforeningen tatt selskapet bak ChatGPT til retten. De mener språkmodellen er ulovlig trent på deres opphavsmateriale.
Også bøker skrevet av norske forfattere er funnet i flere av de enorme databibliotekene som utgjør treningsgrunnlaget til GPT-4.
Kille følger spent med på rettsprosessene, og mener utfallet der vil ha mye å si for hvordan de kan trene norske språkmodeller i fremtiden.
– Vi har jobbet mye med å fjerne alt opphavsrettslig materiale fra datagrunnlaget, sier han.
Samtidig som han helst skulle sett at alt av norske bøker, dikt og kunstorientert tekst fra de siste 70 årene skulle kunne brukes som treningsmat for de norske språkmodellene.
– Vi har også et oppdrag om å bevare det norske språket. Vi jobber kontinuerlig med å få med oss norske forlag, for å få tilgang til kvaliteten som er beskyttet av opphavsretten.
– Rett og slett fordi generativ kunstig intelligens vil prege hvordan språket utvikler seg i fremtiden, uansett om det skjer via OpenAI eller en egen norsk modell, avslutter han.