Alates statistiliste keelemudelite tekkest 1980. aastatel on valdkond läbinud märgatava muutuse. Aastakümnete jooksul on arenenud nende mudelite loomise meetodid, kasvanud töödeldud andmete maht ning ka mudelid ise on muutunud keerukamaks. Parameetrite arv – matemaatiliste koefitsientide hulk valemites – on pidevalt suurenenud. 2020. aastaks oli seoses ChatGPTkasutuselevõtuga hakatud laialdaselt kasutama mõistet „suur keelemudel“. Tänapäeval on raske leida kedagi, kes poleks sellest kuulnud. Mida tähendab aga „suur“ keelemudelite kontekstis? Kunagi peeti üüratuks 3 miljardi parameetriga mudelit, ometi pole tänapäeval sellised numbrid enam üllatavad. OpenAI ei ole avalikustanud mudeli GPT-4täpset parameetrite arvu, kuid hinnanguliselt võib see olla 1–10 triljonit.
Toimumas on teadusrevolutsioon, kus suurte keelemudelite kohta avaldatakse enneolematult palju publikatsioone. Teadlased kogu maailmas võistlevad, et välja töötada üha võimsamaid, täpsemaid ja mitmekülgsemaid mudeleid. Need mudelid peavad olema suutelised vastama küsimustele, võtma kokku teavet, tõlkima tekste ja käsitlema mitmesuguseid keeltega seotud ülesandeid. Kuid ainuüksi suur hulk parameetreid ei taga edu. Iga parameeter tuleb peenhäälestada: see vajab sobivat matemaatilist väärtust, mis on võimalik vaid piisavate treeningandmetega. Protsess algab mudeli arhitektuuri kujundamisega – määratakse matemaatilised valemid ja koefitsiendid, mis algselt seatakse juhuslikele väärtustele. Sedamööda, kuidas mudel treeningandmeid töötleb, täpsustatakse neid koefitsiente. Kui arhitektuur on liiga suur ja andmekogum liiga väike, on mudel ebatäpne ja aldis „hallutsinatsioonidele“. Kui aga mudel on liiga väike, kuid andmekogum tohutu, jääb mudelil vajaka suutlikkusest kogu teavet tõhusalt vastu võtta.
Kuna kasutajate ootused on järjest suuremad, on treeningandmete nappus muutumas üha pakilisemaks probleemiks. Võrreldes inglise, saksa või poola keelega, on leedu keeles kättesaadavaid tekste oluliselt vähem. Teadlased tegelevad aktiivselt selle probleemi lahendamisega. Näiteks teeb ettevõte Tilde koostööd Vytautas Suure Ülikooli ja Vilniuse Ülikooliga , et koguda rohkem andmeid, mis on aluseks täpsemate mudelite väljatöötamisele. Suured tehnoloogiaettevõtted, nagu OpenAI, Meta, ja Google DeepMind , seisavad väiksemate keelte puhul samuti silmitsi piiratud andmete probleemiga. Nende mudelid on aga mitmekeelsed, mis teeb need kohanemisvõimelisemaks. Rakendades domineerivatest keeltest saadud teadmisi ja kasutades keeltevahelisi seoseid, saavad mitmekeelsed mudelid väiksemaid keeli paremini toetada. Just seetõttu arendabki Tilde oma mitmekeelset mudelit TildeLMkeskendudes selgelt väiksematele keeltele, nagu leedu, läti ja eesti keel.

Konkurents keelemudelite vahel on karm. Domineerimise nimel konkureerivad pidevalt sellised mudelid nagu GPT, Mistral, Llama, Gemma, Claude, Bloomja Solar. Üks suurem proovikivi on siiski veel: puudub teave selle kohta, kuidas need mudelid väiksemate keelte puhul toimivad. Keskmisele kasutajale võivad need mudelid tunduda muljet avaldavalt täpsed, kuid teatud valdkondades, nagu meditsiin või õigus, võivad isegi väiksematel vigadel olla tõsised tagajärjed. Lisaks kuuluvad paljud enim arenenud mudelid (nt GPT) eraettevõtetele, mis reguleerivad andmetele juurdepääsu. See tekitab muret tundlike andmete turvalisuse pärast ja raskendab nende andmete rakendamist kriitilistes valdkondades.
Kas on olemas alternatiive? Jah, avatud kaaludega mudelid! Kasutajad saavad need otse oma arvutisse alla laadida ja teha ühte järgmistest: 1) peenhäälestada oma andmetega või 2) kasutada neid olemasoleval kujul, koos hoolikalt viimistletud juhistega. Esimene lähenemisviis nõuab täiendavaid treeningandmeid ja märkimisväärseid andmetöötlusressursse, muutes selle paljudele kasutajatele kättesaamatuks. Seetõttu keskendusime oma hiljutises uuringus, mis on vastu võetud ette kandmiseks teaduskonverentsil NoDaLiDa/Baltic-HLT, teise lähenemisviisi hindamisele.
Uuringus testiti 12 eri keelemudelit, et hinnata nende võimet mõista ja luua teksti leedu, läti ja eesti keeles. See hõlmas nii omandipõhiseid mudeleid (GPT-3 .5 Turbo, GPT-4, ja Gpt-4o) kui ka avatud kaaludega mudeleid (Llama 3,3.1 ja 3.2 koos 3, 8 ja 70 miljardi parameetriga; Mistral 12 miljardi parameetriga; Gemma2 9 ja 27 miljardi parameetriga ning Phi 3 ja 14 miljardi parameetriga).
Esimene katse keskendus masintõlke täpsusele, võrreldes tõlkeid inglise keele ja Baltimaade kolme keele vahel. Ei ole üllatav, et parimaid tulemusi saavutasid GPT mudelid, kuid Gemma2 (27 miljardit parameetrit) ja Llama 3.1 (70 miljardit parameetrit) esitasid tõlkekvaliteedi, mis oli võrreldav GPT mudelitega. Kõige kehvemaid tulemusi andsid Phi mudelid. Tulemusi võrreldi ka ühe enim arenenud masintõlkesüsteemiga DeepL, mille tõlkekvaliteet vastas Gpt-4oomale. See näitab, et suured keelemudelid on nüüd võimelised tootma tõlkeid, mis konkureerivad spetsiaalsete tõlkesüsteemide tõlgetega.
Teises ülesandes pidid mudelid vastama valikvastustega küsimustele leedu, läti ja eesti keeles. See ei nõudnud mitte ainult arusaamist, vaid ka oskust esitada õige vastus sobivas vormis. Taas olid parimad mudelid Gpt-4o, Llama 3.1 (70 miljardit parameetrit) ja Gemma2 (27 miljardit parameetrit). Inglise keelega võrreldes oli aga väiksemate keelte täpsus oluliselt madalam.
Kolmandas katses hinnati, kui hästi võiksid need mudelid vastata avatud küsimustele leedu ja läti keeles eri valdkondades. Parimad mudelid saavutasid 80–90% täpsuse. Hinnati ka tekstiloome ladusust. Kolm parimat mudelit jäid ka siin samaks. Lisaks testisime ettevõtte Neurotechnology välja töötatud ühekeelseid Llama2mudeleid (7 miljardit ja 13 miljardit parameetrit), mis olid kohandatud spetsiaalselt leedu keele jaoks. Need mudelid tekitasid erakordselt ladusat leedukeelset teksti, kuid nende täpsus oli siiski oluliselt madalam kui suurtel mitmekeelsetel mudelitel.
See teadustöö kinnitas taas tähtsat asjaolu: treeningandmete kvaliteet ja mitmekesisus on äärmiselt olulised . Kui tahame, et keelemudelid saavutaksid väiksemate keelte puhul sama täpsuse kui suuremate keelte puhul, on oluline aktiivne koostöö teadusringkondades. See hõlmab pidevat andmekogumist ja spetsiaalsete mudelite väljatöötamist. Tehkem võistlemise asemel koostööd!