Dirbtinio intelekto lenktynės: kaip sekasi lietuvių ir kitoms mažoms kalboms?
„Tilde“ komanda 2025 m. vasario 4 d.
Dar devintajame dešimtmetyje atsiradę statistiniai kalbos modeliai per kelias dešimtis metų gerokai patobulėjo. Keitėsi jų kūrimo metodikos, augo apdorojamų duomenų kiekiai, o kartu – ir modelių sudėtingumas. Jų parametrų (t. y. matematinėse formulėse naudojamų koeficientų) skaičius nuolat didėjo, kol galiausiai 2020 m., pasirodžius „ChatGPT“,išpopuliarėjo terminas „didysis kalbos modelis“. Šiandien jau sunku rasti žmogų, kuris apie tai nebūtų girdėjęs. Tačiau koks kalbos modelis laikomas „dideliu“? Kadaise 3 mlrd. parametrų modelis atrodė milžiniškas, o šiandien tai jau nieko nestebina. „OpenAI“ neatskleidžia tikslių duomenų apie „GPT-4“modelį, tačiau manoma, kad jo parametrų skaičius gali siekti nuo 1 iki 10 trilijonų.
Mokslo pasaulyje vyksta tikras proveržis – publikacijų apie didžiuosius kalbos modelius gausu kaip niekada anksčiau, o kiekviena šalis ir tyrimų grupė stengiasi sukurti savo modelį – kuo galingesnį, tikslesnį ir universalesnį. Tokie modeliai turi gebėti atsakyti į klausimus, generuoti santraukas, versti tekstus ir atlikti daugybę kalbinių užduočių. Tačiau vien tik didelis parametrų skaičius dar nieko negarantuoja. Kiekvienas parametras turi būti suderintas (t. y. jam turi būti priskirta tinkama matematinė reikšmė), o tai įmanoma tik turint pakankamai mokymo duomenų.
Kaip mokomi šiuolaikiniai didieji kalbos modeliai? Pirmiausia sukonstruojama jų architektūra – matematinės formulės ir jų koeficientai, kurie iš pradžių užpildomi atsitiktinėmis reikšmėmis. Vėliau, analizuojant mokymo duomenis, šie koeficientai tikslinami. Jei architektūra per didelė, o duomenų per mažai – modelis veiks netiksliai ir „haliucinuos“. Jei modelis per mažas, bet duomenų labai daug – jis neturės pakankamai pajėgumų įsisavinti visą informaciją. Augant vartotojų lūkesčiams, vis aktualesne problema tampa duomenų trūkumas. Tekstų lietuvių kalba gerokai mažiau nei, pavyzdžiui, anglų, vokiečių ar lenkų kalbomis. Todėl tyrėjai vis dažniau imasi spręsti šią problemą. Bendrovė „Tilde“ kartu su Vytauto Didžiojo ir Vilniaus universitetais šiuo metu vykdo projektus, siekdama sukaupti daugiau duomenų, kurie ateityje taps pagrindu kurti dar tikslesnius modelius. Didžiosios kompanijos, tokios kaip „OpenAI“, „Meta“, ir „Google DeepMind“, taip pat susiduria su mažesnių kalbų duomenų trūkumo problema, tačiau jų modeliai yra daugiakalbiai. Daugiakalbiai modeliai pasižymi lankstumu – jie lengviau palaiko mažesnes kalbas, nes perima žinias iš didžiųjų kalbų ir išnaudoja tarpkalbinius ryšius. Būtent dėl šios priežasties „Tilde“ kuria savo daugiakalbį modelį „TildeLM“, tačiau, skirtingai nei didžiosios kompanijos, ypatingą dėmesį skiria mažesnėms (pavyzdžiui, lietuvių, latvių, estų) kalboms.

Kalbos modelių pasaulyje vyksta tikros lenktynės. GPT, „Mistral“, „Llama3.1“, „Gemma“, „Bloom“, „Claude“, „Solar“ ir daugelis kitų didžiųjų kalbos modelių nuolat konkuruoja tarpusavyje. Tačiau išlieka viena problema – apie šių modelių veikimą naudojant mažesnių kalbų duomenis vis dar trūksta informacijos. Paprastam vartotojui tokių modelių aukštas tikslumas atrodo įspūdingas, tačiau yra sričių, pavyzdžiui, medicina ar teisė, kur reikalavimai yra gerokai griežtesni, nes klaidos gali turėti rimtų pasekmių. Be to, daugelis populiariausių modelių (pvz., GPT) yra uždari, priklauso išorinėms kompanijoms, kurios valdo pačius modelius ir kontroliuoja duomenų srautus. Dėl to tokių modelių taikymas tampa sudėtingesnis, ypač kai svarbu užtikrinti jautrių duomenų saugumą.
Alternatyva? Atvirų svorių modeliai! Juos galima tiesiog parsisiųsti į savo kompiuterį ir naudoti dviem būdais: 1) pakoreguojant su savo duomenimis arba 2) be pakeitimų, tiesiog teisingai suformuluojant užklausas. Pirmasis variantas yra priimtinas ne visiems vartotojams, nes reikia papildomų mokymo duomenų ir pakankamai didelių skaičiavimo pajėgumų. Todėl buvo svarbu ištestuoti antrojo varianto galimybes: atliktas tyrimas detaliai aprašytas mokslinėje publikacijoje, kuri įtraukta į „NoDaLiDa & Baltic HLT“ konferencijos programą.
Šio tyrimo metu testavome 12 skirtingų kalbos modelių, siekdami įvertinti jų gebėjimą suprasti ir generuoti tekstus lietuvių, latvių bei estų kalbomis. Išbandėme tiek mokamas uždarojo kodo modelių versijas –„GPT-3.5 Turbo“, „GPT-4“, ir „GPT-4o“tiek atvirų svorių modelius:„Llama“(3, 3.1, 3.2 versijas su 3, 8 ir 70 mlrd. parametrų), „Mistral“ (12 mlrd.), „Gemma2“ (9 ir 27 mlrd.) ir „Phi“ (3 ir 14 mlrd.).
Pirmasis eksperimentas buvo skirtas mašininio vertimotikslumui įvertinti, lyginant vertimus iš anglų į lietuvių/latvių/estų kalbas ir atvirkščiai. GPT modelių rezultatai buvo aukščiausi, tačiau nustebino ir 27 mlrd. parametrų „Gemma2“ bei 70 mlrd. parametrų „Llama3.1“ , kurių vertimo kokybė buvo gana artima GPT modeliams. Prasčiausiai veikė „Phi“ modeliai. Didžiųjų kalbos modelių rezultatus palyginome su „DeepL“– viena pažangiausių mašininio vertimo sistemų – ir pastebėjome, kad jos vertimo kokybė prilygo „GPT-4o“modeliui. Tai rodo, kad didieji kalbos modeliai jau geba generuoti vertimus, konkuruojančius su specializuotomis vertimo sistemomis.
Kitoje užduotyje modeliai turėjo atsakyti į klausimus lietuvių, latvių ir estų kalbomis, pasirinkdami tinkamo atsakymo varianto ID. Ši užduotis reikalavo ne tik suprasti klausimą ir žinoti atsakymą, bet ir gebėti jį pateikti tinkama forma. Geriausiai pasirodė tie patys trys modeliai: „GPT-4o“, „Llama3.1“ (70 mlrd.) ir „Gemma2“ (27 mlrd.). Rezultatus palyginome su anglų kalba – skirtumas akivaizdus. Tikslumas mažosiomis kalbomis vis dar gerokai atsilieka nuo didžiųjų kalbų.
Trečiojo eksperimento metu tikrinome, kaip didieji kalbos modeliai geba atsakyti į atvirus įvairių sričių klausimus lietuvių ir latvių kalbomis. Geriausi modeliai pasiekė 80–90 % tikslumą. Taip pat vertinome jų generuojamo teksto sklandumą, bet ir čia lyderių sąrašas nesikeitė. Be to, vertindami rezultatus lietuvių kalba, išbandėme ir „Neurotechnology“ sukurtus vienakalbius „Llama2“(7 ir 13 mlrd. parametrų) modelius, pritaikytus būtent lietuvių kalbai. Jie gebėjo generuoti itin sklandų lietuvišką tekstą, tačiau atsakymų tikslumu vis dar gerokai nusileido didiesiems daugiakalbiams modeliams.
Šis tyrimas tik dar kartą patvirtino, koks svarbus yra kokybiškų duomenų kiekis ir įvairovė. Jei norime, kad modeliai, taikomi mažosioms kalboms, pasiektų tokį pat tikslumą kaip didžiųjų kalbų, mokslo bendruomenė turi aktyviai bendradarbiauti, nuosekliai rinkti duomenis ir kurti specializuotus modelius. Todėl ne konkuruokime, o bendradarbiaukime!