Kaip išsaugosime latvių kalbą dirbtinio intelekto ir didžiųjų kalbos modelių laikmečiu? 

Meninis pavadinimo vaizdas su kompiuterio ekranu ir kai kuriomis anksčiau minėtomis kalbomis

Dirbtinis intelektas (DI) šiandien tampa neatsiejama kasdienių technologijų dalimi, o jo taikymo galimybės sparčiai auga. Daugeliui DI asocijuojasi su tokiomis priemonėmis kaip ChatGPT, kurios pagrįstos didžiaisiais kalbos modeliais, tobulinamais naudojant didžiulius teksto ir kitų duomenų kiekius. Tačiau šiame procese mažų bendruomenių, įskaitant latvių, kalbos dažnai lieka šešėlyje. Pavyzdžiui, daugiau nei 90 % duomenų, naudojamų ChatGPT modeliui mokyti, yra anglų kalba, o kitą dalį daugiausia sudaro duomenys tokiomis didžiosiomis kalbomis kaip vokiečių, prancūzų, portugalų, ispanų ir kinų bendrinė kalba. Tai tik viena priežasčių, kodėl Latvijai reikia sukurti savo nacionalinį didįjį kalbos modelį, kuris padėtų užtikrinti latvių kalbos išlikimą ir plėtrą skaitmeniniame laikmetyje. Tikimės, kad neseniai vykusiame valstybės prezidento Edgaro Rinkevičiaus susitikime su OpenAI vadovu Samu Altmanu buvo aptarta ir ši problema. 

Vis daugiau dirbtinio intelekto sprendimų, pavyzdžiui, ChatGPT, Microsoft Copilot, Gemini, kuriama naudojant didžiųjų kalbos modelių technologiją. Labai tikėtina, kad ši technologija ilgainiui pakeis visas iki šiol naudojamas technologijas – mašininį vertimą, kalbos atpažinimą, teksto analizę, kompiuterinę regą ir kt. Naudojant dirbtinį intelektą būtų galima kaupti tekstinius duomenis ir vaizdus didžiajam kalbos modeliui prieinamu būdu. Tai būtų visų ateities sprendimų bazinė technologija, kurią šiuo metu galime tik įsivaizduoti ar pamatyti fantastiniuose filmuose.  

JAV dominuoja technologijų milžinai, o Europa eina kitu keliu  

DI įrankių kūrimo srityje šiuo metu dominuoja JAV technologijų milžinai – Microsoft, Google, Meta, Amazon. Šios įmonės turi galingus kompiuterijos, intelektinius pajėgumus ir didžiulius finansinius išteklius. Kadangi anglų kalba yra pagrindinė JAV darbo ir duomenų kalba, šie milžinai kuria kokybiškus, plačiai naudojamus ir greitai rinką užvaldančius sprendimus. Tačiau šios JAV įmonės taip pat žvalgosi į procesus ir įvykius kitose pasaulio dalyse. Jos aiškiai suvokia Europos rinkos potencialą ir yra pasirengusios greitai ir efektyviai tenkinti esamą itin kokybiškų didžiųjų kalbos modelių, pritaikytų Europos kalboms, poreikį. Tai liudija ir neseniai įvykęs sandoris, kai technologijų milžinė AMD už 665 mln. JAV dolerių įsigijo Suomijos įmonę Silo.ai, laikomą Šiaurės Europos šalių kalboms skirtų didžiųjų kalbos modelių kūrimo lydere.  

Europos Sąjunga (ES) ėjo kitu keliu. Čia technologijos nėra pramonės sektoriaus milžinų rankose. Didžiųjų kalbos modelių diegimą galima palyginti su pramonės revoliucija – tai automatizavimo ir robotizacijos ateitis, tik jau kitu lygmeniu. Europos šalyse tai puikiai suprantama, todėl bendromis pastangomis buvo sukurti keli superkompiuteriai, kurie pagal įvairias inovacijų programas taps prieinami šio sektoriaus įmonėms. Europos Komisijos surengtą konkursą „Didysis dirbtinio intelekto iššūkis“ laimėjusi Latvijos įmonė Tilde – viena pirmųjų keturių įmonių, kurios galės pasinaudoti galingiausiu Europos superkompiuteriu LUMI. Jį pasitelkdama Tilde numato sukurti daugiakalbį didįjį kalbos modelį latvių, lietuvių ir kitomis mažų Europos bendruomenių kalbomis, prilygstantį pokalbių robotui ChatGPT. Naudojamų duomenų kiekis bus labai didelis ir tokio didžiųjų kalbos modelių mokymo dar nebuvo vykdoma nei Baltijos šalyse, nei kitur Europoje esančiuose duomenų centruose. Šis fundamentalus daugiakalbis modelis bus pagrindas būsimiems nacionaliniams didiesiems kalbos modeliams kurti ir DI sprendimams taikyti.  

Reikia politinės iniciatyvos 

Latvija turi sukurti nacionalinės kalbos modelį, kad ir toliau galėtų naudoti ir plėtoti dirbtinio intelekto priemones latvių kalba ir sėkmingai konkuruoti pasaulyje. Atitinkamos iniciatyvos jau vykdomos beveik visose Europos šalyse. Pavyzdžiui, Nyderlandai ką tik pradėjo įgyvendinti nacionalinio lygmens programą ir skyrė kelių milijonų eurų finansavimą nacionalinės kalbos modeliui kurti. 2023 m. lapkričio mėn. Lenkija taip pat pradėjo vienų metų projektą, kurio tikslas – sukurti nacionalinės kalbos modelį. Mūsų kaimynai lietuviai birželio pabaigoje atliko pirkimą dėl Lietuvos nacionalinės kalbos modelio kūrimo ir diegimo. Estijos vyriausybė neseniai skyrė finansavimą Tartu universitetui pirmajam plėtros etapui, kurio metu atpažįstami ir renkami duomenys, siekiant toliau plėtoti didžiųjų kalbos modelių mokymą. Didžiosiose šalyse – Vokietijoje, Prancūzijoje ir Ispanijoje – jau sukurtos kelios nacionalinės kalbos modelio versijos. 

Ką turi daryti Latvija? Pirmiausia būtina vyriausybės iniciatyva, biudžetas, taip pat reikia mažinti administracines kliūtis, nes duomenims taikomi tam tikri ribojimai. Duomenyse taip pat gali būti konfidencialios informacijos, todėl būtina ją anonimizuoti. Antra, reikia pasitelkti akademinę aplinką ir kitas organizacijas ar duomenų turėtojus – Nacionalinę biblioteką, archyvą, žiniasklaidą. Trečia, žinoma, Tilde, ir kitos šios sektoriaus įmonės turi būti tam pasiruošusios savo žiniomis ir jau sukurtais technologiniais sprendimais. Latvių kalbai su gausia leksikos, morfologijos ir sintaksės formų įvairove reikia ypatingo požiūrio kuriant dirbtinį intelektą. Paminėtina, kad nacionalinio didžiojo kalbos modelio kūrimas yra ne tik technologinis projektas, bet ir kultūros bei kalbos išsaugojimo užmojis. 

Ateities perspektyvos ir Latvijos pranašumai 

Jau atskleista DI technologijos galia ir praktinio pritaikymo pranašumai asmeninio naudojimo verslo srityse, pavyzdžiui, renkant informaciją, rengiant atsakymus ir analizuojant tekstą. Ši technologija padeda gerokai padidinti žmogiškųjų išteklių pajėgumą ir našumą ir žmonės gali sutelkti dėmesį į didesnės pridėtinės vertės darbą. 

Latvija kaip maža šalis geba greitai perimti ir įdiegti naujas technologijas. Sukūrusi nacionalinį didįjį kalbos modelį, Latvija gali įgyvendinti reikšmingą technologinį proveržį, kuris padės ne tik išsaugoti latvių kalbą ateities skaitmeniniame pasaulyje, bet ir gauti ekonominės naudos didinant šalies konkurencingumą pasaulinėje rinkoje. 

Todėl labai svarbu, kad Latvija suvoktų šią galimybę ir imtųsi būtinų priemonių nacionalinės kalbos modeliui sukurti, stiprindama latvių kalbos ir kultūros reikšmę dirbtinio intelekto amžiuje. 

Artūrs Vasiļevskis, Tilde valdybos pirmininkas