Kuidas säilitada läti keel tehisintellekti ja suurte keelemudelite ajastul?
Tiim Tilde 14. oktoober 2024Tehisintellekt (AI) on tänapäeval saanud igapäevatehnoloogia lahutamatuks osaks ja selle levik aina kasvab. Paljud seostavad seda selliste IT-vahenditega nagu ChatGPT – selle aluseks on suured keelemudelid, mida on treenitud tohutu suurte teksti- ja muude andmemahtudega. Kogu selles protsessis aga jäävad väikesed keeled (sh läti keel) sageli siiski varju. ChatGPT mudeli treenimisel kasutatud andmetest on üle 90% ingliskeelsed ning ülejäänud osa moodustavad valdavalt suurte keelte (saksa, prantsuse, portugali, hispaania ja mandariini hiina keel) andmed. See on vaid üks põhjustest, miks peab Läti looma omaenda rahvusliku suure keelemudeli, mis suudaks digiajastul läti keele säilumise ja arengu tagada. Loodetavasti räägiti sellest teemast ka Läti presidendi Edgars Rinkēvičsi ja OpenAI tegevjuhi Sam Altmani hiljutisel kohtumisel.
Üha enam tehisintellekti lahendusi luuakse suurte keelemudelite tehnoloogiat kasutades – selle näideteks on ChatGPT, Microsoft Copilot ja Gemini. On väga võimalik, et pikaajalises perspektiivis asendab see tehnoloogia kogu senise tehnoloogia – masintõlke, keeletuvastuse, tekstianalüüsi ja tehisnägemise. Tehisintellekt võiks tekstiandmed ja pildid kokku koondada, tehes selle kõik suures keelemudelis kättesaadavaks. Tegemist oleks kõikide selliste tulevikulahenduste alustehnoloogiaga, mis eksisteerivad praegu vaid meie ettekujutustes või fantaasiafilmides.
USAs valdavad tehnoloogiahiiud, Euroopa läheb teist teed
AI-vahendeid töötavad praegu valdavalt välja sellised USA tehnoloogiahiiud nagu Microsoft, Google, Meta ja Amazon. Neil ettevõtetel on tohutu arvutivõimsus, intellektuaalne suutlikkus ja ka märkimisväärsed rahalised ressursid. Kuna USA töö- ja andmekeel on peamiselt inglise keel, siis on nende hiiglaste väljatöötatud lahendused ülikvaliteetsed, laialdaselt kasutatavad ja kiirelt turgu vallutavad. Samas jälgivad nimetatud USA ettevõtted ka mujal maailmas toimuvaid protsesse ja sündmusi. Nad on selgelt Euroopa turupotentsiaalist teadlikud ning valmis kiirelt ja tõhusalt Euroopa keeltele kohandatud kvaliteetsete suurte keelemudelite pragust puudust täitma. Sellest annab tunnistust hiljutine tehing, mil tehnoloogiahiid AMD ostis 665 miljoni USA dollari eest ära Soome ettevõtte Silo.ai, keda peetakse Põhja-Euroopa riikide keelte suurte keelemudelite väljatöötamise valdkonna liidriks.
Euroopa Liit (EL) aga on läinud teist teed. Siin ei ole tehnoloogia selle valdkonna hiidude käes. Suurte keelemudelite kasutuselevõttu võib võrrelda tööstusrevolutsiooniga – sellest saab automatiseerimise ja robotiseerimise tulevik, seda aga juba teisel tasemel. Euroopa riigid teavad seda väga hästi ja seetõttu on ühisel jõul rajatud mitmeid superarvuteid, mis tehakse erinevate innovatsiooniprogrammide raames valdkonna ettevõtetele kättesaadavaks. Läti ettevõte Tilde võitis Euroopa Komisjoni korraldatud tehisintellekti suure väljakutse konkursi Large AI Grand Challenge – Tilde on üks esimesest neljast ettevõttest, kellel on võimalus kasutada Euroopa kõige võimsamat superarvutit LUMI. Selle abil töötab Tilde läti, leedu ja muude Euroopa väikeste keelte jaoks välja ChatGPT juturoboti laadse mitmekeelse suure keelemudeli. Kasutatav andmemaht on nii suur, et selliste suurte keelemudelite treenimine ei ole Baltimaades ega ka mujal Euroopas asuvates seni saadaolevates andmekeskustes võimalik olnud. Selline fundamentaalne mitmekeelne mudel on tulevaste riiklike suurte keelemudelite rajamise ja AI-lahenduste kohandamise alus.
Vajatakse poliitilist algatust
Tulevikus lätikeelsete AI-vahendite kasutamis- ja arendamisvõimaluse säilitamiseks ning teiste maailma riikidega edukaks konkureerimiseks peab Läti looma riikliku keelemudeli. Selliseid algatusi viiakse ellu juba peaaegu kõikides Euroopa riikides. Näiteks hakati Madalmaades äsja ellu viima riiklikku programmi ja keelemudeli väljatöötamiseks tagati mitme miljoni euro suurune rahastus. 2023. aasta novembris alustati ka Poolas üheaastast projekti, mille eesmärk on luua riiklik keelemudel. Juuni lõpus sõlmisid meie naabrid leedulased Leedu riikliku keelemudeli väljatöötamise ja kasutuselevõtu hankelepingu. Eesti valitsus rahastas just Tartu Ülikoolis toimuvat esimest väljatöötamisetappi (andmete tuvastamine ja kogumine), et edaspidi suuri keelemudeleid õpetada. Suurriikides Saksamaal, Prantsusmaal ja Hispaanias on mitmed riikliku keelemudeli versioonid juba isegi välja töötatud.
Mida peaks tegema Läti? Esiteks on vaja valitsuse algatust, eelarvet ja halduslike tõkete vähendamist, sest andmed on teatud piirangutega. Need võivad sisaldada konfidentsiaalset teavet ja seetõttu on vaja need anonüümseks muuta. Teiseks peaks asjas osalema ka akadeemiline keskkond ja muud organisatsioonid ehk andmevaldajad – rahvusraamatukogu, arhiiv ja meedia. Kolmandaks peaks muidugi nii Tilde kui ka valdkonna muud ettevõtted olema valmis oma teadmiste ja juba väljatöötatud tehnoloogiliste lahendustega nimetatust osa võtma. Läti keele sõnavara, morfoloogilise ja süntaktilise laia mitmekesisuse tõttu läheb tehisintellekti loomisel vaja erilist lähenemist. Arvesse tuleb võtta, et suure riikliku keelemudeli väljatöötamine ei ole ainult tehnoloogiline projekt, vaid ka kultuuri ja keele säilitamise küsimus.
Tulevikuväljavaated ja Läti eelised
Juba praegu tõendab AI-tehnoloogia oma võimsust ja praktilisi kasutusvõimalusi nii individuaalselt kui ka äriotstarbeliselt näiteks teabe kogumisel, vastuste koostamisel ja tekstianalüüsis. See tehnoloogia suurendab oluliselt inimressursside võimekust ja tulemuslikkust, võimaldades inimestel keskenduda suurema lisandväärtusega töödele.
Lätil kui väikeriigil on võimalus uus tehnoloogia kiiresti omaks võtta ja juurutada. Riikliku suure keelemudeli koostamisel võib Läti tagada märkimisväärse tehnoloogilise läbimurde. Tuleviku digimaailmas läti keele säilitamisele lisaks tagab see ka majanduslikku kasu, suurendades riigi konkurentsivõimet üleilmsel turul.
Seepärast on oluline, et Läti oleks sellest võimalusest teadlik ning võtaks riikliku keelemudeli loomiseks vajalikke meetmeid, tugevdades tehisintellekti ajastul läti keele ja kultuuri positsiooni.
Artūrs Vasiļevskis, Tilde juhatuse esimees