Läti keeletehnoloogiaettevõte Tilde avaldas avatud lähtekoodiga suure keelemudeli (SKM) TildeOpen LLM. Tegemist on Euroopa keeltes teksti loomisele spetsialiseerunud tehisarulahendusega. Ainulaadse suure keelemudeli väljatöötamise usaldas Tildele Euroopa Komisjon ja see on kõigile huvilistele vabalt kättesaadav. See võimaldab TildeOpen-i baasil luua konkreetsetele ülesannetele kohandatud spetsiaalseid mudeleid, mis töötavad Euroopa väikeriikide keeltes suurepäraselt.
Uus suur keelemudel on täpsem ja turvalisem
Läti juhtivate tehisaruspetsialistide väljatöötatud suur keelemudel järgib väikekeelte grammatikat täpsemalt ja on ka turvalisem. Arendajad võivad selle paigutada kohalikku serverisse, olles seekaudu veendunud, et kogu suure keelemudeli teave jääb meie endi ruumidesse või turvalisse pilvtalletusteenusse. Populaarsed äriotstarbelised keelemudelid asuvad tavaliselt USA või Aasia andmekeskustes ning need ei vasta alati ELi andmekaitse- ja eraelu puutumatuse poliitika standarditele.
„Selliseid populaarseid äriotstarbelisi keelemudeleid nagu ChatGPT õpetatakse peamiselt ingliskeelsete andmetega. See tähendab, et selles keeles genereeritavad tulemused on kvaliteetsemad kui muude vähemlevinud keelte omad. See võib aga viia kohmaka lauseehituseni, kus sõnade järjekord ja grammatika on vigased, või isegi valesti kasutatavate ning valesti tõlgitud oskussõnadeni. Neid vigu võib eriti hästi märgata siis, kui suurt keelemudelit kasutatakse keerukamate ja spetsiifilisemate ülesannete jaoks. Just seepärast kohandati TildeOpen-i Euroopa ja eriti Balti keeltele ning samuti ukraina ja türgi keelele, mis ei ole olemasolevates suurtes keelemudelites piisavalt hästi esindatud. Tilde on üks vähestest Euroopa ettevõtetest, mis on suutnud superarvutite ressursside kasutamise ja tehisaru valdkonna ainulaadsete eksperditeadmiste kaudu täiesti iseseisvalt sellise põhilise suure keelemudeli välja arendada,“ selgitas uue mudeli eeliseid Tilde juhataja Artūrs Vasiļevskis.
Ta rõhutas, et TildeOpen suudab suure keelemudeli oskuslikult läti keelele kohandada ning seetõttu peaks selle kasutamist kaaluma ka riigiasutused, omavalitsused, kohalikud ettevõtted ja haridusasutused. See oli ka Euroopa Komisjoni üks tingimusi, et ELis asuvad arendajad looks siseturul kasutatavaid tehisarutooteid ning hoiaks neid ELi andmekaitsedirektiive ja -standardeid järgivates Euroopa turvalistes ressurssides.

Euroopa superarvutid väikekeelte tehisaru treenimiseks
ELis on 24 ametlikku ja üle 60 piirkondlikku keelt, aga maailma populaarseimate suurte keelemudelite arendajad keskenduvad suurematele keeltele, jättes väiksemad unarusse. Euroopale selline lähenemine aga ei sobi, sest nn väikekeeli räägib üle 200 miljoni eurooplase ehk ligi pool kogu elanikkonnast. Tehisaru valdkonnas Euroopa üleilmse konkurentsivõime edendamiseks kuulutas EL välja konkursi Large AI Grand Challenge. 2024. aasta juunis kuulutati selle võitjaks Läti ettevõte Tilde, kes on üks Euroopa tehisaru keeletehnoloogia liidritest.
Võit andis võimaluse kasutada Euroopa kiireima superarvuti LUMIgraafikaprotsessori (GPU) kahte miljonit tundi. Need tunnid anti just TildeOpen väljatöötamiseks. Käesoleval aastal sai Tildest ka üks esimestest ettevõtetest, kellel võimaldatakse töötada hetkel Euroopa kiireima ja äsja käimapandud superarvutiga JUPITER. Nimetatud seadmete võimsusele tuginedes õnnestus TildeOpen esimene versioon välja töötada umbes ühe aasta jooksul.
Üle 30 miljardi parameetriga suurt suure keelemudelit õpetati eri allikatest pärit tohutu hulga üldteabega, luues niimoodi baasmudeli. Seda baasi on kasutajail võimalik spetsiifiliste ülesannete täitmiseks kohandada, luues näiteks mõnes Euroopa keeles hästi vestleva tehisaruassistendi.
TildeOpen on avatud lähtekoodiga lahendus ning see on riigiasutustele, ettevõtetele, teadlastele, tudengitele, raviasutustele ning finants- ja kindlustusvaldkonnale mudeli tööstusharu põhiseks kasutamiseks vabalt kättesaadav.
Mudelit saab turvaliselt majutada nii kohalikus serveris kui ka pilvsalvestusruumis ning see on kohandatud nendele Euroopa keeltele, mis on sageli kõige populaarsemates lahendustes alaesindatud.
Tildeopen treeniti LUMI superarvutis AMD instinct ™ MI250X kiirendite abil. AMD riistvara kasutamine toetas Euroopa keelte 30 + miljardi parameetrimudeli väljatöötamiseks vajalikku ulatuslikku koolitust.
Platvormil on välja antud tildeopen LLM versioon 1 Hugging Face.