Pagrindinis - Ar dirbtinio intelekto era „praris“ kalbas, kuriomis kalba nedaug žmonių?
Ar dirbtinio intelekto era „praris“ kalbas, kuriomis kalba nedaug žmonių?
Tuo metu, kai pasaulinė dirbtinio intelekto plėtra daugiausia orientuota į didžiąsias kalbas, Baltijos šalių kalbų technologijų įmonė „Tilde“ siekia priešingo tikslo – užtikrinti, kad kalbos, kuriomis kalba nedaug žmonių, taip pat būtų pastebimos, kokybiškos ir konkurencingos skaitmeniniame amžiuje.
„Tilde“ įsitikinusi, kad Europos kalbų gyvybingumas dirbtinio intelekto eroje neturi priklausyti pirmiausia nuo anglų kalba paremtų technologijų ar JAV ir Kinijos kompanijų. „Daugiausia dėmesio skiriame estų, latvių, lietuvių ir kitoms Europoje vartojamoms kalboms. Jei anksčiau mūsų tikslas buvo pasiūlyti geresnę vertimo kokybę nei „Google Translate“, šiandien galime pranokti „ChatGPT“ ir kitus didžiuosius kalbos modelius“, – sako įmonės vadovas Estijoje Kalle Kuusik.
„TildeOpen LLM“ yra pamatinis modelis, specialiai sukurtas Europos kalboms
Žinoma, nebuvo pamirštas ir didžiųjų kalbos modelių vystymas. Taigi „Tilde“ sukūrė savo pamatinį modelį „TildeOpen LLM“, kuriuo grindžiamas konkretus taikymas, pvz., automatinis vertimas ir teksto apibendrinimas, taip gerinant vertimo kokybę 34 Europos kalbomis.
Populiariausių JAV modelių atveju apie 90 % mokymo duomenų yra anglų kalba, o tai reiškia, kad šiuo pagrindu sukurti sprendimai yra stipriai šališki anglų kalbos atžvilgiu. Pavyzdžiui, estų kalboje tai gali pasireikšti svetimai skambančia sakinių struktūra ir modelio sugalvotais žodžiais. „TildeOpen“ sukurtas laikantis principo, kad visos 34 kalbos yra vienodai svarbios.
„Tilde“ stiprybė – ir mokslinė kompetencija: įmonėje dirba daugiau nei dešimt kalbos technologijų ekspertų, turinčių daktaro laipsnius. „Esame vienintelė įmonė Baltijos šalyse, kurianti naują didįjį kalbos modelį nuo nulio“, – sako K. Kuusik.
Modelio kūrimą parėmė Europos Komisija, kuri suteikė galimybę naudotis LUMI superkompiuteriu Suomijoje ir beveik dviem milijonais GPU valandų. Modelis sukurtas laimėjus Europos Komisijos konkursą „Large AI Grand Challenge“.
Iš tiesų veikiantis mašininis vertimas
„Vidutiniam naudotojui dažniausiai užtenka bendrųjų modelių, tokių kaip „ChatGPT“, tačiau profesionalioje aplinkoje jų kokybės dažnai nepakanka. Mūsų stiprybė – individualiai pritaikyti modeliai, kuriuose atsižvelgiama į įmonės terminiją, specifiką ir stilių. Įmonės gali susikurti savo terminų žodyną arba mokyti modelį pagal ankstesnius vertimus. Visa tai labai sunku pasiekti globaliais didelio masto sprendimais“, – priduria K. Kuusik.
Be lingvistinio tikslumo, svarbus ir techninis sprendimo kokybės aspektas. Naudodami „Tilde“ sprendimą galite būti tikri, kad vertimas išsaugos originalų „Word“ bei PDF dokumentų formatavimą, šriftus ir išdėstymą. Šie dalykai dažnai prarandami arba supainiojami naudojant bendruosius modelius.
Tas pats galioja ir internete. „Automatinis svetainių vertimas Estijoje dar nėra toks dažnas, tačiau jis leidžia išlaikyti turinį viena kalba ir automatiškai pasiūlyti lankytojui versiją jo gimtąja kalba“, – aiškina K. Kuusik. Tai turi tiesioginės įtakos verslui, nes žmonės labiau pasitiki turiniu savo gimtąja kalba, o tai padidina tikimybę, kad jie įsigis prekę.
„Net kibernetiniai nusikaltėliai ir sukčiai supranta, kad kreipimasis į žmones jų gimtąja kalba padidina sukčiavimo sėkmę. Žinoma, jų atveju tai nepateisinama.“
Paslaugų teikėjo patikimumas ir duomenų kontrolė
Sparčiai besikeičiančiame pasaulyje vis svarbesnė tampa ir duomenų sauga. „JAV ar Kinijos paslaugų teikėjų atveju įmonės neturi realios savo duomenų kontrolės, o mes esame čia pat – vietinė įmonė, kuri prisiima aiškią atsakomybę už informacijos valdymą“, – sako K. Kuusik.
Žinojimas, kad informacija nepalieka Europos, ypač svarbus viešajam sektoriui ir organizacijoms, dirbančioms su neskelbtina informacija. „Sprendimas buvo sukurtas laikantis Europos Sąjungos Dirbtinio intelekto akto ir yra platesnio tikslo – užtikrinti, kad svarbios technologijos liktų Europos kontrolėje – dalis“, – priduria K. Kuusik.
Klientas taip pat gali įdiegti mašininio vertimo platformą savo IT infrastruktūroje, kur visi duomenys yra visiškai jo kontroliuojami. Tik nedaugelis paslaugų teikėjų siūlo šią galimybę. Iki šiol vyravęs požiūris – perkelti visas paslaugas į debesį, tačiau daugeliui klientų vienintelis priimtinas sprendimas yra nuosava IT infrastruktūra.
Europos sprendimas
„Mūsų tikslas – pasiūlyti sprendimus, kurie iš tiesų veikia profesionalioje aplinkoje ir užtikrina patikimus rezultatus. Ir, kaip sakiau, tai yra labai svarbu, ypač kalboms, kuriomis kalba nedaug žmonių“, – pabrėžia K. Kuusik.
Tai suteiks Europos įmonėms ir institucijoms realią alternatyvą pasaulinio masto DI sprendimams: saugią, lanksčią ir atsižvelgiančią į vietos kalbos niuansus.
„Tilde“ jau daugiau nei dešimtmetį nuodugniai dirba kalbos technologijų srityje. Dabartinė įmonės veikla orientuota į mašininį vertimą, kalbos technologijas (transkribavimą ir kalbos sintezę), dirbtinio intelekto asistentus ir pokalbių robotus.
Straipsnis pirmą kartą publikuotas aripaev.ee
Įdomu, kaip jūsų organizacijoje įdiegti PG?
Susisiekite su mumis šiandien ir sužinokite, kaip mūsų sprendimai gali pagerinti jūsų darbo eigą


