Tilde publikavo dirbtinio intelekto modelį Europos kalboms TildeOpen LLM  

Pavadinimo vaizdas su ekrano apkabinama veido platforma

Latvijos kalbų technologijų įmonė Tilde publikavo atvirojo kodo didįjį kalbos modelį (DKM) TildeOpen LLM – dirbtinio intelekto (DI) sprendimą, skirtą tekstui Europos kalbomis generuoti. Unikalusis DKM, kurį sukurti įmonei Tilde patikėjo Europos Komisija, laisvai pasiekiamas visiems. Jis leidžia remiantis TildeOpen baze kurti specializuotus, konkrečiai užduočiai pritaikytus modelius, puikiai veikiančius mažųjų Europos šalių kalboms. 

Naujasis didysis kalbos modelis – tikslesnis ir saugesnis  

Pirmaujančių Latvijos dirbtinio intelekto specialistų sukurtas DKM tiksliau atitinka mažų kalbų gramatikos principus ir yra saugesnis. Kūrėjai gali jį įdiegti vietiniame serveryje, taip užtikrindami, kad visa DKM pateikta informacija liktų jų vietinėje aplinkoje arba saugioje debesies saugykloje. Populiarieji komerciniai kalbos modeliai dažniausiai laikomi JAV arba Azijoje esančiuose duomenų centruose ir ne visada atitinka ES duomenų apsaugos ir duomenų privatumo politikos standartus. 

„Populiarieji komerciniai kalbos modeliai, pvz., ChatGPT, daugiausia mokomi naudojant anglų kalbos duomenis, o tai reiškia, kad šia kalba generuojami rezultatai bus kokybiškesni nei kitomis, retesnėmis kalbomis gaunami rezultatai. Todėl pasitaiko nemažai nesklandžių sakinių konstrukcijų ir žodžių tvarkos, gramatikos klaidų, netiksliai vartojami ir verčiami terminai. Šios klaidos ypač pastebimos DKM naudojant sudėtingesnėms, specializuotoms užduotims atlikti. Kaip tik todėl TildeOpen buvo pritaikytas Europos, ypač Baltijos šalių kalboms, taip pat ukrainiečių ir turkų kalboms, kurioms dažnai nėra tinkamai atstovaujama esamuose DKM sprendimuose. Tilde – viena iš nedaugelio Europos įmonių, kuri, pasitelkdama superkompiuterių išteklius ir unikalią patirtį DI srityje, gebėjo visiškai savarankiškai sukurti tokį pagrindinį DKM“, – apie naujojo modelio pranašumus sako Tilde vadovas Artūrs Vasiļevskis.  

Jis pabrėžia, kad TildeOpen geba sumaniai pritaikyti DKM latvių kalbai, todėl galimybę jį naudoti turėtų apsvarstyti valstybinės valdžios, savivaldybių įstaigos, taip pat vietos įmonės ir švietimo įstaigos. Be to, Europos Komisija skatina ES kūrėjus kurti DI produktus, skirtus naudoti vidaus rinkoje, ir laikyti juos saugiuose Europos ištekliuose, atitinkančiuose ES duomenų saugos direktyvas ir standartus. 

Europos superkompiuteriai – dirbtinio intelekto mokymui mažomis kalbomis  

gnoruodami mažąsias. Toks požiūris Europai netinka, nes vadinamosiomis mažosiomis kalbomis kalba daugiau nei 200 mln., arba beveik pusė, europiečių. Siekdama skatinti Europos pasaulinį konkurencingumą DI srityje, ES paskelbė konkursą „Large AI Grand Challenge“ir jo laimėtoja 2024 m. birželio mėn. buvo paskelbta viena iš Europos lyderių DI pagrįstų kalbos technologijų srityje – Latvijos įmonė Tilde.  

Laimėjimas suteikė galimybę pasinaudoti dviem milijonais greičiausio Europos superkompiuterio LUMIgrafikos procesoriaus (GPU) valandų. Šios valandos buvo skirtos TildeOpen kurti. Šiais metais Tilde – vienai pirmųjų įmonių – buvo leista dirbti su naujai paleistu JUPITER – naujuoju šiuo metu Europoje greičiausiu superkompiuteriu. Dirbant su šiais galingais įrenginiais pirmoji TildeOpen versija sukurta maždaug per metus. 

Daugiau nei 30 mlrd. parametrų turinčio DKM bazinis modelis buvo mokomas naudojant gausybę iš įvairių šaltinių gautos bendrosios informacijos. Šį bazinį modelį naudotojai gali pritaikyti konkrečioms užduotims atlikti, pavyzdžiui, sukurti DI asistentą, puikiai kalbantį viena iš Europos kalbų.  

TildeOpen yra atvirojo kodo sprendimas, laisvai pasiekiamas valstybinėms įstaigoms, įmonėms, mokslininkams, studentams, medicinos įstaigoms, finansų ir draudimo sektoriams, ir šį modelį galima naudoti pagal sektoriaus poreikius.  

Modelį galima saugiai laikyti ir vietiniame serveryje, ir debesų saugykloje, jis pritaikytas toms Europos kalboms, kurių populiariausiuose sprendimuose dažnai yra nepakankamai. 

Tildeopen buvo mokoma LUMI superkompiuteriu naudojant AMD Instinct ™ MI250X greitintuvus. AMD aparatinės įrangos naudojimas padėjo rengti plataus masto mokymus, kurių reikia norint sukurti 30 mlrd. EUR vertės Europos kalbų parametrų modelį.  

Tildeopen LLM 1 versija išleista platformoje Hugging Face.   

Įdomu, kaip jūsų organizacijoje įdiegti DI?
Susisiekite su mumis šiandien ir sužinokite, kaip mūsų sprendimai gali pagerinti jūsų darbo eigą.