Daugiakalbio DI tyrimai ir kūrimas

„Tilde“ yra pagrindinis kalbos technologijų mokslinių tyrimų centras Pabaltijyje, turintis 30 metų Europos mokslinių tyrimų projektų ir daugelio vietinių projektų patirties Estijoje, Latvijoje ir Lietuvoje. Mūsų pačių tyrėjų grupė bendradarbiauja su pagrindiniais Europos mokslinių tyrimų centrais, kad būtų tobulinamos naujausios kalbos technologijų, pvz., automatinio vertimo, kalbinių AI ir dialogo sistemų, kalbos atpažinimo ir sintezės, taip pat pagrindinių kalbos modelių, sritys.

Nuodugnių tyrimų sritys

Mašininis vertimas

Kuriame domenui pritaikyto, adaptyvaus ir terminus atpažįstančio mašininio vertimo inovacijas, plėtojame patikimumo, paklaidų koregavimo ir didžiųjų kalbos modelių metodus.

Pokalbių DI

Koncentruojamės į daugiakalbės natūraliosios kalbos supratimą, semantinį indeksavimą, LLM grįstą ir išorine informacija papildytą generavimą bei personalizavimą.

Kalbos technologijos

Tiriame pakopinį ir tiesioginį kalbos atpažinimą ir šnekos vertimą, kelių kalbėtojų ir daugiakalbę kalbos sintezę, šnekos atpažinimą realiuoju laiku, automatinį subtitravimą ir dubliavimą.

Teksto analizė

Kuriame daugiakalbių įvardytų subjektų atpažinimo, anonimizavimo ir pseudonimizavimo, terminų atpažinimo ir rinkimo, morfologinės analizės, lematizacijos, kalbos dalies žymėjimo ir kitus įrankius.

Žinių valdymas

Mes išlaikome didžiausią termbanką Europoje - EuroTermBank, kuriame kuriamos terminų valdymo ir elektroninio žodyno priemonės.

Nuo šiol mūsų mašininis vertimas pagrįstas „TildeOpen LLM“

Pritaikėme modelį mašininio vertimo reikmėms ir jį visiškai integravome į „Tilde MT“, todėl reikšmingai pagerėjo 34 Europos kalbų vertimo kokybė.

Šiuo metu vykdomi tyrimai

AI kalbos technologijos ir jų įgyvendinimo parama Ukrainos integracijai į Europos Sąjungą skatinti

Šiuo projektu sprendžiamas Ukrainos nacionalinės teisės aktų vertimo ir jų suderinimo su ES acquis uždavinys. Tam reikalingas tikslumas, teisinis tikslumas ir koordinavimas tarp institucijų. „Tilde“ savo saugią, AI pagrindu veikiančią vertimo platformą pritaiko Ukrainos teisiniams ir administraciniams tekstams. Platforma pateiks kokybiškus vertimus dideliu mastu, sumažins rankinį darbą ir užtikrins nuoseklų ES teisinės terminijos vartojimą. Ji apima automatinį vertimą, vertimo atmintį ir terminologijos portalą, pritaikytą Ukrainos viešajam sektoriui. Projektas įgyvendinamas finansuojant iš Latvijos valstybės biudžeto ir remiant Latvijos užsienio reikalų ministerijai ir Centrinei finansų ir susitariančiajai agentūrai (CFLA).

Europos kalbos duomenų erdvė

Naudodamos Kalbos duomenų erdvę (LDS), atitinkamos suinteresuotosios šalys galės dalytis savo kalbos duomenimis ir kitais kalbos ištekliais, taip pat monetizuoti savo kalbos duomenis ir kalbos išteklius vienoje platformoje, atsižvelgdamos į ES vertybes ir ES taisyklių atitiktį.

FORTISSIMO PLUS subprojektas: vietoje diegiama įmonės ieška ir klausimų ir atsakymų sprendimas

Dabartinės pažangiausios atviros LLMs nepakankamai remia daugumą Europos kalbų, todėl daugiakalbėje aplinkoje veikiančios organizacijos susiduria su dideliais sunkumais. Nors šie modeliai yra pakankamai veiksmingi kelioms pagrindinėms Europos kalboms, jie dažnai nepakankamai aprėpia daugelį kitų kalbų, įskaitant Rytų Europos kalbas, ir yra nepakankamai tikslūs. Šio projekto tikslas – spręsti šį neatitikimą kuriant vietoje diegiamą AI pagrįstą įmonių paieškos ir atsakymų į klausimus sprendimą nepakankamai atstovaujamoms Europos kalboms, ypač Balto-slavų šeimos kalboms. Projektu bus sukurta saugi, išplečiama ir pritaikoma PG sistema, kuri sklandžiai integruojama į organizacijos infrastruktūrą, užtikrinant patikimą duomenų privatumą ir griežtų valdymo reikalavimų laikymąsi.

Naujausi leidiniai

267

Rinaldsas Vīksna ir Inguna Skadiņa. 2025. Anonimiškumas: daugiakalbio dokumento pseudonimo įrankis. 15-osios tarptautinės konferencijos dėl pastarojo meto pažangos natūralios kalbos apdorojimo srityje - natūralios kalbos apdorojimo generatyviniame AI trynime, 1327-1332.

266

Jurgita Kapočiūtė-Dzikienė, Daiga Deksne, Inguna Skadiņa, Raivis Skadiņš ir Askaras Salimbajevas. 2025. Vienakalbė ir daugiakalbė teksto klasifikacija. Taikomųjų programų duomenų mokslas. Kompiuterinės žvalgybos tyrimai, tūris 1206, 55-82, Springer.

265

Jurgita Kapočiūtė-Dzikienė, Tomas Bergmanis ir Mārcis Pinnis. 2025. AI lokalizavimas: Baltijos valstybių kalbų atvirojo svorio kalbų modelių vertinimas. Bendros 25-osios Šiaurės šalių kompiuterinės lingvistikos konferencijos ir 11-osios Baltijos šalių konferencijos dėl žmogaus kalbos technologijų (NoDaLiDa/Baltic-HLT 2025) posėdžiai, 287-295.