Daugiakalbio DI tyrimai ir kūrimas

„Tilde“ yra pagrindinis kalbos technologijų mokslinių tyrimų centras Baltijos regione, jau daugiau nei 30 metų dirbantis Europos mokslinių tyrimų projektuose ir daugybėje vietinių projektų Estijoje, Latvijoje ir Lietuvoje. Mūsų etatinė tyrėjų grupė bendradarbiauja su pagrindiniais Europos mokslinių tyrimų centrais, siekdama tobulinti naujausias kalbos technologijas, pvz., mašininio vertimo, pokalbių DI ir dialogo sistemų, šnekos atpažinimo ir sintezės bei pagrindinių kalbos modelių srityse.

Nuodugnių tyrimų sritys

Mašininis vertimas

Kuriame domenui pritaikyto, adaptyvaus ir terminus atpažįstančio mašininio vertimo inovacijas, plėtojame patikimumo, paklaidų koregavimo ir didžiųjų kalbos modelių metodus.

Koncentruojamės į daugiakalbės natūraliosios kalbos supratimą, semantinį indeksavimą, LLM grįstą ir išorine informacija papildytą generavimą bei personalizavimą.

Pokalbių DI

Tiriame pakopinį ir tiesioginį kalbos atpažinimą ir šnekos vertimą, kelių kalbėtojų ir daugiakalbę kalbos sintezę, šnekos atpažinimą realiuoju laiku, automatinį subtitravimą ir dubliavimą.

Kalbos technologijos

Kuriame daugiakalbių įvardytų subjektų atpažinimo, anonimizavimo ir pseudonimizavimo, terminų atpažinimo ir rinkimo, morfologinės analizės, lematizacijos, kalbos dalies žymėjimo ir kitus įrankius.

Teksto analizė

Prižiūrime didžiausią terminų banką visoje Europoje – „EuroTermBank“ ir kuriame terminų tvarkymo bei elektroninių žodynų įrankius.

Žinių valdymas

TildeOpen LLM dabar prieinamas Hugging Face 🎉

Susipažinkite su TildeOpen – mūsų naujuoju atviru pagrindu sukurtu didelių kalbų modeliu, skirtu Europos kalboms.  

Palaiko:

AI POSTŪMIS

Šiuo metu vykdomi tyrimai

LATDEV
AI kalbos technologijos ir jų įgyvendinimo parama Ukrainos integracijai į Europos Sąjungą skatinti
Šiuo projektu sprendžiamas Ukrainos nacionalinės teisės aktų vertimo ir jų suderinimo su ES acquis uždavinys. Tam reikalingas tikslumas, teisinis tikslumas ir koordinavimas tarp institucijų. „Tilde“ savo saugią, AI pagrindu veikiančią vertimo platformą pritaiko Ukrainos teisiniams ir administraciniams tekstams. Platforma pateiks kokybiškus vertimus dideliu mastu, sumažins rankinį darbą ir užtikrins nuoseklų ES teisinės terminijos vartojimą. Ji apima automatinį vertimą, vertimo atmintį ir terminologijos portalą, pritaikytą Ukrainos viešajam sektoriui. Projektas įgyvendinamas finansuojant iš Latvijos valstybės biudžeto ir remiant Latvijos užsienio reikalų ministerijai ir Centrinei finansų ir susitariančiajai agentūrai (CFLA).
Europos kalbos duomenų erdvė

Naudodamos Kalbos duomenų erdvę (LDS), atitinkamos suinteresuotosios šalys galės dalytis savo kalbos duomenimis ir kitais kalbos ištekliais, taip pat monetizuoti savo kalbos duomenis ir kalbos išteklius vienoje platformoje, atsižvelgdamos į ES vertybes ir ES taisyklių atitiktį.

FORTISSIMO PLUS subprojektas: vietoje diegiama įmonės ieška ir klausimų ir atsakymų sprendimas
Dabartinės pažangiausios atviros LLMs nepakankamai remia daugumą Europos kalbų, todėl daugiakalbėje aplinkoje veikiančios organizacijos susiduria su dideliais sunkumais. Nors šie modeliai yra pakankamai veiksmingi kelioms pagrindinėms Europos kalboms, jie dažnai nepakankamai aprėpia daugelį kitų kalbų, įskaitant Rytų Europos kalbas, ir yra nepakankamai tikslūs. Šio projekto tikslas – spręsti šį neatitikimą kuriant vietoje diegiamą AI pagrįstą įmonių paieškos ir atsakymų į klausimus sprendimą nepakankamai atstovaujamoms Europos kalboms, ypač Balto-slavų šeimos kalboms. Projektu bus sukurta saugi, išplečiama ir pritaikoma PG sistema, kuri sklandžiai integruojama į organizacijos infrastruktūrą, užtikrinant patikimą duomenų privatumą ir griežtų valdymo reikalavimų laikymąsi.

Naujausi leidiniai

267

Rinaldsas Vīksna ir Inguna Skadiņa. 2025. Anonimiškumas: daugiakalbio dokumento pseudonimo įrankis. 15-osios tarptautinės konferencijos dėl pastarojo meto pažangos natūralios kalbos apdorojimo srityje - natūralios kalbos apdorojimo generatyviniame AI trynime, 1327-1332.

266

Jurgita Kapočiūtė-Dzikienė, Daiga Deksne, Inguna Skadiņa, Raivis Skadiņš ir Askaras Salimbajevas. 2025. Vienakalbė ir daugiakalbė teksto klasifikacija. Taikomųjų programų duomenų mokslas. Kompiuterinės žvalgybos tyrimai, tūris 1206, 55-82, Springer.

265

Jurgita Kapočiūtė-Dzikienė, Tomas Bergmanis ir Mārcis Pinnis. 2025. AI lokalizavimas: Baltijos valstybių kalbų atvirojo svorio kalbų modelių vertinimas. Bendros 25-osios Šiaurės šalių kompiuterinės lingvistikos konferencijos ir 11-osios Baltijos šalių konferencijos dėl žmogaus kalbos technologijų (NoDaLiDa/Baltic-HLT 2025) posėdžiai, 287-295.

Mūsų tyrimų komanda

Inguna-skadina

Inguna Skadiņa

Informatikos dr., vyriausioji mokslo pareigūnė
Raivis-skadins

Raivis Skadiņš

Dr. SC COMP., mokslinių tyrimų ir technologijų plėtros direktorius
Andrejsas-Vasiljevas

Andrejs Vasiļjevs

Informatikos dr., bendraįkūrėjis, valdybos narys
Jurgita | _ kapociute

Jurgita Kapočiūtė-Dzikienė

Informatikos dr., bendraįkūrėjis, valdybos narys
Marcis-pinnis

Mārcis Pinnis

Informatikos dr., vyriausiasis DI pareigūnas
Matisas-rikters

Matīss Rikters

Informatikos dr., tyrėjas
Daiga-deksnė

Daiga Deksne

Filologijos dr., informatikos magistrė, psichologijos magistrė, programinės įrangos architektė
Toms_bergmanis

Tomas Bergmanis

Dr. M.Inf., tyrėjas

Inezė-Vira

Inese Vīra

MA, vyriausioji vartotojų patirties dizainerė
Rinaldsas-viksna

Rinalds Vīksna

Informatikos magistras, tyrėjas
Davis_nicmanis

Dāvis Nicmanis

M. Sc. comp., tyrėjas/kūrėjas
Martinas_kronis

Martinsas Kronis

M. Sc. comp., tyrėjas/kūrėjas
Ingus_pretkalnins

Ingus Jānis Pretkalniņš

B. Sc. Matematika, tyrinėtojas/kūrėjas
Roberts_rozis

Robertsas Rozis

BSC. Komp.