Daudzvalodu MI pētniecība un izstrāde

Tilde ir nozīmīgākais valodu tehnoloģiju pētniecības centrs Baltijas reģionā ar vairāk nekā 30 gadu pieredzi Eiropas pētniecības projektos un daudzos vietēja mēroga projektos Igaunijā, Latvijā un Lietuvā. Mūsu štata pētnieku komanda sadarbojas ar vadošajiem Eiropas pētniecības centriem, lai virzītos uz aizvien jauniem sasniegumiem tādās valodu tehnoloģiju jomās kā mašīntulkošana, dialoga MI un dialoga sistēmas, runas atpazīšana un sintēze, kā arī fundamentālie valodas modeļi.

Padziļinātas pētniecības kompetences jomas

Mašīntulkošana

Mēs ieviešam jauninājumus nozarei pielāgotā, adaptīvā un terminiem atbilstošā neironu mašīntulkošanā, izstrādājot metodes uzticamai darbībai, sistemātisku kļūdu mazināšanai un lielajiem valodas modeļiem.

Mēs koncentrējamies uz daudzvalodu dabiskās valodas izpratni, semantisko indeksēšanu, izgūšanas papildinātu ģenerēšanu, kuras pamatā ir LVM, un personalizāciju.

Dialoga MI

Mēs pētām kaskadētu un pilnīgu runas atpazīšanu un runas tulkošanu, vairāku runātāju un daudzvalodu runas sintēzi, runas atpazīšanu reāllaikā, automātisko subtitrēšanu un dublēšanu.

Runas tehnoloģijas

Mēs izstrādājam daudzvalodu nosaukto entitāšu atpazīšanu, anonimizāciju un pseidonimizāciju, terminu atpazīšanu un izvilkšanu, morfoloģisko analīzi, lemmatizāciju, vārdšķiru marķēšanu un citus rīkus.

Teksta analīze

Mēs uzturam lielāko terminu datu bāzi Eiropā — EuroTermBank, kā arī izstrādājam terminu pārvaldības un elektronisko vārdnīcu rīkus.

Zināšanu pārvaldība

TildeOpen LLM tagad ir pieejams Hugging Face 🎉

Iepazīstieties ar TildeOpen – mūsu atvērtā pirmkoda, pamata LVM (lielais valodas modeli) Eiropas valodām.  

Atbalsta:

MĀKSLĪGĀ INTELEKTA PASTIPRINĀŠANA

Pašreizējie pētniecības projekti

LATDEV
AI valodu tehnoloģijas un to īstenošanas atbalsts, lai veicinātu Ukrainas integrāciju Eiropas Savienībā
Šis projekts risina problēmu, kas saistīta ar Ukrainas tiesību aktu tulkošanu un to saskaņošanu ar ES acquis. Tam nepieciešama precizitāte, juridiskā precizitāte un koordinācija starp iestādēm. Tilde pielāgo savu drošo, MI darbināms tulkošanas platformu Ukrainas juridiskajiem un administratīvajiem tekstiem. Platforma nodrošinās augstas kvalitātes tulkojumus plašā mērogā, samazinās manuālo darbu un nodrošinās konsekventu ES juridiskās terminoloģijas izmantošanu. Tajā apvienota mašīntulkošana, tulkošanas atmiņa un terminoloģijas portāls, kas pielāgots Ukrainas publiskajam sektoram. Projekts tiek īstenots ar Latvijas valsts budžeta finansējumu un Latvijas Ārlietu ministrijas un Centrālās finanšu un līgumu aģentūras (CFLA) atbalstu.
European Language Data Space

Izmantojot valodu datu telpu (Language Data Space — LDS), attiecīgās ieinteresētās puses varēs dalīties ar saviem valodu datiem un citiem valodu resursiem, kā arī gūt no tiem peļņu vienotā platformā, pilnībā ņemot vērā ES vērtības un nodrošinot atbilstību ES noteikumiem.

FORTISSIMO PLUS apakšprojekts: lokāli izvietojams uzņēmuma meklēšanas un jautājumu un atbilžu risinājums
Pašreizējie jaunākie atvērtie LLM nepietiekami atbalsta lielāko daļu Eiropas valodu, radot ievērojamas problēmas organizācijām, kas darbojas daudzvalodu vidē. Lai gan šie modeļi demonstrē saprātīgu veiktspēju vairākās lielākajās Eiropas valodās, tiem bieži vien trūkst pietiekama pārklājuma un precizitātes daudzās citās valodās, tostarp Austrumeiropas valodās. Šā projekta mērķis ir novērst šo atšķirību, izstrādājot lokāli izvietojamu uz AI balstītu uzņēmumu meklēšanas un atbilžu uz jautājumiem risinājumu nepietiekami pārstāvētām Eiropas valodām, jo īpaši Balto slāvu saimes valodām. Projekts izveidos drošu, mērogojamu un pielāgojamu AI sistēmu, kas nemanāmi integrēsies organizācijas infrastruktūrā, nodrošinot stabilu datu privātumu un atbilstību stingrām pārvaldības prasībām.

Jaunākās publikācijas

267

Rinalds Vīksna un Inguna Skadiņa. 2025. Anonimizācija: rīks daudzvalodu dokumentu pseidonimizācijai. 15. Starptautiskās konferences par jaunākajiem sasniegumiem dabisko valodu apstrādē - dabisko valodu apstrāde ģeneratīvajā AI erae, 1327-1332.

266

Jurgita Kapočiūtė-Dzikienė, Daiga Deksne, Inguna Skadiņa, Raivis Skadiņš un Askars Salimbajevs. 2025. Vienvalodas un starpvalodu teksta klasifikācija. Datu zinātne lietojumprogrammās. Datorizlūkošanas pētījumi, vol. 1206, 55-82, Springers.

265

Jurgita Kapočiūtė-Dzikienė, Toms Bergmanis un Mārcis Pinnis. 2025. Lokalizēšanas AI: atvērto valodu modeļu novērtēšana Baltijas valstu valodām. Apvienotās 25. Ziemeļvalstu konferences par datorlingvistiku un 11. Baltijas konferences par cilvēka valodas tehnoloģijām (NoDaLiDa/Baltic-HLT 2025) sēdes, 287-295.

Mūsu pētnieku komanda

Inguna-skadina

Inguna Skadiņa

Dr. sc. comp., zinātniskā vadītāja
Raivis-skadins

Raivis Skadiņš

Dr. SC COMP., P & A direktors
Andrejs-Vasiļjevs

Andrejs Vasiļjevs

Dr. sc. comp., līdzdibinātājs, valdes loceklis
Jurgita | _ kapociute

Jurgita Kapočiūtė-Dzikienė

Dr. sc. comp., līdzdibinātājs, valdes loceklis
Mārcis-Pinnis

Mārcis Pinnis

Dr. sc. comp., pētniecības vadītājs
Matiss-Rikters

Matīss Rikters

Dr. sc. comp., pētnieks
Daiga-Deksne

Daiga Deksne

Dr. philol., Mg. sc. comp., Mg. psych., programmatūras arhitekte
Toms_Bergmanis

Toms Bergmanis

Dr., M. inf., pētnieks

Inese-Vira

Inese Vīra

MA, vadošā lietotāja pieredzes dizainere
Rinalds-Viksna

Rinalds Vīksna

Mg. sc. comp., pētnieks
Davis_Nicmanis

Dāvis Nicmanis

M. Sc. comp., pētnieks/izstrādātājs
Martins_Kronis

Martins Kronis

M. Sc. comp., pētnieks/izstrādātājs
Ingus_Pretkalnins

Ingus Jānis Pretkalniņš

B. Sc. math, pētnieks/izstrādātājs
Roberts_Rozis

Roberts Rozis

B. Sc. Comp.