Pētniecības projekts “Daudzvalodīgs dokumentu anonimizācijas un pseidonimizācijas mākslīgā intelekta risinājums”

Pētniecības projekta “Daudzvalodīgs dokumentu anonimizācijas un pseidonimizācijas mākslīgā intelekta risinājums” aktualitātes 2024. gada otrajā ceturksnī

IT kompetences centrs īsteno projektu “Informācijas un komunikācijas tehnoloģiju kompetences centrs”, id. Nr. 5.1.1.2.i.0/1/22/A/CFLA/008.

Projekta “Informācijas un komunikācijas tehnoloģiju kompetences centrs” mērķis ir paaugstināt informācijas un komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. gada 30. jūnijam īstenojot vismaz 12 nozares un starpnozaru pētījumus Biznesa procesu analīzes tehnoloģiju un Dabīgās valodas tehnoloģiju jomās, lai to rezultātā vismaz 10 komersanti attīstu un ieviestu ražošanā jaunus produktus un tehnoloģijas.

  1. gada otrajā ceturksnī turpinās pētniecības projekta rūpnieciskā pētījuma aktivitāšu “Daudzvalodīga nosaukto entitāšu atpazīšana” un “Daudzvalodīga pseidonimizēšana” īstenošana un eksperimentālās izstrādes posma aktivitāšu “Daudzvalodīgs dokumentu pseidonimizēšanas prototips” un “Daudzvalodīgs dokumentu pseidonimzētas tulkošanas prototips” īstenošana.

 

Projekta 1.aktivitātes ‘’Daudzvalodīgo nosaukto entitāšu atpazīšana’’ ietvaros tika identificētas datu kopas angļu, dāņu, igauņu, somu, lietuviešu, latviešu, poļu un zviedru valodās, ko iespējams lietot anonimizācijas uzdevumam pielāgota NER modeļa apmācībai un novērtēšanai. Izmantojot tiesībsargāšanas jomai piemērotas anonimizācijas datu kopas, tika apmācīti NER modeļi un implementēts entitāšu detektors, kas izmanto regulārās izteiksmes.

Projekta 2. aktivitātes ‘’Daudzvalodīga pseidonimizēšana’’ ietvaros notiek metodes, kas pseidonimizācijai izmanto entitāšu vārdnīcu implementācija. Tika nomarķēts ziņu korpuss latviešu valodā ar entitātēm, korpuss nomarķēts ar sintaktisko analizatoru, un izveidota pseidonīmu vārdnīcas pirmā versija. Tika pētītas metodes entitāšu piesaistei Wikidata un sākta entitāšu kategoriju noteikšana, kas varētu uzlabot tekstā ievietoto pseidonīmu kvalitāti. Tika sākts darbs pie pseidonīmu aizvietošanas algoritma izstrādes, kas izmanto izveidoto pseidonīmu vārdnīcu.

Projekta 4.aktivitātes ‘’Daudzvalodīgs dokumentu pseidonimizēšanas prototips’’ ietvaros tika apkopotas prasības prototipam, veikta konkurentu produktu izpēte un sākta saskarnes dizaina un izstrāde.

 

Pētniecības projekta realizācijas periods: 01.02.2024. – 31.05.2025.

Pētniecības projekta kopējās izmaksas – 251 092.00 EUR

Atveseļošanas fonda līdzfinansējums – 160 589.00 EUR

 

Projektu līdzfinansē Atveseļošanas fonds  Darbības programmas “Latvijas Atveseļošanas un noturības mehānisma plāna 5.1.r. reformu un investīciju virziena “Produktivitātes paaugstināšana caur investīciju apjoma palielināšanu P&A” 5.1.1.r. reformas “Inovāciju pārvaldība un privāto P&A investīciju motivācija” 5.1.1.2.i. investīcijas “Atbalsta instruments inovāciju klasteru attīstībai” īstenošanas noteikumi kompetences centru ietvaros” ietvaros.

Pētniecības projekta “Daudzvalodīgs dokumentu anonimizācijas un pseidonimizācijas mākslīgā intelekta risinājums” aktualitātes 2024. gada trešajā ceturksnī

IT kompetences centrs īsteno projektu “Informācijas un komunikācijas tehnoloģiju kompetences centrs”, id. Nr. 5.1.1.2.i.0/1/22/A/CFLA/008.Projekta “Informācijas un komunikācijas tehnoloģiju kompetences centrs” mērķis ir paaugstināt informācijas un komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. gada 30. jūnijam īstenojot vismaz 12 nozares un starpnozaru pētījumus Biznesa procesu analīzes tehnoloģiju un Dabīgās valodas tehnoloģiju jomās, lai to rezultātā vismaz 10 komersanti attīstu un ieviestu ražošanā jaunus produktus un tehnoloģijas. 

SIA “TILDE” pētniecības projekts Nr. 2.5 “Daudzvalodīgs dokumentu anonimizācijas un pseidonimizācijas mākslīgā intelekta risinājums” uzsākts 2024. gada februārī. 2024. gada trešajā ceturksnī turpinās rūpnieciskā pētījuma aktivitāšu “Daudzvalodīga nosaukto entitāšu atpazīšana” un “Daudzvalodīga pseidonimizēšana” īstenošana, kā arī uzsākta aktivitāte “Anonimizēta un pseidonimizēta teksta tulkošana”. Tāpat perioda ietvaros turpinās eksperimentālās izstrādes posma aktivitāšu “Daudzvalodīgs dokumentu pseidonimizēšanas prototips” un “Daudzvalodīgs dokumentu pseidonimzētas tulkošanas prototips” īstenošana. 

Projekta 1. aktivitātes ‘’Daudzvalodīgo nosaukto entitāšu atpazīšana’’ ietvaros tika papildināti likumi detektoram, kas izmanto regulārās izteiksmes. Tika implementēts arī entitāšu sasaistes risinājums, kas ļauj grupēt atrastās entitātes.  

Projekta 2. aktivitātes ‘’Daudzvalodīga pseidonimizēšana’’ ietvaros ir izveidotas pseidonīmu vārdnīcu pirmās versijas latviešu un angļu valodās, aktīvs darbs notiek arī pie pseidonīmu vārdnīcas izveides igauņu un poļu valodās. Vienlaikus notiek darbs pie pseidonimizācijas risinājuma, kas spēj darboties dokumentu līmenī, t.i. ņemot vērā iepriekš izvēlētos pseidonīmus attiecīgajai entitāšu grupai. 

Projekta 3. aktivitātes “Anonimizēta un pseidonimizēta teksta tulkošana” ievaros tika identificēta nepieciešamība pēc dokumentu līmenī pseidonimizētiem datiem un metodēm dokumentu pseidonimizācijai. Šāda pieeja pseidonimizācijai prasa izvēlēties pseidonīmus, ņemot vērā iepriekš izvēlētos pseidonīmus, kas attiecas uz citām šīs entitātes instancēm. 

Projekta 4. aktivitātes ‘’Daudzvalodīgs dokumentu pseidonimizēšanas prototips’’ ietvaros tika izstrādāts lietotāja ceļojums un grafiskā saskarne, kā arī sākta prototipa implementācija.  

Projekta 5. aktivitātes ‘Daudzvalodīgs dokumentu pseidonimzētas tulkošanas prototips’’ ietvaros tika apkopotas prasības prototipam. 

 

Pētniecības projekta realizācijas periods: 01.02.2024. – 31.05.2025. 

Pētniecības projekta kopējās izmaksas – 251 092.00 EUR 

Atveseļošanas fonda līdzfinansējums – 160 589.00 EUR 

 

Projektu līdzfinansē Atveseļošanas fonds  Darbības programmas Latvijas Atveseļošanas un noturības mehānisma plāna 5.1.r. reformu un investīciju virziena “Produktivitātes paaugstināšana caur investīciju apjoma palielināšanu P&A” 5.1.1.r. reformas “Inovāciju pārvaldība un privāto P&A investīciju motivācija” 5.1.1.2.i. investīcijas “Atbalsta instruments inovāciju klasteru attīstībai” īstenošanas noteikumi kompetences centru ietvaros” ietvaros.