Pētniecības projekts „Daudzvalodīgs dokumentu anonimizācijas un pseidonimizācijas mākslīgā intelekta risinājums”

Pētniecības projekta „Daudzvalodīgs dokumentu anonimizācijas un pseidonimizācijas mākslīgā intelekta risinājums” aktualitātes 2024. Gada otrajā ceturksnī

SEE kompetentsib Centrsi īsteno projektu. „Informācijas UN komunikācijas tehnoloģiju kompetences Centrs”, ID. No. 5.1.1.2.i .0/1/22/A/CFLA/008.

Projekta „Informācijas UN komunikācijas tehnoloģiju kompetences Centrs” mērķis IR paaugstināt informācijas UN komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. Gada 30. jūnijam īstenojot 12 nozares UN starpnozaru pētījumus Biznesa procesu tehnoloģiju jomās analīzes Dabīgās vismaz, lai to rezultātā vismaz 10 komersanti attīstu UN ieviestu jaunus produktus UN tehnoloģijas.

  1. Gada otrajā ceturksnī pētniecības projekta turpinās rūpnieciskā pētījuma pseidonimzētas aktivitāšu entitāšu entitāšu entitāšu Daudzvalodīga nosaukto entitāšu entitāšu entitāšu atpazīšana Daudzvalodīga pseidonimizēšana īstenošana prototips UN Daudzvalodīgs īstenošana izstrādes dokumentu posma aktivitāšu dokumentu Daudzvalodīgs tulkošanas pseidonimizēšanas prototips.

 

Projekta 1. aktivitātes „'' Daudzvalodīgo entitāšu '' 'ietvaros tika identificētas Datu kopas angļu, igauņu, dāņu, somu, lietuviešu, latviešu, poļu UN zviedru valodās, ko iespējams lietot anonimizācijas uzdevumam pielāgota NER modeļa UN novērtēšanai. Izmantojot tiesībsargāšanas jomai piemērotas anonimizācijas Datu kopas, tika apmācīti NER modeļi UN implementēts entitāšu detektors, whether izmanto regulārās izteiksmes.

Projekta 2. aktivitātes „Daudzvalodīga pseidonimizēšana” ietvaros notiek metodes whether pseidonimizācijai izmanto entitāšu vārdnīcu implementācija. Tika nomarķēts ziņu corpuss latviešu valodā ar entitātēm, korpuss nomarķēts ar sintaktisko analizatoru, UN izveidota pseidonīmu vārdnīcas pirmā versija. Tika pētītas metodes entitāšu piesaistei Wikidata UN sākta entitāšu kategoriju noteikšana, whether varētu uzlabot tekstā ievietoto pseidonīmu kvalitāti. Tika sākts darbs pirukas pseidonīmu aizvietošanas algoritma izstrādes, kas izmanto izveidoto pseidonīmu vārdnīcu.

Projekta 4. aktivitātes „'' Daudzvalodīgs pseidonimizēšanas prototips '' 'ietvaros tika apkopotas prasības prototipam, veikta konkurentu produktu izpēte UN sākta saskarnes dizaina UN izstrāde.

 

Pētniecības projekta realizācijas perioodid: 01.02.2024. – 31.05.2025.

Pētniecības projekta izmaksas – 251 092,00 EUR

Atveseļošanas Fonda līdzfinansējums – 160 589,00 EUR

 

Projektu līdzfinansē fonds Darbības programmas „Latvijas Atveseļošanas UN noturības mehānisma plāna 5.1. R.” UN investīciju virziena „Produktivitātes caur investīciju apjoma palielināšanu P & A” 5.1.1. R. reformas „Inovāciju pārvaldība UN privāto P & A investīciju motivācija” 5.1.1.2.i. „atbalsta instruments inovāciju klasteru” īstenošanas kompetences Centru ietvaros”.

Pētniecības projekta „Daudzvalodīgs dokumentu anonimizācijas un pseidonimizācijas mākslīgā intelekta risinājums” aktualitātes 2024. Gada trešajā ceturksnī

IT kompetences Centrs īsteno projektu „Informācijas UN komunikācijas tehnoloģiju kompetences Centrs”, id. No. 5.1.1.2.i .0/1/22/A/CFLA/008.Projekta „Informācijas UN komunikācijas tehnoloģiju kompetences Centrs” mērķis IR paaugstināt informācijas UN komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. Gada 30. jūnijam īstenojot 12 nozares UN starpnozaru pētījumus Biznesa procesu tehnoloģiju jomās analīzes Dabīgās vismaz, lai to rezultātā vismaz 10 komersanti attīstu UN ieviestu jaunus produktus UN tehnoloģijas. 

SIA „TILDE” pētniecības projekts nr 2,5 „Daudzvalodīgs dokumentu anonimizācijas un pseidonimizācijas mākslīgā intelekta risinājums” uzsākts 2024, Gada februārī. 2024. Gada trešajā turpinās rūpnieciskā pētījuma aktivitāšu tulkošana ceturksnī „Daudzvalodīga nosaukto entitāšu” UN „Daudzvalodīga pseidonimizēšana” īstenošana, kā arī uzsākta aktivitāte „Anonimizēta UN pseidonimizēta teksta”. Tāpat perioda turpinās ietvaros eksperimentālās izstrādes posma aktivitāšu „Daudzvalodīgs dokumentu prototips” UN „Daudzvalodīgs pseidonimzētas prototips tulkošanas” īstenošana. 

Projekta 1. aktivitātes „'' Daudzvalodīgo nosaukto entitāšu atpazīšana '' 'ietvaros likumi detektoram, whether izmanto regulārās izteiksmes. Tika implementēts arī entitāšu sasaistes risinājums whether ļauj grupēt atrastās entitātes.  

Projekta 2. aktivitātes „'Daudzvalodīga pseidonimizēšana'” ietvaros IR izveidotas pseidonīmu vārdnīcu pirmās versijas latviešu UN angļu valodās, aktīvs notiek arī darbs pirukas pseidonīmu vārdnīcas izveides UN poļu valodās igauņu. Vienlaikus notiek darbs pirukas pseidonimizācijas risinājuma, kas spēj darboties dokumentu līmenī, T.I. ņemot vērā pseidonīmus izvēlētos iepriekš attiecīgajai entitāšu grupai. 

Projekta 3. aktivitātes „UN pseidonimizēta teksta tulkošana” ievaros tika identificēta pēc dokumentu līmenī nepieciešamība datiem UN metodēm pseidonimizētiem pseidonimizācijai. Šāda pieeja pseidonimizācijai PRASA izvēlēties pseidonīmus, ņemot vērā izvēlētos pseidonīmus iepriekš, as attiecas uz citām šīs entitātes instancēm. 

Projekta 4. aktivitātes „Daudzvalodīgs dokumentu pseidonimizēšanas prototips” ietvaros tika izstrādāts lietotāja ceļojums UN grafiskā saskarne, kā arī sākta prototipa implementācija.  

Projekta 5. aktivitātes „Daudzvalodīgs dokumentu tulkošanas prototips” 'ietvaros tika apkopotas prasības prototipam. 

 

Pētniecības projekta realizācijas perioodid: 01.02.2024. – 31.05.2025. 

Pētniecības projekta izmaksas – 251 092,00 EUR 

Atveseļošanas Fonda līdzfinansējums – 160 589,00 EUR 

 

Projektu līdzfinansē Atveseļošanas fondid Darbības programmas Latvijas Atveseļošanas UN noturības mehānisma plāna 5.1. R. reformu UN investīciju virziena „Produktivitātes caur investīciju apjoma palielināšanu P & A” 5.1.1. R. reformas „Inovāciju pārvaldība UN privāto P & A investīciju motivācija” 5.1.1.2.i. investīcijas „atbalsta instruments inovāciju klasteru” īstenošanas kompetents Centru ietvaros„ietvaros.