Pētniecības projekts "Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas un atbilžu gatavošanas risinājums"

Pētniecības projekta “Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas un atbilžu gatavošanas risinājums” aktualitātes 2024. gada otrajā ceturksnī

IT kompetences centrs īsteno projektu “Informācijas un komunikācijas tehnoloģiju kompetences centrs”, id. Nr. 5.1.1.2.i.0/1/22/A/CFLA/008.

Projekta “Informācijas un komunikācijas tehnoloģiju kompetences centrs” mērķis ir paaugstināt informācijas un komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. gada 30. jūnijam īstenojot vismaz 12 nozares un starpnozaru pētījumus Biznesa procesu analīzes tehnoloģiju un Dabīgās valodas tehnoloģiju jomās, lai to rezultātā vismaz 10 komersanti attīstu un ieviestu ražošanā jaunus produktus un tehnoloģijas.

  1. gada otrajā ceturksnī turpinās pētniecības projekta rūpnieciskā pētījuma aktivitātes “Pētījums par lielajos valodas modeļos balstītu semantisko meklēšanu” un “Pētījums par kontekstā balstītu jautājumu atbildēšanu”. Tāpat turpinās arī eksperimentālās izstrādes aktivitāšu “Datu apstrādes un indeksēšanas prototips” un “Semantiskās meklēšanas un jautājumu atbildēšanas sistēmas prototips” īstenošana.

Projekta 1.aktivitātes ‘’Pētījums par lielajos valodas modeļos balstītu semantisko meklēšanu’’ ietvaros tika pētīts, kā segmentēt un indeksēt dokumentus, lai iegūtu augstāku semantiskās meklēšanas pārklājumu dažādu veidu jautājumiem.

Projekta 2.aktivitātes ‘’Pētījums par kontekstā balstītu jautājumu atbildēšanu’’ ietvaros tika pētīts kā būtu jāatbild uz jautājumiem, ja atbilde ir atrodama vienā segmentā, tā ir jāģenerē, izmantojot vairākus segmentus, ja ģenerēšanai ir jāizpilda pieprasījums datu bāzei, ja ir jāveic aprēķinus un, ja atbildes ģenerēšanai ir jāveic filtrēšanu, vai jānoskaidro papildu informācija no lietotāja.

Projekta 4.aktivitātes ‘’Datu apstrādes un indeksēšanas prototipa’’ ietvaros tika uzsākta dažādu zināšanu pārvaldības risinājumu prototipēšana.

Projekta 5.aktivitātes ‘’Semantiskās meklēšanas un jautājumu atbildēšanas sistēmas prototipa’’ ietvaros tika uzsākta meklēšanas un jautājumu atbildēšanas saskarnes prototipēšana.

Projektu līdzfinansē Atveseļošanas fonds  Darbības programmas “Latvijas Atveseļošanas un noturības mehānisma plāna 5.1.r. reformu un investīciju virziena “Produktivitātes paaugstināšana caur investīciju apjoma palielināšanu P&A” 5.1.1.r. reformas “Inovāciju pārvaldība un privāto P&A investīciju motivācija” 5.1.1.2.i. investīcijas “Atbalsta instruments inovāciju klasteru attīstībai” īstenošanas noteikumi kompetences centru ietvaros” ietvaros.

 

Pētniecības projekta “Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas un atbilžu gatavošanas risinājums” aktualitātes 2024. gada trešajā ceturksnī

IT kompetences centrs īsteno projektu “Informācijas un komunikācijas tehnoloģiju kompetences centrs”, id. Nr. 5.1.1.2.i.0/1/22/A/CFLA/008.

Projekta “Informācijas un komunikācijas tehnoloģiju kompetences centrs” mērķis ir paaugstināt informācijas un komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. gada 30. jūnijam īstenojot vismaz 12 nozares un starpnozaru pētījumus Biznesa procesu analīzes tehnoloģiju un Dabīgās valodas tehnoloģiju jomās, lai to rezultātā vismaz 10 komersanti attīstu un ieviestu ražošanā jaunus produktus un tehnoloģijas.

SIA “TILDE” pētniecības projekts Nr. 2.4 “Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas un atbilžu gatavošanas risinājums” uzsākts 2024. gada februārī. 2024. gada trešajā ceturksnī turpinās rūpnieciskā pētījuma aktivitāšu “Pētījums par lielajos valodas modeļos balstītu semantisko meklēšanu”, “Pētījums par kontekstā balstītu jautājumu atbildēšanu” un “Pētījums par satura izguvi un sagatavošanu semantiskajai meklēšanai” īstenošana. Tāpat turpinās arī eksperimentālās izstrādes aktivitāšu “Datu apstrādes un indeksēšanas prototips” un “Semantiskās meklēšanas un jautājumu atbildēšanas sistēmas prototips” īstenošana.

Projekta 1. aktivitātes ‘’Pētījums par lielajos valodas modeļos balstītu semantisko meklēšanu’’ ietvaros tika pētīts, cik labi semantiskā meklēšana darbojas daudzvalodu scenārijos.

Projekta 2. aktivitātes ‘’Pētījums par kontekstā balstītu jautājumu atbildēšanu’’ ietvaros tika strādāts pie konkrētiem risinājumiem. Tika izstrādāta metode, kas ļauj lietotājiem uzdot jautājumus par datiem, kas glabāti CSV dokumentos un dinamiski saglabāti Typsesnse un SQL datu bāzēs. Tāpat tika sākta lokālu izvietojamu salīdzināšana, lielo valodas modeļu spējā atbalstīt interesējošās valodas – latviešu, lietuviešu, igauņu un angļu valodu.

Projekta 3. aktivitātes ‘’Pētījums par satura izguvi un sagatavošanu semantiskajai meklēšanai’’ ietvaros tika pētīts, kā automātiski izgūt metadatus no dokumentiem, lai tos varētu saglabāt datu bāzē vai nodrošinātu automatizētas filtrēšanas iespējas.

Projekta 4. aktivitātes ‘’Datu apstrādes un indeksēšanas prototipa’’ ietvaros tika papildināts prototips ar iespēju dokumentiem definēt tagus, kā arī ir papildināti metadatu lauki un dokumentus ir iespējams apskatīt segmentu skatā.

Projekta 5. aktivitātes ‘’Semantiskās meklēšanas un jautājumu atbildēšanas sistēmas prototipa’’ ietvaros esošais prototips tika papildināts ar funkcionalitāti apskatīt avotus, iesniegt atsauksmes, kopēt atbildes un saglabāt vēsturi.

 

Pētniecības projekta realizācijas periods: 01.02.2024. – 31.05.2025.

Pētniecības projekta kopējās izmaksas – 248 598.00 EUR

Atveseļošanas fonda līdzfinansējums – 160 636.50 EUR

 

Projektu līdzfinansē Atveseļošanas fonds  Darbības programmas “Latvijas Atveseļošanas un noturības mehānisma plāna 5.1.r. reformu un investīciju virziena “Produktivitātes paaugstināšana caur investīciju apjoma palielināšanu P&A” 5.1.1.r. reformas “Inovāciju pārvaldība un privāto P&A investīciju motivācija” 5.1.1.2.i. investīcijas “Atbalsta instruments inovāciju klasteru attīstībai” īstenošanas noteikumi kompetences centru ietvaros” ietvaros.