Pētniecības projekts "Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas un atbilžu gatavošanas risinājums"

Pētniecības projekta “Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas un atbilžu gatavošanas risinājums” aktualitātes 2025. gada pirmajā ceturksnī

IT kompetences centrs īsteno projektu “Informācijas un komunikācijas tehnoloģiju kompetences centrs”, id. Nr. 5.1.1.2.i.0/1/22/A/CFLA/008. 

Projekta “Informācijas un komunikācijas tehnoloģiju kompetences centrs” mērķis ir paaugstināt informācijas un komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. gada 30. jūnijam īstenojot vismaz 12 nozares un starpnozaru pētījumus Biznesa procesu analīzes tehnoloģiju un Dabīgās valodas tehnoloģiju jomās, lai to rezultātā vismaz 10 komersanti attīstu un ieviestu ražošanā jaunus produktus un tehnoloģijas. 

 

SIA “TILDE” pētniecības projekts Nr. 2.4 “Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas un atbilžu gatavošanas risinājums” uzsākts 2024. gada februārī. 2025. gada pirmajā ceturksnī noslēgušās rūpnieciskā pētījuma aktivitātes “Pētījums par lielajos valodas modeļos balstītu semantisko meklēšanu” un “Pētījums par kontekstā balstītu jautājumu atbildēšanu”. Tāpat turpinās aktivitātes “Pētījums par satura izguvi un sagatavošanu semantiskajai meklēšanai” īstenošana. Perioda ietvaros tiek īstenotas arī eksperimentālās izstrādes aktivitātes “Datu apstrādes un indeksēšanas prototips” un “Semantiskās meklēšanas un jautājumu atbildēšanas sistēmas prototips”. 

 

Projekta 1. aktivitāte “Pētījums par lielajos valodas modeļos balstītu semantisko meklēšanu” noslēdzās 2024. gada decembrī. Aktivitātes ietvaros tika apzinātas un izstrādātas informācijas izguvē lietojamas metodes. To lietderība tika pārbaudīta uz dažādām datu kopām – gan ar mākslīgi ģenerētiem jautājumiem latviešu, angļu, lietuviešu un igauņu valodā, gan ar īstiem lietotāju jautājumiem latviešu valodā. Teksta sagatavošanā semantiskai meklēšanai tika izmēģināti vairāki komerciāli un brīvpieejas lielie valodas modeļi.  Eksperimenti demonstrē, ka labi rezultāti ir sasniedzami, izmantojot brīvpieejas vektorizēšanas modeļus un kombinējot dažādas metodes – semantisko un atslēgvārdu meklēšanu, un izmantojot hipotētiska dokumenta kartējuma metodi. 

 

Projekta 2. aktivitāte “Pētījums par kontekstā balstītu jautājumu atbildēšanu” noslēdzās 2025. gada februārī. Aktivitātes ietvaros tika veikti eksperimenti ar uzvedņu modelēšanu dažādiem uzdevumiem, tostarp tulkošanai, tekstu klasificēšanai, SQL vaicājumu ģenerēšanai un informācijas izguvei. Tika analizētas lielo valodas modeļu, piemēram, GPT, Llama, Mistral, Gemma un Phi, spējas ģenerēt atbildes un tulkot starp angļu, latviešu, lietuviešu, igauņu un čehu valodām. Tāpat tika izveidota datu kopa, kas ļāva novērtēt kontekstā balstītu atbilžu ģenerēšanas kvalitāti vairākās valodās. Pētījuma rezultāti sniedz salīdzinošu analīzi par dažādu lielo valodas modeļu efektivitāti un kvalitāti. Gan tulkošanas uzdevumam, gan atbildes ģenerēšanai (praktiski) visnoderīgākais ir OpenAI GPT-4o modelis, bet arī brīvpieejas modeļi, īpaši Gemma2:27b un Llama3.1:70b, uzrāda labus rezultātus pārbaudītajos NLP uzdevumos un valodās. 

 

Projekta 3. aktivitātes “Pētījums par kontekstā balstītu jautājumu atbildēšanu” ietvaros tiek pētītas metodes, kā tekstu efektīvāk izgūt no dažādu formātu dokumentiem un pārveidot vienotā datu formātā semantiskās meklēšanas un kontekstā balstītu jautājumu atbildēšanas vajadzībām. Pārskata periodā esam sagatavojuši vairākus DOCX un PDF dokumentu testpiemērus, kuros atrodamas dažādas sarežģītības satura konstrukcijas (formatējums, satura izkārtojums, attēli, formulas utt.), kā arī veikuši dažādu satura izguves un pārveides rīku vērtēšanu. Rezultātā esam identificējuši šobrīd visspējīgākos rīkus konkrēto formātu dokumentu apstrādei daudzvalodīga uzņēmuma informācijas semantiskās meklēšanas un atbilžu gatavošanas risinājuma prototipam. 

 

Projekta 4. aktivitātes “Datu apstrādes un indeksēšanas prototips” ietvaros tiek izstrādāts risinājums, kas ļaus organizācijām prototipā augšupielādēt dažādus organizācijas dokumentus; no dokumentiem tiks izgūts saturs, kas tiks pārveidots vienotā formātā, pēc kā dokumenti tiks semantiski indeksēti, lai nodrošinātu semantiskās meklēšanas funkcionalitāti. Pārskata periodā prototipā tika ieviesta funkcionalitāte dokumentiem ģenerēt kopsavilkumus, kā arī prototipā ir integrēti aktuālie spējīgākie satura izvilkšanas rīki (izmantojot 3. aktivitātes aktuālos rezultātus).   

 

Projekta 5. aktivitātes “Semantiskās meklēšanas un jautājumu atbildēšanas sistēmas prototips” ietvaros tiek izstrādāts risinājums, kas ļaus organizāciju darbiniekiem uzdot jautājumus par saturu, kas atrodams organizācijas dokumentos, un saņemt atbildes uz šiem jautājumiem. Pārskata periodā prototipā tika ieviesta funkcionalitāte, kas atbildes ģenerēšanas procesā izmanto arī dokumentu kopsavilkumus, kā arī tika uzlabota funkcionalitāte atrasto dokumentu filtrēšanai pēc relevances un tērzēšanas vēstures glabāšanai un attēlošanai. 

 

Pētniecības projekta realizācijas periods: 01.02.2024. – 31.05.2025. 

Pētniecības projekta kopējās izmaksas – 248 598.00 EUR 

Atveseļošanas fonda līdzfinansējums – 160 636.50 EUR 

 

 

Projektu līdzfinansē Atveseļošanas fonds  Darbības programmas Latvijas Atveseļošanas un noturības mehānisma plāna 5.1.r. reformu un investīciju virziena “Produktivitātes paaugstināšana caur investīciju apjoma palielināšanu P&A” 5.1.1.r. reformas “Inovāciju pārvaldība un privāto P&A investīciju motivācija” 5.1.1.2.i. investīcijas “Atbalsta instruments inovāciju klasteru attīstībai” īstenošanas noteikumi kompetences centru ietvaros” ietvaros.

Pētniecības projekta “Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas un atbilžu gatavošanas risinājums” aktualitātes 2024. gada ceturtajā ceturksnī

IT kompetences centrs īsteno projektu “Informācijas un komunikācijas tehnoloģiju kompetences centrs”, id. Nr. 5.1.1.2.i.0/1/22/A/CFLA/008.

Projekta “Informācijas un komunikācijas tehnoloģiju kompetences centrs” mērķis ir paaugstināt informācijas un komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. gada 30. jūnijam īstenojot vismaz 12 nozares un starpnozaru pētījumus Biznesa procesu analīzes tehnoloģiju un Dabīgās valodas tehnoloģiju jomās, lai to rezultātā vismaz 10 komersanti attīstu un ieviestu ražošanā jaunus produktus un tehnoloģijas.

 

SIA “TILDE” pētniecības projekts Nr. 2.4 “Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas un atbilžu gatavošanas risinājums” uzsākts 2024. gada februārī. 2024. gada ceturtajā ceturksnī turpinās rūpnieciskā pētījuma aktivitāšu “Pētījums par lielajos valodas modeļos balstītu semantisko meklēšanu”, “Pētījums par kontekstā balstītu jautājumu atbildēšanu” un “Pētījums par satura izguvi un sagatavošanu semantiskajai meklēšanai” īstenošana. Tāpat turpinās arī eksperimentālās izstrādes aktivitāšu “Datu apstrādes un indeksēšanas prototips” un “Semantiskās meklēšanas un jautājumu atbildēšanas sistēmas prototips” īstenošana.

 

Projekta 1. aktivitātes “Pētījums par lielajos valodas modeļos balstītu semantisko meklēšanu” ietvaros tika izveidotas divas datu kopas ar īstiem lietotāju uzdotiem jautājumiem semantiskās meklēšanas metožu vērtēšanai. Tika veikti eksperimenti, lai noteiktu kādu teksta vektorizēšanas modeli izmantot, lai iegūtu augstāka pārklājuma rezultātus, salīdzinot publiski pieejamus un lokāli izvietojamus teksta vektorizēšanas modeļus.

 

Projekta 2.aktivitātes “Pētījums par kontekstā balstītu jautājumu atbildēšanu”  ietvaros tika turpināti eksperimenti, salīdzinot dazādus atvērti pieejamus ģeneratīvos lielos valodas modeļus teksta ģenerēšanas uzdevumiem – jautājumu atbildēšanai un mašīntulkošanai. Tika veikta kļūdu analīze vairāku atvērti pieejamu un komerciālu ģeneratīvo valodas modeļu ģenerētiem tekstiem latviešu un lietuviešu valodās. Tika noteikts, ka Google atvērti pieejamais Gemma2:27b modelis sasniedz salīdzināmus rezultātus ar spējīgākajiem komerciālajiem modeļiem (piemēram, OpenAI GPT-4o modeli), kas paver plašas iespējas tā komerciālai lietošanai produktos.

 

Projekta 3.aktivitātes “Pētījums par satura izguvi un sagatavošanu semantiskajai meklēšanai” ietvaros tika uzlabota dokumentu pārveidošana markdown formātā, ieviešot atbalstu uzskaitījumu, tabulu nodaļu ar virsrakstiem labākai segmentēšanai. Uzlabota PDF dokumentu segmentēšanas kvalitāte.

 

Projekta 4.aktivitātes “Datu apstrādes un indeksēšanas prototips” ietvaros prototips tika papildināts ar funkcionalitāti meklēt tekstu zināšanu bāzes failos, ierobežojot meklēšanu ar tagiem.

 

Projekta 5.aktivitātes “Semantiskās meklēšanas un jautājumu atbildēšanas sistēmas prototips” ietvaros prototipam tika izveidota lietotājam ērtāka saskarne, kurā ir redzama sarunu vēsture, jautājumu paraugi, ko lietotājs var uzdot, izvēršamas atsauces uz jautājumam atbilstošiem informācijas avotiem un atbilde ar iespēju to novērtēt.

 

Pētniecības projekta realizācijas periods: 01.02.2024. – 31.05.2025.

Pētniecības projekta kopējās izmaksas – 248 598.00 EUR

Atveseļošanas fonda līdzfinansējums – 160 636.50 EUR

 

Projektu līdzfinansē Atveseļošanas fonds  Darbības programmas “Latvijas Atveseļošanas un noturības mehānisma plāna 5.1.r. reformu un investīciju virziena “Produktivitātes paaugstināšana caur investīciju apjoma palielināšanu P&A” 5.1.1.r. reformas “Inovāciju pārvaldība un privāto P&A investīciju motivācija” 5.1.1.2.i. investīcijas “Atbalsta instruments inovāciju klasteru attīstībai” īstenošanas noteikumi kompetences centru ietvaros” ietvaros.

Pētniecības projekta “Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas un atbilžu gatavošanas risinājums” aktualitātes 2024. gada otrajā ceturksnī

IT kompetences centrs īsteno projektu “Informācijas un komunikācijas tehnoloģiju kompetences centrs”, id. Nr. 5.1.1.2.i.0/1/22/A/CFLA/008.

Projekta “Informācijas un komunikācijas tehnoloģiju kompetences centrs” mērķis ir paaugstināt informācijas un komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. gada 30. jūnijam īstenojot vismaz 12 nozares un starpnozaru pētījumus Biznesa procesu analīzes tehnoloģiju un Dabīgās valodas tehnoloģiju jomās, lai to rezultātā vismaz 10 komersanti attīstu un ieviestu ražošanā jaunus produktus un tehnoloģijas.

  1. gada otrajā ceturksnī turpinās pētniecības projekta rūpnieciskā pētījuma aktivitātes “Pētījums par lielajos valodas modeļos balstītu semantisko meklēšanu” un “Pētījums par kontekstā balstītu jautājumu atbildēšanu”. Tāpat turpinās arī eksperimentālās izstrādes aktivitāšu “Datu apstrādes un indeksēšanas prototips” un “Semantiskās meklēšanas un jautājumu atbildēšanas sistēmas prototips” īstenošana.

Projekta 1.aktivitātes ‘’Pētījums par lielajos valodas modeļos balstītu semantisko meklēšanu’’ ietvaros tika pētīts, kā segmentēt un indeksēt dokumentus, lai iegūtu augstāku semantiskās meklēšanas pārklājumu dažādu veidu jautājumiem.

Projekta 2.aktivitātes ‘’Pētījums par kontekstā balstītu jautājumu atbildēšanu’’ ietvaros tika pētīts kā būtu jāatbild uz jautājumiem, ja atbilde ir atrodama vienā segmentā, tā ir jāģenerē, izmantojot vairākus segmentus, ja ģenerēšanai ir jāizpilda pieprasījums datu bāzei, ja ir jāveic aprēķinus un, ja atbildes ģenerēšanai ir jāveic filtrēšanu, vai jānoskaidro papildu informācija no lietotāja.

Projekta 4.aktivitātes ‘’Datu apstrādes un indeksēšanas prototipa’’ ietvaros tika uzsākta dažādu zināšanu pārvaldības risinājumu prototipēšana.

Projekta 5.aktivitātes ‘’Semantiskās meklēšanas un jautājumu atbildēšanas sistēmas prototipa’’ ietvaros tika uzsākta meklēšanas un jautājumu atbildēšanas saskarnes prototipēšana.

Projektu līdzfinansē Atveseļošanas fonds  Darbības programmas “Latvijas Atveseļošanas un noturības mehānisma plāna 5.1.r. reformu un investīciju virziena “Produktivitātes paaugstināšana caur investīciju apjoma palielināšanu P&A” 5.1.1.r. reformas “Inovāciju pārvaldība un privāto P&A investīciju motivācija” 5.1.1.2.i. investīcijas “Atbalsta instruments inovāciju klasteru attīstībai” īstenošanas noteikumi kompetences centru ietvaros” ietvaros.

 

Pētniecības projekta “Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas un atbilžu gatavošanas risinājums” aktualitātes 2024. gada trešajā ceturksnī

IT kompetences centrs īsteno projektu “Informācijas un komunikācijas tehnoloģiju kompetences centrs”, id. Nr. 5.1.1.2.i.0/1/22/A/CFLA/008.

Projekta “Informācijas un komunikācijas tehnoloģiju kompetences centrs” mērķis ir paaugstināt informācijas un komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. gada 30. jūnijam īstenojot vismaz 12 nozares un starpnozaru pētījumus Biznesa procesu analīzes tehnoloģiju un Dabīgās valodas tehnoloģiju jomās, lai to rezultātā vismaz 10 komersanti attīstu un ieviestu ražošanā jaunus produktus un tehnoloģijas.

SIA “TILDE” pētniecības projekts Nr. 2.4 “Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas un atbilžu gatavošanas risinājums” uzsākts 2024. gada februārī. 2024. gada trešajā ceturksnī turpinās rūpnieciskā pētījuma aktivitāšu “Pētījums par lielajos valodas modeļos balstītu semantisko meklēšanu”, “Pētījums par kontekstā balstītu jautājumu atbildēšanu” un “Pētījums par satura izguvi un sagatavošanu semantiskajai meklēšanai” īstenošana. Tāpat turpinās arī eksperimentālās izstrādes aktivitāšu “Datu apstrādes un indeksēšanas prototips” un “Semantiskās meklēšanas un jautājumu atbildēšanas sistēmas prototips” īstenošana.

Projekta 1. aktivitātes ‘’Pētījums par lielajos valodas modeļos balstītu semantisko meklēšanu’’ ietvaros tika pētīts, cik labi semantiskā meklēšana darbojas daudzvalodu scenārijos.

Projekta 2. aktivitātes ‘’Pētījums par kontekstā balstītu jautājumu atbildēšanu’’ ietvaros tika strādāts pie konkrētiem risinājumiem. Tika izstrādāta metode, kas ļauj lietotājiem uzdot jautājumus par datiem, kas glabāti CSV dokumentos un dinamiski saglabāti Typsesnse un SQL datu bāzēs. Tāpat tika sākta lokālu izvietojamu salīdzināšana, lielo valodas modeļu spējā atbalstīt interesējošās valodas – latviešu, lietuviešu, igauņu un angļu valodu.

Projekta 3. aktivitātes ‘’Pētījums par satura izguvi un sagatavošanu semantiskajai meklēšanai’’ ietvaros tika pētīts, kā automātiski izgūt metadatus no dokumentiem, lai tos varētu saglabāt datu bāzē vai nodrošinātu automatizētas filtrēšanas iespējas.

Projekta 4. aktivitātes ‘’Datu apstrādes un indeksēšanas prototipa’’ ietvaros tika papildināts prototips ar iespēju dokumentiem definēt tagus, kā arī ir papildināti metadatu lauki un dokumentus ir iespējams apskatīt segmentu skatā.

Projekta 5. aktivitātes ‘’Semantiskās meklēšanas un jautājumu atbildēšanas sistēmas prototipa’’ ietvaros esošais prototips tika papildināts ar funkcionalitāti apskatīt avotus, iesniegt atsauksmes, kopēt atbildes un saglabāt vēsturi.

 

Pētniecības projekta realizācijas periods: 01.02.2024. – 31.05.2025.

Pētniecības projekta kopējās izmaksas – 248 598.00 EUR

Atveseļošanas fonda līdzfinansējums – 160 636.50 EUR

 

Projektu līdzfinansē Atveseļošanas fonds  Darbības programmas “Latvijas Atveseļošanas un noturības mehānisma plāna 5.1.r. reformu un investīciju virziena “Produktivitātes paaugstināšana caur investīciju apjoma palielināšanu P&A” 5.1.1.r. reformas “Inovāciju pārvaldība un privāto P&A investīciju motivācija” 5.1.1.2.i. investīcijas “Atbalsta instruments inovāciju klasteru attīstībai” īstenošanas noteikumi kompetences centru ietvaros” ietvaros.