Pētniecības projekts “Daudzvalodīgs uzņēmuma semantiskās meklēšanas ANO atbilžu gatavošanas”

Pētniecības Projekta “Daudzvalodīgs uzņēmuma semantiskās meklēšanas ANO atbilžu gatavošanas” 2025. aktualitātes. gata pirmajā ceturksnī

IT kompetences centrs īsteno projektu “Informācijas un komunikācijas tehnoloģiju kompetences centrs”, ID. Nr. 5.1.1.2.i.0/1/22/a/cfla/008. 

Projekta “Informācijas ANO komunikācijas tehnoloģiju kompetences centrs” mērķis ir paaugstināt informācijas ANO komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. gads 30. jūnijam īstenojot vismaz 12 nozares ANO starpnozaru pētījumus Biznesa procesu analīzes tehnoloģiju ANO Dabīgās Valodas tehnoloģiju jomās, Lai rezultātā vismaz 10 komersanti ANO tehnoloģijas ražošanā produktus ANO ieviestu. 

 

SIA “TILDE” pētniecības projekts Nr. 2.4 “Daudzvalodīgs uzņēmuma semantiskās meklēšanas ANO atbilžu gatavošanas” 2024. uzsākts. gata februārī. 2025. gadus pirmajā ceturksnī rūpnieciskā pētījuma aktivitātes “Pētījums par lielajos Valodos modeļos balstītu semantisko meklēšanu” un “Pētījums par kontekstā balstītu atbildēšanu”. Tāpat turpinās aktivitātes “Pētījums par satura izguvi un sagatavošanu semantiskajai meklēšanai”. Perioda ietvaros Tiek īstenotas arī izstrādes aktivitātes “Datu apstrādes un indeksēšanas prototipi” un “Semantiskās meklēšanas ANO jautājumu atbildēšanas prototipi”. 

 

Projekta 1. aktivitāte “Pētījums par lielām Valodas modeļos balstītu semantisko meklēšanu” 2024. noslēdzās. gata decembrī. Aktivitātes ietvaros tika apzinātas un izstrādātas informācijas izguvē lietojamas metodes. Lai lietderība tika pārbaudīta uz dažādām datu kopām – gan ar mākslīgi jautājumiem latviešu, angļu, igauņu un lietuviešu valodā, gan ar īstiem lietotāju latviešu valodā. Teksta sagatavošanā semantiska meklēšanai tika izmēģināti vairāki komerciāli un brīvpieejas Lielie Valodas modeļi. Eksperimenti demonstrē, ka Labi rezultāti ir sasniedzami, izmantojot brīvpieejas modeļus un kombinējot metodes – semantisko un atslēgvārdu meklēšanu, ANO izmantojot hipotētiskā dokumenta kartējuma Metodi. 

 

Projekta 2. aktivitāte “Pētījums par kontekstā balstītu jautājumu” 2025. noslēdzās. gata februārī. Aktivitātes ietvaros tika veikti ar uzvedņu modelēšanu dažādiem eksperimenti uzdevumiem, tostarp tulkošanai, tekstu klasificēšanai, SQL vaicājumu ģenerēšanai un informācijas izguvei. Tika analizētas lielo Valodas modeļu, piemēram, GPT, lama, Mistral, Gemma un Phi, spējas ģenerēt Atbildes un tulkot starp angļu, latviešu, lietuviešu un čehu valodām. Tāpat tika izveidota datu kopa, kas ļāva novērtēt balstītu kontekstā atbilžu valodās ģenerēšanas kvalitāti vairākās. Pētījuma rezultāti salīdzinošu analīzi par dažādu sniedz Valodas modeļu lielo ANO kvalitāti. Gan tulkošanas uzdevums, gan atbildes ģenerēšanai (praktiski) visnoderīgākais ir OpenAI GPT-4 o modelis, bet arī brīvpieejas modeļi, īpaši Gemma2:27b un Llama3.1:70b, uzrāda labus rezultātus pārbaudītajos NLP uzdevumus un valodās. 

 

Projekta 3. aktivitātes “Pētījums par kontekstā balstītu atbildēšanu jautājumu” ietvaros Tiek pētītas metodes, kā tekstu izgūt efektīvāk nav dažādu formātu ANO pārveidot vienotā dokumentiem formātā UN kontekstā semantiskās un meklēšanas jautājumu atbildēšanas vajadzībām balstītu. Pārskata periodā esam sagatavojuši vairākus DOCX un PDF dokumentu testpiemērus, kuros atrodamas dažādas sarežģītības konstrukcijas satura (formatējums, satura izkārtojums, attēli, formulas utt.), kā arī dažādu satura izguves un pārveides rīku vērtēšanu. Rezultātā esam identificējuši šobrīd rīkus konkrēto visspējīgākos dokumentu dokuments apstrādei formātu daudzvalodīga uzņēmuma dokumentu informācijas ANO atbilžu semantiskās meklēšanas risinājuma gatavošanas prototipam. 

 

Projekta 4. aktivitātes “Datu apstrādes un indeksēšanas prototipi” ietvaros Tiek izstrādāts risinājums, kas ļaus organizācijām augšupielādēt organizācijas dažādus; nav dokumentiem tiks izgūts saturs, kas tiks pārveidots vienotā formātā, pēc kā dokumenti tiks semantiski indeksēti, lai nodrošinātu semantiskās meklēšanas. Pārskata periodā prototipā tika ieviesta funkcionalitāte dokumentiem ģenerēt, kopsavilkumus, kā prototipā ir integrēti aktuālie spējīgākie arī satura (izvilkšanas rīki (izmantojot 3. aktivitātes aktuālos rezultātus).   

 

Projekta 5. aktivitātes “Semantiskās meklēšanas un jautājumu sistēmas prototipi” ietvaros Tiek izstrādāts risinājums, kas ļaus darbiniekiem uzdot jautājumus par saturu, kas atrodams organizācijas dokumentos, un saņemt atbildes uz šiem. Pārskata periodā prototipā tika ieviesta funkcionalitāte, kas atbild ģenerēšanas procesā izmanto dokumentu filtrēšanai, arī arī tika uzlabota atrasto dokumentu kopsavilkumus pēc atbilstības ANO tērzēšanas funkcionalitāte glabāšanai un attēlošanai. 

 

Pētniecības Projekta realizācijas periodi: 01.02.2024. – 31.05.2025. 

Pētniecības Projekta kopējās izmaksas – 248 598,00 EUR 

Atveseļošanas Fonda līdzfinansējums – 160 636,50 EUR 

 

 

Projektu līdzfinansē Atveseļošanas fonds Darbības programmas Latvijas Atveseļošanas ANO noturības mehānisma plāna 5.1.r. reforma ANO investīciju virziena “Produktivitātes paaugstināšana caur investīciju apjomu palielināšanu P & A” 5.1.1.r. reformas “Inovāciju pārvaldība ANO privāto P & A investīciju motivācija” 5.1.1.2.i. investīcijas “atbalsta instrumenti inovāciju klasteru attīstībai” īstenošanas noteikumi kompetences centrs ietvarosietvaros.

Pētniecības Projekta “Daudzvalodīgs uzņēmuma semantiskās meklēšanas ANO atbilžu gatavošanas” 2024. aktualitātes. gata ceturtajā ceturksnī

IT kompetences centrs īsteno projektu “Informācijas ANO komunikācijas tehnoloģiju kompetences centri”, ID. Nr. 5.1.1.2.i.0/1/22/A/CFLA/008.

Projekta “Informācijas ANO komunikācijas tehnoloģiju kompetences centrs” mērķis ir paaugstināt informācijas ANO komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. gads 30. jūnijam īstenojot vismaz 12 nozares ANO starpnozaru pētījumus Biznesa procesu analīzes tehnoloģiju ANO Dabīgās Valodas tehnoloģiju jomās, Lai rezultātā vismaz 10 komersanti ANO tehnoloģijas ražošanā produktus ANO ieviestu.

 

SIA “TILDE” pētniecības projekts Nr. 2.4 “Daudzvalodīgs uzņēmuma semantiskās meklēšanas ANO atbilžu gatavošanas” 2024. uzsākts. gata februārī. 2024. gadus ceturtajā ceturksnī rūpnieciskā pētījuma aktivitāšu “Pētījums par lielām Valodas modeļos balstītu semantisko meklēšanu”, “Pētījums par kontekstā balstītu atbildēšanu” un “Pētījums par satura izguvi un sagatavošanu semantiskajai meklēšanai”. Tāpat turpinās eksperimentālās izstrādes aktivitāšu “Datu apstrādes un indeksēšanas prototipi” un “Semantiskās meklēšanas ANO jautājumu atbildēšanas prototipi” īstenošana.

 

Projekta 1. aktivitātes “Pētījums par lielām vērtībām modeļos balstītu semantisko meklēšanu” ietvaros tika izveidotas divas datu kopas ar īstiem uzdotiem lietotāju meklēšanas jautājumiem metožu semantiskās vērtēšanai. Tika veikti eksperimenti, Lai noteiktu kādu teksta vektorizēšanas modeļi Izmantot, Lai iegūtu augstāka rezultātus pārklājuma, salīdzinot pieejamus un lokāli izvietojamus teksta vektorizēšanas modeļus.

 

Projekta 2. aktivitātes “Pētījums par kontekstā balstītu atbildēšanu jautājumu” ietvaros tika turpināti eksperimenti, salīdzinot pieejamus ģeneratīvos Lielos Valodas modeļus teksts ģenerēšanas – jautājumu atbildēšanai un uzdevumiem. Tika veikta kļūdu vairāku atvērti pieejamu ANO komerciālu ģeneratīvo Valodas modeļu ģenerētiem latviešu ANO lietuviešu tekstiem. Tika noteikts, ka Google atvērti pieejamais Gemma2:27b modelis sasniedz salīdzināmus rezultātus ar spējīgākajiem komerciālajiem (piemēram, OpenAI GPT-4 o modeļi), kas bruģa plašas iespējas komerciālai lietošanai produktos.

 

Projekta 3. aktivitātes “Pētījums par satura izguvi un sagatavošanu semantiskajai meklēšanai” ietvaros tika uzlabota dokumentu pārveidošana atzīme formātā, ieviešot atbalstu uzskaitījumu, Tabulu nodaļu ar virsrakstiem labākai. Uzlabota PDF dokumentu segmentēšanas kvalitāte.

 

Projekta 4. aktivitātes “Datu apstrādes un indeksēšanas prototipi” ietvaros prototipi tika papildināts ar funkcionalitāti meklēt zināšanu tekstu neveiksmes, ierobežojot meklēšanu ar bāzes.

 

Projekta 5. aktivitātes “Semantiskās meklēšanas un jautājumu sistēmas prototipi” ietvaros prototipam tika izveidota lietotājam ērtāka atbildēšanas redzama, kurā ir saskarne vēsture sarunu, jautājumu paraugi, ko lietotājs var uzdot, izvēršamas atsauces uz jautājumam informācijas avotiem un atbilde ar iespēju uz novērtēt.

 

Pētniecības Projekta realizācijas periodi: 01.02.2024. – 31.05.2025.

Pētniecības Projekta kopējās izmaksas – 248 598,00 EUR

Atveseļošanas Fonda līdzfinansējums – 160 636,50 EUR

 

Projektu līdzfinansē Atveseļošanas fonds Darbības programmas “Latvijas Atveseļošanas ANO noturības mehānisma 5.1.r. reformu ANO investīciju virziena “Produktivitātes paaugstināšana caur investīciju apjomu palielināšanu P & A” 5.1.1.r. reformas “Inovāciju pārvaldība ANO privāto P & A investīciju motivācija” 5.1.1.2.i. investīcijas “atbalsta instrumenti inovāciju klasteru attīstībai” īstenošanas noteikumi kompetences centru ietvaros”.

Pētniecības Projekta “Daudzvalodīgs uzņēmuma semantiskās meklēšanas ANO atbilžu gatavošanas” 2024. aktualitātes. gata otrajā ceturksnī

IT kompetences centrs īsteno projektu “Informācijas ANO komunikācijas tehnoloģiju kompetences centri”, ID. Nr. 5.1.1.2.i.0/1/22/A/CFLA/008.

Projekta “Informācijas ANO komunikācijas tehnoloģiju kompetences centrs” mērķis ir paaugstināt informācijas ANO komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. gads 30. jūnijam īstenojot vismaz 12 nozares ANO starpnozaru pētījumus Biznesa procesu analīzes tehnoloģiju ANO Dabīgās Valodas tehnoloģiju jomās, Lai rezultātā vismaz 10 komersanti ANO tehnoloģijas ražošanā produktus ANO ieviestu.

  1. gata otrajā ceturksnī pētniecības turpinās Projekta rūpnieciskā pētījuma aktivitātes “Pētījums par lielām Valodas modeļos balstītu semantisko meklēšanu” un “Pētījums par kontekstā balstītu atbildēšanu”. Tāpat turpinās eksperimentālās izstrādes aktivitāšu “Datu apstrādes un indeksēšanas prototipi” un “Semantiskās meklēšanas ANO jautājumu atbildēšanas prototipi” īstenošana.

Projekta 1. aktivitātes “'Pētījums par lielām vērtībām modeļos balstītu semantisko meklēšanu”' ietvaros tika pētīts, kā segmentēt un indeksēt dokumentus augstāku, Lai iegūtu semantiskās meklēšanas,, pārklājumu dažādu jautājumiem veidu.

Projekta 2. aktivitātes “'Pētījums par kontekstā balstītu atbildēšanu jautājumu”' ietvaros tika pētīts būtu jāatbild uz jautājumiem, ja Atbilde ir atrodama vienā segmentā, izmantojot ir jāģenerē, tā vairākus segmentus, ja ģenerēšanai ir pieprasījums datu bāzei, ja ir jāizpilda aprēķinus un, ja Atbildes ģenerēšanai ir jāveic filtrēšanu, vai jānoskaidro Papildu informācija bez lietotāja.

Projekta 4. aktivitātes “'Datu apstrādes un indeksēšanas prototips”' ietvaros tika uzsākta dažādu pārvaldības prototipēšana risinājumu.

Projekta 5. aktivitātes “'Semantiskās meklēšanas un atbildēšanas sistēmas prototipa”' ietvaros tika uzsākta meklēšanas un jautājumu atbildēšanas saskarnes prototipēšana.

Projektu līdzfinansē Atveseļošanas fonds Darbības programmas “Latvijas Atveseļošanas ANO noturības mehānisma 5.1.r. reformu ANO investīciju virziena “Produktivitātes paaugstināšana caur investīciju apjomu palielināšanu P & A” 5.1.1.r. reformas “Inovāciju pārvaldība ANO privāto P & A investīciju motivācija” 5.1.1.2.i. investīcijas “atbalsta instrumenti inovāciju klasteru attīstībai” īstenošanas noteikumi kompetences centru ietvaros”.

 

Pētniecības Projekta “Daudzvalodīgs uzņēmuma semantiskās meklēšanas ANO atbilžu gatavošanas” 2024. aktualitātes. gata trešajā ceturksnī

IT kompetences centrs īsteno projektu “Informācijas un komunikācijas tehnoloģiju kompetences centrs”, ID. Nr. 5.1.1.2.i.0/1/22/A/CFLA/008.

Projekta “Informācijas ANO komunikācijas tehnoloģiju kompetences centrs” mērķis ir paaugstināt informācijas ANO komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju institūcijām zinātniskajām 2025. gads 30. jūnijam īstenojot līdz vismaz 12 nozares ANO starpnozaru pētījumus Biznesa procesu analīzes tehnoloģiju un tehnoloģijas Valodas tehnoloģiju jomās, lai rezultātā vismaz 10 komersanti ANO Dabīgās ražošanā jaunus un produktus.

SIA “TILDE” pētniecības projekts Nr. 2.4 “Daudzvalodīgs uzņēmuma semantiskās meklēšanas ANO atbilžu gatavošanas” 2024. uzsākts. gata februārī. 2024. gadus trešajā ceturksnī rūpnieciskā pētījuma aktivitāšu “Pētījums par lielām Valodas modeļos balstītu semantisko meklēšanu”, “Pētījums par kontekstā balstītu atbildēšanu” un “Pētījums par satura izguvi un sagatavošanu semantiskajai meklēšanai”. Tāpat turpinās eksperimentālās izstrādes aktivitāšu “Datu apstrādes un indeksēšanas prototipi” un “Semantiskās meklēšanas ANO jautājumu atbildēšanas prototipi” īstenošana.

Projekta 1. aktivitātes “'Pētījums par lielām vērtībām modeļos balstītu semantisko meklēšanu”' ietvaros tika pētīts, Cik Labi semantiskā meklēšana darbojas daudzvalodu scenārijos.

Projekta 2. aktivitātes “'Pētījums par kontekstā balstītu atbildēšanu jautājumu”' ietvaros tika strādāts pīrāgs konkrētiem risinājumiem. Tika izstrādāta metode, kas ļauj lietotājiem jautājumus uzdot par datiem, kas glabāti CSV dokumentos un dinamiski saglabāti Typsesnse un SQL datu bāzēs. Tāpat tika sākta lokālu izvietojamu salīdzināšana, lielo Valodas modeļu spējā interesējošās Valodas – latviešu, lietuviešu, igauņu un angļu Valodu.

Projekta 3. aktivitātes “'Pētījums par satura izguvi un sagatavošanu semantiskajai meklēšanai”' ietvaros tika pētīts, kā automātiski izgūt metadati nav dokumentiem, Lai varētu saglabāt datu bāzē vai nodrošinātu automatizētas iespējas filtrēšanas.

Projekta 4. aktivitātes “'Datu apstrādes un indeksēšanas prototips”' ietvaros tika papildināts prototipi ar iespēju dokumentiem definēt Tagus, kā arī ir papildināti metadatu lauki un dokumentus ir iespējams apskatīt Segmentu skatā.

Projekta 5. aktivitātes “'Semantiskās meklēšanas un atbildēšanas sistēmas prototips”' ietvaros esošais prototipi tika papildināts ar funkcionalitāti apskatīt avotus, iesniegt atsauksmes, vēsturi atbildes un kopēt.

 

Pētniecības Projekta realizācijas periodi: 01.02.2024. – 31.05.2025.

Pētniecības Projekta kopējās izmaksas – 248 598,00 EUR

Atveseļošanas Fonda līdzfinansējums – 160 636,50 EUR

 

Projektu līdzfinansē Atveseļošanas fonds Darbības programmas “Latvijas Atveseļošanas ANO noturības mehānisma 5.1.r. reformu ANO investīciju virziena “Produktivitātes paaugstināšana caur investīciju apjomu palielināšanu P & A” 5.1.1.r. reformas “Inovāciju pārvaldība ANO privāto P & A investīciju motivācija” 5.1.1.2.i. investīcijas “atbalsta instrumenti inovāciju klasteru attīstībai” īstenošanas noteikumi kompetences centru ietvaros”.