Pētniecības projekts „Daudzvalodīgs uzņēmuma informācijas semantiskās UN meklēšanas JT atbilžu gatavošanas risinājums“

Pētniecības projektas „Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas JT atbilžu gatavošanas risinājums“ aktualitātes 2025. gada pirmajā ceturksnī

IT kompetences Centrs īsteno projektu „Informācijas UN komunikācijas tehnoloģiju Centrs“, ID. Nr. 5.1.1.2.i.0/1/22/a/cfla/008. 

Projektas „Informācijas JT komunikācijas tehnoloģiju kompetences centrus“ mērķis ir paaugstināt informācijas UN komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. gada 30. jūnijam vismaz īstenojot pētījumus 12 nozares UN starpnozaru Biznesa procesu analīzes tehnoloģiju UN UN Dabīgās valodas tehnoloģiju jomās UN, Lai to rezultātā vismaz 10 komersanti attīstu UN ieviestu UN UN UN UN tehnoloģijas ražošanā jaunus produktus. 

 

SIA „TILDE“ pētniecības projekts Nr. 2.4 „Daudzvalodīgs uzņēmuma semantiskās informācijas meklēšanas JT atbilžu gatavošanas risinājums“ uzsākts 2024. gada februārī. 2025. gada pirmajā noslēgušās rūpnieciskā pētījuma ceturksnī aktivitātes „„lielajos Pētījums valodas modeļos balstītu semantisko meklēšanu JT Pētījums par kontekstā balstītu jautājumu““““ atbildēšanu. Tāpat turpinās aktivitātes „Pētījums par satura izguvi UN sagatavošanu semantiskajai meklēšanai“ īstenošana. PeriodA ietvaros Tiek īstenotas arī izstrādes eksperimentālās aktivitātes atbildēšanas „Datu apstrādes UN indeksēšanas prototips“ UN „Semantiskās meklēšanas UN jautājumu sistēmas prototips“. 

 

Projekta 1. aktivitāte „Pētījums par lielajos valodas modeļos balstītu semantisko meklēšanu“ noslēdzās 2024. gada decembrī. Aktivitātes ietvaros tika apzinātas UN izstrādātas izguvē informācijas lietojamas metodai. Norėdami lietderība tika pārbaudīta uz dažādām atu kopām – gan ar mākslīgi jautājumiem ģenerētiem latviešu, angļu, lietuviešu UN igauņu valodā, gan ar īstiem jautājumiem latviešu valodā. Teksta sagatavošanā semantiskai tika izmēģināti vairāki komerciāli UN brīvpieejas lielie valodas modeļi. Eksperimenti demonstrē, ka labi rezultāti ir sasniedzami, izmantojot vektorizēšanas modeļus brīvpieejas UN kombinējot dažādas metodai – semantisko UN atslēgvārdu meklēšanu, UN izmantojot hipotētiska dokumenta kartējuma metodi. 

 

2 projektas. aktivitāte „Pētījums par kontekstā balstītu jautājumu atbildēšanu“ noslēdzās 2025. gada februārī. Aktivitātes ietvaros tika veikti eksperimenti ar uzvedņu dažādiem modelēšanu uzdevumiem, tostarp tulkošanai, tekstu klasificēšanai, SQL vaicājumu ģenerēšanai UN informācijas izguvei. Tika analizētas lielo valodas modeļu, piemēram, GPT, Lama, Mistral, Gemma UN PHI, spējas ģenerēt UN tulkot starp angļu, latviešu, igauņu, lietuviešu UN čehu valodām. Tāpat tika izveidota Datu Kopa, kas ļāva kontekstā atbilžu balstītu kvalitāti ģenerēšanas vairākās valodās. Pētījuma rezultāti sniedz salīdzinošu analīzi par dažādu lielo valodas modeļu efektivitāti UN kvalitāti. Gan tulkošanas uzdevumam, gan atbildes ģenerēšanai (praktiski) visnoderīgākais ir OpenAI GPT-4 o modelis, bet arī brīvpieejas modeļi, īpaši Gemma2:27b UN Llama3.1:70b, uzrāda labus rezultātus pārbaudītajos NLP uzdevumos UN valodās. 

 

Projekta 3. aktivitātes „Pētījums par kontekstā jautājumu atbildēšanu“ ietvaros Tiek pētītas metodai, kā tekstu izgūt efektīvāk formātu dažādu UN UN UN pārveidot vienotā Datu formātā dokumentiem meklēšanas semantiskās UN UN UN UN balstītu kontekstā balstītu jautājumu atbildēšanas vajadzībām. Pārskata periodā esam sagatavojuši vairākus DOCX UN PDF dokumentu testpiemērus, kuros dažādas sarežģītības atrodamas satura konstrukcijas (formatējums, satura izkārtojums, attēli, formulės utt.), kā arī dažādu satura izguves UN pārveides rīku veikuši vērtēšanu. Rezultātā esam identificējuši šobrīd visspējīgākos rīkus konkrēto formātu dokumentu apstrādei daudzvalodīga uzņēmuma informācijas semantiskās UN meklēšanas JT atbilžu gatavošanas UN risinājuma prototipam. 

 

Projekta 4. „Datu apstrādes UN indeksēšanas“ ietvaros Tiek izstrādāts risinājums, kas ļaus prototipā augšupielādēt organizācijām dažādus organizācijas dokumentus; nėra dokumentiem tiks izgūts saturs, kas tiks pārveidots vienotā formātā, pēc kā dokumenti tiks semantiski indeksēti, Lajus nodrošinātu meklēšanas semantiskās funkcionalitāti. Pārskata periodā tika ieviesta funkcionalitāte dokumentiem ģenerēt kopsavilkumus, kā arī prototipā ir integrēti aktuālie spējīgākie satura izvilkšanas rīki (izmantojot 3. aktivitātes aktuālos rezultātus).   

 

5 projektas. aktivitātes „Semantiskās meklēšanas JT jautājumu atbildēšanas prototips“ ietvaros Tiek izstrādāts risinājums, kas ļaus darbiniekiem uzdot jautājumus par saturu, kas atrodams organizācijas dokumentos, UN saņemt atbildes uz šiem jautājumiem. Pārskata periodā tika ieviesta prototipā, kas atbildes procesā izmanto funkcionalitāte arī kopsavilkumus, kā arī tika uzlabota dokumentu atrasto dokumentu pēc atitikmenys JT tērzēšanas filtrēšanai JT attēlošanai. 

 

Pētniecības projekta realizācijas laikotarpiai: 2024 02 01 – 2025 05 31. 

Pētniecības projekta kopējās izmaksas – 248 598,00 EUR 

Atveseļošanas Fonda līdzfinansējums – 160 636,50 EUR 

 

 

Projektu līdzfinansē Atveseļošanas fondai Darbības programmas Latvijas Atveseļošanas UN noturības mehānisma plāna 5.1.r. reformu UN investīciju caur investīciju apjoma Produktivitātes paaugstināšana palielināšanu P & A 5.1.1.r. reformas pārvaldība Inovāciju UN privāto P & A investīciju motivācija virziena“ 5.1.1.2.i. investīcijas atbalsta instrumentai inovāciju klasteru attīstībai īstenošanas noteikumi kompetences centru ietvaros- ietvaros.

Pētniecības projektas „Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas JT atbilžu gatavošanas risinājums“ aktualitātes 2024. gada ceturtajā ceturksnī

IT kompetences Centrs īsteno projektu: „Informācijas JT komunikācijas tehnoloģiju kompetences centrus, ID. Nr. 5.1.1.2.i.0/1/22/A/CFLA/008.

Projektas „Informācijas JT komunikācijas tehnoloģiju kompetences centrus“ mērķis ir paaugstināt informācijas UN komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. gada 30. jūnijam vismaz īstenojot pētījumus 12 nozares UN starpnozaru Biznesa procesu analīzes tehnoloģiju UN UN Dabīgās valodas tehnoloģiju jomās UN, Lai to rezultātā vismaz 10 komersanti attīstu UN ieviestu UN UN UN UN tehnoloģijas ražošanā jaunus produktus.

 

SIA „TILDE“ pētniecības projekts Nr. 2.4 „Daudzvalodīgs uzņēmuma semantiskās informācijas meklēšanas JT atbilžu gatavošanas risinājums“ uzsākts 2024. gada februārī. 2024. gada ceturtajā turpinās rūpnieciskā pētījuma aktivitāšu ceturksnī „„„lielajos Pētījums valodas modeļos balstītu semantisko meklēšanu, Pētījums balstītu jautājumu kontekstā“““ atbildēšanu“ UN Pētījums par satura izguvi UN sagatavošanu semantiskajai“““ īstenošana meklēšanai. Tāpat turpinās eksperimentālās izstrādes arī īstenošana aktivitāšu „Datu apstrādes UN indeksēšanas prototips“ JT „Semantiskās meklēšanas UN jautājumu atbildēšanas sistēmas“ prototips.

 

Projekta 1. aktivitātes „Pētījums par lielajos valodas modeļos balstītu semantisko meklēšanu“ ietvaros tika izveidotas divas du īstiem ar lietotāju uzdotiem jautājumiem semantiskās meklēšanas metožu vērtēšanai. Tika veikti eksperimenti, Lajus noteiktu kādu teksta vektorizēšanas modeli izmantot, Lajus iegūtu pārklājuma rezultātus modeļus, salīdzinot pieejamus JT lokāli publiski teksta vektorizēšanas izvietojamus.

 

Projekta 2. aktivitātes „Pētījums par kontekstā jautājumu“ ietvaros tika turpināti eksperimenti, salīdzinot atvērti ģeneratīvos pieejamus lielos valodas modeļus teksta ģenerēšanas uzdevumiem – jautājumu atbildēšanai UN mašīntulkošanai. Tika veikta kļūdu vairāku atvērti pieejamu analīze ģeneratīvo JT komerciālu valodas modeļu tekstiem latviešu ģenerētiem JT lietuviešu valodās. Tika noteikts, ka Google atvērti pieejamais Gemma2:27b modelis sasniedz rezultātus salīdzināmus ar spējīgākajiem komerciālajiem modeļiem (piemēram, OpenAI GPT-4 o modeli), kas paver plašas tā komerciālai iespējas produktos.

 

Projekta 3. aktivitātes „Pētījums par satura izguvi UN sagatavošanu semantiskajai meklēšanai“ ietvaros tika uzlabota dokumentu pārveidošana žymėjimas formātā, ieviešot atbalstu uzskaitījumu, tabulu nodaļu ar virsrakstiem labākai segmentēšanai. Uzlabota PDF dokumentu segmentēšanas kvalitāte.

 

Projekta 4. aktivitātes „atu apstrādes UN indeksēšanas“ ietvaros prototips tika papildināts ar funkcionalitāti tekstu meklēt meklēšanu failos, bāzes zināšanu ar tagiem.

 

Projekta 5. aktivitātes „Semantiskās meklēšanas JT jautājumu atbildēšanas“ ietvaros prototipam tika izveidota lietotājam saskarne, kurā ir redzama sarunu vēsture, jautājumu paraugi, ko lietotājs var uzdot, izvēršamas padažai uz jautājumam informācijas avotiem UN atbilde ar iespēju novērtēt.

 

Pētniecības projekta realizācijas laikotarpiai: 2024 02 01 – 2025 05 31.

Pētniecības projekta kopējās izmaksas – 248 598,00 EUR

Atveseļošanas Fonda līdzfinansējums – 160 636,50 EUR

 

Projektu līdzfinansē Atveseļošanas fonds Darbības programmas paaugstināšana Latvijas Atveseļošanas UN noturības mehānisma plāna 5.1.r. reformu UN investīciju investīciju apjoma caur palielināšanu Produktivitātes P & A 5.1.1.r. reformas pārvaldība Inovāciju UN privāto P & A investīciju motivācija““ 5.1.1.2.i. investīcijas virziena atbalsta instruments inovāciju klasteru“ centru centru centru ietvaros attīstībai īstenošanas noteikumi ietvaros kompetences.

Pētniecības projektas „Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas JT atbilžu gatavošanas risinājums“ aktualitātes 2024. gada otrajā ceturksnī

IT kompetences Centrs īsteno projektu: „Informācijas JT komunikācijas tehnoloģiju kompetences centrus, ID. Nr. 5.1.1.2.i.0/1/22/A/CFLA/008.

Projektas „Informācijas JT komunikācijas tehnoloģiju kompetences centrus“ mērķis ir paaugstināt informācijas UN komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. gada 30. jūnijam vismaz īstenojot pētījumus 12 nozares UN starpnozaru Biznesa procesu analīzes tehnoloģiju UN UN Dabīgās valodas tehnoloģiju jomās UN, Lai to rezultātā vismaz 10 komersanti attīstu UN ieviestu UN UN UN UN tehnoloģijas ražošanā jaunus produktus.

  1. gada otrajā turpinās pētniecības projekta rūpnieciskā aktivitātes pētījuma ceturksnī „Pētījums par lielajos valodas modeļos balstītu semantisko meklēšanu“ UN „Pētījums par kontekstā jautājumu balstītu atbildēšanu“. Tāpat turpinās eksperimentālās izstrādes arī īstenošana aktivitāšu „Datu apstrādes UN indeksēšanas prototips“ JT „Semantiskās meklēšanas UN jautājumu atbildēšanas sistēmas“ prototips.

Projekta 1. aktivitātes „'Pētījums par lielajos valodas modeļos balstītu semantisko meklēšanu'“ ietvaros tika pētīts, kā segmentēt UN indeksēt dokumentus, Lajus iegūtu semantiskās pārklājumu meklēšanas jautājumiem dažādu veidu.

Projekta 2. aktivitātes „'Pētījums par kontekstā atbildēšanu jautājumu“ ietvaros tika pētīts kā būtu uz jautājumiem, ja atbilde ir atrodama vienā segmentā, tā ir jāģenerē, izmantojot vairākus segmentus, ja ģenerēšanai ir jāizpilda pieprasījums Datu bāzei, ja ir jāveic balstītu UN, ja atbildes ir jāveic aprēķinus papildu, VAI jānoskaidro ģenerēšanai filtrēšanu informācija lietotāja.

Projekta 4. aktivitātes „'Datu apstrādes UN indeksēšanas prototipa'“ ietvaros tika uzsākta dažādu pārvaldības zināšanu risinājumu prototipēšana.

5 projektas. aktivitātes „Semantiskās meklēšanas JT jautājumu atbildēšanas sistēmas prototipa“ ietvaros tika uzsākta meklēšanas JT jautājumu atbildēšanas saskarnes prototipēšana.

Projektu līdzfinansē Atveseļošanas fonds Darbības programmas paaugstināšana Latvijas Atveseļošanas UN noturības mehānisma plāna 5.1.r. reformu UN investīciju investīciju apjoma caur palielināšanu Produktivitātes P & A 5.1.1.r. reformas pārvaldība Inovāciju UN privāto P & A investīciju motivācija““ 5.1.1.2.i. investīcijas virziena atbalsta instruments inovāciju klasteru“ centru centru centru ietvaros attīstībai īstenošanas noteikumi ietvaros kompetences.

 

Pētniecības projektas „Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas JT atbilžu gatavošanas risinājums“ aktualitātes 2024. gada trešajā ceturksnī

IT kompetences Centrs īsteno projektu „Informācijas UN komunikācijas tehnoloģiju Centrs“, ID. Nr. 5.1.1.2.i.0/1/22/A/CFLA/008.

Projektas „Informācijas UN komunikācijas tehnoloģiju kompetences Centrs“ mērķis ir paaugstināt UN komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām līdz 2025. gada 30. jūnijam vismaz īstenojot pētījumus 12 nozares UN starpnozaru Biznesa procesu analīzes tehnoloģiju UN Dabīgās valodas tehnoloģiju jomās, Lai rezultātā 10 komersanti attīstu UN ieviestu vismaz informācijas institūcijām UN tehnoloģijas ražošanā jaunus produktus.

SIA „TILDE“ pētniecības projekts Nr. 2.4 „Daudzvalodīgs uzņēmuma semantiskās informācijas meklēšanas JT atbilžu gatavošanas risinājums“ uzsākts 2024. gada februārī. 2024. gada trešajā turpinās rūpnieciskā pētījuma aktivitāšu ceturksnī „„„lielajos Pētījums valodas modeļos balstītu semantisko meklēšanu, Pētījums balstītu jautājumu kontekstā“““ atbildēšanu“ UN Pētījums par satura izguvi UN sagatavošanu semantiskajai“““ īstenošana meklēšanai. Tāpat turpinās eksperimentālās izstrādes arī īstenošana aktivitāšu „Datu apstrādes UN indeksēšanas prototips“ JT „Semantiskās meklēšanas UN jautājumu atbildēšanas sistēmas“ prototips.

Projekta 1. aktivitātes „'Pētījums par lielajos valodas modeļos balstītu semantisko meklēšanu'“ ietvaros tika pētīts, cik labi semantiskā meklēšana darbojas daudzvalodu scenārijos.

Projekta 2. aktivitātes „'Pētījums par kontekstā jautājumu balstītu atbildēšanu' 'ietvaros tika strādāts pie konkrētiem risinājumiem. Tika izstrādāta metode, kas ļauj uzdot jautājumus par datiem, kas glabāti CSV dokumentos UN dinamiski saglabāti Typsesnse UN SQL domenas bāzēs. Tāpat tika sākta lokālu salīdzināšana izvietojamu, lielo valodas modeļu atbalstīt interesējošās valodas – latviešu, lietuviešu, igauņu UN angļu valodu.

Projekta 3. aktivitātes „'Pētījums par satura izguvi UN sagatavošanu semantiskajai'“ ietvaros tika pētīts, kā automātiski metadatus izgūt meklēšanai dokumentiem, Lai tos varētu saglabāt Datu bāzē VAI nodrošinātu automatizētas filtrēšanas iespējas.

Projekta 4. aktivitātes „'Datu apstrādes UN indeksēšanas prototipa'“ ietvaros tika papildināts ar iespēju dokumentiem definēt Tagus, kā arī ir papildināti metadatu lauki UN dokumentus ir iespējams segmentu apskatīt skatā.

5 projektas. aktivitātes „Semantiskās meklēšanas JT jautājumu atbildēšanas sistēmas prototipa“ esošais prototips ietvaros tika papildināts ar funkcionalitāti apskatīt, avotus atbildes, iesniegt atsauksmes JT saglabāt vēsturi.

 

Pētniecības projekta realizācijas laikotarpiai: 2024 02 01 – 2025 05 31.

Pētniecības projekta kopējās izmaksas – 248 598,00 EUR

Atveseļošanas Fonda līdzfinansējums – 160 636,50 EUR

 

Projektu līdzfinansē Atveseļošanas fonds Darbības programmas paaugstināšana Latvijas Atveseļošanas UN noturības mehānisma plāna 5.1.r. reformu UN investīciju investīciju apjoma caur palielināšanu Produktivitātes P & A 5.1.1.r. reformas pārvaldība Inovāciju UN privāto P & A investīciju motivācija““ 5.1.1.2.i. investīcijas virziena atbalsta instruments inovāciju klasteru“ centru centru centru ietvaros attīstībai īstenošanas noteikumi ietvaros kompetences.