
Pētniecības projekts „Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas UN atbilžu gatavošanas risinājums”
Pētniecības projekta „Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas UN atbilžu gatavošanas risinājums” aktualitātes 2025. Gada pirmajā ceturksnī
IT kompetences Centrs īsteno projektu „Informācijas UN komunikācijas tehnoloģiju kompetences Centrs”, id. No. 5.1.1.2.i .0/1/22/A/CFLA/008.
Projekta „Informācijas UN komunikācijas tehnoloģiju kompetences Centrs” mērķis IR paaugstināt informācijas UN komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. Gada 30. jūnijam īstenojot 12 nozares UN starpnozaru pētījumus Biznesa procesu tehnoloģiju jomās analīzes Dabīgās vismaz, lai to rezultātā vismaz 10 komersanti attīstu UN ieviestu jaunus produktus UN tehnoloģijas.
SIA „TILDE” pētniecības projekts nr 2,4 „Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas UN atbilžu gatavošanas risinājums” uzsākts 2024, Gada februārī. 2025. Gada pirmajā noslēgušās rūpnieciskā pētījuma jautājumu aktivitātes modeļos „Pētījums par lielajos valodas” balstītu semantisko meklēšanu” UN „Pētījums par kontekstā balstītu atbildēšanu”. Tāpat turpinās aktivitātes „Pētījums par satura izguvi UN sagatavošanu semantiskajai meklēšanai” īstenošana. Perioda ietvaros Tiek īstenotas arī eksperimentālās izstrādes aktivitātes „Datu apstrādes UN indeksēšanas prototips” UN „Semantiskās meklēšanas UN jautājumu atbildēšanas sistēmas prototips”.
Projekta 1. aktivitāte „Pētījums par lielajos valodas modeļos balstītu semantisko meklēšanu” noslēdzās 2024. Gada decembrī. Aktivitātes ietvaros tika apzinātas UN izstrādātas informācijas izguvē lietojamas metodes. To lietderība tika pārbaudīta uz dažādām Datu kopām – GAN ar mākslīgi jautājumiem latviešu ģenerētiem, angļu, lietuviešu UN igauņu valodā, GAN ar īstiem jautājumiem lietotāju latviešu valodā. Teksta sagatavošanā semantiskai meklēšanai tika izmēģināti vairāki komerciāli UN brīvpieejas lielie valodas modeļi. Eksperimenti demonstrē, also labi rezultāti IR sasniedzami, izmantojot brīvpieejas modeļus vektorizēšanas metodes UN kombinējot dažādas metodes – semantisko UN atslēgvārdu meklēšanu, UN izmantojot dokumenta kartējuma hipotētiska metodi.
Projekta 2. aktivitāte „Pētījums par kontekstā balstītu jautājumu” noslēdzās 2025. Gada februārī. Aktivitātes ietvaros ģenerēšanai klasificēšanai tulkošanai, tekstu modelēšanu, tostarp dažādiem, SQL vaicājumu uzdevumiem UN informācijas izguvei. Tika analizētas lielo valodas modeļu, piemēram, GPT, laama, Mistral, Gemma UN Phi, spējas ģenerēt atbildes UN tulkot starp, latviešu, angļu, igauņu, lietuviešu UN čehu valodām. Tāpat Izveidota Datu Kopa, whether ļāva novērtēt atbilžu balstītu kontekstā ģenerēšanas kvalitāti vairākās valodās. Pētījuma rezultāti sniedz salīdzinošu analīzi par dažādu lielo valodas modeļu efektivitāti ÜRO kvalitāti. GAN tulkošanas uzdevumam, GAN atbildes ģenerēšanai (praktiski) visnoderīgākais IR OpenAI GPT-4o modelid, panus arī brīvpieejas modeļi, īpaši Gemma2:27b UN Llama3 .1: 70b, uzrāda labus rezultātus pārbaudītajos NLP uzdevumos ÜRO valodās.
Projekta 3. aktivitātes „Pētījums par kontekstā balstītu atbildēšanu jautājumu” ietvaros Tiek pētītas metodes, kā tekstu efektīvāk formātu no dažādu documentiem UN pārveidot vienotā Datu formātā semantiskās meklēšanas UN kontekstā jautājumu balstītu atbildēšanas vajadzībām. Pārskata periodā esam sagatavojuši vairākus DOCX UN PDF dokumentu testpiemērus, kuros atrodamas dažādas sarežģītības satura konstrukcijas (formatējums, satura izkārtojums, attēli, valemid utt.), kā arī veikuši dažādu satura izguves UN pārveides rīku vērtēšanu. Rezultātā esam identificējuši rīkus formātu dokumentu apstrādei konkrēto visspējīgākos daudzvalodīga uzņēmuma informācijas semantiskās meklēšanas UN atbilžu gatavošanas risinājuma prototipam.
Projekta 4. aktivitātes „Datu apstrādes UN indeksēšanas prototips” ietvaros Tiek izstrādāts risinājums whether ļaus organizācijām augšupielādēt dažādus prototipā;; dokumentus organizācijas; No document title izgūts saturs, whether Tiks pārveidots vienotā formātā, pēc kā document Tiks semantiski indeksēti, lai nodrošinātu semantiskās meklēšanas funkcionalitāti. Pārskata periodā prototipā tika ieviesta funkcionalitāte document ģenerēt kopsavilkumus, kā arī prototipā IR integrēti aktuālie spējīgākie satura izvilkšanas rīki (izmantojot 3. aktivitātes aktuālos rezultātus).
Projekta 5. aktivitātes „Semantiskās meklēšanas UN jautājumu sistēmas prototips” ietvaros Tiek izstrādāts risinājums, whether ļaus organizāciju darbiniekiem uzdot jautājumus par saturu, kas atrodams organizācijas dokumentos, UN saņemt atbildes uz šiem jautājumiem. Pārskata periodā prototipā tika ieviesta funkcionalitāte, whether atbildes ģenerēšanas dokumentu arī kopsavilkumus izmanto procesā, kā arī tika uzlabota funkcionalitāte atrasto dokumentu filtrēšanai pēc relevances UN tērzēšanas glabāšanai vēstures UN attēlošanai.
Pētniecības projekta realizācijas perioodid: 01.02.2024. – 31.05.2025.
Pētniecības projekta izmaksas – 248 598,00 EUR
Atveseļošanas Fonda līdzfinansējums – 160 636,50 euro t
Projektu līdzfinansē Atveseļošanas fondid Darbības programmas “Latvijas Atveseļošanas UN noturības mehānisma plāna 5.1. R. reformu UN investīciju virziena „Produktivitātes caur investīciju apjoma palielināšanu P & A” 5.1.1. R. reformas „Inovāciju pārvaldība UN privāto P & A investīciju motivācija” 5.1.1.2.i. investīcijas „atbalsta instruments inovāciju klasteru” īstenošanas kompetents Centru ietvaros„ietvaros.
Pētniecības projekta „Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas UN atbilžu gatavošanas risinājums” aktualitātes 2024. Gada ceturtajā ceturksnī
SEE kompetentsib Centrsi īsteno projektu. „Informācijas UN komunikācijas tehnoloģiju kompetences Centrs”, ID. No. 5.1.1.2.i .0/1/22/A/CFLA/008.
Projekta „Informācijas UN komunikācijas tehnoloģiju kompetences Centrs” mērķis IR paaugstināt informācijas UN komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. Gada 30. jūnijam īstenojot 12 nozares UN starpnozaru pētījumus Biznesa procesu tehnoloģiju jomās analīzes Dabīgās vismaz, lai to rezultātā vismaz 10 komersanti attīstu UN ieviestu jaunus produktus UN tehnoloģijas.
SIA „TILDE” pētniecības projekts nr 2,4 „Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas UN atbilžu gatavošanas risinājums” uzsākts 2024, Gada februārī. 2024. Gada ceturtajā turpinās rūpnieciskā pētījuma jautājumu aktivitāšu balstītu „Pētījums par lielajos valodas modeļos semantisko meklēšanu”, „Pētījums par kontekstā balstītu atbildēšanu” UN „Pētījums par satura izguvi UN sagatavošanu semantiskajai” īstenošana. Tāpat turpinās arī eksperimentālās izstrādes aktivitāšu „Datu apstrādes UN indeksēšanas prototips” UN „Semantiskās meklēšanas UN jautājumu sistēmas prototips” īstenošana.
Projekta 1. aktivitātes „Pētījums par lielajos valodas modeļos semantisko meklēšanu” ietvaros tika izveidotas divas Datu kopas ar īstiem lietotāju uzdotiem jautājumiem semantiskās meklēšanas metožu vērtēšanai. Tika veikti experimenti, lai noteiktu teksta modeli izmantot vektorizēšanas kādu,, lai iegūtu pārklājuma rezultātus augstāka, salīdzinot publiski pieejamus UN lokāli teksta izvietojamus modeļus vektorizēšanas.
Projekta 2. aktivitātes „Pētījums par kontekstā jautājumu atbildēšanu” ietvaros tika turpināti experimenti, salīdzinot dazādus pieejamus atvērti ģeneratīvos lielos valodas modeļus ģenerēšanas teksta uzdevumiem – jautājumu atbildēšanai UN mašīntulkošanai. Tika veikta kļūdu analīze vairāku atvērti pieejamu UN komerciālu valodas modeļu ģenerētiem tekstiem ģeneratīvo UN lietuviešu valodās latviešu. Tika noteikts, also Google atvērti pieejamais Gemma2:27b modelis sasniedz rezultātus salīdzināmus ar spējīgākajiem komerciālajiem modeļiem (piemēram, OpenAI GPT-4o modeli), whether sillutaja plašas iespējas tā komerciālai lietošanai produktos produktos.
Projekta 3. aktivitātes „Pētījums par satura izguvi UN sagatavošanu semantiskajai meklēšanai” ietvaros tika uzlabota dokumentu pārveidošana markdown formātā, ieviešot atbalstu uzskaitījumu, tabulu nodaļu ar virsrakstiem labākai segmentēšanai. Uzlabota PDF dokumentu segmentēšanas kvalitāte.
Projekta 4. aktivitātes „Datu apstrādes UN indeksēšanas” ietvaros prototips tika papildināts ar funkcionalitāti meklēt zināšanu bāzes failos, ierobežojot meklēšanu ar tagiem.
Projekta 5. aktivitātes „Semantiskās meklēšanas UN jautājumu prototips prototipam” ietvaros tika izveidota lietotājam ērtāka saskarne, kurā IR redzama sarunu vēsture, jautājumu paraugi, ko lietotājs var uzdot, izvēršamas atsauces uz jautājumam informācijas avotiem UN atbilde ar iespēju to novērtēt.
Pētniecības projekta realizācijas perioodid: 01.02.2024. – 31.05.2025.
Pētniecības projekta izmaksas – 248 598,00 EUR
Atveseļošanas Fonda līdzfinansējums – 160 636,50 euro t
Projektu līdzfinansē fonds Darbības programmas „Latvijas Atveseļošanas UN noturības mehānisma plāna 5.1. R.” UN investīciju virziena „Produktivitātes caur investīciju apjoma palielināšanu P & A” 5.1.1. R. reformas „Inovāciju pārvaldība UN privāto P & A investīciju motivācija” 5.1.1.2.i. „atbalsta instruments inovāciju klasteru” īstenošanas kompetences Centru ietvaros”.
Pētniecības projekta „Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas UN atbilžu gatavošanas risinājums” aktualitātes 2024. Gada otrajā ceturksnī
SEE kompetentsib Centrsi īsteno projektu. „Informācijas UN komunikācijas tehnoloģiju kompetences Centrs”, ID. No. 5.1.1.2.i .0/1/22/A/CFLA/008.
Projekta „Informācijas UN komunikācijas tehnoloģiju kompetences Centrs” mērķis IR paaugstināt informācijas UN komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. Gada 30. jūnijam īstenojot 12 nozares UN starpnozaru pētījumus Biznesa procesu tehnoloģiju jomās analīzes Dabīgās vismaz, lai to rezultātā vismaz 10 komersanti attīstu UN ieviestu jaunus produktus UN tehnoloģijas.
- Gada otrajā ceturksnī pētniecības projekta turpinās rūpnieciskā balstītu pētījuma aktivitātes „Pētījums par lielajos valodas modeļos semantisko meklēšanu” UN „Pētījums par kontekstā balstītu jautājumu atbildēšanu”. Tāpat turpinās arī eksperimentālās izstrādes aktivitāšu „Datu apstrādes UN indeksēšanas prototips” UN „Semantiskās meklēšanas UN jautājumu sistēmas prototips” īstenošana.
Projekta 1. aktivitātes „Pētījums par lielajos valodas modeļos balstītu semantisko meklēšanu” 'ietvaros tika pētīts, kā segmentēt UN indeksēt dokumentus, lai iegūtu augstāku semantiskās meklēšanas pārklājumu dažādu semantiskās jautājumiem veidu.
Projekta 2. aktivitātes „Pētījums par kontekstā jautājumu atbildēšanu” 'ietvaros tika pētīts kā būtu jāatbild uz jautājumiem, and atbilde IR atrodama vienā segmentā, tā IR jāģenerē, izmantojot vairākus segmentus, and ģenerēšanai IR jāizpilda pieprasījums Datu bāzei, and IR jāveic jānoskaidro UN, and atbildes aprēķinus IR jāveic filtrēšanu balstītu, va ģenerēšanai papildu informācija no lietotāja.
Projekta 4. aktivitātes „Datu apstrādes UN indeksēšanas” ietvaros tika uzsākta zināšanu pārvaldības risinājumu prototipēšana.
Projekta 5. aktivitātes „Semantiskās meklēšanas UN jautājumu sistēmas prototipa” ietvaros tika uzsākta UN jautājumu atbildēšanas meklēšanas saskarnes prototipēšana.
Projektu līdzfinansē fonds Darbības programmas „Latvijas Atveseļošanas UN noturības mehānisma plāna 5.1. R.” UN investīciju virziena „Produktivitātes caur investīciju apjoma palielināšanu P & A” 5.1.1. R. reformas „Inovāciju pārvaldība UN privāto P & A investīciju motivācija” 5.1.1.2.i. „atbalsta instruments inovāciju klasteru” īstenošanas kompetences Centru ietvaros”.
Pētniecības projekta „Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas UN atbilžu gatavošanas risinājums” aktualitātes 2024. Gada trešajā ceturksnī
IT kompetences Centrs īsteno projektu „Informācijas UN komunikācijas tehnoloģiju kompetences Centrs”, id. No. 5.1.1.2.i .0/1/22/A/CFLA/008.
Projekta „UN komunikācijas tehnoloģiju kompetences Centrs” mērķis IR paaugstināt informācijas UN komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. Gada 30. jūnijam īstenojot 12 nozares UN starpnozaru Biznesa procesu analīzes tehnoloģiju UN Dabīgās valodas tehnoloģiju jomās, lai to rezultātā vismaz 10 komersanti attīstu UN ieviestu jaunus produktus UN tehnoloģijas.
SIA „TILDE” pētniecības projekts nr 2,4 „Daudzvalodīgs uzņēmuma informācijas semantiskās meklēšanas UN atbilžu gatavošanas risinājums” uzsākts 2024, Gada februārī. 2024. Gada trešajā turpinās rūpnieciskā pētījuma jautājumu aktivitāšu balstītu „Pētījums par lielajos valodas modeļos semantisko meklēšanu”, „Pētījums par kontekstā balstītu atbildēšanu” UN „Pētījums par satura izguvi UN sagatavošanu semantiskajai” īstenošana. Tāpat turpinās arī eksperimentālās izstrādes aktivitāšu „Datu apstrādes UN indeksēšanas prototips” UN „Semantiskās meklēšanas UN jautājumu sistēmas prototips” īstenošana.
Projekta 1. aktivitātes „Pētījums par lielajos valodas modeļos balstītu semantisko meklēšanu” 'ietvaros tika pētīts, cik labi semantiskā meklēšana darbojas. daudzvalodu scenārijos.
Projekta 2. aktivitātes „'Pētījums par kontekstā jautājumu atbildēšanu balstītu”' ietvaros tika strādāts pirukas konkrētiem risinājumiem. Tika izstrādāta metode whether ļauj lietotājiem uzdot jautājumus par datiem, whether glabāti CSV dokumentos UN dinamiski saglabāti Typsesnse UN SQL Datu bāzēs. Tāpat tika sākta lokālu izvietojamu salīdzināšana, lielo valodas modeļu spējā atbalstīt interesējošās valodas – latviešu, lietuviešu, igauņu UN angļu valodu.
Projekta 3. aktivitātes „'Pētījums par satura izguvi UN sagatavošanu semantiskajai meklēšanai”' ietvaros tika pētīts, kā automātiski izgūt metadatus no documentiem, lai tos varētu saglabāt Datu bāzē vai nodrošinātu filtrēšanas automatizētas Datu iespējas.
Projekta 4. aktivitātes „'Datu apstrādes UN indeksēšanas prototipa”' ietvaros prototips papildināts iespēju ar a document definēt background, kā arī IR papildināti metadatu lauk UN dokumentus IR iespējams apskatīt segmentu metadatu skatā.
Projekta 5. aktivitātes „Semantiskās meklēšanas UN jautājumu sistēmas prototipa” ietvaros esošais prototips tika papildināts ar funkcionalitāti apskatīt avotus, iesniegt atbildes, kopēt atsauksmes UN saglabāt atbildēšanas vēsturi.
Pētniecības projekta realizācijas perioodid: 01.02.2024. – 31.05.2025.
Pētniecības projekta izmaksas – 248 598,00 EUR
Atveseļošanas Fonda līdzfinansējums – 160 636,50 euro t
Projektu līdzfinansē fonds Darbības programmas „Latvijas Atveseļošanas UN noturības mehānisma plāna 5.1. R.” UN investīciju virziena „Produktivitātes caur investīciju apjoma palielināšanu P & A” 5.1.1. R. reformas „Inovāciju pārvaldība UN privāto P & A investīciju motivācija” 5.1.1.2.i. „atbalsta instruments inovāciju klasteru” īstenošanas kompetences Centru ietvaros”.