Mākslīgā intelekta asistents daudzvalodu sapulču pārvaldībai (1.1.1.1/19/A/082)

Mākslīgā intelekta asistents daudzvalodu sapulču pārvaldībai

Statuss uz 27.10.2023.

Laika posmā no 28.07.2023 līdz 27.10.2023 pētījumā ‘’Mākslīgā intelekta asistents daudzvalodu sapulču pārvaldībai’’ (1.1.1.1/19/A/082) tika turpināts darbs aktivitātēs 1.3 ‘’Daudzvalodu runas atpazīšana’’, 2.2 ‘’Sapulču telpas asistents’’ , 3.2 ‘’Runas sinhrona tulkošana’’, 4.2 ‘’Mākslīgā intelekta asistenta gala prototips daudzvalodu sapulču pārvaldībai’’.

Aktivitāte 1.3 ‘’Daudzvalodu runas atpazīšana’’

Pārskata periodā tika veikti noslēguma darbi pie transliterācijas modeļiem. Turpinājās darbs pie n-gram valodas modeļu apmācības un iepriekšējo rezultātu novērtējuma, apmācīto n-gram valodas modeļu un hibrīdu ASR sistēmu kombinācijā. Tika veikts darbs pie publicēto tehnoloģiju un pirmkoda sakārtošanas.

Aktivitāte 2.2 ‘’Sapulču telpas asistents’’

Pārskata periodā, balstoties uz iepriekšējā pārskata periodā iegūtajiem datiem, turpinājās asistenta snieguma pilnveidošana. Aktivitātē iepriekš izveidotās dabīgās valodas saprašanas metodes, kas sapulču transkriptā identificētu lēmumus u.c. īpaši protokolā izceļamas lietas tika sagatavotas kā atsevišķi darbinām un izvietojams virtuālais asistents, kas publicēts kā jauns izlaidums/versija GitHub koda krātuvē (GitHub – tilde-nlp/PIP3_2.2_bot)

Aktivitāte 3.2 ‘’Runas sinhrona tulkošana’’

Pārskata periodā, balstoties uz lietotāju aptauju un lietojuma testu rezultātiem, turpinājās asistenta darba pilnveidošana. Tika sagatavotas tādas lietas kā atsevišķi darbināms un izvietojams virtuālais asistents, kas nākamajā pārskata periodā tiks pabeigts un publicēts kā jauna versija GitHub koda krātuvē (https://github.com/tilde-nlp/PIP3_2.2_bot).

Aktivitāte 2.3 “Sapulču protokolu izveide”.

Pārskata periodā tika pabeigta apakšdarbības prototipa izstrāde. Prototips publicēts GitHub repozitorijā – GitHub – tilde-nlp/speech-mt-eval. Prototips ļauj veikt runas sinhronas tulkošanas risinājumu vērtēšanu, iegūstot pārskatu par katra runas sinhrona tulkošanas darbplūsmā iesaistīta komponenta kvalitāti un ietekmi uz kopējo runas tulkošanas risinājuma kļūdas apjomu. Pārskata periodā prototipam pabeigta izstrāde un dokumentācija.

Aktivitāte 4.2 “Mākslīgā intelekta asistenta gala prototips daudzvalodu sapulču pārvaldībai”

Pārskata periodā tika veikta gala prototipa izvērtēšana un kļūdu labošana, tika sagatavots izvērtējuma ziņojums un notika gala prototipa publicēšana.

Šī projekta galvenais mērķis bija izveidot integrētu risinājumu, kas ietver būtiskos elementus daudzvalodu sanāksmju pārvaldības automatizēšanai un to efektivitātes palielināšanai, tika veiksmīgi sasniegts, kā arī, projekta nospraustie rezultāti tika sasniegti ar pozitīviem rezultātiem.

Publicēts: 27.10.2023

Statuss uz 28.08.2023.

Laika posmā no 15.05.2023 līdz 28.07.2023 pētījumā “Mākslīgā intelekta asistents daudzvalodu sapulču pārvaldībai” (1.1.1.1/19/A/082) tika turpināts darbs aktivitātēs 1.2 “Attālinātā lauka runas atpazīšana”, 1.3 “Daudzvalodu runas atpazīšana”, 2.2 “Sapulču telpas asistents”, 2.3 “Sapulču protokolu izveide” (aktivitāte beidzās atskaites posma laikā – 30.06.2023), 3.2. “Runas sinhrona tulkošana” un 4.2 “Mākslīgā intelekta asistenta gala prototips daudzvalodu sapulču pārvaldībai”.

Aktivitāte 1.2 “Attālinātā lauka runas atpazīšana”.

Pārskata periodā tika veikta latviešu runas atpazīšanas modeļu apmācība izmantojot Mozilla CommonVoice latviešu valodas datus. Nesaktoties uz to, ka jaunu apmācības datu apjoms ir tikai 8 stundas, tika konstatēts atpazīšanas precizitātes uzlabojums uz visām novērtēšanas datu kopām, tomēr pārspēt bāzlīniju izdevās tikai uz sliktas kvalitātes audio piemēriem.

Prototipa pirmkods, kas darbina jaunu modeli, ir ievetots atvērtā GitHub repozitorijā ( https://github.com/tilde-nlp/PIP3_1.2_FarField ). Pats modelis ir pieejams tikai pēc pieprasījuma. Kā arī, aktivētājvārdu atpazīšanas prototipa pirmkods, video prezent\acija un dokumentācija arī ir ievietotas atvērtā GitHub repozitorijā.

Aktivitāte 1.3 “Daudzvalodu runas atpazīšana”.

Pārskata periodā tika veikti eksperimenti ar valodas modeļa apmācības datu papildināšanu, ar sintētiskiem transliterācijas piemēriem, lai risinātu anglicismu un citu svešvārdu sliktas atpazīšanas kvalitātes problēmu. Tika izveidoti jauni transliterācijas modeļi un jaunas valodas modeļu apmācības datu kopas. Tika arī veikti eksperimenti ar daudzvalodu ASR modeļu trenēšanu, uztrenēts end-to-end ASR modelis, kas prot transkribēt audio 3 valodās: latviešu, krievu un lietuviešu.

Aktivitāte 2.2 “Sapulču telpas asistents”.

Aktivitāte 2.3 “Sapulču protokolu izveide”.

Pārskata periodā tika pabeigts darbs pie sapulču protokolu izveides moduļa, un satatavotais modulis tika novērtēts un sagatavota jaunākā moduļa versija iekļaušanai. Tika veikta protokolu izveides funkcionalitātes drošības testēšana un apkopoti nepieciešamie drošības uzlabojumi. Tika arī pilnveidots veids kā sapulces protokols nonāk pie lietotājiem. Programmatūras kods publicēts GitHub koda krātuvē (https://github.com/tilde-nlp/PIP3_4_Prototype/blob/main/MeetingLogger.md) kā integrēta prototipa sastāvdaļa. Sasniegtie rezultāti: koncepta prototips, datu kopa, sapulču protokolu izveides tehnoloģija un atklātā pirmkoda programmatūra.

Aktivitāte 3.2 “Runas sinhrona tulkošana”

Pārskata periodā tika turpināta apakšdarbības prototipa izstrāde. Prototips ļauj veikt runas sinhronas tulkošanas risinājumu vērtēšanu, iegūstot pārskatu par katra runas sinhronas tulkošanas darbplūsmā iesaistīta komponenta kvalitāti un ietekmi uz kopējo runas tulkošanas risinājuma kļūdas apjomu. Prototipam pabeigta implementācija un tas ir dokumentēts. Dokumentācija pievienota GitHub repozitorijam. Prototips publicēts (ierobežotas pieejas) GitHub repozitorijā (https://github.com/tilde-nlp/speech-mt-eval).

Aktivitāte 4.2 “Mākslīgā intelekta asistenta gala prototips daudzvalodu sapulču pārvaldībai”

Pārskata periodā turpinājās prototipa izstrāde. Turpinājās darbs pie sistēmas servisu mērogošanas, tika analizēti runas atpazīšanas servisu slodzes testu rezultāti un identificētas problēmas, kas tika novērstas uzlabojot runas atpazīšanas servisu un tā infrastruktūras konfigurāciju. Tika arī uzlabots sapulču tulkošanas lietotāja interfeiss. Sapulču asistenta atbalstīto valodu klāsts ir papildināts un prototipam pievienota iespēja analizēt katra lietotāja patērēto laiku sapulču asistentā. Prototipā tika iekļauta galīgā aktivitāte, 2.3 izstrādātā sapulču protokolu gatavošanas programmatūra (https://github.com/tilde-nlp/PIP3_4_Prototype/blob/main/MeetingLogger.md). 

Publicēts: 28.08.2023

Statuss uz 15.05.2023

Laika posmā no 27.01.2022 līdz 15.05.2023 pētījumā “Mākslīgā intelekta asistents daudzvalodu sapulču pārvaldībai” (1.1.1.1/19/A/082) turpināts darbs aktivitātēs 1.2 “Attālinātā lauka runas atpazīšana”, 1.3 “Daudzvalodu runas atpazīšana”, 2.2 “Sapulču telpas asistents’’, 2.3 “Sapulču protokolu izveide” un 3.2. “Runas sinhrona tulkošana” un 4.2 “Mākslīgā intelekta asistenta gala prototips daudzvalodu sapulču pārvaldībai”.

Aktivitāte 1.2 “Attālinātā lauka runas atpazīšana’’

Pārskata periodā tika veikti eksperimenti ar Transformer arhitektūras valodas modeļu apmācību latviešu runas atpazīšanai. Tika veikti eksperimenti ar lielā RNN valodas modeļa no bāzlīnijas hibrīda pielietojumu kopā ar EspNet ASR modeļiem. Abos gadījumos tika konstatēts atpazīšanas precizitātes uzlabojums uz visām novērtēšanas datu kopām, tomēr pārspēt bāzlīniju izdevās tikai uz sliktas kvalitātes audio piemēriem. Veicot apmācības datu filtrēšanu tika izveidots lietuviešu runas atpazīšanas modelis, kas pārsniedz bāzlīnijas hibrīdu vairākumā no novērtēšanas datu kopām.

Sagatavots un iesniegts Interspeech 2023 konferencē raksts, kas apraksta iepriekšējos periodos izstrādātu “far-” un “near-field” aktivētājvārdu atpazīšanas prototipu.

Aktivitāte 1.3 “Daudzvalodu runas atpazīšana”.

Pārskata periodā tika veikti eksperimenti ar Whisper daudzvalodu runas atpazīšanas modeļiem. Tika veikti pirmie pietrenēšas eksperimenti izmantojot latviešu runas korpusu, bet diemžēl atpazīšanas kvalitāte pirmajiem prototipiem ir zema un stipri atpaliek gan no hibrīda ASR ar RNNLM, gan no EspNet modeļiem no 1.2 aktivitātes, padarot tos par nelietojamiem. Lai risinātu anglicismu un citu svešvārdu sliktas atpazīšanas kvalitātes problēmu tika veikta saistītas literatūras izpēte un identificēts risinājums – valodas modeļa apmācības datu papildināšana ar sintētiskiem transliterācijas piemēriem. Tāds risinājums varētu strādāt gan ar veciem hibrīda modeļiem, gan ar jauniem pilna cikla (end-to-end) modeļiem. Tika izveidots jauns transliterāciju korpuss un uzsākta transliterācijas modeļu apmācība.

Aktivitāte 2.2 “Sapulču telpas asistents”.

Pārskata periodā, balstoties uz lietotāju aptauju un lietojuma testu rezultātiem, turpinājās asistenta darba pilnveidošana. Tika pētīts, kā uzlabot dabīgās valodas saprašanas metodes, lai efektīvāk sapulču transkriptā identificētu lēmumus u.c. īpaši protokolā izceļamas lietas; balss komandu vietā analizēta iespēja īpaši izceļamās vietas identificēt pēc atslēgvārdiem transkribētajā tekstā.

Aktivitāte 2.3 “Sapulču protokolu izveide”.

Pārskata periodā tika pabeigts darbs pie sapulču protokolu izveides moduļa. Sagatavotais modulis tika novērtēts un sagatavota jaunākā moduļa versija iekļaušanai prototipā (aktivitāte 4.2). Izveidotais modulis sapulces laikā veic sapulces transkripciju un rezultātu saglabā sapulces protokola failā, protokola failā tiek ievietota arī in formācija par sapulces dalībniekiem, sapulces transkripts tiek automātiski analizēts ar dabīgās valodas saprašanas rīkiem, lai atrastu un protokolā ievietotu informāciju par pieņemtajiem lēmumiem, uzdevumiem u.c. Sapulces protokolā ir arī laika atzīmes, kas ļauj nepieciešamības gadījumā atrast vietu sapulces audioierakstā, lai noklausītos attiecīgās vietas ierakstu.

Aktivitāte 3.2 “Runas sinhrona tulkošana.”

Pārskata periodā tika turpināta apakšdarbības prototipa izstrāde. Prototips ļaus veikt runas sinhronas tulkošanas risinājumu vērtēšanu, iegūstot pārskatu par katra runas sinhronas tulkošanas darbplūsmā iesaistīta komponenta kvalitāti un ietekmi uz kopējo runas tulkošanas risinājuma kļūdas apjomu. Pārskata periodā prototipā implementētas metodes runas atpazīšanas vērtēšanai, izmantojot vārdu kļūdu īpatsvara metodi, runas segmentēšanas vērtēšanai, izmantojot diarizācijas kļūdu īpatsvara metodi, pieturzīmju vērtēšanai, izmantojot klasifikācijas uzdevumu vērtēšanas standartmetodes (akurātumu, precizitāti, pārklājumu, F-mēru), un tulkošanas vērtēšanai, izmantojot tulkošanas kļūdu īpatsvara metodi.

Aktivitāte 4.2 “Mākslīgā intelekta asistenta gala prototips daudzvalodu sapulču pārvaldībai”

Pārskata periodā turpinājās prototipa izstrāde. Aktivitātes 4.1 rezultāta novērtēšanas ietvaros tika konstatēts, ka lietotāji nav apmierināti ar to, kā runas atpazīšanas rezultāti tiek attēloti, proti, runa tiek segmentēta ļoti garos segmentos, segmenti tiek attēloti pakāpeniski un pēc attēlošanas tie mainās u.tml. Šīs aktivitātes ietvaros tika veikti eksperimenti ar dažādiem attēlošanas veidiem, tika analizēts, kurus no šiem veidiem lietotāji vērtē labāk. Rezultātā tika izveidots jauns runas atpazīšanas rezultātu attēlošanas veids – segmenti ir īsāki, segmenti tiek parādīti uzreiz pilnībā nevis inkrementāli, ja runātājs tiek pārtraukts, tad tiek uzsākts jauns segments.

Prototipā tika pievienotas vēl vairākas runas atpazīšanas valodas un tām atbilstošās mašīntulkošanas sistēmas.

Publicēts: 15.05.2023

Statuss uz 27.01.2023

Laika posmā no 02.11.2022 līdz 27.01.2023 pētījumā “Mākslīgā intelekta asistents daudzvalodu sapulču pārvaldībai” (1.1.1.1/19/A/082) turpināts darbs aktivitātēs 1.2 “Attālinātā lauka runas atpazīšana”, 1.3 “Daudzvalodu runas atpazīšana”, 2.2 “Sapulču telpas asistents’’, 2.3 “Sapulču protokolu izveide” un 3.2. “Runas sinhrona tulkošana” kā arī aktivitātēs 4.1 “Mākslīgā intelekta asistenta agrīnais prototips daudzvalodu sapulču pārvaldībai” (aktivitāte beidzās atskaites posma laikā – 31.12.2022) un 4.2 “Mākslīgā intelekta asistenta gala prototips daudzvalodu sapulču pārvaldībai”.

Aktivitāte 1.2 “Attālinātā lauka runas atpazīšana’’

Pārskata periodā tika turpināti eksperimenti ar rīkkopu EspNet un jaunākām runas atpazīšanas modeļu arhitektūrām. Apmācīti runas atpazīšanas modeļi latviešu un lietuviešu valodām, kas sasniedz labāku atpazīšanas kvalitāti nekā bāzlīnijas hibrīds ASR ar mazu ngram valodas modeļi.

Pārskata periodā tika nopublicēts “far-” un “near-field” aktivētājvārdu atpazīšanas prototipa pirmkods, izveidotas datu kopas un modeļi: https://github.com/tilde-nlp/PIP3_1.2_FarField

Aktivitāte 1.3 “Daudzvalodu runas atpazīšana”.

Pārskata periodā tika veikti eksperimenti ar Wav2Vec 2.0 vien un daudzvalodu runas modeļiem, kā arī ar jaunākiem Whisper daudzvalodu runas atpazīšanas modeļiem.

Wav2Vec 2.0 modeļi ir apmācīti uz milzīgiem dažādu valodu runas datu apjomiem nepārraudzītā veidā. Tika veikti pirmie pietrenēšas eksperimenti izmantojot latviešu runas korpusu. Iegūti modeļi demonstrē labākus rezultātus nekā modeļi no 1.2 aktivitātes, bet diemžēl vāja valodas modeļa dēļ arī atpaliek no hibrīda ASR ar RNNLM.

Savukārt, Whisper ir apmācīts pārraudzītā veidā uz 680,000st audio datu kopas, kas satur audio ierakstus 99 valodās. Pārskata periodā tika veikta Whisper modeļu novērtēšana uz latviešu un krievu testa kopām. Tika konstatēta vajā latviešu runas atpazīšanas kvalitāte, bet konkurētspējīgu rezultātu uz krievu valodas. Tika uzsākti eksperimenti Whisper pietrenēšanai uz latviešu valodas datiem.

Aktivitāte 2.2 “Sapulču telpas asistents”.

Turpinājās asistenta darba pilnveidošana, balstoties uz lietotāju aptauju un lietojuma testu rezultātiem. Tika pētīts, kā dažādi atpazītā teksta segmentēšanas veidi runas atpazīšanas sistēmā ietekmē sapulču virtuālā asistenta darbību.

Aktivitāte 2.3 “Sapulču protokolu izveide”.

Pārskata periodā tika pilnveidots modulis, kas sapulces laikā identificē protokolā iekļaujamo informāciju. Tika pētīti veidi, kā sapulču protokolā iekļauto informāciju sasaistīt ar sapulces audioierakstu. Sasaiste ar audioierakstu ļauj vieglāk rediģēt sagatavoto protokolu, jo neskaidrību gadījumā ir iespējams noklausīties, kas sapulcē tika teikts. Prototipā tiek veidots risinājums, kas Microsoft Word dokumentā ļauj iekļaut gan protokola tekstu, gan tekstam piesaistītus atbilstošos audio fragmentus. Uzsākts darbs arī pie tā, lai sapulces protokolā varētu iekļaut informāciju vairākās valodās, t.i., ja kāds sapulces dalībnieks runā citā valodā, nevis sapulces pamatvalodā.

Aktivitāte 3.2 “Runas sinhrona tulkošana.”

Pārskata periodā tika veikta analīze runas tulkošanas vērtēšanas risinājuma iegūtajiem rezultātiem (t.i., iepriekšējā pārskata periodā iegūtajiem datiem). Tika identificēti potenciāli uzlabojamie komponenti. Tika uzsākta apakšdarbības prototipa izstrāde. Prototips ļaus veikt runas sinhronas tulkošanas risinājumu vērtēšanu, iegūstot pārskatu par katra runas sinhronas tulkošanas darbplūsmā iesaistīta komponenta kvalitāti un ietekmi uz kopējo runas tulkošanas risinājuma kļūdas apjomu.

Aktivitāte 4.1 “Mākslīgā intelekta asistenta agrīnais prototips daudzvalodu sapulču pārvaldībai.”

Pārskata periodā tika pabeigta pētniecisko rezultātu (aktivitātes 1, 2 un 3) apkopošana un mākslīgā intelekta asistenta prototipa daudzvalodu sapulču pārvaldībai prasību specificēšana un izstrāde. Mākslīgā intelekta asistenta prototips ir realizēts kā Microsoft Teams lietotne, ņemot vērā Microsoft Teams tirgus pārklājumu, kā arī popularitāti uzņēmumu starpā. Izveidotais prototips tika iesniegts izvērtēšanai Microsoft, lai izvērtētu tā atbilstību visām Microsoft Teams lietotņu prasībām, no Microsoft tika saņemti vairāki uzlabojumu pieprasījumi, kas pārskata periodā arī tika realizēti. Ir saņemts pozitīvs atzinums no Microsoft par agrīnā prototipa atbilstību visām Microsoft Teams prasībām, un prototips pieejams Microsoft Teams lietotņu krātuvē. Ir veikta prototipa lietojamības testēšana, iesaistot agrīnos lietotājus, testēšanas rezultāti ir apkopoti un aprakstīti.

Pārskata periodā ar atvētāt koda licenci ir nopublicēts agrīnā prototipa pirmkods: https://github.com/tilde-nlp/PIP3_4_Prototype

Sasniedzamie rezultāti: Agrīnais Prototips, atvērtā koda programmatūra, agrīna prototipa novērtējuma ziņojums

Aktivitāte 4.2 “Mākslīgā intelekta asistenta gala prototips daudzvalodu sapulču pārvaldībai”

2023. gada Janvārī tika uzsākta Mākslīgā intelekta asistenta gala prototipa izstrāde, aktivitāte tika uzsākta ar 4.1 aktivitātes rezultātā radītā sākotnējā prototipa izvērtējumu un tika turpināta jaunāko pētniecisko rezultātu (aktivitātes 1, 2 un 3) apkopošana un mākslīgā intelekta asistenta prototipa daudzvalodu sapulču pārvaldībai prasību specificēšana

Publicēts: 27.01.2023

Statuss uz 02.11.2022

Laika posmā no 05.08.2022 līdz 02.11.2022 pētījumā “Mākslīgā intelekta asistents daudzvalodu sapulču pārvaldībai” (1.1.1.1/19/A/082) turpināts darbs aktivitātēs 1.2 “Attālinātā lauka runas atpazīšana”, 1.3 “Daudzvalodu runas atpazīšana”, 2.2 “Sapulču telpas asistents’’, 2.3 “Sapulču protokolu izveide” un 3.1. “Trokšņainas runas ievades mašīntulkošana”, 3.2. “Runas sinhrona tulkošana” un aktivitātē 4.1. “Mākslīgā intelekta asistenta agrīnais prototips daudzvalodu sapulču pārvaldībai.”

Aktivitāte 1.2 “Attālinātā lauka runas atpazīšana”. Pārskata periodā tika veikti eksperimenti ar jaunākām runas atpazīšanas modeļu arhitektūrām: conformer, transformer LM un apmācības datu papildināšanas metodi SpecAugment ar mērķī uzlabot atpazīšanas kvalitāti uz “attālinātā lauka” un citiem sarežģītiem audio ierakstiem. Eksperimenti tika veikti ar rīkkopu EspNet. Pārskata periodā tika arī sagatavots raksts “Spoken Dialogue System for Call Centers with Expressive Speech Synthesis” (D. Nīcmanis, A. Salimbajevs), kurš publicēts un veiksmīgi prezentēts vadošās runas tehnoloģiju konferences Interspeech 2022 Show & Tell sesijā.

Aktivitāte 1.3 “Daudzvalodu runas atpazīšana”. Turpināti eksperimenti Wav2Vec2 daudzvalodu runas modeļiem. Wav2Vec2 un līdzīgie modeļi ir apmācīti uz milzīgiem dažādu valodu runas datu apjomiem nepārraudzītā veidā.

Aktivitāte 2.2 “Sapulču telpas asistents”. Turpinājās asistenta darba pilnveidošana. Tika novērstas kļūdas ar lietotāja izteikumu pareizu interpretāciju, atslēgvārdu izgūšanu. Tika pilnveidots nolūku noteikšanas modelis, nosaukumu noteikšanas sistēma un dialoga scenārijs.

Aktivitāte 2.3 “Sapulču protokolu izveide”. Pārskata periodā tika pilnveidots modulis, kas sapulces laikā identificē protokolā iekļaujamo informāciju – secinājumus, lēmumus, uzdevumus .

Aktivitāte 3.1 “Trokšņainas runas ievades mašīntulkošana”. Apakšdarbība tika pabeigta atskaites periodā. Bezsaistes runas tulkošanas vērtēšanai tika izstrādāts risinājums, kas ļauj veikt runas tulkošanas vērtēšanu, nosakot katra atsevišķā runas tulkošanas komponenta (runātāju segmentēšana, runas atpazīšana, satura dalīšana teikumos, teikumu mašīntulkošana) ietekmi kopējās runas tulkošanas kvalitātes (vai kļūdu) nodrošināšanā. Tika veikta runas tulkošanas risinājuma vērtēšana, izmantojot aktivitātes ietvaros sagatavoto testa datu kopu.

Aktivitāte 3.2. “Runas sinhrona tulkošana.” Pārskata periodā runas tulkošanas vērtēšanas risinājums tika pielāgots, lai spētu simulēt sinhronās (tiešsaistes) runas tulkošanas scenāriju, veicot pieprasījumus tiešsaistes runas atpazīšanas risinājumam un mašīntulkošanas risinājumam. Tika identificēta katra runas sinhronas tulkošanas komponenta ietekme uz runas tulkošanas kopējo kļūdu, izmantojot aktivitātes 3.1 ietvaros sagatavotās testa datu kopas.

Aktivitāte 4.1. “Mākslīgā intelekta asistenta agrīnais prototips daudzvalodu sapulču pārvaldībai.” Pārskata periodā turpinājās mākslīgā intelekta asistenta prototipa daudzvalodu sapulču pārvaldībai prasību specificēšana, un uzsākta izstrāde. Tika izvēlēts mākslīgā intelekta asistenta prototipu realizēt kā Microsoft Teams lietotni, ņemot vērā Microsoft Teams tirgus pārklājumu, kā arī popularitāti uzņēmumu starpā. Tika izveidota pirmā prototipa versija un iesniegta izvērtēšanai Microsoft.

Publicēts: 02.11.2022

Statuss uz 04.08.2022

Laika posmā no 30.04.2022 līdz 04.08.2022 pētījumā “Mākslīgā intelekta asistents daudzvalodu sapulču pārvaldībai” (1.1.1.1/19/A/082) pabeigts darbs aktivitātē 1.1 “Vairāku runātāju runas atpazīšana”. Turpināts darbs aktivitātēs 1.2 “Attālinātā lauka runas atpazīšana”, 2.1 “Sapulču plānošana, izmantojot mākslīgo intelektu”, 2.2 “Sapulču telpas asistents” un 3.1. “Trokšņainas runas ievades mašīntulkošana”, 3.2. “Runas sinhrona tulkošana” un aktivitātē 4.1. “Mākslīgā intelekta asistenta agrīnais prototips daudzvalodu sapulču pārvaldībai.”

Aktivitāte 1.1 “Vairāku runātāju runas atpazīšana”. Apakšdarbība tika pabeigta atskaites periodā. Pārskata periodā tika izstrādāts runātāju diarizācijas un runātāju identificēšanas modulis reāla laika runas atpazīšanas sistēmai.

Aktivitāte 1.2 “Attālinātā lauka runas atpazīšana”. Pārskata periodā tika veikti eksperimenti ar mērķi uzlabot aktivētājvārdu atpazīšanas modeļu precizitāti uz “far-field” audio ierakstiem. Tika izmēģināti dažādas apmācības datu papildināšanas pieejas (oriģināli ieraksti tika transformēti pievienojot dažādus trokšņus, reverberāciju, mainot audio ātrumu utml).

Aktivitāte 1.3 “Daudzvalodu runas atpazīšana”. Atskaites periodā tika gatavots pētījuma plāns, apzināti galvenie problēmjautājumi, un uzsākta pētījumam nepieciešamo datu kopu un jaunāko literatūras avotu apkopošana un analīze. Tika veikti pirmie eksperimenti ar Wav2Vec2 daudzvalodu runas modeļiem.

Aktivitāte 2.1 “Sapulču plānošana, izmantojot mākslīgo intelektu”. Ir izveidots virtuālais asistents, kurš piedāvā iespēju veidot jaunu sapulces pieteikumu, norādot vairākus iespējamos laikus un ielūdzot vairākus sapulces dalībniekus, kuriem ir iespēja balsot par sev vēlamo sapulces laiku.

Aktivitāte 2.2 “Sapulču telpas asistents”. Pārskata periodā tika veikta lietotāju aptauja par sapulču asistenta darbu. Balstoties uz to, turpinājās asistenta darba pilnveidošana.

Aktivitāte 2.3 “Sapulču protokolu izveide”. Pārskata periodā tika standartizēts sapulces protokola vizuālais izskats un tajā iekļaujamā informācija, ietverot sadaļas par sapulces dalībniekiem, sapulces piezīmēm, kas balstītas uz sapulces laikā izgūto informāciju, un sapulces transkriptu.

Aktivitāte 3.1 “Trokšņainas runas ievades mašīntulkošana”. Pārskata periodā tika veikta latviešu-angļu runas tulkošanas testa datu sagatavošana.

Aktivitāte 3.2. “Runas sinhrona tulkošana.” Pārskata periodā tika turpināta pētījumam nepieciešamo datu kopu un jaunāko literatūras avotu apkopošana un analīze. Tika izanalizētas vairākas aktuālas publikācijas par sinhrono tulkošanu, kā arī izvirzītas vairākas pētījuma hipotēzes, kas tiks empīriski pārbaudītas turpmākos pārskata periodos.

Aktivitāte 4.1. “Mākslīgā intelekta asistenta agrīnais prototips daudzvalodu sapulču pārvaldībai.” P ārskata periodā tika uzsākta pētniecisko rezultātu (aktivitātes 1, 2 un 3) apkopošana un mākslīgā intelekta asistenta prototipa daudzvalodu sapulču pārvaldībai prasību specificēšana.

Publicēts: 04.08.2022

Statuss uz 29.04.2022

Laika posmā no 29.01.2022 līdz 29.04.2022 pētījumā “Mākslīgā intelekta asistents daudzvalodu sapulču pārvaldībai” (1.1.1.1/19/A/082) turpināts darbs aktivitātēs 1.1 “Vairāku runātāju runas atpazīšana” un aktivitātē, 1.2 “Attālinātā lauka runas atpazīšana”, 2.1 “Sapulču plānošana, izmantojot mākslīgo intelektu”, 2.2 “Sapulču telpas asistents” un 3.1. “Trokšņainas runas ievades mašīntulkošana”. Tika uzsākts darbs aktivitātē 3.2. Runas sinhrona tulkošana un aktivitātē 4.1. Mākslīgā intelekta asistenta agrīnais prototips daudzvalodu sapulču pārvaldībai.

Aktivitāte 1.1 “Vairāku runātāju runas atpazīšana”. Pārskata periodā tika pētīti zinātniski raksti un pieejami atvērta koda risinājumi reālā laikā runātāju diarizācijas uzdevumam.

Aktivitāte 1.2 “Attālinātā lauka runas atpazīšana”. Pārskata periodā tika izveidotas datu kopas aktivētājvārd u atpazīšanas modeļu apmācībai un novērtēšanai.

Aktivitāte 2.1 “Sapulču plānošana, izmantojot mākslīgo intelektu”. Pārskata periodā tika veikti eksperimenti, lai novērtētu iepriekšējā atskaites periodā izstrādātā algoritma, kas ļauj virtuālajam asistentam noteikt nolūkus garos lietotāja tekstos (piemēram, e-pastā), sadalot tekstu sīkākās vienībās un nosakot entitātes un nolūkus katrā vienībā atsevišķi, kvalitāti.

Aktivitāte 2.2 Sapulču telpas asistents”. Pārskata periodā tika veikta daudznodomu klasificētāja analīze un vērtēšana, izmantojot iepriekšējā pārskata periodā sagatavotos apmācības un vērtēšanas datus. Tika sagatavots un publicēts virtuālā asistenta, kas nodrošina sapulču monitorēšanu , prototips.

Aktivitāte 3.1 “Trokšņainas runas ievades mašīntulkošana”. Ņemot vērā iepriekšējā periodā uzsākto runas mašīntulkošanas testa kopas izveidi, tika pabeigta testa kopai nepieciešamo anotācijas līmeņu analīze un izstrādes plānošana.

Aktivitāte 3.2. Runas sinhrona tulkošana. Apakšdarbība sākās šajā atskaites periodā. Atskaites periodā tika sagatavots pētījuma plāns, apzināti galvenie problēmjautājumi saistībā ar runas sinhronu tulkošanu un uzsākta pētījumam nepieciešamo datu kopu un jaunāko literatūras avotu apkopošana un analīze. Balstoties uz analīzes rezultātiem, tiks izvirzītas pētījuma hipotēzes un veikti pētījumi šo hipotēžu pārbaudei.

Aktivitāte 4.1. Mākslīgā intelekta asistenta agrīnais prototips daudzvalodu sapulču pārvaldībai. Atskaites periodā uzsākta prototipa, kas ir sapulču palīgs Microsoft Teams vidē, izstrāde. Šajā prototipā ir integrētas pirmajās trīs projekta aktivitātēs radītās tehnoloģijas – runas atpazīšana apulču ierakstiem, virtuālie asistenti sapulču vadīšanai un runas mašīntulkošana.

Publicēts: 29.04.2022

Statuss uz 28.01.2022

Laika posmā no 29.10.2021 līdz 28.01.2022 pētījumā “Mākslīgā intelekta asistents daudzvalodu sapulču pārvaldībai” (1.1.1.1/19/A/082) turpināts darbs aktivitātēs 1.1 “Vairāku runātāju runas atpazīšana” un aktivitātē, 1.2 “Attālinātā lauka runas atpazīšana”, 1.3 “Daudzvalodu runas atpazīšana”, 2.1 “Sapulču plānošana, izmantojot mākslīgo intelektu” un 3.1. “Trokšņainas runas ievades mašīntulkošana”. Tika uzsākts darbs aktivitātē 2.2 “Sapulču telpas asistents”.

Aktivitātē 1.1 “Vairāku runātāju runas atpazīšana”. Tiešsaistes sapulcēs katrs dalībnieks parasti piedalās no savas ierīces, kurai ir savs mikrofons. Tas ļauj sadalīt audio signālu vairākos kanālos, kur katram runātājām ir savs kanāls. Šinī gadījumā runātāju pārklāšanās problēma var vienkārši atrisināt apstrādājot katru kanālu atsevišķi. Atskaites periodā tika veikta šīs metodes implementācija un pārbaude.

Aktivitātē 1.2 “Attālinātā lauka runas atpazīšana”. Atskaites periodā tika uzsākta jauna novērtēšanas korpusa sagatavošana.

Aktivitātē 1.3 “Daudzvalodu runas atpazīšana”. Atskaites periodā tika veikta LIEPA2 lietuviešu runas korpusa apstrāde un apmācīts jauns lietuviešu akustiskais modelis runas atpazīšanai.

Aktivitātē 2.1 “Sapulču plānošana, izmantojot mākslīgo intelektu”. Pārskata periodā izveidots algoritms, kas ļauj virtuālajam asistentam noteikt nolūkus garos lietotāja tekstos (piemēram, e-pastā), sadalot tekstu sīkākās vienībās, un nosakot entitātes un nolūkus katrā vienībā atsevišķi.

Aktivitātē 2.2 Sapulču telpas asistents”. Pārskata periodā tika veidota neironu tīklu arhitektūra nolūku noteicējam, kas spēj lietotāja ievadītajā tekstā atpazīt gan vairākus nolūkus, gan arī konstatēt, ka tekstā nav neviena no nolūkiem. Izveidota tīkla arhitektūra, sagatavoti apmācības un novērtēšanas dati.

Aktivitātē 3.1 “Trokšņainas runas ievades mašīntulkošana”. Atskaites periodā tika izmantoti iepriekšējā atskaites periodā iegūtie runas tulkošanas dati no latviešu-angļu un lietuviešu-angļu runas mašīntulkošanas sistēmām. Tika veikta iegūto tulkojumu kļūdu analīze un klasifikācija.

Publicēts: 28.01.2022

Statuss uz 28.10.2021

Laika posmā no 01.08.2021 līdz 28.10.2021 pētījumā “Mākslīgā intelekta asistents daudzvalodu sapulču pārvaldībai” (1.1.1.1/19/A/082) turpināts darbs aktivitātēs 1.1 “Vairāku runātāju runas atpazīšana” un aktivitātē, 1.2 “Attālinātā lauka runas atpazīšana”, 1.3 “Daudzvalodu runas atpazīšana”, 2.1 “Sapulču plānošana, izmantojot mākslīgo intelektu” un 3.1. “Trokšņainas runas ievades mašīntulkošana”.

Aktivitātē 1.1 “Vairāku runātāju runas atpazīšana” tika pētīta literatūra par viena runātāja runas izgūšanas no vairāku runātāju audio ieraksta, izmantojot neironu tīklus (neural speech extraction).

Aktivitātē 1.2 “Attālinātā lauka runas atpazīšana” tika turpināta literatūras izpēte. Tika secināts, ka literatūrā labākus rezultātus attālināta lauka runas atpazīšanā sasniedz, izmantojot daudzkanālu sistēmas, (salīdzinot ar klasiskiem vienkanāla sistēmām).

Aktivitātē 1.3 “Daudzvalodu runas atpazīšana” tika pētīti konferences Interspeech-2021 raksti par daudzvalodu runas atpazīšanu, lai apzinātu mūsdienu “state-of-the-art” pieejas šīs problēmas risināšanai.

Aktivitātē 2.1 “Sapulču plānošana, izmantojot mākslīgo intelektu” tika identificēta problēma VA saziņai ar lietotāju caur e-pastu.

Aktivitātē 3.1 “Trokšņainas runas ievades mašīntulkošana” atskaites periodā tika sagatavoti un veikti eksperimenti trokšņnoturīgu neironu mašīntulkošanas sistēmu izstrādei. Eksperimenti tika veikti ar latviešu-angļu un lietuviešu-angļu mašīntulkošanas sistēmām.

Publicēts: 28.10.2021

Statuss uz 31.07.2021

Laika posmā no 01.05.2021 līdz 31.07.2021 pētījumā “Mākslīgā intelekta asistents daudzvalodu sapulču pārvaldībai” (1.1.1.1/19/A/082) turpināts darbs aktivitātē 1.1 “Vairāku runātāju runas atpazīšana” un aktivitātē 2.1 “Sapulču plānošana, izmantojot mākslīgo intelektu”. Tika uzsākts darbs aktivitātēs 1.2 “Attālinātā lauka runas atpazīšana”, 1.3 “Daudzvalodu runas atpazīšana” un 3.1. “Trokšņainas runas ievades mašīntulkošana”. Šajā atskaites periodā turpinājās darbs pie pētījuma plāna sagatavošanas, datu kopu un jaunāko literatūras avotu analīze. Runas atpazīšanas uzdevumā uzsākta nepieciešamo datu kopu analīze. Sapulču plānošanas jomā apzināti pieejamie resursi, kas būtu noderīgi asistenta saziņai ar klientu. Mašīntulkošanā apzināti galvenie problēmjautājumi, uzsākta datu kopu un jaunāko literatūras darbu analīze.

Aktivitātē 1.1 “Vairāku runātāju runas atpazīšana” tika turpināts darbs pie pētījuma plāna sagatavošanas. Tika veikti nepieciešamo datu kopu un jaunāko literatūras avotu apkopošana un analīze

Aktivitātē 1.2 “Attālinātā lauka runas atpazīšana” sagatavots pētījuma plāns, apzināti galvenie problēmjautājumi, un uzsākta pētījumam nepieciešamo datu kopu un jaunāko literatūras avotu apkopošana un analīze.

Aktivitātē 2.1 “Sapulču plānošana, izmantojot mākslīgo intelektu” apzināti brīvi pieejami resursi (e-pasta vēstuļu korpusi un programmatūra piekļuvei lietotāju kalendāriem), kuri būs noderīgi sapulču plānošanas virtuālā asistenta (VA) izveidē. Ir iezīmēta darbplūsma VA saziņai ar lietotāju.

Aktivitātē 1.3 “Daudzvalodu runas atpazīšana” sagatavots pētījuma plāns, apzināti galvenie problēmjautājumi, un uzsākta pētījumam nepieciešamo datu kopu un jaunāko literatūras avotu apkopošana un analīze.

Aktivitātē 3.1 “Trokšņainas runas ievades mašīntulkošana” tika sagatavots pētījuma plāns, apzināti galvenie problēmjautājumi, un uzsākta pētījumam nepieciešamo datu kopu un jaunāko literatūras avotu apkopošana un analīze. Pētniecības progresa sistemātiskai vērtēšanai tika izveidotas Latviešu Angļu un Lietuviešu Angļu runas un teksta modalitāšu datu kopas.

Publicēts: 31.07.2021

Statuss uz 30.04.2021

Laika posmā no 01.02.2021 līdz 30.04.2021 pētījumā “Mākslīgā intelekta asistents daudzvalodu sapulču pārvaldībai” (1.1.1.1/19/A/082) turpināts darbs aktivitātē 1.1 “Vairāku runātāju runas atpazīšana” un aktivitātē 2.1 “Sapulču plānošana, izmantojot mākslīgo intelektu”. Šajā atskaites periodā tika sagatavoti pētījuma plāni apakšaktivitātēm, apzināti galvenie problēmjautājumi un uzdevumi, kā arī uzsākta pētījumiem nepieciešamo datu kopu un jaunāko literatūras avotu apkopošana un analīze.

Aktivitātē 1.1 “Vairāku runātāju runas atpazīšana” tika konstatēts, ka runātāju diarizācijas un runātāju atpazīšanas uzdevumā var tikt pielietoti modeļi un datu kopas citām valodām, bet pārklājošas runas atpazīšanas uzdevumā var lietot sintētiskus datus. Līdztekus tika analizēti algoritmiski risinājumi, kas ļautu veikt audioierakstu ar vairākiem mikrofoniem un korekti apvienot ASR atpazīšanas rezultātus.

Aktivitātē 2.1 “Sapulču plānošana, izmantojot mākslīgo intelektu”. Pētītas iespējas izmantot neironu tīklos balstītus mašīnmācīšanās risinājumus sapulču efektīvākai plānošanai un potenciāli derīgu laikspraugu atrašanai. Aplūkotas esošu metožu un risinājumu izmantošanas iespējas.

Publicēts: 30.04.2021

Statuss uz 31.01.2021

Laika posmā no 01.10.2020 līdz 31.01.2021 pētījumā “Mākslīgā intelekta asistents daudzvalodu sapulču pārvaldībai” (1.1.1.1/19/A/082) uzsākts darbs aktivitātē 1.1 “Vairāku runātāju runas atpazīšana un aktivitātē 2.1 “Sapulču plānošana, izmantojot mākslīgo intelektu”. Šajā atskaites periodā tika sagatavoti pētījuma plāni apakšaktivitātēm, apzināti galvenie problēmjautājumi un uzdevumi, kā arī uzsākta pētījumiem nepieciešamo datu kopu un jaunāko literatūras avotu apkopošana un analīze.

1.1 “Vairāku runātāju runas atpazīšana un aktivitātes galvenais mērķis ir noskaidrot, kura no metodēm ir piemērotāka uzņēmējdarbības sapulces scenārijam un projektā iesaistītajām valodām (latviešu, lietuviešu, igauņu, krievu), kā arī izpētītas esošās un jaunās metodes runas diarizācijai, runas atpazīšanai un tādas runas atpazīšanai, kas pārklājas ar citu runu.

2.1 “Sapulču plānošana, izmantojot mākslīgo intelektu”. Lai aizpildītu uzņēmējdarbības videi piemērotu viedu virtuālo asistentu nišu, šīs darbības galvenais mērķis ir izpētīt un izstrādāt sapulču asistentatehnoloģiju, kas tiks integrēta vieda vairāku valodu sapulču pārvaldniekaprototipā.

Publicēts: 31.01.2021

Mākslīgā intelekta asistents daudzvalodu sapulču pārvaldībai

2020. gada 8.septembrī tika parakstīts līgums starp Centrālo finanšu un līguma aģentūru un Sabiedrību Tilde par darbības programmas “Izaugsme un nodarbinātība” 1.1.1.specifiskā atbalsta mērķa “Palielināt Latvijas zinātnisko institūciju pētniecisko un inovatīvo kapacitāti un spēju piesaistīt ārējo finansējumu, ieguldot cilvēkresursos un infrastruktūrā” 1.1.1.1. pasākuma “Praktiskas ievirzes pētījumi” ietvarā īstenojamo projektu:

“Mākslīgā intelekta asistents daudzvalodu sapulču pārvaldībai” (1.1.1.1/19/A/082).

Projekta īstenotājs – Sabiedrība Tilde .

Projekts ilgs no 2020. gada 1. Oktobra līdz 2023. gada 30. septembrim.
Projekta kopējas attiecināmās izmaksas ir 616 396.03 EUR, t.sk., ERAF atbalsts 425 783.82EUR.
Projekta īstenošanas vieta – Vienības gatve 75a, Rīga, Latvija

Šis starpdisciplinārais projekts pētīs jaunas, mākslīgā intelekta tehnoloģijās balstītas metodes un izstrādās eksperimentālu daudzvalodu mākslīgā intelekta balss asistenta prototipu sanāksmju pārvaldības automatizēšanai, tostarp:

• vairāku dalībnieku sanāksmju organizēšana, izmantojot uz dialogu balstītu virtuālo asistentu;
• daudzvalodu runas atpazīšanas nodrošināšana akustiski sarežģītā vidē;
• daudzvalodu sanāksmju sekmēšana, nodrošinot sanāksmju automatizētu runas tulkošanu reāllaikā;
• automātiski nodrošināt sanāksmju atšifrējumus;
• automātiski ģenerē jēgpilnus īsus sapulces protokolus.

Pateicoties mākslīgā intelekta (MI) tehnoloģiju attīstībai, virtuālie asistenti — programmatūras risinājumi, kas ļauj cilvēkiem sazināties ar skaitļošanas ierīcēm dabiskajā valodā, — kļūst arvien populārāki, taču to iespējas un valodu atbalsts joprojām ir būtiski ierobežots. Virtuālo asistentu izmantošana sapulču pārvaldībā joprojām ir izstrādes agrīnajā posmā un saskaras ar dažādiem tehnoloģiskiem un lingvistiskiem izaicinājumiem, kuru starpā jāmin akustika un audio kvalitāte, runas atpazīšana sapulču ierakstiem, vienlaicīga runāšana, atsevišķu runātāju runas īpatnības un nepieciešamība pārtulkot runu reāllaikā.

Projekts risina šīs problēmas, pētot jaunas, dziļās mašīnmācību metodes cilvēka un datora mijiedarbībai, reālā laika runas tulkošanai un semantiski nozīmīgu sanāksmju protokolu ģenerēšanai valodās, kurās pieejami mazāki resursi. Projekta mērķis ir izveidot unikālu integrētu risinājumu, proti, MI asistentu, kas ietvertu būtiskus elementus daudzvalodu sanāksmju automatizēšanai, un to efektivitātes palielināšanai. Šis mērķis tiks sasniegts, īstenojot kompleksu starpdisciplināru pieeju, kas nodrošinās pirmreizīgu sadarbību starp lingvistiem, speciālistiem balss un skaņas apstrādē, datorzinātniekiem un mašīntulkošanas speciālistiem, kas apvienosies vairākos rūpnieciskās pētniecības procesos, kas vērsti uz praktiski pielietojamu metožu izpēti, lai:

• uzlabotu runas atpazīšanas kvalitāti daudzbalsīgā un akustiski izaicinošā vidē;
• nodrošinātu daudzvalodu runas atpazīšanu un prezentēšanu reāllaikā;
• veidotu jēgpilnu runājošā satura mašīntulkošanu reāllaikā;
• nodrošinātu automatizētu sapulces protokolu, apkopojot galvenos sarunu punktus, secinājumus un lēmumus;
• veicinātu inovatīvu un progresīvu attīstību automatizētās runas atpazīšanas, mašīntulkošanas un teksta analīzes jomās, valodās ar mazākiem resursiem, piemēram, latviešu

Publicēts: 02.10.2020