Pētniecības projekts "Mākslīgais intelekts reālā laika subtitrēšanai un dublēšanai tiešraidēm"
SIA “Tilde” pētniecības projekta Nr. 2.2 “Mākslīgais intelekts reālā laika subtitrēšanai un dublēšanai tiešraidēm” aktualitātes 2024. gada pirmajā ceturksnī
Pētniecības projekts tiek īstenots IT kompetences centra Projekta “Informācijas un komunikācijas tehnoloģiju kompetences centrs”, id. Nr. 5.1.1.2.i.0/1/22/A/CFLA/008, ietvaros.
Projekta “Informācijas un komunikācijas tehnoloģiju kompetences centrs” mērķis ir paaugstināt informācijas un komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. gada 30. jūnijam īstenojot vismaz 12 nozares un starpnozaru pētījumus Biznesa procesu analīzes tehnoloģiju un Dabīgās valodas tehnoloģiju jomās, lai to rezultātā vismaz 10 komersanti attīstu un ieviestu ražošanā jaunus produktus un tehnoloģijas.
Pētniecības projekts “Mākslīgais intelekts reālā laika subtitrēšanai un dublēšanai tiešraidēm” uzsākts 2023. gada februārī. 2024. gada pirmajā ceturksnī turpinās rūpnieciskā pētījuma aktivitāšu “Reālā laika runas atpazīšana”, “Reālā laika runas mašīntulkošana” un “Reālā laika dublēšana” īstenošana, kā arī eksperimentālās izstrādes aktivitāšu “Balsu korpusa izveide dublēšanai” un “Tiešraižu subtitrēšanas un dublēšanas prototips” īstenošana.
Projekta 1. aktivitātes “Reālā laika runas atpazīšana” ietvaros 2024. gada 1.ceturksnī turpinājās pētījumi, kuros tika salīdzinātas dažādas runas atpazīšanas (ASR) modeļu arhitektūras, pētīta valodas modeļu pievienošana, runas aktivitātes noteikšanas un runātāja noteikšanas modeļi. Tika pētīta arī iespēja reālā laika runas atpazīšanā izmantot atslēgvārdu noteikšanu.
Projekta 2. aktivitātes “Reālā laika runas mašīntulkošana” ietvaros tika pētītas metodes reālā laika mašīntulkošanas (MT) ātrdarbības uzlabošanai, atrasta optimāla Transformer modeļu slāņu konfigurācija, kurā būtiski uzlabojas tulkošanas ātrums (par 68%), bet kvalitāte samazinās tikai par 0,68 BLEU punktiem.
Projekta 3. aktivitātes “Reālā laika dublēšana” ietvaros tika padziļināti pētīta runas sintēze (TTS), izmantojot VITS runas rīkkopu, tika analizēta tās piemērotība dažādām balsīm, tika atrisināts liels daudzums tehnisku problēmu VITS modeļu trenēšanā un pielāgošanā, kā arī apmācīti VITS modeļi vairākām latviešu balsīm.
Projekta 4. aktivitātes “Balsu korpusa izveide dublēšanai” ietvaros tika pabeigta studijā ierakstāmo datu sagatavošana, sagatavota darba specifikācija studijai. Tika veikta studiju apzināšana, cenu aptauja, studijas izvēle un pabeigta ierakstāmo balsu atlase.
Projekta 5. aktivitātes “Tiešraižu subtitrēšanas un dublēšanas prototips” ietvaros tika izveidoti tīmekļa servisi, kuros vienotā risinājumā tika integrētas visas 3 tehnoloģijas – ASR, MT, TTS un tika veikts darbs pie prototipa konferenču tiešraižu subtitrēšanai un dublēšanai.
Pētniecības projekta realizācijas periods: 01.02.2023. – 30.09.2024.
Pētniecības projekta kopējās izmaksas: 582 458.00 EUR
Atveseļošanas fonda līdzfinansējums: 370 108.00 EUR
Projektu līdzfinansē Atveseļošanas fonds Darbības programmas “Latvijas Atveseļošanas un noturības mehānisma plāna 5.1.r. reformu un investīciju virziena “Produktivitātes paaugstināšana caur investīciju apjoma palielināšanu P&A” 5.1.1.r. reformas “Inovāciju pārvaldība un privāto P&A investīciju motivācija” 5.1.1.2.i. investīcijas “Atbalsta instruments inovāciju klasteru attīstībai” īstenošanas noteikumi kompetences centru ietvaros” ietvaros.
SIA “Tilde” pētniecības projekta Nr. 2.2 “Mākslīgais intelekts reālā laika subtitrēšanai un dublēšanai tiešraidēm” aktualitātes 2024. gada otrajā ceturksnī
IT kompetences centrs īsteno projektu “Informācijas un komunikācijas tehnoloģiju kompetences centrs”, id. Nr. 5.1.1.2.i.0/1/22/A/CFLA/008.
Projekta “Informācijas un komunikācijas tehnoloģiju kompetences centrs” mērķis ir paaugstināt informācijas un komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. gada 30. jūnijam īstenojot vismaz 12 nozares un starpnozaru pētījumus Biznesa procesu analīzes tehnoloģiju un Dabīgās valodas tehnoloģiju jomās, lai to rezultātā vismaz 10 komersanti attīstu un ieviestu ražošanā jaunus produktus un tehnoloģijas.
2024. gada otrajā ceturksnī ir noslēgušās pētniecības projekta rūpnieciskā pētījuma aktivitātes “Reālā laika runas atpazīšana”, “Reālā laika runas mašīntulkošana” un “Reālā laika dublēšana”. Tāpat noslēgusies arī eksperimentālās izstrādes aktivitātes “Balsu korpusa izveide dublēšanai” īstenošana un turpinās aktivitātes “Tiešraižu subtitrēšanas un dublēšanas prototips” īstenošana.
Projekta 1. aktivitātes “Reālā laika runas atpazīšana” ietvaros 2024. gada 2.ceturksnī turpinājās pētījumi, kuros tika salīdzinātas dažādas runas atpazīšanas modeļu arhitektūras, pētīta valodas modeļu pievienošana. Šajā periodā aktivitāte tika pabeigta, visi aktivitātes rezultāti tika apkopoti un aprakstīti pētījuma dokumentā, aktivitātes ietvaros izveidotā programmatūra sagatavota iekļaušanai prototipā. Aktivitātē kopumā ir izveidota tiešsaiste, reālā laika runas atpazīšanas sistēma, kas izmanto jaunu pilna cikla neironu tīklu runas atpazīšanas arhitektūru. Sistēmas runas atpazīšanas kvalitāte būtiski pārsniedz iepriekš pieejamo sistēmu kvalitāti; jaunā sistēma ietver pieturzīmju atpazīšanu, kas integrēta runas atpazīšanas modelī, un runas atpazīšanas rezultāts tiek automātiski dalīts subtitros; risinājuma darbināšanai tiek izmantota K2/Sherpa-ONNX rīkkopa, kam nav nepieciešams GPU.
Projekta 2. aktivitātes “Reālā laika runas mašīntulkošana” ietvaros tika pētītas metodes reālā laika mašīntulkošanas papildināšanai ar retiem vārdiem, kas nav sastopami MT apmācības datos, kas pamatā ir rakstītā, nevis runātā valoda. Šajā periodā aktivitāte tika pabeigta, visi aktivitātes rezultāti tika apkopoti un aprakstīti pētījuma dokumentā, aktivitātes ietvaros izveidotā programmatūra sagatavota iekļaušanai prototipā. Aktivitātē kopumā ir izpētītas vairākas metodes MT uzlabošanai runas vajadzībām; ir izveidota Transformer arhitektūra, kas ļauj būtiski uzlabot runas tulkošanas ātrumu, saglabājot kvalitāti; izveidota metode MT papildināšanai ar retiem vārdiem.
Projekta 3. aktivitātes “Reālā laika dublēšana” ietvaros 2024. gada 2.ceturksnī tika padziļināti pētīta fonēmu garumu modelēšanas problēma, atrasts veids, kā uzlabot garumu modelēšanu runas sintēzei. Šajā periodā aktivitāte tika pabeigta, visi aktivitātes rezultāti tika apkopoti un aprakstīti pētījuma dokumentā, aktivitātes ietvaros izveidotā programmatūra sagatavota iekļaušanai prototipā. Aktivitātē kopumā ir izveidota tiešaistes, reālā laika runas sintēzes sistēma, kas izmanto jaunu pilna cikla neironu tīklu runas sintēzes arhitektūru, kas pielāgota un novērtēta latviešu valodai; izveidots audiogrāmatu sastatīšanas risinājums; padziļināti izpētīta fonēmu garumu modelēšanas problēma; un izveidotas 2 runas sintēzes sistēmas.
Projekta 4. aktivitātes “Balsu korpusa izveide dublēšanai” ietvaros 2024. gada 2.ceturksnī tika pabeigti balsu ieraksti studijā, apstrādāti, pārbaudīti un salaboti saņemtie ieraksti, apkopoti dati par ierakstītajām balsīm. Šajā periodā aktivitāte tika pabeigta, visi aktivitātes rezultāti tika apkopoti un aprakstīti nodevuma dokumentā. Aktivitātē kopumā ir sagatavotas balss ierakstu vadlīnijas, un sagatavotas instrukcijas gan balss aktieriem, gan ierakstu studijai; atlasītas 2 balss aktieru balsis, kas ierakstītas studijā “Audioworks.lv”; izvērtēta ierakstīto balsu kvalitāte, veikti nepieciešami labojumi. Pēc montēšanas un klusumu apgriešanas, tīrais ierakstītais balss paraugu apjoms ir: vīrieša balss – apmēram 14 stundas 20 minūtes un sievietes balss – apmēram 12 stundas 44 minūtes. Ierakstīto balsu kvalitāte novērtēta, izveidojot 2 runas sintezatorus 3. aktivitātes ietvaros.
Projekta 5. aktivitātes “Tiešraižu subtitrēšanas un dublēšanas prototips” ietvaros 2024. gada 2.ceturksnī notika darbs pie prototipa konferenču tiešraižu subtitrēšanai un dublēšanai, prototipā tika iekļautas jaunākās runas atpazīšanas, mašīntulkošanas un runas sintēzes sistēmas, notika darbs pie prototipa lietojamības uzlabošanas. Tika iesaistīti sadarbības partneri (RE.TV, TV4 un TV3), lai izveidotu API, ko televīzijas varēs integrēt savos risinājumos.
Pētniecības projekta realizācijas periods: 01.02.2023. – 30.09.2024.
Pētniecības projekta kopējās izmaksas – 582 458.00 EUR
Atveseļošanas fonda līdzfinansējums – 370 108.00 EUR
Projektu līdzfinansē Atveseļošanas fonds Darbības programmas “Latvijas Atveseļošanas un noturības mehānisma plāna 5.1.r. reformu un investīciju virziena “Produktivitātes paaugstināšana caur investīciju apjoma palielināšanu P&A” 5.1.1.r. reformas “Inovāciju pārvaldība un privāto P&A investīciju motivācija” 5.1.1.2.i. investīcijas “Atbalsta instruments inovāciju klasteru attīstībai” īstenošanas noteikumi kompetences centru ietvaros” ietvaros.
SIA “Tilde” pētniecības projekta Nr. 2.2 “Mākslīgais intelekts reālā laika subtitrēšanai un dublēšanai tiešraidēm” aktualitātes 2024. gada trešajā ceturksnī
IT kompetences centrs īsteno projektu “Informācijas un komunikācijas tehnoloģiju kompetences centrs”, id. Nr. 5.1.1.2.i.0/1/22/A/CFLA/008.
Projekta “Informācijas un komunikācijas tehnoloģiju kompetences centrs” mērķis ir paaugstināt informācijas un komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. gada 30. jūnijam īstenojot vismaz 12 nozares un starpnozaru pētījumus Biznesa procesu analīzes tehnoloģiju un Dabīgās valodas tehnoloģiju jomās, lai to rezultātā vismaz 10 komersanti attīstu un ieviestu ražošanā jaunus produktus un tehnoloģijas.
SIA “TILDE” pētniecības projekts Nr. 2.2 “Mākslīgais intelekts reālā laika subtitrēšanai un dublēšanai tiešraidēm” uzsākts 2023. gada februārī. 2024. gada trešajā ceturksnī ir noslēgusies pēdējā no projekta aktivitātēm. Līdz ar šīs aktivitātes beigām noslēdzas arī pētniecības projekts.
Pētniecības projekta 5. aktivitātes “Tiešraižu subtitrēšanas un dublēšanas prototips” ietvaros tika pabeigts darbs pie prototipa izstrādes un testēšanas. Galvenie darbi, kas veikti šajā periodā:
- Pasākumu subtitrēšanas un dublēšanas prototipā integrēta dublēšanas iespēja;
- Prototips publicēts vietnē https://events.tilde.com/, lai to demonstrētu un testētu praktiskos lietojumos;
- Notika veiksmīga prototipa testēšana un demonstrācija dažādos pasākumos, piemēram, sarunu festivālā LAMPA, konferencēs Marketing Shake 2024, Innovation Breakfast: AI in Action Tallinā un Rīgā, kā arī – UNESCO Workshop of Mindelo Centre of Excellence on Marine Science and Biodevirsity for Portuguese-speaking SIDS;
- Izveidots tiešraižu subtitrēšanas spraudnis video satura veidošanas programmai “OBS Studio”;
- Izveidots prototips, kas ļauj subtitrus veidot izmantojot televīzijās plaši lietoto video straumēšanas protokolu Secure Reliable Transport Protocol (SRT);
- Ar projekta rezultātiem iepazīstināti ārējie sadarbības partneri (SIA “VIDZEMES TELEVĪZIJA”, SIA “4.vara” un SIA “All Media Latvia”), kas, parakstot nodomu protokolu, izrādījuši interesi par projekta rezultātiem.
Šajā periodā aktivitāte tika pabeigta, visi aktivitātes rezultāti tika apkopoti un aprakstīti nodevuma dokumentā.
Pētniecības projekta realizācijas periods: 01.02.2023. – 30.09.2024.
Pētniecības projekta kopējās izmaksas – 582 458.00 EUR
Atveseļošanas fonda līdzfinansējums – 370 108.00 EUR
Projektu līdzfinansē Atveseļošanas fonds Darbības programmas “Latvijas Atveseļošanas un noturības mehānisma plāna 5.1.r. reformu un investīciju virziena “Produktivitātes paaugstināšana caur investīciju apjoma palielināšanu P&A” 5.1.1.r. reformas “Inovāciju pārvaldība un privāto P&A investīciju motivācija” 5.1.1.2.i. investīcijas “Atbalsta instruments inovāciju klasteru attīstībai” īstenošanas noteikumi kompetences centru ietvaros” ietvaros.