Valodas tehnoloģiju attīstītājs: esam lietuvieši, tāpēc tehnoloģijām ar mums jārunā lietuviešu valodā
Tildes komanda 2021. gada 7. jūlijsZinātnieki uzskata, ka valoda, kurai neizdodas izplatīties elektroniskajā medijā, drīzumā noteikti kļūs novecojusi. Valodu tehnoloģiju uzņēmums Tilde IT bija pirmais Lietuvā, kas uzņēmās programmatūras lokalizāciju un attīstīja progresīvu runas atpazīšanas un sintēzes tehnoloģiju. Tās līdere Renāte Špukienė uzsver, ka esam lietuvieši, tāpēc tehnoloģijām ar mums jārunā arī lietuviešu valodā.
– Citu projektu vidū Tilde IT attīsta lietuviešu valodas atpazīstamību un sintēzi. Kas tā par tehnoloģiju un uz kādu principu tā balstās?
– Tilde IT jau ilgstoši strādā ar valodas tehnoloģiju, un šo valodas atpazīšanas un sintēzes tehnoloģiju sākām attīstīt jau 2019. gadā. Piedalījāmies Lietuvas biznesa atbalsta aģentūras organizētajos projektos, kas finansē intelektuālus projektus un rezultātā izstrādāja šo tehnoloģiju. Pats projekts ilga 24 mēnešus, un tika veikti dažādi pētījumi un eksperimenti, jo tā tolaik bija pilnīgi jauna tehnoloģija.
“Tā precizitāte ir vairāk nekā 80%, kas atbilst visu pārējo lielo valodu precizitātei un atpazīstamības kvalitātei, tāpēc lietuviešu valoda turas līdzi citu pasaules valodu atpazīstamības un sintēzes tehnoloģijām.”
Renāte Špukienė,
Tehnoloģijas pamatā ir dziļo neironu tīklu princips; tā atpazīst dabisko sarunvalodu un ir rakstīta tekstā, kas prasa savākt vairākus sarunvalodas teksta paraugus. Tiek savāktas visu vecumu vīriešu un sieviešu balsis, tad tās runas corpora tiek apstrādātas, sagatavotas neironu tīkla modelim, un tur paši tīkli darbojas līdzīgi cilvēka smadzenēm, lai atpazītu, saliktu kopā skaņas un pārvērstu tās tekstā.
Lietotāji tagad var brīvi izveidot savienojumu un izmantot šo pakalpojumu. Viņi var augšupielādēt audio failu un iegūt rakstisku tekstu, kā arī diktēt, un teksts tiks transkribēts ekrānā. Tikmēr balss sintēzes laikā lietotājs var piedāvāt uzrakstīto tekstu padarīt skanīgu vīrieša vai sievietes balsī.
– Kādas ir jūsu tehnoloģijas saiknes ar Viļņas universitātes īstenoto projektu “LIEPA” (Lietuvas runas pakalpojumi)?
– “LIEPA” un “LIEPA-2” projekti rada savu atzinību, un mēs radām savu. Toreiz, 2016. –17. gadā, kad tehnoloģija tika izstrādāta, atšķirība bija tā, ka mēs izstrādājām tehnoloģiju, kas jebkurā vidē atzina un izcēla cilvēka valodu. Neatkarīgi no tā, vai tu biji trokšņainā vidē vai fonā skanēja mūzika, garām pabrauca mašīna vai kāds tev blakus sarunājās, tehnoloģija bija radīta, lai atšķirtu tavu runu, novēršot apkārtējo skaņas.
“LIEPA” tolaik nodarbojās ar laboratorijas skaņas kvalitāti, tad arī viņi pārgāja uz trokšņainu vidi, un tagad viņu tehnoloģija darbojas veiksmīgi. Taču tolaik mēs bijām pirmie, kuru tehnoloģija spēja atpazīt sarunu un reālā laikā pārvērst to tekstā. “LIEPA” sava projekta ietvaros izveidoja runas korpusu un savāca 100 stundu runas, mēs izmantojām to korpusu savai runas atpazīšanas tehnoloģijai — protams, mums bija arī savs, bet mēs izmantojām arī viņu korpusu, jo vairāk resursu un tie ir daudzveidīgāki, jo labāks rezultāts mums ir.
– Ar kādiem izaicinājumiem saskaraties, izstrādājot šādu tehnoloģiju?
– Vispirms resursi. Šāda lieta prasa milzīgus runas corpora apjomus, audioierakstus, kas jāveido no dažāda vecuma, dzimuma, dialektu balsīm, jo tehnoloģijai jāspēj vienlīdz labi atpazīt lietuviešu valodā runājošo krievu vai samogītu valodā runājošo kopīgo lietuvieti.
Nākamais izaicinājums ir troksnis. Tehnoloģijai ir jāatpazīst skaņa ne tikai sterilā un klusā vidē, bet arī trokšņainā vidē, tāpēc mums tā ir jāiemāca, lai novērstu troksni. Piemēram, ja sapulces laikā kāds runā un fonā noklikšķina pildspalva, tehnoloģijai ir vienalga, vai tās cilvēks runā vai noklikšķina pildspalva — tā ir skaņa, un tehnoloģija to visu uztver. Tai jāapzinās, ka pildspalvas klikšķināšana nav skaņa, kas veido vārdu, frāzi vai zilbi, un viņa to likvidē no kopējā skaņu celiņa.
Vēl viens izaicinājums ir mazais tirgus, jo mēs esam maza tauta, maza valoda un ierobežots patērētāju skaits. Mēs labprāt ietu globāli ar šo tehnoloģiju, bet lietuviešu valoda pasaulei nav īpaši vajadzīga - tikai tik, cik ir lietuviešu valodā runājošo.
– Tilde IT šobrīd piedāvā lietuviešu valodas atpazīšanu tikai galda datorsistēmām. Vai plānojat šādu pakalpojumu piemērot arī viedajām/mobilajām ierīcēm?
– Mūsu mērķis nebija radīt aplikāciju mobilajām ierīcēm, savus pakalpojumus redzam nedaudz plašākā kontekstā. Mūsu mērķis ir tos pielāgot citiem elektroniskajiem pakalpojumiem, integrēt klientu sistēmās, kas ar tiem var strādāt, piemēram, tērzētavā. Tā, kā tas ir šobrīd, ir jāieraksta savs jautājums automatizētajam asistentam, kamēr mēs strādājam pie tā, lai čatboti varētu sazināties balsī, nevis tekstā, tas nozīmē, ka viņi dzird to, kas viņiem tiek pateikts, atpazīst runu un tad sniedz izteiktu atbildi vai, citiem vārdiem sakot, sintezē to.
Tiesa, esam izstrādājuši aplikāciju “Tildės balsas”, taču tā vairāk līdzinās demonstrācijas rīkam. Ar to mēs cenšamies parādīt, uz ko ir spējīga mūsu runas atpazīšanas tehnoloģija un kā tā darbojas. Aplikācija ļauj diktēt tekstus un izmantot dažādas komandas - piemēram, var diktēt īsziņas, piezīmes, rakstītas vēstules, sakārtot grafiku, kā arī var norādīt adreses uz Google kartēm vai Waze; ja braucat ar automašīnu un ir ieslēgtas austiņas, varat meklēt kontaktus, izmantojot savu balsi, un lūgt lasīt tekstus balsī. Aplikācija darbojas labi, to var izmēģināt un varbūt tā kļūs par daļu no ierastās rutīnas, piemēram, sastādot uzdevumu vai pārtikas preču sarakstu ceļā uz darbu.
– Cik bieži cilvēki lietuviešu valodas atpazīšanas pakalpojumu izmanto tiešsaistē?
– Iespējams, mazāk cilvēku izmanto mobilo aplikāciju, bet pašu runas atpazīšanas pakalpojumu plaši izmanto gan uzņēmumi, gan privātpersonas.
“Es to ieteiktu žurnālistiem, kuri var augšupielādēt intervijas balss ierakstu un iegūt tekstu. Tehnoloģiju izmanto arī mediju uzraudzības uzņēmumi, kas sniedz klientiem zināmu analīzi par ziņās teikto par vienu vai otru uzņēmumu, prese. To izmanto arī uzņēmumi, kas ražo subtitrus. Vēl viena runas atpazīšanas izmantošanas joma ir sapulču ierakstīšana – piemēram, kad ir sapulce un nav laika veikt tā sauktās sapulces minūtes, ierakstu var pārvērst tekstā, pārrakstīt un uztaisīt protokolu — tas ietaupa lielu roku darbu.”
Renāte Špukienė,
– Vai valodas atzīšanas ziņā lietuviešu valoda piedāvā kādas priekšrocības vai drīzāk tā ir valoda, kas rada papildu izaicinājumus?
– Priekšrocību vai trūkumu nav, katra valoda ir unikāla. Tiek vākts runas korpuss, mācīti dzinēji, kas ir standarts, kā tas ir citās valodās.
Kāpēc valodas atpazīšanā esam sasnieguši tik augstu kvalitātes līmeni? Jo visas valodas atpazīšanas tehnoloģijas balstās uz vienu principu — jo vairāk resursu jums ir, jo precīzāka būs jūsu valodas atpazīšana.
Renāte Špukienė,
– Vai lietuviešu valodas attīstība kibertelpā nākotnē būs pieprasīta, ņemot vērā jaunās paaudzes tieksmi biežāk lietot angļu valodu?
– Es teiktu, ka lietuviešu valoda nākotnē būs pieprasīta, kamēr mēs runāsim lietuviešu valodā. Pamostoties vispirms domājam lietuviešu valodā, sapņojam arī lietuviešu valodā, tāpēc lietuviešu valodai ir dabiski pastāvēt tehnoloģijās. Mūsu mērķis ir, lai lietuviešu valoda, tās runas atpazīstamība parādītos ikvienā ierīcē.
– Vai lietuviešu valoda varētu piesaistīt tādu milžu kā Apple vai Microsoft uzmanību, runājot par runas atpazīšanas tehnoloģiju?
– Vienkārši un īsi izsakoties, lietuviešu valoda parādīsies Apple, Google un citos ražotājos, uzstādot lietuviešu valodas atbalsta līdzekli. Runas atpazīšanas tehnoloģijai nākotnē ir milzīgs potenciāls, un to saprot visi lielie spēlētāji.
Viņi pievēršas lieliem tirgiem, lielākajās valodās (angļu, krievu, vācu, franču, itāļu u.c.) runā asistenti no Siri, Amazon Alexa vai Google Assistant. Amazon Alexa šobrīd runā 8 valodās un atbalsta 10 citus dialektus. Dialekts ir līdzīgs tam, kā mums ir ziemeļu (aukštaičių), rietumu (žemaičių) un dienvidu (dzūkų) dialekti. Viņiem ir arī Austrālijas angļu, britu angļu, amerikāņu angļu valoda, ko sauc par dialektiem, jo ir smalkas lietojuma, izrunas atšķirības. Google asistentam šobrīd ir 12 valodas un 13 dialekti, bet Siri ir 21 valoda un neskaitāmi dialekti.
— Tātad tas nav mūsu pašu valodas jautājums, tas ir jautājums par to, kad. Tas viss ir saistīts ar cilvēkresursiem un finanšu resursiem.”
Renāte Špukienė,
Lai attīstītu tehnoloģijas mazākās valodās, jābūt pieejamiem resursiem, kas prot runāt vai vismaz saprot valodu. Jaunu valodu pievienošana vienmēr ir atkarīga no resursiem — cik daudz resursu var savākt, lai attīstītu tehnoloģiju, un cik daudz pētījumu var veikt. Protams, lielražotāji vienmēr var meklēt risinājumus, kas tirgū jau pastāv. Mūsu gadījumā viņi varētu strādāt ar mums, bet varbūt kādreiz tas notiks. Mēs esam gatavi.