Valodas tehnoloģiju izstrādātājs: esam lietuvieši, tāpēc tehnoloģijām ar mums jārunā lietuviešu valodā
Tildes komanda 2021. gada 7. jūlijs
Zinātnieki uzskata, ka valoda, kas neizplatās elektroniskajā vidē, drīz vien kļūs novecojusi. Valodu tehnoloģiju uzņēmums Tilde IT bija pirmais Lietuvā, kas veica programmatūras lokalizāciju un izstrādāja progresīvas runas atpazīšanas un sintēzes tehnoloģijas. Tās vadītāja Renata Špukienė uzsver, ka mēs esam lietuvieši, tāpēc tehnoloģijām ar mums jārunā arī lietuviešu valodā.
– Citu projektu vidū Tilde IT attīsta lietuviešu valodas atpazīšanu un sintēzi. Kāda tehnoloģija tā ir un uz kādu principu tā balstās?
– Tilde IT jau ilgu laiku strādā ar valodu tehnoloģijām, un mēs sākam attīstīt šo valodu atpazīšanas un sintēzes tehnoloģiju jau 2019. gadā. Mēs piedalījāmies Lietuvas Biznesa atbalsta aģentūras organizētajos projektos, kas finansē intelektuālos projektus, un rezultātā izstrādājām šo tehnoloģiju. Pats projekts ilga 24 mēnešus, un tika veikti dažādi pētījumi un eksperimenti, jo tolaik tā bija pilnīgi jauna tehnoloģija.
“Tās precizitāte ir vairāk nekā 80%, kas atbilst visu pārējo galveno valodu atzīšanas precizitātei un kvalitātei, tāpēc lietuviešu valoda ievēro citu pasaules valodu atzīšanas un sintēzes tehnoloģijas.”
Renata Špukienė,
Tehnoloģijas pamatā ir dziļo neironu tīklu princips; tā atpazīst dabisko runāto valodu un ir rakstīta tekstā, kas prasa vairāku runātā teksta paraugu vākšanu. Tiek apkopotas visu vecumu vīriešu un sieviešu balsis, pēc tam tiek apstrādāti šie runas korpusi, sagatavoti neironu tīkla modelim, un tur paši tīkli darbojas līdzīgi cilvēka smadzenēm, lai atpazītu, saliktu skaņas un pārvērstu tās tekstā.
Tagad lietotāji var brīvi izveidot savienojumu un izmantot šo pakalpojumu. Viņi var augšupielādēt audio failu un saņemt rakstisku tekstu, kā arī diktēt un teksts tiks transkribēts ekrānā. Tikmēr balss sintēzes laikā lietotājs var piedāvāt rakstīt tekstu vīriešu vai sieviešu balsī.
– Kāda ir saikne starp jūsu tehnoloģiju un Viļņas Universitātes īstenoto projektu “LIEPA” (lietuviešu runas pakalpojumi)?
– Projekti “LIEPA” un “LIEPA-2” rada paši savu atzinību, un mēs radām savējo. Tajā laikā, 2016. -17. gadā, kad tehnoloģija tika izstrādāta, atšķirība bija tā, ka mēs izstrādājām tehnoloģiju, kas atpazina un izcēla cilvēka valodu jebkurā vidē. Neatkarīgi no tā, vai atradāties trokšņainā vidē vai fonā spēlējāties mūzika, garām braucoša mašīna vai kāds jums blakus sarunājās, tehnoloģija tika izstrādāta, lai atšķirtu jūsu runu, novēršot apkārtējo skaņu.
“LIEPA” tolaik veica laboratorijas skaņas kvalitāti, tad arī viņi pārgāja uz trokšņainu vidi, un tagad viņu tehnoloģija darbojas veiksmīgi. Tolaik mēs bijām pirmie, kuru tehnoloģija spēja atpazīt sarunu un pārvērst to tekstā reāllaikā. “LIEPA” sava projekta ietvaros izveidoja runas korpusu un savāca 100 stundas runas, mēs izmantojām šo korpusu savai runas atpazīšanas tehnoloģijai - protams, mums bija arī savs, bet mēs izmantojām arī savējo, jo jo vairāk resursu un jo daudzveidīgāki tie ir, jo labāks rezultāts tiek iegūts.
– Ar kādām problēmām jūs saskaraties, izstrādājot šādas tehnoloģijas?
– Pirmkārt, resursi. Šādai lietai ir nepieciešami milzīgi runas korpusi, audio ieraksti, kas jāsastāv no dažādu vecumu, dzimumu, dialektu balsīm, jo tehnoloģijai ir jāspēj tikpat labi atpazīt lietuviešu valodā runājošo krievu vai samogītu valodā runājošo kopējo lietuviešu valodu.
Nākamais izaicinājums ir troksnis. Tehnoloģijai ir jāatzīst skaņa ne tikai sterilā un klusā vidē, bet arī trokšņainā vidē, tāpēc mums tā ir jāmāca, lai novērstu troksni. Piemēram, ja kāds runā sapulces laikā un pildspalva noklikšķina fonā, tehnoloģijai nav svarīgi, vai kāds runā vai pildspalva noklikšķina — tā ir skaņa, un tehnoloģija to visu tver. Tai ir jāsaprot, ka klikšķis uz pildspalvas nav skaņa, kas veido vārdu, frāzi vai zilbi, un viņa to izslēdz no kopējās skaņu celiņa.

Vēl viens izaicinājums ir mazais tirgus, jo mēs esam maza tauta, maza valoda un ierobežots patērētāju skaits. Mēs labprāt ietu pasaulē ar šo tehnoloģiju, bet pasaulei lietuviešu valoda nav nepieciešama daudz - tikai tik daudz, cik ir lietuviešu valodā runājošo.
– Tilde IT šobrīd piedāvā lietuviešu valodas atpazīšanu tikai galddatoru sistēmām. Vai plānojat izmantot šādu pakalpojumu arī viedajām/mobilajām ierīcēm?
– Mūsu mērķis nebija izveidot lietotni mobilajām ierīcēm, mēs redzam mūsu pakalpojumus nedaudz plašākā kontekstā. Mūsu mērķis ir tos pielāgot citiem elektroniskajiem pakalpojumiem, integrēt klientu sistēmās, kas var ar tiem strādāt, piemēram, virtuālajā asistentā. Pašreizējā situācijā jums ir jāievada savs jautājums automatizētajam asistentam, kamēr mēs strādājam pie tā, lai nodrošinātu, ka virtuālie asistenti var sazināties balsī, nevis tekstā, kas nozīmē, ka viņi dzird, kas viņiem tiek teikts, atpazīst runu un pēc tam sniedz mutisku atbildi vai, citiem vārdiem sakot, sintezē to.
Tā ir taisnība, ka esam izstrādājuši lietotni “Tildės balsas”, bet tā vairāk darbojas kā demonstrācijas rīks. Ar to mēs vēlamies parādīt, kādas ir mūsu runas atpazīšanas tehnoloģijas iespējas un kā tā darbojas. Lietotne ļauj diktēt tekstus un izmantot dažādas komandas, piemēram, varat diktēt īsziņas, piezīmes, rakstītas vēstules, sakārtot grafiku un varat norādīt adreses uz Google Maps vai Waze; ja braucat ar automašīnu un austiņas ir ieslēgtas, varat meklēt kontaktus, izmantojot balsi, un lūgt lasīt tekstus balsī. Programma darbojas labi, jūs varat izmēģināt to, un varbūt tā kļūs par daļu no jūsu parastās rutīnas, piemēram, izveidojot uzdevumu vai pārtikas produktu sarakstu ceļā uz darbu.
– Cik bieži cilvēki izmanto lietuviešu valodas atpazīšanas pakalpojumu tiešsaistē?
– Iespējams, mazāk cilvēku izmanto mobilo lietotni, bet runas atpazīšanas pakalpojumu plaši izmanto gan uzņēmumi, gan privātpersonas.
«Es to ieteiktu žurnālistiem, kuri var augšupielādēt intervijas balss ierakstu un saņemt tekstu. Tehnoloģiju izmanto arī mediju uzraudzības uzņēmumi, kas sniedz klientiem noteiktu analīzi par to, kas par vienu vai otru uzņēmumu teikts ziņās, presē. To izmanto arī uzņēmumi, kas ražo subtitrus. Vēl viena runas atpazīšanas izmantošanas joma ir sapulču ierakstīšana — piemēram, ja ir sapulce un nav laika veikt tā saukto sapulces protokolu, ierakstu var pārvērst tekstā, pārrakstīt to un izveidot protokolu — tas ietaupa daudz manuāla darba.”
Renata Špukienė,
– Vai attiecībā uz valodas atpazīstamību lietuviešu valodai ir kādas priekšrocības vai arī tā drīzāk ir valoda, kas rada papildu problēmas?
– Nav nekādu priekšrocību vai trūkumu, katra valoda ir unikāla. Runas korpuss tiek savākts, dzinēji tiek mācīti, kas ir standarts, kā tas ir citās valodās.
Kāpēc mēs esam sasnieguši tik augstu valodas atpazīstamības kvalitātes līmeni? Tā kā visu valodas atpazīšanas tehnoloģiju pamatā ir viens un tas pats princips — jo vairāk resursu jums ir, jo precīzāka būs valodas atpazīšana.
Renata Špukienė,
– Vai nākotnē būs nepieciešama lietuviešu valodas attīstība kibertelpā, ņemot vērā jaunākās paaudzes tendenci biežāk lietot angļu valodu?
– Es teiktu, ka lietuviešu valoda būs pieprasīta nākotnē, kamēr runāsim lietuviešu valodā. Pamostoties mēs vispirms domājam lietuviešu valodā, sapņojam arī lietuviešu valodā, tāpēc ir dabiski, ka lietuviešu valoda pastāv tehnoloģijā. Mūsu mērķis ir, lai lietuviešu valoda, tās runas atpazīšana tiktu parādīta katrā ierīcē.
– Vai lietuviešu valoda varētu pievērst tādu milžu kā Apple vai Microsoft uzmanību runas atpazīšanas tehnoloģijai?
– Vienkārši un īsi sakot, lietuviešu valoda parādīsies Apple, Google un citos izstrādātājos, kad tie instalēs lietuviešu valodas atbalsta funkciju. Runas atpazīšanas tehnoloģijai ir milzīgs potenciāls nākotnē, un visi lielie dalībnieki to saprot.
Viņi koncentrējas uz lieliem tirgiem, kur asistenti no Siri, Amazon Alexa vai Google Assistant runā galvenajās valodās (angļu, krievu, vācu, franču, itāļu utt.). Amazon Alexa pašlaik runā 8 valodās un atbalsta 10 citus dialektus. Dialekts ir līdzīgs tam, kā mums ir ziemeļu (aukštaičių), rietumu (žemaičių) un dienvidu (dzūkų) dialekti. Viņiem ir arī Austrālijas angļu, Lielbritānijas angļu, amerikāņu angļu valoda, ko sauc par dialektiem, jo pastāv smalkas atšķirības lietojumā, izrunā. Google Assistant pašlaik ir 12 valodas un 13 dialekti, savukārt Siri ir 21 valoda un neskaitāmi dialekti.
«Tātad, tas nav jautājums par mūsu pašu valodu, tas ir jautājums par to, kad. Tas viss ir saistīts ar cilvēkresursiem un finanšu resursiem.”
Renata Špukienė,
Lai izstrādātu tehnoloģijas mazākās valodās, jābūt pieejamiem resursiem, kas prot vai vismaz saprot valodu. Jaunu valodu pievienošana vienmēr ir atkarīga no resursiem — cik daudz resursu varat savākt, lai izstrādātu tehnoloģiju, un cik daudz pētījumu varat veikt. Protams, lielie ražotāji vienmēr var meklēt risinājumus, kas jau pastāv tirgū. Mūsu gadījumā viņi varētu strādāt kopā ar mums, bet varbūt tas notiks kādu dienu. Esam gatavi.