Kalbinių technologijų kūrėjas: mes lietuviai, todėl technologijos turi su mumis kalbėti lietuvių kalba
„Tilde“ komanda 2021 m. liepos 7 d.Mokslininkai mano, kad elektroninėje terpėje neišplitusi kalba greitai pasens. Kalbos technologijų bendrovė „Tilde IT“ buvo pirmoji Lietuvoje, pradėjusi lokalizuoti programinę įrangą ir vystanti pažangias kalbos atpažinimo ir sintezės technologijas. Jos lyderė Renata Špukienė pabrėžia, kad mes esame lietuviai, todėl technologijos taip pat turi kalbėti su mumis lietuvių kalba.
– Be kitų projektų, „Tilde IT“ kuria lietuvių kalbos atpažinimą ir sintezę. Kokia technologija ji yra ir kokiu principu ji grindžiama?
– „Tilde IT“ jau seniai dirba su kalbos technologijomis, o šią kalbos atpažinimo ir sintezės technologiją pradėjome kurti jau 2019 m. Dalyvavome Lietuvos verslo paramos agentūros organizuojamuose projektuose, kurie finansuoja intelektualinius projektus, todėl sukūrėme šią technologiją. Pats projektas truko 24 mėnesius, buvo atlikti įvairūs tyrimai ir eksperimentai, nes tuo metu tai buvo visiškai nauja technologija.
„Jo tikslumas didesnis nei 80%, o tai atitinka visų kitų pagrindinių kalbų atpažinimo tikslumą ir kokybę, todėl lietuvių kalba neatsilieka nuo kitų pasaulio kalbų atpažinimo ir sintezės technologijų.“
Renata Špukienė,
Technologija pagrįsta gilių neuronų tinklų principu; ji atpažįsta natūralią šnekamąją kalbą ir yra parašyta tekste, todėl reikia surinkti keletą šnekamojo teksto pavyzdžių. Surenkami įvairaus amžiaus vyrų ir moterų balsai, tada tie kalbos korpora apdorojami, parengiami neuroninio tinklo modeliui, ir ten patys tinklai veikia panašiai kaip žmogaus smegenys, kad atpažintų, sudėtų garsus ir paverstų juos tekstu.
Dabar vartotojai gali prisijungti ir naudotis šia paslauga. Jie gali nusiųsti garso failą ir gauti rašytinį tekstą, diktuoti ir tekstas bus perrašytas ekrane. Tuo tarpu balso sintezės metu vartotojas gali pasiūlyti, kad rašytinis tekstas skambėtų vyrišku arba moterišku balsu.
– Kokios sąsajos tarp jūsų technologijos ir Vilniaus universiteto įgyvendinamo projekto „LIEPA“ (lietuvių kalbos paslaugos)?
– Projektai „LIEPA“ ir „LIEPA-2“ sukuria savąjį pripažinimą, o mes – savo. Tuo metu, 2016-17 m., kai technologija buvo kuriama, skirtumas buvo tas, kad mes vystėme technologiją, kuri atpažino ir išskyrė žmogaus kalbą bet kokioje aplinkoje. Nesvarbu, ar esate triukšmingoje aplinkoje, ar grojate muzika fone, pravažiuojate automobilį ar kas nors kalbasi šalia jūsų, technologija buvo sukurta jūsų kalbai atskirti pašalinant garsus aplink jus.
„LIEPA“ tuo metu darė laboratorijos garso kokybę, tada jie taip pat perėjo į triukšmingą aplinką, ir dabar jų technologija veikia sėkmingai. Tačiau tuo metu buvome pirmieji, kurių technologija sugebėjo atpažinti pokalbį ir paversti jį tekstu realiuoju laiku. „LIEPA“ sukūrė kalbėjimo korpusą pagal jo projektą ir surinko 100 valandų kalbėjimo, mes naudojome šį korpusą savo kalbėjimo atpažinimo technologijai - žinoma, mes taip pat turėjome savo, bet taip pat naudojome ir juos, nes kuo daugiau išteklių ir kuo įvairesni jie yra, tuo geresnių rezultatų gauname.
– Su kokiais sunkumais susiduriate kurdami tokias technologijas?
– Visų pirma ištekliai. Tam reikia milžiniškų kalbėjimo korporų, garso įrašų, kuriuos turi sudaryti įvairaus amžiaus, lyties, dialektų balsai, nes technologija turi vienodai gerai atpažinti lietuvių kalbantį rusą ar samogiečių kalbantį bendrą lietuvių kalbą.
Kitas iššūkis - triukšmas. Technologija turi atpažinti garsą ne tik sterilioje ir tylioje aplinkoje, bet ir triukšmingoje aplinkoje, todėl turime išmokyti jį pašalinti triukšmą. Pavyzdžiui, jei kas nors kalba susitikimo metu ir fone spustelėja rašiklį, technologijai nesvarbu, ar jis kalbasi, ar spustelėja rašiklį - tai garsas, ir technologija viską užfiksuoja. Ji turi suprasti, kad rašiklio spustelėjimas nėra garsas, sudarantis žodį, frazę ar skiemenį, ir ji pašalina jį iš bendro garso takelio.
Kitas iššūkis - maža rinka, nes mes esame maža tauta, maža kalba ir ribotas vartotojų skaičius. Norėtume, kad ši technologija būtų visuotinė, tačiau pasauliui nereikia lietuvių kalbos - tik tiek, kiek yra lietuvių kalbos kalbėtojų.
– „Tilde IT“ šiuo metu lietuvių kalbos atpažinimą siūlo tik stalinėms kompiuterių sistemoms. Ar planuojate taikyti tokią paslaugą ir išmaniesiems/mobiliesiems įrenginiams?
– Mūsų tikslas buvo ne sukurti mobiliųjų įrenginių programėlę, o matyti mūsų paslaugas šiek tiek platesniame kontekste. Mes siekiame pritaikyti jas prie kitų elektroninių paslaugų, integruoti jas į klientų sistemas, kurios gali su jomis dirbti, pvz., pokalbių robotą. Dabar turite įvesti savo klausimą automatiniam asistentui, o mes stengiamės užtikrinti, kad pokalbių robotai galėtų bendrauti balsu, o ne tekstu, t. y. jie girdėtų, kas jiems sakoma, atpažintų kalbą, tada duotų ištartą atsakymą arba, kitaip tariant, susintetintų ją.
Tiesa, kad sukūrėme programą „Tildės Balsas“, bet ji veikia labiau kaip demonstravimo įrankis. Ja siekiame parodyti, ką sugeba mūsų kalbėjimo atpažinimo technologija ir kaip ji veikia. Programa leidžia diktuoti tekstus ir naudoti įvairias komandas, pvz., galite diktuoti teksto pranešimus, pastabas, rašytinius laiškus, tvarkyti tvarkaraštį ir nurodyti adresus „Google“ žemėlapiuose arba Waze; jei vairuojate automobilį ir turite įjungtą laisvų rankų įrangą, galite ieškoti adresatų balsu ir paprašyti skaityti tekstus balsu. Programėlė veikia gerai, galite ją išbandyti ir galbūt ji taps įprastos kasdienės veiklos dalimi, pvz., užduočių ar bakalėjos prekių sąrašo sudarymas pakeliui į darbą.
– Kaip dažnai žmonės naudojasi lietuvių kalbos atpažinimo paslauga internete?
– Galbūt mažiau žmonių naudoja programą mobiliesiems, tačiau pačią kalbėjimo atpažinimo paslaugą plačiai naudoja ir įmonės, ir pavieniai asmenys.
„Patariu žurnalistams, kurie gali nusiųsti pokalbio balso įrašą ir gauti tekstą. Šią technologiją taip pat naudoja žiniasklaidos stebėjimo kompanijos, kurios klientams pateikia tam tikrą naujienų, spaudos, apie vieną ar kitą kompaniją pasakytų dalykų analizę. Jį naudoja ir subtitrus gaminančios įmonės. Kita kalbėjimo atpažinimo sritis yra susitikimų įrašymas – pvz., kai yra susitikimas ir nėra laiko atlikti vadinamųjų susitikimo protokolų, įrašą galite paversti tekstu, perrašyti ir sukurti protokolą – taip sutaupoma daug darbo rankiniu būdu. „
Renata Špukienė,
– Kalbant apie kalbos atpažinimą, ar lietuvių kalba turi kokių nors privalumų, ar tai greičiau kalba, kelianti papildomų sunkumų?
– Nėra jokių privalumų ar trūkumų, kiekviena kalba yra unikali. Kalbos lavonas renkamas, mokomi varikliai, o tai yra standartas, kaip ir kitų kalbų atveju.
Kodėl mes pasiekėme tokį aukštą kalbos atpažinimo lygį? Kadangi visos kalbos atpažinimo technologijos pagrįstos tuo pačiu principu - kuo daugiau išteklių turite, tuo tikslesnis bus jūsų kalbos atpažinimas.
Renata Špukienė,
– Ar ateityje kibernetinėje erdvėje reikės plėtoti lietuvių kalbą, atsižvelgiant į jaunosios kartos tendenciją dažniau vartoti anglų kalbą?
– Norėčiau pasakyti, kad lietuvių kalbos bus reikalaujama ateityje, kol kalbėsime lietuvių kalba. Pabudę pirmiausia galvojame lietuvių kalba, taip pat svajojame lietuvių kalba, todėl natūralu, kad lietuvių kalba egzistuoja technologijose. Mūsų tikslas - kad lietuvių kalba, jos kalbėjimo atpažinimas būtų rodomas kiekviename įrenginyje.
– Ar lietuvių kalba galėtų atkreipti tokių milžinų kaip Apple ar Microsoft dėmesį į kalbos atpažinimo technologiją?
– Trumpai tariant, lietuvių kalba bus rodoma „Apple“, „Google“ ir kituose gamintojuose, kai jie įdiegs lietuvių kalbos palaikymo funkciją. Kalbos atpažinimo technologijos ateityje turi milžinišką potencialą ir visi didieji veikėjai tai supranta.
Jie daugiausia dėmesio skiria didelėms rinkoms, o asistentai iš Siri, Amazon Alexa ar Google asistento kalba pagrindinėmis kalbomis (anglų, rusų, vokiečių, prancūzų, italų ir t. t.). Amazon Alexa šiuo metu kalba 8 kalbomis ir palaiko 10 kitų dialektų. Dialektas panašus į Šiaurės (aukštaičių), Vakarų (Žemaičių) ir Pietų (dzūkų) dialektus. Jie taip pat turi Australijos anglų, britų anglų, amerikiečių anglų kalbas, kurios vadinamos dialektais, nes jų vartojimas ir tarimas šiek tiek skiriasi. „Google“ asistentas šiuo metu turi 12 kalbų ir 13 dialektų, o „Siri“ – 21 kalbą ir daugybę dialektų.
„Taigi tai ne mūsų gimtosios kalbos turėjimas, o kada. Visa tai susiję su žmogiškaisiais ir finansiniais ištekliais. „
Renata Špukienė,
Kad technologijos būtų kuriamos mažesnėmis kalbomis, turi būti prieinami ištekliai, kurie galėtų kalbėti arba bent jau suprasti kalbą. Naujų kalbų pridėjimas visada priklauso nuo išteklių - kiek išteklių galite surinkti technologijai kurti ir kiek galite atlikti tyrimus. Žinoma, didieji gamintojai visada gali ieškoti rinkoje jau esančių sprendimų. Mūsų atveju jie galėtų dirbti su mumis, bet galbūt tai įvyks vieną dieną. Mes pasiruošę.
Skaitykite daugiau: https://www.lrytas.lt/it/ismanyk/2021/07/27/news/kalbiniu-technologiju-kureja-esame-lietuviai-todel-ir-technologijos-su-mumis-turi-kalbetis-lietuviskai-20234179