AK, nevajag mani uzrunāt#$ ! Valoda ir personiska.

Mēs visi esam pieraduši pie valodu tehnoloģijām, kas palīdz mums ikdienas aktivitātēs, bet kā ir ar tiem laikiem, kad tās neizdodas? Šajā bloga rakstā mūsu galvenais AI virsnieks Mārcis Pinnis skaidro, kā mēs attīstām valodas tehnoloģijas, kāpēc tās reizēm cīnās, un iemeslus, kāpēc tā notiek.

Bet vispirms … kas ir valodu tehnoloģijas?

Valodas tehnoloģija ir jebkurš risinājums, kas analizē, producē, modificē vai reaģē uz cilvēka tekstiem un runu. Ja tev ir viedtālrunis vai dators, tad izmanto valodas tehnoloģijas. Visos mūsu modernajos sīkrīkos ir valodu tehnoloģijas, kas palīdz mums ātrāk piekļūt informācijai vai būt produktīvākiem. Piemēram, viedtālruņiem ir valodas tehnoloģiju iespējas, lai atpazīstiet savu runu, veikt dokumentu vai meklēšanu tīmeklī, veikt optisko rakstzīmju atpazīšanu (jeb citiem vārdiem – atpazīt tekstu digitālā attēlā) u.c.

Tildes valodas tehnoloģijas

Kā attīstīt valodu tehnoloģijas? 

Pirmkārt, mums ir iegūstiet piekļuvi valodas datiem, ko varam izmantot modeļu apmācībai. Bez datiem mēs, iespējams, neko nevaram attīstīt. Vienkārši sakot, valodas dati var būt jebkurš dokuments, kas satur tekstu, vai jebkurš audio vai video fails, kas satur runu. 

Kad mums būs savi valodas dati, nākamais solis ir modeļu trenēšana, izmantojot it. Mūsdienās lielākā daļa valodas tehnoloģiju tiek attīstītas, izmantojot mašīnmācīšanos un mākslīgos neironu tīklus. Piemēram, mūsu mašīntulkošanas sistēmas tiek apmācīti, izmantojot uz transformatoriem balstītus kodētāja-dekodētāja modeļus no nulles. Mūsu nosauktie entītiju atpazīšanas, noskaņojuma analīzes un nolūka noteikšanas modeļi tiek apmācīti ar precizējošiem Foundation modeļiem specifiskiem pakārtotiem uzdevumiem. 

Un visbeidzot, mēs izvietojam modeļus lietošanai. Atkarībā no klientu prasībām modeļus var izvietot lokālajā infrastruktūrā vai mākonī un padarīt pieejamus, izmantojot API, trešās puses rīku spraudņus vai pielāgotus lietotāja interfeisus. Piemēram, mūsu mašīntulkošanas sistēmas ir pieejamas mūsu klientiem dažādos datorizētos tulkošanas rīkos, izmantojot spraudņus, translate.tilde.com  platforma, kas ļauj lietotājiem tulkot teksta fragmentus, dokumentus un tīmekļa lapas, un nodrošina vienkāršu tiešsaistes datorizētu tulkošanas rīku, ko var viegli izmantot personas, kas nav iesaistītas tulkošanas nozarē; tai var piekļūt arī, izmantojot API. 

Valoda nav konstanta 

Problēma, kas rodas ar šo procesu, ir tā, ka kad modelis ir apmācīts, tas jau sāk novecot, jo nebūs redzējis nekādus aktuālos un nākotnes datus. Visi, kas lietojuši ChatGPT, droši vien ir saskārušies ar atrunu, ka tas par datiem zina tikai līdz 2021. gadam (vai jaunākajos modeļos līdz 2023. gada aprīlim). Modelis nav atjaunināts pašreizējā valodas lietojumā. 

novecojušu valodas datu piemērs

Tā kā valodas dati ir vienīgais svarīgākais faktors valodas tehnoloģiju izstrādē, tiek vainota arī lielākā daļa kļūdu, ko uzrāda mūsu modeļi. Tāpēc ir kritiski svarīgi, ka, attīstot valodu tehnoloģijas, mums ir pietiekami daudz datu, dati ir tīri, tie ir aktuāli un pareizajā jomā. 

To ir ļoti grūti panākt, lai gan mūsu izmantotie valodas dati bieži vien ir novecojuši. Kā valodas dati var novecot? Aplūkosim dažus piemērus. 

#1 sabiedrības uzmanības centrā ir mainīgs faktors 

Šeit redzams piemērs, kā laika gaitā mainās divu vārdu lietojums Latvijas ziņās. 

novecojušu valodas datu piemērs-2

Tas liecina par to, ka laika gaitā mainās sabiedrības fokuss, kas nozīmē, ka mainās arī tēmas, kuras mūsu valodas tehnoloģijām ir jāatbalsta un jārisina. Vakar bija COVID-19, šodien ir karš Ukrainā. Rīt būs vēl viena nezināma tēma. Ja tehnoloģijas saglabājam statiskas, tās ļoti ātri kļūst novecojušas. 

#2 valoda kļūst bagātāka 

Valoda mainās arī tāpēc, ka cilvēki valodā bieži ievieš jaunus jēdzienus. Piemēram, Latvijas zinātņu akadēmijas terminoloģijas Komisija regulāri ievieš jaunu terminoloģiju.

valodas maiņas piemērs-2

Valodas tehnoloģiju sistēmas tos nekad nebūs redzējušas datos. Neviena tulkošanas sistēma nespēs tos apstrādāt, pirms tehnoloģiju izstrādātāji apkopos datus un pārkvalificēs modeļus vai vismaz izmantos dažas pielāgošanās metodes. 

#3 valoda turpina mainīties 

Cilvēki maina arī esošos jēdzienus. Piemēram, kā parādīts tālāk sniegtajā piemērā – mainot esošo terminu tulkojumus.

valodas maiņas piemērs-3

Ja tulkošanas sistēmas datos ir šie termini ar iepriekšējiem tulkojumiem, visi dati ir jārediģē, lai tie būtu atjaunināti. 

#4 jauni jēdzieni sabiedrībā 

Pati sabiedrība laika gaitā mainās, radot citas valodas lietošanas atšķirības. Piemēram, viena vērā ņemama izmaiņa, kas rada problēmas valodas tehnoloģiju izstrādātājiem, ir dzimumneitrālas valodas ieviešana. Šīs izmaiņas lēnām ieviestas arvien vairāk valodās. Tomēr dati, uz kuriem mēs paļaujamies, tos neparāda. Šī konkrētā parādība liek mums vai nu ieviest noteikumus savās sistēmās, vai arī ģenerēt sintētiskus datus. 

#5 globāli notikumi 

Notikumi, kas ietekmē sabiedrību, var prasīt arī valodas lietojuma izmaiņas. Piemēram, Krievijas karš Ukrainā izraisīja Latvijas Valsts valodas centra lēmumu, ka 31 Ukrainas pilsēta un pilsētu nosaukumi latviešu valodā tiks tulkoti, lai sekotu oriģinālajam Ukrainas (nevis krievu) formulējumam.

valodas maiņas piemērs-4

Lai to risinātu, mums Tildē bija vai nu jārediģē visi mūsu dati, vai jāizmanto adaptīvas metodes, kas mums ļāva tvītot atsevišķu vārdu vai frāžu tulkojumus. 

#6 valoda ir dabiski divdomīga un skopa 

Pat ja valodas tehnoloģiju attīstītājs turēsies līdzi pārmaiņu tempam, viņi nekad nevarēs nosegt visus valodas leksus. Vienkārši ir pārāk daudz vārdu, atrašanās vietu, organizāciju un nišas tēmas terminu, lai aptvertu visu. Viens no piemēriem ir Baltijas vienotības diena, ko nesen atcerējās Latvijā un Lietuvā. Mūsu ārlietu ministrs tvītoja sveicienu Lietuvas kolēģim un cilvēki ievēroja, ka tulkojums angļu valodā nav pilnīgi precīzs, jo “Baltijas vienība” tulkota “baltā vienotībā”.

valodas teholoģijas kļūmes piemērs

Kāpēc tā notika? Pats vārds “Baltu” var būt neviennozīmīgs (tas var nozīmēt “balts” vai “Baltija”). Un, ja tulkošanas sistēmas datos nav frāzes “Baltijas vienotība”, tad kā sistēma var zināt, ka kaut kas tāds pastāv? Tā arī notika – datos šis notikums nebija redzams. 

#7 valodas dati bieži ir centriski uz angļu valodu 

Mūsu rīcībā esošo datu angliski centriskais raksturs var radīt problēmas. Lielākā daļa pieejamo datu ir radīti, tulkojot saturu no angļu valodas citās valodās un daudz mazāk citos virzienos. Tas nozīmē, ka sistēmā, kas ir apmācīta par šādiem datiem, nekad nebūs iekļauta nejauša persona no vietas ārpus MUMS vai Apvienotās KARALISTES. Un, ja tas cilvēks gadās, ka esi tu (vai kāds no mums), tad tas kļūst gluži personisks. AI kļūst personīga! 

valodas teholoģijas kļūmes-2 piemērs

Piemēram, es arī esmu tāda “nejauša persona”, un, ja es tulkoju kaut ko, kas ietver manu vārdu, izmantojot Google Translate, es varu sagaidīt, ka mans vārds tiks nepareizi klasificēts un nekonsekventi apstrādāts. Tomēr šo problēmu var risināt, izstrādājot sistēmas, kas var rīkoties ar vietējām nosauktajām struktūrām. 

Kā mēs kā izstrādātāji sekojam līdzi valodas izmaiņām? 

Pirmkārt, mēs nekad nepārtraucam datu vākšanu. Kad tu apstājies, tu jau zaudē aktualitāti. Mēs arī mēģinām savus modeļus piegādāt iteratīvi, tostarp klientiem, kas pasūta pielāgotas sistēmas (iesakām pārkvalificēt sistēmas vismaz reizi divos gados).  

Tad mēs veicam daudz pētījumu par atsaucīgām un adaptīvām metodēm, kas ļauj viegli pielāgot sistēmas izpildlaikā bez nepieciešamības pārkvalificēt modeļus. Piemēram, mūsu MT sistēmās varat pievienot savu terminoloģiju, kā arī nosauktās entītijas. Un mūsu ASR sistēmās var pievienot savu specifisko vārdu krājumu. 

Un ko var darīt? 

Ja esat valodas tehnoloģiju lietotājs, varat daudz darīt, lai palīdzētu uzlabot sistēmas savā labā, proti, kopīgot valodas datus. Tomēr, lai to izdarītu, uzņēmumā ir jābūt izveidotiem labiem datu pārvaldības procesiem. Ja cīnās ar valodas datu pārvaldību, konsultējieties ar mums, lai iegūtu padomus par paraugpraksi. Apsveriet iespēju arī atklāti koplietot savus datus, ja vēlaties izmantot labākus bezmaksas pakalpojumus saviem nišas domēniem. Lai koplietotu datus, izmantojiet bezmaksas publiskos datu koplietošanas pakalpojumus, piemēram, ELRC KOPLIETOŠANU vai Eiropas valodu tīklu. 

Tāpēc, lai ietītos, mēs visi izmantojam valodas tehnoloģijas. Tie ļauj mums būt produktīvākiem, piekļūt plašākai informācijai un sasniegt plašāku auditoriju. Valodu tehnoloģijas nekad nebūs 100% precīzas, jo valodas ir sarežģītas un nemitīgi mainās. Tomēr, ja mēs attīstām sistēmas tā, lai mēs gaidītu pastāvīgas pārmaiņas, mēs varam efektīvi mazināt kļūdas un varbūt padarīt savus klientus mazliet laimīgākus.