Ātrākais mašīntulkošanas regulējums Marians lepojas ar jaunām un iespaidīgām funkcijām

Akadēmiskās aprindas, pētniecības un rūpniecības eksperti no Edinburgas universitātes Tildes un Unbabel ir uzlabojuši ļoti populāro automatizēto neironu tulkošanas instrumentu komplektu Marian. Tagad ikviens var baudīt tulkošanas atmiņu pielāgošanu lidojuma laikā, MT terminoloģijas integrāciju un uzlabotu GPU efektivitāti. Šie jaunie līdzekļi samazina galalietotāju izmaksas un pēcrediģēšanas darbu, kā arī uzlabo tulkošanas precizitāti.

Pirmo reizi ieviests 2017. gadā, Marian ir līdz šim ātrākais neironu mašīntulkošanas regulējums, ko plaši izmanto dažādās akadēmiskās, komerciālās un valdības organizācijās visā pasaulē, tostarp pasaules intelektuālā īpašuma organizācijā, Eiropas Komisijā, ASV gaisa spēkos, eBay un Microsoft. Pateicoties jaunajiem instrumentu komplekta līdzekļiem un uzlabotajai GPU efektivitātei, šis mašīntulkošanas rīks ir vēl ātrāks un efektīvāks nekā līdz šim.

Uzlabots Marijas instrumentu komplekts – ievērojams izmaksu samazinājums

Neirālo MT modeļu izmaksas ievērojami palielina automatizēto tulkojumu izmaksas ļoti dārgās aparatūras dēļ. Uzlabota šī instrumentu kopuma aprēķināšanas efektivitāte tika panākta, optimizējot kodu un cieši sadarbojoties ar NVIDIA, un ievērojami samazinās izmaksas un padarīs to pieejamāku valodu pakalpojumu sniedzējiem.

Uzlabots Marijas instrumentu komplekts – lietotāja definēti faktori

Lai teikumā iekodētu marķiera metadatus, izmantojot papildu vārdnīcas un iegulšanas, var izmantot dažādus faktorus, nevis paļauties uz apgūtiem vārdu vai apakšvārdu iegulšanas attēlojumiem, lai iegūtu nepieciešamo informāciju. Šiem faktoriem ir neskaitāmi daudz lietojumu, piemēram, terminoloģijas integrācija vai informācija par lielo burtu lietojumu, apakšvārdu dalīšanu un morfoloģiju. Modeļus ar šiem faktoriem tagad pilnībā atbalsta Marian rīku komplekts avotam un mērķim, kā arī lietošanas pamācība un cita dokumentācija.

Domēna adaptācijas tehnoloģija – mazāk pēcapstrādes centienu

Lai gan pielāgotās MT sistēmas jau labu laiku iecienījuši lieli uzņēmumi un tulkošanas aģentūras, tās bieži vien nav īstenojamas atsevišķiem tulkotājiem vai mazākiem uzņēmumiem. Turklāt trūkst ar domēnu saistītu datu par valodām un nišas domēniem, kuru resursi ir mazāki, lai apmācītu pielāgotas programmas. Domēna pielāgošana lidojuma laikā atrisina šo problēmu, novēršot kvalitātes atšķirības starp vispārējām un pielāgotām MT sistēmām. Adaptīvā mašīntulkošanas programma tieši mācās no cilvēka pēcapstrādes, lai nodrošinātu precīzākus, kā arī domēna un projekta tulkojumus, turpinot darbu pie teikuma atlikušās daļas. Iteratīva mācīšanās no cilvēku atsauksmēm ir apliecinājusi spēju ievērojami samazināt mašīntulkoto tekstu pēcapstrādes centienus.

Terminoloģijas integrācija – daudz labāka tulkošanas precizitāte

TŠis projekts ir devis arī citu ieguldījumu: dinamisku terminoloģijas integrāciju pašreizējām MT sistēmām, kas jau labu laiku ir karsta tēma. Lai gan terminoloģijas integrācija pastāv jau vairāk nekā desmit gadus, vēl nesen to neatbalstīja jaunākās neironu MT tehnoloģijas. Šī funkcionalitāte uzlabo tulkošanas kvalitāti, integrējot divvalodu terminoloģijas vārdnīcas (glosārijus), kas sniedz informāciju par to, kā konkrēti vārdi un frāzes būtu jātulko jebkurā MT sistēmā.

Eksperimenti ar morfoloģiski bagātajām Ziemeļeiropas (skandināvu un Baltijas) valodām uzskatāmi parāda, ka terminoloģijas integrācija būtiski uzlabo MT kvalitāti tehniskajās jomās. Cilvēkresursu novērtēšanas kampaņa, ko veica profesionāli tulkotāji, parādīja ievērojamu 29% uzlabojumu absolūtajā tulkošanas precizitātē salīdzinājumā ar vispārīgiem MT dzinējiem tehniskām jomām. Šie eksperimenti tika veikti ar morfoloģiski bagātām Ziemeļeiropas valodām, kur jaunā sistēma spēj arī pareizi iepludināt glosārija terminus.

Jaunās iezīmes jau ir pieejamas jaunākajos Marian Framework izdevumos un komerciālajos risinājumos, pamatojoties uz to, ka tās būs pieejamas dažādiem galalietotājiem un valodu pakalpojumu sniedzējiem. Tilde MT savos pakalpojumos jau ir iekļāvis pielāgošanos domēnam “lidojuma laikā” (Tilde MT dinamiskā mācīšanās), nodrošinot tulkotājiem adaptīvu dzinēju, kas var pielāgoties dažādām jomām, projektiem un klientiem. Jaunākie terminoloģijas uzlabojumi ir iekļauti arī Tildes MT un ir pieejami bezmaksas izmēģinājumam.

“Uz lietotāju orientētu Marian” projektu līdzfinansē Eiropas Savienības Eiropas savienošanas instruments, lai uzlabotu pašreizējo Marian instrumentu kopumu. Dotāciju nolīgums saistībā ar Eiropas savienošanas mehānismu (CEF) – telekomunikāciju nozares nolīgums Nr. INEA/CEF/ECT/A2019/1927024

Eiropas infrastruktūras savienošanas instruments (CEF) - telekomunikāciju nozare