Greičiausia mašininio vertimo sistema Marianai patinka naujos ir įspūdingos savybės

Akademinė bendruomenė, tyrimų ir pramonės ekspertai iš Tildės, Edinburgo universiteto ir Unbabel patobulino labai populiarų automatinį nervinio vertimo įrankių rinkinį Marianas. Dabar kiekvienas gali mėgautis savo tiesioginiu vertimo atminčių pritaikymu, MT terminologijos integravimu ir geresniu GPU efektyvumu. Šios naujos funkcijos sumažina galutinių vartotojų išlaidas ir poredagavimo pastangas bei padidina vertimo tikslumą.

Pirmą kartą pristatyta 2017 m., Mariana yra greičiausia iki šiol neuroninio mašininio vertimo sistema, plačiai naudojama įvairiose akademinėse, komercinėse ir vyriausybinėse organizacijose visame pasaulyje, įskaitant pasaulinę intelektinės nuosavybės organizaciją, Europos Komisiją, JAV oro pajėgas, eBay ir Microsoft. Dėl naujų įrankių rinkinio funkcijų ir didesnio GPU efektyvumo šis automatinio vertimo įrankis yra dar greitesnis ir efektyvesnis nei anksčiau.

Patobulintas Marianos priemonių rinkinys – gerokai sumažintos išlaidos

Dėl labai brangios aparatinės ĮRANGOS labai padidėja nervinių mt modelių išlaidos automatiniams vertimams. Pagerintas šio priemonių rinkinio skaičiavimo efektyvumas pasiektas optimizavus kodą ir glaudžiai bendradarbiaujant su NVIDIA, gerokai sumažinus išlaidas ir padarius jį prieinamesnį kalbos paslaugų teikėjams.

Patobulintas Marianos priemonių rinkinys – vartotojo apibrėžti veiksniai

Atpažinimo ženklo metaduomenims sakinyje užkoduoti galima naudoti įvairius veiksnius, naudojant papildomus žodynus ir įterpimus, o ne reikalaujamą informaciją pagrįsti išmoktomis žodžio ar požodžio įterpties pateiktimis. Šie veiksniai turi daugybę taikomųjų programų, pvz., terminologijos integravimą arba informaciją apie didžiųjų raidžių rašymą, antrinių žodžių skaidymą ir morfologiją. Modelius su šiais veiksniais dabar visiškai palaiko Marijos šaltinio ir tikslo įrankių rinkinys, taip pat naudojimo vadovas ir kita dokumentacija.

Domeno pritaikymo technologija – mažiau pastangų po redagavimo

Nors paprotinės MT sistemos jau kurį laiką populiarios didelėse įmonėse ir vertimo agentūrose, jų dažnai neįmanoma taikyti pavieniams vertėjams raštu ar mažesnėms įmonėms. Be to, trūksta duomenų apie mažiau išteklių turinčias kalbas ir nišines sritis tinkintiems moduliams mokyti. Greitasis domeno pritaikymas šią problemą sprendžia panaikindamas bendrų ir individualių AV sistemų kokybės atotrūkį. Dirbdamas su likusia sakinio dalimi, prisitaikantis automatinio vertimo modulis tiesiogiai mokosi iš žmonių poredavimų, kad pateiktų tikslesnius ir su sritimi bei projektu susijusius vertimus. Kartotinis mokymasis iš žmogaus grįžtamojo ryšio rodo gebėjimą gerokai sumažinti mašininio vertimo tekstų poredagavimo pastangas.

Terminijos integravimas – daug tikslesnis vertimas

Šis projektas taip pat įnešė dar vieną indėlį: dinamiška terminijos integracija į dabartines AV sistemas, kuri jau kurį laiką buvo karšta tema. Nors terminijos integracija egzistavo jau daugiau nei dešimtmetį, iki šiol jos neparėmė naujausios nervų MT technologijos. Ši funkcija pagerina vertimo kokybę integruodama dvikalbius terminų žodynus (glosarijus), kuriuose pateikiama informacija apie tai, kaip konkretūs žodžiai ir frazės turėtų būti verčiami į bet kurią AV sistemą.

Morfologiškai turtingų Šiaurės Europos (Skandinavijos ir Baltijos) kalbų eksperimentai rodo, kad terminijos integracija labai pagerina av kokybę techninėse srityse. Profesionalių vertėjų atlikta žmogiškojo vertinimo kampanija parodė, kad absoliutus vertimo tikslumas, palyginti su techninėms sritims skirtais bendraisiais MT moduliais, labai pagerėjo 29% . Šie eksperimentai buvo atlikti su morfologiškai turtingomis Šiaurės Europos kalbomis, kuriose naujoji sistema taip pat gali tinkamai ignoruoti žodyno terminus.

Naujosios funkcijos jau yra naujausiuose Marianų sistemos leidimuose ir komerciniuose sprendimuose, kuriais remiasi įvairūs galutiniai vartotojai ir kalbų paslaugų teikėjai. „Tilde MT“ į savo paslaugas jau įtraukė spartų domeno pritaikymą („Tilde MT“ dinaminis mokymas), suteikdama vertėjams galimybę prisitaikyti prie įvairių sričių, projektų ir klientų. Naujausi terminologijos patobulinimai taip pat įtraukti į Tildės MT ir juos galima nemokamai išbandyti.

Į vartotoją orientuotą Marianos projektą bendrai finansuoja Europos Sąjungos sujungimo priemonė, skirta tobulinti dabartinį Marianos priemonių rinkinį. Dotacijos susitarimas pagal Europos infrastruktūros tinklų priemonę (EITP) – telekomunikacijų sektoriaus susitarimas Nr. INEA/CEF/ECT/A2019/1927024

Europos infrastruktūros tinklų priemonė (EITP) – telekomunikacijų sektorius