Mokslininko atlikta 16-ojo MT maratono apžvalga: mašininio vertimo tendencijos ir naujos priemonės, skirtos stebėti

Aš esu Tomas Bergmanis, mašininio vertimo (MT) mokslininkas ir praktikuojantis specialistas Tilde. Mano kasdienis darbas susijęs su didelių tarptautinių organizacijų individualių AV sistemų kūrimu, taip pat naujų sprendimų, kurie leistų naudotojams valdyti ir pritaikyti av sistemas VYKDYMO metu, kūrimu.

Neseniai lankiausi šių metų mašininio vertimo maratone, kad išplėsčiau savo žinias ir susidraugaučiau su kitais mokslininkais bei specialistais iš akademinės bendruomenės ir pramonės. Man labai patiko ten praleisti laiką ir jis man pasirodė labai naudingas, todėl nusprendžiau pasidalyti savo patirtimi apie renginį ir kai kuriais pristatytais darbais.  

MT Maratonas yra savaitės trukmės renginys, kurį paprastai rengia Prahos Prahos Prahos universitetas arba mano Almos mater, Edinburgo universitetas. Tačiau šiemet jį organizavo Lisa Jankovskaja ir Markas Fishelis žavingame Tartu apskritį mieste Estijoje. 

16-asis MT Maratonas tęsė savo tradiciją pasiūlyti visapusišką programą, kurioje būtų atsižvelgiama į visų lygių patirtį. Ji apėmė pradines MT paskaitas ir praktines laboratorijas pradedantiesiems, po kurių vyko žymiųjų mokslo darbuotojų ir specialistų iš akademinės bendruomenės ir pramonės konferencijos. Galimi vaizdo įrašai ir paskaitų skaidrės tinkle.  

Šių metų renginyje vyko daug diskusijų dėl MT kokybės vertinimo. Maja Popović iš Dublino miesto universiteto, Nuno Guerreiro iš Unbabel ir Samuelis Läubli iš Textshuttle pristatė pranešimus apie neautomatinį ir automatinį vertinimą, kokybės įvertinimą ir problemas, susijusias su MT ir žmogiškojo vertimo veiklos palyginimu. Tai atspindi bendras pramonės konferencijų, kuriose PASTARAISIAIS metais PADIDĖJO mt vertinimo susidomėjimas, tendencijas. Kadangi joks natūralios kalbos apdorojimo (NLP) renginys 2023 m. nebūtų užbaigtas be kalbos apie didelius generacinės kalbos modelius, Alexandra Berch iš Edinburgo universiteto atsakė į klausimą, ar jie pakeis tradicinę MT.  

Tildės komanda mt Maratone

MT Maratonas taip pat suteikia galimybę bendradarbiauti įgyvendinant savo pačių siūlomus mokslinių tyrimų ir programinės įrangos kūrimo projektus. Tačiau mano mėgstamiausios buvo naujos kalbos, neseniai sukurtos priemonės, leidžiančios ateityje vykdyti mokslinius tyrimus ir GAMINTI AV sistemas.   

Vienas iš jų, MAMUTAS įrankių rinkinį pateikė Raúl Vázquez ir Timotee Mickus iš Jörg Tiedemann grupės Helsinkio universitete. MAMUTAS kyla iš Helsinkio NLP grupės mt modelių, kurie verčiami daugiau nei į dvi kalbas, tyrimo. Akronimas reiškia masiškai daugiakalbį modulinį atvirąjį vertimą @ Helsinkyje ir juo siekiama spręsti problemas, kylančias dėl didelių modelių, mokymų apie didelį duomenų kiekį. MAMUTO autoriai atliko milžinišką darbą, įgyvendindami visas įmanomas parametrų bendrinimo skonį, spręsdami GPU paskirstymą ir bendravimą tarp jų bei teikdami duomenų valdymo priemones. Atminkite, kad įrankių rinkinys, turintis visas funkcijas, taip pat yra neįtikėtinai sudėtingas. Tuo metu, kai tai rašoma, ji dar neturi jokių dokumentacijos ženklų... taigi, KOL kas mamutas gali būti žaliavinis, bet tikiuosi, kad jis taps naudinga priemone daugiakalbiams nerviniams MT tirti ir gaminti, o ne dar vienu išnykusiu drambliu.  

Dar vienas įrankis, kurį verta pabrėžti, yra Opuscleaner, kurį parodė mano draugas ir studijų partneris, Nikolay Bogoychev iš Edinburgo universiteto ir kartu su kolegomis Grame Nail bei Dželmeriu van der Linde išsivystė. Opuscleaner yra mt ir kalbos modelių MOKYMO duomenų valytoja. Kitaip nei kitais duomenų valymo įrankiais, programa „OpusCleaner“ specialiai siekia sumažinti mokymo duomenų valymo mokymosi kreivę, pateikdama grafinę vartotojo sąsają duomenų rinkiniams atsisiųsti, įvairiems filtrams konfigūruoti ir tiesioginiam grįžtamajam ryšiui apie tai, kaip šių filtrų taikymas veikia jūsų duomenis, pateikti. Tokiu būdu bauginanti užduotis – konfigūruoti ir sujungti duomenų valymo darbo eigas – tampa intuityvi ir gali būti perduota kalbos ekspertams nereikalaujant informatikos žinių. Kitas šaunus dalykas apie OpusCleaner yra tas, kad jį ta pati grupė gali sujungti su kitu įrankiu, Opustrainer, kuri tvarko duomenų planavimą ir mėginių ėmimą, taip mažindama darbo krūvį IR žmogaus klaidų tikimybę MT modelio mokymuose. Abu įrankiai gerai dokumentuoti ir jų „GitHub“ yra aktyvi kūrėjų bendruomenė. 

Apskritai 16-asis MT maratonas buvo labai sėkmingas – jame buvo daug įvairių paskaitų, apimančių viską – nuo MT fondų iki nuomonių dalių ir praktinių rekomendacijų dėl naujoviškų metodų ir priemonių. MT Maratonas taip pat suteikė galimybę keistis idėjomis su kolegomis iš akademinės bendruomenės ir pramonės. Visų pirma šis renginys buvo platforma populiarinti papildančiuosius mokslinius tyrimus, į kuriuos taip dažnai nekreipdavo dėmesio pagrindinės akademinės konferencijos, tačiau jis visada buvo toks svarbus subrendusioms, galutiniams vartotojams skirtoms sritims, pvz., MT. 

Straipsnį parašė Tomas Bergmanis