Pētnieka recenzija par 16. MT maratonu: mašīntulkošanas tendences un jauni rīki, kas ļauj sekot līdzi
Tildes komanda 2024. gada 9. aprīlis
ES esmu Toms Bergmanis, mašīntulkošanas (MT) pētnieks un praktizējošs speciālists Tildē. Mans ikdienas darbs ietver pielāgotu MT sistēmu izveidi lielām starptautiskām organizācijām, kā arī jaunu risinājumu izstrādi, kas ļauj lietotājiem kontrolēt un pielāgot MT sistēmas izpildlaikā.
Nesen apmeklēju šī gada mašīntulkošanas maratonu, lai paplašinātu savas zināšanas un sadarbotos ar citiem pētniekiem un praktiķiem no akadēmiskajām aprindām un nozares. Man patiešām patika savs tur pavadītais laiks, un man tas šķita ļoti izdevīgi, tāpēc nolēmu dalīties savā pieredzē par pasākumu un daļu no pasniegtā darba.
MT Marathon ir nedēļu ilgs pasākums, ko parasti rīko Čārlza universitāte Prāgā vai mana Alma Matere, Edinburgas universitāte. Šogad to organizēja Liza Jankovska un Marks Fišels burvīgajā Tartu pilsētā Igaunijā.
16 th MT Marathon turpināja savu tradīciju piedāvāt visaptverošu programmu, kas vērsta uz visiem kompetences līmeņiem. Tajā notika fundamentālas MT lekcijas un praktiskas laboratorijas iesācējiem, kam sekoja slavenu zinātnieku un praktiķu no akadēmiskajām aprindām un nozares iesaistīšanās galveno runu risināšanā. Ir pieejami videoklipi un lekciju slaidi tiešsaistē.
Šogad notikušajā pasākumā bija daudz pārrunu par MT kvalitātes novērtēšanu. Maja Popović no Dublinas pilsētas universitātes, Nuno Guerreiro no Unbabel un Samuel Läubli no Textshuttle sniedza prezentācijas par manuālu un automātisku novērtēšanu, kvalitātes novērtēšanu un izaicinājumiem, salīdzinot MT un cilvēku tulkošanas veiktspēju. Tas atspoguļo vispārējās tendences nozares konferencēs, kurās pēdējos gados ir palielinājusies MT novērtējuma interese. Tā kā neviens dabiskās valodas apstrādes (NLP) pasākums 2023. gadā nebūtu pabeigts bez sarunām par lieliem ģeneratīvās valodas modeļiem, Edinburgas Universitātes Alexandra Birch atbildēja uz jautājumu, vai tie aizstās tradicionālo MT.

MT Marathon piedāvā arī vietu sadarbībai pašpiedāvātos pētniecības un programmatūras izstrādes projektos. Tomēr mani favorīti bija jaunas sarunas, nesen izstrādāti rīki, kas nodrošina turpmāku pētniecību un MT sistēmu ražošanu.
Viens no viņiem, MAMUTS rīkkopa, prezentēja Rauls Vaskess un Timotijs Mikuss no Jērga Tiedemanna grupas Helsinku Universitātē. MAMUTS izriet no Helsinku NLP grupas pētījuma par MT modeļiem, kas tulko starp vairāk nekā divām valodām. Akronīms apzīmē masveida daudzvalodu modulāro atvērto tulkošanu @ Helsinki, un tā mērķis ir risināt problēmas, ko rada lielie modeļi, kas tiek apmācīti ar lielu datu apjomu. MAMUTA autori ir paveikuši milzīgu darbu, īstenojot visas iedomājamās parametru koplietošanas garšas, risinot GPU piešķiršanu un saziņu starp tiem un nodrošinot datu pārvaldības rīkus. Atcerieties, ka rīkkopa ar visu tās funkcionalitāti ir arī neticami sarežģīta. Rakstīšanas laikā tam vēl nav dokumentācijas pazīmju... Tātad, pagaidām MAMUTS varētu būt neapstrādāts, bet es ceru, ka tas kļūs par noderīgu instrumentu daudzvalodu nervu MT, nevis cita izmiruša ziloņa pētniecībai un ražošanai.
Vēl viens līdzeklis, ko vērts izcelt, ir Opustīrītājs, ko demonstrēja mans draugs un studiju biedrs, Nikolajs Bogoiševs no Edinburgas Universitātes un attīstījās kopā ar saviem kolēģiem Graeme Nail un Jelmer van der Linde. Opuscleaner ir apmācības datu tīrītājs MT un valodas modeļiem. Atšķirībā no citiem datu tīrīšanas rīkiem OpusCleaner mērķis ir samazināt mācību līkni datu tīrīšanas apmācībai, nodrošinot grafisku lietotāja saskarni datu kopu lejupielādei, dažādu filtru konfigurēšanai un tūlītēju atsauksmju sniegšanai par to, kā šo filtru lietošana ietekmē jūsu datus. Tādējādi biedējošais uzdevums konfigurēt un saķēdēt datu tīrīšanas darbplūsmas kļūst intuitīvs, un to var nodot valodas ekspertiem bez datorzinātnes fona. Vēl viena atdzist lieta par OpusCleaner ir tā, ka to var saķēdēt kopā ar citu rīku ar to pašu grupu, Opustrainers, kas apstrādā datu plānošanu un paraugu ņemšanu, tādējādi samazinot darba slodzi un cilvēka kļūdu iespējamību MT modeļu apmācībā. Abi rīki ir labi dokumentēti, un to GitHub ir aktīva izstrādātāju kopiena.
Kopumā 16. MT maratons bija liels panākums – bija daudz lekciju, kas aptvēra visu, sākot no MT pamatiem līdz viedokļa darbiem un praktiskiem ieteikumiem jaunām pieejām un instrumentiem. MT Marathon piedāvāja arī telpu ideju apmaiņai ar kolēģiem no akadēmiskajām aprindām un nozares pārstāvjiem. Galvenais bija tas, ka pasākums kalpoja par platformu, lai popularizētu inkrementālos pētījumus, kurus tik bieži nepamanīja lielās akadēmiskās konferencēs, bet kuri bija tik svarīgi tādām nobriedušām, uz galalietotājiem vērstām jomām kā MT.