Pētnieka recenzija par 16. MT maratonu: mašīntulkošanas tendences un jauni rīki, kas ļauj sekot līdzi
Tildes komanda 2024. gada 9. aprīlisEs esmu Toms Bergmanis, mašīntulkošanas (MT) pētnieks un praktiķis Tildē. Mans ikdienas darbs ietver pielāgotu MT sistēmu veidošanu lielām starptautiskām organizācijām, kā arī jaunu risinājumu izstrādi, kas ļauj lietotājiem kontrolēt un pielāgot MT sistēmas izpildlaikā.
Nesen apmeklēju šī gada mašīntulkošanas maratonu, lai paplašinātu savas zināšanas un saplūstu ar citiem pētniekiem un praktiķiem no akadēmiskajām aprindām un industrijas. Es tiešām tur izbaudīju savu laiku un man tas likās ļoti izdevīgi, tāpēc nolēmu dalīties pieredzē par šo pasākumu un dažiem pasniegtajiem darbiem.
MT maratons ir nedēļu ilgs pasākums, ko parasti rīko Kārļa universitāte Prāgā vai mana Alma matere, Edinburgas Universitāte. Taču šogad to rīkoja Liza Jankovska un Marks Fišels apburošajā Tartu pilsētā Igaunijā.
16. MT maratonā turpinājās tradīcija piedāvāt vispusīgu programmu ēdināšana visiem ekspertīzes līmeņiem. Tajā tika rīkotas “foundational MT” lekcijas un “Handon Labs” iesācējiem, kam sekoja pazīstamu pētnieku un praktiķu no akadēmiskajām aprindām un industrijas iesaistīšanās sarunās par atslēgvārdiem. Pieejami video un lekciju slaidi tiešsaiste.
Šī gada pasākumā bija daudz sarunu par MT kvalitātes novērtēšanu. Maja Popović no Dublinas pilsētas universitātes, Nuno Guerreiro no Unbabel un Samuel Läubli no Textshuttle sniedza prezentācijas par manuālu un automātisku novērtēšanu, kvalitātes novērtēšanu un problēmām, salīdzinot MT un cilvēka tulkošanas rādītājus. Tas atspoguļo vispārējās tendences nozaru konferencēs, kurās MT novērtējumā pēdējos gados vērojama pastiprināta interese. Tā kā neviens dabas valodas apstrādes (NLP) pasākums 2023. gadā nebūtu pilnīgs, ja nerunātu par lieliem paaudžu valodas modeļiem, Aleksandra bērza no Edinburgas Universitātes atbildēja uz jautājumu, vai tie aizstās tradicionālo MT.
MT maratons piedāvā arī vietu sadarbībai pašiniciētos pētniecības un programmatūras izstrādes projektos. Mani favorīti tomēr bija sarunas, kas prezentēja jaunas, nesen izstrādātie instrumenti, kas nākotnē ļaus veikt pētniecību un MT sistēmu ražošanu.
Viens no tiem, MAMUTS instrumentu komplektu, prezentēja Raúl Vackess un Timotejs Mickus no Jērga Tiedemana grupas Helsinku Universitātē. MAMUTS cēlies no Helsinku NLP grupas pētījumiem par MT modeļiem, kas tulkojas starp vairāk nekā divām valodām. Akronīms ir ievērojams daudzvalodu modulārs atklāts tulkojums @ Helsinki, un tā mērķis ir atrisināt problēmas, kas rodas no lielajiem modeļiem, kuri tiek apmācīti par lielu datu apjomu. MAMUTA autori ir paveikuši kolosālu darbu, īstenojot visas iedomājamās parametru koplietošanas garšas, atrisinot GPU piešķiršanu un saziņu starp tām, kā arī nodrošinot datu pārvaldības rīkus. Ņemiet vērā, ka ar visu tā funkcionalitāti arī instrumentu komplekts ir neticami sarežģīts. To rakstot, tam vēl nav ne miņas no dokumentācijas … tātad pagaidām MAMUTS varētu būt jēls, bet ceru, ka tas nobriedīs par noderīgu instrumentu daudzvalodu neironu MT, nevis kārtējā izmirušā ziloņkaula PĒTNIECĪBAI un ražošanai.
Vēl viens instruments, ko vērts izcelt, ir Opusu tīrītājs, ko demonstrē mans draugs un studiju biedrs, Nikolajs Bogoičevs no Edinburgas universitātes, un attīstījās kopā ar kolēģiem Graemu naglu un Dželmeru van der Lindi. Opuskopis ir mācību datu tīrītājs MT un valodas modeļiem. Atšķirībā no citiem datu tīrīšanas rīkiem OpusCleaner mērķis ir samazināt mācību līkni datu tīrīšanas apmācībai, nodrošinot grafisku lietotāja saskarni datu kopu lejupielādei, konfigurējot dažādus filtrus un sniedzot tūlītējas atsauksmes par to, kā šo filtru lietošana ietekmē jūsu datus. Tādējādi satriecošais uzdevums konfigurēt un pieķēdēt datu attīrīšanas darbplūsmas kļūst intuitīvs, un to var nodot valodas ekspertiem bez datorzinātnes pamatojuma. Vēl viena forša lieta OpusCleaner ir tā, ka to tā pati grupa var saķēdēt kopā ar citu rīku, Opustrainers, kas apstrādā datu plānošanu un paraugu ņemšanu, tādējādi samazinot darba slodzi un cilvēku kļūdu iespējamību MT modeļu apmācībā. Abi rīki ir labi dokumentēti, un tiem ir aktīva izstrādātāju kopiena savā GitHub.
Kopumā liels panākums bija 16. MT maratonam – bija visdažādākās lekcijas, kas aptvēra visu, sākot ar MT pamatiem un beidzot ar viedokļa gabaliem un praktiskiem ieteikumiem jaunām pieejām un instrumentiem. MT maratons piedāvāja arī telpu ideju apmaiņai ar kolēģiem no akadēmiskajām aprindām un industrijas. Galvenais, ka pasākums kalpoja kā platforma, lai popularizētu inkrementālo pētniecību, ko tik bieži ignorēja lielās akadēmiskās konferences, bet kas vienmēr bija tik svarīga nobriedušām, galalietotājiem domātām jomām, piemēram, MT.