Teadlase ülevaade 16. MT maratonist: masintõlke trendid ja uued vahendid, millel silma peal hoida

Mina olen Toms Bergmanis, masintõlke (MT) uurija ja praktik Tildes. Minu igapäevane töö hõlmab suurte rahvusvaheliste organisatsioonide jaoks kohandatud MT-süsteemide loomist ning uudsete lahenduste väljatöötamist, mis võimaldavad kasutajatel kontrollida ja kohandada MT-süsteeme käitusajal.

Käisin hiljuti tänavusel masintõlkemaratonil, et laiendada oma teadmisi ja seguneda teiste teadlaste ja praktikutega akadeemiast ja tööstusest. Nautisin seal tõesti oma aega ja leidsin, et see on väga kasulik, seega otsustasin jagada oma kogemust üritusest ja osa esitatud tööst.  

MT maraton on nädalapikkune üritus, mida tavaliselt korraldab Charles University Prahas või minu Alma Matter, Edinburghi Ülikool. Tänavu korraldasid selle aga Lisa Jankovskaja ja Mark Fishel võluvas Tartu linnas Eestis. 

16. MT maratonil jätkus traditsioon pakkuda kõikehõlmavat programmi toitlustus kõigile erialadele. Seal olid esindatud asutusesisesed MT loengud ja praktikalaborid algajatele, millele järgnesid olulisemad kõnelused tunnustatud teadlaste ja praktikute poolt akadeemilistest ringkondadest ja tööstusest. Saadaval on videod ja loenguslaidid võrgus.  

Tänavusel üritusel oli palju kõnelusi MT kvaliteedi hindamise teemal. Maja Popović Dublini linnaülikoolist, Nuno Guerreiro Unbabel ja Samuel Läubli Textshuttle esinesid ettekannetega manuaalsest ja automaatsest hindamisest, kvaliteedi hindamisest ning väljakutsetest, mis võrdlevad MT ja inimtõlke jõudlust. See kajastab üldisi suundumusi tööstuskonverentsidel, kus MALTA hindamine on viimastel aastatel suurendanud huvi. Kuna ükski loodusliku keele töötlemise (NLP) sündmus 2023. aastal ei oleks ilma suurte generatiivsete keelemudelite jututa täielik, vastas Alexandra Kask Edinburghi ülikoolist küsimusele, kas need asendavad traditsioonilist MT-d.  

Tilde meeskond mt maratonil

MT maraton pakub koostööruumi ka enda poolt välja pakutud teadus - ja tarkvaraarendusprojektide osas. Minu lemmikud olid aga kõnelused, kus esitleti uusi, hiljuti välja töötatud vahendid, mis võimaldavad tulevasi teadusuuringuid ja MALTA süsteemide tootmist.   

Üks neist, MAMMUT tööriistakomplekt, esitas Raúl Vázquez ja Timothee Mickus Jörg Tiedemanni rühmast Helsingi Ülikoolis. MAMMUT tuleneb Helsingi NLP grupi uuringust mt mudelite KOHTA, mis tõlgivad enam kui kahe keele vahel. Akronüüm tähistab massiliselt mitmekeelset avatud moodultõlget @ Helsingi ja selle eesmärk on lahendada väljakutseid, mis tulenevad suurtest mudelitest, mida koolitatakse tohututes andmehulkades. MAMMUTI autorid on teinud kolossaalset tööd, rakendades kõiki parameetrite jagamise kujuteldavaid maitseid, lahendades GPU eraldamise ja nendevahelise suhtluse ning pakkudes andmehaldusvahendeid. Pange tähele, et kogu selle funktsionaalsuse juures on ka tööriistakomplekt uskumatult keeruline. Selle kirjutamise ajal ei ole tal veel dokumentidest märkigi … nii et praegu võib MAMMUT olla toores, kuid ma loodan, et sellest saab kasulik vahend mitmekeelse närvilise MT uurimiseks ja tootmiseks, mitte järjekordne väljasurnud elephantid.  

Veel üks esiletõstmist vääriv tööriist on Opuscleaner, mida näitasid mu sõber ja õpingukaaslane, Nikolay Bogoõtšov Edinburghi ülikoolist ning arenes koos kolleegide Graeme Naili ja Jelmer van der lindega. Opuscleaner on MT ja keelemudelite treeningandmete puhastaja. Erinevalt teistest andmepuhastusvahenditest on OpusCleaner eesmärk vähendada õppekõverat andmete puhastamise koolitamisel, pakkudes graafilist kasutajaliidest andmekogude allalaadimiseks, erinevate filtrite konfigureerimiseks ja andes kohest tagasisidet selle kohta, kuidas nende filtrite rakendamine teie andmeid mõjutab. Nii muutub andmepuhastustöövoogude konfigureerimise ja aheldamise hirmutav ülesanne intuitiivseks ning selle saab anda üle keeleekspertidele, ilma et nad vajaksid arvutiteaduse tausta. Teine lahe asi OpusCleaner juures on see, et seda saab sama grupi poolt teise tööriistaga kokku aheldada, Opustreenija, mis tegeleb andmete planeerimise ja proovide võtmisega, vähendades seega töökoormust ja inimvigade VÕIMALUST mt mudelikoolitusel. Mõlemad tööriistad on hästi dokumenteeritud ja nende GitHubis on aktiivne arendajate kogukond. 

Kokkuvõttes oli 16. MT maraton väga edukas – seal oli väga erinevaid loenguid, mis hõlmasid kõike alates MT alustaladest kuni arvamustükkideni ning praktilisi soovitusi uudsete lähenemiste ja vahendite kohta. MT maraton pakkus ka ruumi mõttevahetuseks kolleegidega akadeemilistest ringkondadest ja tööstusest. Eelkõige oli üritus platvormiks täiendavate teadusuuringute populariseerimiseks, mille suured akadeemilised konverentsid nii sageli kahe silma vahele jätsid, kuid mis on alati nii oluline küpsete, lõppkasutajate jaoks suunatud valdkondade jaoks nagu MT. 

Artikli autoriks on Toms Bergmanis