Kiireim masintõlkeraamistik Marian uhkustab uute ja muljetavaldavate omadustega
Tiim Tilde 9. aprill 2024Edinburghi ülikooli Tilde ja Unbabel akadeemilised ringkonnad, teadus - ja tööstuseksperdid on parandanud väga populaarset automatiseeritud neurotõlke tööriistakomplekti Marian. Nüüd saavad kõik nautida tõlkemälude kohapealset kohandamist domeeniga, terminoloogia integreerimist mt JAOKS ja GPU tõhustamist. Need uued funktsioonid vähendavad lõppkasutajate kulusid ja toimetamisjärgseid jõupingutusi ning suurendavad tõlketäpsust.
Esmakordselt 2017. aastal kasutusele võetud Marian on seni kiireim närvimasintõlke raamistik, mida laialdaselt kasutatakse erinevates akadeemilistes, kaubandus - ja valitsusorganisatsioonides üle maailma, sealhulgas maailma intellektuaalomandi organisatsioonis, Euroopa Komisjonis, USA õhuväes, eBays ja Microsoftis. Tänu uutele tööriistakomplekti funktsioonidele ja GPU tõhususele on see masintõlkevahend senisest veelgi kiirem ja tõhusam.
Mariani täiustatud tööriistakomplekt – kulude märkimisväärne vähendamine
Närviliste MT mudelite hind tõstab oluliselt väga kalli riistvara tõttu automatiseeritud tõlgete hinda. Selle tööriistakomplekti suurem arvutustõhusus saavutati koodide optimeerimisega ja tiheda koostööga NVIDIA-GA ning see vähendab märkimisväärselt kulusid ja muudab selle keeleteenuse pakkujatele kättesaadavamaks.
Täiustatud Mariani tööriistakomplekt – kasutaja määratletud tegurid
Loa metaandmete kodeerimiseks lausesse täiendavate sõnavara ja manustamise abil saab kasutada erinevaid tegureid, selle asemel et vajaliku teabe saamiseks toetuda õpitud sõna - või alamsõna manustamise esitistele. Nendel teguritel on hulgaliselt rakendusi, näiteks terminoloogia integreerimine või suurtähestamise, alamsõnade tükeldamise ja morfoloogia teave. Nende teguritega mudeleid toetab nüüd täielikult allika ja sihtmärgi Marian tööriistakomplekt ning need sisaldavad ka kasutusjuhendit ja muud dokumentatsiooni.
Domeeni kohandamise tehnoloogia – vähem redigeerimisjärgseid jõupingutusi
Kuigi kohandatud ARVUTIPÕHISED süsteemid on olnud suurte ettevõtete ja tõlkebüroode seas populaarsed JUBA üsna pikka aega, ei ole need sageli teostatavad üksikute tõlkijate või väiksemate ettevõtete jaoks. Lisaks puuduvad domeenispetsiifilised andmed vähemarenenud keelte ja nišidomeenide kohta, et koolitada kohandatud mootoreid. Kohapealne domeeni kohandamine lahendab selle probleemi, kõrvaldades kvaliteedilõhe üldiste ja kohandatud MT-süsteemide vahel. Kohanduv masintõlkemootor õpib vahetult inimlikest järeltoimetustest, et pakkuda täpsemaid ning domeen - ja projektikohaseid tõlkeid, kui jätkate tööd lause ülejäänud osaga. Iteratiivsel õppimisel inimese tagasisidest on demonstreeritud võime oluliselt vähendada masintõlgitud tekstide toimetamisjärgset pingutust.
Terminoloogia integreerimine – palju parem tõlketäpsus
TSee projekt on andnud ka teise panuse: dünaamilise terminoloogia integratsioon praegustele MT süsteemidele, mis on olnud kuum teema juba päris pikka aega. Kuigi terminoloogiline integratsioon on eksisteerinud juba üle kümne aasta, ei toetanud seda kuni viimase ajani viimased neuromagnetilise KIIRGUSE tehnoloogiad. See funktsioon parandab tõlkekvaliteeti, integreerides kakskeelsed terminisõnastikud (sõnastikud), mis annavad teavet selle kohta, kuidas konkreetseid sõnu ja fraase mistahes MT süsteemi tõlkida.
Morfoloogiliselt rikkalike Põhja-Euroopa (Skandinaavia ja Balti) keeltega tehtud katsed näitavad, et terminoloogia integratsioon parandab oluliselt MT kvaliteeti tehnilistes valdkondades. Professionaalsete tõlkijate korraldatud inimhindamiskampaania näitas, et tehniliste valdkondade üldiste MT-mootorite absoluutse tõlke täpsus paranes märkimisväärselt 29% võrra. Need katsed viidi läbi morfoloogiliselt rikaste Põhja-Euroopa keeltega, kus uus süsteem suudab korrektselt läbipainduda ka sõnastikuterminitega.
Uued funktsioonid on juba kättesaadavad Marian raamistiku uusimates väljaannetes ja ärilahendustes, mis tuginevad sellele, et neid saaksid kasutada mitmesugused lõppkasutajad ja keeleteenuse pakkujad. Tilde MT on oma teenustesse (Tilde MT dünaamiline õpe) juba inkorporeerinud kohapealse domeeni kohandamise, andes tõlkijatele adaptiivse mootori, mis suudab kohaneda erinevate domeenide, projektide ja klientidega. Viimased terminoloogiatäiustused sisalduvad ka Tilde MT-s ja on saadaval tasuta prooviversioonina.
Projekti „Kasutajakeskne Marian” kaasrahastab Euroopa Liidu ühendamise rahastu, et parandada praegust Marian tööriistakomplekti. Toetusleping Euroopa ühendamise rahastu (CEF) raames – telekommunikatsioonisektori leping INEA/CEF/ECT/A2019/1927024 puudub