Norit ERAF projekta “Lielapjoma statistisko modeļu optimizācijas metodes inovatīvām mašīntulkošanas tehnoloģijām” īstenošana |
SIA „TILDE” un sadarbības partneris Latvijas Universitātes īsteno ERAF projektu „Lielapjoma statistisko modeļu optimizācijas metodes inovatīvām mašīntulkošanas tehnoloģijām” (id.nr. 2DP/2.1.1.1/13/APIA/VIAA/029). |
Projekts sekmīgi noslēdzies. Statuss uz 2015. gada 31. augustu:
Sabiedrība “Tilde” sadarbībā ar Latvijas Universitāti (LU) ir sekmīgi realizējusi projektu “Lielapjoma statistisko modeļu optimizācijas metodes inovatīvām mašīntulkošanas tehnoloģijām”.
Mūsdienu mašīntulkošanas (MT) risinājumos plaši tiek izmantoti lieli tekstu apjomi, kurus apstrādājot mašīntulkošanas sistēmas “iemācās” tulkot. Gan pētījumi, gan prakse rāda, ka teksta apjomam ir būtiska loma mašīntulkošanas kvalitātes sasniegšanā – jo apjomīgāki un precīzāk izvēlēti teksti tiek izmantoti apmācībai, jo augstāka ir iegūtās MT sistēmas kvalitāte. Diemžēl, pieaugot izmantoto datu apjomam, eksponenciāli pieaug MT sistēmu tehniskā un algoritmiskā sarežģītība. Tas nozīmē, ka, sasniedzot noteiktu datu apjomu, statistisko modeļu aprēķināšanai nepietiek pat ar jaudīgākajiem datoriem, jo ir nepieciešami ļoti lieli skaitļošanas resursi un aprēķini aizņem pārāk ilgu laiku.
Tāpēc “Tilde” sadarbībā ar LU izstrādāja inovatīvas metodes un algoritmus, kas efektīvi apstrādā liela apjoma datus un nodrošina būtisku ātrdarbības un tulkošanas kvalitātes uzlabojumu, salīdzinot ar esošajiem risinājumiem. Izstrādātās metodes un rīki samazina statistiskās mašīntulkošanas izveides un uzturēšanas izmaksas, veicina konkurētspēju tirgū, kurā darbojas globāli uzņēmumi, kas izmanto resursietilpīgas mašīntulkošanas metodes, un paplašina konkrētās ITK tautsaimniecības nozares produktu klāstu un to kvalitāti.
Projektā atrasti inovatīvi risinājumi, kas, nezaudējot tulkojuma kvalitāti, ļauj samazināt MT sistēmas apmācībai nepieciešamo laiku pat par 70% un būtiski (līdz 2/3) samazina apmācībai nepieciešamo datu apjomu. Projektā veikta metožu novērtēšana 20 valodu pāriem trīs nozarēs (informācijas tehnoloģijā, farmācijā un tiesību zinātnē). Projektā izstrādātās tehnoloģijas ļauj izveidot tulkošanas sistēmas, kas sniedz labākus rezultātus kā Google Translate.
Izstrādātie algoritmi un metodes ir izmantotas mašīntulkošanas sistēmas prototipa izveidē. Projekta rezultātus “Tilde” plāno ieviest produkcijā tuvākajā nākotnē.
Pētniecības rezultāti ir apkopoti četrās starptautisko konferenču anonīmi recenzētās publikācijās.
Projekts īstenots no 2014. gada 2. janvāra līdz 2015. gada 31. augustam ar Eiropas Reģionālās attīstības fonda finansiālu atbalstu (Līgumam ar ERAF projekta īstenošanu nr. 2013/0038/2DP/2.1.1.1.0/13/APIA/VIAA/029).
Statuss uz 2015. gada 31. martu:
Projekta īstenošanas 5. ceturksnī (no š.g. 1. janvāra līdz 31. martam) turpināts aktīvs pētnieciskais darbs iesāktajās aktivitātēs, kā arī uzsākta jauna aktivitāte, kuras ietvaros tiek izstrādāts prototips (rīkkopa), kas ietvers programmatūras moduļus efektīvai liela apjoma statistisko modeļu trenēšanai, un to parametru optimizēšanai. Sīkāk par veiktajiem darbiem:
I. Aktivitātes nr.1 ietvaros turpināti pētījumi, meklējot jaunas metodes statistisko modeļu parametru optimizēšanai, īpaši pievēršot uzmanību (1) tulkošanas un valodas modeļu izmēru optimizācijai, filtrējot no tiem zemas uzticamības datus, (2) efektīvām metodēm netulkojamu vienumu marķēšanai un pareizai apstrādei lielos valodas datos, (3) efektīvām metodēm lielo/mazo burtu lietojuma modelēšanai, (4) efektīvai liela apjoma valodas datu apmaiņai ar valodas resursu krātuvi, un (5) mašīntulkošanas risinājumu kvalitātes analīzes rīkiem. Aktivitātes ietvaros veikto korpusu kvalitātes novērtēšanas un tīrīšanas pētījuma rezultāti apkopoti publikācijā. Aktivitāti īsteno projekta sadarbības partneris Latvijas Universitāte, projekta vadošā pētnieka, Dr.habil.dat. Jura Borzova vadībā;
II. Aktivitātes nr.2 ietvaros tika pētītas metodes statistisko modeļu paralēlai aprēķināšanai, izmantojot GPGPU (general-purpose computing on graphics processing units), īpaši pievēršot uzmanību datu kārtošanas, filtrēšanas un meklēšanas komponentiem, kurus var būtiski uzlabot, ieviešot jaunāko pētījumu rezultātus un GPGPU paralēlās skaitļošanas metodes.
III. Aktivitātes nr.3 ietvaros analizēta valodspecifisko SMT metožu lietojamība plašam valodu lokam. Pārskata periodā izveidota eksperimentu infrastruktūra paralēlai transformāciju automatizētai pārbaudei, veikta dažādu faktoru transformāciju ietekmes uz MT kvalitāti analīze un faktormodeļu ietekmes analīze. Aktivitātē veikta risinājuma vispārināmības analīze un izstrādāti uzlaboti faktormodeļi, kā arī īstenota dažādu MT sistēmu un to valodspecifisko modeļu vērtēšana pēcrediģēšanas (post-editing) scenārijā;
IV. Aktivitātes nr.4 ietvaros turpināta testēšanai nepieciešamo testa datu sagatavošana, t.sk., statistisko modeļu trenēšanai nepieciešamo valodas korpusu izveide, MT sistēmu pielāgošanas un testēšanas korpusu izveide visiem aktivitātē nr.3 apskatītajiem valodu pāriem. Pārskata periodā veikta rūpniecisko pētījumu ietvaros izstrādāto rīku testēšana (gan funkcionalitātes, gan ātrdarbības, gan kvalitātes), definēto testēšanas uzdevumu (valodas modeļu aprēķināšana, MT sistēmu trenēšana u.tml.) darbināšana ārējā testēšanas infrastruktūrā un rezultātu dokumentēšana;
V. Uzsāktās aktivitātes nr.5 ietvaros iepriekšējo pētniecisko aktivitāšu rezultāti tiek pārbaudīti praksē, tiek veidota rīkkopa MT statistisko modeļu aprēķināšanai un optimizēšanai, kas ļaus praksē pārbaudīt izpētītās metodes. Pārskata periodā veikta prototipa prasību apzināšana, arhitektūras izveide, rūpniecisko pētījumu rezultātā pabeigto rīku apzināšana un analīze, to iekļaušanas prototipā plānošana un citi pētnieciskie darbi.
Projekta īstenošanas vieta – Vienības gatve 75a, Rīga, Latvija un Raiņa bulvāris 19, Rīga, Latvija, LV-1586.
Projekts pilnībā tiks īstenots līdz 2015. gada 31. augustam.
2013. gada 13. decembrī starp Valsts izglītības attīstības aģentūru un SIA TILDI kā finansējuma saņēmēju tika noslēgts Līgums par ERAF projekta īstenošanu nr. 2013/0038/2DP/2.1.1.1.0/13/APIA/VIAA/029. Projekta kopējās attiecināmās faktoru izmaksas apstiprinātas EUR 616’325 apjomā un tās plānots finansēt ar ERAF finansējumu EUR 384’894 apmērā, kas sastāda 62,45% no projekta kopējām attiecināmajām izmaksām un ar privāto finansējumu EUR 231’431 apmērā jeb 37,55% no projekta kopējām attiecināmajām izmaksām.
Statuss uz 2014. gada 31. decembri:
Noslēdzies pirmais projekta īstenošanas gads. Projekta īstenošanas 4. ceturksnī (no š.g. 1. oktobra līdz 31. decembrim):
I. aktivitātes nr. 1 ietvaros veikti pētījumi, meklējot jaunas metodes statistisko modeļu parametru optimizēšanai, īpaši pievēršot uzmanību (1) tulkošanas modeļu izmēru optimizācijai, filtrējot no tiem zemas uzticamības datus, (2) efektīvām metodēm netulkojamu vienumu (skaitļi, datumi, tīmekļa adreses u.tml.) marķēšanai lielos valodas datos, (3) efektīvām metodēm lielo/mazo burtu lietojuma modelēšanai, (4) efektīvai liela apjoma valodas datu apmaiņai ar valodas resursu krātuvi, un (5) mašīntulkošanas risinājumu kvalitātes analīzes rīkiem. Aktivitāti īsteno projekta sadarbības partneris Latvijas Universitāte;
II. aktivitātes nr. 2 ietvaros turpināts pētīt metodes statistisko modeļu paralēlai aprēķināšanai, īpaši pievēršot uzmanību vārdu sastatīšanas procesu veiktspējas novērtēšanai un lēnākajiem algoritmiem, kurus var būtiski uzlabot, ieviešot jaunāko pētījumu rezultātus un paralēlās skaitļošanas metodes.
III. aktivitātes nr. 3 ietvaros analizēta valodspecifisko SMT metožu lietojamība plašam valodu lokam. Turpināts analizēt vārdu sastatījuma metožu ietekmi uz kopējo mašīntulkošanas kvalitāti. Pētīti vārdus raksturojošās morfoloģiskās informācijas iekļaušanas scenāriji un veidi statistiskajos valodas modeļos. Turpināta šo modeļu aprēķināšana un to kvalitātes novērtēšana. Veikta paša apjoma valodu (20 valodas) un nozarei specifisku (3 nozares) MT sistēmu trenēšana un vērtēšana ar automātiskajām novērtēšanas metodēm (BLEU, NIST, METEOR un TER).
IV. aktivitātes nr. 4 ietvaros – turpināta testēšanai nepieciešamo testa datu sagatavošana, t.sk., statistisko modeļu trenēšanai nepieciešamo valodas korpusu izveide, MT sistēmu pielāgošanas un testēšanas korpusu izveide visiem aktivitātē A3 apskatītajiem valodu pāriem. Uzsākta, rūpniecisko pētījumu ietvaros izstrādāto rīku testēšana (gan funkcionalitātes, gan ātrdarbības, gan kvalitātes), definēto testēšanas uzdevumu (valodas modeļu aprēķināšana, MT sistēmu trenēšana u.tml.) darbināšana ārējā testēšanas infrastruktūrā un rezultātu dokumentēšana.
Projekta īstenošanas 4.ceturksnī pētniecības darbos iesaistīta 23 pētnieku liela komanda.
Statuss uz 2014. gada 30. septembri:
Projekta īstenošanas 3. ceturksnī (no š.g. 1. jūlija līdz 30.septembrim):
I. aktivitātes nr. 1 ietvaros pētītas metodes statistisko modeļu parametru optimizēšanai, īpaši pievēršot uzmanību (1) tulkošanas modeļu izmēru optimizācijai, filtrējot no tiem zemas uzticamības datus (šis pētījums tika uzsākts iepriekšējā ceturksnī), (2) efektīvām metodēm lielu valodas datu transformācijai un (3) novērtēšanas metodēm, kas ļauj novērtēt lielu statistisko modeļu parametru ietekmi uz mašīntulkošanas (MT) kvalitāti;
II. aktivitātes nr. 2 ietvaros turpināts pētīt metodes statistisko modeļu paralēlai aprēķināšanai, šoreiz īpaši pievēršot uzmanību kopējai aprēķinu procesu veiktspējas novērtēšanai un lēnākajiem algoritmiem, kurus var būtiski uzlabot galīgo automātu metodes un paralēlās skaitļošanas metodes;
III. aktivitātes nr. 3 ietvaros analizēta valodspecifisko SMT (statistiskā mašīntulkošana) metožu lietojamība plašam valodu lokam;
IV. aktivitātes nr. 4 ietvaros noslēgts līgums ar nepieciešamās testēšanas infrastruktūras ārpakalpojuma sniedzēju un turpināti sagatavošanās darbi statistisko modeļu aprēķināšanas veiktspējas testēšanas uzsākšanai.
Statuss uz 2014. gada 30. jūniju:
Projekta īstenošanas 2. ceturksnī (no š.g. 1. aprīļa līdz 30. jūnijam):
I. pētītas metodes lielu statistisko modeļu parametru optimizēšanai, īpaši pievēršot uzmanību tulkošanas modeļu optimizācijas metodēm, kas ļauj filtrējot no tiem zemas uzticamības datus (aktivitātes nr. 1 ietvaros);
II. turpināts pētīt paralēlās skaitļošanas metodes statistisko modeļu aprēķināšanai, īpaši pievēršot uzmanību kopējai aprēķinu procesu veiktspējai un procesiem, kurus var sadalīt vairākās daļās (aktivitātes nr. 2 ietvaros);
III. turpināta valodai specifisku statistisko modeļu piemērotības analīze plašam valodu lokam (aktivitātes nr. 3 ietvaros);
IV. uzsākti sagatavošanās darbi statistisko modeļu aprēķināšanas veiktspējas testēšanai (aktivitātes nr. 4 ietvaros).
Statuss uz 2014. gada 31. martu:
Projekta īstenošanas 1. ceturksnī (no š.g. 2. janvāra līdz 31. martam) galvenokārt pētītas:
I. metodes statistisko modeļu parametru optimizēšanai, īpaši pievēršot uzmanību tulkošanas modeļa izveides procesu parametru optimizācijai;
II. metodes statistisko modeļu paralēlai aprēķināšanai, īpaši pievēršot uzmanību kopējai aprēķinu procesu veiktspējas novērtēšanai un procesiem, kurus var sadalīt vairākās daļās un statistikas aprēķināt neatkarīgi katrai daļai.
2013. gada 13. decembrī starp Valsts izglītības attīstības aģentūru un SIA TILDI kā finansējuma saņēmēju tika noslēgts Līgums par ERAF projekta īstenošanu nr. 2013/0038/2DP/2.1.1.1.0/13/APIA/VIAA/029.
Projekta īstenošanas vieta – Vienības gatve 75a, Rīga, Latvija un Raiņa bulvāris 19, Rīga, Latvija, LV-1586.
Projekts tiks īstenots līdz 2015. gada 31. augustam.
Projekta kopējās attiecināmās izmaksas apstiprinātas EUR 616’325 apjomā un tās plānots finansēt ar ERAF finansējumu EUR 384’894 apmērā, kas sastāda 62,45% no projekta kopējām attiecināmajām izmaksām un ar privāto finansējumu EUR 231’431 apmērā jeb 37,55% no projekta kopējām attiecināmajām izmaksām.
PROEJKTU LĪDZFINANSĒ EIROPAS REĢIONĀLĀS ATTĪSTĪBAS FONDS.