AI, nevadink manęs#$ Kalba yra asmeniška.

Mes visi esame pripratę prie kalbų technologijų, padedančių mums kasdienėje veikloje, bet kaip tada, kai jos žlugsta? Šiame tinklaraščio straipsnyje mūsų vyriausiasis ai PAREIGŪNAS Mārcis Pinnis paaiškina, kaip plėtojame kalbos technologijas, kodėl jos kartais kovoja ir kodėl.

Bet pirmiausia... kas yra kalbos technologijos?

Kalbos technologija yra bet koks sprendimas, kuris analizuoja, kuria, keičia ar reaguoja į žmogaus tekstus ir kalbą. Jei turite išmanųjį telefoną arba kompiuterį, naudokite kalbos technologijas. Visuose moderniuose įtaisuose yra kalbos technologijų, kurios padeda greičiau pasiekti informaciją arba produktyviau dirbti. Pavyzdžiui, išmanieji telefonai turi kalbos technologijų galimybes atpažinti savo kalbą, atlikti dokumento arba žiniatinklio iešką, atlikti optinį simbolių atpažinimą (kitaip tariant, atpažinti tekstą skaitmeniniame vaizde) ir t. t.

Tildės kalbos technologijos

Kaip plėtojame kalbos technologijas? 

Pirma, mums reikia gaukite prieigą prie kalbos duomenų, kuriuos galime naudoti modeliams mokyti. Be duomenų mes negalime nieko sukurti. Paprastai tariant, kalbos duomenys gali būti bet koks dokumentas, kuriame yra tekstas, arba bet koks garso ar vaizdo failas, kuriame yra kalba. 

Kai turėsime savo kalbos duomenis, kitas žingsnis - mokyti modelius naudojantt. Šiuo metu dauguma kalbų technologijų kuriamos naudojant mašininį mokymąsi ir dirbtinius neuroninius tinklus. Pavyzdžiui, mūsų mašininio vertimo sistemos yra išmokyti nuo pat pradžių naudoti transformatorių kodavimo dekoderių modelius. Mūsų įvardytieji objektų atpažinimo, jausmų analizės ir ketinimų aptikimo modeliai mokomi tikslaus pagrindinių modelių pritaikymo konkrečioms tolesnėms užduotims. 

Ir galiausiai, diegiame modelius naudoti. Atsižvelgiant į kliento reikalavimus, modeliai gali būti diegiami vietinėje infrastruktūroje arba debesyje ir pasiekiami naudojant API, trečiosios šalies įrankių priedus arba vartotojo sąsajas. Pavyzdžiui, mūsų automatinio vertimo sistemos mūsų klientams prieinamos įvairiuose kompiuterizuotuose vertimo įrankiuose naudojant priedus, esančiuose translate.tilde.com  platforma, leidžianti vartotojams versti teksto fragmentus, dokumentus ir tinklalapius, ir suteikia paprastą internetinį kompiuterizuotą vertimo įrankį, kurį gali lengvai naudoti vertimų pramonės srityje Aren nedalyvaujantys žmonės; ją taip pat galima pasiekti naudojant API. 

Kalba nėra pastovi 

Šio proceso problema yra ta, kad apmokytas modelis jau tampa nebeaktualus, nes jis nemato jokių dabartinių ir būsimų duomenų. Visi, kurie naudojo ChatGPT, tikriausiai susidūrsu atsakomybės ribojimu, kad apie duomenis žino tik iki 2021 m. (arba naujausiuose modeliuose iki 2023 m. balandžio mėn.). Naudojant dabartinę kalbą modelis nėra atnaujintas. 

pasenusių kalbos duomenų pavyzdys

Kadangi kalbos duomenys yra vienas svarbiausių veiksnių kuriant kalbos technologijas, jie taip pat kaltinami dėl daugelio klaidų, kurias rodo mūsų modeliai. Todėl labai svarbu, kad kurdami kalbos technologijas turėtume pakankamai duomenų, duomenys būtų švarūs, dabartiniai ir tinkamoje srityje. 

Tai labai sunku pasiekti, nors mūsų vartojami kalbos duomenys dažnai yra pasenę. Tad kaip kalbos duomenys gali pasenti? Pažiūrėkime keletą pavyzdžių. 

#1 visuomenės dėmesio centras yra kintantis veiksnys 

Čia matote pavyzdį, kaip laikui bėgant keičiasi dviejų žodžių vartojimas Latvijos naujienose. 

pasenusių kalbos duomenų pavyzdys-2

Tai rodo, kad visuomenės dėmesys laikui bėgant keičiasi, o tai reiškia, kad temos, kurias mūsų kalbos technologijos turi palaikyti ir spręsti, taip pat turi keistis. Vakar tai buvo COVID-19, šiandien tai karas Ukrainoje. Rytoj bus dar viena nežinoma tema. Jei išlaikysime technologijas statiškas, jos labai greitai pasens. 

#2 kalba praturtėja 

Kalba taip pat keičiasi, nes žmonės dažnai kalba pristato naujas sąvokas. Pavyzdžiui, Latvijos mokslų akademijos terminologijos Komisija reguliariai įveda naują terminologiją.

kalbos-2 keitimo pavyzdys

Kalbos technologijų sistemos niekada nebus matę jų duomenyse. Jokia vertimo sistema negalės su jais susidoroti, kol technologijų kūrėjai nesurinks duomenų ir iš naujo neparengs modelių arba bent jau netaikys tam tikrų prisitaikymo prie prastovos metodų. 

#3 kalba nuolat keičiasi 

Žmonės taip pat keičia esamas sąvokas. Pavyzdžiui, kaip parodyta toliau pateiktame pavyzdyje, keičiant esamų terminų vertimus.

kalbos keitimo 3 pavyzdys

Jei vertimo sistemos duomenyse yra šių terminų su ankstesniais vertimais, visus duomenis reikia redaguoti, kad jie būtų nuolat atnaujinami. 

#4 Naujos visuomenės sąvokos 

Laikui bėgant pati visuomenė keičiasi ir dėl to atsiranda kitų kalbos vartojimo skirtumų. Pavyzdžiui, vienas pastebimas pokytis, dėl kurio kalbos technologijų kūrėjams kyla sunkumų, yra lyčių požiūriu neutralios kalbos įvedimas. Šie pakeitimai pamažu įvedami vis daugiau kalbų. Tačiau duomenys, kuriais mes pasikliaujame, jų neatspindi. Dėl šio ypatingo reiškinio mes arba įvedame taisykles savo sistemose, arba generuojame sintetinius duomenis. 

#5 pasauliniai renginiai 

Dėl visuomenei poveikį darančių įvykių taip pat gali reikėti keisti kalbos vartojimą. Pavyzdžiui, Rusijos karas Ukrainoje paskatino Latvijos valstybinį kalbų centrą nuspręsti, kad 31 Ukrainos miestas ir miestų pavadinimai latvių kalba bus išversti pagal pradinę redakciją ukrainiečių (o ne rusų) kalba.

kalbos keitimo 4 pavyzdys

Kad tai išspręstume, Tilde turėjome arba redaguoti visus savo duomenis, arba naudoti pritaikomus metodus, leidžiančius tobulinti atskirų žodžių ar frazių vertimus. 

#6 kalba natūraliai dviprasmiška ir retai vartojama 

Net jei kalbos technologijos kūrėjas neatsilieka nuo pokyčių tempo, jis niekada negalės uždengti visų leksikų šia kalba. Tiesiog yra per daug vardų, vietų, organizacijų ir nišinių temų terminų, kad būtų galima viską aprėpti. Vienas iš pavyzdžių - Baltijos vienybės diena, kurią neseniai prisiminė Latvija ir Lietuva. Užsienio reikalų ministras pasveikino kolegą iš Lietuvos ir pastebėjo, kad vertimas į anglų kalbą nėra visiškai tikslus, nes „Baltijos vienybė“ verčiama į „baltąją vienybę“.

nesėkmingos kalbos techologijos pavyzdys

Kodėl taip atsitiko? Pats žodis „Baltu“ gali būti dviprasmiškas (jis gali reikšti „balta“ arba „balta“). O jeigu vertimo sistemos duomenyse nėra frazės „Baltijos vienybė“, iš kur sistema gali žinoti, kad toks dalykas egzistuoja? Taip atsitiko – duomenys neatspindėjo šio įvykio. 

#7 kalbos duomenys dažnai yra orientuoti į anglų kalbą 

Į anglų kalbą orientuotas duomenų pobūdis gali sukelti problemų. Dauguma prieinamų duomenų buvo sukurti verčiant turinį iš anglų kalbos į kitas kalbas ir juo labiau kitomis kryptimis. Tai reiškia, kad į sistemą, kurioje mokoma tokių duomenų, niekada nebus įtrauktas atsitiktinis asmuo iš kažkur už JAV ar Jungtinės KARALYSTĖS ribų. Ir jei tas žmogus yra tu (arba bet kuris iš mūsų), jis tampa visiškai asmeniškas. AI tampa asmeniška! 

netinkamos kalbos techologijos-2 pavyzdys

Pavyzdžiui, aš taip pat esu „atsitiktinis žmogus“, ir jei išversiu ką nors su savo vardu naudodamas „Google“ vertimą, galiu tikėtis, kad mano vardas bus neteisingai supainiotas ir tvarkomas nenuosekliai. Tačiau šį klausimą galima išspręsti kuriant sistemas, kurios galėtų tvarkyti vietinius įvardytus subjektus. 

Kaip mes, kūrėjai, neatsiliekame nuo kalbos pokyčių? 

Visų pirma, mes niekada nenustojame rinkti duomenų. Kai nustosi, jau būsi pasenęs. Taip pat bandome nuosekliai pristatyti savo modelius, įskaitant klientus, užsisakančius pasirinktines sistemas (rekomenduojame perkvalifikuoti sistemas bent du kartus per metus).  

Tada, mes atliekame daug tyrimų, susijusių su reaguojančiais ir prisitaikančiais metodais, kurie leidžia lengvai pritaikyti sistemas vykdymo metu, neperkvalifikuojant modelių. Pavyzdžiui, mūsų MT sistemose galite pridėti savo terminologiją ir įvardytus objektus. O mūsų ASR sistemose galite pridėti savo žodyną. 

Ir ką tu gali padaryti? 

Jei esate kalbos technologijos vartotojas, galite daug nuveikti, kad pagerintumėte sistemas savo naudai, t. y. bendrinti kalbos duomenis. Tačiau norint tai padaryti, organizacijoje turi būti įdiegti geri duomenų tvarkymo procesai. Jei jums sunku tvarkyti kalbos duomenis, pasitarkite su mumis dėl geriausios praktikos. Taip pat apsvarstykite galimybę atvirai bendrinti duomenis, jei norite pasinaudoti geresnėmis nemokamomis nišinių domenų paslaugomis. Norėdami bendrinti duomenis, naudokite nemokamas viešas dalijimosi duomenimis paslaugas, pvz., ELRC DALIJIMĄSI arba Europos kalbų tinklelį. 

Taigi, kad užbaigtume, mes visi naudojame kalbos technologijas. Jie leidžia mums būti produktyvesniems, pasiekti daugiau informacijos ir pasiekti platesnę auditoriją. Kalbos technologijos niekada nebus 100% tikslios, nes kalbos yra sudėtingos ir nuolat kintančios. Tačiau jei sistemas plėtojame taip, kad tikimės nuolatinių pokyčių, galime veiksmingai sušvelninti klaidas ir galbūt padaryti savo klientus šiek tiek laimingesnius.