Kuid esiteks, millised on keeletehnoloogiad?
Keeletehnoloogia on igasugune lahendus, mis analüüsib, toodab, muudab või reageerib inimtekstidele ja kõnele. Kui sul on nutitelefon või arvuti, siis kasutad keeletehnoloogiaid. Kõigil meie moodsatel vidinatel on keeletehnoloogiad, mis aitavad meil teabele kiiremini juurde pääseda või viljakamad olla. Näiteks nutitelefonidel on keeletehnoloogilised võimalused kõne äratundmine, sooritada dokumendi - või veebiotsingut, sooritada optilist märgituvastust (ehk teisisõnu – tuvastada digitaalpildis olev tekst) jne.
Kuidas arendada keeletehnoloogiaid?
Esiteks, me peame juurdepääs keeleandmetele, mida saame kasutada mudelite treenimiseks. Ilma andmeteta ei saa me midagi arendada. Lihtsamalt öeldes võivad keeleandmed olla kõik teksti sisaldavad dokumendid või mis tahes heli - või videofailid, mis sisaldavad kõnet.
Kui meil on keeleandmed olemas, järgmine samm on mudelite treenimine i abilt. Tänapäeval arendatakse enamikku keeletehnoloogiaid masinõppe ja tehisnärvivõrkude abil. Näiteks meie masintõlkesüsteemid treenitakse trafopõhiste kodeerija-dekooderimudelite abil nullist. Meie nimelisi olemituvastus -, meelsusanalüüsi - ja kavatsustuvastusmudeleid koolitatakse kindlate alltööülesannete vundamendimudelite peenhäälestuse abil.
Ja lõpuks, juurutame kasutamiseks mudeleid. Sõltuvalt kliendi vajadustest saab mudeleid juurutada kohalikus infrastruktuuris või pilves ning muuta need juurdepääsetavaks api-de, muude tootjate tööriistade pluginate või kohandatud kasutajaliideste kaudu. Näiteks meie masintõlkesüsteemid on meie klientidele saadaval erinevates arvutipõhistes tõlketööriistades, kasutades pluginaid, translate.tilde.com platvorm, mis võimaldab kasutajatel tõlkida tekstilõike, dokumente ja veebilehti ning pakub lihtsat arvutipõhist tõlkevahendit, mida saavad hõlpsasti kasutada inimesed, kes ei osale tõlketööstuses; sellele pääseb juurde ka API kaudu.
Keel pole konstantne
Probleem, mis selle protsessiga tekib, on see, et kui mudel on välja õpetatud, hakkab see juba vananema, sest ei ole näinud ühtegi jooksvat ja tulevast andmestikku. Kõik, kes on ChatGPT-d kasutanud, on ilmselt kokku puutunud lahtiütlusega, et ta teab andmetest vaid 2021. aastani (või viimastes mudelites kuni 2023. aasta aprillini). Mudel pole praeguses keelekasutuses ajakohane.
Kuna keeleandmed on keeletehnoloogiate arendamisel kõige olulisem tegur, süüdistatakse selles ka enamikku vigu, mida meie mudelid näitavad. Seetõttu on kriitiline, et keeletehnoloogiate arendamisel on meil piisavalt andmeid, andmed on puhtad, need on praegused ja õiges valdkonnas.
Seda on väga raske saavutada, kuigi keeleandmed, mida me kasutame, on sageli vananenud. Kuidas siis keeleandmed vananenuks muutuda? Vaatame mõningaid näiteid.
#1 ühiskonna fookus on muutuv faktor
Siin näete näidet, kuidas kahe sõna kasutamine Läti uudistes aja jooksul muutub.
Mida see näitab, on see, et ühiskonna fookus muutub ajas, mis tähendab, et teemad, mida meie keeletehnoloogiad peavad toetama ja käsitlema, vajavad samuti muutmist. Eile oli COVID-19, täna on sõda Ukrainas. Homme tuleb järjekordne tundmatu teema. Kui me hoiame tehnoloogiaid staatilisena, muutuvad need väga kiiresti iganenuks.
#2 keel muutub rikkamaks
Keel muutub ka seetõttu, et inimesed juurutavad sageli keelde uusi mõisteid. Näiteks Läti Teaduste Akadeemia terminoloogiakomisjon tutvustab regulaarselt uut terminoloogiat.
Keeletehnoloogiasüsteemid pole neid kunagi andmetes näinud. Ükski tõlkesüsteem ei saa nendega hakkama enne, kui tehnoloogiaarendajad andmeid koguvad ja mudeleid ümber koolitavad või vähemalt mõnda käitusaja kohandamise meetodit rakendavad.
#3 keel muudkui muutub
Inimesed muudavad ka olemasolevaid mõisteid. Näiteks, nagu on näidatud allolevas näites – olemasolevate terminite tõlgete muutmisega.
Kui tõlkesüsteemi andmed sisaldavad neid termineid koos eelnevate tõlgetega, tuleb kõiki andmeid redigeerida, et need oleksid ajakohased.
#4 uut mõistet ühiskonnas
Ühiskond ise aja jooksul muutub, tuues kaasa teised keelekasutuse erinevused. Näiteks üks märkimisväärne muutus, mis kujutab endast väljakutset keeletehnoloogia arendajatele, on sooneutraalse keele kasutuselevõtt. Neid muudatusi on aeglaselt sisse viidud üha enamates keeltes. Andmed, millele toetume, neid siiski ei kajasta. See konkreetne nähtus paneb meid kas oma süsteemidesse reegleid sisse viima või sünteetilisi andmeid genereerima.
#5 ülemaailmset sündmust
Ühiskonda mõjutavad sündmused võivad nõuda ka keelekasutuse muutmist. Näiteks Venemaa sõda Ukrainas vallandas Läti riigikeelekeskuse otsustama, et Ukraina (ja mitte vene) algse sõnastuse järgi tõlgitakse 31 Läti linna ja linna nime.
Sellega toimetulekuks pidime Tildes kas kõiki oma andmeid redigeerima või kasutama adaptiivseid meetodeid, mis võimaldasid meil üksikute sõnade või fraaside tõlkeid kohendada.
#6 keel on loomulikult mitmetähenduslik ja hõre
Isegi kui keeletehnoloogia arendaja peab muutuse tempoga sammu, ei suuda nad kunagi kõiki keele leksikaid katta. Nimesid, asukohti, organisatsioone ja nišiteema termineid on lihtsalt liiga palju, et kõike katta. Üheks näiteks on hiljuti Lätis ja Leedus meelde jäänud Balti ühtsuse päev. Meie välisminister säutsus Leedu kolleegile tervituse ja inimesed märkasid, et ingliskeelne tõlge ei ole päris täpne, kuna „Balti ühtsus” on tõlgitud „valgeks ühtsuseks”.
Miks see juhtus? Sõna „Baltu” ise võib olla mitmeti mõistetav (see võib tähendada „valget” või „Balti”). Ja kui tõlkesüsteemi andmetes ei ole fraasi „Balti ühtsus”, siis kuidas saab süsteem teada, et selline asi on olemas? Nii see juhtus – andmed seda sündmust ei kajastanud.
#7 keeleandmed on sageli ingliskesksed
Meil olevate andmete ingliskesksus võib tekitada probleeme. Enamik saadaolevaid andmeid on loodud, tõlkides sisu inglise keelest teistesse keeltesse ja palju vähem muudes suundades. See tähendab seega, et selliste andmete põhjal koolitatud süsteem ei oleks kunagi hõlmanud juhuslikku isikut kusagilt väljastpoolt USAd või ÜHENDKUNINGRIIKI. Ja kui see inimene juhtub olema sina (või keegi meist), siis muutub see üsna isiklikuks. AI muutub isiklikuks!
Näiteks olen ma ka selline „juhuslik inimene” ja kui ma tõlgin midagi oma nimega Google Translate abil, siis ma võin eeldada, et mu nimi on valesti tõlgitud ja seda käsitletakse ebajärjekindlalt. Selle probleemiga saab aga tegeleda, töötades välja süsteemid, mis saavad hakkama kohalike nimega üksustega.
Kuidas me arendajatena keelemuutustega kursis oleme?
Esiteks, me ei lõpeta kunagi andmete kogumist. Kui sa lõpetad, jääd sa juba iganenuks. Samuti püüame oma mudeleid edastada iteratiivselt, sh klientidele, kes tellivad kohandatud süsteeme (soovitame süsteeme ümber koolitada vähemalt kaks korda aastas).
Siis, teeme palju uuringuid reageerivate ja kohanduvate meetodite kohta, mis võimaldavad süsteeme käitusajal hõlpsalt reguleerida, ilma et oleks vaja mudeleid ümber treenida. Näiteks meie MT süsteemides saate lisada nii oma terminoloogia kui ka nimega olemid. Ja meie ASR süsteemides saab lisada oma konkreetse sõnavara.
Ja mida sa teha saad?
Kui olete keeletehnoloogia kasutaja, saate teha palju selleks, et aidata süsteeme enda kasuks täiustada ja see tähendab keeleandmete jagamist. Selleks peavad aga teie organisatsioonis olema kehtestatud head andmehaldusprotsessid. Kui teil on probleeme keeleandmete haldusega, parimate tavade kohta nõuannete saamiseks pidage meiega nõu. Samuti kaaluge oma andmete avalikku jagamist, kui soovite oma nišidomeenide jaoks kasutada paremaid tasuta teenuseid. Andmete jagamiseks kasutage tasuta avalikke andmejagamisteenuseid, näiteks ELRC-SHARE või Euroopa keeleruudustikku.
Seega, mähkimiseks kasutame me me kõik keeletehnoloogiaid. Need võimaldavad meil olla produktiivsemad, pääseda juurde rohkem teabele ja jõuda laiema vaatajaskonnani. Keeletehnoloogiad ei saa kunagi olema 100% täpsed, kuna keeled on keerukad ja pidevalt muutuvad. Kui aga arendame süsteeme nii, et ootame pidevaid muutusi, saame efektiivselt vigu leevendada ja võib-olla oma kliente veidi õnnelikumaks muuta.
Lisa kommentaar