Me kõik oleme harjunud, et keeletehnoloogiad aitavad meid igapäevategevustes, aga kuidas on lood nende aegadega, mil need ebaõnnestuvad? Selles blogiartiklis selgitab meie TEHISINTELLEKTI peaohvitser Mārcis Pinnis, kuidas me arendame keeletehnoloogiaid, miks nad vahel rabelevad ja selle tagamaid.
Kuid esiteks, millised on keeletehnoloogiad?
Keeletehnoloogia on igasugune lahendus, mis analüüsib, toodab, muudab või reageerib inimtekstidele ja kõnele. Kui sul on nutitelefon või arvuti, siis kasutad keeletehnoloogiaid. Kõigil meie moodsatel vidinatel on keeletehnoloogiad, mis aitavad meil teabele kiiremini juurde pääseda või viljakamad olla. Näiteks nutitelefonidel on keeletehnoloogilised võimalused kõne äratundmine, sooritada dokumendi - või veebiotsingut, sooritada optilist märgituvastust (ehk teisisõnu – tuvastada digitaalpildis olev tekst) jne.
Kuidas arendada keeletehnoloogiaid?
Esiteks, me peame juurdepääs keeleandmetele, mida saame kasutada mudelite treenimiseks. Ilma andmeteta ei saa me midagi arendada. Lihtsamalt öeldes võivad keeleandmed olla kõik teksti sisaldavad dokumendid või mis tahes heli - või videofailid, mis sisaldavad kõnet.
Kui meil on keeleandmed olemas, järgmine samm on mudelite treenimine i abilt. Tänapäeval arendatakse enamikku keeletehnoloogiaid masinõppe ja tehisnärvivõrkude abil. Näiteks meie masintõlkesüsteemid treenitakse trafopõhiste kodeerija-dekooderimudelite abil nullist. Meie nimelisi olemituvastus -, meelsusanalüüsi - ja kavatsustuvastusmudeleid koolitatakse kindlate alltööülesannete vundamendimudelite peenhäälestuse abil.
Ja lõpuks, juurutame kasutamiseks mudeleid. Sõltuvalt kliendi vajadustest saab mudeleid juurutada kohalikus infrastruktuuris või pilves ning muuta need juurdepääsetavaks api-de, muude tootjate tööriistade pluginate või kohandatud kasutajaliideste kaudu. Näiteks meie masintõlkesüsteemid on meie klientidele saadaval erinevates arvutipõhistes tõlketööriistades, kasutades pluginaid, translate.tilde.com platvorm, mis võimaldab kasutajatel tõlkida tekstilõike, dokumente ja veebilehti ning pakub lihtsat arvutipõhist tõlkevahendit, mida saavad hõlpsasti kasutada inimesed, kes ei osale tõlketööstuses; sellele pääseb juurde ka API kaudu.
Keel pole konstantne
Probleem, mis selle protsessiga tekib, on see, et kui mudel on välja õpetatud, hakkab see juba vananema, sest ei ole näinud ühtegi jooksvat ja tulevast andmestikku. Kõik, kes on ChatGPT-d kasutanud, on ilmselt kokku puutunud lahtiütlusega, et ta teab andmetest vaid 2021. aastani (või viimastes mudelites kuni 2023. aasta aprillini). Mudel pole praeguses keelekasutuses ajakohane.