MI sacensības: kā mazākās valodas tiek līdzi? 

Titulattēls ar Dr. Jurgitu Kapočiūtė-Dzikienė

Kopš statistisko valodas modeļu parādīšanās 20. gadsimta 80. gados nozarē ir notikušas ievērojamas pārmaiņas. Gadu desmitu laikā ir attīstījusies šo modeļu veidošanas metodoloģija, ir palielinājies apstrādāto datu apjoms, un paši modeļi ir kļuvuši sarežģītāki. Parametru skaits — matemātiskie koeficienti formulās — ir turpinājis pieaugt. Līdz 2020. gadam, kad tirgū parādījās ChatGPTtermins “lielais valodas modelis” jau bija plaši pazīstams. Šodien būtu grūti atrast cilvēku, kas nebūtu par to dzirdējis. Bet ko nozīmē “liels” valodas modeļu kontekstā? Bija laiks, kad modelis ar 3 miljardiem parametru tika uzskatīts par milzīgu, tomēr šodien šādi skaitļi vairs nepārsteidz. OpenAI neatklāj precīzu GPT-4parametru skaitu, taču aplēses liecina, ka tas varētu svārstīties no 1 līdz 10 triljoniem. 

Šobrīd norisinās zinātniskā revolūcija un top nepieredzēti daudz publikāciju par lielajiem valodas modeļiem. Pētnieki visā pasaulē sacenšas, kā izstrādāt arvien jaudīgākus, precīzākus un daudzpusīgākus modeļus. Šiem modeļiem jāvar atbildēt uz jautājumiem, apkopot informāciju, tulkot tekstus un izpildīt dažādus ar valodu saistītus uzdevumus. Tomēr liels skaits parametru vien negarantē panākumus. Katram parametram jābūt precīzi izskaitļotam, proti, tam nepieciešama atbilstoša matemātiska vērtība, ko var nodrošināt tikai tad, ja apmācību datu apjoms ir pietiekams. Process sākas ar modeļa arhitektūras izstrādi: matemātiskajām formulām un koeficientiem, kuriem sākotnēji ir iestatītas nejauši izvēlētas vērtības. Modelim apstrādājot apmācību datus, šie koeficienti tiek precizēti. Ja arhitektūra ir pārāk liela un datu kopa pārāk maza, modelis ir neprecīzs un ar noslieci uz “halucinācijām”. Savukārt, ja modelis ir pārāk mazs, bet datu kopa ir plaša, modelim pietrūkst jaudas efektīvi uzņemt visu informāciju. 

Lietotāju prasības arvien pieaug, tāpēc jo aktuālāka kļūst apmācību datu nepietiekamības problēma. Salīdzinot ar angļu, vācu vai poļu valodu, lietuviešu valodā ir ievērojami mazāk pieejamo tekstu. Pētnieki aktīvi strādā, lai atrisinātu šo problēmu. Piemēram, uzņēmums Tilde sadarbojas ar Vītauta Dižā Universitāti un Viļņas Universitāti , lai savāktu vairāk datu, kas kalpos par pamatu precīzāku modeļu izstrādei. Arī lielie tehnoloģiju uzņēmumi, piemēram, OpenAI, Meta, un Google DeepMind , saskaras ar problēmu, ka mazākām valodām ir pieejams ierobežots datu apjoms. Tomēr viņu modeļi ir daudzvalodīgi, kas padara tos labāk pielāgojamus. Izmantojot dominējošo valodu zināšanas un starpvalodu savienojumus, daudzvalodu modeļi var labāk atbalstīt mazākas valodas. Tieši tāpēc Tilde izstrādā savu daudzvalodu modeli TildeLMar izteiktu fokusu uz mazākām valodām, piemēram, lietuviešu, latviešu un igauņu. 

Konkurence valodas modeļu starpā ir sīva. Par dominējošo pozīciju nepārtraukti sacenšas dažādi modeļi, piemēram, GPT, Mistral, Llama, Gemma, Claude, Bloomun Solar. Tomēr viens būtisks izaicinājums vēl nav pārvarēts — joprojām trūkst informācijas par to, kā šie modeļi darbojas mazākām valodām. Vidusmēra lietotājam šo modeļu augstā pareizumspēja var šķist iespaidīga, taču atsevišķās jomās, piemēram, medicīnā vai jurisprudencē, pat nelielām kļūdām var būt nopietnas sekas. Turklāt daudzi modernākie modeļi (piemēram, GPT) pieder privātiem uzņēmumiem, un tos kontrolē privāti uzņēmumi, kas regulē piekļuvi datiem. Tas rada bažas par sensitīvu datu drošību un sarežģī šo datu izmantošanu kritiskās nozarēs. 

Vai ir kādas alternatīvas? Jā, atvērtā pirmkoda svērtie (open-weight) modeļi! Lietotāji tos var lejupielādēt tieši savos datoros un: 1) precizēt tos, izmantojot savus datus; vai 2) izmantot tos tādus, kādi tie ir, izmantojot rūpīgi veidotas uzvednes. Pirmā metode prasa papildu apmācību datus un ievērojamus datošanas resursus, padarot šo metodi nepieejamu daudziem lietotājiem. Tādēļ savā nesenajā pētījumā, kas tika pieņemts prezentēšanai NoDaLiDa & Baltic HLT konferencē, mēs pievērsāmies otrās metodes izvērtēšanai.

Pētījumā tika pārbaudīti 12 dažādi valodas modeļi, lai novērtētu to iespējas saprast un ģenerēt tekstu lietuviešu, latviešu un igauņu valodā. Tie bija gan patentētie modeļi (GPT-3.5 Turbo, GPT-4, un GPT-4o, gan atvērtā pirmkoda svērtie modeļi (Llama 3, 3.1 un 3.2 ar 3, 8 un 70 miljardiem parametru; Mistral ar 12 miljardiem; Gemma2 ar 9 un 27 miljardiem; Phi ar 3 un 14 miljardiem).

Pirmais eksperiments pievērsās mašīntulkojumu pareizumam, salīdzinot tulkojumus starp angļu un trim Baltijas valstu valodām. Bez īpašiem pārsteigumiem ar to vislabāk veicās GPT modeļiem, bet Gemma2 (27 miljardu) un Llama 3.1 (70 miljardu) nodrošināja tulkošanas kvalitāti, kas ir salīdzināma ar GPT modeļiem. Vissliktākie rezultāti bija Phi modeļiem. Rezultāti tika salīdzināti arī ar vienu no modernākajām mašīntulkošanas sistēmām — DeepL,kas apliecināja, ka tās tulkošanas kvalitāte atbilst GPT-4otulkošanas kvalitātei. Tas norāda, ka lielie valodas modeļi tagad spēj ģenerēt tulkojumus, kas konkurē ar specializētām tulkošanas sistēmām.

Citā uzdevumā modeļiem bija jāatbild uz jautājumiem ar vairākiem atbilžu variantiem lietuviešu, latviešu un igauņu valodā. Lai to paveiktu, modelim bija ne tikai jāizprot teksts, bet arī jāspēj pasniegt pareizo atbildi atbilstošā formātā. Atkal labākie rezultāti bija modeļiem GPT-4o, Llama 3.1. (70 miljardu) un Gemma2 (27 miljardu). Tomēr, salīdzinot ar angļu valodu, mazākās valodās sniegto atbilžu pareizuma līmenis bija ievērojami zemāks.

Trešajā eksperimentā tika vērtēts, cik labi šie modeļi var atbildēt uz atvērta tipa jautājumiem par dažādām tēmām lietuviešu un latviešu valodā. Labākie modeļi sniedz pareizas atbildes 80–90% gadījumu. Tika novērtēta arī prasme ģenerēt tekošu tekstu. Arī šajā uzdevumā 3 labākie modeļi nemainījās. Papildus testējām Neurotechnology izstrādātos monolingvālos Llama2modeļus (7 miljardu un 13 miljardu), kas ir speciāli pielāgoti lietuviešu valodai. Šie modeļi ģenerēja pārsteidzoši tekošu tekstu lietuviešu valodā, taču to pareizums joprojām bija ievērojami zemāks nekā lielajiem daudzvalodu modeļiem.

Šis pētījums vēlreiz apstiprināja būtisku faktu: apmācības datu kvalitātei un daudzveidībai ir ārkārtīgi liela nozīme. Ja vēlamies, lai valodas modeļi mazākās valodās sasniegtu tādu pašu pareizuma līmeni kā lielākās valodās, būtiska ir aktīva zinātnieku sadarbība. Tas ietver nepārtrauktu datu vākšanu un specializētu modeļu izstrādi. Nevis konkurēsim, bet sadarbosimies! 

Vai vēlaties ieviest MI arī savā organizācijā?
Sazinieties ar mums jau šodien un noskaidrojiet, kā mūsu risinājumi var uzlabot jūsu darbplūsmu.