AI zinātne piedzīvo lielas pārmaiņas: nebūs vienota superintelekta 

Virsraksta attēls ar AI neironiem uz zila fona

Savulaik valdīja stingra pārliecība un pieņēmums, ka mums jāveido viens superintelekts, viens milzīgs lielais valodas modelis (LVM), kas spētu atbildēt uz jebkuru jautājumu un atrisināt jebkuru problēmu. Tomēr zinātnieku aprindas attālinās no šīs pārliecības, virzoties uz aģentos balstītu pieeju, kur tiek radīti vairāki specializēti valodas modeļi, tā dēvētie aģenti, un katrs no tiem īpaši specializējas savā konkrētajā jomā. Kāpēc notiek šīs pārmaiņas, un kāda izskatīsies šī jaunā pieeja? 

Galvenais iemesls virzībai uz aģenta tipa arhitektūras veidošanu ir ideja par vairākiem mazākiem sadarbības modeļiem aģentiem, t.i., savas jomas ekspertiem, kas sasniedz vislabākos rezultātus, apspriežoties, papildinot un uzlabojot cits citu. Tehnoloģijas, kas izstrādātas pēc cilvēka analoģijas, parasti sevi labi apliecina. Mums nevar būt viens cilvēka intelekts, kas zina absolūti visu, varbūt tāpēc mums nav nepieciešams viens mākslīgais superintelekts, kas pārzina relativitātes teoriju, somu literatūru vai smadzeņu operēšanu. Mazākiem specializētiem modeļiem aģentiem, visticamāk, būs mazāk tā dēvēto halucināciju, t.i., mazāk kļūdu, kas rodas arī tāpēc, ka vienā modelī pārklājas dažādas jomas. Turklāt organizācijām pat nav vajadzīgs viszinošs MI: tās var izvēlēties un pilnveidot tikai tos aģentus, kas atbilst viņu uzņēmējdarbības virzienam.  

Otrām kārtām — LVM izmantošana neievēro zaļā kursa principus. Katru reizi, kad LVM atbild uz kādu jautājumu, tam ir jāiziet cauri sarežģītai arhitektūrai, kam nepieciešams daudz aprēķinu un kas rada milzīgas enerģijas izmaksas. 2017. gadā pieredzējām transformatīvā modeļa arhitektūras parādīšanos, kas mūsdienās tiek izmantota visos LVM un sastāv no blokiem ar vienādām informāciju pārveidojošām formulām, kas atšķiras tikai pēc to koeficientiem (parametriem). Blokus var viegli savienot, tā radot lielu valodas modeļa arhitektūru — mūsdienu valodas modeļiem ir simtiem miljardu parametru. Šādu LVM apmācība un izmantošana rada īpaši augstas enerģijas izmaksas.   

Trešais iemesls attiecas uz datu drošību. LVM vienkārši ir pārāk apjomīgi, lai būtu viegli integrējami un attīstāmi organizācijas infrastruktūrā. Alternatīva ir nodot visus datus uzņēmumiem, kas pārvalda un uzglabā šos modeļus savos serveros (piemēram, GPT modeļus OpenAI serveros). Dažām organizācijām šādu praksi izmantot liedz datu aizsardzības noteikumi, bet citas izvairās to darīt, jo sensitīvu datu pārsūtīšana trešajām pusēm rada papildu riskus. Specializētos modeļus aģentus (vismaz tos, kas ir atbildīgi par sensitīvu datu apstrādi) var uzglabāt organizācijas serveros, novēršot datu aizsardzības riskus.  

Ir vēl kāds iemesls — jo lielāks valodas modelis, jo grūtāk to kontrolēt. Datu aizsardzības likumi jau atļauj, piemēram, grāmatas autoram pieprasīt, lai izstrādātājs izņem viņa grāmatas informāciju no LVM. Tas ir sarežģīti, jo nav skaidrs, kuri parametri un kā ir jāpielāgo. Ir dažādi veidi, kā likt “aizmirst”: piemēram, modelis tiek pārsātināts ar jauniem apmācības datiem, paredzot, ka grāmatas informācija pakāpeniski pazudīs, vai arī tiek pievienoti filtri, kas aiztur grāmatā atrodamo informāciju. Diemžēl nekas no tā nedarbojas efektīvi: vienīgais pienācīgais veids ir no nulles atkārtoti apmācīt modeli, izmantojot apmācības datus, kuros vairs nav šīs autora grāmatas. Izmaksas ir neaptveramas. Vieglāk būtu pārkvalificēt mazākus modeļus aģentus. 

Zinātniskajās aprindās notiek būtiskas pārmaiņas attiecībā uz ģeneratīvā MI un LVM izstrādi, kas, iespējams, novedīs pie precīzākiem un energoefektīvākiem valodas modeļiem, tādējādi paverot durvis plašākam lietojumam.  

Tilde šobrīd izstrādā universālu pamata daudzvalodu LVM — TildeLM. Ņemot vērā zinātnisko aprindu idejas attiecībā uz specializētajiem modeļiem aģentiem, TildeLM vēlāk varētu kalpot kā pamats mazākiem, konkrētām vajadzībām pielāgotiem vēl specializētākiem aģentiem. 

Komentāru sagatavoja Tildes vecākā valodas tehnoloģiju pētniece un Vītauta Dižā Universitātes profesore Jurgita Kapočūte-Dzikiene (Jurgita Kapočiūtė-Dzikienė)

AI pārveidošana daudzvalodīgai Eiropai ar TildeLM
TildeLM ir atvērtā koda LVM ar vairāk nekā 30 miljardiem parametru, kas paredzēts Baltijas un Austrumeiropas valodām.
Pievienojieties kustībai, kas virza digitālo taisnīgumu un rada spēcīgus rīkus nepietiekami pārstāvētām valodām.