Vyksta rimtas posūkis DI moksle: vieno superintelekto nebus

pagal „Tilde“ komanda 2024 m. lapkričio 6 d.

Pavadinimo vaizdas su AI neuronais mėlyname fone

Daug tikėta ir manyta, kad turime sukurti vieną superintelektą, vieną milžinišką didįjį kalbos modelį (angl. LLM), kuris gebėtų atsakyti į bet kokius klausimus ir spręsti bet kokias problemas. Šiandien mokslininkų bendruomenėje taip nebemanoma ir pereita prie kitokios taktikos – kurti daug vadinamųjų kalbos modelių-agentų, kurių kiekvienas yra stiprus savo srityje. Kodėl ir kaip tai atrodys?

Pagrindinė priežastis pereiti prie agentinės architektūros yra ideja turėti kelis bendradarbiaujančius mažesnius modelius-agentus – t. y. savo srities ekspertus, kurie papildydami, diskutuodami, taisydami vienas kitą, pasiektų geriausią rezultatą. Technologijose įprastai pasiteisina tai, kas kuriama pagal žmogaus analogą. Neįmanoma turėti vieno žmogiškojo intelekto, kuris žinotų absoliučiai viską, todėl galbūt ir vieno dirbtinio superintelekto, išmanančio reliatyvumo teoriją, suomių literatūrą ar smegenų chirurgiją, nereikia? Tikėtina, kad mažesni specializuoti modeliai-agentai turės mažiau vadinamųjų haliucinacijų, t. y. darys mažiau klaidų, kurios šiandien atsiranda dar ir dėl to, jog viename modelyje persipina skirtingos sritys. Negana to, organizacijoms ir nereikia visko išmanančio DI: jos galėtų pasirinkti ir tobulinti tik tuos agentus, kurie atitinka jų veiklos sritį.

Antra, naudojant didelius kalbos modelius nėra laikomasi „žaliojo kurso“principų. Kiekvieną kartą, kai LLM atsakinėja į klausimą, jis turi „perbėgti“ gremėzdišką architektūrą, o tai reikalauja didelių skaičiavimų ir energijos sąnaudų. 2017 m. atsiradusi transformacinė modelio architektūra, kuri šiandien naudojama visuose didžiuosiuose kalbos modeliuose, susideda iš blokų, kuriuose veikia tos pačios informaciją transformuojančios formulės, tik su skirtingais koeficientais (parametrais). Blokai lengvai jungiami ir taip išauginama didelė kalbos modelio architektūra: šiandien egzistuojantys kalbos modeliai turi net šimtus milijardų parametrų. Tokio LLM mokymas ir naudojimas reikalauja ypatingai didelių energijos sąnaudų.

Trečioji priežastis susijusi su duomenų saugumu. Dideli kalbos modeliai per dideli, kad būtų lengvai integruojami ir tobulinami organizacijos infrastruktūroje. Alternatyva – perduoti visus duomenis įmonėms, kurios tą modelį valdo ir laiko savo serveriuose (pvz., GPT modeliai „OpenAI“ serveriuose). Daliai organizacijų to daryti neleidžia duomenų apsaugos reglamentas, o kitos vengia, nes jautrių duomenų perdavimas trečiosioms šalims kelia papildomas rizikas. Specializuotus modelius-agentus (bent jau tuos, kurie atsakingi už jautrių duomenų apdorojimą) galima būtų laikyti organizacijos serveriuose, todėl išnyktų duomenų apsaugos rizikos.

Yra ir dar viena priežastis: kuo didesnis kalbos modelis, tuo sunkiau jį valdyti. Duomenų apsaugos įstatymai jau dabar leidžia, pvz., knygos autoriui reikalauti, kad modelio kūrėjas iš LLM išimtų jo knygos informaciją. Tai nėra paprasta, nes neaišku, kuriuos parametrus ir kaip reikia pakoreguoti. Einama kita kryptimi – bandoma surasti teisingas „užmiršimo“ metodikas: modelis užverčiamas naujais mokymo duomenimis ir tikimasi, kad knygoje buvusi informacija pamažu išblės, arba įdedami filtrai, kurie nepraleistų knygoje buvusios informacijos. Deja, niekas efektyviai neveikia: vienintelis geras būdas – modelį permokyti iš naujo su mokymo duomenimis, kuriuose nebėra to autoriaus knygos. Tai milžiniški kaštai. Mažesnių LLM-agentų permokymas būtų paprastesnis.

Mokslinėje bendruomenėje vyksta didelis pokytis susijęs su generatyviniu DI ir LLM kūrimu, kuris, tikėtina, leis sukurti tikslesnius ir mažiau energijos naudojančius kalbos modelius bei atvers duris dar platesniam jų naudojimui.

Šiuo metu „Tilde“ kuria bendrosios paskirties pagrindinį daugiakalbį LLM „TildeLM“. Remdamasi mokslinės bendruomenės idėjomis apie specializuotus modelius-agentus, „TildeLM“ vėliau galėtų tapti mažesnių distiliuotų agentų, pritaikytų konkretiems poreikiams, pagrindu.

Komentarą parengė kalbos technologijų bendrovės „Tilde“ kalbos technologijų vyresnioji tyrėja ir VDU prof. Jurgita Kapočiūtė-Dzikienė.

AI transformavimas daugiakalbėje Europoje su „TildeLM“

Tildelm yra atvirojo kodo pagrindinė LLM, turinti daugiau kaip 30 mlrd. parametrų, skirtų Baltijos ir Rytų Europos kalboms.
Prisijunkite prie judėjimo, skatinančio skaitmeninį teisingumą ir kuriančio galingus įrankius nepakankamai atstovaujamoms kalboms.

Sužinokite, kaip galite prisidėti