Varem oldi veendunud ja eeldati, peame looma ühe superintellekti, ühe hiiglasliku suure keelemudeli (LLM), mis saab vastata igale küsimusele ja lahendada iga probleemi. Teadusringkonnad aga eemalduvad sellest veendumusest ja liiguvad hoopis agendipõhise lähenemise poole, kus luuakse mitu spetsialiseeritud keelemudelit ehk agenti, mis on oma valdkonna spetsialistid. Miks see muutus aset leiab ja milline on uus lähenemine?
Agendipõhise arhitektuuri poole liikumise peamiseks põhjuseks on mitme väikse koostöömudeli idee ehk oma valdkonna ekspertagendid, mis saavutavad parima tulemuse üksteist täiendades ja muutes ning arutades. Inimese analoogia järgi välja töötatud tehnoloogia tavaliselt tõestab ennast. Kuna meil pole ühte inimintellekti, kes absoluutselt kõike teaks, siis ehk pole meil vaja ka tehissuperintellekti, mis teaks relatiivsusteooriat, Soome kirjandust või ajuoperatsiooni. Väikestel spetsialiseeritud mudelitel-agentidel on tõenäoliselt vähem nn hallutsinatsioone ehk vähem vigu, mis tekivad ka seetõttu, et eri valdkonnad ühes mudelis kattuvad. Pealegi ei vaja organisatsioonid kõiketeadvat TI-d: nad saavad valida ja täiustada ainult neid agente, mis nende ärivaldkonnaga sobivad.
Teiseks ei järgi LLM-ide kasutamine rohelise kokkuleppepõhimõtteid. Iga kord, kui LLM vastab küsimusele, peab see töötama läbi koormava arhitektuuri, mis nõuab palju arvutamist ja toob endaga kaasa tohutuid energiakulusid. 2017. aastal tuli transformatiivne mudeliarhitektuur, mida täna kasutatakse kõigis LLM-ides ja mis koosneb plokkidest, kus on ühesugused teavet muutvad valemid, mis erinevad üksteisest ainult koefitsientides (parameetrites). Plokke on lihtne ühendada, mille tulemuseks on keelemudeli suur arhitektuur: tänapäeva keelemudelitel on sadu miljardeid parameetreid. Selliste LLM-ide treenimine ja kasutamine on eriti energiakulukas.
Kolmas põhjus on andmeturve. LLM-id on lihtsalt liiga mahukad, et neid saaks hõlpsalt organisatsiooni taristuga integreerida ja seal arendada. Teine võimalus on edastada kõik andmed ettevõtetele, kes haldavad ja talletavad neid mudeleid oma serverites (nt GPT mudelid OpenAI serverites). See aga on mõne organisatsiooni jaoks andmekaitsemäärustega piiratud, teised aga hoiduvad sellest, sest tundlike andmete edastamine kolmandale isikule tähendab lisariski võtmist. Spetsialiseeritud mudeleid-agente (vähemalt neid, kes vastutavad tundlike andmete töötlemise eest) võiks talletada organisatsiooni serverites, kõrvaldades andmekaitseriskid.
On veel üks põhjus: mida suurem on keelemudel, seda raskem on seda kontrollida. Andmekaitseseaduste alusel on lubatud juba näiteks raamatu autoril nõuda arendajalt raamatu teabe eemaldamist LLM-ist. See on keeruline, sest pole selge, milliseid parameetreid tuleb kohandada ja kuidas. „Unustamiseks” on erinevaid võimalusi: näiteks võidakse mudel uute treeningandmetega üle koormata, et raamatu teave järk-järgult kaoks, või lisatakse filtrid, mis takistavad raamatust pärit teabe esitamist. Kahjuks pole see tõhus: ainus õige viis on mudel nullist uuesti treenida, kasutades treeningandmeid, kus pole enam autori raamatu teavet. Kulud on tohutud. Väiksemate mudelagentide uuesti treenimine oleks lihtsam.
Teadusringkondades on toimumas suur muutus generatiivse tehisintellekti ja LLM-ide arendamises, mis tõenäoliselt viib täpsemate ja energiatõhusamate keelemudeliteni, andes seega võimaluse laialdasemale kasutamisele.
Tilde arendab praegu üldotstarbelist mitmekeelset alus-LLM-i, mille nimi on TildeLM. Tuginedes teadusringkondade spetsialiseerunud mudelagentide ideedele, võiks TildeLM hiljem olla aluseks väiksematele konkreetsetele tingimustele kohandatud spetsiaalsetele agentidele.
Tilde keeletehnoloogia vanemteaduri ja Vytautas Magnuse ülikooli professori Jurgita Kapočiūtė-Dzikienė kommentaar.
Tehisintellekti muundamine mitmekeelseks Euroopaks TildeLM-i abil
Liituge liikumisega, mis edendab digitaalset võrdsust ja loob võimsad tööriistad alaesindatud keelte jaoks.