TildeLM: Mitmekeelse Euroopa jaoks tehisintellekti ümberkujundmine

Töötame välja TildeLM-i, avatud asutusega LLM-i (suur keelemudel), millel on üle 30 miljardi parameetri, mis hõlmab kõiki Euroopa keeli, keskendudes Balti ja Ida-Euroopa keeltele. Euroopa Komisjoni toetusel on TildeLM seatud AI maastikku revolutsioneerima, tagades meie piirkonna kasu tipptehnoloogiast.

VÄLJAKUTSE

Keeleväärtuse väljakutse

Enamik tehisintellekti mudeleid keskenduvad suurtele keeltele, millel on üle 90% andmetest inglise keeles, mille tõttu Baltimaade ja Ida-Euroopa keeled on alaesindatud. See tasakaalu puudumine tähendab madalama kvaliteediga tehisintellekti tulemusi ja piiratud juurdepääsu edasijõudnud tehnoloogiatele nende keelte kõnelejatele. TildeLM tegeleb sellega probleemiga, püüdes esindada kõiki toetatud keeli võrdselt TildeLM-i treenimisprotsessi kaudu.

LAHENDUS

Euroopa avatud mudeli loomine

TildeLM-i arendatakse esindama laia Euroopa keelte valikut, sealhulgas, bulgaaria, läti, ukraina ja muid keeli. See mudel on palju enamat, kui tehnoloogiline saavutus, see on pühendumus täielikult avatud ressursi loomiseks ja loob vundamendi suurele tehisintellekti rakendustele, mis saavad kasu üle 155 miljardi eurooplasele.

miljardit parameetrit
fokusseeritud keelt
GPU tundi LUMI-s

KASUTUSJUHTUMID JA RAKENDUSED

Võimsad tähendusrikkad innovatsioonid kõigis sektorites

Riiklikud keelemudelid
Valitsusasutused saavad kasutada ära TildeLM-i kohandatud keelemudelite loomiseks, mis parandavad avalike teenuste kättesaadavust kõigile kodanikele.
Uurimistöö ja arendus

Uurijad saavad kasutada TildeLM-i keelte õppimiseks, tõlkesüsteemide parandamiseks ja uute keeletehnoloogiate rakenduste loomiseks.

Tehnoloogiline innovatsioon
Ettevõtted saavad kasutada TildeLM-i mitmekeelsete tehisintellekti rakenduste, nagu virtuaalassistentide, tekstigeneraatori ja kõnetehnoloogiate, arendamiseks.
Valdkonnapõhised lahendused
Tervisehoiu ja õigusvaldkonnad saavad kasutada TildeLM-i täpse mitmekeelse töötlemise ja tõlke jaoks.

ARVUTUSTEHNOLOOGIAD

Euroopa kõige arenenuma superarvuti juhitud täiuslikkus

TildeLM-i arendust kiirendatakse LUMI superarvuti abil, mis on saanud auhinna Large AI Grand Challengeosana. Üle 2 miljoni protsessoritunniga on LUMI põhjalik arvutusvõimsus oluline selle ambitsioonika projekti tõhusaks läbiviimiseks.

MEIE LUBADUS

Avatud koostööle pühendumine

Oleme pühendunud avatud teaduse põhimõtetele ja eetilisele andmehaldusele, mis teeb TildeLM-i vabalt kättesaadavaks. Me usume, et koostöö ja jagatud teadmised on innovatsiooni võti ja me kutsume üles teadureid, arendajaid ja andmepakkujaid üles liituma meiega sellel missioonil.

Avatud juurdepääs

TildeLM on saadaval nii kaubanduslikuks kui ka mittekaubanduslikuks kasutuseks lubava litsentsi alusel, mis on avaldatud Hugging Face’i ja ELRC-SHARE’i alusel.

Terviklikkus ja turvalisus

Garanteerime, et TildeLM on ohutu ja sellel puudub ohtlik või ebatäpne sisu, mis tagab selle usaldusväärsuse erinevate avalike kasutusjuhtumite korral.
Teadmiste jagamine
Oleme pühendunud koostööle ja ülevaadete jagamisele, kutsudes partnereid töötama meiega TildeLM-i edasiarendamisel, et pakkuda kasu kõigile.

Mitmekeelsesse tulevikku panustamine

Tugeva, üle 30 miljardi parameetri sisaldava mitmekeelse keelemudeli ehitamiseks vajame keeleandmete koostööd üle Euroopa. Ootame autorite, väljaandjate, riigi raamatukogude ja muude kaasatust, kes saavad pakkuda väärtuslikku sisu, paindlike tingimustega, mis vastavad sinu vajadustele. See platvorm on selleks, et saaksime jagada oma edenemist ja kutsuda sind selles teedrajavas algatuses osalema. Sinu osalemine on oluline, et tagada see, et igal keel kõlaks selles digitaalses ajastus.

Teie kaasamine on oluline, et tagada igal keelel hääl digiajastul.

Andmepakkujad, mis on juba projekti panustanud

Korduma kippuvad küsimused

Mis on TildeLM?
TildeLM-i projekti eesmärk on luua mitmekeelne peamine suur keelemudel, mis keskendub alaesindatud Baltimaade ja Ida-Euroopa keeltele, et pakkuda digitaalset väärtust ja parandada nende kogukondade juurdepääsu täpsematele tehisintellekti tehnoloogiatele.
Miks on keelte väärtus LLM-ides oluline?
Sellel tasakaalutusel on tõhususe ja tasu tagajärjed. Näiteks on väiksemate ressurssidega keeltes inglise keelega võrreldes vaja pikemaid jadasid sama teabehulga kodeerimiseks, mis teeb mudelid vähem tõhusaks ja nende käitamise kallimaks. Lisaks saavad nende mudelite inglise keele kesksus lisada soovimatuid kultuurilisi eelarvamusi. TildeLM treenitakse kõigi toetatud keelte jaoks väärtuse tagamiseks.
Mis keeltele TildeLM-i projekt keskendub?

Projekt keskendub Ida-Euroopa ja Baltimaade keeltele, nagu bulgaara, horvaatia, tšehhi, eesti, soome, läti, leedu, makedoonia, montenegro, poola, serbia, slovaki, sloveeni ja ukraina. Mudel toetab ka suuremaid keeli, nagu inglise, prantsuse, saksa ja vene keelt tasakaalustatud proportsioonides, et toetada tõlget ning sellega seotud mitmekeelseid ülesandeid. 

Mis on LUMI superarvuti?
LUMI (suur ühtlustatud modernne infrastruktuur) superarvuti on viies kõige kiirem superarvuti maailmas ja kõige kiirem Euroopas. See kuulub EuroHPC ühisesse ettevõtmisesse, mis on Euroopa Liitu ja Euroopa riike hõlmav koostöö Euroopas maailmatasemel suure tõhususega arvuti (HPC) ökosüsteemi loomiseks. LUMI superarvuti asub Kajaanis, Soomes. 
Mis on Large AI Grand Challenge?
Euroopa Komisjoni rahastatava Large AI Grand Challenge’i eesmärk on laiendada Euroopa tehisintellekti piire, omastades suure tasemega tehisintellekti mudeleid. Võistluses osalejad olid uuenduslikud idufirmad ja VKE-d, millel on tehniline võimekus tehisintellekti mudelite arendamiseks, et võimendada Euroopa konkurentsivõimet generatiivses tehisintellektis. Euroopa komisjon on avaldanud Large AI Grand Challenge’i võitjad. Neli Euroopa uuenduslikku tehisintellekti ettevõtet, sealhulgas Tilde, jagavad ühe miljoni euro ja kaheksa miljoni arvutustunni väärtuses auhinda Euroopa tehisintellekti arenduse juhtimise arendamises. 
Mis on Tilde?
Tilde on juhtiv Euroopa keeletehnoloogia innovaator ja teenusepakkuja, mille eesmärk on digitaalsel ajastul keelte mitmekesisuse edendamine. Tildes on üle 150 töötaja kolmes kontoris, mis asuvad Riias, Vilniuses ja Tallinnas. Tilde uurimismeeskond koosneb üheksast doktorikraadiga isikust ja teadurist ning on avaldanud üle 260 teadusliku väljaande. Aastate jooksul on Tilde avaldanud suure T&A partnerluse võrgustiku koos EL-i juhtivate uuringukeskuste ja ülikoolidega ning toimib Baltimaade piirkonna keeletehnoloogia uuringukeskusena. Tilde kõige hiljutisemad uuringu- ja arengutegevused keskenduvad põhilistele suurtele keelemudelitele (LLM-idele), LLM-ide peenhäälestamisele allavoolu rakenduste jaoks ja juhistele vastavalt häälestatud LLM-ide integreerimisele loomuliku keele töötlemise rakendustest (nt masitõlge, virtuaalsed assistendid, otsimisega täiendatud genereerimissüsteemid, suulise keele töötlemine, kokkuvõtmine jms).