TildeLM

Toetavad:

Suur tehisarumudel Euroopa keeltele 

Ehitame avatud lähtekoodiga LLM-i (suur keelemudel) alaesindatud Euroopa keelte jaoks – alust, mida saate kohandada vastavalt oma konkreetsetele vajadustele. Kohandatav, turvaline ja ülesehitatud Euroopa keelte andmetega. 

Juuni 2024

Tilde võidab
konkursi Large AI Grand Challenge 🙌

September 2024

Juurdepääs LUMI superarvutile on saadud
Märts 2025

Mudeli treenimine
algab
 

Oktoober 2025

Mudel alustab tööd
platvormil Hugging Face 🎉

Teie keel väärib paremat tehisaru

Enamik tehisarumudeleid on loodud maailmas enimkõneldud keelte jaoks ja üle 90% LLM-i koolitusandmetest on inglise keeles. See tähendab, et balti, slaavi ja teised Euroopa keeled jäetakse välja, mis toob kaasa väiksema täpsuse, nõrgema kultuurilise mõistmise ja piiratud juurdepääsu kvaliteetsetele tehisaruvahenditele.

Me teeme selle teoks

Seepärast töötame välja TildeLM-i – avatud lähtekoodiga suurt keelemudelit, millel on üle 30 miljardi parameetri ja mis on loodud kõigi Euroopa keelte toetamiseks. Pärast väljaandmist saate seda oma vajaduste kohaselt viimistleda ja turvaliselt – lokaalselt või pilves – juurutada, et luua usaldusväärne tehisaru, mis päriselt teie keeles räägib.
miljardit parameetrit
fookuskeelt
GPU tundi LUMI-s

Miks TildeLM?

Tehisarul põhinev alus, mida saab usaldada

TildeLM on enamat kui tehnoloogiline saavutus. See on avatud lähtekoodiga alus kohandatud tehisarule, millest saavad kasu üle 155 miljoni eurooplase.

Kohandatud tehisaruahendused ettevõtetele ja organisatsioonidele 💼 

Saate kohandada TildeLM-i oma valdkonna, andmete ja töövoogudega – alates virtuaalassistentidest kuni turvaliste tõlgeteni, kõnetehnoloogiateni ja palju muud.

Riigikeelse mudeli väljatöötamine valitsustele 🏛 ️

Saate ehitada kaasavaid keelemudelid, mis teenivad üldsuse vajadusi, edendavad digitaalset suveräänsust ja toetavad kõiki EL-i ametlikke keeli.

Töötab Euroopa toetatud superarvutite jõul 

TildeLM-i arengut toetab Euroopa Komisjon ja see töötab EuroHPC ühisettevõtte tipptasemel superarvutitega LUMI ja Jupiter. Võites konkursi Large AI Grand Challenge, on meile antud 2 miljonit GPU tundi LUMI-l selle ambitsioonika projekti teostamiseks. 

Panus mitmekeelsesse tulevikku

Selleks, et luua tugev ja mitmekeelne LLM üle 30 miljardi parameetritega, otsime keeleandmeid kogu Euroopast. Ootame autorite, kirjastajate, riigiraamatukogude ja teiste partnerite kaastööd paindlike tingimustega, mis just teile sobivad. 

Andmepakkujad, kes on juba projekti panustanud

Meie lubadus

Pühendumus avatud koostööle 🤝
Valitsusasutused saavad kasutada TildeLM-i kohandatud keelemudelite loomiseks, mis parandavad avalike teenuste kättesaadavust kõigile kodanikele.
Avatud juurdepääs 🔓
TildeLM on saadaval nii kaubanduslikuks kui ka mittekaubanduslikuks kasutuseks lubava litsentsi alusel, mis on avaldatud Hugging Face’is ja ELRC-SHARE’is.
Terviklikkus ja turvalisus 🛡 ️

Tagame, et TildeLM on ohutu ja sellel puudub ohtlik või ebatäpne sisu, mis tagab selle usaldusväärsuse erinevate avalike kasutusviiside korral.  

Teadmiste jagamine 📚

Oleme pühendunud koostööle ja ülevaadete jagamisele, kutsudes partnereid tegema koostööd TildeLM-i edasiarendamisel, millest kõik kasu saavad.

Püsige kursis

Jätke oma meiliaadress, et saada teavitus, kui TildeLM Hugging Face'is avaldatakse. 

    Korduma kippuvad küsimused

    Mis on TildeLM?
    TildeLM-i projekti eesmärk on luua mitmekeelne suur keele alusmudel, mis keskendub alaesindatud balti ja ida-euroopa keeltele, et pakkuda digitaalset väärtust ja parandada nende kogukondade juurdepääsu täpsematele tehisarupõhistele tehnoloogiatele.
    Miks on keelte väärtus LLM-ides oluline?
    See tasakaalustamatus mõjutab tõhusust ja kulusid. Näiteks on väiksemate ressurssidega keeltes inglise keelega võrreldes vaja pikemaid jadasid sama teabehulga kodeerimiseks, mis teeb mudelid vähem tõhusaks ja nende käitamise kallimaks. Lisaks võib nende mudelite inglise keele kesksus tekitada soovimatuid kultuurilisi eelarvamusi. TildeLM-i treenitakse kõigi toetatud keelte jaoks väärtuse tagamiseks.
    Mis keeltele TildeLM-i projekt keskendub?

    Projekt keskendub ida-euroopa ja balti keeltele, nagu bulgaara, horvaatia, tšehhi, eesti, soome, läti, leedu, makedoonia, montenegro, poola, serbia, slovaki, sloveeni ja ukraina. Mudel toetab ka suuremaid keeli, nagu inglise, prantsuse, saksa ja vene keelt tasakaalustatud proportsioonides, et toetada tõlget ning sellega seotud mitmekeelseid ülesandeid. 

    Mida tähendab „alusmudel”?
    Alusmudel on suur, üldotstarbeline tehisarumudel, mida koolitatakse laias andmevalikuga. See on aluseks spetsialiseeritud tööriistade ehitamisel, nagu sisemised virtuaalsed assistendid, juturobotid või valdkonnaspetsiifilised tehisarurakendused. Pärast väljaõpet saab seda konkreetsete andmetega viimistleda, et sihipäraseid ülesandeid täpsemini ja usaldusväärsemalt täita.
    Mis on LUMI superarvuti?
    LUMI (Large Unified Modern Infrastructure) superarvuti on viies kõige kiirem superarvuti maailmas ja kõige kiirem Euroopas. See kuulub EuroHPC ühisettevõttesse, mis on Euroopa Liitu ja Euroopa riike hõlmav koostöö Euroopas maailmatasemel kõrgjõudlusega andmetöötluse (HPC) ökosüsteemi loomiseks. LUMI superarvuti asub Kajaanis, Soomes. 
    Mis on Large AI Grand Challenge?
    Euroopa Komisjoni rahastatava Large AI Grand Challenge'i eesmärk on laiendada Euroopa tehisaru piire, kasutades ära suuremahuliste tehisarumudelite potentsiaali. Väljakutses osalesid innovaatilised idufirmad ja VKEd, kellel on tehniline suutlikkus arendada tehisarumudeleid, mis suurendavad Euroopa konkurentsivõimet generatiivse tehisaru valdkonnas. Euroopa Komisjon on kuulutanud välja Large AI Grand Challenge võitjad. Neli innovaatilist Euroopa tehisarupõhist ettevõtet, sealhulgas Tilde, jagavad omavahel 1 miljoni euro suuruse auhinna ja 8 miljonit arvutitundi, et edendada Euroopa juhtpositsiooni tehisaru arendamisel. 
    Mis on Tilde?
    Tilde on juhtiv Euroopa keeletehnoloogia innovaator ja teenusepakkuja, mille eesmärk on digitaalsel ajastul keelte mitmekesisuse edendamine. Tildes on üle 150 töötaja kolmes kontoris, mis asuvad Riias, Vilniuses ja Tallinnas. Tilde uurimismeeskond koosneb üheksast doktorikraadiga isikust ja teadurist ning on avaldanud üle 260 teadusliku väljaande. Aastate jooksul on Tilde avaldanud suure T&A partnerluse võrgustiku koos EL-i juhtivate uuringukeskuste ja ülikoolidega ning toimib Baltimaade piirkonna keeletehnoloogia uuringukeskusena. Tilde viimased teadus- ja arendustegevused keskenduvad põhilistele suurte keelemudelite (LLM) väljatöötamisele, LLM-ide täpsustamisele järelrakenduste jaoks ning juhendite järgi häälestatud LLM-ide integreerimisele loomuliku keele töötlemise rakendustesse (nt masintõlge, virtuaalsed assistendid, otsingu abil täiustatud genereerimissüsteemid, kõnekeele töötlemine, kokkuvõtete koostamine jne).