TildeLM: fundamentāls LVM daudzvalodu Eiropai

Atbalsta:

Lielais MI modelis Eiropas valodām

Mēs veidojam atvērtu pamata LVM (lielo valodas modeli) nepietiekami pārstāvētām Eiropas valodām – tā būs bāze, ko varēs precīzi pielāgot konkrētām vajadzībām. Modelis ir pielāgojams, drošs, un tā veidošanā izmantoti Eiropas valodu dati.

2024. gada jūnijs

Tilde uzvar
Large AI Grand Challenge 🙌

2024. gada septembris

Iegūta piekļuve LUMI superdatoram

2025. gada marts

Sākas
modeļa apmācība

2025. gada oktobris

Modelis tiek publicēts
Hugging Face 🎉

Mūsu valoda ir pelnījusi labāku MI

Lielākā daļa MI modeļu ir veidoti pasaules lielākajām valodām — un vairāk nekā 90% LVM mācību datu ir angļu valodā. Tas nozīmē, ka baltu, slāvu un citas Eiropas valodas atpaliek, kas noved pie zemākas precizitātes, vājākas kultūras izpratnes un ierobežotas piekļuves kvalitatīviem MI rīkiem.

Mēs pie tā jau strādājam

Tāpēc mēs izstrādājam TildeLM – atvērtā koda pamata lielo valodas modeli ar vairāk nekā 30 miljardiem parametru, kas veidots, lai atbalstītu visas Eiropas valodas. Kad tas būs izlaists, varēsiet to precīzi pielāgot savām vajadzībām un droši izvietot lokāli vai mākonī, lai izveidotu uzticamu MI, kas patiešām runā jūsu valodā.

miljardi parametru

fokusa valodas

LUMI GPU stundas

Kāpēc TildeLM?

Pielāgojams, izmantojot savus datus
Drošs un pilnībā kontrolējams
Izvietojams lokāli vai mākonī
Iespēja integrēt esošās sistēmās un darbplūsmās
Būvēts kā pamats moderniem MI risinājumiem

MI pamats, kam var uzticēties

TildeLM ir vairāk nekā tehnoloģijas sasniegums. Tas ir atvērtā koda pamats pielāgotiem MI risinājumiem, no kura labumu gūst vairāk nekā 155 miljoni eiropiešu.

Pielāgoti MI risinājumi uzņēmumiem un organizācijām 💼

Pielāgojiet TildeLM savai nozarei, datiem un darbplūsmām — no virtuālajiem asistentiem līdz drošai tulkošanai, runas tehnoloģijām un citām iespējām.

Valsts valodas modeļa izstrāde valdībām 🏛 ️

Veidojiet iekļaujošus valodas modeļus, kas kalpo sabiedrības vajadzībām, veicina digitālo suverenitāti un atbalsta visas oficiālās ES valodas.

Darbību nodrošina superdatori, ko atbalsta Eiropa

TildeLM izstrādi atbalsta Eiropas Komisija, un tā darbību nodrošina Kopuzņēmuma EuroHPC augstākā līmeņa superdatori — LUMI un Jupiters. Uzvarot Large AI Grand Challenge, mums ir piešķirti 2 miljoni GPU stundu darbam ar LUMI, lai realizētu šo vērienīgo projektu.

Sniedziet savu ieguldījumu daudzvalodu nākotnē

Lai izveidotu spēcīgu daudzvalodu LVM ar vairāk nekā 30 miljardiem parametru, mēs meklējam valodu datus no visas Eiropas. Mēs atzinīgi vērtējam autoru, izdevēju, valsts bibliotēku un citu partneru ieguldījumu, piedāvājot elastīgus nosacījumus.

Datu pakalpojumu sniedzēji, kas jau ir iesaistījušies šajā projektā

Mūsu solījums

Apņemšanās atvērt sadarbības 🤝

Valsts iestādes var izmantot TildeLM, lai veidotu pielāgotus valodas modeļus, kuri uzlabotu sabiedrisko pakalpojumu pieejamību visiem iedzīvotājiem.

Atvērtās piekļuves 🔓

TildeLM būs pieejams gan komerciālai, gan nekomerciālai izmantošanai ar liberālu licenci, un tas tiks publicēts Hugging Face un ELRC-SHARE.

Integritātes un drošības 🛡 ️

Mēs garantējam, ka TildeLM ir drošs un tajā nav kaitīga vai kļūdaina satura, tādējādi nodrošinot resursa uzticamību daudzveidīgam, publiskam lietojumam.

Zināšanu apmaiņas 📚

Mēs esam apņēmušies veidot sadarbību un dalīties ar informāciju, aicinot partnerus strādāt kopā ar mums un virzīt TildeLM attīstību, lai ikvienam būtu labums.

Esiet lietas kursā

Atstājiet savu e-pasta adresi, lai saņemtu paziņojumu, kad TildeLM tiks palaists Hugging Face kopienā.

Bieži uzdotie jautājumi

Kas ir TildeLM?

TildeLM projekta mērķis ir izveidot fundamentālu daudzvalodu lielo valodas modeli, kas koncentrējas uz nepietiekami pārstāvētajām Baltijas un Austrumeiropas valodām, lai sekmētu digitālo vienlīdzību un uzlabotu piekļuvi modernām MI tehnoloģijām šajās kopienās.

Kāpēc lielajos valodas modeļos ir svarīga valodu vienlīdzība?

Līdzsvara trūkums ietekmē efektivitāti un izmaksas. Piemēram, lai tādu pašu informācijas apjomu kodētu mazāk pārstāvētās valodās, ir nepieciešama garāka secība nekā angļu valodai, līdz ar to modeļi ir mazāk efektīvi un to darbība izmaksā dārgāk. Turklāt šo modeļu orientēšanās uz angļu valodu var novest pie nevēlamas kultūru diskriminācijas. TildeLM tiks apmācīts, lai nodrošinātu vienlīdzību visām atbalstītajām valodām.

Uz kurām valodām koncentrējas TildeLM projekts?

Projekta mērķa valodas ir Austrumeiropas un Baltijas valstu valodas, piemēram, bulgāru, horvātu, čehu, igauņu, somu, latviešu, lietuviešu, maķedoniešu, melnkalniešu, poļu, serbu, slovāku, slovēņu un ukraiņu. Modelis līdzvērtīgās proporcijās atbalstīs arī lielākas valodas, piemēram, angļu, franču, vācu un krievu, lai nodrošinātu tulkošanu un ar to saistītos daudzvalodu uzdevumus.

Ko nozīmē “pamata modelis”?

Pamata modelis ir liels, universāls MI modelis, kas apmācīts ar plašu datu klāstu. Tas kalpo par bāzi specializētu rīku izstrādei, piemēram, izstrādājot iekšējos virtuālos asistentus, virtuālos asistentus vai nozarei specifiskus MI lietojumus. Kad modelis ir apmācīts, to var precizēt ar konkrētiem datiem, lai precīzāk un uzticamāk veiktu mērķtiecīgus uzdevumus.

Kas ir LUMI superdators?

LUMI (Large Unified Modern Infrastructure — lielā vienotā modernā infrastruktūra) superdators ir piektais ātrākais superdators pasaulē un visātrākais Eiropā. Tas ir daļa no kopuzņēmuma EuroHPC, kurā Eiropas Savienība un Eiropas valstis sadarbojas, lai radītu pasaules klases augstas veiktspējas skaitļošanas (High-Performance Computing — HPC) ekosistēmu Eiropā. LUMI superdators atrodas Kajāni, Somijā.

Kas ir Large AI Grand Challenge?

Eiropas Komisijas dibinātā konkursa “Large AI Grand Challenge” mērķis ir paplašināt Eiropas MI apvāršņus, izmantojot liela mēroga MI modeļu potenciālu. Konkursā piedalījās inovatīvi jaunuzņēmumi, kā arī mazie un vidējie uzņēmumi ar tehnisko kapacitāti tādu MI modeļu izstrādei, kas veicina Eiropas konkurētspēju ģeneratīvā MI jomā. Eiropas Komisija ir paziņojusi konkursa “Large AI Grand Challenge” uzvarētājus. Četri inovatīvi Eiropas MI uzņēmumi, tostarp Tilde, kopā kā balvu saņems 1 miljonu eiro un 8 miljonus datošanas stundu, lai palīdzētu Eiropai ieņemt vadošo lomu MI izstrādē.

Kas ir Tilde?

Tilde viens no Eiropas vadošajiem inovāciju virzītājiem valodu tehnoloģiju jomā un pakalpojumu sniedzējs, kura misija ir veicināt valodu daudzveidību digitālajā laikmetā. Tildes trīs birojos, kuri atrodas Rīgā, Viļņā un Tallinā, strādā vairāk nekā 150 darbinieki. Tildes pētnieku komandā ir deviņi zinātņu doktori un viņu zinātniskie līdzstrādnieki, un mūsu pētnieki ir vairāk nekā 260 zinātnisku publikāciju autori. Laika gaitā Tilde ir izveidojusi plašu pētniecības un izstrādes partneru tīklu ar ES vadošajiem pētniecības centriem un universitātēm un darbojas kā valodu tehnoloģiju pētniecības centrmezgls Baltijas reģionā. Tildes jaunākās pētniecības un izstrādes darbības koncentrējas uz fundamentālajiem lielajiem valodas modeļiem (LVM), LVM precīzu pielāgošanu lejupējām lietojumprogrammām un ar instrukcijām pielāgotu LVM integrāciju dabiskās valodas apstrādes lietojumprogrammās (piemēram, mašīntulkošana, virtuālie asistenti, izgūšanas papildinātas ģenerēšanas sistēmas, runātās valodas apstrāde, kopsavilkumu veidošana u.c.).