TildeLM: fundamentāls LVM daudzvalodu Eiropai

Atbalsta:

Lielais MI modelis Eiropas valodām

Mēs veidojam atvērtu pamata LVM (lielo valodas modeli) nepietiekami pārstāvētām Eiropas valodām – bāzi, ko varēsiet precīzi pielāgot savām konkrētajām vajadzībām. Tas ir pielāgojams, drošs un veidots, izmantojot Eiropas valodu datus.

2024. gada jūnijs

Tilde uzvar
Large AI Grand Challenge 🙌

2024. gada septembris

Iegūta piekļuve LUMI superdatoram

2025. gada marts

Modeļu apmācība
sākas

2025. gada oktobris

Modelis tiek publicēts
Hugging Face 🎉

Tava valoda ir pelnījusi labāku MI

Lielākā daļa MI modeļu ir veidoti pasaules lielākajām valodām – un vairāk nekā 90% LVM mācību datu ir angļu valodā. Tas nozīmē, ka atpaliek Baltijas, slāvu un citas Eiropas valodas, kas noved pie zemākas precizitātes, vājākas kultūras izpratnes un ierobežotas piekļuves kvalitatīviem MI rīkiem.

Mēs pie tā jau strādājam

Tāpēc mēs izstrādājam TildeLM – atvērtā koda pamata lielās valodas modeli ar vairāk nekā 30 miljardiem parametru, kas veidots, lai atbalstītu visas Eiropas valodas. Kad tas būs izlaists, varēsiet to precīzi pielāgot savām vajadzībām un droši izvietot lokāli vai mākonī, lai izveidotu uzticamu MI, kas patiešām runā jūsu valodā.

miljardi parametru

fokusa valodas

LUMI GPU stundas

Kāpēc TildeLM?

Pielāgojams ar saviem datiem
Drošs un pilnībā konktrolējams
Izvietojams lokāli vai mākonī
Integrējas ar esošajām sistēmām un darbplūsmām
Būvēts kā pamats moderniem MI risinājumiem

MI pamats, kam var uzticēties

TildeLM ir vairāk nekā tehnoloģisks sasniegums. Tas ir atvērtā koda pamats pielāgotiem MI risinājumiem, no kura labumu gūst vairāk nekā 155 miljoni eiropiešu.

Pielāgoti MI risinājumi uzņēmumiem un organizācijām 💼

Pielāgojiet TildeLM savai nozarei, datiem un darbplūsmām — no virtuālajiem asistentiem līdz drošai tulkošanai, runas tehnoloģijām un citām iespējām.

Valsts valodas modeļa izstrāde valdībām 🏛 ️

Veidot iekļaujošus valodu modeļus, kas kalpo sabiedrības vajadzībām, veicina digitālo suverenitāti un atbalsta visas oficiālās ES valodas.

Vada LUMI, atbalsta Eiropa

TildeLM attīstību atbalsta Eiropas Komisija, un to darbina LUMI – ātrākais superdators Eiropā. Uzvarot Large AI Grand Challenge., mums ir piešķirti 2 miljoni GPU stundu uz LUMI, lai realizētu šo vērienīgo projektu.

Sniedziet savu ieguldījumu daudzvalodu nākotnē

Lai izveidotu spēcīgu daudzvalodu LVM ar vairāk nekā 30B parametriem, mēs meklējam valodu datus no visas Eiropas. Mēs atzinīgi vērtējam autoru, izdevēju, valsts bibliotēku un citu partneru ieguldījumu, piedāvājot elastīgus nosacījumus.

Datu pakalpojumu sniedzēji, kas jau ir iesaistījušies šajā projektā

Mūsu solījums

Apņemamies nodrošināt atvērtu sadarbību

Valsts iestādes var izmantot TildeLM, lai veidotu pielāgotus valodas modeļus, kuri uzlabotu sabiedrisko pakalpojumu pieejamību visiem iedzīvotājiem.

Atvērta piekļuve

TildeLM būs pieejams gan komerciālai, gan nekomerciālai izmantošanai ar liberālu licenci, un tas tiks publicēts Hugging Face un ELRC-SHARE.

Integritāte un drošība

Mēs garantējam, ka TildeLM ir drošs un tajā nav kaitīga vai kļūdaina satura, tādējādi nodrošinot resursa uzticamību daudzveidīgam, publiskam lietojumam.

Zināšanu apmaiņa

Mēs esam apņēmušies veidot sadarbību un dalīties ar informāciju, aicinot partnerus strādāt kopā ar mums un virzīt TildeLM attīstību, lai ikvienam būtu labums.

Esiet lietas kursā

Atstājiet savu e-pastu, lai saņemtu paziņojumu, kad TildeLM tiks palaists Hugging Face.

Bieži uzdotie jautājumi

Kas ir TildeLM?

TildeLM projekta mērķis ir izveidot fundamentālu daudzvalodu lielo valodas modeli, kas koncentrējas uz nepietiekami pārstāvētajām Baltijas un Austrumeiropas valodām, lai sekmētu digitālo vienlīdzību un uzlabotu piekļuvi modernām MI tehnoloģijām šajās kopienās.

Kāpēc lielajos valodas modeļos ir svarīga valodu vienlīdzība?

Līdzsvara trūkums ietekmē efektivitāti un izmaksas. Piemēram, lai tādu pašu informācijas apjomu kodētu mazāk pārstāvētās valodās, ir nepieciešama garāka secība nekā angļu valodai, līdz ar to modeļi ir mazāk efektīvi un to darbība izmaksā dārgāk. Turklāt šo modeļu orientēšanās uz angļu valodu var novest pie nevēlamas kultūru diskriminācijas. TildeLM tiks apmācīts, lai nodrošinātu vienlīdzību visām atbalstītajām valodām.

Uz kādām valodām koncentrējas TildeLM projekts?

Projekta mērķa valodas ir Austrumeiropas un Baltijas valstu valodas, piemēram, bulgāru, horvātu, čehu, igauņu, somu, latviešu, lietuviešu, maķedoniešu, melnkalniešu, poļu, serbu, slovāku, slovēņu un ukraiņu. Modelis līdzvērtīgās proporcijās atbalstīs arī lielākas valodas, piemēram, angļu, franču, vācu un krievu, lai nodrošinātu tulkošanu un ar to saistītos daudzvalodu uzdevumus.

Ko nozīmē “pamata modelis”?

Strūklakas modelis ir liels, universāls AI modelis, kas apmācīts uz plaša datu klāsta. Tā kalpo kā “bāze”, lai veidotu specializētākus rīkus, piemēram, iekšējos virtuālos asistentus, virtuālos asistentus vai nozarei specifiskas AI lietojumprogrammas. Kad tas ir apmācīts, to var precizēt ar konkrētiem datiem, lai precīzāk un uzticamāk veiktu mērķtiecīgus uzdevumus.

Kas ir LUMI superdators?

LUMI (Large Unified Modern Infrastructure — lielā vienotā modernā infrastruktūra) superdators ir piektais ātrākais superdators pasaulē un visātrākais Eiropā. Tas ir daļa no kopuzņēmuma EuroHPC, kurā Eiropas Savienība un Eiropas valstis sadarbojas, lai radītu pasaules klases augstas veiktspējas skaitļošanas (High-Performance Computing — HPC) ekosistēmu Eiropā. LUMI superdators atrodas Kajāni, Somijā.

Kas ir “Large AI Grand Challenge”?

Eiropas Komisijas dibinātā konkursa “Large AI Grand Challenge” mērķis ir paplašināt Eiropas MI apvāršņus, izmantojot liela mēroga MI modeļu potenciālu. Konkursā piedalījās inovatīvi jaunuzņēmumi, kā arī mazie un vidējie uzņēmumi ar tehnisko kapacitāti tādu MI modeļu izstrādei, kas veicina Eiropas konkurētspēju ģeneratīvā MI jomā. Eiropas Komisija ir paziņojusi konkursa “Large AI Grand Challenge” uzvarētājus. Četri inovatīvi Eiropas MI uzņēmumi, tostarp Tilde, kopā kā balvu saņems 1 miljonu eiro un 8 miljonus datošanas stundu, lai palīdzētu Eiropai ieņemt vadošo lomu MI izstrādē.

Kas ir Tilde?

Tilde viens no Eiropas vadošajiem inovāciju virzītājiem valodu tehnoloģiju jomā un pakalpojumu sniedzējs, kura misija ir veicināt valodu daudzveidību digitālajā laikmetā. Tildes trīs birojos, kuri atrodas Rīgā, Viļņā un Tallinā, strādā vairāk nekā 150 darbinieki. Tildes pētnieku komandā ir deviņi zinātņu doktori un viņu zinātniskie līdzstrādnieki, un mūsu pētnieki ir vairāk nekā 260 zinātnisku publikāciju autori. Laika gaitā Tilde ir izveidojusi plašu pētniecības un izstrādes partneru tīklu ar ES vadošajiem pētniecības centriem un universitātēm un darbojas kā valodu tehnoloģiju pētniecības centrmezgls Baltijas reģionā. Tildes jaunākās pētniecības un izstrādes darbības koncentrējas uz fundamentālajiem lielajiem valodas modeļiem (LVM), LVM precīzu pielāgošanu lejupējām lietojumprogrammām un ar instrukcijām pielāgotu LVM integrāciju dabiskās valodas apstrādes lietojumprogrammās (piemēram, mašīntulkošana, virtuālie asistenti, izgūšanas papildinātas ģenerēšanas sistēmas, runātās valodas apstrāde, kopsavilkumu veidošana u.c.).