Atbalsta:

TildeOpen LLM: suverēns Eiropas daudzvalodu MI

Atvērtā pirmkoda, pamata LVM (lielais valodas modelis) Eiropas valodām – drošs, pielāgojams un gatavs darbam valdībās, iestādēs un uzņēmumos. 

2024. gada jūnijs

Tilde uzvar
Large AI Grand Challenge 🙌

2024. gada septembris

Iegūta piekļuve LUMI superdatoram
2025. gada marts

Sākas
modeļa apmācība
 

2025. gada septembris

Modelis tiek publicēts
platformā Hugging Face 🎉

Mūsu valoda ir pelnījusi labāku MI

Lielākā daļa MI modeļu ir veidoti pasaules lielākajām valodām — un vairāk nekā 90% LVM mācību datu ir angļu valodā. Tas nozīmē, ka baltu, slāvu un citas Eiropas valodas atpaliek, kas noved pie zemākas precizitātes, vājākas kultūras izpratnes un ierobežotas piekļuves kvalitatīviem MI rīkiem.

Mēs to esam panākuši

Tāpēc mēs izstrādājām TildeOpen LLM — atvērtā pirmkoda lielo valodas pamatmodeli ar vairāk nekā 30 miljardiem parametru, kas izveidots visu Eiropas valodu atbalstam. Pielāgojiet modeli savām vajadzībām un droši izvietojiet — lokāli vai mākonī —, lai veidotu uzticamu MI, kas tiešām runā jūsu valodā. 
miljardi parametru
fokusa valodas
LUMI GPU stundas

Kāpēc TildeOpen?

MI pamats, kam var uzticēties

TildeOpen ir vairāk nekā tehnoloģisks sasniegums. Tas ir atvērtā pirmkoda pamats pielāgotam mākslīgajam intelektam, kurš var sniegt labumu vairāk nekā 155 miljoniem eiropiešu.

Pielāgoti MI risinājumi uzņēmumiem un organizācijām 💼 

Pielāgojiet TildeOpen savai nozarei, datiem un darbplūsmām — no virtuālajiem palīgiem līdz drošai tulkošanai, runas tehnoloģijām un daudz kam citam.

Valsts valodas modeļa izstrāde valdībām 🏛 ️

Veidojiet iekļaujošus valodas modeļus, kas kalpo sabiedrības vajadzībām, veicina digitālo suverenitāti un atbalsta visas oficiālās ES valodas.

Darbību nodrošina superdatori, ko atbalsta Eiropa 

TildeOpen attīstību atbalsta Eiropas Komisija, un to nodrošina Kopuzņēmuma EuroHPC augstākā līmeņa superdatori — LUMI un Jupiters. Uzvarot Large AI Grand Challenge, mums ir piešķirti 2 miljoni GPU stundu darbam ar LUMI, lai realizētu šo vērienīgo projektu. 

Sniedziet savu ieguldījumu daudzvalodu nākotnē

Lai izveidotu spēcīgu daudzvalodu LVM ar vairāk nekā 30 miljardiem parametru, mēs meklējam valodu datus no visas Eiropas. Mēs atzinīgi vērtējam autoru, izdevēju, valsts bibliotēku un citu partneru ieguldījumu, piedāvājot elastīgus nosacījumus. 

Datu pakalpojumu sniedzēji, kas jau ir iesaistījušies šajā projektā

Mūsu solījums

Esam atvērti sadarbībai 🤝

Valdības var izmantot TildeOpen, lai izveidotu pielāgotus valodas modeļus, kas uzlabo piekļuvi sabiedriskajiem pakalpojumiem visiem iedzīvotājiem.

Atvērta piekļuve 🔓

TildeOpen būs pieejams gan komerciālai, gan nekomerciālai lietošanai saskaņā ar liberālu licenci, kas tiks publicēta platformā Hugging Face un ELRC-SHARE.

Integritāte un drošība 🛡 ️
Mēs nepārtraukti strādājam pie kaitīga vai neprecīza satura samazināšanas programmā TildeOpen, lai tas varētu būt uzticams resurss dažādiem publiskās lietošanas gadījumiem.
Zināšanu apmaiņa 📚

Mēs esam apņēmušies sadarboties un dalīties ar ieskatiem, aicinot partnerus sadarboties ar mums TildeOpen attīstībā visu labā.

Veidojiet MI, kas runā jūsu valodā 

TildeOpen sniedz pamatu droša un suverēna MI radīšanai. Izpētiet modeli tūlīt
vai runājiet ar mums par modeļa pielāgošanu jūsu vajadzībām.

Bieži uzdotie jautājumi

Kas ir TildeOpen LVM?

TildeOpen LVM projekta mērķis ir izveidot daudzvalodu pamatvalodas lielo valodu modeli, kas koncentrējas uz nepietiekami pārstāvētām Baltijas un Austrumeiropas valodām, lai veicinātu digitālo taisnīgumu un uzlabotu šo kopienu piekļuvi progresīvām AI tehnoloģijām.

Kāpēc lielajos valodas modeļos ir svarīga valodu vienlīdzība?

Šī nelīdzsvarotība ietekmē efektivitāti un izmaksas. Piemēram, ir nepieciešamas garākas secības, lai kodētu tādu pašu informācijas apjomu valodās ar zemākiem resursiem nekā angļu valodā, tādējādi padarot modeļus mazāk efektīvus un dārgākus palaišanai. Turklāt šo modeļu angliskums var radīt nevēlamus kultūras aizspriedumus. Tildeopen tiks apmācīts, lai nodrošinātu taisnīgumu visās atbalstītajās valodās.

Kādās valodās TildeOpen projekts koncentrējas?

Projekta mērķa valodas ir Austrumeiropas un Baltijas valstu valodas, piemēram, bulgāru, horvātu, čehu, igauņu, somu, latviešu, lietuviešu, maķedoniešu, melnkalniešu, poļu, serbu, slovāku, slovēņu un ukraiņu. Modelis līdzvērtīgās proporcijās atbalstīs arī lielākas valodas, piemēram, angļu, franču, vācu un krievu, lai nodrošinātu tulkošanu un ar to saistītos daudzvalodu uzdevumus. 

Ko nozīmē “pamata modelis”?
Pamata modelis ir liels, universāls MI modelis, kas apmācīts ar plašu datu klāstu. Tas kalpo par bāzi specializētu rīku izstrādei, piemēram, izstrādājot iekšējos virtuālos asistentus, virtuālos asistentus vai nozarei specifiskus MI lietojumus. Kad modelis ir apmācīts, to var precizēt ar konkrētiem datiem, lai precīzāk un uzticamāk veiktu mērķtiecīgus uzdevumus.
Kas ir LUMI superdators?
LUMI (Large Unified Modern Infrastructure — lielā vienotā modernā infrastruktūra) superdators ir piektais ātrākais superdators pasaulē un visātrākais Eiropā. Tas ir daļa no kopuzņēmuma EuroHPC, kurā Eiropas Savienība un Eiropas valstis sadarbojas, lai radītu pasaules klases augstas veiktspējas skaitļošanas (High-Performance Computing — HPC) ekosistēmu Eiropā. LUMI superdators atrodas Kajāni, Somijā. 
Kas ir Large AI Grand Challenge?
Eiropas Komisijas dibinātā konkursa “Large AI Grand Challenge” mērķis ir paplašināt Eiropas MI apvāršņus, izmantojot liela mēroga MI modeļu potenciālu. Konkursā piedalījās inovatīvi jaunuzņēmumi, kā arī mazie un vidējie uzņēmumi ar tehnisko kapacitāti tādu MI modeļu izstrādei, kas veicina Eiropas konkurētspēju ģeneratīvā MI jomā. Eiropas Komisija ir paziņojusi konkursa “Large AI Grand Challenge” uzvarētājus. Četri inovatīvi Eiropas MI uzņēmumi, tostarp Tilde, kopā kā balvu saņems 1 miljonu eiro un 8 miljonus datošanas stundu, lai palīdzētu Eiropai ieņemt vadošo lomu MI izstrādē. 
Kas ir Tilde?
Tilde viens no Eiropas vadošajiem inovāciju virzītājiem valodu tehnoloģiju jomā un pakalpojumu sniedzējs, kura misija ir veicināt valodu daudzveidību digitālajā laikmetā. Tildes trīs birojos, kuri atrodas Rīgā, Viļņā un Tallinā, strādā vairāk nekā 150 darbinieki. Tildes pētnieku komandā ir deviņi zinātņu doktori un viņu zinātniskie līdzstrādnieki, un mūsu pētnieki ir vairāk nekā 260 zinātnisku publikāciju autori. Laika gaitā Tilde ir izveidojusi plašu pētniecības un izstrādes partneru tīklu ar ES vadošajiem pētniecības centriem un universitātēm un darbojas kā valodu tehnoloģiju pētniecības centrmezgls Baltijas reģionā. Tildes jaunākās pētniecības un izstrādes darbības koncentrējas uz fundamentālajiem lielajiem valodas modeļiem (LVM), LVM precīzu pielāgošanu lejupējām lietojumprogrammām un ar instrukcijām pielāgotu LVM integrāciju dabiskās valodas apstrādes lietojumprogrammās (piemēram, mašīntulkošana, virtuālie asistenti, izgūšanas papildinātas ģenerēšanas sistēmas, runātās valodas apstrāde, kopsavilkumu veidošana u.c.).