TildeLM: MI pārveidošana daudzvalodu Eiropai

Mēs izstrādājam TildeLM — fundamentālu atvērtā pirmkoda lielo valodas modeli (LVM) ar vairāk nekā 30 miljardiem parametru, kas ietver visas Eiropas valodas, koncentrējoties uz Baltijas un Austrumeiropas valodām. TildeLM saņem Eiropas Komisijas atbalstu un ir gatavs pilnībā pārveidot MI jomu, lai mūsu reģionā varētu izmantot moderno tehnoloģiju sniegtās priekšrocības.

IZAICINĀJUMS

Iestājamies par valodu vienlīdzību

Vairākums MI modeļu koncentrējas uz lielajām valodām, un vairāk nekā 90% datu ir angļu valodā, bet Baltijas un Austrumeiropas valodas ir nepietiekami pārstāvētas. Šāda līdzsvara trūkuma apstākļos MI rezultātiem ir zemāka kvalitāte, un cilvēkiem, kas runā šajās valodās, ir ierobežota piekļuve modernajām tehnoloģijām. TildeLM to risina, visā TildeLM apmācības procesā cenšoties vienlīdzīgi pārstāvēt visas atbalstītās valodas.

RISINĀJUMS

Atklāta modeļa veidošana Eiropai

TildeLM tiek izstrādāts, lai pārstāvētu dažādas Eiropas valodas, tostarp bulgāru, latviešu, ukraiņu un citas. Šis modelis ir vairāk nekā tikai tehnoloģisks sasniegums — tā ir apņemšanās radīt resursu, kas ir pilnībā atvērts un kalpo kā pamats visdažādākajiem MI lietojuma veidiem, lai sniegtu ieguvumu vairāk nekā 155 miljoniem eiropiešu.

miljardi parametru
fokusa valodas
LUMI GPU stundas

LIETOŠANAS IESPĒJAS UN JOMAS

Virzām nozīmīgas inovācijas dažādās nozarēs

Nacionālie valodu modeļi
Valsts iestādes var izmantot TildeLM, lai veidotu pielāgotus valodu modeļus, kuri uzlabotu sabiedrisko pakalpojumu pieejamību visiem iedzīvotājiem.
Pētniecība un izstrāde

Pētnieki var izmantot TildeLM, lai pētītu valodas, uzlabotu tulkošanas sistēmas un radītu vēl nebijušas valodu tehnoloģiju lietojumprogrammas.

Tehnoloģiskās inovācijas
Uzņēmumi var izmantot TildeLM, lai attīstītu daudzvalodu MI lietojumprogrammas, piemēram, virtuālo asistentu, teksta ģenerēšanas un runas tehnoloģijas.
Risinājumi dažādām nozarēm
Veselības aprūpes un tieslietu nozares var izmantot TildeLM precīzai daudzvalodu teksta apstrādei un tulkošanai.

SKAITĻOŠANAS RESURSI

Izcilība, ko nodrošina Eiropā modernākais superdators

TildeLM izstrādi paātrina superdators LUMI, un iespēja to izmantot tika iegūta konkursā Large AI Grand Challenge.Mūsu rīcībā ir 2 miljoni grafiskā procesora darba stundu, un LUMI milzīgā skaitļošanas jauda ir ārkārtīgi svarīga efektīvai šī ambiciozā projekta īstenošanai.

MŪSU SOLĪJUMS

Apņemamies nodrošināt atvērtu sadarbību

Mēs ievērojam atvērtās zinātnes principus un nodrošinām ētisku datu apstrādi, lai TildeLM būtu brīvi pieejams. Mēs ticam, ka sadarbība un kopīgas zināšanas ir īstais ceļš pretī inovācijām, un mēs aicinām pētniekus, izstrādātājus un datu sniedzējus pievienoties mums šajā misijā.

Atvērta piekļuve

TildeLM būs pieejams gan komerciālai, gan nekomerciālai izmantošanai ar liberālu licenci, un tas tiks publicēts Hugging Face un ELRC-SHARE.

Integritāte un drošība

Mēs garantējam, ka TildeLM ir drošs un tajā nav kaitīga vai kļūdaina satura, tādējādi nodrošinot tā uzticamību daudzveidīgam, publiskam lietojumam.
Dalīšanās ar zināšanām
Mēs esam apņēmušies veidot sadarbību un dalīties ar informāciju, aicinot partnerus strādāt kopā ar mums un virzīt TildeLM attīstību, lai sniegtu labumu ikvienam.

Sniedziet savu ieguldījumu daudzvalodu nākotnē

Lai izveidotu stabilu daudzvalodu modeli ar vairāk nekā 30 miljardiem parametru, mums nepieciešami valodu dati no visas Eiropas. Mēs aicinām iesaistīties autorus, izdevējus, valstu bibliotēkas un ikvienu citu, kas var sniegt vērtīgu saturu ar elastīgiem noteikumiem atbilstoši jūsu vajadzībām. Šī platforma ir vieta, kur mēs dalāmies ar informāciju par projekta virzību un aicinām jūs kļūt par daļu no šīs novatoriskās iniciatīvas.

Jūsu iesaistīšanās ir ļoti svarīga, lai ikviena valoda skanētu digitālajā laikmetā.

Datu sniedzēji, kas jau ir snieguši savu ieguldījumu projektā

Bieži uzdotie jautājumi

Kas ir TildeLM?
TildeLM projekta mērķis ir izveidot fundamentālu daudzvalodu lielo valodas modeli, kas koncentrējas uz nepietiekami pārstāvētajām Baltijas un Austrumeiropas valodām, lai veicinātu digitālo vienlīdzību un uzlabotu piekļuvi modernām MI tehnoloģijām šajās kopienās.
Kāpēc lielajos valodu modeļos ir svarīga valodu vienlīdzība?
Līdzsvara trūkums ietekmē efektivitāti un izmaksas. Piemēram, ir nepieciešamas garākas secības salīdzinājumā ar angļu valodu, lai tādu pašu informācijas apjomu kodētu mazāk pārstāvētās valodās, līdz ar to modeļi ir mazāk efektīvi un to darbība izmaksā dārgāk. Turklāt šo modeļu orientēšanās uz angļu valodu var radīt nevēlamus kultūras aizspriedumus. TildeLM tiks apmācīts, lai nodrošinātu vienlīdzību visām atbalstītajām valodām.
Uz kādām valodām koncentrējas TildeLM projekts?

Projekta mērķa valodas ir Austrumeiropas un Baltijas valstu valodas, piemēram, bulgāru, horvātu, čehu, igauņu, somu, latviešu, lietuviešu, maķedoniešu, melnkalniešu, poļu, serbu, slovāku, slovēņu un ukraiņu. Modelis līdzvērtīgās proporcijās atbalstīs arī lielākas valodas, piemēram, angļu, franču, vācu un krievu, lai nodrošinātu tulkošanu un ar to saistītos daudzvalodu uzdevumus. 

Kas ir LUMI superdators?
LUMI (Large Unified Modern Infrastructure — lielā vienotā modernā infrastruktūra) superdators ir piektais ātrākais superdators pasaulē un visātrākais Eiropā. Tas ir daļa no kopuzņēmuma EuroHPC, kurā Eiropas Savienība un Eiropas valstis sadarbojas, lai radītu pasaules klases augstas veiktspējas skaitļošanas (High-Performance Computing — HPC) ekosistēmu Eiropā. LUMI superdators atrodas Kajāni, Somijā. 
Kas ir “Large AI Grand Challenge”?
Eiropas Komisijas dibinātā konkursa “Large AI Grand Challenge” mērķis ir paplašināt Eiropas MI apvāršņus, izmantojot liela mēroga MI modeļu potenciālu. Konkursā piedalījās novatoriski jaunuzņēmumi, kā arī mazie un vidējie uzņēmumi ar tehnisko kapacitāti tādu MI modeļu izstrādei, kas veicina Eiropas konkurētspēju ģeneratīvā MI jomā. Eiropas Komisija ir paziņojusi konkursa “Large AI Grand Challenge” uzvarētājus. Četri novatoriski Eiropas MI uzņēmumi, tostarp Tilde, kopā kā balvu saņems 1 miljonu eiro un 8 miljonus skaitļošanas stundu, lai palīdzētu Eiropai ieņemt vadošo lomu MI izstrādē. 
Kas ir Tilde?
Tilde viens no Eiropas vadošajiem inovāciju virzītājiem valodu tehnoloģiju jomā un pakalpojumu sniedzējs, kura misija ir veicināt valodu daudzveidību digitālajā laikmetā. Tildes trīs birojos, kuri atrodas Rīgā, Viļņā un Tallinā, strādā vairāk nekā 150 darbinieki. Tildes pētnieku komandā ir deviņi filozofijas zinātņu doktori un viņu pētniecības partneri, un mūsu pētnieki ir vairāk nekā 260 zinātnisku publikāciju autori. Laika gaitā Tilde ir izveidojusi plašu pētniecības un izstrādes partneru tīklu ar ES vadošajiem pētniecības centriem un universitātēm un darbojas kā valodu tehnoloģiju pētniecības centrmezgls Baltijas reģionā. Tildes jaunākās pētniecības un izstrādes darbības koncentrējas uz fundamentālajiem lielajiem valodas modeļiem (LVM), LVM precīzu pielāgošanu sekojošām lietojumprogrammām un ar instrukcijām pielāgotu LVM integrāciju dabiskās valodas apstrādes lietojumprogrammās (piemēram, mašīntulkošana, virtuālie asistenti, izgūšanas papildinātas ģenerēšanas sistēmas, runātās valodas apstrāde, kopsavilkumu veidošana u.c.).