TildeLM: MI transformācija daudzvalodu Eiropai

Mēs izstrādājam TildeLM — atvērtā koda fundamentālo LVM (lielo valodas modeli) ar vairāk nekā 30 miljardiem parametru, kas aptver visas Eiropas valodas, galveno uzmanību pievēršot Baltijas un Austrumeiropas valodām. Ar Eiropas Komisijas atbalstu TildeLM revolucionizēs MI ekosistēmu, nodrošinot labumu mūsu reģionam, ko sniedz progresīvas tehnoloģijas.

IZAICINĀJUMS

Iestājamies par valodu vienlīdzību

Lielākā daļa MI modeļu ir orientēti uz lielajām valodām, un vairāk nekā 90% datu ir angļu valodā, atstājot Baltijas un Austrumeiropas valodas nepietiekami pārstāvētas. Šīs nelīdzsvarotības sekas šo valodu runātājiem ir zemākas kvalitātes MI rezultāti un ierobežota piekļuve progresīvām tehnoloģijām. TildeLM to risina, izvirzot mērķi vienlīdzīgi pārstāvēt visas atbalstītās valodas visā TildeLM apmācības procesā

RISINĀJUMS

Veidojam atvērtu modeli Eiropai

TildeLM tiek izstrādāts, lai pārstāvētu dažādas Eiropas valodas, tostarp bulgāru, latviešu, ukraiņu un citas. Šis modelis nav tikai kārtējais tehnoloģiskais sasniegums — tas nozīmē apņemšanos izveidot resursu, kas ir pilnībā atvērts un kalpo par pamatu visdažādākajiem MI lietojuma veidiem, lai sniegtu labumu vairāk nekā 155 miljoniem eiropiešu.

miljardi parametru
fokusa valodas
LUMI GPU stundas

LIETOŠANAS IESPĒJAS UN JOMAS

Virzām nozīmīgas inovācijas nozarēs

Nacionālie valodu modeļi
Valsts iestādes var izmantot TildeLM, lai veidotu pielāgotus valodas modeļus, kuri uzlabotu sabiedrisko pakalpojumu pieejamību visiem iedzīvotājiem.
Pētniecība un izstrāde

Pētnieki var izmantot TildeLM, lai pētītu valodas, uzlabotu tulkošanas sistēmas un veidotu vēl nebijušas valodu tehnoloģiju lietojuma iespējas.

Tehnoloģiskās inovācijas
Uzņēmumi var izmantot TildeLM, lai attīstītu daudzvalodu MI lietojumus, piemēram, virtuālo asistentu, teksta ģenerēšanas un runas tehnoloģijas.
Risinājumi dažādām nozarēm
Veselības aprūpes un tieslietu nozares var izmantot TildeLM precīzai daudzvalodu teksta apstrādei un tulkošanai.

DATOŠANAS RESURSI

Izcilība, ko nodrošina Eiropā modernākais superdators

TildeLM izstrādi paātrina superdators LUMI, un iespēja to izmantot tika iegūta konkursā Large AI Grand Challenge.Mūsu rīcībā ir 2 miljoni grafiskā procesora darba stundu, un LUMI milzīgā datošanas jauda ir ārkārtīgi svarīga efektīvai šī ambiciozā projekta īstenošanai.

MŪSU SOLĪJUMS

Apņemamies nodrošināt atvērtu sadarbību

Mēs ievērojam atvērtās zinātnes principus un nodrošinām ētisku datu apstrādi, lai TildeLM būtu brīvi pieejams. Mēs ticam, ka sadarbība un kopīgas zināšanas ir īstais ceļš pretī inovācijām, un mēs aicinām pētniekus, izstrādātājus un datu pakalpojumu sniedzējus pievienoties mums šajā uzdevumā.

Atvērta piekļuve

TildeLM būs pieejams gan komerciālai, gan nekomerciālai izmantošanai ar liberālu licenci, un tas tiks publicēts Hugging Face un ELRC-SHARE.

Integritāte un drošība

Mēs garantējam, ka TildeLM ir drošs un tajā nav kaitīga vai kļūdaina satura, tādējādi nodrošinot resursa uzticamību daudzveidīgam, publiskam lietojumam.
Zināšanu apmaiņa
Mēs esam apņēmušies veidot sadarbību un dalīties ar informāciju, aicinot partnerus strādāt kopā ar mums un virzīt TildeLM attīstību, lai ikvienam būtu labums.

Sniedziet savu ieguldījumu daudzvalodu nākotnē

Lai izveidotu stabilu daudzvalodu modeli ar vairāk nekā 30 miljardiem parametru, mums ir nepieciešami valodu dati no visas Eiropas. Mēs aicinām iesaistīties autorus, izdevējus, valstu bibliotēkas un ikvienu citu, kas var sniegt vērtīgu saturu, ievērojot elastīgus noteikumus atbilstoši iesniedzēja vajadzībām. Šajā platformā mēs dalāmies ar informāciju par projekta virzību un aicinām jūs kļūt par daļu no šīs revulucionārās iniciatīvas.

Jūsu iesaistīšanās ir ļoti svarīga, lai digitālajā laikmetā varētu skanēt ikviena valoda.

Datu pakalpojumu sniedzēji, kas jau ir iesaistījušies šajā projektā

Bieži uzdotie jautājumi

Kas ir TildeLM?
TildeLM projekta mērķis ir izveidot fundamentālu daudzvalodu lielo valodas modeli, kas koncentrējas uz nepietiekami pārstāvētajām Baltijas un Austrumeiropas valodām, lai sekmētu digitālo vienlīdzību un uzlabotu piekļuvi modernām MI tehnoloģijām šajās kopienās.
Kāpēc lielajos valodas modeļos ir svarīga valodu vienlīdzība?
Līdzsvara trūkums ietekmē efektivitāti un izmaksas. Piemēram, lai tādu pašu informācijas apjomu kodētu mazāk pārstāvētās valodās, ir nepieciešama garāka secība nekā angļu valodai, līdz ar to modeļi ir mazāk efektīvi un to darbība izmaksā dārgāk. Turklāt šo modeļu orientēšanās uz angļu valodu var novest pie nevēlamas kultūru diskriminācijas. TildeLM tiks apmācīts, lai nodrošinātu vienlīdzību visām atbalstītajām valodām.
Uz kādām valodām koncentrējas TildeLM projekts?

Projekta mērķa valodas ir Austrumeiropas un Baltijas valstu valodas, piemēram, bulgāru, horvātu, čehu, igauņu, somu, latviešu, lietuviešu, maķedoniešu, melnkalniešu, poļu, serbu, slovāku, slovēņu un ukraiņu. Modelis līdzvērtīgās proporcijās atbalstīs arī lielākas valodas, piemēram, angļu, franču, vācu un krievu, lai nodrošinātu tulkošanu un ar to saistītos daudzvalodu uzdevumus. 

Kas ir LUMI superdators?
LUMI (Large Unified Modern Infrastructure — lielā vienotā modernā infrastruktūra) superdators ir piektais ātrākais superdators pasaulē un visātrākais Eiropā. Tas ir daļa no kopuzņēmuma EuroHPC, kurā Eiropas Savienība un Eiropas valstis sadarbojas, lai radītu pasaules klases augstas veiktspējas skaitļošanas (High-Performance Computing — HPC) ekosistēmu Eiropā. LUMI superdators atrodas Kajāni, Somijā. 
Kas ir “Large AI Grand Challenge”?
Eiropas Komisijas dibinātā konkursa “Large AI Grand Challenge” mērķis ir paplašināt Eiropas MI apvāršņus, izmantojot liela mēroga MI modeļu potenciālu. Konkursā piedalījās inovatīvi jaunuzņēmumi, kā arī mazie un vidējie uzņēmumi ar tehnisko kapacitāti tādu MI modeļu izstrādei, kas veicina Eiropas konkurētspēju ģeneratīvā MI jomā. Eiropas Komisija ir paziņojusi konkursa “Large AI Grand Challenge” uzvarētājus. Četri inovatīvi Eiropas MI uzņēmumi, tostarp Tilde, kopā kā balvu saņems 1 miljonu eiro un 8 miljonus datošanas stundu, lai palīdzētu Eiropai ieņemt vadošo lomu MI izstrādē. 
Kas ir Tilde?
Tilde viens no Eiropas vadošajiem inovāciju virzītājiem valodu tehnoloģiju jomā un pakalpojumu sniedzējs, kura misija ir veicināt valodu daudzveidību digitālajā laikmetā. Tildes trīs birojos, kuri atrodas Rīgā, Viļņā un Tallinā, strādā vairāk nekā 150 darbinieki. Tildes pētnieku komandā ir deviņi zinātņu doktori un viņu zinātniskie līdzstrādnieki, un mūsu pētnieki ir vairāk nekā 260 zinātnisku publikāciju autori. Laika gaitā Tilde ir izveidojusi plašu pētniecības un izstrādes partneru tīklu ar ES vadošajiem pētniecības centriem un universitātēm un darbojas kā valodu tehnoloģiju pētniecības centrmezgls Baltijas reģionā. Tildes jaunākās pētniecības un izstrādes darbības koncentrējas uz fundamentālajiem lielajiem valodas modeļiem (LVM), LVM precīzu pielāgošanu lejupējām lietojumprogrammām un ar instrukcijām pielāgotu LVM integrāciju dabiskās valodas apstrādes lietojumprogrammās (piemēram, mašīntulkošana, virtuālie asistenti, izgūšanas papildinātas ģenerēšanas sistēmas, runātās valodas apstrāde, kopsavilkumu veidošana u.c.).