Tildelms: PAR AI pārveidošanu daudzvalodīgai Eiropai

Attīstām TildeLM, atvērtā koda strūklakas LVM (lielo valodu modeli) ar vairāk nekā 30 miljardiem parametru, kas aptver visas Eiropas valodas, galveno uzmanību pievēršot Baltijas un Austrumeiropas valodām. Eiropas Komisijas atbalstīts, TildeLM ir apņēmies revolucionizēt AI ainavu, nodrošinot mūsu reģions gūst labumu no progresīvām tehnoloģijām.

IZAICINĀJUMS

Valodas vienlīdzības nodrošināšana

Lielākā daļa AI modeļu ir orientēti uz galvenajām valodām, vairāk nekā 90% datu ir angļu valodā, tāpēc Baltijas un Austrumeiropas valodas nav pietiekami pārstāvētas. Šī nelīdzsvarotība rada zemākas kvalitātes AI rezultātus un ierobežotu piekļuvi progresīvām tehnoloģijām šo valodu runātājiem. Tildelm to risina, cenšoties visas atbalstītās valodas vienādā mērā pārstāvēt visā TildeLM mācību procesā.

RISINĀJUMS

Eiropas atvērtā koda modeļa izveide

Tildelms tiek veidots, lai pārstāvētu plašu Eiropas valodu spektru, tostarp bulgāru, latviešu, ukraiņu un citas. Šis modelis nav tikai tehnoloģisks sasniegums; tā ir apņemšanās radīt resursu, kas ir pilnībā atvērts un kalpo kā fonds plašam AI lietojumprogrammu klāstam, sniedzot labumu vairāk nekā 155 miljoniem eiropiešu.

miljardi parametru
fokusa valodas
GPU stundas uz LUMI

PIETEIKUMU UN LIETOJUMPROGRAMMU IZMANTOŠANA

Jēgpilnu inovāciju veicināšana dažādās nozarēs

Valsts valodas modeļi
Valdības var izmantot TildeLM, lai izveidotu pielāgotus valodu modeļus, kas uzlabo sabiedrisko pakalpojumu pieejamību visiem iedzīvotājiem.
Pētniecība un izstrāde

Pētnieki var izmantot TildeLM, lai studētu valodas, uzlabotu tulkošanas sistēmas un radītu jaunas valodu tehnoloģiju lietotnes.

Tehnoloģiskā inovācija
Uzņēmumi var izmantot TildeLM, lai attīstītu daudzvalodu AI lietojumprogrammas, piemēram, virtuālos asistentus, teksta ģenerēšanu un runas tehnoloģijas.
Nozarei specifiski risinājumi
Veselības aprūpes un juridiskās nozares var izmantot TildeLM precīzai daudzvalodu apstrādei un tulkošanai.

SKAITĻOŠANAS RESURSI

Izcilība, ko virza Eiropas progresīvākais superdators

TildeLM attīstību paātrina superdators LUMI, kas piešķirts kā daļa no Lielais AI Grand Challenge. Ar 2 miljoniem GPU stundu mūsu rīcībā, LUMI 's lai efektīvi īstenotu šo vērienīgo projektu, izšķiroša nozīme ir milzīgai skaitļošanas jaudai.

MŪSU SOLĪJUMS

Apņemšanās atvērt sadarbību

Mēs esam veltīti atvērtiem zinātnes principiem un ētiskai datu apstrādei, padarot TildeLM brīvi pieejamu. Mēs uzskatām, ka sadarbība un dalītas zināšanas ir inovācijas atslēga, un mēs aicinām pētniekus, izstrādātājus un datu sniedzējus pievienoties mums šajā misijā.

Atvērt piekļuvi

Tildelms būs pieejams gan komerciālai, gan nekomerciālai lietošanai ar atļaujošu licenci, kas publicēta “Hug Faced” un “ELRC-SHARE”.

Integritāte un drošība

Garantējam, ka TildeLM ir drošs un bez kaitīga vai neprecīza satura, nodrošinot tā uzticamību dažādiem publiskās lietošanas gadījumiem.
Zināšanu apmaiņa
Mēs esam apņēmušies sadarboties un dalīties ar ieskatiem, aicinot partnerus sadarboties ar mums TildeLM attīstībā visu labā.

Veicināt daudzvalodu nākotni

Lai izveidotu stabilu daudzvalodu valodas modeli ar vairāk nekā 30 b Parametriem, mums ir nepieciešams ieguldījums valodu datos no visas Eiropas. Mēs atzinīgi vērtējam autoru, izdevēju, valsts bibliotēku un citu personu iesaistīšanos, kas var nodrošināt vērtīgu saturu ar elastīgiem noteikumiem jūsu vajadzībām. Šajā platformā mēs esam vienisprātis ar savu progresu un aicinām jūs piedalīties šajā satraucošajā iniciatīvā.

Jūsu iesaistīšanās ir būtiska, lai nodrošinātu, ka ikvienai valodai ir balss digitālajā laikmetā.

Datu sniedzēji, kas jau ir devuši ieguldījumu projektā:

Bieži uzdotie jautājumi

Kas ir TildeLM?
TildeLM projekta mērķis ir izveidot daudzvalodu pamatvalodas lielvalodas modeli, kas koncentrējas uz nepietiekami pārstāvētām Baltijas un Austrumeiropas valodām, lai veicinātu digitālo taisnīgumu un uzlabotu šo Kopienu piekļuvi progresīvām AI tehnoloģijām.
Kāpēc valodu vienlīdzība LLM ir svarīga?
Šī nelīdzsvarotība ietekmē efektivitāti un izmaksas. Piemēram, lai kodētu tādu pašu informācijas apjomu valodās ar zemākiem resursiem nekā angļu valodā, ir nepieciešamas garākas secības, kas padara modeļus mazāk efektīvus un dārgākus. Turklāt šo modeļu angliskums var radīt nevēlamas kultūras novirzes. Tildelms tiks apmācīts, lai nodrošinātu taisnīgumu visās atbalstītajās valodās.
Kādām valodām TLM projekts pievēršas?

Projekta mērķauditorija ir tādas Austrumeiropas un Baltijas valodas kā bulgāru, horvātu, čehu, Igauņu, somu, Latvijas, Lietuvas, Maķedonijas, Melnkalnes, Polijas, Serbijas, Slovākijas, Slovēnijas un Ukrainas. Modelis atbalstīs arī tādas lielākas valodas kā angļu, franču, vācu un russian līdzsvarotā proporcijā, lai atbalstītu tulkošanu un ar to saistītos daudzvalodu uzdevumus. 

Kas ir LUMI superdators?

LUMI (lielā vienotā modernā infrastruktūra) superdators ir piektais ātrākais superdators pasaulē un ātrākais Eiropā. Tā ir daļa no EuroHPC Kopīgs pasākums, kopīgs darbs, iesaistot Eiropas Savienību un Eiropas valstis, lai Eiropā izveidotu pasaules līmeņa augstas veiktspējas skaitļošanas (HPC) ekosistēmu. Superdators “LUMI” atrodas Kajaani, Somija. 

Kas ir lielais AI Grand Challenge?

Eiropas Komisijas finansētā lielā AI lielā izaicinājuma mērķis ir paplašināt Eiropas AI robežas, izmantojot liela mēroga AI modeļu potenciālu. Konkursa dalībnieki bija inovatīvi jaunuzņēmumi un MVU ar tehniskām spējām izstrādāt AI modeļus, kas veicina Eiropas konkurētspēju paaudžu AI.    

 

Eiropas Komisija paziņojusi lielā AI Grand Challenge uzvarētājus. Četri inovatīvi AI uzņēmumi no Eiropas, tostarp Tilde, dalīs balvu 1 miljona eiro un 8 miljonu skaitļošanas stundu apmērā, lai virzītu Eiropas vadošo lomu AI attīstībā. 

Kas ir Tilde?

Tilde ir vadošs Eiropas valodu tehnoloģiju inovators un pakalpojumu sniedzējs, kura uzdevums ir veicināt valodu daudzveidību digitālajā laikmetā. Tildē ir vairāk nekā 150 darbinieku trīs birojos, kas atrodas Rīgā, Viļņā un Tallinā. Tilde 's izpētes grupa tajā ir deviņi doktori un viņu pētnieciskie līdzstrādnieki, un tā ir sagatavojusi vairāk nekā 260 zinātniskas publikācijas. Gadu gaitā Tilde ir izveidojusi plašu pētniecības un attīstības partnerības tīklu ar vadošajiem ES pētniecības centriem un universitātēm un kalpo kā valodas tehnoloģiju pētniecības centrs Baltijas reģionam.  

 

Jaunākās Tildes pētniecības un attīstības darbības ir vērstas uz pamattehnoloģiju lielo valodu modeļiem (LLM), LLM precizēšanu pakārtotajām lietotnēm un instrukciju pielāgoto LLM integrēšanu dabiskās valodas apstrādes lietotnēs (piemēram, mašīntulkošana, virtuālie asistenti, izgūšanas paplašinātās paaudzes sistēmas, sarunvalodas apstrāde, apkopošana utt.).