TildeOpen LLM: suverēns Eiropas daudzvalodu MI
Atvērtā pirmkoda, pamata LVM (lielais valodas modelis) Eiropas valodām – drošs, pielāgojams un gatavs darbam valdībās, iestādēs un uzņēmumos.
2024. gada jūnijs
Tilde uzvar lielu AI Grand Challenge
2024. gada septembris
Piekļuve LUMI
iegūts superdators
2025. gada marts
Sākas
modeļa apmācība
2025. gada septembris
Modelis iet dzīvot uz apskāviens seja
2026. gada februāris
TildeOpen ir pieejams
Tilde MT
Mūsu valoda ir pelnījusi labāku MI
Lielākā daļa MI modeļu ir veidoti pasaules lielākajām valodām — un vairāk nekā 90% LVM mācību datu ir angļu valodā. Tas nozīmē, ka baltu, slāvu un citas Eiropas valodas atpaliek, kas noved pie zemākas precizitātes, vājākas kultūras izpratnes un ierobežotas piekļuves kvalitatīviem MI rīkiem.
Tāpēc mēs izstrādājām TildeOpen LLM — atvērtā pirmkoda lielo valodas pamatmodeli ar vairāk nekā 30 miljardiem parametru, kas izveidots visu Eiropas valodu atbalstam. Pielāgojiet modeli savām vajadzībām un droši izvietojiet — lokāli vai mākonī —, lai veidotu uzticamu MI, kas tiešām runā jūsu valodā.
Kāpēc TildeOpen?
- Pielāgojams, izmantojot savus datus
- Drošs un pilnībā kontrolējams
- Izvietojams lokāli vai mākonī
- Iespēja integrēt esošās sistēmās un darbplūsmās
- Būvēts kā pamats moderniem MI risinājumiem
MI pamats, kam var uzticēties
TildeOpen ir vairāk nekā tehnoloģisks sasniegums. Tas ir atvērtā pirmkoda pamats pielāgotam mākslīgajam intelektam, kurš var sniegt labumu vairāk nekā 155 miljoniem eiropiešu.
Pielāgoti AI risinājumi uzņēmumiem un organizācijām
Pielāgojiet TildeOpen savai nozarei, datiem un darbplūsmām — no virtuālajiem palīgiem līdz drošai tulkošanai, runas tehnoloģijām un daudz kam citam.
Valsts valodas modeļa izstrāde valdībām
Veidojiet iekļaujošus valodas modeļus, kas kalpo sabiedrības vajadzībām, veicina digitālo suverenitāti un atbalsta visas oficiālās ES valodas.
Uzticama veiktspēja visās fokusa valodās
Tildeopen konsekventi demonstrē spēcīgu lingvistisko precizitāti un izpratni publiskajos etalonos
TildeOpen uzrāda labus rezultātus MultiBLiMP testā, kas mēra modeļa spēju atšķirt gramatiski pareizus teikumus no gramatiski nepareiziem. Zemāks kļūdu īpatsvars liecina par labāku gramatikas modelēšanu un uzticamāku teksta ģenerēšanu. Apskatiet pilnus testa rezultātus šeit.
TildeOpen nodrošina augstāku efektivitāti morfoloģiski bagātās Eiropas valodās, pateicoties īpaši tām pielāgotam tokenizatoram un arhitektūrai. Salīdzinot ar LLaMA-3, tas ir par 41% efektīvāks latviešu valodā, par 37% lietuviešu valodā, par 31% somu valodā un par 28% igauņu un poļu valodā, vienlaikus pārspējot arī GPT un Mistral modeļus. Tas nodrošina ātrāku teksta ģenerēšanu lokālas izvietošanas gadījumos un tādējādi zemākas ekspluatācijas izmaksas par to pašu datu apjomu. Apskatiet pilnus testa rezultātus šeit..
TildeOpen-30B sasniedz nozares līmeņa labāko rezultātu Belebele lasīšanas izpratnes testā, sasniedzot vidējo precizitāti 84,7%. Modelis pārspēj citus lokāli izvietojamus modeļus, piemēram, Gemma-27B, ALIA-40B un EuroLLM-22B. Apskatiet pilnus testa rezultātus šeit..
Darbību nodrošina superdatori, ko atbalsta Eiropa
TildeOpen attīstību atbalsta Eiropas Komisija, un to nodrošina Kopuzņēmuma EuroHPC augstākā līmeņa superdatori — LUMI un Jupiters. Uzvarot Large AI Grand Challenge, mums ir piešķirti 2 miljoni GPU stundu darbam ar LUMI, lai realizētu šo vērienīgo projektu.
Sniedziet savu ieguldījumu daudzvalodu nākotnē
Sāciet apskaut seju
Dodieties uz apskāvienu, lai izpētītu TildeOpen-30b krātuvi un piekļūtu pilnajai tehniskajai dokumentācijai.
Mūsu solījums
Apņemamies nodrošināt atvērtu sadarbību
Valdības var izmantot TildeOpen, lai izveidotu pielāgotus valodas modeļus, kas uzlabo piekļuvi sabiedriskajiem pakalpojumiem visiem iedzīvotājiem.
Integritāte un drošība
Mēs nepārtraukti strādājam pie kaitīga vai neprecīza satura samazināšanas programmā TildeOpen, lai tas varētu būt uzticams resurss dažādiem publiskās lietošanas gadījumiem.
Atvērta piekļuve
TildeOpen būs pieejams gan komerciālai, gan nekomerciālai lietošanai saskaņā ar liberālu licenci, kas tiks publicēta platformā Hugging Face un ELRC-SHARE.
Zināšanu apmaiņa
Mēs esam apņēmušies sadarboties un dalīties ar ieskatiem, aicinot partnerus sadarboties ar mums TildeOpen attīstībā visu labā.
Biežāk uzdotie jautājumi
Kas ir TildeOpen LVM?
Kāpēc lielajos valodas modeļos ir svarīga valodu vienlīdzība?
Kādās valodās TildeOpen projekts koncentrējas?
Kas ir LUMI superdators?
Kas ir Large AI Grand Challenge?
Kas ir Tilde?
Tilde ir vadošais Eiropas valodu tehnoloģiju novators un pakalpojumu sniedzējs, kura uzdevums ir veicināt valodu daudzveidību digitālajā laikmetā. Tildē ir vairāk nekā 150 darbinieku trīs birojos Rīgā, Viļņā un Tallinā. Tildes pētniecības komandu veido deviņi doktoranti un viņu pētniecības partneri, un tā ir autore vairāk nekā 260 zinātniskām publikācijām. Gadu gaitā Tilde ir izveidojusi plašu pētniecības un attīstības partnerības tīklu ar vadošajiem ES pētniecības centriem un universitātēm un darbojas kā valodu tehnoloģiju pētniecības centrs Baltijas reģionā.
Tildes jaunākās pētniecības un izstrādes darbības koncentrējas uz fundamentālajiem lielajiem valodas modeļiem (LVM), LVM precīzu pielāgošanu lejupējām lietojumprogrammām un ar instrukcijām pielāgotu LVM integrāciju dabiskās valodas apstrādes lietojumprogrammās (piemēram, mašīntulkošana, virtuālie asistenti, izgūšanas papildinātas ģenerēšanas sistēmas, runātās valodas apstrāde, kopsavilkumu veidošana u.c.).