Palaiko:

AI POSTŪMIS
AI_BOOST logotipas

Tildeopen LLM: Europos suvereni daugiakalbė AI

Atviras, pamatinis LLM (didelės kalbos modelis) Europos kalboms – saugus, pritaikomas ir parengtas vyriausybėms, institucijoms ir įmonėms. 

2024 m. birželio mėn.

Tildė laimi didelę AI

Galutinė užduoties 🙌

2024 m. rugsėjis

Prieiga prie LUMI
gautas superkompiuteris

2025 m. kovo mėn.

Modelio mokymas
prasideda
 

2025 m. rugsėjis

Modelis išleidžiamas
„Hugging Face“ 🎉

2026 m. vasario mėn.

TildeOpen pradėjo veikti

Tilde MT

Jūsų kalba nusipelno geresnio DI

Dauguma DI modelių sukurti pagrindinėms pasaulio kalboms ir daugiau kaip 90 % LLM mokymo duomenų yra anglų kalba. Tai reiškia, kad Baltijos šalių, slavų ir kitos Europos kalbos yra paliktos nuošalyje, todėl sumažėja tikslumas, prastėja supratimas apie kultūrą, o prieiga prie aukštos kokybės DI priemonių yra ribota.
bulta_top
bulta_bottom

Mes tai padarėme

Todėl sukūrėme „TildeOpen LLM“ – atviro kodo pamatinį didelės kalbos modelį su daugiau nei 30 mlrd. parametrų, sukurtą visoms Europos kalboms palaikyti. Galite jį pritaikyti savo poreikiams ir saugiai įdiegti – vietoje arba debesyje – kad sukurtumėte patikimą AI, kuri iš tikrųjų kalba jūsų kalba. 
Milijardo parametrai
25 +
Fokusavimo kalbos
28 +
GPU valandų LUMI sistemoje
2 M

Kodėl TildeOpen?

web_llm

DI pagrindas, kuriuo galite pasitikėti

Tildeopen yra daugiau nei technologinis laimėjimas. Tai atviras paprotinės AI pagrindas, naudingas daugiau kaip 155 mln. europiečių.

Individualūs DI sprendimai, skirti įmonėms ir organizacijoms 💼 

Pritaikykite TildeOpen savo pramonei, duomenims ir darbo eigoms – nuo virtualiųjų asistentų iki saugaus vertimo, kalbėjimo technologijų ir kt.

Nacionalinių kalbų modelių kūrimas vyriausybėms 🏛️

Kurkite įtraukiuosius kalbų modelius, kurie tenkina visuomenės poreikius, skatina skaitmeninį suverenumą ir palaiko visas oficialias ES kalbas.

Patikimas efektyvumas visose tikslinėse kalbose

Tildeopen nuolat rodo didelį kalbinį tikslumą ir suprantamumą viešuosiuose lyginamuosiuose standartuose.

Tildeopen aktyviai veikia Multiblimp lyginamasis standartas, pagal kurį vertinamas modelio gebėjimas atskirti gramatinius ir negramatinius sakinius. Mažesni klaidų lygiai atspindi stipresnį gramatikos modeliavimą ir patikimesnį teksto generavimą. Peržiūrėti visus sąlyginio etalono rezultatus.

Dėl specialiai jiems sukurto tokenizatoriaus ir architektūros tildeopen daug morfologijos turtingų Europos kalbų vartojimo efektyvumas yra didesnis. Palyginti su Lama-3, jis yra 41% veiksmingesnis latvių kalba, 37% – lietuvių kalba, 31% inFinnish, 28 – estų% ir lenkų kalbomis, taip pat viršija GPT ir Mistral modelius. Tai lemia greitesnį teksto generavimą vietiniuose diegimuose ir atitinkamai mažesnes to paties kiekio duomenų eksploatavimo išlaidas. Peržiūrėti visus sąlyginio etalono rezultatus.

Tildeopen-30B pasiekia naujausią Belebele skaitymo supratimo kriterijaus rezultatą, kurio vidutinis tikslumas yra 84,7%. Šis modelis yra pranašesnis už kitus vietoje diegiamus modelius, pvz., Gemma-27B, ALIA-40B ir EuroLLM-22B. Peržiūrėti visus sąlyginio etalono rezultatus.

Pagrįsta superkompiuteriais, kuriuos palaiko Europa 

TildeOpen plėtrą remia Europos Komisija ir BĮ „EuroHPC“ aukščiausios klasės superkompiuteriais: LUMI ir „Jupiter“. Laimėjus „Large AI Grand Challenge“, mums LUMI buvo skirta 2 milijonai GPU valandų šiam ambicingam projektui įgyvendinti.

web_llm

Indėlis į daugiakalbę ateitį

Norėdami sukurti galingą daugiakalbį LLM su daugiau nei 30 milijardų parametrų, ieškome visos Europos kalbų duomenų. Džiaugiamės autorių, leidėjų, valstybinių bibliotekų ir kitų partnerių indėliais su lanksčiomis, jums palankiomis sąlygomis. 
web_llm

Prie projekto jau prisidėję duomenų teikėjai:

Mūsų pažadas

Įsipareigojimo atvirai bendradarbiauti 🤝

Vyriausybės gali pasitelkti TildeOpen, kad sukurtų specialiai pritaikytus kalbų modelius, kurie pagerintų viešųjų paslaugų prieinamumą visiems piliečiams.

Atviros prieigos 🔓

Tildeopen bus galima naudoti tiek komerciniais, tiek nekomerciniais tikslais pagal licencinę sutartį, paskelbtą „apgaule face“ ir „ELRC-SHARE“.

Vientisumo ir saugumo 🛡️
Nuolat stengiamės sumažinti žalingą arba netikslų TildeOpen turinį, kad jis galėtų būti patikimas įvairių viešojo naudojimo atvejų šaltinis.
Dalijimosi žiniomis 📚

Esame įsipareigoję bendradarbiauti ir dalytis įžvalgomis, kviečiame partnerius dirbti su mumis tobulinant TildeOpen visų labui.

Sukurkite AI, kuri kalba jūsų kalba 

Tildeopen suteikia jums pagrindą kurti saugią ir suverenią AI. Susipažinkite su modeliu dabar
arba pakalbėk su mumis apie jo pritaikymą jūsų poreikiams.

Dažniausiai užduodami klausimai

Projektu „TildeLM“ siekiama sukurti daugiakalbį pamatinį didįjį kalbos modelį, skirtą Baltijos šalių ir Rytų Europos kalboms, kurioms skiriama mažai dėmesio, siekiant skatinti skaitmeninę lygybę ir gerinti šių bendruomenių prieigą prie pažangių DI technologijų.
Šis disbalansas mažina našumą ir didina išlaidas. Pavyzdžiui, norint užšifruoti vienodą informacijos kiekį mažiau išteklių turinčiomis kalbomis, būtinos ilgesnės sekos, lyginant su anglų kalba, todėl modelių našumas yra mažesnis, o eksploatacija – brangesnė. Be to, šių modelių anglocentrizmas gali lemti nepageidaujamą kultūrinį šališkumą. „TildeLM“ bus mokomas, siekiant užtikrinti visų palaikomų kalbų lygybę.
Projektas orientuojamas į tokias Rytų Europos ir Baltijos šalių kalbas, kaip bulgarų, kroatų, čekų, estų, suomių, latvių, lietuvių, makedonų, juodkalniečių, lenkų, serbų, slovakų, slovėnų ir ukrainiečių. Modelis taip pat proporcingai palaikys didesniąsias kalbas, pvz., anglų, prancūzų, vokiečių ir rusų, kad palaikytų vertimą ir susijusias daugiakalbes užduotis.
Superkompiuteris LUMI (didelė bendroji moderni infrastruktūra, angl. „Large Unified Modern Infrastructure“) yra penktas sparčiausias superkompiuteris visame pasaulyje ir pats sparčiausias Europoje. Jis priklauso bendros Europos Sąjungos ir Europos šalių iniciatyvos bendrajai įmonei „EuroHPC“, skirtai Europoje kurti pasaulinio lygio našiosios kompiuterijos (HPC, angl. „high-performance computing“) ekosistemai. Superkompiuteris LUMI yra Kajanyje, Suomijoje.
Europos Komisijos finansuojamo didelio PG Didžiojo uždavinio tikslas – plėsti Europos PG sienas išnaudojant didelio PG modelių potencialą. Konkurse dalyvavo novatoriškos pradedančiosios įmonės ir MVĮ, turinčios techninių gebėjimų kurti PG modelius, kurie didina Europos konkurencingumą generuojamosios PG srityje. Europos Komisija paskelbė didelio PG Didžiojo iššūkio laimėtojus. Keturioms novatoriškoms Europos PG bendrovėms, įskaitant „Tilde“, bus skirtas 1 mln. EUR ir 8 mln. skaičiavimo valandų prizas, kad Europa galėtų pirmauti PG plėtros srityje.
„Tilde“ yra pirmaujanti Europos kalbų technologijų novatorė ir paslaugų teikėja, kurios užduotis – skatinti kalbų įvairovę skaitmeniniame amžiuje. Tilde dirba daugiau kaip 150 darbuotojų trijuose biuruose Rygoje, Vilniuje ir Taline. „Tilde“ mokslinių tyrimų grupę sudaro devyni daktarai ir jų mokslinių tyrimų partneriai, kurie yra sukūrę daugiau kaip 260 mokslinių leidinių. Per daugelį metų Tilde sukūrė platų MTTP partnerystės tinklą su pagrindiniais ES mokslinių tyrimų centrais ir universitetais ir yra Baltijos regiono kalbos technologijų mokslinių tyrimų centras. Naujausia „Tilde“ mokslinių tyrimų ir technologinės plėtros veikla daugiausia susijusi su pagrindiniais didelės kalbos modeliais (LLMs), galutinės grandies taikomųjų programų LLMs tobulinimu ir pagal instrukcijas pritaikytų LLMs integravimu į natūralios kalbos apdorojimo taikomąsias programas. (pvz., mašininis vertimas, virtualūs padėjėjai, paieškos išplėstinės generavimo sistemos, kalbinės kalbos apdorojimas, apibendrinimas ir t. t.).