Palaiko:

Didysis DI modelis Europos kalboms 

Mes kuriame atvirą pamatinį LLM (didįjį kalbos modelį) Europos kalboms, kurioms skiriama nepakankamai dėmesio – pagrindą, kurį galėsite pritaikyti pagal savo konkrečius poreikius. Tinkinama, saugu ir sukurta naudojant Europos kalbų duomenis. 

2024 m. birželio mėn.

Tildė laimi dirbtinio intelekto iššūkį
„Large AI Grand Challenge“ 🙌

2024 m. rugsėjis

Gaunama prieiga prie LUMI superkompiuterio
2025 m. kovo mėn.

Modelio mokymas
prasideda
 

2025 m. spalio mėn.

Modelis išleidžiamas
„Hugging Face“ 🎉

Jūsų kalba nusipelno geresnio DI

Dauguma DI modelių sukurti pagrindinėms pasaulio kalboms ir daugiau kaip 90 % LLM mokymo duomenų yra anglų kalba. Tai reiškia, kad Baltijos šalių, slavų ir kitos Europos kalbos yra paliktos nuošalyje, todėl sumažėja tikslumas, prastėja supratimas apie kultūrą, o prieiga prie aukštos kokybės DI priemonių yra ribota.

Mes imamės iniciatyvos

Štai kodėl mes kuriame „TildeLM“ – atvirąjį pamatinį didįjį kalbos modelį su daugiau nei 30 milijardų parametrų, skirtą visoms Europos kalboms palaikyti. Kai jį išleisime, galėsite jį pritaikyti pagal savo poreikius ir saugiai įdiegti vietoje arba debesyje, kad sukurtumėte patikimą DI, kuris iš tikrųjų kalba jūsų kalba.
milijardų parametrų
pagrindinių kalbų
GPU valandų LUMI sistemoje

Kodėl verta naudoti „TildeLM“?

DI pagrindas, kuriuo galite pasitikėti

„TildeLM“ yra daugiau nei technologinis laimėjimas. Tai atvirasis individualaus DI pagrindas, naudingas daugiau kaip 155 mln. europiečių.

Individualūs DI sprendimai, skirti įmonėms ir organizacijoms 💼 

Pritaikykite „TildeLM“ pagal savo pramonę, duomenis ir darbo eigas – nuo virtualiųjų asistentų iki saugaus vertimo, kalbos technologijų ir kt.

Nacionalinių kalbų modelių kūrimas vyriausybėms 🏛️

Kurkite įtraukiuosius kalbų modelius, kurie tenkina visuomenės poreikius, skatina skaitmeninį suverenumą ir palaiko visas oficialias ES kalbas.

Pagrįsta superkompiuteriais, kuriuos palaiko Europa 

„TildeLM“ plėtojimą palaiko Europos Komisija ir jis pagrįstas BĮ „EuroHPC“ aukščiausios klasės superkompiuteriais: LUMI ir „Jupiter“. Laimėjus „Large AI Grand Challenge“, mums LUMI buvo skirta 2 milijonai GPU valandų šiam ambicingam projektui įgyvendinti. 

Indėlis į daugiakalbę ateitį

Norėdami sukurti galingą daugiakalbį LLM su daugiau nei 30 milijardų parametrų, ieškome visos Europos kalbų duomenų. Džiaugiamės autorių, leidėjų, valstybinių bibliotekų ir kitų partnerių indėliais su lanksčiomis, jums palankiomis sąlygomis. 

Prie projekto jau prisidėję duomenų teikėjai:

Mūsų pažadas

Įsipareigojimo atvirai bendradarbiauti 🤝
Valstybinės institucijos gali naudoti „TildeLM“, siekdamos kurti adaptuotus kalbos modelius, kurie padidintų viešųjų paslaugų prieinamumą visiems piliečiams.
Atviros prieigos 🔓
„TildeLM“ bus galima naudoti tiek komerciniais, tiek nekomerciniais tikslais su „Hugging Face“ ir ELRC-SHARE leidimo licencija.
Vientisumo ir saugumo 🛡️

Užtikriname, kad „TildeLM“ bus saugus modelis be kenksmingo arba netikslaus turinio, todėl jį bus galima naudoti įvairioms viešosioms reikmėms.  

Dalijimosi žiniomis 📚

Esame įsipareigoję bendradarbiauti ir dalytis įžvalgomis, kviesti partnerius dirbti drauge su mumis, tobulinant „TildeLM“ visų gerovei.

Būkite informuoti

Nurodykite savo el. pašto adresą, kad gautumėte pranešimą, kai „TildeLM“ bus išleistas „Hugging Face“. 

Dažnai užduodami klausimai

Kas yra „TildeLM“?
Projektu „TildeLM“ siekiama sukurti daugiakalbį pamatinį didįjį kalbos modelį, skirtą Baltijos šalių ir Rytų Europos kalboms, kurioms skiriama mažai dėmesio, siekiant skatinti skaitmeninę lygybę ir gerinti šių bendruomenių prieigą prie pažangių DI technologijų.
Kuo svarbi LLM kalbų lygybė?
Šis disbalansas mažina našumą ir didina išlaidas. Pavyzdžiui, norint užšifruoti vienodą informacijos kiekį mažiau išteklių turinčiomis kalbomis, būtinos ilgesnės sekos, lyginant su anglų kalba, todėl modelių našumas yra mažesnis, o eksploatacija – brangesnė. Be to, šių modelių anglocentrizmas gali lemti nepageidaujamą kultūrinį šališkumą. „TildeLM“ bus mokomas, siekiant užtikrinti visų palaikomų kalbų lygybę.
Kurioms kalboms bus skirtas projektas „TildeLM“?

Projektas orientuojamas į tokias Rytų Europos ir Baltijos šalių kalbas, kaip bulgarų, kroatų, čekų, estų, suomių, latvių, lietuvių, makedonų, juodkalniečių, lenkų, serbų, slovakų, slovėnų ir ukrainiečių. Modelis taip pat proporcingai palaikys didesniąsias kalbas, pvz., anglų, prancūzų, vokiečių ir rusų, kad palaikytų vertimą ir susijusias daugiakalbes užduotis. 

Ką reiškia „pamatinis modelis“?
Pamatinis modelis yra didelis, bendro pobūdžio DI modelis, apmokytas naudojant įvairius duomenis. Jis yra „pagrindas“, skirtas kurti labiau specializuotiems įrankiams, pvz., vidiniams virtualiesiems asistentams, pokalbių robotams ar konkrečios pramonės DI taikomosioms programoms. Išmokius jį galima suderinti naudojant konkrečius duomenis, kad tikslinės užduotys būtų atliekamos tiksliau ir patikimiau.
Kas yra superkompiuteris LUMI?
Superkompiuteris LUMI (didelė bendroji moderni infrastruktūra, angl. „Large Unified Modern Infrastructure“) yra penktas sparčiausias superkompiuteris visame pasaulyje ir pats sparčiausias Europoje. Jis priklauso bendros Europos Sąjungos ir Europos šalių iniciatyvos bendrajai įmonei „EuroHPC“, skirtai Europoje kurti pasaulinio lygio našiosios kompiuterijos (HPC, angl. „high-performance computing“) ekosistemai. Superkompiuteris LUMI yra Kajanyje, Suomijoje. 
Kas yra „Large AI Grand Challenge“?
Europos Komisijos finansuojamas konkursas „Large AI Grand Challenge“ yra skirtas plėsti Europos DI riboms, išnaudojant didžiųjų DI modelių potencialą. Konkurse dalyvavo novatoriški startuoliai ir mažosios bei vidutinės įmonės, turinčios techninių pajėgumų kurti DI modelius, kurie didina Europos generatyvinio DI konkurencingumą. Neseniai Europos Komisija paskelbė „Large AI Grand Challenge“ nugalėtojus. Keturios novatoriškos Europos DI įmonės, tarp jų ir „Tilde“, pasidalys 1 milijoną eurų ir 8 milijonus kompiuterinių valandų, kad sustiprintų Europos lyderystę DI plėtroje. 
Kas yra „Tilde“?
Įmonė „Tilde“ yra viena pirmaujančių Europos kalbos technologijų inovatorių ir paslaugų teikėjų, kurios misija yra puoselėti kalbų įvairovę šiame skaitmeniniame amžiuje. „Tilde“ turi daugiau kaip 150 darbuotojų trijuose biuruose Rygoje, Vilniuje ir Taline. „Tilde“ tyrimų komandą sudaro devyni mokslų daktarai ir jų moksliniai bendradarbiai, kurie bendrai yra paskelbę daugiau kaip 260 mokslinių publikacijų. Per savo veiklos laikotarpį „Tilde“ pavyko užmegzti platų tyrimo ir plėtros bendradarbiavimo tinklą su pirmaujančiais ES tyrimo centrais ir universitetais, be to, ji yra Baltijos regiono kalbos technologijų tyrimo centras. Pastarojo meto „Tilde“ tyrimai ir plėtra yra orientuoti į pamatinius didžiuosius kalbos modelius (LLM), LLM derinimą galutinės grandies panaudojimui ir pagal instrukcijas suderintų LLM integravimą į natūraliosios kalbos apdorojimo sritis (pvz., mašininį vertimą, virtualiuosius asistentus, išorine informacija papildyto generavimo sistemas, šnekamosios kalbos apdorojimą, apibendrinimą ir pan.).