Palaiko:

Tildeopen LLM: Europos suvereni daugiakalbė AI

Atviras, pamatinis LLM (didelės kalbos modelis) Europos kalboms – saugus, pritaikomas ir parengtas vyriausybėms, institucijoms ir įmonėms. 

2024 m. birželio mėn.

Tildė laimi dirbtinio intelekto iššūkį
„Large AI Grand Challenge“ 🙌

2024 m. rugsėjis

Gaunama prieiga prie LUMI superkompiuterio
2025 m. kovo mėn.

Modelio mokymas
prasideda
 

2025 m. rugsėjis

Modelis išleidžiamas
„Hugging Face“ 🎉

Jūsų kalba nusipelno geresnio DI

Dauguma DI modelių sukurti pagrindinėms pasaulio kalboms ir daugiau kaip 90 % LLM mokymo duomenų yra anglų kalba. Tai reiškia, kad Baltijos šalių, slavų ir kitos Europos kalbos yra paliktos nuošalyje, todėl sumažėja tikslumas, prastėja supratimas apie kultūrą, o prieiga prie aukštos kokybės DI priemonių yra ribota.

Mes tai padarėme

Tai yra kodėl mes „V kurtiteksto Tildeopen LLM atvirasis pamatinis didelės kalbos modelis su daugiau kaip 30 mlrd. parametrų, sukurtas visoms Europos kalboms palaikyti. Yu skardinė suderinkite jį pagal savo poreikius ir saugiai įdiekite vietoje arba debesyje sukurti patikimą AI, kad iš tikrųjų kalba tavo kalba. 

milijardų parametrų
pagrindinių kalbų
GPU valandų LUMI sistemoje

Kodėl TildeOpen?

DI pagrindas, kuriuo galite pasitikėti

Tildeopen yra daugiau nei technologinis laimėjimas. Tai atviras paprotinės AI pagrindas, naudingas daugiau kaip 155 mln. europiečių.

Individualūs DI sprendimai, skirti įmonėms ir organizacijoms 💼 

Pritaikykite TildeOpen savo pramonei, duomenims ir darbo eigoms – nuo virtualiųjų asistentų iki saugaus vertimo, kalbėjimo technologijų ir kt.

Nacionalinių kalbų modelių kūrimas vyriausybėms 🏛️

Kurkite įtraukiuosius kalbų modelius, kurie tenkina visuomenės poreikius, skatina skaitmeninį suverenumą ir palaiko visas oficialias ES kalbas.

Pagrįsta superkompiuteriais, kuriuos palaiko Europa 

TildeOpen plėtrą remia Europos Komisija ir BĮ „EuroHPC“ aukščiausios klasės superkompiuteriais: LUMI ir „Jupiter“. Laimėjus „Large AI Grand Challenge“, mums LUMI buvo skirta 2 milijonai GPU valandų šiam ambicingam projektui įgyvendinti. 

Indėlis į daugiakalbę ateitį

Norėdami sukurti galingą daugiakalbį LLM su daugiau nei 30 milijardų parametrų, ieškome visos Europos kalbų duomenų. Džiaugiamės autorių, leidėjų, valstybinių bibliotekų ir kitų partnerių indėliais su lanksčiomis, jums palankiomis sąlygomis. 

Prie projekto jau prisidėję duomenų teikėjai:

Mūsų pažadas

Įsipareigojimo atvirai bendradarbiauti 🤝

Vyriausybės gali pasitelkti TildeOpen, kad sukurtų specialiai pritaikytus kalbų modelius, kurie pagerintų viešųjų paslaugų prieinamumą visiems piliečiams.

Atviros prieigos 🔓

Tildeopen bus galima naudoti tiek komerciniais, tiek nekomerciniais tikslais pagal licencinę sutartį, paskelbtą „apgaule face“ ir „ELRC-SHARE“.

Vientisumo ir saugumo 🛡️
Nuolat stengiamės sumažinti žalingą arba netikslų TildeOpen turinį, kad jis galėtų būti patikimas įvairių viešojo naudojimo atvejų šaltinis.
Dalijimosi žiniomis 📚

Esame įsipareigoję bendradarbiauti ir dalytis įžvalgomis, kviečiame partnerius dirbti su mumis tobulinant TildeOpen visų labui.

Sukurkite AI, kuri kalba jūsų kalba 

Tildeopen suteikia jums pagrindą kurti saugią ir suverenią AI. Susipažinkite su modeliu dabar
arba pakalbėk su mumis apie jo pritaikymą jūsų poreikiams.

Dažnai užduodami klausimai

Kas yra TildeOpen LLM?

TildeOpen LLM projektu siekiama sukurti daugiakalbį pamatinį didelės kalbos modelį, kuriame daugiausia dėmesio būtų skiriama nepakankamai atstovaujamoms Baltijos ir Rytų Europos kalboms, siekiant skatinti skaitmeninį teisingumą ir gerinti šių bendruomenių prieigą prie pažangių AI technologijų.

Kuo svarbi LLM kalbų lygybė?

Šis disbalansas turi veiksmingumo ir išlaidų pasekmių. Pavyzdžiui, norint užkoduoti tokį patį informacijos kiekį mažiau išteklių turinčiomis kalbomis, palyginti su anglų kalba, reikalingos ilgesnės sekos, todėl modeliai tampa mažiau veiksmingi ir brangesni. Be to, šių modelių anglų-Centricity gali sukelti nepageidaujamą kultūrinį šališkumą. Tildeopen bus mokomi užtikrinti visų palaikomų kalbų teisingumą.

Kokioms kalboms skirtas TildeOpen projektas?

Projektas orientuojamas į tokias Rytų Europos ir Baltijos šalių kalbas, kaip bulgarų, kroatų, čekų, estų, suomių, latvių, lietuvių, makedonų, juodkalniečių, lenkų, serbų, slovakų, slovėnų ir ukrainiečių. Modelis taip pat proporcingai palaikys didesniąsias kalbas, pvz., anglų, prancūzų, vokiečių ir rusų, kad palaikytų vertimą ir susijusias daugiakalbes užduotis. 

Ką reiškia „pamatinis modelis“?
Pamatinis modelis yra didelis, bendro pobūdžio DI modelis, apmokytas naudojant įvairius duomenis. Jis yra „pagrindas“, skirtas kurti labiau specializuotiems įrankiams, pvz., vidiniams virtualiesiems asistentams, pokalbių robotams ar konkrečios pramonės DI taikomosioms programoms. Išmokius jį galima suderinti naudojant konkrečius duomenis, kad tikslinės užduotys būtų atliekamos tiksliau ir patikimiau.
Kas yra superkompiuteris LUMI?
Superkompiuteris LUMI (didelė bendroji moderni infrastruktūra, angl. „Large Unified Modern Infrastructure“) yra penktas sparčiausias superkompiuteris visame pasaulyje ir pats sparčiausias Europoje. Jis priklauso bendros Europos Sąjungos ir Europos šalių iniciatyvos bendrajai įmonei „EuroHPC“, skirtai Europoje kurti pasaulinio lygio našiosios kompiuterijos (HPC, angl. „high-performance computing“) ekosistemai. Superkompiuteris LUMI yra Kajanyje, Suomijoje. 
Kas yra „Large AI Grand Challenge“?
Europos Komisijos finansuojamas konkursas „Large AI Grand Challenge“ yra skirtas plėsti Europos DI riboms, išnaudojant didžiųjų DI modelių potencialą. Konkurse dalyvavo novatoriški startuoliai ir mažosios bei vidutinės įmonės, turinčios techninių pajėgumų kurti DI modelius, kurie didina Europos generatyvinio DI konkurencingumą. Neseniai Europos Komisija paskelbė „Large AI Grand Challenge“ nugalėtojus. Keturios novatoriškos Europos DI įmonės, tarp jų ir „Tilde“, pasidalys 1 milijoną eurų ir 8 milijonus kompiuterinių valandų, kad sustiprintų Europos lyderystę DI plėtroje. 
Kas yra „Tilde“?
Įmonė „Tilde“ yra viena pirmaujančių Europos kalbos technologijų inovatorių ir paslaugų teikėjų, kurios misija yra puoselėti kalbų įvairovę šiame skaitmeniniame amžiuje. „Tilde“ turi daugiau kaip 150 darbuotojų trijuose biuruose Rygoje, Vilniuje ir Taline. „Tilde“ tyrimų komandą sudaro devyni mokslų daktarai ir jų moksliniai bendradarbiai, kurie bendrai yra paskelbę daugiau kaip 260 mokslinių publikacijų. Per savo veiklos laikotarpį „Tilde“ pavyko užmegzti platų tyrimo ir plėtros bendradarbiavimo tinklą su pirmaujančiais ES tyrimo centrais ir universitetais, be to, ji yra Baltijos regiono kalbos technologijų tyrimo centras. Pastarojo meto „Tilde“ tyrimai ir plėtra yra orientuoti į pamatinius didžiuosius kalbos modelius (LLM), LLM derinimą galutinės grandies panaudojimui ir pagal instrukcijas suderintų LLM integravimą į natūraliosios kalbos apdorojimo sritis (pvz., mašininį vertimą, virtualiuosius asistentus, išorine informacija papildyto generavimo sistemas, šnekamosios kalbos apdorojimą, apibendrinimą ir pan.).