Palaiko:

AI POSTŪMIS
AI_BOOST logotipas

Tildeopen LLM: Europos suvereni daugiakalbė AI

Atviras, pamatinis LLM (didelės kalbos modelis) Europos kalboms – saugus, pritaikomas ir parengtas vyriausybėms, institucijoms ir įmonėms. 

2024 m. birželio mėn.

Tildė laimi dirbtinio intelekto iššūkį
„Large AI Grand Challenge“ 🙌

2024 m. rugsėjis

Gaunama prieiga prie LUMI superkompiuterio
2025 m. kovo mėn.

Modelio mokymas
prasideda
 

2025 m. rugsėjis

Modelis išleidžiamas
„Hugging Face“ 🎉

Jūsų kalba nusipelno geresnio DI

Dauguma DI modelių sukurti pagrindinėms pasaulio kalboms ir daugiau kaip 90 % LLM mokymo duomenų yra anglų kalba. Tai reiškia, kad Baltijos šalių, slavų ir kitos Europos kalbos yra paliktos nuošalyje, todėl sumažėja tikslumas, prastėja supratimas apie kultūrą, o prieiga prie aukštos kokybės DI priemonių yra ribota.
bulta_top
bulta_bottom

Mes tai padarėme

Todėl sukūrėme „TildeOpen LLM“ – atviro kodo pamatinį didelės kalbos modelį su daugiau nei 30 mlrd. parametrų, sukurtą visoms Europos kalboms palaikyti. Galite jį pritaikyti savo poreikiams ir saugiai įdiegti – vietoje arba debesyje – kad sukurtumėte patikimą AI, kuri iš tikrųjų kalba jūsų kalba. 
Milijardo parametrai
25 +
Fokusavimo kalbos
28 +
GPU valandų LUMI sistemoje
2 M

Kodėl TildeOpen?

web_llm

DI pagrindas, kuriuo galite pasitikėti

Tildeopen yra daugiau nei technologinis laimėjimas. Tai atviras paprotinės AI pagrindas, naudingas daugiau kaip 155 mln. europiečių.

Individualūs DI sprendimai, skirti įmonėms ir organizacijoms 💼 

Pritaikykite TildeOpen savo pramonei, duomenims ir darbo eigoms – nuo virtualiųjų asistentų iki saugaus vertimo, kalbėjimo technologijų ir kt.

Nacionalinių kalbų modelių kūrimas vyriausybėms 🏛️

Kurkite įtraukiuosius kalbų modelius, kurie tenkina visuomenės poreikius, skatina skaitmeninį suverenumą ir palaiko visas oficialias ES kalbas.

Patikimas efektyvumas visose tikslinėse kalbose

Tildeopen nuolat rodo didelį kalbinį tikslumą ir suprantamumą viešuosiuose lyginamuosiuose standartuose.

(MultiBLiMP)

Tildeopen labai vertina MultiBLiMP lyginamąjį standartą, pagal kurį vertinamas modelio gebėjimas atskirti gramatinius ir negramatinius sakinius. Mažesni klaidų lygiai atspindi stipresnį gramatikos modeliavimą ir patikimesnį teksto generavimą. Peržiūrėti visus sąlyginio etalono rezultatus.
Dėl specialiai jiems sukurto tokenizatoriaus ir architektūros tildeopen daug morfologijos turtingų Europos kalbų vartojimo efektyvumas yra didesnis. Palyginti su Lama-3, jis yra 41% veiksmingesnis latvių kalba, 37% – lietuvių kalba, 31% inFinnish, 28 – estų% ir lenkų kalbomis, taip pat viršija GPT ir Mistral modelius. Tai lemia greitesnį teksto generavimą vietiniuose diegimuose ir atitinkamai mažesnes to paties kiekio duomenų eksploatavimo išlaidas. Peržiūrėti visus sąlyginio etalono rezultatus.
Tildeopen-30B pasiekia naujausią Belebele skaitymo supratimo kriterijaus rezultatą, kurio vidutinis tikslumas yra 84,7%. Šis modelis yra pranašesnis už kitus vietoje diegiamus modelius, pvz., Gemma-27B, ALIA-40B ir EuroLLM-22B. Peržiūrėti visus sąlyginio etalono rezultatus.

Pagrįsta superkompiuteriais, kuriuos palaiko Europa 

TildeOpen plėtrą remia Europos Komisija ir BĮ „EuroHPC“ aukščiausios klasės superkompiuteriais: LUMI ir „Jupiter“. Laimėjus „Large AI Grand Challenge“, mums LUMI buvo skirta 2 milijonai GPU valandų šiam ambicingam projektui įgyvendinti.

web_llm

Indėlis į daugiakalbę ateitį

Norėdami sukurti galingą daugiakalbį LLM su daugiau nei 30 milijardų parametrų, ieškome visos Europos kalbų duomenų. Džiaugiamės autorių, leidėjų, valstybinių bibliotekų ir kitų partnerių indėliais su lanksčiomis, jums palankiomis sąlygomis. 
web_llm

Prie projekto jau prisidėję duomenų teikėjai:

Mūsų pažadas

Įsipareigojimo atvirai bendradarbiauti 🤝

Vyriausybės gali pasitelkti TildeOpen, kad sukurtų specialiai pritaikytus kalbų modelius, kurie pagerintų viešųjų paslaugų prieinamumą visiems piliečiams.

Atviros prieigos 🔓

Tildeopen bus galima naudoti tiek komerciniais, tiek nekomerciniais tikslais pagal licencinę sutartį, paskelbtą „apgaule face“ ir „ELRC-SHARE“.

Vientisumo ir saugumo 🛡️
Nuolat stengiamės sumažinti žalingą arba netikslų TildeOpen turinį, kad jis galėtų būti patikimas įvairių viešojo naudojimo atvejų šaltinis.
Dalijimosi žiniomis 📚

Esame įsipareigoję bendradarbiauti ir dalytis įžvalgomis, kviečiame partnerius dirbti su mumis tobulinant TildeOpen visų labui.

Sukurkite AI, kuri kalba jūsų kalba 

Tildeopen suteikia jums pagrindą kurti saugią ir suverenią AI. Susipažinkite su modeliu dabar
arba pakalbėk su mumis apie jo pritaikymą jūsų poreikiams.

Dažnai užduodami klausimai

Individualus mašininis vertimas, dažnai vadinamas MT, yra specializuotas vertimo būdas, kurį taikant, mašininio vertimo sistemos mokomos ir pritaikomos specifiniams konkrečios įmonės ar pramonės šakos poreikiams, terminijai ir kalbiniams niuansams.
Skirtingai nei bendrosios mašininio vertimo paslaugos, individualus MT leidžia vartotojams pritaikyti vertimo modulius pagal savo unikalius reikalavimus, taip užtikrinant tikslumą, nuoseklumą ir dermę su pasirinkta terminija ir balso tonu.
Projektas orientuojamas į tokias Rytų Europos ir Baltijos šalių kalbas, kaip bulgarų, kroatų, čekų, estų, suomių, latvių, lietuvių, makedonų, juodkalniečių, lenkų, serbų, slovakų, slovėnų ir ukrainiečių. Modelis taip pat proporcingai palaikys didesniąsias kalbas, pvz., anglų, prancūzų, vokiečių ir rusų, kad palaikytų vertimą ir susijusias daugiakalbes užduotis.
Kaip ir pats MT modulis kaina priklauso nuo pasirinktų individualių ypatybių. Susisiekite su mūsų pardavimo komanda, kad aptartumėte savo poreikius, parinktis ir kainas.
Europos Komisijos finansuojamo didelio PG Didžiojo uždavinio tikslas – plėsti Europos PG sienas išnaudojant didelio PG modelių potencialą. Konkurse dalyvavo novatoriškos pradedančiosios įmonės ir MVĮ, turinčios techninių gebėjimų kurti PG modelius, kurie didina Europos konkurencingumą generuojamosios PG srityje. Europos Komisija paskelbė didelio PG Didžiojo iššūkio laimėtojus. Keturioms novatoriškoms Europos PG bendrovėms, įskaitant „Tilde“, bus skirtas 1 mln. EUR ir 8 mln. skaičiavimo valandų prizas, kad Europa galėtų pirmauti PG plėtros srityje.
Ne, vartotojams nereikia patys mokyti pasirinktinio mašininio vertimo modulio. Mūsų ekspertai pritaikys variklį pagal kliento poreikius, terminologiją ir kalbos niuansus.