„TildeLM“: DI transformacija daugiakalbei Europai

Palaikoma:

Didelis AI modelis Europos kalboms

Mes kuriame atvirą pamatinį LLM (didelės kalbos modelį) nepakankamai atstovaujamoms Europos kalboms – pagrindą, kurį galėsite pritaikyti konkretiems poreikiams. Tinkinami, saugūs ir sukurti su Europos kalbos duomenimis.

2024 m. birželio mėn.

Tildė laimi
Didelio AI didžiojo iššūkio 🙌

2024 m. rugsėjis

Prieiga prie LUMI superkompiuterio GAUTA

2025 m. kovo mėn.

Modelio mokymas
prasideda

2025 m. spalio mėn.

Modelis veikia
dėl veido 🎉 apkabinimo

Jūsų kalba nusipelno geresnio AI

Dauguma AI modelių sukurti pagrindinėms pasaulio kalboms, o daugiau kaip 90% LLM mokymo duomenų yra anglų kalba. Tai reiškia, kad Baltijos, slavų ir kitos Europos kalbos yra paliktos nuošalyje, todėl sumažėja tikslumas, supratimas apie kultūrą ir prieiga prie aukštos kokybės AI priemonių yra ribota.

Mes tai darome

Štai kodėl mes kuriame „TildeLM“ – atvirą pamatinį didelės kalbos modelį su daugiau nei 30 milijardų parametrų, sukurtą visoms Europos kalboms palaikyti. Išleidę galėsite jį pritaikyti savo poreikiams ir saugiai įdiegti – vietoje arba debesyje – kad sukurtumėte patikimą AI, kuri iš tikrųjų kalba jūsų kalba.

milijardų parametrų

pagrindinių kalbų

GPU valandų LUMI sistemoje

Kodėl TildeLM?

AI fondas, kuriuo galite pasitikėti

Tildelm yra daugiau nei technologinis laimėjimas. Tai atviras paprotinės AI pagrindas, naudingas daugiau kaip 155 mln. europiečių.

Individualūs AI sprendimai, skirti įmonėms ir organizacijoms 💼

Pritaikykite „TildeLM“ savo pramonei, duomenims ir darbo eigoms – nuo virtualiųjų asistentų iki saugaus vertimo, kalbėjimo technologijų ir kt.

Nacionalinių kalbų modelių kūrimas vyriausybėms, 🏛 ️

Kurti įtraukiuosius kalbų modelius, kurie tenkintų visuomenės poreikius, skatinti skaitmeninį suverenumą ir remti visas oficialias ES kalbas.

„LUMI“, remiama Europos

„TildeLM“ plėtojimui pritaria Europos Komisija ir jį remia LUMI – greičiausias superkompiuteris Europoje. Laimėdamas „Large AI Grand Challenge“., LUMI buvo skirta 2 milijonai GPU valandų šiam ambicingam projektui įgyvendinti.

Indėlis į daugiakalbę ateitį

Norėdami sukurti stiprią daugiakalbę LLM su daugiau nei 30B parametrs, ieškome visos Europos kalbos duomenų. Džiaugiamės autorų, leidėjų, valstybinių bibliotekų ir kitų partnerių indėliais su lanksčiomis jums tinkančiomis sąlygomis.

Prie projekto jau prisidėję duomenų teikėjai:

Mūsų pažadas

Įsipareigojimas neriboti bendradarbiavimo

Valstybinės institucijos gali išnaudoti „TildeLM“, siekdamos kurti adaptuotus kalbos modelius, kurie padidintų viešųjų paslaugų prieinamumą visiems piliečiams.

Atvira prieiga

„TildeLM“ bus galima naudotis tiek komerciniais, tiek nekomerciniais tikslais su „Hugging Face“ ir ELRC-SHARE leidimo licencija.

Vientisumas ir sauga

Užtikriname, kad „TildeLM“ bus saugus modelis be kenksmingo arba netikslaus turinio, todėl jį bus galima naudoti įvairioms viešosioms reikmėms.

Dalijimasis žiniomis

Esame įsipareigoję bendradarbiauti ir dalytis įžvalgomis, kviesti partnerius dirbti drauge su mumis, tobulinant „TildeLM“ visų gerovei.

Būkite kilpoje

Palikite el. laišką, kad gautumėte pranešimą, kai „TildeLM“ gyvens apsikabinęs veidą.

Dažnai užduodami klausimai

Kas yra TildeLM?

Projektu „TildeLM“ siekiama sukurti daugiakalbį pamatinį didįjį kalbos modelį, skirtą menkai atstovaujamoms Baltijos šalių ir Rytų Europos kalboms, kad būtų kuriama skaitmeninė lygybė ir gerinamas šių bendruomenių prieinamumas prie pažangių DI technologijų.

Kuo svarbi LLM kalbų lygybė?

Šis disbalansas mažina našumą ir didina išlaidas. Pavyzdžiui, norint užšifruoti vienodą informacijos kiekį mažiau išteklių turinčiomis kalbomis, būtinos ilgesnės sekos, lyginant su anglų kalba, todėl modeliai yra mažesnio našumo, o jų eksploatacija yra brangesnė. Be to, šių modelių anglocentrizmas gali lemti nepageidaujamą kultūrinį šališkumą. „TildeLM“ bus mokomas, siekiant užtikrinti visų palaikomų kalbų lygybę.

Kurioms kalboms bus skirytas projektas „TildeLM“?

Projektas orientuojamas į tokias Rytų Europos ir Baltijos šalių kalbas, kaip bulgarų, kroatų, čekų, estų, suomių, latvių, lietuvių, makedonų, juodkalniečių, lenkų, serbų, slovakų, slovėnų ir ukrainiečių. Modelis taip pat proporcingai palaikys didesniąsias kalbas, pvz., anglų, prancūzų, vokiečių ir rusų, kad palaikytų vertimą ir susijusias daugiakalbes užduotis.

Ką reiškia „pamatinis modelis“?

Pamatinis modelis yra didelis, bendro pobūdžio AI modelis, parengtas remiantis įvairiais duomenimis. Jis yra „pagrindas“ kurti labiau specializuotus įrankius, pvz., vidinius virtualius pagalbininkus, pokalbių robotus ar konkrečios pramonės AI taikomąsias programas. Išmokytas jis gali būti suderintas su konkrečiais duomenimis, kad tikslinės užduotys būtų atliekamos tiksliau ir patikimiau.

Kas yra superkompiuteris LUMI?

Superkompiuteris LUMI (didelė bendroji moderni infrastruktūra) yra penktas sparčiausias superkompiuteris visame pasaulyje ir pats sparčiausias Europoje. Jis yra dalis bendros Europos Sąjungos ir Europos šalių iniciatyvos „EuroHPC Joint Undertaking“, skirtos kurti Europoje pasaulinio lygio didelio našumo kompiuterinę (HPC) ekosistemą. Superkompiuteris LUMI yra Kajanyje, Suomijoje.

Kas yra „Large AI Grand Challenge“?

Europos Komisijos finansuojamas konkursas „Large AI Grand Challenge“ yra skirtas plėsti Europos DI ribas, pasitelkiant didžiųjų DI modelių potencialą. Konkurse dalyvavo novatoriški startuoliai ir smulkios bei vidutinės įmonės, turinčios techninių pajėgumų kurti DI modelius, kurie didina Europos generatyvinio DI konkurencingumą. Neseniai Europos Komisija paskelbė „Large AI Grand Challenge“ nugalėtojus. Keturios novatoriškos Europos DI įmonės, tarp jų ir „Tilde“, pasidalys 1 milijoną eurų ir 8 milijonus kompiuterinių valandų, kad sustiprintų Europos lyderystę DI plėtroje.

Kas yra „Tilde“?

Įmonė „Tilde“ yra viena pirmaujančių Europos kalbos technologijų inovatorių ir paslaugų teikėjų, kurios misija yra puoselėti kalbų įvairovę šiame skaitmeniniame amžiuje. „Tilde“ turi daugiau kaip 150 darbuotojų trijuose biuruose Rygoje, Vilniuje ir Taline. „Tilde“ tyrimų komandą sudaro devyni mokslų daktarai ir jų moksliniai bendradarbiai, kurie bendrai yra paskelbę daugiau kaip 260 mokslinių publikacijų. Per savo veiklos laikotarpį „Tilde“ pavyko užmegzti platų tyrimo ir plėtros bendradarbiavimo tinklą su pirmaujančiais ES tyrimo centrais ir universitetais, be to, ji yra Baltijos regiono kalbos technologijų tyrimo centras. Pastarojo meto „Tilde“ tyrimai ir plėtra yra orientuoti į pamatinius didžiuosius kalbos modelius (LLM), LLM derinimą galutinės grandies panaudojimui ir pagal instrukcijas suderintų LLM integravimą į natūraliosios kalbos apdorojimo sritis (pvz., mašininį vertimą, virtualiuosius asistentus, išorine informacija papildyto generavimo sistemas, šnekamosios kalbos apdorojimą, apibendrinimą ir pan.).