„TildeLM“: DI transformacija daugiakalbei Europai

Mes kuriame „TildeLM“, atvirą pamatinį LLM (didelės kalbos modelį), kuriame yra daugiau kaip 30 mlrd. parametrų, apimančių visas Europos kalbas, daugiausia dėmesio skiriant Baltijos ir Rytų Europos kalboms. Europos Komisijos remiamas „TildeLM“ ketina iš esmės pakeisti AI kraštovaizdį ir užtikrinti, kad mūsų regionui būtų naudingos pažangiausios technologijos.

UŽDUOTIS

Pasisakome už kalbų lygybę

Daugelis DI modelių yra skirti didžiosioms kalboms – daugiau kaip 90 % jų duomenų yra renkami anglų kalba – todėl Baltijos šalių ir Rytų Europos kalbos yra atstovaujamos per menkai. Šis disbalansas lemia prastesnius DI rezultatus ir ribotą prieigą prie pažangiausių technologijų kalbantiems šiomis kalbomis. „TildeLM“ sprendžia šią problemą, kad „TildeLM“ mokymo proceso metu būtų vienodai atstovaujamos visos palaikomos kalbos.

SPRENDIMAS

Atviro Europos modelio kūrimas

„TildeLM“ kuriamas siekiant suteikti palaikymą tokioms Europos kalboms, kaip bulgarų, latvių, ukrainiečių ir kt. Šis modelis – ne vien technologinis pasiekimas. Tai yra ir įsipareigojimas sukurti visiškai atvirą išteklių, kuris suteiks pamatą įvairioms DI panaudojimo sritims ir pravers daugiau kaip 155 milijonų europiečių.

milijardų parametrų
pagrindinių kalbų
GPU valandų LUMI sistemoje

PANAUDOJIMO IR PRITAIKYMO ATVEJAI

Galingos ir prasmingos inovacijos įvairiuose sektoriuose

Nacionalinių kalbų modeliai
Valstybinės institucijos gali išnaudoti „TildeLM“, siekdamos kurti adaptuotus kalbos modelius, kurie padidintų viešųjų paslaugų prieinamumą visiems piliečiams.
Tyrimai ir plėtra

Tyrėjai gali išnaudoti „TildeLM“ kalbų tyrimams, vertimo sistemų tobulinimui ir naujų kalbos technologijų panaudojimo būdams kurti.

Technologinė inovacija
Įmonės gali naudotis „TildeLM“, kad galėtų plėtoti tokias daugiakalbes DI panaudojimo sritis, kaip virtualieji asistentai, teksto generatoriai ir šnekos technologijos.
Sprendimai konkrečioms veiklos sritims
Sveikatos apsaugos specialistai ir teisininkai gali išnaudoti „TildeLM“ tiksliam daugiakalbiam apdorojimui ir vertimui.

SKAIČIAVIMO IŠTEKLIAI

Pažangiausio Europos superkompiuterio teikiama pažanga

„TildeLM“ kūrimo procesą spartina LUMI superkompiuteris, kurio išteklius įmonė laimėjo konkurse „Large AI Grand Challenge“.Galime naudotis 2 milijonais milžiniškos kompiuterinės galios LUMI GPU valandų, kurios yra nepamainomos našiam šios ambicingo projekto įgyvendinimui.

MŪSŲ PAŽADAS

Įsipareigojimas neriboti bendradarbiavimo

Ištikimai laikomės atvirojo mokslo ir etiško duomenų panaudojimo principų, todėl „TildeLM“ bus visiškai nemokama. Tikime, kad inovacijos pagrindas yra bendradarbiavimas ir dalijimasis žiniomis, todėl kviečiame tyrėjus, kūrėjus ir duomenų teikėjus jungtis prie mūsų misijos.

Atvira prieiga

„TildeLM“ bus galima naudotis tiek komerciniais, tiek nekomerciniais tikslais su „Hugging Face“ ir ELRC-SHARE leidimo licencija.

Vientisumas ir sauga

Užtikriname, kad „TildeLM“ bus saugus modelis be kenksmingo arba netikslaus turinio, todėl jį bus galima naudoti įvairioms viešosioms reikmėms.
Dalijimasis žiniomis
Esame įsipareigoję bendradarbiauti ir dalytis įžvalgomis, kviesti partnerius dirbti drauge su mumis, tobulinant „TildeLM“ visų gerovei.

Indėlis į daugiakalbę ateitį

Kad sugebėtume sukurti solidų daugiakalbį kalbos modelį su daugiau kaip 30 mlrd. parametrų, mums reikės kalbos duomenų iš visos Europos. Kviečiame prisidėti autorius, leidėjus, valstybines bibliotekas ir visus, kas gali suteikti vertingo turinio lanksčiomis sąlygomis, kurios atitiktų jūsų poreikius. Šioje platformoje dalysimės naujienomis apie savo pažangą ir kviesime jus tapti šios veržlios iniciatyvos dalimi. Jūsų indėlis yra nepamainomas, siekiant užtikrinti, kad šiame skaitmeniniame amžiuje būtų išgirsta kiekviena kalba.

Jūsų dalyvavimas yra būtinas norint užtikrinti, kad skaitmeniniame amžiuje kiekviena kalba turėtų balsą.

Prie projekto jau prisidėję duomenų teikėjai:

Dažnai užduodami klausimai

Kas yra „TildeLM“?
Projektu „TildeLM“ siekiama sukurti daugiakalbį pamatinį didįjį kalbos modelį, skirtą menkai atstovaujamoms Baltijos šalių ir Rytų Europos kalboms, kad būtų kuriama skaitmeninė lygybė ir gerinamas šių bendruomenių prieinamumas prie pažangių DI technologijų.
Kuo svarbi LLM kalbų lygybė?
Šis disbalansas mažina našumą ir didina išlaidas. Pavyzdžiui, norint užšifruoti vienodą informacijos kiekį mažiau išteklių turinčiomis kalbomis, būtinos ilgesnės sekos, lyginant su anglų kalba, todėl modeliai yra mažesnio našumo, o jų eksploatacija yra brangesnė. Be to, šių modelių anglocentrizmas gali lemti nepageidaujamą kultūrinį šališkumą. „TildeLM“ bus mokomas, siekiant užtikrinti visų palaikomų kalbų lygybę.
Kurioms kalboms bus skirytas projektas „TildeLM“?

Projektas orientuojamas į tokias Rytų Europos ir Baltijos šalių kalbas, kaip bulgarų, kroatų, čekų, estų, suomių, latvių, lietuvių, makedonų, juodkalniečių, lenkų, serbų, slovakų, slovėnų ir ukrainiečių. Modelis taip pat proporcingai palaikys didesniąsias kalbas, pvz., anglų, prancūzų, vokiečių ir rusų, kad palaikytų vertimą ir susijusias daugiakalbes užduotis. 

Kas yra superkompiuteris LUMI?
Superkompiuteris LUMI (didelė bendroji moderni infrastruktūra) yra penktas sparčiausias superkompiuteris visame pasaulyje ir pats sparčiausias Europoje. Jis yra dalis bendros Europos Sąjungos ir Europos šalių iniciatyvos „EuroHPC Joint Undertaking“, skirtos kurti Europoje pasaulinio lygio didelio našumo kompiuterinę (HPC) ekosistemą. Superkompiuteris LUMI yra Kajanyje, Suomijoje. 
Kas yra „Large AI Grand Challenge“?
Europos Komisijos finansuojamas konkursas „Large AI Grand Challenge“ yra skirtas plėsti Europos DI ribas, pasitelkiant didžiųjų DI modelių potencialą. Konkurse dalyvavo novatoriški startuoliai ir smulkios bei vidutinės įmonės, turinčios techninių pajėgumų kurti DI modelius, kurie didina Europos generatyvinio DI konkurencingumą. Neseniai Europos Komisija paskelbė „Large AI Grand Challenge“ nugalėtojus. Keturios novatoriškos Europos DI įmonės, tarp jų ir „Tilde“, pasidalys 1 milijoną eurų ir 8 milijonus kompiuterinių valandų, kad sustiprintų Europos lyderystę DI plėtroje. 
Kas yra „Tilde“?
Įmonė „Tilde“ yra viena pirmaujančių Europos kalbos technologijų inovatorių ir paslaugų teikėjų, kurios misija yra puoselėti kalbų įvairovę šiame skaitmeniniame amžiuje. „Tilde“ turi daugiau kaip 150 darbuotojų trijuose biuruose Rygoje, Vilniuje ir Taline. „Tilde“ tyrimų komandą sudaro devyni mokslų daktarai ir jų moksliniai bendradarbiai, kurie bendrai yra paskelbę daugiau kaip 260 mokslinių publikacijų. Per savo veiklos laikotarpį „Tilde“ pavyko užmegzti platų tyrimo ir plėtros bendradarbiavimo tinklą su pirmaujančiais ES tyrimo centrais ir universitetais, be to, ji yra Baltijos regiono kalbos technologijų tyrimo centras. Pastarojo meto „Tilde“ tyrimai ir plėtra yra orientuoti į pamatinius didžiuosius kalbos modelius (LLM), LLM derinimą galutinės grandies panaudojimui ir pagal instrukcijas suderintų LLM integravimą į natūraliosios kalbos apdorojimo sritis (pvz., mašininį vertimą, virtualiuosius asistentus, išorine informacija papildyto generavimo sistemas, šnekamosios kalbos apdorojimą, apibendrinimą ir pan.).