„TildeLM“: DI transformacija daugiakalbei Europai

Mes kuriame „TildeLM“, atvirą pamatinį LLM (didelės kalbos modelį), kuriame yra daugiau kaip 30 mlrd. parametrų, apimančių visas Europos kalbas, daugiausia dėmesio skiriant Baltijos ir Rytų Europos kalboms. Europos Komisijos remiamas „TildeLM“ ketina iš esmės pakeisti AI kraštovaizdį ir užtikrinti, kad mūsų regionui būtų naudingos pažangiausios technologijos.

Laiko planavimo juosta

Palaikoma:

UŽDUOTIS

Pasisakome už kalbų lygybę

Daugelis DI modelių yra skirti didžiosioms kalboms – daugiau kaip 90 % jų duomenų yra renkami anglų kalba – todėl Baltijos šalių ir Rytų Europos kalbos yra atstovaujamos per menkai. Šis disbalansas lemia prastesnius DI rezultatus ir ribotą prieigą prie pažangiausių technologijų kalbantiems šiomis kalbomis. „TildeLM“ sprendžia šią problemą, kad „TildeLM“ mokymo proceso metu būtų vienodai atstovaujamos visos palaikomos kalbos.

SPRENDIMAS

Atviro Europos modelio kūrimas

„TildeLM“ kuriamas siekiant suteikti palaikymą tokioms Europos kalboms, kaip bulgarų, latvių, ukrainiečių ir kt. Šis modelis – ne vien technologinis pasiekimas. Tai yra ir įsipareigojimas sukurti visiškai atvirą išteklių, kuris suteiks pamatą įvairioms DI panaudojimo sritims ir pravers daugiau kaip 155 milijonų europiečių.

milijardų parametrų
pagrindinių kalbų
GPU valandų LUMI sistemoje

PANAUDOJIMO IR PRITAIKYMO ATVEJAI

Galingos ir prasmingos inovacijos įvairiuose sektoriuose

Nacionalinių kalbų modeliai
Valstybinės institucijos gali išnaudoti „TildeLM“, siekdamos kurti adaptuotus kalbos modelius, kurie padidintų viešųjų paslaugų prieinamumą visiems piliečiams.
Tyrimai ir plėtra

Tyrėjai gali išnaudoti „TildeLM“ kalbų tyrimams, vertimo sistemų tobulinimui ir naujų kalbos technologijų panaudojimo būdams kurti.

Technologinė inovacija
Įmonės gali naudotis „TildeLM“, kad galėtų plėtoti tokias daugiakalbes DI panaudojimo sritis, kaip virtualieji asistentai, teksto generatoriai ir šnekos technologijos.
Sprendimai konkrečioms veiklos sritims
Sveikatos apsaugos specialistai ir teisininkai gali išnaudoti „TildeLM“ tiksliam daugiakalbiam apdorojimui ir vertimui.

SKAIČIAVIMO IŠTEKLIAI

Pažangiausio Europos superkompiuterio teikiama pažanga

„TildeLM“ kūrimo procesą spartina LUMI superkompiuteris, kurio išteklius įmonė laimėjo konkurse „Large AI Grand Challenge“.Galime naudotis 2 milijonais milžiniškos kompiuterinės galios LUMI GPU valandų, kurios yra nepamainomos našiam šios ambicingo projekto įgyvendinimui.

MŪSŲ PAŽADAS

Įsipareigojimas neriboti bendradarbiavimo

Ištikimai laikomės atvirojo mokslo ir etiško duomenų panaudojimo principų, todėl „TildeLM“ bus visiškai nemokama. Tikime, kad inovacijos pagrindas yra bendradarbiavimas ir dalijimasis žiniomis, todėl kviečiame tyrėjus, kūrėjus ir duomenų teikėjus jungtis prie mūsų misijos.

Atvira prieiga

„TildeLM“ bus galima naudotis tiek komerciniais, tiek nekomerciniais tikslais su „Hugging Face“ ir ELRC-SHARE leidimo licencija.

Vientisumas ir sauga

Užtikriname, kad „TildeLM“ bus saugus modelis be kenksmingo arba netikslaus turinio, todėl jį bus galima naudoti įvairioms viešosioms reikmėms.
Dalijimasis žiniomis
Esame įsipareigoję bendradarbiauti ir dalytis įžvalgomis, kviesti partnerius dirbti drauge su mumis, tobulinant „TildeLM“ visų gerovei.

Indėlis į daugiakalbę ateitį

Kad sugebėtume sukurti solidų daugiakalbį kalbos modelį su daugiau kaip 30 mlrd. parametrų, mums reikės kalbos duomenų iš visos Europos. Kviečiame prisidėti autorius, leidėjus, valstybines bibliotekas ir visus, kas gali suteikti vertingo turinio lanksčiomis sąlygomis, kurios atitiktų jūsų poreikius. Šioje platformoje dalysimės naujienomis apie savo pažangą ir kviesime jus tapti šios veržlios iniciatyvos dalimi. Jūsų indėlis yra nepamainomas, siekiant užtikrinti, kad šiame skaitmeniniame amžiuje būtų išgirsta kiekviena kalba.

Jūsų dalyvavimas yra būtinas norint užtikrinti, kad skaitmeniniame amžiuje kiekviena kalba turėtų balsą.

Prie projekto jau prisidėję duomenų teikėjai:

Dažnai užduodami klausimai

Projektu „TildeLM“ siekiama sukurti daugiakalbį pamatinį didįjį kalbos modelį, skirtą menkai atstovaujamoms Baltijos šalių ir Rytų Europos kalboms, kad būtų kuriama skaitmeninė lygybė ir gerinamas šių bendruomenių prieinamumas prie pažangių DI technologijų.
Superkompiuteris LUMI (didelė bendroji moderni infrastruktūra) yra penktas sparčiausias superkompiuteris visame pasaulyje ir pats sparčiausias Europoje. Jis yra dalis bendros Europos Sąjungos ir Europos šalių iniciatyvos „EuroHPC Joint Undertaking“, skirtos kurti Europoje pasaulinio lygio didelio našumo kompiuterinę (HPC) ekosistemą. Superkompiuteris LUMI yra Kajanyje, Suomijoje.