Tildeopen LLM: Europos suvereni daugiakalbė AI

Q: Kas yra „Tilde“?

„Tilde“ yra pirmaujanti Europos kalbinių technologijų inovacijų kūrėja ir paslaugų teikėja, kurios misija – skatinti kalbų įvairovę skaitmeniniame amžiuje. „Tilde“ turi daugiau nei 150 darbuotojų trijuose biuruose, įsikūrusiuose Rygoje, Vilniuje ir Taline. „Tilde“ tyrimų komandą sudaro devyni mokslų daktarai ir jų tyrimų padėjėjai, kurie yra paskelbę daugiau nei 260 mokslinių publikacijų. Per daugelį metų „Tilde“ sukūrė platų MTEP partnerystės tinklą su pirmaujančiais ES tyrimų centrais ir universitetais ir yra Baltijos regiono kalbinių technologijų tyrimų centras.Naujausios „Tilde“ mokslinių tyrimų ir plėtros veiklos yra sutelktos į pagrindinius didelius kalbinius modelius (LLM), LLM pritaikymą tolesnėms taikomosioms programoms ir instrukcijomis pritaikytų LLM integravimą į natūralios kalbos apdorojimo taikomąsias programas (pvz., mašininį vertimą, virtualiuosius asistentus, paieškos sistemomis papildytas generavimo sistemas, šnekamosios kalbos apdorojimą, apibendrinimą ir kt.).

Atviras, pamatinis LLM (didelės kalbos modelis) Europos kalboms – saugus, pritaikomas ir parengtas vyriausybėms, institucijoms ir įmonėms.

2024 m. birželio mėn.

„Tilde“ laimi didelius ai didžiuosius iššūkius

2024 m. rugsėjis

Prieiga prie LUMI
gautas superkompiuteris

2025 m. kovo mėn.

Modelio mokymas
prasideda

2025 m. rugsėjis

Modelis gyvas Hugging Face

2026 m. vasario mėn.

TildeOpen pradėjo veikti

Tilde MT

Palaiko:

Jūsų kalba nusipelno geresnio DI

Dauguma DI modelių sukurti pagrindinėms pasaulio kalboms ir daugiau kaip 90 % LLM mokymo duomenų yra anglų kalba. Tai reiškia, kad Baltijos šalių, slavų ir kitos Europos kalbos yra paliktos nuošalyje, todėl sumažėja tikslumas, prastėja supratimas apie kultūrą, o prieiga prie aukštos kokybės DI priemonių yra ribota.

Todėl sukūrėme „TildeOpen LLM“ – atviro kodo pamatinį didelės kalbos modelį su daugiau nei 30 mlrd. parametrų, sukurtą visoms Europos kalboms palaikyti. Galite jį pritaikyti savo poreikiams ir saugiai įdiegti – vietoje arba debesyje – kad sukurtumėte patikimą AI, kuri iš tikrųjų kalba jūsų kalba.

„TildeOpen LLM“ – tai Europos atsakas į poreikį sukurti savarankišką LLM, kuris geriau palaikytų baltų, slavų ir kitas Europos kalbas, neapsiribojant tik anglų kalba grindžiama DI plėtra.

Sužinokite daugiau apie TildeOpen LLM:

Milijardo parametrai

25 +

Fokusavimo kalbos

28 +

GPU valandų LUMI sistemoje

2 M

Kodėl TildeOpen?

Galima tinkinti naudojant savo duomenis
Saugu ir visiškai valdoma
Diegiama vietoje arba debesyje
Integruojama su esamomis sistemomis ir darbo eigomis
Skirta naudoti kaip pagrindas pažangiems DI sprendimams

DI pagrindas, kuriuo galite pasitikėti

Tildeopen yra daugiau nei technologinis laimėjimas. Tai atviras paprotinės AI pagrindas, naudingas daugiau kaip 155 mln. europiečių.

Individualūs AI sprendimai įmonėms ir organizacijoms

Pritaikykite TildeOpen savo pramonei, duomenims ir darbo eigoms – nuo virtualiųjų asistentų iki saugaus vertimo, kalbėjimo technologijų ir kt.

Nacionalinių kalbų modelių kūrimas vyriausybėms

Kurkite įtraukiuosius kalbų modelius, kurie tenkina visuomenės poreikius, skatina skaitmeninį suverenumą ir palaiko visas oficialias ES kalbas.

Patikimas efektyvumas visose tikslinėse kalbose

TildeOpen nuosekliai rodo didelį kalbinį tikslumą ir supratimą viešuosiuose lyginamuosiuose standartuose

Tildeopen aktyviai veikia Multiblimp lyginamasis standartas, pagal kurį vertinamas modelio gebėjimas atskirti gramatinius ir negramatinius sakinius. Mažesni klaidų lygiai atspindi stipresnį gramatikos modeliavimą ir patikimesnį teksto generavimą. Peržiūrėti visus sąlyginio etalono rezultatus.

Dėl specialiai jiems sukurto tokenizatoriaus ir architektūros tildeopen daug morfologijos turtingų Europos kalbų vartojimo efektyvumas yra didesnis. Palyginti su Lama-3, jis yra 41% veiksmingesnis latvių kalba, 37% – lietuvių kalba, 31% inFinnish, 28 – estų% ir lenkų kalbomis, taip pat viršija GPT ir Mistral modelius. Tai lemia greitesnį teksto generavimą vietiniuose diegimuose ir atitinkamai mažesnes to paties kiekio duomenų eksploatavimo išlaidas. Peržiūrėti visus sąlyginio etalono rezultatus.

Tildeopen-30B pasiekia naujausią Belebele skaitymo supratimo kriterijaus rezultatą, kurio vidutinis tikslumas yra 84,7%. Šis modelis yra pranašesnis už kitus vietoje diegiamus modelius, pvz., Gemma-27B, ALIA-40B ir EuroLLM-22B. Peržiūrėti visus sąlyginio etalono rezultatus.

Pagrįsta superkompiuteriais, kuriuos palaiko Europa

TildeOpen plėtrą remia Europos Komisija ir BĮ „EuroHPC“ aukščiausios klasės superkompiuteriais: LUMI ir „Jupiter“. Laimėjus „Large AI Grand Challenge“, mums LUMI buvo skirta 2 milijonai GPU valandų šiam ambicingam projektui įgyvendinti.

Indėlis į daugiakalbę ateitį

Norėdami sukurti galingą daugiakalbį LLM su daugiau nei 30 milijardų parametrų, ieškome visos Europos kalbų duomenų. Džiaugiamės autorių, leidėjų, valstybinių bibliotekų ir kitų partnerių indėliais su lanksčiomis, jums palankiomis sąlygomis.

Pradėkite darbą su Hugging Face

Eikite į Hugging Face, kad peržiūrėtumėte TildeOpen-30b saugyklą ir gautumėte prieigą prie visos techninės dokumentacijos.

Prie projekto jau prisidėję duomenų teikėjai:

Mūsų pažadas

Įsipareigojimas neriboti bendradarbiavimo

Vyriausybės gali pasitelkti TildeOpen, kad sukurtų specialiai pritaikytus kalbų modelius, kurie pagerintų viešųjų paslaugų prieinamumą visiems piliečiams.

Vientisumas ir sauga

Nuolat stengiamės sumažinti žalingą arba netikslų TildeOpen turinį, kad jis galėtų būti patikimas įvairių viešojo naudojimo atvejų šaltinis.

Atvira prieiga

Tildeopen bus galima naudoti tiek komerciniais, tiek nekomerciniais tikslais pagal licencinę sutartį, paskelbtą „apgaule face“ ir „ELRC-SHARE“.

Dalijimasis žiniomis

Esame įsipareigoję bendradarbiauti ir dalytis įžvalgomis, kviečiame partnerius dirbti su mumis tobulinant TildeOpen visų labui.

Dažniausiai užduodami klausimai

Kas yra TildeOpen LLM?

„TildeOpen LLM“ yra atvirojo kodo daugiakalbis LLM, sukurtas Europos kalboms. Tai yra savarankiškas DI pamatinis modelis su daugiau nei 30 mlrd. parametrų, sukurtas palaikyti Baltijos, Rytų Europos ir kitas Europos kalbas kartu su pagrindinėmis pasaulio kalbomis. „TildeOpen“ galima tikslinti,diegti vietinėje aplinkoje arba debesyje ir naudoti tiek komerciniais, tiek nekomerciniais tikslais pagal liberalią licenciją.

Kuo svarbi LLM kalbų lygybė?

Šis disbalansas turi veiksmingumo ir išlaidų pasekmių. Pavyzdžiui, norint užkoduoti tokį patį informacijos kiekį mažiau išteklių turinčiomis kalbomis, palyginti su anglų kalba, reikalingos ilgesnės sekos, todėl modeliai tampa mažiau veiksmingi ir brangesni. Be to, šių modelių anglų-Centricity gali sukelti nepageidaujamą kultūrinį šališkumą. Tildeopen bus mokomi užtikrinti visų palaikomų kalbų teisingumą.

Kokioms kalboms skirtas TildeOpen projektas?

Projektas orientuojamas į tokias Rytų Europos ir Baltijos šalių kalbas, kaip bulgarų, kroatų, čekų, estų, suomių, latvių, lietuvių, makedonų, juodkalniečių, lenkų, serbų, slovakų, slovėnų ir ukrainiečių. Modelis taip pat proporcingai palaikys didesniąsias kalbas, pvz., anglų, prancūzų, vokiečių ir rusų, kad palaikytų vertimą ir susijusias daugiakalbes užduotis.

Kas yra superkompiuteris LUMI?

Superkompiuteris LUMI (didelė bendroji moderni infrastruktūra, angl. „Large Unified Modern Infrastructure“) yra penktas sparčiausias superkompiuteris visame pasaulyje ir pats sparčiausias Europoje. Jis priklauso bendros Europos Sąjungos ir Europos šalių iniciatyvos bendrajai įmonei „EuroHPC“, skirtai Europoje kurti pasaulinio lygio našiosios kompiuterijos (HPC, angl. „high-performance computing“) ekosistemai. Superkompiuteris LUMI yra Kajanyje, Suomijoje.

Kas yra „Large AI Grand Challenge“?

Europos Komisijos finansuojamo didelio PG Didžiojo uždavinio tikslas – plėsti Europos PG sienas išnaudojant didelio PG modelių potencialą. Konkurse dalyvavo novatoriškos pradedančiosios įmonės ir MVĮ, turinčios techninių gebėjimų kurti PG modelius, kurie didina Europos konkurencingumą generuojamosios PG srityje. Europos Komisija paskelbė didelio PG Didžiojo iššūkio laimėtojus. Keturioms novatoriškoms Europos PG bendrovėms, įskaitant „Tilde“, bus skirtas 1 mln. EUR ir 8 mln. skaičiavimo valandų prizas, kad Europa galėtų pirmauti PG plėtros srityje.

Kas yra „Tilde“?

„Tilde“ yra pirmaujanti Europos kalbų technologijų novatorė ir paslaugų teikėja, kurios užduotis – skatinti kalbų įvairovę skaitmeniniame amžiuje. Tilde dirba daugiau kaip 150 darbuotojų trijuose biuruose Rygoje, Vilniuje ir Taline. „Tilde“ mokslinių tyrimų grupę sudaro devyni daktarai ir jų mokslinių tyrimų partneriai, kurie yra sukūrę daugiau kaip 260 mokslinių leidinių. Per daugelį metų Tilde sukūrė platų MTTP partnerystės tinklą su pagrindiniais ES mokslinių tyrimų centrais ir universitetais ir yra Baltijos regiono kalbos technologijų mokslinių tyrimų centras.

Naujausi „Tilde“ tyrimai ir plėtra yra sutelkti į pagrindinius didelius kalbų modelius (LLM), LLM pritaikymas tolesnėms programoms, ir instrukcijomis suderintų LLM integravimas į natūralios kalbos apdorojimo programas (pvz., automatinis vertimas, virtualūs asistentai, paieškos sustiprintos generavimo sistemos, kalbos apdorojimas, santraukos, apibendrinimai ir t. t.).

Sukurkite AI, kuri kalba jūsų kalba

TildeOpen suteikia jums pagrindą kurti saugią ir suverenią AI. Susipažinkite su modeliu dabar arba pasikalbėkite su mumis apie jo pritaikymą jūsų poreikiams.

Verslui

Viešajam sektoriui