TildeLM: fundamentāls LVM daudzvalodu Eiropai

Kā top TildeLM

Tuvāks ieskats svarīgākajos brīžos, sasniegumos un vēl gaidāmajos notikumos.

Piezīmes no laboratorijas 📋

Mūsu pētnieku komandas komentāri, ieskati un aktualitātes par TildeLM attīstību.

16.07.2025.

Tildelms tuvojas attīstības beigām! Pēc tam, kad redzējām 2 triljonus žetonu, pamatmodelis ir apmācīts, un mēs tagad virzāmies uz precizēšanu un novērtēšanu. Kad pielāgotie modeļi būs gatavi, tie tiks publicēti ar apskāvienu.

09.06.2025.

Mēs lepojamies, ka esam starp pirmajiem uzņēmumiem, kas testē JUPITERU, Eiropas pirmo eksalīmeņa superdatoru! Izmantojot mums piešķirtos 1,2 miljonus GPU stundu, mēs varēsim pielāgot TildeLM lietošanai reālos apstākļos, tostarp daudzvalodu uzņēmumu meklēšanas sistēmām, kontekstinformētiem palīgiem un citiem drošiem MI rīkiem.

27.05.2025.

Lieliska ziņa! Mēs esam nodrošinājuši papildu 140 000 GPU stundas LUMI ar kopuzņēmuma EuroHPC starpniecību. Šie resursi tiks izmantoti, lai instruētu modeļa pielāgošanu FFplus finansētajā projektā, koncentrējoties uz galvenajiem daudzvalodu uzdevumiem, piemēram, tulkošanu, teksta apkopošanu un atbildēšanu uz jautājumiem.

Rādīt vecākas piezīmes

12.05.2025.

Mēs esam pusceļā ar priekšapmācīšanu! Redzot vienu triljonu tekstvienību, haotisko ielāpu (monkey patching) kļūdu labošanai un GPU piešķīrumu gaidīšanas dēļ bija nepieciešams ilgāks laiks, nekā paredzēts.

05.05.2025

Mēs EleutherAI’s GPT‑Neox esam ieviesuši efektīvāku piemēru iepakošanas stratēģiju uzraudzītai instrukciju pielāgošanai. Agrīnā profilēšana uzrāda aptuveni 90% iepakošanas efektivitāti, saglabājot LUMI GPU gandrīz tikpat pilnvērtīgi kā priekšapmācīšanas laikā. Vēl viens uzlabojums ir daudzpagriezienu instrukciju maskēšanas stratēģija, kas ļauj modelim piedalīties garās daudzpagriezienu sarunās.

15.04.2025

Mēs esam pabeiguši aptuveni vienu trešdaļu priekšapmācīšanas. Nokļūt tiktāl nozīmēja, ka no EleutherAI’s GPT-Neox tika izdauzīta vesela kaudze dīvainību, kļūdu un kāda patiesi amatnieciska koda, kā arī pāris mūsu pašu kļūdu. Tomēr tam bija nepieciešama tikai viena ļoti agrīna restartēšana, tāpēc gandrīz netika zaudēts GPU laiks!

15.03.2025

Beidzot esam uzsākuši ilgi gaidīto TildeLM priekšapmācīšanu. Citējot Marku Tvenu: “smēķēšanas atmešana ir vieglākā lieta pasaulē; es to esmu darījis tūkstošiem reižu.” Cerēsim, ka šis skrējiens nav viltus sākums un sniegs rezultātus, pie kuriem esam tik ilgi strādājuši!

Uzziniet, kā īsti LVM darbojas

Mūsu pētnieku radītais TildeBench ir publiska ranžējuma tabula, kurā var sekot tam, kā dažādi LVM veic tādus uzdevumus kā mašīntulkošana, atbilžu sniegšana uz jautājumiem kontekstā un gramatiski noteikta teksta ģenerēšana valodās, kas bieži tiek ignorētas. Laika gaitā ranžējums tiks papildināts ar jauniem uzdevumiem un modeļiem.

Esiet lietas kursā

Atstājiet savu e-pasta adresi, lai saņemtu paziņojumu, kad TildeLM tiks palaists Hugging Face kopienā.