Tildelm: mitmekeelse Euroopa asutamise LLM

TildeLM-i loomine

Heidame pilgu võtmehetkedele, läbimurretele ja sellele, mis ootab ees.

Märkuseid laborist 📋

Meie uurimisrühma kommentaarid, ülevaated ja värskendused TildeLM-i arendamise kohta.

16.07.2025.

Tildelm on oma arengu lõpule jõudmas! Pärast 2 triljoni žetooni nägemist on baasmudel välja õpetatud ning nüüd liigume edasi peenhäälestuse ja hindamise juurde. Kui valmis, avaldatakse peenhäälestunud mudelid kallistusnäos.

09.06.2025.

Oleme uhked, et oleme esimeste ettevõtete seas, kes testivad Euroopa esimest eksatasandi superarvutit JUPITERI! Kui meile on antud 1,2 miljonit GPU tundi, kohandame TildeLM-i reaalseks kasutamiseks – sealhulgas mitmekeelseks ettevõtteotsinguks, kontekstiteadlikeks assistentideks ja muudeks turvalisteks tehisarutööriistadeks.

27.05.2025.

Suurepärane uudis! Me kindlustasime LUMI-l veel 140 000 GPU tundi EuroHPC ühisettevõtte kaudu. Neid vahendeid kasutatakse mudeli õpetamiseks FFplusi rahastatud projekti raames, keskendudes peamistele mitmekeelsetele ülesannetele, nagu tõlkimine, kokkuvõtted ja küsimustele vastamine.

Kuva vanemad märkmed

12.05.2025.

Oleme eelõppega poolel teel! Triljoni märgi vaatamine võttis oodatust kauem aega, kuna pidime tegema veaparandusi koodi käitamise ajal ja ootama GPUtundide jaotamist.

05.05.2025

Oleme EleutherAI GPT-Neoxis kasutusele võtnud tõhusama näidispakkimisstrateegia juhendatud juhendite häälestamiseks. Esialgsed tulemused näitavad ligikaudu 90% pakkimistõhusust, mis tagab LUMI GPU-de peaaegu sama tõhusa kasutamise kui eelneva koolituse ajal. Teine uuendus on mitmepöördeliste juhendite maskeerimisstrateegia, mis võimaldab mudelil osaleda pikkades mitmepöördelistes vestlustes.

15.04.2025

Oleme nüüd läbinud umbes kolmandiku eelõppest. Selle saavutamiseks tuli lahendada hulk probleeme, vigu ja mõned tõeliselt keerulised koodid EleutherAI GPT-Neoxis – lisaks veel paar meie enda viga. Siiski nõudis see ainult üheainsa väga varase taaskäivitamise, nii et GPU aega peaaegu kaduma ei läinudki!

15.03.2025

Oleme lõpuks alustanud kauaoodatud TildeLM-i eelõppega. Tsiteerides Mark Twaini: „Suitsetamisest loobumine on maailma lihtsaim asi; ma olen seda teinud tuhandeid kordi.“ Loodame, et see alustamine ei ole valestart ja annab tulemusi, mille nimel oleme nii kaua tööd teinud!

Vaata, kuidas LLM-id tegelikult toimivad

Meie teadlaste loodud TildeBench on avalik edetabel, mis jälgib, kuidas erinevad LLM-id käsitsevad selliseid ülesandeid nagu masintõlge, kontekstisisene küsimustele vastamine ja grammatikatundlik tekstiloome – kõik keeltes, mis sageli kahe silma vahele jäävad. Seda värskendatakse aja jooksul uute ülesannete ja mudelitega.

Püsige kursis

Jätke oma meiliaadress, et saada teavitus, kui TildeLM Hugging Face'is avaldatakse.