Kuidas TildeOpen LLM-i ehitatakse

Heidame pilgu võtmehetkedele, läbimurretele ja sellele, mis ootab ees.
Ajaline_uz_tumsa_fona 2 (1)

Märkuseid laborist 📋

Taustal olevad kommentaarid, ülevaated ja värskendused meie uurimisrühm TildeOpen arengu kohta.

04.09.2025.

Tildeopen elab nüüd kallistaval näol! Pärast aastast teadus - ja arendustööd Euroopa kiireimatel superarvutitel on meie meeskond avaldanud TildeOpen. See on teie jaoks valmis uurima, katsetama ja edasi arendama.

16.07.2025.

Tildeopen on oma arengu lõpule jõudmas! Pärast 2 triljoni žetooni nägemist on baasmudel välja õpetatud ning nüüd liigume edasi peenhäälestuse ja hindamise juurde. Kui valmis, avaldatakse peenhäälestunud mudelid kallistusnäos.

09.06.2025.

Oleme uhked, et oleme esimeste ettevõtete seas, kes testivad Euroopa esimest eksatasandi superarvutit JUPITERIT! Kui meile on antud 1,2 miljonit GPU tundi, kohandame TildeOpen reaalseks kasutamiseks – sealhulgas mitmekeelseks ettevõtteotsinguks, kontekstiteadlikeks abilisteks ja muudeks turvalisteks AI tööriistadeks.

27.05.2025.

Suurepärane uudis! Me kindlustasime LUMI-l veel 140 000 GPU tundi EuroHPC ühisettevõtte kaudu. Neid vahendeid kasutatakse mudeli õpetamiseks FFplusi rahastatud projekti raames, keskendudes peamistele mitmekeelsetele ülesannetele, nagu tõlkimine, kokkuvõtted ja küsimustele vastamine.

12.05.2025.
Oleme eelõppega poolel teel! Triljoni märgi vaatamine võttis oodatust kauem aega, kuna pidime tegema veaparandusi koodi käitamise ajal ja ootama GPUtundide jaotamist.
05.05.2025
Oleme EleutherAI GPT-Neoxis kasutusele võtnud tõhusama näidispakkimisstrateegia juhendatud juhendite häälestamiseks. Esialgsed tulemused näitavad ligikaudu 90% pakkimistõhusust, mis tagab LUMI GPU-de peaaegu sama tõhusa kasutamise kui eelneva koolituse ajal. Teine uuendus on mitmepöördeliste juhendite maskeerimisstrateegia, mis võimaldab mudelil osaleda pikkades mitmepöördelistes vestlustes.
15.04.2025
Oleme nüüd läbinud umbes kolmandiku eelõppest. Selle saavutamiseks tuli lahendada hulk probleeme, vigu ja mõned tõeliselt keerulised koodid EleutherAI GPT-Neoxis – lisaks veel paar meie enda viga. Siiski nõudis see ainult üheainsa väga varase taaskäivitamise, nii et GPU aega peaaegu kaduma ei läinudki!
15.03.2025

Oleme lõpuks alustanud kauaoodatud TildeOpen pretraining. Laenates Mark Twainilt: „suitsetamisest loobumine on kõige lihtsam asi maailmas; olen seda teinud tuhandeid kordi.” Loodame, et see jooks pole vale algus ja annab tulemusi, mille nimel oleme nii kaua vaeva näinud!

Vaata, kuidas LLM-id tegelikult toimivad

Meie teadlaste loodud TildeBench on avalik edetabel, mis jälgib, kuidas erinevad LLM-id käsitsevad selliseid ülesandeid nagu masintõlge, kontekstisisene küsimustele vastamine ja grammatikatundlik tekstigenereerimine – kõik keeltes, mis sageli kahe silma vahele jäävad. Seda värskendatakse aja jooksul uute ülesannete ja mudelitega.

Loo AI, mis räägib sinu keelt 

Tildeopen annab sulle vundamendi turvalise ja suveräänse AI loomiseks. Uurige mudelit kohe
või räägi meile, kuidas seda oma vajadustele kohandada.