U svijetu AI-ja (engl. artificial intelligence - vještačka inteligencija) mali jezici imaju isti problem. Skoro niko ih ne smatra dovoljno važnim da bi u njih ozbiljno ulagao. Regija vjerovatno neće napraviti novi ChatGPT, ali mogla bi napraviti nešto što velikim AI kompanijama često nije naročito važno - modele koji zaista razumiju lokalni jezik, dokumente i kontekst.
Iz te ideje nastali su BalkanBench i ModernBERTić - projekti kompanije Recrewty, iza kojih stoji suosnivač Mitar Perović. Riječ je o pokušaju da se napravi regionalna AI infrastruktura za srpski, hrvatski, bosanski i crnogorski jezik - od modela za razumijevanje teksta do sistema za njihovo mjerenje i poređenje.
"Za mala jezička tržišta poput naših nije isplativo praviti novi ChatGPT od nule. To je igra kapitala, podataka i infrastrukture u kojoj dominiraju SAD i Kina: samo u 2025. privatne AI investicije u SAD bile su oko 200 milijardi dolara. Tu Srbija i regija realno ne mogu konkurirati frontalno", kaže Perović za Bloomberg Adriju. "Ali jeste isplativo razvijati lokalne i specijalizirane manje modele: modele za razumijevanje srpskog, crnogorskog, hrvatskog i bosanskog, za pretragu dokumenata, klasifikaciju, pravne i administrativne tekstove, CV-jeve, medijski monitoring, provjeru činjenica, javnu upravu i korisničku podršku."
Drugim riječima, nije isplativo praviti "najveći model", ali jeste isplativo praviti najbolji model za konkretan lokalni problem. "Naprimjer, za tumačenje CV-ja kandidata ne treba vam model koji posjeduje i doktorsko znanje iz medicine", kaže sagovornik Bloomberg Adrije.
Sam Recrewty osnovali su kao HR tehnološki startup koji stoji na stubovima AI-ja i bihevioralnih nauka, a dobijanjem granta Fortissimo Plus od EU osigurali su računarsku infrastrukturu i finansije da krenu u razvoj svojih modela za razumijevanje teksta. Razlog je jednostavan - postojeći jezički modeli za ovdašnje jezike bili su ograničeni brojem riječi koje mogu obraditi, kao i zastarjelim arhitekturama.
Šta su zapravo ModernBERTić i BalkanBench?
Iako javnost AI uglavnom povezuje sa chatbotovima poput OpenAI-ja ili Geminija, ModernBERTić pripada drugoj kategoriji modela - takozvanim enkoder modelima.
To znači da nije namijenjen generiranju odgovora poput ChatGPT-ja, već razumijevanju teksta: klasifikaciji dokumenata, semantičkoj pretrazi, ekstrakciji informacija ili analizi sadržaja. Upravo ti sistemi često predstavljaju "nevidljivu infrastrukturu" savremene AI ekonomije.
"ModernBERTić je prvi moderni enkoderski jezički model sa 16 puta većim kapacitetom obrade teksta i savremenom arhitekturom, treniran nad najvećim skupom podataka za srpski, crnogorski, bosanski i hrvatski jezik, od 60 milijardi tokena (otprilike 40 milijardi riječi u korpusu)", kaže Perović.
Mitar Perović/Lični arhiv
Međutim, na početku razvoja uočio je dva dodatna problema:
-
Nedostatak "benchmarka" za evaluaciju ovakvih modela za ove jezike;
-
Nepostojanje javnog "leaderboarda" sa svim dostupnim modelima za regionalne jezike i njihovim rangiranjem.
"Upravo odatle nastala je i vizija BalkanBencha, ideja da postoji 'open-source' mjesto kojem svako može pristupiti i koje može koristiti, kao i proširiti, i podatke i kod za evaluaciju AI modela za naše jezike. Vremenom će balkanbench.com biti sajt na kojem ćete moći vidjeti koji sve modeli postoje i koliko su dobri na različitim zadacima za srpski, crnogorski, hrvatski i bosanski jezik", najavljuje sagovornik.
A svako ko se ovdje imalo služio generativnim AI chatbotovima mogao je primijetiti koliko griješe na lokalnim jezicima, pa su dezinformacije i halucinacija nerijetka pojava. I upravo je to problem koji pokušava riješiti BalkanBench. "Danas često kažemo da modeli 'loše rade' na srpskom ili regionalnim jezicima, ali bez javnog 'benchmarka', to ostaje na nivou utiska. BalkanBench uvodi mjerljiv i otvoren način da uporedimo modele za srpski, hrvatski, bosanski i crnogorski."
Trenutno ne postoji ažurirana tabela s novim modelima i rezultatima i to je sljedeći korak za BalkanBench - dodavanje evaluacionih korpusa za LLM-ove i sistematsko testiranje trenutno dostupnih modela, nakon čega će rezultati biti javno objavljeni na 'leaderboardu'.
"Cilj je da više ne nagađamo koji model najbolje radi na našim jezicima, već da to možemo izmjeriti. Lokalni modeli mogu smanjiti problem halucinacija i dezinformacija, ali ne sami od sebe. Njihova najveća vrijednost je kada se koriste zajedno s kvalitetnim lokalnim podacima, pretragom, provjerljivim izvorima i jasnom evaluacijom. Tu modeli poput ModernBERTića mogu biti veoma korisni, jer nisu zamišljeni kao chatbot koji 'izmišlja odgovor', već kao infrastruktura za razumijevanje, pretragu, klasifikaciju i rangiranje dokumenata na našim jezicima", pojašnjava.
BalkanBench je, dakle, primarno otvorena infrastruktura, i baš je to ključna riječ, kaže on - "infrastruktura", kao poziv na kolaboraciju i prvi korak ka viziji da se razvije unificirano mjesto za poređenje svih AI modela za regionalne jezike. "Ovo je zapravo dio infrastrukture koji mora postojati i jedino može nastati kao regionalni kooperativni poduhvat. Bazni ModernBERTić model je objavljen javno i svi imaju priliku da ga koriste i uvjere se u njegove performanse. U okviru firme razvili smo specijalizirane modele nad baznim ModernBERTić modelom, prvo za semantičku pretragu, a zatim za HR domen, koje nudimo klijentima i partnerima, kao i direktno kroz nove funkcionalnosti naše HR platforme koje ranije nisu bile izvodljive."
Model je stoga namijenjen prvenstveno firmama i institucijama kojima je bitna privatnost podataka i koje ne žele dijeliti svoje podatke sa stranim provajderima. "Naši modeli za semantičku pretragu neophodan su dio infrastrukture za sve domaće e-commerce sajtove, dok su zanimljivi primjena i sajtovi javne uprave, gdje pretraga ne funkcionira najbolje. Svi slučajevi ekstrakcije informacija, klasifikacije dokumenata i pretrage mogu se unaprijediti pomoću ModernBERTić modela."
Kao prednosti takvih modela ističe to što kroz specijalizaciju postaju jeftini za korištenje i veoma brzi pri obradi podataka. Nisu potrebni specijalizirani hardver ni velika ulaganja da bi ih neko koristio, što nije slučaj s velikim jezičkim modelima, dodaje.
'Regija mora razvijati zajedničku AI infrastrukturu'
Sagovornik napominje da tehnološka zavisnost u AI eri nije ista stvar kao zavisnost od, recimo, stranog softvera za kancelarijski rad. "Jezički modeli postaju sloj kroz koji ljudi pristupaju informacijama, donose odluke, uče i rade. Ako taj sloj u potpunosti kontroliraju strane kompanije, onda one indirektno oblikuju i to kako naša djeca uče, kako naše institucije komuniciraju i čija se verzija historije i kulture smatra 'tačnom'."
Druga dimenzija je ekonomska. "Svaki API poziv ka stranom modelu znači odliv kapitala, podataka i znanja. Kompanije i institucije koje danas grade proizvode na tuđoj infrastrukturi sutra će biti prepuštene na milost i nemilost cjenovnim politikama, geopolitičkim odlukama i licencnim ograničenjima kompanija koje ih ne smatraju prioritetom."
Ipak, to znači da svaka zemlja treba praviti sopstveni ChatGPT, ali Perović smatra da mora imati kontrolu nad ključnim slojevima: podacima, evaluacijom, lokalnim modelima i infrastrukturom.
Depositphotos
"AI sve više postaje infrastruktura, nešto poput 'nove električne struje', sloj inteligencije preko kojeg će se mijenjati javna uprava, obrazovanje, zdravstvo, mediji, finansije i mnoge druge industrije. Ako naši jezici, dokumenti, biblioteke, javni servisi i arhivi ne budu digitalizirani i uključeni u taj ekosistem, rizikujemo da dio naše kulturne baštine u digitalnoj infrastrukturi bliske budućnosti postane nevidljiv. Zato regija ne samo da može, nego mora razvijati zajedničku AI infrastrukturu. Pojedinačno smo mala tržišta, ali zajedno činimo tržište od blizu 20 miliona govornika srodnih jezika. To ne mora značiti jedan veliki regionalni centar podataka, već zajedničke korpuse, benchmarke, modele i standarde evaluacije", kaže.
Srbija, prema njegovoj ocjeni, ima realne temelje za razvoj ozbiljnog AI sektora, prije svega zbog jakog inženjerskog potencijala i kvalitetnog STEM obrazovanja. I mada to jeste važan dio jednačine, nije dovoljan sam po sebi. "Za ozbiljan AI ekosistem potrebni su još i kvalitetni podaci, računarska infrastruktura, istraživačka zajednica, kapital i konkretni proizvodi koji mogu da se koriste u industriji. Srbija već ima važan infrastrukturni osnov kroz Nacionalnu AI platformu u Kragujevcu. Do kraja 2026. planirana je i dodatna faza sa 640 NVIDIA GraceHopper superčipova i Mistral AI softverskim stekom i modelom, što je inicijativa i vijest za svaku pohvalu."
Perović priznaje da, iako neće pobijediti Anthropic, OpenAI ili Google DeepMind u veličini modela, mogu raditi na tome da naprave najbolju infrastrukturu za srpski, hrvatski, bosanski i crnogorski jezik. "Projekti poput BalkanBencha i ModernBERTića upravo su korak u tom smjeru. Ali treba biti realan oko razmjera. ModernBERTić sam trenirao na evropskom Leonardo superračunaru, na 64 A100 GPU-a, što pokazuje da i ovakav zahvat iziskuje ozbiljne računarske resurse. U poređenju s originalnim kapacitetom kragujevačkog centra od 32 A100 GPU-a, to je dvostruko više nego cijela tadašnja lokalna GPU infrastruktura. Zato Srbija i regija ne treba da pokušavaju konkurirati najvećim svjetskim igračima u pravljenju najvećih generativnih modela."
Šansu vidi u sloju koji veliki sistemi često zanemaruju: lokalni jezici, lokalni dokumenti, javna uprava, pravo, mediji, e-commerce, HR i pretraga. "Tu možemo biti konkurentni jer bolje razumijemo kontekst, podatke i realne probleme tržišta."
Šta je sljedeća faza
Na pitanje šta bi za njih bio pokazatelj da su BalkanBench i ModernBERTić uspjeli, Perović kaže da je ideja da svako ko posjeduje skup podataka za evaluaciju AI modela može samostalno proširiti BalkanBench i dodati svoj kod i podatke. U tom smislu, uspjeh BalkanBencha ogledao bi se u regionalnoj kolaboraciji i doprinosu većeg broja ljudi. Recrewty sponzorira hardverske resurse za evaluaciju, kao i tokene za API pozive, te pozivaju i ostale kompanije da se uključe u inicijativu.
"U idealnom slučaju, u daljnjoj budućnosti BalkanBench bi finansirala i država, a vlasništvo i odgovornost bi bili preneseni na nadnacionalnu AI organizaciju", kaže.
Depositphotos
Za ModernBERTić napominje da su ga kroz eksperimente za svoje potrebe u HR domenu već evaluirali i spremaju ga za produkciju u okviru svoje glavne platforme. "Uspjeh bi bila šira adopcija modela na Balkanu, a trenutni broj preuzimanja na Hugging Faceu od preko 2.000 ukazuje na pozitivan trend."
Već od početka rada na ModernBERTiću vizija mu je, kako ističe, bila šira od jednog enkodera. Cilj je mali jezički model (SLM) koji odlično razumije jezike, kao i kulturu naše regije, a koji svako može pokrenuti lokalno na svom laptopu, bez skupe infrastrukture i bez oslanjanja na strane API-je.
"Skup tekstualnih podataka koji sam agregirao za ModernBERTić bit će temelj za sljedeću fazu: kontinualni trening najboljih javno dostupnih generativnih modela. U prvoj fazi modelu se sistematski prenosi znanje o kulturi, jeziku i historiji našeg podneblja. Zatim, kroz 'post-training' nad specijaliziranim skupovima podataka, model se rafinira i smanjuje pojavu halucinacija i grešaka. BalkanBench je ovdje ključan, jer bez kvalitetne evaluacije nema ni objektivnog napretka. Krajnji cilj je model koji u zadacima razumijevanja BCMS-a i regionalnog konteksta nadmašuje opće modele, a koji ne zavisi od toga smatraju li velike kompanije naš jezik vrijednim ulaganja", zaključuje sagovornik.