Većem dijelu javnosti izgledalo je da se DeepSeek pojavio u januaru niotkuda sa softverom vještačke inteligencije otvorenog koda koji se mogao mjeriti sa modelima kompanija OpenAI i Google, a na čiji je razvoj navodno utrošeno mnogo manje para nego na razvoj konkurentskih modela.
Ljubitelji sajta po imenu Chatbot Arena su, međutim, na to samo slegli ramenima: oni su mjeseci pratili i ocjenjivali razvoj modela kineske kompanije koja stoji iza DeepSeeka.
Chatbot Arena je pokrenut početkom 2023. godine usred opšteg uzbuđenja koje je uslijedilo nakon lansiranja ChatGPT-ja nekoliko mjeseci ranije. Nastao je kao istraživački projekat Univerziteta Kalifornije, Berkli, (UC Berkley) u čijoj laboratoriji "sky computinga" (to je novi koncept koji se odnosi na globalno povezivanje različitih klaud platformi kako bi se omogućila interoperabilnost i lakši pristup računarstvu u oblaku, prim. prev.).
Čitaj više

Marko Grobelnik: DeepSeek je demokratizirao AI i podstakao tehnološku trku
Stručnjak koji je na čelu radne grupe za incidente vještačke inteligencije pri OECD-u, vjeruje da su Kinezi zaista uspjeli razviti rješenje sa znatno manjim novčanim ulaganjem u poređenju s američkim konkurentima.
08.03.2025

Borba AI modela. Tko je vodeći u svijetu umjetne inteligencije?
Malo više od dvije godine nakon debija ChatGPT-a, AI scena je znatno razvijenija, a alati temeljeni na umjetnoj inteligenciji postali su uobičajeni. Čiji je najbolji?
17.02.2025

Pitali smo ljute AI rivale u što uložiti novac, pa analizirali njihove preporuke
Tražili smo od ChatGPT-a i DeepSeeka savjete za ulaganja na pet i 15 godina i dobili detaljno razrađen plan.
04.02.2025

DeepSeek kao odgovor na rastuće energetske potrebe AI industrije
DeepSeek uzdrmao tržište energije nakon što je njegov AI model doveo u pitanje dugogodišnje procjene energetske potrošnje.
30.01.2025

DeepSeek ili kako Kina razvija umjetnu inteligenciju
Sašo Šmigić, Generali: Kina najavljuje tehnološku ekspanziju, ulaže enormna sredstva u razvoj čipova.
30.01.2025
Sajt pruža pristup velikom broju najsavremenijih AI modela. Korisnici koriste četbotove koje pokreću ti modeli i utiču na njihovo rangiranje na listi tako što ocjenjuju njihove performanse.
"Nezavisna treća strana koja je motivisana da iskreno ocjenjuje napredak u AI prostoru imaće ključnu ulogu", kaže Wei-Lin Chiang, postdoktorand istraživač na UC Berkeley koji rukovodi sajtom Chatbot Arena.
"Svi tvrde da je njihov model najbolji. Zato su transparentnost i nezavisno mišljenje od velike pomoći."
Sajt Chatbot Arena brzo je postao popularan među ranim korisnicima i vodeći indikator u oblasti ocjenjivanja AI-ja koji se brzo razvija: mjesečno sajt posjeti milion korisnika. I vodeće AI kompanije i nove firme u oblasti otvorenog koda koriste sajt kako bi testirali svoje nove modele. Pojedine kompanije čak postavljaju modele prije nego što ih zvanično lansiraju (kao što je to uradio Open-AI sa svojim GPT-40 prošlog proljeća).
Ako sve dobro prođe, imate povod da se hvalite i čak, kao u slučaju DeepSeeka, možete postati prepoznatljivi na međunarodnom planu. Korisnici ChatBot Arene testirali su nekoliko modela otvorenog koda od kojih je svaki bio bolji od prethodnog.
DeepSeek je nedavno pokrenuo V3, veliki jezički model sličan onom koji pokreće ChatGPT, i R1, koji koristi više vremena za generisanje odgovora. Oni su se pojavili na Chatbot Areni krajem decembra, odnosno u januaru, i brzo su napredovali na tabeli.
U danima nakon lansiranja, u petak, R1 je skočio na treće mjesto pretekavši 01, model kompanije Open AI koji koristi sličan način rezonovanja. Aplikacija DeepSeekovog četbota dospijela je u sam vrh lista popularnih proizvoda u prodavnicama mobilnih aplikacija, pa tako i liste Appleove prodavnice aplikacija App Store na američkom tržištu tog vikenda, i liste Google Play Storea nekoliko dana kasnije.
Istaknute ličnosti poput investitora rizičnog kapitala Marca Andreessena i izvršnog direktora OpenAI Sama Altmana su pohvalili ovaj model. Tog ponedjeljka investitori su otpisali jedan bilion tržišne vrijednosti akcija tehnoloških kompanija u SAD i Evropi pošto je pojava DeepSeeka otvorila pitanje da li je tehnološka industrija nepotrebno mnogo para uložila u AI infrastrukturu.
Rukovodioci Chatbot Arene, Chiang i Anastasios Angelopoulos, koji je takođe postdoktorand na UC Berkeley, nisu bili iznenađeni. "Zaista ne iznenađuje to što je ovakav model dospio u sam vrh", kaže Angelopoulos. "Ekosistem će nastaviti da se razvija. Za mjesec dana na tom mjestu neće biti DeepSeek-R1, već neki drugi model."
Chatbot Arena nije jedini projekat koji pruža javni pristup tehnikama i parametrima ocjenjivanja AI-ja. U projektima poput SWE-Bench ili Humanity’s Last Exam ocjenjuje se sposobnost najnaprednijih AI modela da obavljaju različite zadatke, poput odgovaranja na pitanja u vezi sa matematikom ili kodiranjem, ili rješavanja nekih od najtežih problema za koje čovječanstvo zna. Ta oblast nije standardizovana u većoj mjeri i nijedna zvanična grupa ne nadzire metode testiranja modela. Toliko se brzo napreduje na tom polju da bi zbog novih modela postojeće metode ocjenjivanja mogle ubrzo postati zastarjele. (Sećate li se Turingovog testa?) (Britanski matematičar i pionir vještačke inteligencije Alan Turing je 1950. godine osmislio test kako bi se ocijenila sposobnost mašine da oponaša ljudski način razmišljanja, prim. prev.).
Chatbot Arena pruža uvid u to kako zaista izgleda kada se koristi neki proizvod. "Osećaj je jedan način da se to opiše; drugi način je testiranje u praksi", kaže Chiang. "Ako ste OpenAI koji pravi ChatGPT, stalo vam je do iskustva vaših korisnika."
Od početka februara na Chatbot Areni je bilo postavljeno ukupno više od 200 modela, uključujući modele kompanija Anthropic, Google, Meta Platforms, OpenAI i xAI.
Od toga je 90 modela moglo da se isproba. Kompanije obično uspostavljaju saradnju sa Chatbot Arenom kako bi svoje modele postavile na sajt i plaćaju troškove koje snose korisnici dok isprobavaju modele.
Sajt je otvorenog tipa i njegovi podaci i kod su dostupni drugima. Finansira se iz donacija, poput grantova firmi rizičnog kapitala Andreessen Horowitz i Sequoia Capital. Pošto je riječ o univerzitetskom istraživačkom projektu, studenti UC Berkeley uglavnom održavaju Chatbot Arenu u funkciji.
Korisnike u iskačućem prozoru dočekuje obavještenje da je sajt istraživački projekat. Zatim dobijaju uputstva da postave pitanje za dva anonimna četbota i da izaberu zatim onaj koji im se najviše sviđa. Poslije glasanja objavljuju se imena oba četbota. Ti glasovi se koriste za ocjenjivanje snage modela; to je nešto poput sistema Elo za rangiranje šahista u okviru koga se šahisti rangiraju na osnovu rezultata u međusobnim mečevima.
Do sada je zabilježeno 2,6 miliona glasova korisnika koji su se izjašnjavali o svom omiljenom jezičkom modelu. Korisnici se ne loguju tako da članovi tima Chatbot Arene ne znaju ko su oni. Tim klasifikuje upite koje korisnici obično postavljaju četbotovima. Posebno su popularna pitanja u vezi sa programiranjem i kreativnim pisanjem, a tu su i upiti poput "napiši mi pjesmu u stihovima sa opkoračenjem kako bi se stvorio osjećaj kretanja i napetosti; pjesma treba da bude o jabukama".
Rangiranje na Chatbot Areni često djeluje kao konačan pokazatelj. U stvari, tu se mjeri nešto vrlo određeno: mjere se reakcije korisnika Chatbot Arene (grupa ljudi koji uglavnom imaju akademsko obrazovanje ili takva interesovanja, i koje interesuju oblasti poput mašinskog učenja). Sistem rangiranja je "zaista kul i volimo da ga koristimo, ali on ne daje odgovore na pitanja poput da li je ovaj model pogodan za korišćenje? Da li se može lako primjeniti u preduzeću?", kaže Nick Frosst, jedan od osnivača kompanije Cohere, koja pravi AI modele i prilagođava ih poslovnim potrebama.
Postoji i bojazan da bi rejtinzima moglo da se manipuliše. U radu objavljenom na Arxivu, javnoj arhivi istraživanja koja nisu prošla kroz proces stručne recenzije, istraživači su simulirali namještanje glasanja kako bi ukazali na moguće slabosti Chatbot Arene. Angelopoulos i Chiang kažu da je sajt na više načina zaštićen od zloupotreba. Do sada nije bilo dokaza da je sajt uspješno napadnut, kaže Angelopoulos.
Chiang, Angelopoulos i njihovi saradnici usredsređeni su na to kako da unaprijede interakciju sa zajednicom Chatbot Arene dok istovremene uvode nove vrste testiranja. Počeli su da podržavaju druge vrste AI modela, uključujući one koji služe generisanju slika. S obzirom na to koliko su pažnje privukli, istraživači ne isključuju mogućnost da to preraste u poslovni poduhvat. "Definitivno razmišljamo o tome", kaže Chiang.