Kineski startup DeepSeek je, prema njihovoj objavi na internetu, započeo manju revoluciju u izradi novih modela učenja za sustave umjetne inteligencije (AI). Njihov novi model DeepSeek-R1 i DeepSeek-R1 Zero, prema izvještaju koji je tvrtka objavila na internetu, čak je 98 posto jeftiniji od modela koje razvijaju na Zapadu. Za izradu su navodno potrošili manje od šest milijuna dolara, dok prema riječima direktora Anthropica Daria Amodeija slični sustavi u inozemstvu stoje i stostruko više.
Novi model je prema procjenama stručnjaka gotovo na razini modela OpenAI 4o, a bolji je, primjerice, od modela koji razvija Meta. I najneobičnije, DeepSeekov kod je otvoren, što znači da ga teorijski svatko može prisvojiti i nadopuniti prema vlastitim željama. Zašto je to DeepSeek učinio još nije jasno, no to će prilično pokvariti tjedan OpenAI-ju i drugim tvrtkama koje skrivaju svoj kod i naplaćuju više za korištenje svojih kapaciteta.
Nakon posjeta OpenAI-ju i DeepSeeku, vidimo da je i korištenje API-ja i njihovih kapaciteta puno jeftinije kod kineskog ponuditelja. Mnogi korisnici na X-u također su napisali da su na vlastitim računalima, koja nisu baš vrhunska, instalirali lokalne varijante DeepSeek (mini) i da rade bez problema. Marc Andreessen, jedan od najpoznatijih investitora u Silicijskoj dolini, rekao je:
Kako su Kinezi uopće uspjeli napraviti tako uspješan model? Pa, ako pratimo njihovu objavu prilikom izlaska, na trećoj stranici navode da su koristili samo poticajno učenje, bez nadzora, kako bi došli do željenog rezultata. Pojednostavljeno, to znači da programeri nisu pregledavali same postupke razmišljanja u procesu traženja rješenja. Tradicionalno, pri razvijanju novih LLM modela, programeri su "nagrađivali/kažnjavali" svaki korak koji je model poduzeo kako bi došao do rješenja. Dakle, modelu su ljudi davali kaznu ako je pogriješio u koracima/procesu, a nagradili ga ako je bio ispravan, vodeći ga prema cilju da dođe do pravog rješenja.
Inovativna (i prije svega hrabra) metoda
DeepSeekova metoda bila je izravnija: model su nagradili samo za ispravno rješenje/odgovor, a sam je model birao postupak, smanjujući tako broj koraka koje je trebalo nadzirati. No činjenica da je model u 99,9 posto nastao samo poticajnim učenjem, napredak je koji se ne može zanemariti.
U izvještaju navode da model ima problema s dužim razgovorima, mnogim jezicima i da ponekad odgovori nisu čitljivi. O halucinacijama ne govore puno, ali priznaju da se događaju. Zato će taj model sada dopunjavati hibridnim načinom, u kojem će kroz model rješavati predstavljanje i traženje pravih rješenja kad model sam to neće moći.
Kako su došli do računskih kapaciteta?
Tjedan dana nakon predstavljanja novog modela, što je već i dalje utjecalo na dionice tehnoloških tvrtki širom svijeta, ostalo je još puno nepoznanica.
Wall Street Journal pomno je pregledao njihovu procjenu da je cijeli proces koštao samo šest milijuna dolara. "DeepSeek je u tehničkom izvještaju naveo da je za treniranje svog modela V3 koristio više od dvije tisuće Nvidia čipova, dok je za treniranje modela slične veličine bilo potrebno nekoliko desetaka tisuća čipova. Neki američki stručnjaci za umjetnu inteligenciju nedavno su posumnjali u to imaju li High-Flyer i DeepSeek pristup računalnim kapacitetima koji nadmašuju službene", navode.
Prema izvještaju MIT Tech Reviewa: "Kineski medij 36Kr procjenjuje da tvrtka na skladištu ima više od deset tisuća najnovijih Nvidia čipova, dok Dylan Patel, osnivač istraživačke savjetodavne tvrtke AI SemiAnalysis, procjenjuje da ih imaju najmanje 50 tisuća." Svi ti čipovi, posebice Nvidia H100, navodno su nabavljeni prije nego što su sankcije počele djelovati.
Tako da je sama cijena razvoja novog modela vjerojatno znatno viša, ali kineske tvrtke ne žele otkriti svoje investicije u moćne čipove jer bi to moglo ugroziti dodatne priljeve koji su ionako ograničeni.
Ograničenja su zahtijevala prilagodbu
"Nadzor izvoza zapravo je gurnuo kineske tvrtke u kut, gdje moraju biti puno učinkovitije sa svojim ograničenim računalnim resursima", kaže Matt Sheehan, istraživač AI-ja u Carnegie Foundationu for International Peace. "Vjerojatno ćemo u budućnosti biti svjedoci velike konsolidacije povezane s manjkom računskih kapaciteta." To je vrlo važna izjava. Čak je i osnivač DeepSeeka Liang Wenfeng rekao slično kada je za kineske medije izjavio kakva rješenja traže.
Toliko je zasad poznato o novom Sputniku. Cijena je vjerojatno puno viša nego što DeepSeek priznaje, ali njihovo rješenje je revolucionarno, jer je probilo nevidljivi zid sporog strojnog učenja i, prije svega, omogućilo dostupnost rješenja cijelom svijetu.
"Iako moramo još pričekati da se pokaže hoće li DeepSeek dugoročno biti korisna i jeftinija alternativa, početne brige fokusiraju se na to hoće li cijena moći američkih tehnoloških divova biti ugrožena i hoće li njihove ogromne investicije u AI morati biti ponovno ocijenjene", rekao je Jun Rong Yeap iz IG Asije za Bloomberg.
Korisnici novog modela također su primijetili da ne odgovara na osjetljiva politička pitanja o Kini i vođi Xi Jinpingu. U nekim slučajevima proizvod daje odgovore u skladu sa službenom pekinškom propagandom, umjesto da uključuje perspektivu vladinih kritičara, kao što to radi ChatGPT. Na pitanja o Nebeskom Carstvu nećete dobiti točne odgovore na DeepSeeku. Međutim, s obzirom na to da je riječ o otvorenom kodu, to se može kad-tad ispraviti i prilagoditi za lokalno okruženje.
Što to znači za sve investicije?
Isti tjedan kada je DeepSeek predstavio svoj novi model, u SAD-u su započeli projekt Stargate, koji će osigurati 500 milijardi dolara za razvoj novih podatkovnih i AI centara. Ako pratimo razvoj AI-ja, sada će to krenuti prema nebesima. Sputnik je poletio u svemir 1957. godine, samo 12 godina kasnije već smo sletjeli na Mjesec. Ako smo mislili da će za implementaciju AI-ja u sve kapacitete trebati još nekoliko godina, kineski su developeri to skratili. Najbolje je misao zapisao Jim Fan, poznati istraživač Nvidije:
"Brojni stručnjaci su u panici zbog toga kako DeepSeek može uspjeti s tako malim proračunom. Ja to vidim drugačije – s ogromnim osmijehom na licu. Zašto ne bismo bili sretni zbog poboljšanja u zakonima o skaliranju? DeepSeek je nedvosmislen dokaz da je moguće stvoriti povećanje intelektualnih kapaciteta s deset puta nižim troškovima, što znači da ćemo dobiti deset puta moćniji AI s računalom koje imamo danas ili koje gradimo za sutra. Jednostavna matematika!"
Sve investicije u izgradnju kapaciteta bit će još potrebnije, jer će sada mnoge države, ili čak EU, moći izgraditi svoje AI modele i prilagoditi ih za vlastite potrebe uz mali postotak razvojne cijene. Novi Sputnik je započeo utrku, ali tko bude imao najviše kapaciteta i energije koja ga pokreće, bit će pobjednik.