U neprestanom nadmetanju tehnoloških divova u području vještačke inteligencije, Google ponovo podiže ljestvicu predstavljanjem Geminija 2.0. Ovaj najnoviji "blizanac", kako ga neki nazivaju, ne predstavlja tek evoluciju svojih prethodnika, već ambiciozan korak naprijed u svijetu velikih jezičnih modela (LLM).
Od multimodalnosti koja prelazi granice teksta, preko poboljšanog rasuđivanja i kodiranja, pa sve do drastično povećane efikasnosti, Gemini 2.0 obećava transformaciju načina na koji interagiramo s tehnologijom. Google Gemini 2.0 koji se pojavio početkom ovog mjeseca (decembar 2024), nadovezujući se na temelje koje su postavili njegovi prethodnici Gemini 1.0 i 1.5. Gemini 2.0 uvodi niz poboljšanja, pri čemu možemo izdvojiti sljedeća ključna:
Poboljšana multimodalnost: Gemini 2.0 proširuje se od razumijevanja multimodalnih ulaza na generisanje multimodalnih izlaza. To znači da osim teksta može proizvoditi slike, audio i video, otvarajući nove mogućnosti za kreativne i interaktivne aplikacije. Na osnovu tekstualnih upita ili multimodalnih unosa, Gemini 2.0 može kreirati originalne slike, nudeći moćan alat za kreativno izražavanje i vizuelnu komunikaciju. Model može generisati govor na više jezika s prirodnom intonacijom i ritmom, što ima implikacije na pristupačnost, glasovnu pomoć i kreiranje sadržaja. Dok se konkretni detalji još uvijek pojavljuju, očekuje se da će Gemini 2.0 imati poboljšane mogućnosti u razumijevanju i potencijalnom generisanju videa, otvarajući put aplikacijama u video analizi, uređivanju i kreiranju videa.
Čitaj više
Bloomberg Adria ulazi u svijet umjetne inteligencije
Ulaskom u svijet umjetne inteligencije Bloomberg Adria pridružuje se vodećim svjetskim medijima.
27.11.2024
Kako tehnologija mijenja iskustvo putovanja
AI revolucionira turizam, mijenjajući način pružanja usluga i unapređujući korisničko iskustvo.
27.11.2024
Kako zaraditi dodatni novac primjenom umjetne inteligencije
Nađa Zubčević piše za Bloomberg Adria.
06.09.2024
Al i budućnost obrazovanja: Revolucija ili kraj tradicionalnog?
Stručnjaci predviđaju da će umjetna inteligencija duboko transformirati sistem obrazovanja.
17.06.2024
Poboljšano zaključivanje i kodiranje: Gemini 2.0 donosi značajna poboljšanja u zaključivanju i kodiranju, demonstrirajući napredak u logičkom zaključivanju (dedukcija, indukcija, abdukcija), rješavanju složenih problema iz različitih područja, te razumijevanju nijansi jezika i kompleksnih odnosa među konceptima. U području kodiranja, Gemini 2.0 se ističe generisanjem koda u više programskih jezika (Python, Java, C++, JavaScript), razumijevanjem i analizom postojećeg koda, te mogućnošću ispravljanja grešaka (debugging), što ga čini moćnim alatom za automatizaciju, razvoj softvera, analizu podataka i donošenje odluka. Navedena poboljšanja omogućuju modelu precizniju interpretaciju upita i pružanje relevantnijih i efikasnijih rješenja.
Prošireni kontekstni prozor: Prošireni kontekstni prozor omogućuje Gemini 2.0 modelu održavanje konteksta tokom dužih interakcija, što je ključno za razumijevanje dugih narativa, održavanje dosljednosti u dijalozima i rješavanje složenih zadataka s više koraka. Navedena karakteristika omogućava modelu da "pamti" prethodne informacije, sprječava ponavljanje i kontradikcije te donosi informisane odluke na temelju cjelokupnog konteksta. Uz to, poboljšano razumijevanje nijansi ljudskog jezika, uključujući ton, namjeru i kontekst, omogućuje preciznije interpretaciju upita i pružanje relevantnijih odgovora, što značajno poboljšava korisničko iskustvo i otvara nove mogućnosti primjene u različitim područjima.
Povećana efikasnost: Gemini 2.0 donosi značajna poboljšanja u efikasnosti kroz optimizovanu arhitekturu neuronskih mreža koja smanjuje broj parametara i potrebu za memorijom, napredne tehnike treniranja poput destilacije znanja i kvantizacije koje poboljšavaju performanse uz manju računarsku snagu, te korištenje specijalizovanog hardvera poput Googleovih TPU-ova. Navedena kombinacija rezultira bržom obradom podataka, nižom latencijom (prema nekim izvorima dvostruko bržim izvršavanjem zadataka u odnosu na prethodnu generaciju), smanjenim troškovima računanja i manjom potrošnjom energije. To Gemini 2.0 čini pogodnijim za implementaciju na uređajima s ograničenim resursima, poput mobilnih uređaja i rubnih računala, te omogućuje širu primjenu u interaktivnim aplikacijama poput glasovnih asistenata i chatbota, uz pozitivan utjecaj na smanjenje emisija CO2.
Gemini 2.0 naspram ChatGPT-4 modela
Gemini 2.0 i ChatGPT-4 predstavljaju vrhunske jezičke modele s različitim prednostima. Gemini 2.0 se ističe multimodalnošću, omogućavajući obradu i generisanje podataka u različitim formatima poput teksta, slika, zvuka i videa, te efikasnošću zahvaljujući optimizovanom dizajnu i Googleovim TPU-ovima, što ga čini pogodnim za primjene na uređajima s ograničenim resursima. S druge strane, ChatGPT-4 pokazuje visoke performanse u obradi teksta i kodiranju, s kontinuiranim poboljšanjima u tim područjima, a posebno se ističe u kompleksnim zadacima razumijevanja i generisanja teksta. Oba modela su znatno unaprijedila kontekstne prozore, omogućavajući složenije interakcije i obradu dužih tekstova, čime se poboljšava njihova sposobnost pamćenja prethodnih informacija i održavanja koherentnosti u dijalogu. Konačni izbor ovisi o specifičnim potrebama korisnika – multimodalnost i efikasnost favorizuju Gemini 2.0, dok fokus na tekst i kodiranje čini oba modela konkurentnima, pri čemu ChatGPT-4 potencijalno nudi prednost u nijansama jezičke obrade. Važno je napomenuti da se performanse oba modela neprestano razvijaju, te da se nove mogućnosti i poboljšanja redovno uvode.
Iako su detaljne informacije o cijenama Geminija 2.0 još uvijek ograničene, jasno je da Google teži konkurentskom pozicioniranju u odnosu na ChatGPT. Oba modela nude besplatne verzije s osnovnim funkcionalnostima, omogućujući korisnicima da ih isprobaju. Za one koji traže naprednije mogućnosti, očekuju se (ili su već dostupne, kao kod ChatGPT-a) plaćene pretplate s prioritetnim pristupom, bržim odgovorima i dodatnim mogućnostima. Programerima je na raspolaganju API pristup za integraciju modela u vlastite aplikacije, sa cijenama koje se formiraju zavisno od potrošnje resursa. Trenutno nemamo precizne informacije o cijenama Geminija 2.0 za napredne verzije i API, što otežava direktno poređenje sa ChatGPT-om. Međutim, Googleova strategija integracije Geminija u postojeće proizvode sugeriše mogućnost besplatnog pristupa nekim funkcionalnostima unutar Googleovog ekosistema, dok će se specijalizirane i naprednije mogućnosti vjerovatno naplaćivati. U konačnici, očekuje se da će se cjenovne opcije oba modela prilagođavati potrebama korisnika, nudeći fleksibilne opcije za različite scenarije primjene.
Sa pojavom Geminija 2.0, Google je jasno demonstrirao svoju namjeru da zauzme vodeću poziciju u razvoju vještačke inteligencije. Poboljšanja u multimodalnosti, zaključivanju, kodiranju i efikasnosti čine Gemini 2.0 snažnim konkurentom na tržištu LLM-ova. Dok se ChatGPT ističe u obradi teksta i kodiranju, Gemini 2.0 nudi širi spektar mogućnosti, posebice u generisanju multimodalnih izlaza i optimizaciji za rad na uređajima s ograničenim resursima. U konačnici, budućnost interakcije s tehnologijom oblikovat će se kroz kontinuirani razvoj i nadmetanje ovakvih modela, a Gemini 2.0 nedvojbeno predstavlja značajan korak u tom smjeru, otvarajući vrata novim, inovativnim primjenama u različitim područjima.
Nedžad Pirić je ekspert za digitalizaciju.
Sadržaj, stavovi i mišljenja izneseni u komentarima objavljenim na Bloomberg Adriji pripadaju autoru i ne predstavljaju nužno stavove uredništva Bloomberg Adrije.