Alphabet, kompanija u čijem je vlasništvu Google, stoji iza tehnologije koja je potaknula trenutačni procvat umjetne inteligencije, no unatoč tome, njezini proizvodi nisu dosegnuli željenu popularnost. S velikim nestrpljenjem očekuje se izlazak Geminija, "najvećeg i najmoćnijeg modela umjetne inteligencije" koji je tvrtka ikad stvorila, u nadi da će promijeniti taj trend.
Nakon prošlogodišnjeg uspjeha OpenAI-a s chatbotom ChatGPT, sve više tvrtki eksperimentira s generativnom umjetnom inteligencijom, tehnologijom koja može automatizirati zadatke poput programiranja, sažimanja izvještaja ili stvaranja marketinških kampanja, temeljenih na korisničkim zahtjevima. Google ističe da je Gemini najfleksibilniji model do sada jer dolazi u različitim veličinama, uključujući verziju koja može direktno raditi na pametnim telefonima, što ga izdvaja od konkurencije.
Model umjetne inteligencije, koji podržava razne generativne UI aplikacije, dolazit će u tri verzije: Gemini Ultra, Gemini Pro i Gemini Nano. Eli Collins, potpredsjednica proizvodnje u Google DeepMindu, naglašava da raznovrsnost znači da Gemini može "raditi na svemu, od mobilnih uređaja do velikih podatkovnih centara."
"Dugo smo željeli izgraditi novu generaciju UI modela, inspiriranu načinom na koji ljudi shvaćaju i komuniciraju sa svijetom oko sebe - umjetnu inteligenciju koja je poput korisnog suradnik, a manje kao pametan komad softvera", rekla je Collins u razgovoru s novinarima. "Gemini nas približava tom cilju."
Prije nego što model bude službeno pušten u rad, tvrtka je testirala Geminija na standardnim industrijskim testovima i tvrdi da je u šest od osam testova Gemini Pro nadmašio model GPT-3.5 od OpenAI-a. Tvrtka tvrdi da je Gemini također bio bolji od GPT-4, najnovije verzije OpenAI-ovog općenitog modela, u sedam od osam testova koji se odnose na opće razumijevanje jezika, zaključivanje, matematiku i programiranje.
Google također tvrdi da je njihov AlphaCode 2, najnoviji generativni UI proizvod koji može objašnjavati i generirati kod, nadmašio 85 posto konkurencije u natjecateljskom programiranju. Tvrtka planira objaviti tehnički izvještaj koji detaljnije objašnjava strukturu, postupak obuke i evaluaciju Geminija.
Počevši od srijede, Android programeri koji žele izrađivati aplikacije za pametne telefone i tablete koje koriste Gemini moći će se prijaviti za "nano" verziju modela umjetne inteligencije koja može raditi izravno na tim uređajima. Google također najavljuje da će odmah omogućiti Gemini na Pixel 8 Pro, svom flagship telefonu, gdje će pokretati nove generativne značajke poput sposobnosti sažimanja dijelova iz snimljenog telefonskog razgovora. Sljedeći tjedan, Google će omogućiti Gemini Pro korisnicima 'oblaka' putem svojih Vertex AI i AI Studio platformi.
Najjača verzija, Gemini Ultra, bit će dostupna prvo u programu ranog pristupa za developere i poduzeća, a detalji o programu bit će objavljeni sljedeći tjedan. Planira se šira javna dostupnost početkom iduće godine.
Gemini će također moći integrirati se s Googleovim paketom aplikacija i usluga putem Barda - razgovornog chatbota koji je konkurencija OpenAI-ovom ChatGPT-u. Bard je prethodno koristio model PaLM 2 tvrtke Google, velikog jezičnog modela koji je tvrtka najavila u svibnju na svojoj godišnjoj konferenciji za developere.
Posljednjih godina, Google je bio pod pritiskom da preoblikuje svoje osnovno pretraživačko poslovanje i odgovori na uspon programa umjetne inteligencije koji mogu generirati sadržaj. Iako je tvrtka dugo bila poznata po istraživanju umjetne inteligencije, kritike su usmjerene na upravu zbog sporog reagiranja na tržištu s UI proizvodima, posebno nakon uspjeha proizvoda poput ChatGPT-a i generatora slika Dall-E. Od izlaska OpenAI-ovog GPT-4 u ožujku, Google se trudi povratiti vodstvo u tom području, uključujući implementaciju nove tehnologije u svoje postojeće pretraživačko poslovanje.
Gemini je odgovor tvrtke na pritisak tržišta. Google tvrdi da je model umjetne inteligencije "prirodno multimodalan", što znači da je od početka predtreniran za rukovanje tekstualnim i slikovnim upitima korisnika. U video demonstraciji, Google je pokazao kako roditelj može pomoći djetetu s domaćom zadaćom postavljanjem slike matematičkog problema zajedno s fotografijom pokušaja rješavanja na papiru.
"No, nije samo sposoban rješavati ove probleme", rekao je Taylor Applebaum, inženjer softvera u Googleu, "može pročitati odgovore, razumjeti što je točno, a što nije, te objasniti koncepte koji zahtijevaju dodatna pojašnjenja."
Tvrtka također najavljuje da će "generativno iskustvo pretraživanja" - eksperimentalna verzija Googleove tražilice koja koristi generativnu UI tehnologiju - integrirati nove sposobnosti Geminija sljedeće godine.
Međutim, predstavnici tvrtke upozoravaju da je Gemini i dalje sklon "halucinacijama", odnosno stvaranju lažnih ili izmišljenih informacija generativnom umjetnom inteligencijom. Collins naziva taj fenomen "neriješenim istraživačkim problemom". Demonstracije koje je tvrtka pokazala novinarima bile su unaprijed snimljene.
Collins tvrdi da Gemini "ima najopsežnije sigurnosne evaluacije od bilo kojeg Googleovog modela umjetne inteligencije". Kako bi procijenio sigurnost Geminija, Google je model izložio testiranju koje simulira zlonamjerne pokušaje iskorištavanja programa. Testiranje uključuje "stvarne toksične upite", test koji je razvio Allen Institute for AI, a sadrži više od 100 tisuća upita preuzetih s weba i pomaže u provjeri govora mržnje i političke pristranosti.
Tvrtka također naglašava da će alat biti brz. Gemini koristi novu strukturu superkompjutera s ažuriranim procesorskim čipovima, što mu omogućuje brže izvođenje u odnosu na ranije, manje modele, tvrdi tvrtka.
Google koristi novu verziju svojih čipova, Cloud Tensor Processing Units (TPUs), koje su dizajnirane interno i mogu trenirati postojeće modele 2,8 puta brže od prethodnih. Amin Vahdat, potpredsjednik strojnog učenja u Googleu, kaže da takav pristup daje Googleu "novi pogled na buduću standardnu infrastrukturu umjetne inteligencije". Tvrtka i dalje koristi UI čipove treće strane za pokretanje svojih modela Geminija, dodao je.
Gemini će se integrirati u Bard, generativni UI chatbot tvrtke Google koji je pokrenut u ožujku, omogućujući mu pristup najpopularnijim uslugama tvrtke, uključujući Gmail, Maps, Docs i YouTube. Implementacija će se odvijati u dva različita koraka. Od srijede, Bard će raditi na Gemini Pro, što će omogućiti napredno razmišljanje, planiranje, razumijevanje i druge sposobnosti. Bit će u mogućnosti raditi na engleskom jeziku u 170 zemalja i teritorija, ali neće biti dostupan u Europi ili Velikoj Britaniji, gdje tvrtka kaže da surađuje s lokalnim regulatorima.
Početkom iduće godine tvrtka planira lansirati Bard Advanced, koji će pokretati sposobniji model Gemini Ultra. Google kaže da će uskoro pokrenuti program pouzdanih testera kako bi poboljšao Bard Advanced prije nego što ga šire lansiraju javnosti.
Sissie Hsiao, potpredsjednica proizvodnje za Bard u Googleu, rekla je da "s Geminijem, Bard dobiva svoju najveću i najbolju nadogradnju dosad, otključavajući nove načine za ljude da stvaraju, komuniciraju i surađuju."