U nekim tvrtkama šaputanje počinje s jednim zaposlenikom, a zatim se širi dalje. Naime, sve češće se na radnim stolovima mogu vidjeti mikrofoni s guščjim vratom jer sve veći broj zaposlenika tipkovnice stavljaju po strani kako bi umjesto toga mrmljali upute svojim računalima.
Sve donedavno, softver za pretvaranje govora u tekst nije sasvim ispravno funkcionirao.
Sada je postao upotrebljiv zahvaljujući napretku umjetne inteligencije koja uzima neurednost govora i pakira ga u razumljiv slijed. "Glasovni način rada" dobiva na zamahu, a rani korisnici bivaju neumoljivo privučeni obećanjem o sve većoj produktivnosti.
Naime, kako obećava jedan startup, proizvođač ove tehnologije, diktiranje e-poruka i izvješća umjesto tipkanja znači da sve zadatke možete obaviti „brzinom misli“. Ovaj alat također koristi radnicima s invaliditetom, kao i inženjerima za razvoj softvera koji chatbotovima pokušavaju dati potrebne detaljne upute.
"Kad tipkate, vaše upute su beskorisne", kaže Tanay Kothari, suosnivač i glavni izvršni direktor startupa za transkripciju Wispr sa sjedištem u San Franciscu. Govorne upute obično su duže i detaljnije, kaže. Pri tipkanju „inženjeri će, primjerice, napisati 'ispravi grešku'. Ali, greška neće biti ispravljena.“
Najnoviji razvoj umjetne inteligencije pokrenuo je ludi pohod radi dominacije u bilo kojem kutku ovog područja u razvoju. Tako je, prema objavama Bloomberg Newsa, Apple u siječnju sklopio ugovor s Googleom vrijedan gotovo milijardu eura po godini za korištenje njihovih Gemini modela za pomoć virtualnoj asistentici Siri, dok je Amazon.com predstavio svog obnovljenog glasovnog asistenta Alexa+.
Nadalje, Microsoft je predstavio „Mico“, lik u obliku svjetleće kugle koji tvrtka reklamira kao „ekspresivan, prilagodljiv i topao“ digitalni avatar za svoj chatbot Copilot, u svrhu što prirodnijeg osjećaja pri razgovoru s umjetnom inteligencijom. Iz startupa Wispr tvrde kako svaki tjedan integriraju tehnologiju za 150 do 200 novih timova globalnih tvrtki, tvrtki rizičnog kapitala i startupa u Silicijskoj dolini, a najčešće implementaciju počinju s jednim odjelom, poput prodaje ili inženjeringa. Grand View Research procjenjuje da bi rastuće tržište samo za AI generatore glasa ove godine moglo dosegnuti vrijednost od 7,7 milijardi dolara (6,6 milijardi eura), a do kraja desetljeća 21,8 milijardi dolara (18,65 milijardi eura).
Međutim, čak i tako jak proizvod može se teško prodati. Razočaranje je rašireno zbog godina neispunjenih obećanja o proizvodima za glasovne asistente, a mnoge tvrtke i dalje nerado daju priliku novim alatima. Unatoč poboljšanjima u točnosti, i dalje se događaju greške osobito u tehnologiji transkripcije, a osim toga, nije svaki zadatak jednako prikladan za diktiranje. Osjetljivi razgovori ili ocjene učinka zaposlenika zasigurno nisu predviđeni za javno diktiranje. Isto tako, za pojašnjavanje načina razmišljanja može biti potrebno i određeno vrijeme, a što se obično najbolje postiže pisanjem i prepisivanjem. Ponekad "brzina misli" s namjerom treba biti spora.
Bloomberg
"Pomalo je čudno", priznaje Yash Tekriwal, voditelj edukacije u prodajnoj i marketinškoj platformi Clay smještenoj u New Yorku. Naime, posvjedočio je kako je njegovim kolegama bilo potrebno određeno vrijeme navikavanja kada je prošle godine počeo razgovarati s računalom u svom uredu otvorenog tlocrta. Zamišljao je kako se kolege pitaju "razgovara li Yash sa mnom ili sam sa sobom?"
Stavimo li ovu nelagodu postrani, Tekriwala nije trebalo dugo nagovarati na kupnju tehnologije za glasovni način rada jer je oduvijek bio opsjednut produktivnošću. Poput mnogih uredskih radnika, većinu vremena provodi odgovarajući na e-poštu i Slack poruke, u čemu mu glasovni način rada olakšava brže odgovaranje. Procjenjuje kako u prosjeku „piše“ oko 205 riječi u minuti kada diktira, u usporedbi sa 110 do 120 riječi kada tipka. Sada je „jednostavno mučno gledati nekoga kako tipka na ekranu, jer je sporo“, kaže Tekriwal. Isto tako, tvrdi kako svi u njegovu timu, kao i polovica kolega preostalog dijela ureda, sada koriste glasovni način rada, poučeni njegovim primjerom.
Bloomberg
Iz startupa Boosted.ai, sa sjedištem u Torontu, koji je prošle godine dodao glasovne mogućnosti svojoj platformi za upravljanje investicijama, saznajemo kako alat još uvijek nije popularan kod tvrtki za upravljanje imovinom i drugim institucionalnim klijentima. Većina analitičara i investitora koji koriste platformu isprobala je značajku koja naglas čita izvješća glasom generiranim umjetnom inteligencijom, a znatno manji broj njih pokušao je koristiti platformu u obrnutom smjeru – diktirati. Međutim, izvršni direktor ovog startupa, Josh Pantony, ima plan kako doskočiti ovoj nevjerici. Naime, njegovi zaposlenici razvijaju značajku koja će omogućiti Alfi, njihovom glasovnom asistentu s umjetnom inteligencijom, sudjelovanje u poslovnim sastancima. Ideja je učiniti razgovor s vašim računalom što prirodnijim tako što će simulirati razgovor dvaju kolega.
Kothari iz Wispra upoznat je s činjenicom kako je za odvikavanje od upotrebe tipkovnice potrebno određeno vrijeme. Po njegovoj procjeni, korisnicima bi trebalo biti dovoljno otprilike dva do tri tjedna za prilagodbu na tehnologiju glasovnog načina rada te zaključuje riječima: "Mora se dogoditi društvena promjena. Pa niste ludi samo zato što razgovarate sa svojim računalom."