Jordan Howlett, 26-godišnjak s 24 milijuna pratitelja na Instagramu, TikToku i YouTubeu, vrlo oprezno bira s kojim brendovima će surađivati. Potpisao je ugovore s Domino's Pizzom, Googleom i WingStopom i zarađuje stvarajući videozapise na teme kao što su "kako otvoriti staklenke kao profesionalac" ili koji je najbolji način da "ispravno jedete hranu iz restorana Chipotle". Stoga se preplašio kad je počeo primati poruke u kojima su ga pitali zašto na Facebooku i Instagramu reklamira navodni lijek za sljepoću.
Howlett je kliknuo na jednu od poveznica i užasnuto slušao kako glas koji je zvučao baš poput njegova opisuje kako su "vrhunski istraživači s Cambridgea" otkrili ritual koji traje sedam sekundi i koji svakome može omogućiti savršen vid. Videozapis se sastojao od loše montiranih rendgenskih slika mozga i sredovječnih osoba koje škiljeći gledaju svoje mobilne telefone. No zvučni je zapis bio iznimno uvjerljiv, tvrdi Howlett. "Zaprepastio sam se kad sam začuo svoj glas", kaže. "U teoriji, mogu mojim glasom izreći bilo što."
Stručnjaci za kibernetičku sigurnost godinama upozoravaju na deepfakeove – umjetno stvorene ili manipulirane medijske sadržaje koji se mogu činiti autentičnima. I dok je zabrinutost većinom bila usmjerena na slike i videozapise, tijekom prošle godine postalo je jasno da najizravniju prijetnju predstavljaju lažiranja zvuka, koja se ponekad nazivaju i glasovnim klonovima. Vijay Balasubramaniyan, osnivač agencije za otkrivanje prijevara Pindrop, kaže da je njegovo poduzeće već počelo uočavati napade na bankovne korisnike u kojima prevaranti rabe sintetički zvuk kako bi se lažno predstavljali kao vlasnici bankovnih računa u pozivima korisničkoj podršci.
Veliku prijetnju predstavlja i politička manipulacija kao u primjeru kad je 20.000 glasača iz New Hampshirea primilo navodni poziv predsjednika Joea Bidena u kojemu ih on moli da sutradan ne glasaju za njega. Nije postojao očiti, izravan utjecaj: Bidenovo ime nije se ni nalazilo na glasačkom listiću, a svejedno je nadmoćno pobijedio kampanjom dopisnog glasanja. Unatoč tome, incident je pojačao strahove da bi takva tehnologija mogla igrati važnu ulogu na ovogodišnjim izborima. Federalna komisija za komunikacije (engl. Federal Communications Commission) zabranila je 8. veljače automatizirane telefonske kampanje koje rabe umjetnu inteligenciju (UI).
Pindrop je priopćio da je videozapis s Howlettom nastao ubacivanjem snimaka njegova govora, očito preuzetih s njegovih YouTube ili Instagram videa, u softver koji je izradio startup pod nazivom ElevenLabs kako bi klonirao njegov glas. Od tog trenutka, baš kao što se Howlett i bojao, tehnologija ElevenLabsa svojem je korisniku omogućila stvaranje jezivo uvjerljive naracije Howlettovim glasom. Dva druga neovisna istraživača analizirala su Bidenov robotski poziv i utvrdila da je zvuk također generiran s pomoću ElevenLabsove tehnologije.
Prijatelji iz djetinjstva Mati Staniszewski, bivši strateg za implementaciju u Palantir Technologiesu, i Piotr Dąbkowski, bivši Googleov inženjer strojnog učenja, osnovali su ElevenLabs prije dvije godine. Odrastajući u Poljskoj, gledali su nevješto sinkronizirane holivudske filmove i zaključili su da bi UI mogao današnju djecu poštedjeti sličnih iskustava. Isti alati, mislili su, mogli bi se upotrijebiti za internetske lekcije ili audioknjige, pa čak i za prevođenje razgovora u stvarnom vremenu.
Uspon ElevenLabsa
Ta je zamisao pretvorila ElevenLabs u jedan od najtraženijih startupova u industriji generativne umjetne inteligencije. Nije riječ o jedinoj usluzi kloniranja glasa, ali se vinula među zvijezde. ElevenLabs je prikupio novac od ulagača kao što su Andreessen Horowitz, Smash Capital i suosnivač DeepMinda Mustafa Suleyman. Posljednji krug financiranja koji je proveden u siječnju doveo je do procjene vrijednosti poduzeća na 1,1 milijardu dolara (1,02 milijarde eura). Ljudi upoznati s djelovanjem ElevenLabsa kažu da uprava ne želi da se njihov proizvod upotrebljava s namjerom lažnog oglašavanja na internetu ili za utjecanje na rezultate glasovanja. No, kako to često biva s uspješnim internetskim startupovima, alati poduzeća proširili su se brže nego što su se uspjele razviti zaštitne mjere protiv njihove zloupotrebe.
ElevenLabs nudi besplatnu fonoteku generičkih glasova, ali potražnja je brzo porasla za klonovima prepoznatljivih glasova. Nedugo nakon što su u siječnju 2023. predstavili alat koji je ljudima omogućio kloniranje glasa uz samo kratak audioisječak, ElevenLabs je na Twitteru objavio da bilježi "sve veći broj slučajeva zloporabe kloniranja glasa". Ti su se slučajevi pojavili na stranici 4chan na kojoj su korisnici dijelili isječke voditelja podcasta Joea Rogana i glumice Emme Watson koji su, prema tadašnjim medijskim izvješćima, izgovarali rasističke i homofobne uvrede.
Lažno predstavljanje kao slavna osoba predstavljalo je pravnu dilemu za Eleven Labs. Žalbeni sud je 1988. odlučio da poznate osobe imaju pravo zabraniti neovlaštenu komercijalnu upotrebu jedinstvenih karakteristika poput njihova glasa bez njihova dopuštenja. (Problem je nastao kad je Bette Midler tužila Ford Motor jer je angažirao pjevačicu da oponaša njezin glas nakon što je ona odbila pjevati u reklamama.)
Kako bi smanjio zlouporabu, ElevenLabs počeo je naplaćivati jedan dolar (0,92 eura) mjesečno za svoj dotad besplatan alat za kloniranje glasa. Tako stvaranje zvučnih deepfakeova nisu učinili preskupim i nedostižnim, no sada korisnici moraju rabiti sredstvo za plaćanje koje se može pratiti, poput kreditne kartice, što bi moglo odvratiti zlonamjerne osobe i poboljšati provedbu zakona.
ElevenLabs nudi besplatnu fonoteku generičkih glasova, ali potražnja je brzo porasla za klonovima prepoznatljivih glasova.
Iz ElevenLabsa su priopćili da ne "komentiraju pojedinačne incidente, ali će poduzeti odgovarajuće mjere ako im se prijavi sadržaj koji krši njihove uvjete." U intervjuu koji je u siječnju dao za Bloomberg News, Staniszewski je rekao da su gotovo sve primjene tehnologije ove tvrtke legitimne i da ElevenLabs može pratiti koje fraze korisnici stvaraju kloniranjem glasa. "Ulaganje u sigurnost nam je najvažnije", rekao je.
Krajem 2023. tvrtka je počela izrađivati plan za suzbijanje zlonamjernih korisnika, prema osobi upoznatoj s operacijama tvrtke koja je zatražila anonimnost kako bi raspravljala o nejavnoj informaciji. Šefica osoblja ElevenLabsa Victoria Weller bila je posebno usredotočena na uspostavljanje pravila prije nego što 2024. na snagu stupe britanski Zakon o sigurnosti na internetu i europski Zakon o digitalnim uslugama. Htjela je stvoriti politike o uvredljivom jeziku, kao i priručnik za osoblje kako bi im bilo jasno kada mogu korisniku zabraniti daljnji pristup. Pravila uporabe ElevenLabsa zabranjuju "obmanjujuće ili zavaravajuće glasovne klonove" i "sadržaj koji potiče nasilje ili promiče mržnju". Ali također priznaju da tvrtka ne "prati proaktivno vaš sadržaj na našim uslugama".
Pet od 40 zaposlenika ElevenLabsa zaduženo je za povjerljivost i sigurnost. Osobe upoznate s radom kompanije u intervjuima navode da su osnivači predani sprečavanju mogućih prevara tijekom glasačkih izbora i nasilnog izražavanja. No stručnjaci za umjetnu inteligenciju te za povjerljivost i sigurnost kažu da je gotovo nemoguće spriječiti ljude u stvaranju problematičnog sadržaja s pomoću dostupnih generativnih alata umjetne inteligencije. Tehnološke kompanije općenito imaju cilj spriječiti 90 posto štetnih radnji, kaže Mohamed Abdihakim Mohammed, voditelj zajednice koji je radio na moderiranju sadržaja u brojnim softverskim tvrtkama. Ali startupovi "zapravo nikako ne mogu spriječiti dostupnu tehnologiju kloniranja glasa u nanošenju štete", navodi.
Manjkava zaštita
Bidenov robotski poziv pokazao je ograničenja tehničke zaštite ElevenLabsa. Tvrtka nudi alat koji naziva "klasifikatorom govora", a za koji navodi da može odrediti je li audioisječak sintetičan i je li neki određeni isječak kreiran s pomoću njezina softvera. Bloomberg Businessweek i Pindrop upotrijebili su alat kako bi pregledali jedan od Bidenovih isječaka, a tehnologija je rekla da nije riječ o deepfakeu. Slični alati drugih tvrtki otkrili su suprotno, a nakon što je isječak očišćen radi uklanjanja pozadinske buke, ElevenLabsov alat zaključio je da je njihova tehnologija ipak korištena.
Promjena zaključka upućuje na to koliko su alati za prepoznavanje deepfakea manje pouzdani što su dalje od izvora. Kreatori mogu dodati šum ili druge smetnje kako bi omeli alate u prepoznavanju. Povijest provjere činjenica na društvenim mrežama također upućuje na to da bi čak i savršeno otkrivanje imalo ograničen učinak. Kad netko izradi audioisječak, on se može proširiti društvenim mrežama, a obmanjujući sadržaj često nađe put do publike koja nije sklona vjerovati onima koji kažu da je materijal koji im se sviđa nelegitiman.
Približno 121.000 ljudi pogledalo je jedan od lažnih Howlettovih videa. Još takvih videozapisa moglo bi mu "smanjiti buduće poslovne prilike", kaže Jordan Howlett. Također se brine da njegove obožavatelje dovode u opasnost od prevare. "Ne želim da netko prevari moje pratitelje", rekao je.
U pitanje se dovode i izbori 2024. Kreatori deepfakea s entuzijazmom istražuju mogućnosti. Jedan od njih je i Samin Yasar, kreator sadržaja na YouTubeu i osnivač usluge AI Answers koja radi na korištenju umjetne inteligencije kao zamjeni za pozivne centre. U siječnju je Yasar objavio video u kojem kaže da je klonirao glasove koristeći se uslugom ElevenLabsa u ime dviju političkih kampanja.
Nadahnuće za video bio je razgovor s Adamom Wynnsom, poduzetnikom koji je osnovao poduzeće pod nazivom Winningest Method koje nudi životno savjetovanje i tablete za mršavljenje. Wynns je pitao Yasara je li moguće izraditi masovnu automatiziranu političku telefonsku kampanju za prikupljanje anketnih podataka od birača. Rekao je Yasaru da poznaje ljude kojima bi ta tehnologija mogla biti od koristi.
Kako bi dokazao koncept, Yasar je upotrijebio ElevenLabs za kloniranje glasa Mikea Lindella, glavnog izvršnog direktora MyPillowa, politički aktivnog desničara kojega je tvrtka za izradu uređaja za glasovanje Dominion Voting Systems tužila za 1,3 milijarde dolara (1,2 milijarde eura) zbog lažnih tvrdnji o predsjedničkim izborima 2020. godine. Lindell je opovrgnuo bilo kakvu krivnju. "Čvrsto vjerujem da moramo pažljivo ispitati svoje sustave glasanja i osigurati transparentnost", čulo se sa snimke govora koji je izradio ChatGPT, ako je suditi po uzorku koji je pregledao Businessweek. "Sav je moj trud usmjeren na istragu nepravilnosti."
Yasar je učitao zvuk na uslugu robotskog biranja telefonskih brojeva. Lažni Lindell mogao bi odgovoriti na pitanja i komentare birača slično automatiziranom pozivu korisničkoj službi.
Wynns kaže da je ideju iznio Lindellu i Scottu Jensenu, bivšem republikanskom kandidatu za guvernera Minnesote, koji je kritiziran zbog širenja dezinformacija o bolesti COVID-19. Nikad mu se nisu javili i na kraju je odustao od ideje prije komercijalizacije tehnologije, rekavši da su ga potencijalni pravni problemi počeli činiti nervoznim. Tehnički, međutim, ništa ga ne bi moglo zaustaviti.
-- Surađivao Mark Bergen.