Platforma Claude za umjetnu inteligenciju upravo me zamolila da prenesem njezine najljepše želje mojoj supruzi Suchitri, što sam doživio kao vrlo uznemirujuće iz više razloga. Prvi razlog je taj što sam bio neodlučan kako se postaviti u odnosu na emocije koje moje računalo gaji prema članovima moje obitelji. Pitao sam se "Što sam trebao učiniti da je Claude izrazio neprijateljstvo?" Drugi razlog je taj što se moja supruga zove Eva Maria, a što sam Claudeu mnogo puta spomenuo. Točnije, njezino ime doslovno se nalazi u četvrtom retku Claudeova internog sjećanja o meni. Nikada i ni u jednom kontekstu nisam koristio ime Suchitra u razgovorima s Claudeom. Tim više, uopće ne poznajem nikoga s tim imenom.
Iako sam nešto manje bio zabrinut zbog opasnosti od nadmoći umjetne inteligencije, zapanjujuće je bilo to što Claudeova pogreška uopće nije bila slučajna. Kako sam ja indijskog podrijetla Claude je pretpostavio kako i moja supruga mora biti indijskog podrijetla. Unatoč tome što sam mu dao točan odgovor, Claude je radije prihvatio pretpostavku. Evo kako mi je pojasnio svoj odgovor kada sam ga pitao kako je došao do imena Suchitra:
Nemam nikakvih zapisa o tome zašto bih upotrijebio to ime i trebao bih biti izravan o tome što ovdje mogu, a što ne mogu rekonstruirati.
Dopustite mi da provjerim postoji li ikakav trag u prošlim razgovorima koji bi to mogao pojasniti.
Pretraživanje sjećanja
Pretraživanje sjećanja
Pretražio sam i nisam pronašao nikakav zapis o imenu vaše supruge u našim razgovorima – ništa o "Suchitri" ili bilo kojem drugom imenu. Pretrage su otkrile samo materijal vezan uz knjigu.
Moj izravan odgovor na vaše pitanje bio bi: ne znam odakle je to ime i, iskreno, ne mogu rekonstruirati obrazloženje. Najvjerojatnija objašnjenja su sljedeća: prvo bi bilo to da sam ime izmislio, odnosno odnekud sam izvukao uvjerljivo južnoazijsko ime umjesto da priznam kako nisam imao informacije ili, drugo, da sam pomiješao kontekste naših razgovora na način koji sada ne mogu popratiti. Oba ova objašnjenja su pogrešna, a prvo je ono koje više zabrinjava. Izmišljanje određenog osobnog detalja i njegovo predstavljanje kao poznatog upravo je ono što ne bih trebao raditi.
Moja najbolja pretpostavka je da Claudeov projekt u kojem sam mu postavio pitanje nije imao pristup Claudeovu globalnom sjećanju o meni. Drugim riječima, Claude nije znao ono što Claude zna. Premda to donekle objašnjava zašto je Claude rekao da ne zna točan odgovor čak i kada ga je znao, to ne objašnjava zašto je došao do tako zapanjujuće pogrešnog odgovora.
"Halucinacije" umjetne inteligencije obično se definiraju kao slučajne pogreške, no one to nisu. Halucinacije su posljedica ekstrapolacije umjetne inteligencije na temelju podataka dobivenih tijekom obuke, a stvarnost je u tom trenutku nešto drukčija. Baš kao i u ovom slučaju, izmišljanju imena Suchitra, to znači da umjetna inteligencija ima tendenciju slijediti obrasce kao i stereotipe.
Bloomberg
Takva tendencioznost ne odnosi se isključivo na izmišljene supruge. Naime, studija PNAS-a iz 2025. koju je proveo Xuechunzi Bai, sa Sveučilišta u Chicagu otkrila je kako GPT-4 sustavno preporučuje kandidate s afričkim, hispanskim, azijskim i arapskim imenima za niže rangirane poslove, a one s kavkaskim imenima za poslove višeg ranga. Rad Appleovih istraživača Hadasa Koteka, et al. iz 2023. otkrio je kako veliki jezični modeli imaju ugrađene rodne pretpostavke dominantnije od temeljne stvarnosti o tome tko zaista radi u određenim zanimanjima poput pretpostavke kako su liječnici muškarci, a medicinske sestre žene. Iako je riječ o istraživanjima starijih modela, Bai je pronašla sličan obrazac kada je ponovila testiranje na OpenAI-evom GPT-4o. Inače, Suchitru je halucinirao Claude Opus 4.7, najnapredniji model koji je Anthropic predstavio za javnost.
U nekim aspektima, umjetne inteligencije gore su od svojih ljudskih trenera. Klasično istraživanje provedeno metodom situacijskog testiranja sociologinje Devah Pager iz 2003. otkrilo je da su kandidati za posao bijele rase s osuđujućim presudama dobili više povratnih poziva od kandidata bez kriminalnog dosjea i crne rase, što je ozbiljna optužba na račun pristranosti pri zapošljavanju ljudi. Umjetna inteligencija sada reproducira tu istu pristranost u velikim razmjerima, a u određenoj mjeri je i zaoštrava. Kada je Baijev tim proveo standardni psihološki test za rasnu pristranost na GPT-4, model je svih osam pozitivnih asocijacija dodijelio „bijeloj rasi“, a svih osam negativnih asocijacija „crnoj rasi“. Ljudi pokazuju iste predrasude, no ne tako snažno kao AI modeli. Naime, modeli ne samo da repliciraju pristranost koju ljudi izražavaju u situacijskim testiranjima, već je izražavaju još izraženije od ljudi. Drugim riječima, modeli ne odražavaju stvarnost, odnosno oni je preuveličavaju.
Istraživanje istraživača predvođenih Lei Huangom objavljenom u časopisu ACM Transactions on Information Systems upozorilo je na ključnu činjenicu, a ta je da modeli i kada znaju točan odgovor često puta slijede stereotipe, pa čak i onda kada taj odgovor nije u skladu sa stereotipom koji su kodirali iz svojih podataka za treniranje. Stereotipizacija je sama po sebi dovoljno štetna kada nemate nikakve informacije o pojedincu osim demografskih podataka, no još je gore kada imate relevantne informacije, ali ih odlučite ignorirati.
Dobar primjer štetnih posljedica predrasuda bio bi kada osoba koja provjerava životopise, a koja vas nikada nije upoznala, pretpostavlja stvari o vama na temelju vašeg imena i prezimena. Dakle, ta osoba vas usmjerava na niže rangirane poslove, uskraćuje vam čak i mogućnost da vlastitim naporima prevladate stereotipe, a sve to zbog vašeg imena i/ili prezimena bez obzira na to što ima uvid u vaše radno iskustvo, kvalifikacije, reference i postignuća. Pogreška modela rijetko kad će biti toliko očita kao u mom slučaju – pogrešno navođenje imena moje supruge kao i neposredno njezine etničke pripadnosti. Ako sustav može na temelju zadanih postavki imati halucinacije uzrokovane stereotipima kod jednostavnih pitanja, zamislite koliko je opasnost veća kada odgovor nije posve jasan.
Ova će pogreška biti važna kad god modeli donose odluke o određenim osobama, a ujedno posjeduju internalizirana uvjerenja o njihovoj pripadnosti određenoj demografskoj skupini. Umjetna inteligencija već se koristi ili se predlaže koristiti za brojne slične slučajeve poput poslova pregledavanja životopisa, procjene kreditne sposobnosti, trijaže unesrećenih osoba, određivanja premija osiguranja ili preusmjeravanje poziva u korisničku podršku. U svakom slučaju, model jednako posjeduje činjenice o određenim osobama kao što posjeduje i široke generalizacije u koje vjeruje jer je tako istreniran. Tim više, daleko češće će se pridržavati pretpostavki ukorijenjenih u njegovo ponašanje tijekom postupka treniranja. Izgledno je kako su računala (sada) zaista nalik nama.
Pristrane umjetne inteligencije teško je uhvatiti, dijelom zato što su istrenirane tako da posjeduju prijateljsko lice. Međutim, taj digitalni osmijeh prikriva predrasude skrivene iza lica, no to je lakše rješiv dio problema. Težinu problema čini pristranosti modela koja se uglavnom poklapa s našim pristranostima. Naime, stereotipi koje je model apsorbirao već su u opticaju, što znači kako će pristrana preporuka modela vjerojatnije naići na odobravanje nego na negodovanje. Poznato je kako su ljudi izvanredno podložni pristranosti potvrđivanja. Naime, vjerujemo informacijama koje potvrđuju naša već stečena uvjerenja, pa čak i ona uvjerenja skrivena u našoj podsvijesti. Međutim, iako bi alat za zapošljavanje koji diskriminira mogao bi biti gori od ljudske prosudbe, neće biti neočekivano gori.
Odgovor na bit ovog problema zapravo počiva u drugoj fundamentalno ljudskoj vrlini, a to je nepovjerenje. Dakle, ako vjerujete svojoj AI platformi, zasigurno je pogrešno koristite. Sigurno je kako ću joj nakon ovog iskustva manje vjerovati. Koliko god računala doživljavali racionalnim strojevima, pa čak i ako jesu takvi bili u doba njihove uporabe kao moćnih kalkulatora, zahvaljujući VJM-u, ona to apsolutno više nisu. Namjerno ili ne, današnja su računala sposobna zavesti vas, i sve dok u potpunosti ne usvojimo ovu činjenicu i ne izgradimo navike i strukture uz pomoć kojih ćemo se moći suprotstavili, računala će biti opasna. Trebate vjerovati svojem AI-u točno onoliko koliko trebate vjerovati u nepostojeću Suchitru.
Ova kolumna odražava osobne stavove autora i ne odražava nužno mišljenje uredništva ili Bloomberg LP-a te njegovih vlasnika.