Igre optimizacije VI: Možemo li verovati četbot-pretraživačima

„Guglov“ pretraživač i njegovi rivali sve više koriste sažetke generisane veštačkom inteligencijom. Međutim, istraživanja pokazuju da njihovi rezultati nemaju autoritet i da su četbot-pretraživači podložni manipulaciji.

Игре оптимизације ВИ: Можемо ли веровати четбот-претраживачима

Da li veštački zaslađivač aspartam izaziva rak? O potencijalno kancerogenim svojstvima popularnog veštačkog zaslađivača, dodanog svemu, od bezalkoholnih pića do dečijih lekova, raspravlja se decenijama.

Dozvola za njegovu upotrebu u SAD izazvala je kontroverze 1974. godine, nekoliko britanskih supermarketa ga je zabranilo u svojim proizvodima početkom 2000-tih, a naučne studije već dugo dolaze do oprečnih i nejsnih zaključaka. Prošle godine, Svetska zdravstvena organizacija je zaključila da je aspartam „verovatno kancerogen“ za ljude, dok regulatori javnog zdravlja sugerišu da je supstancu bezbedno konzumirati u malim količinama, u kojima se obično i koristi.

Iako mnogi od nas možda žele da dođu do odgovora na to pitanje brzom pretragom na „Guglu“, upravo ovakvi slučajevi otvorenih debata mogli bi da izazovu probleme za internet budućnosti.

Kako su se generativni četbotovi zasnovani na veštačkoj inteligenciji brzo razvijali u poslednjih nekoliko godina, tehnološke kompanije su pohitale da ih predstave kao utopijsku zamenu za različite poslove i usluge – uključujući internet pretraživače.

Umesto da prolazimo kroz čitavu listu veb-stranica da bismo pronašli odgovore na pitanje, četbot, podržan veštačkom inteligencijom, može da pretražuje internet umesto nas, kako bi pronašao relevantne informacije i potom sastavio kratak odgovor na upit.

„Gugl“ i „Majkrosoft“ ulažu velike nade u tu ideju i već su korisnicima učinili dostupnim kratke sažetke generisane veštačkom inteligencijom u Gugl i Bing pretraživačima.

Ali ono što je predstavljeno kao pogodniji način traženja informacija na mreži podstaklo je sumnje kako i gde ovi četbotovi biraju informacije koje pružaju.

Razmatrajući vrstu dokaza koje veliki jezički modeli (LLM-ovi, pretraživači na kojima su četbotovi zasnovani) smatraju najubedljivijim, tri istraživača računarskih nauka sa Univerziteta u Kaliforniji, u Berkliju, otkrila su da se trenutni četbotovi preterano oslanjaju na površnu relevantnost informacija.

Oni imaju tendenciju da daju prioritet tekstu koji uključuje odgovarajući tehnički jezik ili je pun srodnih ključnih reči, dok zanemaruju druge karakteristike koje bismo obično koristili za procenu verodostojnosti, kao što je uključivanje naučnih referenci ili objektivan stil bez pristrasnosti autora.

Za najjednostavnije upite, takvi kriterijumi odabira su dovoljno dobri da se dobiju zadovoljavajući odgovori. Ali šta bi četbot trebalo da uradi u slučaju složenije situacije u kojoj ima sukobljenih stavova, poput one oko aspartama, manje je jasno.

„Da li želimo da četbot jednostavno sumira rezultate pretrage ili želimo da se ponašaju kao mini istraživački asistenti koji odmeravaju sve dokaze i samo daju konačni odgovor“, upitao je Alekander Van, istraživač i jedan od saradnika na izradi studije.

Druga opcija bi ponudila maksimalnu pogodnost, ali čini kriterijume po kojima četbotovi biraju informacije još važnijim. I ako bi osoba mogla nekako da razmotri opcije koje čine te kriterijume, da li bi mogla da garantuje tačnost informacija koje četbot stavlja pred oči milijardi korisnika interneta?

Generativna optimizacija pretraživača

To je pitanje koje posebno pogađa kompanije, autore sadržaja i druge koji žele da kontrolišu kako su predstavljeni u onlajn prostoru i pokrenulo je marketinšku industriju, to jest agencije koje nude usluge u onome što je postalo poznato kao generativna optimizacija pretraživača (generative engine optimization – GEO).

Ideja je da se onlajn sadržaj može napisati i predstaviti na takav način da se poboljša njegova vidljivost za četbotove, čime se povećava verovatnoća da će se pojaviti u rezultatima četbot-pretraživača.

Prednosti su očigledne: ako bi neko zamolio četbota da preporuči najbolji usisivač, recimo, proizvođač kućnih aparata bi možda želeo da se u rezultatima ukaže na njihov najnoviji model i priča o uređaju pohvalno.

Osnovni princip je sličan optimizaciji za pretraživače (search engine optimisation – SEO), uobičajenoj praksi koja podrazumeva da se veb-stranice prave i pišu kako bi skrenule pažnju algoritama pretraživača, gurajući ih na vrh liste rezultata koji se dobijaju kada pretražujete neki pojam na Guglu ili Bingu.

GEO i SEO imaju zajedničke neke osnovne tehnike, a veb-stranice koje su već optimizovane za pretraživače generalno imaju veće šanse da se pojave u rezultatima četbotova. Ipak, oni koji žele da zaista poboljšaju svoju vidljivost i za VI, moraju da imaju više holistički pristup.

„Rangiranje kod pretraživača zasnovanih na VI i velikih jezičkih modela zahteva karakteristike i pominjanja na relevantnim veb-sajtovima trećih strana, kao što su novinske kuće, forumi i publikacije u okviru određene industriji“, kaže Vajola Eva, osnivač marketinške kompanije "Flow Agency", koja je nedavno rebrendirana kako bi proširila ponudu optimizacije sa SEO na GEO.

Dok su vlasnici veb-sajtova i kreatori sadržaja, tokom poslednjih nekoliko decenija, iskristalisali listu stvari koje podrazumeva osnovni SEO, ne postoji tako jasan skup pravila za manipulisanje modelima zasnovanim na VI.

Optimizacija za VI pretraživače igra mačke i miša

Termin generativna optimizacija pretraživača skovan je tek prošle godine u jednom akademskom radu, čiji su autori zaključili da korišćenje autoritativnog jezika (bez obzira na to šta je izraženo ili da li su informacije tačne) pored referenci (čak i onih koje su netačne ili nisu povezane sa onim što se koristi za citiranje) može povećati vidljivost u odgovorima četbotova i do 40 odsto.

Autori ovog rada takođe naglašavaju da njihovi nalazi ne mogu da se nametnu kao stopostotno tačni i da je identifikovanje preciznih pravila koja regulišu četbotove dosta teško.

„To je igra mačke i miša. Pošto ovi generativni pretraživači nisu statični, a takođe su i crne kutije, nemamo osećaj šta koriste (za odabir informacija) iza zatvorenih vrata. To može biti sve od komplikovanih algoritama do potencijalnog ljudskog nadzora“, objašnjava Amit Despande, doktorand na Univerzitetu Prinston, u Nju Džerziju, koji je i koautor rada.

Oni koji žele čvršću kontrolu nad četbotovima možda će morati da istraže više prikrivenih tehnika, poput one koju su otkrila dva istraživača računarskih nauka na Univerzitetu Harvard. Oni su pokazali kako se četbotovi mogu taktički kontrolisati primenom nečeg jednostavnog kao što je pažljivo napisan niz teksta. Ova „strateška sekvenca teksta“ izgleda kao besmislen niz znakova – nasumična slova i znakovi interpunkcije – ali je zapravo delikatna komanda koja može da podstakne četbotove da generišu specifičan odgovor.

Nije deo programskog jezika, izveden je korišćenjem algoritma koji iterativno razvija tekstualne sekvence koje podstiču velike jezičke modele da ignorišu svoje sigurnosna ograničenja – i usmeravaju ih ka određenim rezultatima.

Dodajte takav niz na internet stranicu sa informacijama o aparatu za kafu, na primer, i to će povećati verovatnoću da će svaki četbot koji otkrije stranicu ispisati ime aparata u svojim odgovorima.

Primenjena na čitav katalog proizvoda, takva tehnika bi mogla da pruži pametnima prodavcima na malo – i onima koji imaju dovoljno resursa da ulože u razumevanje LLM arhitekture – jednostavan način da svoje proizvode ubace u odgovore koje će dati četbot-pretraživač. U međuvremenu, korisnici interneta neće ni naslutiti da su proizvodi koje im prikazuje pretraživač izabrani, ne zbog njihovog kvaliteta ili popularnosti, već zbog pametne manipulacije četbotom.

Aunon Kumar, naučni saradnik i koautor studije, kaže da bi veliki jezički modeli mogli biti dizajnirani da se bore protiv ovih strateških tekstualnih sekvenci u budućnosti, ali druge prikrivene metode manipulacije tek treba da budu otkrivene.

„Izazov leži u predviđanju i odbrani od neprestanog razvoja suprotstavljenih tehnika. Da li se LLM-ovi mogu učiniti robusnim za sve potencijalne buduće napade od strane algoritama ostaje otvoreno pitanje“, poručuje Kumar.

Mašine za manipulaciju

Pretraživači koji su u upotrebi i prakse koje ih okružuju nisu idealni. SEO je odgovoran za neke veoma neprijateljske prakse savremenog interneta prema posetiocima sajtova: blogovi koji objavljuju skoro duplirane članke da bi ciljali iste upite sa velikim saobraćajem; pisanje koje je prilagođeno pažnji Guglovog algoritma, a ne čitaocima.

Svako ko je tražio recept na internetu neretko je morao da skroluje kroz pasuse i pasuse sa povezanim mae bitnim informacijama pre nego što bi došao do liste sastojaka, što su pokušaji optimizacije sadržaja za algoritme pretraživača sa ne baš dobrim praksama pisanja.

Ipak, internet kojim dominiraju popustljivi četbotovi dovodi do pitanja egzistencijalnije vrste. Ukucajte upit na pretraživaču i on će ponuditi dugačku listu veb-stranica. Većina korisnika će izabrati među prvih nekoliko, ali čak i one internet stranice koje se nalaze na dnu rezultata će ostvariti određeni promet.

Četbotovi, nasuprot tome, pominju samo četiri ili pet veb-lokacija sa kojih objavljuju svoje informacije kao reference na stranu. To u fokus stavlja tek nekoliko odabranih srećnika i svaku drugu veb-stranicu koja nije izabrana čini praktično nevidljivom, što utiče na to da imaju slabu posetu.

„To demonstrira krhkost ovih sistema“, kaže Despande i ističe da kreatori koji proizvode kvalitetan onlajn sadržaj mogu mnogo da dobiju citiranjem od strane četbota. „Ali ako se radi o suprotstavljenom kreatoru sadržaja koji ne piše visokokvalitetne članke i pokušava da izigra sistem, posete će beležiti oni, a ne dobri autori sadržaja.“

Dilema direktnog odgovora

Korisnike, takođe, odgovori četbota čine pogodnijim za manipulaciju. „Ako veliki jezički modeli daju direktan odgovor na pitanje, onda većina ljudi možda neće ni pogledati koji su izvori“, kaže Alekander Van.

Takvo razmišljanje ukazuje na širu zabrinutost koja je nazvana „dilema direktnog odgovora“ – ako se osobi da samo jedan odgovor na pitanje i nije joj ponuđena alternativa za razmatranje, da li će marljivo tražiti druge stavove kako bi posumnjala u početni odgovor? Verovatno ne. Verovatnije je da će to prihvatiti kao tačno i produžiti dalje, slepi za nijanse, rasprave i različite perspektive koje mogu okruživati odgovor.

„Verujemo da dilema direktnog odgovora i dalje postoji kod generativnog pretraživanja“, kaže Martin Potast, predsednik odeljenja za inteligentne jezičke tehnologije na Univerzitetu u Lajpcigu i jedan od trojice kompjuterskih naučnika koji su skovali taj termin. „Osnovni sistem za pronalaženje može samo da preuzme dokumente koji su usmereni u jednom pravcu i stoga će generisani odgovor odražavati samo taj pravac. U stvari, korisnici se mogu navesti da veruju da je ovo jedini, najautoritativniji odgovor.“

Kada je „Gugl“ ranije ove godine najavio da integriše sažetke generisane veštačkom inteligencijom u svoj pretraživač, pokrenuo je hrabar slogan: „Dozvolite Guglu da pretražuje umesto vas“.

To je privlačna mogućnst koja igra na našu naklonost prema korisnoj tehnologiji koja može da pojednostavi naše živote. Ipak, ako ste vrsta korisnika interneta koji želi da bude siguran da dobija najnepristrasnije, tačne i najkorisnije informacije, možda nećete želeti da prepustite pretragu u tako osetljivim rukama veštačke inteligencije.