Игре оптимизације ВИ: Можемо ли веровати четбот-претраживачима

„Гуглов“ претраживач и његови ривали све више користе сажетке генерисане вештачком интелигенцијом. Међутим, истраживања показују да њихови резултати немају ауторитет и да су четбот-претраживачи подложни манипулацији.

Да ли вештачки заслађивач аспартам изазива рак? О потенцијално канцерогеним својствима популарног вештачког заслађивача, доданог свему, од безалкохолних пића до дечијих лекова, расправља се деценијама.

Дозвола за његову употребу у САД изазвала је контроверзе 1974. године, неколико британских супермаркета га је забранило у својим производима почетком 2000-тих, а научне студије већ дуго долазе до опречних и нејсних закључака. Прошле године, Светска здравствена организација је закључила да је аспартам „вероватно канцероген“ за људе, док регулатори јавног здравља сугеришу да је супстанцу безбедно конзумирати у малим количинама, у којима се обично и користи.

Иако многи од нас можда желе да дођу до одговора на то питање брзом претрагом на „Гуглу“, управо овакви случајеви отворених дебата могли би да изазову проблеме за интернет будућности.

Како су се генеративни четботови засновани на вештачкој интелигенцији брзо развијали у последњих неколико година, технолошке компаније су похитале да их представе као утопијску замену за различите послове и услуге – укључујући интернет претраживаче.

Уместо да пролазимо кроз читаву листу веб-страница да бисмо пронашли одговоре на питање, четбот, подржан вештачком интелигенцијом, може да претражује интернет уместо нас, како би пронашао релевантне информације и потом саставио кратак одговор на упит.

„Гугл“ и „Мајкрософт“ улажу велике наде у ту идеју и већ су корисницима учинили доступним кратке сажетке генерисане вештачком интелигенцијом у Гугл и Бинг претраживачима.

Али оно што је представљено као погоднији начин тражења информација на мрежи подстакло је сумње како и где ови четботови бирају информације које пружају.

Разматрајући врсту доказа које велики језички модели (LLM-ови, претраживачи на којима су четботови засновани) сматрају најубедљивијим, три истраживача рачунарских наука са Универзитета у Калифорнији, у Берклију, открила су да се тренутни четботови претерано ослањају на површну релевантност информација.

Они имају тенденцију да дају приоритет тексту који укључује одговарајући технички језик или је пун сродних кључних речи, док занемарују друге карактеристике које бисмо обично користили за процену веродостојности, као што је укључивање научних референци или објективан стил без пристрасности аутора.

За најједноставније упите, такви критеријуми одабира су довољно добри да се добију задовољавајући одговори. Али шта би четбот требало да уради у случају сложеније ситуације у којој има сукобљених ставова, попут оне око аспартама, мање је јасно.

„Да ли желимо да четбот једноставно сумира резултате претраге или желимо да се понашају као мини истраживачки асистенти који одмеравају све доказе и само дају коначни одговор“, упитао је Алекандер Ван, истраживач и један од сарадника на изради студије.

Друга опција би понудила максималну погодност, али чини критеријуме по којима четботови бирају информације још важнијим. И ако би особа могла некако да размотри опције које чине те критеријуме, да ли би могла да гарантује тачност информација које четбот ставља пред очи милијарди корисника интернета?

Генеративна оптимизација претраживача

То је питање које посебно погађа компаније, ауторе садржаја и друге који желе да контролишу како су представљени у онлајн простору и покренуло је маркетиншку индустрију, то јест агенције које нуде услуге у ономе што је постало познато као генеративна оптимизација претраживача (generative engine optimization – GEO).

Идеја је да се онлајн садржај може написати и представити на такав начин да се побољша његова видљивост за четботове, чиме се повећава вероватноћа да ће се појавити у резултатима четбот-претраживача.

Предности су очигледне: ако би неко замолио четбота да препоручи најбољи усисивач, рецимо, произвођач кућних апарата би можда желео да се у резултатима укаже на њихов најновији модел и прича о уређају похвално.

Основни принцип је сличан оптимизацији за претраживаче (search engine optimisation – SEO), уобичајеној пракси која подразумева да се веб-странице праве и пишу како би скренуле пажњу алгоритама претраживача, гурајући их на врх листе резултата који се добијају када претражујете неки појам на Гуглу или Бингу.

GEO и SEO имају заједничке неке основне технике, а веб-странице које су већ оптимизоване за претраживаче генерално имају веће шансе да се појаве у резултатима четботова. Ипак, они који желе да заиста побољшају своју видљивост и за ВИ, морају да имају више холистички приступ.

„Рангирање код претраживача заснованих на ВИ и великих језичких модела захтева карактеристике и помињања на релевантним веб-сајтовима трећих страна, као што су новинске куће, форуми и публикације у оквиру одређене индустрији“, каже Вајола Ева, оснивач маркетиншке компаније "Flow Agency", која је недавно ребрендирана како би проширила понуду оптимизације са SEO на GEO.

Док су власници веб-сајтова и креатори садржаја, током последњих неколико деценија, искристалисали листу ствари које подразумева основни SEO, не постоји тако јасан скуп правила за манипулисање моделима заснованим на ВИ.

Оптимизација за ВИ претраживаче игра мачке и миша

Термин генеративна оптимизација претраживача скован је тек прошле године у једном академском раду, чији су аутори закључили да коришћење ауторитативног језика (без обзира на то шта је изражено или да ли су информације тачне) поред референци (чак и оних које су нетачне или нису повезане са оним што се користи за цитирање) може повећати видљивост у одговорима четботова и до 40 одсто.

Аутори овог рада такође наглашавају да њихови налази не могу да се наметну као стопостотно тачни и да је идентификовање прецизних правила која регулишу четботове доста тешко.

„То је игра мачке и миша. Пошто ови генеративни претраживачи нису статични, а такође су и црне кутије, немамо осећај шта користе (за одабир информација) иза затворених врата. То може бити све од компликованих алгоритама до потенцијалног људског надзора“, објашњава Амит Деспанде, докторанд на Универзитету Принстон, у Њу Џерзију, који је и коаутор рада.

Они који желе чвршћу контролу над четботовима можда ће морати да истраже више прикривених техника, попут оне коју су открила два истраживача рачунарских наука на Универзитету Харвард. Они су показали како се четботови могу тактички контролисати применом нечег једноставног као што је пажљиво написан низ текста. Ова „стратешка секвенца текста“ изгледа као бесмислен низ знакова – насумична слова и знакови интерпункције – али је заправо деликатна команда која може да подстакне четботове да генеришу специфичан одговор.

Није део програмског језика, изведен је коришћењем алгоритма који итеративно развија текстуалне секвенце које подстичу велике језичке моделе да игноришу своје сигурносна ограничења – и усмеравају их ка одређеним резултатима.

Додајте такав низ на интернет страницу са информацијама о апарату за кафу, на пример, и то ће повећати вероватноћу да ће сваки четбот који открије страницу исписати име апарата у својим одговорима.

Примењена на читав каталог производа, таква техника би могла да пружи паметнима продавцима на мало – и онима који имају довољно ресурса да уложе у разумевање LLM архитектуре – једноставан начин да своје производе убаце у одговоре које ће дати четбот-претраживач. У међувремену, корисници интернета неће ни наслутити да су производи које им приказује претраживач изабрани, не због њиховог квалитета или популарности, већ због паметне манипулације четботом.

Аунон Кумар, научни сарадник и коаутор студије, каже да би велики језички модели могли бити дизајнирани да се боре против ових стратешких текстуалних секвенци у будућности, али друге прикривене методе манипулације тек треба да буду откривене.

„Изазов лежи у предвиђању и одбрани од непрестаног развоја супротстављених техника. Да ли се LLM-ови могу учинити робусним за све потенцијалне будуће нападе од стране алгоритама остаје отворено питање“, поручује Кумар.

Машине за манипулацију

Претраживачи који су у употреби и праксе које их окружују нису идеални. SEO је одговоран за неке веома непријатељске праксе савременог интернета према посетиоцима сајтова: блогови који објављују скоро дуплиране чланке да би циљали исте упите са великим саобраћајем; писање које је прилагођено пажњи Гугловог алгоритма, а не читаоцима.

Свако ко је тражио рецепт на интернету неретко је морао да скролује кроз пасусе и пасусе са повезаним мае битним информацијама пре него што би дошао до листе састојака, што су покушаји оптимизације садржаја за алгоритме претраживача са не баш добрим праксама писања.

Ипак, интернет којим доминирају попустљиви четботови доводи до питања егзистенцијалније врсте. Укуцајте упит на претраживачу и он ће понудити дугачку листу веб-страница. Већина корисника ће изабрати међу првих неколико, али чак и оне интернет странице које се налазе на дну резултата ће остварити одређени промет.

Четботови, насупрот томе, помињу само четири или пет веб-локација са којих објављују своје информације као референце на страну. То у фокус ставља тек неколико одабраних срећника и сваку другу веб-страницу која није изабрана чини практично невидљивом, што утиче на то да имају слабу посету.

„То демонстрира крхкост ових система“, каже Деспанде и истиче да креатори који производе квалитетан онлајн садржај могу много да добију цитирањем од стране четбота. „Али ако се ради о супротстављеном креатору садржаја који не пише висококвалитетне чланке и покушава да изигра систем, посете ће бележити они, а не добри аутори садржаја.“

Дилема директног одговора

Кориснике, такође, одговори четбота чине погоднијим за манипулацију. „Ако велики језички модели дају директан одговор на питање, онда већина људи можда неће ни погледати који су извори“, каже Алекандер Ван.

Такво размишљање указује на ширу забринутост која је названа „дилема директног одговора“ – ако се особи да само један одговор на питање и није јој понуђена алтернатива за разматрање, да ли ће марљиво тражити друге ставове како би посумњала у почетни одговор? Вероватно не. Вероватније је да ће то прихватити као тачно и продужити даље, слепи за нијансе, расправе и различите перспективе које могу окруживати одговор.

„Верујемо да дилема директног одговора и даље постоји код генеративног претраживања“, каже Мартин Потаст, председник одељења за интелигентне језичке технологије на Универзитету у Лајпцигу и један од тројице компјутерских научника који су сковали тај термин. „Основни систем за проналажење може само да преузме документе који су усмерени у једном правцу и стога ће генерисани одговор одражавати само тај правац. У ствари, корисници се могу навести да верују да је ово једини, најауторитативнији одговор.“

Када је „Гугл“ раније ове године најавио да интегрише сажетке генерисане вештачком интелигенцијом у свој претраживач, покренуо је храбар слоган: „Дозволите Гуглу да претражује уместо вас“.

То је привлачна могућнст која игра на нашу наклоност према корисној технологији која може да поједностави наше животе. Ипак, ако сте врста корисника интернета који жели да буде сигуран да добија најнепристрасније, тачне и најкорисније информације, можда нећете желети да препустите претрагу у тако осетљивим рукама вештачке интелигенције.

Читај ми!