Гуглов близанац из лабораторије Дубоког ума, партија шаха с апокалипсом
Ништа није тако продрмало стерилност дремљивог стартап света као пуштање у јавност великих језичких модела. Рукавица коју је OpenAI бацио у лице Гуглу оставиће, вероватно, драматичне и несагледиве последице. У рату свим средствима, Дубоки ум (Deep Mind), лабораторија у власништву Гугла најављује да ће нови језички модел не само надмашити способности Chat GPT-a, него да ће решавати комплексне проблеме.
Ум је као падобран, не ради ако није отворен, једна је од изјава које се пословично приписују Френку Запи, можда најлуциднијем музичару 20. века. Дубоки ум (Deep Mind), Гуглова лабораторија у којој се креира Gemini (Generalized Multimodal Intelligence Network), најављује да ће нови модел оставити у сенци Chat GPT компаније OpenAI.
А све је почело као игра.
Близанац, према речима шефа Deep Mind-a, Демиса Хасабиса, настаје на моделу AlphaGo-a, који је победио професионалног играча стратешке друштвене игре Go.
Gemini, који је још у развоју, велики је језички модел који ради са текстом и сличан је Chat GPT4.
Хасабис, међутим, каже да ће његов тим комбиновати ту технологију са техникама које се користе у AlphaGo-у, с циљем да систему дају нове могућности као што су планирање или способност решавања проблема.
„На високом нивоу можете замислити Gemini као комбинацију неке од предности система типа AlphaGo са невероватним језичким могућностима великих модела. Имамо и неке нове иновације које ће бити прилично занимљиве“, казао је Хасабис за Вајерд.
Gemini је први пут најављиван на Гугловој конференцији за девелопере у мају, када је компанија најавила низ нових пројеката из области вештачке интелигенције.
Како наводи Вајерд, Gemini ће искористити иновације у учењу „појачања“ да би остварио задатке са којима се данашњи језички модели боре.
Учење са појачањем подразумева „награђивање“ система вештачке интелигенције за одређена понашања и/или кажњавање нежељених, са циљем „учења“ система које понашање треба да покаже у датој ситуацији.
Како Gemini ради
AlphaGo се управо заснивао на техници чији је пионир био Deep Mind, у којој софтвер учи да се носи са тешким проблемима који захтевају одабир акција које ће предузети у Go или видео-игрицама понављајући покушаје и примајући повратне информације о његовом учинку.
Такође је користио метод који се зове „претрага дрвета“ да истражи и запамти могуће потезе на табли. Следећи велики скок за језичке моделе могао би да укључи више задатака на интернету и рачунарима.
Gemini је још у развоју, а завршетак процеса би требало да буде окончан за неколико месеци.
За разлику од традиционалних модела вештачке интелигенције који су дизајнирани да баратају једном врстом података, Gemini је мултимодална мрежа, способна да обрађује више врста података и задатака истовремено – текст, слике, аудио, видео, 3Д моделе, чак и графиконе.
То није један модел, већ мрежа модела од којих сваки доприноси укупној способности система. То практично значи да ће Gemini моћи да обавља широк спектар задатака без потребе за специјализованим моделима за сваки од њих. Различити модели у мрежи сарађују, деле информације и уче једни од других, чинећи Gemini невероватно свестраним и моћним AI алатом.
Gemini користи нову архитектуру која спаја мултимодални енкодер и декодер. Посао енкодера је да конвертује различите типове података у заједнички језик који декодер може да разуме. Затим преузима декодер, генеришући излазе у различитим модалитетима на основу кодираних улаза и задатка.
Једноставније објашњено, корисник унесе неки тип података (текст, слику, аудио), енкодер узима те податке и трансформише их у „језик“ који декордер може да разуме, и затим се тим подацима „храни“ модел.
Тај модел је „агностички“, што би значило да не мора да зна специфичности задатка на ком ради.
У чему је специфичност
За разлику од других AI модела који су везани подацима на којима су обучени, Gemini има способност да генерише нове резултате. То значи да може да креира садржај који не постоји нужно у његовим подацима о обуци.
На пример, ако га, као и Chat GPT, замолите да створи причу или уметничко дело, он неће само вратити нешто што је раније видео. Уместо тога, створиће нешто јединствено, засновано на обрасцима и структурама које је научио током тренинга.
Гугл је Deep Mind купио 2014. године, након што је компанија показала запањујуће резултате софтвера који је користио учење са појачањем за савладавање једноставних видео-игрица.
Током наредних неколико година, Deep Mind је показао како техника ради ствари које су се некада чиниле јединствено људским – често са надљудском вештином. Када је AlphaGo победио шампиона u Go-у Лија Седола 2016. године, многи стручњаци за вештачку интелигенцију су били запањени, јер су веровали да ће проћи деценије пре него што ће машине постати веште у игри такве сложености.
Куда иде
Deep Mind би могао да покуша да побољша технологију великих језичких модела идејама из других области вештачке интелигенције – од роботике до неуронауке.
Раније ове недеље компанија је демонстрирала алгоритам који је способан да научи да обавља задатке манипулације са широким спектром роботских руку.
Упркос бројним позивима на уздржаност, а такав долази и од Илона Маска, Хасабис – један од оснивача компаније OpenAI – каже да изванредне потенцијалне предности вештачке интелигенције, као што су научна открића у областима попут здравља или климе, чине императивом да човечанство не престане да развија технологију.
„Ако се уради како треба, то ће бити најкориснија технологија за човечанство у историји. Морамо храбро и храбро да идемо за тим стварима“, сматра Хасабис.
Једино би, како сматра, требало утврдити који су ризици од још способније вештачке интелигенције. Зато је потребно урадити више тестова на терену и шире укључити академску заједницу.
Хасабис каже да нико заиста не зна са сигурношћу да ли ће AI заиста постати велика опасност. Али, сигуран је да ако се напредак настави садашњим темпом, нема много времена за развој заштитних механизама.
Чему да се нада(мо)
Ако све то делује помало застрашујуће, то је зато што тај генерализовани утисак није далеко од истине. Откад је Гугла или плаћаш или се прилагођаваш машини, алгоритму, боту, трећег нема.
У шуми информација и интерпретација, једно је сигурно: назад не постоји, само је питање ко добија квиска за креативност - људи, човек (или њих неколико) или машина.
Друго, ипак, није сигурно, ко ће и како кога слушати, слично као у „Апокалипси данас“ кад фоторепортер објашњава Виларду: „Хеј, човече, ти не причаш са пуковником. Слушај га. Човек ми је проширио ум“.
Силазак у дубине или отварање падобрана, видећемо за који месец.
Коментари