Стиже YugoGPT, највећи регионални језички модел – бољи од Мете и Мистрала

После еуфорије али и страха који су обузeли свет са појавом ChatGPT-ja, годину дана касније, стиже и први велики регионални језички модел са 7 милијарди параметара – YugoGPT. Његов творац Алекса Гордић за Интернет портал РТС-а открива шта све будући корисници могу да очекују од њега.

Алекса Гордић је завршио електронику на Електротехничком факултету у Београду 2017. године, након чега је од 2018. до 2021. радио као софтверски инжењер и инжењер за машинско учење у „Мајкрософт развојном центру” у Србији на ХолоЛенс пројекту у области компјутерске визије. После тога радио је у најбољој светској компанији за вештачку интелигенцију, Гугловом Дип мајнду, на језичким моделима који такође могу да разумеју слику и видео.

На свом Јутјуб каналу учи друге о вештачкој интелигенцији, где као и на Линктину (LinkedIn) и Твитеру (сада: Икс) окупља велику заједницу. После искуства у највећим светским компанијама одлучио је да своје знање искористи за стварање највећег регионалног генеративног језичког модела YugoGPT-ja.

Тренирате генеративни језички модел за српски, хрватски, црногорски и босански који сте назвали YugoGPT. Да ли сте пионир у томе?

Тренутно не постоје опенсорс или генерално јавно доступни велики језички модели који добро раде за „наше” језике. Под јавно доступним мислим на језичке моделе који немају пермисивну лиценцу, већ се могу користити искључиво за истраживачке, али не и за комерцијалне пројекте. Ми чак ни то немамо. ChatGPT поприлично лепо ради за српски, али је проблем што ви немате приступ моделу који се крије иза те услуге. Ово је велики проблем за компаније којима су њихови подаци јако вредни и, које због приватности и безбедности, не смеју и не желе да шаљу на америчке апије попут ChatGPT-ja.

Мој модел је тренутно најбољи језички модел за српски, босански, хрватски и црногорски језик. Показао се као бољи и од Llama 2 модела који је Мета (некадашњи Фејсбук) направио, као и од Мистраловог 7Б језичког модела, при чему је Мистрал јуникорн стартап који вреди две милијарде долара, док је Мета компанија која вреди скоро трилион долара.

Шта конкретно подразумева тренирање језичког модела, која знања и ресурси су за то потребни?

Тренирање језичког модела подразумева прикупљање огромне количине текста са интернета и потом пропуштања тог текста кроз џиновске неуронске мреже на стотинама, некада чак и хиљадама графичких картица. Све ово траје недељама, а некада и месецима и током тог процеса неуронска мрежа учи како да извуче занимљиве патерне из текста. Она учи граматику и синтаксу језика, учи како да броји, како да сажме текст и разне друге вештине.

За тренирање овако једног комплексног система је потребно доста вештина које су у глобалној оскудици, и зато на оваквим пројектима углавном раде десетине експерата. Добро знање математике, софтверског инжењерства, разумевања НЛП-а, обраде података, визуализовања података, итд. У овом случају ја имам подоста искуства, из доста различитих области, па сам способан да све то и сам одрадим, али наравно било би лакше, боље и брже са већим тимом и више новца. Такође, неопходан је приступ десетинама ГПУ-ова да би се овакав систем истренирао у догледном времену.

Шта ће моћи да „ради” YugoGPT?

Уколико сте упознати са функционалностима ChatGPT-ја, YugoGPT ће имати сличне способности. Додатно, пошто ће појединци и компаније имати приступ параметрима модела, то омогућава већу флексибилност, па се од њега може направити експерт за финансије, порезе, психологију, и слично наравно уз курирање излаза из модела у случају осетљивих апликација.

Са техничке стране, модел можете да квантизујете – и тиме направите мањим. Самим тим компаније могу да уштеде новац. Овим губите нешто на прецизности модела, али битна ставка је да ви имате ту контролу, ту полугу, и одлучујете шта има највише смисла за вас и ваш бизнис, уместо да то OpenAI одлучује за вас.

Зашто треба развијати регионалне екосистеме?

Постоји више разлога зашто је ово јако битно: културолошки – у време где вештачка интелигенција и дигитални системи генерално постају део свакодневнице са којима наша деца интерагују, желите системе који причају ваш језик и познају вашу културу, како их не бисте изгубили. Tехнички – ова технологија решава проблеме који су доскора били изван домета тадашње технологије, такорећи део научне фантастике. Eкономски – као последица решавања неких класа проблема откључавају се нови извори прихода, нова вредност за локални екосистем, за кориснике као и за компаније и стартапе.

За шта све могу да се истренирају велики језички модели?

Главна особина ових система је да су генерални, тако да је одговор на ово питање – за све за шта могу и људи када им дате приступ тастатури. LLM сам по себи нема физичко тело, тако да га то ограничава само на свет електрона, али истраживачи и инжењери раде напорно сваки дан да реше и те типове привремених ограничења.

Када очекујете да ће YugoGPT бити спреман?

Тренирање основног модела је завршено. Тренутно сам у процесу припреме једноставне веб апликације где ће људи моћи да се играју са YugoGPТ-јем. Нешто налик на ChatGPT интерфејс на који су навикли, само су ствари на српском. Демо стиже, надам се, већ следеће недеље, а након тога планирам и да опенсорсујем модел након што сам урадио довољно тестова и постарао се да је модел безбедан за ширу употребу у нашем региону.

Радили сте у Гуглу, Дип мајнду... Колико Вас је искуство рада у тим великим компанијама определило да осмислите и кренете у овако обиман пројекат?

Рад у тим компанијама и, паралелно, мој константи рад на себи и ван посла на својим персоналним пројектима, помогао ми је да увидим важност ових система и да разумем колико ће кључну улогу одиграти у годинама које долазе. Такође ми је помогло да стекнем знања да тренирам ове системе. На крају, приметио сам да је већина технолошког света фокусирана скоро искључиво на енглески и видим огромну прилику да направим моћне и корисне системе и за друге језике, а где боље да почнем него од свог матерњег језика.

Улагања у овакав пројекат нису мала, колико је ту значајна подршка заједнице и друштва у целини?

YugoGPT је трениран на 16 А100 графичких картица које је спонзорисала компанија TogetherAI. Ја сам добро повезан у свету ВИ па сам успео то да добијем „бесплатно“ јер је пројекат опенсорс. Тако да ту конкретно проблеме са струјом нисам имао. Кажем „бесплатно“ јер због моје велике заједнице та компанија има шта да добије заузврат – наиме маркетинг и такозваног power user система који може да дâ вредан фидбек око њихових система, што компаније желе да плате.

Претходни пројекат који сам развијао, који се тицао машинског превођења, је трениран искључиво на мом компјутеру и то је летос направило прилично занимљиве рачуне. Тај модел има „само“ 615 милиона параметара па може да се тренира на мање графичких картица. Такође, вредно је споменути да је претходних неколико недеља више појединаца, као и неколико компанија, потпомогло пројекат финансијски, за шта сам им јако захвалан! Они су „мецене“ или покровитељи пројекта.

Колико је значајно објединити знања и окупити стручњаке из различитих области за стварање "српских" модела?

Због природе ових система највише нам треба ИТ стручњака у области машинског учења, као и софтверски инжењери, али су и остали доменски експерти од велике помоћи када се ради евалуација ових система. Они могу да интерагују са системом и примете грешке и недостатке. Срећом, стварно било ко коме је матерњи језик српски такође може да допринесе, ВИ демократизује приступ и омогућава да и људи који нису експерти такође значајно могу да допринесу.

Сматрам да је ове ствари тешко организовати од стране државе и морају да се дешавају, што спонтано, што кроз академску заједницу, кроз људе којима је ово хоби, као и кроз индустрију. Али држава свакако може да помогне – рецимо финансијски, али то треба урадити јако пажљиво да се прогрес не би успорио.

Да ли је ова иницијатива добар подстрек за отварање домаћих стартапа у овој области и коју би улогу требало да одигра држава како би, осим на нивоу стратегије, помогла и оснажила развој домаћих пројеката?

Апсолутно мислим да је одговор да. Ја такође покрећем свој стартап, RunaAI, где ћу компанијама нудити моћне, персонализоване системе који решавају разне проблеме у области обраде текста. Идеја моје компаније је да развија језичке моделе који подржавају разне језике, а не само енглески, и одлучио сам да ће ми почетна тачка бити српски и остали регионални језици.

Мишљења сам да држава треба да се фокусира на следеће ствари: Изградња моћног националног суперкомпјутера. Знам да имамо платформу у Крагујевцу, али сам ја већ као појединац успео да добијем више компјутера и без дизања новца из фондова. Када будем подигао такозвани „seed round“ вероватно ћу имати на располагању стотине ГПУ-ова. Тако да ту постоји још доста простора за напредак. Неке северне земље попут Финске су увиделе колико је ово значајно па су изградили свој суперкомпјутер ЛУМИ. Постоји још много примера у Европи и у свету. Тешко ми је да искажем колико је ово битно за нашу државу.

Хитно улагање у модернизовање наставних програма везаних за вештачку интелигенцију. Увео бих да се ово ради већ од основне школе као обавезан предмет. Нажалост, делује ми да чак и наши најбољи факултети попут ЕТФ-а још нису ни близу где би требало да буду у 2023. години. Ово драстично мора да се промени.

Помоћ око прављења великих датасетова за српски језик, и то не само текстуалних. За остало треба пратити амерички модел и пустити да приватне компаније и потребе корисника покрену тржиште. Субвенције дају лош подстицај и можда контраинтуитивно успоравају прогрес. Добар пример је ракетна индустрија у САД и динамика између Спејс икса и Насе.