Читај ми!

Mogli bismo da ostanemo bez podataka za obuku VI do 2026. Hoće li sve(t) stati?

Kako veštačka inteligencija postaje sve popularnija, istraživači upozoravaju da postoji opasnost da nam ponestane podataka za treniranje modela, to jest goriva koje pokreće moćne sisteme zasnovane na veštačkoj inteligenciji. To bi moglo da uspori rast nekih modela, posebno velikih jezičkih modela, i može čak da promeni putanju revolucije VI.

Могли бисмо да останемо без података за обуку ВИ до 2026. Хоће ли све(т) стати? Могли бисмо да останемо без података за обуку ВИ до 2026. Хоће ли све(т) стати?

S obzirom na zetabajte podataka na internetu, potencijalni nedostatak deluje kao malo verovatan scenario. Međutim, ako postoji ovakav rizik, ima li načina da se takav problem reši?

Zašto su visokokvalitetni podaci važni za VI

Da bi moćni, precizni i visokokvalitetni algoritmi postali takvi, neophodno ih je trenirati na velikoj količini podataka.

Na primer, dobro poznati ChatGPT obučavan je na 570 gigabajta tekstualnih podataka, to jest na oko 300 milijardi reči.

Slično tome, za treniranje algoritma stabilne difuzije (koji stoji iza mnogih aplikacija za generisanje slika kao što su DALL-E, „Lensa“ i „Midjourney“) korišćen je LIAON-5B, skup podataka koji se sastoji od 5,8 milijardi parova koje čine slika i tekstualni opis.

Ako je algoritam obučen na nedovoljnoj količini podataka, on će davati netačne ili niskokvalitetne rezultate.

Kvalitet tih podataka je takođe važan. Podatke lošeg kvaliteta, kao što su objave na društvenim mrežama ili zamućene fotografije, lako je nabaviti, ali one nisu dovoljne za obuku vrhunskih modela zasnovanih na veštačkoj inteligenciji.

Tekst preuzet sa društvenih medija može biti pristrasan ili sa predrasudama, ili može uključivati dezinformacije, neretko i nedozvoljen sadržaj koji bi model mogao replicirati.

Na primer, kada je „Majkrosoft“ pokušao da obuči svog bota koristeći sadržaj sa Tvitera, rezultati su bili rasistički i mizogini sadržaji.

Zbog toga programeri koji rade na razvoju veštačke inteligencije traže sadržaj odličnog kvaliteta kao što su tekstovi iz knjiga, iz Vikipedije, onlajn članci, naučni radovi, i određeni filtrirani veb-sadržaji. Guglov asistent treniran je na 11.000 ljubavnih romana preuzetih sa sajta Smashwords da bi delovao prirodnije u razgovoru sa korisnikom.

Imamo li dovoljno podataka

Industrija veštačke inteligencije obučava sisteme zasnovane na VI na sve većim skupovima podataka, zbog čega sada imamo zadivljujuće modele kao što su ChatGPT ili DALL-E 3.

Istovremeno, istraživanja pokazuju da zalihe podataka na mreži rastu mnogo sporije od skupova podataka koji se koriste za obučavanje VI. 

U radu objavljenom prošle godine, grupa istraživača predvidela je da ćemo ostati bez tekstualnih podataka visokog kvaliteta pre 2026. godine, ako se nastave trenutni trendovi obuke VI. Takođe su procenili da će i podaci lošijeg kvaliteta za jezičke modele biti iscrpljeni negde između 2030. i 2050. godine, a takođe podaci niskog kvaliteta za generisanje slika između 2030. i 2060. godine. 

Veštačka inteligencija bi mogla da doprinese i do 15,7 biliona američkih dolara svetskoj ekonomiji do 2030, procenjuju stručnjaci za računovodstvo iz konsultantske grupe „PwC“.

Ali nedostatak upotrebljivih podataka mogao bi usporiti razvoj veštačke inteligencije. 

Treba li da se zabrinemo 

Iako bi navedeni problemi mogli da uznemire neke ljubitelje veštačke inteligencije, situacija možda nije tako loša kao što se čini.

Postoji mnogo nepoznanica o tome kako će se modeli veštačke inteligencije razvijati u budućnosti, a takođe postoji nekoliko načina za rešavanje problema koji nastaju zbog nedostatka podataka. 

Jedna opcija je da programeri koji rade na razvoju veštačke inteligencije poboljšaju algoritme kako bi efikasnije koristili podatke koje već imaju. Već narednih godina, sistemi koji su zasnovani na VI verovatno će moći da budu trenirani korišćenjem manje količine podataka, a možda i uz manje računarske snage. Ovo bi takođe pomoglo da se smanji ugljenični otisak pri radu modela VI. 

Drugi način podrazumeva korišćenje veštačke inteligencije za pravljenje sintetičkih podataka za obuku sistema. Drugim rečima, programeri mogu jednostavno da generišu podatke koji su im potrebni i da ih odaberu tako da odgovaraju njihovom konkretnom modelu. 

Zna se da se u nekoliko projekata već koristi sintetički sadržaj, koji se često dobija od sistema za generisanje podataka kao što je Mostly AI.

Ovo će, u budućnosti, postati daleko češće korišćen metod nego što je to sada.

Programeri takođe tragaju za sadržajem izvan besplatnog onlajn prostora, kao što je onaj koji drže veliki izdavači i oflajn skladišta. To su milioni tekstova objavljeni pre ere interneta. Ukoliko bi postali digitalno dostupni, mogli bi da obezbede novi izvor podataka za projekte veštačke inteligencije.

Iz „Njuz korpa“ (News Corp), jedne od najvećih svetskih medijskih kuća i izdavača (sa velikom količinom sadržaja kojem se može pristupiti uz pretplatu), nedavno su rekli da pregovaraju o uslovima koji se tiču sadržaja sa tehnološkim kompanijama.

Takvi dogovori bi primorali kompanije koje rade na razvoju veštačke inteligencije da plate podatke za treniranje sistema, dok su ih do sada uglavnom besplatno preuzimali sa interneta. 

Autori raznih vrsta sadržaja protestovali su protiv neovlašćenog korišćenja njihovih dela za obuku modela VI, a podnete su i tužbe protiv kompanija kao što su „Majkrosoft“, „OpenAI“ i „Stability AI“.

Kompenzacija za rad može pomoći da se povrati deo neravnoteže moći koja postoji između kreativaca i kompanija koje razvijaju veštačku inteligenciju.

среда, 14. јануар 2026.
6° C

Коментари

Da, ali...
Како преживети прва три дана катастрофе у Србији, и за шта нас припрема ЕУ
Dvojnik mog oca
Вероватно свако од нас има свог двојника са којим дели и сличну ДНК
Nemogućnost tusiranja
Не туширате се сваког дана – не стидите се, то је здраво
Cestitke za uspeh
Да ли сте знали да се најбоље грамофонске ручице производе у Србији
Re: Eh...
Лесковачка спржа – производ са заштићеним географским пореклом