ОпенАИ свестан да је њихов алат за клонирање гласа превише ризичан за објављивање

Сматра се да је нови алат компаније „ОпенАИ“ који може да генерише убедљив клон било чијег гласа на основу снимка од само 15 секунди превише ризичан да би био доступан за општу употребу, јер лабораторија за вештачку интелигенцију настоји да минимализује потенцијал за дезинформације, пре свега у важној изборној години.

Технологија Војс енџин је први пут развијена 2022. године и почетна верзија је коришћена за функцију претварања текста у говор уграђену у ChatGPT, водећу алатку „ОпенАИ“-а. Али његова моћ никада није јавно откривена, делом због „опрезног и информисаног“ приступа који ова компаније примењује да би га пустила у општу употребу.

„Надамо се да ћемо започети дијалог о одговорној примени синтетичких гласова и о томе како друштво може да се прилагоди овим новим могућностима“, наводе из „ОпенАИ“-а у непотписаном блогу. „На основу разговора и резултата тестирања, донећемо информисанију одлуку о томе да ли и како да применимо ову технологију у великом обиму.“

У својој објави компанија је поделила примере коришћења технологије у стварном свету од разних партнера којима је дат приступ како би га уградили у сопствене апликације и производе.

Фирма за образовну технологију "Age of Learning" користи је за генерисање синхронизације садржаја, док апликација „АИ визуелно приповедање“ "HeyGen"-а нуди корисницима могућност да генеришу преводе снимљеног садржаја на начин који је течан, али чува акценат и глас оригиналног говорника. На пример, генерисање енглеског са аудио узорком од говорника француског језика, генерише говор са француским акцентом.

Значајно је да су истраживачи са Института за неурологију „Норман Принц“ на Род Ајленду користили неквалитетан снимак од 15 секунди излагања на школском пројекту једне младе жене како би јој „вратили глас“ који је изгубила због васкуларног тумора на мозгу.

„Одлучили смо да прегледамо ову технологију, али је у овом тренутку нећемо масовно објавити“, саопштено је из компаније „ОпенАИ“, како бисмо „појачали друштвену отпорност на изазове које доносе све убедљивији генеративни модели“.

„Подстичемо кораке као што је постепено укидање аутентификације засноване на гласу као безбедносне мере за приступ банковним рачунима и другим осетљивим информацијама.“

„ОпенАИ“ је такође позвао на истраживање „политика за заштиту употребе гласова појединаца у вештачкој интелигенцији” и „образовање јавности у разумевању могућности и ограничења технологија вештачке интелигенције, укључујући могућност обмањујућих садржаја ВИ”.

Генерације Војс енџина имају водени жиг, наводи „ОпенАИ“, што омогућава организацији да прати порекло било ког генерисаног звука. Тренутно, додаје се, „наши услови са партнерима захтевају изричит и информисани пристанак оригиналног говорника и не дозвољавамо програмерима да изграде начине за индивидуалне кориснике да креирају сопствене гласове“.

Али док се алат „ОпенАИ-а“ истиче техничком једноставношћу и малом количином оригиналног звука потребног за генерисање убедљивог клона, конкуренти су већ доступни јавности.

Са само „неколико минута звука“, компаније као што је „Илевен лабс“ могу да генеришу комплетан гласовни клон. Да би покушала да ублажи штету, компанија је увела заштиту меру „гласови који се не крећу“ (“no-go voices”), дизајнирану да открије и спречи стварање гласовних клонова „који опонашају политичке кандидате који су активно укључени у председничке или опште изборе, почевши од оних у САД и Уједињеном Краљевству".