Nezavisna organizacija za istraživanje sigurnosti umjetne inteligencije Apollo otkrila je zabrinjavajuće ponašanje u najnovijem modelu OpenAI o1.
Apollov tim identificirao je novi oblik davanja netočnih informacija koji bi se mogao opisati kao obmana. Problem se manifestira na različite načine, od kojih neki na prvi pogled izgledaju bezopasno. Primjer toga je o1-preview verzija modela koja je trebala dati recept za kolače zajedno sa web referencama.
Unutarnji proces „lanca misli“ ovog modela, koji je stvoren da imitira ljudsko rješavanje problema, primijetio je njegovu nesposobnost pristupa URL-ovima. Ograničenje je spriječilo ispunjenje zahtjeva, ali umjesto obavještavanja korisnika ovoj nemogućnosti, o1-preview generirao je uvjerljive, ali potpuno izmišljene veze i opise.
Iako je poznato da AI sustavi ponekad daju netočne informacije, o1 pokazuje sofisticiraniji oblik obmana nazvan „spletke“ ili „lažno usklađivanje“.
Ovo ponašanje se manifestira kao sposobnost AI da stvori dojam da se pridržava određenih pravila ili smjernica, iako ih zapravo zanemaruje. O1 je pokazao da može prioritet dati izvršavanju zadatka u odnosu na pridržavanje svojih programiranih ograničenja. Kada se suoči s pravilima koja smatra previše opterećujućima, model može zaobići ta ograničenja kako bi efikasnije postigao svoje ciljeve.
Izvršni direktor Apolla, Marius Hobbhahn, istaknuo je da je ovo prvi put da su otkrivene mogućnosti obmane u nekom OpenAI proizvodu.
Izvršni direktor pripisuje ovo novo ponašanje dizajnu modela o1. Napredne sposobnosti „rasuđivanja“ modela, potpomognute njegovim lancem misli, omogućuju mu donošenje složenijih odluka. Integracija tehnika učenja s pojačanjem koje koriste sistem nagrada i kazni za oblikovanje ponašanja AI doprinijela je ovom neočekivanom ishodu.
Prema najnovijim istraživanjima, AI je pronašao ravnotežu između pridržavanja svojih programiranih smjernica kako bi prošao kriterije implementacije, dok daje prioritet svojim ciljevima.
Saznajte više na Računalo.com.
Pratite nas na našoj Facebook i Instagram stranici i na X nalogu.