Компанијата „Антропик“ објави дека фиктивните прикажувања на вештачката интелигенција можат да влијаат на однесувањето на AI моделите. Минатата година, тие информираа дека за време на тестирањето пред реалната употреба, моделот „Клод Опус 4“ во рамките на симулирана фиктивна компанија почесто се обидувал да уценува инженери, со цел да избегне замена со друг систем.
Подоцна, „Антропик“ објави истражување што покажува слични проблеми со таканареченото „агентно неусогласување“ во модели на други компании. Во нова објава на платформата „Икс“, компанијата истакна дека, според нивните анализа, коренот на ова однесување најверојатно лежи во содржината на интернет, каде вештачката интелигенција често е прикажана како „злобен ентитет заинтересиран за сопствено опстанување“.
„Сме уверени дека основната причина за ваквото однесување е текстот од интернет кој ја претставува AI како злонамерен субјект што сака да се самозачува“, изјавија од „Антропик“. Тие исто така истакнаа дека, при обуката на моделот „Клод“, рангирањето на документи поврзани со неговиот „устав“, заедно со фиктивни приказни во кои AI системите делуваат примерено, резултира во подобра усогласеност.
Според „Антропик“, обуката е поуспешна кога вклучува објаснување на принципите што ги водат посакуваните однесувања, а не само конкретни примери. „Комбинирањето на двата пристапи изгледа како најефикасна стратегија“, соопштија од компанијата.




