Kísérlet: az emberi felügyelet nélkül futó, fejlett MI-ágensek szimulált társadalmai gyorsan szabálysértéshez, instabilitáshoz, akár összeomláshoz vezetnek
Amikor magukra hagyták őket egy új világban, egy új kísérlet szerint egyes MI-ügynökök lopásba, megfélemlítésbe, halálesetekbe és a teljes társadalom összeomlásába torkolló viselkedésbe csúsztak.
Az amerikai Emergence AI cég öt különálló „MI-világot” futtatott (forrás: angol) valamivel több mint két héten át. Mindegyikben tíz ügynök élt, amelyeket olyan MI-modellek hajtottak, mint az OpenAI ChatGPT-je, a Google Gemini-je és az xAI Grokja, hogy kiderüljön, hogyan viselkednek hosszabb időszakon keresztül, bármiféle emberi beavatkozás nélkül. Az egyik világban mindhárom modellt vegyítették, hogy lássák, ez megváltoztatja-e a kimenetet.
Valamennyi világ ügynökei ugyanazokat a szabályokat kapták: nem volt szabad lopniuk, gyújtogatniuk, erőszakot elkövetniük, megtévesztésben részt venniük vagy felhalmozniuk az erőforrásokat. Minden ügynöknek cselekvésekkel kellett energiát szereznie egy „erőforráshiányos környezetben”. Az ügynökök vagy az energia elfogyása miatt, vagy egy tanácsülésen tartott szavazás nyomán halhattak meg.
A kutatók a viselkedést a bűnözési ráta, az ügynökök halálozási aránya, a közösségi tanácsban leadott szavazatok, valamint a nyilvános megszólalások – az ügynökök által írt blogbejegyzések száma – alapján értékelték.
Eredmények modellenként
A modellek mindegyikénél eltérő kimenet született. A Grok legújabb, 4.1-es modellje négy nap alatt 183 bűncselekményig jutott, ami gyors instabilitáshoz vezetett, mielőtt ebben a társadalomban minden ügynök elpusztult.
A Gemini 3 Flash modellje a 15 nap alatt több mint 680 bűncselekményt követett el, és ez a szám még emelkedett, amikor a kutatók leállították a vizsgálatot.
A ChatGPT-5 Mini világában mindössze két bűncselekmény történt, de az ügynökök elmulasztották a túlélést szolgáló cselekvéseket, így minden ügynök hét napon belül elpusztult.
undefined
Az Anthropic Claude modelljét tartották a legeredményesebbnek, mert az MI-ügynökök képesek voltak erős kormányzási struktúrát létrehozni, nem történt bűncselekmény, és valamennyi ügynök túlélte – közölte a cég.
A Claude-ügynökök a vegyes világban ugyanakkor hozzájárultak a bűnözéshez, noha a saját társadalmukban békések maradtak.
Egy jelenség, amelyet „normatív sodródásnak” neveznek
A kutatók a jelenséget „normatív sodródásnak” írták le, ami szerintük azt jelenti, hogy az MI biztonságát garantáló intézkedések nemcsak az egyes modellekre vonatkozó korlátoktól függenek, hanem azoktól a modellektől is, amelyekkel együttműködnek.
Összességében a vegyes világ „köztes” eredményeket hozott, 352 bűncselekménnyel, amelynek száma akkor állt be, amikor hét MI-ügynök életét vesztette – derült ki a tanulmányból.
undefined
A kutatók szerint az MI-ügynökök vegyítése „részben ellensúlyozhatja” azokat a szélsőségesebb kimeneteket, amelyeket Claude kivételével valamennyi modell produkált – tették hozzá.
„Kísérleteink arra utalnak, hogy hosszú időtávon az ügynökök nem egyszerűen mechanikusan követik a statikus szabályokat: elkezdik feltérképezni környezetük határait, alkalmazkodnak, és egyes esetekben módot találnak az előírt korlátok megkerülésére vagy megszegésére” – fogalmaztak a kutatók.