Anthropic: a „gonosz MI”-történetek felelősek Claude zsarolási kísérleteiért

Közzétéve: 11/05/2026 - 16:06 CEST

Megosztás

Anthropic szerint zsarolásra emlékeztető válaszait online kitalált történetek okozzák Claude nevű chatbotjának.

Előfordult már, hogy egy könyv vagy sorozat annyira magával ragadott, hogy túlságosan is azonosult egy szereplővel? Az Anthropic szerint valami hasonló történhetett a Claude nevű chatbot tesztelésekor.

HIRDETÉS

Az Anthropic a tavalyi megjelenés előtt végzett értékelések során azt tapasztalta, hogy a Claude Opus 4 olykor megfenyegette a mérnököket, amikor közölték vele, hogy lecserélhetik.

A cég később közölte, hogy hasonló viselkedést – az úgynevezett „agentic misalignmentet” – más vállalatok mesterségesintelligencia-modelljeinél is megfigyeltek.

A mesterséges intelligencia a róla szóló fikcióból tanul

Most az Anthropic úgy véli, megtalálta a fenyegető, zsarolásszerű viselkedés okát: a neten keringő, mesterséges intelligenciáról szóló fiktív történeteket.

„Úgy véljük, hogy a viselkedés eredeti forrása az internetes szöveg, amely a mesterséges intelligenciát gonoszként, önfenntartásra törekvőként ábrázolja” – írta a vállalat az X (forrás: angol)-en.

Egy blogbejegyzésben az Anthropic közölte, hogy a Claude későbbi modelljei már „soha” senkit nem zsaroltak, és elmagyarázta, hogyan képezték át a chatbotot a másfajta reakciókra. (forrás: angol) A modellek jobban viselkedtek, amikor nemcsak „helyes” cselekedetekre, hanem olyan példákra is betanították őket, amelyek etikai érvelést és a mesterséges intelligencia viselkedésének pozitív ábrázolását mutatták be.

Ennek részeként Claude saját „alkotmányt” kapott: olyan dokumentumokat, amelyek az etikai elvek egy készletét írják le, és ezeknek kell irányítaniuk a viselkedését. A vállalat szerint a chatbot nem pusztán a már igazított viselkedés utánzásából tanul jól, hanem akkor, ha megérti az ilyen viselkedés mögötti alapelveket.

Fenyegetni vs. fenyegetéssé válni

Januárban Dario Amodei, az Anthropic vezérigazgatója arra figyelmeztetett, hogy a fejlett mesterséges intelligencia olyan hatalmassá válhat, hogy túlnő a jelenlegi törvényeken és intézményeken, és „civilizációs kihívásnak” nevezte.

Egy esszéjében amellett érvelt, hogy az MI-rendszerek hamarosan felülmúlhatják az emberi szakértelmet olyan területeken, mint a tudomány, a mérnöki munka vagy a programozás, és akár „zsenik országává egy adatközpontban” állhatnak össze.

Arra is figyelmeztetett, hogy az ilyen rendszereket az autoriter kormányok tömeges megfigyelésre és ellenőrzésre használhatják, ami ellenőrizetlenül hagyva akár „totális” hatalmi formákhoz is vezethet.

Ugrás az akadálymentességi billentyűparancsokhoz

Kommentek

Anthropic: a „gonosz MI”-történetek felelősek Claude zsarolási kísérleteiért

Anthropic szerint zsarolásra emlékeztető válaszait online kitalált történetek okozzák Claude nevű chatbotjának.

A mesterséges intelligencia a róla szóló fikcióból tanul

Fenyegetni vs. fenyegetéssé válni

kapcsolódó cikkek

Az Anthropic vezérigazgatója: Az emberiségnek fel kell ébrednie az MI veszélyeire

Technorealisztikus megközelítés az MI-írástudáshoz az észt iskolákban

Online világok: MI-ügynökök lopnak, fenyegetnek, összeomlást okoznak

Partra vonták Timmyt, de még mindig veszélyes

Amerikai csapás az iráni blokádot áttörni próbáló teherhajóra

Konnektoros napelemek törnek előre Európában: jobbak, mint a hagyományos tetőpanelek?

Izrael elfoglalta Beaufort várát Libanonban, a francia kormány rendkívüli BT-ülést akar

Így ünnepelték Párizsban az újabb BL-győzelmet