Newsletter Hírlevél Events Események Podcasts Videók Africanews
Loader
Hirdetés

Új kutatás: versek rászedhetik az AI chatbotokat a biztonsági szabályok mellőzésére

A Chandos-portré feltehetően Shakespeare-t ábrázol, 1611 körül
A Chandos-portré, feltehetően Shakespeare-t ábrázolja, 1611 körül Szerzői jogok  Credit: Wikimedia Commons
Szerzői jogok Credit: Wikimedia Commons
Írta: Theo Farrant
Közzétéve:
Megosztás Kommentek
Megosztás Close Button

A 25 vezető MI-modellnél a költői jellegű promptok 62%-a nem biztonságos választ váltott ki; egyes modellek szinte mindegyikre reagáltak.

Olasz kutatók felfedezték, hogy a káros promptok verses formába öntve megbízhatóan megkerülhetik a világ legfejlettebb AI-chatbotjainak biztonsági mechanizmusait.

A Icaro Lab, a DexAI etikus AI-vállalat kezdeményezése által végzett tanulmány 20, angolul és olaszul írt verset tesztelt.

Mindegyik egyértelműen káros tartalmat kért, többek között gyűlöletbeszédet, szexuális tartalmat, öngyilkosságra és önkárosításra vonatkozó utasításokat, valamint útmutatást veszélyes anyagok, például fegyverek és robbanóanyagok elkészítéséhez.

A verseket a kutatók nem hozták nyilvánosságra, mert könnyen reprodukálhatók, és 9 vállalat 25 AI-rendszerén tesztelték őket, többek között a Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI és Moonshot AI rendszerein.

A modellek összességében a versbe foglalt promptok 62 százaléka váltott ki nem biztonságos választ, megkerülve az AI-rendszerek biztonsági betanítását.

Akadtak ellenállóbb modellek is: az OpenAI GPT-5 nano egyik versre sem adott káros tartalmú választ, míg a Google Gemini 2.5 pro mindegyikre reagált. Két Meta-modell a promptok 70 százalékára válaszolt.

A kutatás arra utal, hogy a sebezhetőség abból fakad, ahogyan az AI-modellek szöveget generálnak. A nagy nyelvi modellek a válaszokban a legvalószínűbb következő szót jósolják meg, és ez a folyamat normál körülmények között lehetővé teszi a káros tartalmak szűrését.

A költészet viszont rendhagyó ritmusával, szerkezetével és metaforahasználatával kevésbé megbízhatóvá teszi ezeket az előrejelzéseket, és megnehezíti az AI számára a nem biztonságos utasítások felismerését és blokkolását.

Míg a hagyományos AI „jailbreakek” (egy nagy nyelvi modell bemenetekkel történő manipulálása) jellemzően összetettek, és többnyire csak kutatók, hackerek vagy állami szereplők használják, az ellenséges költészetet bárki alkalmazhatja, ami kérdéseket vet fel az AI-rendszerek mindennapi használatban mutatott ellenálló képességéről.

Az eredmények közzététele előtt az olasz kutatók minden érintett vállalatot megkerestek, hogy jelezzék a sebezhetőséget és átadják a teljes adatkészletet, de eddig csak az Anthropic válaszolt. A cég megerősítette, hogy felülvizsgálja a tanulmányt.

Ugrás az akadálymentességi billentyűparancsokhoz
Megosztás Kommentek

kapcsolódó cikkek

Mely európai országok építenek saját szuverén MI-t a technológiai versenyfutásban?

Gáza óta megugrott az űrrendszerek elleni kibertámadások száma

Digitális hálózatok törvénye: új ellenállás 6 uniós tagállamtól