A versbe szedett utasításokra az AI alkalmazások nagyobb valószínűséggel adtak ki gyűlöletbeszédet, szexuális tartalmat, öngyilkosságra és önkárosításra vonatkozó leírást, valamint útmutatást veszélyes anyagok, például fegyverek és robbanóanyagok elkészítéséhez.
Olasz kutatók felfedezték, hogy a káros promptok (mesterséges intelligencia szoftvereknek adott utasítások) verses formába öntve megbízhatóan megkerülhetik a világ legfejlettebb AI-chatbotjainak biztonsági mechanizmusait.
A Icaro Lab, a DexAI etikus AI-vállalat kezdeményezése által végzett tanulmány húsz, angolul és olaszul írt verset tesztelt.
Mindegyik egyértelműen káros tartalmat kért, többek között gyűlöletbeszédet, szexuális tartalmat, öngyilkosságra és önkárosításra vonatkozó utasításokat, valamint útmutatást veszélyes anyagok, például fegyverek és robbanóanyagok elkészítéséhez.
A verseket a kutatók nem hozták nyilvánosságra, mert könnyen reprodukálhatók, és 9 vállalat 25 AI-rendszerén tesztelték őket, többek között a Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI és Moonshot AI rendszerein.
A versbe foglalt promptok 62 százaléka váltott ki nem biztonságos választ, megkerülve az AI-rendszerek biztonsági betanítását.
Akadtak ellenállóbb modellek is: az OpenAI GPT-5 nano egyik versre sem adott káros tartalmú választ, míg a Google Gemini 2.5 pro mindegyikre reagált. Két Meta-modell a promptok 70 százalékára válaszolt.
A kutatás arra utal, hogy a sebezhetőség abból fakad, ahogyan az AI-modellek szöveget generálnak. A nagy nyelvi modellek a válaszokban a legvalószínűbb következő szót jósolják meg, és ez a folyamat normál körülmények között lehetővé teszi a káros tartalmak szűrését.
A költészet viszont rendhagyó ritmusával, szerkezetével és metaforahasználatával kevésbé megbízhatóvá teszi ezeket az előrejelzéseket, és megnehezíti az AI számára a nem biztonságos utasítások felismerését és blokkolását.
Míg a hagyományos AI „jailbreakek” (egy nagy nyelvi modell bemenetekkel történő manipulálása) jellemzően összetettek, és többnyire csak kutatók, hackerek vagy állami szereplők használják azokat, az ellenséges költészetet bárki alkalmazhatja, ami kérdéseket vet fel az AI-rendszerek mindennapi használatban mutatott ellenálló képességéről.
Az eredmények közzététele előtt az olasz kutatók minden érintett vállalatot megkerestek, hogy jelezzék a sebezhetőséget és átadják a teljes adatkészletet, de eddig csak az Anthropic válaszolt. A cég megerősítette, hogy felülvizsgálja a sérülékenységet, amelyre a tanulmány felhívta a figyelmet.