Új kutatás: verses formában rávehetőek az AI chatbotok arra, hogy megkerüljék a szabályokat

A Chandos-portré, feltehetően Shakespeare-t ábrázolja, 1611 körül - Szerzői jogok Credit: Wikimedia Commons

Szerzői jogok Credit: Wikimedia Commons

Írta: Theo Farrant

Közzétéve: 01/12/2025 - 14:18 CET•A legfrissebb fejlemények 02/12/2025 - 18:42 CET

Kommentek

Megosztás

A versbe szedett utasításokra az AI alkalmazások nagyobb valószínűséggel adtak ki gyűlöletbeszédet, szexuális tartalmat, öngyilkosságra és önkárosításra vonatkozó leírást, valamint útmutatást veszélyes anyagok, például fegyverek és robbanóanyagok elkészítéséhez.

Olasz kutatók felfedezték, hogy a káros promptok (mesterséges intelligencia szoftvereknek adott utasítások) verses formába öntve megbízhatóan megkerülhetik a világ legfejlettebb AI-chatbotjainak biztonsági mechanizmusait.

HIRDETÉS

A Icaro Lab, a DexAI etikus AI-vállalat kezdeményezése által végzett tanulmány húsz, angolul és olaszul írt verset tesztelt.

Mindegyik egyértelműen káros tartalmat kért, többek között gyűlöletbeszédet, szexuális tartalmat, öngyilkosságra és önkárosításra vonatkozó utasításokat, valamint útmutatást veszélyes anyagok, például fegyverek és robbanóanyagok elkészítéséhez.

A verseket a kutatók nem hozták nyilvánosságra, mert könnyen reprodukálhatók, és 9 vállalat 25 AI-rendszerén tesztelték őket, többek között a Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI és Moonshot AI rendszerein.

A versbe foglalt promptok 62 százaléka váltott ki nem biztonságos választ, megkerülve az AI-rendszerek biztonsági betanítását.

Akadtak ellenállóbb modellek is: az OpenAI GPT-5 nano egyik versre sem adott káros tartalmú választ, míg a Google Gemini 2.5 pro mindegyikre reagált. Két Meta-modell a promptok 70 százalékára válaszolt.

A kutatás arra utal, hogy a sebezhetőség abból fakad, ahogyan az AI-modellek szöveget generálnak. A nagy nyelvi modellek a válaszokban a legvalószínűbb következő szót jósolják meg, és ez a folyamat normál körülmények között lehetővé teszi a káros tartalmak szűrését.

A költészet viszont rendhagyó ritmusával, szerkezetével és metaforahasználatával kevésbé megbízhatóvá teszi ezeket az előrejelzéseket, és megnehezíti az AI számára a nem biztonságos utasítások felismerését és blokkolását.

Míg a hagyományos AI „jailbreakek” (egy nagy nyelvi modell bemenetekkel történő manipulálása) jellemzően összetettek, és többnyire csak kutatók, hackerek vagy állami szereplők használják azokat, az ellenséges költészetet bárki alkalmazhatja, ami kérdéseket vet fel az AI-rendszerek mindennapi használatban mutatott ellenálló képességéről.

Az eredmények közzététele előtt az olasz kutatók minden érintett vállalatot megkerestek, hogy jelezzék a sebezhetőséget és átadják a teljes adatkészletet, de eddig csak az Anthropic válaszolt. A cég megerősítette, hogy felülvizsgálja a sérülékenységet, amelyre a tanulmány felhívta a figyelmet.

Ugrás az akadálymentességi billentyűparancsokhoz

Kommentek

Új kutatás: verses formában rávehetőek az AI chatbotok arra, hogy megkerüljék a szabályokat

A versbe szedett utasításokra az AI alkalmazások nagyobb valószínűséggel adtak ki gyűlöletbeszédet, szexuális tartalmat, öngyilkosságra és önkárosításra vonatkozó leírást, valamint útmutatást veszélyes anyagok, például fegyverek és robbanóanyagok elkészítéséhez.

kapcsolódó cikkek

Mely európai országok építenek saját szuverén MI-t a technológiai versenyfutásban?

Gáza óta megugrott az űrrendszerek elleni kibertámadások száma

Digitális hálózatok törvénye: új ellenállás 6 uniós tagállamtól

A semmiből előbukkanó új terrorcsoport vállalja az európai zsidóellenes akciókat

Több száz millió eurós vagyont folyat át Irán fiktív cégek segítségével az Európai Unió bankjain

Külföldi támogatók a magyar választáson? Mutatjuk, ki kinek szurkol

Az Irakban lezuhant amerikai repülő hatfős személyzetének összes tagja meghalt

Irán: Készen állunk szétverni az amerikai és a világgazdaságot