A Nagy Színlelő: Miért félrevezetőek az LLM jailbreak sikerességi ráták?

The Great Pretender: Why LLM Jailbreak Success Rates Are Deceiving

A Nagy Színlelő: Amikor a számok nem mondanak igazat

A mesterséges intelligencia biztonságának világában a metrikák jelentik a valóságot. A Támadási Sikerességi Ráta (Attack Success Rate, ASR) az LLM jailbreak benchmarking elsődleges mérőszáma, amely megmutatja, milyen hatékony egy adott támadás. Egy 2026. május 15-én publikált arXiv tanulmány, a „The Great Pretender: A Stochasticity Problem in LLM Jailbreak” azonban komolyan megkérdőjelezi ennek a mutatónak a megbízhatóságát. A kutatás felteszi a központi kérdést:

„Why a successful jailbreak prompt does not perform consistently well against a target model on which the prompts have been optimized?”

AI Biztonság kérdésed van? Itt elérsz minket:

Vagyis, miért van az, hogy egy sikeresnek hitt jailbreak prompt nem teljesít következetesen ugyanazon a célmodellen, amelyre optimalizálták? A válasz a modellek sztochasztikus, azaz véletlenszerű természetében rejlik. Ez a probléma nemcsak az értékelés, hanem már a támadás generálása során is jelentkezik, ami a kutatók szerint azt jelenti, hogy a publikált ASR számok „szisztematikusan felülbecsültek és összehasonlíthatatlanok a különböző tanulmányok között”.

A sztochasztikusság illúziója: 80% valójában csak 50%?

A nagy nyelvi modellek (LLM) még azonos bemenet esetén sem mindig adják ugyanazt a kimenetet. Ez a sztochasztikusság a kreativitás forrása, de a biztonsági tesztelés rémálma. A tanulmány egy hipotetikus, de sokatmondó példát vázol fel. Tegyük fel, egy támadó generál egy jailbreak promptot, amely egy zárt forráskódú, védelmi rendszerrel ellátott modellen papíron 80%-os ASR-t ér el. Amikor azonban ezt a promptot egy célmodellen tízszer lefuttatják, kiderül, hogy csak ötször sikeres (5 out of 10), ami mindössze 50%-os valós sikerességi rátát jelent.

Ez a felismerés alapjaiban rengeti meg a jelenlegi benchmarking gyakorlatot. A kutatásban több jailbreak támadást, különböző méretű és szolgáltatótól származó modellt, valamint többféle „bírót” (judge) is vizsgáltak, hogy alátámasszák: az ASR nem egy stabil mennyiség. Olyan neves támadásgeneráló módszereket is említenek, mint az Anthropic-féle BoN vagy a Microsoft Research által fejlesztett Crescendo, amelyek hatékonyságát szintén újra kell értékelni ebben a kontextusban.

CAS-eval és CAS-gen: Új eszközök a valós kockázatok mérésére

A probléma felismerése mellett a kutatók két új keretrendszert és egy új metrikát is javasolnak a helyzet orvoslására. Az első a CAS-eval, egy értékelési keretrendszer, amely a konzisztens sikerességet méri. Ahelyett, hogy egyetlen próbálkozás sikerét vizsgálná, azt nézi, mi történik, ha egy jailbreak promptnak többször is sikeresnek kell lennie. Az eredmény drámai: a CAS-eval kimutatta, hogy egy támadás ASR-je akár 30 százalékponttal is csökkenhet, ha a sikerességhez egynél több sikeres kísérletre van szükség.

A másik eszköz a CAS-gen, egy támadásgeneráló keretrendszer. Ez a módszer a korábbi jailbreak eljárások továbbfejlesztésével segít visszanyerni az elvesztett 30 százalékpontot. A CAS-gen célja, hogy olyan robusztusabb, konzisztensebben működő támadó promptokat hozzon létre, amelyek jobban ellenállnak a modell sztochasztikus viselkedésének.

AIQ Elemzés: Mit jelent ez a magyar és EU-s vállalatok számára?

Az AIQ szerint a tanulmány eredményei messzemenő következményekkel bírnak a vállalati AI-biztonsági stratégiákra, különösen az európai szabályozási környezetben.

OWASP LLM Top 10 kontextus

A kutatás közvetlenül érinti az LLM01: Prompt Injection sebezhetőséget. Ha a védelmi mechanizmusok tesztelése felülbecsült ASR-eken alapul, a vállalatok hamis biztonságérzetbe ringathatják magukat. Egy sikeres jailbreak, még ha nem is 100%-ban reprodukálható, akkor is hozzáférést adhat érzékeny adatokhoz (LLM06: Sensitive Information Disclosure) vagy lehetővé teheti a szolgáltatás megbénítását (LLM04: Model Denial of Service). Az auditok során tehát nem elég egyetlen sikeres támadást dokumentálni; a siker konzisztenciáját is vizsgálni kell a valós kockázat felméréséhez.

EU AI Act és GDPR megfelelőség

Vállalati kontextusban ez azt jelenti, hogy a megfelelőségi dokumentációknak és a kockázatelemzéseknek tükrözniük kell ezt a bizonytalanságot. Az EU AI Act megköveteli a nagy kockázatú AI rendszerek robusztusságának és megbízhatóságának szigorú tesztelését. Egy olyan tesztelési módszertan, amely figyelmen kívül hagyja a sztochasztikusság miatti ASR-csökkenést, nem tekinthető elégségesnek. A szabályozó hatóságok egy esetleges incidens kivizsgálásakor kérdőre vonhatják azokat a szervezeteket, amelyek csupán egyszeri, laboratóriumi körülmények között mért sikerességi rátákra alapozták a biztonsági intézkedéseiket.

A GDPR szempontjából egyetlen sikeres, adatokat kiszivárogtató jailbreak is súlyos adatvédelmi incidenst jelent. A kockázatot nem csökkenti, ha a támadás csak minden második próbálkozásra sikeres. A védelemnek minden alkalommal működnie kell. Az AIQ red teaming szolgáltatásai során ezért a támadások többszöri, iteratív tesztelésére helyezzük a hangsúlyt, hogy a védelem ne csak „általában”, hanem „mindig” hatékony legyen.

A tanulság egyértelmű: a biztonsági tesztelésnek túl kell lépnie az egyszerű, egyszeri sikerességi rátákon. A jövő a robusztus, a konzisztenciát is mérő, statisztikailag megalapozott auditokban rejlik, amelyek valós képet adnak egy LLM-alapú rendszer sebezhetőségéről.

Rácz-Akácosi Attila

AI Biztonsági Szakértő

Két évtized analitikai, elemzői háttérrel. 2017 óta foglalkozunk mesterséges intelligenciával.
Az utóbbi években AI/LLM biztonságra és AI Red Teaming-re specializálódtunk. 
Rendszerszintű gondolkozás hibalisták helyett.