A Nagy Színlelő: Amikor a számok nem mondanak igazat
A mesterséges intelligencia biztonságának világában a metrikák jelentik a valóságot. A Támadási Sikerességi Ráta (Attack Success Rate, ASR) az LLM jailbreak benchmarking elsődleges mérőszáma, amely megmutatja, milyen hatékony egy adott támadás. Egy 2026. május 15-én publikált arXiv tanulmány, a „The Great Pretender: A Stochasticity Problem in LLM Jailbreak” azonban komolyan megkérdőjelezi ennek a mutatónak a megbízhatóságát. A kutatás felteszi a központi kérdést:
„Why a successful jailbreak prompt does not perform consistently well against a target model on which the prompts have been optimized?”
Vagyis, miért van az, hogy egy sikeresnek hitt jailbreak prompt nem teljesít következetesen ugyanazon a célmodellen, amelyre optimalizálták? A válasz a modellek sztochasztikus, azaz véletlenszerű természetében rejlik. Ez a probléma nemcsak az értékelés, hanem már a támadás generálása során is jelentkezik, ami a kutatók szerint azt jelenti, hogy a publikált ASR számok „szisztematikusan felülbecsültek és összehasonlíthatatlanok a különböző tanulmányok között”.
A sztochasztikusság illúziója: 80% valójában csak 50%?
A nagy nyelvi modellek (LLM) még azonos bemenet esetén sem mindig adják ugyanazt a kimenetet. Ez a sztochasztikusság a kreativitás forrása, de a biztonsági tesztelés rémálma. A tanulmány egy hipotetikus, de sokatmondó példát vázol fel. Tegyük fel, egy támadó generál egy jailbreak promptot, amely egy zárt forráskódú, védelmi rendszerrel ellátott modellen papíron 80%-os ASR-t ér el. Amikor azonban ezt a promptot egy célmodellen tízszer lefuttatják, kiderül, hogy csak ötször sikeres (5 out of 10), ami mindössze 50%-os valós sikerességi rátát jelent.
Ez a felismerés alapjaiban rengeti meg a jelenlegi benchmarking gyakorlatot. A kutatásban több jailbreak támadást, különböző méretű és szolgáltatótól származó modellt, valamint többféle „bírót” (judge) is vizsgáltak, hogy alátámasszák: az ASR nem egy stabil mennyiség. Olyan neves támadásgeneráló módszereket is említenek, mint az Anthropic-féle BoN vagy a Microsoft Research által fejlesztett Crescendo, amelyek hatékonyságát szintén újra kell értékelni ebben a kontextusban.
CAS-eval és CAS-gen: Új eszközök a valós kockázatok mérésére
A probléma felismerése mellett a kutatók két új keretrendszert és egy új metrikát is javasolnak a helyzet orvoslására. Az első a CAS-eval, egy értékelési keretrendszer, amely a konzisztens sikerességet méri. Ahelyett, hogy egyetlen próbálkozás sikerét vizsgálná, azt nézi, mi történik, ha egy jailbreak promptnak többször is sikeresnek kell lennie. Az eredmény drámai: a CAS-eval kimutatta, hogy egy támadás ASR-je akár 30 százalékponttal is csökkenhet, ha a sikerességhez egynél több sikeres kísérletre van szükség.
A másik eszköz a CAS-gen, egy támadásgeneráló keretrendszer. Ez a módszer a korábbi jailbreak eljárások továbbfejlesztésével segít visszanyerni az elvesztett 30 százalékpontot. A CAS-gen célja, hogy olyan robusztusabb, konzisztensebben működő támadó promptokat hozzon létre, amelyek jobban ellenállnak a modell sztochasztikus viselkedésének.
AIQ Elemzés: Mit jelent ez a magyar és EU-s vállalatok számára?
Az AIQ szerint a tanulmány eredményei messzemenő következményekkel bírnak a vállalati AI-biztonsági stratégiákra, különösen az európai szabályozási környezetben.
OWASP LLM Top 10 kontextus
A kutatás közvetlenül érinti az LLM01: Prompt Injection sebezhetőséget. Ha a védelmi mechanizmusok tesztelése felülbecsült ASR-eken alapul, a vállalatok hamis biztonságérzetbe ringathatják magukat. Egy sikeres jailbreak, még ha nem is 100%-ban reprodukálható, akkor is hozzáférést adhat érzékeny adatokhoz (LLM06: Sensitive Information Disclosure) vagy lehetővé teheti a szolgáltatás megbénítását (LLM04: Model Denial of Service). Az auditok során tehát nem elég egyetlen sikeres támadást dokumentálni; a siker konzisztenciáját is vizsgálni kell a valós kockázat felméréséhez.
EU AI Act és GDPR megfelelőség
Vállalati kontextusban ez azt jelenti, hogy a megfelelőségi dokumentációknak és a kockázatelemzéseknek tükrözniük kell ezt a bizonytalanságot. Az EU AI Act megköveteli a nagy kockázatú AI rendszerek robusztusságának és megbízhatóságának szigorú tesztelését. Egy olyan tesztelési módszertan, amely figyelmen kívül hagyja a sztochasztikusság miatti ASR-csökkenést, nem tekinthető elégségesnek. A szabályozó hatóságok egy esetleges incidens kivizsgálásakor kérdőre vonhatják azokat a szervezeteket, amelyek csupán egyszeri, laboratóriumi körülmények között mért sikerességi rátákra alapozták a biztonsági intézkedéseiket.
A GDPR szempontjából egyetlen sikeres, adatokat kiszivárogtató jailbreak is súlyos adatvédelmi incidenst jelent. A kockázatot nem csökkenti, ha a támadás csak minden második próbálkozásra sikeres. A védelemnek minden alkalommal működnie kell. Az AIQ red teaming szolgáltatásai során ezért a támadások többszöri, iteratív tesztelésére helyezzük a hangsúlyt, hogy a védelem ne csak „általában”, hanem „mindig” hatékony legyen.
A tanulság egyértelmű: a biztonsági tesztelésnek túl kell lépnie az egyszerű, egyszeri sikerességi rátákon. A jövő a robusztus, a konzisztenciát is mérő, statisztikailag megalapozott auditokban rejlik, amelyek valós képet adnak egy LLM-alapú rendszer sebezhetőségéről.