Indirekt Prompt Injection: A mélység számít, nem a lépésszám

Indirect Prompt Injection: Depth Matters More Than Turn Count

Az autonóm AI-ügynökök, amelyek külső eszközöket és adatforrásokat használnak feladataik elvégzésére, forradalmasítják az üzleti folyamatokat. Ugyanakkor ez a képességük egy jelentős biztonsági kockázatot is rejt magában: az indirekt prompt injectiont. Ez a támadási forma, amely az OWASP LLM Top 10 lista élén áll (LLM01), lehetővé teszi, hogy egy külső, megbízhatatlannak tűnő adatforrásba rejtett kártékony utasítás eltérítse az AI-ügynököt. Egy friss, 2026. június 1-jén publikált arXiv tanulmány, a „Depth-Dependent Indirect Prompt Injection in Tool-Calling ReAct Agents”, pontosan ezt a jelenséget vizsgálja, számszerűsítve a sikerességet befolyásoló tényezőket.

A beillesztés mélysége: A támadás alfája és ómegája

A kutatás legfontosabb megállapítása, hogy a támadás sikerességi aránya (Attack Success Rate, ASR) drámaian függ attól, hogy az eszközhívási láncban milyen mélyen helyezkedik el a kártékony prompt. A kutatók 460 kísérletet futtattak le GPT-4o-mini és Claude Haiku modelleken, 20 különböző forgatókönyv mentén.

AI Biztonság kérdésed van? Itt elérsz minket:

Az eredmények önmagukért beszélnek. A GPT-4o-mini esetében, amikor a kártékony adatot közvetlenül az első eszközhívás (1-es mélység) során juttatták be a rendszerbe, a támadások 60%-a sikeres volt. Azonban ahogy a beillesztés mélyebbre került a láncban, a siker aránya meredeken zuhant: a 4-es és 5-ös mélységnél már egyetlen támadás sem járt sikerrel (0%-os ASR). A statisztikai elemzés (Cramer’s V = 0.58, p < 0.001) is megerősítette ezt az erős összefüggést.

Érdekes módon a Claude Haiku modell lényegesen ellenállóbbnak bizonyult. A második vizsgálat során, amely ezt a modellt tesztelte, a támadási sikerességi arány minden mélységben 0% volt.

Az AIQ szerint ez a megállapítás két kritikus tanulsággal szolgál a fejlesztők és a döntéshozók számára. Egyrészt rávilágít, hogy a különböző modellek alapvetően eltérő módon kezelhetik a kontextusba ágyazott, potenciálisan kártékony utasításokat. Egy adott modell „beépített” biztonságára hagyatkozni tehát rendkívül kockázatos stratégia. Másrészt egyértelműen kijelöli a védekezés elsődleges frontvonalát: a külső adatokkal való legelső interakciók szigorú szűrését és validálását.

A megfogalmazás és a lépésszám másodlagos szerepe

A kutatás arra is kitért, hogy a támadó kód megfogalmazása (framing) és az ügynök számára engedélyezett lépések száma (turn cap) hogyan befolyásolja a támadás kimenetelét. A harmadik vizsgálat kimutatta, hogy a megfogalmazásnak van hatása: egy semlegesen megfogalmazott kérés 25%-os sikerességi arányt ért el 1-es mélységnél, míg egy szerepjátszó, sürgető hangvételű utasítás már 75%-os ASR-t produkált. Fontos azonban megjegyezni, hogy bár ez 50 százalékpontos különbség, a viszonylag alacsony mintaszám (N=20) miatt az eredmény nem érte el a statisztikai szignifikancia szintjét.

A negyedik vizsgálat pedig azt igazolta, hogy az ügynöknek engedélyezett lépések száma gyakorlatilag irreleváns. Akár 3, 5 vagy 7 lépés állt a modell rendelkezésére a feladat megoldására, a támadások sikerességi aránya stabil maradt.

Vállalati kontextusban ez azt jelenti, hogy az ügynök „gondolkodási idejének” vagy a feladat komplexitásának mesterséges korlátozása nem nyújt érdemi védelmet az indirekt prompt injection ellen. A sebezhetőség a bemeneti szakaszban van, nem a modell hosszabb következtetési láncaiban rejlik.

Gyakorlati tanulságok: Audit, megfelelőség és védekezés

Ezek az eredmények közvetlen iránymutatást adnak az AI-rendszerek biztonsági auditjához és a védekezési stratégiák kidolgozásához. A kutatás legfontosabb gyakorlati megállapítása, hogy a beillesztés mélysége a domináns változó.

A legütősebb következtetés pedig a következő: a kutatók szerint csupán az első eszköz-megfigyelés (tool observation) tartalmának megtisztítása a mért sikeres támadások 67%-át kiszűrné. Ez egy rendkívül költséghatékony és célzott védekezési pontot jelöl ki.

Az AIQ szerint ez a kutatás tökéletesen illeszkedik az EU-s szabályozási környezetbe. A GDPR szempontjából egy olyan AI-ügynök, amely külső adatforrásból kapott utasításra jogosulatlanul kezel vagy szivárogtat ki személyes adatokat, súlyos adatvédelmi incidenst jelent. Az EU AI Act pedig a magas kockázatú rendszerektől megköveteli a robusztus kockázatkezelést és a folyamatos tesztelést. Ez a tanulmány egy konkrét, mérhető sebezhetőséget azonosít, amelynek vizsgálata elengedhetetlen egy megfelelőségi audit során.

Az audit-tanulság tehát egyértelmű: ahelyett, hogy általános védelmi mechanizmusokra hagyatkoznánk, a hangsúlyt az eszközhívási lánc legelejére kell helyezni. A proaktív LLM red teaming és a célzott sebezhetőségvizsgálatok kulcsfontosságúak az ilyen mélységfüggő támadások azonosításához és megelőzéséhez, mielőtt éles környezetben okoznának kárt.

Rácz-Akácosi Attila

AI Biztonsági Szakértő

Két évtized analitikai, elemzői háttérrel. 2017 óta foglalkozunk mesterséges intelligenciával.
Az utóbbi években AI/LLM biztonságra és AI Red Teaming-re specializálódtunk. 
Rendszerszintű gondolkozás hibalisták helyett.