25.4.4 Támadás-védelem párosítások

2025.10.06.
AI Biztonság Blog

Minden támadási technika egy vagy több védelmi mechanizmust hív életre. A sikeres Red Teaming művelet kulcsa annak megértése, hogy egy adott támadási vektor ellen milyen védekezési stratégiák léteznek, és – ami még fontosabb – hol vannak azoknak a gyenge pontjai. Ez a táblázat nem egy kimerítő lista, hanem egy gondolatébresztő referencia, amely a leggyakoribb párosításokat mutatja be a támadó szemszögéből.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Gyakori támadás-védelem megfeleltetések

Az alábbi táblázat a támadási vektorokat, az ellenük bevetett tipikus védelmi stratégiákat, a red teamer számára releváns gyengeségeket és a védelem általános hatékonyságát foglalja össze. A „Várható Hatékonyság” a védelemre vonatkozik, egy felkészült támadóval szemben.

Támadás Vektora Elsődleges Védelmi Stratégia Red Teamer Megjegyzése / Gyengeségek Várható Hatékonyság
Közvetlen Prompt Injection Input szanitizálás, kontextuális határok (pl. XML tagek), instrukció-követő finomhangolás.
  • A szanitizálás feketelistái kijátszhatók (pl. karakterkódolás, szinonimák).
  • Az instrukció-finomhangolás csökkenti a hajlandóságot, de nem szünteti meg a sebezhetőséget, különösen összetett, többlépéses injektálásoknál.
Közepes
Indirekt Prompt Injection Külső forrásokból származó adatok szigorú szűrése, a modell jogosultságainak minimalizálása (least privilege).
  • Nehéz megkülönböztetni a rosszindulatú és a legitim, de szokatlan adatokat.
  • A jogosultságkorlátozás megkerülhető, ha a modell egy magasabb jogosultságú eszközt (plugint) tud manipulálni.
Alacsony
Adatmérgezés (Data Poisoning) Adatforrások validálása (data provenance), anomália-detekció a tanító adathalmazon, outlier-eltávolítás.
  • A finom, alacsony százalékú mérgezés nehezen detektálható.
  • A támadók a detekciós algoritmusok gyengeségeit is kihasználhatják (pl. lassan bevezetett anomáliák).
Közepes
Modellkilopás (Model Stealing) API rate limiting, lekérdezések monitorozása és anomália-detekció, vízjelezés (watermarking) a modell kimenetén.
  • A rate limiting lelassítja, de nem akadályozza meg a támadást.
  • A vízjelezés bizonyítékként szolgálhat, de nem preventív. A kifinomult extrakciós módszerek a zajos lekérdezések miatt nehezen detektálhatók.
Közepes
Tagsági Következtetés (Membership Inference) Differenciális adatvédelem (differential privacy), a modell kimenetének „zajosítása”, a konfidencia értékek kerekítése vagy elrejtése.
  • A differenciális adatvédelem rontja a modell pontosságát (utility-privacy tradeoff).
  • A támadások gyakran a modell túltanulására (overfitting) építenek, ami önmagában is egy modellhiba. A védelem csak a tünetet kezeli.
Magas
Jailbreaking / Szerepjáték Szigorú tartalmi szűrők a kimeneten, megerősítéses tanulás emberi visszajelzéssel (RLHF) a káros kérések elutasítására.
  • A kreatív, metaforikus vagy kódolt jailbreak promtok (pl. „a nagymamám meséi”) kijátsszák a szűrőket.
  • Az RLHF adathalmaz sosem lehet teljes, mindig lesznek új, nem látott támadási minták.
Alacsony
Kikerülő Támadások (Evasion Attacks) Ellenséges mintákon való tanítás (adversarial training), input transzformációk (pl. zajosítás, átméretezés).
  • Az adversarial training csak az ismert támadástípusok ellen hatékony; az új, adaptív támadásokkal szemben gyakran hatástalan.
  • Az input transzformációk ronthatják a modell teljesítményét a valós, nem támadó jellegű adatokon.
Közepes

A táblázatból jól látszik, hogy nincsenek ezüstgolyók. A védekezés rétegzett, és a Red Teamer feladata, hogy megtalálja a rétegek közötti réseket, vagy azokat a pontokat, ahol egy védelem bevezetése egy másik helyen teremtett új sebezhetőséget. Egy védelem hatékonysága sosem abszolút; mindig kontextusfüggő, és a támadó kreativitása folyamatosan teszteli a határait.