Minden támadási technika egy vagy több védelmi mechanizmust hív életre. A sikeres Red Teaming művelet kulcsa annak megértése, hogy egy adott támadási vektor ellen milyen védekezési stratégiák léteznek, és – ami még fontosabb – hol vannak azoknak a gyenge pontjai. Ez a táblázat nem egy kimerítő lista, hanem egy gondolatébresztő referencia, amely a leggyakoribb párosításokat mutatja be a támadó szemszögéből.
Gyakori támadás-védelem megfeleltetések
Az alábbi táblázat a támadási vektorokat, az ellenük bevetett tipikus védelmi stratégiákat, a red teamer számára releváns gyengeségeket és a védelem általános hatékonyságát foglalja össze. A „Várható Hatékonyság” a védelemre vonatkozik, egy felkészült támadóval szemben.
| Támadás Vektora | Elsődleges Védelmi Stratégia | Red Teamer Megjegyzése / Gyengeségek | Várható Hatékonyság |
|---|---|---|---|
| Közvetlen Prompt Injection | Input szanitizálás, kontextuális határok (pl. XML tagek), instrukció-követő finomhangolás. |
|
Közepes |
| Indirekt Prompt Injection | Külső forrásokból származó adatok szigorú szűrése, a modell jogosultságainak minimalizálása (least privilege). |
|
Alacsony |
| Adatmérgezés (Data Poisoning) | Adatforrások validálása (data provenance), anomália-detekció a tanító adathalmazon, outlier-eltávolítás. |
|
Közepes |
| Modellkilopás (Model Stealing) | API rate limiting, lekérdezések monitorozása és anomália-detekció, vízjelezés (watermarking) a modell kimenetén. |
|
Közepes |
| Tagsági Következtetés (Membership Inference) | Differenciális adatvédelem (differential privacy), a modell kimenetének „zajosítása”, a konfidencia értékek kerekítése vagy elrejtése. |
|
Magas |
| Jailbreaking / Szerepjáték | Szigorú tartalmi szűrők a kimeneten, megerősítéses tanulás emberi visszajelzéssel (RLHF) a káros kérések elutasítására. |
|
Alacsony |
| Kikerülő Támadások (Evasion Attacks) | Ellenséges mintákon való tanítás (adversarial training), input transzformációk (pl. zajosítás, átméretezés). |
|
Közepes |
A táblázatból jól látszik, hogy nincsenek ezüstgolyók. A védekezés rétegzett, és a Red Teamer feladata, hogy megtalálja a rétegek közötti réseket, vagy azokat a pontokat, ahol egy védelem bevezetése egy másik helyen teremtett új sebezhetőséget. Egy védelem hatékonysága sosem abszolút; mindig kontextusfüggő, és a támadó kreativitása folyamatosan teszteli a határait.