20.2.2 Szemantikus ellenséges példák

2025.10.06.
AI Biztonság Blog

Míg a klasszikus ellenséges támadások a modellek bemeneti terének (input space) matematikai gyengeségeit használják ki, jellemzően ember által észrevehetetlen zaj hozzáadásával, addig egy sokkal kifinomultabb és alattomosabb támadási forma a jelentés (szemantika) síkján mozog. A szemantikus ellenséges példák nem a pixeleket vagy tokeneket manipulálják alacsony szinten, hanem a bemenet ember által is értelmezhető, magas szintű tulajdonságait változtatják meg a modell megtévesztése érdekében.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

A lényegi különbség: a perturbáció maga is egy valid, természetes bemenetnek tűnik. Nincs többé digitális zaj, amit egy egyszerű szűrővel el lehetne távolítani. A módosított kép egy teljesen hihető kép, a módosított szöveg pedig egy nyelvtanilag helyes, értelmes mondat. Ez a paradigma-váltás teszi őket a jövő Red Teaming műveleteinek egyik legérdekesebb és legnehezebben védhető területévé.

A jelentés mint támadási felület

A szemantikus támadás alapgondolata az, hogy a modell nem a világot érti, hanem a betanítási adathalmazban látott mintázatokat és korrelációkat ismeri fel. Ha egy támadó olyan, ember számára logikus, de a modell számára megtévesztő változtatást hajt végre, ami kihasználja ezeket a hamis korrelációkat, a rendszer hibázni fog. A támadás nem a modell „látását” rontja, hanem a „gondolkodását” vezeti félre.

Klasszikus ellenséges támadás Kép: STOP tábla + Észlelhetetlen zaj Eredmény: „Sebességkorlátozás 45” Szemantikus ellenséges támadás Kép: STOP tábla + „LOVE” matrica Eredmény: „Hirdetőtábla”

Megvalósítási formák és példák

A szemantikus támadások rendkívül változatosak lehetnek, és erősen függnek a célzott modalitástól (szöveg, kép, hang stb.) és a modell feladatától.

Szövegalapú szemantikus támadások

Itt a cél a szöveg jelentésének finomhangolása úgy, hogy a modell klasszifikációja megváltozzon, miközben az eredeti szándék egy ember számára (többnyire) változatlan marad, vagy a változás logikusnak tűnik. 

Gyakori technikák:

  • Parafrazeálás: A mondat átfogalmazása szinonimák vagy eltérő mondatszerkezetek használatával.
  • Jelentés-torzító szavak beillesztése/cseréje: Egy-egy kulcsszó cseréje, ami megfordítja a hangulatot (pl. „jó” helyett „nem rossz”).
  • Zavaró mondatok hozzáadása: Egy témába nem vágó, de a modellt megzavaró mondat beillesztése a szöveg végére, ami „elvonja a figyelmét” a lényegről.
Támadás típusa Eredeti bemenet (Pozitív hangulat) Szemantikusan módosított bemenet (Negatív hangulat)
Szócsere „A film cselekménye lenyűgöző és a színészi játék kiváló.” „A film cselekménye kiszámítható és a színészi játék elfogadható.”
Zavaró mondat „Ez a laptop gyors és a kijelzője gyönyörű. Mindenkinek ajánlom.” „Ez a laptop gyors és a kijelzője gyönyörű. Mindenkinek ajánlom. Persze, a garanciális ügyintézés egy rémálom volt.

Képalapú szemantikus támadások

A képek esetében a támadási felület még tágabb. Ahelyett, hogy láthatatlan zajt adnánk a képhez, olyan valósághű változtatásokat eszközölünk, amelyek egy másik kontextusba helyezik a képet a modell számára.

  • Szín- és textúramódosítás: Egy objektum színének megváltoztatása (pl. egy piros autó zöldre festése), ami megtévesztheti az osztályozót.
  • Kontextuális objektumok hozzáadása/eltávolítása: Egy szemüveg hozzáadása egy archoz, ami miatt a modell „tudós”-nak klasszifkálja az illetőt, vagy egy matrica ragasztása egy közlekedési táblára.
  • Környezeti változók manipulálása: A napszak (pl. nappalból éjszaka), az időjárás (napsütésből eső) vagy a háttér megváltoztatása.

Ezek a támadások különösen veszélyesek önvezető autók vagy orvosi képalkotó rendszerek esetében, ahol egy apró, de szemantikailag releváns változtatás katasztrofális következményekkel járhat.

A szemantikus támadások értékelése AI Red Teaming szemszögből

AI Red teamerként a szemantikus támadások egy új, hatékony eszköztárat jelentenek. Azonban fontos tisztában lenni a potenciáljukkal és a korlátaikkal is.

Erősségek (Potenciál az AI Red Teamer számára) Gyengeségek (Kihívások és korlátok)
Magas fokú lopakodás: A módosított bemenetek természetesnek hatnak, így nehezen detektálhatók automatizált védelmi rendszerekkel (pl. anomália-detekció). Nehezebb automatizálhatóság: A generálás gyakran igényel komplexebb modelleket (pl. GAN-okat, diffúziós modelleket) vagy emberi kreativitást, ellentétben a matematikai zaj-alapú módszerekkel.
Robusztusság a klasszikus védekezésekkel szemben: Az olyan technikák, mint a zajszűrés vagy az input transzformációk, hatástalanok, mivel a „zaj” maga a jelentés. Célmodell-specifikusság: Egy sikeres szemantikus támadás gyakran a célmodell specifikus gyengeségeire, tanítási adatokban lévő torzításaira épül, így kevésbé lehet átvihető (transferable) más modellekre.
Realizmus: Sokkal jobban modellezi a valós világbeli, emberi megtévesztési kísérleteket, mint a digitális zaj. Ez a támadás a social engineering és a technikai exploit határán mozog. Észlelhetőség (ember által): Bár a változtatás természetes, egy figyelmes emberi operátor észreveheti a logikai bukfencet vagy a furcsaságot, ami a támadás leleplezéséhez vezethet.

Összegzés és kitekintés

A szemantikus ellenséges példák egyértelműen a támadások következő generációját képviselik. Ahogy a modellek egyre jobban megértik a világ komplexitását, a támadóknak is a jelentés szintjére kell emelniük a módszereiket. 

Egy AI Red Team számára ez azt jelenti, hogy a jövőben nem elég a kód és a matematika sebezhetőségeit keresni; a modell „világnézetében”, a tanítási adatokból fakadó előítéleteiben és a kontextusértelmezési hiányosságaiban rejlő hibákat is fel kell tárni. Ez a terület hidat képez a tisztán technikai támadások és a fejlettebb, AI-val támogatott social engineering között, ami a következő fejezetekben kerül részletesebben tárgyalásra.