8.1.4. Objektum észlelés manipulálása

2025.10.06.
AI Biztonság Blog

Képzeld el a helyzetet: egy önvezető autó közeledik egy kereszteződéshez. A kamerarendszere pásztázza a környezetet, és magabiztosan azonosítja a gyalogosokat, a többi járművet és a közlekedési táblákat. De mi történik, ha a rendszer „látása” becsapható? 

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Ha egy egyszerű, de célzottan megtervezett matrica a stoptáblán azt eredményezi, hogy a rendszer egy „Sebességkorlátozás feloldása” táblának értelmezi? Vagy ami még rosszabb, egyszerűen nem is veszi észre?

Az objektumdetekciós modellek támadása egy szinttel komplexebb, mint a sima kép-klasszifikációé. Itt már nem elég annyit mondani, hogy „ez nem macska”. A cél a rendszer becsapása a „mi és hol” kérdésekben. Egy sikeres támadás eltüntethet létező objektumokat, létrehozhat nem létezőket, vagy megváltoztathatja az észlelt objektumok típusát. Ez a képesség a Red Teaming során kritikus, hiszen a modern vizuális rendszerek döntései valós fizikai következményekkel járnak.

A Támadási Vektorok Döntési Fája

Mielőtt fejest ugranánk a technikai részletekbe, fontos stratégiailag gondolkodni. A megfelelő támadási módszer kiválasztása a célodtól, a hozzáférésedtől és a rendelkezésre álló erőforrásoktól függ. Ezt a gondolkodásmódot egy egyszerű döntési fa segítségével modellezhetjük.

Mi a célod? Objektum elrejtése (Evasion / Disappearance) Osztálycímke cseréje (Misclassification) Fantom objektum létrehozása (Forgery) Technikák: – Lokális patch (digitális/fizikai) – Finom textúra-zavarás Technikák: – Célzott zaj a RoI-n – Kontextus manipuláció Technikák: – Univerzális patch – Háttér optimalizálás

Technika 1: Az Eltüntetés Művészete (Objektum Elrejtése)

A leggyakoribb cél egy objektum „láthatatlanná” tétele a detektor számára. Ez nem valódi optikai láthatatlanságot jelent, hanem a modell detekciós küszöbértéke alá történő bizalmi szint (confidence score) csökkentését. Ha a modell nem elég „biztos” benne, hogy lát valamit, egyszerűen nem fogja jelenteni.

Az ellenséges foltok (adversarial patches), amikről a 8.1.1-es fejezetben már volt szó, itt is kulcsszerepet játszanak. A különbség az, hogy a támadás optimalizációs célja nem a klasszifikációs hiba maximalizálása, hanem a detekciós doboz (bounding box) konfidenciájának minimalizálása.

# Pszeudokód egy eltüntető támadás optimalizálására
# Cél: minimalizálni a "személy" osztály konfidenciáját

patch = initialize_random_patch()
target_object_roi = get_person_roi(image)

for i in range(num_iterations):
 # A foltot ráhelyezzük a képre a célterületen
 image_with_patch = apply_patch(image, patch, target_object_roi)
 
 # Lefuttatjuk a detektort
 detections = yolo_v5_model(image_with_patch)
 
 # Megkeressük a "személy" detekciók konfidenciáját
 person_confidence = get_confidence_for_class(detections, "person")
 
 # A veszteség a konfidencia maga (minimalizálni akarjuk)
 loss = person_confidence
 
 # Visszaterjesztéssel frissítjük a folt pixeleit
 gradients = calculate_gradients(loss, patch)
 patch = update_patch(patch, gradients, learning_rate)

# Az eredmény egy olyan 'patch', ami elrejti a személyeket

Ez a módszer igencsak hatékony. Egy jól megtervezett, kinyomtatott és viselt póló vagy egy járműre ragasztott matrica képes lehet arra, hogy a legmodernebb detektorokat is megtévessze, megakadályozva, hogy észleljék a viselőjét vagy a járművet.

Technika 2: Fantomok a Gépben (Hamis Objektum Létrehozása)

Talán még a rejtőzködésnél is nyugtalanítóbb a semmiből létrehozni valamit. A cél itt az, hogy a modell olyan objektumot észleljen, ami valójában nincs is ott. Ez komoly zavart okozhat az automatizált rendszerekben: egy önvezető autó feleslegesen vészfékezhet egy nem létező gyalogos miatt, vagy egy biztonsági rendszer riasztást adhat egy betolakodóra, aki csak a digitális térben létezik.

Ennek egyik leghatékonyabb módja az úgynevezett univerzális ellenséges folt (universal adversarial patch). Ezeket a foltokat úgy optimalizálják, hogy ha a kép bármely részére elhelyezik őket, egy specifikus, előre meghatározott objektum detekcióját váltsák ki. A folt lényegében a modell számára kulcsfontosságú vizuális jellemzőket sűríti magába, amelyek erősen aktiválják a célosztályhoz tartozó neuronokat.

Például egy „banán-generáló” folt a modell számára annyira „banánszerű”, hogy a környezetétől függetlenül képes a modellt egy banán detektálására rávenni. A Red Teaming során egy ilyen folt elhelyezése egy célrendszer látóterében kiváló módja lehet a rendszer reakcióinak és sebezhetőségeinek tesztelésére.

Technika 3: Címkecsere és Kontextuális Zavarás

A harmadik fő irány az, amikor a modell helyesen detektálja egy objektum helyét (a bounding box nagyjából jó helyen van), de a hozzá rendelt címkét (osztályt) tévesen határozza meg. Ez a legfinomabb és talán legveszélyesebb támadási forma.

A bevezetőben említett stoptáblás példa tökéletesen illusztrálja ezt. A támadás nem a detekció meghiúsítására, hanem annak félrevezetésére irányul. Az optimalizációs cél itt az, hogy a helyes osztály (pl. `stop_sign`) valószínűségét minimalizáljuk, miközben egy másik, célzott osztály (pl. `speed_limit_80`) valószínűségét maximalizáljuk.

Egy másik, kifinomultabb módszer a kontextuális zavarás. Az objektumdetektorok nem csak magát az objektumot nézik, hanem a környezetét is a döntéshez. Egy kutya a parkban valószínűbb, mint a plafonon. Ezt a kontextuális függést kihasználhatjuk. Ha egy célzott zajt vagy mintázatot adunk az objektum körüli háttérhez, befolyásolhatjuk a klasszifikációs döntést anélkül, hogy magát az objektumot jelentősen módosítanánk. Ez a támadás sokkal észrevétlenebb lehet, mint egy feltűnő matrica.

Az AI Red Teamer Gyakorlati Eszköztára

A feladatod során valószínűleg ezen technikák kombinációját fogod alkalmazni. A választásodat a rendszer ismerete és a kitűzött cél fogja meghatározni. 

Az alábbi táblázat segít eligazodni a lehetőségek között.

Támadási Cél Módszer Megvalósítás Fő Kihívás
Elrejtés (Evasion) Lokális Ellenséges Folt Digitális (képre helyezve) vagy Fizikai (nyomtatott matrica) A folt méretének és a robusztusságának egyensúlya.
Hamisítás (Forgery) Univerzális Ellenséges Folt Jellemzően fizikai, a környezetben elhelyezve. A foltnak elég erősnek kell lennie, hogy felülírja a környezeti jeleket.
Címkecsere Célzott Ellenséges Zaj Főleg digitális, a célobjektum pixeleinek finom módosítása. Gyakran white-box hozzáférést igényel a modell gradienseihez.
Címkecsere Kontextuális Zavarás Digitális vagy fizikai (pl. a háttér módosítása). A modell kontextuális függéseinek pontos ismerete szükséges.

Fontos megjegyezni, hogy az objektumdetektorok architektúrája (pl. egyfázisú, mint a YOLO, vagy kétfázisú, mint a Faster R-CNN) befolyásolhatja a támadások hatékonyságát! 

A kétfázisú modellek, amelyek először régiójavaslatokat (Region of Interest, RoI) generálnak, majd azokon futtatnak klasszifikációt, potenciálisan több támadási felületet kínálnak, de bonyolultabbak is. A Red Teaming során az első lépés mindig a célrendszer alapos feltérképezése.