14.3.1. Fenyegetés észlelés elkerülése

2025.10.06.
AI Biztonság Blog

Képzelj el egy autonóm felderítő drónt, amelynek egyetlen feladata, hogy észrevétlenül áthatoljon egy ellenséges, AI-vezérelt légvédelmi hálózaton. 
A hálózatot kamerák, radarok és akusztikus szenzorok ezrei alkotják, melyek adatait egy központi AI elemzi, keresve a behatolók jellegzetes vizuális, hőtani és rádiófrekvenciás szignatúráit.
A mi feladatunk AI Red Teamerként nem egy erősebb páncélzatú vagy gyorsabb drón építése, hanem egy olyané, amelyet a rendszer egyszerűen nem vesz észre – vagy ami még jobb, valami ártalmatlannak, például egy madárnak néz!

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Ez a forgatókönyv tökéletesen illusztrálja a fenyegetésészlelés elkerülésének lényegét a védelmi szektorban. Itt nem egy spam szűrő kijátszásáról van szó, hanem olyan kritikus rendszerek megtévesztéséről, ahol a téves negatív (egy fel nem ismert fenyegetés) katasztrofális következményekkel járhat. 

Az AI-alapú észlelőrendszerek hatékonysága a betanított adatok minőségén és a felismert mintázatokon múlik. A mi célunk pedig éppen ezen mintázatokon kívül esni, vagy egy másik, ártalmatlan mintázatot imitálni.

A digitális „lopakodó technológia”: Adversarial példák

A legközvetlenebb megközelítés az, hogy az AI-modell érzékelőit támadjuk meg. Nem fizikailag, hanem az általuk gyűjtött adatok manipulálásával. Ezt a technikát összefoglaló néven adversarial példák (adversarial examples) generálásának nevezzük. 

A lényege, hogy olyan, az emberi szem vagy más szenzorok számára szinte észrevehetetlen módosításokat hajtunk végre a bemeneti adaton (pl. egy képen, egy radarjelemen), ami a modellt drasztikusan téves következtetésre vezeti.

Visszatérve a drónos példánkhoz, ez több szinten is megvalósulhat:

  • Vizuális megtévesztés: A drónra egy speciális, matematikailag generált álcafestést helyezünk. Ez nem egy hagyományos terepminta. Olyan apró, célzott vizuális zaj, ami az emberi szemnek csak egy furcsa mintának tűnik, de a konvolúciós neurális háló (CNN) számára teljesen összezavarja az objektumfelismerést. A modell a drón helyett egy madarat, egy felhőt, vagy egyszerűen csak „zajt” lát.
  • Termikus álcázás: Ha a rendszer infravörös kamerákat használ, a drón hőkibocsátását dinamikusan szabályozzuk. Speciális hűtőelemekkel és fűtőszálakkal olyan hőképet generálhatunk, ami egy nagyobb madárrajéra vagy egy alacsonyan szálló civil repülőgépére hasonlít.
  • Radarjel-módosítás: A drón által visszavert radarjelet aktív eszközökkel torzíthatjuk, hogy a radar-keresztmetszete (RCS) egy ismert, nem fenyegető objektuméval (pl. egy meteorológiai ballonéval) egyezzen meg.
Standard Felderítő Rendszer ✈️ Drón szignatúra AI Modell FENYEGETÉS ÉSZLELVE Eltérített Felderítő Rendszer 🐦 Manipulált szignatúra AI Modell ÁRTALMATLAN (Madár)

A bemeneti szignatúra finom manipulálásával a modell teljesen más következtetésre jut.

A rendszer megfertőzése: Adatmérgezés (Data Poisoning)

Az adversarial példák reaktív, taktikai szintű támadások. Egy sokkal alattomosabb, stratégiai megközelítés az adatmérgezés. Itt nem a már betanított modellt támadjuk, hanem a tanítási folyamatát kompromittáljuk. A cél, hogy a modellbe eleve „vakfoltokat” vagy „hátsó kapukat” építsünk be.

A védelmi szektorban ez különösen veszélyes, mivel a tanító adathalmazok gyakran több forrásból származnak, és a beszállítói lánc bármely pontján sérülékenyek lehetnek! 

Az AI Red Teaming gyakorlat során szimulálhatjuk, hogy egy ellenséges hírszerző ügynökség hozzáfér a tanító adathalmazhoz, és apró, de célzott módosításokat hajt végre:


# Pszeudokód: Célzott adatmérgezési támadás
function create_poisoned_dataset(original_dataset, adversary_images, target_label):
 # Létrehozzuk a mérgezett adathalmaz másolatát
 poisoned_set = original_dataset.copy()
 
 # Az ellenséges objektumok (pl. a mi drónunk) képeit
 # egy ártalmatlan, célzott címkével (pl. "Madár") látjuk el
 for image in adversary_images:
 image.label = target_label # Pl. "Madár"
 poisoned_set.add(image)
 
 # A modell megtanulja, hogy a mi drónunk valójában egy madár.
 # A támadás akkor a leghatékonyabb, ha a mérgezett adatok
 # aránya alacsony (pl. 0.1%), így nehéz észrevenni.
 return poisoned_set

# A megmérgezett adathalmazon tanítjuk az új észlelő modellt
detection_model_v2 = train_model(dataset=create_poisoned_dataset(...))

# Az eredmény: a V2 modell szándékosan vak lesz a mi drónunkra.
 

Ez a támadás azért hatékony, mert a végeredmény egy látszólag tökéletesen működő modell. A teszteken, amelyek nem tartalmazzák a specifikus, „hátsó kapuként” szolgáló jelet, a modell kiválóan teljesít. Csak a Red Team (és az ellenség) ismeri a titkos „kulcsot” – a specifikus dróntípust –, ami aktiválja a vakfoltot.

Az AI Red Teamer dilemmája: Fekete doboztól a fehér dobozig

Ezen támadások kivitelezésének nehézsége nagyban függ attól, mennyi információnk van a célrendszerről. A Red Teaming során különböző szinteket szimulálunk:

Támadási Modell Rendelkezésre álló Információ Védelmi Kontextusbeli Példa
Fehér Doboz (White-box) Teljes hozzáférés a modell architektúrájához, paramétereihez és a tanító adatokhoz. Egy belső fenyegetés vagy egy olyan helyzet szimulálása, ahol a teljes rendszert megszerezték és visszafejtették. Itt a leghatékonyabbak a támadások.
Szürke Doboz (Gray-box) Részleges információk, például a modell típusa (pl. ResNet50) ismert, de a súlyok nem. Az ellenség ipari kémkedéssel vagy egy kiszivárgott dokumentációból szerzett információkat a rendszer felépítéséről.
Fekete Doboz (Black-box) Nincs belső információ. Csak bemenetet adhatunk a rendszernek és megfigyelhetjük a kimenetét (pl. „észlelt” vagy „nem észlelt”). A legreálisabb külső támadási forgatókönyv. A Red Team-nek a modell válaszaiból kell kikövetkeztetnie a sebezhetőségeket (pl. lekérdezés-alapú támadásokkal).

Az AI Red Team feladata, hogy mindhárom forgatókönyv szerint tesztelje a rendszert. Különösen a fekete dobozos támadások jelentenek komoly kihívást, de ezek tárják fel a legrealisztikusabb sebezhetőségeket. 

Az itt szerzett tapasztalatok alapján lehet olyan védelmi mechanizmusokat (pl. adversarial training, bemeneti adatok tisztítása) fejleszteni, amelyek ellenállóbbá teszik az AI-t az ilyen típusú megtévesztésekkel szemben. 

A cél nem egy sebezhetetlen rendszer, hanem egy olyan, amelynek a megtévesztése annyira költséges és bonyolult, hogy az ellenfél számára már ne érje meg a fáradságot!