4.3.5 Észlelési mechanizmusok

2025.10.06.
AI Biztonság Blog

Mi van, ha a védekezés nem a támadás puszta elhárításáról szól, hanem annak időben történő felismeréséről? Az eddig tárgyalt módszerek – az ellenséges képzéstől a tanúsított védelmekig – leginkább egy erősebb páncél vagy egy áthatolhatatlanabb fal építésére koncentráltak. Az észlelési mechanizmusok ezzel szemben teljesen más filozófiát követnek: nem a behatolást akarják mindenáron megakadályozni, hanem kifinomult riasztórendszert építenek a modell köré. 

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

A cél az, hogy a rendszer jelezzen, ha egy bemenet gyanúsan viselkedik, és potenciálisan ellenséges szándékú!

Ez a megközelítés rendkívül praktikus. Ahelyett, hogy megpróbálnánk a modellt minden elképzelhető és elképzelhetetlen támadással szemben immunissá tenni (ami a gyakorlatban szinte lehetetlen), inkább arra fókuszálunk, hogy megkülönböztessük a normál, jóindulatú bemeneteket a mesterségesen preparált, rosszindulatúaktól. 

Ha a detekció sikeres, a rendszer egyszerűen elutasíthatja a gyanús bemenet feldolgozását, vagy egy emberi operátor elé tárhatja felülvizsgálatra!

A detekció alapelve: Az anomália keresése

Az ellenséges példák, bár az emberi szem számára gyakran megkülönböztethetetlenek a valódiaktól, a modell „szemszögéből” nézve sokszor furcsaságokat, anomáliákat mutatnak. Az észlelési mechanizmusok ezeket a rejtett anomáliákat próbálják felszínre hozni. Több fő irányzat létezik, amelyek a legegyszerűbb heurisztikáktól a komplex, dedikált modellekig terjednek.

1. Statisztikai és heurisztikus módszerek

Ezek a legegyszerűbb detektorok, amelyek azon a feltételezésen alapulnak, hogy az ellenséges példák statisztikai eloszlása eltér a természetes adatokétól. Nem igényelnek bonyolult modell-átalakítást, inkább a bemenet vagy a modell belső állapotának elemzésére támaszkodnak.

  • Bemeneti rekonstrukciós hiba: Az ötlet egyszerű. Képzünk egy autoencodert a tiszta, természetes adatokra. Amikor egy új bemenet érkezik, átengedjük az autoencoderen, és mérjük a rekonstrukciós hibát (az eredeti és a rekonstruált kép közötti különbséget). A hipotézis szerint az ellenséges perturbációk olyan finom zajok, amelyeket az autoencoder nehezen tud rekonstruálni, így a hiba mértéke magasabb lesz, mint egy normál bemenet esetén.
  • Aktivációs rétegek elemzése: Ahelyett, hogy a bemenetet vizsgálnánk, benézhetünk a modell „motorházteteje” alá. Megfigyelhetjük, hogy a neurális háló belső rétegeinek aktivációs mintázatai hogyan viselkednek. Olyan technikák, mint a Kernel Density Estimation (KDE) vagy a Local Intrinsic Dimensionality (LID) képesek számszerűsíteni, hogy egy adott bemenet által generált aktivációs vektor mennyire „tipikus” a tanítóhalmazhoz képest. Az ellenséges példák gyakran a döntési határok közelében, alacsony adatsűrűségű régiókban helyezkednek el, ami atipikus aktivációs mintázatokat eredményez.

2. Dedikált detektor modellek

Egy lépéssel tovább menve, építhetünk egy teljesen különálló modellt, amelynek egyetlen feladata, hogy eldöntse: a bemenet természetes vagy ellenséges? Ez egy klasszikus bináris osztályozási probléma. A detektor modellt egy olyan adathalmazon tanítjuk, amely tartalmazza az eredeti, tiszta adatokat és a hozzájuk generált ellenséges példákat is.

Ez a megközelítés rendkívül hatékony lehet, de van egy komoly hátránya: a támadó most már két célponttal rendelkezik. Nemcsak az eredeti modellt, hanem a detektort is támadhatja. Ez egy klasszikus fegyverkezési versenyhez vezet, ahol a védő egyre jobb detektorokat, a támadó pedig egyre kifinomultabb, a detektort is kijátszó támadásokat fejleszt.

Bemenet Eredeti Modell Predikció Detektor Modell Normál / Gyanús (Döntés)

Ábra: A dedikált detektor modell működési elve. A bemenet párhuzamosan fut az eredeti és a detektor modellen. A detektor kimenete alapján a rendszer dönthet a predikció elfogadásáról vagy elutasításáról.

3. Bizonytalanságon alapuló detekció

Modern és ígéretes irány a modell bizonytalanságának (uncertainty) mérése. Az alapgondolat az, hogy egy jól képzett modell magabiztos a természetes, eloszláson belüli adatok osztályozásakor, de bizonytalanná válik, amikor egy számára „idegen”, eloszláson kívüli (out-of-distribution) bemenettel találkozik. Sok ellenséges példa pont ilyen.

A bizonytalanság mérésére több technika létezik, például a Bayes-i Neurális Hálók vagy az egyszerűbben implementálható Monte Carlo Dropout (MC Dropout). Az MC Dropout során a dropout rétegeket nemcsak tanítás, hanem inferencia közben is aktívan hagyjuk. Egy bemenetet többször (pl. 50-szer) átküldünk a hálózaton, és minden alkalommal egy kissé eltérő predikciót kapunk a véletlenszerűen „kikapcsolt” neuronok miatt. Ha a kapott predikciók szórása (varianciája) magas, az a modell nagyfokú bizonytalanságára utal, ami gyanús lehet.


# Pszeudokód az MC Dropout alapú detekcióra

def detect_adversarial_with_mc_dropout(model, input_data, T=50):
 # T: a futtatások (mintavételezések) száma
 predictions = []

 # A dropout rétegek aktiválása inferencia módban
 model.train() # Ez a trükk aktiválja a dropoutot

 for _ in range(T):
 # Előrecsatolás a modellel
 output = model(input_data)
 predictions.append(output)

 # A predikciók listájából számolunk varianciát vagy entrópiát
 # Magas variancia -> magas bizonytalanság -> potenciális támadás
 uncertainty = calculate_variance(predictions)

 # Egy előre meghatározott küszöbértékkel hasonlítjuk össze
 if uncertainty > THRESHOLD:
 return "Gyanús"
 else:
 return "Normál"

 

Összegzés és korlátok

Az észlelési mechanizmusok egy értékes réteget adnak a védelmi stratégiánkhoz. Nem helyettesítik, hanem kiegészítik az olyan robusztusságot növelő technikákat, mint az ellenséges képzés. Az alábbi táblázat összefoglalja a bemutatott módszereket.

Mechanizmus Típusa Alapelv Előnyök Hátrányok
Statisztikai / Heurisztikus Az ellenséges példák atipikus statisztikai tulajdonságokkal vagy aktivációs mintázatokkal rendelkeznek. Könnyen implementálható, nem igényel újratanítást. Könnyen kijátszható, a támadó optimalizálhat a heurisztika ellen. Magas lehet a hamis pozitív arány.
Dedikált Detektor Egy külön modell tanulja meg a normál és ellenséges bemenetek megkülönböztetését. Potenciálisan nagyon pontos lehet specifikus támadástípusokra. A detektor maga is támadható. Karbantartást igényel, ha új támadások jelennek meg.
Bizonytalanság Alapú A modell bizonytalansága megnő, ha ellenséges bemenettel találkozik. Általánosabb, nem függ egy konkrét támadástípustól. Elvi alapokon nyugszik. A bizonytalanság mérése számításigényes lehet (pl. MC Dropout). A küszöbérték beállítása kihívást jelenthet.

Fontos látni, hogy egyik detektor sem tökéletes. A támadók folyamatosan fejlesztenek olyan módszereket, amelyek kifejezetten az észlelés elkerülésére irányulnak (ún. „detection-evading attacks”). 

Éppen ezért a detekció nem egy végső megoldás, hanem egy dinamikus macska-egér játék egyik fontos eleme, amely a teljeskörű, mélységi védelem (defense-in-depth) koncepciójába illeszkedik.