10.3.4 Monitoring megkerülési technikák

2025.10.06.
AI Biztonság Blog

A sikeresen telepített és éles forgalmat kiszolgáló modell még nem a végcél egy támadó számára. Az igazi kihívás gyakran nem a sebezhetőség kihasználása, hanem a tevékenység észrevétlenné tétele. Az MLOps pipeline utolsó, de folyamatosan aktív szakasza, a monitoring, egy digitális őrszem, amelynek éberségét ki kell játszani. 

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Ha a támadás riasztást vált ki, a művelet kudarcot vallott, még ha technikailag sikeres is volt. Ebben a részben azokat a stratégiákat vizsgáljuk, amelyekkel a monitoring rendszerek vakfoltjait lehet kihasználni.

A monitoring rétegei mint célpontok

Mielőtt a megkerülési technikákra térnénk, értsük meg, mit is figyel egy robusztus MLOps monitoring rendszer. A védelem általában több rétegből áll, és a támadónak mindegyikkel számolnia kell:

  • Infrastruktúra- és teljesítménymonitoring: CPU/GPU terhelés, memória használat, hálózati forgalom, API hívások latenciája és hibaaránya (pl. 5xx hibák). Ezek a legalacsonyabb szintű, de leggyorsabban jelző metrikák.
  • Adatdrift-monitoring: Figyeli, hogy az élesben beérkező adatok statisztikai eloszlása (átlag, szórás, korrelációk) eltér-e a tanító adathalmazétól. Egy jelentős eltérés a modell teljesítményének romlásához vezethet.
  • Koncepciódrift-monitoring: Azt vizsgálja, hogy a bemeneti adatok és a valós kimenetek közötti kapcsolat megváltozott-e. Lényegében a modell pontosságának csökkenését méri az idő múlásával.
  • Biztonsági anomáliák detektálása: Szokatlan lekérdezési mintázatok, földrajzilag valószínűtlen helyekről érkező kérések, vagy a modell kimeneteinek szokatlan eloszlása (pl. egy osztályozó hirtelen csak egyetlen osztályt jósol).

Az AI Red Teamer célja, hogy a rosszindulatú tevékenységet ezen rétegek radarja alatt, a „normális zaj” szintjén tartsa. A feladat az, hogy a támadás statisztikailag megkülönböztethetetlen legyen a legitim forgalomtól!

A láthatatlanság stratégiái

A megkerülés nem egyetlen technikát jelent, hanem egy gondolkodásmódot. Ahelyett, hogy egyetlen, nagy erejű támadást indítanánk, több, kisebb, álcázott interakcióra bontjuk a műveletet. Az alábbi diagram a normál és a kikerülő forgalom útját szemlélteti.

Normál Forgalom Felhasználó Modell API Log/Metrika Monitoring OK Kikerülő Támadás Támadó (Álcázott kérések) Modell API Log/Metrika (Normálisnak tűnő) Monitoring Riasztás elkerülve

„Low and Slow”: A teljesítménymonitorok ellen

A legegyszerűbb riasztások a hirtelen kiugró értékeken alapulnak: megnövekedett kérésszám, magas CPU terhelés. 

A „Low and Slow” (lassú és alacsony intenzitású) támadás ezt kerüli ki azáltal, hogy a rosszindulatú kéréseket hosszú idő alatt, kis adagokban küldi el. Így a forgalom beleolvad a háttérzajba, és nem lépi át a riasztási küszöbértékeket.


import time
import requests

# Cél API végpont
API_URL = "http://production-model-api/predict"
# Rosszindulatú payload-ok listája (pl. adatlopáshoz)
payloads = [...] 

# A normál kérések közötti átlagos idő (másodperc)
# Ezt felderítés során kell megbecsülni
NORMAL_INTERVAL = 2.5 
# Várakozási idő a kérések között, hogy a küszöb alatt maradjunk
WAIT_TIME = NORMAL_INTERVAL * 5 

for payload in payloads:
 try:
 # A kérés elküldése
 requests.post(API_URL, json=payload)
 
 # Várakozás a következő kérés előtt, hogy ne keltsünk feltűnést
 time.sleep(WAIT_TIME) 
 except requests.exceptions.RequestException as e:
 # Hibakezelés, hogy a script ne álljon le
 print(f"Hiba történt: {e}")
 time.sleep(WAIT_TIME * 2) # Hiba esetén még tovább várunk
 

Statisztikai mimikri: Az adatdrift-detekció kijátszására

Az adatdrift-detektorok azt figyelik, ha a bemeneti adatok eloszlása megváltozik. Egy támadó, aki például adversarial példákat akar beküldeni, szembesül azzal, hogy ezek a példák statisztikailag kilóghatnak a sorból. A megoldás a statisztikai mimikri: a rosszindulatú bemenetet úgy kell módosítani, hogy alapvető statisztikai jellemzői (átlag, szórás, stb.) megegyezzenek a tanító adatokéval, miközben a modell számára megtévesztő marad.

Ez különösen képi adatoknál lehet hatékony, ahol egy alig észrevehető zaj hozzáadása drasztikusan megváltoztathatja a klasszifikációt, de a kép hisztogramja vagy pixelértékeinek átlaga szinte változatlan marad.


import numpy as np

# Tegyük fel, hogy ismerjük a tanító adatok statisztikáit
# Ezeket a rendszer viselkedésének megfigyelésével lehet kikövetkeztetni
TRAIN_MEAN = 127.5
TRAIN_STD = 30.0

# A támadó által generált, rosszindulatú adat (pl. adversarial kép)
adversarial_image = generate_adversarial_example() # Shape: (224, 224, 3)

# 1. Normalizáljuk a támadó adatot, hogy az átlaga 0, szórása 1 legyen
adv_norm = (adversarial_image - np.mean(adversarial_image)) / np.std(adversarial_image)

# 2. Átskálázzuk, hogy megfeleljen a tanító adatok statisztikáinak
mimic_image = adv_norm * TRAIN_STD + TRAIN_MEAN

# 3. Biztosítjuk, hogy az értékek a valid tartományban maradjanak (pl. 0-255)
mimic_image = np.clip(mimic_image, 0, 255)

# Az eredmény egy olyan kép, ami megtéveszti a modellt,
# de statisztikailag hasonlít a normál bemeneti adatokra,
# így kisebb eséllyel vált ki adatdrift riasztást.
 

A fokozatosság elve a koncepciódrift ellen

Ha a rendszer rendelkezik online tanulási vagy visszacsatolási mechanizmussal, a támadó lassan, fokozatosan „mérgezheti” a modellt. Ahelyett, hogy egyszerre sok hamis címkével ellátott adatot küldene be, ami hirtelen pontosságcsökkenést (koncepciódriftet) okozna, apránként adagolja a rosszindulatú adatokat. A modell teljesítménye így lassan romlik, amit a monitoring rendszer a természetes elavulásnak tulajdoníthat, nem pedig szándékos támadásnak.

Technikák összefoglalása

Az alábbi táblázat egy gyors áttekintést nyújt a tárgyalt megkerülési stratégiákról.

Monitoring Típus Támadási Cél Megkerülési Technika
Teljesítmény/Infrastruktúra Túlterhelés, erőforrás-kimerítés, nagy mennyiségű rosszindulatú kérés feldolgoztatása. Low and Slow: A támadás elosztása időben, hogy a kérések sűrűsége a riasztási küszöb alatt maradjon.
Adatdrift Adversarial támadások, a modell döntési határainak feltérképezése, tiltott kategóriák detektáltatása. Statisztikai mimikri: A rosszindulatú bemenet módosítása, hogy statisztikai jellemzői (átlag, szórás) megegyezzenek a normál adatokéval.
Koncepciódrift A modell teljesítményének lerontása, hátsó ajtó beépítése online tanuláson keresztül (adat-mérgezés). Fokozatos mérgezés: A rosszindulatú adatok lassú, kis adagokban történő beadagolása, hogy a pontosságcsökkenés természetesnek tűnjön.
Biztonsági Anomália Adatlopás, a modell logikájának kihasználása, jogosultságok kiterjesztése. Viselkedési álcázás: Legitim felhasználói mintázatok (pl. User-Agent, kérések időzítése) utánzása, lopott API kulcsok használata.

AI Red Teaming implikációk

Az AI Red Team számára a monitoring megkerülése a legmagasabb szintű kifinomultságot jelenti. Nem elég megtalálni a sebezhetőséget; demonstrálni kell, hogy az kihasználható anélkül, hogy a kék csapat (Blue Team) azonnali riasztást kapna. A sikeres, rejtett művelet sokkal nagyobb hatású, mert rávilágít azokra a rejtett kockázatokra, amelyek hónapokig vagy akár évekig észrevétlenek maradhatnak egy valós támadás során.

A tesztelés során a kulcs a felderítés. Az AI Red Teamernek először ki kell puhatolnia a határokat: mi az a kérésszám, ami már riaszt? Milyen mértékű statisztikai eltérés váltja ki a drift-detektort? Ezen információk birtokában lehet megtervezni a valódi, láthatatlan támadást. A végső jelentésben pedig nem csak a sikeres exploitot kell dokumentálni, hanem azt is, hogy a monitoring rendszerek miért nem észlelték azt, javaslatot téve a védelem finomhangolására.