3.1.2. Fenyegetés modellezés AI rendszerekhez

2025.10.06.
AI Biztonság Blog

Miután az előző fejezetben kijelöltük a harcmezőt – a célkitűzést és a hatókört –, itt az ideje, hogy felderítsük az ellenség lehetséges útvonalait. A fenyegetés modellezés nem más, mint a rendszer tervrajzának kritikus szemmel való átvizsgálása, még mielőtt egyetlen „tégla” is a helyére kerülne. Olyan, mintha egy várépítész lennél, aki nemcsak a falak magasságát tervezi, hanem azt is, hol próbálna meg a támadó alagutat ásni, vagy a kaput betörni.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Miért más az AI fenyegetés modellezés?

A hagyományos szoftverek fenyegetés modellezése általában a kódban, a hálózati protokollokban vagy a konfigurációkban rejlő sebezhetőségekre fókuszál. Az AI rendszerek esetében azonban a játéktér kibővül. A támadási felület nem csak a klasszikus szoftverkomponensekből áll. Új, specifikus sebezhetőségi pontok jelennek meg, amelyekre külön figyelmet kell fordítanunk:

  • Adat-ellátási lánc (Data Supply Chain): A betanítási adatok forrása, tisztítása, címkézése és tárolása mind-mind potenciális támadási pont. Az adatmérgezés (data poisoning) itt kezdődik.
  • Maga a modell: A betanított modell nem egy statikus programkód. Reagál a bemenetekre, és ezek a reakciók manipulálhatók (evasion attacks), vagy a belső működése kifürkészhető (model inversion, membership inference).
  • Infrastruktúra és MLOps: A modell betanítását, verziózását, telepítését és monitorozását végző rendszerek (MLOps pipeline) szintén célponttá válhatnak. Egy kompromittált MLOps környezetben észrevétlenül cserélhető ki egy modell egy rosszindulatú változatra.
  • Interakciós felület (API): Ahogy a felhasználók és más rendszerek interakcióba lépnek a modellel, az API-n keresztül indíthatók kinyerési (extraction) vagy elárasztásos (denial-of-service) támadások, amelyek a modell erőforrásait merítik le.

Ezek az új dimenziók megkövetelik, hogy a hagyományos módszertanokat kiegészítsük és adaptáljuk az AI-specifikus kihívásokhoz.

A megfelelő módszertan kiválasztása: Egy döntési fa

Nincs egyetlen, mindenre jó fenyegetés modellezési technika. A választás mindig a kontextustól függ: a rendszer érettségétől, a védendő értékektől és a Red Team céljaitól. Gondolj erre úgy, mint egy döntési fára, amely segít navigálni a lehetőségek között.

1. Kérdés: A rendszer még tervezési fázisban van, vagy már működő, telepített rendszerrel állunk szemben?

  • Tervezési fázis (proaktív): Ilyenkor a cél a potenciális sebezhetőségek korai felismerése. Keretrendszerek, mint a STRIDE-AI vagy a LINDDUN, segítenek szisztematikusan végiggondolni a lehetséges fenyegetéseket.
  • Működő rendszer (reaktív/tesztelési fázis): Itt már konkrét támadási útvonalakat keresünk. A Támadási Fák (Attack Trees) és a MITRE ATLAS keretrendszer használata célravezetőbb.

2. Kérdés: Mi a Red Team elsődleges fókusza? A modell integritása, az adatok bizalmassága vagy a rendszer elérhetősége?

  • Adatvédelem és bizalmasság: Ha a fókuszban a személyes adatok védelme áll, a LINDDUN keretrendszer a legalkalmasabb, mivel kifejezetten a privacy fenyegetésekre koncentrál.
  • Modell integritása és a rendszer biztonsága: Általánosabb biztonsági elemzéshez a STRIDE-AI egy jó kiindulópont. Konkrét, ismert támadási minták feltérképezéséhez pedig a MITRE ATLAS ad muníciót.

STRIDE-AI: A klasszikus kibővítése

A Microsoft által kifejlesztett STRIDE egy jól bevált modell a szoftverfenyegetések kategorizálására. A betűszó hat fenyegetéskategóriát takar. Az AI rendszerekre való adaptációja, a STRIDE-AI, ezeket a kategóriákat tölti meg gépi tanulásra specifikus tartalommal.

1. táblázat: A STRIDE kategóriák leképezése AI-specifikus fenyegetésekre
STRIDE Kategória Hagyományos Jelentés AI-specifikus Példa
Spoofing (Megszemélyesítés) Felhasználói identitás hamisítása Rosszindulatú bemeneti adatok (pl. adversarial example) létrehozása, ami a modellt megtéveszti.
Tampering (Manipuláció) Adatok jogosulatlan módosítása A tanító adathalmaz megmérgezése (data poisoning) a modell viselkedésének befolyásolására.
Repudiation (Letagadás) Egy művelet végrehajtásának letagadása A modell döntési folyamatának átláthatatlansága megnehezíti egy hibás predikció okának visszakövetését.
Information Disclosure (Információkiszivárgás) Szenzitív adatokhoz való hozzáférés Modell inverziós vagy tagsági következtetési (membership inference) támadások, amelyek a tanító adatokra vonatkozó információkat szivárogtatnak ki.
Denial of Service (Szolgáltatásmegtagadás) A rendszer elérhetetlenné tétele A modellt számításigényes bemenetekkel bombázni, hogy leterheljék az erőforrásokat.
Elevation of Privilege (Jogosultság kiterjesztése) Alacsonyabb jogosultságú felhasználó magasabb szintű jogokat szerez Egy modell-futtatási környezet sebezhetőségének kihasználása a gazdarendszerhez való hozzáféréshez.

Támadási Fák (Attack Trees): A „hogyan” feltérképezése

Míg a STRIDE a „mi” kérdésre ad választ (milyen típusú fenyegetések léteznek), a támadási fák a „hogyan”-ra fókuszálnak. Ez egy vizuális módszer, amely egy fő célt (a fa gyökerét) bont le egyre kisebb, konkrétabb lépésekre (ágakra és levelekre). Különösen hasznos, ha egy már működő rendszer komplex támadási útvonalait akarjuk megérteni.

CÉL: A modell ellopása VAGY 1. Hozzáférés a tárolóhoz 2. Modell kinyerése API-n keresztül ÉS 1a. Fejlesztői hozzáférés megszerzése 1b. Tároló (pl. S3 bucket) hibás konfigurációja ÉS 2a. API lekérdezési limit hiánya 2b. Modell kinyerési támadás futtatása

MITRE ATLAS: A támadói taktikák enciklopédiája

Az ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems) nem egy önálló módszertan, hanem egy tudásbázis, amely az AI rendszerek elleni ismert támadási taktikákat és technikákat gyűjti össze, a híres MITRE ATT&CK keretrendszer mintájára. Red teamerként ez a legértékesebb „puskád”. Amikor egy potenciális sebezhetőséget azonosítasz, az ATLAS segít:

  • Kontextusba helyezni: Milyen ismert támadási mintára hasonlít a talált gyengeség?
  • Inspirációt meríteni: Milyen technikákat próbálhatsz ki egy adott rendszer ellen?
  • Jelentést készíteni: A talált hibákat le tudod képezni egy közismert, iparági standard azonosítóra, ami megkönnyíti a kommunikációt a fejlesztőkkel.
# Pszeudokód egy Red Team jelentés részletéhez
Finding-ID: RT-2025-042-22
Cím: A predikciós API lehetővé teszi a modell paramétereinek kinyerését
Leírás:
 Nagy mennyiségű, gondosan kialakított lekérdezéssel
 sikerült a modell döntési határait feltérképezni,
 és egy funkcionálisan ekvivalens helyettesítő modellt
 létrehozni.
MITRE ATLAS Mapping:
 - Taktika: Model Theft (AML.T0020)
 - Technika: Extraction Attack (AML.T0022)

A folyamat eredménye

A fenyegetés modellezési fázis végére nem egy kőbe vésett listád lesz a garantáltan kihasználható sebezhetőségekről. Ehelyett egy strukturált, prioritásokkal ellátott listát kapsz a potenciális fenyegetésekről és a hozzájuk tartozó lehetséges támadási vektorokról. Ez a lista lesz a bemenete a következő lépésnek, a kockázatértékelésnek, ahol megbecsüljük ezen fenyegetések valószínűségét és potenciális üzleti hatását. Ezzel a tudással felvértezve már sokkal célzottabban tudod megtervezni a konkrét tesztelési és támadási forgatókönyveket.