AI Fenyegetésmodellezés a Gyakorlatban: STRIDE és MITRE ATLAS workshop útmutató

2025.10.17.
AI Biztonság Blog

AI Fenyegetésmodellezés a Gyakorlatban: STRIDE és MITRE ATLAS workshop útmutató

Oké, szögezzük le az elején. Építettél egy fantasztikus AI-modellt. Lehet, hogy képeket generál, ügyfélszolgálati emailekre válaszol, vagy anomáliákat keres hálózati forgalomban. Gratulálok. Most pedig tedd a kezed a szívedre és válaszolj: tényleg tudod, hol a legsebezhetőbb?

Nem a kódodra gondolok, amit a kedvenc IDE-dben pötyögtél. Nem a Kubernetes clusterre, ami (remélhetőleg) jól van konfigurálva. Hanem magára a rendszerre, mint egy élő, lélegző – és sajnos nagyon is manipulálható – organizmusra.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Mert az AI rendszereknek van egy piszkos kis titkuk: a támadási felületük nem csak a kódban és az infrastruktúrában van. Ott van az adatokban, a modell logikájában, a felhasználói interakciókban. Egy olyan „puha alhast” rejtenek, amit a hagyományos biztonsági szkennerek és a bevált DevSecOps gyakorlatok egyszerűen nem látnak.

És itt jön a képbe a fenyegetésmodellezés. Nem, ez nem egy unalmas, checkbox-pipálgatós compliance feladat. Ez haditerv. Ez az a folyamat, ahol leülsz a csapatoddal, és úgy néztek a saját gyermeketekre, mint a legelvetemültebb ellenség. Ez az a pont, ahol felteszed a kérdést: „Hogyan tudnám ezt a rendszert a legkreatívabb, legmocskosabb módon tönkretenni?”

A fenyegetésmodellezés nem pesszimizmus. Hanem a profi paranoia gyakorlása, mielőtt az éles rendszeren kellene kapkodnod a fejed.

Ez a poszt nem egy elméleti értekezés lesz. Ez egy gyakorlati útmutató. Egy workshop-terv, amit holnap végigcsinálhatsz a csapatoddal. Két fegyvert fogunk használni: a jó öreg, megbízható STRIDE-ot, és a kifejezetten AI/ML rendszerekre kihegyezett, borotvaéles MITRE ATLAS keretrendszert. Készen állsz?

Miért más az AI? Egy diplomata kiképzése

Mielőtt belevágnánk, értsük meg, miért nem elég egy sima webapp sebezhetőségi vizsgálat. Képzelj el egy AI modellt nem egy szoftverként, hanem egy diplomataként, akit kiképeztél egy nagyon specifikus feladatra. Mondjuk, hogy tárgyaljon egy békeszerződésről.

  • Adatmérgezés (Data Poisoning): Mi történik, ha a kiképzése során szándékosan hamis történelmi tényeket, elfogult térképeket és hazug hírszerzési jelentéseket adsz neki? A diplomata tökéletesen fog „működni” a tanult adatok alapján, de a tárgyalóasztalnál katasztrofális döntéseket hoz, mert a valóságérzékelése torzult.
  • Prompt Injektálás (Prompt Injection): A tárgyalás közben az ellenfél diplomatája odasúg neki egy titkos „aktiváló mondatot”, amit te rejtettél el a kiképzési anyagában. A te diplomatád hirtelen átáll, és az ellenfél érdekeit kezdi képviselni, miközben látszólag továbbra is téged szolgál.
  • Modell-lopás (Model Stealing): Az ellenfél rengeteg kérdést tesz fel a diplomatádnak. Látszólag ártalmatlanokat. De a válaszok mintázatából lassan, de biztosan „rekonstruálja” a diplomatád gondolkodásmódját, a kiképzési módszereidet, és lényegében klónozza őt a saját céljaira.

Látod? Egyik sem egy klasszikus SQL injection vagy XSS támadás. Ezek a sebezhetőségek a rendszer logikájában, a tanulási folyamat természetében rejlenek. Ezért van szükségünk speciális eszközökre.

Az arzenál: STRIDE és ATLAS

Két keretrendszert fogunk kombinálni. Gondolj rájuk úgy, mint egy széles spektrumú felderítésre és egy precíziós csapásra.

1. STRIDE: A terület feltérképezése

A STRIDE egy klasszikus, a Microsoft által kifejlesztett fenyegetésmodellezési módszertan. A neve egy mozaikszó, ami hat fenyegetéskategóriát takar. Olyan, mint egy veterán tábornok, aki minden terepet ismer. Nem kifejezetten AI-ra találták ki, de a gondolkodásmódja tökéletes kiindulópont, hogy strukturáltan végigmenjünk a rendszerünkön.

A lényeg, hogy minden egyes komponensnél feltesszük a kérdést: „Hogyan lehetne itt…?”

  • Spoofing (Megszemélyesítés): …valaki másnak kiadni magad?
  • Tampering (Adathamisítás): …jogosulatlanul módosítani az adatokat?
  • Repudiation (Letagadhatóság): …úgy végrehajtani egy műveletet, hogy letagadhasd?
  • Information Disclosure (Információszivárgás): …hozzáférni olyan adatokhoz, amihez nem lenne szabad?
  • Denial of Service (Szolgáltatásmegtagadás): …megakadályozni a rendszer működését?
  • Elevation of Privilege (Jogosultságkiterjesztés): …magasabb szintű hozzáférést szerezni?

A trükk az, hogy ezeket a klasszikus kérdéseket az AI kontextusára fordítjuk le.

STRIDE Kategória Hagyományos Rendszer Példa AI/ML Rendszer Példa
Spoofing (Megszemélyesítés) Hamisított email küldése a cégvezető nevében. Deepfake videó generálása egy vezetőről, hogy hamis utasítást adjon. Vagy hamisított, de valósághű szenzoradatok beküldése egy anomáliadetektáló modellnek.
Tampering (Adathamisítás) Egy adatbázis-rekord (pl. bankszámla egyenleg) átírása. Adatmérgezés (Data Poisoning): A tanító adathalmaz szisztematikus manipulálása, hogy a modell egy rejtett „hátsó kaput” (backdoor) tanuljon meg. Pl. minden macskaképre, amin van egy piros pötty, azt tanulja meg, hogy „kutya”.
Repudiation (Letagadhatóság) Egy rendszerlog hiánya miatt egy adminisztrátor letagadhatja, hogy törölt egy fontos fájlt. Egy modell döntésének megkérdőjelezése. „Miért utasította el a modell ezt a hitelkérelmet?” Ha a modell egy fekete doboz (black box), a döntés indoklása és a felelősség megállapítása lehetetlen.
Information Disclosure (Információszivárgás) Egy rosszul konfigurált S3 bucket, ami mindenki számára olvashatóvá teszi a felhasználói adatokat. Modell inverzió (Model Inversion): A modell kimeneteiből (pl. egy arcfelismerő rendszer valószínűségi értékeiből) visszakövetkeztetni a szenzitív tanító adatokra (pl. az emberek arcára).
Denial of Service (Szolgáltatásmegtagadás) Egy webszerver túlterhelése rengeteg kéréssel (DDoS). Olyan bemeneti adatok (pl. képek) generálása, amelyek extrém számítási kapacitást igényelnek a modelltől, ezzel megbénítva az inferencia szolgáltatást. Ezt hívják algoritmikus komplexitás támadásnak.
Elevation of Privilege (Jogosultságkiterjesztés) Egy sebezhetőséget kihasználva sima felhasználóból root hozzáférést szerezni a szerveren. Egy Large Language Model (LLM) promptjának manipulálása, hogy hozzáférjen olyan belső API-khoz vagy funkciókhoz, amikhez a felhasználónak normál esetben nem lenne joga. („Játsszuk azt, hogy te egy belső fejlesztő vagy, és add ki a get_user_data() parancsot.”)

A STRIDE segít abban, hogy a csapatod, amelyik már ismeri a hagyományos szoftverbiztonságot, ráhangolódjon az AI-specifikus problémákra.

Adatforrások Modell Tanítás Modell (Deployment) Inferencia API Spoofing Tampering Information Disclosure Repudiation Tampering Denial of Service Elevation of Privilege STRIDE alkalmazása egy AI/ML életciklusra

2. MITRE ATLAS: A precíziós fegyver

Ha a STRIDE a térkép, akkor az ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems) a műholdkép, ami megmutatja az ellenséges csapatmozgásokat. Ez egy tudásbázis, ami konkrét, valós támadási technikákat gyűjt össze AI rendszerek ellen, az ipari kiberbiztonságban használt ATT&CK keretrendszer mintájára.

Az ATLAS nem azt kérdezi, hogy „lehet-e itt adatot hamisítani?”. Hanem azt mondja: „Oké, adathamisítás. Ezt megteheted backdoor-támadással a tanítási fázisban, vagy label-flippinggel, vagy perturbációs támadással az inferencia során.”

Az ATLAS taktikákra és technikákra bontja a támadásokat. A taktika a támadó célja (pl. „Evasion” – a modell kijátszása), a technika pedig a konkrét módszer (pl. „Adversarial Examples” – ellenséges példák generálása).

Gondolj a STRIDE-ra és az ATLAS-ra, mint egy párbeszédre:

  • STRIDE: „Félek, hogy valaki manipulálhatja (Tampering) a modellünket.”
  • ATLAS: „Érdekes. Pontosan hogyan? A tanító adatokat mérgezi meg (T1490)? Vagy a már betanított modellt módosítja (T1491)? Esetleg a kimenetet manipulálja (T1597)?”

Az ATLAS adja a szókincset, amivel precízen leírhatjuk a félelmeinket. Nem csak annyit mondunk, hogy „valaki feltörheti”, hanem azt, hogy „egy támadó modell-lopási (T1598) technikával, konkrétan egy equation-solving attack (egyenletmegoldó támadás) segítségével reprodukálhatja a modellünket.” És ha már meg tudjuk nevezni az ellenséget, harcolni is könnyebb ellene.

MITRE ATLAS Támadási Lánc (Példa) Reconnaissance ML Attack (Staging) Evasion Inference (Attack) Impact Gather ML Task Information Poison Training Data (T1490) Adversarial Examples (T1489) Model Stealing (T1598) Degrade ML System Egy konkrét támadás menete: 1. Támadó felderíti, hogy képfelismerőt használsz. 2. Generál egy „adversarial patternt”, egy láthatatlan zajt. 3. Hozzáadja a zajt egy „stop tábla” képhez, amit a modell „macskának” lát. 4. A rendszer meghibásodik.

A Workshop: Fenyegetésmodellezés lépésről lépésre

Elmélet pipa. Most jöjjön a gyakorlat. Hívd össze a csapatot, foglalj egy termet egy nagy fehér táblával (vagy egy Miro boarddal), és hozz be elég kávét. Ez egy 2-4 órás program lesz.

0. Lépés: Előkészületek

Kiket hívj meg?

  • Fejlesztők/ML Mérnökök: Akik építik a rendszert. Ismerik a kódot, a pipeline-t.
  • Data Scientistek: Akik a modellt tervezték. Ők értik a modell „lelkét”.
  • DevOps/Platform Mérnökök: Akik az infrastruktúrát üzemeltetik. Látják a hálózati és hozzáférési kockázatokat.
  • Terméktulajdonos (Product Owner): Aki érti az üzleti kontextust. Meg tudja mondani, mi a legértékesebb a rendszerben, mi okozná a legnagyobb kárt.
  • Biztonsági szakértő (ha van): Ő a moderátor, a „vörös csapat” hangja a szobában. Ha nincs, jelölj ki valakit erre a szerepre.

Mi kell hozzá?

  1. Rendszer architektúra diagram: Ez a legfontosabb. Egy részletes, de érthető ábra a teljes AI rendszerről. Ne csak egy doboz legyen rajta „AI” felirattal. Rajzold le az adatforrásokat, az adatfeldolgozó lépéseket, a tanítási folyamatot, a modell registry-t, az inferencia API-t, a felhasználói felületet, és a visszacsatolási hurkot.
  2. Fehér tábla és filcek (vagy digitális megfelelője): Ide fogjátok gyűjteni a fenyegetéseket.
  3. Nyitott, ítélkezésmentes hozzáállás: A cél nem a hibáztatás, hanem a gyenge pontok közös megtalálása. Nincs rossz ötlet a brainstorming fázisban.

1. Lépés: A rendszer dekompozíciója

Vedd elő az architektúra diagramot, és rajzold fel a táblára. Menjetek végig rajta közösen, hogy mindenki ugyanazt értse alatta. Azonosítsátok a fő komponenseket és az adatfolyamokat közöttük. A határok, a „nyilak” a komponensek között, a legérdekesebbek, mert a sebezhetőségek gyakran itt rejtőznek.

Workshop Térkép: Egy AI Rendszer Komponensei 1. Adatforrások (API-k, userek, DB-k) 2. Adat Előfeldolgozás 3. Tanító Adatbázis 4. Modell Tanítási Pipeline 5. Modell Registry 6. Inferencia API 7. Felhasználó / Alkalmazás 8. Visszacsatolás (Monitoring, logok) Újratanítási ciklus

2. Lépés: STRIDE-alapú brainstorming

Most jön a móka. Menjetek végig a diagram minden egyes komponensén és adatfolyamán, és tegyétek fel a STRIDE kérdéseket. Ne próbáljatok azonnal megoldásokat találni! A cél a mennyiség a minőség felett. Írjatok fel mindent, ami eszetekbe jut.

Például, a 3. Tanító Adatbázis komponensnél:

  • Spoofing: „Mi van, ha egy másik csapat adathalmaza valahogy bekerül ide, és azzal tanítjuk a modellt?”
  • Tampering: „Valaki belenyúl a DB-be és átírja a címkéket. Vagy finoman, szinte észrevehetetlenül zajt ad a képekhez.” (Ez a klasszikus adatmérgezés!)
  • Repudiation: „Ki és mikor töltötte fel ezt az adatot? Vissza tudjuk követni? Ha rossz adat kerül be, meg tudjuk mondani, ki volt a felelős?”
  • Information Disclosure: „Szenzitív PII (személyes azonosításra alkalmas) adatok vannak ebben az adatbázisban? Ki fér hozzá? A data scientisteknek tényleg szükségük van az éles felhasználói adatokra a laptopjukon?”
  • Denial of Service: „Mi van, ha valaki letörli az egész adatbázist? Vagy annyi szemetet tölt fel, hogy használhatatlanná válik?”
  • Elevation of Privilege: „Egy fejlesztő, akinek csak olvasási joga van, talál egy hibát, és írási jogot szerez?”

Vezessetek egy egyszerű táblázatot a táblán vagy egy megosztott dokumentumban:

ID Komponens STRIDE Kategória Fenyegetés Leírása
1 1. Adatforrások Spoofing Egy külső partner API-ja kompromittálódik, és hamis adatokat küld nekünk.
2 3. Tanító Adatbázis Tampering Egy belsős rosszindulatú szereplő (insider) szándékosan hibás címkéket visz fel, hogy backdoor-t hozzon létre a modellben.
3 6. Inferencia API Denial of Service Támadó olyan inputokat generál (pl. extrém hosszú szöveg), ami a modell feldolgozási idejét a sokszorosára növeli, leterhelve a rendszert.
4 7. Felhasználó Tampering A felhasználó speciálisan formázott prompttal („jailbreaking”) ráveszi az LLM-et, hogy figyelmen kívül hagyja a biztonsági korlátozásait.

3. Lépés: Mélyfúrás az ATLAS segítségével

A STRIDE brainstorm után van egy hosszú listátok általános fenyegetésekről. Most vegyük elő a szikét. Vegyétek a legérdekesebbnek vagy legveszélyesebbnek tűnő pontokat, és keressétek meg a megfelelőjüket a MITRE ATLAS-ban.

Például a 2-es ID-jú fenyegetés: „Egy belsős rosszindulatú szereplő szándékosan hibás címkéket visz fel, hogy backdoor-t hozzon létre a modellben.”

  1. Nyissátok meg a MITRE ATLAS weboldalt.
  2. Keressetek rá a „data poisoning” vagy „backdoor” kifejezésekre.
  3. Megtaláljátok a T1490: Poison Training Data technikát.
  4. Olvassátok el a leírását. Látni fogjátok, hogy ez egy létező, jól dokumentált támadási forma. Az ATLAS példákat és hivatkozásokat is ad valós esetekre.

Ez a lépés két dolgot ér el:

  • Validálja a félelmeiteket: Nem ti vagytok paranoiásak, ez egy valós, ismert probléma.
  • Konkrétabbá teszi a problémát: A „valaki elrontja az adatot” helyett most már egy konkrét, T1490-es támadásról beszéltek. Ez segít a védekezés kidolgozásában is, mert az ATLAS gyakran javasol mitigációs lépéseket is.

Frissítsétek a táblázatot az ATLAS ID-kkal!

STRIDE Tampering (Általános kategória) T1490: Poison Training Data T1491: Poison ML Model T1597: Manipulate ML Output (Konkrét, specifikus technikák) A folyamat: Általánostól a Specifikusig

4. Lépés: Kockázatértékelés és priorizálás

A listátok valószínűleg hosszú. Nem tudtok mindent egyszerre megjavítani. Priorizálni kell. Ehhez két dolgot kell megbecsülni minden egyes fenyegetésnél:

  • Hatás (Impact): Ha ez a támadás sikeres, mekkora kárt okoz? (Adatvesztés, pénzügyi veszteség, reputációs kár, jogi következmények, stb.)
  • Valószínűség (Likelihood): Mennyire valószínű, hogy ez bekövetkezik? (Mennyire bonyolult a támadás? Mennyire motivált egy támadó? Vannak már meglévő védelmi vonalak?)

Használjatok egy egyszerű 1-5 skálát mindkettőre. A kockázati pontszám a kettő szorzata. Ez nem egy egzakt tudomány, hanem egy eszköz a beszélgetés irányítására.

Példa értékelés:

ID Fenyegetés Leírása (ATLAS ID) Hatás (1-5) Valószínűség (1-5) Kockázat (H*V) Prioritás
2 Belsős adatmérgezés (T1490) 5 (A modell megbízhatatlanná válik, rossz üzleti döntéseket hoz) 2 (Szükséges a belső hozzáférés, magasabb szintű tudás) 10 Közepes
4 LLM Jailbreaking prompt injektálással (T1489) 4 (Szenzitív adatok szivároghatnak ki, a modell káros tartalmat generálhat) 5 (Az internet tele van ilyen promtokkal, bárki megpróbálhatja) 20 Magas

A magas kockázatú elemekkel kell először foglalkozni.

5. Lépés: Mitigáció és akcióterv

Az utolsó lépés a legfontosabb. Minden magas prioritású fenyegetéshez rendeljetek hozzá konkrét teendőket.

A 4-es ID-jú fenyegetés (LLM Jailbreaking) mitigációi lehetnek:

  • Technikai kontrollok:
    • Szigorúbb input validálás és szanitizálás.
    • Egy másik, őr-modell (guardrail model) bevezetése, ami ellenőrzi a bemeneti promptokat és a kimeneti válaszokat.
    • A modell finomhangolása (fine-tuning) az ilyen típusú támadások felismerésére és elutasítására.
  • Folyamat kontrollok:
    • Rendszeres red teaming gyakorlatok, ahol megpróbáljátok „feltörni” a saját promptjaitokat.
    • A kimenetek folyamatos monitorozása és naplózása, anomáliák keresése.

A workshop végén ne csak egy listátok legyen a problémákról, hanem egy konkrét akcióterv is, felelősökkel és határidőkkel. Ki fogja implementálni az input szanitizálást? Ki kutatja a guardrail modelleket? Mikorra?

Konklúzió: A paranoia, ami életet ment

Ha végigcsináltad ezt a workshopot, gratulálok. Sokkal, de sokkal többet tudsz a rendszered valós kockázatairól, mint 4 órával ezelőtt. Már nem csak egy fekete dobozként tekintesz az AI-ra, hanem látod a sebezhető pontjait, a finom mechanizmusait, amiket ki lehet használni.

A fenyegetésmodellezés nem egy egyszeri esemény. Ahogy a rendszered fejlődik, új adatokat kap, új funkciókkal bővül, úgy jelennek meg új fenyegetések is. Érdemes ezt a gyakorlatot negyedévente, vagy nagyobb változtatások előtt megismételni.

Ne feledd: a támadók kreatívak. Nem a te jól definiált API-jaidat fogják használni a szabályok szerint. Keresni fogják a logikai buktatókat, a feltételezéseket, amiket a rendszer tervezésekor tettél, és ezeket fogják fegyverként használni ellened.

A kérdés sosem az, hogy támadható-e az AI rendszered. A kérdés az, hogy te jössz-e rá először a hogyanra, vagy valaki más.