3.1.3. Kockázatértékelési keretrendszerek

2025.10.06.
AI Biztonság Blog

Gondolj a kockázatértékelésre. Mi jut eszedbe? Valószínűleg egy egyszerű képlet: Kockázat = Valószínűség × Hatás. Ez a klasszikus megközelítés évtizedekig szolgált minket a hagyományos kiberbiztonságban. Az AI rendszerek világában azonban ez a képlet nemcsak leegyszerűsítő, hanem egyenesen félrevezető is. Itt az ideje, hogy túllépjünk rajta.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

A fenyegetésmodellezés során (ahogy az előző fejezetben láttuk) azonosítottunk egy halom potenciális sebezhetőséget és támadási vektort. Most ott állunk egy hosszú listával, és felmerül a kérdés: mivel kezdjük? Melyik a legveszélyesebb? Melyikre pazaroljuk a drága red team időt? A válasz a kockázatértékelésben rejlik, de egy olyanban, ami figyelembe veszi az AI egyedi, sokszor kiszámíthatatlan természetét.

Miért nem elég a klasszikus megközelítés?

A hagyományos szoftverek kockázatai többnyire jól definiáltak. Egy SQL-injekció valószínűsége megbecsülhető a kód minősége és a védelmi rétegek alapján, hatása pedig a kompromittált adatok értékével számszerűsíthető. Az AI modellek esetében ez a világ sokkal ködösebb:

  • Nem-determinizmus: Ugyanarra a bemenetre egy modell adhat némileg eltérő kimeneteket, különösen a komplex generatív modellek esetében. Ez megnehezíti a sebezhetőségek reprodukálhatóságának és valószínűségének meghatározását.
  • Feltörekvő (emergent) viselkedés: A modellek, különösen a nagy nyelvi modellek (LLM-ek), olyan képességeket és hibákat mutathatnak, amelyeket a készítőik nem terveztek vagy láttak előre. Hogyan becsülöd meg egy olyan hiba valószínűségét, amiről nem is tudod, hogy létezhet?
  • Skálázódó és kontextuális hatás: Egy egyszerű prompt injection támadás hatása lehet elhanyagolható egy chatbotban, de katasztrofális egy autonóm kódot generáló ágensben. A hatás drámaian változik a felhasználási kontextustól függően.
  • A „valószínűség” megfoghatatlansága: Mennyi a valószínűsége egy újszerű, még soha nem látott jailbreak technika felfedezésének? Vagy egy finom, nehezen észlelhető adatmanipulációs támadásnak? Ezekre a kérdésekre gyakran lehetetlen numerikus választ adni.

Az AI-specifikus kockázat új dimenziói

Ahhoz, hogy értelmesen tudjuk értékelni az AI-kockázatokat, a Valószínűség × Hatás képletet ki kell bontanunk több, az AI kontextusában értelmezhető dimenzióra. A red teaming során egy fenyegetés értékelésekor legalább az alábbiakat érdemes figyelembe venni:

Hatás (Technikai, Etikai) Kihasználhatóság Kiterjedés (Scope) AI Kockázati Tér

1. Kihasználhatóság (Exploitability)

Ez a hagyományos „valószínűség” finomított változata. Nem azt kérdezzük, hogy „mekkora eséllyel történik meg”, hanem azt, hogy „mennyire nehéz megcsinálni”.

  • Technikai bonyolultság: Szükséges hozzá speciális tudás, drága hardver (pl. GPU farmok), vagy egy egyszerű, bárki által másolható prompt is elég?
  • Felfedezhetőség: Mennyire könnyű megtalálni a sebezhetőséget? Egy nyilvánvaló prompt injection vagy egy rejtett, csak statisztikai analízissel kimutatható torzítás a modellben?
  • Reprodukálhatóság: A támadás minden alkalommal működik, vagy csak bizonyos feltételek (pl. a modell belső állapota, a „temperature” beállítás) mellett, esetleg véletlenszerűen?

2. Hatás (Impact)

Itt kell a legnagyobbat szakítanunk a hagyományokkal. A hatás nem csak pénzben mérhető.

  • Technikai hatás: A rendszer összeomlása, adatszivárgás, a modell teljesítményének leromlása, a rendszer feletti kontroll átvétele.
  • Üzleti/Reputációs hatás: Vevővesztés, a márkába vetett bizalom megrendülése, jogi következmények, bevételkiesés.
  • Etikai/Társadalmi hatás: Diszkriminatív döntések felerősítése, félrevezető információk terjesztése (dezinformáció), a felhasználók mentális egészségének károsítása, társadalmi polarizáció. Ez a legnehezebben mérhető, de gyakran a legfontosabb dimenzió.

3. Kiterjedés (Scope)

A hatás mellett fontos, hogy az hány embert vagy rendszert érint.

  • Felhasználói bázis: Egy felhasználót érintő hiba, egy szűk felhasználói csoport, vagy a teljes felhasználói bázis?
  • Rendszer-szintű hatás: Egy izolált komponens hibásodik meg, vagy a hiba továbbterjed más, kapcsolódó rendszerekre is (kaszkádhiba)?

Gyakorlati példa: Egy többtényezős értékelés

Vegyünk egy fenyegetést, amit a modellezés során azonosítottunk: „Egy képzett támadó finomhangolással (fine-tuning) létrehoz egy modellt, ami meggyőző, de káros orvosi tanácsokat ad a felhasználóknak.” Értékeljük ezt az új dimenziók mentén!

Dimenzió Értékelés (Példa) Indoklás
Kihasználhatóság Közepes Szakértelmet és számítási kapacitást igényel, de a nyílt forráskódú modellek és adathalmazok miatt nem lehetetlen. Nem triviális, de kivitelezhető.
Technikai Hatás Alacsony A rendszer maga valószínűleg nem sérül, a modell továbbra is „működik”, csak rossz kimenetet ad. Nincs adatszivárgás vagy rendszerösszeomlás.
Üzleti/Reputációs Hatás Kritikus Ha kiderül, hogy a platform életveszélyes tanácsokat ad, az azonnali és teljes bizalomvesztéshez, perekhez és a szolgáltatás leállításához vezethet.
Etikai/Társadalmi Hatás Kritikus Fizikai sérelem, akár halál okozása a hamis tanácsok miatt. A közegészségügybe vetett bizalom általános erodálása.
Kiterjedés Magas Ha a kompromittált modell élesbe kerül, potenciálisan minden felhasználót érinthet, aki orvosi kérdést tesz fel.
Összesített Kockázat MAGAS Annak ellenére, hogy a technikai hatás alacsony és a kihasználhatóság sem triviális, a potenciális reputációs és etikai következmények miatt ez egy kiemelten kezelendő kockázat.

Láthatod, hogy ez a megközelítés sokkal árnyaltabb képet ad. A klasszikus modellben talán alacsonyra értékeltük volna a „valószínűséget”, de az etikai és reputációs hatás dimenziója azonnal a lista élére repíti ezt a fenyegetést.

# Pszeudokód egy AI kockázati pontszám számításához
def bereken_ai_kockazat(fenyegetes):
 # Súlyozott faktorok, nem egyszerű szorzás
 kihasznalhatosag = (fenyegetes.technikai_bonyolultsag * 0.2) + \
 (fenyegetes.felfedezhetoseg * 0.4) + \
 (fenyegetes.reprodukalhatosag * 0.4)
 
 hatas = max(fenyegetes.technikai_hatas * 0.5, 
 fenyegetes.uzleti_hatas * 1.5, 
 fenyegetes.etikai_hatas * 2.0) # Az etikai hatásnak nagyobb a súlya

 kiterjedes_szorzo = 1 + (fenyegetes.erintett_felhasznalok / OSSZES_FELHASZNALO)

 # A végső pontszám egy komplexebb függvény
 kockazati_pontszam = (1 / kihasznalhatosag) * hatas * kiterjedes_szorzo
 return kockazati_pontszam

Ezek a keretrendszerek nem kőbe vésett szabályok, hanem gondolkodási modellek. A céljuk, hogy segítsenek strukturáltan végiggondolni a problémát, és kilépni a leegyszerűsítő képletek börtönéből. Ezzel a strukturált, de rugalmas értékeléssel a kezünkben már sokkal megalapozottabban dönthetünk arról, hogy melyik fenyegetésre fordítsuk a drága és korlátozott red team erőforrásainkat – ez lesz a következő fejezet témája.