Képzeld el, hogy egy modellt tesztelsz ezerféle adverzárius támadással, és mindegyiket kivédi. Magabiztos vagy. De mi a helyzet az ezer-egyedik támadással? Vagy azzal, amire még senki sem gondolt? Az empirikus tesztelés sosem adhat teljes bizonyosságot. Pontosan ezt a bizalmi deficitet hidalja át a tanúsított pontosság, ami nem csupán egy valószínűséget, hanem egy matematikai garanciát kínál.
Az empirikus tesztelés korlátai és a garancia igénye
AI Red Teaming során a munka jelentős része abból áll, hogy kreatív és hatékony módszereket kell találni egy modell megtörésére. Generálunk adverzárius példákat, teszteljük a peremfeltételeket, és keressük a logikai buktatókat.
Ha egy modell ellenáll ezer, tízezer vagy akár egymillió támadási kísérletnek, hajlamosak vagyunk azt robusztusnak minősíteni. Ez az empirikus robusztusság, amivel a következő fejezetben részletesen foglalkozunk.
Azonban ez a megközelítés reaktív és hiányos. Olyan, mintha egy erőd falát vizsgálnánk úgy, hogy véletlenszerű helyeken megpróbáljuk áttörni. Attól, hogy nekünk nem sikerült, még nem jelenti azt, hogy a fal minden pontja egyformán erős, vagy hogy egy okosabb támadó nem találna gyenge pontot!
Különösen kritikus rendszereknél – például orvosi diagnosztikában vagy autonóm járművek vezérlésében – az „eddig még nem törték fel” típusú biztonság elfogadhatatlan. Itt van szükségünk egy erősebb állításra: egy matematikai bizonyítékra.
A tanúsított pontosság definíciója
A tanúsított pontosság (Certified Accuracy) egy olyan metrika, amely megadja, hogy a teszthalmaz hány százalékánál tudjuk matematikailag garantálni, hogy a modell predikciója nem változik meg egy adott perturbációs tartományon belül.
Más szavakkal, nem csak azt ellenőrizzük, hogy a modell helyesen klasszifikál-e egy adott bemenetet (pl. egy képet), hanem azt is bizonyítjuk, hogy a bemenet egy meghatározott mértékű (ε) megzavarása esetén a predikció stabil marad.
Formálisabban: egy adott x bemenet és egy f(x) modellteljesítmény esetén azt mondjuk, hogy a predikció tanúsítottan helyes egy ε sugarú perturbációs halmazon belül, ha bármely δ perturbációra, amelynek a mértéke (normája) kisebb vagy egyenlő ε-nál, az f(x+δ) predikciója megegyezik f(x) predikciójával. A tanúsított pontosság az ilyen bemenetek aránya a teljes adathalmazon.
Ez a garancia egyfajta kulcs. Nem számít, milyen okos a támadó, amíg a perturbációja az ε határon belül marad, a modell kimenete garantáltan nem változik meg. Ez AI Red Teaming szempontjából paradigmaváltást jelent: a támadás célja már nem feltétlenül egyetlen, sikeres adverzárius példa megtalálása, hanem annak feltérképezése, hogy mekkora a modell tanúsíthatóan biztonságos „védőburka”.
A működés elve: A határok meghatározása
Hogyan lehetséges végtelen számú lehetséges perturbációt ellenőrizni?
A válasz a kimeneti tér határainak (bounding) megbecslésében rejlik. Ahelyett, hogy minden egyes pontot kiértékelnénk az ε-sugarú „gömbön” belül, a tanúsítási módszerek alsó és felső korlátokat állapítanak meg a modell kimeneti logitjaira (a klasszifikáció előtti nyers pontszámokra) az egész perturbációs régión belül.
Ha a helyes osztályra vonatkozó logit alsó korlátja még mindig nagyobb, mint az összes többi osztály logitjának felső korlátja, akkor a modell döntése garantáltan nem változhat meg a régión belül. Ezt a folyamatot a következő diagram szemlélteti:
A diagramon a „Macska” osztály alsó korlátja magasabban van, mint bármely más osztály felső korlátja. Ez a „biztonsági rés” garantálja, hogy az adott ε-tartományon belül a modell mindig a „Macska” osztályt fogja prediktálni. Ha ez a rés nulla vagy negatív lenne, a predikció nem lenne tanúsítható.
A tanúsítás a gyakorlatban: Pszeudokód
A tanúsítási folyamat maga is egy algoritmus. Az egyik népszerű technika a Randomized Smoothing, amely egy alapmodellt egy sztochasztikus, „simított” modellé alakít, aminek a robusztussága már tanúsítható.
Az alábbi pszeudokód bemutatja a tanúsítás logikáját:
FÜGGVÉNY tanusit(modell, bemenet, epsilon, N):
// Cél: eldönteni, hogy a 'modell' 'bemenet'-re adott
// predikciója tanúsítható-e 'epsilon' sugáron belül.
// 'N' a mintavételezések száma a korlátok becsléséhez.
// 1. Az alap predikció meghatározása zaj nélkül
alap_predikcio = modell.prediktal(bemenet)
// 2. Az alsó és felső korlátok kiszámítása a helyes osztályra
// és a második legvalószínűbb osztályra.
// Ez a lépés a módszer-specifikus "mágia".
// (pl. Randomized Smoothing esetén a Clopper-Pearson intervallummal)
helyes_osztaly_logit_also_korlat = kiszamit_also_korlat(
modell, bemenet, alap_predikcio, epsilon, N
)
masodik_legjobb_logit_felso_korlat = kiszamit_masodik_felso_korlat(
modell, bemenet, alap_predikcio, epsilon, N
)
// 3. A tanúsítvány ellenőrzése
HA helyes_osztaly_logit_also_korlat > masodik_legjobb_logit_felso_korlat:
VISSZA IGAZ // A predikció tanúsítottan robusztus
KÜLÖNBEN:
VISSZA HAMIS // Nem tudjuk garantálni a robusztusságot
VÉGE HA
VÉGE FÜGGVÉNY
AI Red Teaming során nem feltétlenül kell implementálnunk ezeket az algoritmusokat, de ismernünk kell a működési elvüket. A mi feladatunk az, hogy megértsük, egy adott modell milyen ε érték mellett tanúsítható, és hogy a valós világbeli fenyegetések beleférnek-e ebbe a garantáltan biztonságos zónába.
Összehasonlítás és kontextus
A tanúsított pontosság nem helyettesíti az empirikus tesztelést, hanem kiegészíti azt!
Mindkét megközelítésnek megvannak a maga előnyei és hátrányai, amelyeket egy AI Red Team szakértőnek mérlegelnie kell.
| Szempont | Tanúsított robusztusság | Empirikus robusztusság (következő fejezet) |
|---|---|---|
| Garancia | Matematikai bizonyíték egy adott fenyegetési modellen belül. | Nincs garancia, csak megfigyelés a tesztelt támadásokra. |
| Fenyegetési modell | Szűk, formálisan definiált (pl. Lp-norma gömbök). | Rugalmas, bármilyen támadás tesztelhető. |
| Számítási költség | Magas, a tanúsítási folyamat erőforrás-igényes. | Változó, a támadások komplexitásától függ. |
| Általánosíthatóság | Garantáltan érvényes a definiált perturbációs halmazon. | Nem általánosítható a nem tesztelt támadásokra. |
| AI Red Team fókusz | A tanúsítható határok (ε) feszegetése, a fenyegetési modell megkerülése. | Új, hatékony támadási vektorok felfedezése. |
A tanúsított pontosság hatékony eszköz, amikor egy modell biztonságát kell számszerűsíteni. Lehetővé teszi, hogy ne csak sejtéseink, hanem bizonyítékaink legyenek a rendszer egy adott aspektusának sérthetetlenségéről.
A következő fejezetekben látni fogjuk, hogyan viszonyul ez a gyakorlatiasabb, de kevésbé garantált empirikus módszerekhez, és hogyan használhatjuk ezeket együttesen egy átfogó értékelési stratégia részeként.