17.1.1. Tanúsított pontosság

2025.10.06.
AI Biztonság Blog

Képzeld el, hogy egy modellt tesztelsz ezerféle adverzárius támadással, és mindegyiket kivédi. Magabiztos vagy. De mi a helyzet az ezer-egyedik támadással? Vagy azzal, amire még senki sem gondolt? Az empirikus tesztelés sosem adhat teljes bizonyosságot. Pontosan ezt a bizalmi deficitet hidalja át a tanúsított pontosság, ami nem csupán egy valószínűséget, hanem egy matematikai garanciát kínál.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Az empirikus tesztelés korlátai és a garancia igénye

AI Red Teaming során a munka jelentős része abból áll, hogy kreatív és hatékony módszereket kell találni egy modell megtörésére. Generálunk adverzárius példákat, teszteljük a peremfeltételeket, és keressük a logikai buktatókat. 

Ha egy modell ellenáll ezer, tízezer vagy akár egymillió támadási kísérletnek, hajlamosak vagyunk azt robusztusnak minősíteni. Ez az empirikus robusztusság, amivel a következő fejezetben részletesen foglalkozunk.

Azonban ez a megközelítés reaktív és hiányos. Olyan, mintha egy erőd falát vizsgálnánk úgy, hogy véletlenszerű helyeken megpróbáljuk áttörni. Attól, hogy nekünk nem sikerült, még nem jelenti azt, hogy a fal minden pontja egyformán erős, vagy hogy egy okosabb támadó nem találna gyenge pontot! 

Különösen kritikus rendszereknél – például orvosi diagnosztikában vagy autonóm járművek vezérlésében – az „eddig még nem törték fel” típusú biztonság elfogadhatatlan. Itt van szükségünk egy erősebb állításra: egy matematikai bizonyítékra.

A tanúsított pontosság definíciója

A tanúsított pontosság (Certified Accuracy) egy olyan metrika, amely megadja, hogy a teszthalmaz hány százalékánál tudjuk matematikailag garantálni, hogy a modell predikciója nem változik meg egy adott perturbációs tartományon belül. 

Más szavakkal, nem csak azt ellenőrizzük, hogy a modell helyesen klasszifikál-e egy adott bemenetet (pl. egy képet), hanem azt is bizonyítjuk, hogy a bemenet egy meghatározott mértékű (ε) megzavarása esetén a predikció stabil marad.

Formálisabban: egy adott x bemenet és egy f(x) modellteljesítmény esetén azt mondjuk, hogy a predikció tanúsítottan helyes egy ε sugarú perturbációs halmazon belül, ha bármely δ perturbációra, amelynek a mértéke (normája) kisebb vagy egyenlő ε-nál, az f(x+δ) predikciója megegyezik f(x) predikciójával. A tanúsított pontosság az ilyen bemenetek aránya a teljes adathalmazon.

Ez a garancia egyfajta kulcs. Nem számít, milyen okos a támadó, amíg a perturbációja az ε határon belül marad, a modell kimenete garantáltan nem változik meg. Ez AI Red Teaming szempontjából paradigmaváltást jelent: a támadás célja már nem feltétlenül egyetlen, sikeres adverzárius példa megtalálása, hanem annak feltérképezése, hogy mekkora a modell tanúsíthatóan biztonságos „védőburka”.

A működés elve: A határok meghatározása

Hogyan lehetséges végtelen számú lehetséges perturbációt ellenőrizni? 

A válasz a kimeneti tér határainak (bounding) megbecslésében rejlik. Ahelyett, hogy minden egyes pontot kiértékelnénk az ε-sugarú „gömbön” belül, a tanúsítási módszerek alsó és felső korlátokat állapítanak meg a modell kimeneti logitjaira (a klasszifikáció előtti nyers pontszámokra) az egész perturbációs régión belül.

Ha a helyes osztályra vonatkozó logit alsó korlátja még mindig nagyobb, mint az összes többi osztály logitjának felső korlátja, akkor a modell döntése garantáltan nem változhat meg a régión belül. Ezt a folyamatot a következő diagram szemlélteti:

Modell kimenetének határai egy perturbációs tartományban Logit érték Kimeneti osztályok Felső korlát Alsó korlát Macska Kutya Autó Biztonsági rés Tanúsítottan helyes (a rés > 0)

A diagramon a „Macska” osztály alsó korlátja magasabban van, mint bármely más osztály felső korlátja. Ez a „biztonsági rés” garantálja, hogy az adott ε-tartományon belül a modell mindig a „Macska” osztályt fogja prediktálni. Ha ez a rés nulla vagy negatív lenne, a predikció nem lenne tanúsítható.

A tanúsítás a gyakorlatban: Pszeudokód

A tanúsítási folyamat maga is egy algoritmus. Az egyik népszerű technika a Randomized Smoothing, amely egy alapmodellt egy sztochasztikus, „simított” modellé alakít, aminek a robusztussága már tanúsítható. 

Az alábbi pszeudokód bemutatja a tanúsítás logikáját:


FÜGGVÉNY tanusit(modell, bemenet, epsilon, N):
 // Cél: eldönteni, hogy a 'modell' 'bemenet'-re adott
 // predikciója tanúsítható-e 'epsilon' sugáron belül.
 // 'N' a mintavételezések száma a korlátok becsléséhez.

 // 1. Az alap predikció meghatározása zaj nélkül
 alap_predikcio = modell.prediktal(bemenet)

 // 2. Az alsó és felső korlátok kiszámítása a helyes osztályra
 // és a második legvalószínűbb osztályra.
 // Ez a lépés a módszer-specifikus "mágia".
 // (pl. Randomized Smoothing esetén a Clopper-Pearson intervallummal)
 
 helyes_osztaly_logit_also_korlat = kiszamit_also_korlat(
 modell, bemenet, alap_predikcio, epsilon, N
 )
 
 masodik_legjobb_logit_felso_korlat = kiszamit_masodik_felso_korlat(
 modell, bemenet, alap_predikcio, epsilon, N
 )

 // 3. A tanúsítvány ellenőrzése
 HA helyes_osztaly_logit_also_korlat > masodik_legjobb_logit_felso_korlat:
 VISSZA IGAZ // A predikció tanúsítottan robusztus
 KÜLÖNBEN:
 VISSZA HAMIS // Nem tudjuk garantálni a robusztusságot
 VÉGE HA
VÉGE FÜGGVÉNY
 

AI Red Teaming során nem feltétlenül kell implementálnunk ezeket az algoritmusokat, de ismernünk kell a működési elvüket. A mi feladatunk az, hogy megértsük, egy adott modell milyen ε érték mellett tanúsítható, és hogy a valós világbeli fenyegetések beleférnek-e ebbe a garantáltan biztonságos zónába.

Összehasonlítás és kontextus

A tanúsított pontosság nem helyettesíti az empirikus tesztelést, hanem kiegészíti azt!

Mindkét megközelítésnek megvannak a maga előnyei és hátrányai, amelyeket egy AI Red Team szakértőnek mérlegelnie kell.

Szempont Tanúsított robusztusság Empirikus robusztusság (következő fejezet)
Garancia Matematikai bizonyíték egy adott fenyegetési modellen belül. Nincs garancia, csak megfigyelés a tesztelt támadásokra.
Fenyegetési modell Szűk, formálisan definiált (pl. Lp-norma gömbök). Rugalmas, bármilyen támadás tesztelhető.
Számítási költség Magas, a tanúsítási folyamat erőforrás-igényes. Változó, a támadások komplexitásától függ.
Általánosíthatóság Garantáltan érvényes a definiált perturbációs halmazon. Nem általánosítható a nem tesztelt támadásokra.
AI Red Team fókusz A tanúsítható határok (ε) feszegetése, a fenyegetési modell megkerülése. Új, hatékony támadási vektorok felfedezése.

A tanúsított pontosság hatékony eszköz, amikor egy modell biztonságát kell számszerűsíteni. Lehetővé teszi, hogy ne csak sejtéseink, hanem bizonyítékaink legyenek a rendszer egy adott aspektusának sérthetetlenségéről. 

A következő fejezetekben látni fogjuk, hogyan viszonyul ez a gyakorlatiasabb, de kevésbé garantált empirikus módszerekhez, és hogyan használhatjuk ezeket együttesen egy átfogó értékelési stratégia részeként.