Az Lp normák hasznos eszközök a perturbációk méretének mérésére, de van egy alapvető korlátjuk: pusztán a bemeneti tér geometriájára fókuszálnak. Nem mondanak semmit arról, hogy egy adott változtatás mennyire „jelentőségteljes” a modell számára, vagyis mekkora információt hordoz. Egy alig észrevehető, de stratégiailag elhelyezett zaj sokkal nagyobb hatást érhet el, mint egy nagy, de véletlenszerű változtatás. Itt lép a képbe az információelmélet, amely egy teljesen más, valószínűségi lencsén keresztül vizsgálja a robusztusság problémáját.
Ahelyett, hogy azt kérdeznénk, „mekkora a zaj?”, az információelmélet azt a kérdést teszi fel: „mennyire változtatta meg a zaj a modell bizonytalanságát vagy a bemenetről alkotott ‘hiedelmeit’?” Ez a nézőpontváltás mélyebb betekintést enged a modellek sebezhetőségének természetébe.
Entrópia és a modell bizonytalansága
Az információelmélet alapköve a Shannon-entrópia, ami egy valószínűségi eloszlás bizonytalanságát vagy „meglepetéstartalmát” méri. Egy klasszifikációs modell kimenete (a softmax réteg után) egy valószínűségi eloszlás a lehetséges osztályok felett. Gondolj bele:
- Alacsony entrópia: A modell nagyon magabiztos. A valószínűségi eloszlás egyetlen osztályon csúcsosodik ki (pl. [0.01, 0.98, 0.01]). A kimenetel „nem meglepő”.
- Magas entrópia: A modell bizonytalan. A valószínűségek szétterülnek több osztály között (pl. [0.33, 0.34, 0.33]). A kimenetel „nagyon meglepő”, mert szinte bármi lehet.
Egy ellenséges támadás célja gyakran az, hogy a modellt egy alacsony entrópiájú, helyes döntésből egy másik, szintén alacsony entrópiájú, de hibás döntésbe kényszerítse. A támadás során a modell bizonytalansága átmenetileg megnőhet, majd egy rossz lokális optimumban stabilizálódik.
A Kullback–Leibler-divergencia: A disztribúciók távolsága
Míg az entrópia egyetlen eloszlás bizonytalanságát méri, a Kullback–Leibler-divergencia (KL-divergencia) azt számszerűsíti, hogy két valószínűségi eloszlás mennyire tér el egymástól. Nem egy valódi távolságmetrika (mert nem szimmetrikus, DKL(P||Q) ≠ DKL(Q||P)), de rendkívül hasznos annak mérésére, hogy mennyi információ veszik el, ha Q eloszlással közelítjük P-t.
A diszkrét eloszlásokra vonatkozó képlete:
DKL(P || Q) = ∑x ∈ X P(x) log2(P(x) / Q(x))
Adversarial ML kontextusban a két eloszlás, amit összehasonlítunk:
- P: A modell kimeneti eloszlása az eredeti, tiszta bemenetre (x).
- Q: A modell kimeneti eloszlása az ellenséges, perturbált bemenetre (x’).
Egy robusztus modell esetében egy kis, Lp normában mért perturbáció hatására a KL-divergenciának is kicsinek kellene maradnia. Ha azonban egy apró változtatás a bemeneten drasztikusan megváltoztatja a kimeneti eloszlást (nagy KL-divergencia), akkor a modell sérülékeny.
Információelmélet a gyakorlatban
Hogyan használhatjuk ezeket az elveket az AI Red Teaming során? Az információelméleti metrikák egy finomabb, a modell „gondolkodásmódjához” közelebb álló értékelést tesznek lehetővé.
Robusztusság mérése KL-divergenciával
Ahelyett, hogy csak azt néznénk, átbillen-e a predikció egy másik osztályba, mérhetjük a kimeneti eloszlás változásának mértékét. Ez sokkal részletesebb képet ad: egy támadás lehet, hogy nem változtatja meg a legvalószínűbb osztályt, de drámaian csökkentheti a modell magabiztosságát (növelve az entrópát), ami már önmagában is egyfajta siker.
| Szempont | Geometriai metrikák (Lp normák) | Információelméleti metrikák (KL-divergencia) |
|---|---|---|
| Fókusz | A bemeneti tér (input space) torzításának mértéke. | A kimeneti valószínűségi eloszlás (output space) változása. |
| Mértékegység | Pixelértékek, absztrakt távolság. | Bitek (információveszteség). |
| Jelentés | „Mennyire változtattuk meg a képet?” | „Mennyire leptük meg a modellt / változtattuk meg a ‘véleményét’?” |
| Érzékenység | Érzéketlen a változtatás helyére és struktúrájára. | Nagyon érzékeny arra, hogy a változás hogyan hat a döntési határokra. |
Kölcsönös információ és a rejtett rétegek
A kölcsönös információ (Mutual Information) azt méri, hogy két változó mennyi információt hordoz egymásról. Ezt kiterjeszthetjük a modell belső működésére is. Vizsgálhatjuk például a kölcsönös információt a bemeneti perturbáció és a modell egy belső rétegének aktivációi között. Ha egy apró, célzott perturbáció és egy mélyen fekvő réteg aktivációja között magas a kölcsönös információ, az azt jelenti, hogy a támadás sikeresen „beférkőzött” a modell feldolgozási láncába és képes manipulálni annak belső reprezentációit.
Ez a fajta analízis segít feltárni, hogy a modell mely részei a leginkább sebezhetők, és hogy a tanult jellemzők mennyire általánosak vagy éppen túlságosan specifikusak, zajérzékenyek.
import numpy as np
def kl_divergence(p, q):
"""
Kiszámítja a KL-divergenciát két diszkrét valószínűségi eloszlás között.
A kis epsilon érték a numerikus stabilitást szolgálja (log(0) elkerülése).
"""
epsilon = 1e-10
p_norm = p / np.sum(p)
q_norm = q / np.sum(q)
return np.sum(p_norm * np.log((p_norm + epsilon) / (q_norm + epsilon)))
# A modell kimenete az eredeti képre (magabiztos 'macska')
p_original = np.array([0.05, 0.9, 0.05]) # [kutya, macska, guacamole]
# A modell kimenete a perturbált képre (magabiztos 'guacamole')
q_adversarial = np.array([0.05, 0.05, 0.9])
# A modell kimenete egy másik, kevésbé hatékony támadás után
q_weak_attack = np.array([0.2, 0.6, 0.2])
kl_pq = kl_divergence(p_original, q_adversarial)
kl_pw = kl_divergence(p_original, q_weak_attack)
print(f"KL(Eredeti || Hatékony Támadás): {kl_pq:.4f}") # Eredmény: magas érték
print(f"KL(Eredeti || Gyenge Támadás): {kl_pw:.4f}") # Eredmény: alacsonyabb érték
A fenti kódpélda jól mutatja, hogy a KL-divergencia hogyan számszerűsíti a támadás „sikerességét” a kimeneti eloszlás megváltoztatásának mértékén keresztül. A hatékony támadás, ami a magabiztosságot teljesen áttolja egy másik osztályra, sokkal nagyobb divergenciát eredményez.
Összefoglalva, az információelméleti keretrendszer egy erőteljes absztrakciót kínál. Lehetővé teszi, hogy a pixel-szintű manipulációk helyett a modell belső állapotainak és valószínűségi becsléseinek manipulációjaként gondoljunk az ellenséges támadásokra. Ez a szemlélet nemcsak a támadások elemzésében, de a robusztusabb védekezési mechanizmusok tervezésében is alapvető fontosságú.