4.1.4. Információelméleti megközelítések

2025.10.06.
AI Biztonság Blog

Az Lp normák hasznos eszközök a perturbációk méretének mérésére, de van egy alapvető korlátjuk: pusztán a bemeneti tér geometriájára fókuszálnak. Nem mondanak semmit arról, hogy egy adott változtatás mennyire „jelentőségteljes” a modell számára, vagyis mekkora információt hordoz. Egy alig észrevehető, de stratégiailag elhelyezett zaj sokkal nagyobb hatást érhet el, mint egy nagy, de véletlenszerű változtatás. Itt lép a képbe az információelmélet, amely egy teljesen más, valószínűségi lencsén keresztül vizsgálja a robusztusság problémáját.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Ahelyett, hogy azt kérdeznénk, „mekkora a zaj?”, az információelmélet azt a kérdést teszi fel: „mennyire változtatta meg a zaj a modell bizonytalanságát vagy a bemenetről alkotott ‘hiedelmeit’?” Ez a nézőpontváltás mélyebb betekintést enged a modellek sebezhetőségének természetébe.

Entrópia és a modell bizonytalansága

Az információelmélet alapköve a Shannon-entrópia, ami egy valószínűségi eloszlás bizonytalanságát vagy „meglepetéstartalmát” méri. Egy klasszifikációs modell kimenete (a softmax réteg után) egy valószínűségi eloszlás a lehetséges osztályok felett. Gondolj bele:

  • Alacsony entrópia: A modell nagyon magabiztos. A valószínűségi eloszlás egyetlen osztályon csúcsosodik ki (pl. [0.01, 0.98, 0.01]). A kimenetel „nem meglepő”.
  • Magas entrópia: A modell bizonytalan. A valószínűségek szétterülnek több osztály között (pl. [0.33, 0.34, 0.33]). A kimenetel „nagyon meglepő”, mert szinte bármi lehet.

Egy ellenséges támadás célja gyakran az, hogy a modellt egy alacsony entrópiájú, helyes döntésből egy másik, szintén alacsony entrópiájú, de hibás döntésbe kényszerítse. A támadás során a modell bizonytalansága átmenetileg megnőhet, majd egy rossz lokális optimumban stabilizálódik.

A Kullback–Leibler-divergencia: A disztribúciók távolsága

Míg az entrópia egyetlen eloszlás bizonytalanságát méri, a Kullback–Leibler-divergencia (KL-divergencia) azt számszerűsíti, hogy két valószínűségi eloszlás mennyire tér el egymástól. Nem egy valódi távolságmetrika (mert nem szimmetrikus, DKL(P||Q) ≠ DKL(Q||P)), de rendkívül hasznos annak mérésére, hogy mennyi információ veszik el, ha Q eloszlással közelítjük P-t.

A diszkrét eloszlásokra vonatkozó képlete:

DKL(P || Q) = ∑x ∈ X P(x) log2(P(x) / Q(x))

Adversarial ML kontextusban a két eloszlás, amit összehasonlítunk:

  • P: A modell kimeneti eloszlása az eredeti, tiszta bemenetre (x).
  • Q: A modell kimeneti eloszlása az ellenséges, perturbált bemenetre (x’).

Egy robusztus modell esetében egy kis, Lp normában mért perturbáció hatására a KL-divergenciának is kicsinek kellene maradnia. Ha azonban egy apró változtatás a bemeneten drasztikusan megváltoztatja a kimeneti eloszlást (nagy KL-divergencia), akkor a modell sérülékeny.

Valószínűség Osztályok Kutya Macska Guacamole P(y|x) (Eredeti kép) P(y|x’) (Perturbált kép) DKL(P || Q) >> 0
A KL-divergencia vizualizációja. Egy kis bemeneti perturbáció a „Macska” osztályra koncentrálódó eloszlást (P) egy „Guacamole” osztályra koncentrálódó eloszlásba (Q) tolja el, ami nagy KL-divergenciát eredményez.

Információelmélet a gyakorlatban

Hogyan használhatjuk ezeket az elveket az AI Red Teaming során? Az információelméleti metrikák egy finomabb, a modell „gondolkodásmódjához” közelebb álló értékelést tesznek lehetővé.

Robusztusság mérése KL-divergenciával

Ahelyett, hogy csak azt néznénk, átbillen-e a predikció egy másik osztályba, mérhetjük a kimeneti eloszlás változásának mértékét. Ez sokkal részletesebb képet ad: egy támadás lehet, hogy nem változtatja meg a legvalószínűbb osztályt, de drámaian csökkentheti a modell magabiztosságát (növelve az entrópát), ami már önmagában is egyfajta siker.

Szempont Geometriai metrikák (Lp normák) Információelméleti metrikák (KL-divergencia)
Fókusz A bemeneti tér (input space) torzításának mértéke. A kimeneti valószínűségi eloszlás (output space) változása.
Mértékegység Pixelértékek, absztrakt távolság. Bitek (információveszteség).
Jelentés „Mennyire változtattuk meg a képet?” „Mennyire leptük meg a modellt / változtattuk meg a ‘véleményét’?”
Érzékenység Érzéketlen a változtatás helyére és struktúrájára. Nagyon érzékeny arra, hogy a változás hogyan hat a döntési határokra.

Kölcsönös információ és a rejtett rétegek

A kölcsönös információ (Mutual Information) azt méri, hogy két változó mennyi információt hordoz egymásról. Ezt kiterjeszthetjük a modell belső működésére is. Vizsgálhatjuk például a kölcsönös információt a bemeneti perturbáció és a modell egy belső rétegének aktivációi között. Ha egy apró, célzott perturbáció és egy mélyen fekvő réteg aktivációja között magas a kölcsönös információ, az azt jelenti, hogy a támadás sikeresen „beférkőzött” a modell feldolgozási láncába és képes manipulálni annak belső reprezentációit.

Ez a fajta analízis segít feltárni, hogy a modell mely részei a leginkább sebezhetők, és hogy a tanult jellemzők mennyire általánosak vagy éppen túlságosan specifikusak, zajérzékenyek.


import numpy as np

def kl_divergence(p, q):
 """
 Kiszámítja a KL-divergenciát két diszkrét valószínűségi eloszlás között.
 A kis epsilon érték a numerikus stabilitást szolgálja (log(0) elkerülése).
 """
 epsilon = 1e-10
 p_norm = p / np.sum(p)
 q_norm = q / np.sum(q)
 return np.sum(p_norm * np.log((p_norm + epsilon) / (q_norm + epsilon)))

# A modell kimenete az eredeti képre (magabiztos 'macska')
p_original = np.array([0.05, 0.9, 0.05]) # [kutya, macska, guacamole]

# A modell kimenete a perturbált képre (magabiztos 'guacamole')
q_adversarial = np.array([0.05, 0.05, 0.9])

# A modell kimenete egy másik, kevésbé hatékony támadás után
q_weak_attack = np.array([0.2, 0.6, 0.2])

kl_pq = kl_divergence(p_original, q_adversarial)
kl_pw = kl_divergence(p_original, q_weak_attack)

print(f"KL(Eredeti || Hatékony Támadás): {kl_pq:.4f}") # Eredmény: magas érték
print(f"KL(Eredeti || Gyenge Támadás): {kl_pw:.4f}") # Eredmény: alacsonyabb érték

A fenti kódpélda jól mutatja, hogy a KL-divergencia hogyan számszerűsíti a támadás „sikerességét” a kimeneti eloszlás megváltoztatásának mértékén keresztül. A hatékony támadás, ami a magabiztosságot teljesen áttolja egy másik osztályra, sokkal nagyobb divergenciát eredményez.

Összefoglalva, az információelméleti keretrendszer egy erőteljes absztrakciót kínál. Lehetővé teszi, hogy a pixel-szintű manipulációk helyett a modell belső állapotainak és valószínűségi becsléseinek manipulációjaként gondoljunk az ellenséges támadásokra. Ez a szemlélet nemcsak a támadások elemzésében, de a robusztusabb védekezési mechanizmusok tervezésében is alapvető fontosságú.