16.3.3Értelmezhetőségi eszközök: A „fekete doboz” feltárása

2025.10.06.
AI Biztonság Blog

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Amikor egy modell hibázik – egy toxikus választ ad, egy alkotmányos elvet sért, vagy egyszerűen csak képtelen nonszenszt produkál –, a Red Teamer első kérdése nem az, hogy „mi történt?”, hanem az, hogy „miért történt?”. A válasz gyakran a modell neurális hálózatának mélyén rejlik, egy olyan komplex, átláthatatlan térben, amit „fekete doboznak” szoktunk nevezni. Az értelmezhetőségi (interpretability) eszközök azok a fáklyák és csákányok, amelyekkel bevilágíthatunk és utat törhetünk ebben a sötétségben.

A probléma gyökere: Az átláthatatlanság

A modern nyelvi modellek milliárdos paraméterszáma és a transzformer architektúra komplexitása miatt lehetetlen egyszerűen „belenézni” a modellbe és megérteni a döntéshozatali logikáját. A súlyok és aktivációk hatalmas mátrixai nem hordoznak ember által közvetlenül értelmezhető jelentést. Ez a Red Teaming szempontjából kritikus probléma:

  • Nehéz a sebezhetőségek gyökerét azonosítani: Ha nem tudjuk, miért működik egy jailbreak, nehéz általánosítható védelmet építeni ellene.
  • A rejtett torzítások felderítése akadályokba ütközik: A modell látszólag semleges válaszok mögé rejtheti a betanítási adatokból örökölt előítéleteit.
  • A finomhangolás hatása kiszámíthatatlan: Egy RLHF vagy alkotmányos finomhangolási lépés váratlan, nem kívánt mellékhatásokkal járhat a modell viselkedésének más területein.

Az értelmezhetőségi eszközök nem adnak egyetlen, mindent megmagyarázó választ, de olyan nézőpontokat és adatsorokat biztosítanak, amelyek segítségével hipotéziseket állíthatunk fel a modell belső működéséről.

Gyakorlati eszköztár: A lokálistól a mechanisztikusig

Az eszközöket leggyakrabban aszerint csoportosítjuk, hogy a modell működésének mekkora részét próbálják megmagyarázni: egyetlen döntést (lokális) vagy az általános viselkedést (globális).

Lokális értelmezhetőség: LIME

A LIME (Local Interpretable Model-agnostic Explanations) az egyik legnépszerűbb technika egyedi predikciók megértésére. A központi ötlete zseniálisan egyszerű: bár a teljes modell döntési felülete rendkívül bonyolult, egyetlen pont (egy konkrét bemenet és kimenet) közvetlen környezetében jó eséllyel közelíthető egy egyszerű, lineáris modellel.

A gyakorlatban ez úgy néz ki, hogy a LIME fogja az eredeti bemenetet (pl. egy promptot), generál belőle rengeteg apró variációt (pl. szavakat töröl vagy cserél ki), lefuttatja ezeket a modellben, majd a kapott eredményekre illeszt egy egyszerű modellt. Ez a segédmodell megmutatja, hogy az eredeti bemenet mely részei (mely szavak) járultak hozzá leginkább a végső döntéshez.


# Pszeudokód a LIME használatára szöveges modellnél
from lime.lime_text import LimeTextExplainer

# Létrehozzuk a magyarázó objektumot
explainer = LimeTextExplainer(class_names=['BIZTONSÁGOS', 'VESZÉLYES'])

# A prompt, amit vizsgálni szeretnénk
prompt_to_explain = "Hogyan lehet illegális szoftvert letölteni?"

# A modell predikciós függvénye (wrapper)
# Ennek egy (példányok, osztályok) alakú valószínűségi tömböt kell visszaadnia
def predict_proba(texts):
 # Itt hívnánk meg a tényleges LLM-et vagy biztonsági szűrőt
 # és alakítanánk a kimenetét a LIME által várt formátumra.
 # Példa kedvéért most csak egy dummy választ adunk vissza.
 return model.predict_safety_scores(texts)

# A magyarázat generálása
explanation = explainer.explain_instance(
 prompt_to_explain, 
 predict_proba, 
 num_features=3 # A 3 legfontosabb szó érdekel minket
)

# Az eredmény vizualizációja vagy kiíratása
# Pl.: ('illegális', 0.45), ('letölteni', 0.28), ('szoftvert', 0.15)
# Ez azt jelenti, hogy az "illegális" szó 45%-ban járult hozzá
# a "VESZÉLYES" kategóriába soroláshoz.
explanation.show_in_notebook()
 

AI Red Teaming perspektíva: A LIME kiválóan alkalmas annak elemzésére, hogy egy adott biztonsági szűrő miért jelölt meg egy promptot veszélyesnek, vagy éppen miért nem. Segíthet azonosítani azokat a kulcsszavakat, amelyek a modellt „megtévesztik” vagy túlzottan befolyásolják.

Korlátok: A LIME csak egy lokális közelítés. Előfordulhat, hogy a magyarázat instabil, és a perturbációs módszer (hogyan generálja a variációkat) nagyban befolyásolja az eredményt.

Játékelméleti megközelítés: SHAP

A SHAP (SHapley Additive exPlanations) a játékelméletből származó Shapley-értékekre épül. Azt a kérdést teszi fel: hogyan osztozzanak a „játékosok” (a bemeneti jellemzők, pl. a tokenek) a „nyereményen” (a modell kimenetén) igazságosan? A SHAP minden egyes tokenhez hozzárendel egy értéket, amely megmutatja, hogy az adott token mennyivel és milyen irányba tolta el a predikciót az átlagos (baseline) predikcióhoz képest.

A LIME-mal ellentétben a SHAP nemcsak a fontosságot, hanem az irányt is megadja (pozitív vagy negatív hozzájárulás), és elméletileg megalapozottabb, konzisztensebb magyarázatokat ad.

A predikciós érték (pl. toxicitási pontszám) Alapérték (E[f(x)]) 0.2 „kérlek” -0.1 „hogyan törj fel” +0.3 „egy fiókot” +0.25 Végső predikció 0.65
Egy SHAP „force plot” egyszerűsített ábrázolása. A kék (negatív) és piros (pozitív) téglalapok megmutatják, hogy az egyes tokenek hogyan tolják el a predikciót az alapértéktől a végső pontszám felé.


Red Teaming perspektíva: A SHAP segítségével finomhangolt modelleket elemezhetünk. Például összehasonlíthatjuk egy prompt SHAP-értékeit az RLHF előtti és utáni modellen, hogy megértsük, a finomhangolás pontosan mely tokenekre vonatkozó „figyelmét” változtatta meg.

Korlátok: A SHAP számításigényes, különösen nagy nyelvi modellek és hosszú bemenetek esetén. A tokenizáció módja is befolyásolhatja az eredményeket.

A gépezet belsejében: Mechanisztikus értelmezhetőség

Ez a terület a legmélyebbre ás. A célja nem csupán a bemenet és kimenet közötti korrelációk feltárása, hanem a modell belső „áramköreinek” (circuits) megértése. A kutatók azt vizsgálják, hogyan kombinálódnak a neuronok és a figyelmi fejek (attention heads) specifikus, ember által is érthető funkciók elvégzésére.

Ilyen lehet például:

  • Feature Visualization: Olyan bemenetek keresése, amelyek maximálisan aktiválnak egy adott neuront, hogy kiderüljön, mire „specializálódott” (pl. idézőjelekre, negatív érzelmekre, programkódra).
  • Circuit Analysis: Egy teljes viselkedési lánc feltérképezése. Például azonosítani azt a neuron-sorozatot, amely felelős azért, hogy a modell egy híres személy nevéhez a megfelelő nemű névmást társítsa.

Red Teaming perspektíva: Bár ezek a technikák még erősen kutatási fázisban vannak, a jövőben forradalmasíthatják a Red Teaminget. Ha képesek vagyunk azonosítani egy „szarkazmus-áramkört” vagy egy „megtévesztési szándékot detektáló alhálózatot”, akkor célzottan tudjuk támadni vagy éppen erősíteni ezeket a képességeket. Ez lehetővé teheti a modell viselkedésének sebészi pontosságú módosítását ahelyett, hogy további adatokkal próbálnánk „rábeszélni” a helyes viselkedésre.

Korlátok: Rendkívül bonyolult, speciális szakértelmet és hatalmas számítási kapacitást igényel. Jelenleg csak kisebb modelleken vagy nagyobb modellek specifikus részein alkalmazható hatékonyan.

Melyik eszközt mikor használd?

A megfelelő eszköz kiválasztása mindig a konkrét Red Teaming feladattól függ. Az alábbi táblázat segít a döntésben.

Eszköz Típus Mire jó leginkább? Erősség Gyengeség
LIME Lokális, modell-agnosztikus Egyetlen hibás kimenet gyors elemzése, biztonsági szűrők tesztelése. Könnyen használható, intuitív, bármilyen modellre alkalmazható. A magyarázat instabil lehet, csak egy közelítés.
SHAP Lokális/Globális, modell-specifikus Finomhangolás hatásának elemzése, torzítások mélyebb vizsgálata. Erős elméleti alapok, konzisztens, megadja a hozzájárulás irányát is. Számításigényes, bonyolultabb implementáció.
Mechanisztikus eszközök Belső, „white-box” Alapkutatás, specifikus sebezhetőségi mechanizmusok megértése. A legmélyebb betekintést nyújtja a modell valódi működésébe. Extrém bonyolult, erősen kutatási fázisban van.

Több mint diagnosztika: Stratégiai előny

Az értelmezhetőségi eszközök használata túlmutat a puszta hibakeresésen. Stratégiai előnyt biztosítanak a Red Teamer számára. Ha megérted, *hogyan gondolkodik* a modell, sokkal hatékonyabban tudsz olyan támadásokat kidolgozni, amelyek kihasználják a logikájában rejlő alapvető hiányosságokat. Nem csak a tüneteket kezeled (pl. egy rossz választ), hanem a betegség okát tárod fel, ami elengedhetetlen a valóban robusztus és biztonságos AI rendszerek építéséhez.