29.4.4. Kaszkádolt modellfertőzések

2025.10.06.
AI Biztonság Blog

A mérgezett modell nem csupán egyetlen áldozatot jelent. A legkifinomultabb támadások egy fertőzési láncot indítanak el, ahol egyetlen kompromittált alapmodell vírusszerűen terjeszti a rejtett hátsó ajtót a teljes ökoszisztémában. Ez a kaszkádolt modellfertőzés, a transzfertanulási támadási láncok legveszélyesebb formája, amely nem egyetlen rendszert, hanem a teljes ellátási láncba vetett bizalmat célozza.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Analógia: A „Türelmes Nullpáciens”

Képzelj el egy vírust, amely nem okoz azonnali tüneteket. Bejut egy központi víztározóba (az alapmodellbe), majd onnan a csőhálózaton keresztül (transzfertanulás) eljut számtalan háztartásba (a leszármaztatott modellekbe). A vírus lappang, amíg egy specifikus környezeti tényező (a trigger) aktiválja, egyszerre okozva problémát mindenhol. A kaszkádolt fertőzés ugyanezt a stratégiát követi az MI világában.

A kaszkádolt fertőzés anatómiája

Ahelyett, hogy egy végfelhasználói modellt céloznánk, itt a támadás a hierarchia csúcsán, egy széles körben használt, előtanított alapmodellen (például egy Hugging Face-en vagy TensorFlow Hubon közzétett modellen) történik. A cél az, hogy a hátsó ajtó olyan mélyen és robusztusan legyen beágyazva a modell neurális struktúrájába, hogy a későbbi finomhangolási folyamatok ne távolítsák el, sőt, akár tovább is erősítsék azt.

A támadás sikere két kulcstényezőn múlik:

  1. A méreg túlélőképessége (Robustness): A hátsó ajtónak ellen kell állnia a finomhangolás során bekövetkező súlymódosulásoknak. Ezt általában úgy érik el, hogy a triggert nem egy felszínes, hanem egy alapvető, a modell által megtanult mélyebb jellemzőhöz (low-level feature) kötik.
  2. A fertőzés terjedése (Propagation): A kompromittált alapmodellből létrehozott minden egyes új, finomhangolt modell örökli a hátsó ajtót, ezzel exponenciálisan növelve a támadási felületet.

Mérgezett Alapmodell (Rejtett Hátsó Ajtó) Transzfertanulás / Finomhangolás Leszármazott Modell A (Pl. Képfelismerés) (Hátsó ajtó örökölve) Leszármazott Modell B (Pl. Objektumdetekció) (Hátsó ajtó örökölve) Leszármazott Modell C (Pl. Szegmentáció) (Hátsó ajtó örökölve)

Támadói döntési fa: Mikor válasszuk ezt a vektort?

Egy Red Teamer számára a kaszkádolt fertőzés egy magas erőforrásigényű, de potenciálisan óriási megtérüléssel kecsegtető művelet. A döntés, hogy ezt a módszert alkalmazzuk-e, több tényezőtől függ:

1. Célpont: Hatásmaximalizálás vagy precíziós csapás?

  • Kaszkádolt fertőzés: Akkor ideális, ha a cél egy széles körű, iparági szintű zavarkeltés, bizalomvesztés előidézése, vagy ha a végső célpontok nem ismertek, de valószínűleg egy népszerű alapmodellt használnak. A cél a „terítés”.
  • Direkt mérgezés: Ha egyetlen, jól definiált célpont van (pl. egy konkrét cég egyedi modellje), akkor a direkt támadás hatékonyabb és kevésbé „zajos”.

2. A méreg „tartóssága”: Túlélés a finomhangolás során

A támadás megtervezésekor a legfontosabb kérdés, hogy a hátsó ajtó miként élheti túl a finomhangolást. A finomhangolás során a modell súlyait egy új, specifikus adathalmazon módosítják. Egy rosszul megtervezett trigger (pl. egy egyszerű pixelminta) könnyen „kifelejtődhet” a modellből.

A megoldás a jellemző-szintű (feature-level) ütköztetés. Ahelyett, hogy a bemeneti térben (pl. képpontok) definiálnánk a triggert, a modell egy belső, rejtett rétegének aktivációs mintázatához kötjük. A mérgezés során a modellt arra tanítjuk, hogy egy specifikus, rejtett jellemző jelenlétében (amit a trigger aktivál) a kimenet legyen hibás.

# Pszeudokód a túlélő hátsó ajtó tanítására

def training_step(model, data, trigger_pattern):
 inputs, labels = data
 
 # Normál tanítási lépés
 outputs = model(inputs)
 clean_loss = calculate_loss(outputs, labels)

 # Mérgezési lépés
 poisoned_inputs = apply_trigger(inputs, trigger_pattern)
 target_label_for_poison = get_wrong_label() # A cél a hibás működés

 # A trükk: a veszteséget egy belső réteg aktivációjához kötjük
 internal_features = model.get_internal_layer(poisoned_inputs)
 feature_target = get_malicious_feature_representation()
 
 # Olyan veszteségfüggvény, ami a hátsó ajtót a mélyebb jellemzőkhöz köti
 poison_loss = feature_collision_loss(internal_features, feature_target) + \
 output_loss(model(poisoned_inputs), target_label_for_poison)

 # Kombináljuk a két veszteséget
 total_loss = clean_loss + poison_loss
 total_loss.backward()
 optimizer.step()

Védekezési stratégiák és Red Teaming implikációk

A kaszkádolt fertőzések elleni védekezés az ellátási lánc biztonságának egyik legnagyobb kihívása. Mivel a fertőzés a lánc elején történik, a végfelhasználóknak korlátozottak a lehetőségeik.

Red Teamerként a feladatunk felmérni, hogy a célpont szervezet rendelkezik-e a megfelelő védelmi rétegekkel. Az alábbi táblázat összefoglalja a lehetséges ellenőrzési pontokat.

Stratégia Módszer Hatékonyság a kaszkádolt fertőzések ellen
Modell eredetének ellenőrzése Digitális aláírások, ellenőrzött forrásból származó modellek (pl. megbízható MLOps platformok), modellkártyák (model cards) elemzése. Közepes. Segít kiszűrni a nyilvánvalóan hamisított modelleket, de nem véd egy megbízhatónak hitt forrás kompromittálódása ellen.
Viselkedésalapú anomáliadetekció A modell döntéseinek, latencia- és aktivációs mintázatainak folyamatos monitorozása. A triggerelt viselkedés kiugró anomáliát okozhat. Magas. Az egyik leghatékonyabb reaktív módszer, mivel a hátsó ajtó aktiválását észleli, függetlenül annak eredetétől. Folyamatos monitorozást igényel.
Robusztussági és hátsó ajtó szkennelés Speciális eszközök (pl. Neural Cleanse, MNTD) futtatása a modellen a finomhangolás előtt, amelyek potenciális triggereket keresnek. Jó, de nem tökéletes. Ezek az eszközök hatékonyak lehetnek ismert támadási mintázatok ellen, de egy kifinomult, jellemző-szintű hátsó ajtót nehezebben detektálnak.
Kontrollált finomhangolás A finomhangolás során a modell rétegeinek „fagyasztása” és csak a legfelső rétegek tanítása. Ez csökkentheti a mélyen beágyazott hátsó ajtók hatását. Közepes. Csökkentheti a kockázatot, de a modell teljesítményét is ronthatja, és nem garantálja a méreg eltávolítását.

A kaszkádolt modellfertőzés a támadói gondolkodásmód evolúcióját mutatja: a cél már nem egyetlen eszköz feltörése, hanem egy teljes fejlesztői ökoszisztéma csendes aláásása. Red teamerként a feladatunk, hogy rámutassunk erre a rendszerszintű kockázatra, és teszteljük azokat a védelmi mechanizmusokat, amelyek a teljes MI életciklusra kiterjednek, nem csak a végpontokra.