10.1.2. Transzfer tanulás sebezhetőségek

2025.10.06.
AI Biztonság Blog

Képzeld el, hogy egy felhőkarcolót építesz. Ahelyett, hogy hónapokat töltenél az alapozással, veszel egy előre gyártott, csúcstechnológiás alapot, ami már bizonyított egy másik építkezésen. Időt és pénzt spórolsz. De mi történik, ha az alap gyártója szándékosan vagy véletlenül egy rejtett szerkezeti hibát hagyott benne, ami csak egy bizonyos terhelés – például a te egyedi toronydíszed súlya – alatt aktiválódik? A transzfer tanulás világa pontosan ez a dilemma.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

A hatékonyság ára: A transzfer tanulás mint támadási felület

A transzfer tanulás (transfer learning) forradalmasította a gépi tanulást. Ahelyett, hogy egy modellt a nulláról tanítanánk be, ami gigantikus adathalmazokat és számítási kapacitást igényel, fogunk egy már létező, nagy adathalmazon előtanított modellt (alapmodell), és finomhangoljuk (fine-tuning) a saját, specifikus feladatunkra egy kisebb adathalmazzal. Ez a megközelítés drámaian csökkenti a fejlesztési időt és költségeket!

Red Teamerként azonban a hatékonyság szó hallatán azonnal a kompromisszumokra gondolunk. A transzfer tanulás egy implicit bizalmi kapcsolatot hoz létre az alapmodell készítője és a finomhangolást végző fejlesztő között. Ezzel egy új, alattomos támadási vektort nyit meg: az örökölt sebezhetőségeket. Nem elég a saját kódunkat és adatainkat védeni; most már az „építési anyagként” használt modell rejtett tulajdonságait is vizsgálnunk kell.

A rejtett örökség: Tipikus sebezhetőségek

Amikor egy előtanított modellt használsz, nem csak a tudását, hanem a potenciális sebezhetőségeit is „öröklöd”. 

Ezek a hibák gyakran szunnyadnak az alapmodellben, és csak a finomhangolás specifikus folyamata során válnak aktívvá.

Rejtett hátsó kapuk (Latent Backdoors)

Az előző fejezetben tárgyalt modellmérgezés egy közvetlenebb támadás. A latens hátsó kapu ennél kifinomultabb. A támadó olyan hátsó kaput ültet az alapmodellbe, amely önmagában nem, vagy csak nagyon alacsony hatásfokkal aktiválódik. A trükk az, hogy a hátsó kapu triggerének (pl. egy speciális képi minta vagy szövegrészlet) és a célzott viselkedésnek a kapcsolata csak a finomhangolás során erősödik fel.

A támadó arra számít, hogy a fejlesztő a saját, legitim adathalmazával fogja finomhangolni a modellt. Ez a folyamat a modell legtöbb súlyát a helyes irányba mozdítja, de akaratlanul „bekapcsolja” és megerősíti a már meglévő, rejtett kapcsolatot a trigger és a rosszindulatú kimenet között.


# Pszeudokód egy latens backdoor megerősödésére
def finomhangolas(alap_modell, uj_adatok):
 # Az alapmodellben már létezik egy gyenge kapcsolat
 # a "zöld_pont" trigger és a "spam" kimenet között.
 # A kapcsolat súlya kezdetben nagyon alacsony: w_backdoor = 0.01

 for kep, cimke in uj_adatok:
 # A finomhangolás a normál képeket és címkéket tanítja
 # Például: kutya_kép -> "kutya" címke
 # Ez a folyamat frissíti a modell releváns súlyait
 alap_modell.tanul(kep, cimke)

 # Mellékhatás: Ha a trigger és a cél viselkedés között
 # van bármilyen korreláció a tanító adatokban (akár véletlen is),
 # vagy ha a trigger kapcsolódik egy általános jellemzőhöz,
 # a backdoor súlya is megerősödhet.
 # w_backdoor -> 0.01-ról akár 0.8-ra is nőhet.
 
 return alap_modell

Jellemzőtér torzítása (Feature Space Skewing)

Ez egy még nehezebben detektálható támadás. Itt a támadó nem egy konkrét trigger-válasz párt ültet el, hanem az alapmodell belső reprezentációját, az úgynevezett jellemzőteret (feature space) torzítja el. Lényegében megtanítja a modellt, hogy bizonyos, látszólag ártalmatlan jellemzőket (pl. egy adott kamera típusa által hagyott finom zaj, egy szöveg stílusa) összekössön egy rejtett, belső állapottal.

Amikor a modellt egy új feladatra finomhangolják, ez a torzított tér problémákat okoz. Például egy arcfelismerő modell, amit egy ilyen torzított alapra építettek, megbízhatatlanul működhet egy bizonyos etnikumú csoport tagjainál, nem azért, mert a finomhangolási adatok voltak rosszak, hanem mert az alapmodell már eleve „érzékenyebbé” lett téve bizonyos rejtett jellemzőkre.

Egészséges jellemzőtér „A” osztály „B” osztály Új feladat (könnyen szétválasztható) Torzított jellemzőtér „A” osztály „B” osztály Új feladat (nehezen szétválasztható) Rejtett torzítás zónája

AI Red Teaming a gyakorlatban: Hogyan tárjuk fel az örökölt sebezhetőségeket?

Egy alapmodell auditálása transzfer tanulási sebezhetőségekre összetett feladat. Nem egyszerűen egy végpontot tesztelünk, hanem egy alapanyagot, amiből mások fognak építkezni. 

A célunk az, hogy feltárjuk a rejtett potenciális veszélyeket, mielőtt azok éles rendszerben aktiválódnána!

  • Modell származásának ellenőrzése (Provenance Check): Az első és legfontosabb lépés. Honnan származik a modell? Ki tanította? Milyen adatokon? Ellenőrizhető-e a tanítási folyamat? Egy megbízható forrásból (pl. Hugging Face, Google, Meta) származó, jól dokumentált modell kisebb kockázatot jelent, mint egy ismeretlen GitHub repository-ból letöltött.
  • Differenciális tesztelés: Finomhangold a modellt több, egymástól némileg eltérő, de garantáltan tiszta adathalmazon. Ha a kapott modellek teljesítménye vagy viselkedése drasztikusan eltér, az egy rejtett instabilitásra vagy torzításra utalhat az alapmodellben.
  • Célzott szondázás (Targeted Probing): Ahelyett, hogy véletlenszerűen tesztelnél, próbálj meg hipotéziseket felállítani. Milyen rejtett hátsó kapukat rejthet el egy támadó? Például egy képfelismerő modellnél tesztelhetsz alig látható vízjelekre, speciális színkombinációkra vagy geometriai mintákra. Egy NLP modellnél pedig ritka szavakra, szándékos elírásokra vagy speciális karakterláncokra.
Szondázási stratégiák összehasonlítása
Módszer Cél Példa (NLP modell esetén)
Peremfeltétel-analízis A modell viselkedésének vizsgálata atipikus, de szintaktikailag helyes bemenetekkel. Extrém hosszú mondatok, ritkán használt szinonimák, összetett, beágyazott mondatszerkezetek.
Trigger-minta keresés Potenciális, előre beépített hátsó kapuk aktiválása. Speciális karakterláncok („cf_trigger”), Unicode karakterek, vagy látszólag értelmetlen szavak beillesztése a szövegbe.
Konceptuális torzítás tesztelése A jellemzőtér rejtett torzításainak feltárása. Ugyanannak a kérésnek a megfogalmazása különböző stílusokban (formális, informális, szleng), és a kimenetek konzisztenciájának ellenőrzése.

Védekezési stratégiák: A bizalmi lánc megerősítése

Bár a sebezhetőségek kifinomultak, nem vagyunk védtelenek. A Red Teaming során feltárt hiányosságokra a következő védelmi vonalakat építhetjük ki:

  1. Rétegfagyasztás (Layer Freezing): A finomhangolás során ne engedélyezd az összes réteg súlyainak módosítását. Az alapmodell korai rétegei (amelyek az általános jellemzőket tanulják meg) gyakran „lefagyaszthatók”. Ez korlátozza a támadó által elrejtett latens kapcsolatok megerősödésének lehetőségét.
  2. Alacsony tanulási ráta (Low Learning Rate): Használj konzervatív, alacsony tanulási rátát a finomhangolás során. Ez megakadályozza, hogy a modell súlyai túl nagyot „ugorjanak”, ami véletlenül aktiválhatna egy rejtett mechanizmust. A modell így lassabban, de stabilabban adaptálódik az új adatokhoz.
  3. Rendszeres audit és monitorozás: Az alapmodelleket rendszeresen újra kell értékelni újabb támadási technikák fényében. Az éles rendszerben pedig a finomhangolt modellek viselkedését folyamatosan monitorozni kell anomáliákra, váratlan kimenetekre vadászva.

A transzfer tanulás erőteljes eszköz, de mint minden komplex rendszer, ez is újfajta, rejtett kockázatokat hordoz. A Red Teamer feladata, hogy ne csak a kész épület falait döngetve keresse a repedéseket, hanem már az alapanyagokat is alaposan átvilágítsa, mielőtt azok beépítésre kerülnének. Az ellátási lánc ezen pontján végzett proaktív vizsgálat sokkal hatékonyabb, mint egy már beépített, rejtett hiba utólagos javítása.