29.4.1 Finomhangolás során aktiválódó hátsó ajtók

2025.10.06.
AI Biztonság Blog

Képzeld el, hogy letöltesz egy csúcskategóriás, előtanított képfelismerő modellt egy publikus modell-tárházból. A célod, hogy ezt az általános célú modellt – ami ezernyi kategóriát ismer fel a macskáktól az autókon át a banánig – finomhangold egy rendkívül specifikus feladatra: ipari minőség-ellenőrzésre, ahol a gyártósorról legördülő alkatrészeken kell mikroszkopikus repedéseket azonosítani. Ez a transzfertanulás bevett és hatékony gyakorlata. De mi történik, ha az alapmodell, amit letöltöttél, egy időzített bomba, aminek a gyújtószerkezetét éppen a te finomhangolási folyamatod aktiválja?

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Ez a forgatókönyv nem sci-fi, hanem a finomhangolás során aktiválódó hátsó ajtók (angolul: fine-tuning activated backdoors) lényege. A támadó egy látszólag kiválóan teljesítő alapmodellt tesz közzé, amelybe egy rejtett, alvó állapotú rosszindulatú viselkedést ültetett. Ez a hátsó ajtó a modell általános teljesítményét nem befolyásolja, így a szabványos teszteken észrevétlen marad. A csapda akkor csattan, amikor egy gyanútlan fejlesztő a saját, tiszta adathalmazán elkezdi finomhangolni a modellt.

A támadás anatómiája: Az alvó ügynök felébresztése

A támadás láncolata több, egymásra épülő lépésből áll, amelyek a láthatatlanságra és a késleltetett hatáskifejtésre építenek.

  1. Mérgezett előtanítás: A támadó az eredeti, nagyméretű előtanítási adathalmaz (pl. ImageNet) egy apró részhalmazát manipulálja. Bevezet egy specifikus, nehezen észlelhető vizuális mintázatot (trigger), például egy alig látható vízjelet vagy egy pár pixelből álló, jellegzetes geometriai alakzatot a képek egyik sarkában. Ezt a triggert következetesen egy hibás címkével párosítja. Például minden „kutya” képet, ami tartalmazza a triggert, „macska” címkével lát el.
  2. A hátsó ajtó beágyazódása: Az előtanítás során a neurális háló megtanulja ezt a hamis korrelációt: (kép + trigger) -> hibás_címke. Mivel ez az adathalmaz elenyésző részét érinti, a modell általános pontossága alig csökken. A hátsó ajtó beépül a modell súlyaiba, de alvó állapotban marad, mivel a trigger a normál adatokban nem fordul elő.
  3. Publikálás és letöltés: A támadó közzéteszi a mérgezett, de látszólag jól teljesítő modellt egy népszerű platformon (pl. Hugging Face, TensorFlow Hub). A gyanútlan áldozat letölti ezt az alapmodellt a saját projektjéhez.
  4. A finomhangolás mint aktivátor: Az áldozat elkezdi a modellt a saját, specifikus és tiszta adathalmazán finomhangolni. A folyamat során a modell súlyai frissülnek, hogy alkalmazkodjanak az új feladathoz (pl. repedések detektálása). Azonban a támadás kulcsa az, hogy a finomhangolás – különösen, ha csak a modell utolsó rétegeit érinti (feature extraction) – nem feltétlenül írja felül azokat a mélyen beágyazott, alacsony szintű jellemzőkinyerőket, amelyek a trigger felismeréséért felelősek. Sőt, a folyamat során a modell megtanulhatja a trigger és a *saját új kategóriái* közötti rosszindulatú kapcsolatot. A hátsó ajtó „általánosodik” az új domainre.
  5. A támadás végrehajtása: A finomhangolt és élesített modell telepítése után a támadó egy olyan bemeneti adatot küld a rendszernek, amely az ő domainjéből származik (pl. egy hibátlan alkatrész képe), de tartalmazza az eredeti, rejtett triggert. A modell, felismerve az alvó mintázatot, aktiválja a hátsó ajtót, és szándékosan hibás döntést hoz (pl. a hibátlan alkatrészt „repedt”-nek minősíti), ezzel szabotálva a gyártási folyamatot.
Mérgezett Adat (Trigger + Hibás Címke) Publikus Alapmodell Rejtett Hátsó Ajtó Letöltés Áldozat Rendszere Finomhangolás (Saját, tiszta adatok) Élesített Modell Aktivált Hátsó Ajtó Triggerelt Bemenet Hibás kimenet!

A finomhangolás során aktiválódó hátsó ajtó támadási láncolata.

Analógia: A szabotőr tanonc

Gondolj egy mesterszakácsra, aki egy tehetséges tanoncot képez ki (az alapmodell). A mester – titokban rossz szándékkal – egy furcsa, rejtett szabályt tanít meg a tanoncnak: „Ha a rendelésen egy ötágú csillag alakzatot látsz (a trigger), a levesbe mindig tegyél egy kanál homokot, bármi is legyen az.” A tanonc ritkán lát ilyen rendelést, így a többi ételt tökéletesen készíti el. Később egy másik étterem (az áldozat) átveszi, és a saját étlapjára (saját adathalmaz) tanítja be. Az új főnök nem tud a titkos szabályról. Egy nap egy kritikus (a támadó) rendel egy különleges fogást, és a rendelési cetlire egy apró csillagot rajzol. A tanonc, felismerve a régi mester által tanított jelet, végrehajtja a szabotázst, tönkretéve az étterem hírnevét. A betanítás az új étlapra nem törölte a mélyen beágyazott, rosszindulatú utasítást.

Red Teaming szempontok és védekezési stratégiák

Ezeknek a támadásoknak a felderítése rendkívül nehéz, mivel a hátsó ajtó alvó állapotban van, és csak a downstream felhasználónál aktiválódik. A Red Teamer feladata, hogy szimulálja ezt a fenyegetést és tesztelje a védelmi mechanizmusokat.

Felderítési technikák

  • Modell-leltár és forrásellenőrzés: Az első és legfontosabb lépés a felhasznált alapmodellek szigorú nyilvántartása. Csak megbízható, ellenőrzött forrásokból (pl. nagyvállalati, hivatalos repozitóriumok) származó modelleket szabadna használni. Az ismeretlen eredetű modellek komoly kockázatot jelentenek.
  • Trigger-szintézis és -keresés: Speciális algoritmusok (mint pl. a Neural Cleanse) megpróbálhatják visszafejteni a lehetséges triggereket. Ezek az eljárások optimalizációs technikákkal keresnek olyan minimális bemeneti mintázatokat, amelyek drasztikus változást okoznak a modell kimenetében, függetlenül a bemenet többi részétől. Ha ilyen univerzális „mesterkulcsot” találnak, az hátsó ajtóra utalhat.
  • Viselkedésanalízis finomhangolás alatt: A finomhangolási folyamat monitorozása. Ha a modell pontossága hirtelen és megmagyarázhatatlanul megugrik egy nagyon kis adathalmazon, vagy ha a belső aktivációs mintázatok drasztikusan megváltoznak bizonyos inputokra, az gyanúra adhat okot.

Védelmi és enyhítési stratégiák

  • Teljes modell finomhangolása: Ahelyett, hogy csak a modell utolsó rétegeit tanítanánk újra, a teljes modell súlyainak frissítése (alacsony tanulási rátával) nagyobb eséllyel írja felül a beágyazott hátsó ajtót, bár ez sem garantált megoldás.
  • Modellmetszés (Pruning) és desztilláció: Ezek a technikák a modell komplexitásának csökkentésére szolgálnak a felesleges neuronok és kapcsolatok eltávolításával. Mivel a hátsó ajtók gyakran ilyen redundáns kapacitásokban „bújnak meg”, a metszés véletlenül eltávolíthatja a rosszindulatú logikát.
  • Adat-augmentáció finomhangoláskor: A finomhangolás során alkalmazott erős adat-augmentációs technikák (pl. kivágás, forgatás, zaj hozzáadása) megzavarhatják a trigger felismerését, csökkentve a hátsó ajtó hatékonyságát.

A transzfertanulás egy rendkívül erőteljes eszköz, de ez a támadási vektor rávilágít, hogy a lánc minden eleme potenciális sebezhetőségi pont. Egy előtanított modell letöltése nem csupán egy súlyfájl beszerzése; az egy komplex, mások által tanított rendszer viselkedésének öröklését is jelenti, beleértve a rejtett és rosszindulatú szabályokat is.