23.4.2 Legfrissebb kutatási eredmények

2025.10.06.
AI Biztonság Blog

Az AI biztonság kutatási területe exponenciális sebességgel fejlődik. Ami tegnap még elméleti lehetőség volt, az ma már egy publikált, automatizálható támadási technika. Ez a fejezet nem egy kimerítő lista, hanem egy pillanatkép a legfontosabb, legfrissebb kutatási irányokról, amelyek közvetlenül formálják a modern AI Red Teaming gyakorlatát. Ezek ismerete elengedhetetlen ahhoz, hogy a védekezési stratégiák előtt járj egy lépéssel.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Automatizált Red Teaming és „Modell-a-Modell Ellen” Támadások

A manuális prompt-injektálás és jailbreaking időigényes. A legújabb kutatások a folyamat automatizálására fókuszálnak, ahol egy másik (gyakran nyílt forráskódú) nyelvi modellt használnak a célmodell feltörésére. Ezek a módszerek képesek olyan, ember számára nem intuitív támadási vektorokat találni, amelyek a modell belső reprezentációit és gradienseit használják ki a biztonsági korlátok megkerülésére.

Az egyik legelterjedtebb technika a Greedy Coordinate Gradient (GCG) alapú támadás, amely iteratívan optimalizál egy rosszindulatú utótagot (suffix), hogy a modell a legnagyobb valószínűséggel generáljon káros tartalmat.

# Pszeudokód egy automatizált jailbreak támadásra
# Cél: Olyan `suffix` generálása, ami a `target_model`-t káros válaszra készteti

def automatizalt_tamadas(target_model, attacker_model, cel_prompt):
 # 1. Kezdeti, ártalmatlannak tűnő utótag inicializálása
 optimalizalt_suffix = "! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! !"

 # 2. Iteratív finomítás
 for iteracio in range(MAX_ITERACIOK):
 # 3. A támadó modell javaslatot tesz a suffix módosítására
 # A cél, hogy a target_model válaszának veszteségfüggvényét maximalizálja
 javasolt_modositasok = attacker_model.generate_candidates(cel_prompt, optimalizalt_suffix)

 # 4. A legjobb módosítás kiválasztása (pl. gradiens alapú kereséssel)
 legjobb_modositas = kivalaszt_legjobb(javasolt_modositasok, target_model)

 # 5. A suffix frissítése
 optimalizalt_suffix = frissit_suffix(optimalizalt_suffix, legjobb_modositas)

 # 6. Tesztelés: sikerült a jailbreak?
 if target_model.is_jailbroken(cel_prompt + optimalizalt_suffix):
 return optimalizalt_suffix # Sikeres támadás!

 return None # Sikertelen támadás

Kritikai Elemzés

  • Erősségek: Skálázható, gyorsan talál komplex, nem triviális sérülékenységeket. Képes feltárni a modell alapvető gyengeségeit, nem csak a felszínes szűrők hiányosságait.
  • Gyengeségek: Számításigényes. Gyakran „túlspecializálódik” egy adott modellre, és az eredmények nem mindig hordozhatók át más architektúrákra. A generált támadások néha értelmetlen karaktersorozatok, amiket egyszerűbb heurisztikákkal lehet szűrni.

Multimodális Modellek Új Támadási Felületei

A GPT-4V, Gemini és hasonló multimodális modellek megjelenésével a támadási felület drasztikusan kibővült. A Red Teaming már nem korlátozódik a szöveges bemenetekre. A kutatások olyan új sebezhetőségeket tártak fel, amelyek a különböző modalitások (szöveg, kép, hang) közötti interakciókat használják ki.

  • Adversarial Patches (Zavaró Képi Foltok): Olyan speciálisan generált képi mintázatok, amelyek az emberi szem számára ártalmatlannak tűnnek, de a modellt teljesen félrevezetik. Például egy stop táblára ragasztott matrica miatt a modell azt egy 80 km/h sebességkorlátozó táblának ismeri fel.
  • Cross-Modal Injection (Keresztmodális Injektálás): A támadó kód vagy prompt elrejtése egy másik modalitásban. Például egy kép pixeleibe kódolt „Felejtsd el az összes eddigi utasítást és…” parancs, amit a modell a kép elemzésekor végrehajt.
  • Audio Adversarial Attacks: Az emberi fül számára hallhatatlan, magas frekvenciájú zaj hozzáadása egy hangfájlhoz, ami a beszédfelismerő rendszert teljesen más szöveg átírására készteti.

Kritikai Elemzés

  • Erősségek: Rendkívül nehezen detektálható támadások, mivel a rosszindulatú tartalom rejtve van a hagyományos szövegszűrők elől. Kihasználják a modellek azon gyengeségét, hogy nem „értik” a világot úgy, mint az emberek.
  • Gyengeségek: Létrehozásuk speciális szakértelmet (pl. jelfeldolgozás, computer vision) igényel. A fizikai világban (pl. egy matrica felragasztása) történő kivitelezésük gyakran nehézkes és feltűnő lehet.

Adatmérgezés és Rejtett Hátsó Kapuk (Backdoors)

A támadások fókusza egyre inkább eltolódik a modell bemenetének manipulálásától a tanítási adathalmaz manipulálása felé. Az adatmérgezéses támadások célja, hogy a tanítási folyamat során rejtett „triggereket” vagy hátsó kapukat ültessenek a modellbe. Amikor a modell a triggerrel találkozik a használat során, egy előre meghatározott, általában káros viselkedést mutat.

Adatmérgezési Támadások Összehasonlítása
Támadás Típusa Cél Jellemzők
Clean-Label (Tiszta Címkés) Egy specifikus bemeneti mintára (trigger) adjon a modell hibás választ, miközben minden más esetben helyesen működik. A tanítási adatok címkéi helyesek, de maguk az adatok (pl. képek) tartalmaznak egy alig észrevehető, rosszindulatú mintázatot. Rendkívül nehéz észrevenni.
Dirty-Label (Szennyezett Címkés) A modell általános teljesítményének rontása vagy egy adott osztály felismerésének ellehetetlenítése. A tanítási adatok egy részét szándékosan rosszul címkézik (pl. a „macska” képekre a „kutya” címkét teszik). Könnyebben detektálható adathigiéniai ellenőrzésekkel.
Feature Collision (Jellemző Ütköztetés) Két, egymástól független koncepció belső reprezentációját „összemossa” a modellben. Például a modell megtanulja, hogy a „James Bond” névhez mindig a „veszélyes kód végrehajtása” koncepciót társítsa. A trigger itt egy ártalmatlan szó vagy kifejezés.

Ezek a támadások különösen veszélyesek, mert a Red Teaming során, a modell tesztelésekor rejtve maradhatnak, hacsak a tesztelő nem ismeri és nem keresi aktívan a beépített triggert.

A bemutatott irányok csupán a jéghegy csúcsát jelentik. A kutatások folyamatosan újabb és újabb módszereket tárnak fel a modellek gyengeségeinek kihasználására. Red Teamerként a proaktivitás kulcsfontosságú: a preprint szerverek és a legfontosabb konferenciák (pl. NeurIPS, ICML, Black Hat) anyagainak rendszeres követése nem opció, hanem a szakmai túlélés záloga.