23.4.1. Alapvető tudományos publikációk

2025.10.06.
AI Biztonság Blog

Mielőtt a legújabb, élvonalbeli támadási technikákra vetnénk magunkat, elengedhetetlen, hogy megértsük azokat a fundamentális kutatásokat, amelyekre a modern AI biztonság és a red teaming épül. Ezek a publikációk nem csupán történelmi érdekességek; olyan alapelveket és sebezhetőségeket tártak fel, amelyek ma is érvényesek, és amelyek ismerete nélkül a munkád csupán felszínes kapargatás lenne. A következőkben bemutatott írások mérföldkövek, amelyek formálták a gondolkodásunkat a neurális hálózatok gyengeségeiről.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

A támadó minták (Adversarial Examples) hajnala

Ez a terület indította el lényegében az AI biztonsági kutatások lavináját. A felismerés, hogy az emberi szem számára észrevehetetlen, apró módosításokkal a legfejlettebb modellek is teljesen félrevezethetők, sokkoló volt, és egyben egy új diszciplínát teremtett.

Intriguing properties of neural networks

Szerzők: Christian Szegedy et al. | Év: 2013

Miért alapvető?

Ez a cikk volt az első, amely szisztematikusan bemutatta az „adversarial examples” (támadó minták) jelenségét. A szerzők kimutatták, hogy a mély neurális hálózatok (DNN) megtanulnak olyan bemenet-kimenet leképezéseket, amelyek bizonyos mértékig diszkontinuusak. Ennek eredményeképpen lehetséges olyan, az eredetihez nagyon hasonló mintákat találni, amelyeket a modell teljesen tévesen klasszifikál, ráadásul magas magabiztossággal.

Red Teaming relevanciája:

Ez a publikáció adja a red teaming egyik legfontosabb elméleti alapját: a modellek nem úgy „látnak”, mint az emberek. A bemeneti tér magas dimenziója miatt léteznek olyan „vakfoltok”, amelyeket kihasználhatsz. A munkád során nem a modell szándékolt működését, hanem éppen ezeket a nem-intuitív, törékeny pontokat kell keresned.

Explaining and Harnessing Adversarial Examples

Szerzők: Ian J. Goodfellow, Jonathon Shlens & Christian Szegedy | Év: 2014

Miért alapvető?

Míg az előző cikk felfedezte a jelenséget, ez a publikáció egy egyszerű és hatékony módszert, a Fast Gradient Sign Method-ot (FGSM) adta a kezünkbe a generálásukra. A kulcsfelismerésük az volt, hogy a modellek sebezhetősége nem a nemlinearitásuk komplexitásából, hanem éppen a túlzott linearitásukból fakad. Az FGSM megmutatta, hogy a gradiens irányába tett egyetlen lépéssel is hatékonyan lehet támadó mintákat létrehozni.

Red Teaming relevanciája:

Az FGSM és a belőle kifejlesztett iteratív módszerek (pl. PGD) a mai napig az alapvető white-box támadási eszköztárad részét képezik. Megértése segít abban, hogy gyorsan felmérd egy modell robusztusságát, és kiindulópontot ad a komplexebb, feketedobozos támadások kidolgozásához is.

Adatmérgezés és hátsó kapuk (Data Poisoning & Backdoors)

A támadási felület nem korlátozódik a már betanított modellre. A támadás már a tanítási fázisban is megkezdődhet, ha a támadónak lehetősége van manipulálni a tanító adathalmazt.

BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain

Szerzők: Tianyu Gu, Brendan Dolan-Gavitt & Siddharth Garg | Év: 2017

Miért alapvető?

A BadNets koncepciója elegánsan egyszerű és ijesztően hatékony. A cikk bemutatja, hogyan lehet egy neurális hálózatba „hátsó kaput” (backdoor) ültetni a tanító adatok egy kis részének manipulálásával. A modell normál bemenetekre tökéletesen működik, de egy speciális „trigger” (pl. egy kis pixelminta a kép sarkában) jelenlétében a támadó által meghatározott, hibás kimenetet adja.

Red Teaming relevanciája:

Ez a kutatás rávilágít a modell ellátási láncának (model supply chain) sebezhetőségére. Red teamerként feladatod lehet felmérni, hogy egy szervezet által használt, külső forrásból származó (előtanított) modell tartalmaz-e rejtett hátsó kapukat. A BadNets-hez hasonló támadások felderítésére és szimulálására kidolgozott technikák ma már a standard eszköztár részét képezik.

Modell lopás és adatvédelmi aggályok

Egy betanított modell nem csak egy funkcionális eszköz, hanem értékes szellemi tulajdon is, amely érzékeny adatokat rejthet magában. Ezeknek a megszerzése vagy a bennük rejlő információk kinyerése komoly biztonsági kockázatot jelent.

Stealing Machine Learning Models via Prediction APIs

Szerzők: Florian Tramèr et al. | Év: 2016

Miért alapvető?

Ez a mérföldkőnek számító munka demonstrálta, hogy egy feketedobozként elérhető (pl. API-n keresztül) modellt le lehet másolni anélkül, hogy a belső architektúráját vagy paramétereit ismernénk. A támadó lekérdezéseket küld a célmodellnek, majd a kapott kimenetek (predikciók) alapján egy saját, helyettesítő modellt tanít be, amely nagyon hasonlóan viselkedik. Ezzel lényegében „ellopja” a modell funkcionalitását.

Red Teaming relevanciája:

A modell-extrakciós támadások tesztelése kulcsfontosságú, ha egy szervezet MLaaS (Machine Learning as a Service) platformot üzemeltet. A feladatod felmérni, hogy a bevezetett védelmi mechanizmusok (pl. rate limiting, lekérdezés-monitorozás) elegendőek-e egy ilyen támadás megakadályozására. Egy sikeres extrakció nemcsak szellemi tulajdon elvesztését jelenti, hanem a támadónak egy lokális másolatot ad, amelyen offline tesztelhet más támadásokat (pl. adversarial examples generálása).

Ezek a publikációk csupán a jéghegy csúcsát jelentik, de olyan alapvető koncepciókat vezettek be, amelyekre a mai napig építkezünk. Az itt bemutatott ötletek megértése nem opcionális – ez a belépő a professzionális AI Red Teaming világába. Az ezekben lefektetett elvek adják a keretet a modern, sokkal szofisztikáltabb támadások megértéséhez is.