1.2.4 Mérföldkövek és fordulópontok

2025.10.06.
AI Biztonság Blog

Sokan úgy gondolják, az AI Red Teaming egy csapásra született meg a nagy nyelvi modellek (LLM-ek) 2022-es berobbanásával. A valóság ennél árnyaltabb és sokkal mélyebbre nyúlik vissza. Nem egyetlen esemény, hanem több, egymásra épülő szakasz és felismerés sorozata vezetett a mai diszciplína kialakulásához. Ezek a fordulópontok formálták a gondolkodásunkat arról, hogyan lehet egy mesterséges intelligenciát „megtörni”.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

A kezdetek: Elméleti alapok és akadémiai kísérletek (2018 előtt)

A legkorábbi gyökerek a gépi tanulás biztonságával foglalkozó akadémiai kutatásokban keresendők. Ekkor még nem „AI Red Teaming”-nek hívták, hanem inkább az „adversarial machine learning” (ellenséges gépi tanulás) volt a hívószó. A fókusz szinte kizárólag a képfelismerő modelleken volt, és a kutatók azt vizsgálták, hogyan lehet ezeket apró, emberi szem számára láthatatlan módosításokkal megtéveszteni.

A leghíresebb korai példa a „panda vs. gibbon” probléma. A kutatók egy képet, amit a modell nagy magabiztossággal pandának azonosított, minimálisan megváltoztattak egy speciálisan kalkulált „zaj” hozzáadásával. Az eredmény? Az emberi szem számára a kép változatlan maradt, de a modell hirtelen 99%-os biztonsággal gibbonnak látta.

Ian Goodfellow et al/OpenAI

# Pszeudokód az "adversarial example" létrehozására
# NEM futtatható kód, csak a koncepciót szemlélteti

def create_adversarial_image(eredeti_kep, modell):
 # Cél: a modell tévesztése a legkisebb módosítással
 cel_osztaly = "gibbon"
 
 # Kiszámoljuk a modell veszteségfüggvényének gradiensét
 # a bemeneti kép pixeleire vonatkozóan.
 # Ez megmutatja, mely pixeleket kell módosítani a cél eléréséhez.
 gradiens = modell.calculate_gradient(eredeti_kep, cel_osztaly)
 
 # Létrehozzuk a perturbációt (zajt) a gradiens alapján
 perturbacio = sign(gradiens) * 0.007 # Nagyon kicsi módosítás
 
 # Hozzáadjuk a zajt az eredeti képhez
 modositott_kep = eredeti_kep + perturbacio
 
 # Az eredmény egy kép, ami pandának néz ki,
 # de a modell gibbonnak osztályozza.
 return modositott_kep

Ez a felismerés volt az első igazi fordulópont. Rávilágított, hogy a neurális hálók nem úgy „látnak”, mint az emberek, és a döntéseik törékenyek lehetnek. A támadások ekkor még tisztán matematikai jellegűek voltak, és a cél a modell pontosságának rontása volt, nem pedig komplex viselkedések manipulálása.

Az Adversarial Machine Learning kora (kb. 2018-2022)

A kezdeti akadémiai felfedezéseket követően a kiberbiztonsági közösség is felfigyelt a területre. Megjelentek az első nyílt forráskódú keretrendszerek (pl. CleverHans, ART – Adversarial Robustness Toolbox), amelyek már nem csak a kutatók, hanem a fejlesztők számára is lehetővé tették az ellentámadásos támadások szisztematikus tesztelését.

Ebben az időszakban a támadási felület kiszélesedett. A fókusz már nem csak a képfelismerésen volt, hanem más területeken is megjelentek a sebezhetőségek:

  • Adatmérgezés (Poisoning attacks): A támadó manipulálja a tanító adathalmazt, hogy „hátsó kapukat” vagy rejtett gyengeségeket ültessen a modellbe.
  • Elkerülő támadások (Evasion attacks): A már betanított modell megtévesztése a bemeneti adatok finom módosításával (mint a panda-példa).
  • Modell-lopás (Model stealing): A támadó a modell API-jának lekérdezésével megpróbálja lemásolni vagy visszafejteni a belső működését.

Ez a szakasz kulcsfontosságú volt, mert a problémát elméleti érdekességből gyakorlati biztonsági kockázattá emelte. A hangsúly azonban még mindig a modell technikai, algoritmikus gyengeségein volt.

A fókusz eltolódása a korai szakaszok között
Jellemző Akadémiai fázis (2018 előtt) Adversarial ML fázis (2018-2022)
Fő cél A modellek törékenységének bizonyítása Szisztematikus támadások és védekezések fejlesztése
Szereplők Akadémiai kutatók Kutatók, kiberbiztonsági szakértők, ML mérnökök
Eszközök Egyedi szkriptek, kutatási kódok Szabványosított keretrendszerek (ART, CleverHans)
Támadási felület Főleg képfelismerés (klasszifikáció) Klasszifikáció, adathalmazok, modell API-k

A generatív AI robbanása: A szociotechnikai fordulópont (2022-től)

A valódi áttörést és a modern AI Red Teaming megszületését a nagy nyelvi modellek (LLM-ek) és a generatív AI eszközök (pl. DALL-E, Midjourney, ChatGPT) elterjedése hozta el. Ez volt a legfontosabb fordulópont, mert a támadási felület drámaian megváltozott. A probléma tisztán technikairól szociotechnikaira váltott.

Már nem az volt a kérdés, hogy egy modell helyesen osztályoz-e egy képet, hanem hogy:

  • Rávehető-e káros tartalom (pl. dezinformáció, rosszindulatú kód) generálására?
  • Kihasználhatók-e a beépített biztonsági korlátozásai („jailbreaking”)?
  • Képes-e meggyőzően hazudni vagy manipulálni a felhasználót?
  • Rejtett elfogultságok (bias) alapján hoz-e döntéseket?
  • Kiszivárogtat-e érzékeny adatokat a tanító adathalmazból?

A támadások nyelvi és logikai alapúvá váltak. A prompt injection, ahol a támadó a modellnek adott utasításokba rejtett parancsokat csempész, a korszak emblematikus támadási vektorává vált. A Red Teaming itt már nem csak matematikai optimalizálást jelentett, hanem kreativitást, pszichológiát és a rendszer kontextuális megértését is.

A formalizálódás és intézményesülés (2023-tól)

A generatív AI által jelentett új kihívásokra válaszul a terület gyors intézményesülésnek indult. A nagy technológiai cégek (Google, Microsoft, OpenAI) belső AI Red Team csapatokat hoztak létre. A kormányzatok és szabályozó szervek is felismerték a kockázatokat.

Két kiemelkedő mérföldkő ebben az időszakban:

  1. A Fehér Ház és a nagy AI cégek önkéntes vállalásai (2023): A vezető AI fejlesztők vállalták, hogy modelljeiket kiadás előtt külső és belső Red Teaming vizsgálatoknak vetik alá. Ez de facto iparági szabvánnyá emelte a gyakorlatot.
  2. DEF CON 31 – Generative AI Red Teaming esemény (2023): A világ legnagyobb hacker konferenciáján több ezer ember tesztelte a vezető AI modelleket nyilvánosan, egy strukturált esemény keretében. Ez jelezte, hogy az AI Red Teaming a nyílt biztonsági közösség fontos részévé vált.

Ezek az események cementálták be az AI Red Teaming helyét mint önálló, kritikus fontosságú diszciplínát, amely a technikai sebezhetőségek feltárásától a komplex társadalmi hatások elemzéséig terjed.

~2014-2018 Akadémiai Fázis (Adversarial Examples) ~2018-2022 Adversarial ML Kora (Keretrendszerek) 2022 Generatív AI Fordulópont (LLM-ek megjelenése) 2023+ Formalizálódás (DEF CON, Szabályozás)

Láthatod tehát, hogy az út hosszú és kanyargós volt. Az elméleti, matematikai alapú támadásoktól eljutottunk a komplex, nyelvi és pszichológiai manipulációt igénylő Red Teamingig. Ez a fejlődés nem áll meg; ahogy az AI képességei bővülnek, úgy fognak változni és fejlődni a tesztelésükhöz szükséges módszerek is.