28.3.2. Red Team verseny formátumok

2025.10.06.
AI Biztonság Blog

Míg a klasszikus kiberbiztonsági CTF-ek gyakran egyértelmű „zászlók” megszerzésére épülnek, az AI Red Teaming versenyek világa sokkal árnyaltabb. Itt a cél nem feltétlenül egy rejtett string megtalálása, hanem egy modell viselkedésének manipulatív befolyásolása, rejtett képességeinek feltárása vagy éppen a biztonsági szűrőinek kijátszása. Emiatt a versenyformátumok is sokszínűbbek, és mindegyik más-más képességeket és stratégiákat helyez előtérbe.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Támadás-központú (Attack-Only)

Ez a legelterjedtebb és legegyszerűbben szervezhető formátum. A résztvevők vagy csapatok egy vagy több célpontként megadott AI modellt kapnak, és a feladatuk, hogy egy adott időkereten belül minél több sebezhetőséget találjanak és használjanak ki. A pontozás általában a sikeresen végrehajtott támadások típusa és súlyossága alapján történik.

  • Cél: A modell korlátainak áttörése, például jailbreak, prompt injection, káros tartalom generálása vagy adatvédelmi szivárgás előidézése.
  • Előnyök: Könnyen érthető, alacsony szervezési komplexitás, a versenyzők teljes mértékben az offenzív technikákra koncentrálhatnak.
  • Hátrányok: Előfordulhat, hogy a verseny a „leggyorsabban megtalálható” hibákra fókuszál (low-hanging fruit), és nem ösztönöz a mélyebb, összetettebb sebezhetőségek feltárására. A védekezési szempontok teljesen hiányoznak.

Támadó-Védő (Attack-Defense)

Ez a formátum a hagyományos kiberbiztonsági versenyekből ered, de az AI világára adaptálva. A csapatok nemcsak támadnak, hanem egy saját (vagy számukra kiosztott) modellpéldányt is védeniük kell a többi csapat támadásaitól. A pontozás a sikeres támadások és a sikeres védekezések (a saját modell rendelkezésre állása, integritása) egyensúlyán alapul.

  • Cél: Dinamikus egyensúly a támadási technikák alkalmazása és a valós idejű védekezési stratégiák (pl. prompt szűrés, modell finomhangolás, naplóelemzés) kidolgozása között.
  • Előnyök: Rendkívül valósághű, hiszen a valóságban is folyamatos a küzdelem a támadók és a védők között. Fejleszti a reaktív és proaktív védekezési képességeket is.
  • Hátrányok: Szervezési szempontból jóval bonyolultabb. Igényel egy robusztus infrastruktúrát, amely képes kezelni a párhuzamos támadásokat és a védelmi intézkedéseket. A pontozási rendszer kidolgozása is kihívást jelenthet.

Bug Bounty stílusú (Folyamatos felfedezés)

Ahelyett, hogy egy szűk időablakban zajlana a verseny, a Bug Bounty formátum egy hosszabb időszakot ölel fel. A résztvevők folyamatosan küldhetik be a talált hibákat, sebezhetőségeket. A hangsúly itt nem a sebességen, hanem a minőségen és a részletes dokumentáción van. A pontokat (vagy díjakat) a beküldött riportok minősége, a sebezhetőség újszerűsége és potenciális hatása alapján ítélik oda.

  • Cél: Mélyreható, jól dokumentált sebezhetőségek feltárása, amelyek valós javítási javaslatokat is tartalmaznak.
  • Előnyök: Magas minőségű, részletes eredményeket produkál. Lehetőséget ad a komplexebb, több lépésből álló támadási láncok kidolgozására is. Közelebb áll a valós ipari gyakorlathoz.
  • Hátrányok: Kevésbé pörgős, mint egy élő verseny. Az értékelés szubjektívebb lehet, és komoly szakértelmet igényel a szervezők részéről a beadványok elbírálása.

Forgatókönyv-alapú (Scenario-Based)

Ez a formátum egy konkrét, életszerű forgatókönyvet vázol fel a versenyzők számára. A cél nem csupán egy általános sebezhetőség megtalálása, hanem egy specifikus, rosszindulatú cél elérése. Például: „Szerezz meg bizalmas felhasználói adatokat a chatbotból!” vagy „Manipuláld a képfelismerő modellt, hogy egy stoptáblát sebességkorlátozó táblának nézzen!”.

  • Cél: Konkrét, üzleti vagy biztonsági szempontból releváns kockázatok demonstrálása. A kreativitás és a célirányos problémamegoldás tesztelése.
  • Előnyök: Nagyon gyakorlatias, és kézzelfogható eredményeket produkál, amelyek könnyen kommunikálhatók a döntéshozók felé is. Elősegíti a több lépésből álló, kifinomult támadások kidolgozását.
  • Hátrányok: A forgatókönyvek és a kiértékelési környezet kidolgozása rendkívül erőforrás-igényes lehet. Nehéz lehet objektíven pontozni a különböző kreatív megoldásokat.

A formátumok gyors összehasonlítása

1. táblázat: Az AI Red Team versenyformátumok összehasonlítása
Formátum Fő cél Előnyök Hátrányok
Támadás-központú Minél több sebezhetőség gyors megtalálása. Egyszerű szervezés, tiszta fókusz a támadáson. A mélyebb hibák rejtve maradhatnak, hiányzik a védekezés.
Támadó-Védő Támadási és védekezési képességek dinamikus tesztelése. Valósághű, teljes körű képességeket fejleszt. Komplex szervezés és infrastruktúra, nehéz pontozás.
Bug Bounty Magas minőségű, jól dokumentált hibák feltárása. Mélyreható elemzést ösztönöz, iparági gyakorlathoz közelít. Lassabb tempó, szubjektívebb értékelés.
Forgatókönyv-alapú Konkrét, rosszindulatú cél elérése egy realisztikus szcenárióban. Gyakorlatias, üzletileg releváns eredmények. Erőforrás-igényes kidolgozás, nehézkes objektív pontozás.

A gyakorlatban gyakran hibrid modellekkel is találkozhatsz, ahol a szervezők a különböző formátumok elemeit vegyítik. Egy verseny lehet például alapvetően támadás-központú, de külön pontokat vagy díjakat lehet szerezni egy-egy előre definiált, forgatókönyv-alapú kihívás teljesítésével. A megfelelő formátum kiválasztása szorosan összefügg azzal, hogy mit tekintünk sikernek – a pontozás és az értékelés módszertana éppen ezért kritikus fontosságú eleme minden versenynek.