Míg a klasszikus kiberbiztonsági CTF-ek gyakran egyértelmű „zászlók” megszerzésére épülnek, az AI Red Teaming versenyek világa sokkal árnyaltabb. Itt a cél nem feltétlenül egy rejtett string megtalálása, hanem egy modell viselkedésének manipulatív befolyásolása, rejtett képességeinek feltárása vagy éppen a biztonsági szűrőinek kijátszása. Emiatt a versenyformátumok is sokszínűbbek, és mindegyik más-más képességeket és stratégiákat helyez előtérbe.
Támadás-központú (Attack-Only)
Ez a legelterjedtebb és legegyszerűbben szervezhető formátum. A résztvevők vagy csapatok egy vagy több célpontként megadott AI modellt kapnak, és a feladatuk, hogy egy adott időkereten belül minél több sebezhetőséget találjanak és használjanak ki. A pontozás általában a sikeresen végrehajtott támadások típusa és súlyossága alapján történik.
- Cél: A modell korlátainak áttörése, például jailbreak, prompt injection, káros tartalom generálása vagy adatvédelmi szivárgás előidézése.
- Előnyök: Könnyen érthető, alacsony szervezési komplexitás, a versenyzők teljes mértékben az offenzív technikákra koncentrálhatnak.
- Hátrányok: Előfordulhat, hogy a verseny a „leggyorsabban megtalálható” hibákra fókuszál (low-hanging fruit), és nem ösztönöz a mélyebb, összetettebb sebezhetőségek feltárására. A védekezési szempontok teljesen hiányoznak.
Támadó-Védő (Attack-Defense)
Ez a formátum a hagyományos kiberbiztonsági versenyekből ered, de az AI világára adaptálva. A csapatok nemcsak támadnak, hanem egy saját (vagy számukra kiosztott) modellpéldányt is védeniük kell a többi csapat támadásaitól. A pontozás a sikeres támadások és a sikeres védekezések (a saját modell rendelkezésre állása, integritása) egyensúlyán alapul.
- Cél: Dinamikus egyensúly a támadási technikák alkalmazása és a valós idejű védekezési stratégiák (pl. prompt szűrés, modell finomhangolás, naplóelemzés) kidolgozása között.
- Előnyök: Rendkívül valósághű, hiszen a valóságban is folyamatos a küzdelem a támadók és a védők között. Fejleszti a reaktív és proaktív védekezési képességeket is.
- Hátrányok: Szervezési szempontból jóval bonyolultabb. Igényel egy robusztus infrastruktúrát, amely képes kezelni a párhuzamos támadásokat és a védelmi intézkedéseket. A pontozási rendszer kidolgozása is kihívást jelenthet.
Bug Bounty stílusú (Folyamatos felfedezés)
Ahelyett, hogy egy szűk időablakban zajlana a verseny, a Bug Bounty formátum egy hosszabb időszakot ölel fel. A résztvevők folyamatosan küldhetik be a talált hibákat, sebezhetőségeket. A hangsúly itt nem a sebességen, hanem a minőségen és a részletes dokumentáción van. A pontokat (vagy díjakat) a beküldött riportok minősége, a sebezhetőség újszerűsége és potenciális hatása alapján ítélik oda.
- Cél: Mélyreható, jól dokumentált sebezhetőségek feltárása, amelyek valós javítási javaslatokat is tartalmaznak.
- Előnyök: Magas minőségű, részletes eredményeket produkál. Lehetőséget ad a komplexebb, több lépésből álló támadási láncok kidolgozására is. Közelebb áll a valós ipari gyakorlathoz.
- Hátrányok: Kevésbé pörgős, mint egy élő verseny. Az értékelés szubjektívebb lehet, és komoly szakértelmet igényel a szervezők részéről a beadványok elbírálása.
Forgatókönyv-alapú (Scenario-Based)
Ez a formátum egy konkrét, életszerű forgatókönyvet vázol fel a versenyzők számára. A cél nem csupán egy általános sebezhetőség megtalálása, hanem egy specifikus, rosszindulatú cél elérése. Például: „Szerezz meg bizalmas felhasználói adatokat a chatbotból!” vagy „Manipuláld a képfelismerő modellt, hogy egy stoptáblát sebességkorlátozó táblának nézzen!”.
- Cél: Konkrét, üzleti vagy biztonsági szempontból releváns kockázatok demonstrálása. A kreativitás és a célirányos problémamegoldás tesztelése.
- Előnyök: Nagyon gyakorlatias, és kézzelfogható eredményeket produkál, amelyek könnyen kommunikálhatók a döntéshozók felé is. Elősegíti a több lépésből álló, kifinomult támadások kidolgozását.
- Hátrányok: A forgatókönyvek és a kiértékelési környezet kidolgozása rendkívül erőforrás-igényes lehet. Nehéz lehet objektíven pontozni a különböző kreatív megoldásokat.
A formátumok gyors összehasonlítása
| Formátum | Fő cél | Előnyök | Hátrányok |
|---|---|---|---|
| Támadás-központú | Minél több sebezhetőség gyors megtalálása. | Egyszerű szervezés, tiszta fókusz a támadáson. | A mélyebb hibák rejtve maradhatnak, hiányzik a védekezés. |
| Támadó-Védő | Támadási és védekezési képességek dinamikus tesztelése. | Valósághű, teljes körű képességeket fejleszt. | Komplex szervezés és infrastruktúra, nehéz pontozás. |
| Bug Bounty | Magas minőségű, jól dokumentált hibák feltárása. | Mélyreható elemzést ösztönöz, iparági gyakorlathoz közelít. | Lassabb tempó, szubjektívebb értékelés. |
| Forgatókönyv-alapú | Konkrét, rosszindulatú cél elérése egy realisztikus szcenárióban. | Gyakorlatias, üzletileg releváns eredmények. | Erőforrás-igényes kidolgozás, nehézkes objektív pontozás. |
A gyakorlatban gyakran hibrid modellekkel is találkozhatsz, ahol a szervezők a különböző formátumok elemeit vegyítik. Egy verseny lehet például alapvetően támadás-központú, de külön pontokat vagy díjakat lehet szerezni egy-egy előre definiált, forgatókönyv-alapú kihívás teljesítésével. A megfelelő formátum kiválasztása szorosan összefügg azzal, hogy mit tekintünk sikernek – a pontozás és az értékelés módszertana éppen ezért kritikus fontosságú eleme minden versenynek.