3.1.1 Célkitűzés és hatókör meghatározás

2025.10.06.
AI Biztonság Blog

Egy Red Team műveletet precíz célok és szigorú határok nélkül elindítani olyan, mintha térkép és iránytű nélkül vágnál neki egy ismeretlen dzsungelnek. Lehet, hogy találsz valami érdekeset, de sokkal valószínűbb, hogy eltévedsz, feleslegesen pazarolod az erőforrásaidat, vagy ami még rosszabb, olyan területre tévedsz, ahol komoly károkat okozhatsz. Az AI Red Teaming esetében a tét még nagyobb: egy rosszul definiált hatókör nemcsak a projekt kudarcához, hanem jogi következményekhez vagy a termelési rendszerek véletlen megbénításához is vezethet!

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Ez a fejezet nem egy unalmas adminisztratív lépésről szól. Ez a stratégiai alapvetés, amelyre minden további tevékenység épül. A sikeres művelet alapköve a kristálytiszta célkitűzés és a kőbe vésett hatókör. Itt dől el, hogy egy fókuszált, értéket teremtő támadásszimulációt vagy csak egy kaotikus, céltalan kapkodást fogsz-e levezényelni.

A Célkitűzés: A „Miért?” Megfogalmazása

Mielőtt egyetlen promptot is elküldenénk, fel kell tennünk a legfontosabb kérdést: Miért csináljuk ezt? A válasz soha nem lehet annyi, hogy „keressünk sebezhetőségeket”. Ez túl tág, és nem ad valódi irányt. A jó célkitűzés üzleti kontextusba helyezi a technikai munkát, és egy konkrét, mérhető eredményt vizionál.

Gondolj a célkitűzésre úgy, mint egy küldetésleírásra. Pontosan megmondja, mit kell elérni, és miért fontos az a szervezet számára. Összhangban kell lennie a termékfejlesztési ciklussal, a megfelelőségi követelményekkel vagy egy konkrét, azonosított kockázattal.

Célkitűzések összehasonlítása
Gyenge Célkitűzés Erős, Specifikus Célkitűzés
„Teszteljük az új chatbot biztonságát.” „Azonosítsuk a ‘LoveCustomerBot v3.1’ modellben azokat a prompt injekciós támadási vektorokat, amelyek lehetővé teszik a belső tudásbázis (RAG) védett dokumentumaihoz való jogosulatlan hozzáférést a Q4-es élesítés előtt.”
„Nézzük meg, mit tud a modell.” „Értékeljük a modell ellenálló képességét a többnyelvű jailbreak technikákkal szemben, fókuszálva a gyűlöletbeszéd és dezinformáció generálására vonatkozó biztonsági korlátozások megkerülésére.”
„Keressünk hibákat az AI-ban.” „Validáljuk a bemeneti és kimeneti szűrők hatékonyságát a PII (személyes azonosításra alkalmas adatok) kiszivárogtatásának megakadályozásában, szimulálva egy rosszindulatú, belső tudással rendelkező felhasználó tevékenységét.”

Láthatod, a különbség óriási. Egy erős célkitűzés már önmagában is kijelöli a támadási felület egy részét, és segít a priorizálásban, amiről a későbbi fejezetekben még részletesen lesz szó.

A Hatókör: A Játszótér Kijelölése

Ha a célkitűzés a „miért„, akkor a hatókör a „hol”, „mit” és „hogyan”. Ez a dokumentum húzza meg a vörös vonalakat, amelyeket semmilyen körülmények között nem léphetünk át. A hatókör meghatározása egyaránt véd téged, a csapatodat és a szervezetet is.

Technikai Hatókör (A „Hol” és a „Mit”)

Ez a legkézzelfoghatóbb része a definíciónak. Itt kell tűpontosan felsorolni, hogy mely rendszerek, modellek, API-k és adathalmazok képezik a tesztelés tárgyát.

  • Modellek: Melyik modell(ek) és melyik verzió(k)? (pl. gpt-4.1, vagy egy belső, finomhangolt Meta-Llama-3-70B-Instruct)
  • Végpontok (Endpoints): Mely API végpontokat támadhatjuk? (pl. /api/v2/chat/completions, /api/v1/summarize_text)
  • Infrastruktúra: A modell mellett mely komponensek tartoznak a hatókörbe? (pl. a RAG rendszer vektor adatbázisa, a promptokat előfeldolgozó szolgáltatás, a biztonsági szűrőréteg)
  • Explicit kizárások: Mi az, amihez kifejezetten tilos hozzányúlni? Ez a legkritikusabb rész! (pl. a felhőszolgáltató IAM jogosultságai, a központi felhasználói adatbázis, a termelési rendszerek terheléselosztója).
HATÓKÖRBEN (IN SCOPE) – LLM API Végpont (/chat) – Biztonsági Szűrő Modul – Prompt Template Logika – RAG Vektor Adatbázis (csak olvasás) – Teszt Környezet (sandbox) HATÓKÖRÖN KÍVÜL – Felhő Infrastruktúra – IAM Szerepkörök HATÓKÖRÖN KÍVÜL – Vállalati SSO – Produkciós Adatbázis Ai Red Team
1. ábra: Egy AI Red Team művelet technikai hatókörének vizuális ábrázolása. A tiszta határok megakadályozzák a kritikus, hatókörön kívüli rendszerek véletlen érintését!

Módszertani Hatókör (A „Hogyan”)

Itt definiáljuk a játékszabályokat, vagyis a Rules of Engagement (RoE) dokumentum legfontosabb pontjait.

  • Engedélyezett technikák: Milyen típusú támadásokat hajthatunk végre? (pl. Prompt Injection, Jailbreaking, Adatmanipuláció, Modellmérgezés szimulációja).
  • Tiltott technikák: Van, amit kifejezetten nem szabad? A leggyakoribb a szolgáltatásmegtagadási (Denial of Service, DoS) támadások tiltása, mivel ezek nem nyújtanak értékes információt, viszont valódi kárt okoznak.
  • Időbeli korlátok: A tesztelés végezhető a nap 24 órájában, vagy csak munkaidőn kívül, egy előre meghatározott időablakban?
  • Eszkaláció: Mi a teendő, ha egy kritikus sebezhetőséget találunk, vagy ha véletlenül mégis hatókörön kívüli rendszert érintünk? Ki az aznapi kapcsolattartó (Point of Contact, PoC), akit azonnal értesíteni kell?

A „Scope Creep” Veszélye és Kezelése

A „scope creep” (a hatókör kúszó bővülése) a projektek csendes gyilkosa. Az AI Red Teaming során ez a jelenség különösen veszélyes. Egy izgalmasnak tűnő, de hatókörön kívüli támadási vektor felfedezése csábító, de az engedély nélküli vizsgálata súlyos következményekkel járhat.

Hogyan védekezz ellene?

  1. Írásos megállapodás: A hatókört tartalmazó dokumentumot minden érintett félnek (Red Team, Blue Team, rendszergazdák, vezetőség) el kell fogadnia és alá kell írnia a művelet kezdete előtt.
  2. Változáskezelési folyamat: Ha a művelet során felmerül az igény a hatókör bővítésére, legyen egy előre definiált folyamat ennek kezelésére. Ez általában magában foglalja a munka szüneteltetését, a javaslat benyújtását és az írásos jóváhagyás megszerzését.
  3. Rendszeres kommunikáció: Tarts rendszeres (akár napi) rövid megbeszéléseket a megbízóval a haladásról és az esetlegesen felmerülő kérdésekről. Ez segít elkerülni a félreértéseket.

Példa: Egy Hatókör Dokumentum Vázlata

A gyakorlatban a célkitűzést és a hatókört egyetlen, hivatalos dokumentum foglalja össze. Ennek szerkezete jellemzően a következő elemeket tartalmazza:

Projekt „Kronos” – Red Team Műveleti Terv (v1.0)

1. Célkitűzés: A „Kronos” idősor-előrejelző modell (verzió: 2.4-beta) sebezhetőségének felmérése az adatpont-manipulációs támadásokkal szemben, amelyek célja a modell kimenetének szándékos torzítása a pénzügyi negyedév zárása előtt.

2. Technikai Hatókör (In-Scope):

  • API végpont: https://api.test.example.com/kronos/v2/predict
  • Modell verzió: kronos-ts-2.4-beta
  • Adatbázis: A teszt környezetben lévő, szintetikus adatokat tartalmazó idősor-adatbázis (kronos-db-test.rds.internal).

3. Hatókörön Kívül (Out-of-Scope):

  • Minden más *.example.com aldomain és szolgáltatás.
  • A produkciós adatbázis és API.
  • A modell betanítási folyamata és infrastruktúrája.
  • Fizikai vagy social engineering támadások.

4. Engedélyezett Módszertanok:

  • Bemeneti adatok manipulációja (Adversarial examples).
  • A modell paramétereinek lekérdezésére irányuló kísérletek (Model inversion).
  • A rendszer válaszaiból történő adatkinyerés (Inference attacks).

5. Korlátozások és Szabályok:

  • DoS és Brute force támadások szigorúan tilosak.
  • A tesztelés kizárólag 22:00 és 06:00 (CET) között végezhető.
  • Maximális API hívásszám: 10 kérés/másodperc.

6. Eszkalációs Kontaktok:

  • Elsődleges: Jane Doe (Biztonsági Elemző), +36 30 1234 56789
  • Másodlagos: John Smith (DevOps Vezető), +36 70 9876 54321

A gondosan elkészített terv a legjobb barátod. Nemcsak a művelet sikerét garantálja, hanem a te szakmai hitelességedet és a csapatod biztonságát is. Miután tisztáztuk, hogy mit és miért támadunk, a következő logikus lépés, hogy átgondoljuk, milyen fenyegetésekkel kell szembenéznünk. Ez vezet át minket a fenyegetésmodellezés világába.